フォームを送信した後、Webサイトから一部のコンテンツをスクレイピングしています。問題は、スクリプトが時々失敗することであり、5回のうち2回は失敗すると言います。 cookieを処理するために、php curl、COOKIEFILE、COOKIEJARを使用しています。ただし、ブラウザーの送信ヘッダー(ブラウザーからターゲットWebサイトにアクセスし、ライブHTTPヘッダーを使用する場合)とphpによって送信されるヘッダーを確認し、多くの違いが見られました。
私のブラウザは、php curlよりも多くのcookie変数を送信しました。この違いは、ほとんどのCookieを設定するためにJavaScriptが使用されているためかもしれませんが、これについてはわかりません。
私はスクレイピングを行うために以下のコードを使用しており、ブラウザとphp curlの送信済みヘッダーを表示しています:
$ckfile = tempnam ("/tmp", 'cookiename');
$url = 'https://www.domain.com/firststep';
$poststring = 'variable1=4&variable2=5';
$ch = curl_init ($url);
curl_setopt ($ch, CURLOPT_COOKIEJAR, $ckfile);
curl_setopt ($ch, CURLOPT_COOKIEFILE, $ckfile);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt ($ch, CURLOPT_POST, 1);
curl_setopt ($ch, CURLOPT_POSTFIELDS, $poststring);
$output = curl_exec ($ch);
curl_close($ch);
$url = 'https://www.domain.com/NeXTSTEP';
$poststring = 'variableB1=4&variableB2=5';
$ch = curl_init ($url);
curl_setopt ($ch, CURLOPT_COOKIEJAR, $ckfile);
curl_setopt ($ch, CURLOPT_COOKIEFILE, $ckfile);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt ($ch, CURLOPT_POST, 1);
curl_setopt ($ch, CURLOPT_POSTFIELDS, $poststring);
curl_setopt($ch, CURLINFO_HEADER_OUT, true);
$output = curl_exec ($ch);
$headers = curl_getinfo($ch, CURLINFO_HEADER_OUT);
curl_close($ch);
print_r($headers);
// Gives:
POST /d-cobs-web/doffers.html;jsessionid=7BC2A5277A4EB07D9A7237A707BE1366 HTTP/1.1
User-Agent: Mozilla
Host: domain.subdomain.nl
Accept: */*
Cookie: JSESSIONID=7BC2A5277A4EB07D9A7237A707BE1366; www-20480=MIFBNLFDFAAA
Content-Length: 187
Content-Type: application/x-www-form-urlencoded
// Where live http headers gives:
POST /d-cobs-web/doffers.html;jsessionid=7BC2A5277A4EB07D9A7237A707BE1366 HTTP/1.1
Host: domain.subdomain.nl
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: nl,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Referer: https://domain.subdomain.nl/dd/doffers.html?returnUrl=https%3A%2F%2Fttcc.subdomain.nl%2Fdd%2Fpreferences.html%3FValueChanged%3Dfalse&BEGBA=&departureDate=13-06-2013&extChangeTime=&pax2=0&bp=&pax1=1&pax4=0&bk=&pax3=0&shopId=&xtpage=&partner=NSINT&bc=&xt_pc=&ov=&departureTime=&comfortClass=2&destination=DEBHF&thalysTicketless=&beneUser=&debugDOffer=&logonId=&valueChanged=&iDomesticOrigin=&rp=&returnTime=&locale=nl_NL&vu=&thePassWeekend=false&returnDate=&xtsite=&pax=A&lc2=&lc1=&lc4=&lc3=&lc6=&lc5=&BECRA=&passType2=&custId=&lc9=&iDomesticDestination=&passType1=A&lc7=&lc8=&Origin=NLASC&toporef=&pid=&passType4=&returnTimeType=1&passType3=&departureTimeType=1&socusId=&idr3=&xtn2=&loyaltyCard=&idr2=&idr1=&thePassBusiness=false&cid=14812
Content-Length: 219
Cookie: subdomainPARTNER=NSINT; JSESSIONID=CB3FEB3AC72AD61A80BFED91D3FD96CA; www-20480=MHFBNLFDFAAA; campaignPos=5; www-47873=MGFBNLFDFAAA; __utma=1.993399624.1370027094.1370040145.1370082133.5; __utmc=1; __utmz=1.1370027094.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); BCSessionID=5dc05787-c2c8-43e1-9abe-93989970b087; BCPermissionLevel=PERSONAL; __utmb=1.1.10.1370082133
Connection: keep-alive
Pragma: no-cache
Cache-Control: no-cache
AJAXREQUEST=_viewRoot&doffersForm=doffersForm&doffersForm%3AvalueChanged=&doffersForm%3ArequestValid=true&javax.faces.ViewState=j_id3&doffersForm%3Aj_id937=doffersForm%3Aj_id937&valueChanged=false&AJAX%3AEVENTS_COUNT=1&
使用したい:
$headers = array();
$headers[] = 'Cookie: ' . $cookie;
そして:
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
どこ:
$cookie = 'subdomainPARTNER=NSINT; JSESSIONID=CB3FEB3AC72AD61A80BFED91D3FD96CA; www-20480=MHFBNLFDFAAA; campaignPos=5; www-47873=MGFBNLFDFAAA; __utma=1.993399624.1370027094.1370040145.1370082133.5; __utmc=1; __utmz=1.1370027094.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); BCSessionID=5dc05787-c2c8-43e1-9abe-93989970b087; BCPermissionLevel=PERSONAL; __utmb=1.1.10.1370082133';
上記のCookieのパラメーターの一部は、すべてではありませんが、Webサイトのコンテンツから取得できる場合があります。それらのいくつかは、$ ckfileから読み取ることができるかもしれませんが、それを行う方法がわかりません。特にutma utmc、utmz、utmcsr、utmccn、utmcmdはどこからでも取得できません。これらはjavascriptによって生成されていると思います。
質問1: php curlによって送信されるcookie変数が非常に少なく、ブラウザーによってさらに送信されるので、現在のコードでcookieの処理に何か問題がありますか?さらに:ブラウザーとphp curlによって送信されたヘッダーのその他の違いは、適切なコンテンツを返すための問題になる可能性がありますか?
質問2: JavaScriptがこれらのCookieを設定しているため、Cookie変数が欠落していますか?
質問3:必要なすべてのCookieがリモートサーバーに送信されていることを確認するためにCookieを処理する最良の方法は何ですか?
あなたの助けは大歓迎です!
Cookieがスクリプトから生成された場合、ファイルからCookieとともにCookieを手動で送信できます(Cookie-Fileオプションを使用)。例えば:
# sending manually set cookie
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Cookie: test=cookie"));
# sending cookies from file
curl_setopt($ch, CURLOPT_COOKIEFILE, $ckfile);
この場合、curlは定義されたCookieをファイルからのCookieとともに送信します。
Cookieがjavascrriptを介して生成される場合、その生成方法を追跡する必要があります。その後、上記の方法(http-headerを使用)を使用して送信できます。
utma utmc, utmz
は、CookieがMozillaから送信されるときに表示されます。これらのことを心配する必要はもうありません。
最後に、あなたのやり方は大丈夫です。ファイル名に絶対パスを使用していることを確認してください(つまり、/var/dir/cookie.txt
)相対的なものの代わりに。
Curlを使用するときは、常に詳細モードを有効にしてください。これは、リクエストのトレースに役立ちます。また、多くの時間を節約できます。
curl_setopt($ch, CURLOPT_VERBOSE, true);
以下のコードを試してください、
$cookieFile = "cookies.txt";
if(!file_exists($cookieFile)) {
$fh = fopen($cookieFile, "w");
fwrite($fh, "");
fclose($fh);
}
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $apiCall);
curl_setopt($ch, CURLOPT_POST, TRUE);
curl_setopt($ch, CURLOPT_POSTFIELDS, $jsonDataEncoded);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json'));
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookieFile); // Cookie aware
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookieFile); // Cookie aware
curl_setopt($ch, CURLOPT_VERBOSE, true);
if(!curl_exec($ch)){
die('Error: "' . curl_error($ch) . '" - Code: ' . curl_errno($ch));
}
else{
$response = curl_exec($ch);
}
curl_close($ch);
$result = json_decode($response, true);
echo '<pre>';
var_dump($result);
echo'</pre>';
これがあなたのお役に立てば幸いです。
よろしく、Dasitha。
必要なCookieはJSESSIONID = xxxのみです。
また、誰かがあなたの個人データにそのようにアクセスする可能性があるため、Cookieを決して共有しないでください。特にクッキーがセッションの場合。これらのCookieは、サイトをログアウトすると機能しなくなります。