Googleの検索結果を含むHTMLを取得しようとしています。たとえばGETリクエストを送信すると:
https://www.google.ru/?q=1111
しかし、ブラウザですべて問題ない場合、curlで使用したり、Googleで「ソースの表示」を使用してソースを取得したりすると、JavaScriptコードのみが表示され、検索結果が表示されません。それはある種の保護ですか?私に何ができる?
答えが正しくなく、問題に応答しないため、回答にもう少しソースを追加します。
まず第一に、あなたがそれを通して彼らのサービスに害を及ぼさない限り(DoSのように)、Googleをこすることは完全に合法です。
また、メソッドはブロックされていませんが、それほど単純ではありません。
速度はメソッドによって異なりますが、非常に遅い必要はありません。
必要に応じて、1分間で1万件のキーワードページをこすることができます。
ここのトピックに対するより良い答えが見つかります: Googleの結果からデータをスクレイピングしても大丈夫ですか?
カールの問題は確かに保護によるものであり、Googleは自動アクセスを許可せず、非常に洗練された検出アルゴリズムのセットを備えています。
それらは、単純なユーザーエージェントチェック(それによって直接停止したもの)から、異常なクエリや関連クエリを検出しようとする人工知能にまで及びます。