Curlを使用してGoogleから結果を取得し、潜在的な重複コンテンツを検出したいと思います。 Googleによって禁止されるリスクは高いですか?
一定のリクエスト数を超えると、Googleは最終的にIPをブロックします。
Googleは、TOSでの自動アクセスを禁止しているため、利用規約に同意した場合、違反することになります。
そうは言っても、スクレイパーに対するGoogleからの訴訟はありません。 MicrosoftでさえGoogleをスクレイピングしたが、彼らは検索エンジンBingにそれを搭載した。 彼らは2011年の赤利きで捕まった :)
Googleの結果を取得するための2つのオプションがあります:
1)APIを使用する
1時間あたり約40のリクエストを発行できます。彼らが提供するものに限定されます。ランキングの位置や実際のユーザーに表示されるものを追跡する場合、それはあまり役に立ちません。それはあなたが収集することを許可されていないものです。
より多くのAPIリクエストが必要な場合は、支払う必要があります。
2)通常の結果ページをスクレイプする
3)あるいは、スクレイピングサービスを使用する(更新済み)
Googleは世界のウェブサイトをスクレイピングすることで繁栄しています...それが「非常に違法」だった場合、Googleでさえ生き残ることはできません..もちろん、他の答えはGoogleによるIPブロックを緩和する方法に言及しています。キャプチャを回避するためのもう1つの方法は、ランダムにスクレイピングすることです(ちょっと試してみてください)..さらに、データの新規性または重要な処理を提供する場合、少なくとも私には問題ないように感じます...単純にウェブサイトをコピーしている、または何らかの方法でそのビジネス/ブランドを妨害している...それは悪いことであり、避けるべきです...何よりも...あなたがスタートアップの場合、誰もあなたと戦うことはありませんメリットはありません。しかし、資金を調達しても前提が完全にスクレイピングの場合は、より洗練された方法を検討する必要があります...代替API。すぐにスクラップしたい場合は、新しいGoogle APIリリースのロードマップに含めることができます。