私はWebクロールが初めてで、クローラーをテストしています。私はさまざまなサイトでテストを行っています。テスト中にrobots.txtファイルを忘れてしまいました。
Robots.txtファイルをフォローしないとどうなるか、そしてクロールを安全に行う方法は何ですか?
Robot Exclusion Standardは純粋に助言であり、それに従うかどうかは完全にあなた次第です。何かをしていなければ、それを無視することを選択しても何も起こらない可能性があります。
そうは言っても、私がサポートするさまざまなWebサイトでクローラーを捕まえるとnot robot.txtを尊重しているので、問題があるかどうかに関係なく、私はそれらをブロックするために自分の道を離れます。正当なクローラーでも、クロールを処理するように設計されていないリソースへのリクエストが多すぎてサイトが停止する可能性があります。robots.txtを完全に尊重するようにクローラーを再検討して調整することを強くお勧めします。
ほとんどのサイトには影響がありません
ただし、一部のサイトにはクローラートラップがあり、通常のユーザーにはリンクが非表示になっていますが、クローラーにははっきりと表示されています。
これらのトラップは、クローラーをIPブロックするか、クローラーを阻止するために実際に何でも実行できます。
私が知っている法的な影響はありません。クロールしないように指示したページをクロールすることにウェブマスターが気づいた場合、ウェブマスターはmightに連絡して、IPアドレスへのアクセスを停止するかブロックするように指示しますが、これはまれなケースです。いつか法的制裁を追加する新しい法律が作成される可能性がありますが、これが非常に大きな要因になるとは思いません。これまでのところ、インターネットの文化は、議員に介入するよう依頼するのではなく、「大まかなコンセンサスとコードの実行」で物事を解決する技術的な方法を好んで使用していました。any法が非常にうまく機能するかどうかも疑問ですIP接続の国際的な性質。
(実際、私の国では、オンラインニュースのスニペットを再公開するためにGoogleをターゲットにした新しい法律を作成中です。新聞はrobots.txt
、しかしそれは彼らが望んでいることではありません-彼らはwantがクロールされることを望んでいます、それはページヒットと広告お金をもたらすので、彼らはゴーグルに彼らに印税を支払うことを望んでいるだけです!ですから、時には深刻な金儲け企業がnotをクロールするよりもクロールすることに腹を立てていることがわかります。)