サイトは、Amazonec2でホストされている匿名ボットによってクロールされます。このロボットはrobots.txtを尊重せず、ウェブサーバーに高い負荷をかけるため、リクエストのリバースIPが「amazonaws.com」で終了するかどうかのチェックを追加しました。サーバーはすぐに403ページを返します。
これで問題は解決しましたが、他の問題を引き起こす可能性がありますか? ec2は一部の「優れた」ボットに使用される可能性があり、これによりボットのアクセスに問題が発生します。そのような問題の例を挙げていただけますか?
AmazonEC2はホスティングプラットフォームです。彼らは人々がホストするものを直接制御しません。 * .amazonaws.comドメイン全体をブロックすると、EC2を使用してホストされているサービスへのアクセスが停止します。最近はかなり多いです。
この同様の質問を確認してください。ユーザーエージェントが.htaccessファイルで直接ブロックする方法を示しています。これは、robots.txtのルールに従わないロボットに適しています...
httpd.confのユーザーエージェント文字列によるブロックは効果的ではありません
そして、それをhttpd.confファイルOR a.htaccess。
幸運を。