compute-1.amazonaws.comからボットヒットが発生するのはなぜですか？

Question

AWSを使用するWordPressウェブサイト、つまりCloudfrontサービスを使用して、クラウドからCSS、画像、JSを提供しています。

最近、ボットからの多くのヒットに気づきました：

IP：54.236.71.87ホスト名：ec2-54-236-71-87.compute-1.amazonaws.com
IP：54.147.229.75ホスト名：ec2-54-147-229-75.compute-1.amazonaws.com
IP：34.207.96.105ホスト名：ec2-34-207-96-105.compute-1.amazonaws.com
IP：52.202.239.36ホスト名：ec2-52-202-239-36.compute-1.amazonaws.com
IP：34.203.222.34ホスト名：ec2-34-203-222-34.compute-1.amazonaws.com
...

Goeipはそれらをアメリカのアッシュバーンまでたどります。 https://www.google.com/ から来る私のウェブサイトのすべてのRSSフィード（投稿、カテゴリ）を、ほぼ毎分クロールします。

ユーザーエージェントは少しランダムです：

Browser: undefined Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9a3pre) Gecko/20070330

または：

Browser: Chrome version 0.0 running on MacOSX Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1309.0 Safari/537.17

または：

Browser: undefined Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.13; ) Gecko/20101203

彼らが望むものをどうやって見つけることができますか？ Cloudfrontのキャッシュ生成に関連していますか？

過去9日間で、ホスティングの帯域幅の半分以上が身元不明のボットによって消費されていたのだろうか。

Jonathon Sim · Accepted Answer

これらは、Cloudfrontとは関係なく、EC2インスタンスで実行されているボット/クローラーのように見えます。 AWSは、Cloudfrontが使用するIP範囲のリストをここで公開しています： https://docs.aws.Amazon.com/AmazonCloudFront/latest/DeveloperGuide/LocationsOfEdgeServers.html

彼らはおそらくコンテンツやメールアドレスを収集し、脆弱なアプリを探している、コメントスパムを投稿できるコメントフォームを開いている、またはあなたの利益にならない何かをしているでしょう。悲しいことに、多くのトラフィックがこのようなボットから来ることは珍しくありません。

インスタンスまたはELBのセキュリティグループでこれらのIPアドレスをブロックすることができます。それらのIPがクラウドフロント経由ではなく、Originサーバーにヒットし、クラウドフロントを使用してそれらのサーバーにアクセスする場合、クラウドフロントIP以外をすべてブロックするこのようなものを使用することを検討できます https://github.com/ awslabs/aws-cloudfront-samples/tree/master/update_security_groups_lambda