AWSを使用するWordPressウェブサイト、つまりCloudfrontサービスを使用して、クラウドからCSS、画像、JSを提供しています。
最近、ボットからの多くのヒットに気づきました:
Goeipはそれらをアメリカのアッシュバーンまでたどります。 https://www.google.com/ から来る私のウェブサイトのすべてのRSSフィード(投稿、カテゴリ)を、ほぼ毎分クロールします。
ユーザーエージェントは少しランダムです:
Browser: undefined
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9a3pre) Gecko/20070330
または :
Browser: Chrome version 0.0 running on MacOSX
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1309.0 Safari/537.17
または :
Browser: undefined
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.13; ) Gecko/20101203
彼らが望むものをどうやって見つけることができますか? Cloudfrontのキャッシュ生成に関連していますか?
過去9日間で、ホスティングの帯域幅の半分以上が身元不明のボットによって消費されていたのだろうか。
これらは、Cloudfrontとは関係なく、EC2インスタンスで実行されているボット/クローラーのように見えます。 AWSは、Cloudfrontが使用するIP範囲のリストをここで公開しています: https://docs.aws.Amazon.com/AmazonCloudFront/latest/DeveloperGuide/LocationsOfEdgeServers.html
彼らはおそらくコンテンツやメールアドレスを収集し、脆弱なアプリを探している、コメントスパムを投稿できるコメントフォームを開いている、またはあなたの利益にならない何かをしているでしょう。悲しいことに、多くのトラフィックがこのようなボットから来ることは珍しくありません。
インスタンスまたはELBのセキュリティグループでこれらのIPアドレスをブロックすることができます。それらのIPがクラウドフロント経由ではなく、Originサーバーにヒットし、クラウドフロントを使用してそれらのサーバーにアクセスする場合、クラウドフロントIP以外をすべてブロックするこのようなものを使用することを検討できます https://github.com/ awslabs/aws-cloudfront-samples/tree/master/update_security_groups_lambda