web-dev-qa-db-ja.com

ウェブサイトはメールボットの標的にされています

小さなウェブサイトがあります。 netstatを実行すると、.p.mailからの大量のトラフィックが表示されます。

これはある種のメールボットであり、私のウェブサイトからメールアドレスを収集しようとしていると思います。どうすればこれを防ぐことができますか?

tcp        0     64 128.199.152.125:ssh     254.96.96.58.stat:49174 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-7.p.mail:52455 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    crawl-66-249-71-7:39927 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-5.p.mail:48034 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:38781 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:49137 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:46906  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:49102 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-4.p.mail:60833 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:58404 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:38515 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    crawl-66-249-71-9:65419 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-4.p.mail:39761 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-3.p.mail:46664 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:57961 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:58029 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:53075 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:47363  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-4.p.mail:52394 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:54476  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9.mail.ru:36110  CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:55155 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-7.p.mail:59306 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:36667 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-5.p.mail:51968 ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-4.p.mail:41478 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:60032 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:44335 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:57922 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:59718 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-3.p.mail:47470 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:59941 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:54604 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9.mail.ru:48307  ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:47410 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:52740 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9.mail.ru:48957  ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:55988 ESTABLISHED
tcp6       0      0 128.199.152.125:http    fetcher9-6.p.mail:45431 ESTABLISHED
tcp6       0      0 128.199.152.125:http    crawl-66-249-71-1:54299 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:44075 CLOSE_WAIT
tcp6       0      0 128.199.152.125:http    fetcher9-7.p.mail:51332 ESTABLISHED
tcp6       1      0 128.199.152.125:http    fetcher9-6.p.mail:40081 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-2.p.mail:47806 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-5.p.mail:40396 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    baiduspider-180-7:53078 CLOSE_WAIT
tcp6       1      0 128.199.152.125:http    fetcher9-1.p.mail:46357 CLOSE_WAIT
3
Inktown

大丈夫です議論する人もいるかもしれませんが、これは悪いボットではありません。私は研究の一環としてこれらのことを研究しており、mail.ruから多くのアクティビティを行っていますが、迅速な検索を行う悪いボットのアクティビティはありません。

Mail.ruは検索エンジンを操作します。

これは、検索エンジン用のWebクローラーです。エージェント文字列で参照されるページは http://go.mail.ru/help/robots であり、ブラウザで翻訳する必要があります。これはそれが言うことです:

クローラーまたはクモ(クモ、クローラー、ボット)-インターネットurlamを「歩いて」、その後のインデックス作成のためにそれらをダウンロードするプログラム。ドキュメントロボットをダウンロードした後、それを分析し、タイプ、エンコード、言語を決定し、ページからリンクを追加して、さらにobkachkiを実行します。定期的に、ロボットは以前にアクセスしたページに戻り、関連性を確認します。

インターネット全体をインデックス化するメインロボットに加えて、ダウンロードイメージ、ビデオ、ニュース、rssなどのダウンロードに特化しています。したがって、検索インデックス内の特定の種類のドキュメントの浸透を加速できます。

ユーザーエージェントをブロックできます。彼らのページから:

ディレクティブは、サイトの一部またはサイト全体のロボットダウンロードを無効にするために使用されます。この行の値は、部分的なURLです。例:

User-agent: Mail.RU_Bot 
Disallow: / # is blocking access to the entire site 

User-agent: Mail.Ru 
Disallow: / search # blocks access to pages starting with '/ search', /search.html, / search / something, etc.
                  # To access other sections of the site open 
User-agent: * 
Disallow: # allowed access to the entire site, 
                  # Is equivalent to the absence of robots.txt

以下を使用して、サイト全体からロボットをブロックできる必要があります。

User-agent: Mail.Ru
Disallow: /

ロシアの交通を望まない場合、これはブロックしても大丈夫です。それ以外の場合、mail.ruはrobots.txtに従うと言われ、データベースのクイックチェックを行っても問題は見られません。それは行儀が良いようです。

Mail.ruがrobots.txtファイルを読み取り、変更に気付くまでに数日かかる可能性があります。

プッシュが突き出てくると、アクセスをブロックするために常に.htaccess(Apacheを想定)を使用できます。

RewriteCond %{REMOTE_Host} ^.*\.mail\.ru$ [NC,OR]
RewriteCond %{REMOTE_ADDR} ^5\.61\.(2*3*[2-9]*)\.([0-2]*[0-5]*[0-5]*)$ [NC]
RewriteRule .* - [F,L]

しかし、私はこれをあまりにも早くしません。おそらく必要ありません。

2
closetnoc

私はiptablesを使用してipsをブロックすることになりました。

ルートLinuxシェルから入力しました

iptables -A INPUT -s  217.69.133.13  -j DROP
iptables -A INPUT -s  217.69.133.12  -j DROP
iptables -A INPUT -s  217.69.133.10  -j DROP
iptables -A INPUT -s  217.69.133.11  -j DROP
iptables -A INPUT -s  217.69.133.14  -j DROP
iptables -A INPUT -s  217.69.133.15  -j DROP
iptables -A INPUT -s  217.69.133.16  -j DROP
iptables -A INPUT -s  217.69.133.17  -j DROP
iptables -A INPUT -s  217.69.133.18  -j DROP
iptables -A INPUT -s  fetcher9.mail.ru  -j DROP

そして止まった

1
Inktown