web-dev-qa-db-ja.com

外部システムでWebスクレイピングを実行しているネットワーク上のホストを検出する

最近、(外部の企業を通じて)私の内部LAN上のホストがその外部の企業のWebサーバーに対してWebスクレイピングアクティビティを実行している可能性があることに気付きました。この活動のために、外部の企業がホストするany Webサーバーへのアクセスをブロックしました。

誰かが、外部Webサイトに対してWebスクレイピングを実行している自分の内部ネットワーク上のエンドポイントを追跡するためのツールまたは方法について何か推奨事項がありますか?最近SIEMソリューションを購入しましたが、まだオンラインになっていないため、この会社のホストに対する過度のhttpのネットフローを手動で確認する以外に選択肢はありません。言うまでもなく、もっと迅速なオプションを見つけたいと思います。

内部LANに約1200のエンドポイントがあります。

2
Zane

ちょっとしたスクリプトで手を汚さないのであれば、単純なPythonスクリプトを Scapy ライブラリを使用して作成します。このスクリプトはHTTPを監視します。外部企業のサイトへのトラフィックとIPのログ。

キャプチャファイルを確認すると、最も頻繁に発生するIPアドレスがスクレイピングの原因であるはずです。

この外部企業のサイトがLAN上のユーザーによって頻繁にアクセスされる場合、外部企業のサイトからの404エラー応答につながるリクエストを監視する必要がある場合があります。これは、スクレイピングツールがURIにアクセスしようとしている兆候となるためです。スクレイピングプロセス中には存在しません。

1
The Defalt

境界ファイアウォールで下りトラフィックログを確認します。境界ファイアウォールがない場合は、境界ファイアウォールを取得します。

1
Kamic