web-dev-qa-db-ja.com

Piwik訪問者ログスパム

私は、Piwikを使用して、私のWebサイトにアクセスした人を追跡します。残念ながら、訪問者ログに表示される訪問者の多くは、実在の人物ではなく、スパムボットです。通常、これらのボットは、私の対象読者とは異なる国のプロバイダーを使用します。リファラー列で確認できるように、それらは常にスパムサイトを参照します。

Example

私のウェブサイトは比較的小さいため、これらのボットは統計情報(時間の経過など)を歪め、ビジターマップをほとんど役に立たなくします。それらをブロックするためにできることはありますか?

4
Andalur

Piwikでipでブロックできます...

    To exclude all traffic from a given IP or IP range, log in Piwik as the Super User.
 Click on Settings > Websites. Below the list of websites, you will find the option to 
specify “Global list of Excluded IPs”. You can define a given IP address, or IP ranges 
(132.4.3.* or 143.2.. for example) to be excluded from being tracked on all websites. 
Each Piwik admin user can also specify the list of IPs or IP ranges to exclude for 
specific websites.

おそらく、特定の国にのみトラッキングコードを表示したり、Project Honeypotデータベースで見つかったIPをブロックしたりするなど、より優れたプログラマティックソリューションがあります。

ただし、トラッキングコードから<noscript>タグを削除する方が簡単な場合があります。ロボットがjavascriptを読むことはほとんどありませんが、ほとんどの人間のユーザーは読むことができます。これが削除された場合、javascriptを使用せずに人間のユーザーを追跡することはできませんが、全体的な精度が向上するはずです。

3
Richard B

あらゆる年齢のWebサイトを所有している場合、ログファイルに不正なボットが見つかります。一部のサイトでは大きな問題ですが、一部のサイトでは悪用が少なくなっています。

ログファイルを編集できるという素晴らしいアイデアがあります。おそらくツールがあるはずです。コードを記述できない場合を除き、ログファイルを編集してエントリを削除するのは実際的ではありません。これを行うツールはありません。ほとんどの人は、ログファイルをクリーンに保つ方法としてこれらのアクセスをブロックしようとします。

誰をいつブロックするかを決定するのは正確ではありません。私はセキュリティ研究の領域にいますが、これは私にとってトピックの領域であり、常に判断を促すものです。しかし、私はあなたにいくつかの手がかりを与えます。

ログファイルまたはログファイルの分析を確認するときは、次のことを確認してください。

  • 画像を要求しないアクセス。
  • Robots.txtを要求しないアクセス。
  • Robots.txtに従わないアクセス。
  • 人間ではないと思われる時間間隔内に急速に発生するアクセス。
  • アクセスすると、ブラウザまたはオペレーティングシステムが任意の時点で変更されます。

もちろんもっと手がかりがありますが、複雑になります。

  • 不正なボットは画像を要求する場合としない場合があります。ページビューの後に画像リクエストが続くという事実は、必ずしも人間を示すものではありません。ただし、アクセスに画像リクエストが含まれていない場合は、ボットです。
  • 不正なボットは、robots.txtを要求する場合と要求しない場合があります。ボットがrobots.txtを要求したからといって、それが正常に動作するボットであることを意味しません。
  • 不正なボットがrobots.txtを要求し、robots.txtによって制限された領域にアクセスしようとすると、ブロックされます。制限区域への小さな画像リンクを作成できます。ページ、インデックスが有効になっていないディレクトリ、別の画像などがあります。問題ではありません。人間が従わないようなものであることを確認してください。 1ピクセルのリンクをしないでください。 Makeは小さな画像です。この領域へのアクセスが発生した場合、アクセスをブロックする必要があります。
  • 悪いボットは、人間にはなり得ないペースでサイトにアクセスすることがよくあります。人間は1秒未満のペースでリンクをクリックできます。 2秒以内に少なくとも3つのアクセスがある場合、ボットである可能性があります。
  • 一部の不正なボットは、ブラウザとオペレーティングシステムを経時的に変更できますが、常に変更できるわけではありません。これが発生した場合、ブロックしても安全です。

これは、最善の判断を下す必要がある領域です。 Googleのドメイン名とIPアドレスを使用して、他の人が経験したことや、他の人があなたが見つけたものへのアクセスをブロックしているかどうかを確認できます。上記のリストを使用して、自分で判断してください。いくつかのパターンが見え始めます。

  • 悪いクモは同様の悪い近所から来ます。
  • 不良スパイダーは、類似したIPアドレスのブロックを使用します。
  • 悪意のあるスパイダーは、通信会社のサブドメインを使用します。

もちろん、どのWebサーバーを使用しているかによって異なります。私は長い間IISを扱っていませんし、新しいWebサーバーを使用していません。 Apacheを知っているので、Apacheを持っている場合に.htaccessファイルで使用できる例をいくつか示します。

RewriteCond %{REMOTE_Host} example.com [NC]
RewriteRule .* - [F,L]

-そして-

RewriteCond %{REMOTE_ADDR} 10.0.1.101 [NC]
RewriteRule .* - [F,L]
2
closetnoc

この質問が出されたので、Piwikは、このようなリファラースパムで知られるリファラーを持つ訪問者をデフォルトで無視する新しい機能を取得しました。 https://piwik.org/blog/2015/05/stopping-referrer-spam/

新しいドメインに出くわした場合は、コミュニティから提供されたリファラースパマーのリストに送信できます。 https://github.com/piwik/referrer-spam-blacklist

0
lw1.at