数週間以来、私のGoogleアナリティクスアカウントの1つで、訪問者とページインプレッションの継続的な増加がボットのシームを示しています。平均セッション期間は"<00:00:01"であり、現在ではGoogleアナリティクスで表示されるすべての訪問者の約42%を表しています。彼らは私の統計を破壊します! :-/
私は次のパターンを発見しました:彼らはアメリカ(大部分、約80%)から来ていますが、ナイジェリアと中国、フランスとタイからもわずかな部分です。興味深いことに、バージョン"41.0"の"Firefox"ですべての"Macintosh"を使用し、ほとんどすべてが"1420x940"のBrowsersizeを使用します。言語設定は"en-us"に設定されており、Javaサポートはありません。彼らはサイト「ダイレクト」にアクセスしますが、ホストプロバイダーとインターネットプロバイダーは異なります。
Google Analyticsからこれらの番号を除外するにはどうすればよいですか?私は何年もGAを使用しましたが、今のようにボットに実際の問題はありませんでした…
私にはスパムのように見えますが、サイトがスパムボットの標的になっている場合がありますが、それを修正したいのですが、解決策はGAからそれらを除外するのではなく、ウェブサイトから除外することです。
これはあなたがそれについてできる最低限のものかもしれません:
単純なlinuxコマンドを使用すると、Webサイトをクロールするすべてのユーザーエージェントを追跡できます。
$cat test.log | awk -F\" '{print $6}' | sort | uniq -c | sort -n
結果は次のようになります。
51916 MetaURI API/2.0 +metauri.com
59899 Twitterbot/1.0
87819 Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
111261 Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
187812 Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:28.0) Gecko/20100101 Firefox/28.0 (FlipboardProxy/1.1; +http://flipboard.com/browserproxy)
189834 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
390477 facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
最初の数値(太字)は、このスパイダー/クローラー/ユーザーエージェント/がサイトにアクセスした回数です。データは実際の人間のユーザートラフィックやその他の有用なトラフィックと混合されるため、これらはすべてクローラーではありません。上記の例では、「Facebookexternalhit」ユーザーエージェントが1か月に390,477回アクセスしていることがわかります。これは1時間あたり約541倍です。過剰です。キルリストに移動します。他の重いものは、FlipboardProxy、Twitterbot、Spaidu、Metauriです。それらは「クローラー」、「サービス」の一部です。それらが何であれ、それらの有用性は私のサーバーのトラフィック/負荷の量を正当化するものではありません。
「禁止」したい不正なボットを選択して、そのようなリストに追加します。
#redirect bad bots to one page
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} facebookexternalhit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Twitterbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MetaURI [NC,OR]
RewriteCond %{HTTP_USER_AGENT} mediawords [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy [NC]
RewriteCond %{REQUEST_URI} !\/nocrawler.htm
RewriteRule .* http://yoursite/nocrawler.htm [L]
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
User-agent: BadBot Disallow: /
http://www.user-agents.org/ -Rはロボット用です。
http://www.robotstxt.org/db.html -ユーザーエージェントを含む高度な情報を含むすべてのロボットのデータベース。
これは完全なリストではないことに注意してください^^。