web-dev-qa-db-ja.com

Google-Botは私の404ページに恋をしました

毎日、私のアクセスログは次のようになります。

66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

またはこれ

66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

ボットはrobots.txtを2回呼び出し、その後ファイルへのアクセスを試みます(zjtrtxnsh.htmlvuqffxiyupdh.html、...)これは存在できず、404エラーを返す必要があります。毎日同じ手順で、存在しないhtmlファイル名だけが変更されます。

robots.txtの内容:

User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml

Sitemap.xmlは読み取り可能で有効であるため、ボットが404エラーを強制する必要がある理由はないようです。
この動作をどのように解釈すればよいですか?それは私がした間違いを指しているのでしょうか、それとも無視すべきでしょうか?


[〜#〜] update [〜#〜]
@ malwareいくつかのオンラインツールでウェブサイトをスキャンしましたが、何も見つかりませんでした。
wordpressやphpmyadminのような標準アプリは、サーバー上にありません。
ログウォッチを毎日受け取りますが、不正なsshアクセスなどはありませんでした。
fail2banを設定しました。
sshアクセスを公開鍵に制限しました。rootログインは許可されていません。
logwatchが報告したSudoコマンドで、その日に行ったこととして認識できなかったものはありませんでした。
私のWebディレクトリに、新しいファイルや自分で作成したものではないファイル、またはちょっと奇妙に見えるファイルがありません(100%を保証することはできませんが、すべて問題ないように見えます)。
サーバーで完全なクラムスキャンを実行しましたが、結果はありませんでした。
ソフトウェアパッケージは最新です。

他に何ができますか?

2
32bitfloat

要するに:私のメモリサーバーが正しければ。それはあなたのサイトの404ページをチェックすることです。

長い答え:人々はカスタム404ページを作成した後、ページのステータスコードを変更するのを忘れています。最終的に、Googleボットが無効なURLにアクセスしようとすると、ヘッダーステータスが200okのカスタム404ページが返されます。ここで、ボットは決定を下す必要があります。この意思決定を支援するために、ランダムに生成されたURLでサーバーにアクセスしようとします。このURLは、サイトに存在しない可能性が高く、見つからないページに対して要求されたときのサイトの応答を確認します。

私が言ったように、私はそれについて100%確信がありません。

1
Nithish Thomas