web-dev-qa-db-ja.com

BingbotがフォルダーのようなURLをクロールし、何千ものエラーが発生する

私は最初に2か月以上前に自分のサイトでこれを見始めましたが、今では管理している他のいくつかのサイトで見ています。ボットがURLをフォルダーに解析しようとしていますが、これが問題の原因です。

たとえば、このURLは正しい:

http://amgoa.org/Proposed-Alaska-Gun-Law-SCR6/State-Law/8895

しかし、BingはこのURLにアクセスしようとします:

http://amgoa.org/Proposed-Alaska-Gun-Law-SCR6/State-Law

そして、このURL:

/ Proposed-Alaska-Gun-Law-SCR6(2つ以上の完全なリンクを投稿することはできません)

もちろん、2番目の2つは404をスローします。

このサイトには67,000ページを超えるページがあり、このエラーにより一部のURLのエラーログに何万もの404がロードされてしまいます。

約1か月前に、問題を解決することを期待してxmlサイトマップスクリプトを作成しました。ウェブマスターツールセクションからGoogleとBingに提出しました。 Googleは、Bingがこれらの存在しないURLを解析しようとしてそこに座っている間、67,000以上のページすべてを正しくインデックス付けしました。

他の誰かがこれを見て、さらに重要なこととして、これを停止する方法、またはBingに連絡して停止させる方法を知っていますか?

1
user973767

問題はBingではなく、サーバーがエラー応答を処理する方法です。

404ページが報告しています:SERVER RESPONSE: HTTP/1.1 200 OK

レポートする必要があります:SERVER RESPONSE: HTTP/1.0 404 NOT FOUND

そのため、検索エンジンはそれらが有効なページであると想定しているため、常にクロールされています。これを修正すると、Bingはそれらのページでスマッシングを停止し始めます。

FireBugGoogle Webmaster Tools またはこれらを使用して、ヘッダー応答をテストできますオンラインWebサイト: site-scan.comseobook .

奇妙なことは、ヘッダー応答にstatus 404 Not Foundがありますが、最初の応答で200 OK以来有効ではないことです。基本的に、 soft 404 YahooとBingが真剣に受け止めていないもの

2
Simon Hayter