私の前任者によって作成され、長い間発見されなかったASP.Netアプリケーションの以前のエラーのために、数千の誤ったURLが動的に作成されました。通常のユーザーは気づきませんでしたが、Googleはこれらのリンクをたどり、これらの誤ったURLをクロールして、ますます間違ったリンクを作成しました。
より明確にするために、URL
example.com/folder
リンクを作成する必要があります
example.com/folder/subfolder
しかし、作成していた
example.com/subfolder
代わりに。不正なURL書き換えのため、これは受け入れられ、デフォルトでは未知のURLのインデックスページを表示し、このようなリンクを作成しました。
example.com/subfolder/subfolder/....
この問題は今では解決していますが、1、2年前に発見されたGoogle Webmaster Toolsに何千もの404エラーがリストされ、さらに多くのエラーが出てきています。
残念ながら、リンクはrobots.txtでのクロールを拒否できる一般的なパターンには従いません。
Googleがこれらの非常に古いリンクを試すのを止め、既にリストされている404をウェブマスターツールから削除するためにできることはありますか?
ウェブマスターツールはリンク/エラーページの更新が遅いことで有名です。特に、ページがリンクされなくなった場合でも、Googlebotはページを要求し続け、ページが見つからないことを報告し続けます。
いずれかのURLが一般的なパターンに従っている場合、正しいページに301リダイレクトを行うことができます。これにより、Googleによるこれらのエラーの削除が高速化されます。 (注:パフォーマンスに深刻な影響を与える可能性があるため、htaccessに数千行を追加することはお勧めしません。)
それを除けば、残念ながらそれを待つ以外にできることはあまりありません。存在しないページを指すリンクが確実に存在しない場合、[クロールエラー]セクションは徐々に縮小します。私の経験では最大3か月かかることがあります。
これは外部リンクの場合ではないことに注意してください-私のサイトでは、外部リンクからのいくつかの404エラーがあり、制御できず、それらが消えることはないと思います。
以下は、GoogleのJohn Mueller(ウェブマスターツールとサイトマップで作業している) がウェブマスターツールに表示される404エラーについて述べていることです :
ヘルプ!私のサイトには939クロールエラーがあります!! 1
私はこの種の質問を週に数回見ます。あなただけではありません-多くのウェブサイトにはクロールエラーがあります。
- 404の無効なURLのエラーは、サイトのインデックス作成やランキングに悪影響を与えません。 1億または1千万であっても、サイトのランキングを損なうことはありません。 http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
- 場合によっては、クロールエラーは、WebサイトまたはCMS内の正当な構造上の問題に起因する場合があります。どうやって言うの?クロールエラーの原因を再確認してください。サイトの壊れたリンクがページの静的HTMLにある場合は、常に修正する価値があります。 (ありがとう + Martino Mosna )
- 「明らかに壊れている」ファンキーなURLについてはどうでしょうか?あなたのサイトのような当社のアルゴリズムは、たとえばJavaScriptで新しいURLを見つけようとすることで、より素晴らしいコンテンツを見つけようとします。これらの「URL」を試して404を見つけたら、それは素晴らしいことであり、期待されています。重要なものを見逃したくないだけです(ここに過剰に添付されたGooglebotミームを挿入してください)。 http://support.google.com/webmasters/bin/answer.py?answer=1154698
- ウェブマスターツールでクロールエラーを修正する必要はありません。 「修正済みとしてマークする」機能は、進捗状況を追跡したい場合にのみ役立ちます。 Googleのウェブ検索パイプラインでは何も変わりませんので、不要な場合は無視してください。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
- ウェブマスターツールのクロールエラーは、いくつかの要因に基づいて優先度順にリストされています。クロールエラーの最初のページが明らかに無関係である場合、他のページで重要なクロールエラーを見つけることはおそらくないでしょう。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
- ウェブサイトのクロールエラーを「修正」する必要はありません。 404を見つけることは正常であり、健全で適切に構成されたWebサイトに期待されます。同等の新しいURLがある場合は、そのURLにリダイレクトすることをお勧めします。それ以外の場合は、偽のコンテンツを作成したり、ホームページにリダイレクトしたり、robots.txtでこれらのURLを禁止したりしないでください。これらのすべてにより、サイトの構造を認識して適切に処理することが難しくなります。これらを「ソフト404」エラーと呼びます。 http://support.google.com/webmasters/bin/answer.py?answer=181708
- 明らかに-これらのクロールエラーが、関心のあるURL、おそらくサイトマップファイルのURLで表示されている場合は、すぐに対処する必要があります。 Googlebotが重要なURLをクロールできない場合、検索結果から削除され、ユーザーもそれらにアクセスできない可能性があります。
robots.txtでこれらのページをブロックします。これが最も簡単な方法です。
私のサイトには、死なないように見える10万以上の404エラーがあります。時々あなたはそれらをそのままにしておく必要があります。
404ページは真の404を返しますか、それとも404コンテンツの200を返しますか? 「ページが見つかりません」というカスタム404ページがたくさんありますが、ステータス200を返すので、Googleはそれらをアクティブページであると判断し、インデックスに保持します。
それらに目を通すためにページにアクセスできなければ、何が起こっているかを正確に伝えるのは難しいですが、それは私の経験で最も一般的な問題のようです。
スクリプトを実行してページを表示する場合、これが問題のあるページであることを検出し、200ステータス+メタタグで真のhtmlページを印刷できます。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
質問が最初に尋ねられたとき、これは真実ではなかったかもしれませんが、今では、ウェブマスターツールを使用して、404をもたらすURLを選択できます。一度に25を行うことができます。この機能は、[健全性]> [クロールエラー]にあります。