私は自分のビジネスを引き継いだウェブサイトを持っています。ウェブサイト全体(以前はASPとHTMLの組み合わせ)でしたが、現在はnginxで実行されているWordPressサイトです。サイトマップをGoogleに送信しました。そして、ビングと人生を続けた。
私は気づきましたが、BingBot(IPで確認しました)が古いASPおよびHTML URLをクロールし続けようとする私のサーバーを非難しています。私のサーバーは404(チェックされたwget、直接Webページヒット、およびBing自体を介して)Bingはそれをクロールしようとし続けます。インデックスエクスプローラーからページを削除する方法を理解できません。さまざまなフォルダー(たとえば、/html、/ v2、/ g ...何でも)。
これらの古いページを永久に削除するにはどうすればよいですか?これらのいずれも私のサイトマップ(私が提出したもの)にはありません。また、これらのどれも私のサーバーに6か月間存在していません。
サイトの古いURLを検索エンジンに忘れさせることはできません。検索エンジンがURLでコンテンツを検出すると、コンテンツを削除した後も、そのURLを無期限に定期的にクロールし続け、URLを変更して404エラーを表示します。
404エラーを返す代わりに、より適切なステータスに変更できます。
これらのステータスを使用すると、特に時間の経過とともに、検索エンジンクローラーの一部を取り消すことができます。ただし、自分のサイトに20年間リダイレクトしている古いURLがあり、Googlebotがまだアクセスして時々チェックしています。
あなたは、あなたのサーバーがこれらのリクエストによってWordPressを通過しなければならないため、「スラム」されていると言います。 。htaccessにルールを追加して、これらのURLを短絡し、はるかに高速に提供できます。この方法では、通常、1つの実際のページと同じコストで数十または数百の404リクエストを処理できます。これらのルールは、WordPressのルールの前に、。htaccessファイルの先頭に配置する必要があります。
RewriteRule ^/?html/ - [G]
RewriteRule ^/?v2/ - [G]
RewriteRule ^/?g/ - [G]
RewriteRule \.asp$ - [G]
RewriteRule \.html$ - [G]
最初の3つのルールは、あなたが言及するフォルダ内のすべてに対して410 Gone
を示します。最後の2つのルールは、URLの拡張子で410 Gone
を示します。サイトに.asp
または.html
のURLが残っていない場合にのみ使用してください。
サーバーに害を及ぼす可能性があるというまれなケースを取得できない場合は、robots.txtでこれらのURLをブロックすることができます。
Disallow: /html
Disallow: /v2
Disallow: /g
Disallow: *.asp
Disallow: *.html
GooglebotとBingbotはどちらもワイルドカードルールを理解して尊重しますが、ほとんどのボットはそうではありません。最後の2つのルールは、高度なルールをサポートする特定のボットにのみ役立ちます。
robots.txtを使用してURLをブロックするのは、リライトルールを試した後でもリクエストによってパフォーマンスの問題が発生する場合のみです。 URLを許可しない場合でも、検索エンジンはURLにインデックスを付け、一部の訪問者をURLに送信する可能性があります。参照 Google検索結果にrobots.txtで許可されていないページが含まれるのはなぜですか? URLのクロールを許可すると、ボットは引き続きURLにアクセスしますが、検索エンジンはそれらを検索インデックスに含めません。 。