Googlebotがインデックス作成を停止できるように、robots.txt
からこのようなURLをブロックする方法を教えてください。
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
私のウェブサイトはハッキングされましたが、ハッカーはGoogleで5000のURLのインデックスを作成し、上記のリンクのように/+
で始まるランダム生成リンクでエラー404が表示されるようになりました。
GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?
robots.txt
記号で始まるURLへの+
でこれをブロックできますか?
私のウェブサイトはハッキングされましたが、現在は復旧していますが、ハッカーはGoogleで5000個のURLをインデックスに登録しており、エラー404が発生します
これらのURLを検索エンジン(つまり、Google)からドロップしたい場合は、robots.txt
でブロックするよりも404が望ましいでしょう。クロールをブロックすると、URLのインデックスが引き続き作成されます。 (robots.txt
は主にインデックス作成ではなくクロールをブロックすることに注意してください。)
これらのURLのインデックス解除を「高速化」したい場合は、通常の「404 Not Found」の代わりに「410 Gone」を提供できます。ルート.htaccess
ファイルでmod_rewrite(Apache)を使用すると、次のようなことができます。
RewriteEngine On
RewriteRule ^\+ - [G]
2番目の質問に答えます。
GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?
https://developers.google.com/webmasters/hacked/docs/clean_site
Googleは、Google Search Console(ウェブマスターツールの新しい名前)による削除が最も速いと明示的に述べています。
ハッカーがまったく新しいユーザーに表示されるURLを作成した場合、Search ConsoleのURLの削除機能を使用して、Google検索結果からこれらのページをより迅速に削除できます。これは完全にオプションの手順です。単にページを削除してから、404ステータスコードを返すようにサーバーを構成すると、ページは時間とともに自然にGoogleのインデックスから外れます。
しかし、彼らは、これがいくつかの場合に実行可能でないことも理解しています:
URL削除を使用するかどうかは、新しく作成された不要なページの数(削除URLに含めるのが面倒なページ)の数、およびこれらのページがユーザーに与える可能性のある損害に依存する可能性があります。 URL削除によって送信されたページが検索結果に表示されないようにするには、不要な/削除されたURLに対して404 File not Found応答を返すようにページが構成されていることを確認してください。
したがって、robots.txtでこれらのページをブロックすることはできますが、Googleで説明されている修正手順のいずれも実行していません。
User-Agent: *
Disallow: /+
あなたがしたいことをする必要があります。 +
で始まるすべてのURLを要求しないようロボットに指示します。
Robots.txtを本当に使用したい場合、これはあなたの質問に対する簡単な答えになります。また、robots.txtの仕様を読むことができる場所へのリンクを含めました。
User-agent: *
Disallow: /+
しかし、もう1つの代替方法は、.htaccessを使用して書き換えルールを作成し(Apacheなどを使用している場合)、それらをキャッチして、GoogleにHTTPコードを返すか、単にトラフィックを他のページにリダイレクトするよう指示することです。