web-dev-qa-db-ja.com

サイトがハッキングされました。+で始まるすべてのURLをGoogleから削除する必要があります。robots.txtを使用しますか?

Googlebotがインデックス作成を停止できるように、robots.txtからこのようなURLをブロックする方法を教えてください。

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

私のウェブサイトはハッキングされましたが、ハッカーはGoogleで5000のURLのインデックスを作成し、上記のリンクのように/+で始まるランダム生成リンクでエラー404が表示されるようになりました。

GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?

robots.txt記号で始まるURLへの+でこれをブロックできますか?

15
Hussain

私のウェブサイトはハッキングされましたが、現在は復旧していますが、ハッカーはGoogleで5000個のURLをインデックスに登録しており、エラー404が発生します

これらのURLを検索エンジン(つまり、Google)からドロップしたい場合は、robots.txtでブロックするよりも404が望ましいでしょう。クロールをブロックすると、URLのインデックスが引き続き作成されます。 (robots.txtは主にインデックス作成ではなくクロールをブロックすることに注意してください。)

これらのURLのインデックス解除を「高速化」したい場合は、通常の「404 Not Found」の代わりに「410 Gone」を提供できます。ルート.htaccessファイルでmod_rewrite(Apache)を使用すると、次のようなことができます。

RewriteEngine On
RewriteRule ^\+ - [G]
30
MrWhite

2番目の質問に答えます。

GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?

https://developers.google.com/webmasters/hacked/docs/clean_site

Googleは、Google Search Console(ウェブマスターツールの新しい名前)による削除が最も速いと明示的に述べています。

ハッカーがまったく新しいユーザーに表示されるURLを作成した場合、Search ConsoleのURLの削除機能を使用して、Google検索結果からこれらのページをより迅速に削除できます。これは完全にオプションの手順です。単にページを削除してから、404ステータスコードを返すようにサーバーを構成すると、ページは時間とともに自然にGoogleのインデックスから外れます。

しかし、彼らは、これがいくつかの場合に実行可能でないことも理解しています:

URL削除を使用するかどうかは、新しく作成された不要なページの数(削除URLに含めるのが面倒なページ)の数、およびこれらのページがユーザーに与える可能性のある損害に依存する可能性があります。 URL削除によって送信されたページが検索結果に表示されないようにするには、不要な/削除されたURLに対して404 File not Found応答を返すようにページが構成されていることを確認してください。

したがって、robots.txtでこれらのページをブロックすることはできますが、Googleで説明されている修正手順のいずれも実行していません。

14
pastepotpete
User-Agent: *  
Disallow: /+

あなたがしたいことをする必要があります。 +で始まるすべてのURLを要求しないようロボットに指示します。

4
Sven

Robots.txtを本当に使用したい場合、これはあなたの質問に対する簡単な答えになります。また、robots.txtの仕様を読むことができる場所へのリンクを含めました。

User-agent: *
Disallow: /+

robots.txtの仕様について読む

しかし、もう1つの代替方法は、.htaccessを使用して書き換えルールを作成し(Apacheなどを使用している場合)、それらをキャッチして、GoogleにHTTPコードを返すか、単にトラフィックを他のページにリダイレクトするよう指示することです。

2
davidbl