web-dev-qa-db-ja.com

ハッキングされたサイトからクリーンアップした後、Googleにインデックスから数千のページを削除するよう依頼する

ウェブサイトをハッキングされました。私はそれをクリーンアップしてgoogle site:example.comを検索し、すべての結果のリストを作成しました。 OKである実際のリンクを削除し、example.com/ad0-b1fermarte54eb17chb-1244425の形式のリンクのリストを作成しました。これらのリンクを削除するためにGoogleに送信したところ、Googleがこれらのリンクを削除しました。

ここでの問題は、最初の検索の結果、200のURLが削除され、他の新しいリンクがどこからともなく出現することです。これらのリンクは実際には機能せず、404ページを返しますが、Googleはこれらのリンクを結果に残しています。

サイトマップを削除して再送信してみました。グーグルはそれをクロールしたが、再び、ダミーの検索結果を削除しなかった。

Googleのウェブマスターコンソールを見ると、[カバレッジ]タブで、インデックス付きリンクの数が230(通常の使用)から10.900リンクに急上昇していることがわかりました。これらはすべて感染し、現在は駆除されたダミーリンクだと思います。

Googleにデッドリンクを自動的に削除させる魔法の方法はありますか?または、Webサイト全体を強制的に再クロールする方法はありますか?

17
Rad

Googleは、404ステータスを返すようになったページを自動的に削除します。 Googlebotが次にクロールを試みてから24時間後に削除されます。プロセスをわずかに高速化したい場合は、代わりにそれらのURLに対して「410 Gone」ステータスを返します。次に、次のクロール後に、猶予期間なしで削除されます。

唯一の問題は、Googlebotがこれらすべての死んだページをクロールするのに数ヶ月かかることです。クロールを高速化する場合は、2つのオプションがあります。

  1. 各URLを個別にGoogle Search Consoleに送信 RL削除ツール
  2. すべての無効なURLの一時的なサイトマップを作成し、そのサイトマップをGoogle Search Consoleに追加します。 ( 参照

すべてのURLのリストを取得するには、サーバーログを使用することをお勧めします。 site:検索やGoogle Search ConsoleよりもURLの完全な記録が作成されます。コマンドラインでgrepを使用します。すべてのURLが投稿したURLと類似している場合は、それらの正規表現パターンを考え出すことができます。そのURLは、文字、ダッシュ、および数字を含む31文字の長さです。それは数字で終わります。たぶんこんな感じ。それはそれらの文字の15から30を探し、その後にダッシュと4から10の数字が続きます。

grep -oE '/[0-9a-z\-]{15,30}-[0-9]{4,10}' /var/log/Apache2/example.com.log
25

この問題は、Googleにpingを送信してサイトを再クロールするか、サイトマップを再送信しても解決されません。これは、新しいURLにインデックスを付け、古い/ダミーのURLを削除しないためです。

RLの削除に使用するウェブマスターツール は、インデックスからリンクを削除するようGoogleに要求する唯一の方法ですが、一度に1つのリンクのみを削除のために送信できます。

これを克服するために、chrome拡張機能を使用してこのプロセスを自動化できます。これはchrome拡張機能ストアの有料ツール(約$ 9)ですが、 GitHubから無料で入手できます。

  1. これに行く link。
  2. .Zipファイルをダウンロードします。
  3. chrome拡張機能に抽出してインポートします。

URL削除タブをリロードすると、.csvまたは.xlsファイルをアップロードするオプションが表示されます。

削除する必要があるURLのリストをSearch Consoleからダウンロードし、ここにファイルをアップロードします。 (これらのリンクはサイトマップから除外されるため、これらのURLのリストを簡単に見つけることができます)

リンクの数によっては時間がかかるので、ツールにその仕事を任せてください。

2
Anuvesh