ウェブサイトをハッキングされました。私はそれをクリーンアップしてgoogle site:example.com
を検索し、すべての結果のリストを作成しました。 OKである実際のリンクを削除し、example.com/ad0-b1fermarte54eb17chb-1244425
の形式のリンクのリストを作成しました。これらのリンクを削除するためにGoogleに送信したところ、Googleがこれらのリンクを削除しました。
ここでの問題は、最初の検索の結果、200のURLが削除され、他の新しいリンクがどこからともなく出現することです。これらのリンクは実際には機能せず、404ページを返しますが、Googleはこれらのリンクを結果に残しています。
サイトマップを削除して再送信してみました。グーグルはそれをクロールしたが、再び、ダミーの検索結果を削除しなかった。
Googleのウェブマスターコンソールを見ると、[カバレッジ]タブで、インデックス付きリンクの数が230(通常の使用)から10.900リンクに急上昇していることがわかりました。これらはすべて感染し、現在は駆除されたダミーリンクだと思います。
Googleにデッドリンクを自動的に削除させる魔法の方法はありますか?または、Webサイト全体を強制的に再クロールする方法はありますか?
Googleは、404ステータスを返すようになったページを自動的に削除します。 Googlebotが次にクロールを試みてから24時間後に削除されます。プロセスをわずかに高速化したい場合は、代わりにそれらのURLに対して「410 Gone」ステータスを返します。次に、次のクロール後に、猶予期間なしで削除されます。
唯一の問題は、Googlebotがこれらすべての死んだページをクロールするのに数ヶ月かかることです。クロールを高速化する場合は、2つのオプションがあります。
すべてのURLのリストを取得するには、サーバーログを使用することをお勧めします。 site:
検索やGoogle Search ConsoleよりもURLの完全な記録が作成されます。コマンドラインでgrep
を使用します。すべてのURLが投稿したURLと類似している場合は、それらの正規表現パターンを考え出すことができます。そのURLは、文字、ダッシュ、および数字を含む31文字の長さです。それは数字で終わります。たぶんこんな感じ。それはそれらの文字の15から30を探し、その後にダッシュと4から10の数字が続きます。
grep -oE '/[0-9a-z\-]{15,30}-[0-9]{4,10}' /var/log/Apache2/example.com.log
この問題は、Googleにpingを送信してサイトを再クロールするか、サイトマップを再送信しても解決されません。これは、新しいURLにインデックスを付け、古い/ダミーのURLを削除しないためです。
RLの削除に使用するウェブマスターツール は、インデックスからリンクを削除するようGoogleに要求する唯一の方法ですが、一度に1つのリンクのみを削除のために送信できます。
これを克服するために、chrome拡張機能を使用してこのプロセスを自動化できます。これはchrome拡張機能ストアの有料ツール(約$ 9)ですが、 GitHubから無料で入手できます。
URL削除タブをリロードすると、.csvまたは.xlsファイルをアップロードするオプションが表示されます。
削除する必要があるURLのリストをSearch Consoleからダウンロードし、ここにファイルをアップロードします。 (これらのリンクはサイトマップから除外されるため、これらのURLのリストを簡単に見つけることができます)
リンクの数によっては時間がかかるので、ツールにその仕事を任せてください。