Googleにサイトマップ内のURLのみをクロールさせてインデックスを作成させることにより、ハッキングされたサイトをクリーンアップします

Question

それで最近、私たちのウェブサイトがハッキングされ、今すべてをきれいにしようとしています。ただし、「site：」検索を実行すると、キャッシュされた日本のWebサイトが引き続き表示されます。

robots.txtつまり：

User-agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml

しかし、robots.txtテスターに不正なURLを入力すると、望まないURLが許可されます。

GoogleがDisallowのすべての不良リンクを手動で入力せずにrobots.txtのサイトマップのみをクロールする方法はありますか？

Stephen Ostermiller · Accepted Answer

Googleは、サイトマップにあるURLのみをクロールおよびインデックス登録することに限定したことはありません。そのような機能は存在せず、今後もそうなるとは思わない。

サイトマップはほとんど役に立たない。彼らはランキングの助けにはなりません。 Googleがインデックスを作成することはめったにありません。 Googleは実際にそれらを使用して優先URLを選択し、代替言語URLを指定し、検索コンソールで追加データを提供します。サイトマップパラドックスをご覧ください。

おそらく、robots.txtを使用してURLを禁止することも望まないでしょう。 robots.txtはクロールをブロックしますが、インデックスは作成しません。 GoogleにURLを再クロールしてもらい、URLがなくなったことを確認する必要があります。 GooglebotはそのためのURLにアクセスできる必要があります。

ハッキングされたURLをクリーンアップするには、それらが404ステータスを返すことを確認してください。 Googleは、次回のクロールから24時間以内にそれらを削除します。 Googleが一部のURLをすぐに再クロールできないため、すべてのURLを削除するには数か月かかる場合があります。サイトがハッキングされました。Googleから+で始まるすべてのURLを削除する必要があります。robots.txtを使用しますか？

URLが多すぎない場合は、 Google Search ConsoleのURL削除ツールを使用して個別に送信できます。これにより、Googleは再クロールを待機するよりもはるかに速くそれらを削除できますが、一括削除機能はありません。