それで最近、私たちのウェブサイトがハッキングされ、今すべてをきれいにしようとしています。ただし、「site:」検索を実行すると、キャッシュされた日本のWebサイトが引き続き表示されます。
robots.txtつまり:
User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml
しかし、robots.txtテスターに不正なURLを入力すると、望まないURLが許可されます。
GoogleがDisallow
のすべての不良リンクを手動で入力せずにrobots.txtのサイトマップのみをクロールする方法はありますか?
Googleは、サイトマップにあるURLのみをクロールおよびインデックス登録することに限定したことはありません。そのような機能は存在せず、今後もそうなるとは思わない。
サイトマップはほとんど役に立たない。彼らはランキングの助けにはなりません。 Googleがインデックスを作成することはめったにありません。 Googleは実際にそれらを使用して優先URLを選択し、代替言語URLを指定し、検索コンソールで追加データを提供します。 サイトマップパラドックス をご覧ください。
おそらく、robots.txtを使用してURLを禁止することも望まないでしょう。 robots.txtはクロールをブロックしますが、インデックスは作成しません。 GoogleにURLを再クロールしてもらい、URLがなくなったことを確認する必要があります。 GooglebotはそのためのURLにアクセスできる必要があります。
ハッキングされたURLをクリーンアップするには、それらが404ステータスを返すことを確認してください。 Googleは、次回のクロールから24時間以内にそれらを削除します。 Googleが一部のURLをすぐに再クロールできないため、すべてのURLを削除するには数か月かかる場合があります。 サイトがハッキングされました。Googleから+で始まるすべてのURLを削除する必要があります。robots.txtを使用しますか?
URLが多すぎない場合は、 Google Search ConsoleのURL削除ツール を使用して個別に送信できます。これにより、Googleは再クロールを待機するよりもはるかに速くそれらを削除できますが、一括削除機能はありません。