web-dev-qa-db-ja.com

サイトがハッキングされた後、Googleのインデックスから外国のページを削除する方法は?

しばらく前にハッキングされたサイトを扱っています。 Googleは、JAPANESEの結果を使用して数千のページをインデックスに登録しました。ロボットファイルを使用して、サイトに実際に存在するページ以外のすべてを禁止し、htaccessを使用して、存在しないページの404を作成しました。

Googleは、引き続きサイトのページへのサイトリンク(日本語)を表示します。ウェブマスターツールをチェックすると、まだ何千ものページがインデックスに登録されており、コンテンツキーワードは主に日本語の用語を示しています。

ウェブサイトに日本語版やテキストはありません。

この問題の違いは、Googleが日本語でサイトリンクテキストを表示し、現在存在するトップページにリンクしていることです。これらのページを禁止することはできません。また、Googleのインデックスにこのすべての外部情報があり、サイトに存在しないURLがまだ含まれているという事実を変更する必要があります。

Googleが提供するスニペットはすべて404を返しますが、まだインデックスに残っています。

彼らはまだこのコンテンツをどのようにインデックス付けしていますか?

5
Innate

それらがクロールされるのをブロックしないでください-これはインデックスからそれらを削除しません。 Googlebotがそれらを見るのを止めるだけです。

通常、最速の方法はSearch Consoleの削除ツールを使用することです。あなたが話している数字については、それらは一つずつ入力されなければならないので、可能とは思えません。

私の経験の中で次に速いのは、代替言語マッピングを行うサイトマップを作成することです。サイトマップは、送信後すぐにクロールされ、処理されます。 Googleにそれぞれの悪いURIが中国語(rel = "alternate" hreflang = "zh-Hans")であると伝えてから、実際のURIを「en」の代替として入れると、英語のエンジンで置き換えられます。同じURIを複数回使用できます。

例:

<url>
    <loc>http://www.example.com/bad-chinese-page/</loc>
    <xhtml:link
                 rel="alternate"    
                 hreflang="zh-Hans"    
                 href="http://www.example.com/bad-chinese-page/"    
                 />
    <xhtml:link     
                 rel="alternate"    
                 hreflang="en"    
                 href="http://www.example.com/good-page/"    
                 />
</url>

これらの各ページが410エラーを返していることを確認してください。これは、サーバーにコンテンツが見つからないことをGoogleに伝えるだけでなく、もはや存在しないことを明確に示しています。それらはインデックスからより速く削除されます。

5
L Martin