web-dev-qa-db-ja.com

Googleインデックスからサイト全体を削除する

Googleインデックスからコンテンツを削除したい。 Googleインデックスには、約5,000,000ページ前にGoogleインデックスに登録された膨大な数のページが私のウェブサイトに含まれていますが、現在は残されたページは3,025,000です。

私は次のことをしましたが、ページの削除は非常に遅いペースです。

robots.txt:

User-agent: *
Disallow: /

.htaccess:

rewriteengine on
rewritecond %{HTTP_USER_AGENT} ^.*Googlebot/2.1.*$
rewriterule .* - [F,L]

は、コンテンツをクロールしようとしたときにGooglebotに返されるコンテンツです。

HTTP/1.1 410 Gone
Date: Sat, 05 Jan 2013 12:39:23 GMT
Server: Apache/2.2.23 (Unix) mod_ssl/2.2.23 OpenSSL/0.9.8e-fips-rhel5
        mod_fastcgi/2.4.6 mod_jk/1.2.37 mod_auth_passthrough/2.1 mod_bwlimited/
        1.4 FrontPage/5.0.2.2635 PHP/5.3.19
Content-Length: 661
Connection: close
Content-Type: text/html; charset=iso-8859-1

また、HTMLメタタグnoindexを使用しました。フォローはしませんが、効果はありません。

<meta name="googlebot" content="noindex,nofollow">

ウェブサイトの削除も申請しましたが、コンテンツの削除速度は非常に遅いです。過去35日間で、削除されるページはわずかです。私のWebサイトもGoogle検索インデックスから削除されますが、Google Webmasters Tools-Health-> Index statusにはまだ3,025,000ページが表示されています。サイトを再送信すると、既にインデックス登録されたページが表示されます。ページを削除する速度を上げるにはどうすればよいですか?

7
Vineet1982

.htaccess


  • User-AgentをGooglebot 2.1に設定してサイトの周りを最後までクリックしたところ、410はヒットしませんでした。サイト全体で正しく機能していますか?

  • Fは、Googlebotが生成したFetchではなく、403(禁止)を生成する必要があります。

  • ページが禁止されている、なくなっているなどのことだけをGoogleに伝えるのはなぜですか?メタnoindexは、Google以外の検索エンジンに指示することを示唆しています。

メタNoindex


特定のロボットにnoindexを指示し、すべてのロボットにindexを指定してキャンセルしているようです。

<meta name="googlebot" content="noindex,nofollow">
<meta name="searchbot" content="noindex,nofollow">
<meta name="baidu" content="noindex,nofollow">
<meta name="geo.country" content="IN">
<meta name="robots" content="Index, Follow">


Robots.txt


robots.txtファイルには、実際には含まれていません

User-Agent: *

Disallow: / 

あなたが言うように。を含む

User-agent: *
Disallow: /judgment_view
Disallow: /payment
Disallow: /include
Disallow: /search.php*
Disallow: /admin

crawlingを防止するだけであり、インデックスからのコンテンツをremoveしないため、それほど重要ではありません。

溶液


目的を正確に述べていません。サイトで行った手順からも明らかではありませんが、上記が出発点として役立つはずです。

4
GDav

ページがランク付けされているため、Googleはすぐにページをドロップしません。ページをすぐにドロップすると、人々はページのランクが失われることを愚痴と誤解します。だから、ちょっとした猶予期間のようなものです。

.htaccessリダイレクトの問題は、GoogleがHTACCESS内の誤りであると想定できるため、定期的に戻って確認することです。多くのページがある場合、時間のかかるプロセスであるためです。

また、robots.txtは常にクロールでチェックされるわけではないため、すべてのページでaを実行する必要があります。個人的には.htaccessを使用しません。 NOINDEXはロボットやhtaccessよりも高速ですが、上記でリンクした削除ツールを試してください。

<meta name="robots" content="noindex,nofollow">

また、別の要因は、Googleがあなたのサイトをランキングの観点でどのように扱うか、そしてその速度と見なすものです。そのため、VPSで速度を上げると、Googleボットが割り当てられたXの時間クロールし、その後に関係なく離れるという事実のために、Googleがクロールするページの量を増やす必要があります。可能。

最良の方法、ヒットまたはミス

今すぐURLを削除する最良の方法はウェブマスターツールを使用することですが、300万ページがあると非現実的に不可能になりますが、多くの人が知らない、URLがほぼ同じで面白いサイト削除ツールがあります。

小切手

http://www.google.com/webmasters/tools/removals

http://www.google.com/webmasters/tools/url-removal?hl=ja&siteUrl= (これはウェブマスターツールの1つ-上記のサイトの削除をリクエストできます)

3
Simon Hayter

サイトのページのヘッドセクションに<meta name="robots" content="noindex,nofollow">を追加すると、作業がスピードアップしますか?

2
mahnsc