私のブログのウェブマスターツールでは、クロールエラーセクションに通知があります。つまり、robots.txtファイルにアクセスできなかったため、Googleはサイトをクロールできませんでした。
私のブログのrobots.txtファイルは次のとおりです。
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
上記のファイルの詳細が間違っているとは思わないが、なぜこのような危険な通知を受け取ったのか理解できない。
「robots.txtファイルにアクセスできなかったため、Googleはサイトをクロールできませんでした」というメッセージが表示された場合。問題となっているのはrobots.txtファイルの内容ではなく、Googleがファイルにアクセスできなかったということです。また、Googleがrobots.txtファイルにアクセスできない場合、サイトをクロールしません。
ウェブマスターツールでfetchをGooglebotとして使用することをお勧めします。 robots.txtファイルが正常にフェッチされた場合、過去の問題である可能性があります。そうでない場合は、明らかにGooglebotへのアクセスを確保するためにさらに検討する必要があります。
robots.txt
にはAllow
のような公式コマンドはありません。デフォルトでは、すべてが許可されています。 (ただし、1つのルートで多くのディレクトリパスを許可していない場合は、Allow
を使用して例外を与えることができます。多くの場合、これに対する要件はありません)。
ただし、問題が発生することを期待しているわけではありません。
Mediapartners-Googleユーザーエージェントを指定する理由はありません。これも、すべてのクロールを許可するということです。
上記のrobots.txt
に必要なものは次のとおりです。
User-Agent: *
Disallow: /search/
User-agent: Mediapartners-Google
Disallow: /
Sitemap: http://latest-seo-news-updates.blogspot.com/feeds/posts/default?orderby=UPDATED
Googleウェブマスターツールは、サイトの一部にボットを許可していない場合、robots.txt
にいる場合、サイト上のX個のURLが/search/
によってブロックされたという警告を報告します。この通知を展開して、ブロックされたURLを具体的に表示することができます。GoogleWebmaster Toolsが警告しているのは、拒否したいURLだけであることがわかります。
Xen などのアプリケーションを実行して、サイトをクロールし、具体的にクロールできるURLを確立することもできます。また、Googlebotとして取得し、Googleウェブマスターツール内からrobots.txt
ファイルをテストして、それ以上の問題または少なくとも問題の詳細を警告することができます。
編集:さらに明確化した上で、UA Mediapartners-GoogleのDisallow
ディレクティブを追加しました。
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
このエラーは、コメント/ searchを入力することにより、エンジンボットのDisallow: /search *
手段が原因で発生します。基本的には、サイトの検索インデックスへのアクセスをブロックしています。上記のコードに注意してください。
User-agent: Mediapartners-Google
Disallow:
Disallow:
は、AdSenseボットが無制限にどこでもクロールできるようにすることを意味します。
The Allow: /
は古いボットでは解釈されない場合がありますが、Googleボットでは適切に解釈されます。