Robots.txtの最適な初期設定または一般的な設定は、検索エンジンがサイトを通過できるようにするためですが、いくつかのフォルダーを制限することはできますか?
常に使用すべき一般的な設定はありますか?
Googleウェブマスターツールには「クローラアクセス」というセクションがあります
このセクションでは、robots.txtを非常に簡単に作成できます
たとえば、ブログ以外のすべてを許可するには、test your robot.txtというフォルダーを次のようにします。
User-agent: *
Disallow: /Test
Allow: /
特別な要件がない場合の最良の構成は、まったく何もありません。 (少なくとも404がエラーログをいっぱいにしないように、空のファイルを追加することをお勧めします。)
サイト上のディレクトリをブロックするには、「Disallow」句を使用します。
User-agent: *
Disallow: /example/
以前の「Disallow」句をオーバーライドする「Allow」句もあります。したがって、「example」フォルダーを許可していない場合は、「example/foobar」などのフォルダーを許可できます。
Robots.txtは、必要に応じてこれらのページにアクセスするユーザーを禁止しません。したがって、一部のページを秘密にしておく場合は、何らかの認証(ユーザー名/パスワード)の背後にそれらを隠す必要があります。
多くのrobots.txtファイルにある可能性が高いもう1つのディレクティブは「Sitemap」で、XMLサイトマップがある場合はその場所を指定します。独自の行に配置します。
Sitemap: /sitemap.xml
official robots.txt site には、さまざまなオプションに関する詳細な情報があります。しかし、一般に、大多数のサイトではほとんど構成は必要ありません。
robots.txtファイル について知っておく必要があるすべてのものは次のとおりです。