robots.txtを構成して、いくつかのディレクトリを除いてサイトのクロールを許可するにはどうすればよいですか？

Question

Robots.txtの最適な初期設定または一般的な設定は、検索エンジンがサイトを通過できるようにするためですが、いくつかのフォルダーを制限することはできますか？

常に使用すべき一般的な設定はありますか？

corymathews · Accepted Answer

Googleウェブマスターツールには「クローラアクセス」というセクションがあります

このセクションでは、robots.txtを非常に簡単に作成できます

たとえば、ブログ以外のすべてを許可するには、test your robot.txtというフォルダーを次のようにします。

User-agent: * Disallow: /Test Allow: /

DisgruntledGoat · Answer

特別な要件がない場合の最良の構成は、まったく何もありません。（少なくとも404がエラーログをいっぱいにしないように、空のファイルを追加することをお勧めします。）

サイト上のディレクトリをブロックするには、「Disallow」句を使用します。

User-agent: * Disallow: /example/

以前の「Disallow」句をオーバーライドする「Allow」句もあります。したがって、「example」フォルダーを許可していない場合は、「example/foobar」などのフォルダーを許可できます。

Robots.txtは、必要に応じてこれらのページにアクセスするユーザーを禁止しません。したがって、一部のページを秘密にしておく場合は、何らかの認証（ユーザー名/パスワード）の背後にそれらを隠す必要があります。

多くのrobots.txtファイルにある可能性が高いもう1つのディレクティブは「Sitemap」で、XMLサイトマップがある場合はその場所を指定します。独自の行に配置します。

Sitemap: /sitemap.xml

official robots.txt site には、さまざまなオプションに関する詳細な情報があります。しかし、一般に、大多数のサイトではほとんど構成は必要ありません。

Jason · Answer

robots.txtファイルについて知っておく必要があるすべてのものは次のとおりです。