web-dev-qa-db-ja.com

robots.txtを構成してすべてを許可する方法は?

GoogleウェブマスターツールのMy robots.txtには次の値が表示されます。

User-agent: *
Allow: /

どういう意味ですか?私はそれについて十分な知識を持っていないので、あなたの助けを探しています。すべてのロボットが私のウェブサイトをクロールできるようにしたいのですが、これは正しい構成ですか?

110
Raajpoot

そのファイルはすべてのクローラーのアクセスを許可します

User-agent: *
Allow: /

これにより、基本的にすべてのユーザーエージェント(*)がサイトのすべての部分(/)にアクセスできます。

144
Jim

すべてのボットがすべてをクロールできるようにする場合、これがrobots.txtで指定する最良の方法です。

User-agent: *
Disallow:

Disallowフィールドには空の値があることに注意してください。これは 仕様による を意味します。

空の値は、すべてのURLを取得できることを示します。


あなたの方法(Allow: /の代わりにDisallow:)も機能しますが、Allow元のrobots.txt仕様 の一部ではないため、サポートされていませんすべてのボット(多くの一般的なボットがサポートしていますが、 Googlebotなど )。ただし、認識されないフィールドは無視する必要があり、Allowを認識しないボットの場合、結果はこの場合と同じになります:クロールが禁止されていない場合(Disallowで) 、すべてをクロールできます。
ただし、(元の仕様によると)少なくとも1つのDisallowフィールドが必要であるため、これは無効なレコードです。

レコードには、少なくとも1つのDisallowフィールドが必要です。

50
unor

これはかなり古い質問であり、かなり良い答えがあることを理解しています。しかし、完全を期すためにここに2セントを示します。

公式の ドキュメント によると、4つの方法があり、ロボットがサイトにアクセスするための完全なアクセスを許可できます。

掃除 :

@unorで言及されているように、許可されていないセグメントを持つグローバルマッチャーを指定します。したがって、/robot.txtは次のようになります。

User-agent: *
Disallow:

ハック:

コンテンツを含まない/robot.txtファイルを作成します。デフォルトでは、すべてのタイプのBotsに対してallが許可されます。

私は気にしません:

/robot.txtを完全に作成しないでください。上記の2つとまったく同じ結果が得られます。

ぶさいく :

メタタグのロボットドキュメント から、サイトのすべてのページで次のメタタグを使用して、これらのページがインデックスに登録されないことをBotsに知らせることができます。

<META NAME="ROBOTS" CONTENT="NOINDEX">

これをサイト全体に適用するには、すべてのページにこのメタタグを追加する必要があります。このタグは、ページのHEADタグの下に厳密に配置する必要があります。このメタタグの詳細 here

15
Raja Anbazhagan

つまり、すべての(*)ユーザーエージェント/クローラーがサイトのルート(/)にアクセスできるようにします。大丈夫。

7
Jordi