robots.txtを構成してすべてを許可する方法は？

Question

GoogleウェブマスターツールのMy robots.txtには次の値が表示されます。

User-agent: * Allow: /

どういう意味ですか？私はそれについて十分な知識を持っていないので、あなたの助けを探しています。すべてのロボットが私のウェブサイトをクロールできるようにしたいのですが、これは正しい構成ですか？

Jim · Answer

そのファイルはすべてのクローラーのアクセスを許可します

User-agent: * Allow: /

これにより、基本的にすべてのユーザーエージェント（*）がサイトのすべての部分（/）にアクセスできます。

unor · Answer

すべてのボットがすべてをクロールできるようにする場合、これがrobots.txtで指定する最良の方法です。

User-agent: * Disallow:

Disallowフィールドには空の値があることに注意してください。これは仕様によるを意味します。

空の値は、すべてのURLを取得できることを示します。

あなたの方法（Allow: /の代わりにDisallow:）も機能しますが、Allowは元のrobots.txt仕様の一部ではないため、サポートされていませんすべてのボット（多くの一般的なボットがサポートしていますが、 Googlebotなど）。ただし、認識されないフィールドは無視する必要があり、Allowを認識しないボットの場合、結果はこの場合と同じになります：クロールが禁止されていない場合（Disallowで）、すべてをクロールできます。
ただし、（元の仕様によると）少なくとも1つのDisallowフィールドが必要であるため、これは無効なレコードです。

レコードには、少なくとも1つのDisallowフィールドが必要です。

Raja Anbazhagan · Answer

これはかなり古い質問であり、かなり良い答えがあることを理解しています。しかし、完全を期すためにここに2セントを示します。

公式のドキュメントによると、4つの方法があり、ロボットがサイトにアクセスするための完全なアクセスを許可できます。

掃除：

@unorで言及されているように、許可されていないセグメントを持つグローバルマッチャーを指定します。したがって、/robot.txtは次のようになります。

User-agent: * Disallow:

ハック：

コンテンツを含まない/robot.txtファイルを作成します。デフォルトでは、すべてのタイプのBotsに対してallが許可されます。

私は気にしません：

/robot.txtを完全に作成しないでください。上記の2つとまったく同じ結果が得られます。

ぶさいく：

メタタグのロボットドキュメントから、サイトのすべてのページで次のメタタグを使用して、これらのページがインデックスに登録されないことをBotsに知らせることができます。

<META NAME="ROBOTS" CONTENT="NOINDEX">

これをサイト全体に適用するには、すべてのページにこのメタタグを追加する必要があります。このタグは、ページのHEADタグの下に厳密に配置する必要があります。このメタタグの詳細 here 。

Jordi · Answer

つまり、すべての（*）ユーザーエージェント/クローラーがサイトのルート（/）にアクセスできるようにします。大丈夫。

robots.txtを構成してすべてを許可する方法は？

掃除 ：

ハック：

私は気にしません：

ぶさいく ：

掃除：

ぶさいく：