GoogleウェブマスターツールのMy robots.txt
には次の値が表示されます。
User-agent: *
Allow: /
どういう意味ですか?私はそれについて十分な知識を持っていないので、あなたの助けを探しています。すべてのロボットが私のウェブサイトをクロールできるようにしたいのですが、これは正しい構成ですか?
そのファイルはすべてのクローラーのアクセスを許可します
User-agent: *
Allow: /
これにより、基本的にすべてのユーザーエージェント(*)がサイトのすべての部分(/)にアクセスできます。
すべてのボットがすべてをクロールできるようにする場合、これがrobots.txtで指定する最良の方法です。
User-agent: *
Disallow:
Disallow
フィールドには空の値があることに注意してください。これは 仕様による を意味します。
空の値は、すべてのURLを取得できることを示します。
あなたの方法(Allow: /
の代わりにDisallow:
)も機能しますが、Allow
は 元のrobots.txt仕様 の一部ではないため、サポートされていませんすべてのボット(多くの一般的なボットがサポートしていますが、 Googlebotなど )。ただし、認識されないフィールドは無視する必要があり、Allow
を認識しないボットの場合、結果はこの場合と同じになります:クロールが禁止されていない場合(Disallow
で) 、すべてをクロールできます。
ただし、(元の仕様によると)少なくとも1つのDisallow
フィールドが必要であるため、これは無効なレコードです。
レコードには、少なくとも1つのDisallowフィールドが必要です。
これはかなり古い質問であり、かなり良い答えがあることを理解しています。しかし、完全を期すためにここに2セントを示します。
公式の ドキュメント によると、4つの方法があり、ロボットがサイトにアクセスするための完全なアクセスを許可できます。
@unorで言及されているように、許可されていないセグメントを持つグローバルマッチャーを指定します。したがって、/robot.txt
は次のようになります。
User-agent: *
Disallow:
コンテンツを含まない/robot.txt
ファイルを作成します。デフォルトでは、すべてのタイプのBots
に対してallが許可されます。
/robot.txt
を完全に作成しないでください。上記の2つとまったく同じ結果が得られます。
メタタグのロボットドキュメント から、サイトのすべてのページで次のメタタグを使用して、これらのページがインデックスに登録されないことをBots
に知らせることができます。
<META NAME="ROBOTS" CONTENT="NOINDEX">
これをサイト全体に適用するには、すべてのページにこのメタタグを追加する必要があります。このタグは、ページのHEAD
タグの下に厳密に配置する必要があります。このメタタグの詳細 here 。
つまり、すべての(*
)ユーザーエージェント/クローラーがサイトのルート(/
)にアクセスできるようにします。大丈夫。