すべてのロボットを許可するrobots.txt

Question

robots.txtファイルには、サイトでインデックスを作成できないロボットのリストがあり、残りは他のすべてのロボットを許可する必要がありますが、本当の違いを知りたいこれらの2つの規則の間：

User-agent: *
Disallow:

この：

User-agent: *
Allow: /

User-agent: * Disallow:

この：

User-agent: * Allow: /

michael667 · Answer

Allowは、Wikipediaによると非標準です： http://en.wikipedia.org/wiki/Robots.txt 。

Nishi · Answer

User-agent: * Disallow: /

上記のコードは、URLパスに一致するものをクロールしないようロボットに指示します。上記の手順を使用すると、Googlebotの他の検索エンジンボットはWebサイト全体をクロールしません。

User-agent: * Allow: /

上記は、すべてが許可されていることを示しています。 Googlebotを含むすべての訪問ボットは、ウェブサイトをクロールできます。

Stephen Ostermiller · Answer

すべてのクロールを許可するには、いくつかのオプションがあります。最も明確で最も広くサポートされているのは：

User-agent: * Disallow:

言い換えると、「すべてのユーザーエージェントは何も禁止されていないため、すべてをクロールできます」という意味です。これは、 robotstxt.org にリストされている「すべてのクロールを許可」のバージョンです。

もう1つのオプションは、robots.txtファイルをnoにすることです。ロボットが/robots.txtで404エラーに遭遇すると、クロールが制限されていないと見なします。

robots.txtでAllow:ディレクティブを使用することはお勧めしません。すべてのクローラーがそれらをサポートしているわけではありません。 Allow:ディレクティブとDisallow:ディレクティブの両方がある場合、最初または最後の一致ルールではなく、最長一致ルールが優先されます。これにより、プロセスが大幅に複雑になります。「許可」を使用する場合は、 one from Google などのテストツールでrobots.txtファイルをテストしてください。