robots.txtファイルには、サイトでインデックスを作成できないロボットのリストがあり、残りは他のすべてのロボットを許可する必要がありますが、本当の違いを知りたいこれらの2つの規則の間:
User-agent: *
Disallow:
この:
User-agent: *
Allow: /
Allow
は、Wikipediaによると非標準です: http://en.wikipedia.org/wiki/Robots.txt 。
User-agent: *
Disallow: /
上記のコードは、URLパスに一致するものをクロールしないようロボットに指示します。上記の手順を使用すると、Googlebotの他の検索エンジンボットはWebサイト全体をクロールしません。
User-agent: *
Allow: /
上記は、すべてが許可されていることを示しています。 Googlebotを含むすべての訪問ボットは、ウェブサイトをクロールできます。
すべてのクロールを許可するには、いくつかのオプションがあります。最も明確で最も広くサポートされているのは:
User-agent: *
Disallow:
言い換えると、「すべてのユーザーエージェントは何も禁止されていないため、すべてをクロールできます」という意味です。これは、 robotstxt.org にリストされている「すべてのクロールを許可」のバージョンです。
もう1つのオプションは、robots.txtファイルをnoにすることです。ロボットが/robots.txt
で404エラーに遭遇すると、クロールが制限されていないと見なします。
robots.txtでAllow:
ディレクティブを使用することはお勧めしません。すべてのクローラーがそれらをサポートしているわけではありません。 Allow:
ディレクティブとDisallow:
ディレクティブの両方がある場合、最初または最後の一致ルールではなく、最長一致ルールが優先されます。これにより、プロセスが大幅に複雑になります。 「許可」を使用する場合は、 one from Google などのテストツールでrobots.txtファイルをテストしてください。