web-dev-qa-db-ja.com

robots.txtで、許可しないルールの下に「許可:/ *」があるのはなぜですか?

すべてのGoogleへのフルアクセスを許可したい

Allow: /*以下Disallow:について特に混乱しています

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google
Disallow:
2

Allowディレクティブは、robots.txtの非標準の拡張機能です。元のrobots.txt標準には、Disallowディレクティブのみが含まれています。 GoogleのロボットdoAllowディレクティブを理解しているため、Googleロボットを対象とするセクションでそれらを使用しても問題ありません。 Allowディレクティブは、Disallowディレクティブよりも具体的な場合にのみ使用してください。これは、Disallowに対抗します。それは、それ以外の場合は許可されないセクション全体のきめの細かい許容範囲(たぶん1ページだけ)を与えるために使用できます。

あなたの場合、AllowディレクティブはDisallowディレクティブと同じことを言っているので、省略する必要があります。

すべてのGoogleロボットがサイトのすべてをクロールできるようにしたいと言います。その場合、メインGooglebotのルールも必要になります。 robots.txtでこれを使用することをお勧めします

# Google Image
User-agent: Googlebot-Image
Disallow:

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

# Googlebot
User-agent: Googlebot
Disallow:
1