web-dev-qa-db-ja.com

GoogleとBingのボットのみがサイトをクロールできるようにします

サイトに次のrobots.txtファイルを使用しています。ターゲットはgooglebotとbingbotがページ/bedven/bedrijf/*以外のサイトにアクセスできるようにし、他のすべてのボットがサイトをクロールするのをブロックすることです。

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

最後のルールUser-agent: * Disallow: /は、すべてのボットがサイトのすべてのページをクロールすることを禁止しますか?

10
Konsole

最後のレコード(User-agent: *で始まる)には、「googlebot」、「google」、「bingbot」、または「bing」として識別されないすべてのポライトボットが続きます。
そして、はい、それは彼らが何もクロールすることを許可されていないことを意味します。

*/bedven/bedrijf/*を省略したい場合があります。
robots.txtの元の仕様では、*には特別な意味はなく、他の文字と同じです。そのため、URLに文字列*が含まれているページのクロールのみが禁止されます。
Googleは、*を「文字の任意のシーケンス」のワイルドカードとして使用しているため、robots.txtの仕様に従っていませんが、この場合は 不要 です。 :/bedven/bedrijf/*/bedven/bedrijf/はまったく同じ意味です。パスが始まるすべてのURLを/bedven/bedrijf/でブロックします

最後に、1つのレコードに 複数のUser-agent を含めることができるため、robots.txtを2つのレコードに減らすことができます。

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /
24
unor