GoogleとBingのボットのみがサイトをクロールできるようにします

Question

サイトに次のrobots.txtファイルを使用しています。ターゲットはgooglebotとbingbotがページ/bedven/bedrijf/*以外のサイトにアクセスできるようにし、他のすべてのボットがサイトをクロールするのをブロックすることです。

User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: /

最後のルールUser-agent: * Disallow: /は、すべてのボットがサイトのすべてのページをクロールすることを禁止しますか？

unor · Accepted Answer

最後のレコード（User-agent: *で始まる）には、「googlebot」、「google」、「bingbot」、または「bing」として識別されないすべてのポライトボットが続きます。
そして、はい、それは彼らが何もクロールすることを許可されていないことを意味します。

*で/bedven/bedrijf/*を省略したい場合があります。
robots.txtの元の仕様では、*には特別な意味はなく、他の文字と同じです。そのため、URLに文字列*が含まれているページのクロールのみが禁止されます。
Googleは、*を「文字の任意のシーケンス」のワイルドカードとして使用しているため、robots.txtの仕様に従っていませんが、この場合は不要です。：/bedven/bedrijf/*と/bedven/bedrijf/はまったく同じ意味です。パスが始まるすべてのURLを/bedven/bedrijf/でブロックします。

最後に、1つのレコードに複数のUser-agent行を含めることができるため、robots.txtを2つのレコードに減らすことができます。

User-agent: googlebot User-agent: google User-agent: bingbot User-agent: bing Disallow: /bedven/bedrijf/ Crawl-delay: 10 User-agent: * Disallow: /