サイトに次のrobots.txtファイルを使用しています。ターゲットはgooglebotとbingbotがページ/bedven/bedrijf/*
以外のサイトにアクセスできるようにし、他のすべてのボットがサイトをクロールするのをブロックすることです。
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
最後のルールUser-agent: * Disallow: /
は、すべてのボットがサイトのすべてのページをクロールすることを禁止しますか?
最後のレコード(User-agent: *
で始まる)には、「googlebot」、「google」、「bingbot」、または「bing」として識別されないすべてのポライトボットが続きます。
そして、はい、それは彼らが何もクロールすることを許可されていないことを意味します。
*
で/bedven/bedrijf/*
を省略したい場合があります。
robots.txtの元の仕様では、*
には特別な意味はなく、他の文字と同じです。そのため、URLに文字列*
が含まれているページのクロールのみが禁止されます。
Googleは、*
を「文字の任意のシーケンス」のワイルドカードとして使用しているため、robots.txtの仕様に従っていませんが、この場合は 不要 です。 :/bedven/bedrijf/*
と/bedven/bedrijf/
はまったく同じ意味です。パスが始まるすべてのURLを/bedven/bedrijf/
でブロックします。
最後に、1つのレコードに 複数のUser-agent
行 を含めることができるため、robots.txtを2つのレコードに減らすことができます。
User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10
User-agent: *
Disallow: /