web-dev-qa-db-ja.com

ホームページのみをクロールできるGooglebotを除くすべてのボットを許可する

Googlebotを除くすべてのボットがサイトをクロールしてインデックスに登録できるようにしたい。 Googleにホームページのみのインデックス登録を許可したい(/)URL、それ以外は。

Robots.txtでこれを実行したいと思います。どうすればこれを達成できますか?

2
saturnusringar

Stackoverflow で既に回答されています。そこでユーザーエージェント名を定義するだけです。ここではGooglebotのみを指定しているため、そのルールは他の検索エンジンには適用されません。

user-agent: Googlebot
Allow: /$
Disallow: /

グーグルは言った (ページの終わりに)として。特定の文字列で終わるURLに一致させる場合は、$を使用します。ここで/ $は、/で終わるすべてのURLのインデックス作成を許可することを示します(例:example.com/exapmle.com/file/)。ただし、次の行は、すべてのサブドルファーをクロールしないため、exapmle.com/file/など/または任意のファイル名で終わるファイルはクロールできません。

注:たとえば、クロールを許可する場合は、他の検索エンジンボットを指定する必要はありません。

User-Agent: bingbot
Allow: /

あなたがラインの上に追加する天気かどうか、それは何の違いもありません。人々はrobots.txtを使用して何かをブロックしますが、指定しない場合、デフォルトでは既にクロールが許可されています。インターネットには非常に多くのWebサイトがあり、robots.txtがまったくないため、すべてのクローラーはデフォルトでサイトをクロールします。

3
Goyllo