web-dev-qa-db-ja.com

robots.txtはサブフォルダー内のサイトでどのように機能しますか?

次のように、サブディレクトリに他の多数のパークドメイン/サイトを持つ単一のWebホストがあります。

example.comは、Webホスティングのプライマリサイトおよびルートディレクトリです。

example.com/www.example2.comはパークされたサイトの1つですが、プライマリサイトのサブフォルダーにすぎません。

www.example2.comwww.example.com/www.example2.comの両方に同じコンテンツとしてアクセスできますが、前者へのアクセスを許可しながら、後者へのアクセスをブロックしたいと思います。

www。*を許可しないプライマリサイトのrobots.txtファイルは、www.example2.comのクロールを許可しますか?

1
Coomie

あなたが探しているのは、次のようなrobots.txtエントリです:

User-agent: *
Disallow: /www.example2.com

ExampleNR.comの「パークされた」URLが100個以上あることを提案しましょう。ただし、それらのすべてのURLについて1行も書きたくないので、これを使用してください。

User-agent: *
Disallow: /www.example

問題は、実際には正式にサポートされていないが、Googlebotのような多くのロボットはこれらの簡単なワイルドカードを理解できることです。 RegExは間違いなくサポートされていません。 追加情報用

UPDATE

とにかくrobots.txtは単純なプレフィックス一致を使用するため、末尾のアスタリスクを削除しました。ご清聴ありがとうございました w3dk

2
Hello Fishy