robots.txtはサブフォルダー内のサイトでどのように機能しますか？

Question

次のように、サブディレクトリに他の多数のパークドメイン/サイトを持つ単一のWebホストがあります。

example.comは、Webホスティングのプライマリサイトおよびルートディレクトリです。

example.com/www.example2.comはパークされたサイトの1つですが、プライマリサイトのサブフォルダーにすぎません。

www.example2.comとwww.example.com/www.example2.comの両方に同じコンテンツとしてアクセスできますが、前者へのアクセスを許可しながら、後者へのアクセスをブロックしたいと思います。

www。*を許可しないプライマリサイトのrobots.txtファイルは、www.example2.comのクロールを許可しますか？

Hello Fishy · Accepted Answer

あなたが探しているのは、次のようなrobots.txtエントリです：

User-agent: * Disallow: /www.example2.com

ExampleNR.comの「パークされた」URLが100個以上あることを提案しましょう。ただし、それらのすべてのURLについて1行も書きたくないので、これを使用してください。

User-agent: * Disallow: /www.example

問題は、実際には正式にサポートされていないが、Googlebotのような多くのロボットはこれらの簡単なワイルドカードを理解できることです。 RegExは間違いなくサポートされていません。追加情報用

UPDATE

とにかくrobots.txtは単純なプレフィックス一致を使用するため、末尾のアスタリスクを削除しました。ご清聴ありがとうございました w3dk