次のように、サブディレクトリに他の多数のパークドメイン/サイトを持つ単一のWebホストがあります。
example.com
は、Webホスティングのプライマリサイトおよびルートディレクトリです。
example.com/www.example2.com
はパークされたサイトの1つですが、プライマリサイトのサブフォルダーにすぎません。
www.example2.com
とwww.example.com/www.example2.com
の両方に同じコンテンツとしてアクセスできますが、前者へのアクセスを許可しながら、後者へのアクセスをブロックしたいと思います。
www。*を許可しないプライマリサイトのrobots.txtファイルは、www.example2.com
のクロールを許可しますか?
あなたが探しているのは、次のようなrobots.txtエントリです:
User-agent: *
Disallow: /www.example2.com
ExampleNR.comの「パークされた」URLが100個以上あることを提案しましょう。ただし、それらのすべてのURLについて1行も書きたくないので、これを使用してください。
User-agent: *
Disallow: /www.example
問題は、実際には正式にサポートされていないが、Googlebotのような多くのロボットはこれらの簡単なワイルドカードを理解できることです。 RegExは間違いなくサポートされていません。 追加情報用
UPDATE
とにかくrobots.txtは単純なプレフィックス一致を使用するため、末尾のアスタリスクを削除しました。ご清聴ありがとうございました w3dk