多くのページ(40M)を持つ多言語Webサイトを持つサイトがあります。サイトにはUGCがあり、各翻訳は実際にはタイトル用です。各サブドメインは、言語ごとに異なるタイトルを持つ同じコンテンツを指します。私の知る限り、各サブドメインは検索エンジンによってインデックス付けされる必要があります。つまり、実際には40M xのサポートされている言語をクロールする必要があります。したがって、各サブドメインクローラーを、その言語(タイトル+ UGC)で完全に記述されたページに誘導するのが最善かもしれないと考えました。
これを行う方法はありますか?検索エンジンはこれを自分で理解する必要がありますか?
Googleは、1つのページに2つの言語を混在させないでください。そのため、タイトルを翻訳したが元の言語本文を含むページをGoogleにインデックス登録させないでください。
そのための1つの方法は、翻訳されたタイトルを持つすべてのページを次のような単一のサブディレクトリに入れることです。
en.example.com/translated/this-was-spanish.html
en.example.com/translated/this-was-german.html
es.example.com/translated/this-was-english.html
de.example.com/translated/this-was-english.html
次に、Disallow: /translated/
をrobots.txtに入れます。これにより、Googlebotは完全に翻訳されていないコンテンツのクロールとインデックス登録の両方を行うことができなくなります。
部分的に翻訳されたすべてのコンテンツを単一のディレクトリに移動できない場合は、翻訳されたタイトルはあるが本文は翻訳されていないページで meta robots noindex タグを使用できます。 Googleはこれらのページを引き続きクロールしますが、インデックスには含めません。
検索エンジンのガイドラインに違反しており、パフォーマンスが低下する可能性があるため、すべてのサブドメインに同じコンテンツを保持することはお勧めしません。
別の国を運営している場合、同じコンテンツを使用できますが、オファー価格/サービスの場所などを変更する必要があります。国固有のクローラーがないため、クローラーをリダイレクトすることは良い習慣ではありません。検索エンジンは、関連性と200以上の要素に基づいてページをランク付けする場合があります。