私はそのためにそのようなサブドメインを使用しているCDN、cdn1-cdn5を通じて静的コンテンツを実行しています。
この方法で画像、CSS、JSファイルだけを読み込んでいますが、明らかにGoogleはサブドメインのいくつかのページにインデックスを付けており、Googleインデックスに表示され、「通常の」ページの複製です。
問題は、CDNがファイルを追加のアップロードなしでサブドメインに表示する方法を設定していることです。つまり、サブドメインはメインサイトにあるコンテンツのミラーコピーであり、ファイルをアップロードできませんサブドメインに、メインサイトにアップロードし、アドレスバーでwwwをcdn1に変更して、私のサイトにあるのと同じコンテンツをCDN経由で表示できます。
2つの質問があります。
たぶん、この問題に関連して私が知る必要のある何かがありますか?
更新:太字のテキストが更新されます
ウェブマスターツールでサブドメインを削除できますが、最初にサブドメインを個別のサイトとして追加してから、サイトの削除を送信する必要があります。それらは1日かそこらで消えるはずです。
Googleからサイトを削除する手順は次のとおりです。 https://support.google.com/webmasters/answer/1663427?hl=ja
簡潔な答え。
すべてのページのHTMLのヘッダーに<meta name="robots" content="noindex">
を挿入します。検索エンジンがこれらのページをスパイダーしたら、それを確認して、
User-agent: *
Disallow: /
...各サブドメインのルートディレクトリにあるrobots.txtファイル内。
これにはもちろん時間がかかります。たとえばGoogleが変更に気づき、SERPに反映するには、通常30〜60日かかります。 Googleがサブドメインの鮮度をどのように評価するかによって、時間がかかる場合があります。
さまざまな方法がありますが、ここにはいくつかありますが、1つだけを使用するか、それらを組み合わせることができます
.htaccess
ファイルを使用できる場合は、インデックスを作成したくないサーバーで 1 redirect を設定します。Robots.txtについては使用できますが、より堅牢で、リダイレクトなどのすべてのクローラーが従う必要があるソリューションを使用する方がはるかに優れたオプションです。
ここでは、Matt Cuttsが301リダイレクトvs rel = "canonical"について説明している短いビデオを見ることができます 。そのページとビデオからの抜粋は次のとおりです。
さて、Googleがrel = canonicalのURLを常に優先URLとして使用するかどうかについて質問を受けることがあります。答えは、rel = canonical urlを強力なヒントとして使用することですが、場合によっては使用しません。
- たとえば、偶然に自分の足で撮影していると思われる場合(rel = canonicalを存在しない/ 404ページに向ける)、rel = canonicalで指定したリンク先URLを使用しない権利を留保します。
- Rel = canonicalの設定を使用しない別の例:Webサイトがハッキングされたと考え、ハッカーが悪意のあるrel = canonicalを追加した場合。最近、その件についてツイートしました。 「明るい」側では、ハッカーがrel = canonicalタグを挿入するのに十分なほどあなたのWebサイトを制御できる場合、通常、マルウェア、隠れたまたは悪意のあるリンク/テキストなどを挿入するなど、はるかに悪質なことを行います。
ビデオでは、301には誰もが従わなければならないという事実など、さらにいくつかの状況と理由について言及しています。