web-dev-qa-db-ja.com

Googleが?utm_campaignクエリ文字列でページのインデックスを作成する理由

最近、Googleがutm_campaign、utm_source、utm_mediumのクエリ文字列引数を含むURLのインデックスを作成していることに気付きました。結果では、正規のURLではなく、これらのクエリ文字列を含むURLが表示されます。

utm_campaign added to URL

これは「コンテンツの重複」の問題である可能性があることは理解していますが、Webサイト全体でlink rel=canonicalタグを使用しています。一例として:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Screenshot of canonical tag

私の期待は、Googleがインデックス作成に正規のURLを使用することです。何が間違っていますか?

9
Brendon

あなたのウェブサイトを今のように見直して、これがもはや/現在問題であるかどうかはあまりわかりません。

この問題は、UTMパラメーターを含むWebサイトの内部リンクではありません(別の質問が示唆するように)。

ソーシャルメディアでウェブサイトのコンテンツを共有するために必要なプロセスは、URLにUTMパラメーターを残し、それらのURLを共有しているため、ある時点でインデックス化されたようです。

これが起こることはまれですが、それは他の多くのサイトで以前に起こりました。これらのパラメータでインデックスが3ページしかないという事実は、これが深刻な問題でもサイト全体の問題でもないことを示しています。

これが起こることを根絶するのを助けるためにあなたがとることができるステップはここにあります:-

1.ページに正規URLを指定します

すでにこれを行っており、実装は正しいです。これにより、指定された正規URLのみが検索エンジンで重み付けされます。おそらくこれは常に行われていますが、そうでない場合は、ページのいくつかの古いインスタンスがまだUTMパラメーターでインデックス付けされている理由を説明できます。

Correct implementation of canonical URLs

2. Search ConsoleでUTMパラメータのインデックスを作成しないようにGoogleに指示します

一部のURLがUTMパラメーターでインデックス付けされている場合(ケースなど)、URLパラメーターは、ドメインのGoogle Search Consoleの[クロール> URLパラメーター]セクション内で検出されたものとして表示されます(以下を参照)。

Google Search Console UTM URL Parameters

UTMパラメータが表示されない場合でも、「パラメータを追加」してそれらを作成できます。

No: Doesn't affect page content (ex: tracks usage)(「パッシブパラメータ」と呼ばれる)を選択するだけで、Googleは 通常、特定のパラメータ値を持つ1つのURLのみをクロールします

3 robots.txtのURLパラメーターを禁止します

これにより、GoogleはこれらのURLのコンテンツのインデックス作成をブロックしますが、実際のURL自体のインデックスは作成しません(検索結果には表示されますが、以下のような説明は省略します)。

Indexed page disallowed in robots.txt

次のようなものを追加するだけで、robots.txtからこれを処理できます。

Disallow: /*?utm=*

結論

ステップ1と2は、予防策と「ベストプラクティス」の問題として実行されるべきであり、ステップ1と2に加えてステップ3もおそらく実行されます(単独では有効ではないため)。

Google Search Console内には、URLを(一時的に)削除する機能もあります。これは、いくつかの頑固なページがまだインデックスに登録されているが、問題の根本原因が解決されており、この機能が検索結果からそれらを完全に削除するのに十分であることがわかっている場合に特に便利です。

これを以前に調査したことがありますが、パラメーターを含むURLをサポートするかどうかを思い出せないため、上記のステップとしてこれを含めていません[要出典]。私はかつて答えを知っていましたが、この特定の機会に私の記憶が失敗します。

GoogleからのURLの削除 に関する詳細情報。

3
zigojacko

ウェブサイトのコンテンツ内でこれらのリンクを使用してページをリンクしているようです。

Googleがインデックスに登録されないようにするには、ウェブサイト内のこれらのリンクにrel="nofollow"を追加し、robots.txtファイルからこれらのパラメーターをブロックします。

Disallow : /*utm_campaign
2

正規URLがインデックスに登録されているかどうかを確認しましたか?正規URLがインデックス付けされている場合、心配する必要はありません。

Googleのウェブマスターツールを試して、GoogleがURLパラメータを処理する方法を変更できます here

1
muhammad usman