web-dev-qa-db-ja.com

「site:」は、他の方法では返されないページを返しますか?

今日、私は私のウェブサイトの1つで検索を試みましたが、これについてのページがあると思ったので、検索で次を使用しました。

site:m2osw.com upload

結果を調べ始めたので、探しているページが見つかりませんでしたが、結果に「blah.m2osw.com」と書かれた私のウェブサイトの1つが表示されていることに気付きました。

このサイトには長い間正しい正規URLがあり、別のドメインを指しているため、これは私にとって大きな驚きでした。このようなもの:

<link rel="canonical"
      type="text/html"
      title="Home Page"
      href="https://exdox.com"/>

正規表現があるときはいつでもGoogleに目を通すように指示すると思っていましたが、今は疑問があり、これらの正規表現はクロスドメインで機能しないのではないかと考えています。 Googleがテストサイトではなく実際のサイトをインデックス付けするように、テストサイトを任意の場所に置き、テストサイトを実際のサイトに向ける最良の方法であるどこかを読んだと思いました...

その標準がhttps://blah.m2osw.comから正しいように見えるのか、それとも何か他のものを追加する必要があるのか​​(つまり、ロボット= NOINDEXなど...)

4
Alexis Wilke
<meta rel="canonical"
  type="text/html"
  title="Home Page"
  href="https://exdox.com"/>

これは間違っています。これは、link要素ではなく、meta要素でなければなりません。例えば:

<link rel="canonical" href="https://exdox.com">

このコンテキストのtypeおよびtitle属性は無関係です。

「site:」は、他の方法では返されないページを返しますか?

ただし、これは正しいです。 Google site:演算子は、通常のGoogle検索では通常返されないURLを実際に返します。 rel="canonical" link要素は、両方のページがindexedになることを必ずしも妨げるわけではありませんが、可能であればSERPで正規ページを返す必要があるadvises Googleです。 (site:演算子はindexedのページを返します。)ただし、Googleがこのアドバイスに従うかどうかはGoogle次第です。 Googleが(独自の分析で)宣言された「標準」URLが実際には標準(つまり、十分に類似している)ではないと考えている場合、それは無視できます。差出人 Google Webmaster Centralブログ-正当なクロスドメインコンテンツ複製の処理

Rel = "canonical"リンク要素は、絶対的なディレクティブではなくヒントと見なされますが、可能な限りそれに従うようにします。

UPDATE:これが「テストサイト」である場合は、はい、おそらくインデックス化されるべきではなく、rel="canonical"タグはほとんどが無関係です。 noindex(ロボットmetaタグまたはX-Robots-Tag HTTP応答ヘッダー)またはrobots.txtでブロックするか、他の方法(pwd、IP制限など)でアクセスを制限する必要があります。 。

5
MrWhite

その標準が https://blah.m2osw.com から正しいように見えるかどうか知っていますか

これは本当に面白い質問の例です;)

ポイントへ:

  • canonicalは単なる推奨事項です。つまり、Googleが独自に、検索結果として表示するものを決定します-正規化されたURLまたは正規のURL
  • SERP Googleがサイトクエリ用に構築すると、特定のドメインのURLが表示されます。これは、意味のあるクエリパーツに関連しています。正規化されたURLと正規化されたURLの両方が表示される可能性があります。実際、これらは両方とも特定のクエリに関連しています。
  • 「通常」の非サイトクエリでは、関連性が低いため、Googleは正規化されたURLの表示を控えます。
2
Evgeniy