Googleは、非公開またはサイトの秘密の部分である意図しないコンテンツをインデックスに登録しています

Question

Googleは、リンクしていないサイトの一部にインデックスを付けています。これは、作業中のモバイルバージョンのWebサイトです-www.domain.com/m/ <-Mに注意してください。

それはどのように可能ですか？私が考えることができるのは、GoogleがGoogle AnalyticsからURLを取得していることだけです。

開発サイトと同じ問題、dev.domain.com-これは、htpasswdを再度有効にすることで修正しました。一度持っていたが、いくつかのテスト目的のためにそれを無効にしました。

robots.txtを使用してインデックス作成をスキップできることはわかっていますが、「パブリックドメインであるため、これに極秘のものを入れないでください」と常に言われています。

Googleは<meta name="robots" content="noindex,nofollow">のルールに従いますか？これをモバイル版に搭載することを考えています。

スマートフォンからwww.domain.comにアクセスしているユーザーは、モバイルバージョンに自動的にリダイレクトされます。

paulmorriss · Answer

クロール対象をGoogleがどのように認識するかについては、さまざまな理論があります。誰かがモバイル版にリンクしている可能性があります。 GoogleがランダムなURLを試し、サイトの/ mバージョンに遭遇した可能性があります。私は彼らが彼らの分析データからURLを使用しないと言っていることを知りません。

はい、これらのルールに従います： http://googlewebmastercentral.blogspot.com/2007/03/using-robots-meta-tag.html 。

Jon Cram · Answer

既存のインデックス化されたコンテンツからのハイパーリンクを含まないコンテンツを含む、すべての公開Webをインデックス化することはGoogleの利益です。

サイトのモバイルバージョンのURLにhttp://m.example.comまたはhttp://example.com/m/を使用するのが一般的です。

したがって、Googleのクローラーがhttp://m.example.comまたはhttp://example.com/m/が存在するかどうかを確認し、見つかった場合はそのようなコンテンツのインデックス付けを試みると想定するのが合理的です。

Google Mobileが、既知のコンテンツに適切な外観のhttp://m.example.comまたはhttp://example.com/m/ URLが存在するかどうかを判断し、これを検索結果のユーザーへのリンクとして提示しようとすることも想定できます。そのような占いがクローラーにフィードバックしないと考える理由はありません。

Kenneth · Answer

サイトにグーグル分析をインストールしている場合、これはほぼ間違いなくそれを知る方法です。私は頭の上のコードを知りませんが、後で機会があればそれを検索してこの投稿を編集しますが、プライベートにしたいページのクロールを防ぐためにあなたのページに置くことができるコードがあります。