Googleでsite:example.com
を使用すると、次の形式で多くの結果が返されます:https://www.w.example.com/services/edison/16mm-to-2k
明らかにこれは私が提出したものではなく、私のサイトマップの一部でもありません。この種の問題に対処するための解決策は何ですか?
これは特に問題です。HTTPSプロトコルのインデックスが作成され、結果としてサイトにアクセスする前にすべてのリンクに警告が表示されるためです。
*.w.example.com
および*.ww.example.com
のワイルドカードSSL証明書を取得するのは悪い考えのようです。
サイトのDNSはAWS Route 53を介して実行され、サイトはApacheを使用したUbuntu 12.04 EC2で実行されています。
ほとんどの場合、Webサイトの一部がそのようなリンクを生成し、それがGoogleがURLのクロールを開始した方法です。
Webページのリンクをチェックして、これらの誤ったURLの場所を確認し、修正する必要があります。
また、example.com
またはwww.example.com
以外の仮想ホストに対する要求が301
がwww.example.com
の正しいURLにリダイレクトするように、Apache構成を変更できます。このようにして、Googleは最終的に正しいバージョンのインデックスを作成します。
サイトマップは、Googleのインデックスに登録されるコンテンツを制限するのではなく、含めるように機能します。一部のファイルを除外する場合は、前述のrobots.txtファイルを使用するか、リダイレクトを設定します。
このURLが含まれる理由は、Googleが他の場所を指すリンクを見つけた可能性があります。サイト(修正可能)またはサードパーティのサイトに着信リンクとして存在する可能性があります。それを理解するには、 link 構文link:https://www.w.example.com/services/edison/16mm-to-2k
を使用して、そこにリンクしているページを通知します。
googleウェブマスターツールアカウントを持っていますか?あなたがそれらで無料のアカウントを作成し、あなたが実際のサイト所有者であることを確認した場合、Googleはフォルダまたは特定のURLの削除をリクエストすることができます。
私の個人的な経験では、検索エンジンは指示に従わないという自由を取りますが、このステップは少なくともインデックスからあなたのページを削除します。
アカウントを作成する前に、特定の領域へのアクセスを許可しないようにrobots.txtを変更してください。 googleが確認するとすぐに、robots.txtファイルをチェックし、それ自体を更新します。
Googleは他のコンテンツライターが作成したリンクだけでなく、javascriptをヒューリスティックに解釈し、URLを「単純化」して/index.php?page=news.php
=> /news.php
などのラッパーを取り除きます。 1つの方法は、robots.txtでこれらのマングルされたURLを禁止することですが、それは(1)robots.txtを成長させて混乱させ、(2)それらのリンクのランクを奪います。 301 Moved Permanently
を実装するか、Canonical URLタグを追加する必要があります
<link rel="canonical" href="http://moz.com/blog" />
同じコンテンツの最も基本的なアドレスを指します。ほとんどの「中国」ボットはこれに従わないことに注意してください。そのため、Googlebotとユーザーブラウザー以外のすべてをリダイレクトし、Gogolebotとユーザーにメタデータを残すサーバー側条件を考慮することができます。
この質問はGoogleが何をしているのかに焦点を当てていますが、私にはあなたの根本的な問題はGoogle特有のものではないようです。
なぜ人々が使用することを望まないように思われるこれらの名前が、DNSにも存在するのでしょうか?
これらの名前が存在して解決することが意図的な場合、人々(およびGooglebot)がこれらの名前を使用して接続するときに実際のサイトを提供するのはなぜですか?ユーザーをサイトに誘導したい場合は、この誤った名前を使用してサイト内を移動するのではなく、正規名を使用して実際のサイトにリダイレクト(永続リダイレクト/ 301)することで、はるかに適切です。