Googleは、リンクされていない、またはサイトマップにないURLをどのように検出してインデックス付けしますか

Question

ウェブサイトの複数のURLがGoogleによってクロールされていることがわかります。 Google検索でsite:を使用して表示しています。

GoogleがこれらのURLを選択する場所はどこにあるのでしょうか？クロールされたURLの多くがサイトマップにないことを確認し、これらのURLのリンクを他のページにも配置していません。 Googleはそのようなコンテンツをどのように発見しますか？

とにかく、すべてのGoogleインデックス付きURLをチェックして、Googleがそれらのページをどのように検出したかに関する情報を取得できますか？

Henry Visotski · Accepted Answer

Googleでサイトページのインデックスを作成できる場所はたくさんあります。サイトマップ、およびライブサイトにあるものは、ほんの一部です。 XMLサイトマップは、Google、Bing、および他の検索エンジンへのシグナルであり、最も重要なページのインデックスを作成し、新しいコンテンツをメモします（CMSおよびサイトマップを自動的に更新するプラグインを使用している場合）。

Googleがサイトにアクセスすると、ページレベルのリンクだけでなく、あらゆる種類のリンクをたどります。ファイル、タクソノミー、ページの複数のバージョンにインデックスを付けることができます... DrupalのようなCMSでは、すべてがノードであるため、ページの一部にもインデックスを付けることができます。

これが、CMSとバックエンドでの動作を知ることが重要である理由です。 noindexメタ、正規化、リダイレクト、robots.txt、Search Console/Bingウェブマスターの組み合わせを使用して、クロール/インデックス登録するものとしないものを制御する必要があります。

Search Consoleを使用してインバウンドリンクを確認し、MozのOpen Site Explorerを使用して個々のページのリンクスケープを分析します。内部および外部リンク。これらすべての間で、ソースを診断できるはずです。

user49591 · Answer

最近、同じ問題が発生し、Googleが私のサイトの内部URLをどのように知っているのか戸惑っていました。

私の問題のディレクトリは/ piwik（Googleアナリティクスのオープンソースの代替）です。

したがって、Googleはソースファイル（htmlなど）のリンクもクロールします。 <meta>や<script> urls in here </script>のようなリンクがある場合、Googleはクロールしてインデックスを作成します。