10MBのHTMLファイルがあります。 Googleはファイル全体をクロールしますか、それとも最初のX MBのみを調べますか?
唯一の 私が見つけた投稿 は2008年からのデータを持っているようです。したがって、私はそれを信用しません。
これをテストする必要があります。ウェブマスターツールに移動し、[健全性]> [Fetch as Google]をクリックします。取得するものが、クローラーが取得するものとまったく同じであると信頼できます。
2015年12月、GoogleはProject GutenbergのWebサイトでPride and Prejudiceの最初の9つの章のみをインデックス化しました。第10章は、約100k(メガバイトの1/10)です。
ただし、2017年3月にこの検索を繰り返すと、第10章の結果が示されました。
文書に大量のテキストが含まれている場合、Googleはそのすべてを索引付けしません。実際、Googleは2015年の最初の約1万件のみをインデックスに登録しているように見えますが、少なくとも一部のサイトでは増加しています。
Googlebotはそれ以上のデータをダウンロードするつもりです。特定のポイントの後にドキュメント内のテキストのインデックスを作成しない場合があります。
この実験から、Googleがユーザーに見えないマークアップをその100,000にカウントするかどうかも明確ではありません。私の推測は違います。多くのページには、Googleがインデックスを付けたいテキストの付いたマークアップが100kをはるかに超えています。
簡易回答:Googleは、最大2.5MBのHTMLファイルのインデックスを作成します。
ロングアンサー:
Googleのドキュメント によると:
30MBを超えるファイルはすべて完全に無視されます。
最大2.5MBのHTMLファイルのインデックスを作成します。
非HTMLファイルはHTMLに変換されます。ファイルが4,000,000バイトを超える場合、それらは完全に無視されます。それ以外の場合、最初の2MBがキャッシュされます。
Lavalamp氏が提案したように、私はGoogleのドキュメントを調べて、さまざまなサイトを検索した後でも同じドキュメントを見つけました。しかし、Googlebotsについて言えば、はるかにスマートです。
Googlebotは、サイズが大きすぎるという理由だけでページを拒否するのではなく、最初にページ全体でタイトル、URL、画像、見出し、小見出し、およびアンカーテキストをクロールします。
これはおそらくサイズが非常に小さくなり、GoogleはこのドキュメントでほとんどのWebページのメタデータを見つけることができます。その後、Googlebotはより多くのドキュメントをクロールする必要があるかどうかを判断できますが、関連するWebページリソースのほとんど(詳細) Googleによって既にインデックスに登録されています!したがって、見出しと小見出しを使用して、長いドキュメントをセクションの断片に細分化するよう注意する必要があります。