sitemap.xml
に存在するページがいくつかありますが、Googleの公開検索インデックスから不可解に欠落しています。
https://superuser.com/sitemap.xml をダウンロードすることはできません-過去に問題があったため、このファイルを保護します-googlebotはできます。 Googleウェブマスターツールを介して、sitemap.xml
ファイルが今日プルダウンされ、エラーなしで正常に評価されていることを確認しました(緑色のチェックマーク)。
sitemap.xml
には、当サイトで尋ねられた最後の50,000の質問のリストが含まれています。たとえば、この質問...
https://superuser.com/questions/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links
... sitemap.xml
に...として存在.
<url>
<loc>https://superuser.com/questions/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>
「シンボリックリンクの長いチェーンの終わりを確認する方法」 を検索すると、questionhub.comにデータをスクレイピングしている1つの結果のみが返されます(まったく異なる問題)。
質問カウント数を増やして、質問タイトルを正確に検索すると、このパターンが持続することがわかります。
これらのURLは、insitemap.xmlですが、Googleのインデックスには表示されませんが、クリエイティブコモンズデータをスクレイプするサイトには表示されます。どうしてですか?
Googleは今週、技術的なクロールの問題を抱えていたように見えますが、その音は著しく私たちが経験しているようなものです:
http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701
多くのサイト所有者が困惑しているGoogleインデックス作成の問題から免れている人はいないようです。ブログとウェブサイトは、大小を問わず、通常ほど早くインデックスに登録されていません-インデックス登録されている場合。
...
Googleのジョンは、ウェブマスターフォーラムのスレッドに次のように返信しました。
明確にするために、このスレッドからの問題は、私が詳細に検討したが、ポリシーの変更やアルゴリズムの変更によるものではありません。 それらは、できるだけ早く目に見えるように解決される技術的な問題によるものです(表示されるまでに数日かかる場合がありますすべてのサイト)
Googleは、サイトマップ内のページがインデックスに登録されることを一切提供または保証しません。
私の経験では、ページを表示するには、ある権限のページからリンクする必要があります。そのページ/質問は、何らかの権限を持つページから直接/間接的にリンクされていますか?
例えば。 superuser.comホームページ(おそらく多くのインリンクがある)がこの質問に直接リンクしている場合、または他の多くのページを介して間接的にリンクしている場合、インデックスが作成されることが期待できます。
グーグルから:
Googleは、すべてのURLをクロールまたはインデックス登録することを保証しません。ただし、サイトマップのデータを使用してサイトの構造を把握します。これにより、クローラーのスケジュールを改善し、将来的にサイトのクロールを改善することができます。ほとんどの場合、ウェブマスターはサイトマップを送信することで利益を得ることができ、いかなる場合でもペナルティが科せられることはありません。
http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=156184
グーグルはあなたのウェブページをインデックス化するのに苦労しているかもしれないと思う、50.000はたくさんある。私の提案は、サイトマップを次のように細分化することです。
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
故障した場合は、これらの50.000のURLのインデックスが作成される可能性が高くなります。
Sitemaps.orgの問題の説明
複数のサイトマップファイルを提供できますが、提供する各サイトマップファイルは50,000個以下のURLを持ち、10MB(10,485,760バイト)以下でなければなりません。必要に応じて、gzipを使用してサイトマップファイルを圧縮し、帯域幅の要件を減らすことができます。ただし、非圧縮のサイトマップファイルは10 MB以下でなければなりません。 50,000個を超えるURLをリストする場合は、複数のサイトマップファイルを作成する必要があります。
複数のサイトマップを提供する場合は、サイトマップインデックスファイルに各サイトマップファイルをリストする必要があります。サイトマップインデックスファイルは、50,000個を超えるサイトマップをリストすることはできません。また、10MB(10,485,760バイト)以下でなければならず、圧縮できます。複数のサイトマップインデックスファイルを作成できます。サイトマップインデックスファイルのXML形式は、サイトマップファイルのXML形式と非常によく似ています。
Googleは、46,514件の投稿リンクがインデックスにあると述べているようです。それは(私はそれを言うのは嫌いですが)ページのランキングの問題かもしれませんか?スクレイピングサイトは、クロスリンクなどにより良い仕事をしており、上位にランク付けされている可能性があります。ちょっとした考え。
この検索 site:superuser.comシンボリックリンクの長いチェーンの終わりを確認する方法 は、期待される結果を返さないにもかかわらず、sitemap.xmlを正しくフェッチしているようにも見えます。
このタイプのものには、多くの潜在的な答えがあります。
私はあなたが実際に持っているページ数を尋ねることから始めます。 (クイックサイトに50,000個のURLを送信しました:superuser.comは125,000個のインデックスを作成しています。5万個のURLしかなく、すべてを送信していますが、Googleは各ページのコピーを2〜3個見つけていますか? %がインデックスに登録されています)全体像を把握することは、どこで問題を探すかを指示するのに役立ちます。
ステップ1に問題がなければ、コンテンツに移ります。QHのページにはさらに多くのコンテンツがあり、すべてのコンテンツがスクレイプされているにもかかわらず、他の多くの「リソース」とリンクしているようです。より多くのリソース/情報をユーザーに提供するため、ページはより便利です。彼らが権威とみなされ、あなたのコンテンツがすべて彼らのものと同じであれば、あなたがオリジナルであってもGoogleはあなたのものをインデックスに登録しない可能性があります。
高品質のリンクを作成することが問題ではないと確信している場合は、人気のある従業員のブログにこの質問を投稿するか、友人にブログを依頼してください。ケーススタディなど.
多数の強力なリンクを取得しても、ペナルティが科せられる可能性があるため、インデックスに登録されていない場合(ほとんどの場合、これは問題になりませんが、チェックするのに苦労することはありません)。
これが機能しない場合、10回のうち9回は見過ごされている単純な技術的な問題です(ロボットの除外など)。
これを行ってもまだ回答がない場合は、Googleに尋ねて、回答が得られることを願ってください。
質問は昨日尋ねられました-googlebotにチャンスを与えてください、あなたが彼がyaをクロールしなければならないインターネット上の唯一のサイトではありません:)
質問が通常1日以内に索引付けされ、1週間経ってもまだ索引付けされていない場合は、心配になるかもしれません。しかし、確かに1日後ではありません。