Stack Overflowで sitemap を使用しますが、それについては複雑な気持ちがあります。
Webクローラーは通常、サイト内のリンクおよび他のサイトからページを検出します。サイトマップはこのデータを補完して、サイトマップをサポートするクローラーがサイトマップ内のすべてのURLを取得し、関連付けられたメタデータを使用してそれらのURLについて学習できるようにします。サイトマップ protocol を使用しても、Webページが検索エンジンに含まれることは保証されませんが、Webクローラーがサイトをより適切にクロールするためのヒントを提供します。
2年間のサイトマップの経験に基づいて、何かがありますサイトマップについて基本的に逆説的:
それがサイトマップのパラドックスですサイトが適切にクロールされていない場合(何らかの理由で)、サイトマップを使用しても役に立ちません!
Googleは サイトマップの保証なし :
「URLがクロールされるかインデックスに追加されるかについて、予測または保証することはできません」 citation
「すべてのURLをクロールまたはインデックス登録することを保証しません。たとえば、サイトマップに含まれる画像URLをクロールまたはインデックス登録しません。」 引用
「サイトマップを送信しても、サイトのすべてのページがクロールされるか、検索結果に含まれることは保証されません」 citation
サイトマップで見つかったリンクは単なる推奨事項であるのに対して、自分のWebサイトで見つかったリンクは正規と見なされます...唯一の論理的なことはavoidサイトマップを作成し、Googleや他の検索エンジンが他の人が見る普通の標準的なWebページを使用してサイトを適切にスパイダーできるようにします。
あなたがthatを完了し、グーグルがこれらのサイトへの自分のサイトリンクを確認できるようにすっかりスパイダーになっている時までにページ、そしてリンクをクロールすることをいとわないでしょう-ええと、なぜ再びサイトマップが必要なのでしょうか?サイトマップは、検索エンジンのスパイダーがサイト全体を正常にクロールできるようにすることを妨げるため、積極的に有害になる可能性があります。 「ああ、クローラーがそれを見ることができるかどうかは関係ありません。サイトマップでそれらのリンクをたたくだけです!」私たちの経験では現実は正反対です。
これは、サイトマップが意図であり、リンクの非常に深いコレクションやスパイダーが難しい複雑なUIを持っているサイトを想定していることを考えると、少し皮肉に思えます。私たちの経験では、サイトマップは役に立ちませんGoogleがあなたのサイトで適切なリンクを見つけられない場合、とにかくサイトマップからインデックスを付けられません。この証明された時間とStack Overflowの質問でもう一度。
私が間違っている?サイトマップは理にかなっており、どういうわけか間違ってそれらを使用していますか?
免責事項:Googleのサイトマップチームと一緒に仕事をしているので、やや偏見があります:-)。
「非Webインデックス」コンテンツ(画像、ビデオ、ニュースなど)にサイトマップを広範囲に使用することに加えて、サイトマップファイルに含まれるURLからの情報を主な目的に使用します。
ウェブマスター側では、サイトマップファイルも非常に便利であることがわかりました。
確かに、非常に小さく、静的で、簡単にクロール可能なサイトの場合、サイトのクロールとインデックス登録が完了すると、Googleの観点からサイトマップを使用する必要がなくなる場合があります。それ以外の場合は、使用することをお勧めします。
FWIW私も同様にカバーしたいいくつかの誤解があります:
優れたサイトアーキテクチャがあり、Googleが自然にページを見つけることがわかっている場合、サイトが十分に高速にインデックス付けされていれば不要であるため、インデックス付けが高速化されていることを認識しています。
2009年の記事で、紳士がGoogleがサイトマップありとなしでサイトをクロールする速度をテストしました。 http://www.seomoz.org/blog/do-sitemaps-effect-crawlers
私の経験則では、新しいものやテストされていないものを起動する場合、Googleがサイトをクロールする方法を確認して、修正する必要のあるものがないことを確認したいので、変更を加えたい場合は送信しないでくださいグーグルは、それらをより速く見るために送信します。または、ニュース速報など他の時間に敏感な情報がある場合は、グーグルが最初に見ることを確認するためにできる限りのことをしたいので、送信します。
疑わしいのは、Googleの場合、更新を可能な限り迅速に追跡するためにサイトマップが必要だということです。たとえば、ウェブサイトの深い場所に新しいコンテンツを追加したとします。これには、ホームページから10〜20回以上クリックする必要があります。 Googleがこの新しいページに到達する可能性は短時間で低くなるため、このページへのパスが完全に決定されるまで、existenceがアナウンスされます。結局、PageRankはすぐに計算されず、ユーザーの行動などを評価するのに時間がかかります。それまで、エンジンが新しいコンテンツを含むページをクロールしてインデックスを作成すべきではないのはなぜですか。
Googleの言葉を借りると、「ほとんどの場合、ウェブマスターはサイトマップを送信することで利益を得ることができますが、サイトマップに対してペナルティが科されることはありません。」
しかし、ウェブサイトのページを検索エンジンに表示したい場合にできる最善の方法は、サイトから適切にクロールできるようにすることです。
サイトマップは、正しく使用すれば非常に価値があります。
まず、Googleがヒントだと言っているという事実は、a)サイトマスターがサイトマップ=インデックス化という誤った印象を受けないようにし、b)Googleが特定のサイトマップを信頼できないと判断した場合に無視できるようにすることです(別名lastmodは、アクセスされる毎日のすべてのURLの現在の日付です。
ただし、Googleは通常、サイトマップを好み、使用します(実際、サイトマップを見つけてGoogleウェブマスターツールに追加することもあります)。どうして?クロールの効率が向上します。
シードサイトから開始してWebをクロールする代わりに、送信されたサイトマップに基づいて、適切な量のクロール予算をサイトに割り当てることができます。また、関連するエラーデータ(500、404など)を使用してサイトの大きな履歴を作成することもできます。
Googleから:
「Googlebotは、あるページから別のページへのリンクをたどってWebをクロールするため、サイトが適切にリンクされていない場合、それを発見するのは難しいかもしれません。」
彼らが言っていないのは、ウェブをクロールするのは時間がかかり、チートシート(別名サイトマップ)を好むということです。
確かに、サイトはクロールの観点からは問題ないかもしれませんが、新しいコンテンツを導入したい場合、そのコンテンツを優先度の高いサイトマップにドロップすると、クロールとインデックス登録をすばやく行うことができます。
また、新しいコンテンツをすばやく検索、クロール、インデックス化するため、Googleでも同様に機能します。今、Googleがジャングルアプローチのマチェーテよりもbeat地を好むとは思わない場合でも、サイトマップが価値がある別の理由があります-追跡。
特に、サイトマップインデックス(http://sitemaps.org/protocol.php#index)を使用すると、サイトをセクションに分割できます(サイトマップごとのサイトマップ)。そうすることで、サイトのインデックス化率をセクションごとに確認できます。
1つのセクションまたはコンテンツタイプのインデックス化率が87%で、別のセクションまたはコンテンツタイプのインデックス化率が46%である場合があります。それが理由を理解するのはあなたの仕事です。
サイトマップを最大限に活用するには、サイト上のGooglebot(およびBingbot)クロールを(ブログ経由で)追跡し、それらをサイトマップに一致させてから、トラフィックを追跡します。
サイトマップで眠らないでください-サイトマップに投資してください。
検索エンジンはサイトマップを使用してページを検索するのではなく、更新を確認する頻度を最適化するために使用すると考えています。彼らは<changefreq>
と<lastmod>
を見ます。 Googleはおそらくウェブサイト全体を頻繁にクロールします(ログをチェックしてください!)が、すべての検索エンジンがそのためのリソースを持っているわけではありません(誰かが Blekko ?を試しましたか)。いずれにせよ、それらを使用することにペナルティはなく、自動的に簡単に作成できるため、私はそれを続けます。
このトピックに関心がある場合は、この素晴らしいGoogleペーパーをお読みください http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (2009年4月)-を読むブログ投稿だけでなく、完全な論文。
紙から
ええ、サイトマップは主に値の決定ではなく、発見(Googleがあなたのものを発見するプロセス)に使用されます。発見に苦労している場合は、サイトマップを使用してください。ディスカバリーはクロールの前提条件ですが、値の決定には影響しません。
私の経験から
50万ページ以上あるサイトにSEO戦略を実装するとき
それ以外はすべて「バラスト」です。他のものは正のSEO値を持っているかもしれませんが、間違いなく負の値を持っている可能性があります。サイトの管理が難しくなります。 (p.s .:値を決定するために、意味のある方法でランディングページを相互リンクします(大きな影響)が、それはすでに2番目のステップです)。
あなたの質問について:発見、クロール、インデックス作成、ランキングを混同しないでください。すべてを個別に追跡でき、すべてを個別に最適化できます。優れた(つまり、リアルタイムの)サイトマップを使用して、発見とクロールを大幅に強化できます。
サイトマップはあなたのお尻を保存できます。
私のサイトの1つに、検索エンジンのスパイダーを防ぐリンクが多数あります。簡単に言えば、Googleは私のフォーラムでJSを誤って解釈し、多くの500と403の応答コードをトリガーしていました。 robots.txtを使用して問題のあるURLを除外することで、この問題を回避しました。
ある日、私はめちゃくちゃにして、Googleが本当にインデックスに登録したかったサイトのいくつかのページをクロールできないようにしました。フォーラムが除外されているため、「robots.txtによる制限」のウェブマスターツールのエラーセクションには4000ページ以上あったため、手遅れになるまでこのエラーを拾いませんでした。
幸いなことに、私のサイトのすべての「重要な」ページはサイトマップにあるため、Webmaster Toolsがサイトマップのページの問題に対して持つ特別なエラーカテゴリでこの問題をすばやく検出することができました。
余談ですが、サイトマップインデックスを使用して、サイトのさまざまなセクションのインデックス作成の品質を判断することで多くのメリットが得られます。 前述のとおり by @AJ Kohn。
私自身はこれに遭遇していませんが、私のプロジェクトの大部分は、そうでなければユーザーアカウントを必要とするアプリケーションまたはサイトであるため、検索エンジンによるインデックス作成は焦点ではありません。
そうは言っても、SEOが基本的にサイトマップを役に立たなくしたと聞いたことがあります。プロトコルを見ると、ページがどのくらいの頻度で変更され、各ページの相対的な優先順位が何であるかを伝える「名誉システム」のようなものです。 1ダースのSEO企業がフィールドを悪用しているのは理にかなっています-すべてのページが最優先事項です!すべてのページは1時間ごとに変更されます! -レンダリングされたサイトマップは事実上役に立たない。
2008年のこの記事 は基本的にそうであり、あなたと同じ結論に達しているようです。
これは(最初?) ランドフィッシュオーバーSEOmoz によって書かれました。2007年の古き良き年にさかのぼります。彼が初めて同じタイプの結論に至りましたが、それが時間でした。 。そして合格しました。
それ以来(2009年1月)、サイトマップの生成、検証、および送信の全体的な肯定的な結果がマイナス面を上回るというポストスクリプトを記事に追加しました。
2009年1月5日更新-私は実際に、このアドバイスについて私の考えを大きく変えました。はい、サイトマップはまだアーキテクチャ上の問題を曖昧にする可能性がありますが、私は過去1。5年にわたって経験してきたことを考えると、私はすべてのクライアント(および要求するほぼ全員)にサイトマップを提出することをお勧めします。クロール、インデックス作成、およびトラフィックの面でのプラスは、マイナス面を上回るものです。
クロールさせます
私は次のことを行います:
拡張されたXMLファイルを生成します。これは、多くのことのベースとして機能します。
したがって、XMLサイトマップも提供し、クローラーがやりたいことをやりたいのであれば、それをやりましょうか?
ジェフ、私はStackoverflowについて全く知りません。なぜなら、これほど大きくて頻繁に更新されるWebサイトのWebマスターになる機会がなかったからです。
頻繁に変更されない小さなウェブサイトの場合、サイトマップは非常に便利だと思います(サイトマップが最も重要だと言っているわけではありませんが、はい、非常に便利です)理由:
サイトはすばやくクロールされます(上記の Joshakの回答 で説明された同じ理由)および私の小さな経験では、小さなサイトでこれに何度も気付きました(最大30/50ページ)
数週間後にサイトマップを送信した後、「Google Webmaster Tools-Sitemaps」を見ると、サイトマップで送信されたURLの数とWebインデックスのURLの数を見ることができます。それらが同じであることがわかったら、それでいいです。そうでない場合、どのページがインデックスに登録されていないのか、そしてその理由をウェブサイトですぐに確認できます。
最近、SiteMapsは2つの目的にのみ役立つと考えています。
サイトマップは主に、インデックスとノードにタイムスタンプを付けないサイト用です。SEはコアコンテンツに対して両方を実行するため、サイトマップがあるとクローラーの速度が低下します...はい、そうです、サイトマップはコアインデックスにあるメタデータがありません。反対に、グーグルがボットをどのように構築するかについての本当のアイデアはありません。SEをボットするつもりなら、サイトマップを使用しないでしょう。さらに、一部のサイトでは、サイトマップがすべて%!@ $であることに気付かないこともあります。また、サイトマップ上にプロファイルを作成したが、突然機能しなくなった場合、新しいプロファイルを作成する必要があります。実際のサイト。
だから、あなたは正しいです-サイトマップを使用しないでください!
TIP:ただし、タグのセマンティクスを可能な限り同じ状態に保つことは、「Asked One Hour Ago」に次のようなメタデータが埋め込まれている場合です。
title="2010-11-02 00:07:15Z" class="relativetime"
relativetime
のデータの意味が変更されていない限り、文字列名title
を変更しないでください。 決して...:-)
最近、まだ作業中のサイトを再構築しました。ユーザーを支援するために500,000ページをリンクする良い方法がなかったため、XMLサイトマップを使用してGoogleに送信し、代わりにサイト検索を使用することにしました。 Googleは以前のサイトのインデックス作成に問題はありませんでしたが、サイトマップを追加したため、Googleはサイトのスパイダーとページのインデックス作成を非常に高速で実行します。 Googleはサイトマップを使用して新しいページを見つけ(週に約3300)、更新されたページを再訪しました。私の本では本当に勝ちました。まだページをリンクしてルックアップにAJAXを使用する新しい方法を見つけたいと思っていますが、それは別の日のプロジェクトです。ここまでは順調ですね!それは私にとって良い解決策でした。すべて、すべて、私は獲得し、失われていません。サイトマップは実際にはもっと便利であるが、そのデザインによって制限される可能性があると常に感じていたので、これは興味深いことです。
Googleがサイトマップのみのリンクをインデックスに登録しないことに同意しません。私はサイトマップを介してのみ到達可能なページを持っている多くのサイトがあり、グーグルは問題なくそれらをインデックスします。これの多くの例を挙げることができます。
よく構築されたサイトは、サイトマップを必要としませんが、カバレッジとランキングを支援し、優先度、更新頻度などの追加の値を追加します。検索エンジンにちょっと教えてください...フルクロールを必要とせずに、サイトの中央のどこかで。クロールのパターンは一度も見たことがありませんが、役に立てば幸いです。
私にとって本当のプラスは、ウェブマスターツールと、それがあなたのウェブサイトの可視性とユーザーに与える洞察力だということです。
サイトマップを使用すると、ページが補足インデックスにすばやく登録されると聞きました。しかし、私は年齢で言及された補足指数さえ聞いていないので、彼らはもうそれを使用していないかもしれません。
追伸私の声明が十分に明確ではない場合、補足索引にあることは悪いことです(またはそうでした)...したがって、サイトマップは悪いです(またはそうでした)。
主にホームページのrobots.txt
が最高であることを確認するために、サイトマップ(検索エンジンに送信されず、<priority>
でリンクされます)を使用します。他の用途があるかどうかはわかりません。