可能性のある複製:
重複したコンテンツとは何ですか、自分のサイトでそのコンテンツにペナルティを科さないようにするにはどうすればよいですか?
インデックス、ページネーション、タグページなどの移行ページにNoIndex
タグを使用する必要があることを読みました。これは本当ですか?インデックス、検索、タグ、ページネーション、日付ページにNoIndex
を配置することを検討しているTumblrブログがあります。
NoIndex
で十分ですか、それとも他の方法がありますか?サイトのインデックスページをNoFollow
としてマークする必要がありますか?それは本当に良い音ではありません。
NoIndex
を配置するページは何ですか?
複数のページURLが同じコンテンツを生成する場合、まさにそれが <link rel="canonical">
の目的です。これは、複数のURLのコンテンツが同じであることを検索エンジンに伝え、その特定のURLをプライマリURLとして使用するためです。これにより、重複の問題が完全に回避され、非常に簡単に実行できます。
いいえ、検索エンジンがページネーションまたはタグページのインデックスを作成することを停止しないでください。 (そして間違いなくインデックスページ!)明確なメニュー構造のないブログやサイトの場合、それがコンテンツを見つける主な方法です。
多くの場合、検索エンジンはこれらのページをうまく処理し、最も重要なコンテンツ、つまりブログエントリ自体を見つけることができます。
ただし、これらのリストページがブログの投稿よりもインデックス付けされていることに気付いている場合は、たとえば、人気による並べ替えなど、「無限の構成」のインデックス付けをブロックすることをお勧めします。または、同じアイテムが異なる順序でリストされているもの-1つの賢明な順序のインデックス付けを許可し、残りは無視します。
強制的に防止でない限り、すべてのロボットがサイトのページをスパイダーするのを止めることができるものはありません。
そうは言っても、いつでもencourageロボットを追跡し、必要なもの/望まないものをインデックスに登録することができます。これらの方法のいくつかは次のとおりです。
robots.txt
ファイルを作成して、ルートディレクトリに配置します。response header
キャッシュオプションを各リソースに適切に設定します。sitemap.xml
ドキュメントを作成します。$_GET
変数を渡さないようにします(一意のデータが本当に作成される場合を除く)。 (たとえば、www.abc.com/index.php?session=21389271893219
は代わりに$_POST
を使用します。404 NOT FOUND
をそれらのページに送信し、200
またはライブユーザーにリダイレクトします。 (301
sは議論の余地があります)他にもありますが、これはほとんどすべての99%で機能します。トリックは、適切な初期URLディレクトリ設計です。