web-dev-qa-db-ja.com

RSSフィードとrobots.txt

サイトにRSSフィードがあります。 Stack Exchangeをフォローし、robots.txtでRSSフィードを許可しないことにしました。

検索エンジンがRSSフィードページを他の人に表示するのは望ましくありません。これは、新しい訪問者が見るのに適したページではありません。

検索エンジンがRSSをクロールできるようにする利点はありますか?それとも、それを禁止することは一般的に良い考えですか?

3
the_lotus

フィードをブロックしない理由はたくさんありますが、自分に関連があるかどうかを知ることができるのはあなただけです。例えば:

  • 特にフィードを探すボット、たとえばフィード検索エンジンが存在する場合があります。
  • フィードを使用して新しいコンテンツを発見するボットが存在する場合があります。
  • 現在および将来、ボットがフィードにアクセスしたい場合があります。
  • 一部のWeb検索エンジンは、フィードをインデックスする場合があります。ユーザーがexample.com feedsite:example.com inurl:feedなどを検索した場合に結果として提供できるように、フィードURL.
  • 一部のユーザーエージェント(フィードリーダーなど)は、robots.txtのルールに従う場合があります。

フィードは非常に一般的であるため(ほとんどすべてのブログにニュースサイト、フォーラムなどがあります)、ウェブサイトのフロントページに類似したコンテンツを含むフィードを見つけても、ほとんどの検索エンジンは混乱しないと思います。それらをrel-alternateにリンクし、対応するMIMEタイプをtype属性に指定してください:

HTML5仕様から

alternateキーワードが値application/rss+xmlまたは値application/atom+xmlに設定されたtype属性とともに使用される場合
キーワードは、シンジケーションフィードを参照するハイパーリンクを作成します(必ずしも現在のページとまったく同じコンテンツをシンジケートする必要はありません)。


フィードにサイトのページからの同じコンテンツ(つまり、同じ数の投稿と同じかそれ以下のコンテンツ)が含まれる場合、HTTPヘッダーとしてcanonicalリンクタイプを使用できます。

Link: <http://example.com/>; rel="canonical"

しかし、それは必要ではないはずです。

2
unor