私は金融のWebサイトを作成しています。コア機能とは別に、最新のニュースも表示したいと考えています。
これらのニュース記事は、評判の高いニュースソース(例:CNN)のRSSフィード(記事全体のスクレイピング)からスクレイピングされますが、投稿には元のソースへのrel=canonical
タグもあります。投稿のすべてのリンクは元のソースにリダイレクトされますが、ニュースはほとんどがWord-for-Wordで削られます。
それは私のSEOに悪影響を及ぼすでしょうか? robots.txt
でnofollow
を使用することを検討すべきですか?ユーザーが使いやすいように、ニュース記事をキュレートしたいだけです。私たちのコアビジネスはニュースを表示していないので、これらの記事からSEOのメリットを得ることは本当にしたくありません。
rel=canonical
は良い考えです。これにより、検索エンジンはコンテンツの元のソースを知ることができ、コンテンツの配信によるペナルティのほとんどを防ぐことができます。
robots.txt
にはnofollow
ディレクティブがありません。 robots.txtでこれらのURLをdisallow
できます。そうすることは、Googleがあなたのサイトの重複したコンテンツを見ることさえ妨げるので賢明でしょう。もちろん、Googleがコンテンツを認識できない場合、rel=canonical
も認識されませんが、おそらくそれで問題ありません。
robots.txt
の代わりに、ページでnoindex
メタタグを使用して、Googleがインデックスに登録しないようにすることを検討できます。 Googleは、robots.txtによってブロックされたURLを時々インデックスに登録せず、それらのページのコンテンツを表示しません。クロールを許可しますが、noindex
を使用すると、URLがGoogleの検索インデックスに表示されないようにする確実な方法です。
これによるあなたのサイトへの最大の脅威は、法的観点からです。コンテンツ作成者からコンテンツを配信するための適切なライセンスを取得してください。許可なくコンテンツをスクレイピングして公開している場合、ニュースサイトは満足せず、サイトをシャットダウンしようとします。ホストまたはGoogleにDMCA(デジタルミレニアム著作権法)の削除を申請する場合があります。