メタタグ*またはrobots.txtファイルを使用して、スパイダー/クローラーにページを含めるか除外するかを通知する方がよいでしょうか。
メタタグとrobots.txtの両方を使用することに問題はありますか?
*例:<#META name="robots" content="index, follow">
Robots.txt私見。
メタタグオプションは、ボットに個々のファイルにインデックスを付けないように指示しますが、Robots.txtを使用してディレクトリ全体へのアクセスを制限できます。
確かに、スキップしたいインデックス付きフォルダーに奇数ページがある場合はメタタグを使用しますが、通常は、インデックスなしのコンテンツのほとんどを1つ以上のフォルダーに入れ、robots.txtを使用して多くをスキップすることをお勧めします。
いいえ、両方を使用しても問題はありません。衝突が発生した場合、一般的に、denyはallowを無効にします。
1つの重要な違いがあります。 Googleによると ページが別のサイトを介してリンクされている場合、robots.txtDENYの背後にあるページのインデックスを作成します。
ただし、メタタグが表示された場合は表示されません。
Googleはrobots.txtによってブロックされたコンテンツをクロールまたはインデックスに登録しませんが、ウェブ上の他の場所から許可されていないURLを見つけてインデックスに登録する可能性があります。その結果、URLアドレスと、場合によっては、サイトへのリンクのアンカーテキストなど、他の公開されている情報が引き続きGoogleの検索結果に表示される可能性があります。サーバー上のファイルをパスワードで保護するなど、他のURLブロック方法を使用するか、noindexメタタグまたは応答ヘッダーを使用する。
どちらも、ウェブマスターの希望を尊重するすべてのクローラーによってサポートされています。すべてがそうするわけではありませんが、それらに対してどちらの技術も十分ではありません。
サイトのセクション全体を禁止するなど、一般的なことにはrobots.txtルールを使用できます。 Disallow: /family
と言うと、/family
で始まるすべてのリンクがクローラーによってインデックス付けされません。
メタタグを使用して、単一のページを禁止できます。メタタグで許可されていないページは、ページ階層のサブページには影響しません。 /work
にメタ禁止タグがある場合、許可されたページにそのタグへのリンクがある場合、クローラーが/work/my-publications
にアクセスするのを妨げることはありません。
Metarobotとrobots.txtには非常に大きな違いがあります。
Robots.txtでは、クロールする必要のあるページと除外する必要のあるページをクローラーに要求しますが、除外されたページをクロールからインデックスに登録しないようにクローラーに要求しません。
ただし、メタロボットタグを使用する場合は、検索エンジンのクローラーにこのページのインデックスを作成しないように依頼できます。これに使用されるタグは次のとおりです。
<#meta name = "robot name"、content = "noindex">(#を削除)
OR
<#meta name = "robot name"、content = "follow、noindex">(#を削除)
2番目のメタタグでは、ロボットにそのURLをたどるように依頼しましたが、検索エンジンでインデックスを作成しないように依頼しました。
これがそれらについての私の知識です。私は彼らの作業領域について話している。どちらもコンテンツのブロックに使用できます。
<meta name="robots" content="index, follow">
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />
クローラーがすべてのWebサイトをクロールできるようにする
user-agent: *
Allow:
Disallow:
クローラーがすべてのWebサイトをクロールすることを禁止する
user-agent: *
Allow:
Disallow:/
メタが優れています。
検索エンジンのインデックスから個々のページを除外するために、noindexメタタグは実際にはrobots.txtよりも優れています。
ページを含めるか除外するかをスパイダー/クローラーに通知するためにメタタグ*またはrobots.txtファイルを使用する方が良いですか?
回答:どちらも使用することが重要であり、さまざまな目的で使用されます。 Robotsファイルは、スパイダーのインデックスからページまたはルートファイルを含めたり除外したりするために使用されます。一方、メタタグは、ページ内のニッチとコンテンツについて定義するWebサイトページを分析するために使用されます。
メタタグとrobots.txtの両方の使用に問題はありますか?
回答:検索エンジンのスパイダー/クローラーがサイトのURLのインデックスを作成したり、インデックスを解除したりできるように、両方をサイトに実装する必要があります。
検索エンジンスパイダーの動作について詳しくは、こちらをご覧ください>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work
robots.txt
ではなく robots meta tag で 'noindex、follow'を使用すると、リンクジュースが通過できるようになります。 SEOの観点からは優れています。
おそらくmeta
タグの上にrobots.txt
を使用します。 Robots.txtは以前から存在しており、より広くサポートされている可能性があります(ただし、100%確実ではありません)。
2番目の部分については、robots.txtとメタタグの間に不一致がある場合、ほとんどのスパイダーはページに対して最も制限的な設定を採用すると思います。
Robots.txtは、内部検索や無限の組み合わせのフィルターなど、クロールの予算を大量に消費するページに適しています。 Googleにインデックス作成を許可した場合yoursite.com/search=lalalala
それはあなたのクロール予算を浪費します。