検索エンジンに出版社のページのインデックスを作成させたくありません。どうすればそれができますか?
単純なrobots.txt
ファイルが必要です。基本的に、これは検索エンジンに特定のページにインデックスを付けないように指示するテキストファイルです。
ページのヘッダーに含める必要はありません。それがあなたのウェブサイトのルートディレクトリにある限り、それはクローラーによって拾われます。
Webサイトのルートフォルダーに作成し、次のテキストを入力します。
User-Agent: *
Disallow: /imprint-page.htm
例のimprint-page.html
を、インデックスに登録されないようにするページ(またはディレクトリ)の実際の名前に置き換えることに注意してください。
それでおしまい!さらに高度な情報が必要な場合は、 ここ 、 ここ 、または ここ で詳細を確認できます。また、robots.txt
ファイルを生成する無料のツールをオンラインで見つけることができます(たとえば、 ここ )。
また、そのページのHEAD)に次のメタタグを追加することもできます
<meta name="robots" content="noindex,nofollow" />
Robots.txtファイルを設定して、特定のディレクトリを無視するように検索エンジンに指示することができます。
基本的に:
User-agent: *
Disallow: /[directory or file here]
現在、最良の方法は、ロボットのメタタグを使用してnoindex,follow
に設定することです。
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
この行を<html>
<head>
タグに含めるだけです。 robots.txtファイルを使用してログインページや他の人や検索エンジンに表示されない他の保護されたURLである可能性のあるURLを非表示にすると、なぜ私がこれを言っているのですか。
私にできることは、あなたのWebサイトからrobots.txtファイルに直接アクセスするだけで、どのURLが秘密であるかを確認できます。では、このrobots.txtファイルの背後にあるロジックは何ですか?
良い方法は、上からメタタグを含めて、だれからも身を守ることです。
ロボットがWebサイトのURLを確認したい場合、たとえば http://www.example.com/welcome.html 。その前に、まず http://www.example.com/robots.txt をチェックし、次のことを検出します。明示的に禁止することができます:
User-agent: *
Disallow: /~joe/junk.html
詳細については、以下のリンクにアクセスしてください robots.txt
Robots.txtファイルを作成し、そこにコントロールを設定します。
Googleのドキュメントは次のとおりです。 http://code.google.com/web/controlcrawlindex/docs/robots_txt.html