web-dev-qa-db-ja.com

検索エンジンが私のウェブサイトの単一ページをインデックスに登録しないようにするにはどうすればよいですか?

検索エンジンに出版社のページのインデックスを作成させたくありません。どうすればそれができますか?

28
Proud Member

単純なrobots.txtファイルが必要です。基本的に、これは検索エンジンに特定のページにインデックスを付けないように指示するテキストファイルです。
ページのヘッダーに含める必要はありません。それがあなたのウェブサイトのルートディレクトリにある限り、それはクローラーによって拾われます。
Webサイトのルートフォルダーに作成し、次のテキストを入力します。

User-Agent: *
Disallow: /imprint-page.htm

例のimprint-page.htmlを、インデックスに登録されないようにするページ(またはディレクトリ)の実際の名前に置き換えることに注意してください。

それでおしまい!さらに高度な情報が必要な場合は、 ここここ 、または ここ で詳細を確認できます。また、robots.txtファイルを生成する無料のツールをオンラインで見つけることができます(たとえば、 ここ )。

29
Donut

また、そのページのHEAD)に次のメタタグを追加することもできます

<meta name="robots" content="noindex,nofollow" />
37
seriyPS

Robots.txtファイルを設定して、特定のディレクトリを無視するように検索エンジンに指示することができます。

詳細はこちらをご覧ください。

基本的に:

User-agent: *
Disallow: /[directory or file here]
5
Bryan Denny

現在、最良の方法は、ロボットのメタタグを使用してnoindex,followに設定することです。

<meta name="robots" content="noindex, follow">
3
<meta name="robots" content="noindex, nofollow">

この行を<html><head>タグに含めるだけです。 robots.txtファイルを使用してログインページや他の人や検索エンジンに表示されない他の保護されたURLである可能性のあるURLを非表示にすると、なぜ私がこれを言っているのですか。

私にできることは、あなたのWebサイトからrobots.txtファイルに直接アクセスするだけで、どのURLが秘密であるかを確認できます。では、このrobots.txtファイルの背後にあるロジックは何ですか?

良い方法は、上からメタタグを含めて、だれからも身を守ることです。

3
Tahir Afridi

ロボットがWebサイトのURLを確認したい場合、たとえば http://www.example.com/welcome.html 。その前に、まず http://www.example.com/robots.txt をチェックし、次のことを検出します。明示的に禁止することができます:

User-agent: *
Disallow: /~joe/junk.html

詳細については、以下のリンクにアクセスしてください robots.txt

Robots.txtファイルを作成し、そこにコントロールを設定します。

Googleのドキュメントは次のとおりです。 http://code.google.com/web/controlcrawlindex/docs/robots_txt.html

0
Sologoub