web-dev-qa-db-ja.com

検索エンジンをブロックしてWebサイトの一部をクロールしますか?

<div id="papers" NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

content -- Does this work to block search engines to crawl me?

</div>
2
user8926

ロボットを管理するための昔からの標準は / robots.txt です。 robots.txtasksロボットがサイトの特定のページをクロールまたはインデックス登録しないようにします。あなたの特定の質問は ロボット<META>タグ に関連しているようです。これはドキュメントの<head>に属し、<div>タグ内では指定できませんページの本文に。

ロボットは、マークアップをリクエストとして解釈せず、HTMLを無効にします。

3
Just Jake

検索エンジンによるページのクロールやインデックス作成をブロックする場合は、いくつかの方法を使用できます。

1) robots.txt を使用します

2)メタタグを使用する

<meta name="robots" content="noindex, nofollow">

3)HTTPヘッダーを使用する

Header set x-robots-tag: noindex

4)rel = "nofollow"を使用します

<a href="http://www.example.com/sample.html" rel="nofollow">Link to page I don't want indexed</a>

5)ログインの背後にコンテンツを配置します。検索エンジンは(通常)Webサイトでフォームを送信したり、アカウントを作成したりしません。

6).htaccessを使用してすべての主要な検索エンジンのボットをブロックしますが、それらを識別するために使用するもの(たとえば、IPアドレス、ユーザーエージェント)を変更すると、退屈でエラーが発生しやすくなります。

1
John Conde