ブログのGoogleウェブマスターツールパネルで、ブロックされたURLセクションのrobots.txtに次のコードが見つかりました。
User-agent: Mediapartners-Google
Disallow: /search
Allow: /
Disallow
がGooglebotによるウェブページのインデックス作成を妨げることは知っていますが、Disallow: /search
の使用方法がわかりません。
Disallow: /search
の正確な意味は何ですか?
Disallow
フィールド で、ブロックするURLのURLパスのthe先頭を指定します。
したがって、Disallow: /
がある場合、すべてのURLパスが/
で始まるため、 everything をブロックします。
Disallow: /a
がある場合、/a
で始まるパスを持つすべてのURLをブロックします。 /a.html
、/a/b/c/hello
、または/about
のいずれかです。
同じ意味で、Disallow: /search
がある場合、文字列/search
で始まるすべてのURLをブロックします。たとえば、次のURLをブロックします(robots.txtがhttp://example.com/
にある場合):
http://example.com/search
http://example.com/search.html
http://example.com/searchengine
http://example.com/search/
http://example.com/search/index.html
次のURLは引き続き許可されますが、
http://example.com/foo/search
http://example.com/sea
Robots.txtは、文字列がディレクトリ、ファイルに一致するか、何にも一致しないかどうかを知りません。 URLの文字のみを調べます。
他の回答では、このルールを適用するためにrobots.txtがどのように処理されるかを説明していますが、検索結果のクロールをボットに許可しないwhyに対処しないでください。
1つの理由は、検索結果の生成に費用がかかることです。ボットにこれらのページをクロールしないように指示すると、サーバーの負荷を減らすことができます。
検索結果ページも素晴らしいランディングページではありません。通常、検索結果ページには、サイトの10ページのリストがタイトルと説明とともに表示されます。一般に、ユーザーはこれらのページの最も関連性の高いページに直接アクセスすることで、より良いサービスを提供できます。実際、 Googleが言った 彼らはあなたのサイトの検索結果がGoogleによってインデックスされることを望まない。それらを禁止しない場合、Googleはあなたのサイトを罰する可能性があります。
OPは彼のコメントで "/ searchdirectory"のみに関心があることを示しているので、以下の私の答えは "search"ディレクトリだけを拒否することに関するものです。
以下は、ルートディレクトリにある「search」という名前のロボットsomethingをクロールしないようにするためのディレクティブです。
Disallow: /search
次のGoogleウェブマスターツールのヘルプドキュメントによると、ディレクトリ名の前にスラッシュ/
を続ける必要があります。これは、他の次の参照元でも指定されています:
Googleウェブマスターツール-robots.txtファイルを使用してページをブロックまたは削除する
ディレクトリとその中のすべてをブロックするには、ディレクトリ名の後にスラッシュを付けます。
Disallow: /junk-directory/
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
In this example, three directories are excluded.
This example tells all robots not to enter three directories:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Googleによると(上記のように)、次のようにすると、ユーザーエージェントMediapartners-Google
を持つボットがルートディレクトリにある「検索」ディレクトリをクロールできなくなります。 、ただし、他のすべてのディレクトリのクロールを許可します。
User-agent: Mediapartners-Google
Disallow: /search/
Allow: /
/search
ディレクトリ以下のファイル(つまり、/search
のサブディレクトリ)をクロールしないようAdSenseに指示します。
これは、ユーザーエージェントMediapartners-Googleが/search
の下のディレクトリにアクセスすることを許可されないことを意味します
/search/go blocked
/search blocked
/ not blocked.