web-dev-qa-db-ja.com

Google CSEはrobots.txt自体にインデックスを付けました

Google CSEはrobots.txtのインデックスを作成し、誰かが「txt」を検索すると、実際には理想的ではないrobots.txtファイルを返します(これは沼地の標準Drupalサイトであるため、文字列robots.txtは実際にテキストに表示されます)。どうすればこれを回避できますか? Googleのどこかに設定がありますか、/robots.txtをermに追加する必要がありますか、robots.txtまたは...?

5
chx

これをrobots.txtに追加できます。

Disallow: /robots.txt

robots.txtがそれ自体を許可しない場合 Googleのジョンミューラーは次のように述べています:

これが影響する唯一のことは、リンクがrobots.txtを指していて、それ以外の場合はGoogleがrobots.txtファイルのコンテンツにインデックスを付ける場合です。 robots.txtで許可されていない場合、それは不可能です。

そのため、robots.txt自体に禁止ルールをrobots.txtに追加すると、Googlobotがファイルを取得して他の禁止されているものを確認することを妨げることなく、robots.txtのインデックス作成を防ぐことができます。

それを処理する別の方法は、インデックス作成を妨げるHTTPヘッダーをrobots.txtに追加することです。これは、問題の同様の解決策になります XMLサイトマップがGoogleの検索結果に表示されないようにする 。 robots.txtに次のHTTPヘッダーを提供する必要があります。

X-Robots-Tag: noindex

Apacheでは、次の.htaccessコードを使用して実装します。

<Files ~ "robots\.txt$">
  Header append X-Robots-Tag "noindex"
</Files>
4