Google CSEはrobots.txt
のインデックスを作成し、誰かが「txt」を検索すると、実際には理想的ではないrobots.txt
ファイルを返します(これは沼地の標準Drupalサイトであるため、文字列robots.txt
は実際にテキストに表示されます)。どうすればこれを回避できますか? Googleのどこかに設定がありますか、/robots.txt
をermに追加する必要がありますか、robots.txt
または...?
これをrobots.txtに追加できます。
Disallow: /robots.txt
robots.txtがそれ自体を許可しない場合 Googleのジョンミューラーは次のように述べています:
これが影響する唯一のことは、リンクがrobots.txtを指していて、それ以外の場合はGoogleがrobots.txtファイルのコンテンツにインデックスを付ける場合です。 robots.txtで許可されていない場合、それは不可能です。
そのため、robots.txt自体に禁止ルールをrobots.txtに追加すると、Googlobotがファイルを取得して他の禁止されているものを確認することを妨げることなく、robots.txtのインデックス作成を防ぐことができます。
それを処理する別の方法は、インデックス作成を妨げるHTTPヘッダーをrobots.txtに追加することです。これは、問題の同様の解決策になります XMLサイトマップがGoogleの検索結果に表示されないようにする 。 robots.txtに次のHTTPヘッダーを提供する必要があります。
X-Robots-Tag: noindex
Apacheでは、次の.htaccessコードを使用して実装します。
<Files ~ "robots\.txt$">
Header append X-Robots-Tag "noindex"
</Files>