web-dev-qa-db-ja.com

サーバーの帯域幅を浪費させたり、グーグルに文句を言わせることなく、イメージドメイン全体のインデックスを作成しないように検索エンジンに指示する方法

私が学んだことから、厳密に画像を提供するドメイン上のすべてのURLをインデックスに登録せず、x-robots-tag HTTPヘッダーを使用する1つの方法があります。ログを確認して、googleとbaiduでさえ画像URLのコンテンツ全体をダウンロードしていることを確認します。私は彼らがこの行に出くわしたときに彼らがダウンロードをやめることを望んでいた:

X-Robots-Tag: noindex, noimageindex

その行を間違ってフォーマットした(大文字小文字の誤りや間違った値の順序などを使用した)か、検索エンジンが単なる愚かで、顧客のお金を無駄にするためにすべてをダウンロードすることにしました。

Robots.txtを調べてnoindex行を使用することを検討しましたが、Googleが「重要なURL」と呼ばれるものが重要でない場合にアクセスできないという不満を言いました。

インデックスを作成するのと同じサーバーで実行されている別のドメインにテキストベースのコンテンツがあるため、IPをブロックしたくありません。

検索エンジンにHEADメソッドを介してURLを要求した場合(完全なヘッダーがあり、実際のコンテンツはない)と同等の検索エンジンを提供したいと思いますが、コンテンツのクローキングに対してペナルティを受ける可能性があります。

これを修正するためにできることはありますか?

2
Mike

これを行う最も効果的な方法は、Disallow: /を唯一のディレクティブとしてrobots.txtファイルを使用し、イメージドメインのWebルートに配置することです。これが完了すると、検索エンジンは画像をクロールしません。 Googleからエラーを受け取った理由は、画像をクロールする必要があると判断したコンピューターベースの評価であったが、それはユーザーの裁量によるものだったからです。画像のインデックスを作成したくない場合は、Googleからのこのエラーを無視しても問題ありません。これは、画像がクロールされないことを示しているためです。

1

Googleはrobots.txtでNoindex:をサポートしています。 robots.txtの「Noindex:」の仕組み を参照してください。これはベータ版の機能であり、サポートが削除される可能性があります。そのため、robots.txtファイルを使用します。

User-Agent: *
Disallow: /

User-Agent: Googlebot
Noindex: /

User-Agent: bingbot
Disallow:

User-agent: Yahoo! Slurp
Disallow:

User-agent: Yandex
Disallow:

あなたが質問で言及した見出しとともに:

X-Robots-Tag: noindex, noimageindex

その場合、3人のスパイダーのみがコンテンツをクロールして、インデックスに登録できないことを確認します。 Googlebotはクロールまたはインデックス登録しません。検索エンジン以外のボットは、クロールさえ許可されません。

GooglebotがNoindex:のサポートを停止すると、クロールが開始され、インデックスを作成できないことがわかります。

0