web-dev-qa-db-ja.com

GooglebotがWebサービスURLのインデックスを作成しないようにするにはどうすればよいですか?

GooglebotとbingbotのWebサービスへのアクセスに問題があります。 drupal Webサイトに統合されるaspxで作成された検索アプリケーションがあります。ユーザーは、drupalを介して郵便番号または都市に基づいて検索を実行し、検索クエリはaspxを介して出力されます。問題は、google/bingがaspxから返されたクエリページのインデックスを作成し続けると、404エラーが発生することです。

GooglebotがWebサービスをインデックスに登録しないようにするにはどうすればよいですか。 IIS 7.5です。サーバーにルールを設定しますか? robots.txtでブロックしようとしましたが、正しい構文があるかどうかわかりません。

Disallow: /*?
User-agent: Googlebot
Noindex: /office/default.aspx
Noindex: /?keyword
Noindex: /el​ectronics/locationdetails.aspx?
Noindex: /electronics/communitydetails.aspx?
Noindex: /electronics/Communitylist.aspx?
Noindex: /office/communitysearch.aspx?
Noindex: /Electronics/Communitylist.aspx?
Noindex: /Office/LocationDetails.aspx?
3
tiki16

robots.txtファイルが robots.txt仕様 に準拠していないようです(ディレクティブの前にユーザーエージェントを指定する必要があり、Noindexが有効なディレクティブであるとは思わない)。

以下の更新を検討してください。

User-agent: googlebot
Disallow: /Office/LocationDetails.aspx
Disallow: /office/default.aspx
Disallow: /Electronics/Communitylist.aspx
Disallow: /electronics/locationdetails.aspx
Disallow: /electronics/Communitydetails.aspx
Disallow: /electronics/communitydetails.aspx

...あるいは、Googleの RobotsメタタグおよびX-Robots-Tag HTTPヘッダー仕様 documentで詳細に説明されているように、必要に応じてnoindex/noneX-Robots-Tagヘッダーを追加するようにWebサーバー(またはアプリケーション)を構成できます。

4
danlefree

ヘッドタグの下の各ページで「NoINDEX、NOFOLLOW」メタロボットタグを使用するか、 robots.txt の下の特定のディレクティブを使用してください。

0
Amit Yarashi