GooglebotがWebサービスURLのインデックスを作成しないようにするにはどうすればよいですか？

Question

GooglebotとbingbotのWebサービスへのアクセスに問題があります。 drupal Webサイトに統合されるaspxで作成された検索アプリケーションがあります。ユーザーは、drupalを介して郵便番号または都市に基づいて検索を実行し、検索クエリはaspxを介して出力されます。問題は、google/bingがaspxから返されたクエリページのインデックスを作成し続けると、404エラーが発生することです。

GooglebotがWebサービスをインデックスに登録しないようにするにはどうすればよいですか。 IIS 7.5です。サーバーにルールを設定しますか？ robots.txtでブロックしようとしましたが、正しい構文があるかどうかわかりません。

Disallow: /*? User-agent: Googlebot Noindex: /office/default.aspx Noindex: /?keyword Noindex: /electronics/locationdetails.aspx? Noindex: /electronics/communitydetails.aspx? Noindex: /electronics/Communitylist.aspx? Noindex: /office/communitysearch.aspx? Noindex: /Electronics/Communitylist.aspx? Noindex: /Office/LocationDetails.aspx?

danlefree · Answer

robots.txtファイルが robots.txt仕様に準拠していないようです（ディレクティブの前にユーザーエージェントを指定する必要があり、Noindexが有効なディレクティブであるとは思わない）。

以下の更新を検討してください。

User-agent: googlebot Disallow: /Office/LocationDetails.aspx Disallow: /office/default.aspx Disallow: /Electronics/Communitylist.aspx Disallow: /electronics/locationdetails.aspx Disallow: /electronics/Communitydetails.aspx Disallow: /electronics/communitydetails.aspx

...あるいは、Googleの RobotsメタタグおよびX-Robots-Tag HTTPヘッダー仕様 documentで詳細に説明されているように、必要に応じてnoindex/none X-Robots-Tagヘッダーを追加するようにWebサーバー（またはアプリケーション）を構成できます。

Amit Yarashi · Answer

ヘッドタグの下の各ページで「NoINDEX、NOFOLLOW」メタロボットタグを使用するか、 robots.txt の下の特定のディレクティブを使用してください。