bingが何千もの本質的に同一のページをクロールしないようにしますか？

Question

Webページには、それぞれが半ダースの列を持つ12個のデータテーブルがあります。関連するヘッダーをクリックすると、すべてのテーブルを列ごとに並べ替えることができ、これらはクエリ文字列に追加されます。

例えば列4、6、および降順3でソートされた3つのテーブルがあるページ

page.html?s1=4&s2=6&s3=-3

等.

列ヘッダーにnofollowリンクがあり、

<link rel="canonical" href="page.html">

ページで。

しかし、ビングはまだ何千もの組み合わせを通り抜けています。昨日それらのうち5772人！

S1/s2/s3/s4 ...を無視するパラメーターとしてマークしました（かなり前）が、それは助けにはなりません。

これを防ぐにはどうすればよいですか？無駄なサーバー負荷で利益は得られません。

Marco Tolk · Answer

Webサイトのルートにあるrobots.txtというファイルを使用して、Bingやその他のWebクローラーに、スパイダーする対象と無視する対象を伝えることができます。

特定またはすべてのクローラーに特定のURLを無視するように指示できます。

あなたの場合

User-Agent: * Disallow: /*?s1=*&s2=*&s3=*

サイトで使用されているパラメーターに応じて、Disallow行に小さな変更を加える必要がある場合があります。

Robots.txtファイルの詳細 here