Webページには、それぞれが半ダースの列を持つ12個のデータテーブルがあります。関連するヘッダーをクリックすると、すべてのテーブルを列ごとに並べ替えることができ、これらはクエリ文字列に追加されます。
例えば列4、6、および降順3でソートされた3つのテーブルがあるページ
page.html?s1=4&s2=6&s3=-3
等.
列ヘッダーにnofollowリンクがあり、
<link rel="canonical" href="page.html">
ページで。
しかし、ビングはまだ何千もの組み合わせを通り抜けています。昨日それらのうち5772人!
S1/s2/s3/s4 ...を無視するパラメーターとしてマークしました(かなり前)が、それは助けにはなりません。
これを防ぐにはどうすればよいですか?無駄なサーバー負荷で利益は得られません。
Webサイトのルートにあるrobots.txtというファイルを使用して、Bingやその他のWebクローラーに、スパイダーする対象と無視する対象を伝えることができます。
特定またはすべてのクローラーに特定のURLを無視するように指示できます。
あなたの場合
User-Agent: *
Disallow: /*?s1=*&s2=*&s3=*
サイトで使用されているパラメーターに応じて、Disallow行に小さな変更を加える必要がある場合があります。
Robots.txtファイルの詳細 here