web-dev-qa-db-ja.com

bingが何千もの本質的に同一のページをクロールしないようにしますか?

Webページには、それぞれが半ダースの列を持つ12個のデータテーブルがあります。関連するヘッダーをクリックすると、すべてのテーブルを列ごとに並べ替えることができ、これらはクエリ文字列に追加されます。

例えば列4、6、および降順3でソートされた3つのテーブルがあるページ

page.html?s1=4&s2=6&s3=-3

等.

列ヘッダーにnofollowリンクがあり、

<link rel="canonical" href="page.html">

ページで。

しかし、ビングはまだ何千もの組み合わせを通り抜けています。昨日それらのうち5772人!

S1/s2/s3/s4 ...を無視するパラメーターとしてマークしました(かなり前)が、それは助けにはなりません。

これを防ぐにはどうすればよいですか?無駄なサーバー負荷で利益は得られません。

3
Codemonkey

Webサイトのルートにあるrobots.txtというファイルを使用して、Bingやその他のWebクローラーに、スパイダーする対象と無視する対象を伝えることができます。

特定またはすべてのクローラーに特定のURLを無視するように指示できます。

あなたの場合

User-Agent: *
Disallow: /*?s1=*&s2=*&s3=*

サイトで使用されているパラメーターに応じて、Disallow行に小さな変更を加える必要がある場合があります。

Robots.txtファイルの詳細 here

1
Marco Tolk