私はグーグルでこのようなURLを無視したい:
http://www.mydomain.com/new-printers?dir=asc&order=price&p=
パラメータdir、order、priceを持つすべてのURLは無視する必要がありますが、Robots.txtの経験はありません。
何か案が?
クエリ文字列を許可しない場合の解決策は次のとおりです。
Disallow: /*?*
または、クエリ文字列をより正確にしたい場合:
Disallow: /*?dir=*&order=*&p=*
また、許可するURLをrobots.txtに追加することもできます
Allow: /new-printer$
$
は/new-printer
は許可されます。
詳細:
http://code.google.com/web/controlcrawlindex/docs/robots_txt.html
http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/
これらの特定のクエリ文字列パラメーターは、次の行でブロックできます
Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=
したがって、URLにdir=
、order=
、またはp=
anywhereクエリ文字列では、ブロックされます。
ウェブサイトをGoogle WebMaster Toolsに登録します。そこで、パラメータの処理方法をGoogleに伝えることができます。
サイト構成-> URLパラメーター
これらのパラメーターを含むページには、robotsメタタグを介してインデックスから除外する必要があることを示す必要があります。例えば.