robots.txt
の「最良の」設定は何ですか?
次のパーマリンク構造/%category%/%postname%/
を使っています。
私のrobots.txt
は現在このようになっています(昔からコピーされたものです):
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
ここで他に何か変更しませんか。
ちなみに、トラックバックURLはリダイレクトを発行し、コンテンツがないため、インデックスが作成されません。
そして、質問に答えないという危険を冒して、あなたのポイント2と3を再確認してください。
http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html
別の言い方をすれば、私はあなたが重複コンテンツについて心配しているあなたの時間を浪費していると思います、そしてあなたのrobots.txtは以下に制限されるべきです:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
この質問と回答が投稿されてからの長い時間です。それ以来、状況は大きく変わりました。 wp-content/themes
、wp-content/plugins
、wp-content/cache
、wp-includes
、およびその他のサイトに必要なCSSまたはjsファイルを含むディレクトリへのアクセスをクローラに許可しないことに関する一般的な推奨事項は無効になりました。
たとえば、Googleについて話しましょう。 GooglebotはCSSとjsなしでウェブサイトをレンダリングしていましたが、実際にはそうではありませんでした。実際、Googlebotは文書全体を検索し、応答性、数、場所、スクリプトのサイズなどをチェックします。そのため、GooglebotがCSSやjsファイルにアクセスすることを許可しない場合、Googleは嫌いです。つまり、wp-content/themes
、wp-content/plugins
、wp-content/cache
、およびwp-includes
を許可しないでください。これらのフォルダーはすべてCSSファイルとjsファイルを処理できるからです。
私の立場からすると、実際には最高のrobots.txtファイルがデフォルトでWordPressによって作成されたものです( WP 4.0 から次のrobots.txtがデフォルトです)。
User-agent: *
Disallow: /wp-admin/
Cgi-binフォルダがある場合は、cgi-binフォルダを許可しないことをお勧めします。
User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
また、サイトマップを使用する場合は、robots.txtにサイトマップ参照を含めることをお勧めします(それでも、サイトマップをGoogleおよびBing Webマスターツールに手動で送信する必要がありますが、参照は他のクローラにも役立ちます)。
User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
Sitemap: http://example.com/sitemap.xml
それは一般的です。特定のWebサイトでは、各特定のケースで検討する必要がある他のフォルダやファイルを許可しないようにする必要があります。たとえば、特定のプラグインフォルダが必要な場合や許可しない場合があります。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/
Robots.txtを変更するには、robots_txt
フィルタを使用します(実際のrobots.txtファイルを使用すると、WordPressはrobots.txtを処理できなくなります)。例えば:
add_filter( 'robots_txt', function( $output ) {
$output .= "Disallow: /cgi-bin/\n";
$output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
$output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";
return $output;
});
Yoastの WordPress SEOプラグイン を見ましたか?それは間違いなくrobots.txtの問題を処理します。
ちょっとした助けを借りて、これは今や鉱山です(どうやら、他の人たちと大差ありません)。
User-agent: *
Allow: /
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /cat/
Disallow: /key/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
#User-agent: ia_archiver-web.archive.org
#Disallow: /
Sitemap: YOURSITENAME.HERE
Joost de Valkの現在のアプローチ に従う必要がありますが、robots.txt
ではほとんどブロックされませんが、各サイトには独自の適切なポリシーがあることも理解してください時間をかけて見直し、変更する必要があります。
以前にここで与えられた回答の多くは日付が付けられており、Googleは現在「モバイルフレンドリー」をチェックしているため、SEOの自己破壊になります。今日、googlebotsは、/ wp-content、/ themes、/ pluginsなどからのフォント、画像、JavaScript、CSSアセットなど、通常のブラウザーが行うすべてをロードしようとします。(Morten Rand-Hendriksen 最近これについてブログに書きました 。)
Googleの「モバイルフレンドリー」サイトチェッカー を使用して、robots.txt
ファイルがサイトを妨害しているかどうかを確認できます。 Googleウェブマスターツールを使用している場合、大きな問題がある場合はアラートとメール通知を受信する必要があります。
許可されていないフォルダから主要なプレゼンテーションまたはインタラクティブなアセットがロードされないように注意しない限り、これはおそらくWordPressのインストールごとに最低限必要です:
User-agent: *
Disallow: /wp-admin
そして、サイトマップを追加することを忘れないでください:
Sitemap: http://yoursite.com/sitemap.xml
残念ながら、このよりオープンなポリシーは、[プラグインおよびテーマ開発者が自分のサイトへのリンクを含むインデックス可能なページを含む]など、以前は人々をrobots.txt
で制限する他の問題の可能性を再現します。 4 細かい歯の櫛ですべてのサードパーティのコードを調べ、不要なものを移動または削除できない限り、これについては何もする必要はありません索引付けされます。
ちなみに、ALWYASはあなたのパーマリンクを数字で始めています。 WordPressはページと投稿をすばやく区別できるため、経験からするとページが高速化されます(他の場所でも読んだ後に試してみました。だからhttp:example.com/%month%/%post%
...は大丈夫だろう
私はただ持っているものをコピーするつもりです。多くの研究がこれに入りました。おそらくやり過ぎです! Googleのウェブマスターツールに表示されるように、サイトの主なキーワードが何であるかをGoogleが認識するのに役立ちます。それが役に立てば幸い
User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
User-agent: *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-
# disallow archiving site
User-agent: ia_archiver
Disallow: /
# disable duggmirror
User-agent: duggmirror
Disallow: /
User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*