約2,000のブログの世界からフィードを取り込むLinuxサーバー上に集約サイトがあります。 Wordpress 3.4.2にあり、別のサーバーで1時間に5回実行してストーリーを取り込み、このサイトのフロントページに公開するcronジョブがあります。これは、1台のサーバーに過度の圧力をかけなかったためです。ただし、1時間に数回アクセスするGoogleボットは、サイトのトラフィックが増加する朝と夕方にサーバーをひざまずかせます。ボットには、この時点でたどるべき30,000個のリンクがあります。フロントページから新しいストーリーを取得してそこで停止するために、ボットを調整するにはどうすればよいですか?
編集-サーバー構成の詳細:
このセットアップの方法は、すべての発行を処理するサーバーがAWSを介したアンマネージドインスタンスであるということです。 NFSサーバーをマウントし、RDSに接続してコンテンツなどを更新します。wp-adminリンクを検出し、そこにリダイレクトするプラグインを介してこの公開インスタンスにアクセスします。フロントエンドアプリサーバーもNFSをマウントし、RDSにデータを要求します。 WPスーパーキャッシュを持つのはこれだけです。..OSはAppサーバー上のUbuntuで、NFSはCentOsを実行します。フロントエンドはNginxで、公開サーバーはApacheです。
Googleウェブマスターツールを使用して、Googleクロール頻度を下げます。
ウェブマスターツールにログイン>設定>クロールレート
パフォーマンスに重大な問題があるようです。どういうわけか、ボットにnotにコンテンツのインデックスを作成してほしいとは思わないので、そこに行くつもりはありません...
絶対に最初にすべきことは、キャッシュを設定することです。 W3 Total Cacheは良いスタートです。以前はWP Super Cacheを使用していましたが、前者にはさまざまな異なる環境でキャッシュをセットアップするためのオプションが多くあります。たとえば、Amazon ElastiCache(memcached)と互換性があり、複数のアプリサーバーを実行する場合はおそらくこの方法でキャッシュする必要があります(以下を参照)。
Zend OPcacheを使用することも、CPU使用率を削減するための非常に良いアイデアです。
さらに、サーバー構成の明らかなボトルネックは次のとおりです。
これを行う1つの方法は、ソースにアクセスしてGoogle Webmasterのツールに登録することです https://www.google.com/webmasters/tools/home?hl=en
次に、サイトを登録したら、サイトの[構成]メニューと[設定]に移動して、クロールレートを制限できます。
robots.txt
の目的は次のとおりです。 http://www.robotstxt.org/