ユーザーが特定のURLでプロファイルページを作成できるサイトがあります。特定の各URLは公開され、検索エンジンもクロールできるようになります。今日、今日、少なくとも1000の新しいプロファイルページが取得され、24時間で10〜40ページがGoogleによってインデックスに登録されます。それは結構です。
ここに私の問題があります:
しかし、すでにインデックスが作成されたページは、しばらくしてからGoogleによって何度もクロールされています。しかし、それは実際には必要ではなく、サイトには現在300000〜400000ページあります。
そのため、新しい更新プログラムがあり、新しいページをクロールしても問題がなければ、古いプロファイルページの検索エンジンを何度もクロールしないでください。また、私はすでに期限切れのプロファイルページに410リダイレクトを使用しています。
古いページではなく、新しいプロファイルページのみに検索エンジンがフォーカスするように提案するのは素晴らしいことです。
XMLサイトマップに変更頻度タグを追加することを検討してください。 http://www.sitemaps.org/protocol.html
もう1つ検討することは、最終変更されたヘッダーがユーザーのアカウントの作成(または変更)日付と一致することを確認し、アプリケーションで機能する場合は、関連ヘッダーをキャッシュすることです。 http://www.mobify com/blog/beginners-guide-to-http-cache-headers /
まだ行っていない場合は、Google Webmaster Toolsにアカウントを登録してドメインを追加してからドメインにアクセスし、歯車アイコンを選択して[サイトの設定]にアクセスし、[Googleの最大クロールレートを制限]を選択して、あなたが大丈夫な値。おそらく、最低値はうまく機能します。これは、1秒あたり0.002リクエスト(リクエスト間の500秒の一時停止)になります。
もう1つ試したいのは、robots.txtの「クロール遅延」ディレクティブです。これにより、同じサーバーからの2つのリクエスト間の待機時間を指定できます。この時間は秒単位で測定されると思います。すべての検索エンジンがそれをサポートしているかどうかもわかりません。クロールの遅延に関する詳細情報へのリンクは次のとおりです。
https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive
また、インデックスを作成したくないURLにHTTPステータス410を発行し続けることをお勧めします。
サイトの他のページが古いページにリンクしている場合、古いページにリンクしている各アンカータグにrel="nofollow"
を追加して、Googleが誤ってクロールしようとしないようにすることができます。