レプリケーションまたは？

Question

最近、Googleボットやその他のあらゆる種類のボットに打撃を受けています（平均して発生するWebサイトトラフィックの60％はボットからのものです。Googleボットトラフィックを別のサーバー（低コストサーバー）にセグメント化しようとしています。）。ただし、データベースを複製またはミラーリングする必要があります。リアルタイムに近づけたい場合、一方のソリューションが他方よりも優れていますか？現在、実稼働サーバーのデータはSANにあります。これを複製することはできますが、スナップショットレプリケーションのように機能します。

JdeBP · Answer

蜘蛛を「細分化」しないでください。

WWWスパイダーを「セグメント化」しようとすることは、WWWスパイダーの所有者と戦っています。所有者は、可能な限り、他のすべての人が見ているものをスパイダーに見せたいと考えています。そのルートを進むと、クモの飼い主との絶え間ない軍拡競争に巻き込まれます。

サイトのデザインを確認してください。

スパイダートラフィックが多いと、サイトのデザインが悪いことを示す場合があります。例：URLにセッションIDが含まれているハイパーリンクにより、スパイダーは単一のページを複数回表示およびクロールします。コンテンツHTTPサーバーのログで、スパイダートラフィックが実際に何であるかを確認してください。セッションIDなどによってのみ変化するものが何度もクロールされている場合は、この問題が発生しないようにサイトを調整してください。確認および修正する必要のあるこの静脈のその他のエラーについては、 Googleの技術ガイドラインを参照してください。

最後の手段として、提供されているツールを使用してください。

Googleはウェブマスターツールでクロール速度の調整ノブを提供しています。サイトが技術ガイドラインに準拠していることを確認し、サイトのデザインがクロールトラフィックの増加の根本原因ではないことを確認した場合、ウェブマスターツールを使用します。ただし、静的コンテンツのクロール速度を抑えるために、90日ごとにこれを実行し続ける必要がある場合は、サイトのデザインに問題があり、見つけて修正していない可能性が高いことに注意してください。

Peter Schofield · Answer

あなたのデータは本当にそれほど変化しますか？提案された低コストのサーバーで、更新頻度の低いバージョンのWebサイトをボットに提供できますか？その後、そのデータを一晩で更新できる場合があります。

SQL Serverのデータベースミラーリングでは、読み取り専用アクセスにデータベーススナップショットを使用しない限り、クエリにセカンダリを使用することはできません。これはEnterpriseエディションの機能です。 SQL Serverの次のリリースで状況は変わりますが、それでもまだ時間がかかります。

データベースのミラーリングもデータベースごとに行われるため、ソリューションを構成するデータベースが複数ある場合は、それらすべてをミラーリングする必要があります。

レプリケーションとは、データのサブセットを移動することです。多くの人がこれに同意しない可能性があります。テクノロジーでシフトするデータが多いほど、必要な帯域幅も多くなります。そうしないと、遅れが生じ始めます。

おそらく1つの解決策は、プロセスを介して定期的に更新されるWebサイトのより静的なコンテンツをボットに提供することです。

sqlbuzz · Answer

返信ありがとうございます。レプリケーションを試してみて、どうなるか見てみようと思います。レプリケーションは夜間にのみ実行されます。

@JdeBP私はすでにそれを試し、クロール速度を最小に設定しようとしました。私の場合は役に立たなかった。また、これはほぼ4000のWebサイト用です。