web-dev-qa-db-ja.com

ディスクIO VMWareで実行されているWindowsServer 2008R2で切り取る

サーバーの問題を約1週間修正しようとしています。過去数日で、私たちは本当に問題が何であるかを知りました。

事前の情報:サードパーティのWebホストでVMを実行します。VMWareを使用していることは知っていますが、特定のバージョンはわかりません。VMWareツールを最新に更新しただけです。昨夜のバージョン。サーバーOSはWindowsServer 2008 R2であり、最新のWindowsアップデートが含まれている必要があります。これをWebサーバーとして使用するため、IIS 7.5を実行し、Coldfusion9.0を実行します。その上に.1。Coldfusion9は最新バージョンのJDK6を使用する必要があります(Java 7)との互換性の問題があると思います)。

私たちが目にしているのは、サーバーが基本的に「停止」する30秒から2.5分の短い期間です。実際にはロックされませんが、CPUの使用率はほぼ0%に低下し、Webリクエストは処理されません。

Windowsパフォーマンスモニターを使用して、これが発生すると、ディスクIOが完全にドロップオフしているように見えることを発見しました。添付されているのは、パフォーマンスモニターから取得したグラフの画像です。

最初のグラフは、これがいつ発生するかを示しています。ディスクアイドル%(緑色の線)が0に低下することに注意してください。これは、ディスクアクセスがフルキャパシティーであることを意味すると思います。 CPUは0%近くまで低下し、ときどきスパイクが発生します。紫色の線はディスクキューの長さです。これは、システムで保留中のディスクIO操作の数を示していると思います。これは通常、1または2のように非常に低く、多くの場合0です。この現象が発生すると、これは劇的に増加します(ディスクアクセスに問題がある場合は理にかなっています)。

2番目のグラフは、状況が回復したときを示しています。 CPUは、バックログされたWeb要求やその他のもののキューで途切れ始めたときにペグされますが、ディスク統計は「通常」に戻ります。

毎回ではありませんが、これが発生し、停止が非常に長い場合(数分)、Windowsシステムのイベントログにいくつかの警告が記録されます。ソースは「LSI_SCSI」で、イベントIDは「129」で、「デバイスにリセット、\ Device\RaidPort0が発行されました」という一般的なメッセージが表示されます。

これが最初に発生し始めたとき、私たちはそれが私たちのコードにあるものだと思っていましたが、これがすべて起こっているのを見て、OSまたはVM/VMWareに関して何かがあると感じました。負荷に関連しているとは思いません。もしそうなら、高いディスク使用率と高いCPU使用率の両方が見られると思います。 CPUが低いという事実から、プロセスはIO要求が返されるのを待っているだけでブロックされていると思います。これを理解するために、ホスティングプロバイダーと協力しています。でも、ここでアイデアを出そうと思ったので、よろしくお願いします!

最初のグラフ First Graph

2番目のグラフ Second Graph

2
jzimmerman2011

私はこれが古いことを知っていて、ずっと前に修正しましたが、私のプロフィールでそれを見て、答えを投稿したいと思いました。

私たちのホスティングプロバイダーが、注文したアップグレードを誤って失敗させたことが判明しました。これらは2層のディスクを提供します。1つは低速で、もう1つははるかに優れたパフォーマンスです。技術的な違いが何なのかわかりません。

私たちは常により高性能なものを持っていましたが、最後にディスクスペースをアップグレードしたとき、技術者が誤って下位層にぶつかりました。

私たちの業界では、通常、12月下旬はトラフィックの点で遅いため、これらのエラーは、トラフィック(したがってディスクIO)が回復する1月まで発生しませんでした。

とにかく、約2週間の調査と数え切れないほどの時間の浪費の後、私たちはホストの技術者の1人と電話をしていましたが、この小さな問題を発見しました。それが私たちを引き起こした頭痛のために、2ヶ月の無料ホスティングのようになってしまいました。

0
jzimmerman2011

プロバイダーが過負荷のホストでVMを実行している可能性があります。他の誰かのVMがディスクを拘束した場合、そのVMたくさんの音を立てる以外に何もできません。

1
Xavier J