このお客様のサイトには、次の構成の2つの新しいDell PowerEdge R320サーバーがあります。
O.S.ドメインコントローラーとして使用されるWindows Server 2012 R2です。すべてのファームウェアとドライバーは最新で、Windowsは完全にパッチされています。通常、システムの負荷は非常に低いです。
突然、サーバーの1つが速度を落としてクロールしました。 「クロール」とは、「まともな時間にウィンドウをペイントすることさえできなかった」という意味です。右クリックしてコンテキストメニューを表示したり、カーソルを移動するをしたりするなど、何でもするのは大変な苦痛でした。
サーバーに異常な負荷はありませんでした:CPUの使用率は1〜3%、RAM 4 GB未満の使用率、ディスクまたはネットワークのピーク、まったく何もありませんでした。
また、Windowsイベントログ(最終的にそれを開くことができたとき)にはまったくエラーがなく、ネットワークケーブルが切断されても速度が低下することはありませんでした。
Windowsを再起動することも役に立ちませんでした。非常に長い起動時間の後、システムは以前と同じようにひどく遅いままでした。
最後に重要なことですが、システムのフロントパネルディスプレイにも、POST中の画面にもエラーメッセージはありませんでした。
最後の手段として、コールドブートを試すことにし、サーバーを再起動する前に実際に電源ケーブルを取り外しました。これで問題が解決しました。システムは正常に起動し、完全なパフォーマンスを再開しました。
しかし、問題は残っています:WTFはここで起こりましたか?!?
さらに重要なことですが、それが二度と起こらないようにするにはどうすればよいでしょうか?
同じ問題がありました。問題が発生している間にDSETログを調べた後、コールドブートを修正した後、Dellサポートは電力サージを主張し、その時点でサーバーはAPC 1500kVA SmartUPSで電力を供給していました。
デルのサポートでは、センサーをリセットするためにコールドブートを推奨しています(電源プラグを抜いて、電源ボタンを3秒以上押し続けます)。
サポートでは、ライフサイクル(再起動が必要)またはWindowsシステム(再起動は不要)からiDracを入手可能な最新の1.66.65にパッチすることも提案されました。
これは数週間前の2015年1月の第1週に発生しましたが、問題は再発していません。
ESM_Firmware_3F4WV_WN64_1.66.65_A00.EXE
Dell PowerEdge R320 6コアCPU 24 GB RAM 2 x 1000 GB NLSASディスクRAID 1
まず、BIOS、iDRAC/Lifecycle Controllerを含むすべてのファームウェアバージョンを最新のものに更新することから始めます。これは、BIOSの電力使用量とパフォーマンス設定の問題である可能性が高いです。詳細については、デルの第12世代サーバーの パフォーマンスと電源チューニング ドキュメントを確認してください。
これは、T320で発生しました。 BIOSのバグでした。デルは更新されたBIOSをリリースし、問題は修正されました。回避策は、BIOSを次のように設定することです。PowerEdgeBiosで、システムプロファイルをパフォーマンス最適化に変更します。これにより、CステートとC1Eが無効になります。手順: http://www.ponjavic.com/wordpress/2014/09/30/disable-Dell-poweredge-m620-cpu-throttling/
同じハードウェア、ファームウェア、ドライバを備えた2つのWin2K12-R2 T320があります。昨日はひどく遅くなりました-数週間でWindowsの更新はインストールされませんでした。ハードウェアエラーなしでDSETを実行した後:
デルの技術者がT320のBIOSに移動し、システムプロファイル設定に移動して、「ワットあたりのパフォーマンス」を「パフォーマンス」に変更することを推奨しました
再起動し、サーバーは高速で実行されており、パフォーマンスは数か月前よりも優れています。