他の点では同一の2台のマシンで、ソフトウェアraid10のパフォーマンスと動作が大きく異なります。
ハードウェアが同一で、同時に購入し、ソフトウェアバージョン、ハードウェアバージョン、およびファームウェアバージョンが同じ2台のマシンがあります。それぞれにSASコントローラーがあり、8 x 6 Gb/sチャネルがa SAS 12個のSASディスクを保持するエンクロージャーに接続されています) 。
安定していて完全に機能しているように見えるマシン1では、RAIDアレイ内の各ディスクはほぼ同じように動作します。ビジー時間は等しく(実稼働負荷レベルのすべてのディスクで約33%)、毎週のソフトウェアRAIDチェック実行、書き込み、および読み取りのパフォーマンスは低下しません。完全なレイドチェックは約1日で完了し、利用可能なすべてのスペア帯域幅を使用して可能な限り迅速に完了します。このチェックが完了する間、これは約200MB /秒の読み取りに相当します。
マシン2は問題のある子です。利用可能なすべてのディスク帯域幅も使用するように構成されていますが、完全なRAIDチェックは基本的に完了しません。チェックを試みている間、5 MB /秒で進行し、この間、書き込みパフォーマンスは約30 MB /秒に低下します。また、4つのディスクは35%ビジーで、残りのディスクは平均22%ビジーです。
マシン2のレイドチェックをキャンセルすると、書き込み速度は約160MB /秒に戻ります。
dd
を使用して個々のmpath
デバイスをテストすると、マシン1で、ドライブあたりの読み取り速度が145 MB /秒前後になり、最低の119 MB /秒に続いて127MBになります。残りはすべて145MB /秒の範囲です。
マシン2では、107 MB(x 3ディスク)の速度が得られ、残りはすべて135 MB /秒を超え、1つのディスクでピークは191 MB /秒(!)になります。
私はここで自分の快適ゾーンからかなり外れていることを認めますが、結論を引き出す証拠を見つけることができません。また、両方のマシンの各ディスクのSMART統計を確認しました。すべてのディスクにかなりの数の「読み取り修正済み」エラーがありますが、値との間に相関関係はないようです。読み取りパフォーマンス、またはビジー%の差の間。
一方のボックスともう一方のボックスでアレイのRAIDチェックを実行したときのパフォーマンスの低下を説明できるものはありません。これをデバッグするために次にどこに行くべきかについての提案をいただければ幸いです。
私は問題を見つけました。ソフトウェアアレイ内の12個のディスクのうち4個で書き込みキャッシュが無効になりました。
これを絞り込むために私がしたことは次のとおりです。
アレイを分解し、ddをoflag = directとともに使用して、各ディスクへの書き込み速度をテストしました。ビジー率が高いものは、約75 MB /秒しか書き込みできないものであり、他のすべてのものは、1GBおよび10GBのデータサイズの書き込みを維持するために180MB /秒を実行できることがわかりました。
ただし、4つの低速ディスクはすべて互いに非常に一貫しているため、掘り下げてsdparm
をインストールし、SCSIパラメータページをいじることができるようにしました。
WCE(書き込みキャッシュの有効化)のデフォルトがオンになっているのを確認したら、これら4つのディスクでオフにしたので、オンにしました。書き込み速度は180MB /秒のマークに達し、アレイは1 GB /秒の速度で再構築されています(これは、このディスクのセットがこのコントローラーで実行できる最大値です)。
チェックコマンドはsdparm --get=WCE /dev/mapper/mpatha
そしてそれを設定するには、sdparm --set=WCE --save /dev/mapper/mpatha
将来のユーザーのために。
さらに、省電力がオンになりました。これにより、OSレベルのキャッシュで速度を維持できなくなりましたが、oflag = directでは引き続き実行されました。