ESXi 5とiSCSI接続ネットワークストレージ(freenas上の4x1Tb Raid-Z)を備えたサーバーがあります。これらの2台のマシンは、ギガビットイーサネットで相互に接続されており、その間に調達スイッチがあります。
しばらくして、多くの(4〜5以上の)vmsを実行していると、応答しなくなり始めます(何かが起こるまでに長い遅延が発生します)。私たちはこの背後にある理由を見つけようとしています。
今日、esxtopを調べたところ、そのiSCSILUNのDAVGは70〜80のままであることがわかりました。 +30が重要だと読みました!
これらの高い応答時間を引き起こしている可能性があるのは何ですか?
おそらくすでにご存知のように、DAVGはディスクの待ち時間を指します。もちろん、30ミリ秒を超えると、パフォーマンスと応答性が著しく低下します。遅延は多くの問題によって引き起こされる可能性がありますが、何よりもまず、ディスクは、ディスクにスローするIO負荷を処理できる必要があります。
IO負荷は、1秒あたりのIO数(IOPS)だけでなく、パターンも指します。ランダム(パターン)I/Oは、仮想化サーバーに期待するものとほぼ同じであるため、ディスク構成はランダムI/Oの観点から適切に機能する必要があります。残念ながら、RAID-Zは法案に適合しません。 Oracle によると:
ランダム入力の状況は、RAID-Zを検討する際に特別な注意が必要な状況です。
事実上、最初の概算として、NディスクRAID-Zグループは、配信されるランダム入力IOPSの観点から単一のデバイスとして動作します。したがって、それぞれが200-IOPSに対応するデバイスの10ディスクグループは、グローバルに200-IOPS対応のRAID-Zグループとして機能します。これは、ミラーリングに関連する2倍のブロックオーバーヘッドなしで適切なデータ保護を実現するために支払う代償です。
オラクルはここで、RAID-Zセットはセット内の単一のディスクとほぼ同じ数のランダムIOPSを処理できると述べています。 1つの7.2kディスクで約80IOPSを実行できます(これは、誰に尋ねるかによっては十分な数になる場合があります)。つまり、RAID-Zでは、アレイ全体で80のランダムIOPSしか実行できません。その少数のIOPSで5〜7台のサーバーを実行することは、ひどいパフォーマンスのレシピです。
4台のドライブをRAID-10セットで構成すると、パフォーマンスが大幅に向上します。 2TBを超えるRAW容量(RAID-10で得られる容量)が必要な場合は、RAID-5を実行してください。この場合、どちらもRAID-Zよりも優れたランダムI/Oパフォーマンスを提供します。