複製されたボリュームを提供する2つのストレージサーバーを備えた小さなGlusterFSクラスターがあります。各サーバーには、OSとログ用に2つのSASディスク、MegaRAIDを使用してRAID10としてストライプ化された実際のデータ用に22のSATAディスクSAS 9280-4i4e with this構成: http://Pastebin.com/2xj4401J
このクラスターに接続されているのは、nginxを実行しているネイティブクライアントを備えた他のいくつかのサーバーで、3〜10MBのオーダーで保存されているファイルを提供します。
現在、ストレージサーバーの発信帯域幅は300Mbit/sで、RAIDアレイのビジー率は30〜40%です。奇妙な副作用もあります。io-latencyが急上昇し、レイドで10秒以上アクセスできない場合があります。使用されるファイルシステムはxfsであり、RAIDストライプサイズに一致するように調整されています。
誰かがそのようなパフォーマンスの悪いアレイの理由が何であるかについての考えを持っていますか? 22 RAID10のディスクは、wayより多くのスループットを提供する必要があります。
誰か あなたのハードドライブに叫ぶ ? :-)
さらに深刻なことに、I/Oレイテンシの急上昇中に書き込みアクティビティがたくさんありますか? iotop
および/またはbtrace
を使用して、内部で何が起こっているかを確認しようとしましたか?
おそらく、RAIDコントローラーはスパイク中にキャッシュをフラッシュし、完了するまですべてをブロックしますか?
スパイクを記録できれば、さらに多くの作業が必要になります。いずれにせよ、明白な構成の問題はなく、これはおそらくハードウェアの問題であると私はかなり自信を持っています。まずカードを交換し、保証期間内であればディスクを交換します。