NexentaStorストレージユニットとして実行されているHP ProLiant DL380 G7サーバー があります。サーバーには36GB RAM、2つのLSI 9211-8i SASコントローラー(SASエキスパンダー)なし、2 SASシステムドライブ、12 SASデータドライブ、ホットスペアディスク、Intel X25-M L2ARCキャッシュ、およびDDRdrive PCI ZILアクセラレータ。このシステムは、複数のVMWareホストにNFSを提供します。また、約90-アレイ上の100GBの重複排除されたデータ。
パフォーマンスが突然低下する2つのインシデントがあり、VMゲストとNexenta SSH/Webコンソールにアクセスできず、機能を復元するためにアレイを完全に再起動する必要がありました。どちらの場合も、 Intel X-25M L2ARC SSDが失敗したか、「オフライン」になりました。NexentaStorはキャッシュの失敗について警告しませんでしたが、(応答しない)コンソール画面に一般的なZFS FMA警告が表示されました。
zpool status
出力が表示されました:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
これはNexenta内からアラートをトリガーしませんでした。
L2ARCの障害はシステムに影響を与えないだろうという印象を受けました。しかし、この場合、それは間違いなく犯人でした。 RAID L2ARCに対する推奨事項を見たことがありません。不良SSDをサーバーから完全に削除すると動作が再開しましたが、デバイス障害の影響(およびNexentaStorからの通知の欠如も同様)が心配です。
Edit-L2ARCキャッシュアプリケーション用の現在のbest-choiceSSDは何ですか?日々?
ZFSはディスクI/Oを実行しません。ZFS以下のデバイスドライバはディスクI/Oを実行します。デバイスがタイムリーに応答しない場合、またはこの場合のように、エクスパンダーの他のすべてのデバイスが中断される場合、ZFSの障害として認識されません。 ZFSが認識するのは、遅いI/Oだけです。
Intel X-25Mファームウェアには、高負荷時の動作に影響を及ぼし、リセットストームを引き起こす可能性のあるバグがあります。この問題はすべてのOSに影響し、OS層では解決できません。修正または修正については、ハードウェアのサプライヤーにお問い合わせください。
読み取りがL2ARCによって満たされることが期待される場合、読み取りはそこで試行されます。次に、ZFSは下位層のドライバーに依存してエラーを報告します。この場合、ドライブは、ドライバー、デバイス、およびデフォルトのタイムアウト設定に応じて、I/Oが失敗したと宣言する前に最大5分間リセットと再試行を続けます。下位層のドライバーがI/Oが失敗したと宣言した後でのみ、ZFSはプールで再試行します。
NexentaStorのボリュームチェックランナーとディスクチェックランナーは、追加のエラーメッセージを探し、電子メールと障害ログを介して警告します。 3.1リリースでは、ディスクチェックランナーが改善され、SSDのファームウェアの破損によって発生する状態を具体的に警告できるようになりました。
結論:ハードウェアに障害があり、修正または交換する必要があります。
X25-M SSDをバックプレーンに接続していますか? Nexentaには既知の問題があり、バックプレーンを介してL2ARCにアクセスします。 SSDをマザーボードのSATAポートに直接接続することをお勧めします。 AHCIも使用するように設定されていることを確認してください。
このサーバーでミッションクリティカルなものを実行している場合は、SLC SSD(X25-EやSTEC SSDなど)に切り替えます。そうは言っても、そうでなければX25-Mで大丈夫でしょう。
Edは、比較的リーズナブルな価格からかなり高価なものまで、さまざまなものを使用できます。私はSAS SSDをすべてのケースで展開することを好み、STECとPliantの両方で非常にうまく機能しました。どちらも、L2ARCデバイスで有名に機能するMLCドライブを提供します。まだテストされていませんが、近日提供予定ですSLC SAS 2.0であり、「高価ではない」と噂されているSeagateのSSD製品です。ご期待ください...
-PB