web-dev-qa-db-ja.com

ZFS-L2ARCキャッシュデバイス障害の影響(Nexenta)

NexentaStorストレージユニットとして実行されているHP ProLiant DL380 G7サーバー があります。サーバーには36GB RAM、2つのLSI 9211-8i SASコントローラー(SASエキスパンダー)なし、2 SASシステムドライブ、12 SASデータドライブ、ホットスペアディスク、Intel X25-M L2ARCキャッシュ、およびDDRdrive PCI ZILアクセラレータ。このシステムは、複数のVMWareホストにNFSを提供します。また、約90-アレイ上の100GBの重複排除されたデータ。

パフォーマンスが突然低下する2つのインシデントがあり、VMゲストとNexenta SSH/Webコンソールにアクセスできず、機能を復元するためにアレイを完全に再起動する必要がありました。どちらの場合も、 Intel X-25M L2ARC SSDが失敗したか、「オフライン」になりました。NexentaStorはキャッシュの失敗について警告しませんでしたが、(応答しない)コンソール画面に一般的なZFS FMA警告が表示されました。

enter image description here

zpool status出力が表示されました:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

これはNexenta内からアラートをトリガーしませんでした。

L2ARCの障害はシステムに影響を与えないだろうという印象を受けました。しかし、この場合、それは間違いなく犯人でした。 RAID L2ARCに対する推奨事項を見たことがありません。不良SSDをサーバーから完全に削除すると動作が再開しましたが、デバイス障害の影響(およびNexentaStorからの通知の欠如も同様)が心配です。

Edit-L2ARCキャッシュアプ​​リケーション用の現在のbest-choiceSSDは何ですか?日々?

10
ewwhite

ZFSはディスクI/Oを実行しません。ZFS以下のデバイスドライバはディスクI/Oを実行します。デバイスがタイムリーに応答しない場合、またはこの場合のように、エクスパンダーの他のすべてのデバイスが中断される場合、ZFSの障害として認識されません。 ZFSが認識するのは、遅いI/Oだけです。

Intel X-25Mファームウェアには、高負荷時の動作に影響を及ぼし、リセットストームを引き起こす可能性のあるバグがあります。この問題はすべてのOSに影響し、OS層では解決できません。修正または修正については、ハードウェアのサプライヤーにお問い合わせください。

読み取りがL2ARCによって満たされることが期待される場合、読み取りはそこで試行されます。次に、ZFSは下位層のドライバーに依存してエラーを報告します。この場合、ドライブは、ドライバー、デバイス、およびデフォルトのタイムアウト設定に応じて、I/Oが失敗したと宣言する前に最大5分間リセットと再試行を続けます。下位層のドライバーがI/Oが失敗したと宣言した後でのみ、ZFSはプールで再試行します。

NexentaStorのボリュームチェックランナーとディスクチェックランナーは、追加のエラーメッセージを探し、電子メールと障害ログを介して警告します。 3.1リリースでは、ディスクチェックランナーが改善され、SSDのファームウェアの破損によって発生する状態を具体的に警告できるようになりました。

結論:ハードウェアに障害があり、修正または交換する必要があります。

10
Richard Elling

X25-M SSDをバックプレーンに接続していますか? Nexentaには既知の問題があり、バックプレーンを介してL2ARCにアクセスします。 SSDをマザーボードのSATAポートに直接接続することをお勧めします。 AHCIも使用するように設定されていることを確認してください。

このサーバーでミッションクリティカルなものを実行している場合は、SLC SSD(X25-EやSTEC SSDなど)に切り替えます。そうは言っても、そうでなければX25-Mで大丈夫でしょう。

3
zippy

Edは、比較的リーズナブルな価格からかなり高価なものまで、さまざまなものを使用できます。私はSAS SSDをすべてのケースで展開することを好み、STECとPliantの両方で非常にうまく機能しました。どちらも、L2ARCデバイスで有名に機能するMLCドライブを提供します。まだテストされていませんが、近日提供予定ですSLC SAS 2.0であり、「高価ではない」と噂されているSeagateのSSD製品です。ご期待ください...

-PB

0
PauleyB