web-dev-qa-db-ja.com

Areca 1280mlRAID6ボリュームセットが失敗しました

今日、私たちはある種の最悪のシナリオにぶつかり、あらゆる種類の良いアイデアを受け入れています。

これが私たちの問題です:

仮想マシンをホストするために、いくつかの専用ストレージサーバーを使用しています。続行する前に、仕様は次のとおりです。

  • 専用サーバーマシン
  • Areca 1280ml RAIDコントローラー、ファームウェア1.49
  • 12x Samsung 1TB HDD

1つの論理ボリュームを含む10枚のディスクで1つのRAID6セットを構成しました。システムには2つのホットスペアがあります。

今日、1台のHDDに障害が発生しました。これは時々発生するので、交換しました。 2枚目のディスクを再構築すると失敗しました。通常、これは面白くありません。安定したRAIDの再構築を確実にするために、大量のIO操作を停止しました。

残念ながら、再構築中にホットスペアディスクが故障し、すべてが停止しました。

現在、次の状況が発生しています。

  • コントローラーは、レイドセットが再構築中であると言います
  • コントローラーは、ボリュームが失敗したと言います

これはRAID6システムであり、2つのディスクに障害が発生したため、データは無傷である必要がありますが、データにアクセスするためにボリュームを再びオンラインにすることはできません。

検索中に、次のリードが見つかりました。それらが良いか悪いかはわかりません:

  1. すべてのディスクを2番目のドライブセットにミラーリングします。ですから、私たちはすでに持っている以上のものを失うことなく、さまざまなことを試す可能性があります。

  2. R-Studioでアレイを再構築しようとしています。しかし、このソフトウェアの実際の経験はありません。

  3. すべてのドライブを引き出し、システムを再起動し、arecaコントローラーのBIOSに変更し、HDDを1つずつ再挿入します。これによりシステムがオンラインになったと言う人もいます。効果がゼロだと言う人もいます。彼らはすべてを吹き飛ばしたと言う人もいます。

  4. 「rescue」や「LeVel2ReScUe」などの文書化されていないarecaコマンドを使用する。

  5. コンピュータフォレンジックサービスに連絡する。しかし、おっ...電話による一次見積もりは20.000€を超えました。だからこそ、私たちは親切に助けを求めます。多分私達は明白を逃していますか?

もちろん、バックアップもあります。ただし、一部のシステムでは1週間のデータが失われたため、システムを再び稼働させたいと考えています。

ヘルプ、提案、質問は大歓迎です。

10
Richard

オプション1が最善だと思います。

12台の新しいHDD、1台の新しいRAIDコントローラーを使用するLinuxボックスを使用して、古いディスクを新しいディスクに1:1でミラーリングしてみてください(dd if = of =)。 1xの新しいRAIDコントローラーと12xの新しいHDDを使用して新しいサーバーを構築します

新しいサーバーでアレイを再構築してみてください。成功?すごい。やめる。
再構築に失敗しましたか?古いディスクを新しいディスクに再度ミラーリングし、オプションi +1を試してください

2
cipy

残念ながら、これは非常に一般的なシナリオです。この数年前にGoogleの優れた調査があり、アレイの再構築中にRAIDでデータが失われる可能性があることが判明しました。これは、重大度の異なるさまざまなRAIDシステムに影響を与える可能性があります。 RAID6のシナリオは次のとおりです。

  • アレイには3つのデータと2つのパリティディスクがあります。
  • 1つのディスクを紛失した場合でも、すべてのデータが回復可能であることが確実です。
  • 2つのディスクを失うと、データが失われます

何故ですか?

次のことを考えてみてください。いくつかのデータを用意し、ファイルの最初の3ブロックに次のデータブロックがあると仮定します:A1 + A2 + A3および次のパリティ:Ap + Apがhdd1 ... hdd5に座っています

データを回復できないためにデータを失った1から3までの2つのディスクを失った場合、2つのパリティと1つのデータブロックがあります。

10個のディスクを使用した同じシナリオは異なる場合がありますが、データを8ブロックに分割し、パリティを他の2つのドライブに保存し、2つのホットスペアを使用するのと同じ方法で処理されたと思います。 RAIDコントローラー構成の詳細を知っていますか?

私はオフサイトバックアップから回復し始めます(私はあなたがいくつか持っていると思います)、そしてサービスは戻って、Unixを使用してドライブをイメージにddし、それをループデバイスとして使用して、できるだけ多くのデータを回復しようとします。

http://wiki.edseek.com/guide:mount_loopback

RAIDコントローラーが使用するメタデータの種類を知る必要があります。運が良ければ、dmraidなどのツールでサポートされています。

ただし、これは、データをまったく回復できるという意味ではありません。ファイルは通常、多くのブロックに分散されているため、回復によってデータを復元できない可能性があります。

RAIDの詳細:

https://raid.wiki.kernel.org/index.php/RAID_setup

0
Istvan