web-dev-qa-db-ja.com

3ware:再構築を試みるときにリセット時に電源をオンにする

RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-Xに4つのディスクがあり、現在の状態は次のとおりです。

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

再構築が有効になっています。それが開始するSomethimes(ステータス:REBUILDING)は、1分ほどのことをしているように見え、その後REBUILD-PAUSEDにフォールバックします。 %RCmplが0%を超えることはありません。ログ(/var/log/messages)は約5分ごとに次のように述べています。

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

私はこのハードウェアに不慣れで、マシンと保守タスクを継承しました。それは何を示しているのでしょうか?私が抱えている問題はどれくらいですか?私は何をすべきか?


新しいイベント

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

...そして.。

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

P1の調子が悪いようです。


フォローアップ

INOPERABLEになる前に、常に数分/時間動作しました。そうすれば、なんとかデータのバックアップをとることができました。とてもラッキーでした。細心の注意を払う必要があることを学びました。そうしないと、冗長ストレージを使用しても意味がありません。

古いアレイを削除しました。障害のあるディスクを削除しました。 3つの適切なメンバーで新しい配列を定義しました。再作成されたファイルシステム。復元されたバックアップ。ハッピーエンド。

1
Notinlist

気を引き締めてください。

RAID 5は機能していません:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

これがSCSI/I/Oエラーの理由でもあります。 RAID5は4つのディスクではありません。 4番目のディスクp3は、プライマリユニットu0ではなく、独自のユニットu1にあります。

あなたが提供したテキストから判断すると、おそらく起こったことは次のとおりです。

  1. p2が劣化していて、再構築しようとしました
  2. この間、p1は検出されなくなりました
  3. 2台のドライブが機能/検出されなかったためにRAID5に障害が発生した

P2が「OK」を示しているという事実は、RAID5のステータスとは関係ありません。

これを回復できる可能性は低いので、このサーバーにバックアップがあることを願っています。 tw_cliが配列をオンラインで強制することもサポートしているとは思いません。以下は、この失敗した配列からデータを取得するのに役立ちませんが、これが私がお勧めするものです:

  1. 故障した/なくなったドライブを交換してください(p1)
  2. カードはRAID6をサポートしていないため、これを使用することはできません(大型ドライブに推奨)。したがって、RAID 10を使用する必要があります。RAID10で再作成し、パーティションを作成し、フォーマット/マウントして更新します。/fstab。
  3. バックアップから復元してください

これをスペア付きのRAID5としてセットアップした人(適切にセットアップされていない)は、最も明るくはありませんでした。

2
laebshade