2つの2TB HDDパーティション(/dev/sdb1
および/dev/sdc1
)をRAIDに作成しましたUbuntu 12.04 LTS Precise Pangolinでmdadm
を使用して/dev/md0
と呼ばれる1配列。
コマンドSudo mdadm --detail /dev/md0
は、両方のドライブをactive syncとして示すために使用されていました。
次に、テストのために/dev/sdb1
に失敗し、それを削除してから、Sudo mdadm /dev/md0 --add /dev/sdb1
コマンドを使用して再度追加しました
watch cat /proc/mdstat
はアレイの再構築の進行状況バーを表示しましたが、それを監視するのに何時間も費やさなかったので、ソフトウェアがそれが何をしているのかを知っていたと思いました。
進行状況バーが表示されなくなった後、cat /proc/mdstat
は次のように表示します。
md0 : active raid1 sdb1[2](S) sdc1[1]
1953511288 blocks super 1.2 [2/1] [U_]
そしてSudo mdadm --detail /dev/md0
は以下を示します:
/dev/md0:
Version : 1.2
Creation Time : Sun May 27 11:26:05 2012
Raid Level : raid1
Array Size : 1953511288 (1863.01 GiB 2000.40 GB)
Used Dev Size : 1953511288 (1863.01 GiB 2000.40 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Mon May 28 11:16:49 2012
State : clean, degraded
Active Devices : 1
Working Devices : 2
Failed Devices : 0
Spare Devices : 1
Name : Deltique:0 (local to Host Deltique)
UUID : 49733c26:dd5f67b5:13741fb7:c568bd04
Events : 32365
Number Major Minor RaidDevice State
1 8 33 0 active sync /dev/sdc1
1 0 0 1 removed
2 8 17 - spare /dev/sdb1
Mdadmは自動的に取り外されたドライブをスペアと交換するが、/dev/sdb1
が予期された位置、RaidDevice 1
に移動されていないと言われました。
UPDATE(2012年5月30日):badblocks
全体の/dev/sdb
の破壊的な読み取り/書き込みテストでは、期待どおりのエラーは発生しませんでした; HDDは両方とも新品です。
最新の編集の時点で、私はこのコマンドで配列を組み立てました:
Sudo mdadm --assemble --force --no-degraded /dev/md0 /dev/sdb1 /dev/sdc1
出力は次のとおりです。
mdadm: /dev/md0 has been started with 1 drive (out of 2) and 1 rebuilding.
再構築は正常に進行しているように見えます:
md0 : active raid1 sdc1[1] sdb1[2]
1953511288 blocks super 1.2 [2/1] [U_]
[>....................] recovery = 0.6% (13261504/1953511288) finish=2299.7min speed=14060K/sec
unused devices: <none>
現在、この再構築を待っていますが、以前に再構築を試みた5〜6回のように、/dev/sdb1
がスペアになることを期待しています。
更新(2012年5月31日):ええ、それはまだスペアです。うわっ!
UPDATE(2012年6月1日):私は試しています Adrian Kelly の推奨コマンド:
Sudo mdadm --assemble --update=resync /dev/md0 /dev/sdb1 /dev/sdc1
再構築を今待っています...
更新(2012年6月2日):いいえ、まだスペアです...
UPDATE(2012年6月4日):PB 私が見落としていた懸念がありました:おそらく/dev/sdc1
でI/Oエラーが発生しています。 /dev/sdc1
は問題なく動作しているようで、まったく新しいものだったので、気にしていませんでしたが、ドライブの終わりに近づくI/Oエラーは合理的な可能性があります。
私はこれらのHDDを販売して購入したので、そのうちの1つがすでに故障しているのは当然のことです。さらに、どちらも S.M.A.R.T。 をサポートしていないので、それほど安くはありません...
これが、私が作成し、フォローしているデータ回復手順です。
Sudo mdadm /dev/md0 --fail /dev/sdb1
/dev/sdb1
を取り出せるようにします。Sudo mdadm /dev/md0 --remove /dev/sdb1
は、配列から/dev/sdb1
を削除します。/dev/sdc1
は/media/DtkBk
にマウントされています/dev/sdb1
をext4としてフォーマットします。/dev/sdb1
を/media/DtkBkTemp
にマウントします。cd /media
はその地域で働きます。Sudo chown deltik DtkBkTemp
は、パーティションに対する(ユーザー名deltik
)権限を付与します。Sudo rsync -avzHXShP DtkBk/* DtkBkTemp
UPDATE(2012年6月6日):次の手順に従って、badblocks
/dev/sdc
の破壊的な書き込みモードテストを行いました:
Sudo umount /media/DtkBk
を使用すると、アレイを分解できます。Sudo mdadm --stop /dev/md0
は、アレイを停止します。Sudo badblocks -w -p 1 /dev/sdc -s -v
は、疑わしいハードドライブをワイプし、その過程でI/Oエラーをチェックします。 I/Oエラーがある場合、それは良い兆候ではありません。うまくいけば、払い戻しを受けることができます...どちらのHDDにも入出力の問題がないことを確認しました。
このすべての調査から、私の2つの元の質問はまだ立っています。
私の質問は:
これを行うと、実際には何もせずにドライブをアレイにチャッキングするだけです。つまり、ドライブはアレイのメンバーですが、アクティブではありません。デフォルトでは、これによりスペアになります。
Sudo mdadm /dev/md0 --add /dev/sdb1
スペアがある場合は、アレイのアクティブドライブ数を強制的に増やすことで、スペアを増やすことができます。 3つのドライブと2つの期待されるアクティブの場合、アクティブカウントを3に増やす必要があります。
mdadm --grow /dev/md0 --raid-devices=3
RAIDアレイドライバーは、ドライブが「不足」していることに気づき、スペアを探します。スペアを見つけると、アクティブドライブとしてアレイに統合されます。予備のターミナルを開いて、この粗雑なコマンドラインを実行し、再同期の進行状況を把握します。必ず1行として入力するか、改行(\)文字を使用してください。再構築が完了したら、ターミナルでCtrl-Cを入力してください。
while true; do sleep 60; clear; Sudo mdadm --detail /dev/md0; echo; cat /proc/mdstat; done
これで、アレイには同期しているアクティブなドライブが2つありますが、ドライブが3つないため、100%クリーンではありません。故障したドライブを取り外し、アレイのサイズを変更します。 --grow
フラグは少し誤った名称です-どちらか拡大または縮小を意味します:
Sudo mdadm /dev/md0 --fail /dev/{failed drive}
Sudo mdadm /dev/md0 --remove /dev/{failed drive}
Sudo mdadm --grow /dev/md0 --raid-devices=2
エラーに関しては、カーネルは通常他の「良好な」使用に切り替わるため、ドライブ(つまり、PATA/SATAポート、ケーブル、またはドライブコネクタ)のリンクの問題は、ホットスペアのフェイルオーバーをトリガーするには不十分です。 「不良」ドライブへのリンクをリセットする間、ドライブ。私がこれを知っているのは、3ドライブアレイ、2ホット、1スペアを実行していて、最近、ドライブの1つがログのビットを少し増やすことにしたためです。アレイ内のすべてのドライブをテストしたとき、3つすべてが「長い」バージョンのSMARTテストに合格したため、プラッタ、機械部品、またはオンボードコントローラの問題ではありません。 -不安定なリンクケーブルまたは不良なSATAポートが残っている。おそらくこれが表示されているものです。ドライブを別のマザーボードポートに切り替えるか、別のケーブルを使用して、改善するかどうかを確認してください。
フォローアップ:ミラーの3台のドライブへの拡張を完了し、失敗し、フレークなドライブをmdアレイから取り外し、ケーブルを新しいものにホットスワップし(マザーボードはこれをサポートしています)、ドライブを再度追加しました。再度追加すると、すぐにドライブの再同期が開始されました。これまでのところ、ドライブが頻繁に使用されているにもかかわらず、単一のエラーはログに表示されていません。そのため、はい、ドライブケーブルが不安定になることがあります。
私はまったく同じ問題を抱えていましたが、私の場合、アクティブなRAIDディスクが同期中に読み取りエラーが発生していることがわかりました。そのため、新しいディスクは正常に同期され、スペアとしてマークされたままでした。
/ var/log/messagesおよびその他のシステムログでエラーを確認することをお勧めします。さらに、ディスクのSMARTステータスを確認することもお勧めします:
1)短いテストを実行します。
「smartctl -t short/dev/sda」
2)テスト結果を表示します。
「smartctl -l selftest/dev/sda」
私の場合、これは次のようなものを返しました:
===読み取りの開始SMARTデータセクション===
SMARTセルフテストログ構造リビジョン番号1
Num Test_Description Status Remaining LifeTime(hours)LBA_of_first_error
1拡張オフライン完了:読み取りエラー90%7564 27134728
2短いオフラインが完了しました:読み取りエラー90%7467 1408449701
私はライブディストリビューションを起動し、欠陥のあるディスクから新しい(現在は「スペア」)ディスクに手動でデータをコピーする必要がありました。
まったく同じ問題があり、アレイに再度追加したい2つ目のディスクにエラーがあると常に思っていました。しかし、それは私のオリジナルのディスクに読み取りエラーがあったことでした。
smartctl -t short /dev/sdX
で確認し、数分後にsmartctl -l selftest /dev/sdX
で結果を確認できます。私にとっては次のようになりました:
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 20% 25151 734566647
これを manual で修正しようとしました。それは楽しかった :-)。両方のディスクのエラーをチェックしたことは知っていますが、問題は、まだmdアレイにあるディスクに読み取りエラーがあるため、2番目のディスクの追加に失敗することです。
更新
追加でsmartctl -a /dev/sdX
を実行する必要があります。Current_Pending_Sector> 0が表示される場合は、何か問題があります
197 Current_Pending_Sector 0x0012 098 098 000 Old_age常に-69
私にとっては、テストのためだけにディスクをraidから削除したことが問題であり、読み取りエラーのために再同期を実行できませんでした。同期は途中で中止されました。まだRAIDアレイにあるディスクを確認したところ、smartctlが問題を報告しました。
上記のマニュアルでそれらを修正し、保留中のセクターの数が減少するのを見ました。しかし、多くの人がそうであり、それは長く退屈な手順なので、バックアップを使用して、別のサーバーにデータを復元しました。
SMARTを使用する機会がなかったので、セルフテストでこれらの壊れたセクターが表示されなかったと思います。
私にとってそれは教訓です:アレイからディスクを削除する前にディスクを確認してください。
同様の問題があり、ディスクのRAIDアレイ数を1から2に増やすことで修正しました。
mdadm --grow --raid-devices=2 /dev/md1
UPDATE(2015年5月24日):3年後、私はRAID 1アレイが劣化している本当の原因を調査しました。
tl; dr:ドライブの1つに問題がありました。良好なドライブでの表面テスト。
3年前、I/Oの問題に関するログを確認するつもりはありませんでした。チェックするつもりだった/var/log/syslog
、mdadm
が配列の再構築をあきらめたとき、私はこのようなものを見たでしょう。
May 24 14:08:32 node51 kernel: [51887.853786] sd 8:0:0:0: [sdi] Unhandled sense code
May 24 14:08:32 node51 kernel: [51887.853794] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853798] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 24 14:08:32 node51 kernel: [51887.853802] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853805] Sense Key : Medium Error [current]
May 24 14:08:32 node51 kernel: [51887.853812] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853815] Add. Sense: Unrecovered read error
May 24 14:08:32 node51 kernel: [51887.853819] sd 8:0:0:0: [sdi] CDB:
May 24 14:08:32 node51 kernel: [51887.853822] Read(10): 28 00 00 1b 6e 00 00 00 01 00
May 24 14:08:32 node51 kernel: [51887.853836] end_request: critical medium error, dev sdi, sector 14381056
May 24 14:08:32 node51 kernel: [51887.853849] Buffer I/O error on device sdi, logical block 1797632
ログでその出力を取得するために、次のコマンドで最初の問題のあるLBA(私の場合は14381058)を探しました。
root@node51 [~]# dd if=/dev/sdi of=/dev/zero bs=512 count=1 skip=14381058
dd: error reading ‘/dev/sdi’: Input/output error
0+0 records in
0+0 records out
0 bytes (0 B) copied, 7.49287 s, 0.0 kB/s
md
が諦めたのも無理はありません。不良ドライブからアレイを再構築することはできません。
新しいテクノロジー(より良いsmartmontools
ハードウェア互換性?)により、ドライブから S.M.A.R.T。 情報を取得できます。
root@node51 [~]# smartctl -a /dev/sdi
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-43-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi Deskstar 5K3000
Device Model: Hitachi HDS5C3020ALA632
Serial Number: ML2220FA040K9E
LU WWN Device Id: 5 000cca 36ac1d394
Firmware Version: ML6OA800
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 5940 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun May 24 14:13:35 2015 CDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART STATUS RETURN: incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from Host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (21438) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 358) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 93
3 Spin_Up_Time 0x0007 172 172 024 Pre-fail Always - 277 (Average 362)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 174
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 8
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 146 146 020 Pre-fail Offline - 29
9 Power_On_Hours 0x0012 097 097 000 Old_age Always - 22419
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 161
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 900
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 900
194 Temperature_Celsius 0x0002 127 127 000 Old_age Always - 47 (Min/Max 19/60)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 8
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 30
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 2
SMART Error Log Version: 1
ATA Error Count: 1393 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 1393 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 06 02 70 db 00 Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 00 70 db 40 00 1d+03:59:34.096 READ DMA EXT
25 00 08 00 70 db 40 00 1d+03:59:30.334 READ DMA EXT
b0 d5 01 09 4f c2 00 00 1d+03:57:59.057 SMART READ LOG
b0 d5 01 06 4f c2 00 00 1d+03:57:58.766 SMART READ LOG
b0 d5 01 01 4f c2 00 00 1d+03:57:58.476 SMART READ LOG
Error 1392 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 06 02 70 db 00 Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 00 70 db 40 00 1d+03:59:30.334 READ DMA EXT
b0 d5 01 09 4f c2 00 00 1d+03:57:59.057 SMART READ LOG
b0 d5 01 06 4f c2 00 00 1d+03:57:58.766 SMART READ LOG
b0 d5 01 01 4f c2 00 00 1d+03:57:58.476 SMART READ LOG
b0 d5 01 00 4f c2 00 00 1d+03:57:58.475 SMART READ LOG
Error 1391 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 06 02 70 db 00 Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 00 70 db 40 00 1d+03:56:28.228 READ DMA EXT
25 00 08 00 70 db 40 00 1d+03:56:24.549 READ DMA EXT
25 00 08 00 70 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 10 f0 71 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 f0 00 71 db 40 00 1d+03:56:06.710 READ DMA EXT
Error 1390 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 06 02 70 db 00 Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 00 70 db 40 00 1d+03:56:24.549 READ DMA EXT
25 00 08 00 70 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 10 f0 71 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 f0 00 71 db 40 00 1d+03:56:06.710 READ DMA EXT
25 00 10 f0 70 db 40 00 1d+03:56:06.687 READ DMA EXT
Error 1389 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 06 02 70 db 00 Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 00 70 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 10 f0 71 db 40 00 1d+03:56:06.711 READ DMA EXT
25 00 f0 00 71 db 40 00 1d+03:56:06.710 READ DMA EXT
25 00 10 f0 70 db 40 00 1d+03:56:06.687 READ DMA EXT
25 00 f0 00 70 db 40 00 1d+03:56:03.026 READ DMA EXT
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 21249 14381058
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ああ…そうだね。
今、私はこの質問を3つの簡単なステップで解決しました:
UPDATE(2015年7月19日):興味がある人のために、ドライブは最終的に再マッピングするセクターを使い果たしました:
root@node51 [~]# smartctl -a /dev/sdg
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-43-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi Deskstar 5K3000
Device Model: Hitachi HDS5C3020ALA632
Serial Number: ML2220FA040K9E
LU WWN Device Id: 5 000cca 36ac1d394
Firmware Version: ML6OA800
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 5940 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Jul 19 14:00:33 2015 CDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART STATUS RETURN: incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.
General SMART Values:
Offline data collection status: (0x85) Offline data collection activity
was aborted by an interrupting command from Host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 117) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (21438) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 358) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 099 099 016 Pre-fail Always - 2
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 93
3 Spin_Up_Time 0x0007 163 163 024 Pre-fail Always - 318 (Average 355)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 181
5 Reallocated_Sector_Ct 0x0033 001 001 005 Pre-fail Always FAILING_NOW 1978
7 Seek_Error_Rate 0x000b 086 086 067 Pre-fail Always - 1245192
8 Seek_Time_Performance 0x0005 146 146 020 Pre-fail Offline - 29
9 Power_On_Hours 0x0012 097 097 000 Old_age Always - 23763
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 167
192 Power-Off_Retract_Count 0x0032 092 092 000 Old_age Always - 10251
193 Load_Cycle_Count 0x0012 092 092 000 Old_age Always - 10251
194 Temperature_Celsius 0x0002 111 111 000 Old_age Always - 54 (Min/Max 19/63)
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always - 2927
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 33
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 2
SMART Error Log Version: 1
ATA Error Count: 2240 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 2240 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 f0 18 0f 2f 00 Error: IDNF 240 sectors at LBA = 0x002f0f18 = 3084056
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 00 f0 18 0f 2f 40 00 00:25:01.942 WRITE DMA EXT
35 00 f0 28 0e 2f 40 00 00:25:01.168 WRITE DMA EXT
35 00 f0 38 0d 2f 40 00 00:25:01.157 WRITE DMA EXT
35 00 f0 48 0c 2f 40 00 00:25:01.147 WRITE DMA EXT
35 00 f0 58 0b 2f 40 00 00:25:01.136 WRITE DMA EXT
Error 2239 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 5a 4e f7 2e 00 Error: IDNF 90 sectors at LBA = 0x002ef74e = 3077966
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 00 f0 b8 f6 2e 40 00 00:24:57.967 WRITE DMA EXT
35 00 f0 c8 f5 2e 40 00 00:24:57.956 WRITE DMA EXT
35 00 f0 d8 f4 2e 40 00 00:24:57.945 WRITE DMA EXT
35 00 f0 e8 f3 2e 40 00 00:24:57.934 WRITE DMA EXT
35 00 f0 f8 f2 2e 40 00 00:24:57.924 WRITE DMA EXT
Error 2238 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 40 a8 c6 2e 00 Error: IDNF 64 sectors at LBA = 0x002ec6a8 = 3065512
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 00 f0 f8 c5 2e 40 00 00:24:49.444 WRITE DMA EXT
35 00 f0 08 c5 2e 40 00 00:24:49.433 WRITE DMA EXT
35 00 f0 18 c4 2e 40 00 00:24:49.422 WRITE DMA EXT
35 00 f0 28 c3 2e 40 00 00:24:49.412 WRITE DMA EXT
35 00 f0 38 c2 2e 40 00 00:24:49.401 WRITE DMA EXT
Error 2237 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 ea be ba 2e 00 Error: IDNF 234 sectors at LBA = 0x002ebabe = 3062462
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 00 f0 b8 ba 2e 40 00 00:24:39.263 WRITE DMA EXT
35 00 f0 c8 b9 2e 40 00 00:24:38.885 WRITE DMA EXT
35 00 f0 d8 b8 2e 40 00 00:24:38.874 WRITE DMA EXT
35 00 f0 e8 b7 2e 40 00 00:24:38.862 WRITE DMA EXT
35 00 f0 f8 b6 2e 40 00 00:24:38.852 WRITE DMA EXT
Error 2236 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 86 c2 2a 2e 00 Error: IDNF 134 sectors at LBA = 0x002e2ac2 = 3025602
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 00 f0 58 2a 2e 40 00 00:24:25.605 WRITE DMA EXT
35 00 f0 68 29 2e 40 00 00:24:25.594 WRITE DMA EXT
35 00 f0 78 28 2e 40 00 00:24:25.583 WRITE DMA EXT
35 00 f0 88 27 2e 40 00 00:24:25.572 WRITE DMA EXT
35 00 f0 98 26 2e 40 00 00:24:25.561 WRITE DMA EXT
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short captive Completed: read failure 50% 23763 869280
# 2 Extended offline Completed without error 00% 22451 -
# 3 Short offline Completed without error 00% 22439 -
# 4 Extended offline Completed: read failure 90% 21249 14381058
1 of 2 failed self-tests are outdated by newer successful extended offline self-test # 2
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
私の場合、それも悪いソースディスクでした。見た目はそうではありませんでしたが(/ proc/mdstatは通常99.9%を超えて進行しましたが、実際には99.97%で失敗し、定期的な同期がいつ終了するのかを確認しています)。したがって、dmesg(1)
の出力を確認する必要があります。読み取りエラーがあるかどうかがわかります。
私のケースの詳細は Debian bug#76724 で確認できます。ソースディスク上のいくつかの不良セクタを強制的に上書きすることで、最終的に同期を完了しました(私の場合、幸いにも使用されていなかったため、データが失われていました)。
Sdc1を削除して、sdc1のスーパーブロックをゼロにし、再度追加することをお勧めします。
mdadm /dev/md0 -r /dev/sdc1
mdadm --zero-superblock /dev/sdc1
mdadm /dev/md0 -a /dev/sdc1
あなたがすでに--add
edディスク、ただし--re-add
が必要なオプションのようです。
または、おそらく--grow
2つのアクティブディスクへのデバイス、mdadm --grow -n 2
?テストされていないので注意してください。
あなたは試すことができます
Sudo mdadm --assemble --update=resync /dev/md0 /dev/sdb1 /dev/sdc1
ドライブを更新して再同期します。