web-dev-qa-db-ja.com

SSD SMARTエラーと奇妙なdmesgエラー、これは死にかけているディスクですか?

dmesgログと4か月前のSSDで奇妙なことに気づき始めました。例えば:

[    9.647535] ata7.00: exception Emask 0x10 SAct 0x7ffffbff SErr 0x300000 action 0x6 frozen
[    9.647542] ata7.00: irq_stat 0x08000000, interface fatal error
[    9.647546] ata7: SError: { Dispar BadCRC }
[    9.647551] ata7.00: failed command: READ FPDMA QUEUED
[    9.647558] ata7.00: cmd 60/b0:00:18:51:0f/03:00:07:00:00/40 tag 0 ncq 483328 in
[    9.647558]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647561] ata7.00: status: { DRDY }
[    9.647564] ata7.00: failed command: READ FPDMA QUEUED
[    9.647570] ata7.00: cmd 60/00:08:c8:54:0f/04:00:07:00:00/40 tag 1 ncq 524288 in
[    9.647570]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647573] ata7.00: status: { DRDY }

また、私のSMART値がおかしいことに気づきました:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       16
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       23

ランタイムの不良ブロックは安定しているように見えますが、表示再起動するたびにUDMACRCエラーが増加しているようです(おそらく上記のDispar BadCRCが原因)。これはニースではありません。

オンラインで調べた後、SATAケーブルを交換しようとしましたが、役に立たなかったようです。

システムが起動すると、何も変わったことに気付かず、すべてが機能しているように見えますが、システムディスクであり、あまり書き込まれていないため、確信が持てません。

私は NCQの無効化に関するこのヒント を見てきましたが、NCQの恩恵を受ける他の2つのディスクがあり、そのドライブに対してのみ無効にする方法に関するヒントはありません。

これは死にかけているディスクですか?原因を見つける方法はありますか?

残りの奇妙なdmesg行は次のとおりです。 http://Pastebin.com/HCxiPwkM

そしてsmartctlの出力: http://Pastebin.com/h4c4MkEb

[〜#〜]編集[〜#〜]

これは、マシンの実行中にも発生しました。

Jun 13 00:27:48 kernel: [21674.310312] ata7.00: exception Emask 0x10 SAct 0x400 SErr 0x100000 action 0x6 frozen
Jun 13 00:27:48 kernel: [21674.310317] ata7.00: irq_stat 0x08000000, interface fatal error
Jun 13 00:27:48 kernel: [21674.310320] ata7: SError: { Dispar }
Jun 13 00:27:48 kernel: [21674.310323] ata7.00: failed command: READ FPDMA QUEUED
Jun 13 00:27:48 kernel: [21674.310327] ata7.00: cmd 60/00:50:00:36:4f/01:00:00:00:00/40 tag 10 ncq 131072 in
Jun 13 00:27:48 kernel: [21674.310327]          res 40/00:50:00:36:4f/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
Jun 13 00:27:48 kernel: [21674.310329] ata7.00: status: { DRDY }
Jun 13 00:27:48 kernel: [21674.310333] ata7: hard resetting link
Jun 13 00:27:49 kernel: [21674.802471] ata7: SATA link up 6.0 Gbps (SStatus 133 SControl 330)
Jun 13 00:27:49 kernel: [21674.843512] ata7.00: configured for UDMA/133
Jun 13 00:27:49 kernel: [21674.845404] ata7: EH complete

このリンク によると、PSUが原因である可能性があります。

編集2

今日少し変更を試みましたが、すべてのディスクが同じPSUケーブル上にありましたが、現在はそうではありませんが、役に立たないようです。

Runtime_Bad_Block       18
UDMA_CRC_Error_Count    25
3

すべてのディスクを内部SATAコントローラーに移動してから数日後、エラーは消え、SMART値は増加していません。

これが私のSSDとMarvellコントローラーの間の特定の非互換性であったのか、それともコントローラーが完全に機能しなくなったのかはまだわかりません。これはおそらく何が起こっているのか..しかし、それは別の日のトピックです。

0