Lian Li PC-Q25ケースを中心に構築された小さなホームサーバーがあり、SATAバックプレートがホットプラグ可能であることを宣伝しています。マザーボードはAsusP8H77-Iです。バックプレートに4つのSATAドライブが接続されています。2つのペアがRAID1アレイに組み込まれています。システムはCentos6.3x86_64で実行されています。
ドライブの1つが故障したため、推奨手順を実行しました。同期し、アレイから取り外し、適切にシャットダウンして、引き出しました。ここでは災害は発生していません。ドライブのスピンダウンが聞こえ、dmesgログにエラーは表示されませんでした。
さて、SATA規格では、ドライブの千鳥状のピンが突然の電力サージなしに安全なプラグインを保証すると仮定しました。ドライブを押し込むと、他のドライブの速度が遅くなり、非常に短い間、ヘッドをクリックすることができました。
Dmesgログを確認すると、次のことがわかりました。
ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
ata3.00: exception Emask 0x10 SAct 0x3ff007ff SErr 0x4890000 action 0xe frozen
ata3.00: irq_stat 0x08400040, interface fatal error, connection status changed
ata3: SError: { PHYRdyChg 10B8B LinkSeq DevExch }
ata3.00: failed command: WRITE FPDMA QUEUED
ata3.00: cmd 61/80:00:3f:81:ca/00:00:00:00:00/40 tag 0 ncq 65536 out
res 40/00:54:bf:81:ca/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
(最後のata3.00メッセージは、異なる番号で同じテキストで約20回繰り返されます)
最後の行は次のとおりです。
ata3.00: status: { DRDY }
ata3: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata1.00: configured for UDMA/133
ata1: EH complete
ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete
ata3.00: configured for UDMA/133
ata3: EH complete
また、私のログウォッチはSMARTデータの次の変更を報告しました:
/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
Prefailure: Raw_Read_Error_Rate (1) changed to
100,
Prefailure: Reallocated_Sector_Ct (5) changed to
200,
Prefailure: Spin_Up_Time (3) changed to
100,
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
Usage: Calibration_Retry_Count (11) changed to
100,
Usage: Load_Retry_Count (223) changed to
100,
Device: /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT], Self-Test Log error count increased from 0 to 1
翌日、SMARTログにはまだ疑わしいエントリがありました:
/dev/disk/by-path/pci-0000:00:1f.2-scsi-0:0:0:0 [SAT] :
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-1:0:0:0 [SAT] :
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
Usage: Multi_Zone_Error_Rate (200) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
Usage: Throughput_Performance (2) changed to
56,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-4:0:0:0 [SAT] :
Prefailure: Raw_Read_Error_Rate (1) changed to
116, 117,
Usage: ECC_Uncorr_Error_Count (195) changed to
116, 117,
そのため、明らかにsataバックエンドはドライブの電源をすぐに残酷にオンにし、電圧が一時的に低下する可能性があります。
私の間違いは、4つのドライブすべてを同じPSUレールに接続し、PSU(800W Seasonicで優れた仕様ですが)が突然の電力消費に対処することを期待していたことでしょう。
SATAバックプレートの背面には電源用の2つのMolexコネクタがあります。安定した電源出力を確保するために、それらを別々のPSU Railsに接続します。
ドライブをドライブパックに戻したときに、ドライブがすぐに回転しないようにする方法はありますか?
また、ドライブを損傷した可能性がありますか(これらのログメッセージから確認できますか)?
ありがとうございました!
ハードドライブは約11ワットを引き出すので、PSUが800Wであれば、問題はありません。
いくつかの大きなハードドライブアレイは、潜在的な電気的問題を回避するためにハードドライブに順番に電力を供給することができますが、それはコントローラー次第です。
サーバーを再起動しようとしましたか(コールドリブート)、すべて問題ありませんか?あなたが言ったように、あなたは他の人がスピンダウンして彼らの頭をクリックするようにドライブするのを聞いたことがあります。もちろんこれは正常ではありません。ホットプラグバックプレーンの製造が不十分で、ホットプラグ中に短絡が発生した可能性があります。