しばらくして監視サーバーを再起動したところ、次のように画面がいっぱいになりました。
Jul 11 23:52:30 monit kernel: [ 25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [ 25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [ 25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [ 25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [ 25.256416] res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [ 25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [ 25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [ 25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [ 25.304430] ata1: EH complete
. . .
Jul 11 23:52:30 monit kernel: [ 25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [ 25.552462] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [ 25.552475] sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [ 25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [ 25.552498] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Jul 11 23:52:30 monit kernel: [ 25.552529] 00 35 68 41
Jul 11 23:52:30 monit kernel: [ 25.552543] sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [ 25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [ 25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [ 25.556607] ata1: EH complete
HDDを交換する必要があることはすでにわかっています(データのコスト> HDDのコスト)。しかし、自分の知識のために実際には間違っています。
はい、監視サーバーにはRAIDがなく、HDDが1つだけ...見ないでください...
sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
ドライブに不良セクターがあり、これらを再割り当てできないようです(おそらくスペアセクターが不足しているためです)。 smartctl -a /dev/sda
の出力は、ドライブの状態に関する詳細情報を提供します。
ラッシーは「arf!arf arf!arf!」と言っています。これはnothingがティミーと関係があるorウェルがあるため、ばかげています。これが、犬からシステム管理者のアドバイスを受けない理由です。
ドライブから「未回復の読み取りエラー-自動再割り当てに失敗しました」が表示されます。これは、基本的に「読み取りを試みたが、失敗し、回復を試みた(セクターをさらに数回読み取って、ECCを適用し、データを壊れていないセクター)、そしてそれは機能しませんでした」これはおそらく(mgorvenが言うように)ディスクがしばらくの間死んでいるため、ディスクはすでに再割り当てされたセクターでいっぱいになっていることを意味しますが、セクターをまったく回復できなかった(繰り返し読み取り) + ECCは見栄えの良いデータブロックを取得できませんでした)。
いずれにせよ、そう、ドライブはとてもサボテンです。あなたのデータも本当のように見えません。
私はこれが古いことを知っていますが、誰かがこの投稿をまだ読んでいる場合に備えて、「DDは壊れたセクターも読み取ろうとします」-gddrescueはここで役立ちます。ありません(そうですが、一度だけです)。
そのボックスの便利復元を許可する完全バックアップがない限り、そのディスクのddイメージまたはrsyncコピーを今すぐ作成します++。そして、互換性があり機能する交換用ディスクを探し始めます。
ところで、UDMA/66、それは10年前のPATAディスクですか?
すでに述べたように、ドライブが寿命に近づいているがおそらくすぐにではないことを意味します-ディスク上でfsck
を実行してエラーを修復してください( smartmontools wiki を参照)不良ブロックの修正に関するアドバイス)、ディスクはしばらくの間問題ないかもしれません。
ただし、smartd
(smartmontools
パッケージの一部として提供されます)の実行を開始し、そのレポートを監視したり、電子メール通知を設定したりする必要があります。また、スクリプトを作成して、独自のカスタム通知を追加することもできます(/etc/smartmontools/run.d/
)は、smartd-runner
。