たまに、ディスクの1つで入出力エラーが発生します。
私たちのサーバー(Dell PowerEdge R720、Ubuntu 14.04)は Perc H71 Raidコントローラーを使用しており、エラーを生成しているディスクは Dell 600GB SAS 6Gbps 15k 3.5 " ディスク。
fsck.ext4
を使用していつでもエラーを修正できますが、何が原因でエラーが発生するのかわかりません。
サーバーファームウェアを最新バージョンに更新し、考えられるすべてのテストを実行しました。
問題の原因を見つけるために他に何ができるでしょうか?
編集:
約1週間前にデルに連絡しましたが、いくつかのテストの実行方法を教えてくれた後、サーバーは正常であり、テストに異常は見られなかったと結論付けました。
SMARTデバイスのサポートを有効にできませんでした:
$ Sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: Dell
Product: PERC H710
Revision: 3.13
User Capacity: 1,199,101,181,952 bytes [1.19 TB]
Logical block size: 512 bytes
Logical Unit id: 0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number: 000afb11118cadee1900dc10f2a0a38c
Device type: disk
Local Time is: Wed Jul 8 10:47:35 2015 IDT
SMART support is: Unavailable - device lacks SMART capability.
=== START OF READ SMART DATA SECTION ===
Error Counter logging not supported
Device does not support Self Test logging
そして私は試しました:
$ Sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
また、これをどうすればよいかわかりません(グーグルは役に立ちませんでした):
$ Sudo hdparm -I /dev/sda
/dev/sda:
SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
ATA device, with non-removable media
Standards:
Likely used: 1
Configuration:
Logical max current
cylinders 0 0
heads 0 0
sectors/track 0 0
--
Logical/Physical Sector size: 512 bytes
device size with M = 1024*1024: 0 MBytes
device size with M = 1000*1000: 0 MBytes
cache/buffer size = unknown
Capabilities:
IORDY not likely
Cannot perform double-Word IO
R/W multiple sector transfer: not supported
DMA: not supported
PIO: pio0
どんなアドバイスも大歓迎です!
RAIDに1つのドライブがあり、動作が正しくなく、エラーが発生することがありますか?ハードウェアの問題のように聞こえますが、悪化する可能性があります。ドライブの交換を検討する必要があります。はい、それは高価ですが、あなたの時間はどれくらいの価値がありますか、そしてドライブ全体が不適当な瞬間に南に行った場合、それはどれほど悪いでしょうか?
ディスクユーティリティを介して個々のディスクのSMART情報を確認できますか?事前失敗チェックを見て、目立つものがあるかどうかを確認してください。これは、物理デバイスの障害を示しています。
RAIDグループでエラーを発生させているディスクは他のディスクと一緒ですか?そうでない場合は、ドライブではなくファイルシステムであるか、レイアウトによってはコントローラーである可能性があります(キャッシュの不良、ファームウェアの不一致)。また、ディスクとコントローラーのファームウェアバージョンをチェックして、それらがひどく古くなっているかどうかを確認します。
このコントローラーに同じタイプの他のディスクがありますか?彼らは同じファームウェアなどを持っていますか?
どのような特定のエラーが発生していますか?
PERCコントローラーからさらに情報を取得することをお勧めします。 Ubuntuでは、監視と管理のためにDellのOMSAをインストールできない場合があります。
おそらく MegaCLIをインストール そしてそれを使用してコントローラーログをエクスポートし、発生しているイベントに関する詳細情報を取得します。
デルのサポートに連絡していない理由はありますか?そのサーバーモデルは十分に新しいようですが、まだ保証期間中だと思います...