web-dev-qa-db-ja.com

まれな入出力エラー-Linuxサーバー

たまに、ディスクの1つで入出力エラーが発生します。

私たちのサーバー(Dell PowerEdge R720、Ubuntu 14.04)は Perc H71 Raidコントローラーを使用しており、エラーを生成しているディスクは Dell 600GB SAS 6Gbps 15k 3.5 " ディスク。

fsck.ext4を使用していつでもエラーを修正できますが、何が原因でエラーが発生するのかわかりません。

サーバーファームウェアを最新バージョンに更新し、考えられるすべてのテストを実行しました。

問題の原因を見つけるために他に何ができるでしょうか?

編集:

約1週間前にデルに連絡しましたが、いくつかのテストの実行方法を教えてくれた後、サーバーは正常であり、テストに異常は見られなかったと結論付けました。

SMARTデバイスのサポートを有効にできませんでした:

$ Sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               Dell
Product:              PERC H710
Revision:             3.13
User Capacity:        1,199,101,181,952 bytes [1.19 TB]
Logical block size:   512 bytes
Logical Unit id:      0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number:        000afb11118cadee1900dc10f2a0a38c
Device type:          disk
Local Time is:        Wed Jul  8 10:47:35 2015 IDT
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===

Error Counter logging not supported

Device does not support Self Test logging

そして私は試しました:

$ Sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

また、これをどうすればよいかわかりません(グーグルは役に立ちませんでした):

$ Sudo hdparm -I /dev/sda

/dev/sda:
SG_IO: bad/missing sense data, sb[]:  70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

ATA device, with non-removable media
Standards:
    Likely used: 1
Configuration:
    Logical     max current
    cylinders   0   0
    heads       0   0
    sectors/track   0   0
    --
    Logical/Physical Sector size:           512 bytes
    device size with M = 1024*1024:           0 MBytes
    device size with M = 1000*1000:           0 MBytes 
    cache/buffer size  = unknown
Capabilities:
    IORDY not likely
    Cannot perform double-Word IO
    R/W multiple sector transfer: not supported
    DMA: not supported
    PIO: pio0 

どんなアドバイスも大歓迎です!

3
R. Itzi

RAIDに1つのドライブがあり、動作が正しくなく、エラーが発生することがありますか?ハードウェアの問題のように聞こえますが、悪化する可能性があります。ドライブの交換を検討する必要があります。はい、それは高価ですが、あなたの時間はどれくらいの価値がありますか、そしてドライブ全体が不適当な瞬間に南に行った場合、それはどれほど悪いでしょうか?

8
Daniel Griscom

ディスクユーティリティを介して個々のディスクのSMART情報を確認できますか?事前失敗チェックを見て、目立つものがあるかどうかを確認してください。これは、物理デバイスの障害を示しています。

RAIDグループでエラーを発生させているディスクは他のディスクと一緒ですか?そうでない場合は、ドライブではなくファイルシステムであるか、レイアウトによってはコントローラーである可能性があります(キャッシュの不良、ファームウェアの不一致)。また、ディスクとコントローラーのファームウェアバージョンをチェックして、それらがひどく古くなっているかどうかを確認します。

このコントローラーに同じタイプの他のディスクがありますか?彼らは同じファームウェアなどを持っていますか?

3
TheFiddlerWins

どのような特定のエラーが発生していますか?

PERCコントローラーからさらに情報を取得することをお勧めします。 Ubuntuでは、監視と管理のためにDellのOMSAをインストールできない場合があります。

おそらく MegaCLIをインストール そしてそれを使用してコントローラーログをエクスポートし、発生しているイベントに関する詳細情報を取得します。

デルのサポートに連絡していない理由はありますか?そのサーバーモデルは十分に新しいようですが、まだ保証期間中だと思います...

0
JimNim