linux DBサーバーredhat 7.2があります。
マウントされているすべてのディスクについて、以下のような多くのメッセージが表示されます
/var/log/messages
から
この動作がハードウェアの問題に関連する場合に理解する必要があること
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4980*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4981*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4982*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4983*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4984*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4985*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4986*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4987*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4988*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4989*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4990*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4991*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4992*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4993*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4994*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4995*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4996*
Mar 29 13:28:22 server_DB kernel: Buffer I/O error on device sdb, logical block *N4997*
このメッセージも見ました
Mar 27 09:18:08 server_DB smartd[1734]: Monitoring 0 ATA and 26 SCSI devices
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:00/0000:00*CO*/0000:02*CO*': not supported by any plugin
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:00/0000:00*CO*/0000:02*CO*': not supported by any plugin
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:00/0000:00*CO*/0000:01*CO*': not supported by any plugin
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:00/0000:00*CO*/0000:01*CO*': not supported by any plugin
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:80/0000:80*CO*/0000:81*CO*': not supported by any plugin
Mar 27 09:18:08 server_DB ModemManager[1755]: <warn> Couldn't find support for device at '/sys/devices/pci0000:80/0000:80*CO*/0000:81*CO*': not supported by any plugin
ディスクもチェックされています
smartctl -a -d megaraid,0 /dev/sdb
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-327.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: SEAGATE
Product: ST600MM0238
Revision: BS04
User Capacity: 600,127,266,816 bytes [600 GB]
Logical block size: 512 bytes
Formatted with type 2 protection
Logical block provisioning type unreported, LBPME=0, LBPRZ=0
Rotation Rate: 10000 rpm
Form Factor: 2.5 inches
Logical Unit id: 0x5000c500a0f28343
Serial number: W0M0LYD2
Device type: disk
Transport protocol: SAS
Local Time is: Wed Mar 27 10:51:30 2019 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature: 24 C
Drive Trip Temperature: 60 C
Manufactured in week 45 of year 2017
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 50
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 177
Elements in grown defect list: 0
Vendor (Seagate) cache information
Blocks sent to initiator = 412242328
Blocks received from initiator = 3213595579
Blocks read from cache and sent to initiator = 312462212
Number of read and write commands whose size <= segment size = 31915885
Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 3178.45
number of minutes until next internal SMART test = 12
この I/O error
メッセージは、sdb
のハードウェアエラーについて警告するために書き込まれます。たとえば、ディスクやケーブルを使用できます。
多数のディスクがすべて同時にエラーを表示している場合は、ディスク自体のエラーである可能性は低いと思います:-)。ディスクコントローラのエラーである可能性があります。
「バッファI/Oエラー」が表示されても、ATAまたはSCSIエラーコードに関するメッセージ、または一般的な再試行に関するメッセージが表示されない場合は、ヒントが得られる可能性があります。しかし、私は本当に知りません:-)。
もちろん、ソフトウェアエラーが原因でメッセージが表示される可能性もあります:-)。
ソフトウェアエラーの例を示しますが、これは同じエラーではないことはわかっています。「バッファI/Oエラー」が表示されるカーネルバグがあり、ATAまたはSCSIに関するエラーメッセージや再試行はありません。 Fedoraバグ1553979 。
「バッファ」の部分は、ページキャッシュにキャッシュ可能なファイルデータのリクエスト中に発生したことを意味します。歴史的な理由により、人々はこれらのリクエストを「バッファIO」と呼ぶことがあります。