SMART=監視するためにnagiosに最適なプラグインを試しました。温度は監視していますが、監視しているだけです。しかし、smartctlを使用すると、より多くのデータを見つけることができます。スマート?
check_ide_smartプラグイン は標準のnagiosプラグイングループの一部です。名前の「ide」の部分にもかかわらず、smartctlを使用してsmartctlがサポートするドライブをチェックします。
Nagiosに適した出力を返すことができます。例:
$ ./check_ide_smart -n -d /dev/sda
OK - Operational (17/17 tests passed)
または完全なSMARTステータス:
$ ./check_ide_smart -d /dev/sda
Id= 1, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 16, Passed
Id= 2, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 50, Passed
Id= 3, Status= 7 {PreFailure , OnLine }, Value=120, Threshold= 24, Passed
Id= 4, Status=18 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id= 5, Status=51 {PreFailure , OnLine }, Value=100, Threshold= 5, Passed
Id= 7, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 67, Passed
Id= 8, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 20, Passed
Id= 9, Status=18 {Advisory , OnLine }, Value= 96, Threshold= 0, Passed
Id= 10, Status=19 {PreFailure , OnLine }, Value=100, Threshold= 60, Passed
Id= 12, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=192, Status=50 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=193, Status=18 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=194, Status= 2 {Advisory , OnLine }, Value=144, Threshold= 0, Passed
Id=196, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=197, Status=34 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=198, Status= 8 {Advisory , OffLine}, Value=100, Threshold= 0, Passed
Id=199, Status=10 {Advisory , OnLine }, Value=200, Threshold= 0, Passed
OffLineStatus=0 {NeverStarted}, AutoOffLine=No, OffLineTimeout=30 minutes
OffLineCapability=91 {Immediate Auto SuspendOnCmd}
SmartRevision=16, CheckSum=23, SmartCapability=3 {SaveOnStandBy AutoSave}
私はプラグインを使用しました:check_ide_smart;しかし、最終的には、ディスク上のスマートログのエラーについて通知されないことに気付きました。
問題のバグは5年経ってもまだ開いているようです。
#473check_ide_smartはSMARTエラーを無視します! http://sourceforge.net/p/nagiosplug/bugs/473/
現在、各システムでより詳細なsmartdデーモンを有効にしています。その後、そのプロセスが停止した場合、nagiosに通知してもらいます。 cronで実行されていない場合は、別のチェックと再起動を行う可能性があります。
Smartd.confから:
最初の(プライマリ)ATA/IDEハードディスク。すべての属性を監視し、自動オンラインデータ収集、自動属性自動保存を有効にして、毎日午前2時〜3時の間に短いセルフテストを開始し、土曜日の午前3時〜4時の間に長いセルフテストを開始します。生の温度変化を報告する> = 5摂氏
smartd.conf
DEVICESCAN -H -m root -a -o on -S on -s(S /../.././ 02 | L /../../ 6/03)-W 5