3wareRAIDコントローラーを使用するCentOS5サーバーがいくつかあります。
これらのサーバーは、次のような小さな温度変化に関するメッセージで私のチームを悩ませています。
Jun 8 12:32:39 Host smartd[1231]: Device: /dev/twa0 [3ware_disk_01], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 118
Jun 8 12:32:39 Host smartd[1231]: Device: /dev/twa0 [3ware_disk_03], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 121
これらのメッセージを抑制するにはどうすればよいですか?
男によると smartd.conf :
3つのレポートのいずれかを無効にするには、対応する制限を0に設定します。末尾のゼロ引数は省略できます。デフォルトでは、すべての温度レポートが無効になっています(´-W 0´)。
私のシステムでは、smartdはデフォルトで温度変化について報告しています。
手動でアプローチしてみました。 /etc/smartd.conf
、私は以下を持っています:
/dev/twa0 -d 3ware,1 -a -W 0
/dev/twa0 -d 3ware,3 -a -W 0
しかし、これでもメッセージは抑制されません。
これらのメッセージは/ var/log/messagesに表示されるため、LogWatchは毎晩不要なメールを送信しています。
OK、ディスクに触れることができるのでディスクが溶けていないことがわかったので、ジェイソンはLogWatchを微調整することで正しい考えを持っていると思います。
LogWatchを見てからしばらく経ちましたが(かなりお粗末だと思いますが、通常は無効にします)、ignore.conf
( いくつかの情報があります)を使用して温度アラームを確実に無効にすることができますこの質問のそれについて 、およびLogWatchのドキュメント)。
より良い解決策は、報告された温度値が何を意味するのかを正確に調べることです-どうやらSMART温度属性は明確に定義されておらず、 smartctl
man page ベンダーベンダーの実装間のばらつきについて不愉快なことを言っています:
Raw値から物理単位の数量への変換は、SMART標準では指定されていません。ほとんどの場合、smartctlによって出力される値は適切です。たとえば、温度属性には通常、raw値があります。セルシウスの温度に等しい。ただし、ベンダーが通常とは異なる規則を使用する場合もあります。たとえば、ラップトップのHitachiディスクは、電源投入時間を数時間ではなく数分で報告します。一部のIBMディスクは、生の値で1つではなく3つの温度を追跡します。 。 等々。
HDベンダーに連絡すると、ドライブが温度パラメーターに対して何を返しているかについての洞察を得ることができ、アラームを発生するタイミングをLogWatchに教えることができる場合があります(または、メッセージを無視して実装するようにLogWatchを構成したままにします)実際のトラブル状態を探すためのよりスマートな監視システム)。