理想的には、可能な限りシンプルなインストールで、サーバーを再起動する必要はありません。主にDL380 G5's
役立つ場合。
これは、サーバーで実行しているオペレーティングシステムによって多少異なりますが、通常、HP ProLiantサーバーおよびSmartアレイRAIDコントローラーからアラートを取得することができます。
お使いの DL380 G5システムの完全なドライバーとソフトウェアサポートのリストは、ここにリストされています 。
SNMPと監視ソリューションが最善のアプローチです...しかし、HPのツールのいくつかを使用すると、それを補強できます。 HPは、 HP Systems Insight Manager を提供しています。これは、ダウンロードしてサーバーに付属しています。これは、サーバーのコレクションに最適です。管理または監視インフラストラクチャを構築せずに1回限りのアラートを探している場合は、 HP管理エージェント (別名 ProLiant Support Pack )。
スタンドアロンのLinuxシステムの場合、エージェントに電子メールでトラップを送信させます。通常、デフォルトまたは カスタムバンドル でサポートパックを構成し、/opt/hp/hp-snmp-agents/cma.conf
を編集してtrapemail
行を変更します受信者のアドレスを指すには:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]
Linuxを実行していて、完全なHP管理スイートをインストールしたくない場合は、 cciss_vol_status ユーティリティを中心にスクリプトを開発して、コントローラーを照会することができます/ディスクのステータス。次も参照してください: OpenFilerへのHPエージェントのインストール
HP Insight Managerを確認する
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
私はあなたのサーバーで動作するはずだと思います。
私は@ewwiteが彼の答えで述べた軽量プログラムを使用しました cciss_vol_status
付随するINSTALLの指示に従うと、スクリプトは/usr/local/bin/cciss_vol_status
に配置されます。
これは、cciss_vol_statusの出力をgrepして、アレイのステータスがFAILEDの場合にメールを送信するために使用するラッパースクリプトです。
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_Host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_Host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
上記のスクリプトをcronで呼び出します。 2分ごとにチェックを実行します。
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
HP System Insight Manager を使用して、HPが稼働中であるかどうかを確認しますが、それ以上のものはありません。他の監視ソリューションが導入されているため、Linuxエージェントはやり過ぎであることがわかりました。そのため、上記のこのスクリプトは特定の目的を十分に果たします。
[〜#〜]更新[〜#〜]
これに遭遇した場合のトラブルシューティングのヒントです。このスクリプトは、今朝、アレイの故障に関するメールを受け取ったときに役に立ちました。
キャッシュのダーティ制限に達しました
デバイスは読み取り専用になり、/proc/partitions
に表示されませんでした。私はサーバーを再起動し、ブート時にこれらのメッセージを見ました:
データ損失の可能性があるため、論理ドライブが無効になっています。 「F1」を選択して論理ドライブを無効にして続行します「F2」を選択してデータ損失を受け入れ、論理ドライブを再度有効にします
F2を選択したところ、RAIDは問題なく、ブート時にマウントされました。
smartmontoolsをインストールします。ドライブが故障する前にメールを送信します。