web-dev-qa-db-ja.com

ドライブに障害が発生したときにHPサーバーからメールを受け取るにはどうすればよいですか?

理想的には、可能な限りシンプルなインストールで、サーバーを再起動する必要はありません。主にDL380 G5's役立つ場合。

11
DrZaiusApeLord

これは、サーバーで実行しているオペレーティングシステムによって多少異なりますが、通常、HP ProLiantサーバーおよびSmartアレイRAIDコントローラーからアラートを取得することができます。

お使いの DL380 G5システムの完全なドライバーとソフトウェアサポートのリストは、ここにリストされています

SNMPと監視ソリューションが最善のアプローチです...しかし、HPのツールのいくつかを使用すると、それを補強できます。 HPは、 HP Systems Insight Manager を提供しています。これは、ダウンロードしてサーバーに付属しています。これは、サーバーのコレクションに最適です。管理または監視インフラストラクチャを構築せずに1回限りのアラートを探している場合は、 HP管理エージェント (別名 ProLiant Support Pack )。

スタンドアロンのLinuxシステムの場合、エージェントに電子メールでトラップを送信させます。通常、デフォルトまたは カスタムバンドル でサポートパックを構成し、/opt/hp/hp-snmp-agents/cma.confを編集してtrapemail行を変更します受信者のアドレスを指すには:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Linuxを実行していて、完全なHP管理スイートをインストールしたくない場合は、 cciss_vol_status ユーティリティを中心にスクリプトを開発して、コントローラーを照会することができます/ディスクのステータス。次も参照してください: OpenFilerへのHPエージェントのインストール

16
ewwhite

HP Insight Managerを確認する

https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#

私はあなたのサーバーで動作するはずだと思います。

5
ckliborn

私は@ewwiteが彼の答えで述べた軽量プログラムを使用しました cciss_vol_status

付随するINSTALLの指示に従うと、スクリプトは/usr/local/bin/cciss_vol_statusに配置されます。

これは、cciss_vol_statusの出力をgrepして、アレイのステータスがFAILEDの場合にメールを送信するために使用するラッパースクリプトです。

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_Host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_Host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

上記のスクリプトをcronで呼び出します。 2分ごとにチェックを実行します。

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

HP System Insight Manager を使用して、HPが稼働中であるかどうかを確認しますが、それ以上のものはありません。他の監視ソリューションが導入されているため、Linuxエージェントはやり過ぎであることがわかりました。そのため、上記のこのスクリプトは特定の目的を十分に果たします。

[〜#〜]更新[〜#〜]

これに遭遇した場合のトラブルシューティングのヒントです。このスクリプトは、今朝、アレイの故障に関するメールを受け取ったときに役に立ちました。

キャッシュのダーティ制限に達しました

デバイスは読み取り専用になり、/proc/partitionsに表示されませんでした。私はサーバーを再起動し、ブート時にこれらのメッセージを見ました:

データ損失の可能性があるため、論理ドライブが無効になっています。 「F1」を選択して論理ドライブを無効にして続行します「F2」を選択してデータ損失を受け入れ、論理ドライブを再度有効にします

F2を選択したところ、RAIDは問題なく、ブート時にマウントされました。

3
Banjer

smartmontoolsをインストールします。ドライブが故障する前にメールを送信します。

1
Stephan