web-dev-qa-db-ja.com

SNMPDは実行されていますが、接続をランダムにリッスンしていません

OS:CentOSリリース5.7(最終)Net-SNMP:net-snmp-5.3.2.2-14.el5_7.1(RPMから)

定期的に私のNMSは、このマシンでSNMPがダウンしたことを通知します。サービスは10〜30分で復旧します。私のNMSもSSHにpingを送信してチェックしますが、これらのサービスはSNMPの停止中に影響を受けません。

SNMPDログファイルは、それが機能しており、明らかにパケットを受信して​​いることを示しています(127.0.0.1のローカルエージェントまたは172.16.37.37のNMSから)が、ローカルまたはNMSシステムからsnmpwalkを試行すると、タイムアウトで失敗します。

これらのサーバーのうち7台でCentOS5.7とRHEL5.7が混在しており、この特定のバージョンのNet-SNMPがRPMからインストールされています。このサーバー以外にこの問題はありません。 5台のマシン(NMSシステムとこの問題サーバーを含む)は、1つのスイッチを使用して接続された同じラックにあります。

SNMPDを再起動しても問題は解決しません。最終的には自動的に解決します。問題の診断を開始できる提案はありますか?これは閉じたサブネットであるため、IPTablesは使用されません。以下のSNMPD構成:

# Following entries were added by HP Insight Management Agents at
#      Tue May 15 10:58:17 CLT 2012
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity public 127.0.0.1
rocommunity public 127.0.0.1
rwcommunity 3adRabRu 172.16.37.37
rocommunity 3adRabRu 172.16.37.37
rwcommunity 3adRabRu 172.16.37.36
rocommunity 3adRabRu 172.16.37.36
trapcommunity callmetraps
trapsink 172.16.37.37 callmetraps
trapsink 172.16.37.36 callmetraps
syscontact Lukasz Piwowarek
syslocation Santiago, Chile
# ---------------------- END --------------------
agentAddress udp:161
com2sec rwlocal default public
com2sec rolocal default public
com2sec subnet  default 3adRabRu
group   rwv2c   v2c             rwlocal
group   rov2c   v2c             rolocal
group   rov2c   v2c             subnet
view    all     included        .1
access  rwv2c   ""      any             noauth          exact   all     all     none
access  rov2c   ""      any             noauth          exact   all     none    none
2
Lukasz

これに関して取り組むべきいくつかの問題があります。

構成を見ると、OpenNMSが監視ソリューション、HP ProLiantサーバーハードウェア、考えられるパッケージバージョンとドライバーの問題、およびsnmpdオプションに加える可能性のあるいくつかの調整であることがわかります。

OpenNMSの最新バージョンを使用していますか? 現在のリビジョンは1.10.3です NMSシステムをポーリングしているマシンは関係ありませんか?これは古いバージョンのOpenNMSの問題でしたか、それとも新しいインストールですか?

HP ProLiant Management Agents のモジュールがsnmpd.conf構成の最初の行にロードされていることもわかります。これは、ProLiant SupportPackとHPヘルスエージェントにフィードします。これはあなたが監視している唯一のHPサーバーですか? HP snmp構成をテストするには、システム管理ホームページ( https://server.ip:2381 )にアクセスできますか?システムセンサー(温度、ストレージ、ILO)は正しく表示されていますか?そうでない場合は、SNMP設定に問題があります。

OpenNMS側では、ポーラーで使用できる非常に柔軟なロギングオプションがあります。必要な情報を入手するお手伝いをしますが、1つのノードにのみ影響する場合、これは一般的なOpenNMSの問題ではないと思います。データベースからノードを削除し、それを再発見して、この理論をテストすることができます。

問題のホストの場合、問題が発生した場合に備えて、/etc/sysconfig/snmpd.optionsログの冗長性を減らす に編集することをお勧めします。


私の推測では、これはOpenNMSポーリング/ DBの問題であるか、単一の問題システムでのHPエージェントとsnmpの相互作用であると考えられます。

2
ewwhite

NMSでSNMPタイムアウトと再試行を増やしてみましたか?サーバーが十分な速度で応答しない場合や、ネットワークでパケットが失われる場合があります。

また、@ rnxrxがすでに指摘しているように、snmpdがリッスンしているかどうかを確認するには、ポート161を探す必要があります。

0
Oliver

原因は見つかりましたが、解決策はありません。 MySQLがシステム全体を無応答にしているようです。 SNMPからSSHまでのすべてに影響を与える方法と、システム全体の応答性(応答するのに30秒以上かかるはずのコマンド)は私を超えています。これは、96GBのRAM)を備えたデュアルCPUマシンであり、非常に重いデータ相関の4時間のバーストで使用されますが、プログラム(MySQLに数百万の挿入を行う)を実行すると、システム全体がアイドル状態に近いにもかかわらずクロールします。MySQLを再起動すると、問題はすぐに解消されます。

0
Lukasz