web-dev-qa-db-ja.com

HP ProCurve 5412zlは、UPSに接続されているときに停電時にウォームブートします

クライアントの HP ProCurve 5412zlシャーシスイッチ 4つの冗長電源から電力が供給され、UPSで保護されているにもかかわらず、時々再起動します。

これらの再起動は通常、実際の停電時、または電圧低下または低電圧イベント中に発生します。 UPSに接続されているすべての機器は、スイッチを除いて稼働したままです。

ラック用のUPSは、降圧トランスを備えたAPC SmartUPS SUA3000XL208Vです。このスイッチは、施設全体の電話とアクセスポイントにPoEを提供します。バッテリーセルは正常で、最近交換され、完全に充電されています。

これらのブリップには、施設内のすべての電話を再起動し、ユーザーをセッションから切断する効果があります。それは破壊的です。

スイッチログ内:

 Keys:   W=Warning   I=Information
         M=Major     D=Debug E=Error
----  Event Log listing: Events Since Boot  ----
I 02/17/16 22:26:31 03802 chassis: System Self test started on  Master
I 02/17/16 22:26:31 03803 chassis: System Self test completed on  Master
I 02/17/16 22:26:35 00061 system: -----------------------------------------
I 02/17/16 22:26:35 00062 system: Mgmt Module 1 went down without saving crash
            information
M 02/17/16 22:26:35 03001 system: System reboot due to Power Failure

およびバージョン情報:

valley-core# sh version
Image stamp:    /ws/swbuildm/rel_orlando_qaoff/code/build/btm(swbuildm_rel_orlando_qaoff_rel_orlando)
                Nov 19 2014 15:17:26
                K.15.16.0005
                335
Boot Image:     Secondary

何年もの間、このスイッチモデルの電源設定を変更する必要があることに気づいていませんでしたが、このユニット複数のPSUを利用するように適切に構成されています。

valley-core# sh power-over-ethernet

 Status and Counters - System Power Status

  System Power Status    : Full redundancy
  PoE Power Status       : Full redundancy

 Chassis power-over-ethernet:

  Total Available Power  :  600 W
  Total Failover Power   :  600 W
  Total Redundancy Power :  600 W
  Total Used Power       :  359 W +/- 6W
  Total Remaining Power  :  241 W

 Internal Power

        Main Power
  PS    (Watts)       Status
  ----- ------------- ---------------------
  1     300           POE+ Connected
  2     300           POE+ Connected
  3     300           POE+ Connected
  4     300           POE+ Connected

 External Power
        EPS1   /Not Connected.
        EPS2   /Not Connected.

追加のPSU情報:

valley-core# sh system power-consumption

 Slot Power Usage:
 Slot  Module Description                        Current Power
 ----- ----------------------------------------- ---------------
 A     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 B     HP J9536A 20p GT PoE+/2p SFP+ v2 zl Mod   23 W
 C     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 D     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W
 E     HP J9534A 24p Gig-T PoE+ v2 zl Module     17 W
 F     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 G     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 H     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 K     HP J9534A 24p Gig-T PoE+ v2 zl Module     18 W
 L     HP J9534A 24p Gig-T PoE+ v2 zl Module     19 W

valley-core# sh system power-supply

Power Supply Status:

 PS#    Model       State        AC/DC  + V      Wattage
 ---- --------- ------------- ----------------- ---------
   1   Unknwn    Powered         AC 120V           875
   2   Unknwn    Powered         AC 120V           875
   3   Unknwn    Powered         AC 120V           875
   4   Unknwn    Powered         AC 120V           875

   4 /  4 supply bays delivering power.
   Total power: 3500 W

ユニークなのは、スイッチが電力を失う唯一のデバイスであるということです。同じバッテリーまたはPDUを使用しているにもかかわらず、接続されているサーバーに電源の問題はありません。

この場所の電力は貧弱で、電圧の低下と時折のスパイクに悩まされていることを認めることができます。しかし、UPSは、この最近のウォームブート中に障害をログに記録しませんでした。

過去に同じことを何度も行った無関係の顧客に別の5412zlがあります。

これについて私ができることについて何か考えはありますか?すべてがUPSにあるのではなく、2つのPSUを商用電源に移動する必要がありますか?


編集:

起動履歴は次のことを示しています。

バレーコア#shブート履歴

Mgmt Module 1 -- Saved Crash Information (most recent first):
=============================================================
ID: 29008d6a
Active system went down: 02/01/16 09:23:54 K.15.16.0005 335
Switch rebooting due to temporary loss of power or low voltage

ID: 994a405a
Active system went down: 12/14/15 11:31:15 K.15.16.0005 335
switch rebooting due to temporary loss of power or low voltage

以前のファームウェアリビジョンに関するHPの変更メモには次のように記載されています。

電源(CR_0000112424)-スイッチがAC電源の変動にさらされ、電圧が低くなりすぎると、スイッチが再起動し、スイッチがクラッシュしたことを示す誤ったエラーメッセージが生成されます。この修正により、エラーメッセージは「一時的な電源喪失または低電圧によるスイッチの再起動」に変更されます。

これは このテクニカルノート と一致しています。

4
ewwhite

私の最初のそして即時の考えはあなたが考えているものの線に沿っています。これらのブリップがUPSで設定したセルフテストスケジュールとは無関係に発生している場合(セルフテスト中にブリップが一定の割合で発生する場合は、UPS /変圧器/負荷の問題が発生しています)、Iあなたが提案していることを正確に実行します。いくつかのPSUを別のフィードに移動し、ブリップが再発するかどうかを確認します。もしそうなら-そして私はこれを軽く示唆していません-HPでケースを開きます。それは苦痛で退屈なプロセスかもしれません。ただし、スイッチから実際のデバッグ情報を取得するためのガイダンスを提供するのに役立つ可能性があります。また、スイッチのファームウェアの現在のリビジョンのリリースノート/バグリストも確認します。

3
vigilem

このページ によると、UPSシリーズは「ラインインタラクティブ」タイプです。この指定は、商用電源を常にDCに変換し、再び主電源レベルに戻すわけではないことを意味します。むしろ、そこに座って電力を監視し、バッテリーを充電し続けます。入力電力が渡されます。安全性を高めるために、途中でいくつかのチョークとサージ保護デバイスを通過する場合がありますが、まっすぐ通過します。

商用電源がダウンしたり、電圧が低下したりすると、UPSはインバーターを回路に切り替えて、接続された機器へのバッテリー電力の供給を開始する必要があります。この切り替えがどのように行われるかに関係なく(物理リレーまたはソリッドステートリレーのいずれかになります)、常に数ミリ秒の「ギャップ」が表示されます。また、UPSのインバーターはおそらく商用電源と同相ではないため、AC波形は新しい相にジャンプします。

ほとんどの機器は、入力電力が数ミリ秒失われたとしても実際には気にしません。多くの場合、電源のコンデンサは、問題なく小さなギャップを乗り越えるのに十分な大きさです。私は、多くのサーバーとネットワーク機器が、グリッチほどではなく、完全に失敗したサイクルを2、3回取るのを見てきました。

私の疑いは、この特定のスイッチのPSUが他のほとんどのスイッチよりも少し重要であるということです。別のUPS(がAC-DC-ACを変換するループで継続的に)スイッチをオフにすることで、問題を解決できると思いますの。このタイプのUPSは、「オンライン」と呼ばれることがよくありますが、適切なタイプを入手していることをベンダーに確認する必要があります。

4
Mels

編集で追加したばかりの情報を使用すると、それはかなり明確です。

2つの考えられる原因が思い浮かびます:

1)UPSは、実際に作業を行う必要がある場合、出力電圧をわずかに低下させ、変化率が急であるため、スイッチは低電力状態であると見なします。
これはUPSユニットで以前に発生したことがあります。
唯一の救済策は、UPSにある程度の負荷をかけるか、UPSを大きくすることです。
場合によっては:UPSに複数の発信回線がある場合、それらの負荷を再分散すると役立つ場合があります。理想的には、各回路にほぼ同じ負荷がかかる必要があります。これにより、出力の電圧降下が最小限に抑えられます。

2)別の可能性は、非常にまれですが、複数の出力を備えたUPSユニットにも当てはまります。提供するACの位相を考慮すると、出力が正確に同期していない可能性があります。
スイッチのPSUが位相差のある複数の回路に接続している場合、PSUの電力を結合するスイッチ内の電源ボードは同期に問題があり、同じ問題を引き起こす可能性があります。その場合、解決策は正反対です。すべてを同じ回路に配置します。

2
Tonny

スイッチは、停電があることを示しています。頭上のライトは停電があることを示しています。ほんの少しでも力がないと思います。それはスイッチとは何の関係もなく、UPSとは何の関係もありません。

スイッチとUPSの間の電源ケーブルを再確認し、実際に接続されていることを確認します。おそらく、スイッチを別のUPSにしばらく置いて確認します。このスイッチは、特にすべての電話に電力を供給していることを考えると、他のデバイスよりもバッテリーカットオーバーに少し敏感である可能性があります。それはすぐに合計することができます。

1
Joel Coel