クライアントは、 APC AP7911A スイッチド/メータリングラック配電ユニット(PDU)のcomplete障害を経験しました。これにより、接続されているすべての機器が明らかにダウンしました。機器は問題なく、上流のUPSユニットも問題ありません。
複数の給電/ PDU/UPSユニット間でデバイスのバランスをとることができない状況(たとえば、単一の電源を備えたスイッチ、ハイライン給電の欠如など)では、このような障害をどのように軽減しますか?これは、理想的とは言えないコンピュータルームへの単一ラックの設置でしたが、ほとんどの中小企業では一般的でした。個々のPDUの障害を計画する必要がありますか、それとも発生したときに対処するだけの計画ですか?
サーバー内の複数のPSUは問題ありませんが、特効薬ではありません。多くの場合、力に関係することが起こったとき、彼らは彼らの周りの他のものを取り出します。冗長psusの両方が接続するバックプレーン。別々のUPSに2台のサーバーがある場合、実行を継続する可能性がはるかに高くなります。
何よりも、アプリケーションまたはプラットフォームレイヤーで冗長性を確保して、マシンやラックを問題なく外出できるようにすることですが、そのための予算がない場合でも、スペア以外のスペアを用意することでリスクを軽減できます。冗長機器は交換の準備ができていますが、物事をシンプルに保つことによっても可能です。ファンシーマネージドPDUは、ダムパワーバーよりもダウンする可能性がはるかに高くなります。
また、多くの中小企業は、物事を適切な方法で行うことができないか、物事を最も安価な方法で行うことを選択し、それらが発生した場合の結果に耐えることができないことを覚えておく価値があります。私は、経験の浅い管理者が、この辺りや同様のサイトで予定されている特定の方法で何かをやるのを避けて、何か悪いことをするのを避けているのを見てきました。多くの場合、理想的とは言えない解決策の方が、何もないよりはましです。
私はまったく同じ状況にあり、サーバーのクラスター全体で冗長性を確保するために最善を尽くしましたが、1つの電源の障害によって状況が悪化し、その結果、デバイスに1つのPSUが失敗します。バックアップDC、スイッチ、ラックキャビネットファンアレイなど、単一のPSUデバイスが重要な場合があります。
私が思いついた最良の答えは、**自動転送スイッチ**(ATS)を備えたPDUを使用することです。これにより、PDUを2つの電源にリンクでき、1つに障害が発生しても、ダウンタイムなしで2つの電源に切り替わります。これは、明らかにオンのままであるため、単一のPSUデバイスに最適です。 ATSスイッチには通常約8つのコンセントがあるため、PDUの代わりに効果的に使用できます。
データセンターに2つの電源回路がないが、1つのUPSとメインのいずれかに、またはメインから2つのUPSを介してラックが配線されている、一般的なSMEシナリオの場合、これにより、優れた保護がなければ、どのPDUソースが最初に失敗するかを常に賭けることになります。また、これらのATSスイッチは標準のPDUよりも復元力が高いため、災害をさらに軽減できると思います。
単一のPSUを備えたレガシーキットに関しては、あなたが言うように、私が知る限り、それはそれが起こったときに対処されるものにすぎませんが、間違いなくそれが起こることを計画しています。
できればこのように設定されたキットをメモし、失敗の計画を立てて、ある時点でそれを期待します。
バックアップが適切に計画され、適切に実行されていること、および災害復旧計画が十分に検討され、定期的にテストされていることを確認することをお勧めします。
新しいキットを購入する場合は、デュアルPSUを備えたサーバーを購入し、それぞれを個別のUPSに接続します(必要に応じてPDU経由)。安価なローエンドの中小企業のDellサーバーでさえ、デュアルPSUで購入できます。
独自のデータセンターが複数あり、動作を決定し、ブレードを使用しているため、少し変わった状況にありますが、通常、PSUの半分は1つのPDUに移動し、残りの半分は別のPDUに移動します。まさにこの理由でPDU。現在、通常、両方のPDUは同じ非常に大きなPDU/UPS上にあり、それぞれが40ラックの複数の半列に対応しています。したがって、クラスターを行に沿って分割します。つまり、クラスターメンバー1を最初の行の最初の20ラックのいずれかに、番号2を最初の行の2番目の20ラックに、番号3を2番目の行の最初の20ラックに分割します。 PSU、PDU、ラージPDU/UPS、または行全体(洪水、火災など)を失った場合の補償方法。しかし、これは少し珍しいことだと思いますが、うまくいけば、それをどのように行うかについての洞察があれば、常に異なるPDUを提案しますが、複数の中央/大規模なPDUとUPSを使用する場合は、フェーズが行き過ぎないようにしてください安全上の理由から(SFで以前のクロスフェーズ引数を検索してください:))