私のクライアントのサイトの1つが先週、(偶然にもFriday the 13th!に)落雷を直撃しました。
私は現場から離れていましたが、現場の誰かと一緒に作業していたときに、奇妙な損傷パターンを発見しました。両方のインターネットリンクがダウンしており、ほとんどのサーバーにアクセスできませんでした。損傷の多くは [〜#〜] mdf [〜#〜] で発生しましたが、ファイバー接続された1つの [〜#〜] idf [〜#〜] でも発生しましたスイッチスタックメンバーのポートの90%を失いました。他の場所にケーブルを再分配して再プログラムするのに十分な予備のスイッチポートが利用可能でしたが、影響を受けるデバイスを追跡する間にダウンタイムがありました。
これは新しい建物/倉庫施設であり、サーバールームの設計には多くの計画が行われました。メインサーバールームは、発電機に支えられた APC SmartUPS RT 8000VA ダブルコンバージョンオンラインUPSから実行されています。接続されているすべての機器への適切な配電がありました。オフサイトのデータ複製とシステムバックアップが実施されました。
全体として、(私が知っている)被害は次のとおりです。
ほとんどの問題は、Cisco 4507R-Eでスイッチブレード全体が失われることに関連しています。これには、VMware NFSネットワーキングとサイトのファイアウォールへのアップリンクの一部が含まれていました。 VMWareホストに障害が発生しましたが、ストレージネットワーク接続が復元されると、HAがVMを処理しました。 ファンキーな電源状態をクリアするために、いくつかのデバイスを再起動/電源サイクルすることを余儀なくされました。復旧までの時間は短かったですが、私は興味がありますどのような教訓を学ぶべきか...
十分な$$$があれば、あらゆる種類の冗長性を環境に組み込むことが可能ですが、予防的/思慮深い設計とリソースの効果的な使用の合理的なバランスとはどのようなものでしょうか。
数日前の仕事で、私が働いていた場所のデータセンターの1つは、非常に大きな空中の1階下でした。この大きくて薄い金属製のアイテムは、この地域で最も高いもので、18か月ごとに落雷に見舞われました。データセンター自体は1980年頃に建てられたので、私はそれを最も近代的なものとは言いませんが、雷の損傷に対処する長い経験がありました(シリアル通信ボードを交換する必要がありました) time。これは、コミュニケーションボードが、10年間で新しいパーツが作成されていないシステムにある場合の試用版です。
古い手によって持ち上がったものの1つは、そのすべてのスプリアス電流が何かの周りに道を見つけることができ、一度ブリッジすると共通の地面に広がる可能性があるということです。エアギャップからブリッジできます。落雷は例外的なケースであり、通常の安全基準ではアークを防止するのに十分ではなく、エネルギーがある限り続きます。そして、それはたくさんあります。十分なエネルギーがある場合、吊り天井のグリッド(おそらく、吊りワイヤーの1つがセメント内の建物の桁に接続されたループから吊り下げられている)から2支柱ラックの上部に、そこからネットワーキンググッズ。
ハッカーのように、できることは限られています。給電にはすべて、スプリアス電圧をクランプするブレーカーが付いていますが、低電圧ネットワーキングギアは、非常にエネルギッシュな電流が流れるための一般的な経路ではほとんどありません。
不安定な可能性のあるキットを検出することは、理論的には行う方法を知っていますが、実際にはそうではありません。おそらくあなたの最善の策は、疑わしいギアをエリアに入れ、部屋の温度を意図的に動作範囲の上限まで上げ、何が起こるかを確認することです。いくつかのテストを実行し、その中身をロードします。数日間そのままにしておきます。既存の電気的損傷に対する追加の熱ストレスにより、時限爆弾が除去される場合があります。
一部のデバイスの寿命は確実に短くなりましたが、どのデバイスを見つけるのが難しいのでしょうか。電源装置内の電力調整回路がコンポーネントに危険を及ぼし、サーバーにダーティ電力を供給している可能性があります。これは、電源装置をテストするために設計された 特殊なデバイス を使用することによってのみ検出できます。
落雷は、DC屋根に巨大な避雷針が設置されている施設にある)以外に、DRで検討したものではありません。一般的に、ストライキはまれにしか発生しないことの1つであり、「神の行為」の下でシャッフルされて移動します。
しかし...あなたは今それを持っています。それはあなたの施設が少なくとも一度は適切な条件を持っていたことを示しています。施設に適切な条件が与えられている傾向を評価し、それに応じて計画を立てるときです。今、雷によるDRの影響だけを考えているのであれば、それは適切だと思います。
この質問が最近編集されてトップページのトップに戻ったので、私はこの質問について考えてきました。
Sysadmin1138のような、DC屋根への大きな落雷に非常に魅力的である設備に対処する必要がある人々にとって、大きなストライキのための特定の緊急時計画は理にかなっています。しかし、私たちのほとんどは、これは1回限りの状況であり、私は他の人たちにもっと一般的に適した回答がいくつかの価値があると考えました。
あらゆる種類の フィルムプロットの脅威 を想像することは可能です。間違いなく発生する可能性のあるシナリオは、疑いもなくビジネスオペレーションを停止させますが、発生する可能性が高くなると考える理由はありません。あなたは一種のことを知っています。飛行機のストライキ/稲妻/ 近くの石油貯蔵所が爆発する /他のもっともらしいが背景リスクのあるシナリオ。
これらのそれぞれに導入できる特定の緩和計画がありますが、私は-上記の私の規定を法として-そうすることはビジネス上意味がないことをお勧めします。シュナイアーが上記の競争で指摘しようとしているように、恐ろしいことが起こっていると想像できるからといって、特定の計画が価値のある、または望ましいとさえ言えない脅威にはなりません。 が何をするかがビジネス上意味があるのは、汎用で、十分に文書化され、テストされたビジネス継続性計画です。
さまざまな期間(たとえば、24時間、96時間、1週間、1か月)の完全なサイト損失のビジネスコストを自問し、発生の可能性を数値化してみてください。それは、ビジネスのすべてのレベルに組み込まれた、正直なビジネスコスト分析でなければなりません。私は、一般的に受け入れられているダウンタイムの数値が1時間あたり550万ポンドであったサイトで働いていました(20年前は500万ポンドが大金だった)。その図が一般的に合意されているたくさん決定たくさん簡単にそれらは単純な数学の問題になりました。
あなたの予算は、予想される損失にその損失の年間確率を掛けたものです。予算に対する脅威を軽減するために何ができるかを見てみましょう。
場合によっては、コールド機器を備えたフルスタンバイのデータセンターでこれを実行し、24時間365日いつでも利用できるようにします。これは小規模なスタンバイデータセンターを意味する場合があるため、顧客とのやり取りは、非常に少ない数の電話オペレーターと、中断に関するプレースホルダーのWebサイト警告を続行できます。これは、メインサイトで冗長的にルーティングされた2番目のインターネット接続を意味し、必要になるまで冷たくなります。それは、マーク・ヘンダーソンが前述したように、保険を意味するかもしれません(ただし、事業損失と実際の回収費用をカバーする保険)。災害発生時に予想されるすべてのコストをカバーする1枚の紙にBC予算を費やすことができる場合、その紙を購入することは理にかなっていますが、ファクタリングすることを忘れないでください保険会社の事業リスク計画への失敗。これは、特定のコア機器のメンテナンス契約を、修理に4時間かかる非常に高価なものにアップグレードすることを意味する場合があります。あなたのビジネスにとって何が意味があるかを知ることができるのはあなただけです。
そして、この計画を立てたら、本当にそれをテストする必要があります(保険ベースのものを除いて)。私は完全に小規模な運用の寒冷地で、主要施設から車で45分のところにカットオーバーの準備ができている場所で働いていました。コアネットワークをシャットダウンする問題が発生したとき、コールドサイトに切り替わる代わりにライブで修正しようとし、その後コアとカットバック。カットオーバーの失敗の背後にある理由の1つは、カットオーバーとカットバックにどれくらいの時間がかかるかについて、本当の意味で考えていなかったことです。したがって、カットすることを決定する前に、カットオーバーなしで物事を実行できる期間を本当に誰も知らなかったので、非常に理解できるように、カットすることを決定するための無口さがありました。 14時間後にオンラインに戻った後、頭が転がりました。停止自体のためではなく、そのような停止の間だけ使用されなかった1日以上の停止を緩和するために施設に多くのお金が費やされたためです。
最後のポイントとして、ビジネスプランのアウトソーシングコンポーネントは、動作が保証されていないことに注意してください。あなたの上級管理職は、「サーバーをクラウドに配置した場合、常にそこにあり、sysadminsを解雇できる」と考えてそこに座っているかもしれません。そうではありません。 雲は他のように失敗する可能性があります ;重要なコンポーネントをプロバイダーにアウトソーシングしている場合は、これらのコンポーネントの障害の可能性を推定する機能を削除するだけです。 SLAはすべて非常に優れていますが、大幅な非パフォーマンスペナルティに裏打ちされていない限り、それらは意味がありません。なぜプロバイダーがお金をズボンにしてサービス料を払い戻すことができるのであれば、可用性を維持するために余分なお金を費やすのでしょうか。利用できない?信頼性を確保するために、SLAには、停止によるビジネスのコストに近いペナルティが必要です。はい、それはアウトソーシングのコストを大幅に増加させます。はい、それは完全に予想されることです。
それはいつもあなたが使いたい金額にかかっています。私はこれについて詳しく説明するのに十分な深い知識を持っていませんが、私は大きな製薬会社のデータセンターにいて、落雷を起こし、多重冗長スパイクアレスターであると想定されていたものを吹き飛ばしました(そして正しく設計されました) 、しかし間違って実装されたので何かが通り抜けました。)
UPSが防止できた最大のスパイクはどれくらいでしたか?評価が必要です。どうやら、ストライキはそれを超えるのに十分直接だった、または悪い地面のような何かがUPSフィードの周りに漏れました。したがって、電力設計を見直し、別のストライキの可能性を判断し、ダウンタイムのコストXの可能性と改善策を比較し、電気技師に施設に適切な調査を依頼して、すべてが適切に接地されていることを確認します- quick reading は、安全/コードの接地が、雷による損傷を防ぐための接地ほど集中的ではないことを示しています。