web-dev-qa-db-ja.com

サーバールームで何かが燃えています。それが何であるかをすばやく特定するにはどうすればよいですか?

先日、サーバールームからひどい焦げたようなにおいがすることに気づきました。要するに、UPSユニットで燃え尽きてしまったバッテリーモジュールの1つになってしまいましたが、それを理解できるようになるまでには数時間かかりました。私たちがそれを理解できた主な理由は、UPSディスプレイがモジュールの交換が必要であることを最終的に示したことです。

ここに問題がありました:部屋全体がにおいでいっぱいでした。においがすべてに浸透していたので、嗅覚テストを行うことは非常に困難でした(言うまでもなく、それによって私たちは頭が軽くなりました)。臭いが最も強い場所だったので、本番データベースサーバーをほぼ誤ってダウンさせました。バイタルは問題ないように見えましたが(CPU温度は60度Cを示し、ファン速度は問題ありません)、私たちは確信が持てませんでした。たまたま、燃え上がったバッテリーモジュールは、ラック上のサーバーとほぼ同じ高さで、わずか3フィートしか離れていませんでした。これが本当の緊急事態だったとしたら、惨めに失敗したでしょう。

現実的には、実際のサーバーハードウェアが焼き付く可能性はかなりまれであり、ほとんどの場合、UPSが原因となっています。しかし、いくつかの機器を備えた複数のラックがあると、それはすぐに推測ゲームになる可能性があります。 どの機器が実際に燃焼しているかを迅速かつ正確に判断するにはどうすればよいですかこの質問は、部屋のサイズ、換気、場所などの環境変数に大きく依存していることに気付きますが、入力は感謝。

453
Chad Harrison

一般的なコンセンサスは、あなたの質問への答えが2つの部分で来るということです:

変な焦げたにおいの原因をどうやって見つけますか?

「How」がかなりしっかりとネイルされています。

  • 「スニフテスト」
  • 目に見える煙/もやを探します
  • ホットスポットを見つけるためにサーマル(IR)カメラで部屋を歩く
  • アラートの監視とデバイスパネルを確認する

さまざまな方法で問題をすばやく見つける可能性を高めることができます。多くの場合、監視の改善が最も簡単です。いくつかの質問:

  • 機器から温度やその他の健康に関する警告を受け取りますか?
  • UPSシステムは監視システムに障害を報告していますか?
  • 配電機器から電流引き込み警報を受け取りますか?
  • 部屋の煙探知器は監視システムに報告していますか? (そしてできますか?

ビッグレッドスイッチをヒットする場合とヒットする場合のトラブルシューティングはいつ行うべきですか?

これはもっと興味深い質問です。
大きな赤いスイッチを使用すると、急いで会社に莫大な費用がかかる可能性があります。クリーンエージェントのリリースは数万ドルになり、緊急電源オフ(EPO、 「部屋を落とす」)は壊滅的であることができます。
電源のコンデンサが飛び出し、部屋の臭いがしたため、データセンターを落としたくない。

逆に、サーバールームでの火災は、会社のデータ/機器、さらに重要なのはスタッフの生命に損害を与える可能性があります。
「おかしな燃えるにおい」のトラブルシューティングは、安全性よりも優先されるべきではありません、したがって、「発火前」の状態のトラブルシューティングに関するいくつかの明確なルールを持つことが重要です。

以下のガイドラインは私の個人的な制限であり、他に明確に定義された手順/ルールがない場合(またはそれに加えて)に適用されます。私もよく、彼らはあなたを助けるかもしれませんが、彼らは私が殺されたり明日解雇されるのと同じくらい簡単にできるので、あなた自身の責任でそれらを適用してください.

  1. 煙や火が見られた場合は、部屋を落としてください
    これは言うまでもありませんが、とにかくそれを言いましょう:アクティブな火災(またはすぐに火災が発生することを示す煙)がある場合は、部屋を脱出して電源を切り、消火システムを放電します。
    例外が存在する可能性があります(常識を働かせる)が、これはほとんどの場合正しいアクションです。

  2. トラブルシューティングに進む場合は、必ず少なくとも1人は他の人を関与させてください
    これには2つの理由があります。まず、データセンターをさまよっているのは嫌ですが、突然、歩いている列にラックが上がり、そこに誰もいないことがわかります。もう1つは、相手がトラブルシューティングと部屋を下ろすことの健全性チェックです。電話をかけて大きな赤いスイッチを押すと、2人目が決定に同意できるというメリットがあります(キャリアを制限する側面を回避するのに役立ちます)誰かが後でそれを質問した場合のそのような決定の)。

  3. トラブルシューティング中の慎重な安全対策の実施
    常にエスケープパス(行の開いた端と出口への明確なパス)があることを確認してください。
    EPO /消火リリースに駐留している人を守ります。
    あなたと一緒に消火器を携帯してください(ハロンまたは他の清浄剤をください)。
    上記のルール#1を思い出してください。
    疑問がある場合は、部屋を出てください。呼吸に注意してください。人工呼吸器または酸素マスクを使用してください。これにより、化学物質による火災が発生した場合に健康を守ることができます。

  4. 制限を設定してそれに固執する
    より正確に、2つの制限を設定します。

    • 条件(「これをどれだけ悪化させますか?」)、および
    • Time( "リスクが高まる前に、問題を見つけるのにどれくらいの時間がかかりますか?").

    設定した制限を使用して、チームが影響を受ける領域の正常なシャットダウンを開始できるようにすることもできます。そのため、[〜#〜] do [〜#〜]力を引きます。アクティブなマシンの束をクラッシュさせていません。復旧時間ははるかに短くなりますが、通常のシャットダウンに時間がかかりすぎる場合は、安全のためにいくつかのシステムをクラッシュさせる必要があるかもしれません。 。

  5. 腸を信頼する
    いつでも安全が心配な場合は、トラブルシューティングを中止して部屋を空けてください。
    腸の感覚に基づいて部屋を落とすことも落とさないこともありますが、(比較的)安全に部屋の外で再編成するのが賢明です。

差し迫った危険がない場合は、EPOやクリーンエージェントの放出などの抜本的な措置を講じる前に、地元の消防署に持ち込むことを選択できます。 (彼らはとにかくそうするようにあなたに言うかもしれません:彼らの使命は人々を保護することであり、それから財産を保護することですが、彼らは明らかに火事に対処する専門家なので、彼らが言うことをすべきです!)

コメントでこれに対処しましたが、回答にもまとめられる可能性があります-@ DeerHunter、@ Chris、@ Sirex、その他多くの人が議論に貢献しました

384
voretaq7

サーマルイメージングカメラが機能し、過熱している場所を特定できます。このようなデバイスを使用すると、火災の原因や煙が充満した部屋での燃焼を特定することもできます。

183
ddalcero

言われたこれらのことのどれもしません。部屋全体に送り出されているものはすべて健康に危険であり、肺をめちゃくちゃにする可能性があるため、危険な環境を離れます。見つけることができない部屋で燃えている何かの刺激的な臭いがある場合は、(911 | 112 | 999 |管轄区域に合った緊急電話番号であれば何でも)電話をかけ、彼らがいる間に火(会社|部門|旅団)がそれを分類するようにします。ボトル入りの空気中です。

コンピュータ部品には、 水銀カドミウム 、ケーシング内のプラスチックなど、あらゆる種類の興味深い化学物質が含まれています。私が作成したすべてのリンクは、低レベルの露出がどのようにして永続的な損傷を引き起こしたり、場合によってはすぐに死に至るかを説明していることに注意してください。これは 生命と健康にとって直ちに危険 になる可能性のある環境です。

...本当に、何かが燃えている場合は、何時間も煙をスニッフィングしないでください。 それを特定できず、すぐにそれを封じ込めるように行動する場合は、出てください。

139
Jeff Ferland

UPSで(通常はSNMPを介して)適切な監視を行っていれば、ユニット自体が監視システムのベルを鳴らしているはずです。表示されない場合は、ベンダーに相談してください。誤動作しているか、監視システムが適切に構成されていません。

アクティブな何かが実際に燃えている場合、それは何らかの形でそれについて不満を持っているか、または単にネットワークから外れているはずであり、これもアラームを引き起こすはずです。

それが絶縁体を燃やす実際の電源レールのようなものであり、それがスマートPDUにない場合、元の質問に戻ります。「どうやって燃えるものを見つけるのですか?」そして、私は適切な答えは「EPOをヒットしてそれを理解します。運用サーバーはおそらく人命を危険にさらすほど重要ではない」と思います。

76
mfinni

これは、

XKCD Die Hard sysadmin

当てはまりません、専門家に連絡してください

Firefighter in protective gear

他のすべては単なる愚かです。

43
user9517

以前は電子技術者だった私として、火ではない「焦げたにおい」の経験があります。これは珍しいことではありません。

臭いのためにデータセンターをシャットダウンすることはありません。煙は別の問題です。何かが本当に燃えています(通常、エンドウ豆サイズのタンタルコンデンサは部屋を煙で満たすこともできます)。電源の揚げ物がどれほどにおいがするかは驚くべきことです。

TICまたはIR温度計(便利なツールであり、TICよりもはるかに安い)は、コンポーネントがまったく熱を発生せず、ケースの内部にあるため、必ずしもそれを示すとは限りません。しかし、デバイスが機能していないことを確認し、監視ツールを使用してください。そのようなにおいの場合、95%の時間は、デバイス全体のパフォーマンスに影響を与える電源になります。

40
Malcolm

私はIRイメージングまたは温度計の答えが好きですが、おそらく本当の「臭い検出器」も役立つでしょう。結局あなたの注意を引いたのはにおいでした。煙、熱、赤外線などはすべて代理です。

このようなもの: from Shinyei 。私は個人的にそれらを使用したことがなく、データセンターで使用されたことさえありません。しかし、少なくとも理論的には、それはきちんとしたツールであるべきです。あなたがこのギズモに使うお金があるならそれはです。

http://www.sca-shinyei.com/odormeter または http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

においの強さだけでなく、分類も提供します。したがって、においに帰着することが可能であるべきです。もちろん悪魔の詳細。それがどれほど敏感であるか、偽の背景の臭いなどを隠します。

純粋な温度ベースの測定に対する1つの利点は、はるかに早いポイントまたはしきい値で悪臭が発生することが多いことです。または、過熱したコンポーネントがボディ/隠された配線などによって隠されている場合、見通し線のホットスポットよりも逃げる分子を検出する方が簡単です。

別の状況は、非熱関連のにおいです。以前に冷却回路に漏れがあり、クーラントの臭いも独特でした。私は、ダクトで死んだげっ歯類の今の古代のケースにさえ行きません。 :)

これらのセンサーの感度の高さに驚きました。 H2S /メルカプタンなど(通常の原因)はサブppmレベルで検出できます。

enter image description here

19
curious_cat