私は、Dell PowerEdgeサーバー(私の場合はiDRACを搭載したR210IIとR620がたくさんあります)がいつどのように過熱に対処するかを調べようとして、大変な時間を過ごしました。 CPUが自己保存するのを待ちたくありません。理想的には、サーバー自体がOSに自己IPMIコマンドを発行して、クリティカルなしきい値に達する前に電源を切ることにより、一定期間にわたって高温に対処する必要があります。例えば55Cで、OSにIPMIコマンドを発行し、サーバーが80Cに達した場合は、プラグを抜くなど...
問題は、過熱によるサーバーのシャットダウンがいつ、どのように発生するかについて、Dellのすべてのドキュメントが不明確であるということです。
私の質問は、Dellがこのような熱管理の正常なシャットダウンをサポートしているかどうか、またはそれ自体のプラグを引っ張るだけの臨界温度に関する細かい印刷物または不明確なドキュメントであるかどうかです。これをサポートするには、Dell OpenManageが必要ですか?
このようなシャットダウンをリモートで管理するために、さまざまなネットワークに接続された専用の管理サーバーを実行する必要がないようにしたい(単一の管理ポイントを介したネットワーク間のブリッジを回避しようとする)。これは単一障害点であり、サーバー自体と同じハードコードされた、または柔軟性のない熱条件の影響を受けます。
私のR620にはiDRACが含まれています。 iDRACのリモート管理機能にそれらを含めましたが、現時点では、iDRACがこれを処理できないことに失望しています。熱設定はファン速度と恐ろしいドキュメントの制御に限定されており、システムヘルプではシャットダウンがいつ発生するかは実際にはわかりません。
現実世界のアドバイスは大歓迎です!ありがとうございました。
OpenManageドキュメントリファレンスを掘り下げてくれたThomasに感謝します。 OMSAは、どこかにインストールしてから、リモートまたはローカルでBMCへの接続に使用する必要があり、最終的にIPMIPEFを設定します。デルは、OMSAがこれを実現するために使用するすべてのツールを基本的に含む導入キットを作成していることを発見しました。
DellOpenManage開発キットは次の場所にあります。
Linuxバージョン(64ビットのみのようです。以前は32ビットバージョンがありましたが、見つかりません)には、ファームウェアなどをインストールするための起動可能なイメージが含まれていますが、すべてのコンソールプロンプトが表示されます。アクセス可能なデプロイメントツール。ダウンロードして書き込み、サーバーに挿入して起動します。プロンプトで、「syscfg」コマンドにアクセスできます。
ドキュメントはここにありますが、必要なのはリファレンスガイドです!
http://www.Dell.com/support/Manuals/us/en/19/Product/Dell-opnmang-dplymnt-toolkit-v4.2
Syscfgコマンドを使用すると、通常のIPMIアラートが発行されたときにBMCがアクションをトリガーするようにPEFを設定できます。現在の使用法は次のようになります。
syscfg pcp --filter=tempfail --filteraction=powerdown
これで、IPMIが通常tempfailアラートを報告するときに、BMCはパワーダウンイベントを発行します。 OSはAPICを介してイベントを通知され、正常に電源を切るようにしてください。それを除けば、組み込みの熱しきい値がその役割を果たします。
Ipmitoolに精通している場合は、次のような方法で設定した新しいPEFを確認することもできます(おそらくPEFを設定しますが、私は試していません)。
ipmitool <options> pef list
「Temperature」をgrepすると、次のように表示されます:(コンソールからC&Pできません)
11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1
新しく追加されたPEFアクションであるパワーオフ。
デルのツールを使用して温度しきい値を設定するための正しい使用法がわかりませんが、ipmitoolを使用しています。
ipmitool <options> sensor list | grep Ambient
Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na
次に、ipmitoolセンサーのしきい値パラメーターの使用状況に基づいて新しいしきい値を設定できます。これは、上限のクリティカルしきい値を48Cに変更した例です。
ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000
上限臨界温度イベントを手動で発行してみることができますが、それはイベントを発行するだけのようであり、PEFフィルターアクション設定の対象ではありません。 (イベント1の発行は、センサーなどを手動で識別するよりも簡単です...)
ipmitool <options> event 1
私がしたことは、シャットダウン温度を25℃に設定し、すべてを監視している間、同僚と一緒にサーバールームのACを5分間オフにすることでした。ターゲットサーバーは25℃でシャットダウンします。
私が見つけた最高のものは Spiceworksフォーラムのスレッド からでした。回答はデルの担当者からのものです。
これを行うには多くの方法があります。デフォルトでは、グレースフルシャットダウンのオプションはどれも有効になっていませんが、クリティカルなしきい値に達するとサーバーはシャットダウンします。
IDRAC/CMC内でアラートアクションを設定できます。温度警告またはクリティカルしきい値に達したときに電源をオフにするように設定できます。 OMSA内でプラットフォームイベントまたはアラートアクションを設定することもできます。 OMSAには、サーマル用にシャットダウン中のセクションもあります。そこでアクションを実行するように設定することもできます。また、イベントがトリガーされた場合にプログラムを実行するようにOMSAを構成できます。この機能を使用して、Windows内でシャットダウンプログラムを実行できます。
アラートアクションの電源オフオプションは、正常なシャットダウンです。警告しきい値でシャットダウンするように設定することをお勧めします。クリティカルしきい値に設定すると、グレースフルシャットダウンが試行されてから、クリティカル制限に達し、ハードシャットダウンが実行されてから、グレースフルシャットダウンが完了する場合があります。
また、OpenManageに関して 公式のDell PDF を読み、サーマルシャットダウンについて次のように述べています。
Dell OpenManage Server Administrator(OMSA)を使用すると、管理者は、サーバーが緊急サーマルシャットダウンを実行する必要がある温度しきい値を設定できます。
したがって、答えは「はい」のように見えます。Dellサーバーは適切なサーマルシャットダウンをサポートしており、その温度は構成可能です。各サーバーでOpenManageServer Administratorを使用して、これらの変更を行うことができます(サーバーの実行中にこれらの変更を行うことができると思います)。他の多くの管理タスクを簡素化できますが、一元化されたOpenManage管理サーバーをインストールする必要はありません。
:編集:
これらの回答はDellサーバーの一般的なものであることを付け加えておきます。リストしたサーバーモデルに固有のものは見つかりませんでした。