ほぼ同じように構成された2台のHPE Proliant DL360 Gen10サーバーがあります。どちらもCentOS 7.5を実行しています。唯一の違いは、この問題を修正しようとして、ファームウェアとカーネルが新しいことです。
dmesg
は以下を繰り返し報告しており、サーバーのパフォーマンスが低下しています。
[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[ +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[ +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[ +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[ +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[ +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[ +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[ +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[ +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[ +0.002025] CPU6: Core temperature/speed normal
HP iLOはsensors
が報告しているよりも30C少ないと報告しています。
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +94.0°C (high = +86.0°C, crit = +96.0°C)
HPE iLOインターフェイスは、センサーの読み取りが行われると同時にCPUが55Cであることを報告します。
sensors
を実行すると、dmesg
に次のようになります。
[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[ +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[ +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)
最新のカーネルに更新しました(4.18.13-1.el7.elrepo.x86_64
)今朝、それも助けにはなりませんでした。
OSのカーネルを更新することで、ほとんどの場合これを解決できました。現在4.18.13-1.el7.elrepo.x86_64を使用していて、温度はiLO UIとは異なる方法で報告されますが、CPU温度と「高」の比率ははるかに良くなり、iLO比率とよりよく一致します。
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +71.0°C (high = +86.0°C, crit = +96.0°C)
ILO WebインターフェイスからシステムのIMLログを開き、どのイベントが報告しているかを確認します。
これは、HPEサーバー機器のハードウェアステータスを確認する信頼できる方法です。
Intelの熱モニタリングは、使用するインターフェイス/ MSRに応じて、さまざまな「温度」につながる可能性があります。また、異なるプロセッサは、製造に基づいて異なるしきい値を持つことができます。
UEFIのいくつかの温度調整をいじくり回したい場合もあります。しきい値に達しないようにする「最大冷却」オプションがあります。
最後に、使用するオプションカードをメモし、影響があるかどうかを確認します。 IOカードが熱モニタリングを作動させて、FW/OS SWがシステムに熱的問題があると思わせる場合があります。