web-dev-qa-db-ja.com

パッケージ温度がしきい値を超え、CPUクロックが抑制された

ほぼ同じように構成された2台のHPE Proliant DL360 Gen10サーバーがあります。どちらもCentOS 7.5を実行しています。唯一の違いは、この問題を修正しようとして、ファームウェアとカーネルが新しいことです。

dmesgは以下を繰り返し報告しており、サーバーのパフォーマンスが低下しています。

[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[  +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[  +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[  +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[  +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[  +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[  +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[  +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[  +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[  +0.002025] CPU6: Core temperature/speed normal

HP iLOはsensorsが報告しているよりも30C少ないと報告しています。

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +94.0°C  (high = +86.0°C, crit = +96.0°C)

HPE iLOインターフェイスは、センサーの読み取りが行われると同時にCPUが55Cであることを報告します。

sensorsを実行すると、dmesgに次のようになります。

[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[  +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[  +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)

最新のカーネルに更新しました(4.18.13-1.el7.elrepo.x86_64)今朝、それも助けにはなりませんでした。

3
Kerry Knopp

OSのカーネルを更新することで、ほとんどの場合これを解決できました。現在4.18.13-1.el7.elrepo.x86_64を使用していて、温度はiLO UIとは異なる方法で報告されますが、CPU温度と「高」の比率ははるかに良くなり、iLO比率とよりよく一致します。

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +71.0°C  (high = +86.0°C, crit = +96.0°C)
0
Kerry Knopp

ILO WebインターフェイスからシステムのIMLログを開き、どのイベントが報告しているかを確認します。

これは、HPEサーバー機器のハードウェアステータスを確認する信頼できる方法です。

2
ewwhite

Intelの熱モニタリングは、使用するインターフェイス/ MSRに応じて、さまざまな「温度」につながる可能性があります。また、異なるプロセッサは、製造に基づいて異なるしきい値を持つことができます。

UEFIのいくつかの温度調整をいじくり回したい場合もあります。しきい値に達しないようにする「最大冷却」オプションがあります。

最後に、使用するオプションカードをメモし、影響があるかどうかを確認します。 IOカードが熱モニタリングを作動させて、FW/OS SWがシステムに熱的問題があると思わせる場合があります。

0
Dan