最近、BMC(Aspeed AST2400チップ)を内蔵したSuperMicro X10SLL-Fマザーボードを購入しました。サーバーでLinuxを実行しているときに組み込みのウォッチドッグコントローラーを使用したい(gentoo hardened)。
BIOSでウォッチドッグ機能を有効にしてから、マザーボードのジャンパーをハードリセットからNMI(再起動を避けるためのテスト目的のウォッチドッグタイムアウトアクション)に切り替えました。ソフトについて-デフォルトのランレベルウォッチドッグをインストールして追加しましたウォッチドッグデバイス(存在する/ dev/watchdog)に10秒ごとにpingするように構成されたプログラム(sys-apps/watchdog)ウォッチドッグタイムアウトは250秒に設定されています。
プログラムにはウォッチドッグハードウェアが表示されているようです(openipmiが有効になっているipmitool)。
# ipmitool mc watchdog get
Watchdog Timer Use: SMS/OS (0x44)
Watchdog Timer Is: Started/Running
Watchdog Timer Actions: Hard Reset (0x01)
Pre-timeout interval: 0 seconds
Timer Expiration Flags: 0x10
Initial Countdown: 254 sec
Present Countdown: 253 sec
Freeipmi:
# bmc-watchdog --get
Timer Use: SMS/OS
Timer: Running
Logging: Enabled
Timeout Action: Hard Reset
Pre-Timeout Interrupt: None
Pre-Timeout Interval: 0 seconds
Timer Use BIOS FRB2 Flag: Clear
Timer Use BIOS POST Flag: Clear
Timer Use BIOS OS Load Flag: Clear
Timer Use BIOS SMS/OS Flag: Set
Timer Use BIOS OEM Flag: Clear
Initial Countdown: 254 seconds
Current Countdown: 253 seconds
ただし、一定の時間が経過した後(上記のプログラムによって報告された適切な「現在のカウントダウン」値を使用):
[ 294.107534] Uhhuh. NMI received for unknown reason 21 on CPU 0.
[ 294.107998] Do you have a strange power saving mode enabled?
[ 294.108437] Dazed and confused, but trying to continue
これはNMIで、ウォッチドッグタイムアウトが原因であると思われます。そのマシンのハードリセットが発生してから1分弱。
問題はどこにあり、どの方向に調査すべきですか?
編集:ipmiに関連するカーネルメッセージ:
[ 0.353090] ipmi message handler version 39.2
[ 0.353353] ipmi device interface
[ 0.353623] IPMI System Interface driver.
[ 0.353898] ipmi_si: probing via ACPI
[ 0.354172] ipmi_si 00:08: [io 0x0ca2] regsize 1 spacing 1 irq 0
[ 0.354444] ipmi_si: Adding ACPI-specified kcs state machine
[ 0.354790] ipmi_si: probing via SMBIOS
[ 0.355051] ipmi_si: SMBIOS: io 0xca2 regsize 1 spacing 1 irq 0
[ 0.355317] ipmi_si: Adding SMBIOS-specified kcs state machine duplicate interface
[ 0.355836] ipmi_si: probing via SPMI
[ 0.356095] ipmi_si: SPMI: io 0xca2 regsize 1 spacing 1 irq 0
[ 0.356362] ipmi_si: Adding SPMI-specified kcs state machine duplicate interface
[ 0.356906] ipmi_si: Trying ACPI-specified kcs state machine at i/o address 0xca2, slave address 0x0, irq 0
[ 0.390536] ipmi_si: The BMC does not support clearing the recv irq bit, compensating, but the BMC needs to be fixed.
[ 0.418476] ipmi_si 00:08: Found new BMC (man_id: 0x002a7c, prod_id: 0x0801, dev_id: 0x20)
[ 0.419004] ipmi_si 00:08: IPMI kcs interface initialized
[ 0.419272] IPMI SSIF Interface driver
[ 0.420350] IPMI Watchdog: driver initialized
[ 0.420635] Copyright (C) 2004 MontaVista Software - IPMI Powerdown via sys_reboot.
[ 0.421444] IPMI poweroff: ATCA Detect mfg 0x2A7C prod 0x801
[ 0.421710] IPMI poweroff: Found a chassis style poweroff function
編集:「-u 4 -p 2 -a 0 -F -P -L -O -i 300 -e 10」の設定でbmc-watchdogを使用しようとしました。したがって、SMS/OS時間のみが使用され、タイムアウト前の割り込みはNMIに設定され、タイムアウトアクションはNONEに設定されます。
# bmc-watchdog --get
Timer Use: SMS/OS
Timer: Running
Logging: Enabled
Timeout Action: None
Pre-Timeout Interrupt: NMI / Diagnostic Interrupt
Pre-Timeout Interval: 0 seconds
Timer Use BIOS FRB2 Flag: Clear
Timer Use BIOS POST Flag: Clear
Timer Use BIOS OS Load Flag: Clear
Timer Use BIOS SMS/OS Flag: Set
Timer Use BIOS OEM Flag: Clear
Initial Countdown: 300 seconds
Current Countdown: 290 seconds
しかし、これはまったく変化をもたらしませんでした。
編集。また、\ 0x00を/ dev/watchdogにエコーしてウォッチドッグタイマーをトリガーし、そのままにしておくと、デフォルトの10秒のタイムアウト後にシステムが正しく再起動します。したがって、ウォッチドッグは正常に機能しますが、起動システムの再起動からちょうど350秒です。
編集。 BMCシステムイベントログ(SEL)を確認したところ、再起動後に次のことがわかりました。
Sensor #202 | Watchdog 2 | Assertion Event | Timer interrupt ; Timer use at expiration = SMS/OS ; Interrupt type = none
Sensor #202 | Watchdog 2 | Assertion Event | Timer expired, status only ; Timer use at expiration = SMS/OS ; Interrupt type = none
ここで興味深いのは、そのイベントが「ステータスのみ」とマークされていることです。それでも、システムは再起動されます。ウォッチドッグタイムアウトを意図的にトリガーすると、ログが異なります。
Sensor #202 | Watchdog 2 | Assertion Event | Timer interrupt ; Timer use at expiration = SMS/OS ; Interrupt type = none
Sensor #202 | Watchdog 2 | Assertion Event | Hard Reset ; Timer use at expiration = SMS/OS ; Interrupt type = none
最終的に、少し奇妙な解決策が見つかりました:ウォッチドッグジャンパー(JWD1)を開いたままにします(NMIもハードリセットも選択されていない)。ウォッチドッグはBIOS設定で有効になっています。
この場合、ウォッチドッグは期待どおりに動作します。システムは25分間安定しており、bmc-watchdogが実行されていて、ウォッチドッグプログラムの終了後に再起動されました。