新しいサーバーは、数か月間基本的に問題なく稼働しています。ただし、明確な理由もなく、2度シャットダウンします。
最新の発生は、数日前の午後11時41分でした。イベントログには何も問題がなく、最後のエントリはセキュリティログのかなりありふれた監査エントリです。 UPSログに電源の問題は表示されません。何時間もそうだったので、特に何も実行されていませんでした。もちろん、夜間のバックアップは午後10時に開始します。バックアップログにも何も表示されず、バックアップの途中で停止します。サーバーはカーネルダンプを書き込んで再起動するように構成されていますが、メモリダンプはなく、システムは再起動しませんでした。 HP Proliant ML330 G6シリーズサーバーです。
翌朝サーバーを手動で再起動すると、次のイベントが記録されました。
Log Name: System
Source: EventLog
Date: 4/16/2011 8:20:22 AM
Event ID: 6008
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
そして
Log Name: System
Source: Microsoft-Windows-Kernel-Power
Date: 4/16/2011 8:20:00 AM
Event ID: 41
Task Category: (63)
Level: Critical
Keywords: (2)
User: SYSTEM
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.
そして
Log Name: System
Source: USER32
Date: 4/16/2011 8:22:34 AM
Event ID: 1076
Task Category: None
Level: Warning
Keywords: Classic
User: XXXXXXXXXXXXXXX\Administrator
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID:
Bugcheck String:
Comment:
私はこれを調査するのにしばらく時間を費やしましたが、ほとんど使用されていませんでした。誰かアイデアはありますか?
更新:iLO2ログの関連部分は次のとおりです。
305 04/15/2011 23:42:00 Server reset.
306 04/15/2011 23:42:00 Server power removed.
307 04/15/2011 23:42:00 iLO 2 network link down.
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps.
309 04/16/2011 08:17:00 Server power restored.
更新:ページングファイルのサイズを大きくして、完全なカーネルダンプができるようにしたので、それが本当にWindowsのクラッシュである場合、何が起こったのか(次回、それが起こったとき)を確認できます。
更新:サーバーのファームウェアはすでに最新です。
更新:ドライバーとシステムソフトウェアに利用可能な多くの更新がありました。それらのほとんどをインストールしましたが、今は問題が再び発生するかどうかを確認するのを待っています。
2018年6月6日更新:6年間問題なく稼働した後、この問題が再発し、先週かそこらで2回発生しました。前面パネルとその配線に問題がある可能性を調査しています。
2018年11月30日更新:最後にフロントパネルケーブルアセンブリを交換しましたが、まだ問題が発生します。次は電源です。
電源スイッチ/ LEDケーブルキットに問題がある可能性があります。私のML310 G5も同じことをしていたので、それが問題を修正しました。どうやら、これはHPの既知の問題です。
459186-001-02 HEWLETT-PACKARD PROLIANT ML310 G5システムのフロントLEDからSYS/BRDケーブルへP/N:459186-001-02-HEWLETT-PACKARD ORIGINALS
私はここで一歩外に出て、ファームウェアの更新が必要になるかもしれないと言います。 ソース 。しばらく前に、DL380 G6と同様のものがありました。
Server 2008 R2ボックスでこの正確な問題が発生しました。お使いのマシンで使用されているXeon 5000シリーズCPUには、2008 R2およびHyper-Vの役割に関する問題があることがわかりました。ここでは、私が抱えている問題と同じ問題に基づいて、Hyper-Vの役割がインストールされていることを前提にしています。
Microsoftからの修正プログラムがあります [〜#〜]こちら[〜#〜] 。システムにインストールしましたが、それ以来、トラブルは発生していません。
機械が過熱していませんか?ダストバニーがないかファンと通気孔を確認します。
HP管理エージェントソフトウェアがインストールされていますか? Windowsイベントログとバックアップログについて言及しているが、「ハードウェア」ログについて言及していない。突然のシャットダウンはハードウェアの問題に関連している可能性があるため、他にも情報を表示できないため、そこも確認する必要があります。
それが本当にシステムクラッシュだった場合は、システムログに次のようなイベントが見つかります。
Level: Error
Source: Bugcheck
Event ID: 1001
Text: The computer has rebooted from a bugcheck. The bugcheck was: [...]
また、カーネルダンプを保存してから再起動するように構成されていれば、サーバーはそれを実行できます。
このようなイベントログとその後の再起動がないことは、シャットダウンが外部イベント(電源の喪失、ハードウェア障害など)によって引き起こされたことを意味します。また、ILOログは、電源障害が実際の理由であることを確認しているようです。