web-dev-qa-db-ja.com

DELLPowerEdge-前回の起動中にシステムに致命的なエラーが発生しました

専用のDellR710サーバー(CentOS 6.4)が自動的に再起動し、次のエラーが表示されます。

enter image description here

これは、ボックスが起動できないことを意味しますか、それともLinuxの起動中にカーネルパニックが発生し、サーバーが何らかの理由で認識しますか?

誰かが診断についてアドバイスできますか、またはこれがハードウェアの問題であり、ボックスをレンタルしているデータセンターに渡す必要があるかどうかを教えてください。何ヶ月も正常に動作していて、過去2日間はランダムに再起動しました。

更新-ボックスは動作している1分間再起動を続け、次の行のエントリはシャットダウンやその他のエラーメッセージなしでカーネルの起動を示します。

Jan 10 16:29:12 squirtle kernel: Firewall: *TCP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=93.174.93.67 DST=13.129.118.21 LEN=40 TOS=0x00 PREC=0x00 TTL=245 ID=54321 PROTO=TCP SPT=35003 DPT=21320 WINDOW=65535 RES=0x00 SYN URGP=0
Jan 10 16:35:50 squirtle kernel: Firewall: *UDP_IN Blocked* IN=em1 OUT= MAC=84:2b:2b:54:84:58:00:04:96:82:74:3e:08:00 SRC=179.107.38.35 DST=13.129.118.21 LEN=443 TOS=0x00 PREC=0x00 TTL=53 ID=0 DF PROTO=UDP SPT=5067 DPT=5060 LEN=423
Jan 10 16:42:05 squirtle kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jan 10 16:42:05 squirtle rsyslogd: [Origin software="rsyslogd" swVersion="5.8.10" x-pid="1203" x-info="http://www.rsyslog.com"] start
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpuset
Jan 10 16:42:05 squirtle kernel: Initializing cgroup subsys cpu
Jan 10 16:42:05 squirtle kernel: Linux version 2.6.32-431.3.1.el6.i686 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC) ) #1 SMP Fri Jan 3 18:53:30 UTC 2014
Jan 10 16:42:05 squirtle kernel: KERNEL supported cpus:
Jan 10 16:42:05 squirtle kernel:  Intel GenuineIntel
Jan 10 16:42:05 squirtle kernel:  AMD AuthenticAMD
Jan 10 16:42:05 squirtle kernel:  NSC Geode by NSC
Jan 10 16:42:05 squirtle kernel:  Cyrix CyrixInstead
Jan 10 16:42:05 squirtle kernel:  Centaur CentaurHauls
Jan 10 16:42:05 squirtle kernel:  Transmeta GenuineTMx86
Jan 10 16:42:05 squirtle kernel:  Transmeta TransmetaCPU
Jan 10 16:42:05 squirtle kernel:  UMC UMC UMC UMC

アップデート2

過去4日間、サーバーでユーティリティstressを実行していますが、サーバーは一度も再起動していません。 100%CPUですべてのコアを最大限に活用します。ストレスがメモリまたはディスクの書き込みを使用しているかどうかを確認する必要がありますが、プロセッサに関しては問題ないようです。

3
g18c

R710の日付は2009/2010であるため、コンポーネントの障害は常に発生する可能性があります。

デル ドキュメント (ただしR410の場合)は次のように述べています:

Alert! System fatal error during previous boot.
An error caused the system to reboot.
Check other system messages for additional information for possible causes. 

私が見る他の唯一のメッセージはファンの速度に関するものなので、温度とその変動を注意深く調べて記録する必要があると思います。

たとえば、 サーバーハードウェアの温度と負荷を監視およびログに記録する方法 を参照してください。

また、サーバーを開いてクリーンアップし、すべての連絡先を確認しても問題はありません。

記事 Linuxでハードウェアの問題をトラブルシューティングする方法 のようにツールを使用してみて、その結果をここに報告することができます。

2
harrymc

そのメッセージは、続行するように求めるBIOSから送信されます。これは、マザーボードがハードウェアレベルで気に入らないものを見たことを意味します。 OSはそれを行わず、機会が与えられていればメッセージファイルに何かを記録していました。サーバーで完全な診断を実行するように要求します。 F1/F2プロンプトは通常、BIOSの設定ミスまたはハードウェア障害アラートです。

2
R Hughes