Ubuntu 16.10の過熱問題

Question

私は最近Ubuntu 16.10をインストールし、それ以降Ubuntuは自動的に再起動します。 last | grep "Oct 31"の出力は次のとおりです。

aegefel tty7 :0 Mon Oct 31 15:15 gone - no logout reboot system boot 4.8.0-26-generic Mon Oct 31 15:14 still running aegefel tty7 :0 Mon Oct 31 15:02 - down (00:04) reboot system boot 4.8.0-26-generic Mon Oct 31 15:02 - 15:06 (00:04) aegefel tty7 :0 Mon Oct 31 14:33 - crash (00:28) reboot system boot 4.8.0-26-generic Mon Oct 31 14:33 - 15:06 (00:33) aegefel tty7 :0 Mon Oct 31 14:12 - crash (00:20) reboot system boot 4.8.0-26-generic Mon Oct 31 14:12 - 15:06 (00:54) aegefel tty7 :0 Mon Oct 31 13:08 - crash (01:04) reboot system boot 4.8.0-26-generic Mon Oct 31 13:08 - 15:06 (01:58)

それは私がそれがクラッシュによって引き起こされたと信じるにつながります

何が原因かわかりませんが、映画を見ようとしたとき、またはバックアップをしたときに起こりました

どうすればいいですか？

編集1

コマンドmore /var/log/syslog*は以下を提供します：

Nov 6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate? Nov 6 18:18:17 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b47b0 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate? Nov 6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate? Nov 6 18:18:31 aegefel-Akoya-E6424-MD99850 gnome-terminal-[2674]: Allocating size to GtkBox 0x55558d2b4120 without calling gtk_widget_get_preferred_width/height(). How does the code know the size to allocate? Nov 6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Starting Stop ureadahead data collection... Nov 6 18:18:36 aegefel-Akoya-E6424-MD99850 systemd[1]: Started Stop ureadahead data collection.

その後、ほぼ1分間何も起こらなかったため、PCがリブートしたと考えられます。

コマンドls -alt /var/crashは、今日私に与えてくれます：

total 21672 drwxrwsrwt 2 root whoopsie 4096 Nov 6 14:26 . -rwxrwxrwx 1 root whoopsie 0 Nov 6 14:26 .lock

編集2

これは、CPUが40％〜50％以上で使用されている場合にのみ追加されます（CPUはIntel Core i5 6267U 2.9GHzです）

編集3

コマンドsensorsは以下を提供します：

coretemp-isa-0000 Adapter: ISA adapter Physical id 0: +37.0°C (high = +100.0°C, crit = +100.0°C) Core 0: +34.0°C (high = +100.0°C, crit = +100.0°C) Core 1: +36.0°C (high = +100.0°C, crit = +100.0°C) acpitz-virtual-0 Adapter: Virtual device temp1: +38.0°C (crit = +98.0°C) pch_skylake-virtual-0 Adapter: Virtual device temp1: +35.0°C

高温は臨界に等しい。多分私のラップトップは過熱し、ファンには温度を下げる時間がありません。高温を下げようとしましたが、これは自動的にクリティカルを下げます（クリティカルは最高に等しくなければなりません）

編集4

ここにある

そして here は11月20日のクラッシュです

編集5

いくつかのテストの後、問題はGPUの過熱だと思います。実際、映画を観ようとしたとき、ラップトップで無料ゲームを試したとき、またはUnreal Engine 4を使用したときだけ、ラップトップが再起動します。BlenderでPCが再起動しなかった理由は、デフォルトはCPU（GPUではありません）。 Intel Iris Graphics 550 (Skylake GT3e)アイデアがありますか？

Elder Geek · Answer

投稿のタイトルが示唆するように、カーネルパニックによるrebootingを本当に心配している場合は、/etc/sysctl.confに似たディレクティブのファイルkernel.panic = nを確認できます。ここで、nは、カーネルパニックが発生した場合に再起動するまでの遅延時間を示す数値です。調査によると、デフォルトでは再起動することは想定されていません。

代わりに、これらの再起動の根本原因を特定することにもっと懸念があると思われる場合（ハードウェア関連の障害は私の意見です）どのハードウェアが故障しているかを判断するために、マシンチェックイベントを確認します。ファイル/var/log/mcelogがない場合は、 mcelogパッケージをインストールする必要があります（ソースでまだ有効になっていない場合）ユニバースリポジトリを有効にして、コマンドSudo apt install mcelogを発行します。 /var/log/mcelogに記録

明確にするために、man mcelogからの抜粋を示します

X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by an integrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Pos‐ sible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, or bad luck. Most errors can be corrected by the CPU by internal error correction mechanisms. Uncorrected errors cause machine check exceptions which may panic the machine.

Mcelogファイル形式の詳細については、こちらをご覧ください。

通常、Linuxシステムはデフォルトでカーネルパニックが原因で再起動しないため、前述のファイル/etc/sysctl.confを確認することができます。

ソース：

http://www.techrepublic.com/blog/linux-and-open-source/auto-reboot-linux-after-a-kernel-panic/

http://packages.ubuntu.com

「mce：[ハードウェアエラー]：マシンチェックイベントが記録されました」がsyslogに表示されます。どうすればよいですか？

http://mcelog.org/logfile.html

Mcelogに基づいて、システムのCPU 1および3が過熱しています。スロットルダウン、冷却オフ、およびスロットルアップ（これはすべて、CPUを過熱から保護するための設計によるものです）。根本的な原因は、CPUとヒートシンクの間に十分に熱化合物が塗布されていない、ヒートシンクが緩んでいる、通気口が塞がっている、または冷却装置（ファン？）もう1つの（可能性は低い）可能性は、CPUの熱検出機能の障害です。

mattia.b89 · Answer

このトピックのタイトルは明確ではありません。

とにかく、システムクラッシュの調査に助けが必要で、以前のコメントがすべて役に立たなかった場合、これらを試してください：

カーネルログの冗長性を高めます。
カーネルを停止して、クラッシュ/パニックで自動的に再起動します。
システムにリモートでログイン（sshなど）し、ログを確認してください。
@ user.dzが述べたように、例えばmemtest86 + from http://www.memtest.org/ todeeplyRAMを確認します。
「...これは、CPUが40％から50％以上で使用されている場合にのみ追加されます...」と言ったため、PSUの問題になりますか？私のシステムは、PSUが供給できる以上の電力を必要とします。