背景
最近購入しました Asus ZenBook Pro 。ローカルで深層学習実験をテストするために使用します。これらの実験は、CPUとGPUの両方で非常に計算量が多いことがよくあります。最近、重い計算を行うと、パフォーマンスが大幅に低下しました。
Ubuntu16.04をインストールしています。
問題
問題は、私が例えばTensorFlow、Kerasを使用するか、ROSまたはPythonでCPUとGPUの重いジョブを実行してトレーニングジョブをスケジュールします。期待されるパフォーマンス(つまり、良好で高いパフォーマンス)が約30〜60秒経過すると、パフォーマンスが突然低下し、コンピューター全体がほとんど応答しなくなります。機能を回復するには、完全に再起動する必要があります。
top
、nvidia-smi
、またはシステムシステムモニターを使用すると、CPUまたはメモリを使用するプロセッサに突然のスパイクは見られません。他のプロセスはCPUまたはGPUの使用を開始しません。
無応答状態にあるとき、私はまた、顕著な量の処理能力を使用しているプロセッサを見ません。
私のファンも時々制御不能に動作しているので、Ubuntuの電源管理が問題を引き起こしているのではないかと思いますが、私はLinuxの専門家ではありません。ただし、Ubuntuをインストールしたときに、問題が解決した場合はacpi=off
を使用して初期ブートを実行する必要がありました。
編集:Ubuntu 16.04がインストールされている他のコンピューターで同じコードをテストしましたが、ここでは問題はありません。
問題の特定や、自分で調査できる場所への案内にご協力いただければ幸いです。
Nvidiaドライバーに問題がある可能性がありますが、nvidia Webサイトからダウンロード可能な.RUNからインストールしましたか、それともubuntuが提供するものからインストールしましたか?デバイスマネージャから利用できるはずです。グーグルでドライバをインストールするためのガイドを簡単に見つけることができます。
私の個人的な提案は、Linuxディストリビューションリポジトリのプロプライエタリnvidiaドライバーを使用することです。これは、オープンソースドライバーのnouveauが正常に機能するためですが、必要な場合は、パフォーマンス(およびあなたの場合)nouveauが最善の解決策ではありません。また、この場合、メーカーのサイトからダウンロードするのは最善の解決策ではありません。Linuxドライバーの汎用を記述しているため、パフォーマンスが向上するだけでなく、バグも増える可能性があります。私があなたに与えることができるもう一つの提案は、ドライバーの異なるバージョンをテストすることです。
CPUが過熱している可能性があります。システムが本質的に応答しなくなった場合、温度、クロック速度、およびその他のパラメータを監視してディスクに書き込む方法を設定する必要があるため、再起動すると事後情報になります。
以下のようなスクリプトを使用できます。これにより、ファンの速度、さまざまな温度、およびCPUクロック周波数を確認します。これにより、何が起こっているのかを理解(または示唆)するのに十分な情報が得られる可能性があります。それ以外のものは、暗闇の中で撮影される可能性があります(これは、ターゲットに到達しないという意味ではありません)。
sed
、grep
および/またはawk
を使用すると、より洗練された出力フォーマットを取得できます。いくつかの例があります(以下を参照)。収集できる情報は他にもありますが(以下を参照)、これで十分だと思います。
これが問題(あなたの質問!)を見つけるのに役立つことを願っています...今、解決策に関しては、それは別の質問の価値があります。
#!/bin/bash
echo -n "" > monitor.log
while true ; do
echo "$(date +"%H:%M:%S")" >> monitor.log
sensors | sed 's/^/ /' >> monitor.log
cat /proc/cpuinfo | grep '\(processor\)\|\(cpu\ MHz\)' | sed 's/^/ /' >> monitor.log
echo "" >> monitor.log
# Write output every 2 seconds
sleep 2
done
https://unix.stackexchange.com/questions/79060/personalize-sensors-output-and-save-it-to-file
https://askubuntu.com/questions/450045/show-cpu-usage-using-a-command
冷却が不十分な場合、ラップトップはかなり熱くなる可能性があります。お使いのCPUは最新のIntelI7であり、最新の(高価な)ハイエンドプロセッサのほとんどは、メルトダウンを回避するために、高温になりすぎるとクロック速度を自動的に低下させ、常に通常の速度に戻るとは限りません。
この理論は、コンピュータに高負荷がかかっている場合にのみ問題が発生するという事実から支持を得ています。 CPU、GPU、またはその両方の問題である可能性があります。
CPUとGPUの温度の指標をいくつか追加して、それらの変化を視覚的に確認できるようにすることをお勧めします。以下が役立つかもしれません:
問題が実際に過熱している場合は、いくつかの手順を実行できます。