web-dev-qa-db-ja.com

nvidia-smiプロセスがハングし、SIGKILLで強制終了できない

私はUbuntu 14.04、CUDAツールキット8 ドライバーバージョン367.48を使用しています。

nvidia-smiコマンド、それは無期限にハングするだけです。もう一度ログインして、それを殺そうとするとnvidia-smiプロセス、kill -9 <PID>たとえば、殺されないだけです。別のnvidia-smiコマンドを実行すると、両方のプロセスが実行されていることがわかります。もちろん、以前のようにスタックしているため、別のシェルからログを記録するときです。

ドライバーに関連する問題でしょうか?最新ではありませんが、まだかなり新しいものです。

18
bio

私はこの問題を毎回実行することで解決しました

Sudo nvidia-smi -pm 1

上記のコマンドは、永続モードを有効にします。この問題は2年以上にわたってnvidiaのドライバーに影響を与えてきましたが、彼らはそれを修正することに興味がないようです。これは電源管理の問題に関連しているようです。OSを少し起動した後、nvidia-persistencedサービスでno-persistence-modeオプションが有効になっていると、GPUが電力を節約し、nvidia-smiコマンドは、デバイスで再び制御を与える何かを待ってハングします

13
lurscher

バイオが提案したように、あなたの特異な状況を考慮して、私はそれを再インストールしようとします。

やってみましたかSudo kill -9 <PID>?あなたはおそらくそれをそこに出しているでしょう。または、おそらくSudo kill -15 <PID>で終了します。これは、ドライバーがsignal 1あなたが私たちに言ったことを与えられたハングアップ。

nvidia-smiを実行すると自発的にハングアップしますが、問題は、正しくインストールされていないか、スーパーユーザーアクセスで実行されていないことが原因である可能性があります。

使用しようとしましたか:

service nvidia-smi status pgrep nvidia-smi ps -aux | grep nvidia-smi

現在の状態を取得するには?

とにかく、これが役に立てば幸いです。アンインストールして再インストールするか、Sudo apt --fix-broken壊れたパッケージ/ドライバーを試し、修正します。

乾杯!