MS Azure(NV6シリーズ)のUbuntu 16.10サーバーVMが突然、不明な理由(私の作業なし)で接続を停止し、再起動する必要があり、オンラインに戻ったときに使用できなくなりましたマシン上のGPU。
Nvidia-smiアプリケーションがフリーズします。
コマンドlspci
は次を生成します
lspci: Cannot open /sys/bus/pci/devices/7ec1:00:00.0/resource: No such file or directory
そしてもちろん、そのパス(もうない?)は存在します。存在するのは
$: ls /sys/bus/pci/devices/
0000:00:00.0/ 0000:00:07.0/ 0000:00:07.1/ 0000:00:07.3/ 0000:00:08.0/ b717ec1:00:00.0/
一部のグーグル検索では、私のようないくつかの同様の質問が出されました。その多くは this one のように、過去24時間以内に尋ねられました。
これはUbuntuまたはAzureが原因である可能性がありますが、この問題の原因がどれなのか、またはどのように解決するのか分かりません。
誰にもアイデアはありますか?
私は同じ問題を抱えていました(Azure NC24インスタンスを使用)で数時間働いた後、この投稿を見つけ、Microsoftにサポートリクエストを送信することにしました。彼らが私に言ったことは次のとおりです。
CanonicalはUbuntu 16.04向けにカーネル4.4.0-75を最近リリースしたようで、これはNCシリーズVM上のTesla GPUに悪影響を及ぼしています。 4.4.0-75をインストールすると、これらのシステムでの使用が現在推奨されているNVIDIA CUDAドライバーの8.0.61-1バージョンが破損し、nvidia-smiがアダプターとlspciを表示せず、次のようなエラーが返されます。
root@pd-nvtest2:~# lspci lspci: Cannot open /sys/bus/pci/devices/2baf:00:00.0/resource: No such file or directory
OSドライブをバックアップして実行することをお勧めします
apt-get remove linux-image-4.4.0-75-generic
その後
update-grub
再起動すると動作するはずです!少なくともそれを行うとlspciの出力が修正され、CUDAの一部を修正する必要がありましたが、それは以前のデバッグの試みによるものです。
これは、Azure VMを停止(割り当て解除)してからVMを再度起動したことが原因である可能性があります。 [1]によると、ハードウェアIP(gpu、cpuなど)は、VMを停止(割り当て解除)してから再起動すると変更されます。しかし、Ubuntuシステムは、新しいハードウェア(gpu、cpuなど)のIPアドレス用に更新されていません。したがって、lspciは、ハードウェアIPアドレスに関連するフォルダーを開けないことを通知します。