web-dev-qa-db-ja.com

マルチGPUスーパーコンピューター

Ubuntuサーバー14.04を実行しているsupermicroサーバーがあり、Quadro 400(ディスプレイ用)Nvidia GTX295とNvidiaK80をインストールしたいのですが、K80のドライバーをインストールすると、Quadro400とNvidiaGTX295がインストールされません。 nvidia-smiに表示されます

NvidiaWebサイトからGTX295(Quadro 400と同じように見える)のドライバーをインストールしようとすると、以前にインストールしたドライバーをアンインストールする必要があると表示されます(ドライバーはK80用でしたが) GTX 295ではありません)

誰かが以前にこの問題を抱えたことがある可能性はありますか?複数のGPUをインストールして検出する方法を知っています。

また、(以前の検索に基づいて)以下を含む/etc/modprobe.d/にblacklist-nouveau.confというファイルを作成しました。

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

Nvidia-smiを実行しているとき(およびすべてのドライバーをインストールしようとした後)、次のメッセージが表示されます

Failed to initialize NVML: Unknown Error

ありがとう

3
Anoracx

これが解決策です

  1. Ubuntuサーバー14.04を再インストールしました
  2. 私は公式文書のポイント1-2と3に従いました
cuda-getting-started-guide-for-linux
  1. K80しか表示されないnvidia-smiを実行しました
  2. K80のプラグを抜いた
  3. Gtx295およびquadro400のドライバーを手動でインストールしました
 Sudo apt-get install nvidia-340
  1. K80を再接続しました
  2. システムを再起動し、Nvidia-smiを実行しました(すべてのグラフィックカードが表示されますが、CUDAコードまたはNsightを介してアクセスできるものはないようです)

  3. だから私は再実行しました(GTXとQuadroのドライバーが削除されないことを願っています)

Sudo apt-get install cuda-drivers
  1. サーバーを再起動しました

(この時点でNvidia-smi)はK80のみを表示します....再び!

  1. ついにインストールしました
 Sudo apt-get install nvidia-cuda-toolkit
  1. サーバーを再起動しました
  2. そして、うん、それは機能しました、それらはすべて検出され、すべてのGPUが利用可能です。

すべてのカードがNvidia-smiに表示されるようになりましたが、グラフィカルインターフェイスも取得したようです。これは、インストールしなかったので奇妙ですが、公平です。それが今機能するかどうかを確認します。

0
Anoracx