8GPUマシンがフリーズする

Question

私たちはSuperMicroGPUサーバーを持っています：

2x Intel（R）Xeon（R）CPU E5-2660 v4 @ 2.00GHz
512GBメモリ
十分なディスク容量を超えています
X10DRG-O + -CPU（BIOSバージョン：2.0a [現在]）
X9DRG-O-PCIEPCI-Eエキスパンダーカード
8x GTX 1080

これは、Ubuntu 16.04.1 LTS、NVIDAドライバー367.57、およびCUDA-8.0でセットアップされています。実行すると、一時的に正常に実行されます。ただし、ストックカーネル（v4.4）ではまったく役に立ちません。GPUで重要なことを行うと、システムはほぼ即座にフリーズします。したがって、ハードウェアの問題が疑われましたが、冷却は問題なく、2番目のほぼ同じマシン（GPUのメーカーが異なるだけ）はまったく同じ動作を示しています。

しばらくの間正常に動作させるには、カーネルをv3.14.1-trustyにダウングレードする必要があります（それ以前のほぼすべてのバージョンでテスト済み）。しかし、それでもランダムなフリーズがあり、通常はログに何もありません。マシン全体がフリーズすることもあれば、GPU関連のプロセスだけがフリーズすることもあります。

この問題を抱えている他の[1]人[2]がいるようですが、解決策はありません。

このタイプのマシンで同じ経験をしている人はいますか？

更新：カードがPCI-Eエキスパンダーの片側にのみ挿入されている場合、マシンは（ソフトウェアに関係なく）安定して動作しているように見えます。すべてのカードは同じCPUによって駆動されます。ただし、別のマシンは、上記の問題が数か月発生した後、カーネル3.19で8枚のカード（現在約4か月の稼働時間）で安定して動作しているようです。奇妙な。

[1] https://devtalk.nvidia.com/default/topic/958927/gpu-job-fail-/

[2] https://devtalk.nvidia.com/default/topic/959699/linux/nvidia-smi-periodically-crashes-system-on-ubuntu-16-04-lts/

tinkerthinker · Answer

同じコンピューターでまったく同じ問題が発生しました。これを修正するには、マザーボードのジャンパーJPG1を変更して、オンボードVGAを無効にする必要があります。残念ながら、そのためにはドーターボードを取り外す必要があります。ドーターボードを再インストールするには、マザーボードに正しく接続するためにかなりの圧力をかける必要がある場合があることに注意してください。

adev · Answer

SuperMicroによって解決されたように見えるPCIバス（電源管理）に既知の問題があります。フラッシュ可能なBIOS +ファームウェアのアップデートを受け取ったばかりで、テスト中です。アップデートを共有できないと思います（ライセンスについては不明です）ので、SuperMicroに連絡することをお勧めします。