Razor CoreXとeGPUをThinkpadに初めて接続しました。ファンは回転していますが、nvidia-smi
はeGPUを表示しません。
私に何ができる?
まず、dmesg | tail -n 200
を確認してください。次のように表示される場合があります。
[ 74.959198] Thunderbolt 0000:06:00.0: current switch config:
[ 74.959201] Thunderbolt 0000:06:00.0: Switch: 8086:15da (Revision: 6, TB Version: 2)
[ 74.959202] Thunderbolt 0000:06:00.0: Max Port Number: 11
[ 74.959203] Thunderbolt 0000:06:00.0: Config:
[ 74.959204] Thunderbolt 0000:06:00.0: Upstream Port Number: 1 Depth: 1 Route String: 0x3 Enabled: 1, PlugEventsDelay: 254ms
[ 74.959205] Thunderbolt 0000:06:00.0: unknown1: 0x0 unknown4: 0x0
[ 74.999560] Thunderbolt 0000:06:00.0: 3: reading drom (length: 0x56)
[ 75.301575] Thunderbolt 0000:06:00.0: 3: uid: 0x1279cc9b0ba8400
[ 75.301686] Thunderbolt 0000:06:00.0: Port 0: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.301689] Thunderbolt 0000:06:00.0: Max hop id (in/out): 7/7
[ 75.301692] Thunderbolt 0000:06:00.0: Max counters: 8
[ 75.301694] Thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302174] Thunderbolt 0000:06:00.0: Port 1: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.302178] Thunderbolt 0000:06:00.0: Max hop id (in/out): 15/15
[ 75.302180] Thunderbolt 0000:06:00.0: Max counters: 16
[ 75.302183] Thunderbolt 0000:06:00.0: NFC Credits: 0x7800000
[ 75.302681] Thunderbolt 0000:06:00.0: Port 2: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.302683] Thunderbolt 0000:06:00.0: Max hop id (in/out): 15/15
[ 75.302685] Thunderbolt 0000:06:00.0: Max counters: 16
[ 75.302687] Thunderbolt 0000:06:00.0: NFC Credits: 0x0
[ 75.302689] Thunderbolt 0000:06:00.0: 3:3: disabled by eeprom
[ 75.302691] Thunderbolt 0000:06:00.0: 3:4: disabled by eeprom
[ 75.302692] Thunderbolt 0000:06:00.0: 3:5: disabled by eeprom
[ 75.302806] Thunderbolt 0000:06:00.0: Port 6: 8086:15d3 (Revision: 6, TB Version: 1, Type: PCIe (0x100102))
[ 75.302808] Thunderbolt 0000:06:00.0: Max hop id (in/out): 8/8
[ 75.302809] Thunderbolt 0000:06:00.0: Max counters: 2
[ 75.302811] Thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302960] Thunderbolt 0000:06:00.0: Port 7: 8086:15d3 (Revision: 6, TB Version: 1, Type: PCIe (0x100101))
[ 75.302962] Thunderbolt 0000:06:00.0: Max hop id (in/out): 8/8
[ 75.302964] Thunderbolt 0000:06:00.0: Max counters: 2
[ 75.302966] Thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302967] Thunderbolt 0000:06:00.0: 3:8: disabled by eeprom
[ 75.302969] Thunderbolt 0000:06:00.0: 3:9: disabled by eeprom
[ 75.302971] Thunderbolt 0000:06:00.0: 3:a: disabled by eeprom
[ 75.302973] Thunderbolt 0000:06:00.0: 3:b: disabled by eeprom
これは、権限/セキュリティの問題を示唆しています。
Thunderbolt管理ツールをインストールして修正できるようにしましょう。
Sudo apt install Thunderbolt-tools
それでは、Thunderboltがドックを認識しているかどうかを確認しましょう。
root@mymachine:~# tbtadm devices
0-4 Razer Core X non-authorized not in ACL
します!
それでは、ドックを承認しましょう。
tbtadm approve 0-4
これは次のことを示しています。
Authorizing "/sys/bus/Thunderbolt/devices/0-4"
Already in ACL
system:5 Input/output error
ドックのプラグを抜き差しし、dmesg
をもう一度見ると、次のように表示されます。
[11187.232181] Thunderbolt 0000:06:00.0: PCIe tunnel creation failed
そこで、Thunderboltをもう一度見てみましょう。
root@mymachine:~# tbtadm devices
0-4 Razer Core X non-authorized in ACL
そして、実際、ドックが接続されていることがわかります。
root@mymachine:~# tbtadm acl
0XXXXXb0-XXXX-XXXX-ffff-ffffffffffff Razer Core X connected
手動で認証してみましょう。
root@mymachine:~# echo '1' > /sys/bus/Thunderbolt/devices/0-4/authorized
-bash: echo: write error: Input/output error
この時点で、BIOSが問題である可能性があると考えました。したがって、再起動して、BIOSセットアップをプルアップします。これは「ユーザー認証」にありますが、核となる「セキュリティなし」オプションを使用しましょう(後で再びロックダウンする方法を理解するのにおそらく良いでしょう):
この時点で、マシンを再度起動します。
GPUを接続する前に、Nvidiaドライバーがロードされていることを確認してください。
Sudo modprobe nvidia-uvm
そして、GPUを見つけてみてください。
nvidia-smi
成功!
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.87.00 Driver Version: 418.87.00 CUDA Version: 10.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 208... Off | 00000000:3D:00.0 Off | N/A |
| 15% 36C P0 1W / 250W | 0MiB / 10989MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
このドキュメント によると、BIOS設定は次のことを意味します。