GPGPUで計算グラフを作成および実行するためのTensorFlow出力をどのように解釈しますか?
python APIを使用して任意のテンソルフロースクリプトを実行する次のコマンドが与えられます。
python3 tensorflow_test.py>アウト
最初の部分 stream_executor
は、読み込みの依存関係のようです。
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcurand.so locally
NUMA
ノードとは何ですか?
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:900] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
これは利用可能なGPUが見つかったときだと思います
I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties:
name: Tesla K40c
major: 3 minor: 5 memoryClockRate (GHz) 0.745
pciBusID 0000:01:00.0
Total memory: 11.25GiB
Free memory: 11.15GiB
いくつかのGPU初期化? DMAとは
I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0: Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:755] Creating TensorFlow device (/gpu:0) -> (device: 0, name: Tesla K40c, pci bus id: 0000:01:00.0)
エラーE
がスローされるのはなぜですか?
E tensorflow/stream_executor/cuda/cuda_driver.cc:932] failed to allocate 11.15G (11976531968 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY
pool_allocator
は: https://stackoverflow.com/a/35166985/4233809
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 3160 get requests, put_count=2958 evicted_count=1000 eviction_rate=0.338066 and unsatisfied allocation rate=0.412025
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 100 to 110
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1743 get requests, put_count=1970 evicted_count=1000 eviction_rate=0.507614 and unsatisfied allocation rate=0.456684
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 256 to 281
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1986 get requests, put_count=2519 evicted_count=1000 eviction_rate=0.396983 and unsatisfied allocation rate=0.264854
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 655 to 720
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 28728 get requests, put_count=28680 evicted_count=1000 eviction_rate=0.0348675 and unsatisfied allocation rate=0.0418407
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 1694 to 1863
NUMAについて- https://software.intel.com/en-us/articles/optimizing-applications-for-numa
大まかに言えば、デュアルソケットCPUを使用している場合、それぞれに独自のメモリがあり、低速のQPIリンクを介して他のプロセッサのメモリにアクセスする必要があります。したがって、各CPU +メモリはNUMAノードです。
場合によっては、2つの異なるNUMAノードを2つの異なるデバイスとして扱い、異なるノード内/ノード間帯域幅を最適化するようにネットワークを構成することができます
しかし、今のところ、これを行うのに十分な配線がTFにあるとは思いません。検出も機能しません。2つのNUMAノードがあるマシンで試したところ、同じメッセージが出力され、1つのNUMAノードに初期化されました。
DMA =ダイレクトメモリアクセス。 CPUを使用せずに(つまり、NVlinkを介して)、あるGPUから別のGPUにコピーする可能性があります。 NVLink統合はまだありません。
エラーに関する限り、TensorFlowはGPU最大メモリの近くに割り当てようとするため、GPUメモリの一部がすでに別のメモリに割り当てられており、割り当てに失敗したようです。
次のようなことを行うと、大量のメモリを割り当てる必要がなくなります
config = tf.ConfigProto(log_device_placement=True)
config.gpu_options.per_process_gpu_memory_fraction=0.3 # don't hog all vRAM
config.operation_timeout_in_ms=15000 # terminate on long hangs
sess = tf.InteractiveSession("", config=config)
successfully opened CUDA library xxx locally
_は、ライブラリがロードされたことを意味しますが、使用されることを意味するものではありません。successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
は、カーネルがNUMAをサポートしていないことを意味します。 NUMA here および here について読むことができます。Found device 0 with properties:
_使用できるGPUが1つあります。このGPUのプロパティを一覧表示します。failed to allocate 11.15G
_エラーは、これが発生した理由を明確に説明しますが、コードを見ないでなぜ多くのメモリが必要なのかを判断するのは困難です。