NVIDIA以外のセットアップでディープラーニングを高速化するにはどうすればよいですか？

Question

私はAMDA10-7850 APUしか持っておらず、800ドルから1200ドルのNVIDIAグラフィックカードに費やす資金がないため、テンソルフロー/ケラスを介したディープラーニングをスピードアップするために、持っているリソースを活用しようとしています。。

最初は、コンパイル済みのTensorflowを使用していました。 InceptionV3は、1エポックを計算するのに約1000〜1200秒かかります。痛々しいほど遅いです。

計算を高速化するために、最初にオプティマイザーを使用してTensorflowを自己コンパイルしました（AVXおよびSSE4命令を使用）。これにより、計算時間が約40％短縮されます。上記で実行された同じ計算は、計算に約600秒しかかかりません。それはほとんど耐えられます-あなたがペイントが乾くのを見ることができるようなものです。

計算時間をさらに短縮する方法を探しています。 APUの一部である統合AMDグラフィックカードしか持っていません。（どのように）（C/c）このリソースを利用して計算をさらに高速化しますか？

より一般的には、同様の金銭的制限とIntelの設定を持つ他の人々がいるとしましょう。ディスクリートNVIDIAカードを持たない人が、統合されたグラフィックチップやその他の非NVIDIAセットアップを利用して、CPUのみのパフォーマンスよりも高速にする方法はありますか？それは可能ですか？なぜ/なぜそうではないのですか？この目標を達成するために何をする必要がありますか？それとも、これは近い将来（2〜6か月）可能ですか？どうやって？

etarion · Answer

プラットフォームがopenclをサポートしている場合は、tensorflowでの使用を検討できます。 Linuxではこのgithubリポジトリで実験的なサポートがあります。いくつかの予備的な手順はこのgithubリポジトリのドキュメントセクションにあります。