web-dev-qa-db-ja.com

NVIDIA以外のセットアップでディープラーニングを高速化するにはどうすればよいですか?

私はAMDA10-7850 APUしか持っておらず、800ドルから1200ドルのNVIDIAグラフィックカードに費やす資金がないため、テンソルフロー/ケラスを介したディープラーニングをスピードアップするために、持っているリソースを活用しようとしています。 。

最初は、コンパイル済みのTensorflowを使用していました。 InceptionV3は、1エポックを計算するのに約1000〜1200秒かかります。痛々しいほど遅いです。

計算を高速化するために、最初にオプティマイザーを使用してTensorflowを自己コンパイルしました(AVXおよびSSE4命令を使用)。これにより、計算時間が約40%短縮されます。上記で実行された同じ計算は、計算に約600秒しかかかりません。それはほとんど耐えられます-あなたがペイントが乾くのを見ることができるようなものです。

計算時間をさらに短縮する方法を探しています。 APUの一部である統合AMDグラフィックカードしか持っていません。 (どのように)(C/c)このリソースを利用して計算をさらに高速化しますか?

より一般的には、同様の金銭的制限とIntelの設定を持つ他の人々がいるとしましょう。ディスクリートNVIDIAカードを持たない人が、統合されたグラフィックチップやその他の非NVIDIAセットアップを利用して、CPUのみのパフォーマンスよりも高速にする方法はありますか?それは可能ですか?なぜ/なぜそうではないのですか?この目標を達成するために何をする必要がありますか?それとも、これは近い将来(2〜6か月)可能ですか?どうやって?

10
Thornhale

プラットフォームがopenclをサポートしている場合は、tensorflowでの使用を検討できます。 Linuxでは このgithubリポジトリ で実験的なサポートがあります。いくつかの予備的な手順は このgithubリポジトリのドキュメントセクション にあります。

2
etarion