私はAMDA10-7850 APUしか持っておらず、800ドルから1200ドルのNVIDIAグラフィックカードに費やす資金がないため、テンソルフロー/ケラスを介したディープラーニングをスピードアップするために、持っているリソースを活用しようとしています。 。
最初は、コンパイル済みのTensorflowを使用していました。 InceptionV3は、1エポックを計算するのに約1000〜1200秒かかります。痛々しいほど遅いです。
計算を高速化するために、最初にオプティマイザーを使用してTensorflowを自己コンパイルしました(AVXおよびSSE4命令を使用)。これにより、計算時間が約40%短縮されます。上記で実行された同じ計算は、計算に約600秒しかかかりません。それはほとんど耐えられます-あなたがペイントが乾くのを見ることができるようなものです。
計算時間をさらに短縮する方法を探しています。 APUの一部である統合AMDグラフィックカードしか持っていません。 (どのように)(C/c)このリソースを利用して計算をさらに高速化しますか?
より一般的には、同様の金銭的制限とIntelの設定を持つ他の人々がいるとしましょう。ディスクリートNVIDIAカードを持たない人が、統合されたグラフィックチップやその他の非NVIDIAセットアップを利用して、CPUのみのパフォーマンスよりも高速にする方法はありますか?それは可能ですか?なぜ/なぜそうではないのですか?この目標を達成するために何をする必要がありますか?それとも、これは近い将来(2〜6か月)可能ですか?どうやって?
プラットフォームがopenclをサポートしている場合は、tensorflowでの使用を検討できます。 Linuxでは このgithubリポジトリ で実験的なサポートがあります。いくつかの予備的な手順は このgithubリポジトリのドキュメントセクション にあります。