強化学習設定でいくつかのタスクを最適に実行するために必要なマウスの動きをエージェントに学習させようとしています(つまり、報酬信号が学習の唯一のフィードバックです)。
Q学習手法を使用したいと思っていますが、 この方法を連続状態空間に拡張する方法 を見つけましたが、問題に対応する方法がわからないようです。継続的なアクションスペース。
すべてのマウスの動きを特定の大きさで、特定の数の異なる方向にのみ強制することもできますが、アクションを個別にする合理的な方法を使用すると、巨大なアクションスペースが生成されます。標準のQ学習では、エージェントがすべての可能なアクションを評価する必要があるため、このような近似では実際的な意味で問題は解決されません。
この問題に対処する一般的な方法は、 アクタークリティカルメソッド を使用することです。これらは自然に連続アクションスペースに拡張されます。基本的なQ学習は、近似を使用すると発散する可能性がありますが、それでも使用したい場合は、 "自己組織化マップの強化への適用]のように、自己組織化マップと組み合わせてみることができます。学習 " 。このペーパーには、役立つと思われる参考資料もいくつか含まれています。
今年に向けて、DeepMindの人々は、両方の連続状態とアクション空間を処理するための深層強化学習アクター批評家の方法を提案します。これは、決定論的ポリシー勾配と呼ばれる手法に基づいています。論文を参照してください 深層強化学習による連続制御 およびいくつか 実装 。
強化学習を継続的な行動に拡張する方法はたくさんあります。 1つの方法は、アクター批評の方法を使用することです。もう1つの方法は、ポリシー勾配法を使用することです。
さまざまな方法のかなり広範な説明は、オンラインで入手できる次の論文にあります。 連続状態およびアクションスペースでの強化学習 (Hado vanHasseltおよびMarcoA。Wieringによる)。
あなたがしていることのために、私はあなたが継続的な行動空間で働く必要があるとは思わない。物理的なマウスは連続した空間で移動しますが、内部ではカーソルは個別のステップ(通常はピクセルレベル)でのみ移動するため、このしきい値を超える精度を取得しても、エージェントのパフォーマンスには影響しないようです。状態空間はまだかなり大きいですが、それは有限で離散的です。
この投稿はやや古いことは知っていますが、2016年に、俳優を批判する方法の代わりに、連続アクションスペースに適用されるQ学習の変形が提案されました。これは正規化アドバンテージ関数(NAF)と呼ばれます。論文は次のとおりです。 モデルベースのアクセラレーションを使用した継続的なディープQ学習
価値に基づく学校からリストを作成する別の論文は Input Convex Neural Networks です。アイデアは、Q(s、a)がアクションで凸である必要があることです(必ずしも状態ではありません)。次に、argmax Q推論を解くことは、凸性を使用してグローバル最適を見つけることに還元されます。これは、徹底的なスイープよりもはるかに高速で、他の値ベースのアプローチよりも実装が簡単です。ただし、通常のフィードフォワードニューラルネットワークや畳み込みニューラルネットワークよりも表現力が低下する可能性があります。