web-dev-qa-db-ja.com

Q学習vs時間差vsモデルベース強化学習

私は大学の「インテリジェントマシン」というコースに参加しています。私たちは強化学習の3つの方法を紹介され、それらをいつ使用するかという直観が与えられたので、私は引用します:

  1. Qラーニング-MDPを解決できない場合に最適です。
  2. 時間差学習-MDPが既知であるか、学習できるが解決できない場合に最適です。
  3. モデルベース-MDPを学習できない場合に最適です。

どちらの方法を選択するかを説明する良い例はありますか?

21

Temporal Difference is 与えられた信号の将来の値に依存する量を予測する方法を学習するアプローチ 。 V関数とQ関数の両方を学習するために使用できますが、 Q-learning は、Q関数を学習するために使用される特定のTDアルゴリズムです。 Don Rebaが述べたように、アクションを実行するにはQ関数が必要です(たとえば、イプシロン貪欲ポリシーに従って)。 V関数しかない場合でも、考えられるすべての次の状態を繰り返し、V値が最も高い状態につながるアクションを選択することで、Q関数を導出できます。例とより多くの洞察のために、私は サットンとバルトからの古典的な本 をお勧めします。

model-free RLでは、状態遷移関数(model)を学習せず、サンプルのみに依存できます。ただし、たとえば、多くのサンプルを収集できず、いくつかの仮想サンプルを生成したい場合など、それを学ぶことにも興味があるかもしれません。この場合、 model-based RLについて説明します。モデルベースのRLは、ロボット工学では非常に一般的であり、実際のシミュレーションを多数実行できないと、ロボットが壊れます。 This は多くの例を含む優れた調査です(ただし、ポリシー検索アルゴリズムについてのみ説明しています)。別の例として この論文 をご覧ください。ここで著者は、方針とともに、軌道をシミュレートし、実際のロボットの相互作用の数を減らすために、ロボットのフォワードモデルを近似するガウス過程を学びます。

35
Simon