私は次のような言葉を見ました:
ポリシーは、特定の時間における学習エージェントの動作方法を定義します。大まかに言うと、ポリシーとは、環境の知覚状態から、それらの状態にあるときに実行されるアクションへのマッピングです。
しかし、まだ完全には理解していませんでした。強化学習のポリシーとは正確には何ですか?
定義は正しいですが、初めて見た場合にはすぐにはわかりません。このように言えば、ポリシーはエージェントの戦略です。
たとえば、ロボットが部屋を横切って移動し、タスクが目標ポイント(x、y)に到達し、報酬を得る世界を想像してください。ここに:
policyは、このタスクを達成するためにエージェントが行うことです:
明らかに、一部のポリシーは他のポリシーよりも優れており、それらを評価する方法は複数あります。つまり、state-value functionおよびアクション値関数。 RLの目標は、最良のポリシーを学ぶことです。今、定義はより理にかなっているはずです(コンテキストでは、時間は状態としてよりよく理解されることに注意してください):
ポリシーは、特定の時間における学習エージェントの行動方法を定義します。
より正式には、最初にMarkov Decision Process(MDP)をタプル(S
、A
、P
、R
、y
)、ここで:
S
は状態の有限集合ですA
はアクションの有限セットですP
は、状態遷移確率行列(現在の各状態と各アクションの状態に至る確率)R
は、状態とアクションが与えられた場合の報酬関数ですy
は0〜1の割引係数です次に、ポリシーπ
は、状態が与えられたアクションの確率分布です。これは、エージェントが特定の状態にあるときのすべてのアクションの可能性です(もちろん、ここでは多くの詳細をスキップしています)。この定義は、定義の2番目の部分に対応します。
David SilverのRLコース はYouTubeで利用できます。最初の2回の講義は特にMDPとポリシーに焦点を当てています。
簡単に言えば、最も単純な場合、ポリシー_π
_は、入力として状態s
を取り、アクションa
を返す関数です。つまり、π(s) → a
このように、ポリシーは通常、エージェントが特定の状態a
にあるときに実行するアクションs
を決定するために使用されます。
時々、ポリシーは決定論的の代わりに確率論的になります。そのような場合、一意のアクションa
を返す代わりに、ポリシーは一連のアクションの確率分布を返します。
一般に、任意のRLアルゴリズムの目標は、特定の目標を達成する最適なポリシーを学習することです。
簡潔な答えは次のとおりです。ポリシーは、エージェントの「思考」です。これは、ある状態s
にいるときのマッピングです。エージェントは今、どのアクションa
を取るべきですか?ポリシーはルックアップテーブルと考えることができます。
state----action----probability/'goodness' of taking the action
1 1 0.6
1 2 0.4
2 1 0.3
2 2 0.7
状態1の場合、(欲張りな戦略を想定して)アクション1を選択します。状態2の場合、アクション2を選択します。