Advantage Actor Critic(A2C)
状態における行動価値$Q(s,a)$は,状態そのものへの依存度が大きい傾向がある.そこで状態の価値$V(s)$を差し引いたうえで行動を評価することを考える.
$$A(s,a)=Q(s,a)-V(s)$$
この$A(s,a)$をAdvantageと呼ぶ. Advantageを利用する場合の方策勾配は以下のようになる.
$$\nabla J(\theta) = E_{\pi_{\theta}}[\nabla \log \pi_{\theta(a|s)}A(s,a)]$$
$\pi_\theta(a|s)$をActor,Advantageの計算に必要な$V(s)$をCriticとしてActor Critic法を使用することができる. これをAdvantage Actor Critic(A2C)と呼ぶ.
参考
久保隆宏,"Pythonで学ぶ強化学習 入門から実践まで"
Tags: