C51 – SayuriBlog

经典强化学习与值分布强化学习的区别

由于状态转移的随机性，状态表示的混叠效应（编码状态时带来的信息丢失）以及函数逼近的引入（使用函数表示状态价值带来的信息丢失），状态价值通常具有一定随机性，并可以用某种分布来表示。经典强化学习（DQN算法等）使用单个值的形式预测状态价值可能会忽略掉许多有效信息。因此值分布强化学习旨在拟合出状态价值的分布，从而提高预测准确性。值得一提的是，PG类算法在应用于连续动作时通常也会以某种分布作为输出。但这种情况下输出的分布为动作的概率分布，主体为动作；而值分布强化学习输出的分布为给定状态-动作对情况下其动作价值的分布，主体为价值。

Bellman算子

算子，即operator，接受函数输入，并输出函数。若\(Q(s,a)\)是一个函数，如果\(s\)是一个\(n\)维的变量，\(a\)是一个\(m\)维的变量，那么动作价值函数\(Q\)是一个\(\mathbb{R}^n \times \mathbb{R}^m \rightarrow \mathbb{R}\)的函数。我们可以引入Bellman算子\(\mathcal{T}\)来表示Bellman方程。对于某一个具体策略\(\pi\)以及状态转移矩阵\(P\)，我们有：

\[ \mathcal { T } ^ { \pi } Q ( x , a ) : = \mathbb { E } R ( x , a ) + \gamma \underset { P , \pi } { \mathbb { E } Q } \left( x ^ { \prime } , a ^ { \prime } \right) \]

其中\(R(s,a)\)是环境的一部分，其输入输出与\(Q\)相同，为\(\mathbb{R}^n \times \mathbb{R}^m \rightarrow \mathbb{R}\)。可以看出，Bellman算子接收输入函数\(Q\)，并输出函数\(Q'\)。

从Bellman算子的角度来描述策略评估，其实就是在找一个函数\(Q\)，满足\(\mathcal{T}^\pi Q = Q\)，也就是在找算子的不动点（经过算子运算后函数不发生改变）。具体可以参考这一篇文章。

以相同的手法我们可以定义最优Bellman算子，其用来表示Bellman最优方程：

\[ \mathcal { T } Q ( x , a ) : = \mathbb { E } R ( x , a ) + \gamma \mathbb { E } _ { P } \max _ { a ^ { \prime } \in \mathcal { A } } Q \left( x ^ { \prime } , a ^ { \prime } \right) \]

同样的，使用最优Bellman算子做策略评估，就是在找算子\( \mathcal{T}\)的不动点。

同样由这篇文章，可以证明算子\(\mathcal{T}, \mathcal{T}^\pi\)都满足\(\gamma -contraction\)的条件，即有：

\[ \left\| \mathcal{T}^\pi Q_1 - \mathcal{T}^\pi Q_2 \right\| _ { \infty } \leq \gamma \left\| Q_1 - Q_2 \right\| _ { \infty } \\ \]

\[ \left\| \mathcal{T} Q_1 - \mathcal{T} Q_2 \right\| _ { \infty } \leq \gamma \left\| Q_1 - Q_2 \right\| _ { \infty } \]

于是根据Contraction Mapping Theorem，上述两个算子都具有唯一的不动点。即有:

\[ \begin{array} { l } \mathcal { T } ^ { \pi \infty } Q = Q ^ { \pi } \\ \mathcal { T } ^ { \infty } Q = Q ^ { * } \end{array} \]

KL散度

对于分布\(p,q\)，它们的KL散度定义为:

\[ \mathrm { KL } ( p \| q ) = \int p ( x ) \log \frac { p ( x ) } { q ( x ) } d x \]

KL散度能衡量两个分布之间的差异，但是不具有对称性。其可以用于离散形式的计算，有：

\[ \mathrm { KL } ( p \| q ) = \sum _ { i = 1 } ^ { N } p \left( x _ { i } \right) \log \frac { p \left( x _ { i } \right) } { q \left( x _ { i } \right) } = \sum _ { i = 1 } ^ { N } p \left( x _ { i } \right) \left[ \log p \left( x _ { i } \right) - \log q \left( x _ { i } \right) \right] \]

Distributional DQN

Distributional DQN将传统DQN中的value function换成了value distribution。原来的DQN中的值函数为\(Q(s,a)\)，它接收一个状态动作对\(s,a\)，并输出实数格式的动作价值\(Q\)。

与其相对，Distributional DQN接收一个状态动作对\(x,a\)，并输出一个值分布\(Z(x,a)=P(v | x,a)\)，这个分布描绘了状态动作对\(x,a\)所有可能的价值\(v\)的范围以及可能性。易得，\(Q(x,a) = \mathbb{E}[Z(x,a)]\)。

针对值分布，可以定义状态转移算子：

\[ \begin{aligned} P ^ { \pi } Z ( x , a ) & : = Z \left( X ^ { \prime } , A ^ { \prime } \right) \\ X ^ { \prime } & \sim P ( \cdot \mid x , a ) , A ^ { \prime } \sim \pi \left( \cdot \mid X ^ { \prime } \right) \end{aligned} \]

这个算子是\(\mathcal { Z } \rightarrow \mathcal { Z }\)，也就是接收一个分布，并输出另一个分布。可以看出，算子接收当前状态动作对\(x,a\)生成的值分布\(Z(x,a)\)，根据状态转移矩阵\(P\)以及当前策略\(\pi\)生成下一时刻状态动作对\(x',a'\)生成的值分布\(Z(x',a')\)。

在值分布情况下的Bellman算子就可以被定义为：

\[ \mathcal { T } ^ { \pi } Z ( x , a ) : \stackrel { D } { = } R ( x , a ) + \gamma P ^ { \pi } Z ( x , a ) \]

与状态转移算子\(P^\pi\)相同，值分布下的Bellman算子同样也是\(\mathcal{Z} \rightarrow \mathcal{Z}\)。可视化后的情况如下图：

在DQN中，我们计算出一个\(r + \gamma \underset{a^*} \max Q(x', a^*)\)，并使当前\(Q(x,a)\)尽量靠近这个值。相对应的，我们可以在Distributional DQN中定义最优Bellman算子\(\mathcal{T} Z\)，其满足：

\[ \mathcal { T } Z = \mathcal { T } ^ { \pi } Z \text { for } \pi \in \mathcal { G } _ { Z } \\ \mathcal { G } _ { Z } : = \left\{ \pi : \sum _ { a } \pi ( a \mid x ) \mathbb { E } Z ( x , a ) = \max _ { a ^ { \prime } \in \mathcal { A } } \mathbb { E } Z \left( x , a ^ { \prime } \right) \right\} \]

\(\mathcal { G } _ { Z }\)看起来很复杂，但实际上指的是令策略\(\pi\)取最优策略。因此，在Distributional DQN中，我们需要让当前值分布\(Z(x,a)\)尽可能的靠近\(\mathcal{T} Z(x,a)\)这个分布。

C51定义

由于\(Z(x,a)\)分布并不一定符合某种特殊的预设模式，因此C51方法放弃使用高斯分布等参数化方式表示\(Z(x,a)\)，而是使用了51个等间距的atoms描绘一个分布。实际上其与描绘分布的直方图差距不大，但是直方图更注重区间，而C51算法使用的comb form的方法更注重"点"。当然这个分布肯定是近似的结果，点的范围和个数取决于应用情况。实际上，假设分布\(Z(x,a)\)的上界为\(V_{MAX}\)，下界\(V_{MIN}\)，将最大值和最小值之间的区间均匀化为\(N\)个点，则每个点\(\mathcal{z}_i\)有：

\[ \left\{ z _ { i } = V _ { \min } + i \Delta z : 0 \leq i < N , \Delta z : = \frac { V _ { M A X } - V _ { M I N } } { N - 1 } \right\} \]

例如，当\(N=7\)时，一共有7个atoms，其分布可能为：

现在我们来考虑C51的网络架构。在DQN中，网络的输入为\(s\)，输出为\(|\mathcal{A}|\)维的一个向量\((Q(s,a_1), Q(s,a_2),...,Q(s,a_m))\)。向量的每一个元素代表对应动作状态对\(s,a\)的预测\(Q\)值。而在C51算法中，输出变成了一个矩阵。矩阵的行数为\(|\mathcal{A}|\)，每一行代表给定\(s,a\)的值分布。矩阵的列数为\(N\)，每一列代表值分布在给定atom上的概率。若atoms集合为\(\left\{ z _ { 0 } , z _ { 1 } , \cdots , z _ { N - 1 } \right\}\)，C51的输出应该为\((\left\{ p _ { 0 } ^ { a_1 } , p _ { 1 } ^ { a_1 } , \cdots , p _ { N - 1 } ^ { a_1 } \right\}, \left\{ p _ { 0 } ^ { a_2 } , p _ { 1 } ^ { a_2 } , \cdots , p _ { N - 1 } ^ { a_2 } \right\} \cdots , \left\{ p _ { 0 } ^ { a_m } , p _ { 1 } ^ { a_m } , \cdots , p _ { N - 1 } ^ { a_m } \right\})\)。

为了保证神经网络输出的矩阵的每一行构成一个离散的分布，可以对神经网络的输出进行softmax操作。具体为：

\[ Z _ { \theta } ( x , a ) = z _ { i } \quad w . p . p _ { i } ( x , a ) : = \frac { e ^ { \theta _ { i } ( x , a ) } } { \sum _ { j } e ^ { \theta _ { j } ( x , a ) } } \]

C51损失函数

网络结构定义完成后，我们需要设置损失函数，从而完成训练过程。在DQN中，由于网络输出为一个实数，因此我们可以使用均方误差作为损失函数。但是C51算法输出为一个分布，因此我们需要找到一个衡量分布之间距离的方法。通常我们使用Wasserstein Metric作为衡量分布距离的方法（具体解释看这篇文章，其实也看不太懂呜呜）。使用Wasserstein Metric可以保证Bellman算子在输出分布的情况下也满足\(\gamma - contraction\)的条件。但是，对于Q-learning实际用到的最优Bellman算子则没有这样的理论保证。而且使用SGD方法训练时是没有办法保持Wasserstein Metric的。因此，C51算法使用了KL散度启发式的衡量两个分布的距离。

投影Bellman更新

使用KL散度的离散形式计算可以很容易的算出两个分布之间的距离。但是在实际运算中还会产生一个问题。我们可以通过模拟整个过程找出问题。

首先我们从Buffer中采样一个\((s,a,r,s')\)，根据q-learning函数使用的最优Bellman算子，有：

\[ \mathcal { T } Z ( x , a ) : \stackrel { D } { = } R ( x , a ) + \gamma P Z ( x , a ) \]

因此为了改善\(Z(x,a)\)，我们需要计算\(R(x,a) + \gamma Z(x',a^*)\)。在DQN中，\(a^*\)的选择是根据\(a ^ { * } \leftarrow \arg \max _ { a } Q \left( x' , a \right)\)标准的。在C51中我们沿用这个标准，并通过\(Q(x,a) = \mathbb{E}[Z(x,a)]\)来计算\(Q(x,a)\)。具体有：

\[ Q \left( s _ { t + 1 } , a \right) : = \sum _ { i } z _ { i } p _ { i } \left( s _ { t + 1 } , a \right) \]

根据上述标准，我们可以从target network中获得\(Z(x',a^*)\)的结果，是一个\(N\)维的向量，我们设其为\(p'\)。那么\(R(x,a) + \gamma Z(x',a^*)\)分布就可以表示为:

有\(p'_{0}\)的概率取\(R + \gamma z_0\)

有\(p'_{1}\)的概率取\(R + \gamma z_1\)

......

有\(p'_{N-1}\)的概率取\(R + \gamma z_{N-1}\)

但我们检查\(Z(x,a)\)可以发现，其可以表示为：

有\(p'_{0}\)的概率取\( z_0 \)

有\(p'_{1}\)的概率取\(z_1\)

......

有\(p'_{N-1}\)的概率取\(z_{N-1}\)

可以发现，\(Z(x,a)\)与\(R(x,a) + \gamma Z(x',a^*)\)的atoms没有对齐。C51的解决方法是，将\(R + \gamma z_k\)的概率分摊到\(z_k\)和\(z_{k+1}\)上。具体的分摊比例按照\(R + \gamma z_k\)到\(z_k\)与\(z_{k+1}\)的距离的反比即可。

以这篇文章中的例子，令\(\hat { \mathcal { T } } z _ { 0 } = R + \gamma z_0\)对应的概率为\(p_0(x',a')\)，将其投影到相邻的支点\(z_0,z_1\)上，如图：

则\(z_0\)分得的概率的大小为：

\[ [1 - \frac { \hat { \mathcal { T } } z _ { 0 } - z _ { 0 } } { z_1 - z_0 }]p _ { 0 } \left( x ^ { \prime } , a ^ { \prime } \right) \]

经过上述分配，我们可以得到一个新的分布\(\Phi { \mathcal { T } } Z ( x , a )\)，损失函数可得为：

\[ D_{KL}(\Phi { \mathcal { T } } Z ( x , a ) || Z(x,a)) \]

C51具体算法流程如下：