Deep Recurrent Q Network

背景

在DQN的原文中，需要将游戏最近4帧的图像作为Q网络的输入。这是因为仅仅凭借1帧的画面无法判断物体运动速度和方向等的相关信息。但是在某些情况下，4帧的画面仍然不足以描述完整的状态。面对这种非完全信息的部分可观察马尔可夫过程(POMDP)，我们可以使用DRQN来辅助记忆4帧以前的游戏信息。（根据知乎文章1的说法，引入类RNN的层会给模型加入隐藏状态，因此会使MDP退化成POMDP）

结构

DRQN的结构很简单，只是在DQN的基础上，在全连接层与最后一层卷积层的中间加入LSTM单元。

采样方式

DRQN中的采样方式有两种，分别为Bootstrapped Sequential Update以及Bootstrapped Random Update。Bootstrapped Sequential Update是从episode_memory中随机选取一次游戏过程，并从这次游戏过程的开始一直学习到游戏结束。在每一个时刻，LSTM的隐藏层的状态值从上一个时刻继承而来。

Bootstrapped Random Update从episode_memory中随机选取一次游戏过程，再在这个过程中随机选取一个时刻点，从这个时刻点开始进行若干固定步数的学习。使用这种方式需要在每次切换episode的时候将LSTM隐藏层的状态归零。

Bootstrapped Sequential Update的方式更适合LSTM网络的学习，但其采样方式违背了DQN中采样数据独立同分布的前提条件；Bootstrapped Random Update符合DQN中随机采样的策略，但是其每次切换episode需要将LSTM的状态归零，而这可能损害LSTM层的记忆能力。