-
Double DQN算法
Thursday, October 29, 2020
DQN 以及其改进 在原版Q-learning算法中,Q网络的优化目标为: \[ Y_{t}^{\mathrm{Q}} \equiv R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right) \] 基于此优化目标建立均方误差损失函数,优化迭代式如下:…more
-
重要性采样的问题
Thursday, October 29, 2020
重要性采样在策略梯度类算法的应用 PPO算法是重要性采样在策略梯度类算法中应用的典型成果。策略梯度类算法通常以最大化期望奖励(Expected…more
-
Deep Q-learning算法
Friday, May 8, 2020
价值函数的近似表示 之前介绍的强化学习方法使用的都是有限个状态集合\(S\),而当遇到连续的状态时,则需要价值函数的近似表示。 价值函数的近似表…more
-
Q-learning算法
Friday, May 8, 2020
Q-learning算法的引入 Q-learning算法的步骤与SARSA算法大致相同,唯一不同的地方在于SARSA算法在更新价值函数时会使用…more
-
SARSA算法
Friday, May 8, 2020
SARSA算法的引入 SARSA算法不需要环境的状态转化模型,是不基于模型的强化学习问题求解方法。对于它的控制问题的求解与蒙特卡洛法相似,即通…more
-
时序差分法求解
Thursday, May 7, 2020
时序差分法简介 时序差分法与蒙特卡洛法相似,都是不基于模型的强化学习问题求解方法。时序差分法使用不完整的状态序列近似求出给定状态的收获。回顾贝…more
-
蒙特卡洛法求解
Thursday, May 7, 2020
不基于模型的强化学习问题定义 在动态规划一文中,我们提到强化学习的两个基本问题:预测问题与控制问题。在处理上述两种问题的时候,其状态转化概率矩…more
-
动态规划求解强化学习问题
Wednesday, May 6, 2020
动态规划与强化学习的关系 动态规划的关键点在于:(1)问题的最优解可以由若干个小问题的最优解构成,即通过寻找子问题的最优解可以得到问题的最优解…more
-
强化学习基础
Wednesday, May 6, 2020
强化学习基本要素 环境状态\(S\), t时刻环境的状态\(S_t\)是它的环境状态集中的某一个状态。 个体动作\(A\), t时刻个体采取的动作\…more
-
马尔可夫决策过程
Wednesday, May 6, 2020
引入马尔可夫决策过程(MDP) 在强化学习基础介绍的强化学习要素中,状态转移概率\(P_{ss'}^a\)不仅与上一个状态有关,也与之前所有状…more