强化学习

QR-DQN
Friday, March 5, 2021
C51算法的缺陷 C51算法中虽然证明了\(\mathcal{T}\)Bellman算子在使用分布时是满足\(\gamma -contracti…more
强化学习
C51
Thursday, March 4, 2021
经典强化学习与值分布强化学习的区别由于状态转移的随机性，状态表示的混叠效应（编码状态时带来的信息丢失）以及函数逼近的引入（使用函数表示状态价…more
强化学习
DDPG
Thursday, March 4, 2021
DDPG的改进 DDPG可以被视为一个对传统PG算法的改进。在Policy Gradient一文中，我们提到了REINFORCE算法，它实际上与…more
强化学习
Actor-Critic
Wednesday, March 3, 2021
Policy Gradient的改进在Policy Gradient的REINFORCE算法实现中，如果某个状态下采样到的复数个动作都取得了正的奖励时，那…more
强化学习
Noisy Network
Tuesday, March 2, 2021
背景对于DRL中面对的exploration-exploition问题，目前广泛使用以下两种方法： ε-greedy法通常应用于DQN类算法中…more
强化学习
Policy Gradient
Tuesday, March 2, 2021
DQN类算法的不足无法表示随机策略。输出值（Q值）的微小改变可能会导致某一个动作被选中或者不选中，这种不连续的变化会影响算法的收敛。无法表示…more
强化学习
Deep Recurrent Q Network
Saturday, January 30, 2021
背景在DQN的原文中，需要将游戏最近4帧的图像作为Q网络的输入。这是因为仅仅凭借1帧的画面无法判断物体运动速度和方向等的相关信息。但是在某些…more
强化学习
Wine Quality Prediction With Random Forest
Thursday, January 21, 2021
Introduction For winemakers, it is very important to know how to judge the quality of wine by its chemical components. In this report, we analyze the white wine dataset, use random forest algorithm and logistic regression algorithm to build models to distinguish the quality of wine, and determine the importance of each chemical component for wine quality judgment by its weights in both algorithm. Exploratory Data Analysis First import the…more
强化学习
Dueling DQN算法
Friday, October 30, 2020
Dueling DQN的改进 Dueling DQN算法主要针对传统DQN算法对于状态价值的评估做出了改进。在传统的DQN算法中，Q网络能够预测给定\((s,a)\)的状…more
强化学习
Prioritized Experience Replay
Friday, October 30, 2020
PER的由来在PER之前，像DQN（Nature 2015）以及Double DQN等Deep Q-learning方法都是通过经验回放的手段进行…more
强化学习

1
2
3