-
Wine Quality Prediction With Random Forest
Thursday, January 21, 2021
Introduction For winemakers, it is very important to know how to judge the quality of wine by its chemical components. In this report, we analyze the white wine dataset, use random forest algorithm and logistic regression algorithm to build models to distinguish the quality of wine, and determine the importance of each chemical component for wine quality judgment by its weights in both algorithm. Exploratory Data Analysis First import the…more
-
Dueling DQN算法
Friday, October 30, 2020
Dueling DQN的改进 Dueling DQN算法主要针对传统DQN算法对于状态价值的评估做出了改进。在传统的DQN算法中,Q网络能够预测给定\((s,a)\)的状…more
-
Prioritized Experience Replay
Friday, October 30, 2020
PER的由来 在PER之前,像DQN(Nature 2015)以及Double DQN等Deep Q-learning方法都是通过经验回放的手段进行…more
-
Double DQN算法
Thursday, October 29, 2020
DQN 以及其改进 在原版Q-learning算法中,Q网络的优化目标为: \[ Y_{t}^{\mathrm{Q}} \equiv R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right) \] 基于此优化目标建立均方误差损失函数,优化迭代式如下:…more
-
重要性采样的问题
Thursday, October 29, 2020
重要性采样在策略梯度类算法的应用 PPO算法是重要性采样在策略梯度类算法中应用的典型成果。策略梯度类算法通常以最大化期望奖励(Expected…more
-
Deep Q-learning算法
Friday, May 8, 2020
价值函数的近似表示 之前介绍的强化学习方法使用的都是有限个状态集合\(S\),而当遇到连续的状态时,则需要价值函数的近似表示。 价值函数的近似表…more
-
Q-learning算法
Friday, May 8, 2020
Q-learning算法的引入 Q-learning算法的步骤与SARSA算法大致相同,唯一不同的地方在于SARSA算法在更新价值函数时会使用…more
-
SARSA算法
Friday, May 8, 2020
SARSA算法的引入 SARSA算法不需要环境的状态转化模型,是不基于模型的强化学习问题求解方法。对于它的控制问题的求解与蒙特卡洛法相似,即通…more
-
时序差分法求解
Thursday, May 7, 2020
时序差分法简介 时序差分法与蒙特卡洛法相似,都是不基于模型的强化学习问题求解方法。时序差分法使用不完整的状态序列近似求出给定状态的收获。回顾贝…more
-
蒙特卡洛法求解
Thursday, May 7, 2020
不基于模型的强化学习问题定义 在动态规划一文中,我们提到强化学习的两个基本问题:预测问题与控制问题。在处理上述两种问题的时候,其状态转化概率矩…more