SayuriBlog
  • Wine Quality Prediction With Random Forest

    Thursday, January 21, 2021

    Introduction For winemakers, it is very important to know how to judge the quality of wine by its chemical components. In this report, we analyze the white wine dataset, use random forest algorithm and logistic regression algorithm to build models to distinguish the quality of wine, and determine the importance of each chemical component for wine quality judgment by its weights in both algorithm. Exploratory Data Analysis First import the…more

    强化学习

  • Dueling DQN算法

    Friday, October 30, 2020

    Dueling DQN的改进 Dueling DQN算法主要针对传统DQN算法对于状态价值的评估做出了改进。在传统的DQN算法中,Q网络能够预测给定(s,a)(s,a)(s,a)的状…more

    强化学习

  • Prioritized Experience Replay

    Friday, October 30, 2020

    PER的由来 在PER之前,像DQN(Nature 2015)以及Double DQN等Deep Q-learning方法都是通过经验回放的手段进行…more

    强化学习

  • Double DQN算法

    Thursday, October 29, 2020

    DQN 以及其改进 在原版Q-learning算法中,Q网络的优化目标为: YtQ≡Rt+1+γmax⁡aQ(St+1,a;θt) Y_{t}^{\mathrm{Q}} \equiv R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a ; \boldsymbol{\theta}_{t}\right) YtQ​≡Rt+1​+γamax​Q(St+1​,a;θt​) 基于此优化目标建立均方误差损失函数,优化迭代式如下:…more

    强化学习

  • 重要性采样的问题

    Thursday, October 29, 2020

    重要性采样在策略梯度类算法的应用 PPO算法是重要性采样在策略梯度类算法中应用的典型成果。策略梯度类算法通常以最大化期望奖励(Expected…more

    强化学习

  • Deep Q-learning算法

    Friday, May 8, 2020

    价值函数的近似表示 之前介绍的强化学习方法使用的都是有限个状态集合SSS,而当遇到连续的状态时,则需要价值函数的近似表示。 价值函数的近似表…more

    强化学习

  • Q-learning算法

    Friday, May 8, 2020

    Q-learning算法的引入 Q-learning算法的步骤与SARSA算法大致相同,唯一不同的地方在于SARSA算法在更新价值函数时会使用…more

    强化学习

  • SARSA算法

    Friday, May 8, 2020

    SARSA算法的引入 SARSA算法不需要环境的状态转化模型,是不基于模型的强化学习问题求解方法。对于它的控制问题的求解与蒙特卡洛法相似,即通…more

    强化学习

  • 时序差分法求解

    Thursday, May 7, 2020

    时序差分法简介 时序差分法与蒙特卡洛法相似,都是不基于模型的强化学习问题求解方法。时序差分法使用不完整的状态序列近似求出给定状态的收获。回顾贝…more

    强化学习

  • 蒙特卡洛法求解

    Thursday, May 7, 2020

    不基于模型的强化学习问题定义 在动态规划一文中,我们提到强化学习的两个基本问题:预测问题与控制问题。在处理上述两种问题的时候,其状态转化概率矩…more

    强化学习

  • 1
  • 2
  • 3
  • 4
  • 5

©2020 Sayuri2333.

Powered by Hugo and the Notepadium