SayuriBlog
  • github使用ssh登录

    Tuesday, March 9, 2021

    配置github使用ssh公钥 git支持使用ssh以及git两种协议。如果git使用https协议,那么每次pull。push都需要输入密码…more

    Linux

  • GPG加密

    Tuesday, March 9, 2021

    对文件进行对称加密 gpg -ca himitsu.txt 对文件进行对称加密。会提示需要输入公钥,需要输入两次。执行命令后会生成himitsu.txt.asc文件。 gpg -d himitsu.txt.asc 对文…more

    Linux

  • QR-DQN

    Friday, March 5, 2021

    C51算法的缺陷 C51算法中虽然证明了\(\mathcal{T}\)Bellman算子在使用分布时是满足\(\gamma -contracti…more

    强化学习

  • C51

    Thursday, March 4, 2021

    经典强化学习与值分布强化学习的区别 由于状态转移的随机性,状态表示的混叠效应(编码状态时带来的信息丢失)以及函数逼近的引入(使用函数表示状态价…more

    强化学习

  • DDPG

    Thursday, March 4, 2021

    DDPG的改进 DDPG可以被视为一个对传统PG算法的改进。在Policy Gradient一文中,我们提到了REINFORCE算法,它实际上与…more

    强化学习

  • Actor-Critic

    Wednesday, March 3, 2021

    Policy Gradient的改进 在Policy Gradient的REINFORCE算法实现中,如果某个状态下采样到的复数个动作都取得了正的奖励时,那…more

    强化学习

  • Noisy Network

    Tuesday, March 2, 2021

    背景 对于DRL中面对的exploration-exploition问题,目前广泛使用以下两种方法: ε-greedy法 通常应用于DQN类算法中…more

    强化学习

  • Policy Gradient

    Tuesday, March 2, 2021

    DQN类算法的不足 无法表示随机策略。 输出值(Q值)的微小改变可能会导致某一个动作被选中或者不选中,这种不连续的变化会影响算法的收敛。 无法表示…more

    强化学习

  • Deep Recurrent Q Network

    Saturday, January 30, 2021

    背景 在DQN的原文中,需要将游戏最近4帧的图像作为Q网络的输入。这是因为仅仅凭借1帧的画面无法判断物体运动速度和方向等的相关信息。但是在某些…more

    强化学习

  • Analysis on Boston Housing Data

    Thursday, January 21, 2021

    Introduction This study aims to find the important factors that affect the house prices in a certain area. The Boston housing price dataset is used as an example in this study. This dataset is part of the UCI Machine Learning Repository, and you can use it in Python by importing the sklearn library or in R using the MASS library. This dataset contains 13 factors such as per capita income,…more

    数据分析

  • 1
  • 2
  • 3
  • 4
  • 5

©2020 Sayuri2333.

Powered by Hugo and the Notepadium