-
github使用ssh登录
Tuesday, March 9, 2021
配置github使用ssh公钥 git支持使用ssh以及git两种协议。如果git使用https协议,那么每次pull。push都需要输入密码…more
-
GPG加密
Tuesday, March 9, 2021
对文件进行对称加密 gpg -ca himitsu.txt 对文件进行对称加密。会提示需要输入公钥,需要输入两次。执行命令后会生成himitsu.txt.asc文件。 gpg -d himitsu.txt.asc 对文…more
-
QR-DQN
Friday, March 5, 2021
C51算法的缺陷 C51算法中虽然证明了\(\mathcal{T}\)Bellman算子在使用分布时是满足\(\gamma -contracti…more
-
C51
Thursday, March 4, 2021
经典强化学习与值分布强化学习的区别 由于状态转移的随机性,状态表示的混叠效应(编码状态时带来的信息丢失)以及函数逼近的引入(使用函数表示状态价…more
-
DDPG
Thursday, March 4, 2021
DDPG的改进 DDPG可以被视为一个对传统PG算法的改进。在Policy Gradient一文中,我们提到了REINFORCE算法,它实际上与…more
-
Actor-Critic
Wednesday, March 3, 2021
Policy Gradient的改进 在Policy Gradient的REINFORCE算法实现中,如果某个状态下采样到的复数个动作都取得了正的奖励时,那…more
-
Noisy Network
Tuesday, March 2, 2021
背景 对于DRL中面对的exploration-exploition问题,目前广泛使用以下两种方法: ε-greedy法 通常应用于DQN类算法中…more
-
Policy Gradient
Tuesday, March 2, 2021
DQN类算法的不足 无法表示随机策略。 输出值(Q值)的微小改变可能会导致某一个动作被选中或者不选中,这种不连续的变化会影响算法的收敛。 无法表示…more
-
Deep Recurrent Q Network
Saturday, January 30, 2021
背景 在DQN的原文中,需要将游戏最近4帧的图像作为Q网络的输入。这是因为仅仅凭借1帧的画面无法判断物体运动速度和方向等的相关信息。但是在某些…more
-
Analysis on Boston Housing Data
Thursday, January 21, 2021
Introduction This study aims to find the important factors that affect the house prices in a certain area. The Boston housing price dataset is used as an example in this study. This dataset is part of the UCI Machine Learning Repository, and you can use it in Python by importing the sklearn library or in R using the MASS library. This dataset contains 13 factors such as per capita income,…more