强化学习基础

Wednesday, May 6, 2020

强化学习基本要素

  • 环境状态\(S\), t时刻环境的状态\(S_t\)是它的环境状态集中的某一个状态。
  • 个体动作\(A\), t时刻个体采取的动作\(A_t\)是它的动作集中某一个动作。
  • 环境奖励\(R\), t时刻个体在状态\(S_t\)采取的动作\(A_t\)对应的奖励\(R_{t+1}\)会在t+1时刻得到。
  • 个体策略\(\pi\),常见的策略为一个条件概率分布\(\pi(a|s) = P(A_t=a | S_t=s) \)
  • 价值函数\(v_{\pi}(s)\),通常考虑当前奖励与延时奖励\( v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s) \)
  • 奖励衰减因子\(\gamma\),取值在[0, 1]之间,用来控制延时奖励的衰减速率
  • 环境转化模型\(P_{ss'}^a\),意味着在当前状态\(s\)下采取动作\(a\),转移到状态\(s'\)的概率
  • 探索率\(\epsilon\),主要用于强化学习训练迭代的\(\epsilon-greedy\)法中

强化学习的简单实例

使用Python实现玩九宫棋的程序,程序具体实现方法参考我的github

强化学习

动态规划求解强化学习问题

马尔可夫决策过程