强化学习基础 – SayuriBlog

环境状态\(S\), t时刻环境的状态\(S_t\)是它的环境状态集中的某一个状态。
个体动作\(A\)， t时刻个体采取的动作\(A_t\)是它的动作集中某一个动作。
环境奖励\(R\)， t时刻个体在状态\(S_t\)采取的动作\(A_t\)对应的奖励\(R_{t+1}\)会在t+1时刻得到。
个体策略\(\pi\)，常见的策略为一个条件概率分布\(\pi(a|s) = P(A_t=a | S_t=s) \)
价值函数\(v_{\pi}(s)\)，通常考虑当前奖励与延时奖励\( v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3}+...|S_t=s) \)
奖励衰减因子\(\gamma\)，取值在[0, 1]之间，用来控制延时奖励的衰减速率
环境转化模型\(P_{ss'}^a\)，意味着在当前状态\(s\)下采取动作\(a\)，转移到状态\(s'\)的概率
探索率\(\epsilon\)，主要用于强化学习训练迭代的\(\epsilon-greedy\)法中

使用Python实现玩九宫棋的程序，程序具体实现方法参考我的github。