SARSA

11月

5044 0

简介：SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常应用于机器学习和强化学习学习领域中。State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值，分别是当前状态S1，当前状态选中的动作A1，获得的奖励Reward，S1状态下执行A1后取得的状态S2及S2状态下将会执行的动作A2。我们取这5个值的首字母串起来可以得出一个词SARSA。

基本原理：它包含了三个参数:（1）学习率 (Alpha)学习率决定了新获取的信息覆盖旧信息的程度。Alpha为0时，表示让代理不学习任何东西，Alpha为1时，表示让代理只考虑最新的信息。（2）折扣系数 (Gamma)折扣因素决定了未来奖励的重要性。Gamma为0时，会让代理变得 "机会主义"，只会考虑目前的奖励，而当Gamma接近1时，会让代理争取长期高回报。如果折扣系数达到或超过 1, 则Q的值可能会发散。（3）初始条件 (Q（s0，a0）)

由于 SARSA 是一个迭代算法，所以在第一次更新发生之前，它隐式地假定初始条件。一个低 (无限) 初始值，也被称为 "乐观初始条件"，可以鼓励探索。无论发生什么行动, 更新规则导致它具有比其他替代方案更高的价值，从而增加他们的选择概率。

主要应用：强化学习

相关案例：