AI强化学习PPO算法通俗易懂理解
1 用超级玛丽游戏理解PPO 算法
1.1 背景设定:玛丽要通关
训练一个 AI 小玛丽要学会自动过关。
它可以执行的动作有: - 跳(jump)- 左走(left)- 右走(right)- 蹲(down)
它的目标是: - 尽快通过关卡;- 躲避怪物;- 吃金币和蘑菇;- 别掉坑里!
2025年08月29日
AI强化学习PPO算法通俗易懂理解
训练一个 AI 小玛丽要学会自动过关。
它可以执行的动作有: - 跳(jump)- 左走(left)- 右走(right)- 蹲(down)
它的目标是: - 尽快通过关卡;- 躲避怪物;- 吃金币和蘑菇;- 别掉坑里!
2025年08月29日
多臂赌博机问题只需要在单一情境下选择动作,而现实中的决策往往更复杂:一个动作不仅影响当下的奖励,还会改变未来的情境(状态)。例如,下棋时走一步棋会改变棋盘状态,进而影响后续所有可能的走法和最终胜负。
有限马尔可夫决策过程(finite MDP)正是为这种
2025年08月29日
现代人拖延理由千奇百怪,有的害怕失败;有的因为完美主义倾向而拖延;有的不想走出“舒适区”。作者在本篇文章中从“时间折扣策略”上来战胜拖延,想要改变拖延的朋友们一起来看看吧~
现代人拖延产生的原因有很多,比如因为害怕失败而拖延,因为完美主义倾向而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“一直觉得没有准备好,想等最佳时机再开始”而产生的拖延来看,如何从“时间折扣策略”的思路中找到些启发。