2025年08月29日

AI强化学习PPO算法通俗易懂理解_ppo算法pytorch

AI强化学习PPO算法通俗易懂理解

1 用超级玛丽游戏理解PPO 算法

训练一个 AI 小玛丽要学会自动过关。

它可以执行的动作有： - 跳（jump）- 左走（left）- 右走（right）- 蹲（down）

它的目标是： - 尽快通过关卡；- 躲避怪物；- 吃金币和蘑菇；- 别掉坑里！

2025年08月29日

多臂赌博机问题只需要在单一情境下选择动作，而现实中的决策往往更复杂：一个动作不仅影响当下的奖励，还会改变未来的情境（状态）。例如，下棋时走一步棋会改变棋盘状态，进而影响后续所有可能的走法和最终胜负。

有限马尔可夫决策过程（finite MDP）正是为这种

2025年08月29日

现代人拖延理由千奇百怪，有的害怕失败；有的因为完美主义倾向而拖延；有的不想走出“舒适区”。作者在本篇文章中从“时间折扣策略”上来战胜拖延，想要改变拖延的朋友们一起来看看吧～

现代人拖延产生的原因有很多，比如因为害怕失败而拖延，因为完美主义倾向而拖延，不想走出“舒适区”而拖延等等，今天我们要针对一个常见的原因“一直觉得没有准备好，想等最佳时机再开始”而产生的拖延来看，如何从“时间折扣策略”的思路中找到些启发。

2025年08月29日

机器之心报道

编辑：杜伟、冷猫