Joy RL:强化学习实践教程
上QQ阅读APP看书,第一时间看更新

第2章 马尔可夫决策过程

在第1章中我们了解到强化学习是解决序列决策问题的有效方法之一,而序列决策问题的本质是在与环境交互的过程中学习到一个目标的过程。在本章中,我们将介绍强化学习中基本的问题模型,即马尔可夫决策过程(Markov decision process,MDP),它能够以数学的形式来表达序列决策过程。注意,从本章开始会涉及理论公式推导,建议读者在阅读之前先回顾一下概率论相关知识,尤其是条件概率、全概率期望公式等。