上QQ阅读APP看书，第一时间看更新

第2章马尔可夫决策过程

在第1章中我们了解到强化学习是解决序列决策问题的有效方法之一，而序列决策问题的本质是在与环境交互的过程中学习到一个目标的过程。在本章中，我们将介绍强化学习中基本的问题模型，即马尔可夫决策过程（Markov decision process，MDP），它能够以数学的形式来表达序列决策过程。注意，从本章开始会涉及理论公式推导，建议读者在阅读之前先回顾一下概率论相关知识，尤其是条件概率、全概率期望公式等。

本周热推：

AIGC提示工程师精进之道图解人工智能写好论文：思维模型与AI辅助应用 AI自媒体写作超简单人人都离不开的算法：图解算法应用

第2章 马尔可夫决策过程

第2章马尔可夫决策过程