学习模块 2:马尔可夫决策过程 (MDP) 的形式化
学习目标:
- 严格定义 MDP 的五元组结构及其数学组件。
- 形式化理解策略(Policy)的概念及其在控制系统中的作用。
- 深入分析折扣因子 在数学上如何保证无限序列回报的收敛性。
- 严格推导并理解策略评估(Policy Evaluation)和最优策略(Optimal Policy)的数学定义。
MDP 的形式化定义 (对应 Slides 2, 6)
马尔可夫决策过程 (MDP) 是对马尔可夫过程 (MP) 的扩展,增加了动作(Actions) 和奖励(Rewards),以实现决策和优化的目标。
定义 1.1:马尔可夫决策过程 (MDP)
一个有限马尔可夫决策过程由一个五元组 严格定义:
-
状态空间 : 有限的状态集合。
-
动作空间 : 有限的动作集合。
-
转移概率函数 : MDP 的核心动态模型。 这是一个四元函数:。 我们定义 为在状态 采取动作 后,转移到下一个状态 的概率: (注意:这个函数继承了马尔可夫性质和平稳性。)
-
奖励函数 : 描述即时回报。 幻灯片 4 中提及的奖励函数 是一种形式。更严谨的定义通常是期望奖励或基于转移的奖励: 或者,简化为基于状态-动作对的期望即时奖励: (我们通常默认奖励函数也是平稳的,即 不随时间 变化。)
-
折扣因子 : 。
奖励最大化与折扣因子 的数学意义 (对应 Slides 4, 5)
强化学习的根本目标是最大化预期回报(Expected Return)。
2.1 回报 (Return) 的定义
Agent 试图最大化的是从时间 开始的奖励总和。我们用 表示从时间 开始的回报(Return)。
对于一个有限时域(Finite Horizon, 步):
对于一个无限时域(Infinite Horizon):
2.2 引入折扣因子 () 解决收敛性问题
对于无限时域(Infinite Horizon)问题,除非所有奖励 都为零,否则简单求和 将趋于无穷大(),这使得不同策略的回报无法比较。
解决方案:折扣回报 (Discounted Return) (Slide 5)
引入折扣因子 ,重新定义无限时域下的回报 :
数学推导:保证收敛性
假设即时奖励的绝对值有一个上界 。 则回报 的绝对值 有界:
这是一个几何级数求和。由于我们假设 ,该几何级数收敛:
因此,回报 是有界的:
结论: 引入 在数学上保证了无限时域回报序列的收敛性,使得最大化期望回报的目标成为一个定义良好的优化问题。
重要性质:递归关系 折扣回报 具有一个关键的递归结构,这是贝尔曼方程的基础:
策略 (Policy) 的形式化 (对应 Slide 8)
Agent 的决策机制被称为策略。
定义 3.1:策略 (Policy)
策略 是一个函数,它定义了在给定状态下选择某个动作的概率。
其中 是在状态 时选择动作 的概率,且必须满足 。
确定性策略 (Deterministic Policy):
幻灯片 8 提到 ,这是一种确定性策略。它是一个函数 ,直接将状态映射到动作。 在这种情况下,对于任何状态 ,只有一个动作 满足 ,其余动作概率为 0。
MDP 与策略的结合
一旦确定了一个策略 ,Agent 在状态 选择了动作 ,环境就会按照转移概率 转移。
关键点: 给定一个固定的策略 ,MDP 会退化成一个马尔可夫过程 (MP),我们称之为 MP()。
在这个 MP() 中:
- 状态空间 仍是 。
- 状态转移矩阵 的元素 可以计算为: (即在状态 下,我们根据 选择 ,再根据 转移到 。)
- 期望即时奖励 可以计算为:
值函数:策略评估的形式化 (对应 Slide 9)
值函数(Value Function)是衡量一个策略 在特定状态 下好坏的数学工具。它是期望回报。
4.1 状态值函数
定义 4.1.1:状态值函数 (State-Value Function)
状态值函数 定义为从状态 开始,遵循策略 所能获得的期望折扣回报:
其中 表示在策略 下对所有随机变量(动作 和后续状态 )求期望。
策略评估: 计算 的过程称为策略评估(Policy Evaluation)。
4.2 贝尔曼期望方程 (Bellman Expectation Equation)
利用 的递归性质 ,我们可以对值函数进行分解。
根据期望的线性性质 :
我们来分解右侧的两个期望项:
第一项:期望即时奖励
第二项:期望未来折扣回报
根据全期望公式和马尔可夫性质,我们必须对所有可能的下一步状态 求和:
注意到 定义为 。 同时,利用我们前面定义的 ,我们得到:
最终的贝尔曼期望方程:
将两项代回原式,得到著名的贝尔曼期望方程(用于策略评估):
4.3 动作值函数
为了方便决策,我们需要评估在状态 采取特定动作 的价值。
定义 4.3.1:动作值函数 (Action-Value Function)
动作值函数 定义为在状态 采取动作 ,然后从下一步开始遵循策略 所能获得的期望折扣回报:
的贝尔曼方程推导与 类似:
两者关系: 是 在策略 下对所有可能动作 的期望:
步骤 5:最优策略与贝尔曼最优方程 (对应 Slide 9, 12)
MDP 的目标(Goal)是找到一个最优策略 ,使得在所有状态下,其值函数最大。
5.1 最优值函数
定义 5.1.1:最优状态值函数
定义 5.1.2:最优动作值函数
5.2 贝尔曼最优方程 (Bellman Optimality Equation)
最优策略 必须是贪婪的(Greedy)——在每一步都选择能带来最高 值的动作。
因此,最优值函数 满足一个特殊的递归关系,即贝尔曼最优方程:
将 展开,我们得到 的贝尔曼最优方程:
最优策略的提取:
找到 后,最优策略 可以通过在每个状态下选择使贝尔曼最优方程最大化的动作来确定 (Slide 12):
这个公式是值迭代(Value Iteration)和大部分基于值的方法的理论基础。