学习模块 2:马尔可夫决策过程 (MDP) 的形式化

学习目标:

  1. 严格定义 MDP 的五元组结构及其数学组件。
  2. 形式化理解策略(Policy)的概念及其在控制系统中的作用。
  3. 深入分析折扣因子 在数学上如何保证无限序列回报的收敛性。
  4. 严格推导并理解策略评估(Policy Evaluation)和最优策略(Optimal Policy)的数学定义。

MDP 的形式化定义 (对应 Slides 2, 6)

马尔可夫决策过程 (MDP) 是对马尔可夫过程 (MP) 的扩展,增加了动作(Actions)奖励(Rewards),以实现决策和优化的目标。

定义 1.1:马尔可夫决策过程 (MDP)

一个有限马尔可夫决策过程由一个五元组 严格定义:

  1. 状态空间 有限的状态集合。

  2. 动作空间 有限的动作集合。

  3. 转移概率函数 MDP 的核心动态模型。 这是一个四元函数:。 我们定义 为在状态 采取动作 后,转移到下一个状态 的概率: (注意:这个函数继承了马尔可夫性质和平稳性。)

  4. 奖励函数 描述即时回报。 幻灯片 4 中提及的奖励函数 是一种形式。更严谨的定义通常是期望奖励或基于转移的奖励: 或者,简化为基于状态-动作对的期望即时奖励: (我们通常默认奖励函数也是平稳的,即 不随时间 变化。)

  5. 折扣因子


奖励最大化与折扣因子 的数学意义 (对应 Slides 4, 5)

强化学习的根本目标是最大化预期回报(Expected Return)。

2.1 回报 (Return) 的定义

Agent 试图最大化的是从时间 开始的奖励总和。我们用 表示从时间 开始的回报(Return)。

对于一个有限时域(Finite Horizon, 步):

对于一个无限时域(Infinite Horizon):

2.2 引入折扣因子 () 解决收敛性问题

对于无限时域(Infinite Horizon)问题,除非所有奖励 都为零,否则简单求和 将趋于无穷大(),这使得不同策略的回报无法比较。

解决方案:折扣回报 (Discounted Return) (Slide 5)

引入折扣因子 ,重新定义无限时域下的回报 :

数学推导:保证收敛性

假设即时奖励的绝对值有一个上界 。 则回报 的绝对值 有界:

这是一个几何级数求和。由于我们假设 ,该几何级数收敛:

因此,回报 是有界的:

结论: 引入 在数学上保证了无限时域回报序列的收敛性,使得最大化期望回报的目标成为一个定义良好的优化问题。

重要性质:递归关系 折扣回报 具有一个关键的递归结构,这是贝尔曼方程的基础:


策略 (Policy) 的形式化 (对应 Slide 8)

Agent 的决策机制被称为策略

定义 3.1:策略 (Policy)

策略 是一个函数,它定义了在给定状态下选择某个动作的概率。

其中 是在状态 时选择动作 的概率,且必须满足

确定性策略 (Deterministic Policy):

幻灯片 8 提到 ,这是一种确定性策略。它是一个函数 ,直接将状态映射到动作。 在这种情况下,对于任何状态 ,只有一个动作 满足 ,其余动作概率为 0。

MDP 与策略的结合

一旦确定了一个策略 ,Agent 在状态 选择了动作 ,环境就会按照转移概率 转移。

关键点: 给定一个固定的策略 ,MDP 会退化成一个马尔可夫过程 (MP),我们称之为 MP()

在这个 MP() 中:

  1. 状态空间 仍是
  2. 状态转移矩阵 的元素 可以计算为: (即在状态 下,我们根据 选择 ,再根据 转移到 。)
  3. 期望即时奖励 可以计算为:

值函数:策略评估的形式化 (对应 Slide 9)

值函数(Value Function)是衡量一个策略 在特定状态 下好坏的数学工具。它是期望回报。

4.1 状态值函数

定义 4.1.1:状态值函数 (State-Value Function)

状态值函数 定义为从状态 开始,遵循策略 所能获得的期望折扣回报

其中 表示在策略 下对所有随机变量(动作 和后续状态 )求期望。

策略评估: 计算 的过程称为策略评估(Policy Evaluation)。

4.2 贝尔曼期望方程 (Bellman Expectation Equation)

利用 的递归性质 ,我们可以对值函数进行分解。

根据期望的线性性质

我们来分解右侧的两个期望项:

第一项:期望即时奖励

第二项:期望未来折扣回报

根据全期望公式和马尔可夫性质,我们必须对所有可能的下一步状态 求和:

注意到 定义为 。 同时,利用我们前面定义的 ,我们得到:

最终的贝尔曼期望方程:

将两项代回原式,得到著名的贝尔曼期望方程(用于策略评估):

4.3 动作值函数

为了方便决策,我们需要评估在状态 采取特定动作 的价值。

定义 4.3.1:动作值函数 (Action-Value Function)

动作值函数 定义为在状态 采取动作 ,然后从下一步开始遵循策略 所能获得的期望折扣回报

的贝尔曼方程推导与 类似:

两者关系: 在策略 下对所有可能动作 的期望:


步骤 5:最优策略与贝尔曼最优方程 (对应 Slide 9, 12)

MDP 的目标(Goal)是找到一个最优策略 ,使得在所有状态下,其值函数最大。

5.1 最优值函数

定义 5.1.1:最优状态值函数

定义 5.1.2:最优动作值函数

5.2 贝尔曼最优方程 (Bellman Optimality Equation)

最优策略 必须是贪婪的(Greedy)——在每一步都选择能带来最高 值的动作。

因此,最优值函数 满足一个特殊的递归关系,即贝尔曼最优方程

展开,我们得到 的贝尔曼最优方程:

最优策略的提取:

找到 后,最优策略 可以通过在每个状态下选择使贝尔曼最优方程最大化的动作来确定 (Slide 12):

这个公式是值迭代(Value Iteration)和大部分基于值的方法的理论基础。