定义与预备知识

1. 贝尔曼方程的定义

我们已经知道,策略 下的真实状态值函数 满足贝尔曼期望方程(即不动点方程):

其中:

  • :真实值函数向量。
  • :即时期望奖励向量 (此处记为 以强调对策略 的依赖)。
  • :策略 下的转移矩阵。
  • :折扣因子,满足

2. 迭代过程的定义(值迭代)

我们考虑一个迭代过程,比如策略评估中的值迭代:从一个任意初始值 开始,序列 由以下公式生成:

3. 误差的定义

我们定义第 步的误差 为当前估计值 与真实值 之间的差异:

为了证明收敛性,我们需要证明


误差项的递归关系推导

1. 代入误差定义

代入迭代更新公式:

2. 展开与化简

展开右侧的乘积项:

目标是孤立出 ,将 移到右侧:

3. 利用贝尔曼方程的真实解

我们知道真实解 满足:

将此等式改写为:

将这个零向量项代入 的表达式中:

我们得到了误差项的简洁递归关系:


收敛性证明

1. 递归展开

利用上述递归关系,我们可以将 展开,直到初始误差

2. 利用矩阵范数证明收敛

为了证明 ,我们需要取范数:

利用矩阵范数与向量范数的关系:,以及常数提取性质:

在前面我们讨论过,策略转移矩阵 是一个随机矩阵,其无穷范数 。更一般地,矩阵的幂 也是一个随机矩阵,因此其无穷范数也是 1:

选择无穷范数(这是最常用的范数,因为它对应于向量中元素的最大绝对值):

3. 最终结论

由于 是一个固定的初始误差向量,其范数 是一个常数。

关键在于折扣因子 :

因为我们假设 ,所以当 时,

因此:

由于向量的范数趋于零,其向量本身也趋于零:

《强化学习的数学原理》中提到:“Note that , which means every entry of is no greater than 1 for any . That is because , where .”

  • 的物理意义: 步转移概率矩阵。其元素 表示从状态 经过 步转移到状态 的概率。因此,所有元素都必须在 之间。
  • 的意义: 矩阵 乘以全 1 向量 得到 向量,这等价于说 的每一行元素之和为 1。这再次确认了 是一个随机矩阵,从而保证了

这个证明严谨地确立了在 的条件下,通过迭代更新,我们可以收敛到策略 下的真实值函数 。这不仅是策略评估的基础,也是后续贝尔曼最优方程 (Bellman Optimality Equation) 收敛性的关键原理。