定义与预备知识
1. 贝尔曼方程的定义
我们已经知道,策略 下的真实状态值函数 满足贝尔曼期望方程(即不动点方程):
其中:
- :真实值函数向量。
- :即时期望奖励向量 (此处记为 以强调对策略 的依赖)。
- :策略 下的转移矩阵。
- :折扣因子,满足 。
2. 迭代过程的定义(值迭代)
我们考虑一个迭代过程,比如策略评估中的值迭代:从一个任意初始值 开始,序列 由以下公式生成:
3. 误差的定义
我们定义第 步的误差 为当前估计值 与真实值 之间的差异:
为了证明收敛性,我们需要证明 。
误差项的递归关系推导
1. 代入误差定义
将 和 代入迭代更新公式:
2. 展开与化简
展开右侧的乘积项:
目标是孤立出 ,将 移到右侧:
3. 利用贝尔曼方程的真实解
我们知道真实解 满足:
将此等式改写为:
将这个零向量项代入 的表达式中:
我们得到了误差项的简洁递归关系:
收敛性证明
1. 递归展开
利用上述递归关系,我们可以将 展开,直到初始误差 :
2. 利用矩阵范数证明收敛
为了证明 ,我们需要取范数:
利用矩阵范数与向量范数的关系:,以及常数提取性质:
在前面我们讨论过,策略转移矩阵 是一个随机矩阵,其无穷范数 。更一般地,矩阵的幂 也是一个随机矩阵,因此其无穷范数也是 1:
选择无穷范数(这是最常用的范数,因为它对应于向量中元素的最大绝对值):
3. 最终结论
由于 是一个固定的初始误差向量,其范数 是一个常数。
关键在于折扣因子 :
因为我们假设 ,所以当 时,。
因此:
由于向量的范数趋于零,其向量本身也趋于零:
即 。
《强化学习的数学原理》中提到:“Note that , which means every entry of is no greater than 1 for any . That is because , where .”
- 的物理意义: 是 步转移概率矩阵。其元素 表示从状态 经过 步转移到状态 的概率。因此,所有元素都必须在 之间。
- 的意义: 矩阵 乘以全 1 向量 得到 向量,这等价于说 的每一行元素之和为 1。这再次确认了 是一个随机矩阵,从而保证了 。
这个证明严谨地确立了在 的条件下,通过迭代更新,我们可以收敛到策略 下的真实值函数 。这不仅是策略评估的基础,也是后续贝尔曼最优方程 (Bellman Optimality Equation) 收敛性的关键原理。