引理(策略改进)的形式化证明
引理内容:
如果新策略 是通过对 进行单步贪婪改进得到的:
则新策略的值函数 至少与旧策略的值函数 一样好(逐元素非负):
证明思路
证明的关键在于连续应用贪婪改进的定义和贝尔曼期望操作符,并利用矩阵的非负性性质。我们将证明 是 操作符下的一个下界,然后通过迭代证明 。
符号定义回顾
- : 策略 的真实值函数。
- : 策略 下的即时期望奖励向量。
- : 策略 下的状态转移矩阵。
- : 贝尔曼期望操作符。
第一步:建立不等式基础(贪婪选择的直接结果)
根据新策略 的定义(贪婪改进):
这意味着对于任何状态 , 所选择的动作集合产生的单步期望价值,要大于或等于原策略 产生的单步期望价值。
因此,我们有逐元素不等式:
由于 是策略 的真实值函数,它满足贝尔曼期望方程:
将 代入上式右侧,得到:
这可以写成:
( 这表示如果我们在状态 下遵循新策略 走一步,然后继续遵循旧策略 ,得到的期望回报比全程遵循旧策略 得到的期望回报要高。)
第二步:利用贝尔曼操作符的单调性
我们知道新策略 是贝尔曼操作符 的不动点:
现在我们使用单调性:贝尔曼操作符 具有单调性 (monotonicity),即如果 ,则 。
证明单调性: 因为 ,且 并且随机矩阵 (所有元素非负)。 两个非负矩阵/向量相乘的结果是非负向量: 。 所以,。
第三步:通过迭代完成证明
我们从步骤一的基础不等式 开始:
现在,我们对不等式两边应用 操作符。根据单调性,不等号方向不变:
结合上述,我们得到:
我们可以无限迭代下去:
第四步:取极限
根据压缩映射定理,我们知道,对任意初始值 ,迭代 必然收敛到 的不动点,即 。
因此,当 时:
由于 逐元素小于或等于序列中的每一项:
最终证明结论:
这个证明严格证明了策略改进步骤保证了值函数的单调不减性 (monotonic non-decreasing)。 这是策略迭代算法能够收敛到最优策略 的关键保证。由于状态和策略空间是有限的,值函数 的值域有界,因此单调不减的序列最终必须收敛,从而确保了策略迭代的收敛性。