策略改进

引理（策略改进）的形式化证明

引理内容：

如果新策略 $π_{k + 1}$ 是通过对 $v_{π_{k}}$ 进行单步贪婪改进得到的：

$π_{k + 1} = ar g max_{π} (r_{π} + γ P_{π} v_{π_{k}})$

则新策略的值函数 $v_{π_{k + 1}}$ 至少与旧策略的值函数 $v_{π_{k}}$ 一样好（逐元素非负）：

$v_{π_{k + 1}} \geq v_{π_{k}}$

证明思路

证明的关键在于连续应用贪婪改进的定义和贝尔曼期望操作符，并利用矩阵的非负性性质。我们将证明 $v_{π_{k}}$ 是 $T_{π_{k + 1}}$ 操作符下的一个下界，然后通过迭代证明 $v_{π_{k}} \leq v_{π_{k + 1}}$ 。

符号定义回顾

$v_{π_{k}}$ : 策略 $π_{k}$ 的真实值函数。
$r_{π}$ : 策略 $π$ 下的即时期望奖励向量。
$P_{π}$ : 策略 $π$ 下的状态转移矩阵。
$T_{π} (v) = r_{π} + γ P_{π} v$ : 贝尔曼期望操作符。

第一步：建立不等式基础（贪婪选择的直接结果）

根据新策略 $π_{k + 1}$ 的定义（贪婪改进）： $π_{k + 1} = ar g max_{π} T_{π} (v_{π_{k}})$

这意味着对于任何状态 $s$ ， $π_{k + 1}$ 所选择的动作集合产生的单步期望价值，要大于或等于原策略 $π_{k}$ 产生的单步期望价值。

因此，我们有逐元素不等式：

r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{π_{k}} \geq r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}

由于 $v_{π_{k}}$ 是策略 $π_{k}$ 的真实值函数，它满足贝尔曼期望方程： $v_{π_{k}} = r_{π_{k}} + γ P_{π_{k}} v_{π_{k}}$

将 $v_{π_{k}}$ 代入上式右侧，得到：

r_{π_{k + 1}} + γ P_{π_{k + 1}} v_{π_{k}} \geq v_{π_{k}}

这可以写成： $T_{π_{k + 1}} (v_{π_{k}}) \geq v_{π_{k}} (*)$

（这表示如果我们在状态 $s$ 下遵循新策略 $π_{k + 1}$ 走一步，然后继续遵循旧策略 $π_{k}$ ，得到的期望回报比全程遵循旧策略 $π_{k}$ 得到的期望回报要高。）

第二步：利用贝尔曼操作符的单调性

我们知道新策略 $v_{π_{k + 1}}$ 是贝尔曼操作符 $T_{π_{k + 1}}$ 的不动点： $v_{π_{k + 1}} = T_{π_{k + 1}} (v_{π_{k + 1}})$

现在我们使用单调性：贝尔曼操作符 $T_{π}$ 具有单调性 (monotonicity)，即如果 $u \geq v$ ，则 $T_{π} (u) \geq T_{π} (v)$ 。

证明单调性： $T_{π} (u) - T_{π} (v) = (r_{π} + γ P_{π} u) - (r_{π} + γ P_{π} v) = γ P_{π} (u - v)$ 因为 $u - v \geq 0$ ，且 $γ \geq 0$ 并且随机矩阵 $P_{π} \geq 0$ （所有元素非负）。两个非负矩阵/向量相乘的结果是非负向量： $γ P_{π} (u - v) \geq 0$ 。所以， $T_{π} (u) \geq T_{π} (v)$ 。

第三步：通过迭代完成证明

我们从步骤一的基础不等式 $(*)$ 开始：

$v_{π_{k}} \leq T_{π_{k + 1}} (v_{π_{k}})$

现在，我们对不等式两边应用 $T_{π_{k + 1}}$ 操作符。根据单调性，不等号方向不变：

$T_{π_{k + 1}} (v_{π_{k}}) \leq T_{π_{k + 1}} (T_{π_{k + 1}} (v_{π_{k}})) = T_{π_{k + 1}}^{2} (v_{π_{k}})$

结合上述，我们得到： $v_{π_{k}} \leq T_{π_{k + 1}} (v_{π_{k}}) \leq T_{π_{k + 1}}^{2} (v_{π_{k}})$

我们可以无限迭代下去： $v_{π_{k}} \leq T_{π_{k + 1}} (v_{π_{k}}) \leq T_{π_{k + 1}}^{2} (v_{π_{k}}) \leq \dots \leq T_{π_{k + 1}}^{m} (v_{π_{k}})$

第四步：取极限

根据压缩映射定理，我们知道，对任意初始值 $v_{0}$ ，迭代 $v_{m + 1} = T_{π_{k + 1}} (v_{m})$ 必然收敛到 $T_{π_{k + 1}}$ 的不动点，即 $v_{π_{k + 1}}$ 。

因此，当 $m \to \infty$ 时： $lim_{m \to \infty} T_{π_{k + 1}}^{m} (v_{π_{k}}) = v_{π_{k + 1}}$

由于 $v_{π_{k}}$ 逐元素小于或等于序列中的每一项： $v_{π_{k}} \leq lim_{m \to \infty} T_{π_{k + 1}}^{m} (v_{π_{k}})$

最终证明结论：

v_{π_{k}} \leq v_{π_{k + 1}}

这个证明严格证明了策略改进步骤保证了值函数的单调不减性 (monotonic non-decreasing)。 这是策略迭代算法能够收敛到最优策略 $π^{*}$ 的关键保证。由于状态和策略空间是有限的，值函数 $v$ 的值域有界，因此单调不减的序列最终必须收敛，从而确保了策略迭代的收敛性。

LazyBearLee's Blog

探索