压缩映射定理的形式化定义(巴拿赫不动点定理)
压缩映射定理,也称为巴拿赫不动点定理 (Banach Fixed-Point Theorem),是泛函分析中的一个核心结果。
1. 概念定义:度量空间 (Metric Space)
该定理的前提是必须在一个完备度量空间 (Complete Metric Space) 上进行讨论。
- 度量空间 : 是一个集合, 是一个度量(距离函数),满足非负性、同一性、对称性和三角不等式。
- 完备性 (Completeness): 空间中的所有柯西序列 (Cauchy sequence) 都收敛于空间内的一个点。 (例如,实数空间 在标准度量下是完备的)。
在强化学习中,值函数空间(如 向量或 矩阵)通常是一个完备度量空间,度量可以是无穷范数 。
2. 核心定义:压缩映射 (Contraction Mapping)
设 是一个从度量空间 到自身的映射。如果存在一个常数 ,使得对于空间中任意两点 ,都有:
则称 是一个压缩映射, 称为压缩系数 (Contraction Factor)。
物理意义: 压缩映射 会将空间中任意两点之间的距离至少压缩 倍。
阶段二:压缩映射定理的内容解析
压缩映射定理给出了关于方程 的解(不动点 )的三个关键结论:
1. 存在性 (Existence)
结论: 存在一个唯一的点 满足 。
意义: 在 RL 中,这意味着策略评估的贝尔曼期望方程 和寻找最优值函数的贝尔曼最优方程 必定有解。
2. 唯一性 (Uniqueness)
结论: 这个不动点 是唯一的。
意义: 策略 对应的状态值函数 是唯一的;最优策略对应的最优值函数 也是唯一的。这保证了我们的目标是明确的。
3. 算法与收敛性 (Algorithm & Convergence)
结论: 对于任意初始点 ,通过迭代序列 产生的序列 必然收敛到不动点 。
更进一步,收敛速度是指数级 (exponentially fast) 的,由以下误差界限给出:
或
意义: 这是值迭代(Value Iteration)和策略评估(Policy Evaluation)算法收敛性的根本保障。它不仅保证了收敛,还量化了收敛速度,这个速度由压缩系数 决定。
阶段三:压缩映射定理在强化学习中的应用(贝尔曼操作符)
在 RL 中,贝尔曼方程被视为一个映射关系 ,这里的 就是值函数 。
我们定义贝尔曼期望操作符 (Bellman Expectation Operator) :
我们前面讨论的策略评估迭代 就是 。
证明 是一个压缩映射
我们需要证明 在无穷范数 下是一个压缩映射,且压缩系数为 。
设 和 是值函数空间中的任意两个向量。
我们计算 和 之间的距离:
代入 的定义:
项抵消:
提取常数 :
利用矩阵范数与向量范数的关系 :
由于 是一个随机矩阵,其无穷范数 :
最终,我们得到:
因为 ,所以 是一个压缩系数为 的压缩映射。
结论: 压缩映射定理的所有三个结论(存在性、唯一性、迭代收敛性)都适用于策略评估问题,严格证明了值迭代方法在折扣化 MDPs 中一定能找到唯一的 解。