矩阵形式的定义与对应关系
假设我们有一个有限状态空间 ,大小为 。
1. 向量 (Value Vector)
是一个 的列向量,其第 个元素对应于状态 的状态值函数 。
2. 向量 (Expected Immediate Reward Vector)
是一个 的列向量,其第 个元素对应于在状态 下采取策略 所获得的即时期望奖励。
根据我们前面推导的公式 (2.9) 的第一部分:
3. 矩阵 (State Transition Matrix under Policy )
是一个 的方阵,称为策略转移矩阵。其元素 表示从状态 转移到状态 的概率,前提是遵循策略 。
根据概率的加权求和, 可以从 MDP 动力学和策略 中计算出来:
其中 是在状态 采取动作 转移到 的(不依赖奖励的)概率。
4. 矩阵形式的推导
将公式 (2.9) 重新写回 :
未来期望项可以写成矩阵乘法:
内层括号 正是 。
因此,对于任意状态 ,我们有:
将所有 个状态写成联立方程组,即得到矩阵形式:
贝尔曼方程的线性系统求解
我们希望求解 。将 项移到等式左侧:
这是一个标准的线性代数系统 ,其中:
- 待解向量
- 系数矩阵
- 常数向量
如果系数矩阵 是可逆的 (invertible),那么贝尔曼方程的解就是唯一的,并且可以通过矩阵求逆得到:
可逆性的证明与条件
要证明矩阵 是可逆的,我们通常利用矩阵范数和收敛级数的理论,特别是诺伊曼级数 (Neumann Series)。
1. 关键条件:折扣因子
在标准强化学习中,折扣因子 满足 。这是保证可逆性的核心数学条件。
2. 性质:转移矩阵
矩阵 是一个随机矩阵 (Stochastic Matrix),因为其元素 代表概率,且每一行的元素和为 1:
3. 可逆性证明(基于 Neumann Series)
如果一个矩阵 满足 的某个矩阵范数 小于 1,那么 是可逆的,并且其逆可以表示为诺伊曼级数:
在这个问题中,我们的矩阵 。
我们选择无穷范数(行和范数) 来评估 :
对于任何随机矩阵 ,其行和范数总是 1:
因此:
结论:
如果 ,那么 。
根据矩阵分析理论,当 时,矩阵 必然是可逆的。
4. 收敛性
矩阵求逆 实际上对应着对回报 的长期计算:
展开这个级数:
- : 即时期望奖励()。
- : 走一步后获得的期望奖励的折扣值()。
- : 走 步后获得的期望奖励的折扣值。
这个级数求和 正是回报 的定义。因为 ,级数是绝对收敛 (absolutely convergent) 的,保证了值函数 存在且唯一。
总结可逆条件
在有限状态空间 MDP 中,贝尔曼期望方程的矩阵 可逆的充要条件是:
- 折扣因子 。 (即必须严格小于 1)。
如果 (非折扣任务,如平均奖励),除非 MDP 满足特定的遍历性和奖励结构(例如,存在吸收态且所有状态都能到达),否则矩阵 通常是不可逆的(因为 是随机矩阵,其特征值 1 对应的左特征向量为 ,意味着 的行列式为零)。因此, 是保证解唯一性和矩阵可逆性的关键数学要求。

盖尔什戈林圆盘定理回顾
1. 理论定义
盖尔什戈林圆盘定理 (Gershgorin Circle Theorem) 是线性代数中用于估计矩阵特征值位置的重要工具。
对于一个 矩阵 ,我们定义第 个盖尔什戈林圆盘 (Gershgorin Disk) 如下:
其中:
- 是圆盘的中心(矩阵的第 个对角线元素)。
- 是圆盘的半径,等于第 行非对角线元素的绝对值之和:
定理内容: 矩阵 的所有特征值 都位于这些圆盘 的并集 之内。
2. 可逆性判据
如果矩阵 的所有盖尔什戈林圆盘都不包含复平面上的原点 ,那么矩阵 一定是可逆的。
判据: 对于所有 ,圆盘中心 到原点 的距离(即 )必须严格大于圆盘的半径 。
这被称为严格对角占优 (Strictly Diagonally Dominant) 条件。
应用于贝尔曼方程矩阵
我们的目标矩阵是 。我们分析其元素。
1. 矩阵 的元素
是 矩阵。由于 是单位矩阵:
-
对角线元素 ():
-
非对角线元素 ():
2. 盖尔什戈林圆盘的参数计算
对于第 个状态 ,我们计算其圆盘的中心和半径:
A. 圆盘中心
中心 是对角线元素 :
B. 圆盘半径
半径 是第 行非对角线元素的绝对值之和:
由于 且概率 :
3. 证明圆盘不包含原点
根据可逆性判据,我们必须证明 。
首先,分析 的符号:由于 且 ,所以 。 因此,中心 是正实数,我们只需要证明 :
我们需要证明:
将所有 项移到右边:
提取 :
回顾 的性质:它是随机矩阵,每一行元素的和为 1。第 行元素的总和为:
因此,不等式简化为:
4. 最终结论
由于我们在强化学习中始终假设折扣因子 ,因此不等式 总是成立。
几何意义: 对于每一个状态 ,矩阵 对应的盖尔什戈林圆盘的中心 位于正实轴上。中心到原点的距离 严格大于半径 。 这意味着每一个圆盘 都完全位于右半平面,并且不包含原点 。
代数结论: 根据盖尔什戈林圆盘定理,矩阵 的所有特征值 都不可能为 。 因此,矩阵 是可逆的。
总结: 这种基于特征值的方法,与之前基于范数和诺伊曼级数的证明,殊途同归,都严谨地证明了在折扣因子 的前提下,贝尔曼期望方程的线性系统解是唯一且存在的。