矩阵形式的定义与对应关系

假设我们有一个有限状态空间 ,大小为

1. 向量 (Value Vector)

是一个 的列向量,其第 个元素对应于状态 的状态值函数

2. 向量 (Expected Immediate Reward Vector)

是一个 的列向量,其第 个元素对应于在状态 下采取策略 所获得的即时期望奖励

根据我们前面推导的公式 (2.9) 的第一部分:

3. 矩阵 (State Transition Matrix under Policy )

是一个 的方阵,称为策略转移矩阵。其元素 表示从状态 转移到状态 概率,前提是遵循策略

根据概率的加权求和, 可以从 MDP 动力学和策略 中计算出来:

其中 是在状态 采取动作 转移到 的(不依赖奖励的)概率。

4. 矩阵形式的推导

将公式 (2.9) 重新写回

未来期望项可以写成矩阵乘法:

内层括号 正是

因此,对于任意状态 ,我们有:

将所有 个状态写成联立方程组,即得到矩阵形式:


贝尔曼方程的线性系统求解

我们希望求解 。将 项移到等式左侧:

这是一个标准的线性代数系统 ,其中:

  • 待解向量
  • 系数矩阵
  • 常数向量

如果系数矩阵 可逆的 (invertible),那么贝尔曼方程的解就是唯一的,并且可以通过矩阵求逆得到:


可逆性的证明与条件

要证明矩阵 是可逆的,我们通常利用矩阵范数收敛级数的理论,特别是诺伊曼级数 (Neumann Series)

1. 关键条件:折扣因子

在标准强化学习中,折扣因子 满足 。这是保证可逆性的核心数学条件。

2. 性质:转移矩阵

矩阵 是一个随机矩阵 (Stochastic Matrix),因为其元素 代表概率,且每一行的元素和为 1:

3. 可逆性证明(基于 Neumann Series)

如果一个矩阵 满足 的某个矩阵范数 小于 1,那么 是可逆的,并且其逆可以表示为诺伊曼级数:

在这个问题中,我们的矩阵

我们选择无穷范数(行和范数) 来评估

对于任何随机矩阵 ,其行和范数总是 1:

因此:

结论:

如果 ,那么

根据矩阵分析理论,当 时,矩阵 必然是可逆的。

4. 收敛性

矩阵求逆 实际上对应着对回报 的长期计算:

展开这个级数:

  • : 即时期望奖励()。
  • : 走一步后获得的期望奖励的折扣值()。
  • : 走 步后获得的期望奖励的折扣值。

这个级数求和 正是回报 的定义。因为 ,级数是绝对收敛 (absolutely convergent) 的,保证了值函数 存在且唯一。

总结可逆条件

在有限状态空间 MDP 中,贝尔曼期望方程的矩阵 可逆的充要条件是:

  1. 折扣因子 (即必须严格小于 1)。

如果 (非折扣任务,如平均奖励),除非 MDP 满足特定的遍历性和奖励结构(例如,存在吸收态且所有状态都能到达),否则矩阵 通常是不可逆的(因为 是随机矩阵,其特征值 1 对应的左特征向量为 ,意味着 的行列式为零)。因此, 是保证解唯一性和矩阵可逆性的关键数学要求。


盖尔什戈林圆盘定理回顾

1. 理论定义

盖尔什戈林圆盘定理 (Gershgorin Circle Theorem) 是线性代数中用于估计矩阵特征值位置的重要工具。

对于一个 矩阵 ,我们定义第 盖尔什戈林圆盘 (Gershgorin Disk) 如下:

其中:

  • 是圆盘的中心(矩阵的第 个对角线元素)。
  • 是圆盘的半径,等于第 行非对角线元素的绝对值之和:

定理内容: 矩阵 的所有特征值 都位于这些圆盘 的并集 之内。

2. 可逆性判据

如果矩阵 的所有盖尔什戈林圆盘都不包含复平面上的原点 ,那么矩阵 一定是可逆的。

判据: 对于所有 ,圆盘中心 到原点 的距离(即 )必须严格大于圆盘的半径

这被称为严格对角占优 (Strictly Diagonally Dominant) 条件。


应用于贝尔曼方程矩阵

我们的目标矩阵是 。我们分析其元素。

1. 矩阵 的元素

矩阵。由于 是单位矩阵:

  • 对角线元素 ():

  • 非对角线元素 ():

2. 盖尔什戈林圆盘的参数计算

对于第 个状态 ,我们计算其圆盘的中心和半径:

A. 圆盘中心

中心 是对角线元素 :

B. 圆盘半径

半径 是第 行非对角线元素的绝对值之和:

由于 且概率 :

3. 证明圆盘不包含原点

根据可逆性判据,我们必须证明

首先,分析 的符号:由于 ,所以 。 因此,中心 是正实数,我们只需要证明 :

我们需要证明:

将所有 项移到右边:

提取

回顾 的性质:它是随机矩阵,每一行元素的和为 1。第 行元素的总和为:

因此,不等式简化为:

4. 最终结论

由于我们在强化学习中始终假设折扣因子 ,因此不等式 总是成立。

几何意义: 对于每一个状态 ,矩阵 对应的盖尔什戈林圆盘的中心 位于正实轴上。中心到原点的距离 严格大于半径 这意味着每一个圆盘 都完全位于右半平面,并且不包含原点

代数结论: 根据盖尔什戈林圆盘定理,矩阵 的所有特征值 都不可能为 。 因此,矩阵 可逆的

总结: 这种基于特征值的方法,与之前基于范数和诺伊曼级数的证明,殊途同归,都严谨地证明了在折扣因子 的前提下,贝尔曼期望方程的线性系统解是唯一且存在的。