1. 诺伊曼级数的数学基础

诺伊曼级数是几何级数 在矩阵上的推广。

对于一个 矩阵 ,如果其谱半径 (即其特征值绝对值的最大值)满足 ,那么矩阵 是可逆的,并且其逆可以写成收敛的矩阵级数:

2. 应用于贝尔曼方程

在我们的贝尔曼方程中,待求逆的矩阵是 。因此,我们设定

我们知道 是一个随机矩阵。根据 Perron–Frobenius 定理,随机矩阵的最大特征值(即谱半径)是

因此, 的谱半径为:

由于 ,我们有 ,所以诺伊曼级数成立并收敛。

这个级数展开是正确的,并且是该推导的起点。


非负性 (Non-negativity) 证明

现在我们来证明结论:

这里的矩阵不等式 是指逐元素不等式:矩阵 的每一个元素都大于或等于矩阵 的相应元素。

1. 证明

是一个转移概率矩阵,其所有元素 都是概率,因此:

矩阵的乘积和幂:

  • 两个非负矩阵相乘,结果仍然是非负矩阵。因此, 对所有 成立。
  • 折扣因子 ,所以

将这些性质代入诺伊曼级数展开:

由于级数中的所有项都是非负矩阵(或零矩阵),因此它们的和仍然是非负矩阵。

物理意义: 这个逆矩阵,有时被称为基本矩阵折扣化平均时间矩阵,其 元素表示从状态 开始,经过所有可能的路径,到达状态 的折扣访问次数的期望。因为概率和折扣因子都是非负的,所以这个期望次数不可能是负的。

2. 证明

我们重新审视诺伊曼级数:

设括号内的项为

我们已经证明了 对所有 成立,因此 是一个非负矩阵:

所以:

结论: 矩阵 的每个对角线元素都大于或等于 (来自 的对角线元素 加上 的非负对角线元素),而每个非对角线元素都大于或等于 (来自 的非对角线元素 加上 的非负非对角线元素)。


对强化学习的意义

这个结论在 RL 中有深远的意义:

  1. 值函数的性质: 由于 ,如果即时奖励 是非负的(即 ),那么状态值函数 也必然是非负的。这是因为两个非负矩阵/向量相乘的结果仍是非负的。
  2. 累积效应: 矩阵 是一个放大器。它将即时奖励 放大成了考虑了所有未来步骤和折扣的累积回报 。表达式 准确地表示了这种累积效应,即从当前状态开始,一步、两步、三步……之后可能获得的折扣期望奖励的总和。