1. 诺伊曼级数的数学基础
诺伊曼级数是几何级数 在矩阵上的推广。
对于一个 矩阵 ,如果其谱半径 (即其特征值绝对值的最大值)满足 ,那么矩阵 是可逆的,并且其逆可以写成收敛的矩阵级数:
2. 应用于贝尔曼方程
在我们的贝尔曼方程中,待求逆的矩阵是 。因此,我们设定 。
我们知道 是一个随机矩阵。根据 Perron–Frobenius 定理,随机矩阵的最大特征值(即谱半径)是 。
因此, 的谱半径为:
由于 ,我们有 ,所以诺伊曼级数成立并收敛。
这个级数展开是正确的,并且是该推导的起点。
非负性 (Non-negativity) 证明
现在我们来证明结论:。
这里的矩阵不等式 是指逐元素不等式:矩阵 的每一个元素都大于或等于矩阵 的相应元素。
1. 证明
是一个转移概率矩阵,其所有元素 都是概率,因此:
矩阵的乘积和幂:
- 两个非负矩阵相乘,结果仍然是非负矩阵。因此, 对所有 成立。
- 折扣因子 ,所以 。
将这些性质代入诺伊曼级数展开:
由于级数中的所有项都是非负矩阵(或零矩阵),因此它们的和仍然是非负矩阵。
物理意义: 这个逆矩阵,有时被称为基本矩阵或折扣化平均时间矩阵,其 元素表示从状态 开始,经过所有可能的路径,到达状态 的折扣访问次数的期望。因为概率和折扣因子都是非负的,所以这个期望次数不可能是负的。
2. 证明
我们重新审视诺伊曼级数:
设括号内的项为 :
我们已经证明了 对所有 成立,因此 是一个非负矩阵:
所以:
结论: 矩阵 的每个对角线元素都大于或等于 (来自 的对角线元素 加上 的非负对角线元素),而每个非对角线元素都大于或等于 (来自 的非对角线元素 加上 的非负非对角线元素)。
对强化学习的意义
这个结论在 RL 中有深远的意义:
- 值函数的性质: 由于 ,如果即时奖励 是非负的(即 ),那么状态值函数 也必然是非负的。这是因为两个非负矩阵/向量相乘的结果仍是非负的。
- 累积效应: 矩阵 是一个放大器。它将即时奖励 放大成了考虑了所有未来步骤和折扣的累积回报 。表达式 准确地表示了这种累积效应,即从当前状态开始,一步、两步、三步……之后可能获得的折扣期望奖励的总和。