诺伊曼级数 (Neumann Series)以及它在强化学习中关于值函数性质

1. 诺伊曼级数的数学基础

诺伊曼级数是几何级数 $1 + x + x^{2} + \dots = (1 - x)^{- 1}$ 在矩阵上的推广。

对于一个 $N \times N$ 矩阵 $B$ ，如果其谱半径 $ρ (B)$ （即其特征值绝对值的最大值）满足 $ρ (B) < 1$ ，那么矩阵 $(I - B)$ 是可逆的，并且其逆可以写成收敛的矩阵级数：

(I - B)^{- 1} = k = 0 \sum \infty B^{k} = I + B + B^{2} + B^{3} + \dots

2. 应用于贝尔曼方程

在我们的贝尔曼方程中，待求逆的矩阵是 $(I - γ P_{π})$ 。因此，我们设定 $B = γ P_{π}$ 。

我们知道 $P_{π}$ 是一个随机矩阵。根据 Perron–Frobenius 定理，随机矩阵的最大特征值（即谱半径）是 $ρ (P_{π}) = 1$ 。

因此， $B = γ P_{π}$ 的谱半径为： $ρ (B) = ρ (γ P_{π}) = γ ρ (P_{π}) = γ \cdot 1 = γ$

由于 $γ < 1$ ，我们有 $ρ (B) < 1$ ，所以诺伊曼级数成立并收敛。

(I - γ P_{π})^{- 1} = I + γ P_{π} + γ^{2} P_{π}^{2} + γ^{3} P_{π}^{3} + \dots

这个级数展开是正确的，并且是该推导的起点。

非负性 (Non-negativity) 证明

现在我们来证明结论： $(I - γ P_{π})^{- 1} \geq I \geq 0$ 。

这里的矩阵不等式 $A \geq B$ 是指逐元素不等式：矩阵 $A$ 的每一个元素都大于或等于矩阵 $B$ 的相应元素。

1. 证明 $(I - γ P_{π})^{- 1} \geq 0$

$P_{π}$ 是一个转移概率矩阵，其所有元素 $p_{π} (s_{j} ∣ s_{i})$ 都是概率，因此：

P_{π} \geq 0

矩阵的乘积和幂：

两个非负矩阵相乘，结果仍然是非负矩阵。因此， $P_{π}^{k} \geq 0$ 对所有 $k \geq 1$ 成立。
折扣因子 $γ \in [0, 1)$ ，所以 $γ^{k} \geq 0$ 。

将这些性质代入诺伊曼级数展开：

(I - γ P_{π})^{- 1} = I + \geq 0 γ P_{π} + \geq 0 γ^{2} P_{π}^{2} + \geq 0 γ^{3} P_{π}^{3} + \dots

由于级数中的所有项都是非负矩阵（或零矩阵），因此它们的和仍然是非负矩阵。

(I - γ P_{π})^{- 1} \geq 0

物理意义： 这个逆矩阵，有时被称为基本矩阵或折扣化平均时间矩阵，其 $(i, j)$ 元素表示从状态 $s_{i}$ 开始，经过所有可能的路径，到达状态 $s_{j}$ 的折扣访问次数的期望。因为概率和折扣因子都是非负的，所以这个期望次数不可能是负的。

2. 证明 $(I - γ P_{π})^{- 1} \geq I$

我们重新审视诺伊曼级数：

(I - γ P_{π})^{- 1} = I + (γ P_{π} + γ^{2} P_{π}^{2} + γ^{3} P_{π}^{3} + \dots)

设括号内的项为 $H$ ：

H = k = 1 \sum \infty γ^{k} P_{π}^{k}

我们已经证明了 $γ^{k} P_{π}^{k} \geq 0$ 对所有 $k \geq 1$ 成立，因此 $H$ 是一个非负矩阵： $H \geq 0$

所以：

(I - γ P_{π})^{- 1} = I + H \geq I

结论： 矩阵 $(I - γ P_{π})^{- 1}$ 的每个对角线元素都大于或等于 $1$ (来自 $I$ 的对角线元素 $1$ 加上 $H$ 的非负对角线元素），而每个非对角线元素都大于或等于 $0$ (来自 $I$ 的非对角线元素 $0$ 加上 $H$ 的非负非对角线元素）。

对强化学习的意义

这个结论在 RL 中有深远的意义：

值函数的性质： 由于 $v = (I - γ P)^{- 1} r$ ，如果即时奖励 $r$ 是非负的（即 $r \geq 0$ ），那么状态值函数 $v$ 也必然是非负的。这是因为两个非负矩阵/向量相乘的结果仍是非负的。
累积效应： 矩阵 $(I - γ P)^{- 1}$ 是一个放大器。它将即时奖励 $r$ 放大成了考虑了所有未来步骤和折扣的累积回报 $v$ 。表达式 $I + γ P_{π} + γ^{2} P_{π}^{2} + \dots$ 准确地表示了这种累积效应，即从当前状态开始，一步、两步、三步……之后可能获得的折扣期望奖励的总和。

LazyBearLee's Blog

探索

诺伊曼级数 (Neumann Series)以及它在强化学习中关于值函数性质

1. 诺伊曼级数的数学基础

2. 应用于贝尔曼方程

非负性 (Non-negativity) 证明

1. 证明 $(I - γ P_{π})^{- 1} \geq 0$

2. 证明 $(I - γ P_{π})^{- 1} \geq I$

对强化学习的意义

关系图谱

目录

LazyBearLee's Blog

探索

诺伊曼级数 (Neumann Series)以及它在强化学习中关于值函数性质

1. 诺伊曼级数的数学基础

2. 应用于贝尔曼方程

非负性 (Non-negativity) 证明

1. 证明 (I−γPπ​)−1≥0

2. 证明 (I−γPπ​)−1≥I

对强化学习的意义

关系图谱

目录

1. 证明 $(I - γ P_{π})^{- 1} \geq 0$

2. 证明 $(I - γ P_{π})^{- 1} \geq I$