拟牛顿法-DFD部分推导

DFP 算法的推导 (Davidon–Fletcher–Powell Update)

1. 回顾与符号约定

在拟牛顿法中，我们希望用一个矩阵来近似真实 Hessian 矩阵的逆。我们将这个逆 Hessian 近似矩阵记为 $G_{k}$ 。

$G_{k}$ : 当前迭代的逆 Hessian 近似矩阵（用 $G$ 表示 $H^{- 1}$ ）。
$δ_{k}$ (delta_k): 从当前点 $x_{k}$ 到下一个点 $x_{k + 1}$ 的步长向量。即 $δ_{k} = x_{k + 1} - x_{k}$ 。
$y_{k}$ : 从当前点 $x_{k}$ 到下一个点 $x_{k + 1}$ 的梯度变化向量。即 $y_{k} = \nabla f (x_{k + 1}) - \nabla f (x_{k})$ 。

2. 拟牛顿条件 (Quasi-Newton Condition)

这是所有拟牛顿方法的基础。它来源于对泰勒展开的近似，要求新的逆 Hessian 近似矩阵 $G_{k + 1}$ 满足：

$G_{k + 1} y_{k} = δ_{k}$

解释：这个条件表示，当新的近似逆 Hessian 矩阵 $G_{k + 1}$ 作用在梯度变化 $y_{k}$ 上时，应该得到实际的步长 $δ_{k}$ 。这是为了让 $G_{k + 1}$ 更好地模拟真实逆 Hessian 的行为。

3. 秩2校正 (Rank-2 Correction)

DFP 算法选择通过在当前近似矩阵 $G_{k}$ 的基础上，添加两个简单的校正项（秩1矩阵）来得到 $G_{k + 1}$ 。这种形式被称为“秩2校正”：

$G_{k + 1} = G_{k} + P_{k} + Q_{k}$

解释：

我们希望 $G_{k + 1}$ 尽可能接近 $G_{k}$ ，所以不对 $G_{k}$ 进行大幅度修改。
$P_{k}$ 和 $Q_{k}$ 是为了满足拟牛顿条件而添加的“修正项”，它们通常被设计成秩为1的矩阵，以确保计算的高效性和矩阵性质（如对称性、正定性）的保持。

4. 确定修正项 $P_{k}$ 和 $Q_{k}$

我们的目标是让 $G_{k + 1}$ 满足拟牛顿条件 $G_{k + 1} y_{k} = δ_{k}$ 。将 $G_{k + 1} = G_{k} + P_{k} + Q_{k}$ 代入条件中：

$(G_{k} + P_{k} + Q_{k}) y_{k} = δ_{k}$ $G_{k} y_{k} + P_{k} y_{k} + Q_{k} y_{k} = δ_{k}$

为了让这个等式成立，我们需要巧妙地设计 $P_{k}$ 和 $Q_{k}$ 。

4.1 设计 $P_{k}$

DFP 中给出 $P_{k} y_{k} = δ_{k}$ ，并且 $P_{k} = \frac{δ _{k} δ _{k}^{T}}{δ _{k}^{T} y _{k}}$ 。让我们验证这个 $P_{k}$ 是否满足条件 $P_{k} y_{k} = δ_{k}$ ：

$P_{k} y_{k} = (\frac{δ _{k} δ _{k}^{T}}{δ _{k}^{T} y _{k}}) y_{k}$ 解释：将 $P_{k}$ 的表达式代入。

$δ_{k}^{T} y_{k}$ 是一个标量（向量点积）。
矩阵乘法是结合的。所以 $δ_{k}^{T} y_{k}$ 可以从括号中提取出来。

$= \frac{δ _{k} ( δ _{k}^{T} y _{k} )}{δ _{k}^{T} y _{k}}$ 解释：矩阵乘法 $δ_{k} δ_{k}^{T} y_{k}$ 可以看作 $δ_{k} (δ_{k}^{T} y_{k})$ ，因为 $δ_{k}^{T} y_{k}$ 是一个标量。

由于 $δ_{k}^{T} y_{k}$ 是一个非零标量（通常要求 $δ_{k}^{T} y_{k} > 0$ 以保持近似矩阵的正定性），它可以被约分。

$= δ_{k}$ 结论： $P_{k} = \frac{δ _{k} δ _{k}^{T}}{δ _{k}^{T} y _{k}}$ 确实满足 $P_{k} y_{k} = δ_{k}$ 。 直观作用： $P_{k}$ 项是为了直接贡献出我们想要的 $δ_{k}$ 项。它是一个秩1矩阵。

4.2 设计 $Q_{k}$

现在我们回到主要方程 $G_{k} y_{k} + P_{k} y_{k} + Q_{k} y_{k} = δ_{k}$ 。我们已经设计了 $P_{k}$ 使得 $P_{k} y_{k} = δ_{k}$ 。所以，代入后方程变为： $G_{k} y_{k} + δ_{k} + Q_{k} y_{k} = δ_{k}$ 为了让等式成立，我们需要： $Q_{k} y_{k} = - G_{k} y_{k}$

DFP中给出 $Q_{k} = - \frac{G _{k} y _{k} y _{k}^{T} G _{k}}{y _{k}^{T} G _{k} y _{k}}$ 。让我们验证这个 $Q_{k}$ 是否满足条件 $Q_{k} y_{k} = - G_{k} y_{k}$ :

$Q_{k} y_{k} = (- \frac{G _{k} y _{k} y _{k}^{T} G _{k}}{y _{k}^{T} G _{k} y _{k}}) y_{k}$ 解释：将 $Q_{k}$ 的表达式代入。

$y_{k}^{T} G_{k} y_{k}$ 是一个标量。
矩阵乘法结合律。

$= - \frac{G _{k} y _{k} ( y _{k}^{T} G _{k} y _{k} )}{y _{k}^{T} G _{k} y _{k}}$ 解释： $y_{k}^{T} G_{k} y_{k}$ 是一个标量，可以被约分。

$= - G_{k} y_{k}$ 结论： $Q_{k} = - \frac{G _{k} y _{k} y _{k}^{T} G _{k}}{y _{k}^{T} G _{k} y _{k}}$ 确实满足 $Q_{k} y_{k} = - G_{k} y_{k}$ 。 直观作用： $Q_{k}$ 项是为了“抵消” $G_{k} y_{k}$ 这一项，从而确保整个 $G_{k + 1} y_{k}$ 最终只剩下 $δ_{k}$ 。它也是一个秩1矩阵。

5. 最终 DFP 迭代公式

将 $P_{k}$ 和 $Q_{k}$ 的表达式代回到 $G_{k + 1} = G_{k} + P_{k} + Q_{k}$ 中，我们就得到了 DFP 算法的最终更新公式：

$G_{k + 1} = G_{k} + \frac{δ _{k} δ _{k}^{T}}{δ _{k}^{T} y _{k}} - \frac{G _{k} y _{k} y _{k}^{T} G _{k}}{y _{k}^{T} G _{k} y _{k}}$

解释：

第一项 $G_{k}$ 是旧的近似矩阵。
第二项 $\frac{δ _{k} δ _{k}^{T}}{δ _{k}^{T} y _{k}}$ 是 $P_{k}$ 项，它确保了更新后的矩阵将 $δ_{k}$ 映射到它自己。
第三项 $- \frac{G _{k} y _{k} y _{k}^{T} G _{k}}{y _{k}^{T} G _{k} y _{k}}$ 是 $Q_{k}$ 项，它“减去”了 $G_{k}$ 作用在 $y_{k}$ 上的部分，以保持拟牛顿条件。

6. 额外重要性质

DFP 算法被设计为不仅满足拟牛顿条件，还能保持近似矩阵的对称性和正定性（如果初始矩阵 $G_{0}$ 是正定对称的，并且 $δ_{k}^{T} y_{k} > 0$ ）。这对于优化算法的稳定收敛至关重要。

LazyBearLee's Blog

探索

拟牛顿法-DFD部分推导

DFP 算法的推导 (Davidon–Fletcher–Powell Update)

1. 回顾与符号约定

2. 拟牛顿条件 (Quasi-Newton Condition)

3. 秩2校正 (Rank-2 Correction)

4. 确定修正项 $P_{k}$ 和 $Q_{k}$

4.1 设计 $P_{k}$

4.2 设计 $Q_{k}$

5. 最终 DFP 迭代公式

6. 额外重要性质

关系图谱

目录

LazyBearLee's Blog

探索

拟牛顿法-DFD部分推导

DFP 算法的推导 (Davidon–Fletcher–Powell Update)

1. 回顾与符号约定

2. 拟牛顿条件 (Quasi-Newton Condition)

3. 秩2校正 (Rank-2 Correction)

4. 确定修正项 Pk​ 和 Qk​

4.1 设计 Pk​

4.2 设计 Qk​

5. 最终 DFP 迭代公式

6. 额外重要性质

关系图谱

目录

4. 确定修正项 $P_{k}$ 和 $Q_{k}$

4.1 设计 $P_{k}$

4.2 设计 $Q_{k}$