牛顿法优化

牛顿法 (Newton’s Method) 在优化中的应用

1. 概念的直观理解 (The “Why” and “What”)

1.1 这是什么？我们为什么需要它？

在机器学习中，我们经常需要找到一个函数的最小值或最大值。例如，训练模型时，我们通常会定义一个损失函数 (Loss Function) 来衡量模型预测与真实值之间的差距。我们的目标就是找到一组模型参数，使得这个损失函数的值最小。这个寻找最小值（或最大值）的过程就是优化 (Optimization)。

牛顿法就是一种用来寻找函数局部最小值（或最大值）的迭代优化算法。它比我们可能更熟悉的梯度下降法（Gradient Descent）通常收敛得更快，因为它利用了函数的二阶导数信息。

1.2 现实类比和几何直觉

想象一下我们在一座山顶（或者山谷底部），我们想要找到最低点。

梯度下降法就像是我们闭着眼睛，感受脚下的坡度（梯度），然后沿着最陡峭的方向迈出一步。这一步可能很小，也可能有点大，但我们不知道最低点到底有多远，也不知道走到最低点之前坡度会如何变化。我们只能一步步摸索。
牛顿法则更像是我们拥有一个“超能力”，我们不仅知道脚下的坡度（一阶导数/梯度），我们还能感知到坡度变化的趋势，即“地面的弯曲程度”（二阶导数/Hessian矩阵）。有了这些信息，我们就可以预测最低点大致在哪里，然后直接“跳”过去。如果我们的预测足够准确，我们可能只需要几次跳跃就能到达最低点。

几何直觉：用抛物线逼近

对于一个单变量函数 $f (x)$ ，牛顿法的核心思想是：在当前点 $x_{k}$ 附近，我们用一个抛物线 (quadratic function) 来近似 $f (x)$ 。我们知道抛物线有一个唯一的最低点（或最高点），这个最低点可以直接通过公式计算出来。牛顿法就是把这个抛物线的最低点作为下一次迭代的猜测值 $x_{k + 1}$ 。

想象我们在一个复杂的函数曲面上寻找最低点：

在当前位置 $x_{k}$ 观察地面。
假设当前位置附近的地面是一个抛物线形状。
直接计算这个抛物线的最低点在哪里。
“跳”到这个抛物线的最低点，作为我们的新位置 $x_{k + 1}$ 。
重复这个过程，直到我们找到真正的最低点。

这种“用局部抛物线近似”的方法使得牛顿法能够更快地收敛到最小值，因为它利用了更多的函数信息（不仅仅是坡度，还有坡度变化的速率）。

2. 预备数学知识与符号解释 (Mathematical Preliminaries & Notation)

为了理解牛顿法，我们需要回顾一些基础的微积分和线性代数概念。

2.1 导数与偏导数

导数 (Derivative)：对于单变量函数 $f (x)$ ，导数 $f^{'} (x)$ 或 $\frac{df}{d x}$ 表示函数在某一点的瞬时变化率（斜率）。如果导数为0，通常表示函数在该点有局部最大值、最小值或鞍点。
二阶导数 (Second Derivative)： $f^{''} (x)$ 或 $\frac{d ^{2} f}{d x ^{2}}$ 表示函数变化率的变化率，即函数的弯曲程度。
- 如果 $f^{''} (x) > 0$ ，函数在该点是凹的（碗状向上，有局部最小值）。
- 如果 $f^{''} (x) < 0$ ，函数在该点是凸的（碗状向下，有局部最大值）。
偏导数 (Partial Derivative)：对于多变量函数 $f (x_{1}, x_{2}, \dots, x_{n})$ ，偏导数 $\frac{\partial f}{\partial x _{i}}$ 表示当所有其他变量保持不变时，函数随 $x_{i}$ 的变化率。

2.2 梯度 (Gradient)

符号： $\nabla f (x)$
定义：对于多变量函数 $f (x)$ ，其中 $x = [x_{1}, x_{2}, \dots, x_{n}]^{T}$ 是一个向量，梯度是一个向量，其分量是 $f$ 对每个变量的偏导数。 $\nabla f (x) = \frac{\partial f}{\partial x _{1}} \frac{\partial f}{\partial x _{2}} ⋮ \frac{\partial f}{\partial x _{n}}$
意义：梯度向量指向函数值增长最快的方向，其大小表示该方向上的最大变化率。在优化中，我们通常沿着梯度的反方向（最速下降方向）移动来寻找最小值。

2.3 Hessian 矩阵 (Hessian Matrix)

符号： $H (x)$ 或 $\nabla^{2} f (x)$
定义：对于多变量函数 $f (x)$ ，Hessian 矩阵是一个方阵，包含了所有的二阶偏导数。其第 $i$ 行第 $j$ 列的元素是 $f$ 对 $x_{i}$ 和 $x_{j}$ 的二阶偏导数。 $H (x)_{ij} = \frac{\partial ^{2} f}{\partial x _{i} \partial x _{j}}$ 即： $H (x) = \frac{\partial ^{2} f}{\partial x _{1}^{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}}$
性质：如果函数 $f$ 的二阶偏导数是连续的，那么混合偏导数是相等的，即 $\frac{\partial ^{2} f}{\partial x _{i} \partial x _{j}} = \frac{\partial ^{2} f}{\partial x _{j} \partial x _{i}}$ 。这意味着 Hessian 矩阵通常是一个对称矩阵。
意义：Hessian 矩阵描述了函数曲率（弯曲程度）的性质。它告诉我们函数在某个方向上是加速增长还是减速增长，这对于判断一个点是局部最小值、最大值还是鞍点至关重要。

2.4 泰勒级数展开 (Taylor Series Expansion)

这是牛顿法的核心数学工具。它允许我们用多项式来近似一个在某点附近足够光滑的函数。

单变量函数 $f (x)$ 在 $x_{k}$ 处的二阶泰勒展开： $f (x) \approx f (x_{k}) + f^{'} (x_{k}) (x - x_{k}) + \frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2}$ 这里， $x$ 是我们想要估计的函数值点， $x_{k}$ 是我们知道函数值和导数值的点。
多变量函数 $f (x)$ 在 $x_{k}$ 处的二阶泰勒展开： $f (x) \approx f (x_{k}) + \nabla f (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k})$ 这里， $x$ 是一个向量， $^{T}$ 表示向量或矩阵的转置。
- $f (x_{k})$ ：函数在当前点的值。
- $\nabla f (x_{k})^{T} (x - x_{k})$ ：这是一个点积，表示一阶导数（梯度）项。
- $\frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k})$ ：这是一个二次型，表示二阶导数（Hessian）项。

2.5 矩阵逆 (Matrix Inverse)

对于一个方阵 $A$ ，如果存在一个矩阵 $A^{- 1}$ 使得 $A A^{- 1} = A^{- 1} A = I$ （其中 $I$ 是单位矩阵），则称 $A^{- 1}$ 为 $A$ 的逆矩阵。
在牛顿法中，我们需要计算 Hessian 矩阵的逆矩阵。

3. 详细分步推导 (Step-by-Step Derivation)

牛顿法的思想是，我们通过找到泰勒展开式的近似函数的最小值来更新我们的参数。对于一个光滑函数，其最小值点（或最大值点）处的导数（或梯度）为零。

3.1 单变量函数 $f (x)$ 的牛顿法推导

我们的目标是找到 $x$ 使得 $f^{'} (x) = 0$ 。

步骤 1：二阶泰勒展开 我们用一个抛物线来近似函数 $f (x)$ 在当前点 $x_{k}$ 附近的行为。这个抛物线就是 $f (x)$ 在 $x_{k}$ 处的二阶泰勒展开式： $f (x) \approx f (x_{k}) + f^{'} (x_{k}) (x - x_{k}) + \frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2}$ 令 $g (x) = f (x_{k}) + f^{'} (x_{k}) (x - x_{k}) + \frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2}$ 为这个近似函数。

步骤 2：找到近似函数的最小值 要找到 $g (x)$ 的最小值，我们对其求导，并令导数等于零。我们对 $g (x)$ 关于 $x$ 求一阶导数： $\frac{d}{d x} g (x) = \frac{d}{d x} (f (x_{k}) + f^{'} (x_{k}) (x - x_{k}) + \frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2})$ 解释： 逐项求导。

$f (x_{k})$ 是常数项，求导为 0。
$f^{'} (x_{k}) (x - x_{k})$ 是线性项，求导得到 $f^{'} (x_{k})$ （因为 $f^{'} (x_{k})$ 是一个常数）。
$\frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2}$ 是二次项，求导利用链式法则。令 $u = (x - x_{k})$ ，则 $\frac{d}{d x} u^{2} = 2 u \frac{d u}{d x} = 2 (x - x_{k}) \cdot 1$ 。所以， $\frac{d}{d x} (\frac{1}{2} f^{''} (x_{k}) (x - x_{k})^{2}) = \frac{1}{2} f^{''} (x_{k}) \cdot 2 (x - x_{k}) = f^{''} (x_{k}) (x - x_{k})$ 。

结合以上，我们得到 $g (x)$ 的导数： $\frac{d}{d x} g (x) = f^{'} (x_{k}) + f^{''} (x_{k}) (x - x_{k})$

为了找到 $g (x)$ 的最小值点（我们称之为 $x_{k + 1}$ ），我们将这个导数设为零： $f^{'} (x_{k}) + f^{''} (x_{k}) (x_{k + 1} - x_{k}) = 0$

步骤 3：解出 $x_{k + 1}$ 现在我们从上面的方程中解出 $x_{k + 1}$ 。 $f^{''} (x_{k}) (x_{k + 1} - x_{k}) = - f^{'} (x_{k})$ 解释： 将 $f^{'} (x_{k})$ 移到等式右侧。

假设 $f^{''} (x_{k}) \neq = 0$ ，我们可以两边同除以 $f^{''} (x_{k})$ : $x_{k + 1} - x_{k} = - \frac{f ^{'} ( x _{k} )}{f ^{''} ( x _{k} )}$ 解释： 两边除以 $f^{''} (x_{k})$ 。

最后，将 $x_{k}$ 移到等式右侧，得到牛顿法的迭代公式： $x_{k + 1} = x_{k} - \frac{f ^{'} ( x _{k} )}{f ^{''} ( x _{k} )}$ 这就是单变量函数牛顿法的核心迭代公式。

3.2 多变量函数 $f (x)$ 的牛顿法推导

我们的目标是找到 $x$ 使得 $\nabla f (x) = 0$ 。

步骤 1：二阶泰勒展开 我们用一个二次曲面来近似函数 $f (x)$ 在当前点 $x_{k}$ 附近的行为。这个二次曲面就是 $f (x)$ 在 $x_{k}$ 处的二阶泰勒展开式： $f (x) \approx f (x_{k}) + \nabla f (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k})$ 令 $g (x) = f (x_{k}) + \nabla f (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k})$ 为这个近似函数。

步骤 2：找到近似函数的最小值 要找到 $g (x)$ 的最小值，我们对其求梯度，并令梯度等于零（因为最小值处的梯度为零向量）。

我们对 $g (x)$ 关于 $x$ 求梯度： $\nabla g (x) = \nabla_{x} (f (x_{k}) + \nabla f (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k}))$ 解释： 逐项求梯度。

$f (x_{k})$ 是常数项，求梯度为 $0$ 。
$\nabla f (x_{k})^{T} (x - x_{k})$ 是线性项（例如，如果 $\nabla f (x_{k}) = [a, b]^{T}$ 且 $x - x_{k} = [u, v]^{T}$ ，则该项为 $a u + b v$ ）。对于一个向量 $c^{T} x$ ，其梯度是 $c$ 。所以这一项的梯度是 $\nabla f (x_{k})$ 。
- 复习：向量微积分中的梯度规则
  - $\nabla_{x} (c^{T} x) = c$
  - $\nabla_{x} (x^{T} Ax) = (A + A^{T}) x$
  - 如果 $A$ 是对称矩阵，则 $\nabla_{x} (x^{T} Ax) = 2 Ax$
$\frac{1}{2} (x - x_{k})^{T} H (x_{k}) (x - x_{k})$ 是二次型。令 $y = x - x_{k}$ 。则该项为 $\frac{1}{2} y^{T} H (x_{k}) y$ 。由于 $H (x_{k})$ 是对称矩阵，根据上述梯度规则，其梯度是 $2 \cdot \frac{1}{2} H (x_{k}) y = H (x_{k}) (x - x_{k})$ 。

结合以上，我们得到 $g (x)$ 的梯度： $\nabla g (x) = \nabla f (x_{k}) + H (x_{k}) (x - x_{k})$

为了找到 $g (x)$ 的最小值点（我们称之为 $x_{k + 1}$ ），我们将这个梯度设为零向量： $\nabla f (x_{k}) + H (x_{k}) (x_{k + 1} - x_{k}) = 0$

步骤 3：解出 $x_{k + 1}$ 现在我们从上面的方程中解出 $x_{k + 1}$ 。 $H (x_{k}) (x_{k + 1} - x_{k}) = - \nabla f (x_{k})$ 解释： 将 $\nabla f (x_{k})$ 移到等式右侧。

假设 Hessian 矩阵 $H (x_{k})$ 是可逆的，我们可以两边同乘以 $H (x_{k})^{- 1}$ : $H (x_{k})^{- 1} H (x_{k}) (x_{k + 1} - x_{k}) = - H (x_{k})^{- 1} \nabla f (x_{k})$ 解释： 两边左乘 $H (x_{k})^{- 1}$ 。

由于 $H (x_{k})^{- 1} H (x_{k}) = I$ （单位矩阵），我们得到： $I (x_{k + 1} - x_{k}) = - H (x_{k})^{- 1} \nabla f (x_{k})$ $x_{k + 1} - x_{k} = - H (x_{k})^{- 1} \nabla f (x_{k})$

最后，将 $x_{k}$ 移到等式右侧，得到多变量牛顿法的迭代公式： $x_{k + 1} = x_{k} - H (x_{k})^{- 1} \nabla f (x_{k})$ 这就是多变量函数牛顿法的核心迭代公式。这里的 $H (x_{k})^{- 1} \nabla f (x_{k})$ 常常被称为牛顿方向 (Newton Direction)。

总结： 无论是单变量还是多变量，牛顿法的迭代公式都是： 新的点 = 当前点 - (二阶导数的逆) * (一阶导数)

4. 实例 (Concrete Numerical Example)

让我们通过一个简单的例子来演示牛顿法如何工作。

单变量例子： 假设我们想找到函数 $f (x) = x^{2} - 4 x + 7$ 的最小值。这个函数是一个抛物线，其最小值点可以通过求导并令导数等于 0 找到： $f^{'} (x) = 2 x - 4 = 0 ⟹ x = 2$ 。我们用牛顿法来验证。

首先，我们需要计算一阶导数和二阶导数：

$f^{'} (x) = 2 x - 4$
$f^{''} (x) = 2$

现在，我们选择一个初始点 $x_{0}$ 。让我们选择 $x_{0} = 0$ 。

第一次迭代 ( $k = 0$ )：

计算 $f^{'} (x_{0}) = f^{'} (0) = 2 (0) - 4 = - 4$
计算 $f^{''} (x_{0}) = f^{''} (0) = 2$
应用牛顿法更新公式： $x_{1} = x_{0} - \frac{f ^{'} ( x _{0} )}{f ^{''} ( x _{0} )}$ $x_{1} = 0 - \frac{- 4}{2}$ $x_{1} = 0 - (- 2)$ $x_{1} = 2$ 看！我们仅用一次迭代就直接找到了最小值点 $x = 2$ 。这是因为我们选择的函数是一个二次函数，它的二阶泰勒展开式就是它本身，所以近似是完全准确的。

多变量例子： 假设我们想找到函数 $f (x_{1}, x_{2}) = x_{1}^{2} + 2 x_{2}^{2} - 4 x_{1} - 8 x_{2} + 10$ 的最小值。

首先，我们需要计算梯度向量 $\nabla f (x)$ 和 Hessian 矩阵 $H (x)$ 。

计算梯度： $\frac{\partial f}{\partial x _{1}} = 2 x_{1} - 4$ $\frac{\partial f}{\partial x _{2}} = 4 x_{2} - 8$ 所以，梯度向量是： $\nabla f (x) = [2 x_{1} - 4 4 x_{2} - 8]$
计算 Hessian 矩阵： $\frac{\partial ^{2} f}{\partial x _{1}^{2}} = 2$ $\frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} = 0$ $\frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} = 0$ $\frac{\partial ^{2} f}{\partial x _{2}^{2}} = 4$ 所以，Hessian 矩阵是： $H (x) = [2004]$ 注意到 Hessian 矩阵在这个例子中是一个常数矩阵，不依赖于 $x$ 。

现在，我们选择一个初始点 $x_{0} = [00]$ 。

第一次迭代 ( $k = 0$ )：

在 $x_{0} = [00]$ 处计算梯度： $\nabla f (x_{0}) = [2 (0) - 4 4 (0) - 8] = [- 4 - 8]$
计算 Hessian 矩阵的逆： $H (x_{0})^{- 1} = [2004]^{- 1}$ 对于对角矩阵，逆矩阵是其对角元素取倒数： $H (x_{0})^{- 1} = [1/2 0 0 1/4] = [0.5 0 0 0.25]$
应用牛顿法更新公式： $x_{1} = x_{0} - H (x_{0})^{- 1} \nabla f (x_{0})$ $x_{1} = [00] - [0.5 0 0 0.25] [- 4 - 8]$ $x_{1} = [00] - [(0.5) (- 4) + (0) (- 8) (0) (- 4) + (0.25) (- 8)]$ $x_{1} = [00] - [- 2 - 2]$ $x_{1} = [22]$ 再次，我们仅用一次迭代就直接找到了最小值点 $x = [22]$ 。这同样是因为我们选择的函数是一个二次函数，其二阶泰勒展开式就是它本身。对于更复杂的非二次函数，牛顿法通常需要多次迭代才能收敛，但其收敛速度通常比梯度下降法快得多。

5. NumPy 实现 (Code Implementation)

我们将使用 Python 和 NumPy 来实现牛顿法。

import numpy as np
 
# --- 1. 单变量函数牛顿法示例 ---
 
def f_univariate(x):
    """单变量目标函数：f(x) = x^2 - 4x + 7"""
    return x**2 - 4*x + 7
 
def df_univariate(x):
    """单变量目标函数的一阶导数：f'(x) = 2x - 4"""
    return 2*x - 4
 
def ddf_univariate(x):
    """单变量目标函数的二阶导数：f''(x) = 2"""
    return 2
 
def newton_method_univariate(initial_x, tol=1e-6, max_iter=100):
    """
    单变量牛顿法实现
    Args:
        initial_x (float): 初始猜测值 x_0
        tol (float): 收敛容差
        max_iter (int): 最大迭代次数
    Returns:
        float: 找到的最小值点 x
    """
    x_k = initial_x
    print(f"--- 单变量牛顿法开始 (初始点 x_0 = {x_k}) ---")
    for i in range(max_iter):
        grad = df_univariate(x_k)   # 对应数学公式中的 f'(x_k)
        hess = ddf_univariate(x_k)  # 对应数学公式中的 f''(x_k)
 
        if abs(hess) < 1e-10: # 避免除以零，或者Hessian为零导致无法更新
            print(f"迭代 {i+1}: 二阶导数过小，可能无法收敛或遇到鞍点。当前 x = {x_k}")
            break
        
        # 牛顿法更新公式：x_{k+1} = x_k - f'(x_k) / f''(x_k)
        delta_x = grad / hess 
        x_new = x_k - delta_x
        
        print(f"迭代 {i+1}: x_k={x_k:.6f}, f'(x_k)={grad:.6f}, f''(x_k)={hess:.6f}, delta_x={delta_x:.6f}, x_{{k+1}}={x_new:.6f}")
        
        if abs(x_new - x_k) < tol:
            print(f"--- 单变量牛顿法收敛于 {x_new:.6f}，迭代次数：{i+1} ---")
            return x_new
        
        x_k = x_new
    
    print(f"--- 单变量牛顿法未收敛 (达到最大迭代次数)，最终结果：{x_k:.6f} ---")
    return x_k
 
# 运行单变量牛顿法
# result_univariate = newton_method_univariate(initial_x=0.0) 
# result_univariate = newton_method_univariate(initial_x=5.0)
 
# --- 2. 多变量函数牛顿法示例 ---
 
def f_multivariate(x_vec):
    """多变量目标函数：f(x1, x2) = x1^2 + 2x2^2 - 4x1 - 8x2 + 10"""
    x1, x2 = x_vec[0], x_vec[1]
    return x1**2 + 2*x2**2 - 4*x1 - 8*x2 + 10
 
def grad_multivariate(x_vec):
    """多变量目标函数的梯度向量：nabla f(x) = [2x1 - 4, 4x2 - 8]^T"""
    x1, x2 = x_vec[0], x_vec[1]
    return np.array([2*x1 - 4, 4*x2 - 8])
 
def hessian_multivariate(x_vec):
    """多变量目标函数的Hessian矩阵：H(x) = [[2, 0], [0, 4]]"""
    # 这个例子中Hessian是常数，不依赖x_vec
    return np.array([[2, 0], [0, 4]])
 
def newton_method_multivariate(initial_x_vec, tol=1e-6, max_iter=100):
    """
    多变量牛顿法实现
    Args:
        initial_x_vec (np.array): 初始猜测向量 x_0
        tol (float): 收敛容差
        max_iter (int): 最大迭代次数
    Returns:
        np.array: 找到的最小值点 x 向量
    """
    x_k = np.array(initial_x_vec, dtype=float)
    print(f"\n--- 多变量牛顿法开始 (初始点 x_0 = {x_k}) ---")
    for i in range(max_iter):
        grad = grad_multivariate(x_k)    # 对应数学公式中的 nabla f(x_k)
        hess = hessian_multivariate(x_k) # 对应数学公式中的 H(x_k)
 
        # 检查Hessian是否可逆 (正定或负定，用于最小化通常要求正定)
        # 实际应用中，通常会用线性方程组求解 H * delta_x = -grad，而不是直接求逆
        # 因为求逆的计算量大且数值稳定性差。这里为了清晰展示公式，我们直接求逆。
        try:
            hess_inv = np.linalg.inv(hess) # 对应数学公式中的 H(x_k)^-1
        except np.linalg.LinAlgError:
            print(f"迭代 {i+1}: Hessian矩阵不可逆。当前 x = {x_k}")
            break
        
        # 牛顿法更新公式：x_{k+1} = x_k - H(x_k)^-1 * nabla f(x_k)
        # 这里的 @ 运算符是矩阵乘法
        delta_x = hess_inv @ grad # 对应数学公式中的 H(x_k)^-1 * nabla f(x_k)
        x_new = x_k - delta_x
        
        print(f"迭代 {i+1}: x_k={x_k}, grad={grad}, hess={hess.tolist()}, delta_x={delta_x}, x_{{k+1}}={x_new}")
        
        if np.linalg.norm(x_new - x_k) < tol: # 使用L2范数判断收敛
            print(f"--- 多变量牛顿法收敛于 {x_new}，迭代次数：{i+1} ---")
            return x_new
        
        x_k = x_new
    
    print(f"--- 多变量牛顿法未收敛 (达到最大迭代次数)，最终结果：{x_k} ---")
    return x_k
 
# 运行多变量牛顿法
result_multivariate = newton_method_multivariate(initial_x_vec=[0.0, 0.0])

代码与数学公式的关联：

df_univariate(x) 和 grad_multivariate(x_vec) 对应数学公式中的 $f^{'} (x_{k})$ 和 $\nabla f (x_{k})$ 。
ddf_univariate(x) 和 hessian_multivariate(x_vec) 对应数学公式中的 $f^{''} (x_{k})$ 和 $H (x_{k})$ 。
np.linalg.inv(hess) 对应数学公式中的 $H (x_{k})^{- 1}$ 。
x_new = x_k - delta_x 对应核心的迭代公式 $x_{k + 1} = x_{k} - \frac{f ^{'} ( x _{k} )}{f ^{''} ( x _{k} )}$ 和 $x_{k + 1} = x_{k} - H (x_{k})^{- 1} \nabla f (x_{k})$ 。
@ 运算符是 NumPy 中进行矩阵乘法的操作，等价于数学公式中的矩阵与向量的乘积。

请注意，在实际应用中，计算Hessian矩阵的逆（np.linalg.inv(hess)）可能非常昂贵且不稳定，特别是对于高维问题。更常用的做法是解一个线性方程组 $H (x_{k}) p_{k} = - \nabla f (x_{k})$ 来找到更新方向 $p_{k}$ ，然后令 $x_{k + 1} = x_{k} + p_{k}$ 。这个过程可以通过 np.linalg.solve(hess, -grad) 来完成，它比直接求逆更有效率和数值稳定性。

LazyBearLee's Blog

探索

牛顿法优化

牛顿法 (Newton’s Method) 在优化中的应用

1. 概念的直观理解 (The “Why” and “What”)

1.1 这是什么？我们为什么需要它？

1.2 现实类比和几何直觉

2. 预备数学知识与符号解释 (Mathematical Preliminaries & Notation)

2.1 导数与偏导数

2.2 梯度 (Gradient)

2.3 Hessian 矩阵 (Hessian Matrix)

2.4 泰勒级数展开 (Taylor Series Expansion)

2.5 矩阵逆 (Matrix Inverse)

3. 详细分步推导 (Step-by-Step Derivation)

3.1 单变量函数 $f (x)$ 的牛顿法推导

3.2 多变量函数 $f (x)$ 的牛顿法推导

4. 实例 (Concrete Numerical Example)

5. NumPy 实现 (Code Implementation)

6. 需要注意的点

关系图谱

目录

反向链接

LazyBearLee's Blog

探索

牛顿法优化

牛顿法 (Newton’s Method) 在优化中的应用

1. 概念的直观理解 (The “Why” and “What”)

1.1 这是什么？我们为什么需要它？

1.2 现实类比和几何直觉

2. 预备数学知识与符号解释 (Mathematical Preliminaries & Notation)

2.1 导数与偏导数

2.2 梯度 (Gradient)

2.3 Hessian 矩阵 (Hessian Matrix)

2.4 泰勒级数展开 (Taylor Series Expansion)

2.5 矩阵逆 (Matrix Inverse)

3. 详细分步推导 (Step-by-Step Derivation)

3.1 单变量函数 f(x) 的牛顿法推导

3.2 多变量函数 f(x) 的牛顿法推导

4. 实例 (Concrete Numerical Example)

5. NumPy 实现 (Code Implementation)

6. 需要注意的点

关系图谱

目录

反向链接

3.1 单变量函数 $f (x)$ 的牛顿法推导

3.2 多变量函数 $f (x)$ 的牛顿法推导