合页损失与线性支持向量机

线性支持向量机与合页损失 (Hinge Loss)

1. 损失函数在机器学习中的作用

在机器学习中，我们通常通过最小化一个损失函数 (Loss Function) 来训练模型。损失函数衡量模型预测值与真实值之间的“差距”或“误差”。最小化损失函数的目标，是找到一组模型参数，使得模型在训练数据上的表现尽可能好。

例如：

线性回归通常使用均方误差 (Mean Squared Error, MSE) 作为损失函数。
逻辑回归通常使用对数损失 (Log Loss / Cross-Entropy Loss)。

SVM 也不例外，它也可以被视为最小化一个特定的损失函数。

2. 回顾线性支持向量机的原始问题

从线性支持向量机而来，我们先回顾一下软间隔线性支持向量机的原始优化问题。给定训练数据集 ${(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}$ ，其中 $y_{i} \in {- 1, + 1}$ 。问题形式为：

$min_{w, b, ξ} \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} ξ_{i}$ $s.t. y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i} 对于所有 i = 1, \dots, N (约束 1)$ $ξ_{i} \geq 0 对于所有 i = 1, \dots, N (约束 2)$

其中， $ξ_{i}$ 是松弛变量， $C$ 是惩罚参数。

3. 定义合页损失 (Hinge Loss)

在讨论合页损失之前，我们先定义一个常用的操作符：正部函数 (Positive Part Function)。 $[z]_{+} = max (0, z) = {z 0 如果 z > 0 如果 z \leq 0$ 解释：这个函数简单地取输入值和 0 之间的较大者。如果输入是正数，就返回它本身；如果输入是负数或零，就返回 0。

现在，我们定义合页损失。对于一个样本 $(x_{i}, y_{i})$ ，其损失定义为： $L_{hinge} (y_{i}, w^{T} x_{i} + b) = [1 - y_{i} (w^{T} x_{i} + b)]_{+}$ 解释：

其中的 $y_{i} (w^{T} x_{i} + b)$ 正是我们之前定义的函数间隔 $\overset{γ}{^}_{i}$ 。
所以合页损失可以写成 $L_{hinge} (\overset{γ}{^}_{i}) = [1 - \overset{γ}{^}_{i}]_{+}$ .
函数图像：
- 当 $\overset{γ}{^}_{i} \geq 1$ 时（即样本被正确分类且函数间隔大于或等于 1，位于间隔边界上或正确一侧）， $1 - \overset{γ}{^}_{i} \leq 0$ 。此时，合页损失为 $max (0, 负数或零) = 0$ 。这意味着当样本被“足够正确”地分类时，损失为零。
- 当 $\overset{γ}{^}_{i} < 1$ 时（即样本位于间隔边界和决策超平面之间，或被错误分类）， $1 - \overset{γ}{^}_{i} > 0$ 。此时，合页损失为 $1 - \overset{γ}{^}_{i}$ 。损失随着函数间隔的减小而线性增加。

下图能够更清晰地展示合页损失的形状：

当函数间隔 $\geq 1$ 时，损失为 0。
当函数间隔 $< 1$ 时，损失呈线性增加。

4. 松弛变量 $ξ_{i}$ 与合页损失的等价性

现在，我们来证明线性 SVM 原始问题中的松弛变量 $ξ_{i}$ 实际上等价于合页损失。

回顾松弛变量的定义和约束： $y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i} (约束 1)$ $ξ_{i} \geq 0 (约束 2)$

我们可以将约束 1 重新整理一下： $ξ_{i} \geq 1 - y_{i} (w^{T} x_{i} + b)$

现在，考虑原始优化问题的目标函数： $min_{w, b, ξ} \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} ξ_{i}$ 我们要最小化 $\sum ξ_{i}$ 。在满足 $ξ_{i} \geq 1 - y_{i} (w^{T} x_{i} + b)$ 和 $ξ_{i} \geq 0$ 这两个条件的前提下，为了使 $\sum ξ_{i}$ 尽可能小，每个 $ξ_{i}$ 的取值应该尽可能小。因此，对于每个 $ξ_{i}$ ，它的最优取值将是满足这两个约束的最小值。这个最小值恰好就是： $ξ_{i} = max (0, 1 - y_{i} (w^{T} x_{i} + b))$ 解释：

如果 $1 - y_{i} (w^{T} x_{i} + b) \leq 0$ （即 $y_{i} (w^{T} x_{i} + b) \geq 1$ ），那么为了最小化 $ξ_{i}$ ，我们取 $ξ_{i} = 0$ 。这符合 $y_{i} (w^{T} x_{i} + b) \geq 1 - 0$ 。
如果 $1 - y_{i} (w^{T} x_{i} + b) > 0$ （即 $y_{i} (w^{T} x_{i} + b) < 1$ ），那么为了最小化 $ξ_{i}$ ，我们取 $ξ_{i} = 1 - y_{i} (w^{T} x_{i} + b)$ 。这符合 $y_{i} (w^{T} x_{i} + b) \geq 1 - (1 - y_{i} (w^{T} x_{i} + b)) ⟹ y_{i} (w^{T} x_{i} + b) \geq y_{i} (w^{T} x_{i} + b)$ ，且 $ξ_{i} > 0$ 。

所以，我们可以直接用 $max (0, 1 - y_{i} (w^{T} x_{i} + b))$ 来替换原始问题中的 $ξ_{i}$ 。

5. 将 SVM 原始问题表示为正则化经验风险最小化

将 $ξ_{i} = [1 - y_{i} (w^{T} x_{i} + b)]_{+}$ 代入原始优化问题： $min_{w, b} \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} [1 - y_{i} (w^{T} x_{i} + b)]_{+}$

这就是线性支持向量机从合页损失角度的理解！

正则化项 (Regularization Term)： $\frac{1}{2} ∥ w ∥^{2}$
- 它旨在最小化模型复杂度，防止过拟合。这被称为 L2 正则化。最小化 $∥ w ∥$ 实际上对应于最大化间隔。
经验风险项 (Empirical Risk Term)： $C \sum_{i = 1}^{N} [1 - y_{i} (w^{T} x_{i} + b)]_{+}$
- 它衡量模型在训练数据上的分类损失，即模型拟合训练数据的程度。这里的损失函数就是合页损失。
- 参数 $C$ 平衡了正则化项和经验风险项的重要性。

因此，==线性支持向量机可以被看作是一个在 L2 正则化下，最小化合页损失的优化问题。==

6. 合页损失与 0-1 损失的比较

在分类问题中，理想的损失函数是 0-1 损失 (Zero-One Loss)： $L_{0 - 1} (y, sign (w^{T} x + b)) = {10 如果 y \neq = sign (w^{T} x + b) 如果 y = sign (w^{T} x + b)$ 或者，用函数间隔表示： $L_{0 - 1} (\overset{γ}{^}) = {10 如果 \overset{γ}{^} \leq 0 如果 \overset{γ}{^} > 0$ 解释：

当样本被错误分类时（函数间隔 $\overset{γ}{^} \leq 0$ ），损失为 1。
当样本被正确分类时（函数间隔 $\overset{γ}{^} > 0$ ），损失为 0。

为什么不直接优化 0-1 损失？ 因为 0-1 损失是一个非凸、不连续、不可微的函数。这意味着它有许多局部最小值，并且不能使用梯度下降等基于梯度的优化方法进行求解，是一个 NP-hard 问题。

合页损失作为 0-1 损失的“替代品”：

上界：合页损失是 0-1 损失的一个上界。
- 当 $\overset{γ}{^} \leq 0$ 时，合页损失为 $1 - \overset{γ}{^}$ ，此时 $1 - \overset{γ}{^} \geq 1$ 。而 0-1 损失为 1。所以合页损失 $\geq$ 0-1 损失。
- 当 $\overset{γ}{^} > 0$ 且 $\overset{γ}{^} < 1$ 时，合页损失为 $1 - \overset{γ}{^}$ 。而 0-1 损失为 0。所以合页损失 $\geq$ 0-1 损失。
- 当 $\overset{γ}{^} \geq 1$ 时，合页损失为 0。而 0-1 损失也为 0。所以合页损失 $=$ 0-1 损失。
凸性：合页损失是一个凸函数。这使得整个优化问题（ $1/2∥ w ∥^{2}$ 也是凸函数，凸函数之和仍是凸函数）成为一个凸优化问题，可以被高效地求解，并且能保证找到全局最优解。
间隔惩罚：合页损失对那些“分类正确但不够自信”的样本（即 $0 < \overset{γ}{^} < 1$ 的样本）仍然施加惩罚，这符合 SVM 最大化间隔的思想。它促使模型不仅要正确分类，还要让样本尽可能远离决策边界，落在间隔之外。

总结

从合页损失的角度看线性 SVM，它提供了一个更通用的机器学习框架理解：

SVM 的原始优化问题（带松弛变量和约束）可以等价地转换为一个无约束的正则化经验风险最小化问题。
在这个无约束问题中，L2 范数惩罚项 ( $1/2∥ w ∥^{2}$ ) 用于控制模型复杂度（最大化间隔），而合页损失 ( $[1 - y_{i} (w^{T} x_{i} + b)]_{+}$ ) 则作为衡量分类误差的损失函数。
合页损失是一个凸函数，它作为理想但难以优化的 0-1 损失的凸替代品，使得 SVM 的优化问题变得可解且高效。同时，合页损失能够惩罚那些在间隔内部的样本，体现了 SVM 追求最大间隔的特性。

LazyBearLee's Blog

探索

合页损失与线性支持向量机

线性支持向量机与合页损失 (Hinge Loss)

1. 损失函数在机器学习中的作用

2. 回顾线性支持向量机的原始问题

3. 定义合页损失 (Hinge Loss)

4. 松弛变量 $ξ_{i}$ 与合页损失的等价性

5. 将 SVM 原始问题表示为正则化经验风险最小化

6. 合页损失与 0-1 损失的比较

总结

关系图谱

目录

LazyBearLee's Blog

探索

合页损失与线性支持向量机

线性支持向量机与合页损失 (Hinge Loss)

1. 损失函数在机器学习中的作用

2. 回顾线性支持向量机的原始问题

3. 定义合页损失 (Hinge Loss)

4. 松弛变量 ξi​ 与合页损失的等价性

5. 将 SVM 原始问题表示为正则化经验风险最小化

6. 合页损失与 0-1 损失的比较

总结

关系图谱

目录

4. 松弛变量 $ξ_{i}$ 与合页损失的等价性