线性可分支持向量机

线性可分支持向量机 (Hard Margin SVM)

1. 最大间隔算法 (Maximum Margin Algorithm)

最大间隔算法是线性可分支持向量机的基础，它旨在找到一个超平面，不仅能将两类数据完全分开，而且使分类间隔最大化。

1.1 输入与输出

输入：训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ 。其中：
- $x_{i} \in R^{n}$ 是第 $i$ 个训练样本的 $n$ 维特征向量。
- $y_{i} \in {+ 1, - 1}$ 是第 $i$ 个训练样本的类别标签。
- $N$ 是训练样本的总数量。
输出：
- 能够实现最大几何间隔的分离超平面 $H^{*} : w^{*} \cdot x + b^{*} = 0$ 。
- 相应的分类决策函数 $f (x) = sign (w^{*} \cdot x + b^{*})$ 。

1.2 优化问题构建 (原始问题 Primal Problem)

为了实现最大间隔，我们构建一个优化问题。其核心思想是最大化几何间隔，同时确保所有样本都被正确分类且满足函数间隔的约束。

回顾几何间隔：对于样本 $(x_{i}, y_{i})$ ，其几何间隔为 $γ_{i} = y_{i} \frac{w \cdot x _{i} + b}{∥ w ∥}$ 。整个数据集的几何间隔为 $γ = min_{i = 1, \dots, N} γ_{i}$ 。
标准化函数间隔：如初识SVM所述，由于几何间隔具有尺度不变性，我们可以通过缩放 $w$ 和 $b$ 来标准化函数间隔。我们选择固定最小函数间隔为 1： $min_{i = 1, \dots, N} y_{i} (w \cdot x_{i} + b) = 1$ 这意味着，对于所有样本 $i$ ： $y_{i} (w \cdot x_{i} + b) \geq 1$ （对于距离超平面最近的点，即支持向量，等号成立）。在这种标准化下，最大化几何间隔 $γ = \frac{1}{∥ w ∥}$ 等价于最小化 $∥ w ∥$ 。
最终的原始优化问题 (Primal Problem)：为了方便数学处理（特别是求导），我们通常最小化 $∥ w ∥^{2}$ 或 $\frac{1}{2} ∥ w ∥^{2}$ 。 $min_{w, b} \frac{1}{2} ∥ w ∥^{2}$ $s.t. y_{i} (w \cdot x_{i} + b) \geq 1 对于所有 i = 1, \dots, N$ 这个优化问题是一个凸二次规划 (Convex Quadratic Programming) 问题。它的目标函数是严格凸函数，约束是线性不等式，定义了凸可行域。因此，存在唯一的全局最优解 $(w^{*}, b^{*})$ 。

2. 对偶问题与参数获得 (Dual Problem and Parameter Acquisition)

直接求解原始问题可能比较复杂，特别是当数据维度很高时。而将问题转化为其对偶问题 (Dual Problem) 常常能带来巨大的优势，包括：

更高效的求解算法：对偶问题通常更容易求解。
引入核函数 (Kernel Trick)：对偶问题中的内积形式 $x_{i} \cdot x_{j}$ 可以自然地替换为核函数，从而将线性模型扩展到非线性分类。
稀疏性 (Sparsity)：对偶问题的解能自然地识别出支持向量。

2.1 广义拉格朗日函数 (Generalized Lagrangian Function)

我们将原始优化问题转化为无约束的优化问题，引入拉格朗日乘子 $α_{i} \geq 0$ (对应每个约束)。原始问题中的约束形式是 $y_{i} (w \cdot x_{i} + b) - 1 \geq 0$ 。为了符合标准广义拉格朗日函数的 $g_{i} (x) \leq 0$ 形式，我们将其改写为 $1 - y_{i} (w \cdot x_{i} + b) \leq 0$ 。

广义拉格朗日函数 $L (w, b, α)$ 定义为： $L (w, b, α) = \frac{1}{2} ∥ w ∥^{2} + \sum_{i = 1}^{N} α_{i} [1 - y_{i} (w \cdot x_{i} + b)]$ 其中 $α = (α_{1}, \dots, α_{N})^{T}$ 是拉格朗日乘子向量，且 $α_{i} \geq 0$ 。

2.2 原始问题的对偶形式

对偶问题是通过以下两步构建的：

步骤 1：内部极小化 (Primal Variable Minimization) 首先，我们对 $L (w, b, α)$ 关于原始变量 $w$ 和 $b$ 求偏导，并令其为零。这对应于求解 $min_{w, b} L (w, b, α)$ 。

对 $w$ 求偏导： $\frac{\partial L}{\partial w} = \frac{\partial}{\partial w} (\frac{1}{2} w^{T} w + \sum_{i = 1}^{N} α_{i} [1 - y_{i} (w^{T} x_{i} + b)])$ $= \frac{\partial}{\partial w} (\frac{1}{2} w^{T} w - \sum_{i = 1}^{N} α_{i} y_{i} w^{T} x_{i})$ 解释：
- $\frac{\partial}{\partial w} (\frac{1}{2} w^{T} w) = w$ （向量二次型的导数）。
- $\frac{\partial}{\partial w} (\sum_{i = 1}^{N} α_{i} y_{i} w^{T} x_{i}) = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}$ （线性项 $c^{T} w$ 对 $w$ 的导数是 $c$ ）。令偏导数等于零向量： $w - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0$ 由此得到 $w$ 的表达式： $w^{*} = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}$ 这个结果表明，==最优权重向量 $w^{*}$ 可以表示为训练样本的线性组合，其中每个样本的系数是 $α_{i} y_{i}$ 。==
对 $b$ 求偏导： $\frac{\partial L}{\partial b} = \frac{\partial}{\partial b} (\sum_{i = 1}^{N} α_{i} [1 - y_{i} (w \cdot x_{i} + b)])$ $= \sum_{i = 1}^{N} α_{i} (- y_{i})$ 令偏导数等于零： $- \sum_{i = 1}^{N} α_{i} y_{i} = 0$ 由此得到一个重要约束： $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ 解释：这个条件表明，来自正类和负类的拉格朗日乘子加权和必须平衡，这是分类超平面能够存在的一个必要条件。

步骤 2：外部极大化 (Dual Problem Maximization) 将步骤 1 中得到的 $w^{*}$ 表达式和 $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ 约束代入广义拉格朗日函数 $L (w, b, α)$ 。我们的目标是得到一个只依赖于 $α$ 的函数，然后对其进行最大化。

代入 $w^{*} = \sum_{j = 1}^{N} α_{j} y_{j} x_{j}$ ： $L (α) = \frac{1}{2} (\sum_{i = 1}^{N} α_{i} y_{i} x_{i})^{T} (\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) + \sum_{i = 1}^{N} α_{i} [1 - y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b)]$ 展开并简化： $L (α) = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - \sum_{i = 1}^{N} α_{i} y_{i} (\sum_{j = 1}^{N} α_{j} y_{j} (x_{j} \cdot x_{i}) + b)$ $= \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} - \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - b \sum_{i = 1}^{N} α_{i} y_{i}$ 根据 $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ 这一约束，最后一项 $b \sum_{i = 1}^{N} α_{i} y_{i}$ 变为 0。合并第一项和第三项： $L (α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$

这就是对偶目标函数。因此，对偶优化问题 (Dual Problem) 为： $max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ $s.t. \sum_{i = 1}^{N} α_{i} y_{i} = 0$ $α_{i} \geq 0 对于所有 i = 1, \dots, N$ 这是一个凸二次规划问题，因为目标函数是关于 $α$ 的凹函数（或等价地，将其取负号，变为最小化一个凸函数），且约束是线性等式和线性不等式。存在成熟的算法可以求解它。

2.3 从对偶解获得原始参数 $w^{}$ 和 $b^{}$

一旦我们通过求解对偶问题获得了最优的拉格朗日乘子 $α^{*} = (α_{1}^{*}, \dots, α_{N}^{*})^{T}$ ，我们就可以回溯来确定原始问题的最优参数 $w^{*}$ 和 $b^{*}$ 。

获得 $w^{*}$ ：直接利用我们之前从 $\frac{\partial L}{\partial w} = 0$ 推导出的关系： $w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}$ 关键特性：支持向量 (Support Vectors) 根据KKT (Karush-Kuhn-Tucker) 条件，对于原始问题中的每个约束 $1 - y_{i} (w \cdot x_{i} + b) \leq 0$ ，有互补松弛条件 (Complementary Slackness)： $α_{i}^{*} [1 - y_{i} (w^{*} \cdot x_{i} + b^{*})] = 0$ 这意味着：
- 如果 $α_{i}^{*} > 0$ ，那么 $1 - y_{i} (w^{*} \cdot x_{i} + b^{*}) = 0$ ，即 $y_{i} (w^{*} \cdot x_{i} + b^{*}) = 1$ 。这些样本点恰好位于间隔边界上，它们就是支持向量。
- 如果 $α_{i}^{*} = 0$ ，那么 $1 - y_{i} (w^{*} \cdot x_{i} + b^{*}) > 0$ ，即 $y_{i} (w^{*} \cdot x_{i} + b^{*}) > 1$ 。这些样本点位于间隔边界之外，它们不影响 $w^{*}$ 的计算（因为对应的 $α_{i}^{*} = 0$ ）。因此， $w^{*}$ 实际上是只由支持向量决定的，这使得模型具有稀疏性。
获得 $b^{*}$ ：根据 KKT 条件，对于任何一个支持向量 $(x_{j}, y_{j})$ （即 $α_{j}^{*} > 0$ 的样本），我们有： $y_{j} (w^{*} \cdot x_{j} + b^{*}) = 1$ 由此，我们可以解出 $b^{*}$ ： $w^{*} \cdot x_{j} + b^{*} = y_{j}$ $b^{*} = y_{j} - w^{*} \cdot x_{j}$ 将 $w^{*}$ 的表达式代入： $b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})$ 在实践中，为了提高数值稳定性，通常会取所有支持向量计算出的 $b^{*}$ 的平均值。

3. 对偶算法 (Dual Algorithm)

对偶算法是求解线性可分支持向量机的具体步骤。

3.1 算法流程

构建对偶问题：根据给定的训练数据集 $T = {(x_{i}, y_{i})}_{i = 1}^{N}$ ，构建上述的凸二次规划对偶问题： $max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ $s.t. \sum_{i = 1}^{N} α_{i} y_{i} = 0$ $α_{i} \geq 0 对于所有 i = 1, \dots, N$
求解对偶问题：使用二次规划优化算法（例如，专门的二次规划求解器，或者更常用的 SMO (Sequential Minimal Optimization) 算法）来求解 $α$ ，得到最优解 $α^{*}$ 。
计算最优参数 $w^{*}$ ：利用 $α^{*}$ 计算 $w^{*}$ : $w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}$
计算最优偏置项 $b^{*}$ ：选择任意一个满足 $α_{j}^{*} > 0$ 的支持向量 $(x_{j}, y_{j})$ ，计算 $b^{*}$ : $b^{*} = y_{j} - w^{*} \cdot x_{j}$ （实践中，通常选择多个支持向量的平均值，或通过更稳定的数值方法计算）。
构建决策函数：得到最终的分类决策函数： $f (x) = sign (w^{*} \cdot x + b^{*})$ 分类超平面为 $w^{*} \cdot x + b^{*} = 0$ 。

3.2 对偶算法的优势

核技巧的自然引入 (The Kernel Trick)：对偶问题中所有涉及到输入特征 $x_{i}$ 的地方都以内积的形式 $x_{i} \cdot x_{j}$ 出现。 $目标函数： - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ $决策函数中的 w^{*} \cdot x 项： (\sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}) \cdot x = \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x)$ 这意味着我们可以用一个核函数 (Kernel Function) $K (x_{i}, x_{j})$ 来替代内积 $x_{i} \cdot x_{j}$ ，而无需显式地将数据映射到高维特征空间。 $K (x_{i}, x_{j}) = ϕ (x_{i}) \cdot ϕ (x_{j})$ 其中 $ϕ$ 是从原始空间到高维特征空间的映射。核技巧使得 SVM 能够高效地处理非线性分类问题，这是其最强大的特性之一。
解的稀疏性：如前所述，在最优解 $α^{*}$ 中，只有支持向量对应的 $α_{i}^{*}$ 大于 0，其他非支持向量的 $α_{i}^{*}$ 均为 0。这意味着在计算 $w^{*}$ 和决策函数时，我们只需要考虑那些 $α_{i}^{*} > 0$ 的支持向量。这大大减少了计算量，尤其是在大规模数据集上，因为支持向量通常只占训练数据的一小部分。
计算复杂度：对偶问题通常比原始问题更容易求解，特别是当样本数量 $N$ 不太大，但特征维度 $n$ 很高时。对偶问题的复杂度与 $N^{2}$ 相关（因为需要计算所有样本对的内积），而原始问题则与 $n$ 和 $N$ 都相关。当使用核函数时，原始特征空间维度 $n$ 可能无穷大，但对偶问题仍然可解，因为我们只依赖于核函数的计算。

通过将原始问题转化为对偶问题，支持向量机实现了从线性分类到非线性分类的强大扩展，并获得了高效和稀疏的求解能力。

LazyBearLee's Blog

探索

线性可分支持向量机

线性可分支持向量机 (Hard Margin SVM)

1. 最大间隔算法 (Maximum Margin Algorithm)

1.1 输入与输出

1.2 优化问题构建 (原始问题 Primal Problem)

2. 对偶问题与参数获得 (Dual Problem and Parameter Acquisition)

2.1 广义拉格朗日函数 (Generalized Lagrangian Function)

2.2 原始问题的对偶形式

2.3 从对偶解获得原始参数 $w^{}$ 和 $b^{}$

3. 对偶算法 (Dual Algorithm)

3.1 算法流程

3.2 对偶算法的优势

关系图谱

目录

反向链接

LazyBearLee's Blog

探索

线性可分支持向量机

线性可分支持向量机 (Hard Margin SVM)

1. 最大间隔算法 (Maximum Margin Algorithm)

1.1 输入与输出

1.2 优化问题构建 (原始问题 Primal Problem)

2. 对偶问题与参数获得 (Dual Problem and Parameter Acquisition)

2.1 广义拉格朗日函数 (Generalized Lagrangian Function)

2.2 原始问题的对偶形式

2.3 从对偶解获得原始参数 w∗ 和 b∗

3. 对偶算法 (Dual Algorithm)

3.1 算法流程

3.2 对偶算法的优势

关系图谱

目录

反向链接

2.3 从对偶解获得原始参数 $w^{}$ 和 $b^{}$