稀疏优化问题

1. 稀疏性的形式化定义

在讨论稀疏优化问题之前，我们必须首先形式化地定义“稀疏性”。

设 $x \in R^{n}$ 是一个 $n$ 维的实数向量。我们通过计算向量中非零分量的个数来量化其稀疏程度。

1.1 $ℓ_{0}$ 伪范数（Pseudo-Norm）

稀疏性是通过 $ℓ_{0}$ 伪范数来衡量的。

定义 1.1 ( $ℓ_{0}$ 伪范数): $∥ x ∥_{0} ≜ ∣ {i \in {1, \dots, n} : x_{i} \neq = 0} ∣$ 其中 $∣ \cdot ∣$ 表示集合的势（cardinality，即元素的数量）。

注: 尽管我们称其为“范数”，但 $ℓ_{0}$ 伪范数不满足范数的同次性（homogeneity）公理（即 $∥ c x ∥_{0} \neq = ∣ c ∣∥ x ∥_{0}$ 当 $∣ c ∣ < 1$ 时），因此在严格意义上它不是一个真正的范数，但它是稀疏性度量的事实标准。

当且仅当 $∥ x ∥_{0} ≪ n$ 时，我们称向量 $x$ 是稀疏的。

2. 稀疏优化问题的形式化结构

一个稀疏优化问题是指目标在于最小化某个代价函数 $f (x)$ ，同时要求解向量 $x$ 具有高度稀疏性的优化问题。

我们主要有两种形式来构造稀疏优化问题：约束形式和正则化形式。

2.1 约束形式 (Constrained Form)

在这种形式中，稀疏性是作为对解空间的一个硬性限制。我们要求解向量的非零分量数量不超过某个预设的上限 $k$ 。

定义 2.1 (稀疏约束优化): $min_{x \in R^{n}} f (x)$ $subject to ∥ x ∥_{0} \leq k$ $and x \in C$ 其中 $k$ 是一个远小于 $n$ 的正整数，代表稀疏度要求； $C$ 代表其他的可行域约束（例如线性或凸约束）。

2.2 正则化形式 (Regularization Form)

在这种形式中，稀疏性是通过向原始目标函数添加一个惩罚项（penalty term）来实现的。我们希望通过最小化这个扩展的目标函数，在拟合数据 $f (x)$ 和保持稀疏性 $∥ x ∥_{0}$ 之间取得平衡。

定义 2.2 (稀疏正则化优化): $min_{x \in R^{n}} F (x) = f (x) + λ ∥ x ∥_{0}$ 其中 $λ > 0$ 是一个正则化参数，它控制了对稀疏性要求的权重。较大的 $λ$ 会强制更稀疏的解。

3. 稀疏优化的计算复杂性： $ℓ_{0}$ 的非凸性

现在，我们必须面对一个核心理论挑战：使用 $ℓ_{0}$ 伪范数定义的稀疏优化问题，在计算上是极其困难的。

3.1 $ℓ_{0}$ 函数的性质分析

$ℓ_{0}$ 伪范数具有以下关键性质，导致优化问题难以求解：

非凸性 (Non-Convexity): 集合 ${x : ∥ x ∥_{0} \leq k}$ 不是一个凸集。
- 证明思路: 考虑 $R^{2}$ 中，设 $k = 1$ 。向量 $x_{1} = (1, 0)$ 和 $x_{2} = (0, 1)$ 都满足 $∥ x ∥_{0} \leq 1$ 。然而，它们的凸组合 $x_{θ} = θ x_{1} + (1 - θ) x_{2}$ （对于 $0 < θ < 1$ ），例如 $θ = 0.5$ ， $x_{0.5} = (0.5, 0.5)$ ，其 $ℓ_{0}$ 范数 $∥ x_{0.5} ∥_{0} = 2$ 。因此，该集合不是凸集。
不连续性 (Discontinuity): $ℓ_{0}$ 函数在 $x = 0$ 处是不连续的。这使得传统的基于梯度的优化方法（如梯度下降）无法直接应用。

3.2 结论：NP-Hardness

由于 $ℓ_{0}$ 优化问题的非凸、离散性质，求解这类问题通常涉及对所有可能的 $k$ 个非零分量进行组合搜索。在一般情况下，包括在最常见的最小二乘框架下（即 $f (x) = ∥ A x - b ∥_{2}^{2}$ ），稀疏优化问题是 NP-hard 的。

4. 实践中的解决方案：凸松弛 ( $ℓ_{1}$ 范数)

由于 $ℓ_{0}$ 问题的计算难度，在实际应用中，我们必须寻求一个在计算上可处理（即凸的）且在统计上能有效诱导稀疏性的替代度量。这种技术称为凸松弛 (Convex Relaxation)。

4.1 引入 $ℓ_{1}$ 范数

$ℓ_{1}$ 范数是 $ℓ_{0}$ 伪范数最常用的凸替代品。

定义 4.1 ( $ℓ_{1}$ 范数): $∥ x ∥_{1} ≜ \sum_{i = 1}^{n} ∣ x_{i} ∣$

关键性质：

凸性 (Convexity): $ℓ_{1}$ 范数是一个标准的凸函数，因此 $∥ x ∥_{1} \leq C$ 定义的集合是一个凸集。
诱导稀疏性 (Sparsity Induction): 尽管 $ℓ_{1}$ 范数是连续的，但在正则化框架中，它会天然地倾向于产生稀疏解。

4.2 $ℓ_{1}$ 诱导稀疏性的几何解释

考虑一个二维优化问题： $min_{x} f (x) subject to ∥ x ∥_{p} \leq t$

使用 $ℓ_{2}$ 范数 ( $∥ x ∥_{2} \leq t$ ): 可行域是一个圆盘。最优解通常发生在目标函数 $f (x)$ 的等高线与圆盘边界光滑相切的点。这些切点极少位于坐标轴上，因此解向量 $x$ 的两个分量通常都是非零的。
使用 $ℓ_{1}$ 范数 ( $∥ x ∥_{1} \leq t$ ): 可行域是一个菱形（或正方形，在 $R^{2}$ 中）。这个菱形在坐标轴上具有尖锐的角点（Vertices）。当目标函数 $f (x)$ 的等高线与 $ℓ_{1}$ 约束区域相切时，最优解更有可能“抓住”这些尖角。
- 在尖角处，解向量 $x$ 的某些分量为零。例如，在 $R^{2}$ 中，尖角是 $(t, 0), (0, t), (- t, 0), (0, - t)$ 。这些解是稀疏的。

4.3 经典的 $ℓ_{1}$ 稀疏优化模型：Lasso

将 $ℓ_{1}$ 正则化应用于经典的最小二乘问题，产生了稀疏优化的奠基性模型：Lasso (Least Absolute Shrinkage and Selection Operator)。

定义 4.3 (Lasso 模型): 假设我们有观测数据 $b \in R^{m}$ ，设计矩阵 $A \in R^{m \times n}$ ，我们需要找到系数向量 $x$ 。 $min_{x \in R^{n}} \frac{1}{2} ∥ A x - b ∥_{2}^{2} + λ ∥ x ∥_{1}$ 其中：

$\frac{1}{2} ∥ A x - b ∥_{2}^{2}$ 是数据拟合项（一个凸的二次函数）。
$∥ x ∥_{1}$ 是 $ℓ_{1}$ 稀疏性惩罚项。
$λ > 0$ 是正则化参数。

由于这个目标函数是严格凸的（二次项凸， $ℓ_{1}$ 范数凸，凸函数之和仍是凸函数），Lasso 模型具有唯一最优解（或至少唯一最优值），并且可以使用高效的算法（如坐标下降法、近端梯度法 (Proximal Gradient Methods) 等）在多项式时间内求解。

总结

稀疏优化问题旨在找到具有最少非零分量的解。

特征	$ℓ_{0}$ 稀疏优化 (理想)	$ℓ_{1}$ 稀疏优化 (实践)
形式	$min f (x) + λ ∥ x ∥_{0}$	$min f (x) + λ ∥ x ∥_{1}$
数学性质	非凸、不连续	凸、连续
计算难度	NP-hard	可在多项式时间内求解
应用	理论基石	压缩感知、高维统计、特征选择

LazyBearLee's Blog

探索

稀疏优化问题

1. 稀疏性的形式化定义

1.1 $ℓ_{0}$ 伪范数（Pseudo-Norm）

2. 稀疏优化问题的形式化结构

2.1 约束形式 (Constrained Form)

2.2 正则化形式 (Regularization Form)

3. 稀疏优化的计算复杂性： $ℓ_{0}$ 的非凸性

3.1 $ℓ_{0}$ 函数的性质分析

3.2 结论：NP-Hardness

4. 实践中的解决方案：凸松弛 ( $ℓ_{1}$ 范数)

4.1 引入 $ℓ_{1}$ 范数

4.2 $ℓ_{1}$ 诱导稀疏性的几何解释

4.3 经典的 $ℓ_{1}$ 稀疏优化模型：Lasso

总结

关系图谱

目录

LazyBearLee's Blog

探索

稀疏优化问题

1. 稀疏性的形式化定义

1.1 ℓ0​ 伪范数（Pseudo-Norm）

2. 稀疏优化问题的形式化结构

2.1 约束形式 (Constrained Form)

2.2 正则化形式 (Regularization Form)

3. 稀疏优化的计算复杂性： ℓ0​ 的非凸性

3.1 ℓ0​ 函数的性质分析

3.2 结论：NP-Hardness

4. 实践中的解决方案：凸松弛 (ℓ1​ 范数)

4.1 引入 ℓ1​ 范数

4.2 ℓ1​ 诱导稀疏性的几何解释

4.3 经典的 ℓ1​ 稀疏优化模型：Lasso

总结

关系图谱

目录

1.1 $ℓ_{0}$ 伪范数（Pseudo-Norm）

3. 稀疏优化的计算复杂性： $ℓ_{0}$ 的非凸性

3.1 $ℓ_{0}$ 函数的性质分析

4. 实践中的解决方案：凸松弛 ( $ℓ_{1}$ 范数)

4.1 引入 $ℓ_{1}$ 范数

4.2 $ℓ_{1}$ 诱导稀疏性的几何解释

4.3 经典的 $ℓ_{1}$ 稀疏优化模型：Lasso