1. 稀疏性的形式化定义

在讨论稀疏优化问题之前,我们必须首先形式化地定义“稀疏性”。

是一个 维的实数向量。 我们通过计算向量中非零分量的个数来量化其稀疏程度。

1.1 伪范数(Pseudo-Norm)

稀疏性是通过 伪范数来衡量的。

定义 1.1 ( 伪范数): 其中 表示集合的势(cardinality,即元素的数量)。

注: 尽管我们称其为“范数”,但 伪范数不满足范数的同次性(homogeneity)公理(即 时),因此在严格意义上它不是一个真正的范数,但它是稀疏性度量的事实标准。

当且仅当 时,我们称向量 是稀疏的。


2. 稀疏优化问题的形式化结构

一个稀疏优化问题是指目标在于最小化某个代价函数 ,同时要求解向量 具有高度稀疏性的优化问题。

我们主要有两种形式来构造稀疏优化问题:约束形式正则化形式

2.1 约束形式 (Constrained Form)

在这种形式中,稀疏性是作为对解空间的一个硬性限制。我们要求解向量的非零分量数量不超过某个预设的上限

定义 2.1 (稀疏约束优化): 其中 是一个远小于 的正整数,代表稀疏度要求; 代表其他的可行域约束(例如线性或凸约束)。

2.2 正则化形式 (Regularization Form)

在这种形式中,稀疏性是通过向原始目标函数添加一个惩罚项(penalty term)来实现的。我们希望通过最小化这个扩展的目标函数,在拟合数据 和保持稀疏性 之间取得平衡。

定义 2.2 (稀疏正则化优化): 其中 是一个正则化参数,它控制了对稀疏性要求的权重。较大的 会强制更稀疏的解。


3. 稀疏优化的计算复杂性: 的非凸性

现在,我们必须面对一个核心理论挑战:使用 伪范数定义的稀疏优化问题,在计算上是极其困难的。

3.1 函数的性质分析

伪范数具有以下关键性质,导致优化问题难以求解:

  1. 非凸性 (Non-Convexity): 集合 不是一个凸集。
    • 证明思路: 考虑 中,设 。向量 都满足 。然而,它们的凸组合 (对于 ),例如 ,其 范数 。因此,该集合不是凸集。
  2. 不连续性 (Discontinuity): 函数在 处是不连续的。这使得传统的基于梯度的优化方法(如梯度下降)无法直接应用。

3.2 结论:NP-Hardness

由于 优化问题的非凸、离散性质,求解这类问题通常涉及对所有可能的 个非零分量进行组合搜索。在一般情况下,包括在最常见的最小二乘框架下(即 ),稀疏优化问题是 NP-hard 的


4. 实践中的解决方案:凸松弛 ( 范数)

由于 问题的计算难度,在实际应用中,我们必须寻求一个在计算上可处理(即凸的)且在统计上能有效诱导稀疏性的替代度量。这种技术称为凸松弛 (Convex Relaxation)

4.1 引入 范数

范数是 伪范数最常用的凸替代品。

定义 4.1 ( 范数):

关键性质:

  1. 凸性 (Convexity): 范数是一个标准的凸函数,因此 定义的集合是一个凸集。
  2. 诱导稀疏性 (Sparsity Induction): 尽管 范数是连续的,但在正则化框架中,它会天然地倾向于产生稀疏解。

4.2 诱导稀疏性的几何解释

考虑一个二维优化问题:

  • 使用 范数 (): 可行域是一个圆盘。最优解通常发生在目标函数 的等高线与圆盘边界光滑相切的点。这些切点极少位于坐标轴上,因此解向量 的两个分量通常都是非零的。
  • 使用 范数 (): 可行域是一个菱形(或正方形,在 中)。这个菱形在坐标轴上具有尖锐的角点(Vertices)。当目标函数 的等高线与 约束区域相切时,最优解更有可能“抓住”这些尖角。
    • 在尖角处,解向量 的某些分量为零。例如,在 中,尖角是 。这些解是稀疏的。

4.3 经典的 稀疏优化模型:Lasso

正则化应用于经典的最小二乘问题,产生了稀疏优化的奠基性模型:Lasso (Least Absolute Shrinkage and Selection Operator)

定义 4.3 (Lasso 模型): 假设我们有观测数据 ,设计矩阵 ,我们需要找到系数向量 其中:

  • 是数据拟合项(一个凸的二次函数)。
  • 稀疏性惩罚项。
  • 是正则化参数。

由于这个目标函数是严格凸的(二次项凸, 范数凸,凸函数之和仍是凸函数),Lasso 模型具有唯一最优解(或至少唯一最优值),并且可以使用高效的算法(如坐标下降法、近端梯度法 (Proximal Gradient Methods) 等)在多项式时间内求解。


总结

稀疏优化问题旨在找到具有最少非零分量的解。

特征 稀疏优化 (理想) 稀疏优化 (实践)
形式
数学性质非凸、不连续凸、连续
计算难度NP-hard可在多项式时间内求解
应用理论基石压缩感知、高维统计、特征选择