高斯混合模型

1. 概述

在许多实际场景中，我们观察到的数据可能并非来自一个单一的概率分布，而是由多个不同的、潜在的子群体生成的。例如：

身高数据：一个班级里，男生的身高可能服从一个正态分布，女生的身高服从另一个不同的正态分布。如果我们只观测到身高数据，而不知道性别，那么整个班级的身高分布看起来就像是两个正态分布的叠加。
客户行为：一个电商平台的客户购买行为可能由不同的消费群体（如“精打细算型”、“高消费型”、“冲动消费型”）生成，每个群体的购买金额、频率等特征可能服从不同的分布。

高斯混合模型（GMM） 正是为了应对这类问题而设计的。它假设观测数据是由 $K$ 个不同的高斯分量（Gaussian Components） 混合生成的，每个高斯分量代表一个潜在的子群体，并拥有自己的均值和方差（或协方差矩阵）。每个观测数据点都“属于”其中一个高斯分量，但我们并不知道它具体属于哪个分量，这正是GMM中的隐变量 。

1.1 GMM的理解

想象我们在绘制数据点的直方图，发现它不是一个漂亮的钟形曲线，而是有多个“驼峰”（多峰分布），就像上面图片中展示的那样。这暗示着数据可能来自多个不同的“源”。

GMM的工作原理就是：

假设存在多个“源”：这些“源”就是不同的高斯分布（每个分布对应一个钟形曲线）。
每个源都有一个“权重”：表示数据来自这个源的可能性有多大（即混合系数）。
最终分布是这些源的加权叠加：通过调整每个高斯的中心（均值）、宽度（方差）以及它们的权重，GMM试图最好地拟合观测数据的多峰形状。

2. 高斯混合模型的数学定义

2.1 模型构成

一个高斯混合模型由 $K$ 个高斯分量组成。每个分量 $k$ 都有：

混合系数（Mixture Coefficient）： $α_{k}$ ，表示数据点来自第 $k$ 个分量的概率。
- 约束条件： $\sum_{k = 1}^{K} α_{k} = 1$ 且 $α_{k} \geq 0$ 。
均值（Mean）： $μ_{k}$ ，表示第 $k$ 个高斯分量的中心。
方差（Variance）： $σ_{k}^{2}$ （在一维情况下）或协方差矩阵（Covariance Matrix） $Σ_{k}$ （在多维情况下），表示第 $k$ 个高斯分量的“宽度”或“形状”。

GMM的参数集合为 $θ = (α_{1}, \dots, α_{K}, μ_{1}, \dots, μ_{K}, σ_{1}^{2}, \dots, σ_{K}^{2})$ （对于多维数据， $σ_{k}^{2}$ 替换为 $Σ_{k}$ ）。

2.2 观测数据与隐变量

观测数据 $Y$ ：我们实际收集到的数据点 $Y = {y_{1}, y_{2}, \dots, y_{N}}$ 。每个 $y_{j}$ 是一个标量（一维）或向量（多维）。
隐变量 $Z$ ：对于每个观测数据点 $y_{j}$ ，我们并不知道它具体是由哪个高斯分量生成的。这个“来源”就是隐变量。
- 我们引入一个隐变量 $z_{j}$ ，它是一个 $K$ 维的独热（one-hot）向量。如果 $y_{j}$ 是由第 $k$ 个高斯分量生成的，那么 $z_{j}$ 的第 $k$ 个分量为1，其余为0。
- 例如，对于 $K = 2$ 的情况， $z_{j}$ 可以是 $(1, 0)$ 或 $(0, 1)$ 。
- 我们也可以用一个指示变量 $γ_{jk}$ 来表示 $z_{j}$ 的第 $k$ 个分量：
  - $γ_{jk} = 1$ 如果 $y_{j}$ 来自第 $k$ 个分量。
  - $γ_{jk} = 0$ 否则。
  - 显然，对于每个 $j$ ， $\sum_{k = 1}^{K} γ_{jk} = 1$ 。

2.3 高斯混合模型的概率密度函数（PMF/PDF）

对于一个观测数据点 $y_{j}$ ，其概率密度函数（PDF）是所有 $K$ 个高斯分量的加权和：

$P (y_{j} ∣ θ) = \sum_{k = 1}^{K} α_{k} P (y_{j} ∣ component k, θ_{k})$

其中 $P (y_{j} ∣ component k, θ_{k})$ 是第 $k$ 个高斯分量的概率密度函数 $ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})$ 。

高斯分布（正态分布）的PDF：对于一维随机变量 $y$ ，均值为 $μ_{k}$ ，方差为 $σ_{k}^{2}$ ，其概率密度函数为：

$ϕ (y ∣ μ_{k}, σ_{k}^{2}) = \frac{1}{2 π σ _{k}} exp (- \frac{( y - μ _{k} ) ^{2}}{2 σ _{k}^{2}})$

所以，GMM的概率密度函数为：

$P (y_{j} ∣ θ) = \sum_{k = 1}^{K} α_{k} \frac{1}{2 π σ _{k}} exp (- \frac{( y _{j} - μ _{k} ) ^{2}}{2 σ _{k}^{2}})$

3. GMM的概率分布推导

为了应用EM算法，我们需要推导出完整数据的联合概率分布 $P (Y, Z ∣ θ)$ 。

3.1 单个完整数据点 $(y_{j}, z_{j})$ 的联合概率

对于单个观测数据点 $y_{j}$ 和其对应的隐变量 $z_{j}$ （指示 $y_{j}$ 来自哪个分量 $k$ ），其联合概率分布可以写为：

$P (y_{j}, z_{j} ∣ θ) = P (y_{j} ∣ z_{j}, θ) P (z_{j} ∣ θ)$

$P (z_{j} ∣ θ)$ ：这是隐变量 $z_{j}$ 的先验概率，即选择第 $k$ 个分量的概率。如果 $z_{j}$ 的第 $k$ 个分量为1（表示 $y_{j}$ 来自分量 $k$ ），则 $P (z_{j} = k ∣ θ) = α_{k}$ 。
$P (y_{j} ∣ z_{j}, θ)$ ：在已知 $y_{j}$ 来自第 $k$ 个分量的情况下， $y_{j}$ 的概率密度。这就是第 $k$ 个高斯分量的PDF： $ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})$ 。

将这两个部分结合，使用指示变量 $γ_{jk}$ 来表示 $z_{j}$ 的第 $k$ 个分量为1：

$P (y_{j}, z_{j} ∣ θ) = \prod_{k = 1}^{K} [α_{k} ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})]^{γ_{jk}}$

由于对于每个 $j$ ，只有一个 $γ_{jk}$ 是1，其余为0。所以这个乘积中只有一项是非1的，即对应于 $y_{j}$ 实际来源的那个分量 $k^{'}$ 的 $α_{k^{'}} ϕ (y_{j} ∣ μ_{k^{'}}, σ_{k^{'}}^{2})$ 。例如，如果 $y_{j}$ 来自第1个分量，那么 $γ_{j 1} = 1$ , $γ_{j 2} = \dots = γ_{j K} = 0$ 。则 $P (y_{j}, z_{j} ∣ θ) = [α_{1} ϕ (y_{j} ∣ μ_{1}, σ_{1}^{2})]^{1} \cdot [α_{2} ϕ (y_{j} ∣ μ_{2}, σ_{2}^{2})]^{0} \cdot \dots = α_{1} ϕ (y_{j} ∣ μ_{1}, σ_{1}^{2})$ 。

3.2 完整数据集 $(Y, Z)$ 的联合概率分布

假设我们有 $N$ 个独立同分布的观测数据点，那么整个完整数据集 $Y = {y_{1}, \dots, y_{N}}$ 和 $Z = {z_{1}, \dots, z_{N}}$ 的联合概率分布就是所有单个数据点联合概率的乘积：

P (Y, Z ∣ θ) = j = 1 \prod N P (y_{j}, z_{j} ∣ θ) = j = 1 \prod N k = 1 \prod K [α_{k} ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})]^{γ_{jk}}

这个公式表示了在给定参数 $θ$ 的情况下，观测到所有 $Y$ 和所有 $Z$ 的概率。

3.3 完整数据对数似然函数 $L_{c} (θ)$

为了方便求导和最大化，我们通常使用对数似然函数。对上述完整数据的联合概率取对数：

lo g P (Y, Z ∣ θ) = lo g j = 1 \prod N k = 1 \prod K [α_{k} ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})]^{γ_{jk}} = j = 1 \sum N k = 1 \sum K γ_{jk} lo g [α_{k} ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})] = j = 1 \sum N k = 1 \sum K γ_{jk} [lo g α_{k} + lo g ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})] = j = 1 \sum N k = 1 \sum K γ_{jk} lo g α_{k} + j = 1 \sum N k = 1 \sum K γ_{jk} lo g ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})

这个完整数据对数似然函数可以进一步简化：

交换求和顺序：

$\sum_{j = 1}^{N} \sum_{k = 1}^{K} γ_{jk} lo g α_{k} = \sum_{k = 1}^{K} \sum_{j = 1}^{N} γ_{jk} lo g α_{k}$

对于每个 $k$ ， $lo g α_{k}$ 是常数，可以提到外面。而 $\sum_{j = 1}^{N} γ_{jk}$ 正好是第 $k$ 个分量所包含的样本总数。我们记 $n_{k} = \sum_{j = 1}^{N} γ_{jk}$ 。所以，第一项变为 $\sum_{k = 1}^{K} n_{k} lo g α_{k}$ 。

最终，完整数据对数似然函数 $L_{c} (θ)$ 为：

$L_{c} (θ) = \sum_{k = 1}^{K} n_{k} lo g α_{k} + \sum_{j = 1}^{N} \sum_{k = 1}^{K} γ_{jk} lo g ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})$

4. GMM的EM算法实现

现在，我们有了完整数据对数似然的表达式，就可以应用EM算法来估计GMM的参数 $θ = (α_{k}, μ_{k}, σ_{k}^{2})$ 了。

步骤 0：初始化参数 $θ^{(0)}$ 随机初始化每个高斯分量的参数：

混合系数： $α_{k}^{(0)}$ ，确保 $\sum_{k = 1}^{K} α_{k}^{(0)} = 1$ 。
均值： $μ_{k}^{(0)}$ 。
方差： $σ_{k}^{2 (0)}$ 。

步骤 1：E步

核心任务：计算隐变量 $z_{j}$ 的后验概率，即每个观测数据点 $y_{j}$ 属于第 $k$ 个高斯分量的概率。这个概率通常被称为责任，记作 $\overset{γ}{^}_{jk}$ （或 $γ_{jk}$ 或 $r_{jk}$ ）。

根据贝叶斯公式：

\overset{γ}{^}_{jk} = P (z_{j} = k ∣ y_{j}, θ^{(t)}) = \frac{P ( y _{j} ∣ z _{j} = k , θ ^{(t)} ) P ( z _{j} = k ∣ θ ^{(t)} )}{P ( y _{j} ∣ θ ^{(t)} )} = \frac{ϕ ( y _{j} ∣ μ _{k}^{(t)} , σ _{k}^{2 (t)} ) α _{k}^{(t)}}{\sum _{l = 1}^{K} ϕ ( y _{j} ∣ μ _{l}^{(t)} , σ _{l}^{2 (t)} ) α _{l}^{(t)}}

分子： $ϕ (y_{j} ∣ μ_{k}^{(t)}, σ_{k}^{2 (t)}) α_{k}^{(t)}$ 表示在当前参数下，数据点 $y_{j}$ 由第 $k$ 个高斯分量生成的联合概率密度。
分母： $\sum_{l = 1}^{K} ϕ (y_{j} ∣ μ_{l}^{(t)}, σ_{l}^{2 (t)}) α_{l}^{(t)}$ 表示在当前参数下，数据点 $y_{j}$ 被观测到的总概率密度（对所有可能的分量求和）。

$\overset{γ}{^}_{jk}$ 是一个介于0和1之间的值，表示我们有多大的信心认为数据点 $y_{j}$ 是由第 $k$ 个高斯分量生成的。对于每个数据点 $y_{j}$ ，所有分量的责任之和为1： $\sum_{k = 1}^{K} \overset{γ}{^}_{jk} = 1$ 。这些责任值 $\overset{γ}{^}_{jk}$ 相当于三硬币模型中的 $μ_{j}$ （或 $1 - μ_{j}$ ），它们是我们在M步中用于加权估计参数的“期望的隐变量”。

构建Q函数： E步的最终目标是构建Q函数 $Q (θ, θ^{(t)}) = E_{Z} [lo g P (Y, Z ∣ θ) ∣ Y, θ^{(t)}]$ 。我们将完整数据对数似然函数 $L_{c} (θ)$ 中的隐变量指示变量 $γ_{jk}$ 替换为其期望（即责任 $\overset{γ}{^}_{jk}$ ）：

$Q (θ, θ^{(t)}) = \sum_{k = 1}^{K} \overset{n}{^}_{k} lo g α_{k} + \sum_{j = 1}^{N} \sum_{k = 1}^{K} \overset{γ}{^}_{jk} lo g ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})$

其中 $\overset{n}{^}_{k} = \sum_{j = 1}^{N} \overset{γ}{^}_{jk}$ ，表示第 $k$ 个分量在当前轮的有效样本数（所有数据点对第 $k$ 个分量的责任之和）。

步骤 2：M步（Maximization Step）

核心任务：最大化Q函数 $Q (θ, θ^{(t)})$ 关于新的参数 $θ = (α_{k}, μ_{k}, σ_{k}^{2})$ 。

2.1 估计混合系数 $α_{k}^{(t + 1)}$ 我们最大化Q函数中包含 $α_{k}$ 的项，同时考虑约束 $\sum_{k = 1}^{K} α_{k} = 1$ 。我们可以通过引入拉格朗日乘子（Lagrange Multiplier） 来解决。

我们需要最大化 $L_{M} (α) = \sum_{k = 1}^{K} \overset{n}{^}_{k} lo g α_{k} + λ (\sum_{k = 1}^{K} α_{k} - 1)$ 。

对 $α_{k}$ 求偏导并令其为0：

$\frac{\partial L _{M}}{\partial α _{k}} = \frac{n ^ _{k}}{α _{k}} + λ = 0 ⟹ α_{k} = - \frac{n ^ _{k}}{λ}$

将所有 $α_{k}$ 相加并利用 $\sum_{k = 1}^{K} α_{k} = 1$ ：

$\sum_{k = 1}^{K} α_{k} = \sum_{k = 1}^{K} - \frac{n ^ _{k}}{λ} = - \frac{1}{λ} \sum_{k = 1}^{K} \overset{n}{^}_{k} = 1$

我们知道 $\sum_{k = 1}^{K} \overset{n}{^}_{k} = \sum_{k = 1}^{K} \sum_{j = 1}^{N} \overset{γ}{^}_{jk} = \sum_{j = 1}^{N} \sum_{k = 1}^{K} \overset{γ}{^}_{jk} = \sum_{j = 1}^{N} 1 = N$ （所有数据点对所有分量的责任之和等于总样本数）。所以， $- \frac{1}{λ} N = 1 ⟹ λ = - N$ 。将 $λ = - N$ 代回 $α_{k}$ 的表达式：

$α_{k}^{(t + 1)} = \frac{n ^ _{k}}{N} = \frac{\sum _{j = 1}^{N} γ ^ _{jk}}{N}$

新的混合系数 $α_{k}$ 等于第 $k$ 个分量的有效样本数占总样本数的比例。这符合混合概率的直观理解。

2.2 估计均值 $μ_{k}^{(t + 1)}$ 我们最大化Q函数中包含 $μ_{k}$ 的项： $\sum_{j = 1}^{N} \sum_{k = 1}^{K} \overset{γ}{^}_{jk} lo g ϕ (y_{j} ∣ μ_{k}, σ_{k}^{2})$ 。只关注第 $k$ 个分量和 $μ_{k}$ ：

j = 1 \sum N \overset{γ}{^}_{jk} lo g (\frac{1}{2 π σ _{k}} exp (- \frac{( y _{j} - μ _{k} ) ^{2}}{2 σ _{k}^{2}})) = j = 1 \sum N \overset{γ}{^}_{jk} (- \frac{1}{2} lo g (2 π) - lo g σ_{k} - \frac{( y _{j} - μ _{k} ) ^{2}}{2 σ _{k}^{2}})

为了最大化，我们只需要最小化 $\sum_{j = 1}^{N} \overset{γ}{^}_{jk} (y_{j} - μ_{k})^{2}$ 。对 $μ_{k}$ 求偏导并令其为0：

\frac{\partial}{\partial μ _{k}} j = 1 \sum N \overset{γ}{^}_{jk} (y_{j} - μ_{k})^{2} j = 1 \sum N \overset{γ}{^}_{jk} (y_{j} - μ_{k}) j = 1 \sum N \overset{γ}{^}_{jk} y_{j} - j = 1 \sum N \overset{γ}{^}_{jk} μ_{k} j = 1 \sum N \overset{γ}{^}_{jk} y_{j} = j = 1 \sum N \overset{γ}{^}_{jk} \cdot 2 (y_{j} - μ_{k}) \cdot (- 1) = 0 = 0 = 0 = μ_{k} j = 1 \sum N \overset{γ}{^}_{jk}

所以， $μ_{k}$ 的更新公式为：

$μ_{k}^{(t + 1)} = \frac{\sum _{j = 1}^{N} γ ^ _{jk} y _{j}}{\sum _{j = 1}^{N} γ ^ _{jk}} = \frac{\sum _{j = 1}^{N} γ ^ _{jk} y _{j}}{n ^ _{k}}$

新的均值 $μ_{k}$ 是所有数据点的加权平均，权重就是它们对第 $k$ 个分量的责任 $\overset{γ}{^}_{jk}$ 。这符合加权平均值的定义。

2.3 估计方差 $σ_{k}^{2 (t + 1)}$ 同理，我们最大化Q函数中包含 $σ_{k}^{2}$ 的项。对 $σ_{k}^{2}$ 求偏导并令其为0（或者对 $σ_{k}$ 求导，然后平方）：

\frac{\partial}{\partial σ _{k}} j = 1 \sum N \overset{γ}{^}_{jk} (- lo g σ_{k} - \frac{( y _{j} - μ _{k} ) ^{2}}{2 σ _{k}^{2}}) j = 1 \sum N \overset{γ}{^}_{jk} (- \frac{1}{σ _{k}} + \frac{( y _{j} - μ _{k} ) ^{2}}{σ _{k}^{3}}) \frac{1}{σ _{k}} j = 1 \sum N \overset{γ}{^}_{jk} σ_{k}^{2} j = 1 \sum N \overset{γ}{^}_{jk} = 0 = 0 = \frac{1}{σ _{k}^{3}} j = 1 \sum N \overset{γ}{^}_{jk} (y_{j} - μ_{k})^{2} = j = 1 \sum N \overset{γ}{^}_{jk} (y_{j} - μ_{k})^{2}

所以， $σ_{k}^{2}$ 的更新公式为：

$σ_{k}^{2 (t + 1)} = \frac{\sum _{j = 1}^{N} γ ^ _{jk} ( y _{j} - μ _{k}^{(t + 1)} ) ^{2}}{\sum _{j = 1}^{N} γ ^ _{jk}} = \frac{\sum _{j = 1}^{N} γ ^ _{jk} ( y _{j} - μ _{k}^{(t + 1)} ) ^{2}}{n ^ _{k}}$

新的方差 $σ_{k}^{2}$ 是所有数据点到新均值 $μ_{k}^{(t + 1)}$ 的加权平方差的平均值，权重同样是它们对第 $k$ 个分量的责任 $\overset{γ}{^}_{jk}$ 。

步骤 3：重复迭代 将新的参数估计 $θ^{(t + 1)} = (α_{k}^{(t + 1)}, μ_{k}^{(t + 1)}, σ_{k}^{2 (t + 1)})$ 作为下一轮的初始值，然后重复E步和M步，直到参数收敛（例如，当参数变化量小于某个阈值时停止，或者对数似然函数的增长小于某个阈值）。

LazyBearLee's Blog

探索

高斯混合模型

1. 概述

1.1 GMM的理解

2. 高斯混合模型的数学定义

2.1 模型构成

2.2 观测数据与隐变量

2.3 高斯混合模型的概率密度函数（PMF/PDF）

3. GMM的概率分布推导

3.1 单个完整数据点 $(y_{j}, z_{j})$ 的联合概率

3.2 完整数据集 $(Y, Z)$ 的联合概率分布

3.3 完整数据对数似然函数 $L_{c} (θ)$

4. GMM的EM算法实现

关系图谱

目录

LazyBearLee's Blog

探索

高斯混合模型

1. 概述

1.1 GMM的理解

2. 高斯混合模型的数学定义

2.1 模型构成

2.2 观测数据与隐变量

2.3 高斯混合模型的概率密度函数（PMF/PDF）

3. GMM的概率分布推导

3.1 单个完整数据点 (yj​,zj​) 的联合概率

3.2 完整数据集 (Y,Z) 的联合概率分布

3.3 完整数据对数似然函数 Lc​(θ)

4. GMM的EM算法实现

关系图谱

目录

3.1 单个完整数据点 $(y_{j}, z_{j})$ 的联合概率

3.2 完整数据集 $(Y, Z)$ 的联合概率分布

3.3 完整数据对数似然函数 $L_{c} (θ)$