Dropout

“脆弱的专家团”

想象一个深度神经网络是一个由许多神经元专家组成的团队，每一层都是一个部门。为了完成一个复杂的任务（比如图像分类），他们需要协同工作。

在没有正则化的训练中，会发生什么？团队可能会形成一种 “脆弱的共适应性（Brittle Co-adaptation）” 。

这就像一个公司的明星员工组合。比如，专家A（某个神经元）的分析能力很强，但表达能力稍弱。专家B表达能力很强，他学会了专门解读和包装A的分析结果。这个A+B的组合非常高效，任务完成得很好。但这种合作是脆弱的：

过度依赖: B变得极度依赖A的特定输出模式。他对其他专家的输入不怎么关心了。
缺乏鲁棒性: 如果有一天A因为任何原因“生病了”（比如输入数据有噪声，导致A的输出异常），B就完全抓瞎了，因为他只学会了和健康的A合作，最终导致整个团队的决策崩溃。

在神经网络中，这就是过拟合。一些神经元学会了高度依赖其他少数神经元的特定激活值。它们形成了一个个紧密耦合的“小团体”，而不是一个具有鲁棒性的、分布式的决策系统。它们记住的是训练数据中特定的、偶然的特征组合，而不是普适的规律。

“随机末位淘汰制”

Dropout 的提出者，Geoffrey Hinton 等人，提出的解决方案就可以说得上是神来之笔了。他们的想法是：在训练过程中，强制打破这种脆弱的共适应性。

如何打破？在公司的例子里，就是引入一种“随机轮休”制度。在每一次任务汇报前，团队里的每一个成员都有一定概率 $p$ 被要求“临时休假”，不允许参与本次决策。

这会带来什么后果？

个体能力的提升: 专家B不能再指望专家A每次都在。为了完成任务，他必须学会聆听和理解团队里其他所有人的意见。他不能再依赖任何一个特定的信号源，而必须学会从一个更嘈杂、更不完整的输入中提取有用的信息。
团队的鲁棒性: 整个团队不再依赖任何一个“超级明星”或者“明星组合”。决策权被更广泛地分散开来，即使少数成员缺席，团队依然能做出一个不错的集体决策。

这就是 Dropout 的核心思想：在每次训练迭代的前向传播中，以概率 $p$ 随机地“丢弃”（暂时置零）一部分神经元的输出。

“训练与测试的鸿沟”

现在，我们尝试将这个思想转化为代码。一个天真的实现可能是这样的：

Naive Dropout (错误的方式):

训练时: 对某一层激活值 $h$ ，创建一个随机的0/1掩码，其中每个元素以概率 $p$ 为0。将 $h$ 与这个掩码相乘。
测试时: 我们希望模型做出最稳定、最准确的预测，所以我们不希望有随机性。于是我们不使用 Dropout，让所有神经元都参与工作。

这里出现了致命的问题！ 假设一个层的输出激活值总和在没有 Dropout 时是 $S$ 。在训练时，平均有 $p$ 比例的神经元被置零，那么这一层输出的总和的期望值就变成了 $S \times (1 - p)$ 。这意味着，在训练时，下一层看到的输入尺度平均而言比正常情况小了。而到测试时，我们突然恢复了所有神经元，下一层看到的输入尺度又变回了 $S$ 。

这种训练和测试时输入尺度的不一致，会导致模型的性能严重下降。这就好比一个学生平时一直戴着墨镜练习投篮（光线较暗），到了正式比赛时突然摘掉墨镜（光线变亮），他肯定会极度不适应。

精妙的解决方案 “倒置暂退法 (Inverted Dropout)”

如何解决这个尺度不一致的问题？我们必须确保，无论是否使用 Dropout，某一层输出的期望值是保持不变的。这就是“无偏（unbiased）”。

让我们进行严谨的数学推导。令 $h$ 为某个神经元的原始激活值。令 $p$ 为暂退概率（dropout probability）。令 $h^{'}$ 为经过 Dropout 处理后的激活值。

根据我们的“随机轮休”思想， $h^{'}$ 是一个随机变量：

h^{'} = {0, something, 以概率 p 以概率 1 - p

我们的目标是让 $h^{'}$ 的期望值等于原始的 $h$ ：

E [h^{'}] = h

现在我们来计算 $h^{'}$ 的期望值：

E [h^{'}] = (p \times 0) + ((1 - p) \times something)

E [h^{'}] = (1 - p) \times something

为了让 $E [h^{'}] = h$ ，我们必须有：

h = (1 - p) \times something

解出 something：

something = \frac{h}{1 - p}

这就是谜底！ 为了在“丢弃”一部分神经元的同时保持输出的期望值不变，我们必须将那些没有被丢弃的神经元的激活值，放大（rescale）一个因子 $\frac{1}{1 - p}$ 。

这就是公式的由来：

h^{'} = {0, \frac{h}{1 - p}, 以概率 p 以概率 1 - p

这种在训练时就进行放大的方法，被称为倒置暂退法（Inverted Dropout），它是目前所有深度学习框架中 Dropout 的标准实现。它的巨大优势在于：

训练时: 执行“丢弃”和“放大”。
测试时: 什么都不用做。直接关闭 Dropout 层即可。因为训练时的放大操作已经预先补偿了测试时所有神经元都存在的效应，保证了训练和测试两个阶段的尺度统一。

“廉价的集成学习”

Dropout 还有一个非常深刻的解释：它是一种高效的模型集成（Model Ensemble） 方法。

在每一次训练迭代中，由于我们随机丢弃了一部分神经元，我们实际上是在训练一个不同的、“更瘦”的子网络。
假设一个层有 $N$ 个神经元，那么总共可能产生 $2^{N}$ 个不同的子网络。
在整个训练过程中，我们实际上是在训练这 $2^{N}$ 个共享权重的子网络的一个巨大集合。每一次迭代，我们只是随机采样一个子网络，并对其进行一次梯度更新。
测试时，我们关闭 Dropout，使用完整的网络。这在数学上近似于对所有 $2^{N}$ 个子网络的预测结果进行一次平均。

模型集成是提高模型性能、降低过拟合最强大的技术之一（例如随机森林）。Dropout 提供了一种极其廉价的方式，让我们只训练一个网络，却能享受到集成海量不同网络所带来的好处。

代码实现与最终总结

让我们用 PyTorch 代码来固化这个理解。

import torch
import torch.nn as nn
 
# dropout_prob 是丢弃概率 p
def dropout_layer(X, dropout_prob):
    # 必须是浮点数
    assert 0 <= dropout_prob <= 1
    
    # 当 p=1，所有元素都丢弃
    if dropout_prob == 1:
        return torch.zeros_like(X)
    # 当 p=0，所有元素都保留
    if dropout_prob == 0:
        return X
        
    # 1. 生成一个随机掩码 (mask)
    #    torch.rand 返回 [0, 1) 的均匀分布
    #    大于 dropout_prob 的为 True (保留), 小于的为 False (丢弃)
    mask = (torch.rand(X.shape) > dropout_prob).float()
    
    # 2. 应用掩码并进行尺度放大
    #    X * mask 将一部分元素置零
    #    / (1.0 - dropout_prob) 进行倒置暂退的尺度放大
    return X * mask / (1.0 - dropout_prob)
 
# 验证期望值不变
X = torch.arange(16, dtype=torch.float32).reshape((2, 8))
print("原始输入:\n", X)
 
# 多次运行，会发现输出的均值在 7.5 附近波动
Y = dropout_layer(X, 0.5)
print("\nDropout (p=0.5) 后的输出:\n", Y)
 
# PyTorch的内置实现 nn.Dropout
dropout_nn = nn.Dropout(p=0.5)
dropout_nn.train() # 必须在训练模式下
Y_nn = dropout_nn(X)
print("\nnn.Dropout (p=0.5) 后的输出:\n", Y_nn)

LazyBearLee's Blog

探索