初识卷积神经网络-矩阵形式的卷积运算与核函数分析

1. 卷积运算的等效矩阵乘法表示

在 torch 等框架的底层实现中，为了利用高度优化的矩阵运算库（如BLAS），卷积或互相关运算通常被转换为等效的矩阵乘法。这种转换可以通过重塑输入张量或卷积核张量来实现。

为简化，我们分析一下2D互相关运算，其定义如下，其中输入为 $X \in R^{H \times W}$ ，核为 $K \in R^{k_{h} \times k_{w}}$ ，输出为 $Y \in R^{H^{'} \times W^{'}}$ 。

Y_{i, j} = a = 0 \sum k_{h} - 1 b = 0 \sum k_{w} - 1 X_{i + a, j + b} K_{a, b}

方法一：重塑输入张量 (im2col)

此方法的核心思想是将输入张量 $X$ 变换为一个中间矩阵 $X_{co l}$ ，使得互相关运算可以表示为一次矩阵乘法。

向量化卷积核：将卷积核 $K$ 按行优先（或列优先）的顺序展平为一个列向量 $K_{v ec} \in R^{(k_{h} k_{w}) \times 1}$ 。
$K_{v ec} = [k_{0, 0}, k_{0, 1}, \dots, k_{k_{h} - 1, k_{w} - 1}]^{⊤}$
构建输入矩阵 $X_{co l}$ ：对于输出 $Y$ 中的每一个元素 $Y_{i, j}$ ，其值是由核 $K$ 与输入 $X$ 中一个大小为 $k_{h} \times k_{w}$ 的局部区域（感受野）进行点积得到的。我们将这个局部区域展平，使其成为 $X_{co l}$ 的一个行向量。

具体而言， $X_{co l}$ 矩阵的维度为 $(H^{'} W^{'}) \times (k_{h} k_{w})$ 。它的每一行对应于输出 $Y$ 的一个位置，每一列对应于卷积核的一个位置。矩阵的第 $m$ 行，其中 $m = i \cdot W^{'} + j$ ，是由输入张量 $X$ 中以 $(i, j)$ 为左上角（假设步长为1）的 $k_{h} \times k_{w}$ 子矩阵展平得到的向量。
$(X_{co l})_{m, :} = flatten (X [i : i + k_{h}, j : j + k_{w}])$
等效矩阵乘法：现在，输出张量 $Y$ 的向量化形式 $Y_{v ec} \in R^{(H^{'} W^{'}) \times 1}$ 可以通过一次矩阵乘法得到：
$Y_{v ec} = X_{co l} \cdot K_{v ec}$
这种被称为 im2col (image-to-column) 的技术，将问题转化为了通用矩阵乘法（GEMM），从而能够利用硬件和软件层面的高度优化。其代价是需要消耗额外的内存来存储中间矩阵 $X_{co l}$ 。

方法二：重塑卷积核张量 (Toeplitz 矩阵)

此方法保持输入张量 $X$ 的向量化形式不变，而是将卷积核 $K$ 扩展为一个巨大的、稀疏的结构化矩阵 $K_{ma t}$ 。

向量化输入：将整个输入张量 $X$ 展平为一个列向量 $X_{v ec} \in R^{(H W) \times 1}$ 。
构建卷积矩阵 $K_{ma t}$ ： $K_{ma t}$ 是一个维度为 $(H^{'} W^{'}) \times (H W)$ 的矩阵。它的每一行对应于输出 $Y$ 的一个元素 $Y_{i, j}$ 。该行的非零元素是卷积核 $K$ 的所有权重，它们被放置在特定的位置上，以便在与 $X_{v ec}$ 相乘时，能够精确地选中输入 $X$ 中对应的局部区域。

例如，要计算 $Y_{0, 0}$ ， $K_{ma t}$ 的第一行会将核的权重 $k_{0, 0}, k_{0, 1}, \dots$ 放置在与输入 $x_{0, 0}, x_{0, 1}, \dots$ 相对应的列上，而所有其他位置均为0。这种结构使得该矩阵成为一个多重分块托普利茨矩阵 (multiply blocked Toeplitz matrix)。
等效矩阵乘法：输出张量的向量化形式由下式给出：
$Y_{v ec} = K_{ma t} \cdot X_{v ec}$
虽然这种方法在理论上很优雅，但在实践中很少使用，因为构建和存储巨大且稀疏的 $K_{ma t}$ 矩阵在计算和内存上都非常低效。

2. 手动设计卷积核

卷积核本质上是用于特征提取的模板。在数字图像处理中，可以通过手动设计核函数来实现特定的图像滤波效果，如边缘检测、模糊、锐化等。这些核的设计通常基于有限差分的思想，即用离散的像素值差异来近似连续的导数运算。

二阶导数的核

二阶导数用于衡量信号的曲率，在图像中对应于强度变化的剧烈程度，常用于边缘检测。拉普拉斯算子（Laplacian Operator）是二维二阶导数的一种常用形式，其定义为 $\nabla^{2} f = \frac{\partial ^{2} f}{\partial x ^{2}} + \frac{\partial ^{2} f}{\partial y ^{2}}$ 。

我们可以用中心差分来近似二阶偏导数：

\frac{\partial ^{2} f}{\partial x ^{2}} \approx \frac{f ( x + h ) - 2 f ( x ) + f ( x - h )}{h ^{2}}

若令像素间距 $h = 1$ ，则其离散形式的权重为 [1, -2, 1]。同理， $\frac{\partial ^{2} f}{\partial y ^{2}}$ 的权重在垂直方向上也是 [1, -2, 1]。

将两者相加，便得到了拉普拉斯算子的卷积核：

K_{l a pl a c ian} = 010 1 - 4 1 010

有时也会使用包含对角线方向的近似，得到另一种常见的核：

K_{l a pl a c ia n_{8}} = 111 1 - 8 1 111

积分的核

积分运算在离散信号上对应于求和。一个卷积核可以用来计算一个局部区域的加权和。最简单的积分形式是计算一个邻域内所有像素值的总和，这可以通过一个所有元素都为1的核来实现。

K_{s u m} = 111111111

将此核与图像进行卷积，输出的每个像素值等于其输入邻域（大小为 $3 \times 3$ ）的总和。如果将核的所有元素除以其总和（在此例中为9），则该运算变为均值滤波或盒状模糊（Box Blur），这是一种低通滤波器。

需要注意的是，标准的卷积运算计算的是一个局部积分（或移动平均）。要实现一个真正的、从起点开始的累积积分（Cumulative Sum），需要使用递归公式，这不属于标准的前馈卷积操作范畴，而更接近于无限冲激响应（IIR）滤波器的概念。

3. d次导数的最小核尺寸

我们可以通过归纳法来确定计算d次导数的最小卷积核尺寸。

基础:
- d=1 (一阶导数): 其中心差分近似为 $f^{'} (x) \approx f (x + 1) - f (x - 1)$ ，对应的最小非对称核为 $[1, - 1]$ （前向差分）或 $[- 1, 1]$ （后向差分）。为覆盖一个完整的差分操作，需要的最少点数为2。因此，最小核尺寸为 2。
- d=2 (二阶导数): 其中心差分近似为 $f (x + 1) - 2 f (x) + f (x - 1)$ 。这需要覆盖3个相邻的点。因此，最小核尺寸为 3。其核为 [1, -2, 1]。
归纳步骤: 注意到，一个 $(d + 1)$ 阶导数的差分算子，可以通过一个 $d$ 阶导数的差分算子与一个1阶导数的差分算子进行卷积得到。例如：
$K_{2} = K_{1} * K_{1}^{'} = [1, - 1] * [1, - 1] = [1, - 2, 1]$
这里为了方便理解，使用了非对称的一阶导数核。

假设计算d次导数所需的最小核尺寸为 $S (d)$ 。则计算 $(d + 1)$ 次导数，相当于对d次导数的结果再进行一次一阶导数运算。根据卷积的性质，两个尺寸分别为 $S_{1}$ 和 $S_{2}$ 的核进行卷积后，得到的核尺寸为 $S_{1} + S_{2} - 1$ 。
$S (d + 1) = S (d) + S (1) - 1$
我们已知 $S (1) = 2$ 。所以：
$S (d + 1) = S (d) + 2 - 1 = S (d) + 1$
这是一个首项为 $S (1) = 2$ ，公差为1的等差数列。因此，其通项公式为：
$S (d) = S (1) + (d - 1) \cdot 1 = 2 + d - 1 = d + 1$
结论: 在离散信号上，使用有限差分来近似d次导数，所需的最小卷积核尺寸为 d+1。

LazyBearLee's Blog

探索

初识卷积神经网络-矩阵形式的卷积运算与核函数分析

1. 卷积运算的等效矩阵乘法表示

2. 手动设计卷积核

3. d次导数的最小核尺寸

关系图谱

目录