条件随机场（CRF）（一）：初识CRF

1. 问题背景：当分类任务遇上“序列”

在机器学习中，我们最先接触的通常是分类问题。比如，给你一封邮件，判断它是否是垃圾邮件（是/否）；给你一张图片，判断里面是猫还是狗。这些任务的共同点是：输入一个东西，输出一个独立的标签。

现在，我们把问题变得复杂一点，例如一个经典的自然语言处理任务：词性标注 (Part-of-Speech Tagging, POS Tagging)。

给定一个句子，比如：“我爱北京”，我们的任务是为每个词标注出它的词性。正确的标注应该是：

我	爱	北京
(代词)	(动词)	(名词)

这个任务和简单的图片分类有什么本质区别？

区别在于，输出不再是单个独立的标签，而是一个有依赖关系的标签序列。

“爱”这个词，单独看可以是动词，也可以是名词（如“伟大的爱”）。但在“我”这个代词后面，它极大概率是动- 词。
这意味着，要确定“爱”的词性，我们不仅要看“爱”本身，还要看它旁边的词，甚至整个句子的结构。

这种需要预测一个“结构化”输出（如序列、树、图）而不是单个标签的问题，我们称之为结构化预测 (Structured Prediction)。

如果我们直接使用独立的分类器（比如逻辑回归）来解决这个问题，就等于假设每个词的词性是相互独立的。这显然违背了我们的直觉，效果也必然大打折扣。我们需要一个能捕捉标签之间依赖关系的模型。

2. 回顾隐马尔可夫模型 (HMM)

在CRF出现之前，解决序列标注问题的经典模型是隐马尔可夫模型 (Hidden Markov Model, HMM)。为了理解CRF的创新之处，我们必须先理解HMM的思路和它的局限性。

HMM是一个生成式模型 (Generative Model)。它认为，一个标注序列（如“代词-动词-名词”）和句子（“我-爱-北京”）是按照以下故事线“生成”出来的：

第一步 (初始状态)：故事开始，以某个概率 $p (代词)$ 选择了第一个词性“代词”。
第二步 (状态转移)：有了“代词”这个状态，模型根据一个转移概率 $p (动词 ∣ 代词)$ ，生成了下一个状态“动词”。
第三步 (发射观测)：在每个状态下，模型根据一个发射概率，生成我们能看到的具体词语。例如，在“代词”状态下，以 $p (我 ∣ 代词)$ 的概率生成了“我”；在“动词”状态下，以 $p (爱 ∣ 动词)$ 的概率生成了“爱”。

这个过程如下图所示：

+----------+      +----------+      +----------+
|  y1=代词  |----->|  y2=动词  |----->|  y3=名词  |   <-- 隐状态序列 (我们猜的)
+----------+      +----------+      +----------+
     |                 |                 |
     | (发射)          | (发射)          | (发射)
     v                 v                 v
+----------+      +----------+      +----------+
|  x1=我   |      |  x2=爱   |      |  x3=北京  |   <-- 观测序列 (我们看的)
+----------+      +----------+      +----------+

HMM通过对联合概率 $p (Y, X)$ 建模（即“标签序列”和“观测序列”共同出现的概率），来试图还原这个生成过程。

HMM的核心假设与局限

为了让模型简化和可行，HMM做了两个关键的独立性假设：

马尔可夫假设：任意时刻的隐状态 $y_{t}$ 只与它的前一个状态 $y_{t - 1}$ 有关。这在图中体现为状态之间的箭头。
观测独立性假设：任意时刻的观测 $x_{t}$ 只与当前时刻的隐状态 $y_{t}$ 有关。这在图中体现为从状态到观测的垂直箭头。

这个“观测独立性假设”是HMM最大的软肋！ 它意味着，在确定“爱”是由“动词”状态生成时，模型只考虑 $p (爱 ∣ 动词)$ ，而完全忽略了观测序列 $X$ 中的其他信息，比如前一个词是“我”，或者这个词是否大写，有没有特定后缀等等。

但在实际应用中，这些特征非常有用！比如：

单词以 “-ed” 结尾，很可能是动词过去式。
单词首字母大写，很可能是专有名词。
前一个词是 “the”，当前词很可能是名词。

HMM的框架很难将这些丰富的、依赖于整个观测序列的特征融合进来。这就引出了机器学习中一个非常核心的分野。

3. 生成式模型 vs. 判别式模型

理解这个区别，是理解CRF为何优于HMM的关键。

生成式模型 (Generative Model)
- 目标：学习联合概率分布 $p (X, Y)$ 。
- 直观理解：学习数据是如何生成的。它会去学习每个类别 $Y$ 下，输入 $X$ 的特征是什么样的。比如，朴素贝叶斯模型会学习“垃圾邮件”里常出现哪些词，“正常邮件”里常出现哪些词。在预测时，它会看新来的邮件更“像”哪一类，然后用贝叶斯公式计算出结果。
- 代表：HMM、朴素贝叶斯。
判别式模型 (Discriminative Model)
- 目标：直接学习条件概率分布 $p (Y ∣ X)$ 。
- 直观理解：不关心数据是如何生成的，只关心如何区分不同类别。它直接学习一个决策边界或映射函数，将输入 $X$ 映射到输出 $Y$ 。
- 代表：逻辑回归、支持向量机、以及本文的主角——条件随机场 (CRF)。

判别式模型的核心优势是什么？

因为它不需要对 $p (X)$ 建模，所以它可以把 $X$ 的所有信息当作一个整体，在上面自由地、无限制地定义和组合特征！我们不再受“观测独立性假设”的束缚，可以随心所欲地使用上文提到的那些丰富特征（如词缀、前后词语、大写等）。

4. CRF登场：序列标注的“判别式”进化

有了上面的铺垫，CRF的定位就非常清晰了：

条件随机场 (CRF) 是隐马尔可夫模型 (HMM) 对应的“判别式”版本。

它和HMM一样，也考虑了输出标签之间的序列依赖关系。但它的核心思想发生了根本转变：

HMM 问的是：在所有可能的(标签序列, 观测序列)组合中，哪个组合的联合概率 $p (Y, X)$ 最高？
CRF 问的是：给定这一个观测序列 $X$ ，哪个标签序列 $Y$ 的条件概率 $p (Y ∣ X)$ 最高？

这个转变带来了两大优势：

优势一：特征的自由

CRF直接对 $p (Y ∣ X)$ 建模，这意味着它可以利用整个观测序列 $X$ 的任何信息作为特征。在词性标注的例子中，我们可以定义非常强大的特征函数，例如：

f1(yt, xt): 如果当前词 $x_{t}$ 是 “play”，当前标签 $y_{t}$ 是 “动词”，则该特征为1，否则为0。
f2(yt, xt-1): 如果前一个词 $x_{t - 1}$ 是 “I”，当前标签 $y_{t}$ 是 “动词”，则该特征为1，否则为0。
f3(yt, xt): 如果当前词 $x_{t}$ 以 “-ing” 结尾，当前标签 $y_{t}$ 是 “动词”，则该特征为1，否则为0。
f4(yt-1, yt): 如果前一个标签 $y_{t - 1}$ 是 “代词”，当前标签 $y_{t}$ 是 “动词”，则该特征为1，否则为0。（这类似于HMM的转移概率）

模型会为每一个这样的特征学习一个权重。一个正权重意味着该特征的存在会增加对应标签序列的可能性，负权重则相反。在预测时，CRF会综合考虑所有这些特征的加权总分，为整个序列找到一个总分最高的标签序列。

优势二：克服“标签偏置问题”

这是一个稍微深入但非常关键的优点。简单来说，像HMM那样的模型，其概率是局部归一化的，每个状态只负责将从它出发的转移概率归一化为1。这会导致模型倾向于选择那些“出路”更少的标签，而不管观测序列是什么。

CRF则采用全局归一化。它的概率公式中有一个分母，这个分母是对所有可能的标签序列的得分进行求和。这意味着，任何一个标签序列的概率都是在与全局所有其他可能的标签序列进行比较后得出的。这使得CRF在做决策时眼光更“长远”，能够更好地权衡整个序列的证据。

5. 总结一下

经过这次初步的探索，我们对CRF应该有了以下核心印象：

定位：CRF是一种用于结构化预测的判别式概率图模型。
核心思想：它直接对条件概率 $p (Y ∣ X)$ 建模，可以看作是逻辑回归的序列化版本。
与HMM对比：CRF克服了HMM“观测独立性假设”的缺点，可以利用整个输入序列的丰富特征。
关键优势：特征设计灵活强大，并且通过全局归一化避免了标签偏置问题。

至此，我们已经建立了对CRF的宏观理解，知道了它是什么，以及它为什么被提出。在下一篇文章条件随机场（CRF）（二）：模型定义与参数化中，我们将深入其内部，用严谨的数学语言精确地定义它，并揭示其核心——特征函数——是如何工作的。

LazyBearLee's Blog

探索