隐马尔科夫模型的概率计算算法—

1. 问题背景与定位

在初识隐马尔可夫模型中，我们已经知道一个完整的隐马尔可夫模型 (HMM) 由三要素 $λ = (A, B, π)$ 定义。现在，我们面临 HMM 的第一个核心问题：评估 (Evaluation)。

评估问题描述：给定一个 HMM 模型 $λ = (A, B, π)$ 和一个观测序列 $O = (o_{1}, o_{2}, \dots, o_{T})$ ，我们如何计算这个模型产生出该特定观测序列的概率 $P (O ∣ λ)$ ？

例如，在语音识别中，我们有两个 HMM 模型： $λ_{你好}$ 和 $λ_{再见}$ 。当系统接收到一段语音（观测序列 $O$ ）时，我们可以分别计算 $P (O ∣ λ_{你好})$ 和 $P (O ∣ λ_{再见})$ 。哪个概率更高，就说明这段语音更可能对应哪个词语。因此，高效计算 $P (O ∣ λ)$ 是许多 HMM 应用的基础。

接下来，我们将探索解决这个问题的三种方法：从最直观但最笨拙的“直接计算法”，到作为标准解决方案的“前向算法”与“后向算法”。

2. 直接计算法

2.1 直观理解

最符合直觉的方法是什么？就是把所有可能发生的情况都列出来，计算每一种情况的概率，然后把它们全部加起来。

具体来说，一个观测序列 $O = (o_{1}, \dots, o_{T})$ 是由一个我们看不见的隐藏状态序列 $Q = (q_{1}, \dots, q_{T})$ 生成的。我们不知道真实的隐藏状态序列是什么，但我们可以枚举所有可能的隐藏状态序列。

对于任何一条特定的隐藏状态序列，例如 $Q = (s_{i_{1}}, s_{i_{2}}, \dots, s_{i_{T}})$ ，计算它和观测序列 $O$ 同时发生的联合概率 $P (O, Q ∣ λ)$ 是很直接的：

P (O, Q ∣ λ) = P (Q ∣ λ) \times P (O ∣ Q, λ)

让我们把这两项拆开：

$P (Q ∣ λ)$ : 隐藏状态序列自身的概率。根据马尔可夫链的性质，它等于：
$P (Q ∣ λ) = P (q_{1} = s_{i_{1}}) \times P (q_{2} = s_{i_{2}} ∣ q_{1} = s_{i_{1}}) \times \dots \times P (q_{T} = s_{i_{T}} ∣ q_{T - 1} = s_{i_{T - 1}})$
用我们的模型参数表示就是：
$P (Q ∣ λ) = π_{i_{1}} \cdot a_{i_{1} i_{2}} \cdot a_{i_{2} i_{3}} \dots a_{i_{T - 1} i_{T}}$
$P (O ∣ Q, λ)$ : 在这个特定的隐藏状态序列下，生成观测序列 $O$ 的概率。根据观测独立性假设，它等于：
$P (O ∣ Q, λ) = P (o_{1} ∣ q_{1} = s_{i_{1}}) \times P (o_{2} ∣ q_{2} = s_{i_{2}}) \times \dots \times P (o_{T} ∣ q_{T} = s_{i_{T}})$
用我们的模型参数表示就是：
$P (O ∣ Q, λ) = b_{i_{1}} (o_{1}) \cdot b_{i_{2}} (o_{2}) \dots b_{i_{T}} (o_{T})$

将两者相乘，就得到了一条特定路径的概率。

2.2 最终计算与问题

为了得到最终的 $P (O ∣ λ)$ ，我们需要将所有可能的隐藏状态序列 $Q$ 的概率加起来：

P (O ∣ λ) = 所有可能的 Q \sum P (O, Q ∣ λ) = i_{1}, i_{2}, \dots, i_{T} \sum π_{i_{1}} b_{i_{1}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) \dots a_{i_{T - 1} i_{T}} b_{i_{T}} (o_{T})

问题出在哪里？ 这个方法的计算量是灾难性的。

隐藏状态共有 $N$ 种。
序列长度为 $T$ 。
那么，所有可能的隐藏状态序列 $Q$ 的总数是 $N^{T}$ 。
计算每一条序列的概率，需要进行 $O (T)$ 次乘法。
总的计算复杂度大约是 $O (T \cdot N^{T})$ 。

这是一个指数级别的复杂度。假设一个简单的词性标注任务，有 $N = 50$ 个词性，一句话长度为 $T = 20$ 。那么 $5 0^{20}$ 是一个天文数字，即使用最快的计算机也无法完成计算。因此，直接计算法在实践中是不可行的，它只是一种理论思想。

3. 前向算法

为了解决直接计算法的指数爆炸问题，我们需要一种更聪明的方法。前向算法利用动态规划 (Dynamic Programming) 的思想，通过存储和复用中间计算结果，将复杂度从指数级降到了多项式级。

3.1 直观理解与核心定义

直接计算法的问题在于，它进行了大量的重复计算。例如，在计算很多不同的长路径时，它们的前缀部分（比如从时刻1到时刻3的路径）被反复计算了无数次。

前向算法的核心思想是：在时刻 $t$ 到达某个状态 $s_{i}$ 的概率，可以由在时刻 $t - 1$ 到达所有可能状态的概率之和来递推得到。我们不需要关心 $t - 1$ 之前具体的路径是什么，只需要一个“总的概率”即可。

为此，我们定义一个关键变量——前向概率 (Forward Probability) $α_{t} (i)$ 。

定义: 前向概率 $α_{t} (i)$ 是指，在 HMM 模型 $λ$ 下，观测序列为 $o_{1}, o_{2}, \dots, o_{t}$ 且在时刻 $t$ 处于隐藏状态 $s_{i}$ 的联合概率。

α_{t} (i) = P (o_{1}, o_{2}, \dots, o_{t}, q_{t} = s_{i} ∣ λ)

请仔细理解这个定义：它包含了到时刻 $t$ 为止的两个条件：

已经看到了观测子序列 $o_{1}, \dots, o_{t}$ 。
在时刻 $t$ ，系统正好处于状态 $s_{i}$ 。

这个 $α_{t} (i)$ 已经将所有能够“在时刻 $t$ 到达状态 $s_{i}$ 并产生观测子序列 $o_{1}, \dots, o_{t}$ ”的路径概率全部加在一起了。

3.2 算法推导与步骤

前向算法的推导过程分为三步：

1. 初始化 $t = 1$ 我们来计算初始时刻的前向概率 $α_{1} (i)$ 。根据定义：

α_{1} (i) = P (o_{1}, q_{1} = s_{i} ∣ λ)

根据概率的链式法则，上式可以分解为：

α_{1} (i) = P (q_{1} = s_{i} ∣ λ) \times P (o_{1} ∣ q_{1} = s_{i}, λ) = π_{i} \cdot b_{i} (o_{1}) （应用链式法则） （根据 π 和 B 的定义）

含义：在时刻1，处于状态 $s_{i}$ 并观测到 $o_{1}$ 的概率，就是“初始时选择状态 $s_{i}$ 的概率”乘以“状态 $s_{i}$ 生成观测 $o_{1}$ 的概率”。

2. 递推 for $t = 1, \dots, T - 1$ 这是算法的核心。假设我们已经计算出了时刻 $t$ 的所有前向概率 $α_{t} (j)$ （对于所有 $j = 1, \dots, N$ ），我们如何计算时刻 $t + 1$ 的前向概率 $α_{t + 1} (i)$ ？

根据定义： $α_{t + 1} (i) = P (o_{1}, \dots, o_{t}, o_{t + 1}, q_{t + 1} = s_{i} ∣ λ)$

我们可以通过对时刻 $t$ 的所有可能状态 $s_{j}$ 进行边缘化 (Marginalization) 来展开它：

α_{t + 1} (i) = j = 1 \sum N P (o_{1}, \dots, o_{t}, q_{t} = s_{j}, o_{t + 1}, q_{t + 1} = s_{i} ∣ λ) = j = 1 \sum N P (o_{1}, \dots, o_{t}, q_{t} = s_{j} ∣ λ) \times P (o_{t + 1}, q_{t + 1} = s_{i} ∣ o_{1}, \dots, o_{t}, q_{t} = s_{j}, λ) （对 q_{t} 的所有可能状态求和） （应用链式法则）

现在，我们利用 HMM 的两个核心假设来简化第二项：

齐次马尔可夫性: $q_{t + 1}$ 只依赖于 $q_{t}$ 。所以 $P (q_{t + 1} = s_{i} ∣ \dots, q_{t} = s_{j}) = P (q_{t + 1} = s_{i} ∣ q_{t} = s_{j}) = a_{ji}$ 。
观测独立性: $o_{t + 1}$ 只依赖于 $q_{t + 1}$ 。所以 $P (o_{t + 1} ∣ \dots, q_{t + 1} = s_{i}) = P (o_{t + 1} ∣ q_{t + 1} = s_{i}) = b_{i} (o_{t + 1})$ 。

将这些简化代入，第二项变为 $a_{ji} \cdot b_{i} (o_{t + 1})$ 。而第一项 $P (o_{1}, \dots, o_{t}, q_{t} = s_{j} ∣ λ)$ 正是我们定义的 $α_{t} (j)$ ！

所以，我们得到了递推公式：

α_{t + 1} (i) = [j = 1 \sum N α_{t} (j) a_{ji}] \times b_{i} (o_{t + 1})

含义: 要计算在时刻 $t + 1$ 到达状态 $s_{i}$ 的总概率，我们首先要汇总所有从时刻 $t$ 的任意状态 $s_{j}$ 转移到 $s_{i}$ 的概率（方括号内的部分），然后再乘以 $s_{i}$ 生成观测 $o_{t + 1}$ 的概率。

**3. 终止当我们递推到最后一步，计算完所有 $α_{T} (i)$ 后，我们如何得到最终的 $P (O ∣ λ)$ ？根据定义， $α_{T} (i) = P (o_{1}, \dots, o_{T}, q_{T} = s_{i} ∣ λ)$ 。我们要求的 $P (O ∣ λ) = P (o_{1}, \dots, o_{T} ∣ λ)$ ，只需要对最后一个时刻的所有可能状态 $s_{i}$ 进行边缘化即可：

P (O ∣ λ) = i = 1 \sum N P (o_{1}, \dots, o_{T}, q_{T} = s_{i} ∣ λ) = i = 1 \sum N α_{T} (i)

含义: 观测序列 $O$ 出现的总概率，等于在最后时刻，系统处于任何一个可能状态 $s_{i}$ 并完成观测 $O$ 的概率之和。

算法复杂度:

初始化需要 $O (N)$ 。
每一步递推，计算一个 $α_{t + 1} (i)$ 需要 $O (N)$ 次计算。要计算所有 $N$ 个状态，需要 $O (N^{2})$ 。
总共有 $T - 1$ 步递推。
总复杂度为 $O (N^{2} T)$ ，这是一个多项式级别的复杂度，相比 $O (T \cdot N^{T})$ 是巨大的飞跃。

3.3 盒子和球模型

模型参数 $λ = (A, B, π)$ :

状态 $Q = {1, 2, 3}$ , $N = 3$
观测 $V = {红, 白}$ , $M = 2$
初始概率 $π = (0.2, 0.4, 0.4)$
状态转移矩阵 $A = 0.5 0.3 0.2 0.2 0.5 0.3 0.3 0.2 0.5$
观测概率矩阵 $B = 0.5 0.4 0.7 0.5 0.6 0.3$ （第1列是红，第2列是白）

观测序列 $O = (红, 白, 红)$ , $T = 3$ 。

1. 初始化 (t=1), 观测 $o_{1} = 红$

$α_{1} (1) = π_{1} \cdot b_{1} (o_{1}) = 0.2 \times 0.5 = 0.10$
$α_{1} (2) = π_{2} \cdot b_{2} (o_{1}) = 0.4 \times 0.4 = 0.16$
$α_{1} (3) = π_{3} \cdot b_{3} (o_{1}) = 0.4 \times 0.7 = 0.28$

2. 递推 (t=2), 观测 $o_{2} = 白$

计算 $α_{2} (1)$ :
$α_{2} (1) = [α_{1} (1) a_{11} + α_{1} (2) a_{21} + α_{1} (3) a_{31}] \times b_{1} (o_{2}) = [0.10 \times 0.5 + 0.16 \times 0.3 + 0.28 \times 0.2] \times 0.5 = [0.05 + 0.048 + 0.056] \times 0.5 = 0.154 \times 0.5 = 0.077$
计算 $α_{2} (2)$ :
$α_{2} (2) = [α_{1} (1) a_{12} + α_{1} (2) a_{22} + α_{1} (3) a_{32}] \times b_{2} (o_{2}) = [0.10 \times 0.2 + 0.16 \times 0.5 + 0.28 \times 0.3] \times 0.6 = [0.02 + 0.08 + 0.084] \times 0.6 = 0.184 \times 0.6 = 0.1104$
计算 $α_{2} (3)$ :
$α_{2} (3) = [α_{1} (1) a_{13} + α_{1} (2) a_{23} + α_{1} (3) a_{33}] \times b_{3} (o_{2}) = [0.10 \times 0.3 + 0.16 \times 0.2 + 0.28 \times 0.5] \times 0.3 = [0.03 + 0.032 + 0.14] \times 0.3 = 0.202 \times 0.3 = 0.0606$

3. 递推 (t=3), 观测 $o_{3} = 红$

计算 $α_{3} (1)$ :
$α_{3} (1) = [α_{2} (1) a_{11} + α_{2} (2) a_{21} + α_{2} (3) a_{31}] \times b_{1} (o_{3}) = [0.077 \times 0.5 + 0.1104 \times 0.3 + 0.0606 \times 0.2] \times 0.5 = [0.0385 + 0.03312 + 0.01212] \times 0.5 = 0.08374 \times 0.5 = 0.04187$
计算 $α_{3} (2)$ :
$α_{3} (2) = [α_{2} (1) a_{12} + α_{2} (2) a_{22} + α_{2} (3) a_{32}] \times b_{2} (o_{3}) = [0.077 \times 0.2 + 0.1104 \times 0.5 + 0.0606 \times 0.3] \times 0.4 = [0.0154 + 0.0552 + 0.01818] \times 0.4 = 0.08878 \times 0.4 = 0.035512$
计算 $α_{3} (3)$ :
$α_{3} (3) = [α_{2} (1) a_{13} + α_{2} (2) a_{23} + α_{2} (3) a_{33}] \times b_{3} (o_{3}) = [0.077 \times 0.3 + 0.1104 \times 0.2 + 0.0606 \times 0.5] \times 0.7 = [0.0231 + 0.02208 + 0.0303] \times 0.7 = 0.07548 \times 0.7 = 0.052836$

4. 终止

P (O ∣ λ) = i = 1 \sum 3 α_{3} (i) = α_{3} (1) + α_{3} (2) + α_{3} (3) = 0.04187 + 0.035512 + 0.052836 = 0.130218

4. 后向算法

后向算法是解决评估问题的另一种动态规划方法。它与前向算法对称，从序列的末尾开始，向前递推。

4.1 直观理解与核心定义

我们定义一个后向概率 (Backward Probability) $β_{t} (i)$ 。

定义: 后向概率 $β_{t} (i)$ 是指，在 HMM 模型 $λ$ 下，并且在时刻 $t$ 处于隐藏状态 $s_{i}$ 的条件下，观测到未来观测序列 $o_{t + 1}, o_{t + 2}, \dots, o_{T}$ 的条件概率。

β_{t} (i) = P (o_{t + 1}, o_{t + 2}, \dots, o_{T} ∣ q_{t} = s_{i}, λ)

请注意它与前向概率的区别：

$α_{t} (i)$ 是一个联合概率，包含了 $o_{1} .. o_{t}$ 和 $q_{t} = s_{i}$ 。
$β_{t} (i)$ 是一个条件概率，条件是 $q_{t} = s_{i}$ ，计算的是未来观测序列的概率。

4.2 算法推导与步骤

1. 初始化 $t = T$ 按照惯例，我们定义序列末尾的后向概率为一个基准值。

β_{T} (i) = 1, for all i = 1, \dots, N

含义: 在时刻 $T$ 已经处于状态 $s_{i}$ 的条件下，未来的观测序列（空序列）发生的概率自然是1。这是一个递归的起点。

2. 递推 for $t = T - 1, \dots, 1$ 假设我们已经计算出了时刻 $t + 1$ 的所有后向概率 $β_{t + 1} (j)$ ，我们来计算时刻 $t$ 的后向概率 $β_{t} (i)$ 。

根据定义， $β_{t} (i) = P (o_{t + 1}, \dots, o_{T} ∣ q_{t} = s_{i}, λ)$ 。我们通过对时刻 $t + 1$ 的所有状态 $s_{j}$ 进行边缘化来展开：

β_{t} (i) = j = 1 \sum N P (o_{t + 1}, \dots, o_{T}, q_{t + 1} = s_{j} ∣ q_{t} = s_{i}, λ) = j = 1 \sum N P (q_{t + 1} = s_{j} ∣ q_{t} = s_{i}, λ) \times P (o_{t + 1} ∣ q_{t + 1} = s_{j}, q_{t} = s_{i}, λ) \times P (o_{t + 2}, \dots, o_{T} ∣ o_{t + 1}, q_{t + 1} = s_{j}, q_{t} = s_{i}, λ)

再次利用HMM假设简化：

$P (q_{t + 1} = s_{j} ∣ q_{t} = s_{i}, λ) = a_{ij}$
$P (o_{t + 1} ∣ \dots, q_{t + 1} = s_{j}, \dots) = P (o_{t + 1} ∣ q_{t + 1} = s_{j}) = b_{j} (o_{t + 1})$
$P (o_{t + 2}, \dots, o_{T} ∣ \dots, q_{t + 1} = s_{j}, \dots) = P (o_{t + 2}, \dots, o_{T} ∣ q_{t + 1} = s_{j}) = β_{t + 1} (j)$

将它们代入，得到递推公式：

β_{t} (i) = j = 1 \sum N a_{ij} \cdot b_{j} (o_{t + 1}) \cdot β_{t + 1} (j)

3. 终止 后向算法也可以用来计算总概率 $P (O ∣ λ)$ 。我们可以在任意时刻 $t$ 将前向和后向概率结合起来。最简单的是在 $t = 1$ 时：

P (O ∣ λ) = i = 1 \sum N P (o_{1}, \dots, o_{T}, q_{1} = s_{i} ∣ λ)

我们将 $P (o_{1}, \dots, o_{T}, q_{1} = s_{i} ∣ λ)$ 分解为 $P (q_{1} = s_{i}) \cdot P (o_{1} ∣ q_{1} = s_{i}) \cdot P (o_{2}, \dots, o_{T} ∣ q_{1} = s_{i})$ 。这三项正好是 $π_{i}$ , $b_{i} (o_{1})$ , 和 $β_{1} (i)$ 。所以：

P (O ∣ λ) = i = 1 \sum N π_{i} \cdot b_{i} (o_{1}) \cdot β_{1} (i)

这个结果必须与前向算法得到的结果完全相同。

5. 补充概率概念

5.1 单个状态的概率： $γ_{t} (i)$

定义: 给定模型 $λ$ 和整个观测序列 $O$ ，在时刻 $t$ 处于状态 $s_{i}$ 的概率。

γ_{t} (i) = P (q_{t} = s_{i} ∣ O, λ)

这个概率回答了“在看到了所有证据之后，我们回头看，在时刻 $t$ 系统处于状态 $s_{i}$ 的可能性有多大？”

推导: 根据条件概率的定义 $P (A ∣ B) = P (A, B) / P (B)$ ：

γ_{t} (i) = \frac{P ( q _{t} = s _{i} , O ∣ λ )}{P ( O ∣ λ )}

我们来分析分子 $P (q_{t} = s_{i}, O ∣ λ)$ 。它可以被看作是“过去”、“现在”和“未来”的结合：

“过去”：观测到 $o_{1}, \dots, o_{t}$ 并且在时刻 $t$ 处于状态 $s_{i}$ 。这正是前向概率 $α_{t} (i)$ 。
“未来”：在时刻 $t$ 处于状态 $s_{i}$ 的条件下，观测到 $o_{t + 1}, \dots, o_{T}$ 。这正是后向概率 $β_{t} (i)$ 。

因此， $P (q_{t} = s_{i}, O ∣ λ) = α_{t} (i) β_{t} (i)$ 。代入可得：

γ_{t} (i) = \frac{α _{t} ( i ) β _{t} ( i )}{P ( O ∣ λ )} = \frac{α _{t} ( i ) β _{t} ( i )}{\sum _{j = 1}^{N} α _{t} ( j ) β _{t} ( j )}

意义: $γ_{t} (i)$ 在模型训练中，可以被看作是在时刻 $t$ 访问状态 $i$ 的期望次数。对所有时刻求和 $\sum_{t = 1}^{T} γ_{t} (i)$ 就是在整个序列中访问状态 $i$ 的总期望次数。

5.2 两个状态的转移概率： $ξ_{t} (i, j)$

定义: 给定模型 $λ$ 和整个观测序列 $O$ ，在时刻 $t$ 处于状态 $s_{i}$ 且在时刻 $t + 1$ 处于状态 $s_{j}$ 的概率。

ξ_{t} (i, j) = P (q_{t} = s_{i}, q_{t + 1} = s_{j} ∣ O, λ)

这个概率回答了“在看到了所有证据之后，在时刻 $t$ 到 $t + 1$ 之间，发生一次从 $s_{i}$ 到 $s_{j}$ 转移的可能性有多大？”

推导: 同样地， $ξ_{t} (i, j) = \frac{P ( q _{t} = s _{i} , q _{t + 1} = s _{j} , O ∣ λ )}{P ( O ∣ λ )}$ 。分子可以被分解为：

P (\dots) = α_{t} (i) P (o_{1}, \dots, o_{t}, q_{t} = s_{i}) \times a_{ij} P (q_{t + 1} = s_{j} ∣ q_{t} = s_{i}) \times b_{j} (o_{t + 1}) P (o_{t + 1} ∣ q_{t + 1} = s_{j}) \times β_{t + 1} (j) P (o_{t + 2}, \dots, o_{T} ∣ q_{t + 1} = s_{j})

将所有部分组合起来，得到：

ξ_{t} (i, j) = \frac{α _{t} ( i ) a _{ij} b _{j} ( o _{t + 1} ) β _{t + 1} ( j )}{P ( O ∣ λ )} = \frac{α _{t} ( i ) a _{ij} b _{j} ( o _{t + 1} ) β _{t + 1} ( j )}{\sum _{k = 1}^{N} \sum _{l = 1}^{N} α _{t} ( k ) a _{k l} b _{l} ( o _{t + 1} ) β _{t + 1} ( l )}

意义: $ξ_{t} (i, j)$ 可以被看作是在时刻 $t$ 从状态 $i$ 转移到状态 $j$ 的期望次数。对时间求和 $\sum_{t = 1}^{T - 1} ξ_{t} (i, j)$ 是在整个序列中从 $i$ 转移到 $j$ 的总期望次数。

这两个量， $γ_{t} (i)$ 和 $ξ_{t} (i, j)$ ，是鲍姆-韦尔奇 (Baum-Welch) 学习算法的核心，它们被用来在给定观测数据的情况下，迭代地更新模型参数 $A, B, π$ 。

6. 总结一下

本次我们深入探讨了 HMM 的概率评估问题。

直接计算法 思路简单，但因 $O (T \cdot N^{T})$ 的指数复杂度而不可行。
前向算法 利用动态规划，定义了前向概率 $α_{t} (i)$ ，自前向后递推，将复杂度降至 $O (N^{2} T)$ ，是解决评估问题的标准方法。
后向算法 是前向算法的镜像，定义了后向概率 $β_{t} (i)$ ，自后向前递推，同样可以计算总概率，并且是计算其他重要概率的必要工具。
组合概率 $γ_{t} (i)$ 和 $ξ_{t} (i, j)$ 利用前向和后向概率，让我们能深入洞察序列内部的动态，是连接评估问题和学习问题的桥梁。

至此，我们已经掌握了HMM三大问题中的第一个。下一个自然是解决隐马尔科夫模型的学习问题了。

LazyBearLee's Blog

探索

隐马尔科夫模型的概率计算算法——解决评估问题

1. 问题背景与定位

2. 直接计算法

2.1 直观理解

2.2 最终计算与问题

3. 前向算法

3.1 直观理解与核心定义

3.2 算法推导与步骤

3.3 盒子和球模型

4. 后向算法

4.1 直观理解与核心定义

4.2 算法推导与步骤

5. 补充概率概念

5.1 单个状态的概率： $γ_{t} (i)$

5.2 两个状态的转移概率： $ξ_{t} (i, j)$

6. 总结一下

关系图谱

目录

反向链接

LazyBearLee's Blog

探索

隐马尔科夫模型的概率计算算法——解决评估问题

1. 问题背景与定位

2. 直接计算法

2.1 直观理解

2.2 最终计算与问题

3. 前向算法

3.1 直观理解与核心定义

3.2 算法推导与步骤

3.3 盒子和球模型

4. 后向算法

4.1 直观理解与核心定义

4.2 算法推导与步骤

5. 补充概率概念

5.1 单个状态的概率：γt​(i)

5.2 两个状态的转移概率：ξt​(i,j)

6. 总结一下

关系图谱

目录

反向链接

5.1 单个状态的概率： $γ_{t} (i)$

5.2 两个状态的转移概率： $ξ_{t} (i, j)$