BIT2025强化学习笔记（一）强化学习的环境与马尔可夫过程

学习模块 1：强化学习的环境与马尔可夫过程

学习目标：

形式化定义强化学习中的轨迹（Trajectory）和随机过程（Stochastic Process）。
严格推导并分析马尔可夫假设（Markov Property）的数学意义，以及它如何解决状态历史的问题。
严格定义并理解平稳性（Stationary Assumption）的含义。
掌握在离散状态马尔可夫过程中进行预测的矩阵推导。

形式化定义 RL 的轨迹与随机过程 (对应 Slides 3, 4, 6)

我们首先从强化学习的交互循环开始，将其转化为一个可分析的数学序列。

1.1 轨迹的定义 (Trajectory)

幻灯片 3 展示了 Agent 和 Environment 之间的交互循环，幻灯片 4 将其展开为序列。我们用集合论的语言来形式化这个序列：

设：

状态空间 $S$ 为所有可能状态 $s$ 的集合。
动作空间 $A$ 为所有可能动作 $a$ 的集合。
奖励空间 $R$ 为所有可能奖励 $r$ 的集合（通常是 $R$ ）。

在时间 $t = 0, 1, 2, \dots, T$ 上，Agent 和 Environment 产生一个历史序列，我们称之为轨迹 $τ$ ： $τ = (s_{0}, a_{0}, r_{0}, s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2}, \dots)$

1.2 随机过程的定义 (Stochastic Process)

由于环境动态中存在不确定性（Stochastic Dynamics，幻灯片 4），轨迹中的状态 $s_{t}$ 是随机变量。

定义 1.2.1：随机过程

一个随机过程（Stochastic Process）是在某个指标集（这里是时间 $t \in {0, 1, 2, \dots}$ ）上的一族随机变量 ${S_{t}}_{t \geq 0}$ 。

在 RL 中，我们关注的是状态序列 ${S_{0}, S_{1}, S_{2}, \dots}$ 。

1.3 随机过程的动态特性与挑战 (对应 Slide 6, 7)

一个随机过程的动态特性（Dynamics）由其状态转移的概率分布完全描述。在时间 $t$ ，下一个状态 $S_{t}$ 的概率是基于所有过去状态的条件概率：

$P (S_{t} = s_{t} ∣ S_{t - 1} = s_{t - 1}, S_{t - 2} = s_{t - 2}, \dots, S_{0} = s_{0})$

挑战：无限历史依赖 (The Problem of Infinite History)

如果我们需要考虑所有的历史状态 $H_{t - 1} = (s_{t - 1}, s_{t - 2}, \dots, s_{0})$ 来预测 $S_{t}$ ，那么：

存储挑战： 随着时间 $t$ 增加，历史 $H_{t - 1}$ 的长度无限增长。
计算挑战： 计算和存储这种条件概率分布 $P (S_{t} ∣ H_{t - 1})$ 是不可行的（Infinitely large conditional distributions，幻灯片 7）。

为了使问题在数学上可处理和计算上可行，我们需要引入结构性的假设。

核心假设：马尔可夫性质与平稳性 (对应 Slides 7, 8, 9)

解决无限历史依赖的挑战（如幻灯片 7 所示），我们引入两个关键假设。

2.1 马尔可夫假设 (Markovian Assumption)

马尔可夫假设是强化学习和动态规划的基石。它断言：未来只取决于当前。

定义 2.1.1：马尔可夫性质 (Markov Property)

一个随机过程 ${S_{t}}_{t \geq 0}$ 具备马尔可夫性质，如果对于所有时间 $t$ 和所有状态序列 $s_{0}, s_{1}, \dots, s_{t} \in S$ ，下一个状态的条件概率只依赖于当前状态：

$P (S_{t + 1} = s^{'} ∣ S_{t} = s, S_{t - 1} = s_{t - 1}, \dots, S_{0} = s_{0}) = P (S_{t + 1} = s^{'} ∣ S_{t} = s)$

数学分析：

这个性质通过条件独立性（Conditional Independence）极大地简化了动态模型。它意味着给定 $S_{t}$ ，状态 $S_{t + 1}$ 与整个过去历史 ${S_{t - 1}, S_{t - 2}, \dots, S_{0}}$ 是条件独立的。

K-阶马尔可夫过程 (K-order Markov Process, Slide 8)

如果一个过程需要最近 $k$ 个状态才能预测未来，则它是 $K$ -阶马尔可夫过程。 $P (S_{t + 1} = s^{'} ∣ H_{t}) = P (S_{t + 1} = s^{'} ∣ S_{t}, S_{t - 1}, \dots, S_{t - k + 1})$

在 RL 中，我们默认使用 $K = 1$ 的一阶马尔可夫过程（First-order Markov Process，幻灯片 9）。

2.2 平稳性假设 (Stationary Assumption)

马尔可夫性质解决了历史依赖问题，但我们需要第二个假设来解决时间依赖性问题。

定义 2.2.1：平稳性 (Stationary Process)

一个马尔可夫过程是平稳的（Stationary），如果其状态转移概率不随时间 $t$ 变化。

形式上，对于任意时间 $t$ 和 $t^{'}$ ，以及任意状态 $s, s^{'} \in S$ ：

$P (S_{t + 1} = s^{'} ∣ S_{t} = s) = P (S_{t^{'} + 1} = s^{'} ∣ S_{t^{'}} = s)$

数学优势 (The Advantage, Slide 9)：

如果满足平稳性，我们可以用一个单一、简洁的条件分布来描述整个过程的动态，这个分布称为转移概率函数 $P (s^{'} ∣ s)$ ：

$P (s^{'} ∣ s) := P (S_{t + 1} = s^{'} ∣ S_{t} = s), \forall t \geq 0$

2.3 马尔可夫过程 (Markov Process, MP) 的最终定义

定义 2.3.1：马尔可夫过程

一个马尔可夫过程（Markov Process，也称作马尔可夫链 Markov Chain）是一个具备马尔可夫性质的平稳随机过程。

它由一个二元组 $(S, P)$ 严格定义：

状态空间 $S$ ：有限或可数无限的集合。
转移概率函数 $P$ ：一个函数 $P : S \times S \to [0, 1]$ ，其中 $P (s^{'} ∣ s)$ 表示从状态 $s$ 转移到状态 $s^{'}$ 的概率，且满足 $\sum_{s^{'} \in S} P (s^{'} ∣ s) = 1$ 。

马尔可夫过程中的推断 (Inference) (对应 Slide 13)

一旦我们接受了马尔可夫和平稳性假设，我们就可以进行预测。常见的任务是预测 $k$ 步之后的下一个状态的概率分布： $P (S_{t + k} ∣ S_{t})$ 。

3.1 预测的计算：Chapman-Kolmogorov 方程

假设我们想计算从 $s_{t}$ 经过两步到达 $s_{t + 2}$ 的概率 $P (s_{t + 2} ∣ s_{t})$ 。

根据概率的全概率公式（Law of Total Probability），我们需要考虑所有可能的中间状态 $s_{t + 1} \in S$ ：

$P (s_{t + 2} ∣ s_{t}) = \sum_{s_{t + 1} \in S} P (s_{t + 2}, s_{t + 1} ∣ s_{t})$

利用概率的链式法则和马尔可夫性质（即 $s_{t + 2}$ 只依赖于 $s_{t + 1}$ ，与 $s_{t}$ 无关）：

$P (s_{t + 2}, s_{t + 1} ∣ s_{t}) = P (s_{t + 2} ∣ s_{t + 1}, s_{t}) \cdot P (s_{t + 1} ∣ s_{t})$

由于是马尔可夫过程，我们有 $P (s_{t + 2} ∣ s_{t + 1}, s_{t}) = P (s_{t + 2} ∣ s_{t + 1})$ 。

因此，对于两步转移： $P (s_{t + 2} ∣ s_{t}) = \sum_{s_{t + 1} \in S} P (s_{t + 2} ∣ s_{t + 1}) \cdot P (s_{t + 1} ∣ s_{t})$

推广到 $k$ 步（幻灯片 13 的公式）： $P (S_{t + k} ∣ S_{t}) = \sum_{s_{t + 1}, \dots, s_{t + k - 1}} \prod_{i = 1}^{k} P (S_{t + i} ∣ S_{t + i - 1})$

3.2 离散状态：矩阵运算 (Matrix Operations)

如果状态空间 $S$ 是有限的，假设 $∣ S ∣ = N$ ，那么转移概率函数 $P (s^{'} ∣ s)$ 可以被表示为一个 $N \times N$ 的转移概率矩阵 $T$ (或 $P$ )。

定义 3.2.1：转移矩阵 $T$

矩阵 $T$ 的元素 $T_{i, j}$ 定义为从状态 $s_{i}$ 转移到状态 $s_{j}$ 的概率： $T_{i, j} = P (s_{j} ∣ s_{i})$

关键推导：

根据线性代数和概率论的对应关系，矩阵乘法在本质上实现了上述全概率求和的过程。

一步转移： $T^{1} = T$
两步转移： $T^{2} = T \cdot T$ 矩阵 $T^{2}$ 的元素 $(T^{2})_{i, j}$ 表示从 $s_{i}$ 经过两步到达 $s_{j}$ 的概率。根据矩阵乘法的定义： $(T^{2})_{i, j} = \sum_{l = 1}^{N} T_{i, l} \cdot T_{l, j}$ 这正好对应于 $\sum_{s_{t + 1}} P (s_{t + 2} ∣ s_{t + 1}) \cdot P (s_{t + 1} ∣ s_{t})$ 。
$k$ 步转移： $P (S_{t + k} ∣ S_{t}) 对应于矩阵 T^{k}$

因此，预测 $k$ 步转移概率分布的问题，在离散状态下被转化为计算转移矩阵的 $k$ 次幂。

从马尔可夫过程到决策 (对应 Slides 14)

我们已经形式化了环境动态，但是这只是一个被动的模型。在MP中，环境从一个状态转移到另一个状态是固定的（或随机的），主体（Agent）无法施加影响。

幻灯片 14 指出：仅凭预测是无用的。

$P (S_{t + k} ∣ S_{t})$ 告诉我们如果系统继续运行，它会发生什么。
但强化学习的目标是找到一种方式来影响（Influence）未来的状态，从而最大化奖励。

问题： 如何将 Agent 的决策（Action）纳入这个马尔可夫框架中？

答案： 我们需要引入动作和奖励，将马尔可夫过程扩展为：

马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是下一个学习模块的核心。在 MDP 中，转移概率将不再仅仅是 $P (s^{'} ∣ s)$ ，而是 $P (s^{'} ∣ s, a)$ ，明确依赖于 Agent 采取的动作 $a$ 。

LazyBearLee's Blog

探索