学习模块 1:强化学习的环境与马尔可夫过程

学习目标:

  1. 形式化定义强化学习中的轨迹(Trajectory)和随机过程(Stochastic Process)。
  2. 严格推导并分析马尔可夫假设(Markov Property)的数学意义,以及它如何解决状态历史的问题。
  3. 严格定义并理解平稳性(Stationary Assumption)的含义。
  4. 掌握在离散状态马尔可夫过程中进行预测的矩阵推导

形式化定义 RL 的轨迹与随机过程 (对应 Slides 3, 4, 6)

我们首先从强化学习的交互循环开始,将其转化为一个可分析的数学序列。

1.1 轨迹的定义 (Trajectory)

幻灯片 3 展示了 Agent 和 Environment 之间的交互循环,幻灯片 4 将其展开为序列。我们用集合论的语言来形式化这个序列:

设:

  • 状态空间 为所有可能状态 的集合。
  • 动作空间 为所有可能动作 的集合。
  • 奖励空间 为所有可能奖励 的集合(通常是 )。

在时间 上,Agent 和 Environment 产生一个历史序列,我们称之为轨迹

1.2 随机过程的定义 (Stochastic Process)

由于环境动态中存在不确定性(Stochastic Dynamics,幻灯片 4),轨迹中的状态 是随机变量。

定义 1.2.1:随机过程

一个随机过程(Stochastic Process)是在某个指标集(这里是时间 )上的一族随机变量

在 RL 中,我们关注的是状态序列

1.3 随机过程的动态特性与挑战 (对应 Slide 6, 7)

一个随机过程的动态特性(Dynamics)由其状态转移的概率分布完全描述。在时间 ,下一个状态 的概率是基于所有过去状态的条件概率:

挑战:无限历史依赖 (The Problem of Infinite History)

如果我们需要考虑所有的历史状态 来预测 ,那么:

  1. 存储挑战: 随着时间 增加,历史 的长度无限增长。
  2. 计算挑战: 计算和存储这种条件概率分布 是不可行的(Infinitely large conditional distributions,幻灯片 7)。

为了使问题在数学上可处理和计算上可行,我们需要引入结构性的假设。


核心假设:马尔可夫性质与平稳性 (对应 Slides 7, 8, 9)

解决无限历史依赖的挑战(如幻灯片 7 所示),我们引入两个关键假设。

2.1 马尔可夫假设 (Markovian Assumption)

马尔可夫假设是强化学习和动态规划的基石。它断言:未来只取决于当前。

定义 2.1.1:马尔可夫性质 (Markov Property)

一个随机过程 具备马尔可夫性质,如果对于所有时间 和所有状态序列 ,下一个状态的条件概率只依赖于当前状态:

数学分析:

这个性质通过条件独立性(Conditional Independence)极大地简化了动态模型。它意味着给定 ,状态 与整个过去历史 是条件独立的。

K-阶马尔可夫过程 (K-order Markov Process, Slide 8)

如果一个过程需要最近 个状态才能预测未来,则它是 -阶马尔可夫过程。

在 RL 中,我们默认使用 一阶马尔可夫过程(First-order Markov Process,幻灯片 9)。

2.2 平稳性假设 (Stationary Assumption)

马尔可夫性质解决了历史依赖问题,但我们需要第二个假设来解决时间依赖性问题。

定义 2.2.1:平稳性 (Stationary Process)

一个马尔可夫过程是平稳的(Stationary),如果其状态转移概率不随时间 变化。

形式上,对于任意时间 ,以及任意状态

数学优势 (The Advantage, Slide 9):

如果满足平稳性,我们可以用一个单一、简洁的条件分布来描述整个过程的动态,这个分布称为转移概率函数

2.3 马尔可夫过程 (Markov Process, MP) 的最终定义

定义 2.3.1:马尔可夫过程

一个马尔可夫过程(Markov Process,也称作马尔可夫链 Markov Chain)是一个具备马尔可夫性质的平稳随机过程

它由一个二元组 严格定义:

  1. 状态空间 :有限或可数无限的集合。
  2. 转移概率函数 :一个函数 ,其中 表示从状态 转移到状态 的概率,且满足

马尔可夫过程中的推断 (Inference) (对应 Slide 13)

一旦我们接受了马尔可夫和平稳性假设,我们就可以进行预测。常见的任务是预测 步之后的下一个状态的概率分布

3.1 预测的计算:Chapman-Kolmogorov 方程

假设我们想计算从 经过两步到达 的概率

根据概率的全概率公式(Law of Total Probability),我们需要考虑所有可能的中间状态

利用概率的链式法则马尔可夫性质(即 只依赖于 ,与 无关):

由于是马尔可夫过程,我们有

因此,对于两步转移:

推广到 步(幻灯片 13 的公式):

3.2 离散状态:矩阵运算 (Matrix Operations)

如果状态空间 是有限的,假设 ,那么转移概率函数 可以被表示为一个 转移概率矩阵 (或 )。

定义 3.2.1:转移矩阵

矩阵 的元素 定义为从状态 转移到状态 的概率:

关键推导:

根据线性代数和概率论的对应关系,矩阵乘法在本质上实现了上述全概率求和的过程。

  1. 一步转移:

  2. 两步转移: 矩阵 的元素 表示从 经过两步到达 的概率。根据矩阵乘法的定义: 这正好对应于

  3. 步转移:

因此,预测 步转移概率分布的问题,在离散状态下被转化为计算转移矩阵的 次幂。


从马尔可夫过程到决策 (对应 Slides 14)

我们已经形式化了环境动态,但是这只是一个被动的模型。在MP中,环境从一个状态转移到另一个状态是固定的(或随机的),主体(Agent)无法施加影响。

幻灯片 14 指出:仅凭预测是无用的。

  • 告诉我们如果系统继续运行,它会发生什么。
  • 但强化学习的目标是找到一种方式来影响(Influence)未来的状态,从而最大化奖励。

问题: 如何将 Agent 的决策(Action)纳入这个马尔可夫框架中?

答案: 我们需要引入动作奖励,将马尔可夫过程扩展为:

马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 是下一个学习模块的核心。在 MDP 中,转移概率将不再仅仅是 ,而是 ,明确依赖于 Agent 采取的动作