公式2.9公式2.9等价形式


贝尔曼期望方程的起点

状态值函数 的递归定义,即贝尔曼期望方程 (Bellman Expectation Equation),是基于回报 的递归结构:

将状态值函数的定义 代入,并利用期望的线性性质,我们得到公式 (2.6)(未在图片中显示,但作为起点):

这个方程将 分解成了两部分:即时奖励的期望未来折扣回报的期望


从 (2.6) 到 (2.9) 的分解

推导 (2.9) 的过程是将公式 (2.6) 右侧的两项进行展开和计算。

1. 展开第一项:即时奖励的期望

这部分正是我们在上一个问题关于状态值中推导过的公式 (2.7)。它计算的是从状态 出发,在策略 下的即时期望奖励。

2. 展开第二项:未来折扣回报的期望

我们需要计算

2.1 引入中间变量

与第一项类似,我们先引入 的条件期望:

接着,我们引入下一状态 作为条件,利用全期望定律:

2.2 利用马尔可夫性和值函数定义

  • 马尔可夫性 (Markov Property): MDP要求未来的状态和回报只依赖于当前状态和动作,而与历史状态无关。因此:
  • 状态值函数定义 的时间齐次性 (Time-Homogeneity): 根据前一个问题的结论( 不依赖于 ):
  • 转移概率: 转移到 的概率,记为

将这些代入,第二项变为:

2.3 完整的第二项

3. 合并得到 (2.9)

将第一项和第二项合并代回 (2.6),我们得到中间的等式(带两个大括号):

最后,由于两个主要项都包含了对动作 的外部求和 ,我们可以将其提取到最外层,得到公式 (2.9):

状态 的价值 等于:

  1. 智能体在 处可能采取的每一个动作 的概率加权平均。 ()
  2. 对于每一个动作 ,其对应的期望价值是:即时获得的期望奖励 () 加上 下一状态 的价值 经过折扣和转移概率加权平均后的期望值 ()。

贝尔曼方程的另一种形式

强化学习的数学原理书中提到了 的另一个等价形式:

这个形式是更普遍和紧凑的,它直接利用了 MDP 的联合转移概率

概率基础:联合转移概率

在标准的 MDP 定义中,联合概率 是指在状态 采取动作 后,转移到状态 并获得奖励 的概率:

书中提供的两个全概率公式(边缘概率)正是将 与公式 (2.9) 中使用的 联系起来的桥梁:

  1. 下一状态的边缘概率: (对所有可能的奖励 求和,得到转移到 的总概率。)
  2. 即时奖励的边缘概率: (对所有可能的下一状态 求和,得到获得奖励 的总概率。)

推导

我们从贝尔曼方程的紧凑形式开始验证它与 (2.9) 的等价性:

展开内部中括号:

现在利用边缘概率公式进行化简:

对于第一项(即时奖励): 这与公式 (2.9) 中即时奖励部分相符。

对于第二项(未来价值): 这与公式 (2.9) 中未来奖励部分相符。

结论: 两种形式 (2.9) 和其变体是完全等价的,只是在组织转移概率项时采用了不同的分解方式。变体形式更强调 这一联合事件 的概率。