形式 A : "先算平均,再相加"
形式 B : "先打包,再算平均"
这两种形式是完全等价的。它们只是对期望的计算过程进行了不同的分组。
如何从形式 B 推导出形式 A (数学互推)
-
从形式 B 开始:
-
将括号内的
分配进去: -
识别关键部分:
- 我们之前已经证明了,第一部分
正是期望奖励 的定义。 - 而
又可以被更根本地写成 。(因为 )
- 我们之前已经证明了,第一部分
-
代入并重写方程:
-
最后,将最外层的
分配进去: -
整理一下第二项:
这就推导出了图片中的形式 A
两种形式的直观思想
为什么要有两种不同的写法?因为它们强调了价值构成的不同角度:
视角A (图片中的形式): "现在 vs. 未来"
这种形式把价值
- 期望的立即奖励: “如果我现在处于状态
,遵循策略 ,平均能立刻拿到多少奖励?” 这个计算完全不关心未来会怎么样。 - 期望的未来价值: “如果我现在处于状态
,遵循策略 ,平均会进入什么样的后继状态,而这些后继状态的折扣后价值的期望又是多少?”
这种视角非常符合价值的定义:价值 = 立即回报 + 未来回报。
视角B (我们讨论的形式): "对行动的期望"
这种形式把价值
-
首先定义一个行动的价值
: - “如果我在状态
确定要采取行动 ,那么接下来会发生的所有事情(转移到 并获得奖励 , 然后从 继续获得价值 )的期望总价值是多少?”
- “如果我在状态
-
然后对所有行动求期望:
- “我在状态
的总价值,就是我可能采取的所有行动 的价值 ,按照我采取它们的概率 进行的加权平均。”
- “我在状态
这种视角非常符合决策过程:状态的价值 = 所有行动的期望价值。
结论: 两种形式都是正确的,并且可以相互推导。图片中的形式更接近价值函数的数学定义,而我们之前讨论的形式则更接近