一个核心问题:为什么一个策略能产生无数条轨迹?

一个常见的误解是认为一个策略(智能体的“行为准则”)会导向一条固定的轨迹。实际上,一个策略定义的是一个轨迹的概率分布,而非单一条轨迹。这源于强化学习中存在的两大随机性来源:

  1. 策略的随机性 (Stochastic Policy)

    • 策略本身可能不是确定性的。例如,一个策略 π(a|s) 可能规定在状态 s 时,有 70% 的概率向左,30% 的概率向右。
    • 每次智能体处于状态 s 时,它都会像掷一个不均匀的骰子一样来选择行动。仅这一个决策点的不同,就会产生走向完全不同未来的轨迹分支。
  2. 环境的随机性 (Stochastic Environment)

    • 即使策略和行动是确定的(例如,永远选择“向前”),环境的响应也可能是随机的。
    • 例如,一个打滑的机器人,在执行“向前”指令时,可能成功向前,也可能意外向左或向右。环境的状态转移 P(s|s,a) 是一个概率分布。
    • 因此,即便行动序列完全相同,环境的随机性也会导致每次产生的状态和奖励序列(即轨迹)不同。

结论:在最一般的情况下,一条具体的轨迹策略环境在每一个时间步共同进行随机采样后产生的一个具体样本 (Sample)

价值函数:对所有可能性求期望

既然一个策略 π 从一个状态 s 出发,会产生一个包含无数可能轨迹的“未来之树”,那么我们如何评估状态 s 的好坏呢?答案是:求平均

状态价值函数 (State-Value Function, Vπ(s)) 正是回报 (Return) 在这个由策略和环境共同定义的轨迹概率分布上的期望值 (Expectation)

Vπ(s)=Eπ[Gt|St=s]=τP(τ|π,s)G(τ)

直观类比:
想象你用同一个策略玩一千次《超级马里奥》。

因此,价值函数 Vπ(s) 提供了一个稳定且具有代表性的衡量标准,它平滑掉了单次轨迹中的随机波动,告诉我们在遵循特定策略时,一个状态在长期来看“平均”有多好。