一个核心问题:为什么一个策略能产生无数条轨迹?
一个常见的误解是认为一个策略(智能体的“行为准则”)会导向一条固定的轨迹。实际上,一个策略定义的是一个轨迹的概率分布,而非单一条轨迹。这源于强化学习中存在的两大随机性来源:
-
策略的随机性 (Stochastic Policy)
- 策略本身可能不是确定性的。例如,一个策略
可能规定在状态 时,有 70% 的概率向左,30% 的概率向右。 - 每次智能体处于状态
时,它都会像掷一个不均匀的骰子一样来选择行动。仅这一个决策点的不同,就会产生走向完全不同未来的轨迹分支。
- 策略本身可能不是确定性的。例如,一个策略
-
环境的随机性 (Stochastic Environment)
- 即使策略和行动是确定的(例如,永远选择“向前”),环境的响应也可能是随机的。
- 例如,一个打滑的机器人,在执行“向前”指令时,可能成功向前,也可能意外向左或向右。环境的状态转移
是一个概率分布。 - 因此,即便行动序列完全相同,环境的随机性也会导致每次产生的状态和奖励序列(即轨迹)不同。
结论:在最一般的情况下,一条具体的轨迹是策略和环境在每一个时间步共同进行随机采样后产生的一个具体样本 (Sample)。
价值函数:对所有可能性求期望
既然一个策略
状态价值函数 (State-Value Function,
: 一条具体轨迹 的回报(一个具体的数值,例如 -480)。 : 在策略 下,从状态 出发,产生该轨迹 的概率。 : 将所有可能轨迹的回报与其出现概率相乘后求和,得到平均回报。
直观类比:
想象你用同一个策略玩一千次《超级马里奥》。
- 轨迹: 每一局从开始到结束的游戏过程都是一条轨迹。
- 随机性: 敌人出现的时机、你决策的微小随机性,都会导致每一局的过程(轨迹)千差万别。
- 回报: 每一局的最终得分是一个回报值。
- 价值: 将这一千局的得分全部加起来再除以一千,得到的平均分,就是对你起始状态价值的一个近似估计。
因此,价值函数