核心思想:从Q值的两种定义看Model-Free的实现路径

我们之前讨论过,为了在没有环境模型(Model-Free)的情况下进行策略改进,关键在于计算动作价值函数 Q(s, a)。但问题是,我们究竟该如何计算它呢?

这页笔记将从 Q(s, a) 的两种数学表达出发,揭示为什么其中一种定义为我们打开了通往Model-Free强化学习的大门。

定义一:基于模型的贝尔曼期望方程 (Expression 1)

这个定义是我们最熟悉的贝尔曼方程,它从“一步之后”的情况来分解Q值。

q_π(s, a) = Σ_r p(r|s, a)r + γ Σ_s' p(s'|s, a)v_π(s')


定义二:基于经验的期望回报 (Expression 2)

这个定义回到了价值函数最原始、最根本的含义。

q_π(s, a) = E[G_t | S_t = s, A_t = a]


从定义到算法:Model-Free的实现思路

所有Model-Free算法(包括蒙特卡洛、TD学习)的根基,就在于此:

我们可以通过让智能体在环境中反复试验,来收集大量的“经验样本”,然后用这些样本的平均回报来近似估算Q值的期望。

q(s, a) ≈ average(G_t) (在所有访问过 (s, a) 的样本中)

这正是蒙特卡洛(MC)方法正在做的事情。它通过运行完整的Episode来获得G_t的无偏估计,然后求平均来更新Q值。这完美地实践了“定义二”所揭示的Model-Free学习路径。

如何通过反复试验来估算Q值

我们想知道 q(s, a) 的值,但没法直接计算。所以,我们通过反复进行以 (s, a) 为起点的试验,记录每次试验的结果,然后用这些结果的平均值来近似 q(s, a)

1. 生成一个样本 (Generating a Sample)

2. 记录本次试验的结果:g(s, a)

这里是理解的关键!

3. 从单个样本到群体估计 (From Sample to Estimation)

4. 根本思想 (Fundamental Idea)


总结

  1. 目标:估算 q_π_k(s, a),即动作价值。
  2. 理论q_π_k(s, a) 的定义是未来总回报 G_t 的期望 E[G_t]
  3. 挑战:我们没有模型,无法用贝尔曼方程直接计算这个期望。
  4. 方法:利用统计学!期望可以通过采样求平均来近似。
  5. 实践
    • 做一次实验(生成一个Episode),得到一个回报的样本 g(s, a)
    • 做 N 次实验,得到 N 个样本 {g^(i)(s, a)}
    • 计算这 N 个样本的平均值,用它来作为 q_π_k(s, a) 的估计值。
    • 实验次数 N 越多,估计就越准确。