核心思想:大数定律与集中不等式

所有这些不等式的核心思想都与大数定律 (Law of Large Numbers) 有关。大数定律告诉我们,当我们对一个随机变量进行大量独立重复的抽样时,这些样本的平均值会收敛到该随机变量的期望值。

集中不等式 (Concentration Inequalities),如马尔可夫、切比雪夫、霍夫丁不等式,则更进一步:它们不仅告诉我们样本均值会收敛,还量化了样本均值偏离其期望值的概率。它们给出了一个上界,说明“样本均值与真实期望值相差甚远”这种“坏事”发生的概率有多小。


推导阶梯

第一步:马尔可夫不等式 (Markov's Inequality)

这是最基础的集中不等式,适用于任何非负的随机变量 X

定理: 如果 X 是一个非负随机变量,那么对于任何 a > 0,有:

P(Xa)E[X]a

第二步:切比雪夫不等式 (Chebyshev's Inequality)

切比雪夫不等式利用了方差的信息,提供了一个更紧的界。它适用于任何有期望 μ 和方差 σ2 的随机变量 X

定理: 对于任何 k > 0,有:

P(|Xμ|k)σ2k2

第三步:霍夫丁引理 (Hoeffding's Lemma) & 指数矩方法

为了得到指数衰减的界,我们需要一个更强大的工具。这里的关键技巧叫做指数矩方法 (Exponential Moment Method),也叫 Chernoff Bound 方法。

  1. 应用马尔可夫不等式于指数函数:
    对于任何 s>0,我们有:
    P(Xa)=P(esXesa)
    因为 esX 是非负随机变量,应用马尔可夫不等式:
    P(esXesa)E[esX]esa
    所以 P(Xa)esaE[esX]
    这个 E[esX] 叫做矩生成函数

  2. 霍夫丁引理 (Hoeffding's Lemma):
    这是推导霍夫丁不等式的基石。它为有界随机变量的矩生成函数提供了一个上界。
    引理: 如果 X 是一个期望为 0 的随机变量,且其取值范围在 [a, b] 区间内,那么对于任何 s>0,有:

    E[esX]exp(s2(ba)28)

    这个引理的证明比较复杂,涉及到利用 X 的凸性和泰勒展开。

第四步:霍夫丁不等式 (Hoeffding's Inequality)

现在我们有了所有工具。让我们来证明机器学习中的霍夫丁不等式。

目标: 证明 P(|L(h,Dtrain)L(h,Dall)|>ϵ)2exp(2ϵ2N)

  1. 定义随机变量:

    • L(h,Dall)期望损失(真实损失),记为 μ
    • L(h,Dtrain)=1Nn=1Nl(h,xn,y^n)样本平均损失
    • Zn=l(h,xn,y^n) 为单个样本的损失。这是一个随机变量,其期望 E[Zn]=μ
    • 我们想求的是 P(|1NZnμ|>ϵ)
  2. 只考虑单边情况: 先证明 P(1NZnμ>ϵ)exp(2ϵ2N)

    • SN=n=1N(Znμ)。这是一个零均值的随机变量之和。
    • P(1NZnμ>ϵ)=P(SN>Nϵ)
  3. 应用指数矩方法:
    对于任何 s>0
    P(SN>Nϵ)esNϵE[esSN]
    E[esSN]=E[es(Znμ)]=E[es(Znμ)]
    因为每个样本是独立同分布抽取的,所以期望的乘积等于乘积的期望:
    E[esSN]=E[es(Znμ)]

  4. 应用霍夫丁引理:

    • 假设单个损失 l() 的取值范围是有界的,比如在 [0, 1] 之间(这在分类问题中通常成立,0/1损失或交叉熵损失的输出在一定范围内)。那么 Znμ 的范围是 [-μ, 1-μ],长度为 1。
    • E[es(Znμ)] 应用霍夫丁引理(其中 ba=1):
      E[es(Znμ)]exp(s2128)=exp(s28)
    • 代回到上一步:
      E[esSN]n=1Nexp(s28)=(exp(s28))N=exp(Ns28)
  5. 找到最优上界:
    我们得到 P(SN>Nϵ)esNϵexp(Ns28)=exp(Ns28sNϵ)
    这个不等式对所有 s>0 都成立。为了得到最紧的界,我们要找到一个 s 来最小化右边的指数部分。对 Ns28sNϵ 关于 s求导并令其为0,可解得 s=4ϵ
    s=4ϵ 代回:
    P(SN>Nϵ)exp(N(4ϵ)28(4ϵ)Nϵ)=exp(2Nϵ24Nϵ2)=exp(2Nϵ2)
    至此,我们证明了单边不等式。

  6. 合并双边情况:
    P(|LtrainLall|>ϵ)=P(LtrainLall>ϵ)+P(LtrainLall<ϵ)
    对于 P(LtrainLall<ϵ),可以用完全对称的方法证明其上界也是 exp(2Nϵ2)
    因此,总概率的上界是两者相加,即 2exp(2Nϵ2)

总结:
霍夫丁不等式的推导依赖于一系列越来越强大的概率工具,其核心是指数矩方法霍夫丁引理,它将单个有界随机变量的性质推广到了它们的平均值上,并给出了一个随样本数量 N 指数衰减的概率上界。这个强大的结论是许多机器学习泛化理论的基石。