各定理解决的核心问题
-
Theorem 1 (Bochner's Theorem - 波赫纳定理):
- 解决的问题: 提供理论基础。它本身不直接降低复杂度,但它揭示了(特定类型的)核函数计算等价于一个傅里叶变换下的期望。这个发现是“可被近似”的理论基石,它允许我们将一个复杂的、成对的(
)核函数计算问题,转化为一个线性( )的特征映射和内积问题。它告诉我们“为什么”可以这么做。
- 解决的问题: 提供理论基础。它本身不直接降低复杂度,但它揭示了(特定类型的)核函数计算等价于一个傅里叶变换下的期望。这个发现是“可被近似”的理论基石,它允许我们将一个复杂的、成对的(
-
Theorem 2 (Positive Fixed Features - PFF - 正固定特征):
- 解决的问题: 提供一种具体的、可操作的降维方法。它基于 Bochner 定理,给出了如何通过蒙特卡洛或准蒙特卡洛方法进行随机特征采样,来构造一个无偏估计,从而将注意力机制的复杂度从
降低到 (其中 是特征维度, )。它告诉我们“如何”去做这个近似。
- 解决的问题: 提供一种具体的、可操作的降维方法。它基于 Bochner 定理,给出了如何通过蒙特卡洛或准蒙特卡洛方法进行随机特征采样,来构造一个无偏估计,从而将注意力机制的复杂度从
-
Theorem 3 (Weighted Positive Fixed Features - WPFF - 加权正固定特征):
- 解决的问题: 提高近似的精度。PFF 使用的是固定的随机特征,其近似效果有好有坏。WPFF 通过引入一个可学习的参数
,允许模型根据输入数据动态地“加权”这些特征,从而在不增加计算复杂度的情况下,获得一个误差更小、更精确的近似。它解决了“如何让近似更有效”的问题。
- 解决的问题: 提高近似的精度。PFF 使用的是固定的随机特征,其近似效果有好有坏。WPFF 通过引入一个可学习的参数
Theorem 1 (Bochner's Theorem)
定理陈述: 一个连续的移位不变(shift-invariant)核函数
更具体地说,对于在
其中
这里的
数学知识详解
1. 连续移位不变核函数
- 核函数 (Kernel Function):在机器学习中,核函数是一个函数,它接受两个输入
和 ,并返回一个表示它们相似度的标量。它隐式地将数据映射到一个高维特征空间,并计算该空间中的内积。 - 移位不变性 (Shift-Invariance):如果一个核函数仅依赖于输入向量的差
,即 ,那么它就是移位不变的。这意味着无论数据点在空间中的绝对位置如何,只要它们的相对位置(即差向量)相同,它们之间的相似度就相同。高斯核 就是一个典型的例子。
2. 正定性 (Positive Definiteness)
一个核函数
正定性是核函数能够被视为某个特征空间内积的充要条件,这是核方法有效性的理论基础。
3. 傅里叶变换 (Fourier Transform)
傅里叶变换是一种将函数从其原始域(通常是时间或空间)转换到频域的数学工具。Bochner 定理将核函数的正定性这个代数性质,与一个函数的傅里叶变换是一个概率密度函数这个分析性质联系了起来。
从理论到实践:近似核函数
Bochner 定理不仅是一个理论上的结论,它还为近似复杂的核函数提供了一条强大的路径。根据定理,核函数可以表示为期望的形式:
上述公式表明,核函数可以被看作是
有限维特征图与蒙特卡洛近似
直接计算这个积分是困难的,但我们可以通过蒙特卡洛方法来近似它。
- 从概率分布
中独立采样 个样本 。 - 用这些样本的平均值来近似期望:
为了得到实数值的特征,可以利用欧拉公式:
通过展开并重组,可以构造一个显式的有限维特征图
这样,原始的核函数计算
这种方法被称为随机傅里叶特征 (Random Fourier Features, RFF)。
准蒙特卡洛方法
标准的蒙特卡洛方法使用随机采样,这可能导致样本分布不均。为了提高积分估计的效率和精度,可以使用准蒙特卡洛方法。该方法使用低差异序列代替随机数,以更均匀的方式探索积分空间,从而通常能用更少的样本获得更好的近似效果。
定理中强调**“唯一有限概率测度”**,其含义是:
- 测度 (Measure): 为了让定理具有普适性。它囊括了频率成分是连续分布、离散分布或混合分布的所有可能性。这是最严谨、最根本的数学语言。
- 概率 (Probability): 意味着这个测度是有限 (Finite) 且总和可以被归一化为1的。即
。这保证了 是一个有限值,符合核函数的性质。 - 唯一 (Unique): 指的是一个正定核函数和一个概率测度之间存在着一一对应的完美关系。每一个合法的核函数都对应着独一无二的“频谱配方”,反之亦然。
在 Transformer 中的应用:注意力机制
在 Transformer 模型中,注意力机制的核心是计算 Query (Q) 和 Key (K) 之间的相似度,通常是通过点积
因为当
所以点积可以表示为:
这表明点积与欧几里得距离的平方呈线性关系。因此,基于点积的注意力可以被看作是与高斯核
通过引入 Bochner 定理,可以将注意力机制中的高斯核(或类似的核)用随机傅里叶特征来近似。这允许将注意力计算的复杂度从
Theorem 2: Positive Fixed Features (PFF) - 证明其为无偏估计
我们要证明的是,通过有限采样构造的近似核
1. 构造实数特征图
Bochner 定理给了我们一个复数形式的期望。为了在实际中计算,我们需要将其转换为实数。利用欧拉公式
由于核函数
利用三角恒等式
为了构造一个内积形式,我们定义一个特征映射
那么,
所以,我们有:
2. 蒙特卡洛近似与无偏性证明
现在,我们使用蒙特卡洛方法来近似这个期望。我们从分布
为了证明它是无偏的,我们对
根据期望的线性性质,我们可以将求和与常数移到期望外面:
因为所有的
而我们从第一步已经知道,这个期望值正好就是
将这个结果代回,我们得到:
证明完毕。 这表明,我们通过有限采样构造的 PFF 近似核
Theorem 3: Weighted Positive Fixed Features (WPFF) - 证明思路
WPFF 的核心是引入了一个可学习的权重函数
1. 加权形式
WPFF 的近似核可以写成:
为了让它仍然是无偏的,我们需要对
2. 与重要性采样的联系
回忆一下,PFF 的方差(即近似的稳定性)为:
这个方差取决于被积函数
重要性采样的思想是,我们不从原始分布
这里的
WPFF 中的可学习权重
通过端到端的训练,优化器会调整
因此,虽然我们没有严格证明其误差上界,但从方差缩减的角度可以直观地理解,通过学习数据相关的权重,WPFF 有潜力找到比固定、随机的 PFF 更稳定、更精确的核函数近似。