最小二乘解:为什么正规方程就是投影方程?

我们要证明:对于线性系统 Ax=b,其中 ARm×nm>n (过定系统),如果 A 具有列满秩,则向量 x=(ATA)1ATb 是使 Axb22 最小化的唯一解。

这个证明可以从两个角度理解:一是纯粹的代数优化,二是更直观的几何投影。几何方法能让我们深刻理解为什么正规方程 ATAx=ATb 会自然而然地出现。

几何视角证明:

1. 目标:最小化距离

我们的目标是找到一个 x,使得向量 Ax 与向量 b 之间的距离 Axb 最小。

2. 几何答案:正交投影

根据我们对正交投影的定义,子空间中离一个外部点最近的点,正是这个点在该子空间上的正交投影

3. 投影的核心性质:正交性

正交投影最关键的性质是:误差向量 (bb^) 必须与目标子空间 Col(A) 中的任何向量都正交

4. 从几何正交性到正规方程

n 个正交条件可以被非常巧妙地写成一个矩阵方程。

将这些行向量 aiT 堆叠起来,就构成了矩阵 A 的转置 AT

[a1Ta2TanT](bAx^)=[000]

这就是:

AT(bAx^)=0

展开这个方程,我们就得到了:

ATbATAx^=0ATAx^=ATb

看!我们从纯粹的几何投影思想出发,推导出了与代数优化方法完全相同的“正规方程”。

5. 求解正规方程

这一步与代数证明完全相同。

两种方法的联系与总结

这两种方法殊途同-归,都得到了正规方程 ATAx=ATb。这个方程的深刻含义是:

它是一个数学声明,表达了“误差向量 bAx 必须与 A 的所有列向量(即 Col(A) 的所有方向)都正交”。这正是正交投影的定义。

因此,求解最小二乘问题,在几何上就是做一次正交投影,而在代数上就是解一个被称为正规方程的线性系统。伪逆公式 x=(ATA)1ATb 正是这个方程的直接解。

这个解 x 告诉我们,需要对 A 的列向量进行怎样的线性组合,才能得到那个离 b 最近的投影点 b^

有解与无解对比

让我们来详细对比一下有解无解两种情况下,最小二乘解(或者说它的公式)到底意味着什么。

我们将使用几何投影的视角,因为它最直观。

背景回顾


情况一:当 Ax=b 有精确解时

这种情况在理论上很完美,但在实际数据问题中较少见。

1. 几何上发生了什么?

2. 最小二乘公式会算出什么?

3. 误差是多少?

总结 (有解时):
最小二乘法在这种情况下没有做任何“近似”。它只是通过一个看起来更复杂的公式,找到了那个本来就存在的精确解。投影操作 π(b) 就像一个“验证器”,它发现 b 已经在目标空间里了,所以什么也没改变。


情况二:当 Ax=b 无解时 (最小二乘法的真正用武之地)

这种情况在处理带有噪声的真实数据时是常态。

1. 几何上发生了什么?

2. 最小二乘公式会算出什么?

3. 误差是多少?

总结 (无解时):
最小二乘法找到了一个近似解 x^。这个解本身没有让 Ax^ 等于 b,而是让 Ax^ 等于 b投影 b^。它通过牺牲“完全相等”的目标,换取了“误差最小”的最优结果。投影操作 π(b) 在这里扮演了“寻找最佳替代品”的关键角色。

核心对比

特性 Ax=b 有解时 Ax=b 无解时
b 的位置 在 Col(A) 内部 在 Col(A) 外部
投影 π(b) π(b)=b π(b)=b^b
最小二乘解 x^ 精确解 最优近似解
Ax^ 的结果 Ax^=b Ax^=b^ (最佳近似)
最小误差 |bAx^| 0 大于 0 (是 b 到 Col(A) 的最短距离)

希望这个对比能让你彻底明白最小二乘解在两种情况下的不同含义!它是一个非常优雅的框架,统一了有解和无解两种情况的处理方式。