Projection Matrix

我们的目标非常明确：给定一个向量 $x$ 和一个子空间 $U$ （由一组基向量 $B$ 定义），我们要找到 $U$ 里面那个离 $x$ 最近的点 $p$ 。

这个“最近”就是我们的线索，它的数学语言是：误差向量 $(x - p)$ 必须与整个子空间 $U$ 垂直。

我们不知道 $p$ 是什么，但我们知道它在子空间 $U$ 里。任何在 $U$ 里的向量，都可以被 $U$ 的基 $B = [b_{1}, \dots, b_{k}]$ 线性表示。

所以，一定存在一组“坐标”或“权重” $λ = [λ_{1}, \dots, λ_{k}]^{T}$ ，使得：

p = λ_{1} b_{1} + \dots + λ_{k} b_{k}

用矩阵形式写出来，就是我们的第一个公式：

p = B λ \dots (1)

逻辑：这一步把一个未知向量 $p$ 的问题，转化为了一个未知坐标 $λ$ 的问题。未知数从一个向量变成了一组数字，问题变得更具体了。

我们的核心线索是： $(x - p) ⊥ U$ 。
这意味着 $(x - p)$ 必须与 $U$ 的所有基向量都垂直。

{\begin{cases} b_{1}^{T} (x - p) = 0 \\ ⋮ \\ b_{k}^{T} (x - p) = 0 \end{cases}

把这 $k$ 个方程合并成一个矩阵方程，就得到了：

B^{T} (x - p) = 0 \dots (2)

逻辑：这一步把几何上的“垂直”关系，转化为了代数上的方程组。

现在我们有两个方程，(1) 和 (2)。把 (1) 代入 (2) 中，消去我们不直接关心的中间变量 $p$ ：

B^{T} (x - B λ) = 0

展开并整理，我们就得到了大名鼎鼎的正规方程 (Normal Equation)：

(B^{T} B) λ = B^{T} x \dots (3)

逻辑：这是整个故事的高潮！我们建立了一个只包含已知量（ $B$ 和 $x$ ）和我们最终想求的未知量（ $λ$ ）的方程。解出这个方程，就能得到坐标 $λ$ 。

至此，一个具体问题的求解流程已经完整了：

求解流程： 给定 B, x -> 用(3)解出 λ -> 用(1)算出 p

这个流程回答了“如何计算一个特定向量的投影”。

现在我们想更进一步。我们不想每次都解方程，我们想要一个“万能公式”——一个矩阵 $P$ ，只要把它乘到任何向量 $x$ 上，就能直接得到它的投影 $p$ 。即 $p = P x$ 。

这个 $P$ 就是投影矩阵。我们怎么得到它呢？

从正规方程 (3) 出发，我们可以从理论上“解”出 $λ$ （通过在两边左乘 $(B^{T} B)^{- 1}$ ）：

λ = (B^{T} B)^{- 1} B^{T} x

现在我们有了坐标 $λ$ 的通用表达式。再把它代回到公式 (1) $p = B λ$ 中：

p = B \underset{λ}{\underset{⏟}{((B^{T} B)^{- 1} B^{T} x)}}

利用矩阵乘法的结合律，重新组合括号：

p = \underset{P}{\underset{⏟}{(B (B^{T} B)^{- 1} B^{T})}} x

我们就得到了投影矩阵 $P$ 的公式：

P = B (B^{T} B)^{- 1} B^{T} \dots (4)

逻辑：这一步是对求解过程的“封装”和“抽象化”。我们把求解特定 $x$ 的投影的过程，提炼成了一个可以作用于任何 $x$ 的算子（矩阵 $P$ ）。

所以，它们的逻辑先后性是：

为了找到 p -> 我们引入了 λ -> 为了求解 λ 我们建立了正规方程 -> 为了得到一个通用的投影方法，我们从正规方程的解中推导出了投影矩阵 P。

这个流程清晰地展示了从一个具体的几何问题，如何一步步通过代数手段，最终抽象出一个普适的数学工具（投影矩阵）的过程。