Cholesky分解

专题：从格拉姆-施密特到Cholesky分解

在线性代数中，我们知道对称正定矩阵有着许多优良的性质。其中最重要的一条就是它可以被唯一地分解为一个下三角矩阵和其转置的乘积。这个过程被称为Cholesky分解。

本笔记旨在通过一个核心问题和格拉姆-施密特过程的几何思想，来直观且严谨地理解为什么这种分解必然存在。

核心问题：任意内积的一般形式

问题: 证明在 $R^{n}$ 空间中的任何一个内积 $⟨ \cdot, \cdot ⟩$ ，都可以表示为 $⟨ x, y ⟩ = (U x)^{T} (U y)$ 的形式，其中 U 是一个对角元为正的上三角矩阵。

核心思想: 这个命题揭示了一个深刻的真理：任何“奇怪”的内积，无论它定义得多复杂，本质上都只是标准点积在一个“扭曲”的坐标系下的表现。我们总能找到一个合适的坐标变换 U，将向量“拉直”到一个新的坐标系里，在那个新坐标系中，这个奇怪的内积就变回了我们最熟悉的标准点积。

Step 1: 内积与正定矩阵的等价性

首先，线性代数中的一个基本定理告诉我们，在 $R^{n}$ 上的任何一个内积 $⟨ \cdot, \cdot ⟩$ 都与一个唯一的对称正定矩阵 A 相对应。它们的关系是：

⟨ x, y ⟩ = x^{T} A y

（矩阵 A 的元素由 $A_{i j} = ⟨ e_{i}, e_{j} ⟩$ 给出，其中 {eᵢ} 是标准基）

因此，我们的核心问题就转化为证明：

对于任何对称正定矩阵 A，都存在一个对角元为正的上三角矩阵 U，使得：
$x^{T} A y = x^{T} U^{T} U y$
这等价于证明：
$A = U^{T} U$

Step 2: 用格拉姆-施密特过程构造坐标变换

这个证明的精髓在于利用格拉姆-施密特过程来“找到”那个能把奇怪内积变回标准点积的坐标系。

初始状态: 考虑 $R^{n}$ 的标准基 {e₁, e₂, ..., eₙ}。这组基在标准点积下是完美的标准正交基。然而，在我们给定的新内积 ⟨·,·⟩ 下，它们通常是“歪”的（既不正交，长度也不为1）。
正交化: 我们对标准基 {e₁, ..., eₙ} 应用格拉姆-施密特过程，但关键是，我们是在新内积 ⟨·,·⟩ 的规则下进行正交化。这将产生一组新的基 {u₁, u₂, ..., uₙ}。
根据格拉姆-施密特的构造，这组新基 {uᵢ} 在新内积 ⟨·,·⟩ 下是标准正交的，即：
$⟨ u_{i}, u_{j} ⟩ = δ_{i j}$

Step 3: 基变换与上/下三角矩阵的必然联系

现在我们来分析新旧基之间的变换关系。

关系: 格拉姆-施密特过程的构造方式决定了一种单向依赖性。新的基向量 uₖ 只依赖于旧的基向量 {e₁, ..., eₖ}。
数学表达: 我们可以将每个新基向量 uₖ 写成旧基的线性组合： $u_{k} = c_{1 k} e_{1} + c_{2 k} e_{2} + \dots + c_{k k} e_{k}$ （因为 uₖ 与 e_{k+1} 及之后的向量无关，所以 cᵢₖ = 0 for i > k）
矩阵形式: 将这个关系写成矩阵形式。令 Q = [u₁ ... uₙ] 和 E = [e₁ ... eₙ] = I (单位矩阵)。令 P 是由系数 cᵢₖ 构成的矩阵。 $Q = E P = I P = P$ 由于 cᵢₖ = 0 for i > k，矩阵 P 在主对角线下方都是0，所以 P 是一个上三角矩阵，且其对角元（来自标准化步骤）为正。
因此，新基矩阵 Q 本身就是一个对角元为正的上三角矩阵！

Step 4: 连接Cholesky分解 (`A = L Lᵀ`)

现在我们已经非常接近终点了。我们令 L = Q⁻¹。一个对角元为正的上三角矩阵的逆，是一个对角元也为正的下三角矩阵。

坐标变换: 任意向量 x 都可以用两个基来表示：
- 在标准基 {eᵢ} 下的坐标就是它自己 x。
- 在新的标准正交基 {uᵢ} 下的坐标是多少呢？
  x = Q * (x在新基下的坐标) => (x在新基下的坐标) = Q⁻¹x = Lx。
内积计算:
- 我们在新内积 ⟨x, y⟩ 下计算。
- 因为 {uᵢ} 在这个内积下是标准正交的，所以计算两个向量的内积，就等于计算它们在 {uᵢ} 基下坐标的标准点积！
- x 在 {uᵢ} 基下的坐标是 Lx。
- y 在 {uᵢ} 基下的坐标是 Ly。
- 因此： $⟨ x, y ⟩ = (Lx)^{T} (Ly)$
最终推导:
$⟨ x, y ⟩ = (x^{T} L^{T}) (L y) = x^{T} (L^{T} L) y$
我们将其与第一步的公式 ⟨x, y⟩ = xᵀAy 进行比较，可以得出结论：
$A = L^{T} L$
我们令 L_chol = Lᵀ。由于 L 是下三角矩阵，L_chol 就是一个上三角矩阵。
所以我们证明了 A = U Uᵀ 才是 L Lᵀ 分解。A = L_cholᵀ L_chol

这里有个转置的细节。标准的Cholesky分解是 A = LLᵀ，其中 L 是下三角。让我们重新整理一下 U 和 L 的关系。

令 A = UᵀU，其中 U 是上三角。这被称为Cholesky分解的 "U-T-U" 形式。
令 A = LLᵀ，其中 L 是下三角。这是标准的Cholesky分解。
它们是等价的，因为如果 A = LLᵀ，那么 Aᵀ = (LLᵀ)ᵀ = (Lᵀ)ᵀLᵀ = LLᵀ，所以 A 是对称的。而 U 可以取 Lᵀ。

让我们回到第3步，我们构造出的 Q 是上三角。
A_ij = ⟨e_i, e_j⟩
δ_ij = ⟨u_i, u_j⟩ = ⟨Qe_i, Qe_j⟩ = (e_i)ᵀQᵀAQe_j
这意味着 QᵀAQ = I，所以 A = (Q⁻¹)ᵀ(Q⁻¹)。
我们令 U = Q⁻¹。因为 Q 是上三角，它的逆 U 也是上三角。
所以我们证明了 A = UᵀU。

这正是题目的 UᵀU 形式！ 而标准的Cholesky分解 A=LLᵀ，只需令 L = Uᵀ 即可，这时 L 就变成了一个下三角矩阵。

结论：Cholesky分解的存在性

通过上述的构造性证明，我们得出结论：
任何一个对称正定矩阵 A，都存在一个唯一的、对角元为正的下三角矩阵 L，使得 A = LLᵀ。

这个分解在数值计算、统计学（协方差矩阵）和机器学习中至关重要，因为它将一个复杂的内积（由 A 定义）分解为一个简单的坐标变换（由 L 或 Lᵀ 定义）和我们最熟悉的标准点积。