好的,这是您提供的全部讲义内容的中文翻译版本。翻译力求准确传达原文的数学概念,并保留了原有的结构和格式。


第一讲:线性代数:线性方程组、矩阵、向量空间、线性无关

第一部分:概念

第二部分:矩阵运算

(λA)ij=λ(Aij)

第三部分:向量空间与群

笔记续


第二讲:线性代数:基与秩、线性映射、仿射空间

第一部分:基与秩

第二部分:线性映射

第三部分:基变换和变换矩阵

本节涵盖了将抽象线性映射表示为矩阵以及改变坐标系的机制。

1. 线性映射的变换矩阵

变换矩阵为抽象的线性映射提供了一个具体的计算表示,这是相对于所选基而言的。

2. 基变换矩阵

这是变换矩阵的一个特殊应用,用于在同一个向量空间内将一个向量的坐标从一个基转换到另一个基。这个过程等价于为恒等映射id:VV,其中 id(x)=x)寻找变换矩阵。

3. 线性映射的基变换定理

Change-of-Basis Theorem
该定理提供了一个公式,用于在改变线性映射的定义域和陪域的基(坐标系)时,计算新的变换矩阵。

4. 矩阵等价与相似

这些概念形式化了这样一种思想:不同的矩阵可以表示相同的底层线性映射,只是使用了不同的坐标系。

5. 线性映射的复合

第四部分:仿射空间与仿射子空间

虽然向量空间和子空间是基础,但它们受一个关键要求的限制:必须包含原点。仿射空间将这一思想推广到描述那些不一定穿过原点的几何对象,如直线和平面。

特征 向量子空间 (U) 仿射子空间 (L = p + U)
必须包含原点? (0 ∈ U) ,除非 p ∈ U
加法封闭? 。如果 u₁, u₂ ∈ U,则 u₁ + u₂ ∈ U 。通常,l₁ + l₂ ∉ L
标量乘法封闭? 。如果 u ∈ U,则 cu ∈ U 。通常,cl₁ ∉ L
几何示例 穿过原点的直线/平面。 任何被平移的直线/平面。
线性系统示例 Ax = 0 的解集。 Ax = b 的解集。

第五部分:超平面 (Hyperplanes)

超平面是将在2D空间中的线和3D空间中的平面的概念推广到任意维度向量空间的结果。它是一种极其重要且常见的特殊仿射子空间。

1. 核心直观

它的关键功能是将整个空间“切片”成两个半空间,使其成为分类问题中理想的决策边界

2. 超平面的两个等价定义

超平面可以用两种等价的方式定义:一种是代数的,一种是几何的。

定义1:代数定义(通过单个线性方程)

Rn中的一个超平面 H 是满足单个线性方程的所有点 x 的集合:

a1x1+a2x2++anxn=d

其中 a1,,an 是不全为零的系数,d 是一个常数。

使用向量表示法,这个方程变得更加紧凑:

aTx=d
定义2:几何定义(通过仿射子空间)

n维向量空间 V 中的一个超平面 H 是一个维度为n-1仿射子空间

H=p+U

其中:

3. 定义之间的联系

这两个定义是完全等价的。

4. 机器学习中的超平面

超平面是许多机器学习算法的核心,最著名的是支持向量机 (SVM)

第六部分:仿射映射 (Affine Mappings)

我们已经确定,形式为 φ(x) = Ax 的线性映射总是保持原点不变(即 φ(0) = 0)。然而,许多实际应用,特别是计算机图形学,需要包括平移的变换,这会移动原点。这种更一般的变换类别被称为仿射映射。

1. 核心思想:一个线性映射后跟一个平移

一个仿射映射本质上是一个线性映射和一个平移的复合。

2. 正式定义

从向量空间 V 到向量空间 W 的映射 f: V → W 被称为仿射映射,如果它可以写成以下形式:

f(x)=Ax+b

其中:

与线性映射的区别:

3. 仿射映射的关键性质

虽然仿射映射通常不是线性的(因为 f(x+y) ≠ f(x) + f(y)),但它们保留了几个关键的几何性质。

  1. 直线映射为直线: 仿射映射将一条直线变换为另一条直线(或者在退化情况下,如果直线的方向在 A 的零空间中,则变换为单个点)。

  2. 平行性被保留: 如果两条线是平行的,它们在仿射映射下的像也将是平行的。

  3. 长度比率被保留: 如果点 P 是线段 QR 的中点,那么它的像 f(P) 将是像线段 f(Q)f(R) 的中点。

  4. 仿射组合被保留: 这是仿射映射最基本的代数性质。如果一个点 y 是一组点 xᵢ 的仿射组合(即 y = ΣαᵢxᵢΣαᵢ = 1),那么它的像 f(y) 是像点 f(xᵢ)相同仿射组合

    f(αixi)=αif(xi),前提是αi=1

4. 齐次坐标:统一变换的技巧

在计算机图形学等领域,用单一的矩阵乘法来表示所有变换(包括平移)是非常理想的。标准形式 Ax + b 需要乘法和加法,这对于复合多个变换很不方便。

齐次坐标通过增加一个额外的维度,巧妙地解决了这个问题,有效地将一个仿射映射变成了更高维空间中的一个线性映射。

5. 总结

概念 线性映射 (Ax) 仿射映射 (Ax + b)
本质 旋转 / 缩放 / 剪切 线性变换 + 平移
保留原点? , f(0) = 0 , 通常 f(0) = b
保留线性组合?
保留什么? 直线、平行性、线性组合 直线、平行性、仿射组合
表示法 矩阵 A 矩阵 A 和向量 b
齐次坐标形式 [A00T1] [Ab0T1]

第三讲:解析几何:范数、内积、长度与距离、角度与正交性

第一部分:向量空间上的几何结构

在前面部分,我们建立了向量空间和线性映射的代数框架。现在,我们将为这些空间赋予几何结构,使我们能够形式化向量的长度、向量间的距离以及它们之间的角度等直观概念。这些概念由范数和内积来捕捉。

1. 范数 (Norms)

范数是向量“长度”或“大小”这一直观概念的形式化推广。

2. 内积 (Inner Products)

内积是一个比范数更基本的概念。它是一个函数,不仅允许我们定义欧几里得范数,还允许我们定义向量间的角度和正交性(垂直性)的概念。

3. 桥梁:从内积到几何

内积是向量空间内欧几里得几何的基础。所有关键的几何概念都可以从中导出。

第二部分:向量空间上的几何结构

1. 对称正定 (SPD) 矩阵与内积

在像Rn这样的有限维向量空间中,内积的抽象概念可以通过一类特殊的矩阵——对称正定 (SPD) 矩阵——来具体表示和计算。

第三部分:角度、正交性与正交矩阵

1. 角度与正交性

2. 正交矩阵

第四部分:度量空间与距离的正式定义

度量 (metric) 形式化了任何集合元素之间“距离”的直观概念。

1. 度量函数 (Metric Function)

2. 联系:从内积到度量

3. 为什么度量的概念有用?

它允许我们在远超标准欧几里得几何的背景下测量“距离”。

4. 空间层次总结

内积空间赋范空间度量空间拓扑空间

第五部分:正交投影

正交投影是一种基本操作,用于在给定子空间中找到与给定向量“最接近”的向量。

1. 正交投影的概念

U 是内积空间 V 的一个子空间,xV 是一个向量。x 到子空间 U 上的正交投影 πU(x)U 中与 x “最接近”的唯一向量。

这个投影 p=πU(x) 由两个基本性质定义:

  1. 隶属属性: pU
  2. 正交属性: (xp)U

2. 推导投影公式(法方程)

第1步:用基表示隶属属性
B 是一个以 U 的基向量为列的矩阵。那么存在唯一的系数向量 λ 使得:

p=Bλ

第2步:将正交属性表示为方程
(xp)U 的每个基向量的点积都必须为零,这可以紧凑地写成:

BT(xp)=0

第3步:组合并求解 λ
将第一个方程代入第二个方程:

BT(xBλ)=0

得到法方程 (Normal Equation)

(BTB)λ=BTx

3. 正交投影算法

  1. 找到基: 找到子空间 U 的一个基。
  2. 构成基矩阵 B
  3. 建立法方程: 计算 BᵀBBᵀx
  4. 求解 λ
  5. 计算投影 p 使用公式 p = Bλ

4. 特殊情况:标准正交基

如果 U 的基是标准正交的,那么 B 的列是标准正交的。此时:


第四讲:解析几何:标准正交基、正交补、函数内积、正交投影、旋转

第一部分:标准正交基与正交补

1. 标准正交基

2. 格拉姆-施密特过程:构造标准正交基

格拉姆-施密特过程是一个将任何线性无关向量集(一个基)转换为相同子空间的标准正交基的算法。

3. 正的概念从单个向量推广到整个子空间。

第二部分:函数内积、正交投影与旋转

1. 函数的内积

2. 正交投影

正交投影是解决最小二乘问题的几何基础。

3. 旋转

第三部分:正交投影详解

投影是一类至关重要的线性变换,广泛应用于图形学、编码理论、统计学和机器学习中。

1. 正交投影的重要性与概念

2. 投影的正式定义与性质

3. 投影到一维子空间(直线)

Image/Class/Mathematics-for-AI/5.png
Image/Class/Mathematics-for-AI/6.png
我们从最简单的情况开始推导投影公式:将一个向量投影到一条直线上。除非另有说明,我们都假设使用标准的点积作为内积。

4. 投影到一般子空间

Image/Class/Mathematics-for-AI/7.png
用于一维投影的三步法可以推广到任何 m 维子空间 URn

拓展:子空间之间的投影Projections between Subspaces

5. 核心应用 I:Gram-Schmidt正交化

Gram-Schmidt过程是构造一组标准正交基的经典算法,其核心思想就是反复利用正交投影
Image/Class/Mathematics-for-AI/8.png
Image/Class/Mathematics-for-AI/9.png
Image/Class/Mathematics-for-AI/10.png

拓展:Cholesky分解

6. 核心应用 II:投影到仿射子空间

到目前为止,我们讨论的都是投影到过原点的子空间。现在我们将其推广到不过原点的仿射子空间(例如,不过原点的直线或平面)。

7. 核心应用 III:投影与最小二乘解

Moore Penrose Pseudo inverse
正交投影为求解无解的线性方程组 Ax=b 提供了一个强大的几何框架,这构成了最小二乘法 (Least Squares Method) 的基础。

第四部分:旋转详解 (Rotations)

旋转是继投影之后的另一类重要的线性变换,它在几何学、计算机图形学和机器人学中扮演着核心角色。

1. 旋转的基本概念

2. R² 中的旋转

2.1 R² 旋转矩阵的推导:两种视角

视角一:基变换 (The "Columns are Transformed Basis Vectors" View)

这是从线性变换本质出发的标准推导方法。

视角二:极坐标与三角恒等式 (The "Direct Geometric" View)

这是一个更直接的几何证明,不依赖于基变换的思想。

  1. 表示向量: 将任意向量用极坐标表示:x=rcosϕ,y=rsinϕ
  2. 表示旋转: 将该向量旋转角度 θ,其角度变为 ϕ+θ。新坐标 (x,y) 为:x=rcos(ϕ+θ),y=rsin(ϕ+θ)
  3. 应用和角公式:
    • x=r(cosϕcosθsinϕsinθ)=xcosθysinθ
    • y=r(sinϕcosθ+cosϕsinθ)=xsinθ+ycosθ
  4. 写成矩阵形式:[xy]=[cosθsinθsinθcosθ][xy]

2.2 R² 旋转的应用与注意事项

3. R³ 中的旋转

三维空间中的旋转比二维更复杂,因为它必须围绕一个旋转轴 (axis of rotation) 进行。

3.1 3D旋转的方向约定:右手定则

为了定义“逆时针”旋转,我们使用右手定则 (Right-Hand Rule)

3.2 沿坐标轴的基本旋转

任何复杂的3D旋转都可以分解为沿三个主坐标轴(x, y, z)的一系列基本旋转。

  1. 绕 x 轴 (e1) 旋转 Rx(θ)

    • 描述: x 坐标保持不变,旋转发生在 yz 平面。
    • 矩阵:Rx(θ)=[1000cosθsinθ0sinθcosθ]
  2. 绕 y 轴 (e2) 旋转 Ry(θ)

    • 描述: y 坐标保持不变,旋转发生在 zx 平面。
    • 矩阵:Ry(θ)=[cosθ0sinθ010sinθ0cosθ]
  3. 绕 z 轴 (e3) 旋转 Rz(θ)

    • 描述: z 坐标保持不变,旋转发生在 xy 平面。
    • 矩阵:Rz(θ)=[cosθsinθ0sinθcosθ0001]

3.3 3D基本旋转矩阵的三角证明

3.4 3D序贯旋转 (Sequential Rotations)

4. 高维空间 (Rⁿ) 中的旋转:吉文斯旋转 (Givens Rotation)

5. 旋转的通用性质

第五讲:矩阵分解 (Matrix Decompositions)

第一部分:行列式与迹 (Determinant and Trace)

在深入研究复杂的矩阵分解之前,我们首先需要掌握两个描述方阵特性的基本标量:行列式

1. 行列式 (Determinant)

行列式是线性代数中的一个核心概念,它将一个方阵映射到一个唯一的实数,这个实数蕴含了关于该矩阵和其所代表的线性变换的重要信息。

1.1 行列式、可逆性与秩

行列式最直接、最重要的应用就是判断一个方阵是否可逆,以及它是否是满秩的。这三者是等价的。

1.2 行列式的几何意义:体积与方向

行列式最深刻的几何意义是它代表了由矩阵的列向量(或行向量)所张成的平行多面体 (parallelepiped)有向体积 (signed volume)

1.3 行列式的计算

计算行列式有多种方法,适用于不同类型和阶数的矩阵。


1.4 行列式的重要性质

A,BRn×nλR

1.5 行列式的理论与实践作用

2. 迹 (Trace)

迹是方阵的另一个重要标量,定义比行列式简单得多。

2.1 迹的性质

A,B 为方阵,α 为标量。

3. 特征多项式 (Characteristic Polynomial)

行列式和迹共同构成了定义特征多项式的基础,这是计算矩阵特征值的关键工具。

第二部分:特征值与特征向量 (Eigenvalues and Eigenvectors)

特征值和特征向量(简称“特征分析”)是线性代数中威力最强大的工具之一。它提供了一种全新的视角来理解和刻画一个方阵及其所代表的线性变换,揭示了变换最本质、最核心的特性。

1. 特征值与特征向量的定义与几何意义

1.1 定义

1.2 几何意义:变换下的“不变方向”

1.3 特征向量的非唯一性


2. 特征值的计算

2.1 计算原理与特征方程

如何系统地找到一个矩阵的特征值?这需要我们将特征值方程转化为一个我们熟悉的问题。

2.2 计算步骤示例

给定矩阵 A=(4213),我们来计算其特征值和特征向量。

第一步:求解特征多项式
我们计算特征多项式 pA(λ) 并令其为零:

pA(λ)=det(AλI)=det(4λ213λ)=(4λ)(3λ)21=127λ+λ22=λ27λ+10=(λ2)(λ5)

第二步:计算特征值
pA(λ)=0,我们得到特征方程的根,即矩阵 A 的特征值:

λ1=5,λ2=2

第三步:计算特征向量与特征空间
对于每一个特征值,我们求解方程 (AλI)x=0 来找到对应的特征向量。


3. 特征分析的核心概念

3.1 特征空间 (Eigenspace)

3.2 代数重数与几何重数 (Algebraic and Geometric Multiplicity)

重要关系: 对于任何一个特征值 λ1几何重数代数重数

3.3 特征向量的线性无关性

定理 1: 如果一个 n×n 矩阵 An互不相同的特征值 λ1,,λn,那么它们对应的特征向量 x1,,xn线性无关的。

更一般的定理 (Theorem 2): 如果一个 n×n 矩阵 Am 个不同的特征值 λ1,,λm,那么从每个特征空间中任取一个特征向量 x1,,xm,这组向量是线性无关的。

3.4 谱 (Spectrum)


4. 特征分析的几何直观

特征分析不仅是代数计算,它还提供了强大的几何直观,帮助我们理解线性变换的本质。

4.1 变换的分解:沿特征向量方向的拉伸

假设一个 n×n 矩阵 An 个线性无关的特征向量 v1,,vn(它们构成 Rn 的一个基)。

4.2 示例1:压缩与拉伸 (保积变换)

考虑矩阵 A1=(1/2002)

4.3 示例2:投影 (降维变换)

考虑矩阵 A2=(1111)


5. 亏损矩阵与广义特征向量 (Defective Matrices)

5.1 定义

5.2 广义特征向量 (课程范围外)

当一个矩阵是亏损的,我们无法找到一组由特征向量构成的基。为了处理这种情况,需要引入广义特征向量 (Generalized Eigenvectors) 的概念来构建一个完整的基(称为若尔当基 Jordan Basis)。


6. 总结:线性无关特征向量的数量

对于一个 n×n 的矩阵 A

  1. 如果 An 个不同的特征值

    • 那么它一定有 n 个线性无关的特征向量。
    • 此时 A 不是亏损的。
  2. 如果 A 有重复的特征值 (即不同的特征值数量 m<n):

    • 我们保证至少有 m线性无关的特征向量(每个不同特征值至少贡献一个)。
    • 线性无关特征向量的总数最多为 n
    • 总数是否达到 n,取决于每一个重复特征值的几何重数是否等于其代数重数
    • 如果存在任何一个特征值,其几何重数小于其代数重数,那么矩阵 A 就是亏损的,其线性无关特征向量的总数将严格小于 n

7. 谱定理与对称矩阵

到目前为止,我们讨论了适用于所有方阵的特征分析。然而,当矩阵具有特定结构时,例如对称性,特征分析会展现出非常优美和强大的性质。这些性质由谱定理所概括。

7.1 对称正定/半正定矩阵

在介绍谱定理之前,我们先引入一类非常重要的对称矩阵。

定理: 对于任何矩阵 ARm×n,由 S=AA 构造的矩阵 SRn×n 具有以下性质:

  1. S对称的 (Symmetric)
  2. S半正定的 (Positive Semidefinite)

补充说明: 如果矩阵 A 的列是线性无关的(即 rk(A)=n),那么 S=AA正定的 (Positive Definite)

证明:

7.2 谱定理 (Spectral Theorem)

谱定理: 如果一个矩阵 ARn×n实对称矩阵,那么它具有以下三个核心性质:

  1. 所有特征值都是实数
  2. 存在一个由 A 的特征向量组成的标准正交基 (Orthonormal Basis) 来张成整个空间 Rn
  3. A可正交对角化的 (Orthogonally Diagonalizable)

谱定理的证明要点:

7.3 正交对角化 (Orthogonal Diagonalization)

谱定理的第三点通常以矩阵分解的形式呈现,这是其最重要的应用之一。

谱定理 (矩阵形式): 任何一个实对称矩阵 ARn×n 都可以被分解为:

A=QΛQ

其中:

7.4 谱分解 (Spectral Decomposition)

正交对角化还可以写成一种“求和”形式,称为谱分解。

谱分解: 任何一个实对称矩阵 A 都可以表示为其特征值和特征向量外积的加权和:

A=i=1nλiuiui

其中:

7.5 示例:对称矩阵的正交对角化

考虑对称矩阵 A=(2112)

  1. 求特征值与特征向量:

    • det(AλI)=(2λ)21=λ24λ+3=(λ3)(λ1)=0
    • 特征值为 λ1=3,λ2=1
    • 对应的特征向量为 v1=(11),v2=(11)。(注意它们是正交的)
  2. 单位化特征向量:

    u1=12(11),u2=12(11)
  3. 构造 Q 和 Λ:

    Q=(1/21/21/21/2),Λ=(3001)
  4. 正交对角化: A=QΛQ

  5. 谱分解:

    A=3u1u1+1u2u2=3(1/21/21/21/2)+1(1/21/21/21/2)

8. 特征值与矩阵不变量的关系

特征值与矩阵的两个重要不变量——行列式 (Determinant)迹 (Trace) 之间存在着深刻的联系。

8.1 特征值与行列式

定理: 任何一个方阵 ARn×n行列式等于其所有特征值(包括复数和重根)的乘积

det(A)=i=1nλi

证明思路 (对于可对角化矩阵):

  1. 如果 A 可对角化,则 A=PΛP1
  2. det(A)=det(PΛP1)=det(P)det(Λ)det(P1)
  3. 因为 det(P1)=1/det(P),所以 det(A)=det(Λ)
  4. 对角矩阵 Λ 的行列式就是其对角元素的乘积,即所有特征值的乘积。

几何直观: 行列式描述了线性变换对“体积”(或面积)的缩放比例。特征值则描述了在各个特征方向上的缩放比例。变换对总体积的缩放,等于在各个独立方向上缩放比例的乘积。

8.2 特征值与迹

定理: 任何一个方阵 ARn×n(主对角线元素之和)等于其所有特征值(包括复数和重根)的

tr(A)=i=1nλi

证明思路 (对于可对角化矩阵):

  1. 利用迹的循环性质:tr(ABC)=tr(BCA)=tr(CAB)
  2. tr(A)=tr(PΛP1)
  3. B=P,C=ΛP1,则 tr(A)=tr((ΛP1)P)=tr(Λ)
  4. 对角矩阵 Λ 的迹就是其对角元素的和,即所有特征值的和。

非对称矩阵的补充说明:
尽管非对称矩阵不一定满足谱定理的优美性质(如特征值不一定是实数,特征向量不一定正交),但只要它们是可对角化的,上述关于变换分解、行列式、迹的结论依然成立。对称矩阵的特殊之处在于它保证了可对角化,并且是用一种更稳定、更具几何美感的正交矩阵来实现的。

拓展:鞍点的最速逃离方向 (The fastest escape direction for the stationed point)