7E 奇异值分解

本节概览

本节引入奇异值分解(SVD)——线性代数中最重要的分解之一。SVD 将任意线性映射分解为三个简单部分的复合,不要求映射是方阵或可对角化的。

逻辑链条 的性质(引理7.64) 奇异值定义(定义7.65) 正奇异值的作用(定理7.68) 等距映射刻画(定理7.69) SVD定理(定理7.70) 伴随和伪逆的SVD(定理7.75) 矩阵SVD(定理7.80)。

前置依赖7C 正算子(正算子、谱定理、推论7.43)、7D 等距映射、幺正算子和矩阵分解(等距映射刻画7.49)、7A 自伴算子和正规算子(伴随算子、自伴算子)、6B 规范正交基(格拉姆-施密特、谱定理)、6C 正交补和正交投影(正交投影、伪逆6.68)。

核心主线 的谱分析引出奇异值,进而得到任意线性映射的奇异值分解——这是特征值分解在非方阵和非可对角化情形下的完美推广。


一、奇异值的定义与基本性质

的性质

奇异值的定义依赖于 这个算子。引理7.64建立了 的四个基本性质,它们是整个SVD理论的基石。

引理7.64: 的性质

,那么

(a) 上的正算子;

(b)

(c)

(d)

证明思路

(a) 验证自伴性和非负性。(b) 利用 建立零空间的等价关系。(c) 利用自伴算子的值域-零空间正交补关系。(d) 利用正交补的维数公式和基本定理。

(a) 是正算子

[验证自伴性],所以 是自伴的。

[验证非负性]:对任意

因此, 是正算子。

(b)

[ 方向]:设 ,则

因此 ,即

[ 方向]:若 ,即 ,则 ,所以

(c)

由(a)知 是自伴的。利用自伴算子的值域-零空间正交补关系(7A 自伴算子和正规算子中定理7.6):

其中最后一个等式来自基本定理(6C 正交补和正交投影中定理6.43):对任意子空间 。此处取 ,注意到 (基本定理),所以

(d)

由(c)知 ,所以

由基本定理,,且

由(b)知 ,再由秩-零化度定理应用于

类似地,。但由基本定理的矩阵版本,(矩阵的行秩等于列秩)。

奇异值的定义

定义7.65:奇异值(singular values)

奇异值定义为 的特征值的非负平方根,每个特征值按其重数重复计算。

具体地,设 的全部特征值(按重数计算),则 的奇异值为

关键观察

  1. 的特征值非负:因为 是正算子(引理7.64(a)),而正算子的特征值全部非负(7C 正算子定理7.38(b))。
  2. 奇异值自动非负:作为非负数的平方根,奇异值
  3. 奇异值的个数:恰好等于 (含零奇异值),因为 上的算子,有 个特征值(按重数计算)。
  4. 零奇异值的个数:零奇异值的个数(按重数)(引理7.64(b))。

奇异值的计算实例

例7.66:奇异值的计算

定义

第一步:计算 关于标准基的矩阵为 ,所以

第二步:求 的特征值。特征多项式为

特征值为

第三步:奇异值为

例7.67: 的奇异值相同

,则 的非零奇异值完全相同(含重数)。

理由 的奇异值是 的特征值的平方根, 的奇异值是 的特征值的平方根。由线性代数的基本结论, 的非零特征值完全相同(含重数)。因此 的非零奇异值相同。

注意:零奇异值的个数可能不同。 的零奇异值个数 ,而 的零奇异值个数 。当 时,这两个数不同。

正奇异值的作用

定理7.68:正奇异值的作用

,则 的正奇异值(按重数计算)的个数等于

证明思路

正奇异值的个数 的正特征值个数。利用谱定理将 对角化,正特征值对应于值域中的维度。

证明

[关键步骤1] 的正奇异值的个数 的正特征值的个数(按重数计算)。

[关键步骤2]:由引理7.64(b),,所以

[关键步骤3]:由7C 正算子的谱定理(推论7.43应用于 ), 关于某个规范正交基有对角矩阵,对角线上恰好是其特征值。零特征值的个数 ,正特征值的个数

[关键步骤4]:综合步骤2和3,正特征值的个数

推论 是单射当且仅当 没有零奇异值(即所有奇异值都是正的)。 是满射当且仅当 的正奇异值个数

等距映射的奇异值刻画

定理7.69:等距映射的奇异值刻画

,则 是等距映射当且仅当 的所有奇异值都等于

证明思路

利用等距映射的刻画(7D 等距映射、幺正算子和矩阵分解定理7.49: 是等距映射 ),结合奇异值的定义。

证明

[ 方向]:设 是等距映射。由7D 等距映射、幺正算子和矩阵分解定理7.49, 上的恒等算子)。 的特征值全部为 (重数为 ),所以 的奇异值全部为

[ 方向]:设 的所有奇异值都等于 。则 的所有特征值都等于 。由7C 正算子的谱定理, 关于某个规范正交基的矩阵是单位矩阵 ,所以 。再由7D 等距映射、幺正算子和矩阵分解定理7.49, 是等距映射。

特征值与奇异值的对比

性质特征值奇异值
定义对象方阵 任意
定义方式
取值范围(复数域上为复数)(非负实数)
个数(含零特征值)(含零奇异值)
零值的含义不可逆不满秩(非单射)
对角化要求需要 可对角化无需任何条件
基底依赖依赖特征基依赖规范正交基
酉/幺正不变性相似变换下不变幺正等价下不变

二、奇异值分解定理

SVD定理及其完整证明

定理7.70:奇异值分解(SVD)

的正奇异值(按重数计算),。则存在 的规范正交组 的规范正交组 ,使得对每个

证明思路

利用 的谱分解得到规范正交的特征向量 ,然后对每个 定义 ,验证 是规范正交组,最后验证分解公式对所有 成立。

完整证明

[关键步骤1:对角化 ]:由引理7.64(a), 上的正算子。由7C 正算子的谱定理(推论7.43),存在 的规范正交基 ),使得

其中 的特征值(按降序排列,含重数)。

[关键步骤2:分离正特征值]:由定理7.68,正特征值的个数恰好为 。因此

定义奇异值 ,则

[关键步骤3:定义 ]:对 ,定义

[关键步骤4:验证 是规范正交组]:对

时,,所以

时,

因此 中的规范正交组。

[关键步骤5:验证分解公式]:对任意 ,将 用规范正交基 展开:

应用

,所以 ,由引理7.64(b)得

因此:

SVD的直观理解

这个分解说明, 对任意向量 的作用可以分解为三步:

  1. 坐标提取:计算 在每个 方向上的坐标
  2. 缩放:将每个坐标乘以对应的奇异值
  3. 重组:将缩放后的坐标沿 方向重组。

用”图书馆”类比: 是原始分类体系, 是目标分类体系, 是每个分类通道的”信息传输强度”。SVD告诉我们,任何线性变换都可以看作通过一组正交通道进行信息传输,每个通道有不同的传输强度。

对角矩阵的SVD表示

定义7.74:对角矩阵(SVD语境)

是正实数。对角矩阵 是指:当 ,其余所有元素为

在SVD的语境下,对角矩阵 的非零对角元素恰好是 的正奇异值。注意这里 不一定是方阵——它的行数和列数分别由 的维数决定。

谱定理与SVD的对比

性质谱定理(7C 正算子奇异值分解
适用对象正算子 任意
分解形式
左/右基底同一组 ,右
“特征值” 自身的特征值 的特征值的平方根
正交性特征向量组左右各一组规范正交向量
对角化条件无(正算子自动可对角化)无(任意映射自动有SVD)
几何意义沿特征方向的拉伸旋转-拉伸-旋转

伴随和伪逆的SVD

定理7.75:伴随和伪逆的SVD

的正奇异值, 是SVD中的规范正交组。则

(a) ,对所有

(b) 伪逆 6C 正交补和正交投影定义6.68)满足 对所有

证明思路

(a) 利用 (由 取伴随得到),然后对 做正交分解。(b) 伪逆是 的逆映射,公式与(a)在 上的限制一致。

完整证明

(a) 的SVD

[关键步骤1]:由SVD定理,。取伴随得

因此 )。

[关键步骤2]:对任意 ,将 分解为 ,其中

由于

[关键步骤3],而 的规范正交基(因为 张成 ,而 ,所以 张成 )。因此

(因为 ),所以

[关键步骤4]

等等,让我们更仔细地计算:

但这给出的是 ,而定理说的是

[修正]:这里需要更仔细地检查。实际上, 是正确的。但定理7.75的陈述中, 的SVD形式应该使用 自身的奇异值。由于 的正奇异值与 相同(例7.67), 的SVD为:

的SVD中, 扮演”输入基”的角色, 扮演”输出基”的角色,奇异值相同。

(b) 伪逆的SVD

伪逆 的限制映射 的逆映射(6C 正交补和正交投影定义6.68)。

,设 映为 ,所以 映回

SVD的计算实例

例7.79:SVD的计算

定义

第一步 关于标准基的矩阵为

第二步:计算

第三步:求 的特征值和特征向量(此处省略具体计算过程),得到特征值

第四步:奇异值 ),正奇异值个数

第五步:对每个特征向量 ,计算 ,得到SVD。

矩阵版本的SVD

定理7.80:矩阵的奇异值分解

矩阵, 的正奇异值。则存在幺正矩阵 和幺正矩阵 ,使得

其中 对角矩阵,),其余元素为

证明思路

将算子版本的SVD(定理7.70)翻译为矩阵语言。 的列是 (补全为规范正交基), 的列是 (补全为规范正交基), 是对角矩阵。

完整证明

[关键步骤1]:设 是由 表示的线性映射(关于标准基)。由定理7.70,存在 的规范正交组 的规范正交组 ,使得

[关键步骤2]:将 扩充为 的规范正交基 ,将 扩充为 的规范正交基

[关键步骤3]:定义 为以 为列的矩阵, 为以 为列的矩阵。则 都是幺正矩阵()。

[关键步骤4] 的作用是将向量用 表示坐标:

的作用是保留前 个坐标并乘以奇异值:

的作用是将坐标向量重组为 中的向量:

[关键步骤5]:因此

矩阵SVD的紧凑形式

在实际应用中,经常使用”紧凑SVD”(thin SVD或reduced SVD):,其中 。紧凑版本去掉了对应于零奇异值的列,更加简洁。


三、知识结构总览

graph TD
    A["T*T的性质 7.64"] --> B["奇异值定义 7.65"]
    B --> C["正奇异值的作用 7.68"]
    C --> D["等距映射刻画 7.69"]
    D --> E["SVD定理 7.70"]
    E --> F["伴随和伪逆的SVD 7.75"]
    E --> G["矩阵SVD 7.80"]

四、核心思想与证明技巧

核心思想

  1. SVD是特征值分解的推广:特征值分解 要求 是方阵且可对角化,而SVD 对任意线性映射都成立。关键区别在于:SVD允许”输入基”和”输出基”不同( vs ),这个额外的自由度使得SVD具有普适性。
  2. 是桥梁 将任意映射 转化为正算子(方阵、自伴、特征值非负),从而可以利用7C 正算子的谱定理。这是整个理论最核心的洞察——通过”自伴随化”将问题归结为已解决的情形。
  3. 正交性是免费的:因为 是正算子,其特征向量自动构成规范正交组(谱定理保证),所以SVD中的 自动规范正交, 也自动规范正交。不需要额外的格拉姆-施密特正交化。
  4. 奇异值编码了映射的”本质”:两个映射有相同的奇异值(含重数)当且仅当它们幺正等价。奇异值完全刻画了映射的几何行为——每个方向上的拉伸程度。

证明技巧清单

  1. 计算 :这是SVD理论中最常用的技巧,将 的内积转化为 的内积,建立 之间的桥梁。
  2. 利用谱定理处理正算子:一旦确认某个算子是正算子(如 ),就可以直接使用谱定理得到规范正交的特征基,这是SVD证明的起点。
  3. 零空间与值域的对偶性 这两个等式反复出现在SVD的证明中,它们建立了 的零空间/值域与 的零空间/值域之间的精确对应。
  4. 取伴随翻转SVD 取伴随得到 ,这直接给出了 的SVD。这个技巧在证明定理7.75时至关重要。
  5. 补全规范正交基:在从算子SVD过渡到矩阵SVD时,需要将规范正交组补全为规范正交基,这利用了格拉姆-施密特过程(6B 规范正交基)。

五、补充理解与易混淆点

SVD的几何直觉

SVD的几何意义可以通过”单位球的像”来直观理解:设 中的单位球面 下的像是一个椭球面(在 中)。

具体地:

  • 方向是椭球的主轴方向;
  • 是各主轴的半轴长度;
  • 是像空间中椭球主轴的方向。

用”面团”类比:想象一个球形面团(单位球),SVD告诉我们,任何线性变换都相当于先沿一组正交方向拉伸面团( 倍),然后旋转到新的位置()。最大的奇异值 决定了面团被拉得最长有多长,最小的正奇异值 决定了最短方向有多短。

来源:CMU线性代数讲义(Zecheng Zhang)、Cornell CS322讲义(Trefethen & Bau)、Stanford EE263讲义(Stephen Boyd)。

SVD的应用

SVD是应用最广泛的线性代数工具之一:

  1. 低秩逼近与数据压缩:Eckart-Young-Mirsky定理指出,用秩为 的矩阵逼近给定矩阵时,SVD截断给出最优逼近。在图像压缩中,保留前 个奇异值可以大幅压缩数据而保持主要信息。

  2. 主成分分析(PCA):PCA本质上是数据矩阵的SVD。数据矩阵 的SVD中,右奇异向量就是主方向,奇异值的平方就是各主成分的方差。

  3. 最小二乘问题 的最小二乘解可以通过SVD稳定计算,特别是当 接近秩亏时,SVD比直接求法方程更数值稳定。

  4. 推荐系统:Netflix Prize竞赛中获胜方法的核心就是矩阵分解(SVD的变体),将用户-物品评分矩阵分解为低秩矩阵的乘积。

  5. 自然语言处理:LSA(潜在语义分析)对词-文档矩阵做SVD,提取潜在的语义结构。

来源:NYU MTDS讲义、UW-Madison图像处理讲义、Princeton COS521讲义。

常见误区

误区1:"奇异值就是特征值"

❌ 奇异值和特征值是两个不同的概念。奇异值是 的特征值的平方根,而特征值是 自身的特征值。

✅ 对于正规算子(),奇异值等于特征值的绝对值:。但对于一般算子,两者没有简单关系。例如, 的特征值全为 ,但奇异值为

误区2:"SVD只适用于方阵"

❌ SVD对任意 矩阵都成立,无论 的关系如何。

✅ SVD的普适性正是它最重要的优势之一。特征值分解只对方阵有意义,而SVD对长方形矩阵同样适用。 时(“高瘦”矩阵), 的下方有零行; 时(“矮胖”矩阵), 的右方有零列。

误区3:"奇异值分解和特征值分解是一回事"

❌ 虽然两者都是将矩阵分解为简单部分的乘积,但它们有本质区别。

✅ 特征值分解 中,左右使用同一个基变换矩阵 (及其逆),要求 可对角化。SVD 中,左右使用不同的幺正矩阵 ,对任意矩阵都成立。当 是正定矩阵时,两者一致()。

误区4:"左奇异向量和右奇异向量相同"

❌ 左奇异向量(,即 的列)和右奇异向量(,即 的列)通常不同。

✅ 只有当 是正规算子()时,左奇异向量才等于右奇异向量(适当选取符号后)。对于一般映射, 生活在不同的空间中( vs ),甚至维数都不同。

误区5:"奇异值可以为负数"

❌ 奇异值定义为非负数的平方根,所以奇异值 ,不可能为负。

✅ 奇异值的非负性来自 是正算子,其特征值 ,而奇异值 。如果允许”负奇异值”,则分解不再唯一(符号可以吸收到 中),所以约定奇异值非负。


六、习题精选

本节习题

习题号标题核心考点难度
习题2正奇异值的刻画施密特对
习题4奇异值与算子范数最大/最小奇异值
习题7自伴/正规算子的奇异值特征值与奇异值
习题8SVD的性质各分量验证
习题9T和T*的奇异值相同伴随与奇异值
习题10可逆映射逆的奇异值逆映射奇异值
习题13幺正等价与奇异值幺正等价刻画

习题2:正奇异值的刻画

习题2

。证明: 的奇异值,当且仅当存在非零向量 和非零向量 ,使得

习题4:奇异值与算子范数

习题4

的正奇异值。证明:

(a)

(b)

习题7:自伴/正规算子的奇异值

习题7

(a) 若 是自伴算子,则 的奇异值等于 的特征值的绝对值。

(b) 若 是正规算子,则 的奇异值等于 的特征值的绝对值。

习题8:SVD的性质

习题8

的SVD为 。验证:

(a)

(b)

(c) )。

习题9: 的奇异值相同

习题9

。证明 的非零奇异值完全相同(含重数)。

习题10:可逆映射逆的奇异值

习题10

是可逆映射, 的奇异值。证明 的奇异值为

习题13:幺正等价与奇异值

习题13

。证明 幺正等价(即存在幺正算子 使得 )当且仅当 有相同的奇异值(含重数)。


七、视频学习指南

视频资源

视频时长内容
P87 奇异值分解~1:00:00SVD的直觉、计算和应用
P88 7D习题~47:00习题讲解

八、教材原文

奇异值分解