7E 奇异值分解
本节概览
本节引入奇异值分解(SVD)——线性代数中最重要的分解之一。SVD 将任意线性映射分解为三个简单部分的复合,不要求映射是方阵或可对角化的。
逻辑链条: 的性质(引理7.64) 奇异值定义(定义7.65) 正奇异值的作用(定理7.68) 等距映射刻画(定理7.69) SVD定理(定理7.70) 伴随和伪逆的SVD(定理7.75) 矩阵SVD(定理7.80)。
前置依赖:7C 正算子(正算子、谱定理、推论7.43)、7D 等距映射、幺正算子和矩阵分解(等距映射刻画7.49)、7A 自伴算子和正规算子(伴随算子、自伴算子)、6B 规范正交基(格拉姆-施密特、谱定理)、6C 正交补和正交投影(正交投影、伪逆6.68)。
核心主线: 的谱分析引出奇异值,进而得到任意线性映射的奇异值分解——这是特征值分解在非方阵和非可对角化情形下的完美推广。
一、奇异值的定义与基本性质
的性质
奇异值的定义依赖于 这个算子。引理7.64建立了 的四个基本性质,它们是整个SVD理论的基石。
引理7.64: 的性质
设 ,那么
(a) 是 上的正算子;
(b) ;
(c) ;
(d) 。
证明思路
(a) 验证自伴性和非负性。(b) 利用 建立零空间的等价关系。(c) 利用自伴算子的值域-零空间正交补关系。(d) 利用正交补的维数公式和基本定理。
(a) 是正算子:
[验证自伴性]:,所以 是自伴的。
[验证非负性]:对任意 ,
因此, 是正算子。
(b) :
[ 方向]:设 ,则
因此 ,即 。
[ 方向]:若 ,即 ,则 ,所以 。
(c) :
由(a)知 是自伴的。利用自伴算子的值域-零空间正交补关系(7A 自伴算子和正规算子中定理7.6):
其中最后一个等式来自基本定理(6C 正交补和正交投影中定理6.43):对任意子空间 ,。此处取 ,注意到 (基本定理),所以 。
(d) :
由(c)知 ,所以 。
由基本定理,,且 。
由(b)知 ,再由秩-零化度定理应用于 :
类似地,。但由基本定理的矩阵版本,(矩阵的行秩等于列秩)。
奇异值的定义
定义7.65:奇异值(singular values)
设 。 的奇异值定义为 的特征值的非负平方根,每个特征值按其重数重复计算。
具体地,设 是 的全部特征值(按重数计算),则 的奇异值为 。
关键观察:
- 的特征值非负:因为 是正算子(引理7.64(a)),而正算子的特征值全部非负(7C 正算子定理7.38(b))。
- 奇异值自动非负:作为非负数的平方根,奇异值 。
- 奇异值的个数:恰好等于 (含零奇异值),因为 是 上的算子,有 个特征值(按重数计算)。
- 零奇异值的个数:零奇异值的个数(按重数)(引理7.64(b))。
奇异值的计算实例
例7.66:奇异值的计算
定义 为 。
第一步:计算 。 关于标准基的矩阵为 ,所以
第二步:求 的特征值。特征多项式为
特征值为 。
第三步:奇异值为 。
例7.67: 与 的奇异值相同
设 ,则 和 的非零奇异值完全相同(含重数)。
理由: 的奇异值是 的特征值的平方根, 的奇异值是 的特征值的平方根。由线性代数的基本结论, 和 的非零特征值完全相同(含重数)。因此 和 的非零奇异值相同。
注意:零奇异值的个数可能不同。 的零奇异值个数 ,而 的零奇异值个数 。当 时,这两个数不同。
正奇异值的作用
定理7.68:正奇异值的作用
设 ,则 的正奇异值(按重数计算)的个数等于 。
证明思路
正奇异值的个数 的正特征值个数。利用谱定理将 对角化,正特征值对应于值域中的维度。
证明:
[关键步骤1]: 的正奇异值的个数 的正特征值的个数(按重数计算)。
[关键步骤2]:由引理7.64(b),,所以
[关键步骤3]:由7C 正算子的谱定理(推论7.43应用于 ), 关于某个规范正交基有对角矩阵,对角线上恰好是其特征值。零特征值的个数 ,正特征值的个数 。
[关键步骤4]:综合步骤2和3,正特征值的个数 。
推论: 是单射当且仅当 没有零奇异值(即所有奇异值都是正的)。 是满射当且仅当 的正奇异值个数 。
等距映射的奇异值刻画
定理7.69:等距映射的奇异值刻画
设 ,则 是等距映射当且仅当 的所有奇异值都等于 。
证明思路
利用等距映射的刻画(7D 等距映射、幺正算子和矩阵分解定理7.49: 是等距映射 ),结合奇异值的定义。
证明:
[ 方向]:设 是等距映射。由7D 等距映射、幺正算子和矩阵分解定理7.49,( 上的恒等算子)。 的特征值全部为 (重数为 ),所以 的奇异值全部为 。
[ 方向]:设 的所有奇异值都等于 。则 的所有特征值都等于 。由7C 正算子的谱定理, 关于某个规范正交基的矩阵是单位矩阵 ,所以 。再由7D 等距映射、幺正算子和矩阵分解定理7.49, 是等距映射。
特征值与奇异值的对比
| 性质 | 特征值 | 奇异值 |
|---|---|---|
| 定义对象 | 方阵 | 任意 |
| 定义方式 | ||
| 取值范围 | (复数域上为复数) | (非负实数) |
| 个数 | (含零特征值) | (含零奇异值) |
| 零值的含义 | 不可逆 | 不满秩(非单射) |
| 对角化要求 | 需要 可对角化 | 无需任何条件 |
| 基底依赖 | 依赖特征基 | 依赖规范正交基 |
| 酉/幺正不变性 | 相似变换下不变 | 幺正等价下不变 |
二、奇异值分解定理
SVD定理及其完整证明
定理7.70:奇异值分解(SVD)
设 , 是 的正奇异值(按重数计算),。则存在 的规范正交组 和 的规范正交组 ,使得对每个 ,
证明思路
利用 的谱分解得到规范正交的特征向量 ,然后对每个 定义 ,验证 是规范正交组,最后验证分解公式对所有 成立。
完整证明:
[关键步骤1:对角化 ]:由引理7.64(a), 是 上的正算子。由7C 正算子的谱定理(推论7.43),存在 的规范正交基 (),使得
其中 是 的特征值(按降序排列,含重数)。
[关键步骤2:分离正特征值]:由定理7.68,正特征值的个数恰好为 。因此 ,。
定义奇异值 ,则 。
[关键步骤3:定义 ]:对 ,定义
[关键步骤4:验证 是规范正交组]:对 ,
当 时,,所以 。
当 时,。
因此 是 中的规范正交组。
[关键步骤5:验证分解公式]:对任意 ,将 用规范正交基 展开:
应用 :
对 ,。
对 ,,所以 ,由引理7.64(b)得 。
因此:
SVD的直观理解:
这个分解说明, 对任意向量 的作用可以分解为三步:
- 坐标提取:计算 在每个 方向上的坐标 ;
- 缩放:将每个坐标乘以对应的奇异值 ;
- 重组:将缩放后的坐标沿 方向重组。
用”图书馆”类比: 是原始分类体系, 是目标分类体系, 是每个分类通道的”信息传输强度”。SVD告诉我们,任何线性变换都可以看作通过一组正交通道进行信息传输,每个通道有不同的传输强度。
对角矩阵的SVD表示
定义7.74:对角矩阵(SVD语境)
设 是正实数。 的对角矩阵 是指:当 时 ,其余所有元素为 。
在SVD的语境下,对角矩阵 的非零对角元素恰好是 的正奇异值。注意这里 不一定是方阵——它的行数和列数分别由 和 的维数决定。
谱定理与SVD的对比
| 性质 | 谱定理(7C 正算子) | 奇异值分解 |
|---|---|---|
| 适用对象 | 正算子 | 任意 |
| 分解形式 | ||
| 左/右基底 | 同一组 | 左 ,右 |
| “特征值” | 自身的特征值 | 的特征值的平方根 |
| 正交性 | 特征向量组 | 左右各一组规范正交向量 |
| 对角化条件 | 无(正算子自动可对角化) | 无(任意映射自动有SVD) |
| 几何意义 | 沿特征方向的拉伸 | 旋转-拉伸-旋转 |
伴随和伪逆的SVD
定理7.75:伴随和伪逆的SVD
证明思路
(a) 利用 (由 取伴随得到),然后对 做正交分解。(b) 伪逆是 从 到 的逆映射,公式与(a)在 上的限制一致。
完整证明:
(a) 的SVD:
[关键步骤1]:由SVD定理,。取伴随得
因此 ()。
[关键步骤2]:对任意 ,将 分解为 ,其中 ,。
由于 ,。
[关键步骤3]:,而 是 的规范正交基(因为 张成 ,而 ,所以 张成 )。因此
但 且 (因为 ),所以 。
[关键步骤4]:
等等,让我们更仔细地计算:
但这给出的是 ,而定理说的是 。
[修正]:这里需要更仔细地检查。实际上, 是正确的。但定理7.75的陈述中, 的SVD形式应该使用 自身的奇异值。由于 的正奇异值与 相同(例7.67), 的SVD为:
即 的SVD中, 扮演”输入基”的角色, 扮演”输出基”的角色,奇异值相同。
(b) 伪逆的SVD:
伪逆 是 的限制映射 的逆映射(6C 正交补和正交投影定义6.68)。
对 ,设 。 将 映为 ,所以 将 映回 :
SVD的计算实例
例7.79:SVD的计算
定义 为
第一步: 关于标准基的矩阵为
第二步:计算 :
第三步:求 的特征值和特征向量(此处省略具体计算过程),得到特征值 ,。
第四步:奇异值 (),正奇异值个数 。
第五步:对每个特征向量 ,计算 ,得到SVD。
矩阵版本的SVD
定理7.80:矩阵的奇异值分解
设 是 矩阵, 是 的正奇异值。则存在幺正矩阵 和幺正矩阵 ,使得
其中 是 对角矩阵,(),其余元素为 。
证明思路
将算子版本的SVD(定理7.70)翻译为矩阵语言。 的列是 (补全为规范正交基), 的列是 (补全为规范正交基), 是对角矩阵。
完整证明:
[关键步骤1]:设 是由 表示的线性映射(关于标准基)。由定理7.70,存在 的规范正交组 和 的规范正交组 ,使得
[关键步骤2]:将 扩充为 的规范正交基 ,将 扩充为 的规范正交基 。
[关键步骤3]:定义 为以 为列的矩阵, 为以 为列的矩阵。则 和 都是幺正矩阵(,)。
[关键步骤4]: 的作用是将向量用 表示坐标:。
的作用是保留前 个坐标并乘以奇异值:。
的作用是将坐标向量重组为 中的向量:。
[关键步骤5]:因此 。
矩阵SVD的紧凑形式:
在实际应用中,经常使用”紧凑SVD”(thin SVD或reduced SVD):,其中 ,,。紧凑版本去掉了对应于零奇异值的列,更加简洁。
三、知识结构总览
graph TD A["T*T的性质 7.64"] --> B["奇异值定义 7.65"] B --> C["正奇异值的作用 7.68"] C --> D["等距映射刻画 7.69"] D --> E["SVD定理 7.70"] E --> F["伴随和伪逆的SVD 7.75"] E --> G["矩阵SVD 7.80"]
四、核心思想与证明技巧
核心思想
- SVD是特征值分解的推广:特征值分解 要求 是方阵且可对角化,而SVD 对任意线性映射都成立。关键区别在于:SVD允许”输入基”和”输出基”不同( vs ),这个额外的自由度使得SVD具有普适性。
- 是桥梁: 将任意映射 转化为正算子(方阵、自伴、特征值非负),从而可以利用7C 正算子的谱定理。这是整个理论最核心的洞察——通过”自伴随化”将问题归结为已解决的情形。
- 正交性是免费的:因为 是正算子,其特征向量自动构成规范正交组(谱定理保证),所以SVD中的 自动规范正交, 也自动规范正交。不需要额外的格拉姆-施密特正交化。
- 奇异值编码了映射的”本质”:两个映射有相同的奇异值(含重数)当且仅当它们幺正等价。奇异值完全刻画了映射的几何行为——每个方向上的拉伸程度。
证明技巧清单
- 计算 :这是SVD理论中最常用的技巧,将 的内积转化为 的内积,建立 与 之间的桥梁。
- 利用谱定理处理正算子:一旦确认某个算子是正算子(如 ),就可以直接使用谱定理得到规范正交的特征基,这是SVD证明的起点。
- 零空间与值域的对偶性: 和 这两个等式反复出现在SVD的证明中,它们建立了 的零空间/值域与 的零空间/值域之间的精确对应。
- 取伴随翻转SVD: 取伴随得到 ,这直接给出了 的SVD。这个技巧在证明定理7.75时至关重要。
- 补全规范正交基:在从算子SVD过渡到矩阵SVD时,需要将规范正交组补全为规范正交基,这利用了格拉姆-施密特过程(6B 规范正交基)。
五、补充理解与易混淆点
SVD的几何直觉
SVD的几何意义可以通过”单位球的像”来直观理解:设 , 中的单位球面 在 下的像是一个椭球面(在 中)。
具体地:
- 方向是椭球的主轴方向;
- 是各主轴的半轴长度;
- 是像空间中椭球主轴的方向。
用”面团”类比:想象一个球形面团(单位球),SVD告诉我们,任何线性变换都相当于先沿一组正交方向拉伸面团( 倍),然后旋转到新的位置()。最大的奇异值 决定了面团被拉得最长有多长,最小的正奇异值 决定了最短方向有多短。
来源:CMU线性代数讲义(Zecheng Zhang)、Cornell CS322讲义(Trefethen & Bau)、Stanford EE263讲义(Stephen Boyd)。
SVD的应用
SVD是应用最广泛的线性代数工具之一:
-
低秩逼近与数据压缩:Eckart-Young-Mirsky定理指出,用秩为 的矩阵逼近给定矩阵时,SVD截断给出最优逼近。在图像压缩中,保留前 个奇异值可以大幅压缩数据而保持主要信息。
-
主成分分析(PCA):PCA本质上是数据矩阵的SVD。数据矩阵 的SVD中,右奇异向量就是主方向,奇异值的平方就是各主成分的方差。
-
最小二乘问题: 的最小二乘解可以通过SVD稳定计算,特别是当 接近秩亏时,SVD比直接求法方程更数值稳定。
-
推荐系统:Netflix Prize竞赛中获胜方法的核心就是矩阵分解(SVD的变体),将用户-物品评分矩阵分解为低秩矩阵的乘积。
-
自然语言处理:LSA(潜在语义分析)对词-文档矩阵做SVD,提取潜在的语义结构。
来源:NYU MTDS讲义、UW-Madison图像处理讲义、Princeton COS521讲义。
常见误区
误区1:"奇异值就是特征值"
❌ 奇异值和特征值是两个不同的概念。奇异值是 的特征值的平方根,而特征值是 自身的特征值。
✅ 对于正规算子(),奇异值等于特征值的绝对值:。但对于一般算子,两者没有简单关系。例如, 的特征值全为 ,但奇异值为 和 。
误区2:"SVD只适用于方阵"
❌ SVD对任意 矩阵都成立,无论 和 的关系如何。
✅ SVD的普适性正是它最重要的优势之一。特征值分解只对方阵有意义,而SVD对长方形矩阵同样适用。 时(“高瘦”矩阵), 的下方有零行; 时(“矮胖”矩阵), 的右方有零列。
误区3:"奇异值分解和特征值分解是一回事"
❌ 虽然两者都是将矩阵分解为简单部分的乘积,但它们有本质区别。
✅ 特征值分解 中,左右使用同一个基变换矩阵 (及其逆),要求 可对角化。SVD 中,左右使用不同的幺正矩阵 和 ,对任意矩阵都成立。当 是正定矩阵时,两者一致(,)。
误区4:"左奇异向量和右奇异向量相同"
❌ 左奇异向量(,即 的列)和右奇异向量(,即 的列)通常不同。
✅ 只有当 是正规算子()时,左奇异向量才等于右奇异向量(适当选取符号后)。对于一般映射, 和 生活在不同的空间中( vs ),甚至维数都不同。
误区5:"奇异值可以为负数"
❌ 奇异值定义为非负数的平方根,所以奇异值 ,不可能为负。
✅ 奇异值的非负性来自 是正算子,其特征值 ,而奇异值 。如果允许”负奇异值”,则分解不再唯一(符号可以吸收到 或 中),所以约定奇异值非负。
六、习题精选
本节习题
习题号 标题 核心考点 难度 习题2 正奇异值的刻画 施密特对 中 习题4 奇异值与算子范数 最大/最小奇异值 中 习题7 自伴/正规算子的奇异值 特征值与奇异值 中 习题8 SVD的性质 各分量验证 高 习题9 T和T*的奇异值相同 伴随与奇异值 中 习题10 可逆映射逆的奇异值 逆映射奇异值 中 习题13 幺正等价与奇异值 幺正等价刻画 高
习题2:正奇异值的刻画
习题2
设 ,。证明: 是 的奇异值,当且仅当存在非零向量 和非零向量 ,使得 且 。
查看解答
[ 方向]:设 是 的奇异值,则 是 的特征值。设 是对应的非零特征向量:。
令 (因为 )。需要验证 且 。
- :若 ,则 ,所以 ,即 ,矛盾(,)。
- :由 的定义直接得到。
- 。
[ 方向]:设存在非零 和非零 ,使得 且 。
则 。
因为 ,所以 是 的特征值,因此 是 的奇异值。
习题4:奇异值与算子范数
习题4
设 , 是 的正奇异值。证明:
(a) ;
(b) 。
查看解答
(a):由SVD,对 ,
因为 ,且 对所有 ,
等号当 时取到:。因此 。
(b):对 且 , 在 中,所以
等号当 时取到:。因此 。
习题7:自伴/正规算子的奇异值
习题7
设 。
(a) 若 是自伴算子,则 的奇异值等于 的特征值的绝对值。
(b) 若 是正规算子,则 的奇异值等于 的特征值的绝对值。
查看解答
(a):设 是自伴算子, 是 的特征值, 是对应的单位特征向量。则
所以 的特征值为 ,奇异值为 。
更严格地,由7C 正算子的谱定理, 关于规范正交基有对角矩阵 ,则 关于同一基有对角矩阵 ,奇异值为 。
(b):设 是正规算子(),由7A 自伴算子和正规算子的谱定理, 关于规范正交基有对角矩阵 (特征值可能为复数)。则
所以奇异值为 。
习题8:SVD的性质
习题8
设 的SVD为 。验证:
(a) ;
(b) ;
(c) ()。
查看解答
(a):由SVD公式,,所以 。
反之,(),所以 。
(b): 当且仅当 对所有 。因为 是规范正交基,这等价于 。
(c):。由 ,取内积得 ,所以 。因此 。
习题9: 和 的奇异值相同
习题9
设 。证明 和 的非零奇异值完全相同(含重数)。
查看解答
的非零奇异值是 的正特征值的平方根, 的非零奇异值是 的正特征值的平方根。
我们需要证明 和 的正特征值相同(含重数)。
方法一:设 是 的特征值, 满足 。令 ,则 (否则 ,矛盾),且
所以 也是 的特征值。同理可证反向。这个映射 在特征空间之间建立了同构,所以重数也相同。
方法二:利用矩阵的迹。 对所有 成立(因为 )。由牛顿恒等式,两个矩阵的特征多项式的非零根完全相同(含重数)。
习题10:可逆映射逆的奇异值
习题10
设 是可逆映射, 是 的奇异值。证明 的奇异值为 。
查看解答
因为 可逆,所以 ,且 没有零奇异值。
,计算 :
的特征值为 (因为 和 的非零奇异值相同),所以 的特征值为 。
因此 的奇异值为 。按降序排列:。
习题13:幺正等价与奇异值
习题13
设 。证明 和 幺正等价(即存在幺正算子 和 使得 )当且仅当 和 有相同的奇异值(含重数)。
查看解答
[ 方向]:设 ,其中 和 是幺正算子。则
所以 和 相似,特征值完全相同(含重数),因此奇异值相同。
[ 方向]:设 和 有相同的奇异值 (含重数)。设 的SVD为
的SVD为
定义 为 (在零空间上任意延拓为幺正算子), 为 (在值域的正交补上任意延拓为幺正算子)。则
另一方面,。因为 ,( 是幺正的),所以
对所有 成立,即 。
七、视频学习指南
视频资源
视频 时长 内容 P87 奇异值分解 ~1:00:00 SVD的直觉、计算和应用 P88 7D习题 ~47:00 习题讲解