3C 矩阵
本节概览
本节建立了线性映射与矩阵之间的桥梁,将抽象的线性映射转化为具体的矩阵运算。核心成果包括:矩阵运算(加法、标量乘法、乘法)由线性映射运算驱动定义, 构成 维向量空间,以及列秩等于行秩这一令人惊讶的事实。
逻辑链条:线性映射的矩阵 → 矩阵加法/标量乘法 → 是向量空间 → 矩阵乘法的定义动机 → → 列/行线性组合视角 → 行列分解 → 列秩 = 行秩
前置依赖:3A 线性映射所成的向量空间(线性映射的定义与运算)、3B 零空间和值域(值域与基本定理)、2B 基(基的选取与坐标表示)、2C 维数(维数的计算)、1C 子空间(张成空间)
核心主线:矩阵是线性映射的”坐标化身”——选定基之后,抽象的映射行为被编码为具体的数字阵列
一、矩阵表示线性映射
1.1 矩阵的定义
定义 3.29 矩阵(matrix)、
假设 和 是非负整数。 矩阵 是由 中元素构成的 行 列的矩形阵列: 记号 表示 的第 行第 列中的元素。
学习注解
第一个下标代表行,第二个下标代表列——这是固定约定,务必牢记。
1.2 线性映射的矩阵
定义 3.31 线性映射的矩阵(matrix of a linear map)、
假设 , 是 的基, 是 的基。 关于这些基的矩阵是 矩阵 ,其中各元素 由下式定义: 如果基不明确,用记号 。
核心直觉
这是本节最关键的定义!
的第 列就是 在基 下的坐标。要记住 是如何构造的,可以在矩阵上方横着标上 ,左侧竖着列出 :
维度关系: 是 矩阵,其中 (行数 = 目标空间维数),(列数 = 定义域维数)。
特殊约定:如果 是从 到 的线性映射,除非另有说明,总假定基是标准基。
例 3.32 从 到 的线性映射的矩阵
。使用标准基:
- → 第一列
- → 第二列
例 3.33 微分映射的矩阵
,。关于标准基 和 :
- →
- →
- →
- →
学习注解
微分映射的矩阵有一个漂亮的模式:第 列只有一个非零元素 ,位于第 行。这正是 的体现。矩阵将微积分运算变成了纯代数运算。
二、矩阵运算:加法、标量乘法与乘法
2.1 矩阵加法与标量乘法
定义 3.34 矩阵加法
两个相同大小的矩阵之和,是将两矩阵对应位置上的元素相加所得的矩阵。
定义 3.36 矩阵的标量乘法
一个标量和一个矩阵的乘积,是将该矩阵的各元素都乘以该标量所得的矩阵。
例 3.37 矩阵的加法和标量乘法
定理 3.35
假设 。那么 。
定理 3.38
假设 且 。那么 。
学习注解
这两个定理的验证由定义即可完成。它们表明矩阵的加法和标量乘法是”被线性映射的对应运算所驱动”的——我们不是随意定义矩阵运算,而是为了让 成为一个”保持结构”的映射。
2.2 是向量空间
记号 3.39
对于正整数 和 ,各元素均属于 的所有 矩阵构成的集合记作 。
定理 3.40
按上面定义的加法和标量乘法, 是维数为 的向量空间。
证明思路
[构造标准基]: 的基由 个矩阵 构成,其中 在位置 处的元素为 ,其余位置为 。
[验证线性无关]:若 ,则每个 。
[验证张成]:对任意 ,。
学习注解
==与 3A 线性映射所成的向量空间 的联系==:后面将证明 (当 , 时),且 。
2.3 矩阵乘法
学习注解
这一段是本节最精彩的部分!
Axler 没有直接给出矩阵乘法的定义,而是从”我们希望 成立”这个目标反推出矩阵乘法应该怎么定义。这种”动机驱动”的叙述方式远比直接给出定义更深刻。
推导过程:设 (),(), 关于基 和 , 关于基 和 。对 : 所以 的第 行第 列元素应该等于 ——这就是矩阵乘法的定义!
定义 3.41 矩阵乘法(matrix multiplication)
假设 是 矩阵且 是 矩阵。那么 定义为 矩阵,其中 取 的第 行和 的第 列,对应位置元素相乘再相加。
学习注解
- 只有当第一个矩阵的列数等于第二个矩阵的行数时,乘积才有定义。
- 矩阵乘法不满足交换律:(即使两个乘积都有定义)。
- 矩阵乘法满足分配律和结合律。
例 3.42 矩阵乘积
矩阵乘以 矩阵,得到 矩阵。
定理 3.43
如果 且 ,那么 。
学习注解
这个定理是矩阵乘法存在的根本理由! 我们定义矩阵乘法,就是为了让这个等式成立。它将线性映射的复合变成了矩阵的乘法——这是”抽象”与”具体”之间的完美对应。
注意基的选取必须一致: 和 在 中取同一个基, 和 在 中取同一个基, 和 在 中取同一个基。
2.4 矩阵乘法的多种视角
记号 3.44 、
- : 的第 行,视为 矩阵
- : 的第 列,视为 矩阵
例 3.45 和
设 ,则
定理 3.46 行乘以列
中第 行第 列的元素 = 的第 行 的第 列。
定理 3.48 矩阵之积的列等于矩阵与列之积
的第 列 = 乘以 的第 列。
定理 3.50 列的线性组合
是 中各列的线性组合,系数来自 。
例 3.49 列的线性组合
设 ,,则
定理 3.51 将矩阵乘法视为列或行的线性组合
假设 是 矩阵且 是 矩阵。
(a) 的第 列是 的各列的线性组合,系数来自 的第 列。
(b) 的第 行是 的各行的线性组合,系数来自 的第 行。
矩阵乘法三种视角对比
| 视角 | 核心公式 | 直觉 | 用途 |
|---|---|---|---|
| 元素视角 | 行 列 = 标量 | 逐元素计算 | |
| 列视角 | 的列的线性组合 | 理解值域、行列分解 | |
| 行视角 | 的行的线性组合 | 理解行空间 |
学习注解
其中列视角最为重要——它直接引出行列分解(定理 3.56),是证明列秩等于行秩的关键工具。
三、矩阵的秩与转置
3.1 列秩与行秩
定义 3.52 列秩(column rank)、行秩(row rank)
- 的列秩是 的各列在 中的张成空间的维数。
- 的行秩是 的各行在 中的张成空间的维数。
例 3.53 一个 矩阵的列秩和行秩
- 列秩 = 2(前两列 和 不成标量倍数,张成整个 )
- 行秩 = 2(两行 和 不成标量倍数,张成 的一个二维子空间)
3.2 转置
定义 3.54 转置(transpose)、
矩阵 的转置记为 ,是互换 的行和列所得的矩阵。如果 是 矩阵,那么 是 矩阵,其中 。
例 3.55 矩阵的转置
矩阵变为 矩阵。
转置的代数性质
- (顺序反转!)
3.3 行列分解
定理 3.56 行列分解(column-row factorization)
假设 是 矩阵且列秩 。那么存在 矩阵 和 矩阵 ,使得 。
证明思路
[取列空间的基]:将 的各列 削减为列张成空间的基(由 定理 2.30),基的长度 = 列秩 。
[构造 C]:将这 个基向量合为 矩阵 。
[构造 R]: 的每一列都是 的各列的线性组合,将系数组成 矩阵 。
[验证 A = CR]:由定理 3.51(a), 的第 列 = 的各列以 的第 列为系数的线性组合 = 。
学习注解
直觉:行列分解是说,任何秩为 的矩阵都可以”压缩”为一个”瘦高”矩阵 ()和一个”矮胖”矩阵 ()的乘积。 包含列空间的基(“骨架”), 记录每列如何由骨架组装(“配方”)。
秩 1 的特殊情况:若 ,则 中 是 (列向量 ), 是 (行向量 ),即 (外积)。
3.4 列秩等于行秩
定理 3.57 列秩等于行秩
假设 。那么 的列秩等于 的行秩。
证明思路
[行列分解给出第一个不等式]:令 为 的列秩。由行列分解(定理 3.56),( 是 , 是 )。
由定理 3.51(b), 的每一行都是 的各行的线性组合。因为 只有 行,所以 的行秩 (即 列秩)。
[转置给出反向不等式]:对 应用同样的论证: 的行秩 的列秩。但 的行秩 = 的列秩, 的列秩 = 的行秩。所以 的列秩 的行秩。
[夹逼]:两个不等式合起来,得 的列秩 = 的行秩。
学习注解
这个证明非常优雅! 它利用行列分解将”行”的问题转化为”列”的问题,再用转置将方向反过来,两个不等式夹逼出等式。
定义 3.58 秩(rank)
矩阵 的秩是 的列秩(= 行秩)。
学习注解
由于列秩 = 行秩,我们不再需要区分两者,统一使用”秩”这个术语。
==与 基本定理 的联系==:后面将证明 等于 的秩。这意味着基本定理可以重新表述为: 这就是著名的秩-零化度定理的矩阵版本。
四、知识结构总览
graph TD A[3C 矩阵] --> B[定义3.31 M_T 线性映射的矩阵] A --> C[例3.32 例3.33 具体计算] A --> D[定义3.34 3.36 矩阵加法与标量乘法] A --> E[定理3.35 3.38 运算对应] A --> F[定理3.40 F_mn是向量空间] A --> G[矩阵乘法动机推导] A --> H[定义3.41 矩阵乘法] A --> I[定理3.43 M_ST等于M_S乘M_T] A --> J[定理3.46 3.48 3.50 多种视角] A --> K[定理3.51 列行线性组合] A --> L[定义3.52 列秩与行秩] A --> M[定义3.54 转置] A --> N[定理3.56 行列分解] A --> O[定理3.57 列秩等于行秩] A --> P[定义3.58 秩] B --> C D --> E E --> F G --> H H --> I H --> J J --> K K --> N L --> O N --> O O --> P A -.-> Q[3A 线性映射所成的向量空间] A -.-> R[3B 零空间和值域]
五、核心思想与证明技巧
核心思想
- 矩阵是线性映射的”坐标表示”——选定了基之后,抽象的线性映射就变成了具体的矩阵。 的第 列就是 的坐标——矩阵的每一列都承载着基向量的”命运”。
- 矩阵运算由线性映射运算驱动——我们不是随意定义矩阵加法、标量乘法和乘法,而是为了让 成为线性映射与矩阵之间的”同构”——保持加法、标量乘法和乘法(复合)。
- 矩阵乘法的三种互补视角——元素视角(行 列)、列视角(列的线性组合)、行视角(行的线性组合)。其中列视角最为重要,它直接引出行列分解。
- 列秩 = 行秩的优雅证明——行列分解 + 转置对称性,两个不等式夹逼出等式,是”对称性论证”的典范。
证明技巧清单
- 动机驱动定义:从期望的性质()反推出运算的定义——这是数学中”好的定义”的典范
- 行列分解(3.56):取列空间的基 → 每列用基表示 → 系数矩阵即为
- 对称性论证(3.57):对 得到”行秩 列秩”,对 得到反向不等式,夹逼出等式
- 列的线性组合视角(3.50):——理解矩阵-向量乘法的关键
六、补充理解与易混淆点
6.1 矩阵乘法的本质:线性映射的复合
矩阵乘法 对应的是线性映射的复合:先应用 对应的映射,再应用 对应的映射(Georgia Tech Interactive Linear Algebra, Margalit & Rabinoff)。复合映射 的矩阵等于 的矩阵乘以 的矩阵——这不是巧合,而是矩阵乘法被”设计”成这样的结果。
矩阵乘法不可交换(),正是因为函数的复合不可交换:先旋转再平移,与先平移再旋转,结果通常不同(JHU Lecture 6, Lindblad)。“行乘列”的点积结构不是人为规定,而是坐标表示下复合映射的自然涌现——当我们把 的坐标写入矩阵的第 列,再将 展开,行与列的点积就自动出现了(BU CS132, Snyder)。
来源:Georgia Tech Interactive Linear Algebra (Margalit & Rabinoff)、JHU Lecture 6 (Lindblad)、BU CS132 (Snyder)。
6.2 行列分解的几何直觉
行列分解 可以这样理解: 捕捉了列空间的”骨架”——它的列是列空间的一组基向量。 记录了每列如何由骨架组装而成—— 的第 列就是 的第 列在基 下的坐标(MIT OCW, Strang “Five Factorizations of a Matrix”)。
在秩 1 的特殊情况下,(列向量 乘以行向量 ),这就是外积。秩 1 矩阵的几何意义是:所有列都是同一方向的标量倍数,所有行也都是同一方向的标量倍数(OSU Gerlach Lecture Notes)。
来源:MIT OCW (Strang, “Five Factorizations of a Matrix”)、OSU (Gerlach Lecture Notes)。
6.3 列秩等于行秩——为什么这个事实令人惊讶
列空间”住在” 中,行空间”住在” 中——它们是完全不同的空间。然而,这两个空间的维数永远相等,这确实令人惊讶(arXiv 2112.06638, “On the Column and Row Ranks of a Matrix”)。
文献中至少有三种不同的证明路径:
- Axler 的行列分解法(本节方法): → 行秩 列秩,再对 重复论证
- 正交性论证:列空间的正交补等于零空间,行空间的正交补等于左零空间,利用正交补的维数公式推导
- 秩-零化度 + 方法:,从而 (arXiv 2112.06638)
来源:arXiv 2112.06638 (On the Column and Row Ranks of a Matrix)、MIT 18.701 Algebra I (Row Rank = Column Rank)、CSDN 线性代数问答。
6.4 常见误区
误区1:矩阵乘法满足交换律
❌ 错误认知:认为 对所有矩阵成立 ✅ 正确理解:矩阵乘法一般不可交换。即使 和 都有定义,结果也可能不同。例如 ,,则 但 。交换律仅在极特殊条件下成立(如 和 可交换)。
来源:Khan Academy (Properties of Matrix Multiplication)、Georgia Tech ILA (Margalit & Rabinoff)、CSDN 博客。
误区2:矩阵乘法是逐元素相乘
❌ 错误认知:认为 ✅ 正确理解:矩阵乘法是行与列的点积,不是逐元素乘法。逐元素乘法称为 Hadamard 积,是另一种完全不同的运算。初学者常犯此错误,尤其是在编程中混淆
*和@运算符。来源:Vedantu (Matrix Multiplication Explained)、CSDN 博客。
误区3: 的列数等于目标空间维数
❌ 错误认知:混淆矩阵的行数与列数对应的维度 ✅ 正确理解: 是 矩阵,其中 (==行数 = 目标空间维数==),(==列数 = 定义域维数==)。第 列记录的是 的坐标—— 遍历定义域的基向量,所以列数 = 定义域维数。
来源:Vanderbilt University Lecture 19、BU CS132 (Snyder)。
误区4:秩总是等于
❌ 错误认知:认为 总成立 ✅ 正确理解:秩可以严格小于 。当 时称 为满秩矩阵,但这不是必然的。例如零矩阵的秩为 , 的秩为 。
来源:Vedantu JEE (Matrix Multiplication)、Brown University Homework Solutions。
误区5:
❌ 错误认知:认为秩对加法有简单的等式关系 ✅ 正确理解:一般只有 。类似地,。秩是”次可加的”,而非可加的。例如 ,,则 但 。
来源:CSDN 线性代数错误总结、Baylor University (Simanek, Rank Inequality)。
七、习题精选
本节习题
编号 标题 核心考点 难度 1 的非零元素下界 值域维数与矩阵的关系 ⭐⭐ 4 微分映射的”好基” 基的选取简化矩阵 ⭐⭐ 5 矩阵的标准形 基的选取与值域 ⭐⭐⭐ 10 矩阵乘法不可交换 反例构造 ⭐ 12 矩阵乘法的结合律 用线性映射证明 ⭐⭐ 16 秩 1 矩阵的刻画 行列分解的特例 ⭐⭐ 17 单射与列线性无关 的列与 的关系 ⭐⭐⭐
习题 1: 至少有 个非零元素
习题 1
假设 和 是有限维的且 。证明 至少有 个非零元素。
查看解答
证明: 是 矩阵,其中 ,。设 。
取 的基 。每个 等于 (某个 ),所以 的第 列至少有一个非零元素(因为 )。
由于 线性无关, 也线性无关。 的第 列分别是这些向量的坐标,每列至少有一个非零元素。
因此 至少有 个非零元素。
习题 4:微分映射的”好基”
习题 4
找到 和 的基,使得微分映射 关于这些基的矩阵为
查看解答
解题思路:对比例 3.33 中 。我们希望 作用在基向量上后,系数都是 而不是 。关键观察:。
解答:取 的基为 (即 ), 的基为 。
验证:
- → 第一列
- → 第二列
- → 第三列
- → 第四列
习题 5:矩阵的标准形
习题 5
假设 和 是有限维的且 。证明:存在 的基和 的基,使得 除对角线上前 个位置为 外,其余元素全为 。
查看解答
习题 10:矩阵乘法不可交换
习题 10
找到 矩阵 和 ,使得 。
查看解答
取 ,。
。
习题 12:矩阵乘法的结合律
习题 12
证明矩阵乘法是结合的。即,假设 是 矩阵, 是 矩阵, 是 矩阵,证明 。
查看解答
证明:设 ,, 使得 ,,。
由定理 3.43:
由函数复合的结合律:(因为函数复合总是结合的)。
所以 ,即 。
Artin 名言
“My experience is that if one can shorten a proof by 50% by leaving out matrices, one should do so.” (我的经验是,如果抛开矩阵的话,证明能缩短 50%,那就应该这么做。)
习题 16:秩 1 矩阵的刻画
习题 16
假设 。证明 当且仅当存在非零列向量 和非零行向量 使得对所有 ,。
查看解答
():设 。由行列分解(定理 3.56),,其中 是 矩阵(列向量 ), 是 矩阵(行向量 )。所以 。由于 , 且 。
():设 ,其中 ,。令 为以 为唯一列的 矩阵, 为以 为唯一行的 矩阵。则 ,由定理 3.56 的构造,。由于 (因为 且 ),。
习题 17:单射与列线性无关
习题 17
假设 和 是有限维的且 。证明以下等价: (a) 是单射 (b) 的各列线性无关 (c) 的各列张成 (d) 的各行线性无关 (e) 的各行张成
查看解答
(a) (b): 单射 ⟺ (定理 3.15)。
的第 列是 在 的基下的坐标。 的列线性无关 ⟺ 蕴涵所有 ⟺ 蕴涵 ⟺ (因为 线性无关)。
(b) (c): 有 列。在 中, 个向量线性无关 ⟺ 它们张成 (当且仅当 时两者同时成立,即 既单射又满射)。
(b) (d): 的列线性无关 ⟺ ⟺ 的列线性无关 ⟺ 的行线性无关。
(c) (e):类似地, 的列张成 ⟺ ⟺ 的行张成 。
八、视频学习指南
视频资源
视频主题 对应笔记模块 平台 3Blue1Brown 线性代数的本质 第3章:矩阵与线性变换 模块一 YouTube / B站 3Blue1Brown 线性代数的本质 第4章:矩阵乘法与线性变换复合 模块二 YouTube / B站
视频精要
- 第3章(矩阵与线性变换):矩阵的列就是基向量变换后的位置。理解了这一点,矩阵乘法就不再神秘——它只是”先变换、再变换”的坐标记录。
- 第4章(矩阵乘法作为复合):矩阵乘法对应线性变换的复合——先应用右边矩阵的变换,再应用左边矩阵的变换。这与函数复合的书写顺序 一致。
- 关键直觉:矩阵乘法的”行乘列”规则,本质上是复合变换的坐标计算。当我们把两个变换”串接”起来,新变换的矩阵自然就是两个矩阵的乘积。