5D 可对角化算子
本节概览
本节是第5章的核心高潮,引入对角矩阵与可对角化的概念,建立可对角化的多重等价刻画——特征向量基、特征空间直和分解、维数等式、最小多项式无重根。最后介绍格什戈林圆盘定理,给出特征值的定位工具。
逻辑链条:对角矩阵 → 可对角化定义 → 特征空间 E(λ,T) → 特征空间直和 → 4条等价条件 → 充分条件(5.58) → 最小多项式无重根(5.62) → 限制不变子空间(5.65) → 格什戈林圆盘(5.67)
前置依赖:5A 不变子空间、特征值和特征向量(算子、特征值、特征向量、不变子空间)、5B 最小多项式(最小多项式、q(T)=0、5.29/5.31)、5C 上三角矩阵(上三角矩阵、5.40/5.41/5.44)、第4章 多项式(因式分解、带余除法)
核心主线:可对角化是算子”最理想”的矩阵表示——对角矩阵使算子的幂、多项式、逆的计算都变得极其简单。判定可对角化的核心工具是最小多项式:无重根 ⟺ 可对角化。
一、对角矩阵与可对角化
对角矩阵
定义 5.48:对角矩阵(diagonal matrix)
称一个方阵为对角矩阵,若其中所有在对角线之外的元素都等于 。
对角矩阵的一般形式为: 记作 。
例 5.49:对角矩阵实例
是一个 对角矩阵,记作 。
注意对角线上的元素可以重复—— 出现了两次。
对角矩阵的运算优势
对角矩阵是上三角矩阵的特例(对角线以上也全为零),具有极其简单的运算性质:
- 乘法:
- 幂运算:
- 行列式:
- 迹:
可对角化的定义
定义 5.50:可对角化(diagonalizable)
设 。称 是可对角化的,若存在 的基使得 关于该基的矩阵是对角矩阵。
例 5.51:对角化需要选取合适的基
考虑 上的算子 。
关于标准基 的矩阵为: 这不是对角矩阵。
但 是可对角化的。取基 :
因此关于基 , 的矩阵为:
特征值为 和 ,对应的特征向量分别为 和 。
注意
- 一个算子是否可对角化与基的选取有关——关于某个基的矩阵不是对角矩阵,不代表算子不可对角化。
- 不要把”矩阵可对角化”和”矩阵本身是对角矩阵”混淆。
特征空间
定义 5.52:特征空间(eigenspace)
设 且 。 对应于 的特征空间定义为:
特征空间的关键性质
- 是 的子空间(零空间的子空间)
- 是 的特征值 (即 )
- 中的每个非零向量都是对应于 的特征向量
- 称为 的几何重数
例 5.53:特征空间实例
设 的矩阵为 ,即 。
- 特征值 :,
- 特征值 :,
注意 ,这正是 可对角化的原因(定理 5.55)。
特征空间之和是直和
定理 5.54:特征空间之和是直和
设 。设 是 的互不相同的特征值。则 且 。
证明思路
关键洞察
这个证明的核心是"不同特征空间指向不同方向"——它们的交集只有零向量。 这与定理 5.11的证明思路一脉相承,都是利用”不同特征值的差不为零”来消去分量。
可对角化的四条等价条件
定理 5.55:可对角化的等价条件
设 ,并设 是 的所有互不相同的特征值。则以下四条等价:
- (a) 是可对角化的。
- (b) 存在由 的特征向量构成的基。
- (c) 。
- (d) 。
证明思路
四条等价条件的直觉含义
条件 直觉含义 (a) 可对角化 矩阵视角:存在基使矩阵为对角矩阵 (b) 特征向量构成基 几何视角:空间被特征向量”铺满” (c) 特征空间直和分解 结构视角:空间被特征空间完全分解 (d) 维数等式 数值视角:各特征空间维数之和恰好等于全空间维数 ==条件 (d) 在实际计算中最常用:算出每个特征空间的维数,看它们的和是否等于 。==
二、可对角化的判定
不可对角化的反例
例 5.57:不可对角化的算子
定义 为 。
求特征值:设 ,即 。
由第三个分量:。
- 若 ,则 ;由第二个分量 得 ;由第一个分量 得 。所以 ,不是特征向量。
- 若 ,则 ,即 , 任意。
因此 的唯一特征值是 ,且
由定理 5.55 (d), 不可对角化。
关键教训
- 有特征值不等于可对角化。例 5.57 中 有特征值 ,但不可对角化。
- 关键不是”有几个特征值”,而是”特征空间维数之和是否等于 “。
互异特征值足够多则可对角化
定理 5.58:互异特征值足够多 可对角化
设 。若 有 个互不相同的特征值,则 是可对角化的。
证明思路
设 是 的 个互不相同的特征值。对每个 取一个对应的特征向量 。由定理 5.11,不同特征值对应的特征向量线性无关,故 线性无关。 个线性无关的向量构成 的空间的一组基。由定理 5.55 (b) (a), 可对角化。
充分条件 vs 必要条件
定理 5.58 是充分条件(但非必要条件)。比如恒等算子 只有一个特征值 ,但它是可对角化的()。
定理 5.58 的价值在于:当你发现一个算子有足够多的互异特征值时,可以立刻断言它可对角化,而无需计算特征空间的维数。
利用对角化计算
例 5.59:对角化的强大应用——计算
设 定义为 。
第一步:求特征值和特征向量。
,已经是上三角矩阵。由定理 5.41,特征值为对角线元素 。
- :,即 ,特征向量 。
- :,即 ,特征向量 。
- :,即 ,特征向量 。
第二步:写出对角化。
关于基 ,。
第三步:计算 。
将 用特征向量基表示。设 ,解得 。
化简得:
对角化的威力
==直接计算 需要做 次矩阵乘法,而对角化后只需计算 ——从 的计算量降为 的标量幂运算。==
可对角化但无法求出确切特征值
例 5.60:可对角化但无法求出确切特征值
考虑 上的算子 ,其最小多项式有 个互不相同的零点。由定理 5.62(稍后证明), 可对角化。
但如果最小多项式是 次一般多项式,即使知道可对角化,也可能无法用根式表达特征值的精确值(由 Abel-Ruffini 定理, 次以上多项式一般没有根式解)。
这说明:可对角化是一个结构性结论,与能否"算出"特征值是两回事。
不可对角化的判定——最小多项式视角
例 5.61:利用最小多项式判定不可对角化
可对角化的充要条件——最小多项式无重根
定理 5.62:可对角化 最小多项式无重根
设 。则 可对角化当且仅当 的最小多项式为 ,其中 互不相同。
证明思路
()方向:可对角化 最小多项式无重根。
设 可对角化, 是 的互不相同的特征值。由定理 5.55 (c):
定义 。任取 ,由直和分解写成 ,其中 。则 (因为 中含因子 )。故 ,即 。
由5.29,最小多项式 整除 。由于 无重根, 也无重根,故 。
()方向:最小多项式无重根 可对角化。
对最小多项式的根的个数 做数学归纳法。
:,即 ,显然可对角化。
:设 , 互不相同。令 。
断言 1: 在 下不变(由5.18)。
断言 2: 的最小多项式整除 ,无重根。由归纳假设, 可对角化。
断言 3:。
证明:设 ,则 且存在 使 。令 。则 。但 (因为 与其他 互异),故 是乘以 ,可逆。因此 。
完成归纳: 可对角化(断言 2),。合并 和 的特征向量基,得到 的特征向量基。由 5.55 (b) (a), 可对角化。
核心结论
最小多项式无重根 ⟺ 可对角化。这是判定可对角化的终极工具——不需要求出特征值,只需检查最小多项式是否有重根。
深层原因:断言 3 的证明中,关键一步是 。当最小多项式无重根时, 对所有 成立,保证了 可逆。但如果最小多项式有重根 ,则 中仍含 ,导致 ,论证失效。
三、可对角化算子的性质
限制于不变子空间仍可对角化
定理 5.65:可对角化算子限制于不变子空间仍可对角化
设 可对角化, 是 的在 下不变的子空间。则 也可对角化。
证明思路
可对角化 由定理 5.62, 的最小多项式 无重根,即 。
的最小多项式 整除 (由5.31,因为 蕴含 )。
无重根 也无重根( 的根都是 的根,且重数不超过 中的重数)。
由定理 5.62, 可对角化。
证明的简洁性
这个证明极其简洁,充分体现了最小多项式判别法的威力——它把一个几何问题(不变子空间上的可对角化)转化为了一个纯代数问题(多项式整除关系)。
四、格什戈林圆盘定理
格什戈林圆盘的定义
定义 5.66:格什戈林圆盘(Gershgorin disk)
设 是 矩阵。对 ,第 个格什戈林圆盘定义为复平面上的闭圆盘:
即以对角线元素 为圆心,以第 行非对角线元素的绝对值之和为半径的圆盘。
直觉理解
格什戈林圆盘的半径 度量了第 行中”非对角线元素的总影响力”。如果非对角线元素都很小(接近对角矩阵),则圆盘很小,特征值被紧紧约束在对角线元素附近。
格什戈林圆盘定理
定理 5.67:格什戈林圆盘定理(Gershgorin Disk Theorem)
设 是 矩阵(元素在 中)。则 的每个特征值都至少属于一个格什戈林圆盘 。
证明思路
设 是 的特征值, 是对应的特征向量(),即 。
将 用基表示 。取使 最大的那个 (即 ,且 )。
比较特征方程 在 方向上的系数:
改写为 。两边取绝对值:
由于 ( 是最大分量的下标),故:
约去 :
这正是说 。
定理的意义
格什戈林圆盘定理告诉我们,特征值”不会跑太远”——每个特征值都至少被一个以对角线元素为中心的圆盘”捕获”。
实际应用:
- 特征值的粗略定位:不需要计算特征多项式,只需看矩阵的元素就能给出特征值的范围
- 严格对角占优矩阵:如果 对所有 成立,则每个圆盘不包含原点,矩阵可逆
- 数值稳定性:如果格什戈林圆盘彼此分离,则每个圆盘恰好包含一个特征值
格什戈林圆盘定理的应用实例
考虑矩阵:
三个格什戈林圆盘为:
- :圆心 ,半径 ,即
- :圆心 ,半径 ,即
- :圆心 ,半径 ,即
的所有特征值都落在 中。
五、知识结构总览
graph TD A["对角矩阵<br/>Def 5.48"] --> B["可对角化<br/>Def 5.50"] B --> C["特征空间<br/>Def 5.52"] C --> D["特征空间直和<br/>Thm 5.54"] D --> E["四条等价条件<br/>Thm 5.55"] E --> F["充分条件<br/>Thm 5.58"] E --> G["最小多项式无重根<br/>Thm 5.62"] G --> H["限制不变子空间<br/>Thm 5.65"] A --> I["格什戈林圆盘<br/>Def 5.66 Thm 5.67"]
六、核心思想与证明技巧
核心思想
- ==可对角化 = 存在一组基使 T 只做拉伸不做旋转==——最理想的矩阵表示。对角化把算子”拆解”为各坐标方向上独立的标量乘法。
- 可对角化有 4 种等价刻画(定理 5.55)——可根据具体情况选择最方便的验证方式:(a) 对角矩阵、(b) 特征向量基、(c) 特征空间直和分解、(d) 维数等式。
- 最小多项式无重根是判定可对角化的终极工具——不需要求出特征值,只需检查最小多项式是否有重根。重根的存在标志着”广义特征向量”的存在,标志着 Jordan 块的出现。
- 格什戈林圆盘提供特征值的"粗定位"——非对角元素小时特征值接近对角线元素。无需精确计算就能定位特征值,体现了”先粗后精”的数学思维。
证明技巧
- 合并各特征空间的基构造特征向量基(定理 5.55 中 (d) (b)):直和的基可以合并, 个线性无关向量就是基。
- 利用 的维数论证(定理 5.62):关键在于 保证 可逆。
- 对最小多项式的因式个数做归纳法(定理 5.62 的 () 方向): 个根的情形通过 降为 个根。
- 利用对角化计算算子的高次幂(例 5.59): 在特征向量基下就是对角矩阵的 次幂,标量幂运算替代矩阵乘法。
- 取最大坐标分量证明格什戈林定理(定理 5.67):取 最大的 ,利用 放缩后约掉 。
七、补充理解与易混淆点
可对角化的几何意义
Note
可对角化意味着存在一组基,使 在每个基向量方向上只做拉伸(乘以标量),不做旋转或剪切。
不可对角化意味着存在”剪切”效应——如 Jordan 块 中, 在第二个基向量方向上不仅有拉伸还有”推移”。
可对角化是”最理想”的矩阵表示,但并非所有算子都能达到。在 上,每个算子都能上三角化(5.47),但只有满足最小多项式无重根的算子才能对角化(5.62)。
来源:Georgia Tech “Interactive Linear Algebra” Diagonalization 章节、Boston University “Diagonalization — Linear Algebra, Geometry, and Computation”、Ohio State “Eigenvalues and Eigenvectors” 讲义
为什么最小多项式无重根等价于可对角化
Note
最小多项式的重根对应 Jordan 块的大小——重根次数 = 最大 Jordan 块的尺寸。
无重根意味着所有 Jordan 块都是 的,即对角矩阵。
有重根意味着存在 的 Jordan 块,此时不可对角化。
定理 5.62 的证明不依赖 Jordan 标准形(第8章才引入),而是直接利用 range 和 null 的直和分解,这是 Axler 教材的独特处理方式。
来源:Keith Conrad (UConn) “The Minimal Polynomial and Some Applications”、CSDN “可对角化等价于极小多项式为互不相同一次式的乘积”、Vaia “Undergraduate Algebra” Ch.5
格什戈林圆盘定理的应用
Note
- 严格对角占优矩阵()的格什戈林圆盘不包含原点 矩阵可逆( 不是特征值)
- 非对角元素很小时,特征值接近对角线元素——这是数值方法中迭代法的理论基础
- 孤立圆盘恰好包含一个特征值(连通分支定理)
来源:UCLA ECE133B “Geršgorin bounds” (Vandenberghe)、Ohio State Ximera “Gershgorin’s Theorem”、Nebraska-Lincoln M447 Homework Solutions
常见误区
误区1:"有 个特征值就可对角化"
❌ 特征值个数等于 就可对角化 ✅ 需要 个互不相同的特征值(定理 5.58),或特征空间维数之和等于 (定理 5.55(d))。例如恒等算子 只有一个特征值 ,但 ,所以可对角化。
误区2:"上三角矩阵都可对角化"
❌ 上三角矩阵一定可对角化 ✅ 上三角不保证可对角化。反例: 的矩阵 是上三角但不可对角化(最小多项式 有重根 )。
误区3:"可对角化只与特征值有关"
❌ 只要知道特征值就能判断可对角化 ✅ 还需要检查特征空间的维数(几何重数)或最小多项式是否有重根。例如 有特征值 和 ,但最小多项式 有重根 不可对角化。
误区4:" 可对角化 可对角化"
❌ 算子幂可对角化则原算子也可对角化 ✅ 反例: 在 上, 可对角化(零算子),但 的最小多项式 有重根 不可对角化。不过若 可逆且 ,则 可对角化 可对角化(习题14(b))。
误区5:"格什戈林圆盘给出精确的特征值"
❌ 圆盘定理精确给出特征值的位置 ✅ 圆盘定理只给出特征值的包含区域,不精确。但当非对角元素相对于对角元素很小时,圆盘很小,特征值被精确定位。这是严格对角占优矩阵可逆的理论基础。
误区6:"实算子不可能可对角化"
❌ 实数域上算子不能可对角化 ✅ 若最小多项式在 上可分解为不同一次因式之积,实算子也可对角化。例如 在 上可对角化(最小多项式 在 上可分解)。关键是最小多项式能否在 上分解,而非 的选择。
八、习题精选
推荐习题
编号 标题 核心考点 难度 1 和 的可对角化 最小多项式无重根 低 2 等价刻画 中 3 相同特征值的三维算子相似 可对角化+相似 中 4 可对角化但 不可对角化 算子幂 中 5 最小多项式与导数的公因式 无需零点信息 高 6 不变子空间的刻画 特征空间 高 7 斐波那契数列的对角化 经典应用 高
习题1: 和 的可对角化
习题1
(a) 如果 ,那么 可对角化。(b) 如果 ,那么 可对角化。(c) 给出一例: 使得 且 不可对角化。
查看解答
(a) ,即 ,即 。
在 上,,故 。
最小多项式整除 ,无重根 可对角化(5.62)。
(b) ,即 ,即 。
在 上, 的零点为 (即 和 ,三次单位根),故 。
最小多项式整除 ,在 上无重根 可对角化。
(c) 。,。 的最小多项式是 (有重根) 不可对角化。
习题5:
习题5
是有限维复向量空间,。证明: 可对角化 对任一 成立。
查看解答
习题9:相同特征值的三维算子相似
习题9
都有特征值 、 和 。证明:存在可逆算子 使得 。
查看解答
和 各有 个互不相同的特征值 由 5.58, 和 都可对角化。
设 关于基 的矩阵为 , 关于基 的矩阵为 。
定义 为 。则 可逆(将一组基映为另一组基)。
验证:。
故 。
习题14: 可对角化但 不可对角化
习题14
(a) 给出一例:有限维复向量空间和算子 ,使得 可对角化但 不可对角化。(b) 设 , 是正整数, 可逆。证明: 可对角化 可对角化。
查看解答
(a) ,。 可对角化(零算子),但 的最小多项式 有重根 不可对角化。
(b)
() 可对角化 存在特征向量基使 。则 ,仍为对角矩阵 可对角化。
() 设 可对角化。 可逆 不是 的特征值 的最小多项式 的常数项 , 的每个零点 。
可对角化 的最小多项式 无重根(5.62)。
(因为 ,且 的多项式也是 的多项式)。实际上更直接: 整除某个 使得 。但更简洁的证法是:
的最小多项式 无重根。 存在多项式 使得 (因为 的特征值 ,,其中 是 次单位根)。
更直接的证法: 整除 (因为 意味着 是 的零化多项式)。 无重根 的每个不可约因式形如 (因为 , 的根互不相同),故 无重根 可对角化(5.62)。
习题15:最小多项式与导数的公因式
习题15
是有限维复向量空间,, 是 的最小多项式。证明下列等价:(a) 可对角化。(b) 不存在 使得 是 的多项式倍。(c) 和 没有公共零点。(d) 和 的最大公因式是常多项式 。
查看解答
(a) (b):由 5.62, 可对角化 最小多项式 无重根 不存在 使 。
(b) (c): 是 的零点且 。
证明:若 ,则 ,故 。反之,若 是 的零点且 ,则 至少是 的二重零点(否则 ,,,矛盾),故 。
因此 和 有公共零点 存在 使 。
(c) (d): 和 的最大公因式非常数 它们有公共零点(在 上,非常数多项式至少有一个零点)。
因此 (a) (b) (c) (d)。
注:(d) 的意义在于:可用欧几里得算法求 ,==不需要知道 的零点==!
习题16:不变子空间的刻画
习题16
可对角化, 是 的所有互异特征值。证明: 的子空间 在 下不变 存在 使得 且 。
查看解答
() 若 ,则 。故 。
() 设 在 下不变。因为 可对角化,。
对 ,唯一写成 ,。
定义投影 。由 Lagrange 插值, 可以表示为 的多项式:。
因为 在 下不变, 也在 的多项式下不变,故 。
令 。则 (因为 ,且各 的像互不相交)。
习题21:斐波那契数列的对角化
习题21
斐波那契数列定义为 ()。定义 为 。 (a) 证明 。 (b) 求 的特征值。 (c) 求 的一个由 的特征向量构成的基。 (d) 用 (c) 计算 ,得出 。 (e) 证明 是最接近 的整数。
查看解答
(a) 归纳法。
: ✓
: ✓
归纳步骤:若 ,则 ✓
(b) 。特征方程:
解得 。记 (黄金比例),。
(c) :,取特征向量 。
:,取特征向量 。
和 线性无关(),构成 的基。
(d) 将 用特征向量基表示。
设 ,即:
由第一式 ,代入第二式:,故 ,。
因此:
比较第一个分量:。
这就是著名的 Binet 公式。
(e) ,故 (当 时)。
,其中 。
因此 是距离 最近的整数。
九、视频学习指南
视频资源
资源 主题 链接 3Blue1Brown 特征值与特征向量(直觉理解) Essence of Linear Algebra Dr. Peyam Diagonalization YouTube Michael Penn Gershgorin Circle Theorem YouTube Zach Star 线性代数核心概念 YouTube
视频精要
- 3Blue1Brown 的特征值视频提供了极佳的几何直觉——特征向量是”变换中方向不变的向量”,特征值是”拉伸因子”,适合作为本节的入门
- Dr. Peyam 的对角化视频更贴近教材风格,适合深入学习证明细节
- Michael Penn 的格什戈林圆盘定理视频有清晰的证明演示,适合配合定理 5.67 学习
- 建议先看 3Blue1Brown 建立直觉,再结合教材和本笔记学习严格证明
十、教材原文