5D 可对角化算子

本节概览

本节是第5章的核心高潮,引入对角矩阵可对角化的概念,建立可对角化的多重等价刻画——特征向量基、特征空间直和分解、维数等式、最小多项式无重根。最后介绍格什戈林圆盘定理,给出特征值的定位工具。

逻辑链条:对角矩阵 → 可对角化定义 → 特征空间 E(λ,T) → 特征空间直和 → 4条等价条件 → 充分条件(5.58) → 最小多项式无重根(5.62) → 限制不变子空间(5.65) → 格什戈林圆盘(5.67)

前置依赖5A 不变子空间、特征值和特征向量(算子、特征值、特征向量、不变子空间)、5B 最小多项式(最小多项式、q(T)=0、5.29/5.31)、5C 上三角矩阵(上三角矩阵、5.40/5.41/5.44)、第4章 多项式(因式分解、带余除法)

核心主线:可对角化是算子”最理想”的矩阵表示——对角矩阵使算子的幂、多项式、逆的计算都变得极其简单。判定可对角化的核心工具是最小多项式:无重根 ⟺ 可对角化。


一、对角矩阵与可对角化

对角矩阵

定义 5.48:对角矩阵(diagonal matrix)

称一个方阵为对角矩阵,若其中所有在对角线之外的元素都等于

对角矩阵的一般形式为: 记作

例 5.49:对角矩阵实例

是一个 对角矩阵,记作

注意对角线上的元素可以重复—— 出现了两次。

对角矩阵的运算优势

对角矩阵是上三角矩阵的特例(对角线以上也全为零),具有极其简单的运算性质:

  • 乘法:
  • 幂运算:
  • 行列式:
  • 迹:

可对角化的定义

定义 5.50:可对角化(diagonalizable)

。称 可对角化的,若存在 的基使得 关于该基的矩阵是对角矩阵。

例 5.51:对角化需要选取合适的基

考虑 上的算子

关于标准基 的矩阵为: 这不是对角矩阵。

是可对角化的。取基

因此关于基 的矩阵为:

特征值为 ,对应的特征向量分别为

注意

  • 一个算子是否可对角化与基的选取有关——关于某个基的矩阵不是对角矩阵,不代表算子不可对角化。
  • 不要把”矩阵可对角化”和”矩阵本身是对角矩阵”混淆。

特征空间

定义 5.52:特征空间(eigenspace)

对应于 特征空间定义为:

特征空间的关键性质

  • 的子空间(零空间的子空间)
  • 的特征值 (即
  • 中的每个非零向量都是对应于 的特征向量
  • 称为 几何重数

例 5.53:特征空间实例

的矩阵为 ,即

  • 特征值
  • 特征值

注意 ,这正是 可对角化的原因(定理 5.55)。

特征空间之和是直和

定理 5.54:特征空间之和是直和

。设 的互不相同的特征值。则

证明思路

直和部分:要证零向量表示唯一。设 ,其中 。由定理 5.11(不同特征值对应的特征向量线性无关),各 。由命题 1.45,和为直和。

维数部分:直和的维数等于各分量维数之和(定理 3.94),而直和是 的子空间,故维数不超过 推论 2.37)。

关键洞察

这个证明的核心是"不同特征空间指向不同方向"——它们的交集只有零向量。 这与定理 5.11的证明思路一脉相承,都是利用”不同特征值的差不为零”来消去分量。

可对角化的四条等价条件

定理 5.55:可对角化的等价条件

,并设 的所有互不相同的特征值。则以下四条等价:

  • (a) 是可对角化的。
  • (b) 存在由 的特征向量构成的基。
  • (c)
  • (d)

证明思路

的路线循环证明。

(a) (b):对角矩阵的第 列只有第 个位置非零 基向量都是特征向量。

(b) (c):将特征向量基按对应特征值分组。每个向量是各特征空间中向量的组合,由 5.54 分解是直和。

(c) (d):直和的维数等于各分量维数之和(3.94)。

(d) (b):由 5.54,特征空间之和是直和,维数为 。合并各 的基得到 个线性无关向量,构成基(2.38),每个基向量都是特征向量。

四条等价条件的直觉含义

条件直觉含义
(a) 可对角化矩阵视角:存在基使矩阵为对角矩阵
(b) 特征向量构成基几何视角:空间被特征向量”铺满”
(c) 特征空间直和分解结构视角:空间被特征空间完全分解
(d) 维数等式数值视角:各特征空间维数之和恰好等于全空间维数

==条件 (d) 在实际计算中最常用:算出每个特征空间的维数,看它们的和是否等于 。==


二、可对角化的判定

不可对角化的反例

例 5.57:不可对角化的算子

定义

求特征值:设 ,即

由第三个分量:

  • ,则 ;由第二个分量 ;由第一个分量 。所以 ,不是特征向量。
  • ,则 ,即 任意。

因此 的唯一特征值是 ,且

由定理 5.55 (d), 不可对角化

关键教训

  • 有特征值不等于可对角化。例 5.57 中 有特征值 ,但不可对角化。
  • 关键不是”有几个特征值”,而是”特征空间维数之和是否等于 “。

互异特征值足够多则可对角化

定理 5.58:互异特征值足够多 可对角化

。若 个互不相同的特征值,则 是可对角化的。

证明思路

个互不相同的特征值。对每个 取一个对应的特征向量 。由定理 5.11,不同特征值对应的特征向量线性无关,故 线性无关。 个线性无关的向量构成 的空间的一组基。由定理 5.55 (b) (a), 可对角化。

充分条件 vs 必要条件

定理 5.58 是充分条件(但非必要条件)。比如恒等算子 只有一个特征值 ,但它是可对角化的()。

定理 5.58 的价值在于:当你发现一个算子有足够多的互异特征值时,可以立刻断言它可对角化,而无需计算特征空间的维数。

利用对角化计算

例 5.59:对角化的强大应用——计算

定义为

第一步:求特征值和特征向量。

,已经是上三角矩阵。由定理 5.41,特征值为对角线元素

  • ,即 ,特征向量
  • ,即 ,特征向量
  • ,即 ,特征向量

第二步:写出对角化。

关于基

第三步:计算

用特征向量基表示。设 ,解得

化简得:

对角化的威力

==直接计算 需要做 次矩阵乘法,而对角化后只需计算 ——从 的计算量降为 的标量幂运算。==

可对角化但无法求出确切特征值

例 5.60:可对角化但无法求出确切特征值

考虑 上的算子 ,其最小多项式有 个互不相同的零点。由定理 5.62(稍后证明), 可对角化。

但如果最小多项式是 次一般多项式,即使知道可对角化,也可能无法用根式表达特征值的精确值(由 Abel-Ruffini 定理, 次以上多项式一般没有根式解)。

这说明:可对角化是一个结构性结论,与能否"算出"特征值是两回事。

不可对角化的判定——最小多项式视角

例 5.61:利用最小多项式判定不可对角化

,上三角矩阵,特征值为

验证 (直接计算可验证),但

因此最小多项式,含有 的平方因子——有重根

由定理 5.62(稍后证明), 不可对角化

可对角化的充要条件——最小多项式无重根

定理 5.62:可对角化 最小多项式无重根

。则 可对角化当且仅当 的最小多项式为 ,其中 互不相同。

证明思路

()方向:可对角化 最小多项式无重根。

可对角化, 的互不相同的特征值。由定理 5.55 (c):

定义 。任取 ,由直和分解写成 ,其中 。则 (因为 中含因子 )。故 ,即

5.29,最小多项式 整除 。由于 无重根, 也无重根,故


()方向:最小多项式无重根 可对角化。

对最小多项式的根的个数 做数学归纳法。

,即 ,显然可对角化。

:设 互不相同。令

断言 1 下不变(由5.18)。

断言 2 的最小多项式整除 ,无重根。由归纳假设, 可对角化。

断言 3

证明:设 ,则 且存在 使 。令 。则 。但 (因为 与其他 互异),故 是乘以 ,可逆。因此

3.943.21(秩-零度定理),。由于交集为零,

完成归纳 可对角化(断言 2),。合并 的特征向量基,得到 的特征向量基。由 5.55 (b) (a), 可对角化。

核心结论

最小多项式无重根 ⟺ 可对角化。这是判定可对角化的终极工具——不需要求出特征值,只需检查最小多项式是否有重根。

深层原因:断言 3 的证明中,关键一步是 。当最小多项式无重根时, 对所有 成立,保证了 可逆。但如果最小多项式有重根 ,则 中仍含 ,导致 ,论证失效。


三、可对角化算子的性质

限制于不变子空间仍可对角化

定理 5.65:可对角化算子限制于不变子空间仍可对角化

可对角化, 的在 下不变的子空间。则 也可对角化。

证明思路

可对角化 由定理 5.62, 的最小多项式 无重根,即

的最小多项式 整除 (由5.31,因为 蕴含 )。

无重根 也无重根( 的根都是 的根,且重数不超过 中的重数)。

由定理 5.62, 可对角化。

证明的简洁性

这个证明极其简洁,充分体现了最小多项式判别法的威力——它把一个几何问题(不变子空间上的可对角化)转化为了一个纯代数问题(多项式整除关系)。


四、格什戈林圆盘定理

格什戈林圆盘的定义

定义 5.66:格什戈林圆盘(Gershgorin disk)

矩阵。对 ,第 格什戈林圆盘定义为复平面上的闭圆盘:

即以对角线元素 为圆心,以第 行非对角线元素的绝对值之和为半径的圆盘。

直觉理解

格什戈林圆盘的半径 度量了第 行中”非对角线元素的总影响力”。如果非对角线元素都很小(接近对角矩阵),则圆盘很小,特征值被紧紧约束在对角线元素附近。

格什戈林圆盘定理

定理 5.67:格什戈林圆盘定理(Gershgorin Disk Theorem)

矩阵(元素在 中)。则 的每个特征值都至少属于一个格什戈林圆盘

证明思路

的特征值, 是对应的特征向量(),即

用基表示 。取使 最大的那个 (即 ,且 )。

比较特征方程 方向上的系数:

改写为 。两边取绝对值:

由于 是最大分量的下标),故:

约去

这正是说

定理的意义

格什戈林圆盘定理告诉我们,特征值”不会跑太远”——每个特征值都至少被一个以对角线元素为中心的圆盘”捕获”。

实际应用

  • 特征值的粗略定位:不需要计算特征多项式,只需看矩阵的元素就能给出特征值的范围
  • 严格对角占优矩阵:如果 对所有 成立,则每个圆盘不包含原点,矩阵可逆
  • 数值稳定性:如果格什戈林圆盘彼此分离,则每个圆盘恰好包含一个特征值

格什戈林圆盘定理的应用实例

考虑矩阵:

三个格什戈林圆盘为:

  • :圆心 ,半径 ,即
  • :圆心 ,半径 ,即
  • :圆心 ,半径 ,即

的所有特征值都落在 中。


五、知识结构总览

graph TD
    A["对角矩阵<br/>Def 5.48"] --> B["可对角化<br/>Def 5.50"]
    B --> C["特征空间<br/>Def 5.52"]
    C --> D["特征空间直和<br/>Thm 5.54"]
    D --> E["四条等价条件<br/>Thm 5.55"]
    E --> F["充分条件<br/>Thm 5.58"]
    E --> G["最小多项式无重根<br/>Thm 5.62"]
    G --> H["限制不变子空间<br/>Thm 5.65"]
    A --> I["格什戈林圆盘<br/>Def 5.66 Thm 5.67"]

六、核心思想与证明技巧

核心思想

  1. ==可对角化 = 存在一组基使 T 只做拉伸不做旋转==——最理想的矩阵表示。对角化把算子”拆解”为各坐标方向上独立的标量乘法。
  2. 可对角化有 4 种等价刻画(定理 5.55)——可根据具体情况选择最方便的验证方式:(a) 对角矩阵、(b) 特征向量基、(c) 特征空间直和分解、(d) 维数等式。
  3. 最小多项式无重根是判定可对角化的终极工具——不需要求出特征值,只需检查最小多项式是否有重根。重根的存在标志着”广义特征向量”的存在,标志着 Jordan 块的出现。
  4. 格什戈林圆盘提供特征值的"粗定位"——非对角元素小时特征值接近对角线元素。无需精确计算就能定位特征值,体现了”先粗后精”的数学思维。

证明技巧

  1. 合并各特征空间的基构造特征向量基(定理 5.55 中 (d) (b)):直和的基可以合并, 个线性无关向量就是基。
  2. 利用 的维数论证(定理 5.62):关键在于 保证 可逆。
  3. 对最小多项式的因式个数做归纳法(定理 5.62 的 () 方向): 个根的情形通过 降为 个根。
  4. 利用对角化计算算子的高次幂(例 5.59): 在特征向量基下就是对角矩阵的 次幂,标量幂运算替代矩阵乘法。
  5. 取最大坐标分量证明格什戈林定理(定理 5.67):取 最大的 ,利用 放缩后约掉

七、补充理解与易混淆点

可对角化的几何意义

Note

可对角化意味着存在一组基,使 在每个基向量方向上只做拉伸(乘以标量),不做旋转或剪切。

不可对角化意味着存在”剪切”效应——如 Jordan 块 中, 在第二个基向量方向上不仅有拉伸还有”推移”。

可对角化是”最理想”的矩阵表示,但并非所有算子都能达到。在 上,每个算子都能上三角化(5.47),但只有满足最小多项式无重根的算子才能对角化(5.62)。

来源:Georgia Tech “Interactive Linear Algebra” Diagonalization 章节、Boston University “Diagonalization — Linear Algebra, Geometry, and Computation”、Ohio State “Eigenvalues and Eigenvectors” 讲义

为什么最小多项式无重根等价于可对角化

Note

最小多项式的重根对应 Jordan 块的大小——重根次数 = 最大 Jordan 块的尺寸。

无重根意味着所有 Jordan 块都是 的,即对角矩阵。

有重根意味着存在 的 Jordan 块,此时不可对角化。

定理 5.62 的证明不依赖 Jordan 标准形(第8章才引入),而是直接利用 range 和 null 的直和分解,这是 Axler 教材的独特处理方式。

来源:Keith Conrad (UConn) “The Minimal Polynomial and Some Applications”、CSDN “可对角化等价于极小多项式为互不相同一次式的乘积”、Vaia “Undergraduate Algebra” Ch.5

格什戈林圆盘定理的应用

Note

  • 严格对角占优矩阵)的格什戈林圆盘不包含原点 矩阵可逆( 不是特征值)
  • 非对角元素很小时,特征值接近对角线元素——这是数值方法中迭代法的理论基础
  • 孤立圆盘恰好包含一个特征值(连通分支定理)

来源:UCLA ECE133B “Geršgorin bounds” (Vandenberghe)、Ohio State Ximera “Gershgorin’s Theorem”、Nebraska-Lincoln M447 Homework Solutions

常见误区

误区1:"有 个特征值就可对角化"

❌ 特征值个数等于 就可对角化 ✅ 需要 互不相同的特征值(定理 5.58),或特征空间维数之和等于 (定理 5.55(d))。例如恒等算子 只有一个特征值 ,但 ,所以可对角化。

误区2:"上三角矩阵都可对角化"

❌ 上三角矩阵一定可对角化 ✅ 上三角不保证可对角化。反例: 的矩阵 是上三角但不可对角化(最小多项式 有重根 )。

误区3:"可对角化只与特征值有关"

❌ 只要知道特征值就能判断可对角化 ✅ 还需要检查特征空间的维数(几何重数)或最小多项式是否有重根。例如 有特征值 ,但最小多项式 有重根 不可对角化。

误区4:" 可对角化 可对角化"

❌ 算子幂可对角化则原算子也可对角化 ✅ 反例: 上, 可对角化(零算子),但 的最小多项式 有重根 不可对角化。不过若 可逆且 ,则 可对角化 可对角化(习题14(b))。

误区5:"格什戈林圆盘给出精确的特征值"

❌ 圆盘定理精确给出特征值的位置 ✅ 圆盘定理只给出特征值的包含区域,不精确。但当非对角元素相对于对角元素很小时,圆盘很小,特征值被精确定位。这是严格对角占优矩阵可逆的理论基础。

误区6:"实算子不可能可对角化"

❌ 实数域上算子不能可对角化 ✅ 若最小多项式在 上可分解为不同一次因式之积,实算子也可对角化。例如 上可对角化(最小多项式 上可分解)。关键是最小多项式能否在 上分解,而非 的选择。


八、习题精选

推荐习题

编号标题核心考点难度
1 的可对角化最小多项式无重根
2等价刻画
3相同特征值的三维算子相似可对角化+相似
4 可对角化但 不可对角化算子幂
5最小多项式与导数的公因式无需零点信息
6不变子空间的刻画特征空间
7斐波那契数列的对角化经典应用

习题1: 的可对角化

习题1

(a) 如果 ,那么 可对角化。(b) 如果 ,那么 可对角化。(c) 给出一例: 使得 不可对角化。

习题5:

习题5

是有限维复向量空间,。证明: 可对角化 对任一 成立。

习题9:相同特征值的三维算子相似

习题9

都有特征值 。证明:存在可逆算子 使得

习题14: 可对角化但 不可对角化

习题14

(a) 给出一例:有限维复向量空间和算子 ,使得 可对角化但 不可对角化。(b) 设 是正整数, 可逆。证明: 可对角化 可对角化。

习题15:最小多项式与导数的公因式

习题15

是有限维复向量空间, 的最小多项式。证明下列等价:(a) 可对角化。(b) 不存在 使得 的多项式倍。(c) 没有公共零点。(d) 的最大公因式是常多项式

习题16:不变子空间的刻画

习题16

可对角化, 的所有互异特征值。证明: 的子空间 下不变 存在 使得

习题21:斐波那契数列的对角化

习题21

斐波那契数列定义为 ()。定义 。 (a) 证明 。 (b) 求 的特征值。 (c) 求 的一个由 的特征向量构成的基。 (d) 用 (c) 计算 ,得出 。 (e) 证明 是最接近 的整数。


九、视频学习指南

视频资源

资源主题链接
3Blue1Brown特征值与特征向量(直觉理解)Essence of Linear Algebra
Dr. PeyamDiagonalizationYouTube
Michael PennGershgorin Circle TheoremYouTube
Zach Star线性代数核心概念YouTube

视频精要

  • 3Blue1Brown 的特征值视频提供了极佳的几何直觉——特征向量是”变换中方向不变的向量”,特征值是”拉伸因子”,适合作为本节的入门
  • Dr. Peyam 的对角化视频更贴近教材风格,适合深入学习证明细节
  • Michael Penn 的格什戈林圆盘定理视频有清晰的证明演示,适合配合定理 5.67 学习
  • 建议先看 3Blue1Brown 建立直觉,再结合教材和本笔记学习严格证明

十、教材原文

可对角化