6.3 最大似然估计与EM算法
本节概览
本节在§6.1已介绍的MLE基本定义基础上,深入探讨最大似然估计的理论性质与高级应用。核心内容包括:
- 似然函数的深入理解与最大似然原理(似然 vs 概率)
- MLE的求解方法与常见分布汇总(对数似然、分布汇总)
- MLE的渐近理论:不变性原理、相合性、渐近正态性、有效估计(渐近理论)
- MLE与矩估计的系统比较(比较分析)
- EM算法的思想与应用(E步M步、混合模型)
逻辑链条:似然原理 → 求解方法 → 分布汇总 → 渐近理论 → 方法比较 → EM思想 → EM应用
前置依赖:§6.1(MLE基本定义、Fisher信息量、C-R下界)、§6.2(矩估计方法、相合性理论)、§5.5(充分统计量)
核心主线:MLE是频率学派最重要的估计方法,其核心优势在于渐近有效性——在大样本下达到C-R下界。EM算法将复杂的MLE问题分解为E步(期望)和M步(最大化),是处理含缺失数据模型的通用工具。
相关笔记:6.1 点估计的概念与无偏性、6.2 矩估计及相合性、5.5 充分统计量、5.4 三大抽样分布、4.3 大数定律、4.4 中心极限定理
一、似然函数与最大似然原理
似然函数的定义
§6.1 已给出了似然函数的基本定义。本节从更深层次理解似然函数的本质。
定义 6.3.1 — 似然函数(深入)
设 是来自总体 的样本。
- 离散总体:设 ,则似然函数为
- 连续总体:设概率密度为 ,则似然函数为
似然函数 是在样本观测值已给定的条件下,关于参数 的函数,它衡量了在参数取值为 时,观测到当前样本的”可能性”。
似然与概率的本质区别
似然与概率是两个不同的概念,虽然它们的数学表达式相同,但视角完全不同:
| 维度 | 概率 | 似然 |
|---|---|---|
| 视角 | 参数 固定, 变化 | 样本 固定, 变化 |
| 变量 | 随机变量 | 未知参数 |
| 含义 | 在参数确定下,数据出现的可能性 | 在数据确定下,参数取值的合理性 |
| 性质 | 关于 求和(或积分)为 1 | 关于 求和(或积分)不一定为 1 |
| 用途 | 预测、推断 | 参数估计 |
直观类比:想象一把锁(参数 )和一把钥匙(数据 )。概率问的是”已知这把锁,随机选一把钥匙能打开的概率是多少”;似然问的是”已知这把钥匙能打开锁,哪把锁最可能是原配的”。
最大似然原理
定义 6.3.2 — 最大似然原理
最大似然原理(Maximum Likelihood Principle)的核心思想是:
在所有可能的参数值中,选择使当前观测样本出现概率(似然)最大的那个参数值作为估计。
即寻找 使得
最大似然原理的哲学基础:如果某个参数值使得已经发生的事件看起来最”自然”(概率最大),那么这个参数值就是最可信的估计。这是一种”结果导向”的推断哲学——既然事件已经发生,我们就应该选择使该事件最有可能发生的参数。
例 6.3.1 — 最大似然原理的直观理解
一枚硬币,抛 10 次,出现 7 次正面、3 次反面。设正面概率为 。
似然函数:
取对数:
对 求导:
解得 。
直观理解:观测到 70% 的正面,最大似然原理告诉我们,最合理的估计就是 。这符合我们的直觉——“看到什么就估计什么”。
二、MLE的求解方法
对数似然函数
由于似然函数是 个因子的乘积,直接处理不方便。利用 的严格单调递增性,取对数后最大值点不变:
对数似然函数将乘积化为求和,极大简化了求导和计算。
求导法
一元参数:令 ,解出 。
多元参数 :解似然方程组
需要注意的特殊情况
并非所有MLE都能通过求导得到。以下情况需要特殊处理:
- 支撑集依赖于参数(如均匀分布):似然函数在参数边界处取最大值,需用次序统计量分析
- 多峰似然函数:似然方程可能有多个解,需比较各驻点的似然值
- 参数空间有界:似然方程的解可能不在参数空间内,需在边界上寻找最大值
例 6.3.2 — 泊松分布的MLE(一元参数)
设 ,求 的MLE。
解:
第一步:写出似然函数
第二步:取对数
第三步:求导并令其为零
第四步:求解
第五步:验证二阶条件
二阶导恒为负,确认是最大值点。
因此 ,与矩估计一致。
例 6.3.3 — 正态分布两参数的MLE(多元参数)
设 , 和 均未知。§6.1 已给出基本求解过程,此处从多元参数角度深入分析。
解:
对数似然函数:
似然方程组:
求解:
由第一个方程:
代入第二个方程:
注意: 的 MLE 是 ,分母为 而非 。这是有偏估计,。
三、常见分布的MLE汇总
常见分布的MLE一览表
分布 概率函数 参数 MLE 与矩估计的关系 正态 相同 相同 泊松 相同 均匀 , 不同(矩法为 ) 指数 , 相同 二项 相同 Gamma 需数值求解 不同
Gamma 分布 MLE 的推导
例 6.3.4 — Gamma 分布的MLE
设 来自 Gamma 分布 ,其中 , 为未知参数。求 和 的MLE。
解:
第一步:写出对数似然函数
第二步:建立似然方程组
其中 是 digamma 函数。
第三步:求解
由第二个方程:
代入第一个方程:
这个方程没有解析解,需要通过数值方法(如牛顿迭代法)求解 ,再代入得到 。
与矩估计对比:矩估计有解析解 ,,计算更简便,但效率不如MLE。
例 6.3.5 — 均匀分布 的MLE
设 来自均匀分布 , 均未知。求 和 的MLE。
解:
似然函数:
其中 ,。
要使 最大,需要:
- 指示函数非零: 且
- 分母 尽可能小: 尽可能小
因此取 ,,即
注意:均匀分布的MLE不能用求导法,因为似然函数在支撑集边界处不连续。这是支撑集依赖于参数的典型情形。
四、MLE的性质(渐近理论)
本节是§6.3的核心理论部分,深入讨论MLE的优良统计性质。
不变性原理
定理 6.3.1 — MLE的不变性原理
若 是 的极大似然估计, 是参数 的某个函数( 为单值函数),则 的极大似然估计为
即MLE的函数仍然是MLE。
证明
证明: 第一步:利用最大值的传递性
设 使 达到最大,即 对一切 成立。
第二步:考虑参数变换
令 。若 是一一映射(单值且可逆),则 ,似然函数可以重新参数化为
第三步:最大值点的对应
由于 是单值函数, 使 达到最大:
对一切 成立。
不变性原理的重要意义:求 的 MLE 时,不需要重新求解优化问题,只需将 代入 即可。例如,正态分布 中标准差 的 MLE 为 。
极大似然估计的相合性
定理 6.3.2 — MLE的相合性
在正则条件下,MLE是相合估计量,即
其中 为参数真值。
正则条件包括:
- 参数空间 是紧集(或有内点)
- 似然函数关于参数连续可微
- 真参数 是 的内点
- Fisher 信息量 (正定)
- 似然函数的支撑集不依赖于参数
- 可以在期望和求导之间交换次序
直观理解:随着样本量增大,似然函数在真参数附近越来越”尖锐”,最大值点越来越接近真值。
渐近正态性
定理 6.3.3 — MLE的渐近正态性
在正则条件下,MLE满足
即大样本下
其中 是单个观测值的Fisher信息量。
证明(概要)
证明: 第一步:对数似然函数的Taylor展开
在 处对得分函数(score function)进行二阶 Taylor 展开:
其中 介于 和 之间。
第二步:利用MLE的一阶条件
由于 是MLE,。忽略高阶项:
第三步:大数定律和中心极限定理
由大数定律:
由中心极限定理:
第四步:Slutsky定理
渐近正态性的重要推论:
- MLE的渐近方差达到C-R下界: 正是C-R下界,说明MLE在大样本下是渐近有效的
- 可用于构造近似置信区间:
- 可用于假设检验:似然比检验、Wald检验、Score检验
极大似然与有效估计
定理 6.3.4 — MLE达到渐近有效性的条件
在正则条件下,MLE是渐近有效估计,即
这意味着MLE的渐近方差达到了C-R下界。
有限样本下的有效估计:MLE在有限样本下不一定达到C-R下界。当且仅当似然方程可以表示为估计量的线性函数时,MLE才是有限样本下的有效估计。
例 6.3.6 — 正态总体MLE的渐近有效性
设 , 已知。
的 MLE 为 。
Fisher 信息量:。
C-R 下界:。
。
方差恰好等于 C-R 下界,因此 不仅渐近有效,在有限样本下就是有效估计。
对于 的 MLE :
,C-R 下界为 。
,所以 的方差小于 C-R 下界?不——这是因为 是有偏估计,C-R 不等式只适用于无偏估计。对于有偏估计,需要使用信息不等式的一般形式。
五、MLE与矩估计的比较
MLE与矩估计的系统比较
比较维度 MLE 矩估计 基本思想 使样本出现概率最大 用样本矩代替总体矩 所需信息 需要知道分布形式 只需知道矩的存在性 计算复杂度 一般较高(可能需要数值方法) 通常较低(解方程组) 渐近有效性 渐近达到C-R下界 一般不达到C-R下界 渐近正态性 渐近正态,方差最小 渐近正态,方差较大 不变性 精确的不变性 函数不变性(渐近方差需Delta方法) 小样本性质 可能有偏,但偏差通常较小 可能有偏 唯一性 通常唯一(正则条件下) 可能不唯一 稳健性 对分布假设敏感 相对稳健 适用范围 需要指定分布族 适用范围更广
何时选MLE、何时选矩法
- 选MLE:已知分布形式、追求估计效率、大样本场景、需要利用不变性原理
- 选矩法:分布形式未知或不完全已知、需要快速得到初步估计、作为MLE的迭代初始值
- 实际策略:常用矩估计作为MLE数值求解的初始值,兼顾两者的优势
六、EM算法的思想
缺失数据问题
在许多实际问题中,我们观测到的数据是不完整的:
- 隐变量模型:存在无法直接观测的潜在变量(如混合模型中的成分标签)
- 截断数据:部分观测值被截断或删失
- 不完整数据:部分数据缺失
EM算法(Expectation-Maximization Algorithm)是处理这类含缺失数据(或隐变量)问题的MLE求解框架。
完全数据与观测数据
定义 6.3.3 — 完全数据与观测数据
- 观测数据(Observed Data):,实际观测到的数据
- 完全数据(Complete Data):,包含观测数据和缺失数据
- 缺失数据(Missing Data):,未观测到的数据或隐变量
期望最大化算法的基本步骤
定义 6.3.4 — EM算法
EM算法是一种迭代算法,每次迭代包含两步:
E步(Expectation Step):在当前参数估计 下,计算完全数据对数似然函数关于缺失数据的条件期望
M步(Maximization Step):最大化 函数,更新参数估计
重复E步和M步直到收敛。
期望最大化算法的直观理解
生活类比:假设你在猜一个密码(参数 ),但只看到了部分线索(观测数据 )。EM算法的策略是:
- E步:根据当前的猜测 ,推断缺失的线索应该是什么(“期望”)
- M步:把推断出的完整线索当作真的,重新猜一个更好的密码(“最大化”)
- 不断重复,直到密码不再变化
期望最大化算法的收敛性
定理 6.3.5 — EM算法的收敛性
EM算法具有以下性质:
- 单调性:每次迭代后,观测数据对数似然不会减少
收敛性:在正则条件下, 收敛到观测数据对数似然函数的一个驻点(不一定是全局最大值)
局部最优:EM算法只能保证收敛到局部最大值,不同的初始值可能导致不同的结果
例 6.3.7 — EM算法的基本示例
设观测数据 来自混合分布,以概率 来自 ,以概率 来自 ,其中 已知。参数 。
E步:计算第 个观测来自第 个成分的”责任”(responsibility)
其中 是正态密度函数。
M步:更新参数
七、EM算法的应用
混合正态分布
混合正态分布(Gaussian Mixture Model, GMM)是EM算法最经典的应用场景。
例 6.3.8 — 两成分混合正态的EM算法
设 来自两成分混合正态分布:
参数 。
隐变量:,表示第 个观测来自哪个成分。
E步:
M步:
截断数据
例 6.3.9 — 截断正态分布的MLE
设 来自正态分布 ,但我们只能观测到 的数据(右截断在 处)。求 和 的MLE。
直接MLE的困难:截断后数据的似然函数为
分母中含有 函数,直接求导复杂。
EM算法:引入隐变量 表示被截断掉的原始数据。
E步:计算截断数据的条件期望
其中 是逆Mills比。
M步:将E步的条件期望当作完整数据,用标准正态MLE公式更新参数。
八、知识结构总览
graph TD A[最大似然估计与EM算法] --> B[似然函数与最大似然原理] A --> C[极大似然求解方法] A --> D[常见分布极大似然汇总] A --> E[极大似然渐近理论] A --> F[极大似然与矩估计比较] A --> G[期望最大化算法] B --> B1[似然函数定义] B --> B2[似然与概率的区别] B --> B3[最大似然原理] C --> C1[对数似然函数] C --> C2[求导法] C --> C3[特殊情况处理] D --> D1[正态分布] D --> D2[泊松分布] D --> D3[均匀分布] D --> D4[指数分布] D --> D5[Gamma分布] E --> E1[不变性原理] E --> E2[相合性] E --> E3[渐近正态性] E --> E4[渐近有效性] F --> F1[优劣对比] F --> F2[选择策略] G --> G1[缺失数据问题] G --> G2[期望步与最大化步] G --> G3[收敛性] G --> G4[混合正态分布] G --> G5[截断数据]
九、核心思想与解题技巧
极大似然求解流程图
graph TD S[题目:求参数的MLE] --> A[写出似然函数] A --> B[取对数得对数似然函数] B --> C{支撑集是否依赖参数} C -->|是| D[分析边界情况用次序统计量] C -->|否| E[对参数求偏导] E --> F[令偏导等于零] F --> G{似然方程是否有解} G -->|有解| H[验证二阶条件确认最大值] G -->|无解| I[在参数空间边界寻找最大值] H --> J[得到MLE] D --> J I --> J J --> K{需要求函数的MLE吗} K -->|是| L[利用不变性原理直接代入] K -->|否| M[完成]
期望最大化算法流程图
graph TD S[含缺失数据的估计问题] --> A[初始化参数估计] A --> B[期望步:计算完全数据似然的期望] B --> C[最大化步:最大化期望函数] C --> D{是否收敛} D -->|否| B D -->|是| E[输出最终参数估计]
解题技巧总结
- MLE求解核心:写似然 → 取对数 → 求导 → 解方程 → 验证。五步缺一不可。
- 均匀分布的MLE:一定与次序统计量 或 有关,不能直接求导。
- 不变性原理:求 的MLE,先求 ,再代入 。不需要重新优化。
- MLE的有偏性:MLE通常有偏,但偏差为 ,渐近无偏。可用 等因子修正。
- EM算法的关键:正确识别缺失数据/隐变量,正确写出完全数据似然,正确计算条件期望。
- 渐近分布的应用:MLE的渐近正态性可用于构造置信区间和进行假设检验。
十、补充理解与易混淆点
误区一:似然函数就是概率密度函数
来源:茆诗松《概率论与数理统计》 + NumberAnalytics MLE Guide + Wikipedia Likelihood function条目 + Pickl.ai MLE教程 + Cross Validated Stack Exchange
误区1:"似然函数就是概率密度函数,两者是一回事"
❌ 错误解释:似然函数 和概率密度函数 的数学表达式相同(都是 ),所以它们是同一个东西。 ✅ 正确解释:虽然数学表达式相同,但视角完全不同。概率密度 将 视为变量、 固定,关于 积分为 1;似然函数 将 视为变量、 固定,关于 积分不一定为 1。概率回答”给定参数,数据出现的可能性有多大”;似然回答”给定数据,哪个参数值最合理”。两者是同一数学对象在不同变量视角下的表现。
误区二:MLE总是存在且唯一
来源:茆诗松《概率论与数理统计》 + FasterCapital MLE Consistency Guide + Yibo Yang MLE Ill-defined Problem论文 + bookdown 数理统计讲义 + DataOps School EM算法指南
误区2:"极大似然估计总是存在且唯一"
❌ 错误解释:似然函数总是有最大值,且只有一个最大值点,所以MLE总是存在且唯一。 ✅ 正确解释:MLE面临三个问题:不存在性、不唯一性和不可识别性。不存在性:例如混合正态分布中,某个成分的方差趋于零时,似然函数可以趋于无穷大(“退化解”)。不唯一性:似然函数可能存在多个局部最大值,不同初始值可能收敛到不同的解。不可识别性:不同参数组合可能产生相同的分布(如混合模型中的标签切换问题)。处理建议:使用多个初始值、添加正则化约束、利用先验信息(MAP估计)。
误区三:EM算法一定收敛到全局最优
来源:茆诗松《概率论与数理统计》 + Dirk Hovy EM Tutorial + ResearchGate EM收敛性论文 + DataOps School EM算法指南 + HowIStudyAI EM概念条目
误区3:"EM算法每次都能收敛到全局最大似然估计"
❌ 错误解释:EM算法是求MLE的标准方法,所以一定能找到全局最优解。 ✅ 正确解释:EM算法只保证收敛到似然函数的驻点(局部最大值或鞍点),不保证收敛到全局最大值。EM算法的单调性保证每次迭代观测数据对数似然不减,但最终收敛点依赖于初始值的选择。实际应用中,建议使用多个随机初始值运行EM算法,选择似然值最大的结果。此外,ResearchGate上的研究论文指出,混合模型EM算法的流行收敛证明在某些情况下是有缺陷的,需要更细致的分析。
误区四:MLE的渐近正态性总是成立
来源:茆诗松《概率论与数理统计》 + FasterCapital MLE Consistency Guide + NumberAnalytics MLE Guide + Wikipedia MLE条目 + Cross Validated Stack Exchange
误区4:"MLE总是渐近正态的,可以直接用正态分布做推断"
❌ 错误解释:既然定理说MLE渐近正态,那么任何分布下都可以直接用 做推断。 ✅ 正确解释:MLE的渐近正态性需要正则条件成立。当正则条件被违反时,渐近正态性可能不成立。典型违反情形包括:(1) 支撑集依赖于参数(如均匀分布),MLE的渐近分布不是正态的而是极值分布;(2) 参数空间边界(如 ,当真参数 时);(3) 不可识别模型。在这些情况下,需要使用其他渐近理论(如非正则渐近理论)来分析MLE的性质。
误区五:EM算法只能用于混合模型
来源:茆诗松《概率论与数理统计》 + Dirk Hovy EM Tutorial + DataOps School EM算法指南 + AIUniverse EM条目 + HowIStudyAI EM概念条目
误区5:"EM算法只能用于混合正态分布等聚类问题"
❌ 错误解释:EM算法就是用来做混合模型聚类的方法,其他场景用不到。 ✅ 正确解释:EM算法是一个通用的优化框架,适用于任何含有缺失数据或隐变量的MLE问题。应用场景远不止混合模型,包括:(1) 截断数据和删失数据的参数估计;(2) 隐马尔可夫模型(HMM)的参数学习;(3) 缺失数据填补;(4) 因子分析和潜在语义分析;(5) 图像恢复中的隐变量模型。EM算法的核心思想——“在缺失数据的条件期望下迭代优化”——具有广泛的适用性。
十一、习题精选
习题概览
共10道习题:6道教材习题 + 4道卡方考研真题。
编号 来源 主题 难度 习题1 教材 指数分布截断MLE 中 习题2 教材 MLE不变性原理应用 中 习题3 教材 MLE渐近正态性应用 中高 习题4 教材 EM算法基本计算 中高 习题5 教材 混合分布MLE与EM 高 习题6 教材 MLE相合性证明 高 习题7 2018年复旦大学861 指数分布MLE与均方误差 ★★★ 习题8 2018年北京师范大学432 正态分布MLE与置信区间 ★★★ 习题9 2019年中央财经大学806 MLE构造枢轴量与置信区间 ★★★★ 习题10 2012年中国科学技术大学432 两正态总体MLE与置信区间 ★★★★
教材习题
习题1
设 来自指数分布 ,但只能观测到 的数据( 为已知常数)。求 的MLE。
查看解答
解:
截断后的似然函数:
对数似然:
求导:
解得
注意:这里 (因为所有观测值都大于 ),所以估计量有意义。
习题2
设 , 和 均未知。利用不变性原理,求变异系数 ()的MLE。
查看解答
解:
由§6.1,,。
由不变性原理,。
因此变异系数的MLE为
习题3
设 ,利用MLE的渐近正态性,构造 的近似 95% 置信区间。
查看解答
解:
泊松分布的MLE 。
Fisher信息量:(单个观测值)。
渐近分布:。
用 代替渐近方差中的 ,得到近似 95% 置信区间:
习题4
设 来自两成分混合正态分布
其中 和 未知,混合比例已知为 ,方差已知为 。写出EM算法的E步和M步更新公式。
查看解答
解:
E步:
M步:
习题5
设 来自总体 ,,。
(1) 求 的MLE。
(2) 利用不变性原理求 的MLE,并判断其是否为有效估计。
查看解答
解:
(1) 似然函数
(2) 由不变性原理,。
令 ,则 ,。
,无偏。
。
得分函数关于 的线性性表明 达到C-R下界,是有效估计。
习题6
设 来自均匀分布 ,。
(1) 证明MLE 是 的相合估计。
(2) 求 的渐近分布。
查看解答
解:
(1) 的分布函数 ,。
对任意 ,
()
因此 ,是相合估计。
(2) 令 ,则
因此 。
注意:均匀分布MLE的渐近分布不是正态分布,而是指数分布。这是因为均匀分布违反了正则条件(支撑集依赖于参数)。
卡方考研真题
习题7(2018年复旦大学861)
设总体的PDF为 ,,其中 已知。
(1) 求 的矩估计及其均方误差。
(2) 求 的MLE及其均方误差。
(3) 判断上述两个估计是否相合。
查看解答
解:
(1) ,矩估计 。
。
(2) 似然函数
当 时, 越大似然越大,故 。
,故 ,。
。
(3) 两个估计均相合:,。
比较:(),MLE的均方误差更小。
习题8(2018年北京师范大学432)
设随机变量 , 是来自总体的样本。
(1) 当 时,求 的极大似然估计。
(2) 当 时,求 的 的置信区间。
查看解答
解:
(1) 已知时,对数似然函数:
解得 。
(2) 已知时,,。
的 置信区间:
习题9(2019年中央财经大学806)
设总体 的密度函数为
其中 为未知参数。已知来自该总体的简单随机样本 ,试利用 的极大似然估计构造枢轴量,求出 的置信度为 的置信区间。
查看解答
解:
第一步:求MLE
似然函数
当 时, 越大似然越大,故 。
第二步:构造枢轴量
令 ,则 。
。
枢轴量 。
第三步:构造置信区间
解得 的 置信区间为
习题10(2012年中国科学技术大学432)
假设 和 分别是抽自正态总体 和 的两组独立的简单样本,其中 为一已知的正数,、 和 均为未知的参数。
(1) 求出 、 和 的极大似然估计。
(2) 根据(1)构造 的一个置信水平为 的置信区间。
查看解答
解:
(1) 联合似然函数:
取对数后分别对 、、 求偏导并令其为零:
(2) 的方差为 。
用 代替 ,构造 分布枢轴量,自由度为 :
其中 。
十二、教材原文
第六章 参数估计/最大似然估计