6.3 最大似然估计与EM算法

本节概览

本节在§6.1已介绍的MLE基本定义基础上，深入探讨最大似然估计的理论性质与高级应用。核心内容包括：

似然函数的深入理解与最大似然原理（似然 vs 概率）

MLE的求解方法与常见分布汇总（对数似然、分布汇总）

MLE的渐近理论：不变性原理、相合性、渐近正态性、有效估计（渐近理论）

MLE与矩估计的系统比较（比较分析）

EM算法的思想与应用（E步M步、混合模型）

逻辑链条：似然原理 → 求解方法 → 分布汇总 → 渐近理论 → 方法比较 → EM思想 → EM应用

前置依赖：§6.1（MLE基本定义、Fisher信息量、C-R下界）、§6.2（矩估计方法、相合性理论）、§5.5（充分统计量）

核心主线：MLE是频率学派最重要的估计方法，其核心优势在于渐近有效性——在大样本下达到C-R下界。EM算法将复杂的MLE问题分解为E步（期望）和M步（最大化），是处理含缺失数据模型的通用工具。

相关笔记：6.1 点估计的概念与无偏性、6.2 矩估计及相合性、5.5 充分统计量、5.4 三大抽样分布、4.3 大数定律、4.4 中心极限定理

一、似然函数与最大似然原理

似然函数的定义

§6.1 已给出了似然函数的基本定义。本节从更深层次理解似然函数的本质。

定义 6.3.1 — 似然函数（深入）

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $f (x; θ)$ 的样本。

离散总体：设 $P_{θ} (X = x) = p (x; θ)$ ，则似然函数为

$L (θ) = i = 1 \prod n p (x_{i}; θ)$

连续总体：设概率密度为 $f (x; θ)$ ，则似然函数为

$L (θ) = i = 1 \prod n f (x_{i}; θ)$
似然函数 $L (θ)$ 是在样本观测值已给定的条件下，关于参数 $θ$ 的函数，它衡量了在参数取值为 $θ$ 时，观测到当前样本的”可能性”。

似然与概率的本质区别

似然与概率是两个不同的概念，虽然它们的数学表达式相同，但视角完全不同：

维度	概率 $P (X ∣ θ)$	似然 $L (θ ∣ X)$
视角	参数 $θ$ 固定， $X$ 变化	样本 $X$ 固定， $θ$ 变化
变量	随机变量 $X$	未知参数 $θ$
含义	在参数确定下，数据出现的可能性	在数据确定下，参数取值的合理性
性质	关于 $X$ 求和（或积分）为 1	关于 $θ$ 求和（或积分）不一定为 1
用途	预测、推断	参数估计

直观类比：想象一把锁（参数 $θ$ ）和一把钥匙（数据 $X$ ）。概率问的是”已知这把锁，随机选一把钥匙能打开的概率是多少”；似然问的是”已知这把钥匙能打开锁，哪把锁最可能是原配的”。

最大似然原理

定义 6.3.2 — 最大似然原理

最大似然原理（Maximum Likelihood Principle）的核心思想是：

在所有可能的参数值中，选择使当前观测样本出现概率（似然）最大的那个参数值作为估计。

即寻找 $\hat{θ}$ 使得
$L (\hat{θ}) = θ \in Θ max L (θ)$

最大似然原理的哲学基础：如果某个参数值使得已经发生的事件看起来最”自然”（概率最大），那么这个参数值就是最可信的估计。这是一种”结果导向”的推断哲学——既然事件已经发生，我们就应该选择使该事件最有可能发生的参数。

例 6.3.1 — 最大似然原理的直观理解

一枚硬币，抛 10 次，出现 7 次正面、3 次反面。设正面概率为 $p$ 。

似然函数：
$L (p) = (7 10) p^{7} (1 - p)^{3}$
取对数： $ln L (p) = ln (7 10) + 7 ln p + 3 ln (1 - p)$

对 $p$ 求导： $\frac{d l n L}{d p} = \frac{7}{p} - \frac{3}{1 - p} = 0$

解得 $\overset{p}{^} = 0.7$ 。

直观理解：观测到 70% 的正面，最大似然原理告诉我们，最合理的估计就是 $p = 0.7$ 。这符合我们的直觉——“看到什么就估计什么”。

二、MLE的求解方法

对数似然函数

由于似然函数是 $n$ 个因子的乘积，直接处理不方便。利用 $ln$ 的严格单调递增性，取对数后最大值点不变：

ln L (θ) = i = 1 \sum n ln f (x_{i}; θ)

对数似然函数将乘积化为求和，极大简化了求导和计算。

求导法

一元参数：令 $\frac{d}{d θ} ln L (θ) = 0$ ，解出 $\hat{θ}$ 。

多元参数 $θ = (θ_{1}, \dots, θ_{k})$ ：解似然方程组

\frac{\partial}{\partial θ _{j}} ln L (θ_{1}, \dots, θ_{k}) = 0, j = 1, 2, \dots, k

需要注意的特殊情况

并非所有MLE都能通过求导得到。以下情况需要特殊处理：

支撑集依赖于参数（如均匀分布）：似然函数在参数边界处取最大值，需用次序统计量分析
多峰似然函数：似然方程可能有多个解，需比较各驻点的似然值
参数空间有界：似然方程的解可能不在参数空间内，需在边界上寻找最大值

例 6.3.2 — 泊松分布的MLE（一元参数）

设 $X_{1}, X_{2}, \dots, X_{n} \sim P (λ)$ ，求 $λ$ 的MLE。

解：

第一步：写出似然函数
$L (λ) = i = 1 \prod n \frac{λ ^{x_{i}} e ^{- λ}}{x _{i} !} = \frac{λ ^{\sum x_{i}} e ^{- nλ}}{\prod x _{i} !}$
第二步：取对数
$ln L (λ) = (i = 1 \sum n x_{i}) ln λ - nλ - i = 1 \sum n ln (x_{i}!)$
第三步：求导并令其为零
$\frac{d ln L}{d λ} = \frac{\sum x _{i}}{λ} - n = 0$
第四步：求解
$\hat{λ}_{M L E} = \frac{1}{n} i = 1 \sum n x_{i} = \overset{x}{ˉ}$
第五步：验证二阶条件
$\frac{d ^{2} ln L}{d λ ^{2}} = - \frac{\sum x _{i}}{λ ^{2}} < 0$
二阶导恒为负，确认是最大值点。

因此 $\hat{λ}_{M L E} = \overset{ˉ}{X}$ ，与矩估计一致。

例 6.3.3 — 正态分布两参数的MLE（多元参数）

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $μ$ 和 $σ^{2}$ 均未知。§6.1 已给出基本求解过程，此处从多元参数角度深入分析。

解：

对数似然函数：
$ln L (μ, σ^{2}) = - \frac{n}{2} ln (2 π) - \frac{n}{2} ln σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}$
似然方程组：
$\frac{\partial ln L}{\partial μ} = \frac{1}{σ ^{2}} i = 1 \sum n (x_{i} - μ) = 0$ $\frac{\partial ln L}{\partial σ ^{2}} = - \frac{n}{2 σ ^{2}} + \frac{1}{2 σ ^{4}} i = 1 \sum n (x_{i} - μ)^{2} = 0$
求解：

由第一个方程： $\overset{μ}{^} = \overset{x}{ˉ}$

代入第二个方程： $\overset{σ}{^}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2}$

注意： $σ^{2}$ 的 MLE 是 $\frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ ，分母为 $n$ 而非 $n - 1$ 。这是有偏估计， $E (\overset{σ}{^}^{2}) = \frac{n - 1}{n} σ^{2}$ 。

三、常见分布的MLE汇总

常见分布的MLE一览表

分布概率函数参数 MLE 与矩估计的关系
正态 $N (μ, σ^{2})$ $f (x) = \frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$ $μ$ $\overset{μ}{^} = \overset{ˉ}{X}$ 相同
$σ^{2}$ $\overset{σ}{^}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 相同
泊松 $P (λ)$ $P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !}$ $λ$ $\hat{λ} = \overset{ˉ}{X}$ 相同
均匀 $U (0, θ)$ $f (x) = \frac{1}{θ}$ ， $0 < x < θ$ $θ$ $\hat{θ} = X_{(n)}$ 不同（矩法为 $2 \overset{ˉ}{X}$ ）
指数 $Exp (λ)$ $f (x) = λ e^{- λ x}$ ， $x \geq 0$ $λ$ $\hat{λ} = \frac{1}{X ˉ}$ 相同
二项 $B (n, p)$ $P (X = k) = C_{n}^{k} p^{k} (1 - p)^{n - k}$ $p$ $\overset{p}{^} = \frac{X ˉ}{n}$ 相同
Gamma $Ga (α, β)$ $f (x) = \frac{β ^{α}}{Γ ( α )} x^{α - 1} e^{- β x}$ $α, β$ 需数值求解不同

分布	概率函数	参数	MLE	与矩估计的关系
正态 $N (μ, σ^{2})$	$f (x) = \frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$	$μ$	$\overset{μ}{^} = \overset{ˉ}{X}$	相同
		$σ^{2}$	$\overset{σ}{^}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$	相同
泊松 $P (λ)$	$P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !}$	$λ$	$\hat{λ} = \overset{ˉ}{X}$	相同
均匀 $U (0, θ)$	$f (x) = \frac{1}{θ}$ ， $0 < x < θ$	$θ$	$\hat{θ} = X_{(n)}$	不同（矩法为 $2 \overset{ˉ}{X}$ ）
指数 $Exp (λ)$	$f (x) = λ e^{- λ x}$ ， $x \geq 0$	$λ$	$\hat{λ} = \frac{1}{X ˉ}$	相同
二项 $B (n, p)$	$P (X = k) = C_{n}^{k} p^{k} (1 - p)^{n - k}$	$p$	$\overset{p}{^} = \frac{X ˉ}{n}$	相同
Gamma $Ga (α, β)$	$f (x) = \frac{β ^{α}}{Γ ( α )} x^{α - 1} e^{- β x}$	$α, β$	需数值求解	不同

Gamma 分布 MLE 的推导

例 6.3.4 — Gamma 分布的MLE

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自 Gamma 分布 $Ga (α, β)$ ，其中 $α > 0$ ， $β > 0$ 为未知参数。求 $α$ 和 $β$ 的MLE。

解：

第一步：写出对数似然函数
$ln L (α, β) = n α ln β - n ln Γ (α) + (α - 1) i = 1 \sum n ln x_{i} - β i = 1 \sum n x_{i}$
第二步：建立似然方程组
$\frac{\partial ln L}{\partial α} = n ln β - n ψ (α) + i = 1 \sum n ln x_{i} = 0$ $\frac{\partial ln L}{\partial β} = \frac{n α}{β} - i = 1 \sum n x_{i} = 0$
其中 $ψ (α) = \frac{d}{d α} ln Γ (α)$ 是 digamma 函数。

第三步：求解

由第二个方程： $\hat{β} = \frac{α ^}{X ˉ}$

代入第一个方程：
$n ln \frac{α ^}{X ˉ} - n ψ (\overset{α}{^}) + i = 1 \sum n ln x_{i} = 0$ $ln \overset{α}{^} - ψ (\overset{α}{^}) = ln \overset{ˉ}{X} - \frac{1}{n} i = 1 \sum n ln x_{i}$
这个方程没有解析解，需要通过数值方法（如牛顿迭代法）求解 $\overset{α}{^}$ ，再代入得到 $\hat{β}$ 。

与矩估计对比：矩估计有解析解 $\overset{α}{^}_{M o M} = \overset{ˉ}{X}^{2} / S_{n}^{2}$ ， $\hat{β}_{M o M} = \overset{ˉ}{X} / S_{n}^{2}$ ，计算更简便，但效率不如MLE。

例 6.3.5 — 均匀分布 $U (a, b)$ 的MLE

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自均匀分布 $U (a, b)$ ， $a < b$ 均未知。求 $a$ 和 $b$ 的MLE。

解：

似然函数：
$L (a, b) = \frac{1}{( b - a ) ^{n}} \cdot I_{{a \leq x_{(1)}, x_{(n)} \leq b}}$
其中 $x_{(1)} = min {x_{1}, \dots, x_{n}}$ ， $x_{(n)} = max {x_{1}, \dots, x_{n}}$ 。

要使 $L (a, b)$ 最大，需要：

指示函数非零： $a \leq x_{(1)}$ 且 $b \geq x_{(n)}$

分母 $(b - a)^{n}$ 尽可能小： $b - a$ 尽可能小

因此取 $a = x_{(1)}$ ， $b = x_{(n)}$ ，即
$\overset{a}{^}_{M L E} = X_{(1)}, \hat{b}_{M L E} = X_{(n)}$
注意：均匀分布的MLE不能用求导法，因为似然函数在支撑集边界处不连续。这是支撑集依赖于参数的典型情形。

四、MLE的性质（渐近理论）

本节是§6.3的核心理论部分，深入讨论MLE的优良统计性质。

不变性原理

定理 6.3.1 — MLE的不变性原理

若 $\hat{θ}$ 是 $θ$ 的极大似然估计， $g (θ)$ 是参数 $θ$ 的某个函数（ $g$ 为单值函数），则 $g (θ)$ 的极大似然估计为
$g (θ) = g (\hat{θ})$
即MLE的函数仍然是MLE。

证明

证明： 第一步：利用最大值的传递性

设 $\hat{θ}$ 使 $L (θ)$ 达到最大，即 $L (\hat{θ}) \geq L (θ)$ 对一切 $θ \in Θ$ 成立。

第二步：考虑参数变换

令 $η = g (θ)$ 。若 $g$ 是一一映射（单值且可逆），则 $θ = g^{- 1} (η)$ ，似然函数可以重新参数化为
$L^{*} (η) = L (g^{- 1} (η))$
第三步：最大值点的对应

由于 $g$ 是单值函数， $\overset{η}{^} = g (\hat{θ})$ 使 $L^{*} (η)$ 达到最大：
$L^{*} (\overset{η}{^}) = L (g^{- 1} (g (\hat{θ}))) = L (\hat{θ}) \geq L (θ) = L^{*} (η)$
对一切 $η = g (θ)$ 成立。

$□$

不变性原理的重要意义：求 $g (θ)$ 的 MLE 时，不需要重新求解优化问题，只需将 $\hat{θ}_{M L E}$ 代入 $g$ 即可。例如，正态分布 $N (μ, σ^{2})$ 中标准差 $σ$ 的 MLE 为 $\overset{σ}{^} = \overset{σ}{^}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 。

极大似然估计的相合性

定理 6.3.2 — MLE的相合性

在正则条件下，MLE是相合估计量，即
$\hat{θ}_{M L E} P θ_{0} (n \to \infty)$
其中 $θ_{0}$ 为参数真值。

正则条件包括：

参数空间 $Θ$ 是紧集（或有内点）

似然函数关于参数连续可微

真参数 $θ_{0}$ 是 $Θ$ 的内点

Fisher 信息量 $I (θ_{0}) > 0$ （正定）

似然函数的支撑集不依赖于参数

可以在期望和求导之间交换次序

直观理解：随着样本量增大，似然函数在真参数附近越来越”尖锐”，最大值点越来越接近真值。

渐近正态性

定理 6.3.3 — MLE的渐近正态性

在正则条件下，MLE满足
$n (\hat{θ}_{M L E} - θ_{0}) d N (0, \frac{1}{I ( θ _{0} )})$
即大样本下
$\hat{θ}_{M L E} \tilde{˙} N (θ_{0}, \frac{1}{n I ( θ _{0} )})$
其中 $I (θ_{0})$ 是单个观测值的Fisher信息量。

证明（概要）

证明： 第一步：对数似然函数的Taylor展开

在 $θ_{0}$ 处对得分函数（score function）进行二阶 Taylor 展开：
$S (\hat{θ}) = S (θ_{0}) + S^{'} (θ_{0}) (\hat{θ} - θ_{0}) + \frac{1}{2} S^{''} (θ^{*}) (\hat{θ} - θ_{0})^{2}$
其中 $θ^{*}$ 介于 $θ_{0}$ 和 $\hat{θ}$ 之间。

第二步：利用MLE的一阶条件

由于 $\hat{θ}$ 是MLE， $S (\hat{θ}) = 0$ 。忽略高阶项：
$0 \approx S (θ_{0}) + S^{'} (θ_{0}) (\hat{θ} - θ_{0})$
第三步：大数定律和中心极限定理

由大数定律： $\frac{1}{n} S^{'} (θ_{0}) P - I (θ_{0})$

由中心极限定理： $\frac{1}{n} S (θ_{0}) d N (0, I (θ_{0}))$

第四步：Slutsky定理
$n (\hat{θ} - θ_{0}) \approx [- \frac{1}{n} S^{'} (θ_{0})]^{- 1} \cdot \frac{1}{n} S (θ_{0}) d N (0, \frac{1}{I ( θ _{0} )})$
$□$

渐近正态性的重要推论：

MLE的渐近方差达到C-R下界： $\frac{1}{n I ( θ _{0} )}$ 正是C-R下界，说明MLE在大样本下是渐近有效的
可用于构造近似置信区间： $\hat{θ} \pm z_{α /2} / n I (\hat{θ})$
可用于假设检验：似然比检验、Wald检验、Score检验

极大似然与有效估计

定理 6.3.4 — MLE达到渐近有效性的条件

在正则条件下，MLE是渐近有效估计，即
$n \to \infty lim n \cdot Var (\hat{θ}_{M L E}) = \frac{1}{I ( θ _{0} )}$
这意味着MLE的渐近方差达到了C-R下界。

有限样本下的有效估计：MLE在有限样本下不一定达到C-R下界。当且仅当似然方程可以表示为估计量的线性函数时，MLE才是有限样本下的有效估计。

例 6.3.6 — 正态总体MLE的渐近有效性

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $σ^{2}$ 已知。

$μ$ 的 MLE 为 $\overset{μ}{^} = \overset{ˉ}{X}$ 。

Fisher 信息量： $I (μ) = \frac{1}{σ ^{2}}$ 。

C-R 下界： $\frac{1}{n I ( μ )} = \frac{σ ^{2}}{n}$ 。

$Var (\overset{ˉ}{X}) = \frac{σ ^{2}}{n} = \frac{1}{n I ( μ )}$ 。

方差恰好等于 C-R 下界，因此 $\overset{ˉ}{X}$ 不仅渐近有效，在有限样本下就是有效估计。

对于 $σ^{2}$ 的 MLE $\overset{σ}{^}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ ：

$Var (\overset{σ}{^}^{2}) = \frac{2 ( n - 1 ) σ ^{4}}{n ^{2}}$ ，C-R 下界为 $\frac{2 σ ^{4}}{n}$ 。

$\frac{2 ( n - 1 )}{n ^{2}} < \frac{2}{n}$ ，所以 $\overset{σ}{^}^{2}$ 的方差小于 C-R 下界？不——这是因为 $\overset{σ}{^}^{2}$ 是有偏估计，C-R 不等式只适用于无偏估计。对于有偏估计，需要使用信息不等式的一般形式。

五、MLE与矩估计的比较

MLE与矩估计的系统比较

比较维度 MLE 矩估计
基本思想 使样本出现概率最大用样本矩代替总体矩
所需信息 需要知道分布形式只需知道矩的存在性
计算复杂度 一般较高（可能需要数值方法）通常较低（解方程组）
渐近有效性 渐近达到C-R下界一般不达到C-R下界
渐近正态性 渐近正态，方差最小渐近正态，方差较大
不变性 精确的不变性函数不变性（渐近方差需Delta方法）
小样本性质 可能有偏，但偏差通常较小可能有偏
唯一性 通常唯一（正则条件下）可能不唯一
稳健性 对分布假设敏感相对稳健
适用范围 需要指定分布族适用范围更广

比较维度	MLE	矩估计
基本思想	使样本出现概率最大	用样本矩代替总体矩
所需信息	需要知道分布形式	只需知道矩的存在性
计算复杂度	一般较高（可能需要数值方法）	通常较低（解方程组）
渐近有效性	渐近达到C-R下界	一般不达到C-R下界
渐近正态性	渐近正态，方差最小	渐近正态，方差较大
不变性	精确的不变性	函数不变性（渐近方差需Delta方法）
小样本性质	可能有偏，但偏差通常较小	可能有偏
唯一性	通常唯一（正则条件下）	可能不唯一
稳健性	对分布假设敏感	相对稳健
适用范围	需要指定分布族	适用范围更广

何时选MLE、何时选矩法

选MLE：已知分布形式、追求估计效率、大样本场景、需要利用不变性原理
选矩法：分布形式未知或不完全已知、需要快速得到初步估计、作为MLE的迭代初始值
实际策略：常用矩估计作为MLE数值求解的初始值，兼顾两者的优势

六、EM算法的思想

缺失数据问题

在许多实际问题中，我们观测到的数据是不完整的：

隐变量模型：存在无法直接观测的潜在变量（如混合模型中的成分标签）
截断数据：部分观测值被截断或删失
不完整数据：部分数据缺失

EM算法（Expectation-Maximization Algorithm）是处理这类含缺失数据（或隐变量）问题的MLE求解框架。

完全数据与观测数据

定义 6.3.3 — 完全数据与观测数据

观测数据（Observed Data）： $X_{o b s}$ ，实际观测到的数据

完全数据（Complete Data）： $Z = (X_{o b s}, X_{mi s})$ ，包含观测数据和缺失数据

缺失数据（Missing Data）： $X_{mi s}$ ，未观测到的数据或隐变量

期望最大化算法的基本步骤

定义 6.3.4 — EM算法

EM算法是一种迭代算法，每次迭代包含两步：

E步（Expectation Step）：在当前参数估计 $θ^{(t)}$ 下，计算完全数据对数似然函数关于缺失数据的条件期望
$Q (θ ∣ θ^{(t)}) = E_{X_{mi s} ∣ X_{o b s}, θ^{(t)}} [ln L_{c} (θ; X_{o b s}, X_{mi s})]$
M步（Maximization Step）：最大化 $Q$ 函数，更新参数估计
$θ^{(t + 1)} = ar g θ max Q (θ ∣ θ^{(t)})$
重复E步和M步直到收敛。

期望最大化算法的直观理解

生活类比：假设你在猜一个密码（参数 $θ$ ），但只看到了部分线索（观测数据 $X_{o b s}$ ）。EM算法的策略是：

E步：根据当前的猜测 $θ^{(t)}$ ，推断缺失的线索应该是什么（“期望”）
M步：把推断出的完整线索当作真的，重新猜一个更好的密码（“最大化”）
不断重复，直到密码不再变化

期望最大化算法的收敛性

定理 6.3.5 — EM算法的收敛性

EM算法具有以下性质：

单调性：每次迭代后，观测数据对数似然不会减少

$ln L (θ^{(t + 1)}) \geq ln L (θ^{(t)})$

收敛性：在正则条件下， ${θ^{(t)}}$ 收敛到观测数据对数似然函数的一个驻点（不一定是全局最大值）

局部最优：EM算法只能保证收敛到局部最大值，不同的初始值可能导致不同的结果

例 6.3.7 — EM算法的基本示例

设观测数据 $x_{1}, x_{2}, \dots, x_{n}$ 来自混合分布，以概率 $π$ 来自 $N (μ_{1}, σ^{2})$ ，以概率 $1 - π$ 来自 $N (μ_{2}, σ^{2})$ ，其中 $σ^{2}$ 已知。参数 $θ = (π, μ_{1}, μ_{2})$ 。

E步：计算第 $i$ 个观测来自第 $k$ 个成分的”责任”（responsibility）
$γ_{ik}^{(t)} = \frac{π _{k}^{(t)} \cdot ϕ ( x _{i} ; μ _{k}^{(t)} , σ ^{2} )}{\sum _{j = 1}^{2} π _{j}^{(t)} \cdot ϕ ( x _{i} ; μ _{j}^{(t)} , σ ^{2} )}$
其中 $ϕ (x; μ, σ^{2})$ 是正态密度函数。

M步：更新参数
$π_{k}^{(t + 1)} = \frac{1}{n} i = 1 \sum n γ_{ik}^{(t)}$ $μ_{k}^{(t + 1)} = \frac{\sum _{i = 1}^{n} γ _{ik}^{(t)} x _{i}}{\sum _{i = 1}^{n} γ _{ik}^{(t)}}$

七、EM算法的应用

混合正态分布

混合正态分布（Gaussian Mixture Model, GMM）是EM算法最经典的应用场景。

例 6.3.8 — 两成分混合正态的EM算法

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自两成分混合正态分布：
$f (x) = π \cdot ϕ (x; μ_{1}, σ_{1}^{2}) + (1 - π) \cdot ϕ (x; μ_{2}, σ_{2}^{2})$
参数 $θ = (π, μ_{1}, μ_{2}, σ_{1}^{2}, σ_{2}^{2})$ 。

隐变量： $Z_{i} \in {1, 2}$ ，表示第 $i$ 个观测来自哪个成分。

E步：
$γ_{i 1}^{(t)} = \frac{π ^{(t)} ϕ ( x _{i} ; μ _{1}^{(t)} , σ _{1}^{2 (t)} )}{π ^{(t)} ϕ ( x _{i} ; μ _{1}^{(t)} , σ _{1}^{2 (t)} ) + ( 1 - π ^{(t)} ) ϕ ( x _{i} ; μ _{2}^{(t)} , σ _{2}^{2 (t)} )}$ $γ_{i 2}^{(t)} = 1 - γ_{i 1}^{(t)}$
M步：
$n_{1}^{(t)} = i = 1 \sum n γ_{i 1}^{(t)}, n_{2}^{(t)} = n - n_{1}^{(t)}$ $π^{(t + 1)} = \frac{n _{1}^{(t)}}{n}$ $μ_{1}^{(t + 1)} = \frac{1}{n _{1}^{(t)}} i = 1 \sum n γ_{i 1}^{(t)} x_{i}, μ_{2}^{(t + 1)} = \frac{1}{n _{2}^{(t)}} i = 1 \sum n γ_{i 2}^{(t)} x_{i}$ $σ_{1}^{2 (t + 1)} = \frac{1}{n _{1}^{(t)}} i = 1 \sum n γ_{i 1}^{(t)} (x_{i} - μ_{1}^{(t + 1)})^{2}$ $σ_{2}^{2 (t + 1)} = \frac{1}{n _{2}^{(t)}} i = 1 \sum n γ_{i 2}^{(t)} (x_{i} - μ_{2}^{(t + 1)})^{2}$

截断数据

例 6.3.9 — 截断正态分布的MLE

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自正态分布 $N (μ, σ^{2})$ ，但我们只能观测到 $X_{i} > c$ 的数据（右截断在 $c$ 处）。求 $μ$ 和 $σ^{2}$ 的MLE。

直接MLE的困难：截断后数据的似然函数为
$L (μ, σ^{2}) = i = 1 \prod n \frac{f ( x _{i} ; μ , σ ^{2} )}{1 - Φ ( \frac{c - μ}{σ} )}$
分母中含有 $Φ$ 函数，直接求导复杂。

EM算法：引入隐变量 $Z_{i}$ 表示被截断掉的原始数据。

E步：计算截断数据的条件期望
$E [X_{i} ∣ X_{i} > c] = μ + σ \cdot λ (\frac{c - μ}{σ})$
其中 $λ (t) = \frac{ϕ ( t )}{1 - Φ ( t )}$ 是逆Mills比。
$E [X_{i}^{2} ∣ X_{i} > c] = μ^{2} + σ^{2} + σ (c + μ) λ (\frac{c - μ}{σ})$
M步：将E步的条件期望当作完整数据，用标准正态MLE公式更新参数。

八、知识结构总览

graph TD
    A[最大似然估计与EM算法] --> B[似然函数与最大似然原理]
    A --> C[极大似然求解方法]
    A --> D[常见分布极大似然汇总]
    A --> E[极大似然渐近理论]
    A --> F[极大似然与矩估计比较]
    A --> G[期望最大化算法]

    B --> B1[似然函数定义]
    B --> B2[似然与概率的区别]
    B --> B3[最大似然原理]

    C --> C1[对数似然函数]
    C --> C2[求导法]
    C --> C3[特殊情况处理]

    D --> D1[正态分布]
    D --> D2[泊松分布]
    D --> D3[均匀分布]
    D --> D4[指数分布]
    D --> D5[Gamma分布]

    E --> E1[不变性原理]
    E --> E2[相合性]
    E --> E3[渐近正态性]
    E --> E4[渐近有效性]

    F --> F1[优劣对比]
    F --> F2[选择策略]

    G --> G1[缺失数据问题]
    G --> G2[期望步与最大化步]
    G --> G3[收敛性]
    G --> G4[混合正态分布]
    G --> G5[截断数据]

九、核心思想与解题技巧

极大似然求解流程图

graph TD
    S[题目：求参数的MLE] --> A[写出似然函数]
    A --> B[取对数得对数似然函数]
    B --> C{支撑集是否依赖参数}
    C -->|是| D[分析边界情况用次序统计量]
    C -->|否| E[对参数求偏导]
    E --> F[令偏导等于零]
    F --> G{似然方程是否有解}
    G -->|有解| H[验证二阶条件确认最大值]
    G -->|无解| I[在参数空间边界寻找最大值]
    H --> J[得到MLE]
    D --> J
    I --> J
    J --> K{需要求函数的MLE吗}
    K -->|是| L[利用不变性原理直接代入]
    K -->|否| M[完成]

期望最大化算法流程图

graph TD
    S[含缺失数据的估计问题] --> A[初始化参数估计]
    A --> B[期望步：计算完全数据似然的期望]
    B --> C[最大化步：最大化期望函数]
    C --> D{是否收敛}
    D -->|否| B
    D -->|是| E[输出最终参数估计]

解题技巧总结

MLE求解核心：写似然 → 取对数 → 求导 → 解方程 → 验证。五步缺一不可。
均匀分布的MLE：一定与次序统计量 $X_{(1)}$ 或 $X_{(n)}$ 有关，不能直接求导。
不变性原理：求 $g (θ)$ 的MLE，先求 $\hat{θ}_{M L E}$ ，再代入 $g$ 。不需要重新优化。
MLE的有偏性：MLE通常有偏，但偏差为 $O (1/ n)$ ，渐近无偏。可用 $\frac{n}{n - 1}$ 等因子修正。
EM算法的关键：正确识别缺失数据/隐变量，正确写出完全数据似然，正确计算条件期望。
渐近分布的应用：MLE的渐近正态性可用于构造置信区间和进行假设检验。

十、补充理解与易混淆点

误区一：似然函数就是概率密度函数

来源：茆诗松《概率论与数理统计》 + NumberAnalytics MLE Guide + Wikipedia Likelihood function条目 + Pickl.ai MLE教程 + Cross Validated Stack Exchange

误区1："似然函数就是概率密度函数，两者是一回事"

❌ 错误解释：似然函数 $L (θ)$ 和概率密度函数 $f (x; θ)$ 的数学表达式相同（都是 $\prod f (x_{i}; θ)$ ），所以它们是同一个东西。 ✅ 正确解释：虽然数学表达式相同，但视角完全不同。概率密度 $f (x; θ)$ 将 $x$ 视为变量、 $θ$ 固定，关于 $x$ 积分为 1；似然函数 $L (θ)$ 将 $θ$ 视为变量、 $x$ 固定，关于 $θ$ 积分不一定为 1。概率回答”给定参数，数据出现的可能性有多大”；似然回答”给定数据，哪个参数值最合理”。两者是同一数学对象在不同变量视角下的表现。

误区二：MLE总是存在且唯一

来源：茆诗松《概率论与数理统计》 + FasterCapital MLE Consistency Guide + Yibo Yang MLE Ill-defined Problem论文 + bookdown 数理统计讲义 + DataOps School EM算法指南

误区2："极大似然估计总是存在且唯一"

❌ 错误解释：似然函数总是有最大值，且只有一个最大值点，所以MLE总是存在且唯一。 ✅ 正确解释：MLE面临三个问题：不存在性、不唯一性和不可识别性。不存在性：例如混合正态分布中，某个成分的方差趋于零时，似然函数可以趋于无穷大（“退化解”）。不唯一性：似然函数可能存在多个局部最大值，不同初始值可能收敛到不同的解。不可识别性：不同参数组合可能产生相同的分布（如混合模型中的标签切换问题）。处理建议：使用多个初始值、添加正则化约束、利用先验信息（MAP估计）。

误区三：EM算法一定收敛到全局最优

来源：茆诗松《概率论与数理统计》 + Dirk Hovy EM Tutorial + ResearchGate EM收敛性论文 + DataOps School EM算法指南 + HowIStudyAI EM概念条目

误区3："EM算法每次都能收敛到全局最大似然估计"

❌ 错误解释：EM算法是求MLE的标准方法，所以一定能找到全局最优解。 ✅ 正确解释：EM算法只保证收敛到似然函数的驻点（局部最大值或鞍点），不保证收敛到全局最大值。EM算法的单调性保证每次迭代观测数据对数似然不减，但最终收敛点依赖于初始值的选择。实际应用中，建议使用多个随机初始值运行EM算法，选择似然值最大的结果。此外，ResearchGate上的研究论文指出，混合模型EM算法的流行收敛证明在某些情况下是有缺陷的，需要更细致的分析。

误区四：MLE的渐近正态性总是成立

来源：茆诗松《概率论与数理统计》 + FasterCapital MLE Consistency Guide + NumberAnalytics MLE Guide + Wikipedia MLE条目 + Cross Validated Stack Exchange

误区4："MLE总是渐近正态的，可以直接用正态分布做推断"

❌ 错误解释：既然定理说MLE渐近正态，那么任何分布下都可以直接用 $\hat{θ} \sim N (θ, 1/ (n I (θ)))$ 做推断。 ✅ 正确解释：MLE的渐近正态性需要正则条件成立。当正则条件被违反时，渐近正态性可能不成立。典型违反情形包括：(1) 支撑集依赖于参数（如均匀分布），MLE的渐近分布不是正态的而是极值分布；(2) 参数空间边界（如 $p \in [0, 1]$ ，当真参数 $p_{0} = 0$ 时）；(3) 不可识别模型。在这些情况下，需要使用其他渐近理论（如非正则渐近理论）来分析MLE的性质。

误区五：EM算法只能用于混合模型

来源：茆诗松《概率论与数理统计》 + Dirk Hovy EM Tutorial + DataOps School EM算法指南 + AIUniverse EM条目 + HowIStudyAI EM概念条目

误区5："EM算法只能用于混合正态分布等聚类问题"

❌ 错误解释：EM算法就是用来做混合模型聚类的方法，其他场景用不到。 ✅ 正确解释：EM算法是一个通用的优化框架，适用于任何含有缺失数据或隐变量的MLE问题。应用场景远不止混合模型，包括：(1) 截断数据和删失数据的参数估计；(2) 隐马尔可夫模型（HMM）的参数学习；(3) 缺失数据填补；(4) 因子分析和潜在语义分析；(5) 图像恢复中的隐变量模型。EM算法的核心思想——“在缺失数据的条件期望下迭代优化”——具有广泛的适用性。

十一、习题精选

习题概览

共10道习题：6道教材习题 + 4道卡方考研真题。

编号来源主题难度
习题1 教材指数分布截断MLE 中
习题2 教材 MLE不变性原理应用中
习题3 教材 MLE渐近正态性应用中高
习题4 教材 EM算法基本计算中高
习题5 教材混合分布MLE与EM 高
习题6 教材 MLE相合性证明高
习题7 2018年复旦大学861 指数分布MLE与均方误差 ★★★
习题8 2018年北京师范大学432 正态分布MLE与置信区间 ★★★
习题9 2019年中央财经大学806 MLE构造枢轴量与置信区间 ★★★★
习题10 2012年中国科学技术大学432 两正态总体MLE与置信区间 ★★★★

编号	来源	主题	难度
习题1	教材	指数分布截断MLE	中
习题2	教材	MLE不变性原理应用	中
习题3	教材	MLE渐近正态性应用	中高
习题4	教材	EM算法基本计算	中高
习题5	教材	混合分布MLE与EM	高
习题6	教材	MLE相合性证明	高
习题7	2018年复旦大学861	指数分布MLE与均方误差	★★★
习题8	2018年北京师范大学432	正态分布MLE与置信区间	★★★
习题9	2019年中央财经大学806	MLE构造枢轴量与置信区间	★★★★
习题10	2012年中国科学技术大学432	两正态总体MLE与置信区间	★★★★

教材习题

习题1

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自指数分布 $Exp (λ)$ ，但只能观测到 $X_{i} > c$ 的数据（ $c > 0$ 为已知常数）。求 $λ$ 的MLE。

查看解答

解：

截断后的似然函数：
$L (λ) = i = 1 \prod n \frac{λ e ^{- λ x_{i}}}{e ^{- λ c}} \cdot I_{{x_{i} > c}} = λ^{n} e^{- λ \sum_{i = 1}^{n} (x_{i} - c)}$
对数似然： $ln L = n ln λ - λ \sum_{i = 1}^{n} (x_{i} - c)$

求导： $\frac{d l n L}{d λ} = \frac{n}{λ} - \sum_{i = 1}^{n} (x_{i} - c) = 0$

解得 $\hat{λ} = \frac{n}{\sum _{i = 1}^{n} ( X _{i} - c )} = \frac{1}{X ˉ - c}$

注意：这里 $\overset{ˉ}{X} > c$ （因为所有观测值都大于 $c$ ），所以估计量有意义。

习题2

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $μ$ 和 $σ^{2}$ 均未知。利用不变性原理，求变异系数 $C V = σ / μ$ （ $μ > 0$ ）的MLE。

查看解答

解：

由§6.1， $\overset{μ}{^}_{M L E} = \overset{ˉ}{X}$ ， $\overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 。

由不变性原理， $\overset{σ}{^}_{M L E} = \overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 。

因此变异系数的MLE为
$C V = \frac{σ ^ _{M L E}}{μ ^ _{M L E}} = \frac{\frac{1}{n} \sum ( X _{i} - X ˉ ) ^{2}}{X ˉ}$

习题3

设 $X_{1}, X_{2}, \dots, X_{n} \sim P (λ)$ ，利用MLE的渐近正态性，构造 $λ$ 的近似 95% 置信区间。

查看解答

解：

泊松分布的MLE $\hat{λ} = \overset{ˉ}{X}$ 。

Fisher信息量： $I (λ) = \frac{1}{λ}$ （单个观测值）。

渐近分布： $\hat{λ} \tilde{˙} N (λ, \frac{λ}{n})$ 。

用 $\hat{λ}$ 代替渐近方差中的 $λ$ ，得到近似 95% 置信区间：
$\hat{λ} \pm z_{0.025} \frac{λ ^}{n} = \overset{ˉ}{X} \pm 1.96 \frac{X ˉ}{n}$

习题4

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自两成分混合正态分布
$f (x) = 0.5 \cdot ϕ (x; μ_{1}, 1) + 0.5 \cdot ϕ (x; μ_{2}, 1)$
其中 $μ_{1}$ 和 $μ_{2}$ 未知，混合比例已知为 $0.5$ ，方差已知为 $1$ 。写出EM算法的E步和M步更新公式。

查看解答

解：

E步：
$γ_{i 1}^{(t)} = \frac{0.5 \cdot ϕ ( x _{i} ; μ _{1}^{(t)} , 1 )}{0.5 \cdot ϕ ( x _{i} ; μ _{1}^{(t)} , 1 ) + 0.5 \cdot ϕ ( x _{i} ; μ _{2}^{(t)} , 1 )} = \frac{ϕ ( x _{i} ; μ _{1}^{(t)} , 1 )}{ϕ ( x _{i} ; μ _{1}^{(t)} , 1 ) + ϕ ( x _{i} ; μ _{2}^{(t)} , 1 )}$ $γ_{i 2}^{(t)} = 1 - γ_{i 1}^{(t)}$
M步：
$μ_{1}^{(t + 1)} = \frac{\sum _{i = 1}^{n} γ _{i 1}^{(t)} x _{i}}{\sum _{i = 1}^{n} γ _{i 1}^{(t)}}, μ_{2}^{(t + 1)} = \frac{\sum _{i = 1}^{n} γ _{i 2}^{(t)} x _{i}}{\sum _{i = 1}^{n} γ _{i 2}^{(t)}}$

习题5

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自总体 $f (x; θ) = θ x^{θ - 1}$ ， $0 < x < 1$ ， $θ > 0$ 。

(1) 求 $θ$ 的MLE。

(2) 利用不变性原理求 $g (θ) = 1/ θ$ 的MLE，并判断其是否为有效估计。

查看解答

解：

(1) 似然函数 $L (θ) = θ^{n} \prod_{i = 1}^{n} x_{i}^{θ - 1}$

$ln L = n ln θ + (θ - 1) \sum_{i = 1}^{n} ln x_{i}$

$\frac{d l n L}{d θ} = \frac{n}{θ} + \sum_{i = 1}^{n} ln x_{i} = 0$

$\hat{θ}_{M L E} = - \frac{n}{\sum _{i = 1}^{n} l n X _{i}}$

(2) 由不变性原理， $\overset{g}{^} = \frac{1}{θ ^ _{M L E}} = - \frac{1}{n} \sum_{i = 1}^{n} ln X_{i}$ 。

令 $Y_{i} = - ln X_{i}$ ，则 $Y_{i} \sim Exp (θ)$ ， $E (Y_{i}) = 1/ θ = g (θ)$ 。

$E (\overset{g}{^}) = E (\overset{ˉ}{Y}) = 1/ θ$ ，无偏。

$Var (\overset{g}{^}) = \frac{1}{n θ ^{2}}$ 。

得分函数关于 $g$ 的线性性表明 $\overset{g}{^}$ 达到C-R下界，是有效估计。

习题6

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自均匀分布 $U (0, θ)$ ， $θ > 0$ 。

(1) 证明MLE $\hat{θ} = X_{(n)}$ 是 $θ$ 的相合估计。

(2) 求 $\hat{θ}$ 的渐近分布。

查看解答

解：

(1) $X_{(n)}$ 的分布函数 $F_{X_{(n)}} (x) = (x / θ)^{n}$ ， $0 < x < θ$ 。

对任意 $ε > 0$ ，

$P (∣ X_{(n)} - θ ∣ \geq ε) = P (X_{(n)} \leq θ - ε) = (\frac{θ - ε}{θ})^{n} \to 0$ （ $n \to \infty$ ）

因此 $X_{(n)} P θ$ ，是相合估计。

(2) 令 $Z_{n} = n (θ - X_{(n)})$ ，则

$P (Z_{n} \leq z) = P (X_{(n)} \geq θ - \frac{z}{n}) = 1 - (1 - \frac{z}{n θ})^{n} \to 1 - e^{- z / θ}$

因此 $Z_{n} d Exp (1/ θ)$ 。

注意：均匀分布MLE的渐近分布不是正态分布，而是指数分布。这是因为均匀分布违反了正则条件（支撑集依赖于参数）。

卡方考研真题

习题7（2018年复旦大学861）

设总体的PDF为 $f (x) = \frac{1}{λ} e^{- (x - ω) / λ}$ ， $x > ω$ ，其中 $λ > 0$ 已知。

(1) 求 $ω$ 的矩估计及其均方误差。

(2) 求 $ω$ 的MLE及其均方误差。

(3) 判断上述两个估计是否相合。

查看解答

解：

(1) $E [X] = λ + ω$ ，矩估计 $\overset{ω}{^}_{1} = \overset{ˉ}{X} - λ$ 。

$MSE (\overset{ω}{^}_{1}) = E (\overset{ω}{^}_{1} - ω)^{2} = Var (\overset{ˉ}{X}) = \frac{λ ^{2}}{n}$ 。

(2) 似然函数 $L (ω) = \frac{1}{λ ^{n}} e^{- \sum (x_{i} - ω) / λ} \cdot I_{{x_{(1)} > ω}}$

当 $ω \leq x_{(1)}$ 时， $ω$ 越大似然越大，故 $\overset{ω}{^}_{2} = X_{(1)}$ 。

$X_{(1)} - ω \sim Exp (n / λ)$ ，故 $E (X_{(1)}) = ω + \frac{λ}{n}$ ， $Var (X_{(1)}) = \frac{λ ^{2}}{n ^{2}}$ 。

$MSE (\overset{ω}{^}_{2}) = Var (X_{(1)}) + [E (X_{(1)}) - ω]^{2} = \frac{λ ^{2}}{n ^{2}} + \frac{λ ^{2}}{n ^{2}} = \frac{2 λ ^{2}}{n ^{2}}$ 。

(3) 两个估计均相合： $MSE (\overset{ω}{^}_{1}) = \frac{λ ^{2}}{n} \to 0$ ， $MSE (\overset{ω}{^}_{2}) = \frac{2 λ ^{2}}{n ^{2}} \to 0$ 。

比较： $\frac{2 λ ^{2}}{n ^{2}} < \frac{λ ^{2}}{n}$ （ $n \geq 3$ ），MLE的均方误差更小。

习题8（2018年北京师范大学432）

设随机变量 $X \sim N (ω_{1}, ω_{2})$ ， $X_{1}, X_{2}, \dots, X_{100}$ 是来自总体的样本。

(1) 当 $ω_{1} = 90$ 时，求 $ω_{2}$ 的极大似然估计。

(2) 当 $ω_{2} = 9$ 时，求 $ω_{1}$ 的 $1 - α$ 的置信区间。

查看解答

解：

(1) $ω_{1} = 90$ 已知时，对数似然函数：
$ln L (ω_{2}) = - 50 ln (2 π) - 50 ln ω_{2} - \frac{1}{2 ω _{2}} i = 1 \sum 100 (X_{i} - 90)^{2}$ $\frac{\partial ln L}{\partial ω _{2}} = - \frac{50}{ω _{2}} + \frac{1}{2 ω _{2}^{2}} i = 1 \sum 100 (X_{i} - 90)^{2} = 0$
解得 $\overset{ω}{^}_{2} = \frac{1}{100} \sum_{i = 1}^{100} (X_{i} - 90)^{2}$ 。

(2) $ω_{2} = 9$ 已知时， $\overset{ω}{^}_{1} = \overset{ˉ}{X}$ ， $Var (\overset{ˉ}{X}) = \frac{9}{100}$ 。

$ω_{1}$ 的 $1 - α$ 置信区间：
$[\overset{ˉ}{X} - z_{α /2} \cdot \frac{3}{10}, \overset{ˉ}{X} + z_{α /2} \cdot \frac{3}{10}]$

习题9（2019年中央财经大学806）

设总体 $X$ 的密度函数为
$f (x; ω) = {e^{x + ω}, 0, x \leq - ω 其他$
其中 $ω$ 为未知参数。已知来自该总体的简单随机样本 $X_{1}, X_{2}, \dots, X_{n}$ ，试利用 $ω$ 的极大似然估计构造枢轴量，求出 $ω$ 的置信度为 $1 - α$ 的置信区间。

查看解答

解：

第一步：求MLE

似然函数 $L (ω) = e^{\sum (x_{i} + ω)} \cdot I_{{x_{(n)} \leq - ω}}$

当 $ω \leq - x_{(n)}$ 时， $ω$ 越大似然越大，故 $\overset{ω}{^}_{M L E} = - X_{(n)}$ 。

第二步：构造枢轴量

令 $Y_{i} = - X_{i} - ω$ ，则 $Y_{i} \sim Exp (1)$ 。

$Y_{(n)} = - X_{(n)} - ω = \overset{ω}{^}_{M L E} - ω \sim Exp (n)$ 。

枢轴量 $T = n (\overset{ω}{^}_{M L E} - ω) \sim Exp (1)$ 。

第三步：构造置信区间
$P (0 < n (\overset{ω}{^}_{M L E} - ω) < - ln α) = 1 - α$
解得 $ω$ 的 $1 - α$ 置信区间为
$[- \frac{1}{n} ln α - X_{(n)}, - X_{(n)}]$

习题10（2012年中国科学技术大学432）

假设 $X_{1}, X_{2}, \dots, X_{n}$ 和 $Y_{1}, Y_{2}, \dots, Y_{m}$ 分别是抽自正态总体 $N (a, σ^{2})$ 和 $N (b, k σ^{2})$ 的两组独立的简单样本，其中 $k$ 为一已知的正数， $a$ 、 $b$ 和 $σ^{2}$ 均为未知的参数。

(1) 求出 $a$ 、 $b$ 和 $σ^{2}$ 的极大似然估计。

(2) 根据(1)构造 $a - b$ 的一个置信水平为 $1 - α$ 的置信区间。

查看解答

解：

(1) 联合似然函数：
$L (a, b, σ^{2}) = i = 1 \prod n \frac{1}{2 π σ ^{2}} e^{- \frac{( x _{i} - a ) ^{2}}{2 σ ^{2}}} \cdot j = 1 \prod m \frac{1}{2 πk σ ^{2}} e^{- \frac{( y _{j} - b ) ^{2}}{2 k σ ^{2}}}$
取对数后分别对 $a$ 、 $b$ 、 $σ^{2}$ 求偏导并令其为零：
$\overset{a}{^} = \overset{ˉ}{X} = \frac{1}{n} i = 1 \sum n X_{i}$ $\hat{b} = \overset{ˉ}{Y} = \frac{1}{m} j = 1 \sum m Y_{j}$ $\overset{σ}{^}^{2} = \frac{1}{k ( m + n )} [k i = 1 \sum n (X_{i} - \overset{a}{^})^{2} + j = 1 \sum m (Y_{j} - \hat{b})^{2}]$
(2) $\overset{a}{^} - \hat{b}$ 的方差为 $σ^{2} (\frac{1}{n} + \frac{k}{m})$ 。

用 $\overset{σ}{^}^{2}$ 代替 $σ^{2}$ ，构造 $t$ 分布枢轴量，自由度为 $m + n - 2$ ：
$a - b 的 1 - α 置信区间为 (\overset{a}{^} - \hat{b}) \pm t_{α /2} (m + n - 2) \cdot S_{w} \frac{1}{n} + \frac{k}{m}$
其中 $S_{w}^{2} = \frac{( n - 1 ) S _{X}^{2} + ( m - 1 ) S _{Y}^{2} / k}{m + n - 2}$ 。

十二、教材原文

第六章参数估计/最大似然估计

数学笔记 Wiki

探索

6.3 最大似然估计与EM算法

6.3 最大似然估计与EM算法

一、似然函数与最大似然原理

似然函数的定义

似然与概率的本质区别

最大似然原理

二、MLE的求解方法

对数似然函数

求导法

需要注意的特殊情况

三、常见分布的MLE汇总

Gamma 分布 MLE 的推导

四、MLE的性质（渐近理论）

不变性原理

极大似然估计的相合性

渐近正态性

极大似然与有效估计

五、MLE与矩估计的比较

何时选MLE、何时选矩法

六、EM算法的思想

缺失数据问题

完全数据与观测数据

期望最大化算法的基本步骤

期望最大化算法的直观理解

期望最大化算法的收敛性

七、EM算法的应用

混合正态分布

截断数据

八、知识结构总览

九、核心思想与解题技巧

极大似然求解流程图

期望最大化算法流程图

解题技巧总结

十、补充理解与易混淆点

误区一：似然函数就是概率密度函数

误区二：MLE总是存在且唯一

误区三：EM算法一定收敛到全局最优

误区四：MLE的渐近正态性总是成立

误区五：EM算法只能用于混合模型

十一、习题精选

教材习题

卡方考研真题

十二、教材原文

关系图谱

目录

反向链接