6.2 矩估计及相合性
本节概览
本节深入探讨矩估计法的理论基础与求解技巧,以及相合性的深入理论与判定方法。§6.1 已介绍了矩估计和相合性的基本概念,本节将从以下方面深入:
逻辑链条:替换原理 → 求解方法 → 分布汇总 → 矩估计性质 → 相合性理论 → 判定定理 → 误区辨析
前置依赖:§6.1(点估计基本概念)、§5.3(统计量)、§5.4(抽样分布)、§4.3(大数定律)、§4.4(中心极限定理)
核心主线:矩估计法的理论基础是替换原理(大数定律保证样本矩收敛到总体矩),其优良性质(相合性、渐近正态性)使矩估计在大样本下表现良好。相合性是估计量的基本要求,是”一致性”的严格数学表述。
相关笔记:5.3 统计量及其分布、5.4 三大抽样分布、4.3 大数定律、4.4 中心极限定理、6.1 点估计的概念与无偏性
一、矩估计的深入理论
1.1 替换原理的理论依据
§6.1 已经介绍了矩估计的基本思想——“用样本矩代替总体矩”。本节深入探讨这一替换原理的理论根基。
定义 6.2.1 — 替换原理(Replacement Principle)
设 是来自总体 的样本,总体 的 阶原点矩为
对应的 阶样本原点矩为
替换原理:当 时,用 代替 建立方程来求解参数估计量。
替换原理的理论依据是大数定律:
定理 6.2.1 — 替换原理的理论依据(辛钦大数定律)
设 是来自总体 的 i.i.d. 样本,若 ,则
即样本 阶原点矩依概率收敛于总体 阶原点矩。
证明
证明: 第一步:构造新的 i.i.d. 序列
令 ,。由于 i.i.d.,故 也是 i.i.d. 的。
第二步:验证期望存在
。由条件 知 。
第三步:应用辛钦大数定律
由辛钦大数定律,
即 。
类似地,对于 阶中心矩 ,对应的样本中心矩为
同样有 ()。
1.2 矩估计方程组的建立方法
定义 6.2.2 — 矩估计方程组
设总体 的分布函数为 ,含有 个未知参数 。 为样本。
步骤一:计算总体的前 阶矩 ,,它们是参数 的函数。
步骤二:假设前 阶矩 与参数之间存在函数关系,可以反解出参数:
步骤三:用样本矩 代替总体矩 ,得到参数的矩估计:
其中 。
参数个数与方程个数的关系:
| 参数个数 | 需要的矩的阶数 | 说明 |
|---|---|---|
| 1 阶矩(期望) | 一个方程解一个未知数 | |
| 1 阶矩和 2 阶矩(或期望和方差) | 两个方程解两个未知数 | |
| 个 | 前 阶矩 | 个方程解 个未知数 |
1.3 矩估计可能不唯一的情况
矩估计不唯一是矩估计法的一个重要特点。同一个参数,使用不同阶的矩可以得到不同的矩估计量。
例 6.2.1 — 矩估计不唯一的实例
设总体 ,, 为样本。
方法一:用一阶矩
,令 ,得 。
方法二:用二阶矩
,令 ,得 。
两个估计量不同:(一般而言)。
处理原则:当矩估计不唯一时,通常优先使用低阶矩,因为低阶矩的方差更小、更稳健。
二、矩估计的求解步骤与技巧
2.1 标准求解步骤
矩估计的标准求解流程如下:
graph TD A[确定未知参数个数k] --> B[计算总体前k阶矩] B --> C{参数能否用矩表示} C -->|能| D[反解参数为矩的函数] C -->|不能| E[尝试更高阶矩或中心矩] E --> B D --> F[用样本矩代替总体矩] F --> G[得到矩估计量] G --> H{估计量是否唯一} H -->|唯一| I[完成] H -->|不唯一| J[优先选择低阶矩版本] J --> I
2.2 高阶矩的使用技巧
当一阶矩(期望)无法确定所有参数时,需要使用高阶矩。常用技巧:
- 期望 + 方差组合:对于两个参数的分布,常用 和 建立方程组。
- 直接用原点矩:计算 和 ,建立两个方程。
- 中心矩:有时用中心矩更方便,如 就是方差。
例 6.2.2 — 指数分布的矩估计
设 来自指数分布 ,,。求 的矩估计。
解:
第一步:计算总体期望
第二步:用样本矩代替
第三步:讨论无偏性
由于 (由 Jensen 不等式), 是 的有偏估计,但是渐近无偏的。
例 6.2.3 — 正态分布两参数的矩估计
设 , 和 均未知。求 和 的矩估计。
解:
第一步:计算总体前两阶矩
第二步:建立方程组
第三步:求解
注意: 的矩估计为 ,与 MLE 相同,但不是无偏估计(无偏的样本方差是 )。
三、常见分布的矩估计汇总
常见分布的矩估计一览表
分布 概率函数 参数 矩估计 备注 正态分布 无偏 有偏,渐近无偏 泊松分布 无偏,与 MLE 相同 均匀分布 , 无偏;MLE 为 均匀分布 , , 指数分布 , 有偏 二项分布 无偏 Gamma 分布 , 其中 为二阶样本中心矩。
Gamma 分布矩估计的推导
例 6.2.4 — Gamma 分布的矩估计
设 来自 Gamma 分布 ,其中 , 为未知参数。求 和 的矩估计。
解:
第一步:计算总体前两阶矩
因此
第二步:建立方程组
第三步:求解
由第一个方程,,代入第二个方程:
四、矩估计的性质
4.1 矩估计的相合性
定理 6.2.2 — 矩估计的相合性
在总体矩存在的条件下,矩估计量是相合估计量。
具体地,若 是参数 的矩估计,且 在 处连续,则
证明
证明: 第一步:样本矩的相合性
由辛钦大数定律,,。
第二步:联合收敛
由多元连续映射定理,若 在 处连续,则
即 。
4.2 矩估计的渐近正态性
定理 6.2.3 — 矩估计的渐近正态性
设 是参数 的矩估计,在适当的正则条件下,有
其中 可由 Delta 方法求出。特别地,若 ,则
其中 ,。
理论依据:由中心极限定理,,再由 Delta 方法即得上式。
例 6.2.5 — 泊松分布矩估计的渐近正态性
设 ,矩估计 。
由 CLT:
即大样本下 。
4.3 矩估计不一定无偏
重点结论
矩估计不一定是无偏估计。虽然矩估计具有相合性(大样本下收敛到真值),但在有限样本下可能是有偏的。
典型例子:
- 指数分布 的矩估计 是有偏的
- 正态分布 中 的矩估计 是有偏的
- 均匀分布 的矩估计 恰好是无偏的(特例)
4.4 矩估计的函数不变性
定理 6.2.4 — 矩估计的函数不变性
若 分别是 的矩估计,,则
是 的矩估计(要求 为已知函数)。
例 6.2.6 — 函数不变性的应用
设 , 和 的矩估计分别为 ,。
则标准差 的矩估计为 。
变异系数 的矩估计为 。
五、相合性的深入理论
5.1 相合性的严格定义
定义 6.2.3 — 相合估计(严格定义)
设 是参数 的估计量。若对任意 ,有
即 (依概率收敛),则称 是 的相合估计量(一致估计量)。
等价表述:对任意 ,
直观理解:相合性意味着当样本量越来越大时,估计量与真值的差距大于任意给定正数 的概率趋近于零。换句话说,估计量”依概率”趋近于真值。
5.2 相合性与无偏性的关系
相合性与无偏性是两个独立的概念,它们之间没有蕴含关系:
| 组合 | 是否可能 | 典型例子 |
|---|---|---|
| 无偏且相合 | 是 | 估计 (正态总体) |
| 有偏且相合 | 是 | 估计 (正态总体) |
| 无偏但不相合 | 是 | 见下文反例 |
| 有偏且不相合 | 是 | 恒等于常数的估计量 |
例 6.2.7 — 无偏但不相合的估计量
设 i.i.d.,。考虑估计量
即无论样本量多大,只用第一个观测值来估计 。
- 无偏性:,是无偏估计。
- 相合性:,这个概率不随 增大而趋于零(只要 ),因此 不是相合估计。
结论:无偏性不蕴含相合性。相合性要求估计量能利用越来越多的样本信息。
例 6.2.8 — 有偏但相合的估计量
设 ,考虑
- 无偏性:,是有偏估计。
- 相合性:,,因此 是相合估计。
结论:有偏性不排斥相合性。只要偏差随 趋于零,且方差也趋于零,有偏估计也可以是相合的。
5.3 相合性的判定方法
定理 6.2.5 — 相合性的充分条件(MSE 判定法)
若估计量 的均方误差满足
则 是 的相合估计。
证明
证明: 第一步:利用 Markov 不等式
由 Markov 不等式,对任意 ,
第二步:取极限
由于 ,故
因此 。
定理 6.2.6 — 无偏 + 方差趋于零 相合
若 是 的无偏估计,且
则 是 的相合估计。
证明
证明: 第一步:利用 MSE 分解
由于 无偏,。
第二步:取极限
由定理 6.2.5, 是相合估计。
更一般地,若 (渐近无偏)且 ,则 是相合估计。这是因为:
六、相合估计的判定定理
6.1 基本相合估计
定理 6.2.7 — 常见相合估计
以下估计量都是相应参数的相合估计:
- 是 的相合估计(由辛钦大数定律)
- 是 的相合估计
- 是 的相合估计
6.2 连续函数的相合性
定理 6.2.8 — 连续映射定理(相合性版本)
设 分别是 的相合估计,,其中 是连续函数。则
是 的相合估计。
证明
证明: 第一步:利用连续性
由于 连续,对任意 ,存在 ,使得当 ()时,
第二步:利用相合性
由于每个 是 的相合估计,对上述 和任意 ,存在 ,当 时,
第三步:利用联合概率
第四步:得出结论
由于 ,
由 的任意性,。
6.3 MLE 的相合性
定理 6.2.9 — MLE 的相合性
在正则条件下(分布族满足一定的光滑性和识别性条件),极大似然估计(MLE)是相合估计。
正则条件包括:
- 参数空间 是紧集(或有内点)
- 似然函数关于参数连续可微
- 真参数 是 的内点
- Fisher 信息量 (正定)
- 似然函数的支撑集不依赖于参数
例 6.2.9 — 均匀分布 MLE 的相合性
设 来自 ,MLE 为 。
虽然 (有偏),但
因此 是 的相合估计。
6.4 矩估计不唯一的相合性
例 6.2.10 — 矩估计不唯一时均为相合估计
设 来自 。
- :,,相合。
- :由大数定律 ,再由连续映射定理,,相合。
结论:即使矩估计不唯一,每个版本都是相合估计。但它们的渐近方差可能不同,效率有差异。
七、知识结构总览
graph TD A[矩估计及相合性] --> B[矩估计法] A --> C[相合性] B --> B1[替换原理] B --> B2[方程组建立] B --> B3[求解步骤] B --> B4[常见分布汇总] B --> B5[矩估计性质] B1 --> B1a[大数定律保证] B1 --> B1b[样本矩代替总体矩] B2 --> B2a[参数个数等于方程个数] B2 --> B2b[矩估计可能不唯一] B5 --> B5a[相合性] B5 --> B5b[渐近正态性] B5 --> B5c[不一定无偏] B5 --> B5d[函数不变性] C --> C1[依概率收敛定义] C --> C2[判定方法] C --> C3[判定定理] C2 --> C2a[MSE趋于零] C2 --> C2b[无偏且方差趋于零] C3 --> C3a[矩估计相合] C3 --> C3b[连续函数保持相合性] C3 --> C3c[MLE正则条件下相合]
八、核心思想与解题技巧
8.1 矩估计解题流程
graph TD S[题目:求参数的矩估计] --> Q{几个未知参数} Q -->|1个| A1[计算总体期望] Q -->|2个| A2[计算期望和二阶矩或方差] Q -->|k个| Ak[计算前k阶总体矩] A1 --> B[令总体矩等于样本矩] A2 --> B Ak --> B B --> C[反解参数] C --> D{解是否唯一} D -->|唯一| E[得到矩估计量] D -->|不唯一| F[优先选低阶矩版本] F --> E E --> G{需要判断性质吗} G -->|需要无偏性| H[计算估计量的期望] G -->|需要相合性| I[检查MSE是否趋于零] G -->|不需要| J[完成]
8.2 相合性判断流程
graph TD S[判断估计量是否相合] --> Q{是否为样本矩的函数} Q -->|是| A[由大数定律直接判定为相合] Q -->|否| R{是否为连续函数} R -->|是相合估计的连续函数| B[由连续映射定理判定为相合] R -->|否| C[计算MSE] C --> D{MSE是否趋于零} D -->|是| E[相合] D -->|否| F[不相合] A --> G[完成] B --> G E --> G F --> G
8.3 解题技巧总结
- 矩估计的核心:确定参数个数 → 计算对应阶数的总体矩 → 用样本矩替换 → 反解参数。
- 两个参数的分布:常用 和 建立方程组,比直接用 和 更直观。
- 相合性判定的优先顺序:先看是否为样本矩的函数(大数定律)→ 再看是否为相合估计的连续函数 → 最后计算 MSE。
- MSE 分解是利器:,分别计算方差和偏差的极限即可。
- 矩估计不唯一时:优先使用低阶矩,因为高阶矩受异常值影响更大、方差更大。
九、补充理解与易混淆点
误区一:矩估计和 MLE 一样具有不变性
来源:茆诗松《概率论与数理统计》 + 山东理工大学概率论课件 + NumberAnalytics 统计教程 + 原创力文档数理统计课件 + CSDN 宋浩概率论笔记
误区1:"矩估计和极大似然估计一样具有不变性,可以直接代入函数关系"
❌ 错误解释:既然 MLE 有不变性(),矩估计也应该一样,直接把矩估计代入函数即可。 ✅ 正确解释:矩估计确实具有函数不变性——若 是 的矩估计,则 是 的矩估计。但这里的”不变性”与 MLE 的不变性有本质区别:MLE 的不变性是精确的(在有限样本下成立),而矩估计的函数不变性只是”替换原理”的自然延伸,其渐近性质(如渐近方差)需要通过 Delta 方法重新计算,不能直接传递。此外,矩估计的函数不变性并不意味着 的渐近方差就是 ,还需要考虑高阶项。
误区二:矩估计总是无偏的
来源:茆诗松《概率论与数理统计》 + 维基教科书数理统计/点估计 + DataOps School 方法矩估计指南 + NumberAnalytics 统计教程 + bookdown 数理统计讲义
误区2:"矩估计量总是无偏估计量"
❌ 错误解释:矩估计用样本矩代替总体矩,而样本矩是总体矩的无偏估计,所以矩估计自然也是无偏的。 ✅ 正确解释:虽然样本 阶原点矩 是总体 阶原点矩 的无偏估计,但矩估计量 是样本矩的非线性函数,由 Jensen 不等式,。例如指数分布的矩估计 是有偏的,正态分布中方差的矩估计 也是有偏的。
误区三:相合估计一定无偏
来源:茆诗松《概率论与数理统计》 + Fiveable 统计学习 Consistent Estimator 条目 + Stanford CS109 统计估计讲义 + Rohan Paul ML 面试系列 Bias vs Consistency + CSDN 无偏性与一致性关系讨论
误区3:"相合估计一定是无偏估计"
❌ 错误解释:相合性意味着估计量收敛到真值,所以估计量的期望应该等于真值。 ✅ 正确解释:相合性(依概率收敛)和无偏性是两个完全不同的概念。相合性描述的是大样本行为(),无偏性描述的是每个固定 下的期望。有偏估计完全可以是相合的,只要偏差随 趋于零。典型例子:正态总体下 是 的有偏但相合估计;均匀分布 的 MLE 也是有偏但相合的。反之,无偏估计也不一定相合(如 估计 )。
误区四:矩估计总是存在且唯一
来源:茆诗松《概率论与数理统计》 + bookdown 数理统计讲义 + NumberAnalytics MOM 统计指南 + 山东理工大学概率论课件 + 原创力文档数理统计课件
误区4:"矩估计总是存在且唯一"
❌ 错误解释:只要能写出矩方程,就一定能解出唯一的矩估计。 ✅ 正确解释:矩估计面临两个问题:不唯一性和可能不存在。不唯一性:同一个参数用不同阶的矩可能得到不同的估计量(如 用一阶矩得 ,用二阶矩得 )。不存在性:方程组可能无实数解,或者解不在参数空间内。例如,Cauchy 分布的期望不存在,无法用一阶矩建立方程。处理建议:优先使用低阶矩;当矩估计不唯一时,比较各版本的渐近方差,选择效率更高的。
十、习题精选
习题概览
共10道习题:6道教材习题 + 4道卡方考研真题。
编号 来源 主题 难度 习题1 教材 指数分布矩估计与相合性 中 习题2 教材 均匀分布两参数矩估计 中 习题3 教材 Gamma 分布矩估计与无偏性 中高 习题4 教材 矩估计不唯一与比较 中高 习题5 教材 相合性证明综合题 高 习题6 教材 连续函数相合性应用 高 习题7 2018年上海财经大学808 Gamma 分布矩估计与MLE综合 ★★★★ 习题8 2019年武汉大学432 正态分布矩估计与有效性 ★★★ 习题9 2021年大连理工大学432 伯努利分布矩估计与有效性 ★★★ 习题10 2022年武汉大学432 MLE 与有效性证明 ★★★★
教材习题
习题1
设 来自指数分布 ,,。
(1) 求 的矩估计。
(2) 证明该矩估计是 的相合估计。
查看解答
解:
(1) ,令 ,得 。
(2) 由大数定律,。由于 在 处连续,由连续映射定理,,因此 是相合估计。
习题2
设 来自均匀分布 , 均未知。求 和 的矩估计。
查看解答
解:
令
由第二个方程,。
结合第一个方程:
习题3
设 来自 Gamma 分布 。
(1) 求 和 的矩估计。
(2) 判断 和 是否为无偏估计。
查看解答
解:
(1) 由三、的推导:
(2) 和 都是 和 的非线性函数,一般不是无偏估计。它们是渐近无偏且相合的。
习题4
设 来自 。
(1) 分别用一阶矩和二阶矩求 的矩估计。
(2) 比较两个估计量的渐近方差。
查看解答
解:
(1) 一阶矩:。
二阶矩:,令 ,得 。
(2) 。
由 Delta 方法,,其中 ,。
在 处,。
。
渐近方差:。
比较:,因此二阶矩版本的渐近方差更小。
习题5
设 来自总体 ,,。证明: 是 的相合估计。
查看解答
解:
已知 (无偏),。
。
由定理 6.2.6(无偏 + 方差趋于零), 是 的相合估计。
习题6
设 是 的相合估计, 是连续函数。证明 是 的相合估计。
查看解答
证明(利用定义):
对任意 ,由 在 处连续,存在 ,使得 。
因此 。
由于 是 的相合估计,。
因此 。
卡方考研真题
习题7(2018年上海财经大学808)
设 独立同分布,密度函数为 ,。
(1) 求 的矩估计。
(2) 求 的最大似然估计。
(3) 求 的 Fisher 信息量。
(4) 的 MLE 是否无偏?若有偏则是否为相合估计。
查看解答
解:
(1) 。
令 ,得 。
(2) 似然函数 。
。
,解得 。
(3) ,。
。
(4) ,由 Gamma 分布可加性,。
,有偏。
,,因此是相合估计。
习题8(2019年武汉大学432)
独立同分布于 。
(1) 求 的矩估计,是否为有效估计?
(2) 是否为有效估计?
查看解答
解:
(1) ,。
,。
由于 ,
。
C-R 下界:,。
,因此不是有效估计。
(2) ,也不是有效估计。
习题9(2021年大连理工大学432)
设总体服从两点分布 ,。 为样本。
(1) 证明 的矩估计统计量为有效估计。
查看解答
证明:
第一步:求矩估计
,矩估计 。
第二步:验证无偏性
,无偏。
第三步:计算方差
。
第四步:计算 Fisher 信息量
第五步:比较
C-R 下界:。
方差等于 C-R 下界,因此 是 的有效估计。
习题10(2022年武汉大学432)
,,。求 的最大似然估计 ,并证明其为有效估计。
查看解答
解:
第一步:求 MLE
,。
,解得 。
由 MLE 不变性,。
第二步:验证无偏性
令 ,则 ,。
,无偏。
第三步:计算方差与 C-R 下界
。
得分函数关于 :
得分函数是估计量和参数的线性组合,由 C-R 不等式等号成立的充要条件, 达到了 C-R 下界,是有效估计。
十一、教材原文
第六章 参数估计/矩估计