6.2 矩估计及相合性

本节概览

本节深入探讨矩估计法的理论基础与求解技巧,以及相合性的深入理论与判定方法。§6.1 已介绍了矩估计和相合性的基本概念,本节将从以下方面深入:

  • 矩估计的替换原理及其理论依据(大数定律
  • 矩估计方程组的建立方法与矩估计不唯一的情况
  • 常见分布的矩估计汇总与求解技巧
  • 矩估计的渐近性质(相合性、渐近正态性
  • 相合性的严格理论(依概率收敛)与判定定理

逻辑链条替换原理求解方法分布汇总矩估计性质相合性理论判定定理误区辨析

前置依赖§6.1(点估计基本概念)、§5.3(统计量)、§5.4(抽样分布)、§4.3(大数定律)、§4.4(中心极限定理)

核心主线:矩估计法的理论基础是替换原理(大数定律保证样本矩收敛到总体矩),其优良性质(相合性、渐近正态性)使矩估计在大样本下表现良好。相合性是估计量的基本要求,是”一致性”的严格数学表述。

相关笔记5.3 统计量及其分布5.4 三大抽样分布4.3 大数定律4.4 中心极限定理6.1 点估计的概念与无偏性


一、矩估计的深入理论

1.1 替换原理的理论依据

§6.1 已经介绍了矩估计的基本思想——“用样本矩代替总体矩”。本节深入探讨这一替换原理的理论根基。

定义 6.2.1 — 替换原理(Replacement Principle)

是来自总体 的样本,总体 阶原点矩为

对应的 阶样本原点矩为

替换原理:当 时,用 代替 建立方程来求解参数估计量。

替换原理的理论依据是大数定律

定理 6.2.1 — 替换原理的理论依据(辛钦大数定律)

是来自总体 的 i.i.d. 样本,若 ,则

即样本 阶原点矩依概率收敛于总体 阶原点矩。

证明

证明第一步:构造新的 i.i.d. 序列

。由于 i.i.d.,故 也是 i.i.d. 的。

第二步:验证期望存在

。由条件

第三步:应用辛钦大数定律

由辛钦大数定律,

类似地,对于 阶中心矩 ,对应的样本中心矩为

同样有 )。

1.2 矩估计方程组的建立方法

定义 6.2.2 — 矩估计方程组

设总体 的分布函数为 ,含有 个未知参数 为样本。

步骤一:计算总体的前 阶矩 ,它们是参数 的函数。

步骤二:假设前 阶矩 与参数之间存在函数关系,可以反解出参数:

步骤三:用样本矩 代替总体矩 ,得到参数的矩估计:

其中

参数个数与方程个数的关系

参数个数需要的矩的阶数说明
1 阶矩(期望)一个方程解一个未知数
1 阶矩和 2 阶矩(或期望和方差)两个方程解两个未知数
阶矩 个方程解 个未知数

1.3 矩估计可能不唯一的情况

矩估计不唯一是矩估计法的一个重要特点。同一个参数,使用不同阶的矩可以得到不同的矩估计量。

例 6.2.1 — 矩估计不唯一的实例

设总体 为样本。

方法一:用一阶矩

,令 ,得

方法二:用二阶矩

,令 ,得

两个估计量不同:(一般而言)。

处理原则:当矩估计不唯一时,通常优先使用低阶矩,因为低阶矩的方差更小、更稳健。


二、矩估计的求解步骤与技巧

2.1 标准求解步骤

矩估计的标准求解流程如下:

graph TD
    A[确定未知参数个数k] --> B[计算总体前k阶矩]
    B --> C{参数能否用矩表示}
    C -->|能| D[反解参数为矩的函数]
    C -->|不能| E[尝试更高阶矩或中心矩]
    E --> B
    D --> F[用样本矩代替总体矩]
    F --> G[得到矩估计量]
    G --> H{估计量是否唯一}
    H -->|唯一| I[完成]
    H -->|不唯一| J[优先选择低阶矩版本]
    J --> I

2.2 高阶矩的使用技巧

当一阶矩(期望)无法确定所有参数时,需要使用高阶矩。常用技巧:

  1. 期望 + 方差组合:对于两个参数的分布,常用 建立方程组。
  2. 直接用原点矩:计算 ,建立两个方程。
  3. 中心矩:有时用中心矩更方便,如 就是方差。

例 6.2.2 — 指数分布的矩估计

来自指数分布 。求 的矩估计。

第一步:计算总体期望

第二步:用样本矩代替

第三步:讨论无偏性

由于 (由 Jensen 不等式),有偏估计,但是渐近无偏的。

例 6.2.3 — 正态分布两参数的矩估计

均未知。求 的矩估计。

第一步:计算总体前两阶矩

第二步:建立方程组

第三步:求解

注意 的矩估计为 ,与 MLE 相同,但不是无偏估计(无偏的样本方差是 )。


三、常见分布的矩估计汇总

常见分布的矩估计一览表

分布概率函数参数矩估计备注
正态分布 无偏
有偏,渐近无偏
泊松分布 无偏,与 MLE 相同
均匀分布 无偏;MLE 为
均匀分布
指数分布 有偏
二项分布 无偏
Gamma 分布

其中 为二阶样本中心矩。

Gamma 分布矩估计的推导

例 6.2.4 — Gamma 分布的矩估计

来自 Gamma 分布 ,其中 为未知参数。求 的矩估计。

第一步:计算总体前两阶矩

因此

第二步:建立方程组

第三步:求解

由第一个方程,,代入第二个方程:


四、矩估计的性质

4.1 矩估计的相合性

定理 6.2.2 — 矩估计的相合性

在总体矩存在的条件下,矩估计量是相合估计量

具体地,若 是参数 的矩估计,且 处连续,则

证明

证明第一步:样本矩的相合性

由辛钦大数定律,

第二步:联合收敛

由多元连续映射定理,若 处连续,则

4.2 矩估计的渐近正态性

定理 6.2.3 — 矩估计的渐近正态性

是参数 的矩估计,在适当的正则条件下,有

其中 可由 Delta 方法求出。特别地,若 ,则

其中

理论依据:由中心极限定理,,再由 Delta 方法即得上式。

例 6.2.5 — 泊松分布矩估计的渐近正态性

,矩估计

由 CLT:

即大样本下

4.3 矩估计不一定无偏

重点结论

矩估计不一定是无偏估计。虽然矩估计具有相合性(大样本下收敛到真值),但在有限样本下可能是有偏的。

典型例子:

  • 指数分布 的矩估计 是有偏的
  • 正态分布 的矩估计 是有偏的
  • 均匀分布 的矩估计 恰好是无偏的(特例)

4.4 矩估计的函数不变性

定理 6.2.4 — 矩估计的函数不变性

分别是 的矩估计,,则

的矩估计(要求 为已知函数)。

例 6.2.6 — 函数不变性的应用

的矩估计分别为

则标准差 的矩估计为

变异系数 的矩估计为


五、相合性的深入理论

5.1 相合性的严格定义

定义 6.2.3 — 相合估计(严格定义)

是参数 的估计量。若对任意 ,有

(依概率收敛),则称 相合估计量(一致估计量)。

等价表述:对任意

直观理解:相合性意味着当样本量越来越大时,估计量与真值的差距大于任意给定正数 的概率趋近于零。换句话说,估计量”依概率”趋近于真值。

5.2 相合性与无偏性的关系

相合性与无偏性是两个独立的概念,它们之间没有蕴含关系:

组合是否可能典型例子
无偏且相合 估计 (正态总体)
有偏且相合 估计 (正态总体)
无偏但不相合见下文反例
有偏且不相合恒等于常数的估计量

例 6.2.7 — 无偏但不相合的估计量

i.i.d.,。考虑估计量

即无论样本量多大,只用第一个观测值来估计

  • 无偏性,是无偏估计。
  • 相合性,这个概率不随 增大而趋于零(只要 ),因此 不是相合估计

结论:无偏性不蕴含相合性。相合性要求估计量能利用越来越多的样本信息。

例 6.2.8 — 有偏但相合的估计量

,考虑

  • 无偏性,是有偏估计。
  • 相合性,因此 是相合估计。

结论:有偏性不排斥相合性。只要偏差随 趋于零,且方差也趋于零,有偏估计也可以是相合的。

5.3 相合性的判定方法

定理 6.2.5 — 相合性的充分条件(MSE 判定法)

若估计量 的均方误差满足

的相合估计。

证明

证明第一步:利用 Markov 不等式

由 Markov 不等式,对任意

第二步:取极限

由于 ,故

因此

定理 6.2.6 — 无偏 + 方差趋于零 相合

的无偏估计,且

的相合估计。

证明

证明第一步:利用 MSE 分解

由于 无偏,

第二步:取极限

由定理 6.2.5, 是相合估计。

更一般地,若 (渐近无偏)且 ,则 是相合估计。这是因为:


六、相合估计的判定定理

6.1 基本相合估计

定理 6.2.7 — 常见相合估计

以下估计量都是相应参数的相合估计:

  1. 的相合估计(由辛钦大数定律)
  2. 的相合估计
  3. 的相合估计

6.2 连续函数的相合性

定理 6.2.8 — 连续映射定理(相合性版本)

分别是 的相合估计,,其中 是连续函数。则

的相合估计。

证明

证明第一步:利用连续性

由于 连续,对任意 ,存在 ,使得当 )时,

第二步:利用相合性

由于每个 的相合估计,对上述 和任意 ,存在 ,当 时,

第三步:利用联合概率

第四步:得出结论

由于

的任意性,

6.3 MLE 的相合性

定理 6.2.9 — MLE 的相合性

在正则条件下(分布族满足一定的光滑性和识别性条件),极大似然估计(MLE)是相合估计。

正则条件包括:

  1. 参数空间 是紧集(或有内点)
  2. 似然函数关于参数连续可微
  3. 真参数 的内点
  4. Fisher 信息量 (正定)
  5. 似然函数的支撑集不依赖于参数

例 6.2.9 — 均匀分布 MLE 的相合性

来自 ,MLE 为

虽然 (有偏),但

因此 的相合估计。

6.4 矩估计不唯一的相合性

例 6.2.10 — 矩估计不唯一时均为相合估计

来自

  • ,相合。
  • :由大数定律 ,再由连续映射定理,,相合。

结论:即使矩估计不唯一,每个版本都是相合估计。但它们的渐近方差可能不同,效率有差异。


七、知识结构总览

graph TD
    A[矩估计及相合性] --> B[矩估计法]
    A --> C[相合性]

    B --> B1[替换原理]
    B --> B2[方程组建立]
    B --> B3[求解步骤]
    B --> B4[常见分布汇总]
    B --> B5[矩估计性质]

    B1 --> B1a[大数定律保证]
    B1 --> B1b[样本矩代替总体矩]

    B2 --> B2a[参数个数等于方程个数]
    B2 --> B2b[矩估计可能不唯一]

    B5 --> B5a[相合性]
    B5 --> B5b[渐近正态性]
    B5 --> B5c[不一定无偏]
    B5 --> B5d[函数不变性]

    C --> C1[依概率收敛定义]
    C --> C2[判定方法]
    C --> C3[判定定理]

    C2 --> C2a[MSE趋于零]
    C2 --> C2b[无偏且方差趋于零]

    C3 --> C3a[矩估计相合]
    C3 --> C3b[连续函数保持相合性]
    C3 --> C3c[MLE正则条件下相合]

八、核心思想与解题技巧

8.1 矩估计解题流程

graph TD
    S[题目:求参数的矩估计] --> Q{几个未知参数}
    Q -->|1个| A1[计算总体期望]
    Q -->|2个| A2[计算期望和二阶矩或方差]
    Q -->|k个| Ak[计算前k阶总体矩]

    A1 --> B[令总体矩等于样本矩]
    A2 --> B
    Ak --> B

    B --> C[反解参数]
    C --> D{解是否唯一}
    D -->|唯一| E[得到矩估计量]
    D -->|不唯一| F[优先选低阶矩版本]
    F --> E

    E --> G{需要判断性质吗}
    G -->|需要无偏性| H[计算估计量的期望]
    G -->|需要相合性| I[检查MSE是否趋于零]
    G -->|不需要| J[完成]

8.2 相合性判断流程

graph TD
    S[判断估计量是否相合] --> Q{是否为样本矩的函数}
    Q -->|是| A[由大数定律直接判定为相合]
    Q -->|否| R{是否为连续函数}

    R -->|是相合估计的连续函数| B[由连续映射定理判定为相合]
    R -->|否| C[计算MSE]

    C --> D{MSE是否趋于零}
    D -->|是| E[相合]
    D -->|否| F[不相合]

    A --> G[完成]
    B --> G
    E --> G
    F --> G

8.3 解题技巧总结

  1. 矩估计的核心:确定参数个数 → 计算对应阶数的总体矩 → 用样本矩替换 → 反解参数。
  2. 两个参数的分布:常用 建立方程组,比直接用 更直观。
  3. 相合性判定的优先顺序:先看是否为样本矩的函数(大数定律)→ 再看是否为相合估计的连续函数 → 最后计算 MSE。
  4. MSE 分解是利器,分别计算方差和偏差的极限即可。
  5. 矩估计不唯一时:优先使用低阶矩,因为高阶矩受异常值影响更大、方差更大。

九、补充理解与易混淆点

误区一:矩估计和 MLE 一样具有不变性

来源:茆诗松《概率论与数理统计》 + 山东理工大学概率论课件 + NumberAnalytics 统计教程 + 原创力文档数理统计课件 + CSDN 宋浩概率论笔记

误区1:"矩估计和极大似然估计一样具有不变性,可以直接代入函数关系"

❌ 错误解释:既然 MLE 有不变性(),矩估计也应该一样,直接把矩估计代入函数即可。 ✅ 正确解释:矩估计确实具有函数不变性——若 的矩估计,则 的矩估计。但这里的”不变性”与 MLE 的不变性有本质区别:MLE 的不变性是精确的(在有限样本下成立),而矩估计的函数不变性只是”替换原理”的自然延伸,其渐近性质(如渐近方差)需要通过 Delta 方法重新计算,不能直接传递。此外,矩估计的函数不变性并不意味着 的渐近方差就是 ,还需要考虑高阶项。

误区二:矩估计总是无偏的

来源:茆诗松《概率论与数理统计》 + 维基教科书数理统计/点估计 + DataOps School 方法矩估计指南 + NumberAnalytics 统计教程 + bookdown 数理统计讲义

误区2:"矩估计量总是无偏估计量"

❌ 错误解释:矩估计用样本矩代替总体矩,而样本矩是总体矩的无偏估计,所以矩估计自然也是无偏的。 ✅ 正确解释:虽然样本 阶原点矩 是总体 阶原点矩 无偏估计,但矩估计量 是样本矩的非线性函数,由 Jensen 不等式,。例如指数分布的矩估计 是有偏的,正态分布中方差的矩估计 也是有偏的。

误区三:相合估计一定无偏

来源:茆诗松《概率论与数理统计》 + Fiveable 统计学习 Consistent Estimator 条目 + Stanford CS109 统计估计讲义 + Rohan Paul ML 面试系列 Bias vs Consistency + CSDN 无偏性与一致性关系讨论

误区3:"相合估计一定是无偏估计"

❌ 错误解释:相合性意味着估计量收敛到真值,所以估计量的期望应该等于真值。 ✅ 正确解释:相合性(依概率收敛)和无偏性是两个完全不同的概念。相合性描述的是大样本行为(),无偏性描述的是每个固定 下的期望。有偏估计完全可以是相合的,只要偏差随 趋于零。典型例子:正态总体下 的有偏但相合估计;均匀分布 的 MLE 也是有偏但相合的。反之,无偏估计也不一定相合(如 估计 )。

误区四:矩估计总是存在且唯一

来源:茆诗松《概率论与数理统计》 + bookdown 数理统计讲义 + NumberAnalytics MOM 统计指南 + 山东理工大学概率论课件 + 原创力文档数理统计课件

误区4:"矩估计总是存在且唯一"

❌ 错误解释:只要能写出矩方程,就一定能解出唯一的矩估计。 ✅ 正确解释:矩估计面临两个问题:不唯一性可能不存在。不唯一性:同一个参数用不同阶的矩可能得到不同的估计量(如 用一阶矩得 ,用二阶矩得 )。不存在性:方程组可能无实数解,或者解不在参数空间内。例如,Cauchy 分布的期望不存在,无法用一阶矩建立方程。处理建议:优先使用低阶矩;当矩估计不唯一时,比较各版本的渐近方差,选择效率更高的。


十、习题精选

习题概览

共10道习题:6道教材习题 + 4道卡方考研真题。

编号来源主题难度
习题1教材指数分布矩估计与相合性
习题2教材均匀分布两参数矩估计
习题3教材Gamma 分布矩估计与无偏性中高
习题4教材矩估计不唯一与比较中高
习题5教材相合性证明综合题
习题6教材连续函数相合性应用
习题72018年上海财经大学808Gamma 分布矩估计与MLE综合★★★★
习题82019年武汉大学432正态分布矩估计与有效性★★★
习题92021年大连理工大学432伯努利分布矩估计与有效性★★★
习题102022年武汉大学432MLE 与有效性证明★★★★

教材习题

习题1

来自指数分布

(1) 求 的矩估计。

(2) 证明该矩估计是 的相合估计。

习题2

来自均匀分布 均未知。求 的矩估计。

习题3

来自 Gamma 分布

(1) 求 的矩估计。

(2) 判断 是否为无偏估计。

习题4

来自

(1) 分别用一阶矩和二阶矩求 的矩估计。

(2) 比较两个估计量的渐近方差。

习题5

来自总体 。证明: 的相合估计。

习题6

的相合估计, 是连续函数。证明 的相合估计。

卡方考研真题

习题7(2018年上海财经大学808)

独立同分布,密度函数为

(1) 求 的矩估计。

(2) 求 的最大似然估计。

(3) 求 的 Fisher 信息量。

(4) 的 MLE 是否无偏?若有偏则是否为相合估计。

习题8(2019年武汉大学432)

独立同分布于

(1) 求 的矩估计,是否为有效估计?

(2) 是否为有效估计?

习题9(2021年大连理工大学432)

设总体服从两点分布 为样本。

(1) 证明 的矩估计统计量为有效估计。

习题10(2022年武汉大学432)

。求 的最大似然估计 ,并证明其为有效估计。


十一、教材原文

第六章 参数估计/矩估计