6.1 点估计的概念与无偏性

本节概览

本节系统介绍点估计的基本概念与评价标准。核心内容围绕三个问题展开:如何构造估计量(矩法极大似然法)、如何评价估计量的优劣(无偏性有效性相合性)、以及如何综合衡量估计精度(均方误差)。

逻辑链条基本概念无偏性有效性相合性MSE矩估计MLE

前置依赖§5.3(统计量定义)、§5.4(抽样分布)、§5.5(充分统计量)

核心主线:点估计的核心问题是”如何构造估计量”和”如何评价估计量”。矩估计法和MLE是两种最重要的构造方法;无偏性、有效性(C-R下界)、相合性构成评价标准体系;MSE将偏差与方差统一度量。


一、点估计的基本概念

估计量与估计值

定义 6.1.1 — 估计量与估计值

设总体 的分布函数 中含有未知参数 是来自总体 的样本。

  • 估计量:构造一个统计量 来估计 ,称 估计量。估计量是随机变量(统计量)。
  • 估计值:将样本观测值 代入估计量得到的数值 ,称为 估计值。估计值是一个具体的数

核心区别:估计量是随机变量(函数),估计值是具体的数值。例如 的估计量,而 是估计值。

三种点估计方法概述

方法基本思想优点缺点
矩法用样本矩代替总体矩简便、直观、计算简单不一定最优,未充分利用分布信息
极大似然法使样本出现的概率最大理论性质优良、渐近有效需要知道分布形式,计算可能复杂
贝叶斯法结合先验信息与样本信息能利用先验知识需要指定先验分布

例 6.1.1 — 直观理解点估计

设总体 未知, 为样本。

我们可以用样本均值 来估计

  • 是一个统计量(随机变量),称为 估计量
  • 若观测到 ,则 估计值

直观上,样本均值是总体均值的”自然”估计——它将所有样本信息集中到一个数值中。


二、无偏性

无偏估计的定义

定义 6.1.2 — 无偏估计

是参数 的一个估计量。若

对一切 成立,则称 无偏估计量,简称无偏估计。

,则称 有偏估计量,其偏差

常见无偏估计

定理:样本均值是总体均值的无偏估计

证明

证明第一步:展开期望

第二步:利用同分布性

由于 与总体 同分布,故 ,因此

定理:样本方差 是总体方差 的无偏估计

证明

证明第一步:定义样本方差

第二步:展开平方和

第三步:取期望

第四步:利用方差公式

第五步:代入化简

因此

样本标准差 不是 的无偏估计

重点结论

样本标准差 不是总体标准差 的无偏估计,即

这是因为开方是一个非线性运算,由 Jensen 不等式:

渐近无偏性:虽然 不是 的无偏估计,但它是渐近无偏的,即

更精确地,可以证明 ,其中

证明

证明(正态总体下): 第一步:利用卡方分布

在正态总体 下,

第二步:计算

第三步:利用卡方分布矩

,则

第四步:得出结论

其中 ,且

例 6.1.2 — 判断无偏性

是来自总体 的样本,。判断以下统计量是否为 的无偏估计:

(1)

(2)

(3)

(1) ,是无偏估计。

(2) ,是无偏估计。

(3) ,是无偏估计。

结论:无偏估计不唯一,同一个参数可以有无穷多个无偏估计。

例 6.1.3 — 样本标准差的有偏性

来自正态总体

问: 是否为 的无偏估计?

:不是。由 Jensen 不等式,

具体地,,其中

例如 时, 时,

时,,即 渐近无偏估计


三、有效性与Fisher信息量

有效估计的定义

定义 6.1.3 — 有效估计

是参数 的无偏估计量。若 的方差达到了所有无偏估计中方差的下界(即 Cramér-Rao 下界),则称 有效估计量

Fisher信息量

定义 6.1.4 — Fisher信息量

设总体 的概率密度函数(或概率质量函数)为 ,且满足正则条件,则

Fisher信息量,它衡量了样本包含关于参数 的信息量。

Cramér-Rao不等式

定理 6.1.1 — Cramér-Rao不等式

是来自总体 的样本, 的无偏估计,且满足正则条件,则

其中 称为 Cramér-Rao下界(C-R下界)。

等号成立的充要条件是:存在函数 使得

有效估计的判定

定理 6.1.2 — 有效估计的判定

无偏估计 是有效估计的充要条件是:

  1. 的方差等于 C-R 下界:
  2. 似然方程可以表示为 的线性函数

例 6.1.4 — 正态总体均值的有效性

已知,判断 是否为 的有效估计。

第一步:计算 Fisher 信息量

因此

第二步:计算 C-R 下界

第三步:比较方差

方差恰好等于 C-R 下界,因此 有效估计

例 6.1.5 — 样本方差不是有效估计

,判断 是否为 的有效估计。

第一步:计算 Fisher 信息量

第二步:计算 C-R 下界

第三步:比较方差

由于

因为 ,所以 不是 的有效估计。


四、相合性

相合估计的定义

定义 6.1.5 — 相合估计(一致估计)

是参数 的估计量。若对任意 ,有

,则称 相合估计量(或一致估计量)。

相合性的判定

定理 6.1.3 — 相合性的判定

以下条件之一成立即可保证 的相合估计:

  1. 均方误差趋于零

  2. 无偏且方差趋于零

  3. 矩法估计的相合性:矩法估计量一般是相合估计(由大数定律保证)

  4. MLE的相合性:在正则条件下,极大似然估计是相合估计

例 6.1.6 — 矩估计的相合性

来自均匀分布

(1) 矩估计 是否为 的无偏估计?

(2) 是否为 的相合估计?

(1) ,故

是无偏估计。

(2)

时,,因此 的相合估计。


五、均方误差

MSE的分解

定义 6.1.6 — 均方误差

估计量 关于参数 均方误差(Mean Squared Error, MSE)定义为

定理 6.1.4 — 偏差-方差分解

其中

证明

证明第一步:引入中心化

第二步:展开平方

第三步:化简交叉项

由于 是常数,

第四步:得出结论

偏差-方差权衡

对于无偏估计,。但有时引入少量偏差可以大幅降低方差,从而使总 MSE 更小。

例 6.1.7 — 偏差-方差权衡

,比较以下 的估计量:

  • (无偏)
  • (有偏)

比较:,因此 的 MSE 更小。


六、矩估计法

基本思想

定义 6.1.7 — 矩估计法

矩估计法(Method of Moments, MoM)的基本思想是:用样本矩代替总体矩来建立方程,从而求解参数的估计。

具体步骤:

  1. 计算总体的前 阶矩 ,它们是参数 的函数。
  2. 用样本矩 代替总体矩
  3. 解方程组 ,得到参数的矩估计。

例 6.1.8 — 泊松分布的矩估计

来自泊松分布 ,求 的矩估计。

第一步:计算总体矩

泊松分布 的期望

第二步:用样本矩代替

即泊松分布参数 的矩估计就是样本均值。

例 6.1.9 — 均匀分布的矩估计

来自均匀分布 ,求 的矩估计。

第一步:计算总体期望

第二步:用样本矩代替

第三步:判断无偏性

因此 的无偏矩估计。


七、极大似然估计

似然函数的定义

定义 6.1.8 — 似然函数与极大似然估计

是来自总体 的样本,其联合密度(或联合概率质量函数)为

似然函数

若存在 使得

则称 极大似然估计(Maximum Likelihood Estimation, MLE)。

对数似然函数

由于似然函数是多个因子的乘积,取对数可以简化计算:

因为 是严格单调递增函数,所以 在同一点取最大值。

MLE的求解步骤

  1. 写出似然函数
  2. 取对数
  3. 求导并令导数为零 (似然方程)
  4. 验证二阶条件(二阶导小于零)或通过其他方法确认是最大值
  5. 注意参数空间:若解不在参数空间内,需在边界上取最大值

不变性原理

定理 6.1.5 — 极大似然估计的不变性

的极大似然估计, 的函数( 为单值函数),则 的极大似然估计,即

例 6.1.10 — 正态分布的MLE

均未知,求 的极大似然估计。

第一步:写出似然函数

第二步:取对数

第三步:对 求导

解得

第四步:对 求导

代入 ,解得

注意 的 MLE 是 ,而不是无偏的样本方差 。MLE 是有偏估计。


八、知识结构总览

graph TD
    A[点估计] --> B[估计量与估计值]
    A --> C[评价标准]
    A --> D[构造方法]

    C --> C1[无偏性]
    C --> C2[有效性]
    C --> C3[相合性]
    C --> C4[均方误差]

    C1 --> C1a[样本均值估计总体均值]
    C1 --> C1b[样本方差估计总体方差]
    C1 --> C1c[样本标准差非无偏]

    C2 --> C2a[Fisher信息量]
    C2 --> C2b[Cramér-Rao不等式]

    C4 --> C4a[偏差方差分解]

    D --> D1[矩估计法]
    D --> D2[极大似然估计]
    D --> D3[贝叶斯估计]

    D2 --> D2a[似然函数]
    D2 --> D2b[对数似然函数]
    D2 --> D2c[不变性原理]

九、核心思想与技巧

判断无偏性的流程

graph TD
    S[给定估计量] --> Q{是否为参数的估计}
    Q -->|是| E[计算估计量的期望]
    Q -->|否| R[先确认估计对象]
    E --> F{期望等于参数吗}
    F -->|是| G[是无偏估计]
    F -->|否| H[是有偏估计]
    H --> I[偏差等于期望减参数]
    G --> J[进一步判断有效性和相合性]

解题技巧总结

  1. 判断无偏性:核心是计算期望 ,利用期望的线性性、方差的展开式等。
  2. 比较有效性:在多个无偏估计中,方差最小的最有效。利用 等常用公式。
  3. 求矩估计:先计算总体矩(期望、方差等),再用样本矩替换,解方程。
  4. 求MLE:写出似然函数 → 取对数 → 求导 → 解方程 → 注意参数空间边界。
  5. 均匀分布的MLE:MLE 通常与次序统计量有关(),不能直接求导。
  6. 不变性原理:若求 的 MLE,先求 ,再计算
  7. MSE比较:利用 分解,有时有偏估计的 MSE 更小。

十、补充理解与易混淆点

误区一:样本标准差是无偏的

来源:茆诗松《概率论与数理统计》 + 卡方训练营考研真题 + Brainly统计问答 + Oxford大学统计学讲义 + Eduardo García-Portugués统计推断课程

误区1:"样本标准差 S 是总体标准差 sigma 的无偏估计"

❌ 错误解释:因为 的无偏估计,所以 自然也是 的无偏估计。 ✅ 正确解释:开方是非线性运算,由 Jensen 不等式,。正态总体下 ,其中 ,仅当 (渐近无偏)。

误区二:无偏估计一定比有偏估计好

来源:茆诗松《概率论与数理统计》 + 华东师范大学432考研真题 + 卡方训练营 + NumberAnalytics统计学教程 + Fiveable统计学习

误区2:"无偏估计总是优于有偏估计"

❌ 错误解释:无偏意味着”平均来说准确”,所以无偏估计一定比有偏估计好。 ✅ 正确解释:评价估计量的好坏应看 MSE = Var + Bias^2。有偏估计如果方差足够小,其 MSE 可能反而更小。例如正态总体下, 虽然是 的有偏估计,但 MSE 为 ,小于无偏的 的 MSE

误区三:MLE一定无偏

来源:茆诗松《概率论与数理统计》 + Stack Exchange Cross Validated + Wikipedia极大似然估计条目 + 厦门大学432考研真题 + 复旦大学432考研真题

误区3:"极大似然估计一定是无偏估计"

❌ 错误解释:MLE 是”最好的”估计方法,所以得到的估计量一定无偏。 ✅ 正确解释:MLE 不一定无偏。例如正态总体 的 MLE 的期望为 ,是有偏的。均匀分布 的期望为 ,也是有偏的。但 MLE 通常是渐近无偏的。

误区四:矩估计和MLE总是相同

来源:茆诗松《概率论与数理统计》 + 西南大学432考研真题 + 兰州大学432考研真题 + CSDN数据科学博客 + SI-UC3M统计推断课程

误区4:"矩估计和极大似然估计总是相同的"

❌ 错误解释:两种方法都是用样本信息估计参数,结果应该一样。 ✅ 正确解释:矩估计和 MLE 不一定相同。例如均匀分布 的矩估计为 ,而 MLE 为 ,两者完全不同。泊松分布 的矩估计和 MLE 恰好相同(都是 ),但这只是特例。MLE 通常比矩估计更有效(渐近达到 C-R 下界),但计算更复杂。


十一、习题精选

习题概览

共10道习题:6道教材习题 + 4道卡方考研真题。

编号来源主题难度
习题1教材无偏性判断
习题2教材矩估计求解
习题3教材极大似然估计
习题4教材MSE比较中高
习题5教材有效性与C-R下界
习题6教材相合性证明
习题72014年华东师范大学432无偏性与方差比较★★★
习题82017年北京师范大学432样本标准差无偏性★★★
习题92016年清华大学432MLE与无偏性判断★★★★
习题102019年复旦大学432矩估计与MLE综合★★★★

教材习题

习题1

是来自总体 的样本,。确定常数 ,使 的无偏估计。

习题2

设总体 的概率密度为 为样本,求 的矩估计量。

习题3

设总体 为样本。求 的极大似然估计。

习题4

,比较以下三个 的估计量的均方误差:

习题5

已知。

(1) 求 的 Fisher 信息量 和 C-R 下界。

(2) 验证 是否达到 C-R 下界。

习题6

来自均匀分布

(1) 证明 的相合估计。

(2) 求 的 MLE ,判断其是否为无偏估计和相合估计。

卡方考研真题

习题7(2014年华东师范大学432)

是来自正态总体 的一个样本,下列统计量中,均方误差最小的是( )。

A.

B.

C.

D.

习题8(2017年北京师范大学432)

为来自总体 的简单随机样本,

(1) 样本标准差 是不是总体标准差 的无偏估计?为什么?

(2) 确定常数 ,使 的无偏估计。

习题9(2016年清华大学432)

设样本 独立,,其中 是已知的非零常数, 是未知参数。

(1) 求 的最大似然估计。

(2) 判断上面得到的估计是否为无偏估计。

习题10(2019年复旦大学432)

独立同分布,具有概率密度函数 ,其中

(1) 求 的 MLE,判断其无偏性。

(2) 的 MLE 是否具有一致性?

(3) 用样本均值估计总体均值的方式估计


十二、教材原文

第六章 参数估计/点估计