6.1 点估计的概念与无偏性
本节概览
一、点估计的基本概念
估计量与估计值
定义 6.1.1 — 估计量与估计值
设总体 的分布函数 中含有未知参数 , 是来自总体 的样本。
- 估计量:构造一个统计量 来估计 ,称 为 的估计量。估计量是随机变量(统计量)。
- 估计值:将样本观测值 代入估计量得到的数值 ,称为 的估计值。估计值是一个具体的数。
核心区别:估计量是随机变量(函数),估计值是具体的数值。例如 是 的估计量,而 是估计值。
三种点估计方法概述
| 方法 | 基本思想 | 优点 | 缺点 |
|---|---|---|---|
| 矩法 | 用样本矩代替总体矩 | 简便、直观、计算简单 | 不一定最优,未充分利用分布信息 |
| 极大似然法 | 使样本出现的概率最大 | 理论性质优良、渐近有效 | 需要知道分布形式,计算可能复杂 |
| 贝叶斯法 | 结合先验信息与样本信息 | 能利用先验知识 | 需要指定先验分布 |
例 6.1.1 — 直观理解点估计
设总体 , 未知, 为样本。
我们可以用样本均值 来估计 。
- 是一个统计量(随机变量),称为 的估计量。
- 若观测到 ,则 是 的估计值。
直观上,样本均值是总体均值的”自然”估计——它将所有样本信息集中到一个数值中。
二、无偏性
无偏估计的定义
定义 6.1.2 — 无偏估计
设 是参数 的一个估计量。若
对一切 成立,则称 是 的无偏估计量,简称无偏估计。
若 ,则称 是 的有偏估计量,其偏差为
常见无偏估计
定理:样本均值是总体均值的无偏估计
证明
证明: 第一步:展开期望
第二步:利用同分布性
由于 与总体 同分布,故 ,因此
定理:样本方差 是总体方差 的无偏估计
证明
证明: 第一步:定义样本方差
第二步:展开平方和
第三步:取期望
第四步:利用方差公式
第五步:代入化简
因此
样本标准差 不是 的无偏估计
重点结论
样本标准差 不是总体标准差 的无偏估计,即 。
这是因为开方是一个非线性运算,由 Jensen 不等式:
渐近无偏性:虽然 不是 的无偏估计,但它是渐近无偏的,即
更精确地,可以证明 ,其中 且 。
证明
证明(正态总体下): 第一步:利用卡方分布
在正态总体 下,。
第二步:计算
第三步:利用卡方分布矩
设 ,则
第四步:得出结论
其中 ,且 。
例 6.1.2 — 判断无偏性
设 是来自总体 的样本,,。判断以下统计量是否为 的无偏估计:
(1)
(2)
(3)
解:
(1) ,是无偏估计。
(2) ,是无偏估计。
(3) ,是无偏估计。
结论:无偏估计不唯一,同一个参数可以有无穷多个无偏估计。
例 6.1.3 — 样本标准差的有偏性
设 来自正态总体 ,。
问: 是否为 的无偏估计?
解:不是。由 Jensen 不等式,。
具体地,,其中 。
例如 时,; 时,。
当 时,,即 是 的渐近无偏估计。
三、有效性与Fisher信息量
有效估计的定义
定义 6.1.3 — 有效估计
设 是参数 的无偏估计量。若 的方差达到了所有无偏估计中方差的下界(即 Cramér-Rao 下界),则称 是 的有效估计量。
Fisher信息量
定义 6.1.4 — Fisher信息量
设总体 的概率密度函数(或概率质量函数)为 ,且满足正则条件,则
称 为 Fisher信息量,它衡量了样本包含关于参数 的信息量。
Cramér-Rao不等式
定理 6.1.1 — Cramér-Rao不等式
设 是来自总体 的样本, 是 的无偏估计,且满足正则条件,则
其中 称为 Cramér-Rao下界(C-R下界)。
等号成立的充要条件是:存在函数 使得
有效估计的判定
定理 6.1.2 — 有效估计的判定
无偏估计 是有效估计的充要条件是:
- 的方差等于 C-R 下界:
- 似然方程可以表示为 的线性函数
例 6.1.4 — 正态总体均值的有效性
设 , 已知,判断 是否为 的有效估计。
解:
第一步:计算 Fisher 信息量
因此 。
第二步:计算 C-R 下界
第三步:比较方差
方差恰好等于 C-R 下界,因此 是 的有效估计。
例 6.1.5 — 样本方差不是有效估计
设 ,判断 是否为 的有效估计。
解:
第一步:计算 Fisher 信息量
第二步:计算 C-R 下界
第三步:比较方差
由于 ,
因为 ,所以 不是 的有效估计。
四、相合性
相合估计的定义
定义 6.1.5 — 相合估计(一致估计)
设 是参数 的估计量。若对任意 ,有
即 ,则称 是 的相合估计量(或一致估计量)。
相合性的判定
定理 6.1.3 — 相合性的判定
以下条件之一成立即可保证 是 的相合估计:
均方误差趋于零:
无偏且方差趋于零: 且
矩法估计的相合性:矩法估计量一般是相合估计(由大数定律保证)
MLE的相合性:在正则条件下,极大似然估计是相合估计
例 6.1.6 — 矩估计的相合性
设 来自均匀分布 ,。
(1) 矩估计 是否为 的无偏估计?
(2) 是否为 的相合估计?
解:
(1) ,故
是无偏估计。
(2)
当 时,,因此 是 的相合估计。
五、均方误差
MSE的分解
定义 6.1.6 — 均方误差
估计量 关于参数 的均方误差(Mean Squared Error, MSE)定义为
定理 6.1.4 — 偏差-方差分解
其中 。
证明
证明: 第一步:引入中心化
第二步:展开平方
第三步:化简交叉项
由于 是常数,
第四步:得出结论
偏差-方差权衡
对于无偏估计,。但有时引入少量偏差可以大幅降低方差,从而使总 MSE 更小。
例 6.1.7 — 偏差-方差权衡
设 ,,比较以下 的估计量:
- (无偏)
- (有偏)
解:
:
:,
比较:,因此 的 MSE 更小。
六、矩估计法
基本思想
定义 6.1.7 — 矩估计法
矩估计法(Method of Moments, MoM)的基本思想是:用样本矩代替总体矩来建立方程,从而求解参数的估计。
具体步骤:
- 计算总体的前 阶矩 ,,它们是参数 的函数。
- 用样本矩 代替总体矩 。
- 解方程组 ,,得到参数的矩估计。
例 6.1.8 — 泊松分布的矩估计
设 来自泊松分布 ,求 的矩估计。
解:
第一步:计算总体矩
泊松分布 的期望 。
第二步:用样本矩代替
即泊松分布参数 的矩估计就是样本均值。
例 6.1.9 — 均匀分布的矩估计
设 来自均匀分布 ,求 的矩估计。
解:
第一步:计算总体期望
第二步:用样本矩代替
第三步:判断无偏性
因此 是 的无偏矩估计。
七、极大似然估计
似然函数的定义
定义 6.1.8 — 似然函数与极大似然估计
设 是来自总体 的样本,其联合密度(或联合概率质量函数)为
称 为似然函数。
若存在 使得
则称 为 的极大似然估计(Maximum Likelihood Estimation, MLE)。
对数似然函数
由于似然函数是多个因子的乘积,取对数可以简化计算:
因为 是严格单调递增函数,所以 和 在同一点取最大值。
MLE的求解步骤
- 写出似然函数
- 取对数
- 求导并令导数为零 (似然方程)
- 验证二阶条件(二阶导小于零)或通过其他方法确认是最大值
- 注意参数空间:若解不在参数空间内,需在边界上取最大值
不变性原理
定理 6.1.5 — 极大似然估计的不变性
若 是 的极大似然估计, 是 的函数( 为单值函数),则 是 的极大似然估计,即
例 6.1.10 — 正态分布的MLE
设 , 和 均未知,求 和 的极大似然估计。
解:
第一步:写出似然函数
第二步:取对数
第三步:对 求导
解得 。
第四步:对 求导
代入 ,解得 。
注意: 的 MLE 是 ,而不是无偏的样本方差 。MLE 是有偏估计。
八、知识结构总览
graph TD A[点估计] --> B[估计量与估计值] A --> C[评价标准] A --> D[构造方法] C --> C1[无偏性] C --> C2[有效性] C --> C3[相合性] C --> C4[均方误差] C1 --> C1a[样本均值估计总体均值] C1 --> C1b[样本方差估计总体方差] C1 --> C1c[样本标准差非无偏] C2 --> C2a[Fisher信息量] C2 --> C2b[Cramér-Rao不等式] C4 --> C4a[偏差方差分解] D --> D1[矩估计法] D --> D2[极大似然估计] D --> D3[贝叶斯估计] D2 --> D2a[似然函数] D2 --> D2b[对数似然函数] D2 --> D2c[不变性原理]
九、核心思想与技巧
判断无偏性的流程
graph TD S[给定估计量] --> Q{是否为参数的估计} Q -->|是| E[计算估计量的期望] Q -->|否| R[先确认估计对象] E --> F{期望等于参数吗} F -->|是| G[是无偏估计] F -->|否| H[是有偏估计] H --> I[偏差等于期望减参数] G --> J[进一步判断有效性和相合性]
解题技巧总结
- 判断无偏性:核心是计算期望 ,利用期望的线性性、方差的展开式等。
- 比较有效性:在多个无偏估计中,方差最小的最有效。利用 等常用公式。
- 求矩估计:先计算总体矩(期望、方差等),再用样本矩替换,解方程。
- 求MLE:写出似然函数 → 取对数 → 求导 → 解方程 → 注意参数空间边界。
- 均匀分布的MLE:MLE 通常与次序统计量有关( 或 ),不能直接求导。
- 不变性原理:若求 的 MLE,先求 ,再计算 。
- MSE比较:利用 分解,有时有偏估计的 MSE 更小。
十、补充理解与易混淆点
误区一:样本标准差是无偏的
来源:茆诗松《概率论与数理统计》 + 卡方训练营考研真题 + Brainly统计问答 + Oxford大学统计学讲义 + Eduardo García-Portugués统计推断课程
误区1:"样本标准差 S 是总体标准差 sigma 的无偏估计"
❌ 错误解释:因为 是 的无偏估计,所以 自然也是 的无偏估计。 ✅ 正确解释:开方是非线性运算,由 Jensen 不等式,。正态总体下 ,其中 ,仅当 时 (渐近无偏)。
误区二:无偏估计一定比有偏估计好
来源:茆诗松《概率论与数理统计》 + 华东师范大学432考研真题 + 卡方训练营 + NumberAnalytics统计学教程 + Fiveable统计学习
误区2:"无偏估计总是优于有偏估计"
❌ 错误解释:无偏意味着”平均来说准确”,所以无偏估计一定比有偏估计好。 ✅ 正确解释:评价估计量的好坏应看 MSE = Var + Bias^2。有偏估计如果方差足够小,其 MSE 可能反而更小。例如正态总体下, 虽然是 的有偏估计,但 MSE 为 ,小于无偏的 的 MSE 。
误区三:MLE一定无偏
来源:茆诗松《概率论与数理统计》 + Stack Exchange Cross Validated + Wikipedia极大似然估计条目 + 厦门大学432考研真题 + 复旦大学432考研真题
误区3:"极大似然估计一定是无偏估计"
❌ 错误解释:MLE 是”最好的”估计方法,所以得到的估计量一定无偏。 ✅ 正确解释:MLE 不一定无偏。例如正态总体 中 的 MLE 的期望为 ,是有偏的。均匀分布 中 的期望为 ,也是有偏的。但 MLE 通常是渐近无偏的。
误区四:矩估计和MLE总是相同
来源:茆诗松《概率论与数理统计》 + 西南大学432考研真题 + 兰州大学432考研真题 + CSDN数据科学博客 + SI-UC3M统计推断课程
误区4:"矩估计和极大似然估计总是相同的"
❌ 错误解释:两种方法都是用样本信息估计参数,结果应该一样。 ✅ 正确解释:矩估计和 MLE 不一定相同。例如均匀分布 的矩估计为 ,而 MLE 为 ,两者完全不同。泊松分布 的矩估计和 MLE 恰好相同(都是 ),但这只是特例。MLE 通常比矩估计更有效(渐近达到 C-R 下界),但计算更复杂。
十一、习题精选
习题概览
共10道习题:6道教材习题 + 4道卡方考研真题。
编号 来源 主题 难度 习题1 教材 无偏性判断 中 习题2 教材 矩估计求解 中 习题3 教材 极大似然估计 中 习题4 教材 MSE比较 中高 习题5 教材 有效性与C-R下界 高 习题6 教材 相合性证明 高 习题7 2014年华东师范大学432 无偏性与方差比较 ★★★ 习题8 2017年北京师范大学432 样本标准差无偏性 ★★★ 习题9 2016年清华大学432 MLE与无偏性判断 ★★★★ 习题10 2019年复旦大学432 矩估计与MLE综合 ★★★★
教材习题
习题1
设 是来自总体 的样本,,。确定常数 ,使 为 的无偏估计。
查看解答
解:
注意到
由于 与 独立:
因此
令 ,解得 。
习题2
设总体 的概率密度为 ,,。 为样本,求 的矩估计量。
查看解答
解:
由于 关于 对称,。需要用二阶矩:
令 ,则
用样本二阶矩代替:
因此 。
习题3
设总体 ,, 为样本。求 的极大似然估计。
查看解答
解:
似然函数:
其中 。
当 时,,关于 单调递减。
因此 在 处取最大值,即 。
注意:,MLE 是有偏的。无偏修正为 。
习题4
设 ,比较以下三个 的估计量的均方误差:
查看解答
解:
设 ,则 ,,。
:,
:,
:,
比较:(),因此 。
习题5
设 , 已知。
(1) 求 的 Fisher 信息量 和 C-R 下界。
(2) 验证 是否达到 C-R 下界。
查看解答
解:
(1)
C-R 下界:
(2) ,恰好达到 C-R 下界,因此 是 的有效估计。
习题6
设 来自均匀分布 ,。
(1) 证明 是 的相合估计。
(2) 求 的 MLE ,判断其是否为无偏估计和相合估计。
查看解答
解:
(1) (无偏)
无偏且方差趋于零,故 是相合估计。
(2) MLE:
无偏性:,有偏。
相合性:,,故 MLE 是相合估计。
卡方考研真题
习题7(2014年华东师范大学432)
设 是来自正态总体 的一个样本,下列统计量中,均方误差最小的是( )。
A.
B.
C.
D.
查看解答
解:选 C。
设 ,。
A:
B:
C:
D:
经比较,C 的均方误差最小。(也可令 代入比较。)
习题8(2017年北京师范大学432)
设 为来自总体 的简单随机样本,,。
(1) 样本标准差 是不是总体标准差 的无偏估计?为什么?
(2) 确定常数 ,使 为 的无偏估计。
查看解答
解:
(1) 不是。,,但 。
由 Jensen 不等式,。
(2)
解得 。
习题9(2016年清华大学432)
设样本 独立,,,其中 是已知的非零常数, 和 是未知参数。
(1) 求 和 的最大似然估计。
(2) 判断上面得到的估计是否为无偏估计。
查看解答
解:
(1) 似然函数:
对数似然关于 求导并令其为零:
解得
关于 求导:
(2) 是 的线性函数:
,无偏。
,有偏。
习题10(2019年复旦大学432)
设 独立同分布,具有概率密度函数 ,其中 ,。
(1) 求 的 MLE,判断其无偏性。
(2) 的 MLE 是否具有一致性?
(3) 用样本均值估计总体均值的方式估计 。
查看解答
解:
(1) 似然函数:
解得
令 ,则 ,。
,不是无偏估计。
(2) ,且 ,故具有一致性。
(3)
令 ,解得 。
十二、教材原文
第六章 参数估计/点估计