6.1 点估计的概念与无偏性

本节概览

本节系统介绍点估计的基本概念与评价标准。核心内容围绕三个问题展开：如何构造估计量（矩法与极大似然法）、如何评价估计量的优劣（无偏性、有效性、相合性）、以及如何综合衡量估计精度（均方误差）。

逻辑链条：基本概念 → 无偏性 → 有效性 → 相合性 → MSE → 矩估计 → MLE

前置依赖：§5.3（统计量定义）、§5.4（抽样分布）、§5.5（充分统计量）

核心主线：点估计的核心问题是”如何构造估计量”和”如何评价估计量”。矩估计法和MLE是两种最重要的构造方法；无偏性、有效性（C-R下界）、相合性构成评价标准体系；MSE将偏差与方差统一度量。

一、点估计的基本概念

估计量与估计值

定义 6.1.1 — 估计量与估计值

设总体 $X$ 的分布函数 $F (x; θ)$ 中含有未知参数 $θ$ ， $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $X$ 的样本。

估计量：构造一个统计量 $T = T (X_{1}, X_{2}, \dots, X_{n})$ 来估计 $θ$ ，称 $T$ 为 $θ$ 的估计量。估计量是随机变量（统计量）。

估计值：将样本观测值 $x_{1}, x_{2}, \dots, x_{n}$ 代入估计量得到的数值 $t = T (x_{1}, x_{2}, \dots, x_{n})$ ，称为 $θ$ 的估计值。估计值是一个具体的数。

核心区别：估计量是随机变量（函数），估计值是具体的数值。例如 $\overset{ˉ}{X}$ 是 $μ$ 的估计量，而 $\overset{x}{ˉ} = 3.5$ 是估计值。

三种点估计方法概述

方法	基本思想	优点	缺点
矩法	用样本矩代替总体矩	简便、直观、计算简单	不一定最优，未充分利用分布信息
极大似然法	使样本出现的概率最大	理论性质优良、渐近有效	需要知道分布形式，计算可能复杂
贝叶斯法	结合先验信息与样本信息	能利用先验知识	需要指定先验分布

例 6.1.1 — 直观理解点估计

设总体 $X \sim N (μ, σ^{2})$ ， $μ$ 未知， $X_{1}, X_{2}, \dots, X_{n}$ 为样本。

我们可以用样本均值 $\overset{ˉ}{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ 来估计 $μ$ 。

$\overset{ˉ}{X}$ 是一个统计量（随机变量），称为 $μ$ 的估计量。

若观测到 $x_{1} = 2.1, x_{2} = 1.8, x_{3} = 2.3$ ，则 $\overset{x}{ˉ} = 2.07$ 是 $μ$ 的估计值。

直观上，样本均值是总体均值的”自然”估计——它将所有样本信息集中到一个数值中。

二、无偏性

无偏估计的定义

定义 6.1.2 — 无偏估计

设 $\hat{θ} = \hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 是参数 $θ$ 的一个估计量。若
$E (\hat{θ}) = θ$
对一切 $θ \in Θ$ 成立，则称 $\hat{θ}$ 是 $θ$ 的无偏估计量，简称无偏估计。

若 $E (\hat{θ}) \neq = θ$ ，则称 $\hat{θ}$ 是 $θ$ 的有偏估计量，其偏差为
$Bias (\hat{θ}) = E (\hat{θ}) - θ$

常见无偏估计

定理：样本均值是总体均值的无偏估计

证明

证明： 第一步：展开期望
$E (\overset{ˉ}{X}) = E (\frac{1}{n} i = 1 \sum n X_{i}) = \frac{1}{n} i = 1 \sum n E (X_{i})$
第二步：利用同分布性

由于 $X_{1}, X_{2}, \dots, X_{n}$ 与总体 $X$ 同分布，故 $E (X_{i}) = μ$ ，因此
$E (\overset{ˉ}{X}) = \frac{1}{n} \cdot n μ = μ$
$□$

定理：样本方差 $S^{2}$ 是总体方差 $σ^{2}$ 的无偏估计

证明

证明： 第一步：定义样本方差
$S^{2} = \frac{1}{n - 1} i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2}$
第二步：展开平方和
$i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2} = i = 1 \sum n X_{i}^{2} - n \overset{ˉ}{X}^{2}$
第三步：取期望
$E (i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2}) = i = 1 \sum n E (X_{i}^{2}) - n E (\overset{ˉ}{X}^{2})$
第四步：利用方差公式

$E (X_{i}^{2}) = Var (X_{i}) + [E (X_{i})]^{2} = σ^{2} + μ^{2}$

$E (\overset{ˉ}{X}^{2}) = Var (\overset{ˉ}{X}) + [E (\overset{ˉ}{X})]^{2} = \frac{σ ^{2}}{n} + μ^{2}$

第五步：代入化简
$E (i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2}) = n (σ^{2} + μ^{2}) - n (\frac{σ ^{2}}{n} + μ^{2}) = (n - 1) σ^{2}$
因此
$E (S^{2}) = \frac{1}{n - 1} (n - 1) σ^{2} = σ^{2}$
$□$

样本标准差 $S$ 不是 $σ$ 的无偏估计

重点结论

样本标准差 $S = S^{2}$ 不是总体标准差 $σ$ 的无偏估计，即 $E (S) < σ$ 。

这是因为开方是一个非线性运算，由 Jensen 不等式：
$E (S) = E (S^{2}) < E (S^{2}) = σ^{2} = σ$

渐近无偏性：虽然 $S$ 不是 $σ$ 的无偏估计，但它是渐近无偏的，即

n \to \infty lim E (S) = σ

更精确地，可以证明 $E (S) = c_{n} σ$ ，其中 $c_{n} < 1$ 且 $c_{n} \to 1 (n \to \infty)$ 。

证明

证明（正态总体下）： 第一步：利用卡方分布

在正态总体 $N (μ, σ^{2})$ 下， $\frac{( n - 1 ) S ^{2}}{σ ^{2}} \sim χ^{2} (n - 1)$ 。

第二步：计算 $E (S)$
$E (S) = E (S^{2}) = E (σ \cdot \frac{( n - 1 ) S ^{2}}{σ ^{2}} \cdot \frac{1}{n - 1}) = \frac{σ}{n - 1} E (χ^{2} (n - 1))$
第三步：利用卡方分布矩

设 $Y \sim χ^{2} (n - 1)$ ，则
$E (Y) = \int_{0}^{+ \infty} y \cdot \frac{1}{2 ^{(n - 1) /2} Γ ( \frac{n - 1}{2} )} y^{(n - 1) /2 - 1} e^{- y /2} d y$ $= \frac{2 ^{1/2} Γ ( n /2 )}{Γ ( \frac{n - 1}{2} )}$
第四步：得出结论
$E (S) = \frac{σ}{n - 1} \cdot \frac{2 Γ ( n /2 )}{Γ ( \frac{n - 1}{2} )} = c_{n} σ$
其中 $c_{n} = \frac{2}{n - 1} \cdot \frac{Γ ( n /2 )}{Γ ( \frac{n - 1}{2} )} < 1$ ，且 $c_{n} \to 1 (n \to \infty)$ 。

$□$

例 6.1.2 — 判断无偏性

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $X$ 的样本， $E (X) = μ$ ， $Var (X) = σ^{2}$ 。判断以下统计量是否为 $μ$ 的无偏估计：

(1) $T_{1} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} = \overset{ˉ}{X}$

(2) $T_{2} = X_{1}$

(3) $T_{3} = \frac{1}{3} X_{1} + \frac{2}{3} X_{2}$

解：

(1) $E (T_{1}) = E (\overset{ˉ}{X}) = μ$ ，是无偏估计。

(2) $E (T_{2}) = E (X_{1}) = μ$ ，是无偏估计。

(3) $E (T_{3}) = \frac{1}{3} μ + \frac{2}{3} μ = μ$ ，是无偏估计。

结论：无偏估计不唯一，同一个参数可以有无穷多个无偏估计。

例 6.1.3 — 样本标准差的有偏性

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自正态总体 $N (μ, σ^{2})$ ， $S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ 。

问： $S$ 是否为 $σ$ 的无偏估计？

解：不是。由 Jensen 不等式， $E (S) = E (S^{2}) < E (S^{2}) = σ$ 。

具体地， $E (S) = c_{n} σ$ ，其中 $c_{n} = \frac{2}{n - 1} \cdot \frac{Γ ( n /2 )}{Γ ( \frac{n - 1}{2} )}$ 。

例如 $n = 2$ 时， $c_{2} = \frac{2}{π} \approx 0.798$ ； $n = 3$ 时， $c_{3} = \frac{2 2}{π} \cdot \frac{Γ ( 1.5 )}{Γ ( 1 )} \approx 0.886$ 。

当 $n \to \infty$ 时， $c_{n} \to 1$ ，即 $S$ 是 $σ$ 的渐近无偏估计。

三、有效性与Fisher信息量

有效估计的定义

定义 6.1.3 — 有效估计

设 $\hat{θ}$ 是参数 $θ$ 的无偏估计量。若 $\hat{θ}$ 的方差达到了所有无偏估计中方差的下界（即 Cramér-Rao 下界），则称 $\hat{θ}$ 是 $θ$ 的有效估计量。

Fisher信息量

定义 6.1.4 — Fisher信息量

设总体 $X$ 的概率密度函数（或概率质量函数）为 $f (x; θ)$ ，且满足正则条件，则
$I (θ) = E [(\frac{\partial}{\partial θ} ln f (X; θ))^{2}] = - E [\frac{\partial ^{2}}{\partial θ ^{2}} ln f (X; θ)]$
称 $I (θ)$ 为 Fisher信息量，它衡量了样本包含关于参数 $θ$ 的信息量。

Cramér-Rao不等式

定理 6.1.1 — Cramér-Rao不等式

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $f (x; θ)$ 的样本， $\hat{θ}$ 是 $θ$ 的无偏估计，且满足正则条件，则
$Var (\hat{θ}) \geq \frac{1}{n I ( θ )}$
其中 $\frac{1}{n I ( θ )}$ 称为 Cramér-Rao下界（C-R下界）。

等号成立的充要条件是：存在函数 $a (θ)$ 使得
$\frac{\partial}{\partial θ} ln L (θ; X_{1}, \dots, X_{n}) = a (θ) (\hat{θ} - θ)$

有效估计的判定

定理 6.1.2 — 有效估计的判定

无偏估计 $\hat{θ}$ 是有效估计的充要条件是：

$\hat{θ}$ 的方差等于 C-R 下界： $Var (\hat{θ}) = \frac{1}{n I ( θ )}$

似然方程可以表示为 $\hat{θ}$ 的线性函数

例 6.1.4 — 正态总体均值的有效性

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $σ^{2}$ 已知，判断 $\overset{ˉ}{X}$ 是否为 $μ$ 的有效估计。

解：

第一步：计算 Fisher 信息量
$f (x; μ) = \frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$ $ln f (x; μ) = - \frac{1}{2} ln (2 π) - ln σ - \frac{( x - μ ) ^{2}}{2 σ ^{2}}$ $\frac{\partial}{\partial μ} ln f (x; μ) = \frac{x - μ}{σ ^{2}}$ $\frac{\partial ^{2}}{\partial μ ^{2}} ln f (x; μ) = - \frac{1}{σ ^{2}}$
因此 $I (μ) = - E (- \frac{1}{σ ^{2}}) = \frac{1}{σ ^{2}}$ 。

第二步：计算 C-R 下界
$\frac{1}{n I ( μ )} = \frac{σ ^{2}}{n}$
第三步：比较方差
$Var (\overset{ˉ}{X}) = \frac{σ ^{2}}{n} = \frac{1}{n I ( μ )}$
方差恰好等于 C-R 下界，因此 $\overset{ˉ}{X}$ 是 $μ$ 的有效估计。

例 6.1.5 — 样本方差不是有效估计

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ，判断 $S^{2}$ 是否为 $σ^{2}$ 的有效估计。

解：

第一步：计算 Fisher 信息量
$\frac{\partial}{\partial σ ^{2}} ln f (x; σ^{2}) = - \frac{1}{2 σ ^{2}} + \frac{( x - μ ) ^{2}}{2 σ ^{4}}$ $\frac{\partial ^{2}}{\partial ( σ ^{2} ) ^{2}} ln f (x; σ^{2}) = \frac{1}{2 σ ^{4}} - \frac{( x - μ ) ^{2}}{σ ^{6}}$ $I (σ^{2}) = - E [\frac{\partial ^{2}}{\partial ( σ ^{2} ) ^{2}} ln f (x; σ^{2})] = \frac{1}{2 σ ^{4}}$
第二步：计算 C-R 下界
$\frac{1}{n I ( σ ^{2} )} = \frac{2 σ ^{4}}{n}$
第三步：比较方差

由于 $\frac{( n - 1 ) S ^{2}}{σ ^{2}} \sim χ^{2} (n - 1)$ ，
$Var (S^{2}) = \frac{σ ^{4}}{( n - 1 ) ^{2}} Var (χ^{2} (n - 1)) = \frac{σ ^{4}}{( n - 1 ) ^{2}} \cdot 2 (n - 1) = \frac{2 σ ^{4}}{n - 1}$
因为 $\frac{2 σ ^{4}}{n - 1} > \frac{2 σ ^{4}}{n}$ ，所以 $S^{2}$ 不是 $σ^{2}$ 的有效估计。

四、相合性

相合估计的定义

定义 6.1.5 — 相合估计（一致估计）

设 $\hat{θ}_{n} = \hat{θ} (X_{1}, X_{2}, \dots, X_{n})$ 是参数 $θ$ 的估计量。若对任意 $ε > 0$ ，有
$n \to \infty lim P (∣ \hat{θ}_{n} - θ ∣ \geq ε) = 0$
即 $\hat{θ}_{n} P θ$ ，则称 $\hat{θ}_{n}$ 是 $θ$ 的相合估计量（或一致估计量）。

相合性的判定

定理 6.1.3 — 相合性的判定

以下条件之一成立即可保证 $\hat{θ}_{n}$ 是 $θ$ 的相合估计：

均方误差趋于零： $lim_{n \to \infty} E [(\hat{θ}_{n} - θ)^{2}] = 0$

无偏且方差趋于零： $E (\hat{θ}_{n}) = θ$ 且 $lim_{n \to \infty} Var (\hat{θ}_{n}) = 0$

矩法估计的相合性：矩法估计量一般是相合估计（由大数定律保证）

MLE的相合性：在正则条件下，极大似然估计是相合估计

例 6.1.6 — 矩估计的相合性

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自均匀分布 $U (θ, 2 θ)$ ， $θ > 0$ 。

(1) 矩估计 $\hat{θ}_{M} = \frac{2}{3} \overset{ˉ}{X}$ 是否为 $θ$ 的无偏估计？

(2) $\hat{θ}_{M}$ 是否为 $θ$ 的相合估计？

解：

(1) $E (X) = \frac{θ + 2 θ}{2} = \frac{3 θ}{2}$ ，故
$E (\hat{θ}_{M}) = E (\frac{2}{3} \overset{ˉ}{X}) = \frac{2}{3} E (X) = \frac{2}{3} \cdot \frac{3 θ}{2} = θ$
是无偏估计。

(2) $Var (\hat{θ}_{M}) = \frac{4}{9} Var (\overset{ˉ}{X}) = \frac{4}{9 n} Var (X) = \frac{4}{9 n} \cdot \frac{θ ^{2}}{12} = \frac{θ ^{2}}{27 n}$

当 $n \to \infty$ 时， $Var (\hat{θ}_{M}) \to 0$ ，因此 $\hat{θ}_{M}$ 是 $θ$ 的相合估计。

五、均方误差

MSE的分解

定义 6.1.6 — 均方误差

估计量 $\hat{θ}$ 关于参数 $θ$ 的均方误差（Mean Squared Error, MSE）定义为
$MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}]$

定理 6.1.4 — 偏差-方差分解

$MSE (\hat{θ}) = Var (\hat{θ}) + [Bias (\hat{θ})]^{2}$
其中 $Bias (\hat{θ}) = E (\hat{θ}) - θ$ 。

证明

证明： 第一步：引入中心化
$MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] = E [((\hat{θ} - E \hat{θ}) + (E \hat{θ} - θ))^{2}]$
第二步：展开平方
$= E [(\hat{θ} - E \hat{θ})^{2}] + (E \hat{θ} - θ)^{2} + 2 E [(\hat{θ} - E \hat{θ}) (E \hat{θ} - θ)]$
第三步：化简交叉项

由于 $E \hat{θ} - θ$ 是常数，
$E [(\hat{θ} - E \hat{θ}) (E \hat{θ} - θ)] = (E \hat{θ} - θ) \cdot E [\hat{θ} - E \hat{θ}] = 0$
第四步：得出结论
$MSE (\hat{θ}) = Var (\hat{θ}) + [Bias (\hat{θ})]^{2}$
$□$

偏差-方差权衡

对于无偏估计， $MSE = Var$ 。但有时引入少量偏差可以大幅降低方差，从而使总 MSE 更小。

例 6.1.7 — 偏差-方差权衡

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $μ = 0$ ，比较以下 $σ^{2}$ 的估计量：

$T_{1} = S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ （无偏）

$T_{2} = \frac{n - 1}{n + 1} S^{2}$ （有偏）

解：

$T_{1}$ ： $MSE (T_{1}) = Var (S^{2}) = \frac{2 σ ^{4}}{n - 1}$

$T_{2}$ ： $E (T_{2}) = \frac{n - 1}{n + 1} σ^{2}$ ， $Bias (T_{2}) = - \frac{2}{n + 1} σ^{2}$
$MSE (T_{2}) = (\frac{n - 1}{n + 1})^{2} \frac{2 σ ^{4}}{n - 1} + (\frac{2 σ ^{2}}{n + 1})^{2} = \frac{2 σ ^{4}}{n + 1}$
比较： $\frac{2 σ ^{4}}{n + 1} < \frac{2 σ ^{4}}{n - 1}$ ，因此 $T_{2}$ 的 MSE 更小。

六、矩估计法

基本思想

定义 6.1.7 — 矩估计法

矩估计法（Method of Moments, MoM）的基本思想是：用样本矩代替总体矩来建立方程，从而求解参数的估计。

具体步骤：

计算总体的前 $k$ 阶矩 $μ_{j} = E (X^{j})$ ， $j = 1, 2, \dots, k$ ，它们是参数 $θ_{1}, \dots, θ_{k}$ 的函数。

用样本矩 $A_{j} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{j}$ 代替总体矩 $μ_{j}$ 。

解方程组 $μ_{j} (θ_{1}, \dots, θ_{k}) = A_{j}$ ， $j = 1, 2, \dots, k$ ，得到参数的矩估计。

例 6.1.8 — 泊松分布的矩估计

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自泊松分布 $P (λ)$ ，求 $λ$ 的矩估计。

解：

第一步：计算总体矩

泊松分布 $P (λ)$ 的期望 $E (X) = λ$ 。

第二步：用样本矩代替
$\hat{λ} = \overset{ˉ}{X} = \frac{1}{n} i = 1 \sum n X_{i}$
即泊松分布参数 $λ$ 的矩估计就是样本均值。

例 6.1.9 — 均匀分布的矩估计

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自均匀分布 $U (0, θ)$ ，求 $θ$ 的矩估计。

解：

第一步：计算总体期望
$E (X) = \frac{θ}{2}$
第二步：用样本矩代替
$\frac{θ ^}{2} = \overset{ˉ}{X} ⟹ \hat{θ} = 2 \overset{ˉ}{X}$
第三步：判断无偏性
$E (\hat{θ}) = 2 E (\overset{ˉ}{X}) = 2 \cdot \frac{θ}{2} = θ$
因此 $2 \overset{ˉ}{X}$ 是 $θ$ 的无偏矩估计。

七、极大似然估计

似然函数的定义

定义 6.1.8 — 似然函数与极大似然估计

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $f (x; θ)$ 的样本，其联合密度（或联合概率质量函数）为
$L (θ) = L (θ; x_{1}, \dots, x_{n}) = i = 1 \prod n f (x_{i}; θ)$
称 $L (θ)$ 为似然函数。

若存在 $\hat{θ} = \hat{θ} (x_{1}, \dots, x_{n})$ 使得
$L (\hat{θ}) = θ \in Θ max L (θ)$
则称 $\hat{θ}$ 为 $θ$ 的极大似然估计（Maximum Likelihood Estimation, MLE）。

对数似然函数

由于似然函数是多个因子的乘积，取对数可以简化计算：

ln L (θ) = i = 1 \sum n ln f (x_{i}; θ)

因为 $ln$ 是严格单调递增函数，所以 $ln L (θ)$ 和 $L (θ)$ 在同一点取最大值。

MLE的求解步骤

写出似然函数 $L (θ) = \prod_{i = 1}^{n} f (x_{i}; θ)$
取对数 $ln L (θ) = \sum_{i = 1}^{n} ln f (x_{i}; θ)$
求导并令导数为零 $\frac{d}{d θ} ln L (θ) = 0$ （似然方程）
验证二阶条件（二阶导小于零）或通过其他方法确认是最大值
注意参数空间：若解不在参数空间内，需在边界上取最大值

不变性原理

定理 6.1.5 — 极大似然估计的不变性

若 $\hat{θ}$ 是 $θ$ 的极大似然估计， $g (θ)$ 是 $θ$ 的函数（ $g$ 为单值函数），则 $g (\hat{θ})$ 是 $g (θ)$ 的极大似然估计，即
$g (θ) = g (\hat{θ})$

例 6.1.10 — 正态分布的MLE

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $μ$ 和 $σ^{2}$ 均未知，求 $μ$ 和 $σ^{2}$ 的极大似然估计。

解：

第一步：写出似然函数
$L (μ, σ^{2}) = i = 1 \prod n \frac{1}{2 π σ ^{2}} exp {- \frac{( x _{i} - μ ) ^{2}}{2 σ ^{2}}}$ $= (2 π σ^{2})^{- n /2} exp {- \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}}$
第二步：取对数
$ln L = - \frac{n}{2} ln (2 π) - \frac{n}{2} ln σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}$
第三步：对 $μ$ 求导
$\frac{\partial ln L}{\partial μ} = \frac{1}{σ ^{2}} i = 1 \sum n (x_{i} - μ) = 0$
解得 $\overset{μ}{^} = \overset{x}{ˉ} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$ 。

第四步：对 $σ^{2}$ 求导
$\frac{\partial ln L}{\partial σ ^{2}} = - \frac{n}{2 σ ^{2}} + \frac{1}{2 σ ^{4}} i = 1 \sum n (x_{i} - μ)^{2} = 0$
代入 $\overset{μ}{^} = \overset{x}{ˉ}$ ，解得 $\overset{σ}{^}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2}$ 。

注意： $σ^{2}$ 的 MLE 是 $\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2}$ ，而不是无偏的样本方差 $S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2}$ 。MLE 是有偏估计。

八、知识结构总览

graph TD
    A[点估计] --> B[估计量与估计值]
    A --> C[评价标准]
    A --> D[构造方法]

    C --> C1[无偏性]
    C --> C2[有效性]
    C --> C3[相合性]
    C --> C4[均方误差]

    C1 --> C1a[样本均值估计总体均值]
    C1 --> C1b[样本方差估计总体方差]
    C1 --> C1c[样本标准差非无偏]

    C2 --> C2a[Fisher信息量]
    C2 --> C2b[Cramér-Rao不等式]

    C4 --> C4a[偏差方差分解]

    D --> D1[矩估计法]
    D --> D2[极大似然估计]
    D --> D3[贝叶斯估计]

    D2 --> D2a[似然函数]
    D2 --> D2b[对数似然函数]
    D2 --> D2c[不变性原理]

九、核心思想与技巧

判断无偏性的流程

graph TD
    S[给定估计量] --> Q{是否为参数的估计}
    Q -->|是| E[计算估计量的期望]
    Q -->|否| R[先确认估计对象]
    E --> F{期望等于参数吗}
    F -->|是| G[是无偏估计]
    F -->|否| H[是有偏估计]
    H --> I[偏差等于期望减参数]
    G --> J[进一步判断有效性和相合性]

解题技巧总结

判断无偏性：核心是计算期望 $E (\hat{θ})$ ，利用期望的线性性、方差的展开式等。
比较有效性：在多个无偏估计中，方差最小的最有效。利用 $Var (\overset{ˉ}{X}) = \frac{σ ^{2}}{n}$ 等常用公式。
求矩估计：先计算总体矩（期望、方差等），再用样本矩替换，解方程。
求MLE：写出似然函数 → 取对数 → 求导 → 解方程 → 注意参数空间边界。
均匀分布的MLE：MLE 通常与次序统计量有关（ $X_{(1)}$ 或 $X_{(n)}$ ），不能直接求导。
不变性原理：若求 $g (θ)$ 的 MLE，先求 $\hat{θ}_{M L E}$ ，再计算 $g (\hat{θ}_{M L E})$ 。
MSE比较：利用 $MSE = Var + Bias^{2}$ 分解，有时有偏估计的 MSE 更小。

十、补充理解与易混淆点

误区一：样本标准差是无偏的

来源：茆诗松《概率论与数理统计》 + 卡方训练营考研真题 + Brainly统计问答 + Oxford大学统计学讲义 + Eduardo García-Portugués统计推断课程

误区1："样本标准差 S 是总体标准差 sigma 的无偏估计"

❌ 错误解释：因为 $S^{2}$ 是 $σ^{2}$ 的无偏估计，所以 $S = S^{2}$ 自然也是 $σ$ 的无偏估计。 ✅ 正确解释：开方是非线性运算，由 Jensen 不等式， $E (S) = E (S^{2}) < E (S^{2}) = σ$ 。正态总体下 $E (S) = c_{n} σ$ ，其中 $c_{n} = \frac{2}{n - 1} \cdot \frac{Γ ( n /2 )}{Γ ( \frac{n - 1}{2} )} < 1$ ，仅当 $n \to \infty$ 时 $c_{n} \to 1$ （渐近无偏）。

误区二：无偏估计一定比有偏估计好

来源：茆诗松《概率论与数理统计》 + 华东师范大学432考研真题 + 卡方训练营 + NumberAnalytics统计学教程 + Fiveable统计学习

误区2："无偏估计总是优于有偏估计"

❌ 错误解释：无偏意味着”平均来说准确”，所以无偏估计一定比有偏估计好。 ✅ 正确解释：评价估计量的好坏应看 MSE = Var + Bias^2。有偏估计如果方差足够小，其 MSE 可能反而更小。例如正态总体下， $\frac{n - 1}{n + 1} S^{2}$ 虽然是 $σ^{2}$ 的有偏估计，但 MSE 为 $\frac{2 σ ^{4}}{n + 1}$ ，小于无偏的 $S^{2}$ 的 MSE $\frac{2 σ ^{4}}{n - 1}$ 。

误区三：MLE一定无偏

来源：茆诗松《概率论与数理统计》 + Stack Exchange Cross Validated + Wikipedia极大似然估计条目 + 厦门大学432考研真题 + 复旦大学432考研真题

误区3："极大似然估计一定是无偏估计"

❌ 错误解释：MLE 是”最好的”估计方法，所以得到的估计量一定无偏。 ✅ 正确解释：MLE 不一定无偏。例如正态总体 $N (μ, σ^{2})$ 中 $σ^{2}$ 的 MLE $\overset{σ}{^}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ 的期望为 $\frac{n - 1}{n} σ^{2} \neq = σ^{2}$ ，是有偏的。均匀分布 $U (0, θ)$ 中 $\hat{θ} = X_{(n)}$ 的期望为 $\frac{n}{n + 1} θ$ ，也是有偏的。但 MLE 通常是渐近无偏的。

误区四：矩估计和MLE总是相同

来源：茆诗松《概率论与数理统计》 + 西南大学432考研真题 + 兰州大学432考研真题 + CSDN数据科学博客 + SI-UC3M统计推断课程

误区4："矩估计和极大似然估计总是相同的"

❌ 错误解释：两种方法都是用样本信息估计参数，结果应该一样。 ✅ 正确解释：矩估计和 MLE 不一定相同。例如均匀分布 $U (0, θ)$ 的矩估计为 $2 \overset{ˉ}{X}$ ，而 MLE 为 $X_{(n)}$ ，两者完全不同。泊松分布 $P (λ)$ 的矩估计和 MLE 恰好相同（都是 $\overset{ˉ}{X}$ ），但这只是特例。MLE 通常比矩估计更有效（渐近达到 C-R 下界），但计算更复杂。

十一、习题精选

习题概览

共10道习题：6道教材习题 + 4道卡方考研真题。

编号来源主题难度
习题1 教材无偏性判断中
习题2 教材矩估计求解中
习题3 教材极大似然估计中
习题4 教材 MSE比较中高
习题5 教材有效性与C-R下界高
习题6 教材相合性证明高
习题7 2014年华东师范大学432 无偏性与方差比较 ★★★
习题8 2017年北京师范大学432 样本标准差无偏性 ★★★
习题9 2016年清华大学432 MLE与无偏性判断 ★★★★
习题10 2019年复旦大学432 矩估计与MLE综合 ★★★★

编号	来源	主题	难度
习题1	教材	无偏性判断	中
习题2	教材	矩估计求解	中
习题3	教材	极大似然估计	中
习题4	教材	MSE比较	中高
习题5	教材	有效性与C-R下界	高
习题6	教材	相合性证明	高
习题7	2014年华东师范大学432	无偏性与方差比较	★★★
习题8	2017年北京师范大学432	样本标准差无偏性	★★★
习题9	2016年清华大学432	MLE与无偏性判断	★★★★
习题10	2019年复旦大学432	矩估计与MLE综合	★★★★

教材习题

习题1

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体 $X$ 的样本， $E (X) = μ$ ， $Var (X) = σ^{2}$ 。确定常数 $c$ ，使 $T = c \sum_{i = 1}^{n - 1} (X_{i + 1} - X_{i})^{2}$ 为 $σ^{2}$ 的无偏估计。

查看解答

解：

注意到 $E [(X_{i + 1} - X_{i})^{2}] = E [X_{i + 1}^{2} - 2 X_{i + 1} X_{i} + X_{i}^{2}]$

由于 $X_{i + 1}$ 与 $X_{i}$ 独立：

$= E (X_{i + 1}^{2}) - 2 E (X_{i + 1}) E (X_{i}) + E (X_{i}^{2}) = (σ^{2} + μ^{2}) - 2 μ^{2} + (σ^{2} + μ^{2}) = 2 σ^{2}$

因此 $E (T) = c \cdot (n - 1) \cdot 2 σ^{2} = 2 c (n - 1) σ^{2}$

令 $2 c (n - 1) σ^{2} = σ^{2}$ ，解得 $c = \frac{1}{2 ( n - 1 )}$ 。

习题2

设总体 $X$ 的概率密度为 $f (x) = \frac{1}{2 θ} e^{- ∣ x ∣/ θ}$ ， $- \infty < x < + \infty$ ， $θ > 0$ 。 $X_{1}, X_{2}, \dots, X_{n}$ 为样本，求 $θ$ 的矩估计量。

查看解答

解：

由于 $f (x)$ 关于 $x = 0$ 对称， $E (X) = 0$ 。需要用二阶矩：

$E (X^{2}) = \int_{- \infty}^{+ \infty} x^{2} \cdot \frac{1}{2 θ} e^{- ∣ x ∣/ θ} d x = 2 \int_{0}^{+ \infty} x^{2} \cdot \frac{1}{2 θ} e^{- x / θ} d x = \frac{1}{θ} \int_{0}^{+ \infty} x^{2} e^{- x / θ} d x$

令 $t = x / θ$ ，则

$= θ^{2} \int_{0}^{+ \infty} t^{2} e^{- t} d t = θ^{2} Γ (3) = 2 θ^{2}$

用样本二阶矩代替： $\frac{1}{n} \sum_{i = 1}^{n} X_{i}^{2} = 2 \hat{θ}^{2}$

因此 $\hat{θ} = \frac{1}{2 n} \sum_{i = 1}^{n} X_{i}^{2}$ 。

习题3

设总体 $X \sim U (0, θ)$ ， $θ > 0$ ， $X_{1}, X_{2}, \dots, X_{n}$ 为样本。求 $θ$ 的极大似然估计。

查看解答

解：

似然函数：

$L (θ) = \prod_{i = 1}^{n} \frac{1}{θ} \cdot I_{{0 < x_{i} < θ}} = \frac{1}{θ ^{n}} \cdot I_{{x_{(n)} < θ}}$

其中 $x_{(n)} = max {x_{1}, \dots, x_{n}}$ 。

当 $θ \geq x_{(n)}$ 时， $L (θ) = \frac{1}{θ ^{n}}$ ，关于 $θ$ 单调递减。

因此 $L (θ)$ 在 $θ = x_{(n)}$ 处取最大值，即 $\hat{θ}_{M L E} = X_{(n)}$ 。

注意： $E (X_{(n)}) = \frac{n}{n + 1} θ \neq = θ$ ，MLE 是有偏的。无偏修正为 $\hat{θ}_{u nbia se d} = \frac{n + 1}{n} X_{(n)}$ 。

习题4

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (0, σ^{2})$ ，比较以下三个 $σ^{2}$ 的估计量的均方误差：

$T_{1} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2} = S^{2}$

$T_{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$

$T_{3} = \frac{1}{n + 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$

查看解答

解：

设 $Q = \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ ，则 $\frac{Q}{σ ^{2}} \sim χ^{2} (n - 1)$ ， $E (Q) = (n - 1) σ^{2}$ ， $Var (Q) = 2 (n - 1) σ^{4}$ 。

$T_{1} = \frac{Q}{n - 1}$ ： $E (T_{1}) = σ^{2}$ ， $MSE (T_{1}) = Var (T_{1}) = \frac{2 σ ^{4}}{n - 1}$

$T_{2} = \frac{Q}{n}$ ： $E (T_{2}) = \frac{n - 1}{n} σ^{2}$ ， $Bias^{2} = \frac{σ ^{4}}{n ^{2}}$

$MSE (T_{2}) = \frac{2 ( n - 1 ) σ ^{4}}{n ^{2}} + \frac{σ ^{4}}{n ^{2}} = \frac{( 2 n - 1 ) σ ^{4}}{n ^{2}}$

$T_{3} = \frac{Q}{n + 1}$ ： $E (T_{3}) = \frac{n - 1}{n + 1} σ^{2}$ ， $Bias^{2} = \frac{4 σ ^{4}}{( n + 1 ) ^{2}}$

$MSE (T_{3}) = \frac{2 ( n - 1 ) σ ^{4}}{( n + 1 ) ^{2}} + \frac{4 σ ^{4}}{( n + 1 ) ^{2}} = \frac{2 σ ^{4}}{n + 1}$

比较： $\frac{2}{n + 1} < \frac{2 n - 1}{n ^{2}} < \frac{2}{n - 1}$ （ $n \geq 2$ ），因此 $MSE (T_{3}) < MSE (T_{2}) < MSE (T_{1})$ 。

习题5

设 $X_{1}, X_{2}, \dots, X_{n} \sim N (μ, σ^{2})$ ， $σ^{2}$ 已知。

(1) 求 $μ$ 的 Fisher 信息量 $I (μ)$ 和 C-R 下界。

(2) 验证 $\overset{ˉ}{X}$ 是否达到 C-R 下界。

查看解答

解：

(1) $f (x; μ) = \frac{1}{2 π σ} e^{- (x - μ)^{2} / (2 σ^{2})}$

$ln f = - \frac{1}{2} ln (2 π) - ln σ - \frac{( x - μ ) ^{2}}{2 σ ^{2}}$

$\frac{\partial ^{2}}{\partial μ ^{2}} ln f = - \frac{1}{σ ^{2}}$

$I (μ) = - E (- \frac{1}{σ ^{2}}) = \frac{1}{σ ^{2}}$

C-R 下界： $\frac{1}{n I ( μ )} = \frac{σ ^{2}}{n}$

(2) $Var (\overset{ˉ}{X}) = \frac{σ ^{2}}{n} = \frac{1}{n I ( μ )}$ ，恰好达到 C-R 下界，因此 $\overset{ˉ}{X}$ 是 $μ$ 的有效估计。

习题6

设 $X_{1}, X_{2}, \dots, X_{n}$ 来自均匀分布 $U (θ, 2 θ)$ ， $θ > 0$ 。

(1) 证明 $\hat{θ} = \frac{2}{3} \overset{ˉ}{X}$ 是 $θ$ 的相合估计。

(2) 求 $θ$ 的 MLE $\hat{θ}_{M L E} = \frac{X _{(n)}}{2}$ ，判断其是否为无偏估计和相合估计。

查看解答

解：

(1) $E (\hat{θ}) = \frac{2}{3} E (\overset{ˉ}{X}) = \frac{2}{3} \cdot \frac{3 θ}{2} = θ$ （无偏）

$Var (\hat{θ}) = \frac{4}{9} Var (\overset{ˉ}{X}) = \frac{4}{9 n} Var (X) = \frac{4}{9 n} \cdot \frac{θ ^{2}}{12} = \frac{θ ^{2}}{27 n} \to 0$

无偏且方差趋于零，故 $\hat{θ}$ 是相合估计。

(2) MLE： $\hat{θ}_{M L E} = \frac{X _{(n)}}{2}$

无偏性： $E (\hat{θ}_{M L E}) = \frac{1}{2} E (X_{(n)}) = \frac{1}{2} \cdot \frac{2 n + 1}{2 ( n + 1 )} θ = \frac{2 n + 1}{4 ( n + 1 )} θ \neq = θ$ ，有偏。

相合性： $lim_{n \to \infty} E (\hat{θ}_{M L E}) = θ$ ， $lim_{n \to \infty} Var (\hat{θ}_{M L E}) = 0$ ，故 MLE 是相合估计。

卡方考研真题

习题7（2014年华东师范大学432）

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自正态总体 $N (μ, σ^{2})$ 的一个样本，下列统计量中，均方误差最小的是（）。

A. $\frac{1}{n - 1} \sum_{k = 1}^{n} (X_{k} - \overset{ˉ}{X})^{2}$

B. $\frac{1}{n} \sum_{k = 1}^{n} (X_{k} - \overset{ˉ}{X})^{2}$

C. $\frac{1}{n + 1} \sum_{k = 1}^{n} (X_{k} - \overset{ˉ}{X})^{2}$

D. $\frac{1}{n + 2} \sum_{k = 1}^{n} (X_{k} - \overset{ˉ}{X})^{2}$

查看解答

解：选 C。

设 $Q = \sum_{k = 1}^{n} (X_{k} - \overset{ˉ}{X})^{2}$ ， $\frac{Q}{σ ^{2}} \sim χ^{2} (n - 1)$ 。

A: $MSE = Var (S^{2}) = \frac{2 σ ^{4}}{n - 1}$

B: $MSE = \frac{( 2 n - 1 ) σ ^{4}}{n ^{2}}$

C: $MSE = \frac{2 σ ^{4}}{n + 1}$

D: $MSE = \frac{( 2 n + 7 ) σ ^{4}}{( n + 2 ) ^{2}}$

经比较，C 的均方误差最小。（也可令 $n = 2$ 代入比较。）

习题8（2017年北京师范大学432）

设 $X_{1}, X_{2}, \dots, X_{n}$ 为来自总体 $X$ 的简单随机样本， $E (X) = μ$ ， $Var (X) = σ^{2}$ 。

(1) 样本标准差 $S$ 是不是总体标准差 $σ$ 的无偏估计？为什么？

(2) 确定常数 $c$ ，使 $(\overset{ˉ}{X})^{2} - c S^{2}$ 为 $μ^{2}$ 的无偏估计。

查看解答

解：

(1) 不是。 $S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ ， $E [S^{2}] = σ^{2}$ ，但 $Var (S) \neq = 0$ 。

$E [S] = E [S^{2}] - Var (S) = σ^{2} - Var (S) < σ$

由 Jensen 不等式， $E [S^{2}] < E [S^{2}] = σ$ 。

(2) $E [(\overset{ˉ}{X})^{2} - c S^{2}] = E [(\overset{ˉ}{X})^{2}] - c E (S^{2}) = (\frac{σ ^{2}}{n} + μ^{2}) - c σ^{2} = μ^{2}$

解得 $c = \frac{1}{n}$ 。

习题9（2016年清华大学432）

设样本 $Y_{1}, Y_{2}, \dots, Y_{n}$ 独立， $Y_{i} \sim N (k x_{i}, σ^{2})$ ， $i = 1, 2, \dots, n$ ，其中 $x_{1}, x_{2}, \dots, x_{n}$ 是已知的非零常数， $k$ 和 $σ^{2}$ 是未知参数。

(1) 求 $k$ 和 $σ^{2}$ 的最大似然估计。

(2) 判断上面得到的估计是否为无偏估计。

查看解答

解：

(1) 似然函数：

$L (k, σ^{2}) = \prod_{i = 1}^{n} \frac{1}{2 π σ ^{2}} exp {- \frac{( y _{i} - k x _{i} ) ^{2}}{2 σ ^{2}}}$

对数似然关于 $k$ 求导并令其为零：

$\frac{\partial l n L}{\partial k} = \frac{1}{σ ^{2}} \sum_{i = 1}^{n} (y_{i} - k x_{i}) x_{i} = 0$

解得 $\hat{k}_{M L E} = \frac{\sum _{i = 1}^{n} x _{i} y _{i}}{\sum _{i = 1}^{n} x _{i}^{2}}$

关于 $σ^{2}$ 求导：

$\overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \hat{k}_{M L E} x_{i})^{2}$

(2) $\hat{k}_{M L E}$ 是 $k$ 的线性函数：

$E (\hat{k}_{M L E}) = \frac{\sum _{i = 1}^{n} x _{i} E ( y _{i} )}{\sum _{i = 1}^{n} x _{i}^{2}} = \frac{\sum _{i = 1}^{n} x _{i} \cdot k x _{i}}{\sum _{i = 1}^{n} x _{i}^{2}} = k$ ，无偏。

$E (\overset{σ}{^}_{M L E}^{2}) = \frac{n - 1}{n} σ^{2} \neq = σ^{2}$ ，有偏。

习题10（2019年复旦大学432）

设 $X_{1}, X_{2}, \dots, X_{n}$ 独立同分布，具有概率密度函数 $f (x ∣ θ) = θ x^{θ - 1}$ ，其中 $0 < θ < \infty$ ， $x \in (0, 1)$ 。

(1) 求 $θ$ 的 MLE，判断其无偏性。

(2) $θ$ 的 MLE 是否具有一致性？

(3) 用样本均值估计总体均值的方式估计 $θ$ 。

查看解答

解：

(1) 似然函数： $L (θ) = θ^{n} \prod_{i = 1}^{n} x_{i}^{θ - 1}$

$ln L = n ln θ + (θ - 1) \sum_{i = 1}^{n} ln x_{i}$

$\frac{d l n L}{d θ} = \frac{n}{θ} + \sum_{i = 1}^{n} ln x_{i} = 0$

解得 $\hat{θ}_{M L E} = - \frac{n}{\sum _{i = 1}^{n} l n X _{i}}$

令 $Y_{i} = - ln X_{i}$ ，则 $Y_{i} \sim Exp (θ)$ ， $\sum_{i = 1}^{n} Y_{i} \sim Ga (n, θ)$ 。

$E (\hat{θ}_{M L E}) = n \cdot E (\frac{1}{\sum Y _{i}}) = n \cdot \frac{θ}{n - 1} = \frac{n}{n - 1} θ \neq = θ$ ，不是无偏估计。

(2) $Var (\hat{θ}_{M L E}) = \frac{n ^{2} θ ^{2}}{( n - 1 ) ^{2} ( n - 2 )} \to 0$ ，且 $lim_{n \to \infty} E (\hat{θ}_{M L E}) = θ$ ，故具有一致性。

(3) $E (X) = \int_{0}^{1} x \cdot θ x^{θ - 1} d x = \frac{θ}{θ + 1}$

令 $\frac{θ ^}{θ ^ + 1} = \overset{ˉ}{X}$ ，解得 $\hat{θ} = \frac{X ˉ}{1 - X ˉ}$ 。

十二、教材原文

第六章参数估计/点估计

数学笔记 Wiki

探索

6.1 点估计的概念与无偏性

6.1 点估计的概念与无偏性

一、点估计的基本概念

估计量与估计值

三种点估计方法概述

二、无偏性

无偏估计的定义

常见无偏估计

样本标准差 S 不是 σ 的无偏估计

三、有效性与Fisher信息量

有效估计的定义

Fisher信息量

Cramér-Rao不等式

有效估计的判定

四、相合性

相合估计的定义

相合性的判定

五、均方误差

MSE的分解

偏差-方差权衡

六、矩估计法

基本思想

七、极大似然估计

似然函数的定义

对数似然函数

MLE的求解步骤

不变性原理

八、知识结构总览

九、核心思想与技巧

判断无偏性的流程

解题技巧总结

十、补充理解与易混淆点

误区一：样本标准差是无偏的

误区二：无偏估计一定比有偏估计好

误区三：MLE一定无偏

误区四：矩估计和MLE总是相同

十一、习题精选

教材习题

卡方考研真题

十二、教材原文

关系图谱

目录

反向链接

样本标准差 $S$ 不是 $σ$ 的无偏估计