5.3 统计量及其分布

本节概览

本节是数理统计的核心基础,系统介绍统计量的概念及其抽样分布。统计量是连接”样本数据”与”统计推断”的桥梁——通过对样本数据进行加工(求均值、方差、排序等),提取出用于推断总体参数的信息。

逻辑链条统计量定义样本均值样本方差样本矩次序统计量样本分位数箱线图

前置依赖§5.1(总体与样本)、§4.4(CLT)、§2.5(Beta分布)、§3.3(变量变换法)

核心主线:统计量是”不含未知参数的样本函数”,其概率分布称为抽样分布。本节重点掌握样本均值和样本方差的性质与分布、次序统计量的分布推导,以及样本分位数的渐近理论。


一、统计量与抽样分布

定义

定义 5.3.1 — 统计量

为来自总体 的一个样本, 为一个连续函数。如果 不含有任何未知参数,则称

为一个统计量(statistic)。

统计量的本质:统计量是对样本数据的一种”加工”或”压缩”,将 个原始数据浓缩为少数几个有意义的量,用于推断总体特征。

抽样分布

统计量 的概率分布称为该统计量的抽样分布(sampling distribution)。

抽样分布描述了统计量在重复抽样下的变异规律,是进行统计推断的理论基础。

关键理解

统计量的核心要求是不含有任何未知参数。这是因为在实际应用中,我们需要用统计量来估计或检验总体参数,如果统计量本身含有未知参数,就无法计算。

生活化类比:统计量是"体检报告摘要"

假设你去体检,做了 项检查(血压、心率、血糖等),每项检查就是一个样本观测值

  • 统计量就像体检报告上的”汇总指标”:平均血压 、血压波动范围 、最高血压
  • 这些汇总指标只依赖于你的检查数据,不依赖于任何”未知参数”(如全国平均血压
  • 抽样分布就像”如果重复体检多次,这些汇总指标会如何变化”

例题

例 5.3.1 — 判别统计量

为来自正态总体 的样本,其中 均未知。判断以下哪些是统计量:

表达式是否为统计量原因
含未知参数
含未知参数
只含样本,不含未知参数
只含样本,不含未知参数
只含样本,不含未知参数
含未知参数
只含样本,不含未知参数

二、样本均值及其抽样分布

定义

定义 5.3.2 — 样本均值

为来自总体 的样本,则

称为样本均值(sample mean)。

样本均值是最常用的集中趋势度量,用于估计总体均值

基本性质

性质 5.3.1 — 偏差之和为零

证明

证明

第一步:展开偏差之和。

第二步:提取常数 由于 与求和下标 无关,是常数:

第三步:代入化简。

性质 5.3.2 — 偏差平方和最小

为任意常数,则

即样本均值 使偏差平方和达到最小。

证明

证明

第一步:将偏差平方和展开为 的函数。

第二步:对 求导并令其为零。

,解得

第三步:验证二阶导数大于零,确认是最小值。

因此 取得最小值。

样本均值的抽样分布

定理 5.3.1 — 样本均值的分布

为来自总体 的样本。

(1) 正态总体:若 ,则

(2) 一般总体:若 存在且有限,则当

即大样本下 近似服从

证明(正态总体情形)

证明

第一步:写出 的线性组合表达式。

这是 个独立正态随机变量的线性组合。

第二步:计算期望和方差。 由期望和方差的线性性质:

第三步:利用正态分布的线性不变性。 独立正态随机变量的线性组合仍为正态分布(§3.3),因此

一般总体情形直接由 林德伯格-列维CLT 得出,此处不再重复证明。

分组样本均值近似公式

当数据以分组形式给出时,设第 组的组中值为 ,频数为 ,总频数 ,则样本均值的近似公式为

例题

例 5.3.2 — 正态总体样本均值的分布

为来自 的样本,则

的标准差为 ,远小于总体的标准差 。这说明样本均值比单个观测值更集中于总体均值附近。

例 5.3.3 — 不同总体样本均值随 变化的分布

设总体 服从参数为 的指数分布,

样本量 的近似分布

随着 增大, 的方差以 的速率递减, 越来越集中于 附近。这正是 CLT大数定律 的直观体现。


三、样本方差与样本标准差

定义

定义 5.3.3 — 样本方差与样本标准差

为来自总体 的样本, 为样本均值。

样本方差(未修正):

样本方差(无偏修正):

样本标准差

称为无偏样本方差(unbiased sample variance), 称为有偏样本方差(biased sample variance)。 的关系为

偏差平方和的等价公式

偏差平方和 有以下三个等价计算公式:

推导

,代入得

样本均值与样本方差的性质

定理 5.3.2 — 样本均值与样本方差的期望和方差

为来自总体 的样本,,则

其中 表明 无偏估计(unbiased estimator)。

证明

证明

第一步:展开偏差平方和。

第二步:取期望。

第三步:利用

代入得

第四步:化简得

推论,即 系统性地低估 ,低估量为

分组样本方差近似公式

当数据以分组形式给出时,设第 组的组中值为 ,频数为 ,则样本方差的近似公式为

其中

例题

例 5.3.4 — 分组样本方差计算

对某工厂生产的 100 个零件的尺寸(单位:mm)进行测量,分组数据如下:

尺寸区间组中值 频数

计算样本均值和样本方差的近似值。

逐项计算:


四、样本矩及其函数

定义

定义 5.3.4 — 样本矩

为来自总体 的样本。

阶样本原点矩

阶样本中心矩

特别地,(样本均值),(有偏样本方差)。

定义 5.3.5 — 样本偏度

样本偏度(sample skewness)定义为

其中 为二阶样本中心矩, 为三阶样本中心矩。

解读

  • :数据分布近似对称
  • :数据分布右偏(正偏),右侧有长尾
  • :数据分布左偏(负偏),左侧有长尾

定义 5.3.6 — 样本峰度

样本峰度(sample kurtosis)定义为

其中 为四阶样本中心矩。

解读

  • :数据分布比正态分布更尖顶(leptokurtic),尾部更厚
  • :数据分布比正态分布更平顶(platykurtic),尾部更薄
  • :与正态分布的峰度一致

减去 是因为正态分布的 ,这样使得正态分布的峰度为零。

例题

例 5.3.5 — 两班成绩偏度峰度对比

甲班和乙班各 30 名学生的数学成绩(满分 100)的样本偏度和样本峰度如下:

指标甲班乙班
样本均值
样本标准差
样本偏度
样本峰度

分析

  • 甲班:,成绩分布略左偏(高分段集中);,分布比正态更平顶
  • 乙班:,成绩分布明显右偏(低分段有长尾);,分布比正态更尖顶,尾部更厚

乙班的成绩分布存在明显的偏态和厚尾,说明有部分学生成绩远低于平均水平。


五、次序统计量及其分布

定义

定义 5.3.7 — 次序统计量

为来自总体 的样本,将其按从小到大排列为

称为第 次序统计量(order statistic)。

特别地:

  • 称为样本最小值
  • 称为样本最大值
  • 称为样本极差(sample range)

关键性质

次序统计量具有以下重要性质:

  1. 不独立性 之间不独立,排序操作引入了约束
  2. 不同分布:每个 的边际分布一般不同(除非总体为退化分布)
  3. 充分统计量:次序统计量是 i.i.d. 样本的充分统计量(充分性将在后续章节讨论)

例题

例 5.3.6 — 离散均匀分布的次序统计量

i.i.d., 服从离散均匀分布 ,即

次序统计量

所有可能的 组合(共 种,每种概率 ):

0000
0101
0202
1001
1111
1212
2002
2112
2222

的分布:

的分布:

注意 的分布不同,且不独立。例如 (不可能同时满足)。

次序统计量的分布

定理 5.3.3 — 第 个次序统计量的密度

设总体 的分布函数为 ,密度函数为 (连续情形), i.i.d.,则第 个次序统计量 的密度函数为

证明思路

证明思路

第一步:构造事件。 考虑事件 ,即”恰好有 个样本落在 个落在 个落在 ”。

第二步:用多项分布计算概率。 分成三个区间,每个样本落入各区间的概率分别为 。由多项分布:

第三步:取极限得密度函数。 两边除以 并令

例题

例 5.3.7 — 求次序统计量的概率

设总体密度为 i.i.d.,求

先求分布函数:

的分布函数为

因此

例 5.3.8 — 均匀分布的次序统计量与 Beta 分布

i.i.d. ,则

证明 的分布函数 ,密度 )。由定理 5.3.3:

这正是 Beta 分布 的密度函数。

特别地

  • 的期望

两个次序统计量的联合密度

定理 5.3.4 — 两个次序统计量的联合密度

设总体 的分布函数为 ,密度函数为 i.i.d.,则当 时, 的联合密度为

其中

例题

例 5.3.9 — 均匀分布的样本极差

i.i.d. ,则样本极差

证明思路:令 ,由定理 5.3.4 取

,做变量变换(§3.3),对 积分得 的边缘密度:

f_R(r) = (n-1)(1-r)^{n-2} \cdot n, \quad 0 < r < 1 $> 即 $R \sim \text{Be}(n-1, 2)$。

六、样本分位数与样本中位数

定义

定义 5.3.8 — 样本中位数

为样本, 为次序统计量。

样本中位数 定义为

定义 5.3.9 — 样本 分位数

样本 分位数 )定义为

其中 表示 的整数部分。

特别地

  • :样本中位数
  • :第一四分位数
  • :第三四分位数

样本分位数的渐近分布

定理 5.3.5 — 样本 分位数的渐近正态性

设总体 的密度函数 在总体 分位数 处连续且 ,则当

其中 满足

证明思路

证明思路

第一步:将 表示为经验分布函数的反函数。 样本 分位数 满足 ,其中 为经验分布函数。由 格利文科定理 一致收敛于

第二步:用 Delta 方法。 由 CLT,。对反函数 应用 Delta 方法,注意

第三步:得渐近正态结论。

例题

例 5.3.10 — 柯西分布中位数的渐近分布

i.i.d. 服从柯西分布 ,密度为

求样本中位数 的渐近分布。

:柯西分布的中位数 (因为 ),且

由定理 5.3.5,取

注意:柯西分布的期望和方差都不存在,因此 的渐近正态性不适用(CLT 的前提不满足)。但样本中位数的渐近正态性仍然成立,这体现了中位数的稳健性

中位数的稳健性

样本中位数 相比样本均值 具有重要的稳健性(robustness)优势:

对比维度样本均值 样本中位数
极端值影响非常敏感,一个极端值可大幅改变不受影响,只取决于中间位置的值
正态总体效率最优(MVUE)渐近效率约 95.5%
重尾分布效率下降效率更高
存在性条件需要期望存在只需要中位数存在
计算复杂度需排序

七、五数概括与箱线图

五数概括

五数概括(Five-Number Summary)

五数概括由以下五个次序统计量组成:

即:最小值、第一四分位数、中位数、第三四分位数、最大值。

五数概括提供了数据分布的简洁描述,涵盖了数据的范围、中心位置和离散程度。

箱线图

箱线图(Box Plot)

箱线图是基于五数概括的可视化工具,构造方法如下:

  1. 画一个矩形”箱子”,箱子的下边界为 ,上边界为
  2. 在箱子内画一条线标记中位数
  3. 从箱子下边界向下画”须”(whisker)到 (或下内限)
  4. 从箱子上边界向上画”须”到 (或上内限)
  5. 超出内限的数据点标记为异常值(outliers)

其中:

  • 四分位距
  • 下内限
  • 上内限

例题

例 5.3.11 — 160 名销售员数据箱线图

某公司 160 名销售员的月销售额(单位:万元)的五数概括为:

统计量
(最小值)
(第一四分位数)
(中位数)
(第三四分位数)
(最大值)

下内限 (无下异常值)

上内限

由于 ,最大值为异常值。

箱线图判断分布形态

箱线图特征分布形态说明

中位数线偏下 | 右偏分布 | 上半部分数据更分散 | 中位数线偏上 | 左偏分布 | 下半部分数据更分散 | 中位数线居中 | 近似对称 | 上下分布较均匀 | 上须远长于下须 | 右偏 | 右侧有长尾或异常值 | 下须远长于上须 | 左偏 | 左侧有长尾或异常值 | 箱子很窄 | 数据集中 | IQR 小,数据离散程度低 | 箱子很宽 | 数据分散 | IQR 大,数据离散程度高 |


八、知识结构总览

graph TD
    A[统计量及其分布] --> B[统计量定义]
    A --> C[样本均值]
    A --> D[样本方差]
    A --> E[样本矩]
    A --> F[次序统计量]
    A --> G[样本分位数]
    A --> H[箱线图]

    B --> B1[不含未知参数的样本函数]
    B --> B2[抽样分布]

    C --> C1[偏差之和为零]
    C --> C2[偏差平方和最小]
    C --> C3[正态总体精确分布]
    C --> C4[一般总体渐近分布]

    D --> D1[无偏样本方差S²]
    D --> D2[有偏样本方差Sₙ²]
    D --> D3[E S² = σ²]

    E --> E1[样本原点矩]
    E --> E2[样本中心矩]
    E --> E3[样本偏度]
    E --> E4[样本峰度]

    F --> F1[次序统计量定义]
    F --> F2[边际密度公式]
    F --> F3[联合密度公式]
    F --> F4[均匀分布与Beta分布]

    G --> G1[样本中位数]
    G --> G2[样本p分位数]
    G --> G3[渐近正态性]

    H --> H1[五数概括]
    H --> H2[箱线图构造]
    H --> H3[分布形态判断]

九、核心思想与技巧

本节涉及分布的期望方差汇总

分布密度函数 备注
正态总体抽样定理的基础
,
, 次序统计量间隔独立
次序统计量的精确分布
仍为 Weibull
不存在不存在CLT 不适用,中位数渐近仍成立

样本均值 vs 样本中位数

对比维度样本均值 样本中位数
定义次序统计量的中间值
总体对应总体均值 总体中位数
稳健性差(受极端值影响大)好(不受极端值影响)
正态总体效率100%(最优)~95.5%(渐近相对效率)
渐近分布
存在条件 存在只需中位数存在
适用场景正态或近似对称分布偏态分布或含异常值

次序统计量关键公式汇总

公式名称公式备注
个次序统计量密度定理5.3.3
两个次序统计量联合密度定理5.3.4
最小值分布
最大值分布
均匀分布次序统计量例5.3.8
均匀分布极差例5.3.9

vs 对比

对比维度
名称无偏样本方差有偏样本方差
期望
偏差无偏低估 ,偏差为
关系
自由度
大样本 大时差异可忽略)同左
推荐参数估计时使用描述性统计时可用

十、补充理解与易混淆点

误区1: 混淆

来源:茆诗松§5.3 p237 + 国家统计局《方差与标准差》统计百科 + CSDN《有偏估计量与无偏估计量》 + 维基教科书《随机样本与统计量》 + CSDN《协方差相关问题》

误区1:"样本方差就是除以 "

错误解释:认为样本方差 可以直接用来估计总体方差

正确解释有偏估计,系统性地低估 。无偏版本 满足 ,分母 称为自由度(Bessel 校正)。

直觉理解:计算 时用 代替了 ,引入了一个约束 ,使得 个偏差中只有 个是”自由”的,因此有效信息量只有 而非

误区2:含未知参数的量误认为统计量

来源:茆诗松§5.3 p233 + 维基教科书《随机样本与统计量》 + 卡方核心笔记 + bookdown《统计考研复习参考》Ch5 + CSDN《机器学习概率论与统计学》

误区2:"任何样本函数都是统计量"

错误解释:认为只要是样本 的函数就是统计量。

正确解释:统计量的核心要求是不含任何未知参数。例如 (含未知 )、(含未知 )都不是统计量。而 都是统计量,因为它们只依赖于样本数据。

注意:如果参数的值已知(例如已知 ),则 是统计量。统计量与已知常数的运算结果仍是统计量。

误区3:次序统计量之间误认为独立

来源:茆诗松§5.3 p240-241 + 卡方核心笔记 + LibreTexts《Order Statistics》 + NTU《Order Statistics》讲义 + bookdown《统计考研复习参考》Ch5

误区3:"次序统计量之间相互独立"

错误解释:因为原始样本 独立,所以排序后的 也独立。

正确解释:次序统计量之间不独立。排序操作引入了约束关系 ,破坏了独立性。例如知道 。两个次序统计量的联合密度(定理5.3.4)反映了这种依赖关系。

直觉理解:排序是一种”全局操作”——每个次序统计量的取值都依赖于其他所有样本的取值,因此它们之间存在复杂的依赖关系。

误区4:样本均值 vs 样本中位数选择

来源:茆诗松§5.3 p243 + 中国百科网《样本中位数》 + 国家统计局 + CSDN《数理统计笔记》 + bookdown《统计考研复习参考》Ch5

误区4:"样本均值总是最好的集中趋势度量"

错误解释:在任何情况下都应该用样本均值 来估计总体中心。

正确解释极端值(异常值)非常敏感,一个极端值就能大幅改变 。样本中位数 具有稳健性(robustness),不受少数极端值影响。当数据存在偏态或异常值时,中位数比均值更能反映数据的”典型水平”。

实例:5 个人的收入为 3000, 3500, 4000, 4500, 5000(单位:元),。若第 6 人收入为 100000(CEO),则 (大幅偏移),而 (几乎不受影响)。

误区5:大样本渐近分布误用

来源:茆诗松§5.3 p236 + §4.4 CLT条件 + 卡方核心笔记 + 维基教科书 + CSDN《概率论笔记》

误区5:" 就一定能用正态近似"

错误解释:认为只要样本量超过 30,样本均值的分布就一定近似正态。

正确解释定理5.3.1 的一般总体渐近有两个前提:(1)==总体方差 必须有限(如 Cauchy 分布方差不存在,正态近似失效);(2) 需足够大==,""只是经验法则,对严重偏态或重尾分布可能需要更大的

反例:Cauchy 分布的样本均值 仍服从 Cauchy 分布(与 无关),无论 多大都不可用正态近似。这是因为 Cauchy 分布的方差不存在,CLT 的前提不满足。


十一、习题精选

习题概览

习题概览

编号题目来源知识点难度
1教材 5.3-1样本均值方差计算★★☆
2教材 5.3-3线性变换下均值方差★★☆
3教材 5.3-8均匀分布样本均值★★☆
4教材 5.3-13正态总体样本均值概率★★★
5教材 5.3-22离散均匀分布次序统计量★★★
6教材 5.3-24正态总体次序统计量概率★★★
72013东北师范大学432(卡方4.3-1)样本均值期望标准误差★★☆
82015大连理工大学432(卡方4.3-3)指数分布次序统计量★★★
92021大连理工大学432(卡方4.3-4)样本均值方差递推★★★
102022武汉大学432(卡方4.3-6)Weibull分布次序统计量★★★

习题1(教材5.3-1)

不合格品数样本均值方差

某批产品共 10 件,不合格品数为

求样本均值 和无偏样本方差


习题2(教材5.3-3)

线性变换下均值方差关系

的样本均值为 ,样本方差为 。令 。求


习题3(教材5.3-8)

均匀分布样本的

i.i.d. ,求


习题4(教材5.3-13)

正态总体样本均值概率

i.i.d. ,求使 成立的最小样本量


习题5(教材5.3-22)

离散均匀分布的次序统计量

i.i.d., 服从离散均匀分布 ,即 。求 的分布。


习题6(教材5.3-24)

正态总体次序统计量概率

i.i.d. ,求


习题7(2013东北师范大学432,卡方4.3-1)

样本均值期望和标准误差

i.i.d. ,求 和标准误差。


习题8(2015大连理工大学432,卡方4.3-3)

指数分布次序统计量

i.i.d. (参数 ),求 的密度函数和


习题9(2021大连理工大学432,卡方4.3-4)

样本均值方差递推公式

证明以下递推公式: (1)

(2)


习题10(2022武汉大学432,卡方4.3-6)

Weibull 分布次序统计量

i.i.d. ,密度函数为

证明 仍为 Weibull 分布,并求其参数。


十二、教材原文

以下为教材扫描版原文,可点击翻阅。


十三、标签

第五章 统计量及其分布/统计量的分布