5.3 统计量及其分布
本节概览
一、统计量与抽样分布
定义
定义 5.3.1 — 统计量
设 为来自总体 的一个样本, 为一个连续函数。如果 中不含有任何未知参数,则称
为一个统计量(statistic)。
统计量的本质:统计量是对样本数据的一种”加工”或”压缩”,将 个原始数据浓缩为少数几个有意义的量,用于推断总体特征。
抽样分布
统计量 的概率分布称为该统计量的抽样分布(sampling distribution)。
抽样分布描述了统计量在重复抽样下的变异规律,是进行统计推断的理论基础。
关键理解
统计量的核心要求是不含有任何未知参数。这是因为在实际应用中,我们需要用统计量来估计或检验总体参数,如果统计量本身含有未知参数,就无法计算。
生活化类比:统计量是"体检报告摘要"
假设你去体检,做了 项检查(血压、心率、血糖等),每项检查就是一个样本观测值 。
- 统计量就像体检报告上的”汇总指标”:平均血压 、血压波动范围 、最高血压 等
- 这些汇总指标只依赖于你的检查数据,不依赖于任何”未知参数”(如全国平均血压 )
- 抽样分布就像”如果重复体检多次,这些汇总指标会如何变化”
例题
例 5.3.1 — 判别统计量
设 为来自正态总体 的样本,其中 均未知。判断以下哪些是统计量:
表达式 是否为统计量 原因 否 含未知参数 否 含未知参数 是 只含样本,不含未知参数 是 只含样本,不含未知参数 是 只含样本,不含未知参数 否 含未知参数 是 只含样本,不含未知参数
二、样本均值及其抽样分布
定义
定义 5.3.2 — 样本均值
设 为来自总体 的样本,则
称为样本均值(sample mean)。
样本均值是最常用的集中趋势度量,用于估计总体均值 。
基本性质
性质 5.3.1 — 偏差之和为零
证明
证明:
第一步:展开偏差之和。
第二步:提取常数 。 由于 与求和下标 无关,是常数:
第三步:代入化简。
性质 5.3.2 — 偏差平方和最小
设 为任意常数,则
即样本均值 使偏差平方和达到最小。
证明
证明:
第一步:将偏差平方和展开为 的函数。
第二步:对 求导并令其为零。
令 ,解得
第三步:验证二阶导数大于零,确认是最小值。
因此 时 取得最小值。
样本均值的抽样分布
定理 5.3.1 — 样本均值的分布
设 为来自总体 的样本。
(1) 正态总体:若 ,则
(2) 一般总体:若 , 存在且有限,则当 时
即大样本下 近似服从 。
证明(正态总体情形)
证明:
第一步:写出 的线性组合表达式。
这是 个独立正态随机变量的线性组合。
第二步:计算期望和方差。 由期望和方差的线性性质:
第三步:利用正态分布的线性不变性。 独立正态随机变量的线性组合仍为正态分布(§3.3),因此
一般总体情形直接由 林德伯格-列维CLT 得出,此处不再重复证明。
分组样本均值近似公式
当数据以分组形式给出时,设第 组的组中值为 ,频数为 ,总频数 ,则样本均值的近似公式为
例题
例 5.3.2 — 正态总体样本均值的分布
设 为来自 的样本,则
即 的标准差为 ,远小于总体的标准差 。这说明样本均值比单个观测值更集中于总体均值附近。
例 5.3.3 — 不同总体样本均值随 变化的分布
三、样本方差与样本标准差
定义
定义 5.3.3 — 样本方差与样本标准差
设 为来自总体 的样本, 为样本均值。
样本方差(未修正):
样本方差(无偏修正):
样本标准差:
称为无偏样本方差(unbiased sample variance), 称为有偏样本方差(biased sample variance)。 与 的关系为 。
偏差平方和的等价公式
偏差平方和 有以下三个等价计算公式:
推导:
由 ,代入得
样本均值与样本方差的性质
定理 5.3.2 — 样本均值与样本方差的期望和方差
设 为来自总体 的样本,,,则
其中 表明 是 的无偏估计(unbiased estimator)。
证明
证明:
第一步:展开偏差平方和。
第二步:取期望。
第三步:利用 。
代入得
第四步:化简得 。
推论:,即 系统性地低估 ,低估量为 。
分组样本方差近似公式
当数据以分组形式给出时,设第 组的组中值为 ,频数为 ,则样本方差的近似公式为
其中 。
例题
例 5.3.4 — 分组样本方差计算
对某工厂生产的 100 个零件的尺寸(单位:mm)进行测量,分组数据如下:
尺寸区间 组中值 频数 计算样本均值和样本方差的近似值。
解:
逐项计算:
四、样本矩及其函数
定义
定义 5.3.4 — 样本矩
设 为来自总体 的样本。
阶样本原点矩:
阶样本中心矩:
特别地,(样本均值),(有偏样本方差)。
定义 5.3.5 — 样本偏度
样本偏度(sample skewness)定义为
其中 为二阶样本中心矩, 为三阶样本中心矩。
解读:
- :数据分布近似对称
- :数据分布右偏(正偏),右侧有长尾
- :数据分布左偏(负偏),左侧有长尾
定义 5.3.6 — 样本峰度
样本峰度(sample kurtosis)定义为
其中 为四阶样本中心矩。
解读:
- :数据分布比正态分布更尖顶(leptokurtic),尾部更厚
- :数据分布比正态分布更平顶(platykurtic),尾部更薄
- :与正态分布的峰度一致
减去 是因为正态分布的 ,这样使得正态分布的峰度为零。
例题
例 5.3.5 — 两班成绩偏度峰度对比
甲班和乙班各 30 名学生的数学成绩(满分 100)的样本偏度和样本峰度如下:
指标 甲班 乙班 样本均值 样本标准差 样本偏度 样本峰度 分析:
- 甲班:,成绩分布略左偏(高分段集中);,分布比正态更平顶
- 乙班:,成绩分布明显右偏(低分段有长尾);,分布比正态更尖顶,尾部更厚
乙班的成绩分布存在明显的偏态和厚尾,说明有部分学生成绩远低于平均水平。
五、次序统计量及其分布
定义
定义 5.3.7 — 次序统计量
设 为来自总体 的样本,将其按从小到大排列为
则 称为第 个次序统计量(order statistic)。
特别地:
- 称为样本最小值
- 称为样本最大值
- 称为样本极差(sample range)
关键性质
次序统计量具有以下重要性质:
- 不独立性: 之间不独立,排序操作引入了约束
- 不同分布:每个 的边际分布一般不同(除非总体为退化分布)
- 充分统计量:次序统计量是 i.i.d. 样本的充分统计量(充分性将在后续章节讨论)
例题
例 5.3.6 — 离散均匀分布的次序统计量
设 i.i.d., 服从离散均匀分布 ,即 ,。
次序统计量 ,。
所有可能的 组合(共 种,每种概率 ):
0 0 0 0 0 1 0 1 0 2 0 2 1 0 0 1 1 1 1 1 1 2 1 2 2 0 0 2 2 1 1 2 2 2 2 2 的分布:
的分布:
注意: 与 的分布不同,且不独立。例如 (不可能同时满足)。
次序统计量的分布
定理 5.3.3 — 第 个次序统计量的密度
设总体 的分布函数为 ,密度函数为 (连续情形), i.i.d.,则第 个次序统计量 的密度函数为
证明思路
证明思路:
第一步:构造事件。 考虑事件 ,即”恰好有 个样本落在 , 个落在 , 个落在 ”。
第二步:用多项分布计算概率。 将 分成三个区间,每个样本落入各区间的概率分别为 、、。由多项分布:
第三步:取极限得密度函数。 两边除以 并令 :
例题
例 5.3.7 — 求次序统计量的概率
设总体密度为 ,, i.i.d.,求 。
解:
先求分布函数:
的分布函数为
因此
例 5.3.8 — 均匀分布的次序统计量与 Beta 分布
两个次序统计量的联合密度
定理 5.3.4 — 两个次序统计量的联合密度
设总体 的分布函数为 ,密度函数为 , i.i.d.,则当 时, 与 的联合密度为
其中 。
例题
例 5.3.9 — 均匀分布的样本极差
设 i.i.d. ,则样本极差 。
证明思路:令 ,,由定理 5.3.4 取 :
令 ,,做变量变换(§3.3),对 积分得 的边缘密度:
f_R(r) = (n-1)(1-r)^{n-2} \cdot n, \quad 0 < r < 1 $> 即 $R \sim \text{Be}(n-1, 2)$。
六、样本分位数与样本中位数
定义
定义 5.3.8 — 样本中位数
设 为样本, 为次序统计量。
样本中位数 定义为
定义 5.3.9 — 样本 分位数
样本 分位数 ()定义为
其中 表示 的整数部分。
特别地:
- :样本中位数
- :第一四分位数
- :第三四分位数
样本分位数的渐近分布
定理 5.3.5 — 样本 分位数的渐近正态性
设总体 的密度函数 在总体 分位数 处连续且 ,则当 时
其中 满足 。
证明思路
例题
例 5.3.10 — 柯西分布中位数的渐近分布
设 i.i.d. 服从柯西分布 ,密度为
求样本中位数 的渐近分布。
解:柯西分布的中位数 (因为 ),且 。
由定理 5.3.5,取 :
注意:柯西分布的期望和方差都不存在,因此 的渐近正态性不适用(CLT 的前提不满足)。但样本中位数的渐近正态性仍然成立,这体现了中位数的稳健性。
中位数的稳健性
样本中位数 相比样本均值 具有重要的稳健性(robustness)优势:
| 对比维度 | 样本均值 | 样本中位数 |
|---|---|---|
| 极端值影响 | 非常敏感,一个极端值可大幅改变 | 不受影响,只取决于中间位置的值 |
| 正态总体效率 | 最优(MVUE) | 渐近效率约 95.5% |
| 重尾分布 | 效率下降 | 效率更高 |
| 存在性条件 | 需要期望存在 | 只需要中位数存在 |
| 计算复杂度 | 需排序 |
七、五数概括与箱线图
五数概括
五数概括(Five-Number Summary)
五数概括由以下五个次序统计量组成:
即:最小值、第一四分位数、中位数、第三四分位数、最大值。
五数概括提供了数据分布的简洁描述,涵盖了数据的范围、中心位置和离散程度。
箱线图
箱线图(Box Plot)
箱线图是基于五数概括的可视化工具,构造方法如下:
- 画一个矩形”箱子”,箱子的下边界为 ,上边界为
- 在箱子内画一条线标记中位数
- 从箱子下边界向下画”须”(whisker)到 (或下内限)
- 从箱子上边界向上画”须”到 (或上内限)
- 超出内限的数据点标记为异常值(outliers)
其中:
- 四分位距
- 下内限
- 上内限
例题
例 5.3.11 — 160 名销售员数据箱线图
某公司 160 名销售员的月销售额(单位:万元)的五数概括为:
统计量 值 (最小值) (第一四分位数) (中位数) (第三四分位数) (最大值)
下内限 (无下异常值)
上内限
由于 ,最大值为异常值。
箱线图判断分布形态
| 箱线图特征 | 分布形态 | 说明 |
|---|
中位数线偏下 | 右偏分布 | 上半部分数据更分散 | 中位数线偏上 | 左偏分布 | 下半部分数据更分散 | 中位数线居中 | 近似对称 | 上下分布较均匀 | 上须远长于下须 | 右偏 | 右侧有长尾或异常值 | 下须远长于上须 | 左偏 | 左侧有长尾或异常值 | 箱子很窄 | 数据集中 | IQR 小,数据离散程度低 | 箱子很宽 | 数据分散 | IQR 大,数据离散程度高 |
八、知识结构总览
graph TD A[统计量及其分布] --> B[统计量定义] A --> C[样本均值] A --> D[样本方差] A --> E[样本矩] A --> F[次序统计量] A --> G[样本分位数] A --> H[箱线图] B --> B1[不含未知参数的样本函数] B --> B2[抽样分布] C --> C1[偏差之和为零] C --> C2[偏差平方和最小] C --> C3[正态总体精确分布] C --> C4[一般总体渐近分布] D --> D1[无偏样本方差S²] D --> D2[有偏样本方差Sₙ²] D --> D3[E S² = σ²] E --> E1[样本原点矩] E --> E2[样本中心矩] E --> E3[样本偏度] E --> E4[样本峰度] F --> F1[次序统计量定义] F --> F2[边际密度公式] F --> F3[联合密度公式] F --> F4[均匀分布与Beta分布] G --> G1[样本中位数] G --> G2[样本p分位数] G --> G3[渐近正态性] H --> H1[五数概括] H --> H2[箱线图构造] H --> H3[分布形态判断]
九、核心思想与技巧
本节涉及分布的期望方差汇总
| 分布 | 密度函数 | 备注 | ||
|---|---|---|---|---|
| 正态总体抽样定理的基础 | ||||
| , | () | |||
| , | 次序统计量间隔独立 | |||
| 次序统计量的精确分布 | ||||
| 仍为 Weibull | ||||
| 不存在 | 不存在 | CLT 不适用,中位数渐近仍成立 |
样本均值 vs 样本中位数
| 对比维度 | 样本均值 | 样本中位数 |
|---|---|---|
| 定义 | 次序统计量的中间值 | |
| 总体对应 | 总体均值 | 总体中位数 |
| 稳健性 | 差(受极端值影响大) | 好(不受极端值影响) |
| 正态总体效率 | 100%(最优) | ~95.5%(渐近相对效率) |
| 渐近分布 | ||
| 存在条件 | 需 存在 | 只需中位数存在 |
| 适用场景 | 正态或近似对称分布 | 偏态分布或含异常值 |
次序统计量关键公式汇总
vs 对比
| 对比维度 | ||
|---|---|---|
| 名称 | 无偏样本方差 | 有偏样本方差 |
| 期望 | ||
| 偏差 | 无偏 | 低估 ,偏差为 |
| 关系 | ||
| 自由度 | ||
| 大样本 | ( 大时差异可忽略) | 同左 |
| 推荐 | 参数估计时使用 | 描述性统计时可用 |
十、补充理解与易混淆点
误区1: 与 混淆
来源:茆诗松§5.3 p237 + 国家统计局《方差与标准差》统计百科 + CSDN《有偏估计量与无偏估计量》 + 维基教科书《随机样本与统计量》 + CSDN《协方差相关问题》
误区1:"样本方差就是除以 "
❌ 错误解释:认为样本方差 可以直接用来估计总体方差 。
✅ 正确解释: 是 的有偏估计,,系统性地低估 。无偏版本 满足 ,分母 称为自由度(Bessel 校正)。
直觉理解:计算 时用 代替了 ,引入了一个约束 ,使得 个偏差中只有 个是”自由”的,因此有效信息量只有 而非 。
误区2:含未知参数的量误认为统计量
来源:茆诗松§5.3 p233 + 维基教科书《随机样本与统计量》 + 卡方核心笔记 + bookdown《统计考研复习参考》Ch5 + CSDN《机器学习概率论与统计学》
误区2:"任何样本函数都是统计量"
❌ 错误解释:认为只要是样本 的函数就是统计量。
✅ 正确解释:统计量的核心要求是不含任何未知参数。例如 (含未知 )、(含未知 )都不是统计量。而 、、 都是统计量,因为它们只依赖于样本数据。
注意:如果参数的值已知(例如已知 ),则 是统计量。统计量与已知常数的运算结果仍是统计量。
误区3:次序统计量之间误认为独立
来源:茆诗松§5.3 p240-241 + 卡方核心笔记 + LibreTexts《Order Statistics》 + NTU《Order Statistics》讲义 + bookdown《统计考研复习参考》Ch5
误区3:"次序统计量之间相互独立"
❌ 错误解释:因为原始样本 独立,所以排序后的 也独立。
✅ 正确解释:次序统计量之间不独立。排序操作引入了约束关系 ,破坏了独立性。例如知道 则 必 。两个次序统计量的联合密度(定理5.3.4)反映了这种依赖关系。
直觉理解:排序是一种”全局操作”——每个次序统计量的取值都依赖于其他所有样本的取值,因此它们之间存在复杂的依赖关系。
误区4:样本均值 vs 样本中位数选择
来源:茆诗松§5.3 p243 + 中国百科网《样本中位数》 + 国家统计局 + CSDN《数理统计笔记》 + bookdown《统计考研复习参考》Ch5
误区4:"样本均值总是最好的集中趋势度量"
❌ 错误解释:在任何情况下都应该用样本均值 来估计总体中心。
✅ 正确解释: 对极端值(异常值)非常敏感,一个极端值就能大幅改变 。样本中位数 具有稳健性(robustness),不受少数极端值影响。当数据存在偏态或异常值时,中位数比均值更能反映数据的”典型水平”。
实例:5 个人的收入为 3000, 3500, 4000, 4500, 5000(单位:元),,。若第 6 人收入为 100000(CEO),则 (大幅偏移),而 (几乎不受影响)。
误区5:大样本渐近分布误用
来源:茆诗松§5.3 p236 + §4.4 CLT条件 + 卡方核心笔记 + 维基教科书 + CSDN《概率论笔记》
误区5:" 就一定能用正态近似"
❌ 错误解释:认为只要样本量超过 30,样本均值的分布就一定近似正态。
✅ 正确解释:定理5.3.1 的一般总体渐近有两个前提:(1)==总体方差 必须有限(如 Cauchy 分布方差不存在,正态近似失效);(2) 需足够大==,""只是经验法则,对严重偏态或重尾分布可能需要更大的 。
反例:Cauchy 分布的样本均值 仍服从 Cauchy 分布(与 无关),无论 多大都不可用正态近似。这是因为 Cauchy 分布的方差不存在,CLT 的前提不满足。
十一、习题精选
习题概览
习题概览
编号 题目来源 知识点 难度 1 教材 5.3-1 样本均值方差计算 ★★☆ 2 教材 5.3-3 线性变换下均值方差 ★★☆ 3 教材 5.3-8 均匀分布样本均值 ★★☆ 4 教材 5.3-13 正态总体样本均值概率 ★★★ 5 教材 5.3-22 离散均匀分布次序统计量 ★★★ 6 教材 5.3-24 正态总体次序统计量概率 ★★★ 7 2013东北师范大学432(卡方4.3-1) 样本均值期望标准误差 ★★☆ 8 2015大连理工大学432(卡方4.3-3) 指数分布次序统计量 ★★★ 9 2021大连理工大学432(卡方4.3-4) 样本均值方差递推 ★★★ 10 2022武汉大学432(卡方4.3-6) Weibull分布次序统计量 ★★★
习题1(教材5.3-1)
不合格品数样本均值方差
某批产品共 10 件,不合格品数为
求样本均值 和无偏样本方差 。
查看解答
解:
样本均值:
偏差平方和(用等价公式 ):
无偏样本方差:
习题2(教材5.3-3)
线性变换下均值方差关系
设 的样本均值为 ,样本方差为 。令 ,。求 和 。
查看解答
解:
样本均值:
样本方差:
一般结论:若 (),则 ,。
习题3(教材5.3-8)
均匀分布样本的 和
设 i.i.d. ,求 和 。
查看解答
习题4(教材5.3-13)
正态总体样本均值概率
设 i.i.d. ,求使 成立的最小样本量 。
查看解答
解:
由 定理5.3.1,,标准化得
令 ,则
查标准正态分布表,,因此
取 即可。但若题目要求 (更严格的条件),则
2[1-\Phi(\sqrt{n})] \leq 0.05 \implies \Phi(\sqrt{n}) \geq 0.975 \implies \sqrt{n} \geq 1.96 \implies n \geq 3.84 $> 取 $n \geq 4$。 **注**:本题按原题条件 $P(|\bar{X}-\mu| > 2\sigma)$ 计算得 $n \geq 1$,说明 $2\sigma$ 的偏差在正态总体下几乎不可能发生(概率极小)。若题目为 $P(|\bar{X}-\mu| > \sigma) \leq 0.05$,则需 $n \geq 4$。
习题5(教材5.3-22)
离散均匀分布的次序统计量
设 i.i.d., 服从离散均匀分布 ,即 ,。求 和 的分布。
查看解答
解:
的分布:
等价于所有 ,即
因此
逐项计算:
的分布(注: 时 不存在,应为 ):
习题6(教材5.3-24)
正态总体次序统计量概率
设 i.i.d. ,求 和 。
查看解答
解:
总体 ,分布函数 。
求 :
的分布函数为
令 ,则
其中 。逐项计算:
注意到 等价于”最多 5 个样本 “,由二项分布 :
求 :
等价于所有 :
,因此
习题7(2013东北师范大学432,卡方4.3-1)
样本均值期望和标准误差
设 i.i.d. ,求 、 和标准误差。
查看解答
习题8(2015大连理工大学432,卡方4.3-3)
指数分布次序统计量
设 i.i.d. (参数 ),求 的密度函数和 。
查看解答
习题9(2021大连理工大学432,卡方4.3-4)
样本均值方差递推公式
证明以下递推公式: (1)
(2)
查看解答
证明:
(1) 证明 :
由定义展开:
(2) 证明 :
第一步:展开 。
第二步:将求和拆分为前 项和第 项。
第三步:对前 项,利用 。
由 (性质5.3.1),中间项为零:
第四步:计算 并化简。 由 (1):
因此
同理
合并:
习题10(2022武汉大学432,卡方4.3-6)
Weibull 分布次序统计量
设 i.i.d. ,密度函数为
证明 仍为 Weibull 分布,并求其参数。
查看解答
证明:
第一步:求总体分布函数。
令 ,则 ,即
第二步:代入次序统计量密度公式。 由 定理5.3.3 取 :
第三步:识别分布类型。 令 ,则
这正是 的密度函数。
因此 ,形状参数 不变,尺度参数缩小为 。
十二、教材原文
以下为教材扫描版原文,可点击翻阅。
十三、标签
第五章 统计量及其分布/统计量的分布