5.4 三大抽样分布
本节概览
一、卡方分布
卡方分布( 分布)是三大抽样分布中最基本的,它是标准正态变量平方和的分布。
定义
定义 5.4.1 — 卡方分布
设 为 个相互独立的标准正态随机变量,即 ,,则称
服从自由度为 的卡方分布(chi-squared distribution),记为 。
自由度的含义:自由度 表示独立标准正态变量的个数,即平方和中包含的独立信息量。这个概念在后续 Fisher 引理中会反复出现。
密度函数
卡方分布的密度函数
若 ,则其密度函数为
与 Gamma 分布的关系
卡方分布本质上是 Gamma 分布的特例:
即自由度为 的卡方分布等价于形状参数为 、尺度参数为 的 Gamma 分布。
密度函数的推导
推导: 的密度函数
第一步:单个标准正态变量平方的分布
设 ,求 的密度函数。
当 时,由变量变换法:
这正是 的密度函数。因此 。
第二步:Gamma 分布的可加性
由 §2.5 中 Gamma 分布的可加性:若 ,,且 与 独立,则
注意可加性要求尺度参数相同。
第三步:推广到 个变量
由于 相互独立,且每个 ,反复应用可加性得
写出 的密度函数即为卡方分布的密度函数。
数字特征
卡方分布的数字特征
若 ,则
推导:由 ,利用 Gamma 分布 的期望 和方差 :
可加性
卡方分布的可加性
设 ,,且 与 相互独立,则
证明:由 ,,尺度参数相同,直接应用 Gamma 分布可加性即得。
更一般地,若 相互独立,,则 。
例题
例 5.4.1 — 正态总体中偏差平方和的分布
设 ,求 的分布。
解:令 ,则 且相互独立。
因此
即 ,等价于 。
注意:这里用的是 (总体均值),而非 (样本均值)。后者涉及一个约束 ,自由度会减少 1,这正是 Fisher 引理的核心内容。
二、Fisher引理(正态总体抽样定理)
Fisher 引理是正态总体统计推断的基石,它揭示了样本均值与样本方差的独立性,并给出了样本方差服从卡方分布的结论。
预备知识:多维正态变换
多维正态分布的线性变换性质
若 , 为 常数矩阵(),则
特别地,当 为 正交矩阵()时,变换后的各分量仍相互独立。
Fisher 引理
定理 5.4.1 — Fisher 引理(正态总体抽样定理)
设 , 为样本均值, 为样本方差,则:
- 与 相互独立;
- ;
- 。
完整证明(正交变换法)
证明:Fisher 引理
第一步:构造正交矩阵
构造 正交矩阵 ,使其第一行为
其余 行 可通过 Schmidt 正交化得到,满足
即 。
第二步:作正交变换
令 ,其中 。则
由于 ,由正态变换性质:
因此 相互独立,且 。
第三步:利用正交变换保范数
正交变换保持向量的 Euclidean 范数不变:
第四步:分析各分量的分布
- 对 :(因为第 到 行元素之和为零)
- 因此
第五步:推导样本方差的分布
由保范数:
另一方面:
因此:
由于 只依赖于 ,而 只依赖于 ,且 与 相互独立,故 与 相互独立。
又因为 (),所以
自由度为 而非 ,因为只有 个独立的标准正态变量参与求和。
直观理解:为什么自由度是 ?
个偏差 并非完全独立——它们满足约束
知道其中 个偏差后,第 个就被唯一确定了。因此”真正的”独立信息只有 份,自由度为 。
类比:想象一根绳子上拴了 个珠子,要求珠子的平均位置固定(绳子的重心不动)。你可以自由移动 个珠子,但第 个珠子的位置自动被确定了。
三、F分布
F 分布由两个独立的卡方变量之比构造而成,广泛用于方差分析(ANOVA)和方差齐性检验。
定义
定义 5.4.2 — F 分布
设 ,,且 与 相互独立,则称
服从第一自由度为 、第二自由度为 的 F 分布(F-distribution),记为 。
自由度的含义: 是分子自由度(来自分子上的卡方变量), 是分母自由度(来自分母上的卡方变量)。两个自由度的顺序不可互换。
密度函数的推导
推导:F 分布的密度函数
第一步:求 的密度(商的分布公式)
设 ,,二者独立。由商的分布公式:
代入 Gamma 密度:
令 ,积分变为
因此
第二步:由 作变量变换
令 ,即 ,则 。
第三步:化简得标准 F 密度函数
将 代入 并乘以 :
这就是 的标准密度函数。
数字特征
F 分布的数字特征
若 ,则
- 当 时,
- 当 时,
注意: 只依赖于分母自由度 ,与分子自由度 无关(在 时)。当 时,期望不存在;当 时,方差不存在。
分位数性质
F 分布分位数的倒数关系
证明:设 ,则 。
而 ,所以
即 。
查表技巧
F 分布表通常只给出 等小概率的上侧分位数 。若需要 ,可利用倒数关系:
例题
例 5.4.2 — F 分布分位数计算
求 。
解:利用倒数关系:
查 F 分布表得 ,因此
四、t分布
t 分布(Student’s t 分布)由标准正态变量与卡方变量的商构造而成,是小样本推断的核心工具。
定义
定义 5.4.3 — t 分布
设 ,,且 与 相互独立,则称
服从自由度为 的 t 分布(t-distribution),记为 。
密度函数的推导(从 F 分布出发)
推导:t 分布的密度函数
第一步:建立 与 F 分布的关系
注意到
其中 (因为 ),,且二者独立。由 F 分布的定义:
第二步:利用分布函数建立关系
设 为 的密度函数。由于 分布关于原点对称:
第三步:对 求导得密度函数
对上式两端关于 求导:
由对称性,。将 的密度函数代入并化简:
数字特征
t 分布的数字特征
若 ,则
- 当 时,
- 当 时,
- 当 时,期望不存在( 即 Cauchy 分布)
与标准正态分布的对比
t 分布的密度曲线关于 对称,形状类似于标准正态分布,但尾部更厚(heavy-tailed)。自由度 越大,t 分布越接近 。
| 自由度 | | | | |:----------:|:------------:|:------------:|:------------:| | | 0.3173 | 0.0455 | 0.0027 | | | 0.5000 | 0.1476 | 0.0955 | | | 0.3583 | 0.1161 | 0.0199 | | | 0.3404 | 0.0757 | 0.0067 | | | 0.3253 | 0.0555 | 0.0037 |
关键观察
- 自由度越小,尾部概率越大,极端值出现的可能性越高
- 当 时,,是 下 的约 2.5 倍
- 当 时,t 分布与 的差异已经很小
t 分布的渐近性质
t 分布的收敛性
当自由度 时, 的分布收敛于标准正态分布 。
直观理解:当 时,(由大数定律),因此
t(1) = Cauchy 分布
当 时,t 分布退化为 Cauchy 分布:
Cauchy 分布的期望和方差都不存在(因为积分 发散),这是 t 分布的一个极端情形。
历史背景:Gosset 与 Student
Gosset 与"Student"的故事
t 分布由英国统计学家 William Sealy Gosset(1876—1937)在 1908 年提出。Gosset 在 Guinness 啤酒厂担任化学师,在工作中遇到了小样本()下的质量控制问题。
当时统计学界普遍使用大样本理论(基于中心极限定理),但啤酒厂的样本量往往很小。Gosset 发现用 近似小样本下的检验统计量会导致严重的误差,于是他推导出了 t 分布的精确形式。
由于 Guinness 公司禁止员工公开发表研究成果,Gosset 以 “Student” 为笔名在 Biometrika 上发表了这篇论文。直到 Gosset 去世后,R. A. Fisher 才正式确认了”Student”的真实身份。
因此 t 分布又称 Student’s t 分布。
五、正态总体抽样定理推论
基于 Fisher 引理和三大分布的定义,可以推导出正态总体下各种常用统计量的精确分布。
推论 5.4.1:两正态总体的 F 统计量
推论 5.4.1 — 两正态总体的 F 统计量
设 ,,两组样本相互独立。记 、 分别为两组样本的样本方差,则
特别地,当 时,
证明:推论 5.4.1
第一步:应用 Fisher 引理
由 Fisher 引理:
且由于两组样本独立,这两个卡方变量也相互独立。
第二步:由 F 分布的定义
推论 5.4.2:单正态总体的 t 统计量
推论 5.4.2 — 单正态总体的 t 统计量
设 ,则
证明:推论 5.4.2
第一步:分子标准化
由 Fisher 引理,,因此
第二步:分母的卡方分布
由 Fisher 引理,,因此
第三步:由 t 分布的定义
由 Fisher 引理, 与 相互独立,因此分子与分母独立。
推论 5.4.2 的意义
当 未知时,用 代替 后,统计量的分布从 变为 。这就是为什么在 未知时,要用 t 检验而非 Z 检验。
推论 5.4.3:两正态总体的 t 统计量(等方差)
推论 5.4.3 — 两正态总体的 t 统计量(等方差)
设 ,,两组样本相互独立。定义合并样本方差:
则
证明:推论 5.4.3
第一步:分子的分布
,,二者独立,因此
标准化得
第二步:分母的卡方分布
由 Fisher 引理:
二者独立,由卡方分布的可加性:
第三步:独立性
与 独立(Fisher 引理), 与 独立(Fisher 引理),且两组样本独立,因此 与 相互独立。
第四步:由 t 分布的定义
六、三大分布关系总览
关系表
| 关系 | 说明 |
|---|---|
| 卡方分布是 Gamma 分布的特例 | |
| F 分布由两个独立卡方变量之比构造 | |
| t 分布由标准正态与卡方变量之商构造 | |
| t 分布的平方服从 F 分布 | |
| t 分布随自由度增大收敛于标准正态 |
核心公式汇总表
| 分布 | 定义 | 密度函数 | 期望 | 方差 | 分位数性质 |
|---|---|---|---|---|---|
| , | 可加性 | ||||
| 对称性: |
七、知识结构总览
graph TD A[标准正态分布 N(0,1)] --> B[卡方分布 χ²(n)] A --> D[t 分布 t(n)] B --> C[F 分布 F(m,n)] B --> D B --> B1[定义: n个独立N(0,1)的平方和] B --> B2[性质: E=n, Var=2n] B --> B3[性质: 可加性] B --> B4[特例: Ga(n/2, 1/2)] C --> C1[定义: 两个独立χ²之比] C --> C2[性质: 倒数关系] C --> C3[应用: 方差齐性检验] D --> D1[定义: N(0,1)与χ²(n)之商] D --> D2[性质: 对称, 厚尾] D --> D3[收敛: n→∞时趋近N(0,1)] D --> D4[应用: 小样本均值检验] B --> E[Fisher引理] E --> E1[X̄与S²独立] E --> E2[(n-1)S²/σ² ~ χ²(n-1)] E --> F1[推论: 单总体t统计量] E --> F2[推论: 两总体F统计量] E --> F3[推论: 两总体t统计量] D1 --> G[t² ~ F(1,n)]
八、核心思想与技巧
分位数查表技巧
F 分布的倒数关系:
当需要查 时,只需查 再取倒数。
t 分布的对称性:
t 分布表通常只给出上侧分位数 ( 时为正值)。下侧分位数可通过对称性得到。
卡方分布的单侧性:
卡方分布的密度函数在 上定义,分位数只有上侧分位数 ,满足 。
正态总体抽样定理应用框架
单正态总体 :
| 条件 | 统计量 | 分布 |
|---|---|---|
| 已知 | ||
| 未知 | ||
| — |
两正态总体(等方差 ):
| 条件 | 统计量 | 分布 |
|---|---|---|
| 均值比较 | ||
| 方差比较 |
九、补充理解与易混淆点
卡方分布自由度混淆
来源:茆诗松§5.4 p248 + 卡方核心笔记 + CSDN《数理统计基础笔记四》 + CSDN《三大抽样分布简单理解》 + UCLA《Distributions related to normal》
误区1:"卡方分布的自由度就是样本量n"
错误解释:认为 中的 总是等于样本量。
正确解释: 的 是独立标准正态变量的个数。在 Fisher 引理中,,自由度是 而非 ,因为 个偏差 中只有 个是独立的(偏差之和为零约束)。
t 分布与标准正态分布混淆
来源:茆诗松§5.4 p255-256 + CSDN《概率分布t分布详解》 + CSDN《机器学习中的数学》 + UCLA《Distributions》 + 卡方核心笔记
误区2:"小样本也可以用N(0,1)近似t分布"
错误解释:认为 和 差不多,小样本时可以直接用 查表。
正确解释: 的尾部概率显著大于 。例如 在 下为 ,在 下为 ,相差 2.5 倍以上。n < 30 时必须用 t 分布,只有 时才能用 近似。
F 分布自由度顺序
来源:茆诗松§5.4 p253 + 卡方核心笔记 + CSDN《三大抽样分布简单理解》 + LibreTexts《F-distribution》 + CSDN《数理统计基础笔记四》
误区3:"F(m,n)和F(n,m)是一样的"
错误解释:认为 F 分布的两个自由度可以互换。
正确解释: 中m 是分子自由度,n 是分母自由度,不可互换。,但它们有倒数关系:。查表时务必注意自由度的顺序。
X̄与S²独立性误用
来源:茆诗松§5.4 p250-251(Fisher引理)+ 卡方核心笔记 + CSDN《数理统计基础笔记四》 + bookdown《统计考研复习参考》Ch5 + UCLA《Distributions》
误区4:"任何总体下样本均值和样本方差都独立"
错误解释:认为 与 的独立性是普遍成立的。
正确解释: 与 的相互独立仅在正态总体下成立,这是 Fisher 引理的核心结论。对于非正态总体, 与 一般不独立。正态分布的这个特殊性质在统计推断中至关重要。
χ²分布可加性条件
来源:茆诗松§5.4 p248 + 卡方核心笔记 + CSDN《三大抽样分布简单理解》 + CSDN《数理统计基础笔记四》 + bookdown《统计考研复习参考》Ch5
误区5:"任意χ²变量都可以直接相加"
错误解释:认为任何两个 分布变量之和仍然是 分布。
正确解释: 分布的可加性要求各变量相互独立。若 , 且 与 独立,则 。若 与 不独立,则 的分布不再是 分布(自由度也不等于 )。
十、习题精选
习题概览
本节精选 10 道习题,其中 6 道来自教材,4 道来自考研真题。
编号 来源 核心知识点 难度 1 教材 5.4-1 样本均值的概率计算 ★★☆ 2 教材 5.4-5 t 统计量概率计算 ★★★ 3 教材 5.4-7 F 分布对称性证明 ★★☆ 4 教材 5.4-9 正态变量函数的分布 ★★★ 5 教材 5.4-13 F 统计量概率计算 ★★★ 6 教材 5.4-19 均匀分布与卡方分布 ★★★★ 7 2014 兰州大学 432 Fisher 引理证明 ★★★★ 8 2015 大连理工大学 432 两总体 t 分布证明 ★★★★ 9 2018 东北师范大学 432 F 分布概率计算 ★★★ 10 2024 武汉大学 432 Fisher 引理推广 ★★★★★
习题 1(教材 5.4-1)
习题 1
设总体 ,从中抽取样本 。要使样本均值 落在 内的概率不小于 ,样本量 至少应取多少?
查看解答
解:,标准化得
要求
因此 ,查标准正态表得 ,即 。
取 。
习题 2(教材 5.4-5)
习题 2
设 ,已知 ,。求 。
查看解答
解:由推论 5.4.2,
,因此
查 t 分布表,(线性插值),因此
习题 3(教材 5.4-7)
习题 3
设 ,证明 。
查看解答
证明:设 ,令 。
由 F 分布的定义,(因为 ,取倒数后 )。
因此
又因为 (连续分布中 ),所以
习题 4(教材 5.4-9)
习题 4
设 ,求 的分布。
查看解答
解:令 ,。
由于 服从二元正态分布, 和 的线性组合仍为联合正态。
计算协方差:
协方差为零 + 联合正态 与 相互独立。
又 ,,因此
于是
(因为 ,,二者独立。)
习题 5(教材 5.4-13)
习题 5
设两个等方差正态总体 和 ,分别抽取 和 的样本。求 。
查看解答
解:由推论 5.4.1,等方差时
因此
查 F 分布表,(或通过插值),因此
习题 6(教材 5.4-19)
习题 6
设 , 为 的分布函数。证明
查看解答
证明:
第一步: 的分布
设 的分布函数为 ,则 (概率积分变换)。
第二步: 的分布
设 ,。当 时:
这是参数为 的指数分布的分布函数,即 。
第三步:利用独立性
由于 独立, 也独立,从而 独立同分布于 。
由卡方分布的可加性:
习题 7(2014 兰州大学 432)
习题 7
设 ,证明 与 相互独立,且 。
查看解答
证明:此即 Fisher 引理(定理 5.4.1),完整证明见 完整证明(正交变换法)。
核心思路:构造正交矩阵 (第一行全为 ),作变换 ,利用正交变换保范数和正态变量的独立性,将 表示为 个独立 变量的平方和。
习题 8(2015 大连理工大学 432)
习题 8
设 ,,两组样本独立。证明推论 5.4.3。
查看解答
习题 9(2018 东北师范大学 432)
习题 9
设 ,,两组样本独立。求 。
查看解答
解:,即 。
由 Fisher 引理:
由推论 5.4.1(等方差):
因此
查 F 分布表,,,线性插值得 。
习题 10(2024 武汉大学 432)
习题 10
设 ,,两组样本独立,。讨论相关统计量的分布。
查看解答
解:这是 Fisher 引理在异方差情形下的推广。
由 Fisher 引理分别应用于两组样本:
由于 ,不能直接用合并方差 。但可以构造:
对于均值差的检验,由于异方差,不能使用推论 5.4.3 的 t 统计量。此时可用 Behrens-Fisher 问题的近似解法(如 Welch t 检验):
其近似服从自由度为
的 t 分布(Welch-Satterthwaite 近似)。
十一、教材原文
教材参考
以下为茆诗松《概率论与数理统计》第五章 5.4 节的教材原文,供对照参考。
第五章 统计量及其分布/三大抽样分布