5.4 三大抽样分布

本节概览

本节系统介绍数理统计中最重要的三大抽样分布:卡方分布t 分布F 分布。它们都由标准正态分布衍生而来,是正态总体下统计推断的理论基石。

逻辑链条卡方分布Fisher引理F分布t分布推论

前置依赖§5.3(统计量、样本均值方差)、§2.5(Gamma分布、Beta分布)、§3.3(变量变换法)

核心主线:三大分布均由正态分布”组装”而成——卡方分布是标准正态变量的平方和,F 分布是两个独立卡方变量之比,t 分布是标准正态变量与卡方变量之商。Fisher 引理是连接正态总体与三大分布的核心桥梁,它保证了样本均值与样本方差的独立性,并将样本方差的分布归结为卡方分布。


一、卡方分布

卡方分布( 分布)是三大抽样分布中最基本的,它是标准正态变量平方和的分布。

定义

定义 5.4.1 — 卡方分布

个相互独立的标准正态随机变量,即 ,则称

服从自由度为 卡方分布(chi-squared distribution),记为

自由度的含义:自由度 表示独立标准正态变量的个数,即平方和中包含的独立信息量。这个概念在后续 Fisher 引理中会反复出现。

密度函数

卡方分布的密度函数

,则其密度函数为

与 Gamma 分布的关系

卡方分布本质上是 Gamma 分布的特例:

即自由度为 的卡方分布等价于形状参数为 、尺度参数为 的 Gamma 分布。

密度函数的推导

推导: 的密度函数

第一步:单个标准正态变量平方的分布

,求 的密度函数。

时,由变量变换法:

这正是 的密度函数。因此

第二步:Gamma 分布的可加性

§2.5 中 Gamma 分布的可加性:若 ,且 独立,则

注意可加性要求尺度参数相同

第三步:推广到 个变量

由于 相互独立,且每个 ,反复应用可加性得

写出 的密度函数即为卡方分布的密度函数。

数字特征

卡方分布的数字特征

,则

推导:由 ,利用 Gamma 分布 的期望 和方差

可加性

卡方分布的可加性

,且 相互独立,则

证明:由 ,尺度参数相同,直接应用 Gamma 分布可加性即得。

更一般地,若 相互独立,,则

例题

例 5.4.1 — 正态总体中偏差平方和的分布

,求 的分布。

:令 ,则 且相互独立。

因此

,等价于

注意:这里用的是 (总体均值),而非 (样本均值)。后者涉及一个约束 ,自由度会减少 1,这正是 Fisher 引理的核心内容。


二、Fisher引理(正态总体抽样定理)

Fisher 引理是正态总体统计推断的基石,它揭示了样本均值与样本方差的独立性,并给出了样本方差服从卡方分布的结论。

预备知识:多维正态变换

多维正态分布的线性变换性质

常数矩阵(),则

特别地,当 正交矩阵()时,变换后的各分量仍相互独立。

Fisher 引理

定理 5.4.1 — Fisher 引理(正态总体抽样定理)

为样本均值, 为样本方差,则:

  1. 相互独立

完整证明(正交变换法)

证明:Fisher 引理

第一步:构造正交矩阵

构造 正交矩阵 ,使其第一行为

其余 可通过 Schmidt 正交化得到,满足

第二步:作正交变换

,其中 。则

由于 ,由正态变换性质:

因此 相互独立,且

第三步:利用正交变换保范数

正交变换保持向量的 Euclidean 范数不变:

第四步:分析各分量的分布

  • (因为第 行元素之和为零)
  • 因此

第五步:推导样本方差的分布

由保范数:

另一方面:

因此:

由于 只依赖于 ,而 只依赖于 ,且 相互独立,故 相互独立

又因为 ),所以

自由度为 而非 ,因为只有 个独立的标准正态变量参与求和。

直观理解:为什么自由度是

个偏差 并非完全独立——它们满足约束

知道其中 个偏差后,第 个就被唯一确定了。因此”真正的”独立信息只有 份,自由度为

类比:想象一根绳子上拴了 个珠子,要求珠子的平均位置固定(绳子的重心不动)。你可以自由移动 个珠子,但第 个珠子的位置自动被确定了。


三、F分布

F 分布由两个独立的卡方变量之比构造而成,广泛用于方差分析(ANOVA)和方差齐性检验。

定义

定义 5.4.2 — F 分布

,且 相互独立,则称

服从第一自由度为 、第二自由度为 F 分布(F-distribution),记为

自由度的含义分子自由度(来自分子上的卡方变量),分母自由度(来自分母上的卡方变量)。两个自由度的顺序不可互换。

密度函数的推导

推导:F 分布的密度函数

第一步:求 的密度(商的分布公式)

,二者独立。由商的分布公式:

代入 Gamma 密度:

,积分变为

因此

第二步:由 作变量变换

,即 ,则

第三步:化简得标准 F 密度函数

代入 并乘以

这就是 的标准密度函数。

数字特征

F 分布的数字特征

,则

  • 时,
  • 时,

注意 只依赖于分母自由度 ,与分子自由度 无关(在 时)。当 时,期望不存在;当 时,方差不存在。

分位数性质

F 分布分位数的倒数关系

证明:设 ,则

,所以

查表技巧

F 分布表通常只给出 等小概率的上侧分位数 。若需要 ,可利用倒数关系:

例题

例 5.4.2 — F 分布分位数计算

:利用倒数关系:

查 F 分布表得 ,因此


四、t分布

t 分布(Student’s t 分布)由标准正态变量与卡方变量的商构造而成,是小样本推断的核心工具。

定义

定义 5.4.3 — t 分布

,且 相互独立,则称

服从自由度为 t 分布(t-distribution),记为

密度函数的推导(从 F 分布出发)

推导:t 分布的密度函数

第一步:建立 与 F 分布的关系

注意到

其中 (因为 ),,且二者独立。由 F 分布的定义:

第二步:利用分布函数建立关系

的密度函数。由于 分布关于原点对称:

第三步:对 求导得密度函数

对上式两端关于 求导:

由对称性,。将 的密度函数代入并化简:

数字特征

t 分布的数字特征

,则

  • 时,
  • 时,
  • 时,期望不存在( 即 Cauchy 分布)

与标准正态分布的对比

t 分布的密度曲线关于 对称,形状类似于标准正态分布,但尾部更厚(heavy-tailed)。自由度 越大,t 分布越接近

| 自由度 | | | | |:----------:|:------------:|:------------:|:------------:| | | 0.3173 | 0.0455 | 0.0027 | | | 0.5000 | 0.1476 | 0.0955 | | | 0.3583 | 0.1161 | 0.0199 | | | 0.3404 | 0.0757 | 0.0067 | | | 0.3253 | 0.0555 | 0.0037 |

关键观察

  • 自由度越小,尾部概率越大,极端值出现的可能性越高
  • 时,,是 的约 2.5 倍
  • 时,t 分布与 的差异已经很小

t 分布的渐近性质

t 分布的收敛性

当自由度 时, 的分布收敛于标准正态分布

直观理解:当 时,(由大数定律),因此

t(1) = Cauchy 分布

时,t 分布退化为 Cauchy 分布

Cauchy 分布的期望和方差都不存在(因为积分 发散),这是 t 分布的一个极端情形。

历史背景:Gosset 与 Student

Gosset 与"Student"的故事

t 分布由英国统计学家 William Sealy Gosset(1876—1937)在 1908 年提出。Gosset 在 Guinness 啤酒厂担任化学师,在工作中遇到了小样本()下的质量控制问题。

当时统计学界普遍使用大样本理论(基于中心极限定理),但啤酒厂的样本量往往很小。Gosset 发现用 近似小样本下的检验统计量会导致严重的误差,于是他推导出了 t 分布的精确形式。

由于 Guinness 公司禁止员工公开发表研究成果,Gosset 以 “Student” 为笔名在 Biometrika 上发表了这篇论文。直到 Gosset 去世后,R. A. Fisher 才正式确认了”Student”的真实身份。

因此 t 分布又称 Student’s t 分布


五、正态总体抽样定理推论

基于 Fisher 引理和三大分布的定义,可以推导出正态总体下各种常用统计量的精确分布。

推论 5.4.1:两正态总体的 F 统计量

推论 5.4.1 — 两正态总体的 F 统计量

,两组样本相互独立。记 分别为两组样本的样本方差,则

特别地,当 时,

证明:推论 5.4.1

第一步:应用 Fisher 引理

由 Fisher 引理:

且由于两组样本独立,这两个卡方变量也相互独立。

第二步:由 F 分布的定义

推论 5.4.2:单正态总体的 t 统计量

推论 5.4.2 — 单正态总体的 t 统计量

,则

证明:推论 5.4.2

第一步:分子标准化

由 Fisher 引理,,因此

第二步:分母的卡方分布

由 Fisher 引理,,因此

第三步:由 t 分布的定义

由 Fisher 引理, 相互独立,因此分子与分母独立。

推论 5.4.2 的意义

未知时,用 代替 后,统计量的分布从 变为 。这就是为什么在 未知时,要用 t 检验而非 Z 检验。

推论 5.4.3:两正态总体的 t 统计量(等方差)

推论 5.4.3 — 两正态总体的 t 统计量(等方差)

,两组样本相互独立。定义合并样本方差

证明:推论 5.4.3

第一步:分子的分布

,二者独立,因此

标准化得

第二步:分母的卡方分布

由 Fisher 引理:

二者独立,由卡方分布的可加性:

第三步:独立性

独立(Fisher 引理), 独立(Fisher 引理),且两组样本独立,因此 相互独立。

第四步:由 t 分布的定义


六、三大分布关系总览

关系表

关系说明
卡方分布是 Gamma 分布的特例
F 分布由两个独立卡方变量之比构造
t 分布由标准正态与卡方变量之商构造
t 分布的平方服从 F 分布
t 分布随自由度增大收敛于标准正态

核心公式汇总表

分布定义密度函数期望方差分位数性质
可加性
对称性:

七、知识结构总览

graph TD
    A[标准正态分布 N(0,1)] --> B[卡方分布 χ²(n)]
    A --> D[t 分布 t(n)]
    B --> C[F 分布 F(m,n)]
    B --> D

    B --> B1[定义: n个独立N(0,1)的平方和]
    B --> B2[性质: E=n, Var=2n]
    B --> B3[性质: 可加性]
    B --> B4[特例: Ga(n/2, 1/2)]

    C --> C1[定义: 两个独立χ²之比]
    C --> C2[性质: 倒数关系]
    C --> C3[应用: 方差齐性检验]

    D --> D1[定义: N(0,1)与χ²(n)之商]
    D --> D2[性质: 对称, 厚尾]
    D --> D3[收敛: n→∞时趋近N(0,1)]
    D --> D4[应用: 小样本均值检验]

    B --> E[Fisher引理]
    E --> E1[X̄与S²独立]
    E --> E2[(n-1)S²/σ² ~ χ²(n-1)]

    E --> F1[推论: 单总体t统计量]
    E --> F2[推论: 两总体F统计量]
    E --> F3[推论: 两总体t统计量]

    D1 --> G[t² ~ F(1,n)]

八、核心思想与技巧

分位数查表技巧

F 分布的倒数关系

当需要查 时,只需查 再取倒数。

t 分布的对称性

t 分布表通常只给出上侧分位数 时为正值)。下侧分位数可通过对称性得到。

卡方分布的单侧性

卡方分布的密度函数在 上定义,分位数只有上侧分位数 ,满足

正态总体抽样定理应用框架

单正态总体

条件统计量分布
已知
未知

两正态总体(等方差

条件统计量分布
均值比较
方差比较

九、补充理解与易混淆点

卡方分布自由度混淆

来源:茆诗松§5.4 p248 + 卡方核心笔记 + CSDN《数理统计基础笔记四》 + CSDN《三大抽样分布简单理解》 + UCLA《Distributions related to normal》

误区1:"卡方分布的自由度就是样本量n"

错误解释:认为 中的 总是等于样本量。

正确解释独立标准正态变量的个数。在 Fisher 引理中,,自由度是 而非 ,因为 个偏差 中只有 个是独立的(偏差之和为零约束)。

t 分布与标准正态分布混淆

来源:茆诗松§5.4 p255-256 + CSDN《概率分布t分布详解》 + CSDN《机器学习中的数学》 + UCLA《Distributions》 + 卡方核心笔记

误区2:"小样本也可以用N(0,1)近似t分布"

错误解释:认为 差不多,小样本时可以直接用 查表。

正确解释 的尾部概率显著大于 。例如 下为 ,在 下为 ,相差 2.5 倍以上。n < 30 时必须用 t 分布,只有 时才能用 近似。

F 分布自由度顺序

来源:茆诗松§5.4 p253 + 卡方核心笔记 + CSDN《三大抽样分布简单理解》 + LibreTexts《F-distribution》 + CSDN《数理统计基础笔记四》

误区3:"F(m,n)和F(n,m)是一样的"

错误解释:认为 F 分布的两个自由度可以互换。

正确解释m 是分子自由度,n 是分母自由度,不可互换。,但它们有倒数关系:。查表时务必注意自由度的顺序。

X̄与S²独立性误用

来源:茆诗松§5.4 p250-251(Fisher引理)+ 卡方核心笔记 + CSDN《数理统计基础笔记四》 + bookdown《统计考研复习参考》Ch5 + UCLA《Distributions》

误区4:"任何总体下样本均值和样本方差都独立"

错误解释:认为 的独立性是普遍成立的。

正确解释 的相互独立仅在正态总体下成立,这是 Fisher 引理的核心结论。对于非正态总体, 一般不独立。正态分布的这个特殊性质在统计推断中至关重要。

χ²分布可加性条件

来源:茆诗松§5.4 p248 + 卡方核心笔记 + CSDN《三大抽样分布简单理解》 + CSDN《数理统计基础笔记四》 + bookdown《统计考研复习参考》Ch5

误区5:"任意χ²变量都可以直接相加"

错误解释:认为任何两个 分布变量之和仍然是 分布。

正确解释 分布的可加性要求各变量相互独立。若 独立,则 。若 不独立,则 的分布不再是 分布(自由度也不等于 )。


十、习题精选

习题概览

本节精选 10 道习题,其中 6 道来自教材,4 道来自考研真题。

编号来源核心知识点难度
1教材 5.4-1样本均值的概率计算★★☆
2教材 5.4-5t 统计量概率计算★★★
3教材 5.4-7F 分布对称性证明★★☆
4教材 5.4-9正态变量函数的分布★★★
5教材 5.4-13F 统计量概率计算★★★
6教材 5.4-19均匀分布与卡方分布★★★★
72014 兰州大学 432Fisher 引理证明★★★★
82015 大连理工大学 432两总体 t 分布证明★★★★
92018 东北师范大学 432F 分布概率计算★★★
102024 武汉大学 432Fisher 引理推广★★★★★

习题 1(教材 5.4-1)

习题 1

设总体 ,从中抽取样本 。要使样本均值 落在 内的概率不小于 ,样本量 至少应取多少?

习题 2(教材 5.4-5)

习题 2

,已知 。求

习题 3(教材 5.4-7)

习题 3

,证明

习题 4(教材 5.4-9)

习题 4

,求 的分布。

习题 5(教材 5.4-13)

习题 5

设两个等方差正态总体 ,分别抽取 的样本。求

习题 6(教材 5.4-19)

习题 6

的分布函数。证明

习题 7(2014 兰州大学 432)

习题 7

,证明 相互独立,且

习题 8(2015 大连理工大学 432)

习题 8

,两组样本独立。证明推论 5.4.3。

习题 9(2018 东北师范大学 432)

习题 9

,两组样本独立。求

习题 10(2024 武汉大学 432)

习题 10

,两组样本独立,。讨论相关统计量的分布。


十一、教材原文

教材参考

以下为茆诗松《概率论与数理统计》第五章 5.4 节的教材原文,供对照参考。


第五章 统计量及其分布/三大抽样分布