7.2 正态总体参数的假设检验
相关笔记:7.1 假设检验的基本思想与概念 | 6.6 区间估计 | 5.4 三大抽样分布 | 6.1 点估计的概念与无偏性 | 4.4 中心极限定理
本节概览
本节将§7.1的假设检验理论应用于正态总体的参数检验。正态总体是最重要的总体类型,本节系统介绍其均值和方差的检验方法:单个总体用 检验、 检验和 检验,两个总体用 检验、合并 检验和 检验。所有检验的核心思想都是枢轴量法:构造分布已知的检验统计量,利用其分位数确定拒绝域。
逻辑链条:单总体均值 → 单总体方差 → 两总体均值差 → 两总体方差比 → 汇总表 → 对偶关系
前置依赖:§7.1(假设检验基本概念、p值、两类错误)、§6.6(置信区间构造、枢轴量法)、§5.4(Fisher引理、// 分布)
核心主线:正态总体参数检验的核心是”构造枢轴量→确定拒绝域”。单个正态总体有3种标准检验(//),两个正态总体有3种标准检验(/合并/),共6种检验场景。每种检验的拒绝域与对应的置信区间存在对偶关系。
一、单个正态总体均值的检验
设 是来自正态总体 的样本, 为样本均值, 为样本方差。我们要检验关于均值 的假设。
已知时的 检验
定义 7.2.1 — 检验( 已知)
设总体 ,其中 已知。对均值 的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 在 成立的条件下,构造检验统计量:
该统计量不含有任何未知参数,且分布完全已知,是检验 的枢轴量。
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | ${ |
| 右边检验 | |
| 左边检验 |
其中 为标准正态分布的 分位数,满足 。
定理 7.2.1 — 已知时 的检验( 检验)
设 , 已知。则在显著性水平 下,关于均值 的三种检验问题的拒绝域如上表所示。这些检验都是显著性检验(即控制第一类错误不超过 )。
证明
证明:以双边检验 vs 为例。
第一步:构造检验统计量。当 成立时,,标准化得
第二步:确定拒绝域。 意味着 偏离 ,可能偏大也可能偏小。当 偏大时 偏大, 偏大;当 偏小时 偏小, 偏小。因此合理的拒绝域应取双侧:
由 ,得 。
第三步:验证显著性水平。在 成立时,
故拒绝域 是显著性水平为 的检验。
对于右边检验和左边检验,逻辑类似,只是拒绝域取单侧。
未知时的 检验
定义 7.2.2 — 检验( 未知)
设总体 ,其中 未知。对均值 的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 由于 未知,用样本标准差 代替 ,构造检验统计量:
其中 为样本方差。
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | ${ |
| 右边检验 | |
| 左边检验 |
其中 为自由度为 的 分布的 分位数。
定理 7.2.2 — 未知时 的检验( 检验)
设 , 未知。则在显著性水平 下,关于均值 的三种检验问题的拒绝域如上表所示。
检验与 检验的关系:当 未知时, 检验的统计量中 无法计算,必须用 代替。由 §5.4 的 Fisher 引理, 与 独立,且 ,因此
例 7.2.1 — 检验实例
某工厂生产的零件长度服从正态分布 。标准规定零件平均长度应为 10.0mm。今从一批零件中随机抽取 16 件,测得 mm。在显著性水平 下,检验该批零件的平均长度是否符合标准。
解:
第一步:建立假设。
第二步:选择检验统计量。 已知,使用 检验:
第三步:计算统计量观测值。
第四步:确定拒绝域。,双边检验,。 拒绝域为 。
第五步:做出判断。,未落入拒绝域,故不拒绝 。
即在 水平下,没有充分证据表明该批零件的平均长度不符合标准。
例 7.2.2 — 检验实例
某种合金的抗拉强度服从正态分布。现抽取 9 个样品测得抗拉强度(单位:kg/mm²)为:
在 下,检验该合金的平均抗拉强度是否为 45.0 kg/mm²。
解:
第一步:建立假设。
第二步:计算样本统计量。
第三步:计算检验统计量。 未知,使用 检验:
第四步:确定拒绝域。,,。 拒绝域为 。
第五步:做出判断。,未落入拒绝域,故不拒绝 。
即在 水平下,没有充分证据表明该合金的平均抗拉强度不等于 45.0 kg/mm²。
二、单个正态总体方差的检验
设 是来自正态总体 的样本, 为样本方差。我们要检验关于方差 的假设。
检验
定义 7.2.3 — 检验(单总体方差)
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | |
| 右边检验 | |
| 左边检验 |
定理 7.2.3 — 单个正态总体方差的检验( 检验)
设 , 未知。则在显著性水平 下,关于方差 的三种检验问题的拒绝域如上表所示。
证明
证明:以双边检验 vs 为例。
第一步:构造检验统计量。当 成立时,由 Fisher 引理,
第二步:确定拒绝域。 意味着 可能偏大也可能偏小。当 时, 偏大;当 时, 偏小。因此拒绝域取双侧:
为使检验具有最优性,通常取等尾拒绝域,即令
得 ,。
第三步:验证。在 成立时,
注意: 分布是非对称分布,因此双边检验的拒绝域不是关于某个中心对称的,而是取”等尾”形式——两侧各分配 的概率。
例 7.2.3 — 检验实例
某工厂生产的铜丝的折断力服从正态分布。根据长期生产经验,其方差为 64。今从一批产品中抽取 10 根铜丝,测得折断力的样本方差 。在 下,检验该批铜丝折断力的方差是否发生了显著变化。
解:
第一步:建立假设。
第二步:计算检验统计量。
第三步:确定拒绝域。,。 ,。 拒绝域为 。
第四步:做出判断。,未落入拒绝域,故不拒绝 。
即在 水平下,没有充分证据表明该批铜丝折断力的方差发生了显著变化。
三、两个正态总体均值差的检验
设 ,,两样本独立。、 分别为两样本均值,、 分别为两样本方差。
已知时的 检验
定义 7.2.4 — 两总体均值差的 检验(方差已知)
设两正态总体方差 均已知。对均值差 的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 其中 为已知常数(通常取 )。在 成立时,检验统计量:
拒绝域与单总体 检验形式相同(将 替换为上述统计量)。
未知时的合并 检验
定义 7.2.5 — 两总体均值差的合并 检验(方差未知但相等)
设两正态总体方差 但未知。对均值差 的检验问题同上。首先计算合并样本方差:
它是公共方差 的无偏估计。在 成立时,检验统计量:
拒绝域:
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | ${ |
| 右边检验 | |
| 左边检验 |
定理 7.2.4 — 两总体均值差的 检验
设 ,,两样本独立, 已知。则在显著性水平 下,关于 的检验使用 统计量,拒绝域形式与单总体 检验相同。
定理 7.2.5 — 两总体均值差的合并 检验
设 ,,两样本独立, 未知。则在显著性水平 下,关于 的检验使用合并 统计量,自由度为 。
未知时的近似 检验
定义 7.2.6 — 两总体均值差的近似 检验(Behrens-Fisher 问题)
设两正态总体方差 且均未知。对均值差 的检验,使用统计量:
该统计量的精确分布未知,但可用 Welch-Satterthwaite 近似,其近似服从自由度为 的 分布:
自由度 通常取整数部分(向下取整)。
定理 7.2.6 — 两总体均值差的近似 检验
设两正态总体方差不等且未知,则在显著性水平 下,关于 的检验使用 Welch 近似 统计量,自由度由 Welch-Satterthwaite 公式给出。
例 7.2.4 — 两总体均值差的检验
比较两种工艺生产的某种材料的抗拉强度。甲工艺抽取 8 个样品,得 ,;乙工艺抽取 10 个样品,得 ,。假设两总体方差相等,在 下检验两种工艺的平均抗拉强度是否有显著差异。
解:
第一步:建立假设。
第二步:计算合并样本方差。
第三步:计算检验统计量。
第四步:确定拒绝域。,,。 拒绝域为 。
第五步:做出判断。,未落入拒绝域,故不拒绝 。
即在 水平下,没有充分证据表明两种工艺的平均抗拉强度有显著差异。
四、两个正态总体方差比的检验
设 ,,两样本独立。、 分别为两样本方差。
检验
定义 7.2.7 — 检验(两总体方差比)
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | |
| 右边检验 | |
| 左边检验 |
定理 7.2.7 — 两总体方差比的检验( 检验)
设 ,,两样本独立, 均未知。则在显著性水平 下,关于方差比 的三种检验问题的拒绝域如上表所示。
证明
证明:以双边检验 vs 为例。
第一步:构造检验统计量。由 Fisher 引理,,,且两者独立。当 成立时,
第二步:确定拒绝域。 意味着 可能偏大也可能偏小。取等尾拒绝域:
第三步:验证。在 成立时,
分布分位数的关系:利用 ,可将左侧分位数转化为右侧分位数来查表。
例 7.2.5 — 检验实例
为检验例 7.2.4 中”两总体方差相等”的前提是否成立,对两工艺的方差进行检验。 甲工艺:,;乙工艺:,。取 。
解:
第一步:建立假设。
第二步:计算检验统计量。
第三步:确定拒绝域。,,。 , 。 拒绝域为 。
第四步:做出判断。,未落入拒绝域,故不拒绝 。
即在 水平下,没有充分证据否定方差齐性假设,可以继续使用合并 检验。
五、正态总体检验汇总表
以下汇总了正态总体参数检验的8种标准场景:
| 序号 | 检验参数 | 条件 | 原假设 | 检验统计量 | 成立时分布 | 拒绝域 |
|---|---|---|---|---|---|---|
| 1 | 单总体 | 已知 | $ | |||
| 2 | 单总体 | 未知 | $ | |||
| 3 | 单总体 | 未知 | 或 | |||
| 4 | 两总体 | 已知 | $ | |||
| 5 | 两总体 | 未知 | $ | |||
| 6 | 两总体 | 未知 | 近似 | $ | ||
| 7 | 两总体 | 未知 | 或 | |||
| 8 | 两总体 | 未知 |
表格说明
- 表中拒绝域以双边检验为例,单边检验只需将分位数从 改为 ,并取对应单侧。
- 第6行的自由度 由 Welch-Satterthwaite 公式给出。
- 第7、8行本质上是同一检验( 检验),只是假设形式不同。
六、置信区间与假设检验的对偶关系
定理 7.2.8 — 置信区间与假设检验的对偶性
设 是参数 的置信水平为 的置信区间,则对检验问题 vs :
反之亦然:
直观理解:置信区间给出了参数 的”合理取值范围”。如果 落在这个范围内,说明样本数据与""相容,不应拒绝 ;如果 落在范围之外,说明样本数据与""矛盾,应拒绝 。
具体对应关系:
| 检验问题 | 检验统计量 | 对应置信区间 | 拒绝条件 |
|---|---|---|---|
| ( 已知) | 不在区间内 | ||
| ( 未知) | 不在区间内 | ||
| 不在区间内 | |||
| (方差已知) | 不在区间内 |
对偶关系的意义:
- 计算上的等价性:做一次假设检验等价于检查 是否在置信区间内,反之亦然。
- 信息量的互补性:置信区间不仅告诉你”是否拒绝”,还告诉你参数的合理范围,信息量更大。
- p 值与置信水平:p 值可以理解为”使 恰好在置信区间边界上的那个置信水平 “。
七、知识结构总览
graph TB A[正态总体参数检验] --> B[单个总体] A --> C[两个总体] B --> D[均值检验] B --> E[方差检验] D --> F[u检验: σ²已知] D --> G[t检验: σ²未知] E --> H[χ²检验] C --> I[均值差检验] C --> J[方差比检验] I --> K[u检验: 方差已知] I --> L[合并t检验: 方差未知相等] I --> M[近似t检验: 方差未知不等] J --> N[F检验]
八、核心思想与解题技巧
假设检验解题步骤(五步法)
标准五步法
- 建立假设:根据问题背景写出 和 ,明确检验类型(双边/单边)。
- 选择统计量:根据总体类型、已知条件( 是否已知、样本量、方差是否相等)选择合适的检验统计量。
- 计算观测值:将样本数据代入统计量公式,计算统计量的观测值。
- 确定拒绝域:根据显著性水平 和检验类型,查分位数表确定拒绝域。
- 做出判断:比较统计量观测值与临界值,判断是否拒绝 ,并给出实际意义解释。
检验方法选择决策
单个正态总体均值检验:
- 已知 检验
- 未知 检验
两个正态总体均值差检验:
- 已知 检验
- 未知 合并 检验(需先做 检验验证方差齐性)
- 未知 Welch 近似 检验
单个正态总体方差检验:
- 未知 检验
两个正态总体方差比检验:
- 未知 检验
常见题型总结
- 直接检验题:给定样本数据和假设,完成完整五步检验。
- 方法选择题:根据条件判断应使用哪种检验方法。
- 两类错误计算题:给定拒绝域,计算犯第一类/第二类错误的概率。
- p 值计算题:计算检验的 p 值并与 比较。
- 样本量确定题:给定功效要求,反求所需样本量。
- 置信区间与检验互化题:利用对偶关系在置信区间和假设检验之间转换。
九、补充理解与易混淆点
误区一:” 检验和 检验可以随意选择”
正确理解: 检验要求 已知, 检验用于 未知的情形。当 真的已知时, 检验比 检验功效更高(因为 检验用 代替 引入了额外的不确定性)。当 未知时,不能使用 检验,因为统计量中含有未知参数。选择检验方法由数据条件决定,而非主观偏好。
来源:茆诗松《概率论与数理统计》§7.2 | §7.1 | Casella & Berger Statistical Inference Ch.8 | NIST/SEMATECH e-Handbook: t-Test | Stat Trek: t-Test vs z-Test
误区二:” 检验的拒绝域是 ”
正确理解: 检验的拒绝域取决于检验类型。对于双边检验 vs ,拒绝域是双侧的 ,而非仅取右侧。这是因为 分布与 分布一样是非对称分布, 偏大或偏小都意味着方差不等。只有右边检验 的拒绝域才是 。
来源:茆诗松《概率论与数理统计》§7.2 | §5.4 | Wackerly Mathematical Statistics Ch.10 | Penn State STAT 415: F-test | Khan Academy: F-test
误区三:“合并 检验不需要方差齐性”
正确理解:合并 检验的数学推导严格依赖 的假设。合并样本方差 是公共方差 的无偏估计,这一性质在方差不等时不成立。实际应用中,应先做 检验验证方差齐性,或使用更稳健的 Welch 近似 检验。==方差齐性是合并 检验的前提条件,而非可有可无的假设==。当方差不等时使用合并 检验,会导致实际显著性水平偏离名义水平。
来源:茆诗松《概率论与数理统计》§7.2 | Welch (1947) Biometrika | RDocumentation: var.test | Penn State STAT 500: Two-Sample t-Test | Rice Mathematical Statistics and Data Analysis Ch.9
误区四:“p 值越小,原假设越不可能成立”
正确理解:p 值的定义是”在 成立的条件下,检验统计量取到当前观测值及更极端值的概率”。p 值小意味着”如果 成立,观察到当前数据或更极端数据的概率很低”,这提供了反对 的证据。但 p 值不是 为真的概率。p 值度量的是数据与假设的相容程度,而非假设为真的概率。p 值受样本量影响:大样本下,即使实际差异很小,p 值也可能非常小。
来源:§7.1 | Wasserstein & Lazar (2016) ASA Statement on p-Values | Nature: p-value FAQ | Statistical Science: The p-value | 茆诗松《概率论与数理统计》§7.1
误区五:“样本量很大时 检验等价于 检验”
正确理解:当 时, 分布确实收敛到 ,因此大样本下 检验的临界值接近 检验的临界值。但”等价”需要谨慎理解:(1) 当 时, 与 仍有约 4% 的差异;(2) 即使大样本, 检验仍然更精确,因为它正确地考虑了用 估计 带来的不确定性;(3) 在要求严格的研究中(如医学试验),即使 很大也应使用 检验。大样本近似是实用的简化,但不是严格的等价。
来源:茆诗松《概率论与数理统计》§7.2 | §5.4( 分布的极限性质)| Handbook of Statistical Methods: t-distribution | Casella & Berger Statistical Inference Ch.5
十、习题精选
习题概览
教材习题(6题):第1-6题覆盖单总体 // 检验与两总体 / 检验。 考研真题(4题):第7-10题为卡方学院考研真题,涉及正态总体参数检验的综合应用。
教材习题
习题 1 — 单总体 检验
设总体 ,抽取容量为 的样本,测得 。在 下检验 vs 。
解:
已知,使用 检验。
,。 ,落入拒绝域,故拒绝 。
结论:在 水平下,有充分证据表明总体均值不等于 10。
p 值:。
习题 2 — 单总体 检验
设总体 , 未知。抽取容量为 的样本,测得 ,。在 下检验 vs 。
解:
未知,使用 检验。
,,。 ,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明总体均值不等于 3。
习题 3 — 单总体 检验
设总体 , 未知。抽取容量为 的样本,测得 。在 下检验 vs 。
解:
使用 检验(右边检验)。
,,。 ,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明总体方差大于 0.0025。
习题 4 — 两总体均值差的合并 检验
比较两种肥料对作物产量的影响。施用肥料 A 的 8 块地平均产量 ,;施用肥料 B 的 10 块地平均产量 ,。假设两总体方差相等,在 下检验两种肥料的平均产量是否有显著差异。
解:
vs 。
合并样本方差:
检验统计量:
,,。 ,落入拒绝域,故拒绝 。
结论:在 水平下,两种肥料的平均产量有显著差异。
习题 5 — 两总体方差比的 检验
对习题 4 的数据,在 下检验方差齐性假设 vs 。
解:
,。 , 。 拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,方差齐性假设成立,习题 4 使用合并 检验是合理的。
习题 6 — 左边检验
某品牌灯泡寿命服从正态分布,标称平均寿命为 1000 小时。消费者协会抽取 20 个灯泡,测得 小时, 小时。在 下检验该品牌灯泡的平均寿命是否低于标称值。
解:
vs (左边检验)。
未知,使用 检验。
,,。 拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明该品牌灯泡的平均寿命低于标称值。
考研真题
习题 7 — 考研真题(卡方学院)
设 , 未知。测得 ,。在 下检验 vs ,并求检验的 p 值。
解:
, 。
右边 检验:
。,未落入拒绝域,故不拒绝 。
p 值:。查 分布表,,。由线性插值,。
结论:p 值远大于 ,没有证据表明 。
习题 8 — 考研真题(卡方学院)
设 , 未知。测得 。在 下检验 vs 。
解:
检验(双边):
,。 ,。 拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明总体方差不等于 0.004。
习题 9 — 考研真题(卡方学院)
设 ,,两样本独立。测得 ,,,。在 下检验 vs 。
解:
方差未知但相等,使用合并 检验。
合并样本方差:
检验统计量:
,,。 ,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明两总体均值有显著差异。
习题 10 — 考研真题(卡方学院)
设 ,,两样本独立。测得 ,。在 下检验 vs 。
解:
检验(双边):
,。 , 。 拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明两总体方差不等。
十一、教材原文
教材参考
本节内容对应茆诗松《概率论与数理统计》(第三版)第七章第二节”正态总体参数的假设检验”。
PDF 原文:
概率论与统计/7.2_教材扫描_正文.pdf、概率论与统计/7.2_教材扫描_补充.pdf卡方核心笔记:
概率论与统计/7.2_卡方核心笔记_正态总体参数假设检验.pdf教材习题解答:
概率论与统计/7.2_教材习题解答.pdf
第七章 假设检验/正态总体检验