7.2 正态总体参数的假设检验

相关笔记7.1 假设检验的基本思想与概念 | 6.6 区间估计 | 5.4 三大抽样分布 | 6.1 点估计的概念与无偏性 | 4.4 中心极限定理

本节概览

本节将§7.1的假设检验理论应用于正态总体的参数检验。正态总体是最重要的总体类型,本节系统介绍其均值和方差的检验方法:单个总体用 检验、 检验和 检验,两个总体用 检验、合并 检验和 检验。所有检验的核心思想都是枢轴量法:构造分布已知的检验统计量,利用其分位数确定拒绝域。

逻辑链条单总体均值单总体方差两总体均值差两总体方差比汇总表对偶关系

前置依赖§7.1(假设检验基本概念、p值、两类错误)、§6.6(置信区间构造、枢轴量法)、§5.4(Fisher引理、// 分布)

核心主线:正态总体参数检验的核心是”构造枢轴量→确定拒绝域”。单个正态总体有3种标准检验(//),两个正态总体有3种标准检验(/合并/),共6种检验场景。每种检验的拒绝域与对应的置信区间存在对偶关系。


一、单个正态总体均值的检验

是来自正态总体 的样本, 为样本均值, 为样本方差。我们要检验关于均值 的假设。

已知时的 检验

定义 7.2.1 — 检验( 已知)

设总体 ,其中 已知。对均值 的检验问题:

检验类型原假设 备择假设
双边检验
右边检验
左边检验

成立的条件下,构造检验统计量:

该统计量不含有任何未知参数,且分布完全已知,是检验 枢轴量

拒绝域(显著性水平 ):

检验类型拒绝域
双边检验${
右边检验
左边检验

其中 为标准正态分布的 分位数,满足

定理 7.2.1 — 已知时 的检验( 检验)

已知。则在显著性水平 下,关于均值 的三种检验问题的拒绝域如上表所示。这些检验都是显著性检验(即控制第一类错误不超过 )。

证明

证明:以双边检验 vs 为例。

第一步:构造检验统计量。当 成立时,,标准化得

第二步:确定拒绝域 意味着 偏离 ,可能偏大也可能偏小。当 偏大时 偏大, 偏大;当 偏小时 偏小, 偏小。因此合理的拒绝域应取双侧:

,得

第三步:验证显著性水平。在 成立时,

故拒绝域 是显著性水平为 的检验。

对于右边检验和左边检验,逻辑类似,只是拒绝域取单侧。

未知时的 检验

定义 7.2.2 — 检验( 未知)

设总体 ,其中 未知。对均值 的检验问题:

检验类型原假设 备择假设
双边检验
右边检验
左边检验

由于 未知,用样本标准差 代替 ,构造检验统计量:

其中 为样本方差。

拒绝域(显著性水平 ):

检验类型拒绝域
双边检验${
右边检验
左边检验

其中 为自由度为 分布的 分位数。

定理 7.2.2 — 未知时 的检验( 检验)

未知。则在显著性水平 下,关于均值 的三种检验问题的拒绝域如上表所示。

检验与 检验的关系:当 未知时, 检验的统计量中 无法计算,必须用 代替。由 §5.4 的 Fisher 引理, 独立,且 ,因此

例 7.2.1 — 检验实例

某工厂生产的零件长度服从正态分布 。标准规定零件平均长度应为 10.0mm。今从一批零件中随机抽取 16 件,测得 mm。在显著性水平 下,检验该批零件的平均长度是否符合标准。

第一步:建立假设

第二步:选择检验统计量 已知,使用 检验:

第三步:计算统计量观测值

第四步:确定拒绝域,双边检验,。 拒绝域为

第五步:做出判断,未落入拒绝域,故不拒绝

即在 水平下,没有充分证据表明该批零件的平均长度不符合标准。

例 7.2.2 — 检验实例

某种合金的抗拉强度服从正态分布。现抽取 9 个样品测得抗拉强度(单位:kg/mm²)为:

下,检验该合金的平均抗拉强度是否为 45.0 kg/mm²。

第一步:建立假设

第二步:计算样本统计量

第三步:计算检验统计量 未知,使用 检验:

第四步:确定拒绝域。 拒绝域为

第五步:做出判断,未落入拒绝域,故不拒绝

即在 水平下,没有充分证据表明该合金的平均抗拉强度不等于 45.0 kg/mm²。


二、单个正态总体方差的检验

是来自正态总体 的样本, 为样本方差。我们要检验关于方差 的假设。

检验

定义 7.2.3 — 检验(单总体方差)

设总体 未知。对方差 的检验问题:

检验类型原假设 备择假设
双边检验
右边检验
左边检验

成立的条件下,由 Fisher 引理,构造检验统计量:

拒绝域(显著性水平 ):

检验类型拒绝域
双边检验
右边检验
左边检验

定理 7.2.3 — 单个正态总体方差的检验( 检验)

未知。则在显著性水平 下,关于方差 的三种检验问题的拒绝域如上表所示。

证明

证明:以双边检验 vs 为例。

第一步:构造检验统计量。当 成立时,由 Fisher 引理,

第二步:确定拒绝域 意味着 可能偏大也可能偏小。当 时, 偏大;当 时, 偏小。因此拒绝域取双侧:

为使检验具有最优性,通常取等尾拒绝域,即令

第三步:验证。在 成立时,

注意 分布是非对称分布,因此双边检验的拒绝域不是关于某个中心对称的,而是取”等尾”形式——两侧各分配 的概率。

例 7.2.3 — 检验实例

某工厂生产的铜丝的折断力服从正态分布。根据长期生产经验,其方差为 64。今从一批产品中抽取 10 根铜丝,测得折断力的样本方差 。在 下,检验该批铜丝折断力的方差是否发生了显著变化。

第一步:建立假设

第二步:计算检验统计量

第三步:确定拒绝域。 拒绝域为

第四步:做出判断,未落入拒绝域,故不拒绝

即在 水平下,没有充分证据表明该批铜丝折断力的方差发生了显著变化。


三、两个正态总体均值差的检验

,两样本独立。 分别为两样本均值, 分别为两样本方差。

已知时的 检验

定义 7.2.4 — 两总体均值差的 检验(方差已知)

设两正态总体方差 均已知。对均值差 的检验问题:

检验类型原假设 备择假设
双边检验
右边检验
左边检验

其中 为已知常数(通常取 )。在 成立时,检验统计量:

拒绝域与单总体 检验形式相同(将 替换为上述统计量)。

未知时的合并 检验

定义 7.2.5 — 两总体均值差的合并 检验(方差未知但相等)

设两正态总体方差 但未知。对均值差 的检验问题同上。首先计算合并样本方差

它是公共方差 的无偏估计。在 成立时,检验统计量:

拒绝域

检验类型拒绝域
双边检验${
右边检验
左边检验

定理 7.2.4 — 两总体均值差的 检验

,两样本独立, 已知。则在显著性水平 下,关于 的检验使用 统计量,拒绝域形式与单总体 检验相同。

定理 7.2.5 — 两总体均值差的合并 检验

,两样本独立, 未知。则在显著性水平 下,关于 的检验使用合并 统计量,自由度为

未知时的近似 检验

定义 7.2.6 — 两总体均值差的近似 检验(Behrens-Fisher 问题)

设两正态总体方差 且均未知。对均值差 的检验,使用统计量:

该统计量的精确分布未知,但可用 Welch-Satterthwaite 近似,其近似服从自由度为 分布:

自由度 通常取整数部分(向下取整)。

定理 7.2.6 — 两总体均值差的近似 检验

设两正态总体方差不等且未知,则在显著性水平 下,关于 的检验使用 Welch 近似 统计量,自由度由 Welch-Satterthwaite 公式给出。

例 7.2.4 — 两总体均值差的检验

比较两种工艺生产的某种材料的抗拉强度。甲工艺抽取 8 个样品,得 ;乙工艺抽取 10 个样品,得 。假设两总体方差相等,在 下检验两种工艺的平均抗拉强度是否有显著差异。

第一步:建立假设

第二步:计算合并样本方差

第三步:计算检验统计量

第四步:确定拒绝域。 拒绝域为

第五步:做出判断,未落入拒绝域,故不拒绝

即在 水平下,没有充分证据表明两种工艺的平均抗拉强度有显著差异。


四、两个正态总体方差比的检验

,两样本独立。 分别为两样本方差。

检验

定义 7.2.7 — 检验(两总体方差比)

设两正态总体均值 均未知。对方差比 的检验问题:

检验类型原假设 备择假设
双边检验
右边检验
左边检验

成立时,由 §5.4 分布定义,构造检验统计量:

拒绝域(显著性水平 ):

检验类型拒绝域
双边检验
右边检验
左边检验

定理 7.2.7 — 两总体方差比的检验( 检验)

,两样本独立, 均未知。则在显著性水平 下,关于方差比 的三种检验问题的拒绝域如上表所示。

证明

证明:以双边检验 vs 为例。

第一步:构造检验统计量。由 Fisher 引理,,且两者独立。当 成立时,

第二步:确定拒绝域 意味着 可能偏大也可能偏小。取等尾拒绝域:

第三步:验证。在 成立时,

分布分位数的关系:利用 ,可将左侧分位数转化为右侧分位数来查表。

例 7.2.5 — 检验实例

为检验例 7.2.4 中”两总体方差相等”的前提是否成立,对两工艺的方差进行检验。 甲工艺:;乙工艺:。取

第一步:建立假设

第二步:计算检验统计量

第三步:确定拒绝域。 拒绝域为

第四步:做出判断,未落入拒绝域,故不拒绝

即在 水平下,没有充分证据否定方差齐性假设,可以继续使用合并 检验。


五、正态总体检验汇总表

以下汇总了正态总体参数检验的8种标准场景:

序号检验参数条件原假设 检验统计量 成立时分布拒绝域
1单总体 已知$
2单总体 未知$
3单总体 未知
4两总体 已知$
5两总体 未知$
6两总体 未知 近似$
7两总体 未知
8两总体 未知

表格说明

  • 表中拒绝域以双边检验为例,单边检验只需将分位数从 改为 ,并取对应单侧。
  • 第6行的自由度 由 Welch-Satterthwaite 公式给出。
  • 第7、8行本质上是同一检验( 检验),只是假设形式不同。

六、置信区间与假设检验的对偶关系

定理 7.2.8 — 置信区间与假设检验的对偶性

是参数 的置信水平为 的置信区间,则对检验问题 vs

反之亦然:

直观理解:置信区间给出了参数 的”合理取值范围”。如果 落在这个范围内,说明样本数据与""相容,不应拒绝 ;如果 落在范围之外,说明样本数据与""矛盾,应拒绝

具体对应关系

检验问题检验统计量对应置信区间拒绝条件
已知) 不在区间内
未知) 不在区间内
不在区间内
(方差已知) 不在区间内

对偶关系的意义

  1. 计算上的等价性:做一次假设检验等价于检查 是否在置信区间内,反之亦然。
  2. 信息量的互补性:置信区间不仅告诉你”是否拒绝”,还告诉你参数的合理范围,信息量更大。
  3. p 值与置信水平:p 值可以理解为”使 恰好在置信区间边界上的那个置信水平 “。

七、知识结构总览

graph TB
    A[正态总体参数检验] --> B[单个总体]
    A --> C[两个总体]
    B --> D[均值检验]
    B --> E[方差检验]
    D --> F[u检验: σ²已知]
    D --> G[t检验: σ²未知]
    E --> H[χ²检验]
    C --> I[均值差检验]
    C --> J[方差比检验]
    I --> K[u检验: 方差已知]
    I --> L[合并t检验: 方差未知相等]
    I --> M[近似t检验: 方差未知不等]
    J --> N[F检验]

八、核心思想与解题技巧

假设检验解题步骤(五步法)

标准五步法

  1. 建立假设:根据问题背景写出 ,明确检验类型(双边/单边)。
  2. 选择统计量:根据总体类型、已知条件( 是否已知、样本量、方差是否相等)选择合适的检验统计量。
  3. 计算观测值:将样本数据代入统计量公式,计算统计量的观测值。
  4. 确定拒绝域:根据显著性水平 和检验类型,查分位数表确定拒绝域。
  5. 做出判断:比较统计量观测值与临界值,判断是否拒绝 ,并给出实际意义解释。

检验方法选择决策

单个正态总体均值检验

  • 已知 检验
  • 未知 检验

两个正态总体均值差检验

  • 已知 检验
  • 未知 合并 检验(需先做 检验验证方差齐性)
  • 未知 Welch 近似 检验

单个正态总体方差检验

  • 未知 检验

两个正态总体方差比检验

  • 未知 检验

常见题型总结

  1. 直接检验题:给定样本数据和假设,完成完整五步检验。
  2. 方法选择题:根据条件判断应使用哪种检验方法。
  3. 两类错误计算题:给定拒绝域,计算犯第一类/第二类错误的概率。
  4. p 值计算题:计算检验的 p 值并与 比较。
  5. 样本量确定题:给定功效要求,反求所需样本量。
  6. 置信区间与检验互化题:利用对偶关系在置信区间和假设检验之间转换。

九、补充理解与易混淆点

误区一:” 检验和 检验可以随意选择”

正确理解 检验要求 已知, 检验用于 未知的情形。当 真的已知时, 检验比 检验功效更高(因为 检验用 代替 引入了额外的不确定性)。当 未知时,不能使用 检验,因为统计量中含有未知参数。选择检验方法由数据条件决定,而非主观偏好

来源:茆诗松《概率论与数理统计》§7.2 | §7.1 | Casella & Berger Statistical Inference Ch.8 | NIST/SEMATECH e-Handbook: t-Test | Stat Trek: t-Test vs z-Test

误区二:” 检验的拒绝域是

正确理解 检验的拒绝域取决于检验类型。对于双边检验 vs ,拒绝域是双侧,而非仅取右侧。这是因为 分布与 分布一样是非对称分布 偏大或偏小都意味着方差不等。只有右边检验 的拒绝域才是

来源:茆诗松《概率论与数理统计》§7.2 | §5.4 | Wackerly Mathematical Statistics Ch.10 | Penn State STAT 415: F-test | Khan Academy: F-test

误区三:“合并 检验不需要方差齐性”

正确理解:合并 检验的数学推导严格依赖 的假设。合并样本方差 是公共方差 的无偏估计,这一性质在方差不等时不成立。实际应用中,应先做 检验验证方差齐性,或使用更稳健的 Welch 近似 检验。==方差齐性是合并 检验的前提条件,而非可有可无的假设==。当方差不等时使用合并 检验,会导致实际显著性水平偏离名义水平。

来源:茆诗松《概率论与数理统计》§7.2 | Welch (1947) Biometrika | RDocumentation: var.test | Penn State STAT 500: Two-Sample t-Test | Rice Mathematical Statistics and Data Analysis Ch.9

误区四:“p 值越小,原假设越不可能成立”

正确理解:p 值的定义是”在 成立的条件下,检验统计量取到当前观测值及更极端值的概率”。p 值小意味着”如果 成立,观察到当前数据或更极端数据的概率很低”,这提供了反对 的证据。但 p 值不是 为真的概率。p 值度量的是数据与假设的相容程度,而非假设为真的概率。p 值受样本量影响:大样本下,即使实际差异很小,p 值也可能非常小。

来源§7.1 | Wasserstein & Lazar (2016) ASA Statement on p-Values | Nature: p-value FAQ | Statistical Science: The p-value | 茆诗松《概率论与数理统计》§7.1

误区五:“样本量很大时 检验等价于 检验”

正确理解:当 时, 分布确实收敛到 ,因此大样本下 检验的临界值接近 检验的临界值。但”等价”需要谨慎理解:(1) 当 时, 仍有约 4% 的差异;(2) 即使大样本, 检验仍然更精确,因为它正确地考虑了用 估计 带来的不确定性;(3) 在要求严格的研究中(如医学试验),即使 很大也应使用 检验。大样本近似是实用的简化,但不是严格的等价

来源:茆诗松《概率论与数理统计》§7.2 | §5.4 分布的极限性质)| Handbook of Statistical Methods: t-distribution | Casella & Berger Statistical Inference Ch.5


十、习题精选

习题概览

教材习题(6题):第1-6题覆盖单总体 // 检验与两总体 / 检验。 考研真题(4题):第7-10题为卡方学院考研真题,涉及正态总体参数检验的综合应用。

教材习题

习题 1 — 单总体 检验

设总体 ,抽取容量为 的样本,测得 。在 下检验 vs

已知,使用 检验。

,落入拒绝域,故拒绝

结论:在 水平下,有充分证据表明总体均值不等于 10。

p 值

习题 2 — 单总体 检验

设总体 未知。抽取容量为 的样本,测得 。在 下检验 vs

未知,使用 检验。

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明总体均值不等于 3。

习题 3 — 单总体 检验

设总体 未知。抽取容量为 的样本,测得 。在 下检验 vs

使用 检验(右边检验)。

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明总体方差大于 0.0025。

习题 4 — 两总体均值差的合并 检验

比较两种肥料对作物产量的影响。施用肥料 A 的 8 块地平均产量 ;施用肥料 B 的 10 块地平均产量 。假设两总体方差相等,在 下检验两种肥料的平均产量是否有显著差异。

vs

合并样本方差:

检验统计量:

,落入拒绝域,故拒绝

结论:在 水平下,两种肥料的平均产量有显著差异。

习题 5 — 两总体方差比的 检验

对习题 4 的数据,在 下检验方差齐性假设 vs

。 拒绝域为

,未落入拒绝域,故不拒绝

结论:在 水平下,方差齐性假设成立,习题 4 使用合并 检验是合理的。

习题 6 — 左边检验

某品牌灯泡寿命服从正态分布,标称平均寿命为 1000 小时。消费者协会抽取 20 个灯泡,测得 小时, 小时。在 下检验该品牌灯泡的平均寿命是否低于标称值。

vs (左边检验)。

未知,使用 检验。

。 拒绝域为

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明该品牌灯泡的平均寿命低于标称值。

考研真题

习题 7 — 考研真题(卡方学院)

未知。测得 。在 下检验 vs ,并求检验的 p 值。

右边 检验:

,未落入拒绝域,故不拒绝

p 值。查 分布表,。由线性插值,

结论:p 值远大于 ,没有证据表明

习题 8 — 考研真题(卡方学院)

未知。测得 。在 下检验 vs

检验(双边):

。 拒绝域为

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明总体方差不等于 0.004。

习题 9 — 考研真题(卡方学院)

,两样本独立。测得 。在 下检验 vs

方差未知但相等,使用合并 检验。

合并样本方差:

检验统计量:

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明两总体均值有显著差异。

习题 10 — 考研真题(卡方学院)

,两样本独立。测得 。在 下检验 vs

检验(双边):

。 拒绝域为

,未落入拒绝域,故不拒绝

结论:在 水平下,没有充分证据表明两总体方差不等。


十一、教材原文

教材参考

本节内容对应茆诗松《概率论与数理统计》(第三版)第七章第二节”正态总体参数的假设检验”。

PDF 原文概率论与统计/7.2_教材扫描_正文.pdf概率论与统计/7.2_教材扫描_补充.pdf

卡方核心笔记概率论与统计/7.2_卡方核心笔记_正态总体参数假设检验.pdf

教材习题解答概率论与统计/7.2_教材习题解答.pdf


第七章 假设检验/正态总体检验