7.1 假设检验的基本思想与概念
相关笔记:6.1 点估计的概念与无偏性 | 6.6 区间估计 | 5.4 三大抽样分布 | 4.4 中心极限定理
本节概览
本节系统介绍假设检验的基本思想与核心概念。假设检验是统计推断的两大核心问题之一(另一类是参数估计),其核心逻辑是:对总体参数提出某种假设,然后根据样本信息判断该假设是否合理。判断的基本准则是小概率事件在一次试验中几乎不发生——如果原假设成立时样本观测值出现的概率很小,我们就倾向于拒绝原假设。这一节将依次建立原假设与备择假设、拒绝域与检验统计量、两类错误、显著性水平、p 值等核心概念,并以正态总体均值检验为例展示完整检验流程。
逻辑链条:问题提出 → 原假设与备择假设 → 拒绝域与检验统计量 → 两类错误与功效函数 → 显著性水平与显著性检验 → p值 → 正态总体均值检验
前置依赖:§6.6(置信区间与假设检验的对偶性)、§5.4(正态分布、 分布、 分布及分位数)、§4.4(大样本近似)、§6.1(统计量与抽样分布)
核心主线:假设检验的本质是一种”反证法”式的统计推断——先假定原假设成立,再看样本数据是否提供了足够的”矛盾证据”来推翻它。关键概念包括:原假设 与备择假设 的设定、拒绝域的构造、两类错误的权衡、显著性水平 的选取、以及 p 值的统一度量。
一、假设检验问题的提出
统计推断的两大问题
在前面的第六章中,我们系统地学习了参数估计问题——用样本信息去估计总体分布中的未知参数(点估计和区间估计)。统计推断的另一大类核心问题是假设检验(hypothesis testing):根据样本信息,对关于总体的某个假设做出”接受”或”拒绝”的判断。
参数估计 vs 假设检验:
- 参数估计:参数 是什么?(回答”是多少”的问题)
- 假设检验:参数 是否等于某个特定值?(回答”是不是”的问题)
法庭审判类比
假设检验的思想可以用法庭审判来类比,这是理解其核心逻辑的最佳方式:
| 法庭审判 | 假设检验 |
|---|---|
| 被告 | 原假设 (无罪推定) |
| 原告 | 备择假设 |
| 证据 | 样本数据 |
| 判决定罪 | 拒绝 |
| 判决无罪 | 不拒绝 |
| 冤枉好人 | 第一类错误(弃真) |
| 放走坏人 | 第二类错误(取伪) |
| 证明标准 | 显著性水平 |
核心类比要点:
- 无罪推定:被告在被证明有罪之前被假定为无罪——同样, 在被足够证据推翻之前被假定为成立。
- 举证责任在原告:原告需要提供充分的证据来证明被告有罪——同样,拒绝 需要样本提供足够的”矛盾证据”。
- “证据不足”不等于”无罪”:法庭判决”无罪”只是说证据不足以定罪,不等于证明被告确实无罪——同样,“不拒绝 “只是说样本没有提供足够的证据来拒绝它,不等于证明了 为真。
假设检验的典型问题
假设检验问题的一般提法是:对总体分布的某个未知方面提出一个假设,然后根据样本信息判断是否应该拒绝这个假设。
典型例子:
- 某工厂声称其产品的平均寿命为 1000 小时,我们抽取 25 件产品进行检验,判断该说法是否可信。
- 某种新药是否比旧药更有效?
- 某批产品的次品率是否超过 5%?
这些问题共同的特点是:我们需要根据有限的样本信息,对关于总体的某个命题做出判断。
二、原假设与备择假设
原假设与备择假设的定义
定义 7.1.1 — 原假设与备择假设
设总体 的分布函数 含有未知参数 , 为参数空间。将参数空间 划分为两个互不相交的子集 和 ,使得 且 。
- 原假设(null hypothesis):
- 备择假设(alternative hypothesis):
假设检验问题就是根据样本 ,在 和 之间做出选择:是接受 ,还是拒绝 (从而接受 )。
要点解读:
- 和 是互斥且穷尽的: 要么属于 ,要么属于 ,没有第三种可能。
- 原假设 通常是我们想要检验的命题,或者说是我们希望推翻的命题。
- 备择假设 是我们在 被拒绝时转而接受的命题。
参数空间的划分
参数空间 被划分为两个部分:
- :原假设对应的参数取值范围
- :备择假设对应的参数取值范围
三种检验类型
根据 和 的不同划分方式,假设检验可以分为三种基本类型:
| 检验类型 | 原假设 | 备择假设 | 拒绝域位置 |
|---|---|---|---|
| 双边检验 | 双侧 | ||
| 右边检验 | 右侧 | ||
| 左边检验 | 左侧 |
说明:
- 双边检验:关心参数是否偏离某个特定值,不关心偏离的方向。例如:检验某批零件的平均直径是否等于 10mm。
- 右边检验:关心参数是否大于某个特定值。例如:检验新工艺是否提高了产品寿命。
- 左边检验:关心参数是否小于某个特定值。例如:检验某材料的杂质含量是否低于安全标准。
原假设的设立原则
原假设 的设立不是随机的,需要遵循以下原则:
- 保护原假设原则: 代表”维持现状”或”没有效应”的保守立场。拒绝 需要充分的证据,类似于法庭上的”无罪推定”。
- 等号放在 中:在单边检验中,等号始终放在原假设中(即 或 ),这样可以在边界点 处计算检验统计量的分布。
- 后果严重的一方放 :如果犯某一类错误的后果特别严重,应将这类错误对应的状态设为 ,因为 被拒绝需要更强的证据。
例 7.1.1 — 判断检验类型
判断以下假设检验的类型:
(1) 某食品厂声称其袋装食品的平均重量为 500g。质检部门想检验该说法是否属实。
- , → 双边检验
(2) 某种新型电池的标称使用寿命为 100 小时。消费者协会想检验该电池的实际使用寿命是否低于标称值。
- , → 左边检验
(3) 某工厂采用新工艺后,声称产品强度有所提高。检验新工艺是否确实提高了产品强度。
- , → 右边检验
三、拒绝域与检验统计量
拒绝域的定义
定义 7.1.2 — 拒绝域
设样本空间为 ,将样本空间划分为两个互不相交的区域:
- 拒绝域(rejection region / 临界域):当样本观测值 时,拒绝 。
- 接受域 :当样本观测值 时,不拒绝 。
检验的决策规则可以简洁地表述为:
直观理解:拒绝域 就是”如果样本落在这个区域,就说明数据与原假设严重矛盾”的区域。拒绝域的构造是假设检验的核心——它决定了检验的优劣。
检验统计量的定义
定义 7.1.3 — 检验统计量
在构造拒绝域时,通常不是直接在样本空间中划分区域,而是选择一个适当的统计量 ,利用 的取值来构造拒绝域。这个统计量称为检验统计量(test statistic)。
拒绝域可以表示为检验统计量取值的某个集合:
其中 是检验统计量取值空间的一个子集。
检验统计量的选择原则:
- 检验统计量应能敏感地反映参数偏离 的程度。
- 在 成立的条件下,检验统计量的分布应当是已知或可以确定的。
- 检验统计量应充分利用样本中的相关信息。
拒绝域的构造思想
拒绝域的构造遵循以下逻辑:
- 确定检验统计量 :选择一个在 下分布已知的统计量。
- 确定拒绝方向:根据备择假设 的方向,确定拒绝域应在检验统计量分布的哪一端(或两端)。
- 确定临界值:根据显著性水平 ,确定拒绝域的边界(临界值)。
三种检验类型的拒绝域方向:
| 检验类型 | 拒绝域方向 | 直觉 |
|---|---|---|
| 双边检验 | 两侧极端值 | 偏大或偏小都不支持 |
| 右边检验 | 右侧极端值 | 偏大才不支持 |
| 左边检验 | 左侧极端值 | 偏小才不支持 |
临界值
临界值(critical value)是拒绝域与接受域的分界点,通常记为 。临界值的确定依赖于:
- 检验统计量在 下的分布
- 显著性水平
- 检验的类型(双边、左边、右边)
例 7.1.2 — 构造拒绝域
设 是来自正态总体 的样本,要检验
取检验统计量为样本均值 。在 成立时,
对给定的显著性水平 ,查标准正态分布表得 ,则拒绝域为
即当样本均值 与 10 的偏差超过 0.784 时,拒绝 。
四、两类错误与功效函数
第一类错误(弃真错误)
定义 7.1.4 — 第一类错误
当原假设 实际上成立时,由于样本的随机性,检验结果却拒绝了 ,这种错误称为第一类错误(Type I error),也称弃真错误。
第一类错误的概率为
直观理解:第一类错误就是”冤枉好人”—— 本来是真的,却被错误地拒绝了。
第二类错误(取伪错误)
定义 7.1.5 — 第二类错误
当原假设 实际上不成立(即 成立)时,检验结果却没有拒绝 ,这种错误称为第二类错误(Type II error),也称取伪错误。
第二类错误的概率为
直观理解:第二类错误就是”放走坏人”—— 本来是假的,却没有被拒绝。
两类错误的决策矩阵
| 为真 | 为真 | |
|---|---|---|
| 不拒绝 | 正确决策(概率 ) | 第二类错误(概率 ) |
| 拒绝 | 第一类错误(概率 ) | 正确决策(概率 ) |
功效函数
定义 7.1.6 — 功效函数
设 为某个检验的拒绝域,则函数
称为该检验的功效函数(power function)。功效函数在 上的值就是第一类错误的概率,在 上的值就是正确拒绝 的概率(即检验的功效)。
功效函数的直观含义:
- 表示当真实参数为 时,检验拒绝 的概率。
- 当 时, 越小越好(第一类错误概率越小越好)。
- 当 时, 越大越好(正确拒绝 的概率越大越好)。
两类错误的概率关系
由功效函数的定义,两类错误的概率可以统一表示为:
两类错误的矛盾关系:在样本量 固定的条件下,减少第一类错误的概率必然导致第二类错误的概率增大,反之亦然。这一矛盾关系是假设检验中无法回避的根本问题,也是我们需要引入显著性水平和 Neyman-Pearson 原则的原因。
例 7.1.3 — 计算两类错误概率
设 是来自正态总体 的样本,检验问题为
采用检验统计量 ,拒绝域为 ,其中 为临界值。
计算第一类错误概率(当 成立,即 时):
计算第二类错误概率(当 成立,即 时):
数值例子:若取 ,则
可以看到,当 很小时, 相对较大。若要同时减小两类错误,需要增大样本量。
五、显著性水平与显著性检验
显著性水平的定义
定义 7.1.7 — 显著性水平
给定一个小正数 (通常取 或 ),如果某个检验满足
即第一类错误的概率不超过 ,则称 为该检验的显著性水平(significance level),称该检验为水平为 的检验。
要点解读:
- 显著性水平 是我们对第一类错误概率所设定的上限。
- 常用的显著性水平:。
- 越小,对拒绝 的要求越严格(需要更强的证据)。
Neyman-Pearson 原则
Neyman-Pearson 原则
在控制第一类错误概率不超过显著性水平 的前提下,选择使第二类错误概率尽可能小(即使功效函数在 上尽可能大)的检验。这一原则由 Neyman 和 Pearson 于 1928 年提出,是现代假设检验理论的基石。
Neyman-Pearson 原则的核心思想:
- 优先控制第一类错误:因为 代表”维持现状”,错误地拒绝它通常后果更严重(类比:冤枉好人的后果比放走坏人更严重,因为前者破坏了制度的公信力)。
- 在约束下最优化:在第一类错误概率 的约束下,寻找使功效最大的检验。
水平 的检验
水平 的检验
一个检验称为水平为 的检验,如果
如果存在 使得 ,则称该检验为精确水平 的检验。
例 7.1.4 — 给定显著性水平构造检验
设 是来自正态总体 的样本,在显著性水平 下检验
第一步:选择检验统计量。在 下,
第二步:确定拒绝域。这是右边检验,拒绝域应在右侧:
查标准正态分布表,,故
第三步:做出判断。若实际观测到 ,则
样本落入拒绝域,故在显著性水平 下拒绝 ,认为 。
六、p值
p值的定义
定义 7.1.8 — p值
设 为检验统计量, 为其观测值。p 值(p-value)定义为在 成立的条件下,检验统计量取到至少与观测值一样极端的概率:
- 双边检验:
- 右边检验:
- 左边检验:
p 值也称为观测到的显著性水平(observed significance level)。
p值的直观理解
p 值回答的问题是:如果原假设 是真的,那么观察到当前样本(或更极端样本)的概率有多大?
- p 值很小:说明在 成立的前提下,当前样本(或更极端样本)出现的概率很低。根据”小概率事件在一次试验中几乎不发生”的原则,我们有理由怀疑 的正确性,倾向于拒绝 。
- p 值很大:说明在 成立的前提下,当前样本出现的概率并不低,样本与 并不矛盾,没有充分理由拒绝 。
类比:p 值就像法庭上”证据的证明力”——p 值越小,证据越有力,越能证明被告有罪。
p值决策准则
p值与显著性水平的关系
p 值与显著性水平 的关系可以总结如下:
| p 值范围 | 结论 | 证据力度 |
|---|---|---|
| 高度显著,拒绝 | 极强证据 | |
| 显著,拒绝 | 强证据 | |
| 边缘显著 | 弱证据 | |
| 不显著,不拒绝 | 无充分证据 |
p 值的优势:p 值比简单的”拒绝/不拒绝”二元决策提供了更丰富的信息。它告诉我们在哪个显著性水平下 刚好被拒绝,使读者可以根据自己的判断标准做出决策。
例 7.1.5 — 计算 p 值
承例 7.1.4,已知 ,检验统计量观测值
这是右边检验,p 值为
由于 ,拒绝 。
进一步,由于 不成立(),所以在 的水平下不拒绝 。这说明 p 值提供了比固定 更精细的信息。
七、正态总体均值的检验(已知)
检验的定理
定理 7.1.1 — 已知时 的 检验
设 是来自正态总体 的样本,其中 已知。检验问题为
在 成立的条件下,检验统计量
对给定的显著性水平 ,拒绝域为
检验统计量
检验统计量的构造逻辑:
- 分子 :度量样本均值与假设均值的偏差。
- 分母 :标准误差,对偏差进行标准化。
- 在 下,,分布完全已知。
三种检验的拒绝域汇总
| 检验类型 | 原假设 | 备择假设 | 拒绝域 |
|---|---|---|---|
| 双边检验 | $ | ||
| 右边检验 | |||
| 左边检验 |
证明
证明:以双边检验为例。
第一步:构造检验统计量。在 下,由 §5.4 的正态总体抽样定理,
标准化得
第二步:确定拒绝域。对给定的 ,取标准正态分布的双侧 分位数:
因此,当 时,样本与 矛盾,拒绝 。
第三步:验证等价性。 等价于
即样本均值 与 的偏差过大。
例 7.1.6 — 正态总体均值检验的完整步骤
某工厂生产的灯泡寿命(单位:小时)服从正态分布 。按规定,灯泡的平均寿命应不低于 1000 小时。现从一批产品中随机抽取 25 只,测得平均寿命 小时。在显著性水平 下,检验该批灯泡的平均寿命是否达标。
第一步:建立假设。
(将”达标”放在 中,因为拒绝”达标”需要充分证据。)
第二步:选择检验统计量。
在 的边界点 下,。
第三步:确定拒绝域。 左边检验,,,拒绝域为
第四步:计算检验统计量并做判断。
由于 , 落入拒绝域,故拒绝 。
第五步:计算 p 值。
p 值 ,进一步确认拒绝 。在 的水平下,,仍然拒绝 。
结论:在显著性水平 下,有充分证据认为该批灯泡的平均寿命低于 1000 小时,未达到标准。
八、知识结构总览
graph TB 假设检验 --> 原假设与备择假设 假设检验 --> 拒绝域与检验统计量 假设检验 --> 两类错误 假设检验 --> 显著性检验 假设检验 --> p值 假设检验 --> 正态均值检验 原假设与备择假设 --> 双边检验 原假设与备择假设 --> 单边检验 原假设与备择假设 --> 参数空间划分 拒绝域与检验统计量 --> 检验统计量 拒绝域与检验统计量 --> 临界值 拒绝域与检验统计量 --> 接受域 两类错误 --> 第一类错误 两类错误 --> 第二类错误 两类错误 --> 功效函数 显著性检验 --> 显著性水平 显著性检验 --> 内曼皮尔逊原则 p值 --> 观测显著性水平 p值 --> 决策准则 正态均值检验 --> u检验统计量 正态均值检验 --> 三种拒绝域
九、核心思想与解题技巧
假设检验的解题步骤(五步法)
假设检验五步法
第一步:建立假设。根据问题的实际背景,合理设立原假设 和备择假设 。
第二步:选择检验统计量。根据总体分布和待检验参数,选择在 下分布已知的检验统计量。
第三步:确定拒绝域。根据检验类型(双边/左边/右边)和显著性水平 ,确定拒绝域的形式和临界值。
第四步:计算并判断。将样本数据代入检验统计量,计算观测值,判断是否落入拒绝域。
第五步:计算 p 值(可选但推荐)。计算 p 值,给出更精细的结论。
常见题型总结
| 题型 | 关键步骤 | 注意事项 |
|---|---|---|
| 判断检验类型 | 分析 的方向 | 等号始终在 中 |
| 构造拒绝域 | 确定检验统计量分布→查分位数 | 注意单边/双边的分位数取法 |
| 计算两类错误 | 分别在 和 下计算概率 | 注意 和 的定义域 |
| 计算功效函数 | 对所有 计算 | |
| 计算 p 值 | 在 下计算尾部概率 | 区分双边/左边/右边 |
| 正态均值检验 | 检验统计量→查标准正态表 | 确认 是否已知 |
置信区间与假设检验的对偶性
假设检验与置信区间之间存在深刻的对偶关系:
置信区间与假设检验的对偶性
设 的 置信区间为 ,则
即: 不在置信区间内等价于拒绝 。
直观理解:置信区间给出了参数 的”合理范围”,如果 不在这个范围内,说明 与数据不太一致,应该拒绝 。
对偶性示例:对正态总体 , 的 置信区间为
而 的拒绝域为
两者完全等价: 不在置信区间中 。
十、补充理解与易混淆点
误区一:“不拒绝就是接受”
误区描述
很多初学者认为”不拒绝 “等价于”接受 ,证明 为真”。这是对假设检验逻辑的根本误解。
正确理解:“不拒绝 “仅仅意味着当前样本没有提供足够的证据来拒绝 ,并不代表 就是正确的。这就像法庭判决”无罪”只是说证据不足以定罪,不等于证明被告确实没有犯罪。
在统计学中,我们通常说”不拒绝 “而不是”接受 “,就是为了强调这一区别。如果需要”接受”某个假设,应该通过功效分析(power analysis)来验证检验确实有足够的能力检测到实际存在的差异。
来源:茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Hypothesis Testing + Khan Academy - Significance Tests + Wikipedia - Statistical Hypothesis Testing
误区二:“p值就是原假设成立的概率”
误区描述
这是一个极其常见且严重的误解。p 值不是原假设 成立的概率 ,而是在 成立的前提下观察到当前数据(或更极端数据)的概率 。
这两个概率有本质区别:
- :条件概率,以 为条件(这是 p 值的定义)
- :后验概率,以数据为条件(这是贝叶斯统计的范畴)
根据贝叶斯公式,两者之间的关系还依赖于先验概率 。即使 p 值很小(如 0.05),如果 的先验概率很高, 成立的后验概率可能仍然相当大。
来源:茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - P-value Interpretation + Wikipedia - P-value Misuse + Khan Academy - P-values
误区三:“显著性水平越小越好”
误区描述
有人认为 取得越小(如 0.001),检验就越”严格”、越好。实际上, 的选择是在两类错误之间做权衡: 减小会导致 增大(在样本量固定的条件下)。
如果 取得太小:
- 第一类错误概率确实降低了(“冤枉好人”的概率减小了)
- 但第二类错误概率增大了(“放走坏人”的概率增大了)
- 检验的功效降低了,可能无法检测到实际存在的显著差异
正确的做法是根据问题的实际背景来选择 :
- 当第一类错误的后果特别严重时(如药品安全性检验),应取较小的
- 当第二类错误的后果特别严重时(如疾病筛查),可以适当增大
- 一般的科学研究中, 是最常用的选择
来源:茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Type I and Type II Errors + Khan Academy - Type I and II Errors + Wikipedia - Type I and Type II Errors
误区四:“假设检验能证明原假设为真”
误区描述
假设检验的逻辑本质是反证法(更准确地说是”概率反证法”):假设 成立,如果样本数据与 矛盾(即 p 值很小),则拒绝 。但反过来,如果样本数据不与 矛盾(p 值较大),不能得出” 为真”的结论。
这是因为:
- “不拒绝 “可能仅仅是因为样本量不够大,检验的功效不足,无法检测到实际存在的差异
- “不拒绝 “也可能是因为差异确实不存在,但检验本身无法区分这两种情况
如果要”证明”某个效应存在,应该通过功效分析确保检验有足够的统计功效(通常要求功效 ),或者报告效应量的置信区间。
来源:茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Power of a Test + Wikipedia - Statistical Power + Khan Academy - Statistical Power
误区五:“双边检验一定比单边检验好”
误区描述
有人认为双边检验”更全面”、“更保守”,因此总是优于单边检验。实际上,检验类型的选择应该基于实际问题的需要,而非主观偏好。
两者的比较:
- 双边检验:对两个方向都敏感,但每个方向的检验功效较低(因为 被分到了两侧)
- 单边检验:只对一个方向敏感,但在该方向上的检验功效更高(因为 集中在一侧)
如果实际问题只关心参数是否大于(或小于)某个值,使用单边检验更合适——它在关注的方向上有更高的功效。但如果事先没有方向性的预期,或者两个方向的偏离都有实际意义,则应使用双边检验。
关键原则:检验类型必须在看到数据之前确定,不能先看数据再选择检验类型(这会导致严重的 p 值操纵问题)。
来源:茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - One-sided vs Two-sided Tests + Khan Academy - Hypothesis Testing + Wikipedia - One- and Two-tailed Tests
十一、习题精选
习题概览
题号 知识点 来源 难度 1 原假设与备择假设的设立 教材7.1-1 ★★☆ 2 两类错误的概念判断 教材7.1-2 ★★☆ 3 功效函数的计算 教材7.1-3 ★★★ 4 正态总体均值检验 教材7.1-4 ★★★ 5 p 值的计算与决策 教材7.1-5 ★★★ 6 两类错误概率的计算 教材7.1-6 ★★★ 7 检验统计量与拒绝域 卡方(浙江大学2012) ★★★ 8 p 值与显著性水平 卡方(复旦大学2015) ★★★ 9 功效函数与两类错误 卡方(上海交通大学2013) ★★★★ 10 正态总体均值检验综合 卡方(浙江大学2016) ★★★★
习题 1(教材7.1-1)
对以下每种情况,写出合适的原假设 和备择假设 ,并指出检验类型(双边、左边或右边)。
(1) 某种零件的长度标准为 10cm,检验一批零件的平均长度是否符合标准。 (2) 某品牌灯泡声称平均寿命至少为 1500 小时,消费者协会要检验这一说法。 (3) 某化肥厂声称其新化肥能使小麦亩产提高至少 50 斤,农业部门进行检验。
查看解答
(1) 关心平均长度是否偏离 10cm,两个方向都有意义。
(2) 消费者协会关心的是寿命是否低于 1500 小时(虚假宣传)。
注意:等号放在 中, 代表”厂家的说法成立”。
(3) 农业部门关心的是亩产是否确实提高了至少 50 斤。
其中 为使用旧化肥时的平均亩产。
习题 2(教材7.1-2)
指出以下各种情况中,哪一个是第一类错误,哪一个是第二类错误。
某药厂声称其新药的治愈率不低于 80%。卫生部门进行检验:
- 情况 A:新药实际治愈率为 85%,但检验结果拒绝了”治愈率不低于 80%“的假设。
- 情况 B:新药实际治愈率为 70%,但检验结果没有拒绝”治愈率不低于 80%“的假设。
查看解答
设 (药厂的说法成立),。
情况 A: 实际成立(),但被拒绝了。 → 这是第一类错误(弃真错误):好的药被错误地否定了。
情况 B: 实际不成立(),但没有被拒绝。 → 这是第二类错误(取伪错误):不合格的药被放行了。
习题 3(教材7.1-3)
设 是来自正态总体 的样本,检验问题为
采用拒绝域 。
(1) 求该检验的功效函数 。 (2) 当 , 时,计算 和 。
查看解答
(1) 功效函数 。
在参数为 时,,标准化得
因此
(2) 当 , 时:
第一类错误概率():
第二类错误概率():
注意:这里 ,因为 恰好是 和 的中点,拒绝域关于这两个假设对称。
习题 4(教材7.1-4)
某纺织厂生产的纱线强度服从正态分布 。从一批产品中抽取 16 根纱线,测得平均强度 。在显著性水平 下,检验该批纱线的平均强度是否为 2.5。
(1) 建立假设并给出检验统计量。 (2) 确定拒绝域并做出判断。 (3) 计算检验的 p 值。
查看解答
(1) 建立假设:关心平均强度是否偏离 2.5,两个方向都有意义。
检验统计量:
在 下,。
(2) 确定拒绝域并判断。 双边检验,,,拒绝域为 。
计算检验统计量观测值:
由于 , 未落入拒绝域,故不拒绝 。
(3) 计算 p 值。 双边检验的 p 值:
p 值 ,远大于显著性水平,没有证据拒绝 。
习题 5(教材7.1-5)
某公司声称其生产的某种元件的平均电阻为 。从一批产品中抽取 10 件,测得样本均值 。已知电阻服从正态分布,标准差 。
(1) 在 下检验 vs 。 (2) 在 下重新检验,结论是否改变? (3) 计算并解释 p 值。
查看解答
检验统计量:
观测值:
(1) ,。 ,落入拒绝域,拒绝 。
(2) ,。 ,仍然拒绝 。 结论不变,但拒绝的证据更强了(在更宽松的标准下也拒绝)。
(3) p 值:
p 值 ,含义是:如果 成立(),那么观测到 (即 )的概率约为 3.54%。由于 ,在 的水平下拒绝 ;但 ,在 的水平下不拒绝 。
习题 6(教材7.1-6)
设 是来自 的样本, 已知。对检验问题
采用拒绝域 。
(1) 证明当 固定时, 减小则 增大。 (2) 证明当 固定时, 增大则 减小。
查看解答
(1) 在 下,,
在 下,,
由 知, 减小 增大 增大 增大。
而 增大 增大(因为 ) 增大 增大。
因此 减小 增大。
(2) 固定 ,即固定 ,从而 。
代入 的表达式:
由于 ,,当 增大时,,因此
因此 增大时 减小。
习题 7(卡方(浙江大学2012))
设 是来自正态总体 的样本,在显著性水平 下检验
(1) 写出检验统计量及拒绝域。 (2) 若观测到 ,是否拒绝 ? (3) 求当 时该检验的功效。
查看解答
(1) 检验统计量:
在 的边界点 下,。
右边检验,,,拒绝域为
(2) ,落入拒绝域,拒绝 。
(3) 当 时,,功效为
即当 时,该检验正确拒绝 的概率约为 63.87%。
习题 8(卡方(复旦大学2015))
某研究者用两种方法检验同一个假设 vs ,得到两个 p 值:,。
(1) 在 的水平下,两种方法的结论分别是什么? (2) 如果显著性水平改为 ,结论如何变化? (3) 哪种方法提供了更强的反对 的证据?为什么?
查看解答
(1) :
- 方法 1:,拒绝 。
- 方法 2:,不拒绝 。
(2) :
- 方法 1:,拒绝 。
- 方法 2:,拒绝 。
(3) 方法 1 提供了更强的反对 的证据。因为 p 值越小,在 成立的前提下观察到当前数据(或更极端数据)的概率越低,说明数据与 的矛盾越尖锐。 意味着即使在 的严格标准下也不拒绝 (因为 ),但在 的标准下就拒绝了;而 只在 时才能拒绝。
习题 9(卡方(上海交通大学2013))
设 是来自 的样本,考虑检验问题
采用拒绝域 。
(1) 若要求 ,,,求临界值 和第二类错误概率 。 (2) 若要求 ,,,求所需的最小样本量 。
查看解答
(1) 在 下,,。
由 ,得
在 下(),,
(2) 要求 ,。
固定 时,。
.
要求 ,即
由于 ,需要
因此最小样本量 。
习题 10(卡方(浙江大学2016))
某工厂用自动包装机包装面粉,规定每袋面粉的标准重量为 。已知每袋面粉重量服从正态分布 。某天开工后,随机抽取 9 袋,测得重量(单位:kg)为:
24.8, 25.1, 24.9, 25.0, 24.7, 25.2, 24.9, 25.1, 24.8
(1) 在 下,检验包装机工作是否正常(即 )。 (2) 计算检验的 p 值。 (3) 若将显著性水平改为 ,结论如何? (4) 求当 时该检验的功效。
查看解答
(1) 建立假设:
计算样本均值:
检验统计量:
观测值:
,。,不拒绝 。
结论:在 下,没有充分证据认为包装机工作不正常。
(2) p 值:
(3) ,。,不拒绝 。 结论不变。由于 p 值 远大于 0.01,在任何常规显著性水平下都不会拒绝 。
(4) 当 时,。
拒绝域为 ,即 或 。
功效:
计算第一项:
计算第二项:
因此功效 。
即当真实均值为 24.9 时,该检验只有约 32.25% 的概率能正确拒绝 ,功效较低。这说明当真实均值与假设值偏差不大时,检验的功效有限。
十二、教材原文
第七章 假设检验/假设检验的基本思想