7.1 假设检验的基本思想与概念

本节概览

本节系统介绍假设检验的基本思想与核心概念。假设检验是统计推断的两大核心问题之一（另一类是参数估计），其核心逻辑是：对总体参数提出某种假设，然后根据样本信息判断该假设是否合理。判断的基本准则是小概率事件在一次试验中几乎不发生——如果原假设成立时样本观测值出现的概率很小，我们就倾向于拒绝原假设。这一节将依次建立原假设与备择假设、拒绝域与检验统计量、两类错误、显著性水平、p 值等核心概念，并以正态总体均值检验为例展示完整检验流程。

逻辑链条：问题提出 → 原假设与备择假设 → 拒绝域与检验统计量 → 两类错误与功效函数 → 显著性水平与显著性检验 → p值 → 正态总体均值检验

前置依赖：§6.6（置信区间与假设检验的对偶性）、§5.4（正态分布、 $χ^{2}$ 分布、 $t$ 分布及分位数）、§4.4（大样本近似）、§6.1（统计量与抽样分布）

核心主线：假设检验的本质是一种”反证法”式的统计推断——先假定原假设成立，再看样本数据是否提供了足够的”矛盾证据”来推翻它。关键概念包括：原假设 $H_{0}$ 与备择假设 $H_{1}$ 的设定、拒绝域的构造、两类错误的权衡、显著性水平 $α$ 的选取、以及 p 值的统一度量。

一、假设检验问题的提出

统计推断的两大问题

在前面的第六章中，我们系统地学习了参数估计问题——用样本信息去估计总体分布中的未知参数（点估计和区间估计）。统计推断的另一大类核心问题是假设检验（hypothesis testing）：根据样本信息，对关于总体的某个假设做出”接受”或”拒绝”的判断。

参数估计 vs 假设检验：

参数估计：参数 $θ$ 是什么？（回答”是多少”的问题）
假设检验：参数 $θ$ 是否等于某个特定值？（回答”是不是”的问题）

法庭审判类比

假设检验的思想可以用法庭审判来类比，这是理解其核心逻辑的最佳方式：

法庭审判	假设检验
被告	原假设 $H_{0}$ （无罪推定）
原告	备择假设 $H_{1}$
证据	样本数据
判决定罪	拒绝 $H_{0}$
判决无罪	不拒绝 $H_{0}$
冤枉好人	第一类错误（弃真）
放走坏人	第二类错误（取伪）
证明标准	显著性水平 $α$

核心类比要点：

无罪推定：被告在被证明有罪之前被假定为无罪——同样， $H_{0}$ 在被足够证据推翻之前被假定为成立。
举证责任在原告：原告需要提供充分的证据来证明被告有罪——同样，拒绝 $H_{0}$ 需要样本提供足够的”矛盾证据”。
“证据不足”不等于”无罪”：法庭判决”无罪”只是说证据不足以定罪，不等于证明被告确实无罪——同样，“不拒绝 $H_{0}$ “只是说样本没有提供足够的证据来拒绝它，不等于证明了 $H_{0}$ 为真。

假设检验的典型问题

假设检验问题的一般提法是：对总体分布的某个未知方面提出一个假设，然后根据样本信息判断是否应该拒绝这个假设。

典型例子：

某工厂声称其产品的平均寿命为 1000 小时，我们抽取 25 件产品进行检验，判断该说法是否可信。
某种新药是否比旧药更有效？
某批产品的次品率是否超过 5%？

这些问题共同的特点是：我们需要根据有限的样本信息，对关于总体的某个命题做出判断。

二、原假设与备择假设

原假设与备择假设的定义

定义 7.1.1 — 原假设与备择假设

设总体 $X$ 的分布函数 $F (x; θ)$ 含有未知参数 $θ \in Θ$ ， $Θ$ 为参数空间。将参数空间 $Θ$ 划分为两个互不相交的子集 $Θ_{0}$ 和 $Θ_{1}$ ，使得 $Θ = Θ_{0} \cup Θ_{1}$ 且 $Θ_{0} \cap Θ_{1} = \emptyset$ 。

原假设（null hypothesis）： $H_{0} : θ \in Θ_{0}$

备择假设（alternative hypothesis）： $H_{1} : θ \in Θ_{1}$

假设检验问题就是根据样本 $X_{1}, X_{2}, \dots, X_{n}$ ，在 $H_{0}$ 和 $H_{1}$ 之间做出选择：是接受 $H_{0}$ ，还是拒绝 $H_{0}$ （从而接受 $H_{1}$ ）。

要点解读：

$H_{0}$ 和 $H_{1}$ 是互斥且穷尽的： $θ$ 要么属于 $Θ_{0}$ ，要么属于 $Θ_{1}$ ，没有第三种可能。
原假设 $H_{0}$ 通常是我们想要检验的命题，或者说是我们希望推翻的命题。
备择假设 $H_{1}$ 是我们在 $H_{0}$ 被拒绝时转而接受的命题。

参数空间的划分

参数空间 $Θ$ 被划分为两个部分：

Θ = Θ_{0} \cup Θ_{1}, Θ_{0} \cap Θ_{1} = \emptyset

$Θ_{0}$ ：原假设对应的参数取值范围
$Θ_{1}$ ：备择假设对应的参数取值范围

三种检验类型

根据 $Θ_{0}$ 和 $Θ_{1}$ 的不同划分方式，假设检验可以分为三种基本类型：

检验类型	原假设 $H_{0}$	备择假设 $H_{1}$	拒绝域位置
双边检验	$H_{0} : θ = θ_{0}$	$H_{1} : θ \neq = θ_{0}$	双侧
右边检验	$H_{0} : θ ⩽ θ_{0}$	$H_{1} : θ > θ_{0}$	右侧
左边检验	$H_{0} : θ ⩾ θ_{0}$	$H_{1} : θ < θ_{0}$	左侧

说明：

双边检验：关心参数是否偏离某个特定值，不关心偏离的方向。例如：检验某批零件的平均直径是否等于 10mm。
右边检验：关心参数是否大于某个特定值。例如：检验新工艺是否提高了产品寿命。
左边检验：关心参数是否小于某个特定值。例如：检验某材料的杂质含量是否低于安全标准。

原假设的设立原则

原假设 $H_{0}$ 的设立不是随机的，需要遵循以下原则：

保护原假设原则： $H_{0}$ 代表”维持现状”或”没有效应”的保守立场。拒绝 $H_{0}$ 需要充分的证据，类似于法庭上的”无罪推定”。
等号放在 $H_{0}$ 中：在单边检验中，等号始终放在原假设中（即 $H_{0} : θ ⩽ θ_{0}$ 或 $H_{0} : θ ⩾ θ_{0}$ ），这样可以在边界点 $θ = θ_{0}$ 处计算检验统计量的分布。
后果严重的一方放 $H_{0}$ ：如果犯某一类错误的后果特别严重，应将这类错误对应的状态设为 $H_{0}$ ，因为 $H_{0}$ 被拒绝需要更强的证据。

例 7.1.1 — 判断检验类型

判断以下假设检验的类型：

(1) 某食品厂声称其袋装食品的平均重量为 500g。质检部门想检验该说法是否属实。

$H_{0} : μ = 500$ ， $H_{1} : μ \neq = 500$ → 双边检验

(2) 某种新型电池的标称使用寿命为 100 小时。消费者协会想检验该电池的实际使用寿命是否低于标称值。

$H_{0} : μ ⩾ 100$ ， $H_{1} : μ < 100$ → 左边检验

(3) 某工厂采用新工艺后，声称产品强度有所提高。检验新工艺是否确实提高了产品强度。

$H_{0} : μ ⩽ μ_{0}$ ， $H_{1} : μ > μ_{0}$ → 右边检验

三、拒绝域与检验统计量

拒绝域的定义

定义 7.1.2 — 拒绝域

设样本空间为 $X$ ，将样本空间划分为两个互不相交的区域：

拒绝域（rejection region / 临界域） $R$ ：当样本观测值 $(x_{1}, x_{2}, \dots, x_{n}) \in R$ 时，拒绝 $H_{0}$ 。

接受域 $R^{c} = X ∖ R$ ：当样本观测值 $(x_{1}, x_{2}, \dots, x_{n}) \in R^{c}$ 时，不拒绝 $H_{0}$ 。

检验的决策规则可以简洁地表述为：
$若 (x_{1}, \dots, x_{n}) \in R, 则拒绝 H_{0}; 若 (x_{1}, \dots, x_{n}) \in R^{c}, 则不拒绝 H_{0} .$

直观理解：拒绝域 $R$ 就是”如果样本落在这个区域，就说明数据与原假设严重矛盾”的区域。拒绝域的构造是假设检验的核心——它决定了检验的优劣。

检验统计量的定义

定义 7.1.3 — 检验统计量

在构造拒绝域时，通常不是直接在样本空间中划分区域，而是选择一个适当的统计量 $T = T (X_{1}, X_{2}, \dots, X_{n})$ ，利用 $T$ 的取值来构造拒绝域。这个统计量称为检验统计量（test statistic）。

拒绝域可以表示为检验统计量取值的某个集合：
$R = {(x_{1}, \dots, x_{n}) : T (x_{1}, \dots, x_{n}) \in W}$
其中 $W$ 是检验统计量取值空间的一个子集。

检验统计量的选择原则：

检验统计量应能敏感地反映参数偏离 $H_{0}$ 的程度。
在 $H_{0}$ 成立的条件下，检验统计量的分布应当是已知或可以确定的。
检验统计量应充分利用样本中的相关信息。

拒绝域的构造思想

拒绝域的构造遵循以下逻辑：

确定检验统计量 $T$ ：选择一个在 $H_{0}$ 下分布已知的统计量。
确定拒绝方向：根据备择假设 $H_{1}$ 的方向，确定拒绝域应在检验统计量分布的哪一端（或两端）。
确定临界值：根据显著性水平 $α$ ，确定拒绝域的边界（临界值）。

三种检验类型的拒绝域方向：

检验类型	拒绝域方向	直觉
双边检验 $H_{1} : θ \neq = θ_{0}$	两侧极端值	$θ$ 偏大或偏小都不支持 $H_{0}$
右边检验 $H_{1} : θ > θ_{0}$	右侧极端值	$θ$ 偏大才不支持 $H_{0}$
左边检验 $H_{1} : θ < θ_{0}$	左侧极端值	$θ$ 偏小才不支持 $H_{0}$

临界值

临界值（critical value）是拒绝域与接受域的分界点，通常记为 $c$ 。临界值的确定依赖于：

检验统计量在 $H_{0}$ 下的分布

显著性水平 $α$

检验的类型（双边、左边、右边）

例 7.1.2 — 构造拒绝域

设 $X_{1}, X_{2}, \dots, X_{25}$ 是来自正态总体 $N (μ, 4)$ 的样本，要检验
$H_{0} : μ = 10 vs H_{1} : μ \neq = 10.$
取检验统计量为样本均值 $\overset{ˉ}{X}$ 。在 $H_{0}$ 成立时，
$\overset{ˉ}{X} \sim N (10, \frac{4}{25}) = N (10, 0.16) .$
对给定的显著性水平 $α = 0.05$ ，查标准正态分布表得 $u_{0.975} = 1.96$ ，则拒绝域为
$R = {(x_{1}, \dots, x_{25}) : \frac{x ˉ - 10}{2/5} > 1.96} = {(x_{1}, \dots, x_{25}) : ∣ \overset{x}{ˉ} - 10∣ > 0.784} .$
即当样本均值 $\overset{x}{ˉ}$ 与 10 的偏差超过 0.784 时，拒绝 $H_{0}$ 。

四、两类错误与功效函数

第一类错误（弃真错误）

定义 7.1.4 — 第一类错误

当原假设 $H_{0}$ 实际上成立时，由于样本的随机性，检验结果却拒绝了 $H_{0}$ ，这种错误称为第一类错误（Type I error），也称弃真错误。

第一类错误的概率为
$α (θ) = P_{θ} (X \in R), θ \in Θ_{0} .$

直观理解：第一类错误就是”冤枉好人”—— $H_{0}$ 本来是真的，却被错误地拒绝了。

第二类错误（取伪错误）

定义 7.1.5 — 第二类错误

当原假设 $H_{0}$ 实际上不成立（即 $H_{1}$ 成立）时，检验结果却没有拒绝 $H_{0}$ ，这种错误称为第二类错误（Type II error），也称取伪错误。

第二类错误的概率为
$β (θ) = P_{θ} (X \in R^{c}), θ \in Θ_{1} .$

直观理解：第二类错误就是”放走坏人”—— $H_{0}$ 本来是假的，却没有被拒绝。

两类错误的决策矩阵

	$H_{0}$ 为真	$H_{1}$ 为真
不拒绝 $H_{0}$	正确决策（概率 $1 - α$ ）	第二类错误（概率 $β$ ）
拒绝 $H_{0}$	第一类错误（概率 $α$ ）	正确决策（概率 $1 - β$ ）

功效函数

定义 7.1.6 — 功效函数

设 $R$ 为某个检验的拒绝域，则函数
$g (θ) = P_{θ} (X \in R), θ \in Θ$
称为该检验的功效函数（power function）。功效函数在 $θ \in Θ_{0}$ 上的值就是第一类错误的概率，在 $θ \in Θ_{1}$ 上的值就是正确拒绝 $H_{0}$ 的概率（即检验的功效）。

功效函数的直观含义：

$g (θ)$ 表示当真实参数为 $θ$ 时，检验拒绝 $H_{0}$ 的概率。
当 $θ \in Θ_{0}$ 时， $g (θ)$ 越小越好（第一类错误概率越小越好）。
当 $θ \in Θ_{1}$ 时， $g (θ)$ 越大越好（正确拒绝 $H_{0}$ 的概率越大越好）。

两类错误的概率关系

由功效函数的定义，两类错误的概率可以统一表示为：

α (θ) = g (θ), θ \in Θ_{0} （第一类错误概率） β (θ) = 1 - g (θ), θ \in Θ_{1} （第二类错误概率）

两类错误的矛盾关系：在样本量 $n$ 固定的条件下，减少第一类错误的概率必然导致第二类错误的概率增大，反之亦然。这一矛盾关系是假设检验中无法回避的根本问题，也是我们需要引入显著性水平和 Neyman-Pearson 原则的原因。

例 7.1.3 — 计算两类错误概率

设 $X_{1}, X_{2}, \dots, X_{16}$ 是来自正态总体 $N (μ, 1)$ 的样本，检验问题为
$H_{0} : μ = 0 vs H_{1} : μ = 1.$
采用检验统计量 $\overset{ˉ}{X}$ ，拒绝域为 $R = {\overset{x}{ˉ} > c}$ ，其中 $c$ 为临界值。

计算第一类错误概率（当 $H_{0}$ 成立，即 $μ = 0$ 时）：
$α = P_{0} (\overset{ˉ}{X} > c) = 1 - Φ (\frac{c - 0}{1/4}) = 1 - Φ (4 c) .$
计算第二类错误概率（当 $H_{1}$ 成立，即 $μ = 1$ 时）：
$β = P_{1} (\overset{ˉ}{X} ⩽ c) = Φ (\frac{c - 1}{1/4}) = Φ (4 c - 4) .$
数值例子：若取 $c = 0.824$ ，则
$α = 1 - Φ (4 \times 0.824) = 1 - Φ (3.296) \approx 1 - 0.9995 = 0.0005,$ $β = Φ (4 \times 0.824 - 4) = Φ (- 0.704) \approx 0.241.$
可以看到，当 $α$ 很小时， $β$ 相对较大。若要同时减小两类错误，需要增大样本量。

五、显著性水平与显著性检验

显著性水平的定义

定义 7.1.7 — 显著性水平

给定一个小正数 $α \in (0, 1)$ （通常取 $α = 0.05$ 或 $α = 0.01$ ），如果某个检验满足
$θ \in Θ_{0} sup P_{θ} (X \in R) ⩽ α,$
即第一类错误的概率不超过 $α$ ，则称 $α$ 为该检验的显著性水平（significance level），称该检验为水平为 $α$ 的检验。

要点解读：

显著性水平 $α$ 是我们对第一类错误概率所设定的上限。
常用的显著性水平： $α = 0.10, 0.05, 0.01$ 。
$α$ 越小，对拒绝 $H_{0}$ 的要求越严格（需要更强的证据）。

Neyman-Pearson 原则

Neyman-Pearson 原则

在控制第一类错误概率不超过显著性水平 $α$ 的前提下，选择使第二类错误概率尽可能小（即使功效函数在 $Θ_{1}$ 上尽可能大）的检验。这一原则由 Neyman 和 Pearson 于 1928 年提出，是现代假设检验理论的基石。

Neyman-Pearson 原则的核心思想：

优先控制第一类错误：因为 $H_{0}$ 代表”维持现状”，错误地拒绝它通常后果更严重（类比：冤枉好人的后果比放走坏人更严重，因为前者破坏了制度的公信力）。
在约束下最优化：在第一类错误概率 $⩽ α$ 的约束下，寻找使功效最大的检验。

水平 $α$ 的检验

水平 $α$ 的检验

一个检验称为水平为 $α$ 的检验，如果
$g (θ) = P_{θ} (X \in R) ⩽ α, \forall θ \in Θ_{0} .$
如果存在 $θ_{0} \in Θ_{0}$ 使得 $g (θ_{0}) = α$ ，则称该检验为精确水平 $α$ 的检验。

例 7.1.4 — 给定显著性水平构造检验

设 $X_{1}, X_{2}, \dots, X_{9}$ 是来自正态总体 $N (μ, 4)$ 的样本，在显著性水平 $α = 0.05$ 下检验
$H_{0} : μ = 5 vs H_{1} : μ > 5.$
第一步：选择检验统计量。在 $H_{0}$ 下，
$u = \frac{X ˉ - 5}{2/ 9} = \frac{X ˉ - 5}{2/3} \sim N (0, 1) .$
第二步：确定拒绝域。这是右边检验，拒绝域应在右侧：
$R = {(x_{1}, \dots, x_{9}) : \frac{x ˉ - 5}{2/3} > u_{1 - α}} .$
查标准正态分布表， $u_{0.95} = 1.645$ ，故
$R = {(x_{1}, \dots, x_{9}) : \frac{x ˉ - 5}{2/3} > 1.645} = {(x_{1}, \dots, x_{9}) : \overset{x}{ˉ} > 6.097} .$
第三步：做出判断。若实际观测到 $\overset{x}{ˉ} = 6.5$ ，则
$u = \frac{6.5 - 5}{2/3} = 2.25 > 1.645,$
样本落入拒绝域，故在显著性水平 $α = 0.05$ 下拒绝 $H_{0}$ ，认为 $μ > 5$ 。

六、p值

p值的定义

定义 7.1.8 — p值

设 $T (X_{1}, \dots, X_{n})$ 为检验统计量， $t_{obs}$ 为其观测值。p 值（p-value）定义为在 $H_{0}$ 成立的条件下，检验统计量取到至少与观测值一样极端的概率：

双边检验： $p = P_{H_{0}} (∣ T ∣ ⩾ ∣ t_{obs} ∣)$

右边检验： $p = P_{H_{0}} (T ⩾ t_{obs})$

左边检验： $p = P_{H_{0}} (T ⩽ t_{obs})$

p 值也称为观测到的显著性水平（observed significance level）。

p值的直观理解

p 值回答的问题是：如果原假设 $H_{0}$ 是真的，那么观察到当前样本（或更极端样本）的概率有多大？

p 值很小：说明在 $H_{0}$ 成立的前提下，当前样本（或更极端样本）出现的概率很低。根据”小概率事件在一次试验中几乎不发生”的原则，我们有理由怀疑 $H_{0}$ 的正确性，倾向于拒绝 $H_{0}$ 。
p 值很大：说明在 $H_{0}$ 成立的前提下，当前样本出现的概率并不低，样本与 $H_{0}$ 并不矛盾，没有充分理由拒绝 $H_{0}$ 。

类比：p 值就像法庭上”证据的证明力”——p 值越小，证据越有力，越能证明被告有罪。

p值决策准则

p 值 ⩽ α ⟹ 拒绝 H_{0} p 值 > α ⟹ 不拒绝 H_{0}

p值与显著性水平的关系

p 值与显著性水平 $α$ 的关系可以总结如下：

p 值范围	结论	证据力度
$p ⩽ 0.01$	高度显著，拒绝 $H_{0}$	极强证据
$0.01 < p ⩽ 0.05$	显著，拒绝 $H_{0}$	强证据
$0.05 < p ⩽ 0.10$	边缘显著	弱证据
$p > 0.10$	不显著，不拒绝 $H_{0}$	无充分证据

p 值的优势：p 值比简单的”拒绝/不拒绝”二元决策提供了更丰富的信息。它告诉我们在哪个显著性水平下 $H_{0}$ 刚好被拒绝，使读者可以根据自己的判断标准做出决策。

例 7.1.5 — 计算 p 值

承例 7.1.4，已知 $\overset{x}{ˉ} = 6.5$ ，检验统计量观测值
$u_{obs} = \frac{6.5 - 5}{2/3} = 2.25.$
这是右边检验，p 值为
$p = P_{H_{0}} (U ⩾ 2.25) = 1 - Φ (2.25) = 1 - 0.9878 = 0.0122.$
由于 $p = 0.0122 < 0.05 = α$ ，拒绝 $H_{0}$ 。

进一步，由于 $p = 0.0122 < 0.01$ 不成立（ $0.0122 > 0.01$ ），所以在 $α = 0.01$ 的水平下不拒绝 $H_{0}$ 。这说明 p 值提供了比固定 $α$ 更精细的信息。

七、正态总体均值的检验（ $σ^{2}$ 已知）

$u$ 检验的定理

定理 7.1.1 — $σ^{2}$ 已知时 $μ$ 的 $u$ 检验

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自正态总体 $N (μ, σ^{2})$ 的样本，其中 $σ^{2} = σ_{0}^{2}$ 已知。检验问题为
$H_{0} : μ = μ_{0} vs H_{1} : μ \neq = μ_{0} .$
在 $H_{0}$ 成立的条件下，检验统计量
$u = \frac{X ˉ - μ _{0}}{σ _{0} / n} \sim N (0, 1) .$
对给定的显著性水平 $α$ ，拒绝域为
$R = {∣ u ∣ > u_{1 - α /2}} .$

$u$ 检验统计量

u = \frac{X ˉ - μ _{0}}{σ _{0} / n}

检验统计量的构造逻辑：

分子 $\overset{ˉ}{X} - μ_{0}$ ：度量样本均值与假设均值的偏差。
分母 $σ_{0} / n$ ：标准误差，对偏差进行标准化。
在 $H_{0}$ 下， $u \sim N (0, 1)$ ，分布完全已知。

三种检验的拒绝域汇总

检验类型	原假设 $H_{0}$	备择假设 $H_{1}$	拒绝域
双边检验	$μ = μ_{0}$	$μ \neq = μ_{0}$	$
右边检验	$μ ⩽ μ_{0}$	$μ > μ_{0}$	$u > u_{1 - α}$
左边检验	$μ ⩾ μ_{0}$	$μ < μ_{0}$	$u < u_{α} = - u_{1 - α}$

证明

证明：以双边检验为例。

第一步：构造检验统计量。在 $H_{0} : μ = μ_{0}$ 下，由 §5.4 的正态总体抽样定理，
$\overset{ˉ}{X} \sim N (μ_{0}, \frac{σ _{0}^{2}}{n}),$
标准化得
$u = \frac{X ˉ - μ _{0}}{σ _{0} / n} \sim N (0, 1) .$
第二步：确定拒绝域。对给定的 $α$ ，取标准正态分布的双侧 $α /2$ 分位数：
$P (∣ u ∣ > u_{1 - α /2}) = α .$
因此，当 $∣ u ∣ > u_{1 - α /2}$ 时，样本与 $H_{0}$ 矛盾，拒绝 $H_{0}$ 。

第三步：验证等价性。 $∣ u ∣ > u_{1 - α /2}$ 等价于
$\overset{ˉ}{X} - μ_{0} > u_{1 - α /2} \cdot \frac{σ _{0}}{n} 或 \overset{ˉ}{X} - μ_{0} < - u_{1 - α /2} \cdot \frac{σ _{0}}{n},$
即样本均值 $\overset{ˉ}{X}$ 与 $μ_{0}$ 的偏差过大。

$□$

例 7.1.6 — 正态总体均值检验的完整步骤

某工厂生产的灯泡寿命（单位：小时）服从正态分布 $N (μ, 400)$ 。按规定，灯泡的平均寿命应不低于 1000 小时。现从一批产品中随机抽取 25 只，测得平均寿命 $\overset{x}{ˉ} = 990$ 小时。在显著性水平 $α = 0.05$ 下，检验该批灯泡的平均寿命是否达标。

第一步：建立假设。
$H_{0} : μ ⩾ 1000 vs H_{1} : μ < 1000.$
（将”达标”放在 $H_{0}$ 中，因为拒绝”达标”需要充分证据。）

第二步：选择检验统计量。
$u = \frac{X ˉ - 1000}{20/ 25} = \frac{X ˉ - 1000}{4} .$
在 $H_{0}$ 的边界点 $μ = 1000$ 下， $u \sim N (0, 1)$ 。

第三步：确定拒绝域。左边检验， $α = 0.05$ ， $u_{0.95} = 1.645$ ，拒绝域为
$R = {u < - 1.645} .$
第四步：计算检验统计量并做判断。
$u_{obs} = \frac{990 - 1000}{4} = - 2.5.$
由于 $- 2.5 < - 1.645$ ， $u_{obs}$ 落入拒绝域，故拒绝 $H_{0}$ 。

第五步：计算 p 值。
$p = P_{H_{0}} (U ⩽ - 2.5) = Φ (- 2.5) = 1 - Φ (2.5) = 1 - 0.9938 = 0.0062.$
p 值 $= 0.0062 < 0.05$ ，进一步确认拒绝 $H_{0}$ 。在 $α = 0.01$ 的水平下， $p = 0.0062 < 0.01$ ，仍然拒绝 $H_{0}$ 。

结论：在显著性水平 $α = 0.05$ 下，有充分证据认为该批灯泡的平均寿命低于 1000 小时，未达到标准。

八、知识结构总览

graph TB
    假设检验 --> 原假设与备择假设
    假设检验 --> 拒绝域与检验统计量
    假设检验 --> 两类错误
    假设检验 --> 显著性检验
    假设检验 --> p值
    假设检验 --> 正态均值检验

    原假设与备择假设 --> 双边检验
    原假设与备择假设 --> 单边检验
    原假设与备择假设 --> 参数空间划分

    拒绝域与检验统计量 --> 检验统计量
    拒绝域与检验统计量 --> 临界值
    拒绝域与检验统计量 --> 接受域

    两类错误 --> 第一类错误
    两类错误 --> 第二类错误
    两类错误 --> 功效函数

    显著性检验 --> 显著性水平
    显著性检验 --> 内曼皮尔逊原则

    p值 --> 观测显著性水平
    p值 --> 决策准则

    正态均值检验 --> u检验统计量
    正态均值检验 --> 三种拒绝域

九、核心思想与解题技巧

假设检验的解题步骤（五步法）

假设检验五步法

第一步：建立假设。根据问题的实际背景，合理设立原假设 $H_{0}$ 和备择假设 $H_{1}$ 。

第二步：选择检验统计量。根据总体分布和待检验参数，选择在 $H_{0}$ 下分布已知的检验统计量。

第三步：确定拒绝域。根据检验类型（双边/左边/右边）和显著性水平 $α$ ，确定拒绝域的形式和临界值。

第四步：计算并判断。将样本数据代入检验统计量，计算观测值，判断是否落入拒绝域。

第五步：计算 p 值（可选但推荐）。计算 p 值，给出更精细的结论。

常见题型总结

题型	关键步骤	注意事项
判断检验类型	分析 $H_{1}$ 的方向	等号始终在 $H_{0}$ 中
构造拒绝域	确定检验统计量分布→查分位数	注意单边/双边的分位数取法
计算两类错误	分别在 $H_{0}$ 和 $H_{1}$ 下计算概率	注意 $α$ 和 $β$ 的定义域
计算功效函数	$g (θ) = P_{θ} (X \in R)$	对所有 $θ \in Θ$ 计算
计算 p 值	在 $H_{0}$ 下计算尾部概率	区分双边/左边/右边
正态均值检验	$u$ 检验统计量→查标准正态表	确认 $σ^{2}$ 是否已知

置信区间与假设检验的对偶性

假设检验与置信区间之间存在深刻的对偶关系：

置信区间与假设检验的对偶性

设 $θ$ 的 $1 - α$ 置信区间为 $[\hat{θ}^{L}, \hat{θ}^{U}]$ ，则
$在水平 α 下拒绝 H_{0} : θ = θ_{0} ⟺ θ_{0} \in / [\hat{θ}^{L}, \hat{θ}^{U}] .$
即： $θ_{0}$ 不在置信区间内等价于拒绝 $H_{0} : θ = θ_{0}$ 。

直观理解：置信区间给出了参数 $θ$ 的”合理范围”，如果 $θ_{0}$ 不在这个范围内，说明 $θ_{0}$ 与数据不太一致，应该拒绝 $H_{0}$ 。

对偶性示例：对正态总体 $N (μ, σ_{0}^{2})$ ， $μ$ 的 $1 - α$ 置信区间为

[\overset{ˉ}{X} - u_{1 - α /2} \cdot \frac{σ _{0}}{n}, \overset{ˉ}{X} + u_{1 - α /2} \cdot \frac{σ _{0}}{n}]

而 $H_{0} : μ = μ_{0}$ 的拒绝域为

∣ \overset{ˉ}{X} - μ_{0} ∣ > u_{1 - α /2} \cdot \frac{σ _{0}}{n}

两者完全等价： $μ_{0}$ 不在置信区间中 $⟺$ $∣ \overset{ˉ}{X} - μ_{0} ∣ > u_{1 - α /2} \cdot σ_{0} / n$ 。

十、补充理解与易混淆点

误区一：“不拒绝 $H_{0}$ 就是接受 $H_{0}$ ”

误区描述

很多初学者认为”不拒绝 $H_{0}$ “等价于”接受 $H_{0}$ ，证明 $H_{0}$ 为真”。这是对假设检验逻辑的根本误解。

正确理解：“不拒绝 $H_{0}$ “仅仅意味着当前样本没有提供足够的证据来拒绝 $H_{0}$ ，并不代表 $H_{0}$ 就是正确的。这就像法庭判决”无罪”只是说证据不足以定罪，不等于证明被告确实没有犯罪。

在统计学中，我们通常说”不拒绝 $H_{0}$ “而不是”接受 $H_{0}$ “，就是为了强调这一区别。如果需要”接受”某个假设，应该通过功效分析（power analysis）来验证检验确实有足够的能力检测到实际存在的差异。

来源：茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Hypothesis Testing + Khan Academy - Significance Tests + Wikipedia - Statistical Hypothesis Testing

误区二：“p值就是原假设成立的概率”

误区描述

这是一个极其常见且严重的误解。p 值不是原假设 $H_{0}$ 成立的概率 $P (H_{0} ∣ data)$ ，而是在 $H_{0}$ 成立的前提下观察到当前数据（或更极端数据）的概率 $P (data or more extreme ∣ H_{0})$ 。

这两个概率有本质区别：

$P (data ∣ H_{0})$ ：条件概率，以 $H_{0}$ 为条件（这是 p 值的定义）

$P (H_{0} ∣ data)$ ：后验概率，以数据为条件（这是贝叶斯统计的范畴）

根据贝叶斯公式，两者之间的关系还依赖于先验概率 $P (H_{0})$ 。即使 p 值很小（如 0.05），如果 $H_{0}$ 的先验概率很高， $H_{0}$ 成立的后验概率可能仍然相当大。

来源：茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - P-value Interpretation + Wikipedia - P-value Misuse + Khan Academy - P-values

误区三：“显著性水平越小越好”

误区描述

有人认为 $α$ 取得越小（如 0.001），检验就越”严格”、越好。实际上， $α$ 的选择是在两类错误之间做权衡： $α$ 减小会导致 $β$ 增大（在样本量固定的条件下）。

如果 $α$ 取得太小：

第一类错误概率确实降低了（“冤枉好人”的概率减小了）

但第二类错误概率增大了（“放走坏人”的概率增大了）

检验的功效降低了，可能无法检测到实际存在的显著差异

正确的做法是根据问题的实际背景来选择 $α$ ：

当第一类错误的后果特别严重时（如药品安全性检验），应取较小的 $α$

当第二类错误的后果特别严重时（如疾病筛查），可以适当增大 $α$

一般的科学研究中， $α = 0.05$ 是最常用的选择

来源：茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Type I and Type II Errors + Khan Academy - Type I and II Errors + Wikipedia - Type I and Type II Errors

误区四：“假设检验能证明原假设为真”

误区描述

假设检验的逻辑本质是反证法（更准确地说是”概率反证法”）：假设 $H_{0}$ 成立，如果样本数据与 $H_{0}$ 矛盾（即 p 值很小），则拒绝 $H_{0}$ 。但反过来，如果样本数据不与 $H_{0}$ 矛盾（p 值较大），不能得出” $H_{0}$ 为真”的结论。

这是因为：

“不拒绝 $H_{0}$ “可能仅仅是因为样本量不够大，检验的功效不足，无法检测到实际存在的差异

“不拒绝 $H_{0}$ “也可能是因为差异确实不存在，但检验本身无法区分这两种情况

如果要”证明”某个效应存在，应该通过功效分析确保检验有足够的统计功效（通常要求功效 $⩾ 0.80$ ），或者报告效应量的置信区间。

来源：茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - Power of a Test + Wikipedia - Statistical Power + Khan Academy - Statistical Power

误区五：“双边检验一定比单边检验好”

误区描述

有人认为双边检验”更全面”、“更保守”，因此总是优于单边检验。实际上，检验类型的选择应该基于实际问题的需要，而非主观偏好。

两者的比较：

双边检验：对两个方向都敏感，但每个方向的检验功效较低（因为 $α$ 被分到了两侧）

单边检验：只对一个方向敏感，但在该方向上的检验功效更高（因为 $α$ 集中在一侧）

如果实际问题只关心参数是否大于（或小于）某个值，使用单边检验更合适——它在关注的方向上有更高的功效。但如果事先没有方向性的预期，或者两个方向的偏离都有实际意义，则应使用双边检验。

关键原则：检验类型必须在看到数据之前确定，不能先看数据再选择检验类型（这会导致严重的 p 值操纵问题）。

来源：茆诗松《概率论与数理统计》§7.1 + 卡方训练营核心笔记 + Penn State STAT 500 - One-sided vs Two-sided Tests + Khan Academy - Hypothesis Testing + Wikipedia - One- and Two-tailed Tests

十一、习题精选

习题概览

题号知识点来源难度
1 原假设与备择假设的设立教材7.1-1 ★★☆
2 两类错误的概念判断教材7.1-2 ★★☆
3 功效函数的计算教材7.1-3 ★★★
4 正态总体均值检验教材7.1-4 ★★★
5 p 值的计算与决策教材7.1-5 ★★★
6 两类错误概率的计算教材7.1-6 ★★★
7 检验统计量与拒绝域卡方（浙江大学2012） ★★★
8 p 值与显著性水平卡方（复旦大学2015） ★★★
9 功效函数与两类错误卡方（上海交通大学2013） ★★★★
10 正态总体均值检验综合卡方（浙江大学2016） ★★★★

题号	知识点	来源	难度
1	原假设与备择假设的设立	教材7.1-1	★★☆
2	两类错误的概念判断	教材7.1-2	★★☆
3	功效函数的计算	教材7.1-3	★★★
4	正态总体均值检验	教材7.1-4	★★★
5	p 值的计算与决策	教材7.1-5	★★★
6	两类错误概率的计算	教材7.1-6	★★★
7	检验统计量与拒绝域	卡方（浙江大学2012）	★★★
8	p 值与显著性水平	卡方（复旦大学2015）	★★★
9	功效函数与两类错误	卡方（上海交通大学2013）	★★★★
10	正态总体均值检验综合	卡方（浙江大学2016）	★★★★

习题 1（教材7.1-1）

对以下每种情况，写出合适的原假设 $H_{0}$ 和备择假设 $H_{1}$ ，并指出检验类型（双边、左边或右边）。

(1) 某种零件的长度标准为 10cm，检验一批零件的平均长度是否符合标准。 (2) 某品牌灯泡声称平均寿命至少为 1500 小时，消费者协会要检验这一说法。 (3) 某化肥厂声称其新化肥能使小麦亩产提高至少 50 斤，农业部门进行检验。

查看解答

(1) 关心平均长度是否偏离 10cm，两个方向都有意义。
$H_{0} : μ = 10 vs H_{1} : μ \neq = 10 （双边检验）$
(2) 消费者协会关心的是寿命是否低于 1500 小时（虚假宣传）。
$H_{0} : μ ⩾ 1500 vs H_{1} : μ < 1500 （左边检验）$
注意：等号放在 $H_{0}$ 中， $H_{0}$ 代表”厂家的说法成立”。

(3) 农业部门关心的是亩产是否确实提高了至少 50 斤。
$H_{0} : μ ⩽ μ_{0} + 50 vs H_{1} : μ > μ_{0} + 50 （右边检验）$
其中 $μ_{0}$ 为使用旧化肥时的平均亩产。

习题 2（教材7.1-2）

指出以下各种情况中，哪一个是第一类错误，哪一个是第二类错误。

某药厂声称其新药的治愈率不低于 80%。卫生部门进行检验：

情况 A：新药实际治愈率为 85%，但检验结果拒绝了”治愈率不低于 80%“的假设。

情况 B：新药实际治愈率为 70%，但检验结果没有拒绝”治愈率不低于 80%“的假设。

查看解答

设 $H_{0} : p ⩾ 0.80$ （药厂的说法成立）， $H_{1} : p < 0.80$ 。

情况 A： $H_{0}$ 实际成立（ $p = 0.85 ⩾ 0.80$ ），但被拒绝了。 → 这是第一类错误（弃真错误）：好的药被错误地否定了。

情况 B： $H_{0}$ 实际不成立（ $p = 0.70 < 0.80$ ），但没有被拒绝。 → 这是第二类错误（取伪错误）：不合格的药被放行了。

习题 3（教材7.1-3）

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自正态总体 $N (μ, 1)$ 的样本，检验问题为
$H_{0} : μ = 0 vs H_{1} : μ = 1.$
采用拒绝域 $R = {\overset{x}{ˉ} > c}$ 。

(1) 求该检验的功效函数 $g (μ)$ 。 (2) 当 $n = 25$ ， $c = 0.5$ 时，计算 $α$ 和 $β$ 。

查看解答

(1) 功效函数 $g (μ) = P_{μ} (\overset{ˉ}{X} > c)$ 。

在参数为 $μ$ 时， $\overset{ˉ}{X} \sim N (μ, 1/ n)$ ，标准化得
$\frac{X ˉ - μ}{1/ n} \sim N (0, 1) .$
因此
$g (μ) = P_{μ} (\overset{ˉ}{X} > c) = 1 - Φ (\frac{c - μ}{1/ n}) = 1 - Φ (n (c - μ)) .$
(2) 当 $n = 25$ ， $c = 0.5$ 时：

第一类错误概率（ $μ = 0$ ）：
$α = g (0) = 1 - Φ (5 \times (0.5 - 0)) = 1 - Φ (2.5) = 1 - 0.9938 = 0.0062.$
第二类错误概率（ $μ = 1$ ）：
$β = 1 - g (1) = 1 - [1 - Φ (5 \times (0.5 - 1))] = Φ (- 2.5) = 1 - Φ (2.5) = 0.0062.$
注意：这里 $α = β$ ，因为 $c = 0.5$ 恰好是 $μ = 0$ 和 $μ = 1$ 的中点，拒绝域关于这两个假设对称。

习题 4（教材7.1-4）

某纺织厂生产的纱线强度服从正态分布 $N (μ, 0. 4^{2})$ 。从一批产品中抽取 16 根纱线，测得平均强度 $\overset{x}{ˉ} = 2.55$ 。在显著性水平 $α = 0.05$ 下，检验该批纱线的平均强度是否为 2.5。

(1) 建立假设并给出检验统计量。 (2) 确定拒绝域并做出判断。 (3) 计算检验的 p 值。

查看解答

(1) 建立假设：关心平均强度是否偏离 2.5，两个方向都有意义。
$H_{0} : μ = 2.5 vs H_{1} : μ \neq = 2.5.$
检验统计量：
$u = \frac{X ˉ - 2.5}{0.4/ 16} = \frac{X ˉ - 2.5}{0.1} .$
在 $H_{0}$ 下， $u \sim N (0, 1)$ 。

(2) 确定拒绝域并判断。双边检验， $α = 0.05$ ， $u_{0.975} = 1.96$ ，拒绝域为 ${∣ u ∣ > 1.96}$ 。

计算检验统计量观测值：
$u_{obs} = \frac{2.55 - 2.5}{0.1} = 0.5.$
由于 $∣0.5∣ = 0.5 < 1.96$ ， $u_{obs}$ 未落入拒绝域，故不拒绝 $H_{0}$ 。

(3) 计算 p 值。双边检验的 p 值：
$p = 2 \times P_{H_{0}} (U ⩾ ∣ u_{obs} ∣) = 2 \times [1 - Φ (0.5)] = 2 \times (1 - 0.6915) = 0.6170.$
p 值 $= 0.6170 ≫ 0.05$ ，远大于显著性水平，没有证据拒绝 $H_{0}$ 。

习题 5（教材7.1-5）

某公司声称其生产的某种元件的平均电阻为 $50 Ω$ 。从一批产品中抽取 10 件，测得样本均值 $\overset{x}{ˉ} = 50.8 Ω$ 。已知电阻服从正态分布，标准差 $σ = 1.2 Ω$ 。

(1) 在 $α = 0.05$ 下检验 $H_{0} : μ = 50$ vs $H_{1} : μ \neq = 50$ 。 (2) 在 $α = 0.10$ 下重新检验，结论是否改变？ (3) 计算并解释 p 值。

查看解答

检验统计量：
$u = \frac{X ˉ - 50}{1.2/ 10} = \frac{X ˉ - 50}{1.2/3.162} = \frac{X ˉ - 50}{0.3795} .$
观测值：
$u_{obs} = \frac{50.8 - 50}{0.3795} = \frac{0.8}{0.3795} = 2.108.$
(1) $α = 0.05$ ， $u_{0.975} = 1.96$ 。 $∣ u_{obs} ∣ = 2.108 > 1.96$ ，落入拒绝域，拒绝 $H_{0}$ 。

(2) $α = 0.10$ ， $u_{0.95} = 1.645$ 。 $∣ u_{obs} ∣ = 2.108 > 1.645$ ，仍然拒绝 $H_{0}$ 。结论不变，但拒绝的证据更强了（在更宽松的标准下也拒绝）。

(3) p 值：
$p = 2 \times [1 - Φ (2.108)] = 2 \times (1 - 0.9823) = 0.0354.$
p 值 $= 0.0354$ ，含义是：如果 $H_{0}$ 成立（ $μ = 50$ ），那么观测到 $∣ u ∣ ⩾ 2.108$ （即 $∣ \overset{ˉ}{X} - 50∣ ⩾ 0.8$ ）的概率约为 3.54%。由于 $p < 0.05$ ，在 $α = 0.05$ 的水平下拒绝 $H_{0}$ ；但 $p > 0.01$ ，在 $α = 0.01$ 的水平下不拒绝 $H_{0}$ 。

习题 6（教材7.1-6）

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自 $N (μ, σ^{2})$ 的样本， $σ^{2}$ 已知。对检验问题
$H_{0} : μ = μ_{0} vs H_{1} : μ = μ_{1} (μ_{1} > μ_{0}),$
采用拒绝域 $R = {\overset{x}{ˉ} > c}$ 。

(1) 证明当 $n$ 固定时， $α$ 减小则 $β$ 增大。 (2) 证明当 $α$ 固定时， $n$ 增大则 $β$ 减小。

查看解答

(1) 在 $H_{0}$ 下， $\overset{ˉ}{X} \sim N (μ_{0}, σ^{2} / n)$ ，
$α = P_{μ_{0}} (\overset{ˉ}{X} > c) = 1 - Φ (\frac{c - μ _{0}}{σ / n}) .$
在 $H_{1}$ 下， $\overset{ˉ}{X} \sim N (μ_{1}, σ^{2} / n)$ ，
$β = P_{μ_{1}} (\overset{ˉ}{X} ⩽ c) = Φ (\frac{c - μ _{1}}{σ / n}) .$
由 $α = 1 - Φ (\frac{c - μ _{0}}{σ / n})$ 知， $α$ 减小 $⟹$ $Φ (\frac{c - μ _{0}}{σ / n})$ 增大 $⟹$ $\frac{c - μ _{0}}{σ / n}$ 增大 $⟹$ $c$ 增大。

而 $c$ 增大 $⟹$ $\frac{c - μ _{1}}{σ / n}$ 增大（因为 $μ_{1} > μ_{0}$ ） $⟹$ $Φ (\frac{c - μ _{1}}{σ / n})$ 增大 $⟹$ $β$ 增大。

因此 $α$ 减小 $⟹$ $β$ 增大。 $□$

(2) 固定 $α$ ，即固定 $\frac{c - μ _{0}}{σ / n} = u_{1 - α}$ ，从而 $c = μ_{0} + u_{1 - α} \cdot σ / n$ 。

代入 $β$ 的表达式：
$β = Φ (\frac{c - μ _{1}}{σ / n}) = Φ (\frac{μ _{0} + u _{1 - α} \cdot σ / n - μ _{1}}{σ / n}) = Φ (\frac{μ _{0} - μ _{1}}{σ / n} + u_{1 - α}) .$
由于 $μ_{1} > μ_{0}$ ， $μ_{0} - μ_{1} < 0$ ，当 $n$ 增大时， $\frac{μ _{0} - μ _{1}}{σ / n} \to - \infty$ ，因此
$β = Φ (\frac{μ _{0} - μ _{1}}{σ / n} + u_{1 - α}) \to Φ (- \infty) = 0.$
因此 $n$ 增大时 $β$ 减小。 $□$

习题 7（卡方（浙江大学2012））

设 $X_{1}, X_{2}, \dots, X_{16}$ 是来自正态总体 $N (μ, 4)$ 的样本，在显著性水平 $α = 0.05$ 下检验
$H_{0} : μ ⩽ 3 vs H_{1} : μ > 3.$
(1) 写出检验统计量及拒绝域。 (2) 若观测到 $\overset{x}{ˉ} = 4.2$ ，是否拒绝 $H_{0}$ ？ (3) 求当 $μ = 4$ 时该检验的功效。

查看解答

(1) 检验统计量：
$u = \frac{X ˉ - 3}{2/ 16} = \frac{X ˉ - 3}{0.5} .$
在 $H_{0}$ 的边界点 $μ = 3$ 下， $u \sim N (0, 1)$ 。

右边检验， $α = 0.05$ ， $u_{0.95} = 1.645$ ，拒绝域为
$R = {u > 1.645} = {\overset{x}{ˉ} > 3 + 1.645 \times 0.5} = {\overset{x}{ˉ} > 3.8225} .$
(2) $u_{obs} = \frac{4.2 - 3}{0.5} = 2.4 > 1.645$ ，落入拒绝域，拒绝 $H_{0}$ 。

(3) 当 $μ = 4$ 时， $\overset{ˉ}{X} \sim N (4, 4/16) = N (4, 0.25)$ ，功效为
$g (4) = P_{4} (\overset{ˉ}{X} > 3.8225) = 1 - Φ (\frac{3.8225 - 4}{0.5}) = 1 - Φ (- 0.355) = Φ (0.355) \approx 0.6387.$
即当 $μ = 4$ 时，该检验正确拒绝 $H_{0}$ 的概率约为 63.87%。

习题 8（卡方（复旦大学2015））

某研究者用两种方法检验同一个假设 $H_{0} : μ = 100$ vs $H_{1} : μ \neq = 100$ ，得到两个 p 值： $p_{1} = 0.03$ ， $p_{2} = 0.08$ 。

(1) 在 $α = 0.05$ 的水平下，两种方法的结论分别是什么？ (2) 如果显著性水平改为 $α = 0.10$ ，结论如何变化？ (3) 哪种方法提供了更强的反对 $H_{0}$ 的证据？为什么？

查看解答

(1) $α = 0.05$ ：

方法 1： $p_{1} = 0.03 < 0.05$ ，拒绝 $H_{0}$ 。

方法 2： $p_{2} = 0.08 > 0.05$ ，不拒绝 $H_{0}$ 。

(2) $α = 0.10$ ：

方法 1： $p_{1} = 0.03 < 0.10$ ，拒绝 $H_{0}$ 。

方法 2： $p_{2} = 0.08 < 0.10$ ，拒绝 $H_{0}$ 。

(3) 方法 1 提供了更强的反对 $H_{0}$ 的证据。因为 p 值越小，在 $H_{0}$ 成立的前提下观察到当前数据（或更极端数据）的概率越低，说明数据与 $H_{0}$ 的矛盾越尖锐。 $p_{1} = 0.03$ 意味着即使在 $α = 0.01$ 的严格标准下也不拒绝 $H_{0}$ （因为 $0.03 > 0.01$ ），但在 $α = 0.05$ 的标准下就拒绝了；而 $p_{2} = 0.08$ 只在 $α ⩾ 0.08$ 时才能拒绝。

习题 9（卡方（上海交通大学2013））

设 $X_{1}, X_{2}, \dots, X_{n}$ 是来自 $N (μ, 1)$ 的样本，考虑检验问题
$H_{0} : μ = 0 vs H_{1} : μ = μ_{1} (μ_{1} > 0) .$
采用拒绝域 $R = {\overset{x}{ˉ} > c}$ 。

(1) 若要求 $α = 0.05$ ， $n = 20$ ， $μ_{1} = 0.5$ ，求临界值 $c$ 和第二类错误概率 $β$ 。 (2) 若要求 $α = 0.05$ ， $μ_{1} = 0.5$ ， $β ⩽ 0.10$ ，求所需的最小样本量 $n$ 。

查看解答

(1) 在 $H_{0}$ 下， $\overset{ˉ}{X} \sim N (0, 1/20)$ ， $20 \overset{ˉ}{X} \sim N (0, 1)$ 。

由 $α = P_{0} (\overset{ˉ}{X} > c) = 0.05$ ，得
$1 - Φ (\frac{c}{1/ 20}) = 0.05 ⟹ Φ (20 c) = 0.95 ⟹ 20 c = 1.645 ⟹ c = \frac{1.645}{20} \approx 0.3678.$
在 $H_{1}$ 下（ $μ_{1} = 0.5$ ）， $\overset{ˉ}{X} \sim N (0.5, 1/20)$ ，
$β = P_{0.5} (\overset{ˉ}{X} ⩽ c) = Φ (\frac{c - 0.5}{1/ 20}) = Φ (\frac{0.3678 - 0.5}{1/ 20}) = Φ (20 \times (- 0.1322)) = Φ (- 0.591) \approx 0.2773.$
(2) 要求 $α = 0.05$ ， $β ⩽ 0.10$ 。

固定 $α = 0.05$ 时， $c = u_{0.95} \cdot σ / n = 1.645/ n$ 。

$β = Φ (\frac{c - μ _{1}}{σ / n}) = Φ (\frac{1.645/ n - 0.5}{1/ n}) = Φ (1.645 - 0.5 n)$ .

要求 $β ⩽ 0.10$ ，即
$Φ (1.645 - 0.5 n) ⩽ 0.10.$
由于 $Φ (- 1.282) \approx 0.10$ ，需要
$1.645 - 0.5 n ⩽ - 1.282 ⟹ 0.5 n ⩾ 2.927 ⟹ n ⩾ 5.854 ⟹ n ⩾ 34.27.$
因此最小样本量 $n = 35$ 。

习题 10（卡方（浙江大学2016））

某工厂用自动包装机包装面粉，规定每袋面粉的标准重量为 $25 kg$ 。已知每袋面粉重量服从正态分布 $N (μ, 0.04)$ 。某天开工后，随机抽取 9 袋，测得重量（单位：kg）为：

24.8, 25.1, 24.9, 25.0, 24.7, 25.2, 24.9, 25.1, 24.8

(1) 在 $α = 0.05$ 下，检验包装机工作是否正常（即 $μ = 25$ ）。 (2) 计算检验的 p 值。 (3) 若将显著性水平改为 $α = 0.01$ ，结论如何？ (4) 求当 $μ = 24.9$ 时该检验的功效。

查看解答

(1) 建立假设：
$H_{0} : μ = 25 vs H_{1} : μ \neq = 25.$
计算样本均值：
$\overset{x}{ˉ} = \frac{24.8 + 25.1 + 24.9 + 25.0 + 24.7 + 25.2 + 24.9 + 25.1 + 24.8}{9} = \frac{224.5}{9} \approx 24.944.$
检验统计量：
$u = \frac{X ˉ - 25}{0.2/ 9} = \frac{X ˉ - 25}{0.2/3} = \frac{X ˉ - 25}{0.0667} .$
观测值：
$u_{obs} = \frac{24.944 - 25}{0.0667} = \frac{- 0.056}{0.0667} \approx - 0.839.$
$α = 0.05$ ， $u_{0.975} = 1.96$ 。 $∣ u_{obs} ∣ = 0.839 < 1.96$ ，不拒绝 $H_{0}$ 。

结论：在 $α = 0.05$ 下，没有充分证据认为包装机工作不正常。

(2) p 值：
$p = 2 \times P_{H_{0}} (U ⩽ ∣ u_{obs} ∣) = 2 \times Φ (- 0.839) = 2 \times (1 - Φ (0.839)) = 2 \times (1 - 0.7995) = 0.4010.$
(3) $α = 0.01$ ， $u_{0.995} = 2.576$ 。 $∣ u_{obs} ∣ = 0.839 < 2.576$ ，不拒绝 $H_{0}$ 。结论不变。由于 p 值 $= 0.4010$ 远大于 0.01，在任何常规显著性水平下都不会拒绝 $H_{0}$ 。

(4) 当 $μ = 24.9$ 时， $\overset{ˉ}{X} \sim N (24.9, 0.04/9) = N (24.9, 0.00444)$ 。

拒绝域为 $∣ \overset{ˉ}{X} - 25∣ > 1.96 \times 0.0667 = 0.1308$ ，即 $\overset{ˉ}{X} > 25.1308$ 或 $\overset{ˉ}{X} < 24.8692$ 。

功效：
$g (24.9) = P_{24.9} (∣ \overset{ˉ}{X} - 25∣ > 0.1308) = P_{24.9} (\overset{ˉ}{X} > 25.1308) + P_{24.9} (\overset{ˉ}{X} < 24.8692) .$
计算第一项：
$P_{24.9} (\overset{ˉ}{X} > 25.1308) = 1 - Φ (\frac{25.1308 - 24.9}{0.00444}) = 1 - Φ (\frac{0.2308}{0.0667}) = 1 - Φ (3.462) \approx 1 - 0.9997 = 0.0003.$
计算第二项：
$P_{24.9} (\overset{ˉ}{X} < 24.8692) = Φ (\frac{24.8692 - 24.9}{0.0667}) = Φ (- 0.462) \approx 0.3222.$
因此功效 $g (24.9) \approx 0.0003 + 0.3222 = 0.3225$ 。

即当真实均值为 24.9 时，该检验只有约 32.25% 的概率能正确拒绝 $H_{0}$ ，功效较低。这说明当真实均值与假设值偏差不大时，检验的功效有限。

十二、教材原文

第七章假设检验/假设检验的基本思想

数学笔记 Wiki

探索

7.1 假设检验的基本思想与概念

7.1 假设检验的基本思想与概念

一、假设检验问题的提出

统计推断的两大问题

法庭审判类比

假设检验的典型问题

二、原假设与备择假设

原假设与备择假设的定义

参数空间的划分

三种检验类型

原假设的设立原则

三、拒绝域与检验统计量

拒绝域的定义

检验统计量的定义

拒绝域的构造思想

临界值

四、两类错误与功效函数

第一类错误（弃真错误）

第二类错误（取伪错误）

两类错误的决策矩阵

功效函数

两类错误的概率关系

五、显著性水平与显著性检验

显著性水平的定义

Neyman-Pearson 原则

水平 α 的检验

六、p值

p值的定义

p值的直观理解

p值决策准则

p值与显著性水平的关系

七、正态总体均值的检验（σ2已知）

u 检验的定理

u 检验统计量

三种检验的拒绝域汇总

八、知识结构总览

九、核心思想与解题技巧

假设检验的解题步骤（五步法）

常见题型总结

置信区间与假设检验的对偶性

十、补充理解与易混淆点

误区一：“不拒绝H0​就是接受H0​”

误区二：“p值就是原假设成立的概率”

误区三：“显著性水平越小越好”

误区四：“假设检验能证明原假设为真”

误区五：“双边检验一定比单边检验好”

十一、习题精选

十二、教材原文

关系图谱

目录

反向链接

水平 $α$ 的检验

七、正态总体均值的检验（ $σ^{2}$ 已知）

$u$ 检验的定理

$u$ 检验统计量

误区一：“不拒绝 $H_{0}$ 就是接受 $H_{0}$ ”