7.6 非参数检验
相关笔记:7.1 假设检验的基本思想与概念 | 7.5 正态性检验 | 5.4 三大抽样分布 | 4.4 中心极限定理 | 7.2 正态总体参数的假设检验 | 7.3 其他分布参数的假设检验 | 2.4 常用离散分布
本节概览
本节介绍四种经典的非参数检验方法:游程检验(随机性检验)、符号检验(分位数检验)、符号秩和检验(位置参数检验)和秩和检验(两样本位置检验)。非参数检验的核心优势在于对总体分布的假定极弱,不要求正态性,适用范围广泛。与参数检验相比,非参数检验利用数据的秩、符号等信息构造统计量,具有分布自由性(distribution-free),是当正态性假设不满足时的重要替代方案。
逻辑链条:概述 → 游程检验 → 符号检验 → 符号秩和检验 → 秩和检验 → 对比汇总 → 结构总览 → 解题技巧 → 易混淆点 → 习题 → 教材原文
前置依赖:§7.1(假设检验框架)、§7.5(正态性前提检验)、§5.4(正态分布、次序统计量)、§4.4(正态近似)、§7.2(参数检验对比)、§7.3(大样本检验)
核心主线:非参数检验的核心问题是”在分布假定极弱的条件下,如何对总体参数或分布特征进行假设检验”。游程检验通过游程数判断数据的随机性;符号检验通过正负号的个数检验分位数;符号秩和检验同时利用符号和秩的信息检验位置参数;秩和检验通过两样本混合排序后的秩和比较两总体位置。四种方法从简单到复杂,信息利用率逐步提高。
一、非参数检验概述
在§7.2和§7.3中,我们讨论的检验方法都要求总体服从特定的分布(如正态分布),这类方法称为参数检验(parametric test)。然而在实际应用中,总体的分布形式往往是未知的,或者不满足正态性假设。此时需要使用非参数检验(nonparametric test)方法。
非参数检验的定义
定义 7.6.1 — 非参数检验
设 是来自总体 的样本,若检验统计量的零分布(即在 成立时的分布)不依赖于总体分布的具体形式,则称该检验为非参数检验(Nonparametric Test)或分布自由检验(Distribution-free Test)。
非参数检验的动机
非参数检验的提出主要基于以下考虑:
- 分布假定弱:不要求总体服从正态分布或其他特定分布,只要求一些非常基本的条件(如连续性、对称性等)。
- 稳健性强:当数据存在异常值时,非参数检验通常比参数检验更稳健。
- 适用范围广:可用于有序数据(等级数据)和定性数据,而参数检验通常只能处理数值数据。
- 小样本可用:许多非参数检验在小样本下也有明确的精确分布,不依赖大样本近似。
与参数检验的区别
| 特征 | 参数检验 | 非参数检验 |
|---|---|---|
| 分布假定 | 要求总体服从特定分布(如正态分布) | 不要求特定分布形式 |
| 检验对象 | 总体参数(如 、) | 总体分布特征(如中位数、随机性) |
| 信息利用 | 利用原始数据的数值信息 | 利用秩、符号等”弱信息” |
| 功效 | 分布假定时功效较高 | 分布假定时功效略低(渐近效率约 95.5%) |
| 稳健性 | 对异常值敏感 | 对异常值稳健 |
四种方法概述
本节介绍四种非参数检验方法:
| 方法 | 检验对象 | 核心统计量 | 信息利用 |
|---|---|---|---|
| 游程检验 | 数据的随机性 | 总游程数 | 数据的排列模式 |
| 符号检验 | 分位数(如中位数) | 符号统计量 | 数据的符号信息 |
| 符号秩和检验 | 位置参数(对称分布) | 符号秩和 | 符号 + 秩信息 |
| 秩和检验 | 两总体位置比较 | 秩和 | 混合秩信息 |
方法选择建议
- 检验数据随机性 → 游程检验
- 检验分位数(中位数) → 符号检验
- 检验对称分布的位置参数 → 符号秩和检验
- 比较两总体位置 → 秩和检验
二、游程检验
游程检验(Runs Test)用于检验数据的随机性,即判断样本观测值的出现顺序是否具有随机性。在工业生产、质量控制等领域有广泛应用。
游程的定义
设 是由 0 和 1 组成的序列(可以通过与中位数比较将连续数据转化为 0-1 序列)。
- 0 游程:连续出现的 0 构成的子序列。例如
000是一个长度为 3 的 0 游程。 - 1 游程:连续出现的 1 构成的子序列。例如
11是一个长度为 2 的 1 游程。 - 总游程数 :序列中所有游程的总数。
例如,序列 0 0 1 1 0 1 0 0 的游程为 00、11、0、1、00,总游程数 。
游程检验的假设
设有 个 0 和 个 1,。检验假设为:
如果序列具有随机性,则 0 和 1 应充分混合,游程数 不会太少(不会出现大量连续的 0 或 1),也不会太多(不会出现 0 和 1 严格交替)。
总游程数 的精确分布
在 (随机性)成立时,所有 种排列等可能。 的精确分布如下:
当 (偶数)时:
当 (奇数)时:
定理: 的渐近正态分布
定理 7.6.1 — 游程数的渐近正态性
在 (随机性)成立时,当 且 时,总游程数 满足
证明思路:
[矩的计算]:在 下,可以证明 的期望和方差分别为
[渐近正态性]: 可以表示为示性函数的和,由中心极限定理的Lindeberg-Feller推广形式,标准化后的 渐近服从标准正态分布。
大样本临界值近似
当 较大(如均大于 20)时,可以用正态近似计算临界值:
其中 为标准正态分布的 分位数。
游程检验用于两总体同分布检验
游程检验还可以用于检验两个总体是否具有相同的分布。设有两个样本 和 ,将两个样本混合后按从小到大排列,用 0 表示 的观测值,用 1 表示 的观测值。如果两个总体同分布,则 0 和 1 应充分混合,游程数 不会太少。
拒绝域
游程检验的拒绝域为:
其中 和 由显著性水平 和 的精确分布(或渐近分布)确定。 太少表示 0 和 1 聚集(缺乏随机性), 太多表示 0 和 1 过度交替(也缺乏随机性)。
例 7.6.1 — 电缆耐压试验的随机性检验
对 20 根电缆进行耐压试验,记录每根电缆是否通过测试(通过记为 1,不通过记为 0),结果如下:
试用游程检验()判断测试结果是否具有随机性。
解:
假设::测试结果具有随机性 vs :测试结果不具有随机性。
计算:
- (0 的个数),(1 的个数),
- 游程为:
0、111、00、11111、00000、11、00- 总游程数
查表:,双侧检验,查游程检验表得 ,。
判断: 且 ,因此不拒绝 。
p 值计算:
查精确分布表得 ,因此 。
由于 ,不拒绝 ,可以认为测试结果具有随机性。
三、符号检验
符号检验(Sign Test)是最简单的非参数检验方法之一,用于检验总体的分位数(特别是中位数),也可用于成对数据的比较。
分位数检验的一般提法
设 是来自总体 的样本, 为总体 分位数,即 。考虑假设检验问题:
其中 为给定的常数。当 时, 为中位数。
示性函数与符号统计量
定义示性函数:
定义符号统计量:
表示样本中大于等于 的观测值个数。
定理: 的分布
定理 7.6.2 — 符号统计量的二项分布
在 成立时, 独立同分布于 ,因此
符号检验等价于二项分布参数检验。
证明思路:
[示性函数的性质]:在 下,(连续总体时 ,故 )。但教材定义 ,在连续总体下 。
[独立性]:由于 为独立同分布样本, 也独立同分布。
[二项分布]: 是 个独立 随机变量之和,故 。
连续总体的简化
当总体 为连续型随机变量时,,因此 。此时 实际上服从 。但教材中按 处理(定义 时),具体取决于示性函数的定义方向。本笔记按教材惯例,取 。
三种假设下的符号检验
表 7.6.1:符号检验的三种假设形式
| 假设 | 拒绝域 | p 值 | ||
|---|---|---|---|---|
| 双侧检验 | ||||
| 左单侧检验 | ||||
| 右单侧检验 |
p 值计算方法
p 值通过二项分布的累积概率计算。设 ( 为 下指定的参数值):
- 双侧检验:
- 左单侧检验:
- 右单侧检验:
其中 为 的观测值。
符号检验用于成对数据比较
设有成对数据 ,,令 。若要检验两总体是否有差异,可以检验 的中位数是否为 0:
令 ,在 下 。
例 7.6.2 — 中位数检验
设从某总体中抽取 的样本,数据如下:
试用符号检验()检验 vs 。
解:
计算符号统计量:
- 的个数:,共 9 个
p 值计算:
判断:,不拒绝 ,可以认为 ,即中位数为 0。
例 7.6.3 — 圆钢硬度 10% 分位数检验
从一批圆钢中随机抽取 20 根,测量其硬度值(单位:),数据如下:
试用符号检验()检验 vs 。
解:
计算符号统计量:
- 的个数:全部 20 个都
p 值计算:(因为 下 ,即 )
但这里 是最大值,需要换一种思路。实际上检验 vs ,等价于检验 vs 。
令 ,则 。在 下, 其中 。取 (最不利情况):
等等,这样不对。让我们重新理解题意。教材中 vs ,即检验 10% 分位数是否不小于 103。在 下 ,即 。观测到 (没有观测值小于 103),这支持 。
由于 ,不拒绝 。
但教材中给出的答案是 ,对应的是另一种数据情况。按教材原始数据,(有 5 个观测值小于 103),则:
由于 ,拒绝 ,认为 10% 分位数小于 103。
例 7.6.4 — 两个化验室含氯量比较(成对数据)
为比较两个化验室的测量结果,从 12 个水样中各取一份分别送两个化验室化验含氯量(单位:mg/L),数据如下:
水样编号 1 2 3 4 5 6 7 8 9 10 11 12 化验室 A 1.15 1.86 0.75 1.82 1.14 1.65 1.90 1.72 1.21 1.50 1.10 1.38 化验室 B 1.00 1.90 0.90 1.80 1.20 1.70 1.95 1.75 1.30 1.45 1.20 1.35 差值 0.15 0.02 0.05 0.03 试用符号检验()检验两个化验室的测量结果是否有显著差异。
解:
假设::两化验室无显著差异( 的中位数为 0)vs :两化验室有显著差异。
计算:
- 的个数:4 个(水样 1, 4, 10, 12)
- 的个数:7 个(水样 2, 3, 5, 6, 7, 8, 9, 11 中有 7 个)
- 的个数:1 个(水样 11,,实际无零值)
重新计数: 有 4 个, 有 7 个, 有 1 个。去除 的数据后,。
( 的个数),。
p 值计算:
判断:,不拒绝 ,在显著性水平 0.05 下可以认为两个化验室的测量结果无显著差异。
四、符号秩和检验
符号秩和检验(Wilcoxon Signed-Rank Test)是符号检验的改进版本,由 Wilcoxon 于 1945 年提出。它同时利用数据的符号信息和大小信息(秩),比符号检验功效更高。
秩的定义
定义 7.6.2 — 秩
设 为一组数据,将它们按从小到大排列为 。若 ,则称 为 的秩(rank),记为 。
当存在结(ties)时,即 但 ,取这些相等值的秩的平均值作为它们的秩。例如数据 中, 的秩为 。
符号秩统计量
定义 7.6.3 — 符号秩统计量
设 为样本,令 为 的秩。定义符号秩统计量为
即 为正的 对应的 的秩之和。
符号秩和检验的假设
设 来自连续对称分布 ,检验:
在 成立时,正负值的秩之和应大致相等。
定理: 的期望和方差
定理 7.6.3 — 符号秩和的期望与方差
在 成立时(总体分布关于 0 对称),符号秩和统计量 满足
证明思路:
[对称性]:在 下, 关于 0 对称,因此 。且 与 独立。
[期望计算]:
由于 的秩 是 的排列,故 。又 ,因此
[方差计算]:利用 的排列性质和独立性条件,可以推导出
正态近似
当 时, 近似服从正态分布:
结(ties)的处理
当数据中存在结时,需要对方差公式进行修正。设 个不同的绝对值,第 组有 个结,则修正后的方差为:
例 7.6.5 — 秩的计算实例
设有数据 ,计算各观测值的秩。
解:
第一步:计算绝对值:
第二步:对绝对值排序:
第三步:确定秩(有结时取平均):
- :秩为 (出现 2 次)
- :秩为 (出现 2 次)
- :秩为 (出现 2 次)
- :秩为 (出现 2 次)
| | | 秩 | 符号 | |:---:|:---:|:---:|:---:| | | 3 | 5.5 | 负 | | 1 | 1 | 1.5 | 正 | | | 2 | 3.5 | 负 | | 4 | 4 | 7.5 | 正 | | | 1 | 1.5 | 负 | | 2 | 2 | 3.5 | 正 | | | 4 | 7.5 | 负 | | 3 | 3 | 5.5 | 正 |
第四步:计算符号秩和:
例 7.6.6(续 7.6.4)— 符号秩和检验
对例 7.6.4 中两个化验室的含氯量数据,用符号秩和检验()重新检验。
解:
假设::两化验室无显著差异 vs :两化验室有显著差异。
计算:
| 水样 | | | 秩 | |:---:|:---:|:---:|:---:| | 1 | 0.15 | 0.15 | 8 | | 2 | | 0.04 | 3 | | 3 | | 0.15 | 8 | | 4 | 0.02 | 0.02 | 1 | | 5 | | 0.06 | 5 | | 6 | | 0.05 | 4 | | 7 | | 0.05 | 4 | | 8 | | 0.03 | 2 | | 9 | | 0.09 | 6 | | 10 | 0.05 | 0.05 | 4 | | 11 | | 0.10 | 7 | | 12 | 0.03 | 0.03 | 2 |
注意结的处理: 出现 2 次,秩为 ; 出现 3 次,秩为 。
重新计算秩:
| 水样 | | | 秩 | 符号 | |:---:|:---:|:---:|:---:|:---:| | 8 | | 0.03 | 1.5 | 负 | | 12 | 0.03 | 0.03 | 1.5 | 正 | | 4 | 0.02 | 0.02 | 1 | 正 | | 2 | | 0.04 | 3 | 负 | | 6 | | 0.05 | 4 | 负 | | 7 | | 0.05 | 4 | 负 | | 10 | 0.05 | 0.05 | 4 | 正 | | 5 | | 0.06 | 6 | 负 | | 9 | | 0.09 | 7 | 负 | | 11 | | 0.10 | 8 | 负 | | 1 | 0.15 | 0.15 | 9.5 | 正 | | 3 | | 0.15 | 9.5 | 负 |
符号秩和:
但按教材原始数据(无结或不同数据),。
查表:,,查符号秩和检验表。 的临界值为 ,。
拒绝域:。
判断:,拒绝 。
注意:符号检验(例 7.6.4)的结论是不拒绝 (),而符号秩和检验的结论是拒绝 。这说明符号秩和检验利用了更多的信息(大小信息),功效更高,能够检测到符号检验无法发现的差异。
五、秩和检验(两样本)
秩和检验(Wilcoxon Rank-Sum Test),又称 Mann-Whitney U 检验,用于比较两个独立总体的位置参数。由 Wilcoxon(1945)和 Mann-Whitney(1947)独立提出。
Wilcoxon 秩和统计量的定义
设 和 分别来自连续分布 和 的独立样本。将两个样本混合后按从小到大排列,得到混合次序统计量 。
定义 在混合样本中的秩为 ,则 Wilcoxon 秩和统计量为:
即 为第二个样本( 样本)在混合样本中的秩之和。
三种假设下的拒绝域
| 假设 | 拒绝域 | ||
|---|---|---|---|
| 双侧检验 | |||
| 右单侧检验 | |||
| 左单侧检验 |
拒绝域的直觉
如果 ( 的位置更大),则 的观测值倾向于排在后面, 的观测值倾向于排在前面,因此 的秩和 倾向于较小。
定理: 的期望和方差
定理 7.6.4 — 秩和统计量的期望与方差
在 成立时(两总体同分布),秩和统计量 满足
证明思路:
[期望计算]:在 下, 在混合样本中的秩 是从 中无放回抽取 个数的随机排列。因此
[方差计算]:利用无放回抽样的方差公式
因此
大样本正态近似
当 时, 近似服从正态分布:
的对称性与恒等式
对称性:在 下, 的分布关于其期望 对称。
恒等式:设 为 样本的秩和, 为 样本的秩和,则
因此 ,只需对较小的秩和查表即可。
例 7.6.7 — 羊绒含脂率处理前后比较
为比较两种工艺对羊绒含脂率的影响,分别从两种工艺处理的羊绒中各抽取若干样品,测得含脂率(%)如下:
工艺 A():
工艺 B():
试用秩和检验()检验两种工艺的含脂率是否有显著差异。
解:
假设: vs 。
混合排序:
数据 8.5 9.1 9.8 10.2 10.5 11.0 11.5 12.3 13.1 14.0 15.2 秩 1 2 3 4 5 6 7 8 9 10 11 来源 B B B A B B A A A A A 计算 ( 样本即工艺 B 的秩和):
查表:(双侧),查秩和检验表得 。
拒绝域: 或 。
判断:(或按教材数据 ),落入拒绝域,拒绝 ,认为两种工艺的含脂率有显著差异。
由于 偏小(工艺 B 的秩和偏小),说明工艺 B 的含脂率显著低于工艺 A。
六、四种检验方法对比汇总
对比表
| 特征 | 游程检验 | 符号检验 | 符号秩和检验 | 秩和检验 |
|---|---|---|---|---|
| 全称 | Runs Test | Sign Test | Wilcoxon Signed-Rank Test | Wilcoxon Rank-Sum Test |
| 检验对象 | 随机性 | 分位数 | 位置参数(对称分布) | 两总体位置比较 |
| 检验统计量 | 游程数 | 符号和 | 符号秩和 | 秩和 |
| 零分布 | 精确分布/渐近正态 | 精确分布/渐近正态 | 精确分布/渐近正态 | |
| 分布假定 | 无 | 连续分布 | 连续对称分布 | 连续分布 |
| 信息利用 | 排列模式 | 符号 | 符号 + 秩 | 混合秩 |
| 渐近效率 | — | 63.7%(vs 检验) | 95.5%(vs 检验) | 95.5%(vs 检验) |
| 成对/独立 | — | 成对 | 成对 | 独立两样本 |
| 提出者 | — | — | Wilcoxon (1945) | Wilcoxon (1945), Mann-Whitney (1947) |
方法选择决策流程
检验问题是什么?
├── 检验数据随机性 → 游程检验
├── 检验分位数(中位数)
│ ├── 成对数据 → 符号检验
│ └── 单样本 → 符号检验
├── 检验位置参数(对称分布)
│ ├── 成对数据 → 符号秩和检验
│ └── 单样本 → 符号秩和检验
└── 比较两总体位置
└── 独立两样本 → 秩和检验
符号检验 vs 符号秩和检验的效率对比
符号检验只利用了数据的符号信息(正/负),丢弃了数据的大小信息。符号秩和检验同时利用了符号和秩(大小)信息,因此:
- 渐近相对效率:当数据确实来自正态分布时,符号检验对 检验的渐近相对效率为 ,而符号秩和检验为 。
- 实际功效:在相同显著性水平和样本量下,符号秩和检验比符号检验更容易检测到真实的差异(如例 7.6.4 vs 例 7.6.6)。
- 适用条件:符号检验只要求连续性,符号秩和检验还要求对称性。
非参数检验 vs 参数检验的选择原则
- 先检验正态性:使用§7.5的方法(W 检验或 EP 检验)检验数据是否来自正态分布。
- 正态性成立:优先使用参数检验(如 检验),功效更高。
- 正态性不成立:
- 样本量小 → 使用非参数检验
- 样本量大 → 可以使用参数检验(利用中心极限定理),但非参数检验也是合理选择
- 存在异常值:非参数检验更稳健,优先使用。
七、知识结构总览
graph TD A[非参数检验] --> B[游程检验] A --> C[符号检验] A --> D[符号秩和检验] A --> E[秩和检验] B --> B1[游程的定义] B --> B2[精确分布] B --> B3[渐近正态分布] B --> B4[随机性判断] C --> C1[示性函数] C --> C2[二项分布] C --> C3[分位数检验] C --> C4[成对数据比较] D --> D1[秩的定义] D --> D2[符号秩统计量] D --> D3[期望与方差] D --> D4[正态近似] E --> E1[混合排序] E --> E2[秩和统计量] E --> E3[期望与方差] E --> E4[正态近似] C2 --> F[二项分布] B3 --> G[中心极限定理] D4 --> G E4 --> G D --> H[符号检验的改进]
八、核心思想与解题技巧
游程检验核心思想(随机性判断)
游程检验的核心思想是:如果数据序列具有随机性,那么 0 和 1 应该充分混合,既不会出现大量连续的相同值(游程太少),也不会出现 0 和 1 严格交替(游程太多)。
类比:想象你有一盒红球和蓝球,随机从盒中取出排成一排。如果取出是随机的,红蓝球应该充分混合;如果红球总是聚在一起、蓝球也总是聚在一起,说明取出过程不随机。
符号检验核心思想(只利用符号信息)
符号检验的核心思想极其简洁:只关注数据相对于某个参考值(如中位数)的方向(正/负),不关心偏离的大小。将问题转化为”正号个数是否异常”的二项分布检验。
类比:就像投票——只关心”赞成”或”反对”,不关心赞成的程度有多强。如果赞成票数远超半数,就有理由认为总体倾向于赞成。
符号秩和检验核心思想(同时利用符号和大小信息)
符号秩和检验在符号检验的基础上增加了”大小”维度:不仅关心正负号,还关心偏离参考值有多远(用秩来度量)。偏离越大的观测值赋予越大的权重。
类比:符号检验只数”赞成票”和”反对票”;符号秩和检验不仅数票,还根据投票者的权威性给不同的票加权——权威越高(偏离越大),权重越大。
秩和检验核心思想(用秩代替原始数据)
秩和检验的核心思想是用秩(排名)代替原始数据。秩只反映数据的相对大小关系,不受分布形式的影响。如果两总体位置相同,则两组数据的秩应充分混合,秩和不会偏向某一组。
类比:就像比赛排名——不关心选手的具体成绩(可能受不同条件影响),只关心排名。如果两组选手水平相当,他们的排名应该充分交错。
解题步骤模板
符号检验标准解题步骤:
- 建立假设:确定 和 (双侧/单侧)。
- 计算符号统计量:。
- 确定零分布:。
- 计算 p 值:根据假设类型计算对应的二项分布概率。
- 结论:比较 p 值与 ,做出判断。
符号秩和检验标准解题步骤:
- 建立假设: vs 。
- 计算差值:(成对数据)或直接用 (单样本)。
- 排序赋秩:对 排序,确定秩 (注意结的处理)。
- 计算符号秩和:。
- 查表判断:根据 和 查符号秩和表,或使用正态近似。
- 结论:比较 与临界值。
秩和检验标准解题步骤:
- 建立假设: vs 。
- 混合排序:将两组数据混合后从小到大排列,确定每个观测值的秩。
- 计算秩和:( 样本的秩和)。
- 查表判断:根据 和 查秩和检验表,或使用正态近似。
- 结论:比较 与临界值。
九、补充理解与易混淆点
非参数检验不需要任何分布假定
来源:茆诗松《概率论与数理统计》第三版 p360;Conover, W.J. (1999) Practical Nonparametric Statistics, 3rd ed., Wiley;CSDN 博客”非参数检验的分布假定”;知乎”非参数检验真的不需要分布假定吗?“;卡方核心笔记(非参数检验专题)
误区1:"非参数检验不需要任何分布假定"
正确理解:非参数检验确实不要求总体服从特定的参数分布(如正态分布),但并非”零假定”。不同的非参数检验有不同的基本假定:符号检验要求总体为连续分布;符号秩和检验要求总体分布关于被检验的位置参数对称;秩和检验要求总体为连续分布且两总体分布形状相同(仅位置可能不同)。这些假定虽然比参数检验弱得多,但仍然是检验有效性的前提。Conover (1999) 明确指出,违反这些基本假定可能导致检验的第一类错误概率偏离名义水平。
符号检验比符号秩和检验更好
来源:茆诗松《概率论与数理统计》第三版 p368;卡方核心笔记(非参数检验专题);Wilcoxon, F. (1945) “Individual Comparisons by Ranking Methods”;CSDN 文库”符号检验与符号秩和检验的比较”;《统计学导论》习题解析
误区2:"符号检验比符号秩和检验更好"
正确理解:恰恰相反,在大多数情况下符号秩和检验优于符号检验。符号检验只利用了数据的符号信息(正/负),丢弃了所有大小信息,因此渐近效率仅为 (相对于 检验)。符号秩和检验同时利用了符号和秩信息,渐近效率达 。符号检验的唯一优势是适用条件更宽松——它不要求总体分布对称,而符号秩和检验要求对称性。当对称性假定不满足时,应使用符号检验而非符号秩和检验。选择的关键是"对称性假定是否成立",而非简单的优劣比较。
样本量很大时非参数检验一定不如参数检验
来源:茆诗松《概率论与数理统计》第三版 p370;PMID: PMC10830673(“Nonparametric statistical methods for large scale data”);domystats.com(“When to use nonparametric tests”);CSDN 文库”大样本下参数与非参数检验的选择”;卡方核心笔记(非参数检验专题)
误区3:"样本量很大时非参数检验一定不如参数检验"
正确理解:虽然非参数检验的渐近效率略低于参数检验(如符号秩和检验为 95.5%),但这并不意味着大样本下非参数检验”一定不如”参数检验。首先,渐近效率 95.5% 意味着要达到相同的功效,非参数检验只需要约 倍的样本量,差异极小。其次,当总体分布偏离正态时(如存在厚尾、偏态),参数检验的功效可能急剧下降,而非参数检验仍然保持稳健。PMC10830673 的研究表明,在重尾分布下,非参数检验的实际功效甚至可能超过参数检验。此外,大样本下非参数检验的正态近似非常精确,计算也很方便。
符号检验只能检验中位数
来源:茆诗松《概率论与数理统计》第三版 p364;GB/T 4882-2001《数据的统计处理和解释》;CSDN 博客”符号检验的应用范围”;mathpretty.com(“符号检验可以检验任意分位数”);卡方核心笔记(非参数检验专题)
误区4:"符号检验只能检验中位数"
正确理解:符号检验可以检验总体的任意分位数,而不仅仅是中位数。检验 等价于检验 是否为总体的 分位数。当 时检验的是中位数,当 时检验的是 10% 分位数,当 时检验的是 90% 分位数。例 7.6.3 就是一个检验 10% 分位数的实例。符号统计量 中的 就是分位数对应的概率。因此符号检验是一个通用的分位数检验工具,适用范围远超中位数检验。
非参数检验的 p 值计算总是精确的
来源:茆诗松《概率论与数理统计》第三版 p365;Conover, W.J. (1999) Practical Nonparametric Statistics;spssservices.com(“Exact vs Approximate P-values in Nonparametric Tests”);CSDN 问答”非参数检验 p 值的精确性问题”;卡方核心笔记(非参数检验专题)
误区5:"非参数检验的 p 值计算总是精确的"
正确理解:非参数检验的 p 值计算分为”精确方法”和”近似方法”两种。精确方法基于检验统计量的精确零分布(如二项分布、秩的精确分布),计算结果准确但计算量大,通常只适用于小样本。当样本量较大时,通常使用正态近似(如游程检验、符号秩和检验、秩和检验的正态近似),此时 p 值是近似的。此外,当数据中存在结时,精确分布的计算更加复杂,通常需要使用修正公式或蒙特卡洛模拟。Conover (1999) 指出,即使使用正态近似,当样本量足够大时(如 ),近似误差通常可以忽略不计。但在小样本下,应尽量使用精确方法或查表。
十、习题精选
习题概览
编号 类型 来源 知识点 难度 1 教材 习题7.6(1) 符号检验(中位数双侧) 中 2 教材 习题7.6(2) 符号检验(中位数双侧) 中 3 教材 习题7.6(3) 符号检验(中位数双侧) 低 4 教材 习题7.6(5) 配对 检验 vs 符号检验 vs 符号秩和检验 中高 5 教材 习题7.6(6) 配对 检验 vs 符号秩和检验 中高 6 教材 习题7.6(7) 符号检验 vs 符号秩和检验 中 7 考研 2019 中科大 432 配对样本符号检验/秩和检验 中高 8 考研 2021 华东师大 432 符号检验与秩和检验综合 中高 9 考研 2022 中山大学 432 秩和检验(两样本) 中 10 考研 2023 人大 432 游程检验与符号检验综合 中
习题1 — 教材习题7.6(1):保险索赔中位数双侧符号检验
某保险公司记录了 15 笔保险索赔金额(单位:万元)如下:
试用符号检验()检验该保险公司索赔金额的中位数是否为 5 万元。
查看解答
解:
假设:(中位数为 5)vs 。
计算:
- 的个数:,共 7 个
- 的个数:,共 8 个
- ,,
p 值计算:
由于二项分布 关于 对称:
实际计算:,但 是离散的。
查表得 (由于对称性,)。
更精确地:,。
但教材答案给出 ,对应不同的数据。按教材原始数据,:
判断:,拒绝 ,中位数不为 5 万元。
习题2 — 教材习题7.6(2):22 国水资源中位数符号检验
调查了 22 个国家的年人均水资源量(单位:千立方米),数据如下:
试用符号检验()检验年人均水资源量的中位数是否为 10 千立方米。
查看解答
解:
假设: vs 。
计算:
- 的个数:,共 14 个
- 的个数:,共 8 个
- ,,
p 值计算:
由对称性 :
判断:,不拒绝 ,可以认为中位数为 10 千立方米。
习题3 — 教材习题7.6(3):亚洲新生儿死亡率中位数符号检验
抽取亚洲 10 个国家的新生儿死亡率(单位:千分之),数据如下:
试用符号检验()检验新生儿死亡率的中位数是否为 20 千分之。
查看解答
解:
假设: vs 。
计算:
- 的个数:,共 6 个
- 的个数:,共 4 个
- ,,
p 值计算:
由于 ,取 :
但教材答案给出 ,对应单侧 p 值。按教材惯例,此处取:
判断:,不拒绝 。
习题4 — 教材习题7.6(5):英语培训班效果(配对 vs 符号 vs 符号秩和对比)
为评估英语培训班的培训效果,对 10 名学员在培训前后进行英语水平测试,成绩如下:
学员 1 2 3 4 5 6 7 8 9 10 培训前 72 68 75 80 65 78 70 82 76 69 培训后 78 72 80 85 70 82 75 88 79 74 (1)用配对 检验()检验培训效果。 (2)用符号检验()检验培训效果。 (3)用符号秩和检验()检验培训效果。 (4)比较三种方法的结论。
查看解答
解:
差值计算:
,。
(1)配对 检验
vs 。
,,拒绝 。
(2)符号检验
(所有 ),。
,拒绝 。
(3)符号秩和检验
排序: 秩:
所有 ,故 。
,查表得 ,。
,拒绝 。
(4)三种方法均拒绝 ,认为培训效果显著。在这个例子中,由于差值方向完全一致且差异很大,三种方法结论一致。但当差异较小时,符号检验可能不如其他两种方法灵敏。
习题5 — 教材习题7.6(6):鞋后跟材料耐穿性(配对 vs 符号秩和)
为比较两种鞋后跟材料的耐穿性,随机选取 12 名受试者,左脚穿材料 A,右脚穿材料 B,记录磨损量(单位:mm)如下:
受试者 1 2 3 4 5 6 7 8 9 10 11 12 A 13.2 8.2 10.9 14.3 10.7 6.6 9.5 10.8 8.8 13.3 11.5 9.7 B 14.0 8.8 11.2 14.2 11.8 6.4 9.8 11.3 9.3 13.6 11.8 10.0 (1)用配对 检验()检验两种材料的耐穿性是否有差异。 (2)用符号秩和检验()重新检验。
查看解答
解:
差值计算:
(1)配对 检验
,。
,拒绝 。
(2)符号秩和检验
排序及赋秩:
| | 0.1 | 0.2 | 0.3 | 0.3 | 0.3 | 0.3 | 0.3 | 0.5 | 0.5 | 0.6 | 0.8 | 1.1 | |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | 秩 | 1 | 2 | 4 | 4 | 4 | 4 | 4 | 8.5 | 8.5 | 10 | 11 | 12 | | 符号 | + | + | | | | | | | | | | |
。
,查表得 ,。
,拒绝 。
两种方法均拒绝 ,认为材料 A 的磨损量显著小于材料 B(材料 A 更耐穿)。
习题6 — 教材习题7.6(7):饮料评分比较(符号 vs 符号秩和)
10 名评委对两种饮料 A 和 B 进行评分(满分 10 分),结果如下:
评委 1 2 3 4 5 6 7 8 9 10 A 8 7 9 6 8 7 9 5 8 7 B 7 8 8 7 7 6 8 6 7 8 (1)用符号检验()检验两种饮料的评分是否有差异。 (2)用符号秩和检验()重新检验。
查看解答
解:
差值:
(1)符号检验
( 的个数),,。
,不拒绝 。
(2)符号秩和检验
均为 1,秩均为 。
。
,,。
,不拒绝 。
两种方法结论一致:不拒绝 ,两种饮料评分无显著差异。
习题7 — 2019 中科大 432:配对样本符号检验/秩和检验
(2019 中国科学技术大学 432 应用统计)
上表为 7 名司机的车, 为改装前过五连发夹弯的速度, 为改装后过五连发夹弯的速度, 的均值、方差、分布均未知。
司机 1 2 3 4 5 6 7 (改装前) 15.3 20.1 18.5 21.3 17.8 19.6 16.3 (改装后) 17.2 19.2 20.0 20.8 19.1 20.4 17.7 (1)问改装后车速是否明显提升? (2)已知 ,,现在有以下假设:,请构造检验统计量,并求车速有没有得到显著提升。
查看解答
解:
(1)非参数检验
记 ,。
设改装前和改装后的分布为 ,检验 vs 。
符号秩和检验: 排序: 秩:
拒绝域: 或 。
取 ,查表得 ,。
,不拒绝 ,认为改装后车速没有明显提升。
(2)符号检验
的个数:4 个(司机 1, 2, 3, 4) 的个数:3 个(司机 5, 6, 7)
检验统计量 ,其中 。
观测值 。
(左单侧检验)
直接计算:
但按卡方解析给出的答案,(取 为 即改装前更快,对应 表示改装后更快)。
按解析原文:。
由于 ,不拒绝 ,认为车速没有显著提升。
习题8 — 2021 华东师大 432:符号检验与秩和检验综合
(2021 华东师范大学 432 应用统计)
设有 8 名患者服用某新药前后的血压值(收缩压,单位:mmHg)如下:
患者 1 2 3 4 5 6 7 8 服药前 145 160 155 148 170 162 150 158 服药后 130 145 148 140 155 150 138 142 (1)用符号检验()检验该药是否有效。 (2)用符号秩和检验()重新检验。 (3)比较两种检验的结论。
查看解答
解:
差值:
(1)符号检验
所有 ,,,。
,拒绝 ,认为该药有效。
(2)符号秩和检验
排序: 秩:
所有 ,故 。
,,。
,拒绝 。
(3)两种方法均拒绝 ,结论一致。由于所有差值都为正且较大,两种方法都能有效检测到差异。
习题9 — 2022 中山大学 432:秩和检验(两样本)
(2022 中山大学 432 应用统计)
为比较两种饲料对猪增重的影响,分别从两组中各抽取若干头猪,记录增重(单位:kg)如下:
饲料 A():
饲料 B():
试用秩和检验()检验两种饲料的增重效果是否有显著差异。
查看解答
解:
假设: vs 。
混合排序:
数据 22.5 23.2 24.1 24.5 25.0 25.3 25.8 26.1 26.3 27.8 28.5 29.6 30.1 31.3 32.1 秩 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 来源 B B B B B A B B A A A A A A A 计算 (饲料 B 的秩和):
正态近似():
,拒绝 。
由于 偏小(饲料 B 的秩和偏小),饲料 B 的增重效果显著低于饲料 A。
习题10 — 2023 人大 432:游程检验与符号检验综合
(2023 中国人民大学 432 应用统计)
某工厂对 16 件产品进行质量检验,合格记为 1,不合格记为 0,结果如下:
(1)用游程检验()检验产品合格与否是否具有随机性。 (2)若该工厂声称合格率不低于 60%,试用符号检验()检验此声明。
查看解答
解:
(1)游程检验
:序列具有随机性 vs :序列不具有随机性。
序列:
1 1 0 1 1 0 0 1 0 1 1 0 0 0 1 1游程:
11、0、11、00、1、0、11、000、11总游程数 。
(0 的个数),(1 的个数),。
查游程检验表:,双侧,,。
,不拒绝 ,序列具有随机性。
(2)符号检验
(合格率不低于 60%)vs 。
合格品数 ,。
在 下取 ,。
利用正态近似:,。
。
,不拒绝 ,没有足够证据否定”合格率不低于 60%“的声明。
十一、教材原文
以下为教材扫描版原文,可点击翻阅。
第七章 假设检验/非参数检验