8.2 多重比较

相关笔记8.1 方差分析 | 7.1 假设检验的基本思想与概念 | 6.6 区间估计 | 5.4 三大抽样分布 | 7.2 正态总体参数的假设检验

本节概览

本节介绍多重比较(Multiple Comparison)的基本原理与两种经典方法——T 法(Tukey 法)S 法(Scheffé 法)。在方差分析拒绝 后,我们只知道”各水平均值不全相等”,但不知道具体哪些水平之间存在显著差异。多重比较通过同时构造多个均值差的置信区间或同时检验多个假设,在控制整体第一类错误率的前提下,精确定位差异来源。T 法适用于等重复数情形,基于 studentized range 分布;S 法适用于不等重复数情形,基于 分布。

逻辑链条概述均值差置信区间问题提出 → T 法(Tukey 法) → S 法(Scheffe 法) → T法与S法对比汇总 → 结构总览解题技巧易混淆点习题教材原文

前置依赖§8.1(方差分析模型、 检验、误差均方 )、§7.1(假设检验框架、第一类错误)、§6.6(置信区间构造)、§5.4 分布、 分布)

核心主线:多重比较的核心问题是”在方差分析拒绝 后,如何精确定位哪些水平间存在显著差异”。直接使用多个 检验会导致第一类错误膨胀,因此需要专门的多重比较方法。T 法(Tukey 法)利用 studentized range 分布 ,在等重复数下对所有 对均值差同时构造置信区间,整体覆盖概率恰好为 ;S 法(Scheffé 法)利用 分布,在等重复或不等重复下均可使用,通过放大临界值来控制整体错误率。两种方法各有优劣,需根据实验设计选择。


一、多重比较概述

多重比较的动机

§8.1中,我们学习了用 检验来判断因子各水平下的总体均值是否全部相等:

检验拒绝 时,我们得到的结论是” 不全相等”,即至少有一对水平之间存在显著差异。然而, 检验是一个整体检验(omnibus test),它无法告诉我们:

  • 具体是哪些水平之间存在差异?
  • 差异有多大?

类比 检验就像体检报告上的”异常”标记——它告诉你身体有问题,但没有指出具体哪个器官出了问题。多重比较就是进一步的”专项检查”,帮你精确定位问题所在。

要回答这些问题,就需要对 个水平进行两两比较,共涉及 对比较。这就是多重比较问题。

定义

定义 8.2.1 — 多重比较

在方差分析拒绝 之后,对 个水平的总体均值进行两两比较,同时检验所有 个假设

或同时构造所有 个均值差 联合置信区间,使得所有结论的整体第一类错误率(或联合覆盖概率)得到控制,这类方法统称为多重比较(Multiple Comparison)。

8.1 方差分析的关系

多重比较与方差分析之间存在密切的逻辑关系:

关系维度说明
先后顺序先做ANOVA 检验,若拒绝 ,再做多重比较
信息互补 检验回答”有没有差异”,多重比较回答”哪些有差异”
模型基础两者共享同一套方差分析模型和基本假定(正态性、等方差性、独立性)
误差估计多重比较使用 ANOVA 中的 作为公共方差的估计
错误控制 检验控制整体 ,多重比较控制所有两两比较的整体

注意

多重比较并非只能在 检验显著后进行。某些多重比较方法(如 Scheffé 法)本身就可以作为独立的全局检验。但在教材的框架下,通常先做 检验,再做多重比较。


二、水平均值差的置信区间

单个均值差的置信区间

在方差分析模型下,对于任意一对水平 ,其总体均值差 的点估计为

由于 ,且两者独立,有

估计 ,其中 ,则

由此得到 单个 置信区间为

其中 是自由度为 分布的 分位数。

单个置信区间的问题

公式 (8.2.1) 给出的是单个均值差的 置信区间,即

但当我们同时构造 个这样的区间时,所有区间同时覆盖各自参数的概率(联合覆盖概率)将小于

这就是为什么需要专门的多重比较方法。

例题

例 8.2.1 — 饲料因子三对均值差置信区间

例 8.1.1的鸡饲料增肥试验中, 种饲料,每种 只鸡,ANOVA 得到 。设已算得

用公式 (8.2.1) 分别构造三对均值差的 单个置信区间。


三、多重比较问题

同时检验的假设个数

当因子有 个水平时,需要同时检验的假设共有

水平数 比较对数
33
46
510
615
828
1045

随着 增大,比较对数急剧增加,第一类错误膨胀问题愈发严重。

联合置信水平 vs 单个置信水平

这是理解多重比较的核心概念

  • 单个置信水平(individual confidence level):对某一特定对 ,其置信区间覆盖 的概率为
  • 联合置信水平(family-wise confidence level):所有 个置信区间同时覆盖各自参数的概率。

设共有 个比较,每个区间的覆盖概率为 ,若各区间独立,则联合覆盖概率为

例如

联合覆盖概率仅为 ,远低于 的名义水平。

Bonferroni 不等式

对于任意 个事件 ,有

应用到多重比较中:设 表示”第 个置信区间正确覆盖 “,则

因此,如果将每个区间的显著性水平设为 (而非 ),则联合覆盖概率至少为 。这就是 Bonferroni 校正的基本思想。

定义

定义 8.2.2 — 多重比较问题

设因子 个水平,在方差分析模型下,需要同时 对均值差 )进行统计推断(假设检验或置信区间构造),使得所有推断的整体第一类错误率(family-wise error rate, FWER)控制在 水平。这一问题称为多重比较问题

多重比较问题的核心要求是:

或等价地,对于置信区间版本:


四、T 法(Tukey 法)

适用条件

T 法(Tukey 法),又称 Tukey HSD(Honestly Significant Difference)法,由 John Tukey 于 1947 年提出,适用于以下条件:

  • 重复数相等:各水平下的重复次数相同,即
  • 满足方差分析的基本假定(正态性、等方差性、独立性)

studentized range 分布

T 法的核心统计量是 studentized range 统计量

是来自 的独立样本(每个 可以是 个观测的均值), 的独立估计,自由度为 。定义

的分布称为自由度为 studentized range 分布,记为 。其 分位数记为

直观理解 统计量衡量的是 个样本均值中”最大值与最小值之差”相对于”标准误”的倍数。在 成立时,这个比值不会太大;如果某些均值确实不同,最大值与最小值的差距就会偏大。

定理

定理 8.2.1 — T 法(Tukey 法)

在单因子方差分析模型下,设各水平重复数相等(),则所有 个均值差 )的联合 置信区间为

其中:

  • 是自由度为 的 studentized range 分布的 分位数

等价地,T 法的检验规则为:当

时,拒绝

证明思路

证明 (8.2.2)

[构造统计量]:在 下, 独立且

[引入 studentized range]:考虑 studentized range 统计量:

[利用极值不等式]:对任意 ,有

因此

[等号成立]:实际上,Tukey 证明了在等重复数下,上述不等式取等号,即联合覆盖概率恰好为

T 法临界值

T 法的临界值为

与单个 区间的临界值 相比:

  • 通常大于 ,因此 T 法的区间更宽
  • 这是为控制联合错误率而付出的”代价”——区间变宽,检验更保守

例题

例 8.2.2 — T 法多重比较

例 8.1.1 种饲料, 只鸡/组,。已知 。用 T 法在 下进行多重比较。

查表得


五、S 法(Scheffé 法)

适用条件

S 法(Scheffé 法),由 Henry Scheffé 于 1953 年提出,适用于以下条件:

  • 重复数不等:各水平下的重复次数可以不同,即 不必全相等
  • 满足方差分析的基本假定(正态性、等方差性、独立性)
  • 比 T 法更通用,但也更保守

定理

定理 8.2.2 — S 法(Scheffé 法)

在单因子方差分析模型下(允许重复数不等),所有 个均值差 )的联合 置信区间为

其中临界值

这里:

  • 分布的 分位数
  • 分别为水平 的重复数

等价地,S 法的检验规则为:当

时,拒绝

证明思路

证明 (8.2.4)

[引入对比概念]:Scheffé 方法的出发点是考虑所有可能的对比(contrast)。一个对比是形如 的线性组合,其中 。均值差 是对比的特例(,其余为 0)。

[Scheffé 联合置信区间]:Scheffé 证明了:对所有对比 ),同时成立

其中

[代入均值差]:对于均值差 ,取 ,其余 ,则 ,代入得

[子集继承]:由于均值差是对比的子集,对所有对比成立的联合置信区间自然对均值差也成立。

S 法临界值分析

S 法的临界值 的结构为

与 T 法临界值 (等重复时)相比:

  • S 法使用 作为乘子,T 法使用 (注意 近似
  • S 法允许 ,每对比较的临界值可以不同
  • S 法不仅对均值差有效,而且对所有对比都有效

例题

例 8.2.3 — S 法多重比较(不等重复)

设有 个水平,重复数分别为 ,总样本量 。已知 ,各组均值为 。用 S 法在 下进行多重比较。

查表得


六、T 法与 S 法对比汇总

对比表

比较维度T 法(Tukey 法)S 法(Scheffé 法)
提出者John Tukey (1947)Henry Scheffé (1953)
适用条件等重复数 等重复或不等重复均可
核心分布studentized range 分布 分布
临界值
临界值特点所有比较对共用同一临界值不同比较对可有不同临界值
功效较高(区间较窄)较低(区间较宽)
保守性较不保守较保守
适用范围仅适用于均值差的两两比较适用于所有对比(含均值差)
等重复时比较通常优于 S 法比 T 法更保守

等重复数下临界值的数值比较

在等重复数 下,比较两种方法的临界值乘子:

更优方法
3213.57T 法
4164.05T 法
5204.23T 法

可以看出,在等重复数下,T 法的临界值乘子始终小于 S 法,因此 T 法的功效更高。

方法选择决策

是否等重复?
├── 是 → 优先使用 T 法(功效更高)
│        若需检验一般对比 → 使用 S 法
└── 否 → 使用 S 法(唯一选择)
         也可考虑 Bonferroni 法(简单但可能更保守)

选择建议

  • 等重复数 + 仅做两两比较 → T 法(最优选择)
  • 不等重复数 → S 法
  • 需要检验一般对比(如 )→ S 法
  • 比较对数很少(如 ,仅 3 对)→ Bonferroni 法可能更优
  • 比较对数很多(如 )→ T 法或 S 法更优

七、知识结构总览

graph TD
    A[多重比较] --> B[问题背景]
    A --> C[单个均值差置信区间]
    A --> D[多重比较问题]
    A --> E[T法]
    A --> F[S法]
    A --> G[方法对比]
    B --> B1[ANOVA拒绝H0后的追问]
    B --> B2[哪些水平间有差异]
    C --> C1[t区间公式]
    C --> C2[联合覆盖概率不足]
    D --> D1[同时检验r乘r减1除以2个假设]
    D --> D2[联合置信水平]
    D --> D3[Bonferroni不等式]
    E --> E1[等重复数]
    E --> E2[studentized range分布]
    E --> E3[临界值q乘sigma除以根号m]
    F --> F1[等重复或不等重复]
    F --> F2[F分布]
    F --> F3[临界值含r减1乘F]
    G --> G1[适用条件]
    G --> G2[功效与保守性]
    G --> G3[选择决策]
    E2 --> H[分位数查表]
    F2 --> H
    B1 --> I[方差分析]
    C1 --> J[t分布]

八、核心思想与解题技巧

多重比较的核心思想——错误控制

多重比较的核心思想可以用一句话概括:

不能把多个检验当作独立检验来做,必须控制”至少犯一次错”的整体概率。

类比:假设你买彩票,每次中奖概率是 。买 1 张几乎不会中奖,但买 100 张,至少中奖一次的概率约为 。多重比较中,每次检验都有 的犯错概率,做很多次检验后,“至少犯错一次”的概率就会膨胀。多重比较方法就是通过放大临界值(加宽置信区间),把整体犯错概率控制在

T 法解题步骤模板

第一步:确认适用条件

  • 检查各水平重复数是否相等:
  • 确认方差分析模型的基本假定成立

第二步:提取 ANOVA 结果

  • 误差自由度
  • 误差均方 ,公共标准差
  • 各组均值

第三步:查表得临界值

  • 查 studentized range 分布分位数
  • 计算公共临界值

第四步:逐对比较

  • 计算每对
  • 比较,判断是否显著
  • 构造联合置信区间

S 法解题步骤模板

第一步:确认适用条件

  • 重复数可以不等
  • 确认方差分析模型的基本假定成立

第二步:提取 ANOVA 结果

  • 误差自由度
  • 误差均方 ,公共标准差
  • 各组均值和重复数

第三步:查表得公共乘子

  • 分布分位数
  • 计算公共因子

第四步:逐对计算临界值并比较

  • 对每对 ,计算
  • 比较

常见计算技巧

技巧1:临界值快速比较

在等重复数下,T 法与 S 法的临界值乘子之比为

当此比值小于 1 时,T 法更优(区间更窄)。

技巧2:利用对称性减少计算

由于 ,只需计算 个差值,而非 个。

技巧3:先排均值再比较

将各组均值从小到大排列,可以更直观地看出哪些对可能显著。例如,若均值排序为 ,且 不显著,则 也必然不显著。


九、补充理解与易混淆点

ANOVA 显著就可以直接用 t 检验两两比较

来源:茆诗松《概率论与数理统计》第三版 p381 + Montgomery, D.C. (2017) Design and Analysis of Experiments, 9th ed., Wiley, §3.5 + CSDN 文库”ANOVA 后为什么不能用 t 检验” + stats.stackexchange.com “Why not use multiple t-tests instead of ANOVA?” + 卡方核心笔记(方差分析专题)

误区1:"ANOVA 显著就可以直接用 检验两两比较"

❌ 错误解释:ANOVA 的 检验已经控制了整体第一类错误率,因此在其显著后直接使用多个 检验进行两两比较是安全的。 ✅ 正确解释:即使 ANOVA 的 检验已经显著,==直接使用多个 检验进行两两比较仍然是不正确的==。 检验控制的是”所有均值是否相等”的整体第一类错误率,而多个 检验会引入新的多重比较问题。具体来说, 检验的整体第一类错误率为 ,当 ,远超 检验显著只是告诉我们”值得进一步探索哪些水平有差异”,但探索的方法必须是控制整体错误率的多重比较方法(T 法、S 法、Bonferroni 法等),而非朴素的 检验。Montgomery (2017) 在 §3.5 中明确指出:“The usual tests should not be used to compare all pairs of means… because the overall type I error rate would be inflated.”

T 法和 S 法可以互换使用

来源:茆诗松《概率论与数理统计》第三版 p382-384 + Hsu, J.C. (1996) Multiple Comparisons: Theory and Methods, Chapman & Hall, §1.3 + CSDN 博客”Tukey 和 Scheffé 方法的区别” + real-statistics.com “Tukey HSD vs Scheffé” + 卡方核心笔记(多重比较专题)

误区2:"T 法和 S 法可以互换使用"

❌ 错误解释:T 法和 S 法都是多重比较方法,效果差不多,可以随意选择使用。 ✅ 正确解释:T 法和 S 法有不同的适用条件和统计性质,不能随意互换。T 法仅适用于等重复数情形,其临界值基于 studentized range 分布 ;S 法适用于等重复或不等重复情形,其临界值基于 分布。如果在等重复数下使用 S 法,会得到更宽的置信区间(更保守),降低检验功效;如果在不等重复数下使用 T 法(强行取平均重复数),则联合覆盖概率不再有理论保证。此外,S 法的适用范围更广——它不仅对均值差有效,而且对所有可能的对比(contrast)都有效,而 T 法仅适用于两两均值差比较。因此,方法的选择应根据实验设计和比较目的来确定,而非随意替换。

多重比较的联合置信水平等于单个置信水平

来源:茆诗松《概率论与数理统计》第三版 p380 + Saville, D.J. (2003) “Basic statistics and the inconsistency of multiple comparison procedures”, Canadian Journal of Experimental Psychology, 57(3), 167-175 + CSDN 文库”多重比较的联合置信水平” + stats.stackexchange.com “Family-wise error rate vs individual error rate” + 卡方核心笔记(多重比较专题)

误区3:"多重比较的联合置信水平等于单个置信水平"

❌ 错误解释:多重比较中每个置信区间的置信水平是 ,所以所有区间同时覆盖的概率也是 。 ✅ 正确解释:这是多重比较中最根本的误解。联合置信水平(family-wise confidence level)与单个置信水平(individual confidence level)是两个不同的概念。单个置信水平 指的是某一个特定区间覆盖其参数的概率;联合置信水平指的是所有 个区间同时覆盖各自参数的概率。设共有 个比较,即使各区间独立,联合覆盖概率也只有 ,远小于 。例如 ), 时,,联合覆盖概率仅为 。多重比较方法(T 法、S 法等)通过放大临界值,将联合覆盖概率提升到 ,代价是每个单独的区间变宽。Saville (2003) 指出,混淆这两个概念是统计误用中最常见的问题之一。

多重比较只能在 ANOVA 显著后进行

来源:茆诗松《概率论与数理统计》第三版 p381 + Scheffé, H. (1959) The Analysis of Variance, Wiley, §3.5 + CSDN 博客”多重比较与 ANOVA 的关系” + researchgate.net “Post-hoc tests without significant ANOVA” + 卡方核心笔记(多重比较专题)

误区4:"多重比较只能在 ANOVA 显著后进行"

❌ 错误解释:多重比较必须在 ANOVA 的 检验显著后才能进行,否则结果无效。 ✅ 正确解释:这是一个有争议的问题,需要分情况讨论。在教材的常规框架下,确实先做 ANOVA 的 检验,若显著再做多重比较,这是一种”保护性策略”(protected test)。然而,从统计理论的角度看,某些多重比较方法(特别是 Scheffé 法)本身就可以作为独立的全局检验使用——如果 S 法的所有两两比较都不显著,则等价于接受 ANOVA 的 。Scheffé (1959) 证明了 S 法与 检验之间存在”一致性”:如果 检验不显著,则 S 法也不会发现任何显著对比。因此,S 法不需要先做 检验。但对于 T 法,情况有所不同——T 法与 检验之间没有这种一致性,理论上可能出现 检验不显著但 T 法发现某些对显著的情况。在实际应用中,大多数教材和软件仍采用”先 后多重比较”的保护策略,以减少假阳性。

S 法总是比 T 法更保守

来源:茆诗松《概率论与数理统计》第三版 p384 + Hsu, J.C. (1996) Multiple Comparisons: Theory and Methods, Chapman & Hall, §3.2 + CSDN 博客”Scheffé 法比 Tukey 法更保守吗” + real-statistics.com “Comparison of Tukey’s HSD and Scheffé” + 卡方核心笔记(多重比较专题)

误区5:"S 法总是比 T 法更保守"

❌ 错误解释:S 法的临界值总是大于 T 法,因此 S 法在任何情况下都比 T 法更保守。 ✅ 正确解释:在等重复数且仅做两两均值差比较的条件下,S 法确实比 T 法更保守(临界值更大,区间更宽)。这是因为 S 法要同时控制所有可能对比(包括均值差和各种线性组合)的错误率,而 T 法只控制两两均值差的错误率,控制范围更窄,因此可以更”精准”。然而,“S 法更保守”这一结论有以下限定条件:(1) 仅在等重复数下成立;(2) 仅在只做两两比较时成立。如果需要检验一般对比(如 ),S 法是唯一适用的标准方法。此外,在不等重复数下,T 法不适用,S 法是自然的选择,此时不存在”谁更保守”的比较问题。Hsu (1996) 指出,在比较对数很少(如 )时,Bonferroni 法可能比 T 法和 S 法都更优,因此方法选择应综合考虑比较类型、重复数和比较对数。


十、习题精选

习题概览

编号类型来源知识点难度
1教材习题8.2(1)储藏方法 T 法多重比较
2教材习题8.2(2)推销方法 T 法多重比较
3教材习题8.2(3)纤维强度联合置信区间中高
4教材习题8.2(4)科研花费 S 法多重比较中高
5教材习题8.2(5)工厂磨损率 S 法多重比较
6教材习题8.2(6)生产线 T 法多重比较
7考研2021 浙江大学 432方差分析 + T 法多重比较中高
8考研2022 南京大学 432不等重复 S 法多重比较
9考研2023 武汉大学 432多重比较与 Bonferroni 校正中高
10考研2020 中山大学 432T 法与 S 法对比分析

教材习题

习题1 — 教材习题8.2(1):储藏方法 T 法多重比较

为比较 4 种不同储藏方法对水果保鲜效果的影响,每种方法下随机抽取 5 个样本测定保鲜天数。ANOVA 结果:,拒绝 。各组均值:

用 T 法在 下进行多重比较。已知

习题2 — 教材习题8.2(2):推销方法 T 法多重比较

某公司比较 3 种推销方法的销售效果,每种方法随机分配 6 名推销员。ANOVA 结果:。各组均值:

用 T 法在 下进行多重比较。已知

习题3 — 教材习题8.2(3):纤维强度联合置信区间

比较 4 种工艺生产的纤维强度,每种工艺 6 个样品。ANOVA 结果:。各组均值:

(1) 用 T 法构造所有均值差的联合 置信区间。已知 。 (2) 哪些工艺之间存在显著差异?

习题4 — 教材习题8.2(4):科研花费 S 法多重比较

比较 4 个地区的科研花费(单位:万元),样本量分别为 。各组均值:

用 S 法在 下进行多重比较。已知

习题5 — 教材习题8.2(5):工厂磨损率 S 法多重比较

比较 5 种材料在不同工厂的磨损率,样本量分别为 。各组均值:

用 S 法在 下进行多重比较。已知

习题6 — 教材习题8.2(6):生产线 T 法多重比较

比较 3 条生产线的产量,每条线记录 10 天产量。ANOVA 结果:。各组均值:

(1) 用 T 法在 下进行多重比较。已知 。 (2) 与 的结果对比()。


考研真题

习题7 — 2021 浙江大学 432:方差分析 + T 法多重比较

某农业试验站研究 4 种施肥方案对水稻产量的影响,每种方案随机分配 5 块试验田。产量数据(kg/亩)的方差分析结果如下:

来源SSdfMS
施肥方案120034008.00
误差8001650
总和200019

已知 。各组均值:

(1) 在 下,施肥方案对产量是否有显著影响? (2) 用 T 法进行多重比较,找出哪些方案之间存在显著差异。

习题8 — 2022 南京大学 432:不等重复 S 法多重比较

研究 3 种药物对降低血压的效果(单位:mmHg),样本量分别为 。ANOVA 结果:。各组均值:

(1) 为什么不能用 T 法?应使用什么方法? (2) 用适当方法在 下进行多重比较。已知

习题9 — 2023 武汉大学 432:多重比较与 Bonferroni 校正

某心理学家比较 5 种教学方法的效果,每种方法 8 名学生,。ANOVA 的 检验在 下显著。已知

(1) 若直接使用 检验进行所有两两比较,整体第一类错误率是多少? (2) 使用 Bonferroni 校正,每个检验的显著性水平应调整为多少? (3) 比较 Bonferroni 法与 T 法的临界值大小。

习题10 — 2020 中山大学 432:T 法与 S 法对比分析

设有 个水平,等重复数 。已知

(1) 分别计算 T 法和 S 法的临界值。 (2) 哪种方法更优?为什么? (3) 如果重复数变为 ,还能用 T 法吗?


十一、教材原文


第八章 方差分析与回归分析/多重比较