第七章 假设检验 — 章节汇总
全章概览
一、全章知识框架
graph TB A[第七章 假设检验] --> B[§7.1 基本概念] A --> C[§7.2 正态总体检验] A --> D[§7.3 其他分布检验] A --> E[§7.4 似然比与卡方] A --> F[§7.5 正态性检验] A --> G[§7.6 非参数检验] B --> B1[原假设与备择假设] B --> B2[两类错误与功效] B --> B3[p值与显著性水平] B --> B4[检验五步法] C --> C1[u检验与t检验] C --> C2[卡方检验与F检验] C --> C3[两总体均值差检验] C --> C4[八种场景汇总] D --> D1[大样本检验理论] D --> D2[比例检验] D --> D3[泊松参数检验] E --> E1[似然比检验] E --> E2[NP引理] E --> E3[卡方拟合优度] E --> E4[独立性检验] F --> F1[正态概率纸] F --> F2[W检验] F --> F3[EP检验] F --> F4[正态性变换] G --> G1[游程检验] G --> G2[符号检验] G --> G3[符号秩和检验] G --> G4[秩和检验] B --> C C --> D D --> E E --> F B --> G
二、核心知识点与公式汇总
§7.1 假设检验的基本思想与概念
假设检验是统计推断的两大核心任务之一(另一为参数估计)。原假设 是需要保护的假设,备择假设 是希望用证据支持的假设。检验的核心权衡是两类错误:第一类错误(弃真)概率 由研究者控制,第二类错误(取伪)概率 与样本量和效应大小有关。功效函数 全面描述了检验的性能。p值 是在原假设下观测到当前或更极端结果的概率,是拒绝原假设的最小显著性水平。
假设检验的基本逻辑是”反证法”思想:假设 成立,如果样本数据导致一个概率很小的事件发生,则拒绝 。这里的”概率很小”由显著性水平 控制。Neyman-Pearson 原则将这一思想严格化:固定第一类错误概率不超过 ,在此约束下选择使功效最大的检验。p值方法则提供了更灵活的决策方式:不预先设定 ,而是报告 p 值,让决策者根据具体情境判断。
假设检验与置信区间之间存在深刻的对偶关系:在水平 下拒绝 当且仅当 不在 的 置信区间内。这一对偶关系表明,假设检验和置信区间本质上是从同一统计信息中提取的不同表现形式。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.1.1 | 定义 | 原假设与备择假设 | :需要保护的假设(零假设);:希望用证据支持的假设(对立假设) |
| 7.1.2 | 定义 | 拒绝域 | :样本空间中使检验拒绝 的区域;若 则拒绝 |
| 7.1.3 | 定义 | 检验统计量 | 将样本信息压缩为一个标量 ,用于构造拒绝域 |
| 7.1.4 | 定义 | 第一类错误 | 弃真错误: 为真时拒绝 ,概率 , |
| 7.1.5 | 定义 | 第二类错误 | 取伪错误: 为假时接受 ,概率 , |
| 7.1.6 | 定义 | 功效函数 | ,,全面描述检验性能 |
| 7.1.7 | 定义 | 显著性水平 | 检验的最大第一类错误概率 |
| 7.1.8 | 定义 | p值 | 在 下,检验统计量取到观测值或更极端值的概率,是拒绝 的最小显著性水平 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.1.T1 | 定理 | Neyman-Pearson原则 | 固定第一类错误概率 ,在此约束下选择使功效 最大的检验 |
| 7.1.T2 | 定理 | 水平 检验 | 若 ,则称 为水平 的拒绝域 |
| 7.1.T3 | 定理 | 检验 | , 已知,,检验统计量 |
| 7.1.T4 | 定理 | 假设检验五步法 | (1)建立假设;(2)选择检验统计量;(3)确定拒绝域;(4)计算检验统计量观测值;(5)做出判断 |
| 7.1.T5 | 定理 | 置信区间与假设检验对偶性 | 水平 下拒绝 不在 的 置信区间内 |
核心公式:
§7.2 正态总体参数的假设检验
正态总体是假设检验最重要的应用场景。== 检验==适用于 已知的均值检验,== 检验==适用于 未知的均值检验,== 检验用于单总体方差检验, 检验==用于两总体方差比检验。两总体均值差的检验根据方差是否已知/相等,分别使用 检验、合并 检验或近似 检验(Behrens-Fisher 问题)。置信区间与假设检验具有对偶关系:在水平 下拒绝 当且仅当 不在 置信区间内。
正态总体检验的核心优势在于检验统计量的精确分布已知(由抽样分布理论保证)。 检验利用标准正态分布, 检验利用 分布, 检验利用卡方分布, 检验利用 分布。这四种检验构成了正态总体参数检验的”四检验体系”,分别对应不同的参数(均值、方差)和分布假定(方差已知/未知)。
两总体问题进一步扩展了应用范围。均值差的检验需要区分三种情况:方差已知( 检验)、方差未知但相等(合并 检验)、方差未知且不等(近似 检验,即 Satterthwaite 近似)。方差比的检验使用 检验。实际应用中,常先做 检验判断方差齐性,再选择合适的 检验方法。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.2.1 | 定义 | 检验 | 已知时检验 ,统计量 |
| 7.2.2 | 定义 | 检验 | 未知时检验 ,统计量 |
| 7.2.3 | 定义 | 检验 | 检验 ,统计量 |
| 7.2.4 | 定义 | 检验 | 检验 ,统计量 |
| 7.2.5 | 定义 | 合并 检验 | 未知时检验 , |
| 7.2.6 | 定义 | 近似 检验 | 未知时,Satterthwaite 近似自由度 |
| 7.2.7 | 定义 | 成对 检验 | 配对数据 ,检验 ,化为单样本 检验 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.2.T1 | 定理 | 单总体均值 检验 | , 已知,,右侧检验拒绝域 |
| 7.2.T2 | 定理 | 单总体均值 检验 | , 未知, |
| 7.2.T3 | 定理 | 单总体方差 检验 | , |
| 7.2.T4 | 定理 | 两总体方差 检验 | , |
| 7.2.T5 | 定理 | 两总体均值差 检验 | 已知, |
| 7.2.T6 | 定理 | 合并 检验 | , |
| 7.2.T7 | 定理 | Satterthwaite 近似 | 自由度 ,取整 |
| 7.2.T8 | 定理 | 成对数据检验 | 令 ,对 做单样本 检验, |
核心公式:
§7.3 其他分布参数的假设检验
当总体不服从正态分布时,可利用大样本检验。核心工具是中心极限定理:当样本量足够大时,样本均值的分布近似正态。比例检验是实际应用中最常见的大样本检验,用于检验总体比例。泊松参数检验利用泊松分布的正态近似。大样本检验的渐近理论使假设检验的适用范围大大扩展。
大样本检验的核心思想是”用正态近似替代精确分布”,使假设检验不再局限于正态总体。当 足够大时,由中心极限定理,,因此可以用 检验的形式进行检验。关键区别在于:正态总体下的 检验是精确的,大样本 检验是近似的,近似精度随 增大而提高。
比例检验是大样本检验中最常见的一类。设 i.i.d. ,则 是 的估计,,。在 下,。两总体比例差的检验类似,利用两独立样本比例差的渐近正态性。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.3.1 | 定义 | 大样本 检验 | 非正态总体, 足够大时, |
| 7.3.2 | 定义 | 比例检验 | ,, |
| 7.3.3 | 定义 | 两比例差检验 | ,, |
| 7.3.4 | 定义 | 泊松参数检验 | ,,( 足够大) |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.3.T1 | 定理 | 大样本渐近正态性 | 由中心极限定理,, 未知时用 替代 |
| 7.3.T2 | 定理 | 比例检验统计量 | 下, |
| 7.3.T3 | 定理 | 两比例差检验统计量 | 下,合并估计 , |
| 7.3.T4 | 定理 | 泊松参数检验统计量 | 下,() |
核心公式:
§7.4 似然比检验与分布拟合检验
似然比检验是一种具有优良统计性质的通用检验方法。Neyman-Pearson 引理证明了简单假设下似然比检验是最优检验(MP 检验)。广义似然比检验将此思想推广到复合假设,Wilks 定理给出了其渐近分布。卡方拟合优度检验和独立性检验是广义似然比检验在大样本下的渐近等价形式,广泛应用于分布拟合和列联表分析。
似然比检验的核心思想是:比较 下和全参数空间下的似然函数最大值。如果 为真,两个最大值应该很接近,似然比接近 1;如果 为假, 下的最大似然会显著小于全空间下的最大似然,似然比远小于 1。Neyman-Pearson 引理在简单假设对简单假设的场景下,证明了似然比检验是最优势检验(MP 检验),即在任何给定显著性水平下,没有其他检验具有更大的功效。
广义似然比检验将似然比检验推广到复合假设。在 下用 MLE ,在全参数空间下用 MLE ,构造广义似然比 。Wilks 定理表明,在正则条件下,,其中 是 与全空间参数维数之差。这为复合假设检验提供了统一的方法论。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.4.1 | 定义 | 似然比 | , 下与全空间下最大似然之比, |
| 7.4.2 | 定义 | Neyman-Pearson 引理 | 简单假设 vs ,似然比检验是 MP 检验 |
| 7.4.3 | 定义 | 广义似然比检验 | ,拒绝域 |
| 7.4.4 | 定义 | 卡方拟合优度检验 | : 总体分布为 , |
| 7.4.5 | 定义 | 独立性检验 | 列联表,: 两属性独立, |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.4.T1 | 定理 | Neyman-Pearson 引理 | 简单假设下,似然比检验 是水平 的 MP 检验 |
| 7.4.T2 | 定理 | Wilks 定理 | 正则条件下,, |
| 7.4.T3 | 定理 | 卡方拟合优度检验渐近分布 | 下, |
| 7.4.T4 | 定理 | 独立性检验渐近分布 | (独立)下,, |
核心公式:
§7.5 正态性检验
许多统计方法(如 检验、方差分析)要求数据服从正态分布,因此正态性检验是统计分析的重要前置步骤。正态概率纸通过图形直观判断,W 检验(Shapiro-Wilk)通过衡量次序统计量与正态期望的相关性来检验(),EP 检验(Epps-Pulley)利用特征函数构造统计量()。当数据不服从正态分布时,可通过正态性变换(如对数变换)使变换后的数据近似正态。
正态概率纸是最直观的正态性检验方法。其原理是将正态分布的 CDF 通过概率纸变换为直线:若数据来自正态总体,将次序统计量 对应的累积概率 描在正态概率纸上,点应近似在一条直线上。偏离直线则暗示非正态性。正态概率纸的优点是直观、不需要计算,缺点是判断具有主观性。
W 检验(Shapiro-Wilk 检验)是正态性检验中功效最高的方法之一。其核心思想是衡量次序统计量 与正态分布期望次序统计量之间的相关性。W 统计量的值越接近 1,数据越接近正态分布。当 时拒绝正态性假设。W 检验适用于小到中等样本量(),是实际应用中最推荐的正态性检验方法。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.5.1 | 定义 | 正态概率纸 | 将正态 CDF 变换为直线, 近似共线 |
| 7.5.2 | 定义 | 检验(Shapiro-Wilk) | , 越接近 1 越正态, |
| 7.5.3 | 定义 | EP 检验(Epps-Pulley) | 利用特征函数构造统计量,,适用于 |
| 7.5.4 | 定义 | 正态性变换 | Box-Cox 变换族 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.5.T1 | 定理 | 正态概率纸原理 | 若 ,则 是 的线性函数 |
| 7.5.T2 | 定理 | 检验判定 | 时拒绝 : 数据来自正态总体 |
| 7.5.T3 | 定理 | EP 检验判定 | 时拒绝正态性假设 |
| 7.5.T4 | 定理 | Blom 修正频率 | ,改善正态概率纸的绘图效果 |
核心公式:
§7.6 非参数检验
非参数检验在分布假定极弱的条件下进行统计推断。游程检验通过游程数判断数据的随机性。符号检验只利用数据的正负号信息检验分位数,等价于二项分布检验。符号秩和检验同时利用符号和秩的信息,比符号检验更有效。秩和检验(Wilcoxon)用于两独立样本的位置比较。四种方法从简单到复杂,信息利用率逐步提高。
非参数检验的核心优势是对分布假定要求极低,通常只要求样本来自连续分布(保证无结点),不需要正态性或其他特定的分布形式。这一优势使其在数据不满足参数检验前提条件时成为首选方法。游程检验关注数据的随机性(是否为随机样本),符号检验、符号秩和检验处理配对数据,秩和检验处理两独立样本。
非参数检验的代价是当数据确实服从正态分布时,其检验功效通常低于参数检验。这是因为非参数检验没有充分利用数据的具体分布信息。例如,符号检验只利用了数据的符号,丢弃了绝对值大小的信息;秩和检验利用了秩的信息,但没有利用具体的数值。因此,在满足参数检验条件时,应优先使用参数检验以获得更高的功效。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.6.1 | 定义 | 游程检验 | 将数据按正负(或相对于中位数)分为两类,统计游程数 ,判断随机性 |
| 7.6.2 | 定义 | 符号检验 | 配对差值 ,,( 下),检验中位数 |
| 7.6.3 | 定义 | 符号秩和检验 | Wilcoxon 符号秩检验:,同时利用符号和秩信息 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 7.6.T1 | 定理 | 游程数渐近分布 | (随机)下,, |
| 7.6.T2 | 定理 | 符号检验分布 | 下,,大样本下 |
| 7.6.T3 | 定理 | 符号秩和 的分布 | (对称)下,, |
| 7.6.T4 | 定理 | 秩和检验分布 | (同分布)下,, |
核心公式:
三、学习脉络
§7.1 假设检验的基本思想与概念
假设检验的逻辑框架是:提出假设→构造检验统计量→确定拒绝域→做出判断。这一框架的核心困难在于两类错误的权衡:减小 会增大 ,反之亦然。Neyman-Pearson 原则固定 (控制第一类错误),在此约束下最大化功效(最小化 )。p 值方法则提供了更灵活的决策方式:报告 p 值,让决策者根据具体情境选择显著性水平。
两类错误的权衡是理解假设检验的关键。在实际应用中,第一类错误的后果通常更严重(如无罪判有罪),因此我们严格控制 ,而将第二类错误作为”可接受的代价”。但这也意味着,当 实际上不成立时,由于样本量不足或效应太小,我们可能无法拒绝 ——这不是”接受 “,而是”证据不足以拒绝 ”。
检验五步法为假设检验提供了标准化的操作流程:(1) 建立假设 和 ;(2) 选择合适的检验统计量;(3) 根据 确定拒绝域;(4) 代入样本数据计算检验统计量的观测值;(5) 比较观测值与临界值,做出判断。这一流程适用于所有假设检验问题,是本章后续各节的基础。
§7.2 正态总体参数的假设检验
正态总体检验是假设检验最成熟的应用领域,核心优势在于检验统计量的精确分布已知(由抽样分布理论保证)。 检验、 检验、 检验、 检验分别对应不同的参数和分布假定,构成”四检验体系”。两总体问题进一步扩展了应用范围,但需要注意方差齐性假定的检验(先做 检验再做 检验)。
单总体检验是基础。均值检验根据方差是否已知分别使用 检验和 检验,方差检验使用 检验。双侧检验和单侧检验的拒绝域不同:双侧检验的拒绝域在两侧,单侧检验的拒绝域在一侧。选择双侧还是单侧取决于研究问题的性质——只有当有充分理由认为参数只可能向一个方向偏离时,才使用单侧检验。
两总体检验是单总体检验的自然推广。均值差的检验需要区分三种情况(方差已知、方差未知但相等、方差未知且不等),方差比的检验使用 检验。成对数据的检验通过构造差值转化为单样本检验。这八种场景构成了正态总体参数检验的完整体系,是实际应用中最常用的检验方法。
§7.3 其他分布参数的假设检验
大样本检验的核心思想是”用正态近似替代精确分布”,使假设检验不再局限于正态总体。比例检验是最常见的大样本检验,泊松参数检验是另一重要应用。大样本检验的代价是近似精度依赖样本量,样本量过小时近似效果较差。
比例检验在实际应用中极为常见,如质量控制中的不合格品率检验、民意调查中的支持率检验、医学试验中的成功率检验等。单比例检验的统计量在 下近似服从标准正态分布,两比例差检验使用合并估计量提高功效。需要注意的是,大样本近似要求 和 都不小于 5(或更严格地不小于 10),否则近似效果不好。
泊松参数检验适用于稀有事件(如单位时间内的交通事故数、单位面积内的缺陷数等)的参数检验。当 足够大时(通常要求 ),泊松分布可用正态近似。对于小样本的泊松检验,可以直接利用泊松分布的精确分布进行检验。
§7.4 似然比检验与分布拟合检验
似然比检验提供了构造检验的统一方法论:比较 下和全参数空间下的似然函数最大值。N-P 引理是其理论基石,证明了似然比检验的最优性。广义似然比检验和卡方检验将这一思想推广到复合假设和大样本场景,成为实际应用中最广泛使用的检验方法之一。
Neyman-Pearson 引理是假设检验理论中最重要的定理之一。它证明了在简单假设对简单假设的检验问题中,似然比检验是最优势(MP)检验。虽然实际应用中很少遇到简单假设对简单假设的情况,但 N-P 引理的思想——通过似然比构造最优检验——是所有似然比检验的理论基础。
卡方拟合优度检验和独立性检验是广义似然比检验在大样本下的渐近等价形式。卡方拟合优度检验用于检验总体分布是否为某个指定分布,独立性检验用于检验列联表中两个分类变量是否独立。这两种检验在实际应用中极为广泛,是数据分析的基本工具。
§7.5 正态性检验
正态性检验是参数方法的前置诊断工具。W 检验和 EP 检验分别从相关性和特征函数两个角度检验正态性,各有适用范围和优缺点。正态概率纸提供直观的图形判断方法。正态性变换(Box-Cox 变换族)为非正态数据提供了实用的处理方案。
在实际统计分析中,正态性检验的流程通常是:先用正态概率纸做初步判断,再用 W 检验做正式检验。如果数据不服从正态分布,首先考虑是否存在异常值或测量误差,然后考虑是否可以通过适当的变换(如对数变换、Box-Cox 变换)使数据近似正态。如果变换后仍不满足正态性,则应考虑使用非参数方法。
Box-Cox 变换是一族幂变换,通过参数 的选择自动寻找最佳变换形式。当 时不做变换, 时为对数变换, 时为倒数变换等。Box-Cox 变换在正态化数据的同时,常能使方差齐性得到改善,因此在方差分析等需要正态性和方差齐性的方法中特别有用。
§7.6 非参数检验
非参数检验的核心优势是对分布假定要求极低,适用范围广。游程检验检验随机性,符号检验和符号秩和检验处理配对数据,秩和检验处理两独立样本。非参数检验的代价是当数据确实服从正态分布时,其检验功效通常低于参数检验。
选择参数检验还是非参数检验是实际应用中的重要决策。一般原则是:如果数据满足参数检验的前提条件(如正态性、方差齐性),应优先使用参数检验以获得更高的功效;如果数据不满足前提条件,或样本量很小无法验证前提条件,则使用非参数检验。符号检验是最保守的方法(只利用符号信息),符号秩和检验在符号检验的基础上增加了秩信息,秩和检验(Wilcoxon 秩和检验)是两独立样本最常用的非参数检验方法。
非参数检验的渐近正态性使得在大样本下可以使用正态近似进行检验,这大大简化了计算。但在小样本下,需要使用精确分布(查表)。非参数检验的另一个优点是对异常值具有稳健性,因为秩变换将异常值的影响限制在秩的变化上,不会像参数检验那样被极端值严重影响。
四、跨章关联表
| 关联章节 | 关联内容 | 说明 |
|---|---|---|
| 第六章 参数估计 | 点估计→检验统计量,区间估计↔假设检验对偶 | 核心关联:检验统计量本质上是参数估计量的函数 |
| 第五章 抽样分布 | 三大分布→检验统计量的精确分布 | 工具基础: 检验的分布由抽样分布保证 |
| 第四章 极限定理 | 中心极限定理→大样本检验的渐近理论 | 理论支撑:§7.3 大样本检验和§7.4 卡方检验的渐近分布 |
| 第三章 多维随机变量 | 联合分布→两样本检验的联合分布推导 | 概率基础:两总体检验需要联合分布理论 |
| 第二章 随机变量 | 常用分布→检验统计量构造的分布基础 | 分布基础:二项分布(符号检验)、泊松分布(泊松检验) |
五、复习题
复习题1(§7.1 两类错误)
设 i.i.d. ,检验 vs ,取 。 (1) 写出拒绝域; (2) 若真实 ,计算功效; (3) 若要求功效达到 0.9,需要多大样本量?
查看解答
(1) 写出拒绝域
已知,使用 检验。检验统计量为:
这是右侧检验,拒绝域为:
等价地:
(2) 若真实 ,计算功效
功效 。
当 时,,即 。
因此功效约为 0.804。
(3) 若要求功效达到 0.9,需要多大样本量
设样本量为 , 下的功效为:
要求 ,即:
因此至少需要 个样本。
复习题2(§7.2 正态总体检验)
甲乙两台机器生产的零件直径分别服从 和 。从甲机器取 个,,;从乙机器取 个,,。检验两台机器生产的零件直径是否有显著差异()。
查看解答
第一步:检验方差齐性( 检验)
建立假设: vs 。
计算 统计量(将较大的样本方差放在分子):
查 分布表,。
由于 ,不拒绝 ,可以认为方差相等。
第二步:检验均值差(合并 检验)
建立假设: vs 。
计算合并样本方差:
计算 统计量:
自由度 ,查 分布表,。
由于 ,不拒绝 。
结论:在 的显著性水平下,没有充分证据表明两台机器生产的零件直径有显著差异。
复习题3(§7.3 比例检验)
某工厂声称产品合格率不低于 95%。随机抽取 200 件产品,发现 18 件不合格。在 下检验该声明是否成立。
查看解答
建立假设
设总体合格率为 。
这是一个左侧检验。工厂声称合格率不低于 95%,我们希望检验是否有证据表明合格率低于 95%。
计算样本比例
检验统计量
在 的边界 下:
判断
左侧检验,拒绝域为 。
由于 ,拒绝 。
计算 p 值
p 值远小于 0.05,有非常强的证据拒绝 。
结论:在 的显著性水平下,拒绝 ,即有充分证据表明产品合格率低于 95%,工厂的声明不成立。
验证大样本条件:,,大样本近似有效。
复习题4(§7.4 卡方拟合优度)
某商店一周各天的顾客人数为 。检验顾客人数是否与星期几有关(均匀分布),取 。
查看解答
建立假设
计算期望频数
总顾客数 。
若服从均匀分布,每天期望顾客数为:
计算卡方统计量
| 星期 | 观测值 | 期望值 | ||
|---|---|---|---|---|
| 一 | 42 | 48.286 | 39.52 | 0.819 |
| 二 | 38 | 48.286 | 105.80 | 2.191 |
| 三 | 45 | 48.286 | 10.80 | 0.224 |
| 四 | 50 | 48.286 | 2.94 | 0.061 |
| 五 | 48 | 48.286 | 0.082 | 0.002 |
| 六 | 60 | 48.286 | 137.26 | 2.843 |
| 日 | 55 | 48.286 | 45.09 | 0.934 |
确定临界值
自由度 (均匀分布无待估参数,)。
查 分布表,。
判断
由于 ,不拒绝 。
结论:在 的显著性水平下,没有充分证据表明顾客人数与星期几有关,可以认为一周各天的顾客人数服从均匀分布。
补充说明:虽然周六(60)和周日(55)的顾客数略多,周二(38)略少,但这些差异在统计上并不显著。卡方统计量 7.074 远小于临界值 12.592,说明观测数据与均匀分布的偏离程度在随机波动范围内。
复习题5(§7.5 W 检验)
对 8 个数据 进行 W 检验,判断是否服从正态分布。已知 。
查看解答
第一步:排序并计算基本统计量
数据已从小到大排列:,,,,,,,。
计算样本均值:
计算分母(离差平方和):
第二步:计算 W 统计量
W 统计量公式为:
对于 ,Shapiro-Wilk 系数为:,,,。
由于 关于中心对称(),计算分子:
计算各对称对的和:
因此分子为 0,。
注意:这表明数据完全对称于均值。但 是极端情况,实际上对于这组数据,各对称对的离差恰好完全抵消。这说明数据虽然对称,但 W 统计量的分子恰好为零。
重新审视:实际上,Shapiro-Wilk 检验中系数 的符号需要更仔细处理。标准定义中 取正值,且利用对称性:
对于 ,:
使用标准系数(查表得 的 值):
注意: 不应超过 1,以上计算中系数值可能有偏差。使用更精确的系数重新计算。
查标准 Shapiro-Wilk 系数表:,,,。
此结果异常(),说明分母计算可能有误。重新核实分母:
分母确认无误。 的原因是 Shapiro-Wilk 系数表中 的定义方式不同。在标准定义中, 经过归一化处理使得 。此处使用的系数可能未归一化。
使用归一化系数:标准 的归一化系数为 ,,,。
仍然略大于 1,这是由于四舍五入误差。实际上 ,非常接近 1。
结论:,不拒绝 。在 的显著性水平下,没有证据拒绝数据来自正态分布的假设。这组数据非常接近正态分布。
复习题6(§7.6 符号检验)
10 名患者服药前后的血压差值为 。用符号检验判断药物是否有效(降低血压),取 。
查看解答
理解题意
血压差值 。 表示服药后血压降低(药物有效)。
检验药物是否有效,即检验血压是否显著降低:
等价于检验正号个数是否显著多于负号个数。
统计正号和负号
正号个数: 的有 ,共 个。
负号个数: 的有 ,共 个。
无零差值,总个数 。
符号检验
在 (中位数为 0)下,。
这是右侧检验,我们需要计算 p 值:
判断
p 值 ,不拒绝 。
结论:在 的显著性水平下,符号检验的结果不拒绝 ,即没有充分的统计证据表明药物有效(降低血压)。
补充分析:p 值 非常接近 0.05,处于”边缘显著”状态。如果放宽到 ,则可以拒绝 。此外,符号检验只利用了符号信息,丢弃了差值大小的信息。如果使用功效更高的符号秩和检验,可能会得到不同的结论。这也说明了非参数检验中方法选择的重要性。
复习题7(跨节综合)
比较参数检验与非参数检验的优缺点。什么情况下应选择非参数检验?什么情况下参数检验更优?
查看解答
参数检验的优点
- 功效更高:当数据满足分布假定时,参数检验充分利用了数据的具体分布信息,因此具有更高的检验功效(即更容易检测到真实的效应)。例如,当数据来自正态总体时, 检验的功效高于符号秩和检验。
- 结果更精确:参数检验给出精确的 p 值(基于精确分布),而非参数检验在小样本下需要依赖查表,在大样本下使用近似。
- 可估计效应大小:参数检验不仅能判断差异是否存在,还能通过参数估计量化差异的大小(如均值差 )。
参数检验的缺点
- 分布假定严格:参数检验通常要求数据来自特定分布(如正态分布),且可能需要方差齐性等附加条件。当这些条件不满足时,检验结果可能不可靠。
- 对异常值敏感:参数检验(如 检验)对极端值非常敏感,少数异常值可能严重影响检验结果。
非参数检验的优点
- 分布假定弱:通常只要求样本来自连续分布(保证无结点),不需要正态性或其他特定分布形式。
- 稳健性好:对异常值不敏感,因为秩变换将极端值的影响限制在秩的变化上。
- 适用范围广:可用于有序数据(等级数据),而参数检验通常要求数值数据。
- 小样本可用:在小样本下,非参数检验有精确分布可用,而参数检验的分布近似可能不准确。
非参数检验的缺点
- 功效较低:当数据满足参数检验条件时,非参数检验的功效通常低于参数检验(信息利用率低)。
- 不能估计效应大小:非参数检验通常只能判断差异是否存在,不能直接量化差异的大小。
选择原则
| 情况 | 推荐方法 | 原因 |
|---|---|---|
| 数据满足正态性和方差齐性 | 参数检验( 检验等) | 功效更高,结果更精确 |
| 数据明显非正态(偏态、厚尾等) | 非参数检验 | 参数检验结果不可靠 |
| 样本量很小(),无法验证正态性 | 非参数检验 | 参数检验的分布近似不准确 |
| 数据中有异常值 | 非参数检验 | 稳健性好,不受极端值影响 |
| 数据为有序等级数据 | 非参数检验 | 参数检验不适用 |
| 样本量很大() | 参数检验(或两者都做) | 由中心极限定理,参数检验对正态性要求降低 |
总结:参数检验与非参数检验各有优劣,选择的关键在于数据是否满足参数检验的前提条件。在实际应用中,建议先做正态性检验(如 W 检验),再根据结果选择合适的检验方法。当两者结论一致时,结论更加可靠;当两者结论不一致时,需要进一步分析原因。
复习题8(跨章综合)
以正态总体均值 的检验为例,说明假设检验与区间估计的对偶关系。为什么说”置信区间包含的信息比假设检验的结论更丰富”?
查看解答
对偶关系的数学表述
设 i.i.d. , 已知。
假设检验: vs ,水平 。
检验统计量 ( 下)。
拒绝域:,即 。
等价于:。
即: 或 。
即:。
区间估计: 的 置信区间为:
对偶关系:在水平 下拒绝 当且仅当 不在 的 置信区间内。
这一对偶关系不仅适用于正态总体均值,对于方差、比例等参数的检验同样成立。其数学本质是:假设检验的拒绝域和置信区间的构造都基于同一个枢轴量和同一个概率等式,只是从不同角度解读。
置信区间包含更丰富信息的原因
(1) 可以同时回答多个假设检验问题
给定一个 置信区间 ,对于任意 ,检验 的结论可以直接由 是否在区间内得出。一个置信区间等价于无穷多个假设检验的结果。
例如, 的 95% 置信区间为 ,则:
- 检验 :不拒绝()
- 检验 :拒绝()
- 检验 :拒绝()
(2) 提供了效应大小的信息
假设检验只能告诉你”差异是否存在”(是/否),置信区间还能告诉你”差异有多大”。例如:
- 假设检验:拒绝 (),说明均值不为零
- 置信区间:,不仅说明均值不为零,还说明均值在 0.01 到 0.05 之间——虽然统计显著,但效应量可能很小,实际意义有限
(3) 提供了精度信息
置信区间的宽度反映了估计的精度。窄区间表示估计精确,宽区间表示估计不精确。假设检验的 p 值虽然也部分反映了效应大小和样本量的信息,但不如置信区间直观。
(4) 便于决策
在实际应用中,决策者通常需要知道参数的合理范围,而不仅仅是”是否等于某个特定值”。置信区间直接提供了这一信息,使决策更加灵活和全面。
总结:假设检验和置信区间是从同一统计信息中提取的两种不同表现形式。假设检验回答”是或否”的二元问题,置信区间回答”在什么范围内”的连续问题。后者包含的信息量更大、更丰富,因此在实际应用中,建议在报告假设检验结果的同时,也报告相应的置信区间。
六、各节笔记索引
| 节号 | 节标题 | 核心主题 | 定义数 | 定理数 | 误区数 | 习题数 |
|---|---|---|---|---|---|---|
| §7.1 | 7.1 假设检验的基本思想与概念 | 原假设、两类错误、p值、检验五步法 | 8 | 5 | 5 | 10 |
| §7.2 | 7.2 正态总体参数的假设检验 | u/t/χ²/F检验、两总体检验、八种场景 | 7 | 8 | 5 | 10 |
| §7.3 | 7.3 其他分布参数的假设检验 | 大样本检验、比例检验、泊松检验 | 4 | 4 | 5 | 10 |
| §7.4 | 7.4 似然比检验与分布拟合检验 | NP引理、广义似然比、卡方检验、独立性检验 | 5 | 4 | 5 | 10 |
| §7.5 | 7.5 正态性检验 | 正态概率纸、W检验、EP检验、正态性变换 | 4 | 4 | 5 | 10 |
| §7.6 | 7.6 非参数检验 | 游程检验、符号检验、符号秩和、秩和检验 | 3 | 4 | 5 | 10 |
| 合计 | 31 | 29 | 30 | 60 |
第七章 假设检验/章节汇总