7.3 其他分布参数的假设检验
相关笔记:7.1 假设检验的基本思想与概念 | 7.2 正态总体参数的假设检验 | 4.4 中心极限定理 | 6.6 区间估计 | 2.4 常用离散分布 | 2.5 常用连续分布
本节概览
本节将假设检验方法从正态总体推广到其他分布。核心工具是大样本理论:当样本量足够大时,由中心极限定理,样本均值(或样本比例)的标准化量近似服从标准正态分布。本节重点介绍比例检验(单总体和两总体)以及泊松分布参数检验,这些方法在医学、社会科学和工程中有广泛应用。
逻辑链条:大样本理论 → 单总体比例 → 两总体比例差 → 泊松参数 → 其他分布 → 方法选择
前置依赖:§7.1(假设检验基本概念)、§7.2(正态总体检验方法)、§4.4(CLT)、§6.6(大样本置信区间)
核心主线:非正态总体参数检验的核心是”大样本正态近似”——由CLT保证,当n充分大时,检验统计量近似服从正态分布。比例检验是最重要的非正态检验场景,其检验统计量 在 成立时近似 。
一、大样本检验的一般理论
在§7.2中,我们讨论了正态总体参数的检验方法,其核心是利用正态分布、 分布、 分布和 分布等精确分布来构造检验统计量。然而,在实际应用中,很多总体的分布类型是未知的或非正态的。此时,我们无法直接使用§7.2中的方法。大样本检验理论为解决这一问题提供了有力工具。
大样本检验的基本思想
定义 7.3.1 — 大样本检验
设 是来自总体 的样本,,,其中 为待检验参数。当样本量 充分大时,利用中心极限定理,构造检验统计量
其中 为 的相合估计。在 成立时, 近似服从 ,由此可构造近似拒绝域。这种检验方法称为大样本检验。
核心要点:
- 大样本检验不要求总体服从正态分布,但要求总体均值和方差存在且有限。
- “大样本”的具体含义取决于总体分布:对于比例检验,通常要求 且 (更严格的要求是 )。
- 大样本检验是一种近似检验,其近似精度随样本量增大而提高。
渐近正态性定理
定理 7.3.1 — 大样本检验的渐近正态性
设 ,,, 为 的相合估计。则在 成立时,
证明
证明:
第一步:由CLT建立标准化量的渐近分布。由中心极限定理(Lindeberg-Levy形式),当 时,
这一步要求 ,即总体方差有限。
第二步:用相合估计替换未知参数。在 成立时,,但 中可能含有未知参数。由于 是 的相合估计,由 Slutsky 定理,
因此,
第三步:结论。在 成立时,检验统计量 的渐近分布为 ,因此可以用标准正态分布的分位数来确定近似拒绝域。
大样本检验的适用条件
大样本检验并非万能的,它需要满足以下条件:
| 条件 | 说明 |
|---|---|
| 有限方差 | 总体方差 ,排除 Cauchy 分布等重尾分布 |
| 样本量充分大 | 具体要求因分布类型而异(比例检验:,) |
| 独立同分布 | 样本为简单随机样本 |
| 相合估计 | 是 的相合估计 |
与正态总体检验的关系
大样本检验与正态总体检验的关系可以概括为:
- 正态总体检验:精确检验,不依赖样本量大小,利用精确的抽样分布(、、)。
- 大样本检验:近似检验,依赖样本量充分大,利用CLT保证的渐近正态性。
- 当总体确实服从正态分布时,应优先使用正态总体检验(更精确);当总体分布未知或非正态时,大样本检验是唯一可行的方法。
二、比例的检验
比例检验是大样本检验中最重要的应用场景。在实际问题中,我们经常需要检验总体比例(如产品合格率、选民支持率、疾病发病率等)是否等于某个特定值。
单个总体比例的检验
定义 7.3.2 — 单个总体比例的检验
设总体 (即 服从参数为 的伯努利分布), 为来自该总体的样本。记 (成功次数),(样本比例)。对比例 的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 当 且 时,在 成立的条件下,构造检验统计量:
近似服从 。
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | ${ |
| 右边检验 | |
| 左边检验 |
定理 7.3.2 — 比例检验的渐近正态性
设 ,。则在 成立时,
且近似效果在 且 时已经相当好。
证明
证明:
第一步:分析样本比例的分布。,因此 ,。
第二步:应用中心极限定理。由De Moivre-Laplace 中心极限定理,当 时,
第三步:在 下代入 。在 成立时,
注意这里分母使用的是 ( 下的值)而非 ,这是因为在 成立时 是已知的,使用 可以得到更好的近似效果。
例题
例题 1 — 产品合格率检验
某工厂声称其产品合格率为 95%。现从一批产品中随机抽取 200 件进行检验,发现其中有 186 件合格。在 下检验该工厂的声明是否可信。
解:
设 为产品合格率。 vs (双边检验)。
。
检查条件:,。条件满足。
计算检验统计量:
,。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据否定该工厂”合格率为 95%“的声明。
p 值:。
例题 2 — 选举支持率检验
某候选人声称其支持率不低于 40%。某民意调查机构随机调查了 500 名选民,其中 195 人表示支持该候选人。在 下检验该候选人的声明。
解:
设 为支持率。 vs (左边检验)。
。
检查条件:,。条件满足。
计算检验统计量:
,。拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据否定该候选人”支持率不低于 40%“的声明。
三、两个比例的比较检验
在许多实际问题中,我们需要比较两个总体的比例是否有显著差异。例如,比较两种治疗方法的有效率、比较两个地区的投票倾向等。
两个总体比例差的检验
定义 7.3.3 — 两个总体比例差的检验
设 ,,两样本独立。记 ,。对比例差的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 在 成立时,使用合并比例估计公共比例:
检验统计量为:
当 、 都充分大时, 近似服从 。
拒绝域(显著性水平 ):
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | ${ |
| 右边检验 | |
| 左边检验 |
定理 7.3.3 — 两比例差检验的渐近正态性
设 ,,两样本独立。则在 成立时,
其中 为合并样本比例。
证明
证明:
第一步:分析 的分布。由于两样本独立,
第二步:在 下简化。当 成立时,
第三步:应用CLT并替换未知参数。由CLT,
由于 未知,用合并比例 估计 。由 Slutsky 定理,
例题
例题 3 — 两种教学方法比较
某学校比较两种教学方法的效果。方法 A 教了 120 名学生,其中 50 名考试及格;方法 B 教了 85 名学生,其中 23 名考试及格。在 下检验两种方法的及格率是否有显著差异。
解:
vs (双边检验)。
,。
合并比例:
检查条件:,,,。条件满足。
计算检验统计量:
,。
,落入拒绝域,故拒绝 。
结论:在 水平下,两种教学方法的及格率有显著差异,方法 A 的及格率显著高于方法 B。
四、泊松分布参数的检验
泊松分布在计数数据中应用广泛,如单位时间内的电话呼叫次数、单位面积内的缺陷数等。对泊松分布参数 的检验有两种方法:大样本正态近似和精确的 检验。
泊松分布参数 的检验
定义 7.3.4 — 泊松分布参数 的检验
设 ,其中 为未知参数。对 的检验问题:
检验类型 原假设 备择假设 双边检验 右边检验 左边检验 方法一:大样本正态近似。当 充分大(一般要求 )时,检验统计量为:
在 成立时, 近似服从 。
方法二: 检验。利用泊松分布的可加性,,在 成立时,构造统计量:
更准确地说,当 较大时, 近似服从 (由泊松分布与 分布的关系)。
定理 7.3.4 — 泊松分布参数检验的渐近正态性
设 。则在 成立时,
且当 时近似效果已经较好。
证明
证明:
第一步:分析泊松分布的矩。若 ,则 ,。因此 ,。
第二步:应用中心极限定理。由Lindeberg-Levy CLT,
第三步:在 下代入 。在 成立时,
注意泊松分布的方差等于均值 ,因此分母中不需要额外的方差估计,直接使用 即可。
例题
例题 4 — 泊松分布参数检验
某十字路口平均每小时发生交通事故 2.5 起。交通管理部门实施新的交通管制措施后,随机观察了 20 个小时,共发生交通事故 38 起。在 下检验新措施是否降低了事故率。
解:
vs (左边检验)。
。
检查条件:。条件满足。
计算检验统计量:
,。拒绝域为 。
,落入拒绝域,故拒绝 。
结论:在 水平下,有充分证据表明新交通管制措施降低了事故率。
五、其他分布参数的检验
指数分布参数的检验
设 ,其中 为均值参数。对 的检验可以利用指数分布与 分布的关系。
关键性质:若 ,则 。因此,
在 成立时,。
拒绝域:
| 检验类型 | 拒绝域 |
|---|---|
| 双边检验 | |
| 右边检验 | |
| 左边检验 |
例题 5 — 指数分布参数检验
某电子元件的寿命服从指数分布,厂商声称平均寿命不低于 6000 小时。现抽取 10 个元件进行寿命试验,测得平均寿命 小时。在 下检验厂商的声明。
解:
vs (左边检验)。
计算检验统计量:
,。拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据否定厂商”平均寿命不低于 6000 小时”的声明。
两个指数分布参数的比较
设 ,,两样本独立。检验 。
利用指数分布的性质,(在 成立时),因此可以使用 检验。
二项分布参数的精确检验(小样本)
当样本量不满足大样本条件时(如 或 ),正态近似不可靠,此时应使用二项分布的精确检验。
对于 vs ,拒绝域的形式为 ,其中临界值 由
确定。由于二项分布是离散分布,通常无法精确达到显著性水平 ,因此取满足上式的最小 。
例题 6 — 二项分布精确检验
某硬币声称是均匀的。抛掷 15 次,出现 11 次正面。在 下检验该硬币是否均匀。
解:
vs (右边检验)。
,,虽然满足 ,但为了演示精确检验方法,我们使用精确检验。
在 下,。
p 值 ,故不拒绝 。
结论:在 水平下,没有充分证据表明该硬币不均匀。
六、检验方法选择总结
决策树
graph TB A[非正态总体参数检验] --> B{总体类型?} B --> C[二项分布/比例] B --> D[泊松分布] B --> E[指数分布] B --> F[其他分布] C --> G{样本量条件?} G --> H[大样本: np₀≥5且n1-p₀≥5] G --> I[小样本: 精确检验] H --> J[u检验: 正态近似] I --> K[二项分布精确检验] D --> L{nλ₀≥5?} L --> M[是: u检验] L --> N[否: χ²检验或精确检验] E --> O[χ²检验: 2nX̄/θ₀] F --> P{大样本?} P --> Q[是: 大样本u检验] P --> R[否: 非参数方法]
检验方法对照表
| 检验场景 | 检验统计量 | 分布 | 适用条件 |
|---|---|---|---|
| 单总体比例 | 近似 | , | |
| 两总体比例差 | 近似 | 都充分大 | |
| 泊松参数 | 近似 | ||
| 指数参数 | 任意样本量 | ||
| 大样本一般 | 近似 | 充分大 |
正态 vs 非正态检验对照
| 对比维度 | 正态总体检验 | 非正态大样本检验 |
|---|---|---|
| 理论基础 | 精确抽样分布 | CLT 渐近正态性 |
| 样本量要求 | 任意 | 充分大 |
| 检验精度 | 精确 | 近似 |
| 分布假设 | 正态分布 | 有限方差 |
| 统计量类型 | /// | 主要为 |
七、知识结构总览
graph TB A[其他分布参数检验] --> B[大样本检验理论] A --> C[比例检验] A --> D[泊松参数检验] A --> E[指数参数检验] A --> F[小样本精确检验] B --> B1[CLT渐近正态性] B --> B2[Slutsky定理] C --> C1[单总体比例检验] C --> C2[两总体比例差检验] C1 --> C1a[正态近似u检验] C1 --> C1b[二项精确检验] D --> D1[正态近似u检验] D --> D2[χ²检验] E --> E1[χ²检验] E --> E2[F检验: 两总体比较] F --> F1[离散分布精确检验]
八、核心思想与解题技巧
大样本检验的解题步骤
大样本检验四步法
- 建立假设:写出 和 ,明确检验类型(双边/单边)。
- 验证条件:检查大样本条件是否满足(比例检验: 且 ;泊松检验:)。
- 计算统计量:代入公式计算检验统计量的观测值。
- 判断决策:与临界值比较,做出统计判断,给出实际意义解释。
常见题型总结
- 比例检验题:给定样本中成功次数和样本量,检验总体比例是否等于/大于/小于某个值。注意区分分母使用 ( 下的值)还是 (样本估计值)。
- 两比例比较题:给定两组独立样本的成功次数,检验两个总体比例是否相等。关键在于使用合并比例而非各自的比例。
- 泊松参数检验题:给定计数数据和观察时间/面积,检验事件发生率是否等于某个值。
- 指数分布检验题:给定寿命数据,利用 分布进行检验。
- 方法选择题:根据总体类型和样本量条件,判断应使用哪种检验方法。
大样本检验与置信区间的关系
与§7.2中的对偶关系类似,大样本检验与置信区间也存在对偶关系:
- 的双边检验不拒绝 落在 的 置信区间内。
- 单边检验的拒绝域对应单侧置信界。
例如, 的 大样本置信区间为
如果 不在该区间内,则在水平 下拒绝 。
九、补充理解与易混淆点
误区一:“大样本检验不需要任何分布假设”
正确理解:大样本检验虽然不要求总体服从正态分布,但仍然需要一定的分布条件。最基本的要求是总体方差 (有限方差条件),这排除了 Cauchy 分布等方差无限的分布。此外,还需要样本独立同分布、以及检验统计量中涉及的参数有相合估计。大样本检验放宽了分布类型假设,但并未完全消除分布假设。如果总体的偏度非常大或存在严重的离群值,即使样本量较大,正态近似的精度也可能不够理想。
来源:茆诗松《概率论与数理统计》§7.3 | §4.4(CLT的条件)| Casella & Berger Statistical Inference Ch.10 | CSDN: 非正态总体的参数假设检验 | Khan Academy: Conditions for Inference
误区二:“比例检验的样本量没有下限”
正确理解:比例检验使用正态近似,其精度依赖于 和 都足够大。经典要求是 且 ,更严格的要求是 且 。当 接近 0 或 1 时,即使 很大,也可能不满足条件。例如 时,需要 才能使 。不满足条件时应使用二项分布的精确检验,而非强行使用正态近似。
来源:茆诗松《概率论与数理统计》§7.3 | Fiveable: Large Counts Condition | CSDN: 二项分布检验原理 | Wackerly Mathematical Statistics Ch.10 | Agresti & Coull (1998) The American Statistician
误区三:“两个比例检验可以直接用各自的标准误”
正确理解:在检验 时,分母中的标准误必须使用合并比例 来计算,即
而非使用各自的比例计算 。原因在于:在 成立时,,合并比例是公共比例 的最优估计,使用它可以获得更好的近似效果。后者适用于构造 的置信区间(此时不假设 ),但不适用于假设检验。检验和估计的标准误计算方式不同,这是初学者容易混淆的地方。
来源:茆诗松《概率论与数理统计》§7.3 | Book118: 大样本检验试题及答案 | Casella & Berger Statistical Inference Ch.10 | Rice Mathematical Statistics and Data Analysis Ch.9 | CSDN: 假设检验知识点总结
误区四:“泊松分布参数检验只能用正态近似”
正确理解:泊松分布参数 的检验有多种方法。大样本正态近似 只在 充分大时才可靠。当 较小时,可以利用泊松分布与 分布的关系:若 ,则 ,这提供了精确的 p 值计算方法。此外,还可以直接使用泊松分布表进行精确检验。方法的选择取决于样本量和期望计数的大小。
来源:茆诗松《概率论与数理统计》§7.3 | §2.4(泊松分布的性质)| Casella & Berger Statistical Inference Ch.8 | Book118: 考研真题概率论数理统计 | Lehmann & Romano Testing Statistical Hypotheses Ch.3
误区五:“p 值在大样本检验中总是准确的”
正确理解:大样本检验中的 p 值是基于渐近分布计算的,其准确性依赖于渐近近似的精度。当样本量不够大或总体分布严重偏离正态时,渐近 p 值可能与真实的 p 值有较大偏差。此外,大样本下容易出现”统计显著但实际不显著”的问题——当 非常大时,即使 与 的差异微乎其微,检验也可能拒绝 。因此,在大样本检验中,除了关注 p 值,还应关注效应量(effect size),即参数差异的实际大小。p 值只度量统计显著性,不度量实际重要性。
来源:茆诗松《概率论与数理统计》§7.3 | Wasserstein & Lazar (2016) ASA Statement on p-Values | Sullivan & Feinn (2012) PT: Effect Size | Nature: p-value FAQ | Cohen (1994) Psychological Bulletin: The Earth Is Round (p < .05)
十、习题精选
习题概览
教材习题(6题):第1-6题覆盖比例检验、两比例比较、泊松参数检验、指数分布检验和二项精确检验。 考研真题(4题):第7-10题为卡方考研真题,涉及非正态总体参数检验的综合应用。
教材习题
习题 1 — 单总体比例检验
某药品声称对某种疾病的有效率为 80%。临床试验中,200 名患者服用该药后有 148 名有效。在 下检验该药品的有效率是否低于声称值。
解:
vs (左边检验)。
。
检查条件:,。条件满足。
,。,落入拒绝域,故拒绝 。
结论:在 水平下,有充分证据表明该药品的有效率低于 80%。
p 值:。
习题 2 — 两总体比例差检验
某研究者比较城市和农村居民对某政策的支持率。调查了城市居民 300 人,支持率为 65%;调查了农村居民 250 人,支持率为 55%。在 下检验城市和农村的支持率是否有显著差异。
解:
vs (双边检验)。
,。
合并比例:
,。,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明城市和农村居民的支持率有显著差异。
注意:若取 ,,,则拒绝 。这说明结论依赖于显著性水平的选择。
习题 3 — 泊松分布参数检验
某工厂声称其产品每平方米的缺陷数不超过 3 个。质检部门随机抽查了 30 平方米的产品表面,共发现缺陷 105 个。在 下检验该工厂的声明。
解:
vs (右边检验)。
。
检查条件:。条件满足。
,。,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据否定该工厂”每平方米缺陷数不超过 3 个”的声明。
习题 4 — 指数分布参数检验
某型号灯泡的寿命服从指数分布,标准规定平均寿命不低于 5000 小时。现抽取 8 个灯泡进行试验,测得平均寿命 小时。在 下检验该型号灯泡是否符合标准。
解:
vs (左边检验)。
,。拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明该型号灯泡不符合标准。
习题 5 — 大样本一般检验
某地区居民月收入的总体分布未知,但已知方差有限。随机抽取 100 名居民,测得月平均收入为 5500 元,样本标准差为 1200 元。在 下检验该地区居民月平均收入是否高于 5000 元。
解:
vs (右边检验)。
总体分布未知,使用大样本检验。。
,。,落入拒绝域,故拒绝 。
结论:在 水平下,有充分证据表明该地区居民月平均收入高于 5000 元。
习题 6 — 两总体比例差的单边检验
某公司比较两种广告方案的效果。方案 A 展示给 400 名用户,120 人点击;方案 B 展示给 350 名用户,84 人点击。在 下检验方案 A 的点击率是否显著高于方案 B。
解:
vs (右边检验)。
,。
合并比例:
,。,落入拒绝域,故拒绝 。
结论:在 水平下,方案 A 的点击率显著高于方案 B。
考研真题
习题 7 — 考研真题(卡方学院)
某地区环保部门监测发现,某河流断面水质达标率的标准为不低于 90%。现从近期监测数据中随机抽取 80 个样本,其中有 11 个不达标。在 下检验该河流断面水质达标率是否符合标准。
解:
设 为不达标率。 vs (右边检验)。
。
检查条件:,。条件满足。
,。,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明水质不达标率超过 10%,即达标率符合标准。
习题 8 — 考研真题(卡方学院)
某医院研究两种手术方案的成功率。方案 A 对 120 名患者实施,成功 50 例;方案 B 对 85 名患者实施,成功 23 例。在 下检验两种手术方案的成功率是否有显著差异。
解:
vs (双边检验)。
,。
合并比例:
,。,落入拒绝域,故拒绝 。
结论:在 水平下,两种手术方案的成功率有显著差异。
习题 9 — 考研真题(卡方学院)
设 ,其中 未知。给出检验 vs 的大样本检验统计量,并说明其渐近分布。若 ,,,在 下给出检验结论。
解:
检验统计量为:
在 成立时, 近似服从 。
检查条件:。条件满足。
计算观测值:
,。,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明 。
习题 10 — 考研真题(卡方学院)
设 ,,两样本独立。给出检验 vs 的检验统计量及其分布。若 ,,,,在 下给出检验结论。
解:
由于 ,,且两统计量独立,在 成立时,
计算观测值:
,,。 , 。
拒绝域为 。
,未落入拒绝域,故不拒绝 。
结论:在 水平下,没有充分证据表明两个指数总体的均值参数不等。
十一、教材原文
教材参考
本节内容对应茆诗松《概率论与数理统计》(第三版)第七章第三节”其他分布参数的假设检验”。
PDF 原文:
00-Raw素材/概率论与统计/7.3_教材扫描_正文.pdf卡方核心笔记:
00-Raw素材/概率论与统计/7.3_卡方核心笔记_其他分布参数的假设检验.pdf教材习题解答:
00-Raw素材/概率论与统计/7.3_教材习题解答.pdf
第七章 假设检验/其他分布检验