7.4 似然比检验与分布拟合检验

相关笔记7.1 假设检验的基本思想与概念 | 7.2 正态总体参数的假设检验 | 7.3 其他分布参数的假设检验 | 6.3 最大似然估计与EM算法 | 5.4 三大抽样分布 | 4.4 中心极限定理

本节概览

本节介绍两种重要的检验方法:似然比检验卡方检验。似然比检验是一种具有优良统计性质的通用检验方法,其核心思想是比较原假设和备择假设下的似然函数之比。卡方拟合优度检验用于检验总体分布是否服从某个指定分布,独立性检验(列联表卡方检验)用于检验两个分类变量是否独立。

逻辑链条似然比思想最优检验广义似然比拟合优度独立性检验汇总

前置依赖§7.1(假设检验基本概念)、§6.3(MLE、似然函数)、§5.4(卡方分布)、§7.3(大样本检验)

核心主线:似然比检验的核心是”比较两个假设下数据的似然程度”。Neyman-Pearson引理证明了简单假设下似然比检验是最优检验(MP检验)。广义似然比检验将此思想推广到复合假设。卡方检验是广义似然比检验在大样本下的渐近等价形式,广泛应用于分布拟合和独立性检验。


一、似然比检验的基本思想

§7.1中,我们介绍了假设检验的基本框架:给定原假设 和备择假设 ,构造检验统计量,确定拒绝域,使得犯第一类错误的概率不超过显著性水平 。然而,§7.1和§7.2中的检验方法都是针对特定分布和特定参数设计的,缺乏统一的构造思路。似然比检验提供了一种通用的检验构造方法,其核心思想非常直观:比较数据在原假设下和在全参数空间下的似然程度

似然比统计量

定义 7.4.1 — 似然比统计量

设样本 的联合密度(或概率函数)为 ,参数 。考虑假设检验问题

其中 。定义似然比统计量

其中 似然函数

似然比统计量的基本性质

  1. 取值范围:由于 ,分子是分母的某个子集上的上确界,因此
  1. 直观含义

    • 接近 :数据在 下的最大似然与在全参数空间下的最大似然几乎相同,说明 对数据的解释能力与无限制模型相当,不拒绝
    • 接近 :数据在 下的最大似然远小于在全参数空间下的最大似然,说明 对数据的解释能力很差,拒绝
  2. 拒绝域:似然比检验的拒绝域形如

其中临界值 由显著性水平 确定:

直观理解

可以用一个生活类比来理解似然比检验的思想:

类比:假设你是一名侦探,要判断嫌疑人是否有罪(:无罪 vs :有罪)。你收集了证据(数据),现在要评估这些证据在”无罪”假设下的合理性。如果证据在”有罪”假设下很容易解释,但在”无罪”假设下几乎不可能出现( 很小),你就倾向于拒绝”无罪”假设。

关键公式:等价地,可以使用对数似然比

由于对数函数是单调递增的, 等价于 。实际计算中,对数似然比更为方便。

例题 7.4.1

,其中 已知。考虑检验问题

求似然比统计量。

:似然函数为

下,,似然函数值为

在全参数空间 上,MLE为 ,最大似然值为

因此似然比为

取对数得

因此 等价于 ,这正是§7.2中的 检验的拒绝域。这说明 检验本质上是似然比检验。


二、Neyman-Pearson引理

Neyman-Pearson引理(N-P引理)是假设检验理论中最基本、最重要的定理之一。它证明了在简单假设检验问题中,似然比检验是最优势检验(Most Powerful test,简称MP检验)。

最优势检验

定义 7.4.2 — 最优势检验(MP检验)

考虑简单假设检验问题

是一个检验函数(即拒绝 的概率),满足水平条件

如果对任何其他满足水平条件的检验函数 ,都有

则称 为水平 最优势检验(MP检验)。

检验函数的含义:检验函数 表示在观测值为 时拒绝 的概率。对于非随机化检验,;对于随机化检验,

Neyman-Pearson引理

定理 7.4.1 — Neyman-Pearson引理

的联合密度为 ,考虑简单假设检验问题

设似然比为

则对给定的显著性水平

(1)存在性:存在常数 ,使得检验函数

是水平 的MP检验。

(2)充分性:任何满足上述形式的检验函数都是水平 的MP检验。

(3)必要性:如果 是水平 的MP检验,则 几乎处处具有上述形式(除去一个零测集外)。

证明

证明

第一步:构造检验函数并验证水平条件。定义

这里等价地使用了 的形式。选择 使得

这样的 总是存在的(通过调节 ,再在边界上用 微调)。

第二步:证明 是MP检验。设 是任意一个水平 的检验函数,即 。我们需要证明

考虑积分差

将样本空间分为三个区域:

  • :此时 ,且 ,因此
  • :此时 ,且 ,因此
  • :此时 ,因此

因此,对所有 ,都有

积分得

展开即

由于 ,右端 。又因为 ,所以

第三步:必要性的证明。如果 是水平 的MP检验,且 也是水平 的MP检验,则必有 。由第二步的不等式取等号的条件, 必须几乎处处与 具有相同的形式。

似然比检验的等价形式

在实际应用中,似然比检验可以有多种等价形式,选择最便于计算的形式即可:

等价形式拒绝域说明
似然比原始形式
对数似然比取对数,计算更方便
似然比倒数有时更自然
检验统计量的单调函数最常用的形式

例题 7.4.2

,考虑检验

求水平 的MP检验。

:似然比为

化简:

因此

等价于 ,即

下,,因此拒绝域为

这正是直觉上合理的:当样本均值显著大于 时,拒绝 而接受


三、广义似然比检验

N-P引理只适用于简单假设( 都是单点集),但实际问题中更常见的是复合假设(参数空间是一个集合)。广义似然比检验(Generalized Likelihood Ratio Test,GLRT)将似然比检验的思想推广到复合假设。

广义似然比统计量

定义 7.4.3 — 广义似然比统计量

的联合密度为 。考虑复合假设检验问题

定义广义似然比统计量

其中 下的最大似然估计(约束MLE), 为无约束MLE。

广义似然比检验的拒绝域为

与简单似然比的区别

  • 简单似然比:,分子分母都是单点值。
  • 广义似然比: 都是集合,分子分母都是上确界(通常用MLE代替)。

Wilks定理(渐近分布)

定理 7.4.2 — Wilks定理(广义似然比检验的渐近分布)

在一定的正则条件下,当 成立且样本量 时,

其中 为参数空间维数之差(即自由度)。

因此,对于大样本,水平 的近似拒绝域为

证明

证明:(以下给出证明的要点和关键步骤)

第一步:对数似然函数的Taylor展开。设 为真参数值, 为全空间MLE, 为约束MLE。在 处对对数似然函数 进行二阶Taylor展开:

其中 为Fisher信息矩阵。

第二步:MLE的渐近正态性。由MLE理论,

第三步:似然比统计量的渐近展开。类似地,

因此,

第四步:利用二次型的渐近分布。在 下, 都收敛到 。可以证明

其中 。这是因为约束 相当于施加了 个独立约束,每个约束贡献一个自由度。

广义似然比检验与前面各节检验的关系

广义似然比检验是一个统一的框架,前面各节中的检验方法大多可以看作广义似然比检验的特例:

检验方法检验问题广义似然比检验等价形式
检验已知)
检验未知)(渐近等价)
检验未知)
检验 统计量

例题 7.4.3

均未知。考虑检验

求广义似然比检验。

:参数空间

全空间MLE:

约束MLE( 下):

似然比为

注意到

因此

其中 统计量。 的单调递减函数,因此拒绝域 等价于 ,这正是[[7.2 正态总体参数的假设检验| 检验]]。


四、卡方拟合优度检验

在实际问题中,我们经常需要检验总体分布是否服从某个特定的分布。例如:骰子是否均匀?数据是否服从正态分布?这种问题属于分布拟合检验卡方拟合优度检验是最常用的方法。

卡方拟合优度检验

定义 7.4.4 — 卡方拟合优度检验

为来自总体 的样本, 为某个已知的分布函数。检验问题为

检验步骤

(1)分组:将实数轴分为 个互不相交的区间 ,使得

(2)统计实际频数:记 为样本落入区间 的实际频数(观测频数),

(3)计算理论频数:在 下,样本落入 的概率为

理论频数(期望频数)为

(4)计算检验统计量

(5)确定拒绝域:当 成立时, 近似服从 分布,其中 为用样本估计的 中未知参数的个数。拒绝域为

Pearson定理

定理 7.4.3 — Pearson定理

成立,其中 完全已知(不含未知参数,即 )。当 时,

如果 中含有 个未知参数,需要先用样本估计这些参数(通常用MLE),此时自由度为

证明

证明:(以下给出 情况下的证明要点)

第一步:建立多项分布模型。在 下,每个样本点落入区间 的概率为 。记 为落入 的样本点数,则

第二步:标准化。由中心极限定理的多维版本,当 时,

其中

第三步:二次型的分布 的秩为 (因为 ),因此

可以表示为正态随机向量的二次型。由二次型的分布理论,当 时,

第四步:含未知参数的情况。当 中含有 个未知参数时,用MLE 替换后,每个估计量消耗一个自由度,因此自由度从 减少到 。这一结论由 Fisher (1924) 严格证明。

分组方法与注意事项

卡方拟合优度检验的检验功效与分组方式密切相关:

注意事项说明
每组期望频数 这是保证 近似精度的基本要求
通常取 分组太少会损失信息,太多会导致期望频数过小
各组概率 不宜过小建议
期望频数不足时合并相邻组将期望频数 的组与相邻组合并
分组方式应事先确定不应先看数据再决定分组(否则影响检验的有效性)

例题 7.4.4

某工厂声称其产品的不合格率服从 的二项分布。随机抽取 200 件产品进行检验,按每件产品的不合格特征分为4类,各类的观测频数如下:

类别
观测频数 12055187
理论概率 0.65610.29160.04860.0037

下检验 : 产品分类服从 的二项分布。

(1)计算理论频数

类别
131.2258.329.720.74

注意 ,需要将 合并。

(2)合并后的计算

类别
1205525
131.2258.3210.46

(3)计算 统计量

(4)查表判断:自由度

因为 ,所以拒绝 ,即产品分类不服从 的二项分布。

例题 7.4.5

在某公路上,50分钟内记录每15秒区间内到达的车辆数,得到如下数据:

到达车辆数 01234
观测频数 414231685

下检验到达车辆数是否服从泊松分布。

(1)估计参数。泊松分布 未知,先估计:

(2)计算理论概率和期望频数

01234
0.10030.23060.26520.20330.11690.0837
7.0216.1418.5614.238.185.86

所有 ,无需合并。

(3)计算 统计量

(4)查表判断:自由度

因为 ,所以不拒绝 ,即数据与泊松分布无显著差异。


五、独立性检验

独立性检验是卡方检验的另一个重要应用,用于检验两个分类变量之间是否相互独立。数据通常以列联表(Contingency Table)的形式呈现。

列联表与独立性检验

定义 7.4.5 — 列联表与独立性检验

设有两个分类变量 个水平, 个水平。从总体中随机抽取 个个体,按 的取值分类,得到 列联表

行合计
列合计

其中 的观测频数,

检验问题为

检验统计量

其中期望频数

成立且 充分大时,

期望频数的推导:在 独立)下,

因此期望频数

独立性检验的渐近分布

定理 7.4.4 — 独立性检验的渐近分布

独立)成立且 时,

自由度为 的直观理解: 列联表有 个格子,但受到行合计和列合计的约束( 给出 个约束, 给出 个约束,但 使得总约束数为 ),因此自由度为

例题 7.4.6( 列联表)

调查200名患者,研究某种新药是否有效,得到如下 列联表:

有效无效合计
用药组6040100
对照组3565100
合计95105200

下检验药物是否有效。

: 药物与疗效独立 vs : 药物与疗效不独立。

(1)计算期望频数

(2)计算 统计量

(3)查表判断:自由度

因为 ,所以拒绝 ,即药物与疗效有关(药物有效)。

:对于 列联表,也可以使用 Yates 连续性修正:

例题 7.4.7( 列联表)

调查不同年龄段人群对某项政策的满意度,得到如下 列联表:

满意一般不满意合计
青年304030100
中年453520100
老年552520100
合计13010070300

下检验满意度与年龄是否独立。

: 满意度与年龄独立 vs : 满意度与年龄不独立。

(1)计算期望频数

(2)计算 统计量

(3)查表判断:自由度

因为 ,所以拒绝 ,即满意度与年龄有关。


六、卡方检验汇总

三种卡方检验的对比

检验类型检验问题检验统计量自由度应用场景
拟合优度检验: 总体分布为 检验数据是否服从某分布
独立性检验: 两变量独立检验两分类变量的独立性
齐性检验: 多个总体分布相同检验多个总体比例是否一致

:独立性检验和齐性检验的统计量和自由度完全相同,但抽样方式不同:

  • 独立性检验:从单一总体中抽取 个个体,然后按两个变量交叉分类。
  • 齐性检验:从 个总体中分别抽取样本,比较各总体中各水平的比例。

卡方检验的适用条件

  1. 样本量充分大:保证 近似分布的精度。
  2. 期望频数要求:所有 ,且至少 (Cochran准则)。
  3. 独立性:各观测值相互独立。
  4. 互斥完备:每个观测值恰好落入一个类别。
  5. 固定样本量(对于独立性检验):总样本量 在抽样前确定。

卡方检验与似然比检验的关系

卡方检验与似然比检验之间存在深刻的联系:

  1. 渐近等价性:对于多项分布数据,Pearson 统计量和似然比 统计量()在 下具有相同的渐近 分布,且渐近等价。

  2. 数值关系(对于同样的数据),当 成立时两者差距很小。

  3. 统一框架:卡方检验可以看作广义似然比检验在离散数据(多项分布)下的具体实现。Pearson 统计量是似然比 统计量的二阶Taylor展开近似。


七、知识结构总览

graph TB
    A[似然比检验与分布拟合检验] --> B[似然比检验]
    A --> C[卡方检验]
    B --> D[基本思想]
    B --> E[Neyman-Pearson引理]
    B --> F[广义似然比检验]
    D --> D1[似然比统计量]
    D --> D2[拒绝域确定]
    E --> E1[简单假设MP检验]
    E --> E2[最优性证明]
    F --> F1[复合假设推广]
    F --> F2[Wilks定理]
    C --> G[拟合优度检验]
    C --> H[独立性检验]
    G --> G1[Pearson定理]
    G --> G2[分组与注意事项]
    H --> H1[列联表分析]
    H --> H2[期望频数计算]
    F2 --> I[渐近卡方分布]
    I --> G
    I --> H

八、核心思想与解题技巧

似然比检验解题步骤

似然比检验的标准解题流程

  1. 写出似然函数
  2. 求全空间MLE
  3. 求约束MLE
  4. 计算似然比
  5. 化简:利用单调变换将 转化为更简单的检验统计量。
  6. 确定拒绝域:利用Wilks定理()或精确分布。
  7. 计算统计量值并判断

卡方检验解题步骤

卡方检验的标准解题流程

拟合优度检验

  1. 建立假设 : 总体分布为
  2. 如有未知参数,用MLE估计。
  3. 分组并统计观测频数
  4. 计算理论概率 和期望频数
  5. 检查期望频数,必要时合并。
  6. 计算
  7. 表并判断。

独立性检验

  1. 建立假设 : 两变量独立。
  2. 列出列联表,计算行合计和列合计。
  3. 计算期望频数
  4. 检查期望频数,必要时合并。
  5. 计算
  6. 表并判断。

常见题型总结

题型关键步骤易错点
求似然比统计量分别求约束和无约束MLE忘记约束条件
证明某检验是似然比检验化简 ,利用单调性忽略等价形式
卡方拟合优度检验正确计算 忘记合并期望频数 的组
独立性检验正确计算 混淆观测频数和期望频数
自由度计算忘记减去估计参数个数

九、补充理解与易混淆点

误区一:“似然比检验总是最优的”

正确理解:N-P引理仅保证在简单假设 vs )下,似然比检验是MP检验。对于复合假设,广义似然比检验不一定最优,只是在大样本下具有优良性质(渐近最优)。在有限样本下,可能存在比GLRT更好的检验。

来源:茆诗松《概率论与数理统计》第七章、Lehmann & Romano “Testing Statistical Hypotheses” Ch. 3、Casella & Berger “Statistical Inference” §8.3、RPI论文:GLRT并非总是最优Bookey书评摘要

误区二:“卡方检验的分组越多越好”

正确理解:分组数 影响检验的自由度和功效。分组太少会损失信息(自由度低),分组太多会导致期望频数过小,使 近似失效。通常取 使得每组期望频数 ,同时 不宜超过 15-20。

来源:茆诗松《概率论与数理统计》第七章、Pearson (1900) 原论文、Minitab官方文档NIST Dataplot文档LibreTexts统计教材

误区三:“列联表卡方检验要求样本量很大”

正确理解:卡方检验的要求不是”样本量大”,而是==每格期望频数 ==(更宽松的要求是:所有 ,且至少 )。对于 列联表,当期望频数不满足要求时,应使用Fisher精确检验。

来源:茆诗松《概率论与数理统计》第七章、Cochran (1952) 经典文献、The Analysis Factor博客UT Austin统计服务StatCalculators

误区四:“拟合优度检验的p值很小就说明分布完全不对”

正确理解 值小只说明在 成立的条件下,观测到当前或更极端数据的概率很低,即数据与假设分布不一致。这不意味着假设分布”完全不对”——可能只是样本量很大使得微小差异也被检测出来,也可能是因为分组方式不当。应结合效应量(如残差分析)综合判断。

来源:茆诗松《概率论与数理统计》第七章、§7.1(p值含义)、Cohen (1994) “The Earth Is Round (p < .05)“、Minitab官方文档NIST Dataplot文档

误区五:“似然比检验和卡方检验是两种不同的方法”

正确理解:卡方检验本质上是似然比检验在大样本下的渐近等价形式。对于多项分布数据,Pearson 统计量 是似然比 统计量 的二阶Taylor展开近似。两者在 下渐近等价,具有相同的极限分布。

来源:茆诗松《概率论与数理统计》第七章、UCSD CSE 291讲义UChicago STAT 244讲义、Casella & Berger “Statistical Inference” §10.5、Agresti “Categorical Data Analysis” Ch. 3


十、习题精选

习题概览

教材习题(6题):习题1-6(似然比检验、卡方拟合优度检验、独立性检验) 考研真题(4题):真题7-10(卡方检验综合应用)

编号题目类型难度来源
1似然比统计量计算教材
2N-P引理应用教材
3广义似然比检验教材
4卡方拟合优度检验教材
5独立性检验教材
6卡方检验综合教材
7卡方拟合优度考研真题
8列联表独立性考研真题
9泊松分布拟合考研真题
10正态分布拟合考研真题

教材习题

习题1:设 ,考虑检验 vs )。求似然比检验的拒绝域。

:指数分布的密度为 )。

似然函数为

似然比为

由于 ,因此 的单调递增函数。

等价于

下,(因为 等价于 )。

拒绝域为


习题2:设 ,考虑检验 vs )。求水平 的MP检验。

:均匀分布 的密度为 )。

似然函数为

其中

似然比为

时, 等价于 (当 时)。

下, 的分布函数为 )。

因此 ,直接取 ,拒绝域为

此时犯第一类错误的概率为 。如果需要精确达到水平 ,可以使用随机化检验。


习题3:设 均未知。考虑检验 vs 。求广义似然比检验。

:全空间MLE:

约束MLE( 下):

似然比为

,则

的函数,先减后增,在 处取最大值 等价于

下,

因此拒绝域为

这与§7.2中的 检验一致。


习题4:掷一枚骰子120次,各面出现的次数如下:

点数123456
频数251715232416

下检验骰子是否均匀。

: 骰子均匀(各面概率均为 )。

理论频数

自由度

因为 ,所以不拒绝 ,即骰子是均匀的。


习题5:调查300名大学生,研究性别与是否喜欢运动的关系:

喜欢不喜欢合计
9060150
7080150
合计160140300

下检验性别与运动偏好是否独立。

: 性别与运动偏好独立。

自由度

因为 ,所以不拒绝 ,即性别与运动偏好无显著关联。


习题6:从某工厂生产的产品中随机抽取100件,测量其直径(单位:mm),得到如下频数分布:

区间(9.5, 9.7)(9.7, 9.9)(9.9, 10.1)(10.1, 10.3)(10.3, 10.5)
频数515353015

样本均值 ,样本标准差 。在 下检验直径是否服从正态分布。

: 直径 ,其中 未知。

用样本估计:

计算各区间的理论概率(标准化后查正态分布表):

区间 区间
0.02282.28
0.153615.36
0.410741.07
0.323032.30
0.09189.18

第一组 ,将第一、二组合并:

合并区间
2017.64
3541.07
3032.30
159.18

自由度

因为 ,所以拒绝 ,即直径不服从正态分布。


考研真题

真题7(卡方拟合优度检验):某电话交换台在100分钟内记录每分钟接到的呼叫次数,得到如下数据:

每分钟呼叫次数012345
频数82230201253

下检验每分钟呼叫次数是否服从泊松分布。

: 每分钟呼叫次数

估计参数:

计算理论概率和期望频数:

00.113011.30
10.246424.64
20.268626.86
30.195119.51
40.106310.63
50.04634.63
0.02432.43

合并:

自由度

因为 ,所以不拒绝 ,即每分钟呼叫次数服从泊松分布。


真题8(列联表独立性检验):研究血型与疾病类型的关系,得到如下 列联表:

A型B型O型合计
甲病302050100
乙病403030100
丙病305020100
合计100100100300

下检验血型与疾病类型是否独立。

: 血型与疾病类型独立。

由于各行合计和各列合计均为100,期望频数 (对所有 )。

自由度

因为 ,所以拒绝 ,即血型与疾病类型有关。


真题9(泊松分布拟合检验):某十字路口在50个时间段(每个时间段10分钟)内记录交通事故数,得到如下数据:

事故数01234
频数181510520

下检验事故数是否服从泊松分布。

: 事故数

计算理论概率:

021.15
118.20
27.82
32.25
0.58

合并:。但 ,需要进一步将 合并:

自由度

因为 ,所以拒绝 ,即事故数不服从泊松分布。


真题10(正态分布拟合检验):从某年级学生中随机抽取200人,测量身高(单位:cm),得到如下频数分布:

区间
频数1535705525

已知样本均值 ,样本标准差 。在 下检验身高是否服从正态分布。

: 身高

用样本估计:

标准化 ,计算各区间的理论概率:

区间 区间
0.051010.20
0.197639.52
0.364972.98
0.293158.62
0.105621.12

所有 ,无需合并。

自由度

因为 ,所以不拒绝 ,即身高服从正态分布。


十一、教材原文

教材原文

本节对应教材:茆诗松《概率论与数理统计》(第三版)第七章第四节”似然比检验与分布拟合检验”。

PDF原文请参考:概率论与统计/7.4_教材扫描_正文.pdf概率论与统计/7.4_卡方核心笔记_似然比检验.pdf

第七章 假设检验/似然比检验