7.4 似然比检验与分布拟合检验
相关笔记:7.1 假设检验的基本思想与概念 | 7.2 正态总体参数的假设检验 | 7.3 其他分布参数的假设检验 | 6.3 最大似然估计与EM算法 | 5.4 三大抽样分布 | 4.4 中心极限定理
本节概览
本节介绍两种重要的检验方法:似然比检验和卡方检验。似然比检验是一种具有优良统计性质的通用检验方法,其核心思想是比较原假设和备择假设下的似然函数之比。卡方拟合优度检验用于检验总体分布是否服从某个指定分布,独立性检验(列联表卡方检验)用于检验两个分类变量是否独立。
逻辑链条:似然比思想 → 最优检验 → 广义似然比 → 拟合优度 → 独立性检验 → 汇总
前置依赖:§7.1(假设检验基本概念)、§6.3(MLE、似然函数)、§5.4(卡方分布)、§7.3(大样本检验)
核心主线:似然比检验的核心是”比较两个假设下数据的似然程度”。Neyman-Pearson引理证明了简单假设下似然比检验是最优检验(MP检验)。广义似然比检验将此思想推广到复合假设。卡方检验是广义似然比检验在大样本下的渐近等价形式,广泛应用于分布拟合和独立性检验。
一、似然比检验的基本思想
在§7.1中,我们介绍了假设检验的基本框架:给定原假设 和备择假设 ,构造检验统计量,确定拒绝域,使得犯第一类错误的概率不超过显著性水平 。然而,§7.1和§7.2中的检验方法都是针对特定分布和特定参数设计的,缺乏统一的构造思路。似然比检验提供了一种通用的检验构造方法,其核心思想非常直观:比较数据在原假设下和在全参数空间下的似然程度。
似然比统计量
定义 7.4.1 — 似然比统计量
似然比统计量的基本性质:
- 取值范围:由于 ,分子是分母的某个子集上的上确界,因此
-
直观含义:
- 接近 :数据在 下的最大似然与在全参数空间下的最大似然几乎相同,说明 对数据的解释能力与无限制模型相当,不拒绝 。
- 接近 :数据在 下的最大似然远小于在全参数空间下的最大似然,说明 对数据的解释能力很差,拒绝 。
-
拒绝域:似然比检验的拒绝域形如
其中临界值 由显著性水平 确定:。
直观理解
可以用一个生活类比来理解似然比检验的思想:
类比:假设你是一名侦探,要判断嫌疑人是否有罪(:无罪 vs :有罪)。你收集了证据(数据),现在要评估这些证据在”无罪”假设下的合理性。如果证据在”有罪”假设下很容易解释,但在”无罪”假设下几乎不可能出现( 很小),你就倾向于拒绝”无罪”假设。
关键公式:等价地,可以使用对数似然比
由于对数函数是单调递增的, 等价于 。实际计算中,对数似然比更为方便。
例题 7.4.1
设 ,其中 已知。考虑检验问题
求似然比统计量。
解:似然函数为
在 下,,似然函数值为
在全参数空间 上,MLE为 ,最大似然值为
因此似然比为
取对数得
因此 等价于 ,这正是§7.2中的 检验的拒绝域。这说明 检验本质上是似然比检验。
二、Neyman-Pearson引理
Neyman-Pearson引理(N-P引理)是假设检验理论中最基本、最重要的定理之一。它证明了在简单假设检验问题中,似然比检验是最优势检验(Most Powerful test,简称MP检验)。
最优势检验
定义 7.4.2 — 最优势检验(MP检验)
考虑简单假设检验问题
设 是一个检验函数(即拒绝 的概率),满足水平条件
如果对任何其他满足水平条件的检验函数 ,都有
则称 为水平 的最优势检验(MP检验)。
检验函数的含义:检验函数 表示在观测值为 时拒绝 的概率。对于非随机化检验,;对于随机化检验,。
Neyman-Pearson引理
定理 7.4.1 — Neyman-Pearson引理
设 的联合密度为 ,考虑简单假设检验问题
设似然比为
则对给定的显著性水平 :
(1)存在性:存在常数 和 ,使得检验函数
是水平 的MP检验。
(2)充分性:任何满足上述形式的检验函数都是水平 的MP检验。
(3)必要性:如果 是水平 的MP检验,则 几乎处处具有上述形式(除去一个零测集外)。
证明
证明:
第一步:构造检验函数并验证水平条件。定义
这里等价地使用了 的形式。选择 和 使得
这样的 和 总是存在的(通过调节 ,再在边界上用 微调)。
第二步:证明 是MP检验。设 是任意一个水平 的检验函数,即 。我们需要证明 。
考虑积分差
将样本空间分为三个区域:
- :此时 ,且 ,因此
- :此时 ,且 ,因此
- :此时 ,因此
因此,对所有 ,都有
积分得
展开即
即
由于 且 ,右端 。又因为 ,所以
第三步:必要性的证明。如果 是水平 的MP检验,且 也是水平 的MP检验,则必有 。由第二步的不等式取等号的条件, 必须几乎处处与 具有相同的形式。
似然比检验的等价形式
在实际应用中,似然比检验可以有多种等价形式,选择最便于计算的形式即可:
| 等价形式 | 拒绝域 | 说明 |
|---|---|---|
| 似然比 | 原始形式 | |
| 对数似然比 | 取对数,计算更方便 | |
| 似然比倒数 | 有时更自然 | |
| 检验统计量的单调函数 | 或 | 最常用的形式 |
例题 7.4.2
设 ,考虑检验
求水平 的MP检验。
解:似然比为
化简:
因此
等价于 ,即 。
在 下,,因此拒绝域为
这正是直觉上合理的:当样本均值显著大于 时,拒绝 而接受 。
三、广义似然比检验
N-P引理只适用于简单假设( 和 都是单点集),但实际问题中更常见的是复合假设(参数空间是一个集合)。广义似然比检验(Generalized Likelihood Ratio Test,GLRT)将似然比检验的思想推广到复合假设。
广义似然比统计量
定义 7.4.3 — 广义似然比统计量
与简单似然比的区别:
- 简单似然比:,,分子分母都是单点值。
- 广义似然比: 和 都是集合,分子分母都是上确界(通常用MLE代替)。
Wilks定理(渐近分布)
定理 7.4.2 — Wilks定理(广义似然比检验的渐近分布)
在一定的正则条件下,当 成立且样本量 时,
其中 为参数空间维数之差(即自由度)。
因此,对于大样本,水平 的近似拒绝域为
证明
证明:(以下给出证明的要点和关键步骤)
第一步:对数似然函数的Taylor展开。设 为真参数值, 为全空间MLE, 为约束MLE。在 处对对数似然函数 进行二阶Taylor展开:
其中 为Fisher信息矩阵。
第二步:MLE的渐近正态性。由MLE理论,
且 。
第三步:似然比统计量的渐近展开。类似地,
因此,
第四步:利用二次型的渐近分布。在 下, 和 都收敛到 。可以证明
其中 。这是因为约束 相当于施加了 个独立约束,每个约束贡献一个自由度。
广义似然比检验与前面各节检验的关系
广义似然比检验是一个统一的框架,前面各节中的检验方法大多可以看作广义似然比检验的特例:
| 检验方法 | 检验问题 | 广义似然比检验等价形式 |
|---|---|---|
| 检验 | (已知) | |
| 检验 | (未知) | (渐近等价) |
| 检验 | (未知) | |
| 检验 | 统计量 |
例题 7.4.3
设 , 和 均未知。考虑检验
求广义似然比检验。
解:参数空间 ,。
全空间MLE:,。
约束MLE( 下):,。
似然比为
注意到
因此
其中 为 统计量。 是 的单调递减函数,因此拒绝域 等价于 ,这正是[[7.2 正态总体参数的假设检验| 检验]]。
四、卡方拟合优度检验
在实际问题中,我们经常需要检验总体分布是否服从某个特定的分布。例如:骰子是否均匀?数据是否服从正态分布?这种问题属于分布拟合检验,卡方拟合优度检验是最常用的方法。
卡方拟合优度检验
定义 7.4.4 — 卡方拟合优度检验
设 为来自总体 的样本, 为某个已知的分布函数。检验问题为
检验步骤:
(1)分组:将实数轴分为 个互不相交的区间 ,使得 。
(2)统计实际频数:记 为样本落入区间 的实际频数(观测频数),。
(3)计算理论频数:在 下,样本落入 的概率为
理论频数(期望频数)为 。
(4)计算检验统计量:
(5)确定拒绝域:当 成立时, 近似服从 分布,其中 为用样本估计的 中未知参数的个数。拒绝域为
Pearson定理
定理 7.4.3 — Pearson定理
设 成立,其中 完全已知(不含未知参数,即 )。当 时,
如果 中含有 个未知参数,需要先用样本估计这些参数(通常用MLE),此时自由度为 。
证明
证明:(以下给出 情况下的证明要点)
第一步:建立多项分布模型。在 下,每个样本点落入区间 的概率为 。记 为落入 的样本点数,则 。
第二步:标准化。由中心极限定理的多维版本,当 时,
其中 ,。
第三步:二次型的分布。 的秩为 (因为 ),因此
可以表示为正态随机向量的二次型。由二次型的分布理论,当 时,
第四步:含未知参数的情况。当 中含有 个未知参数时,用MLE 替换后,每个估计量消耗一个自由度,因此自由度从 减少到 。这一结论由 Fisher (1924) 严格证明。
分组方法与注意事项
卡方拟合优度检验的检验功效与分组方式密切相关:
| 注意事项 | 说明 |
|---|---|
| 每组期望频数 | 这是保证 近似精度的基本要求 |
| 通常取 | 分组太少会损失信息,太多会导致期望频数过小 |
| 各组概率 不宜过小 | 建议 |
| 期望频数不足时合并相邻组 | 将期望频数 的组与相邻组合并 |
| 分组方式应事先确定 | 不应先看数据再决定分组(否则影响检验的有效性) |
例题 7.4.4
某工厂声称其产品的不合格率服从 的二项分布。随机抽取 200 件产品进行检验,按每件产品的不合格特征分为4类,各类的观测频数如下:
类别 观测频数 120 55 18 7 理论概率 0.6561 0.2916 0.0486 0.0037 在 下检验 : 产品分类服从 的二项分布。
解:
(1)计算理论频数:。
类别 131.22 58.32 9.72 0.74 注意 ,需要将 和 合并。
(2)合并后的计算:
类别 120 55 25 131.22 58.32 10.46 (3)计算 统计量:
(4)查表判断:自由度 ,。
因为 ,所以拒绝 ,即产品分类不服从 的二项分布。
例题 7.4.5
在某公路上,50分钟内记录每15秒区间内到达的车辆数,得到如下数据:
到达车辆数 0 1 2 3 4 观测频数 4 14 23 16 8 5 在 下检验到达车辆数是否服从泊松分布。
解:
(1)估计参数。泊松分布 中 未知,先估计:
(2)计算理论概率和期望频数。,。
0 1 2 3 4 0.1003 0.2306 0.2652 0.2033 0.1169 0.0837 7.02 16.14 18.56 14.23 8.18 5.86 所有 ,无需合并。
(3)计算 统计量:
(4)查表判断:自由度 ,。
因为 ,所以不拒绝 ,即数据与泊松分布无显著差异。
五、独立性检验
独立性检验是卡方检验的另一个重要应用,用于检验两个分类变量之间是否相互独立。数据通常以列联表(Contingency Table)的形式呈现。
列联表与独立性检验
定义 7.4.5 — 列联表与独立性检验
设有两个分类变量 和 , 有 个水平, 有 个水平。从总体中随机抽取 个个体,按 的取值分类,得到 列联表:
行合计 列合计 其中 为 的观测频数,,。
检验问题为
检验统计量:
其中期望频数为
在 成立且 充分大时,。
期望频数的推导:在 ( 与 独立)下,
因此期望频数
独立性检验的渐近分布
定理 7.4.4 — 独立性检验的渐近分布
在 ( 与 独立)成立且 时,
自由度为 的直观理解: 列联表有 个格子,但受到行合计和列合计的约束( 给出 个约束, 给出 个约束,但 使得总约束数为 ),因此自由度为 。
例题 7.4.6( 列联表)
调查200名患者,研究某种新药是否有效,得到如下 列联表:
有效 无效 合计 用药组 60 40 100 对照组 35 65 100 合计 95 105 200 在 下检验药物是否有效。
解:: 药物与疗效独立 vs : 药物与疗效不独立。
(1)计算期望频数:
(2)计算 统计量:
(3)查表判断:自由度 ,。
因为 ,所以拒绝 ,即药物与疗效有关(药物有效)。
注:对于 列联表,也可以使用 Yates 连续性修正:
例题 7.4.7( 列联表)
调查不同年龄段人群对某项政策的满意度,得到如下 列联表:
满意 一般 不满意 合计 青年 30 40 30 100 中年 45 35 20 100 老年 55 25 20 100 合计 130 100 70 300 在 下检验满意度与年龄是否独立。
解:: 满意度与年龄独立 vs : 满意度与年龄不独立。
(1)计算期望频数:
(2)计算 统计量:
(3)查表判断:自由度 ,。
因为 ,所以拒绝 ,即满意度与年龄有关。
六、卡方检验汇总
三种卡方检验的对比
| 检验类型 | 检验问题 | 检验统计量 | 自由度 | 应用场景 |
|---|---|---|---|---|
| 拟合优度检验 | : 总体分布为 | 检验数据是否服从某分布 | ||
| 独立性检验 | : 两变量独立 | 检验两分类变量的独立性 | ||
| 齐性检验 | : 多个总体分布相同 | 检验多个总体比例是否一致 |
注:独立性检验和齐性检验的统计量和自由度完全相同,但抽样方式不同:
- 独立性检验:从单一总体中抽取 个个体,然后按两个变量交叉分类。
- 齐性检验:从 个总体中分别抽取样本,比较各总体中各水平的比例。
卡方检验的适用条件
- 样本量充分大:保证 近似分布的精度。
- 期望频数要求:所有 ,且至少 的 (Cochran准则)。
- 独立性:各观测值相互独立。
- 互斥完备:每个观测值恰好落入一个类别。
- 固定样本量(对于独立性检验):总样本量 在抽样前确定。
卡方检验与似然比检验的关系
卡方检验与似然比检验之间存在深刻的联系:
-
渐近等价性:对于多项分布数据,Pearson 统计量和似然比 统计量()在 下具有相同的渐近 分布,且渐近等价。
-
数值关系:(对于同样的数据),当 成立时两者差距很小。
-
统一框架:卡方检验可以看作广义似然比检验在离散数据(多项分布)下的具体实现。Pearson 统计量是似然比 统计量的二阶Taylor展开近似。
七、知识结构总览
graph TB A[似然比检验与分布拟合检验] --> B[似然比检验] A --> C[卡方检验] B --> D[基本思想] B --> E[Neyman-Pearson引理] B --> F[广义似然比检验] D --> D1[似然比统计量] D --> D2[拒绝域确定] E --> E1[简单假设MP检验] E --> E2[最优性证明] F --> F1[复合假设推广] F --> F2[Wilks定理] C --> G[拟合优度检验] C --> H[独立性检验] G --> G1[Pearson定理] G --> G2[分组与注意事项] H --> H1[列联表分析] H --> H2[期望频数计算] F2 --> I[渐近卡方分布] I --> G I --> H
八、核心思想与解题技巧
似然比检验解题步骤
似然比检验的标准解题流程
- 写出似然函数 。
- 求全空间MLE 。
- 求约束MLE 。
- 计算似然比 。
- 化简:利用单调变换将 转化为更简单的检验统计量。
- 确定拒绝域:利用Wilks定理()或精确分布。
- 计算统计量值并判断。
卡方检验解题步骤
卡方检验的标准解题流程
拟合优度检验:
- 建立假设 : 总体分布为 。
- 如有未知参数,用MLE估计。
- 分组并统计观测频数 。
- 计算理论概率 和期望频数 。
- 检查期望频数,必要时合并。
- 计算 。
- 查 表并判断。
独立性检验:
- 建立假设 : 两变量独立。
- 列出列联表,计算行合计和列合计。
- 计算期望频数 。
- 检查期望频数,必要时合并。
- 计算 。
- 查 表并判断。
常见题型总结
| 题型 | 关键步骤 | 易错点 |
|---|---|---|
| 求似然比统计量 | 分别求约束和无约束MLE | 忘记约束条件 |
| 证明某检验是似然比检验 | 化简 ,利用单调性 | 忽略等价形式 |
| 卡方拟合优度检验 | 正确计算 和 | 忘记合并期望频数 的组 |
| 独立性检验 | 正确计算 | 混淆观测频数和期望频数 |
| 自由度计算 | 或 | 忘记减去估计参数个数 |
九、补充理解与易混淆点
误区一:“似然比检验总是最优的”
正确理解:N-P引理仅保证在简单假设( vs )下,似然比检验是MP检验。对于复合假设,广义似然比检验不一定最优,只是在大样本下具有优良性质(渐近最优)。在有限样本下,可能存在比GLRT更好的检验。
来源:茆诗松《概率论与数理统计》第七章、Lehmann & Romano “Testing Statistical Hypotheses” Ch. 3、Casella & Berger “Statistical Inference” §8.3、RPI论文:GLRT并非总是最优、Bookey书评摘要
误区二:“卡方检验的分组越多越好”
正确理解:分组数 影响检验的自由度和功效。分组太少会损失信息(自由度低),分组太多会导致期望频数过小,使 近似失效。通常取 使得每组期望频数 ,同时 不宜超过 15-20。
来源:茆诗松《概率论与数理统计》第七章、Pearson (1900) 原论文、Minitab官方文档、NIST Dataplot文档、LibreTexts统计教材
误区三:“列联表卡方检验要求样本量很大”
正确理解:卡方检验的要求不是”样本量大”,而是==每格期望频数 ==(更宽松的要求是:所有 ,且至少 的 )。对于 列联表,当期望频数不满足要求时,应使用Fisher精确检验。
来源:茆诗松《概率论与数理统计》第七章、Cochran (1952) 经典文献、The Analysis Factor博客、UT Austin统计服务、StatCalculators
误区四:“拟合优度检验的p值很小就说明分布完全不对”
正确理解: 值小只说明在 成立的条件下,观测到当前或更极端数据的概率很低,即数据与假设分布不一致。这不意味着假设分布”完全不对”——可能只是样本量很大使得微小差异也被检测出来,也可能是因为分组方式不当。应结合效应量(如残差分析)综合判断。
来源:茆诗松《概率论与数理统计》第七章、§7.1(p值含义)、Cohen (1994) “The Earth Is Round (p < .05)“、Minitab官方文档、NIST Dataplot文档
误区五:“似然比检验和卡方检验是两种不同的方法”
正确理解:卡方检验本质上是似然比检验在大样本下的渐近等价形式。对于多项分布数据,Pearson 统计量 是似然比 统计量 的二阶Taylor展开近似。两者在 下渐近等价,具有相同的极限分布。
来源:茆诗松《概率论与数理统计》第七章、UCSD CSE 291讲义、UChicago STAT 244讲义、Casella & Berger “Statistical Inference” §10.5、Agresti “Categorical Data Analysis” Ch. 3
十、习题精选
习题概览
教材习题(6题):习题1-6(似然比检验、卡方拟合优度检验、独立性检验) 考研真题(4题):真题7-10(卡方检验综合应用)
编号 题目类型 难度 来源 1 似然比统计量计算 教材 2 N-P引理应用 教材 3 广义似然比检验 教材 4 卡方拟合优度检验 教材 5 独立性检验 教材 6 卡方检验综合 教材 7 卡方拟合优度 考研真题 8 列联表独立性 考研真题 9 泊松分布拟合 考研真题 10 正态分布拟合 考研真题
教材习题
习题1:设 ,考虑检验 vs ()。求似然比检验的拒绝域。
解:指数分布的密度为 ()。
似然函数为
似然比为
由于 ,,因此 是 的单调递增函数。
等价于 。
在 下,(因为 等价于 )。
拒绝域为
习题2:设 ,考虑检验 vs ()。求水平 的MP检验。
解:均匀分布 的密度为 ()。
似然函数为
其中 。
似然比为
当 时, 等价于 (当 时)。
在 下, 的分布函数为 ()。
因此 ,直接取 ,拒绝域为
此时犯第一类错误的概率为 。如果需要精确达到水平 ,可以使用随机化检验。
习题3:设 , 和 均未知。考虑检验 vs 。求广义似然比检验。
解:全空间MLE:,。
约束MLE( 下):,。
似然比为
令 ,则
是 的函数,先减后增,在 处取最大值 。 等价于 或 。
在 下,。
因此拒绝域为
这与§7.2中的 检验一致。
习题4:掷一枚骰子120次,各面出现的次数如下:
| 点数 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 频数 | 25 | 17 | 15 | 23 | 24 | 16 |
在 下检验骰子是否均匀。
解:: 骰子均匀(各面概率均为 )。
理论频数 。
自由度 ,。
因为 ,所以不拒绝 ,即骰子是均匀的。
习题5:调查300名大学生,研究性别与是否喜欢运动的关系:
| 喜欢 | 不喜欢 | 合计 | |
|---|---|---|---|
| 男 | 90 | 60 | 150 |
| 女 | 70 | 80 | 150 |
| 合计 | 160 | 140 | 300 |
在 下检验性别与运动偏好是否独立。
解:: 性别与运动偏好独立。
自由度 ,。
因为 ,所以不拒绝 ,即性别与运动偏好无显著关联。
习题6:从某工厂生产的产品中随机抽取100件,测量其直径(单位:mm),得到如下频数分布:
| 区间 | (9.5, 9.7) | (9.7, 9.9) | (9.9, 10.1) | (10.1, 10.3) | (10.3, 10.5) |
|---|---|---|---|---|---|
| 频数 | 5 | 15 | 35 | 30 | 15 |
样本均值 ,样本标准差 。在 下检验直径是否服从正态分布。
解:: 直径 ,其中 和 未知。
用样本估计:,。
计算各区间的理论概率(标准化后查正态分布表):
设 。
| 区间 | 区间 | ||
|---|---|---|---|
| 0.0228 | 2.28 | ||
| 0.1536 | 15.36 | ||
| 0.4107 | 41.07 | ||
| 0.3230 | 32.30 | ||
| 0.0918 | 9.18 |
第一组 ,将第一、二组合并:
| 合并区间 | ||
|---|---|---|
| 20 | 17.64 | |
| 35 | 41.07 | |
| 30 | 32.30 | |
| 15 | 9.18 |
自由度 ,。
因为 ,所以拒绝 ,即直径不服从正态分布。
考研真题
真题7(卡方拟合优度检验):某电话交换台在100分钟内记录每分钟接到的呼叫次数,得到如下数据:
| 每分钟呼叫次数 | 0 | 1 | 2 | 3 | 4 | 5 | |
|---|---|---|---|---|---|---|---|
| 频数 | 8 | 22 | 30 | 20 | 12 | 5 | 3 |
在 下检验每分钟呼叫次数是否服从泊松分布。
解:: 每分钟呼叫次数 。
估计参数:
计算理论概率和期望频数:
| 0 | 0.1130 | 11.30 |
| 1 | 0.2464 | 24.64 |
| 2 | 0.2686 | 26.86 |
| 3 | 0.1951 | 19.51 |
| 4 | 0.1063 | 10.63 |
| 5 | 0.0463 | 4.63 |
| 0.0243 | 2.43 |
将 合并:,。
自由度 ,。
因为 ,所以不拒绝 ,即每分钟呼叫次数服从泊松分布。
真题8(列联表独立性检验):研究血型与疾病类型的关系,得到如下 列联表:
| A型 | B型 | O型 | 合计 | |
|---|---|---|---|---|
| 甲病 | 30 | 20 | 50 | 100 |
| 乙病 | 40 | 30 | 30 | 100 |
| 丙病 | 30 | 50 | 20 | 100 |
| 合计 | 100 | 100 | 100 | 300 |
在 下检验血型与疾病类型是否独立。
解:: 血型与疾病类型独立。
由于各行合计和各列合计均为100,期望频数 (对所有 )。
自由度 ,。
因为 ,所以拒绝 ,即血型与疾病类型有关。
真题9(泊松分布拟合检验):某十字路口在50个时间段(每个时间段10分钟)内记录交通事故数,得到如下数据:
| 事故数 | 0 | 1 | 2 | 3 | 4 | |
|---|---|---|---|---|---|---|
| 频数 | 18 | 15 | 10 | 5 | 2 | 0 |
在 下检验事故数是否服从泊松分布。
解:: 事故数 。
计算理论概率:
| 0 | 21.15 | |
| 1 | 18.20 | |
| 2 | 7.82 | |
| 3 | 2.25 | |
| 0.58 |
将 合并:,。但 ,需要进一步将 合并:,。
自由度 ,。
因为 ,所以拒绝 ,即事故数不服从泊松分布。
真题10(正态分布拟合检验):从某年级学生中随机抽取200人,测量身高(单位:cm),得到如下频数分布:
| 区间 | |||||
|---|---|---|---|---|---|
| 频数 | 15 | 35 | 70 | 55 | 25 |
已知样本均值 ,样本标准差 。在 下检验身高是否服从正态分布。
解:: 身高 。
用样本估计:,。
标准化 ,计算各区间的理论概率:
| 区间 | 区间 | ||
|---|---|---|---|
| 0.0510 | 10.20 | ||
| 0.1976 | 39.52 | ||
| 0.3649 | 72.98 | ||
| 0.2931 | 58.62 | ||
| 0.1056 | 21.12 |
所有 ,无需合并。
自由度 ,。
因为 ,所以不拒绝 ,即身高服从正态分布。
十一、教材原文
教材原文
本节对应教材:茆诗松《概率论与数理统计》(第三版)第七章第四节”似然比检验与分布拟合检验”。
PDF原文请参考:
概率论与统计/7.4_教材扫描_正文.pdf和概率论与统计/7.4_卡方核心笔记_似然比检验.pdf
第七章 假设检验/似然比检验