第五章 统计量及其分布 — 章节汇总
全章概览
一、全章知识框架
graph TB A[第五章 统计量及其分布] --> B[§5.1 总体与样本] A --> C[§5.2 数据整理与显示] A --> D[§5.3 统计量及其分布] A --> E[§5.4 三大抽样分布] A --> F[§5.5 充分统计量] B --> B1[总体等于分布] B --> B2[简单随机抽样] B --> B3[经验分布函数] B --> B4[格利文科定理] C --> C1[有序样本与频数表] C --> C2[三种直方图] C --> C3[茎叶图] D --> D1[样本均值与方差] D --> D2[样本矩偏度峰度] D --> D3[次序统计量] D --> D4[样本分位数] E --> E1[卡方分布] E --> E2[F分布] E --> E3[t分布] E --> E4[Fisher引理] E --> E5[三大推论] F --> F1[充分性定义] F --> F2[因子分解定理] F --> F3[一一变换不变性] F --> F4[指数族分布] B --> D D --> E E --> F
二、核心知识点与公式汇总
§5.1 总体与样本
本节建立数理统计的基本语言。总体在统计中被视为一个分布,而非具体个体的集合;样本是从总体中抽取的随机变量,具有”二重性”——抽样前是随机变量,抽样后是具体数值。经验分布函数 是总体分布函数 的非参数估计,格利文科定理保证了 一致收敛到 ,为非参数统计奠定了理论基础。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.1.1 | 定义 | 总体与个体 | 总体 = 某个数量指标的分布 |
| 5.1.2 | 定义 | 样本 | 个 i.i.d. 随机变量 |
| 5.1.3 | 定义 | 简单随机抽样 | 有放回:i.i.d.;无放回:超几何分布 |
| 5.1.4 | 定义 | 经验分布函数 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.1.T1 | 性质 | 经验分布函数性质 | ;; |
| 5.1.T2 | 定理 | 格利文科定理 | $P!\left(\displaystyle\lim_{n \to \infty}\sup_{x} |
核心公式:
§5.2 样本数据的整理与显示
本节介绍将原始样本数据转化为可理解信息的方法。有序样本是所有数据分析的第一步,频数频率表和直方图是展示数据分布形态的基本工具。三种直方图(频数、频率、单位频率)的区别仅在于纵轴的刻度,其中单位频率直方图的纵轴高度恰好等于概率密度的估计值。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.2.1 | 定义 | 有序样本 | 将样本从小到大排列 |
| 5.2.2 | 定义 | 频数频率表 | 各区间的频数 和频率 |
| 5.2.3 | 定义 | 频数直方图 | 纵轴 = 频数,面积无直接概率含义 |
| 5.2.4 | 定义 | 频率直方图 | 纵轴 = 频率/组距,总面积 = 1 |
| 5.2.5 | 定义 | 单位频率直方图 | 纵轴 = 频率/组距,纵轴高度 ≈ 密度 |
| 5.2.6 | 定义 | 茎叶图 | 保留原始数据信息的可视化方法 |
核心公式:
§5.3 统计量及其分布
本节是第五章的核心内容之一。统计量是样本的函数,不依赖于任何未知参数,是统计推断的基本工具。样本均值 和样本方差 是最重要的两个统计量,它们的分布(抽样分布)是后续参数估计和假设检验的理论基础。次序统计量是另一类重要统计量,其密度函数和联合密度函数有优美的组合表达式,样本分位数的渐近正态性则连接了次序统计量与正态分布。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.3.1 | 定义 | 统计量 | 样本的函数 ,不含未知参数 |
| 5.3.2 | 定义 | 样本均值 | |
| 5.3.3 | 定义 | 样本方差 | |
| 5.3.4 | 定义 | 样本矩 | |
| 5.3.5 | 定义 | 样本偏度 | , |
| 5.3.6 | 定义 | 样本峰度 | |
| 5.3.7 | 定义 | 次序统计量 | |
| 5.3.8 | 定义 | 样本中位数 | ( 奇)或 ( 偶) |
| 5.3.9 | 定义 | 样本 分位数 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.3.T1 | 定理 | 样本均值分布 | 正态总体:;一般总体(CLT): |
| 5.3.T2 | 定理 | 均值方差期望 | ,;(无偏性) |
| 5.3.T3 | 定理 | 次序统计量密度 | |
| 5.3.T4 | 定理 | 两个次序统计量联合密度 | |
| 5.3.T5 | 定理 | 分位数渐近正态性 |
核心公式:
§5.4 三大抽样分布
本节系统介绍数理统计中最重要的三大抽样分布:卡方分布、F 分布和t 分布。它们都由标准正态分布构造而来,在参数估计和假设检验中无处不在。Fisher 引理是连接正态总体与三大分布的核心定理,它不仅给出了 的精确分布,还证明了 与 的独立性。三大推论(两总体F、单总体t、两总体t)是Fisher引理的直接应用,构成了正态总体统计推断的理论基础。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.4.1 | 定义 | 卡方分布 | , |
| 5.4.2 | 定义 | F 分布 | ,, 独立 |
| 5.4.3 | 定义 | t 分布 | ,, 独立 |
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.4.T1 | 定理 | Fisher 引理 | 时: 与 独立, |
| 5.4.C1 | 推论 | 两总体 F 统计量 | |
| 5.4.C2 | 推论 | 单总体 t 统计量 | |
| 5.4.C3 | 推论 | 两总体 t 统计量 | , |
三大分布数字特征表:
| 分布 | 期望 | 方差 | 密度形状 |
|---|---|---|---|
| 右偏, 趋正态 | |||
| () | () | 右偏 | |
| () | () | 对称,厚尾, 趋 |
核心公式:
§5.5 充分统计量
本节回答统计推断中的一个根本问题:如何对样本进行最优压缩而不损失关于参数的信息?充分统计量通过”条件分布不含参数”这一判据,精确刻画了”不损失信息”的含义。Neyman-Fisher 因子分解定理将充分性的判断从”计算条件分布”简化为”验证因子分解”,是实际应用中最常用的工具。指数族分布的充分统计量具有统一的结构,维数等于自然参数空间的维数。
| 编号 | 类型 | 名称 | 内容 |
|---|---|---|---|
| 5.5.1 | 定义 | 充分统计量 | 给定 时样本的条件分布不依赖于 |
| 5.5.T1 | 定理 | Neyman-Fisher 因子分解定理 | 充分 |
| 5.5.T2 | 定理 | 充分统计量的一一变换 | 一一对应 也充分 |
核心公式:
三、章节学习脉络
§5.1 总体与样本
本节的核心转变是”总体 = 分布”。在概率论中我们研究已知分布的性质,在数理统计中分布本身是未知的,需要从样本中推断。这一视角转换是理解全书后续内容的基础。简单随机抽样保证了样本的代表性——i.i.d.样本的联合分布等于边际分布的乘积,这一简单事实是几乎所有统计推断理论的出发点。
经验分布函数 是一个阶梯函数,它在每个数据点处跳跃 。格利文科定理保证了 以概率1一致收敛到 ,这意味着当样本量足够大时,经验分布函数可以任意精度逼近总体分布函数。这一定理是非参数统计的理论基石,也为直方图等数据可视化方法提供了理论支撑。
§5.2 样本数据的整理与显示
本节的方法论价值在于”先看数据再做推断”。直方图和茎叶图帮助我们在正式建模之前对数据的分布形态(对称性、偏度、异常值)建立直观认识。三种直方图的区别仅在于纵轴的标准化方式:频数直方图最直观,频率直方图总面积为1便于与概率对应,单位频率直方图的纵轴高度直接估计概率密度。Sturges公式 提供了组数的经验估计,但实际应用中应根据数据特点灵活调整。
茎叶图相比直方图的优势是保留了原始数据的全部信息,适合中小样本的探索性分析。背靠背茎叶图则便于比较两组数据的分布差异。这些可视化方法是探索性数据分析(EDA)的基础工具。
§5.3 统计量及其分布
本节是第五章的技术核心。统计量的关键约束是”不含未知参数”——这意味着统计量是可以从数据中直接计算的量。样本均值 和样本方差 是最重要的两个统计量,它们分别估计总体的均值和方差。 的分母用 而非 ,正是为了保证无偏性 。
正态总体下 的精确分布为 ,这一结论直接来自正态分布的可加性。对于非正态总体,CLT保证了 的渐近正态性。次序统计量的密度公式具有优美的组合结构—— 对应”有 个观测值不超过 ”, 对应”有 个观测值超过 “。样本分位数的渐近正态性将次序统计量与正态分布联系起来,是Bootstrap等现代统计方法的理论基础之一。
§5.4 三大抽样分布
三大抽样分布是正态总体统计推断的基石。卡方分布由标准正态变量的平方和构造,F分布由两个独立的卡方变量之比构造,t分布由标准正态与卡方之比构造——三者都源于正态分布,这一”同源性”解释了为什么正态假设在经典统计中如此重要。
Fisher引理是本节最深刻的定理。它通过正交变换将 分解为 ,前者含1个自由度(对应 ),后者含 个自由度(对应 ),且两者独立。这一分解是 分布可加性的直接应用,也是理解方差分析(ANOVA)的基础。三大推论分别给出了两总体方差比较(F检验)、单总体均值推断(t检验)和两总体均值比较(t检验)的理论依据。
§5.5 充分统计量
充分统计量回答了一个根本问题:样本中关于参数的信息能否被压缩到一个低维统计量中而不损失任何信息?Fisher vs Eddington的争论揭示了充分性的实际意义——使用充分统计量做推断比使用非充分统计量更有效率。
因子分解定理将充分性的判断从”计算条件分布”(往往很困难)简化为”验证因子分解”(代数操作),大大降低了操作难度。定理的必要性证明(充分 因子分解)和充分性证明(因子分解 充分)共同建立了充要条件。一一变换不变性(定理5.5.2)保证了充分统计量在等价变换下保持充分性——例如 和 同为充分统计量。指数族分布的充分统计量具有统一的闭式表达,维数等于自然参数空间的维数,这一性质在参数估计理论中有重要应用。
四、补充理解与跨章展望
全章核心思想
本章的核心思想可以概括为三个层次:
- 从概率论到数理统计的桥梁:前四章研究已知分布的性质,第五章开始研究”分布未知,如何从数据中推断”。总体=分布、样本=i.i.d.随机变量、统计量=不含参数的样本函数,这三个概念构成了数理统计的语言基础
- 正态分布的中心地位:三大抽样分布(、、)全部由正态分布构造而来,Fisher引理和三大推论全部依赖正态假设。正态分布在经典统计中的中心地位,源于中心极限定理(大量独立因素的叠加趋近正态)和正态分布的优良数学性质(可加性、充分统计量存在且维度低)
- 信息压缩与效率:充分统计量的核心思想是”最优压缩”。因子分解定理提供了判断压缩是否无损的工具,指数族分布则展示了哪些分布族具有低维充分统计量。这一思想直接导向参数估计理论中的Rao-Blackwell定理和Lehmann-Scheffé定理
跨章关联表
| 关联方向 | 章节 | 关联内容 |
|---|---|---|
| 前置 | 第二章 随机变量及其分布 | 常用分布→三大抽样分布的构造基础;期望方差→样本均值方差的无偏性 |
| 前置 | 第三章 多维随机变量及其分布 | 联合分布→样本联合分布;独立性→i.i.d.抽样;条件期望→充分统计量的条件分布定义 |
| 前置 | 第四章 极限定理 | CLT→样本均值的渐近正态性;大数定律→样本均值依概率收敛到总体均值;特征函数→三大分布密度推导 |
| 工具 | §5.3 统计量及其分布 | 样本均值方差→Fisher引理的输入;次序统计量→次序统计量密度 |
| 工具 | §5.4 三大抽样分布 | Fisher引理→正态总体推断的理论基础;三大推论→假设检验统计量的分布 |
| 后续 | 第六章 参数估计 | 充分统计量→Rao-Blackwell定理;三大抽样分布→置信区间的枢轴量;样本均值方差→矩估计 |
| 后续 | 第七章 假设检验 | t统计量→t检验;F统计量→F检验;卡方统计量→卡方拟合优度检验 |
全章学习建议
- Fisher引理是全章最核心的定理:它同时给出了 与 的独立性、 的精确分布,是三大推论的共同基础。理解正交变换分解的几何直觉比记忆代数推导更重要
- 因子分解定理的操作性很强:判断充分统计量时,先写出联合概率函数,再尝试将含参数的部分”提取”为仅通过某个统计量 依赖样本的函数 。如果提取成功, 就是充分统计量
- 三大分布的关系要牢记: 是基础, 是两个 之比, 是正态与 之比。 这一关系连接了t检验和F检验
五、全章复习题
§5.1 复习题
复习题 1 — 经验分布函数与格利文科定理
设 是来自连续分布 的 i.i.d. 样本,经验分布函数为 。 (1) 求 和 ; (2) 利用切比雪夫不等式证明 (对每个固定的 )。
查看解答
(1) 令 ,则 ,。
(2) 由切比雪夫不等式,对任意 :
因此 。
注意:这仅证明了逐点收敛(每个固定 ),而格利文科定理证明的是更强的一致收敛()。
§5.3 复习题
复习题 2 — 样本均值方差与无偏性
设 i.i.d.,,。 (1) 证明 ,; (2) 令 ,求 ,说明为什么样本方差 用 作分母。
查看解答
(1) 。
。
(2) 利用恒等式 :
因此 , 是有偏的。
而 ,,是无偏的。分母用 正是为了修正”估计 时损失了一个自由度”带来的系统性低估。
§5.4 复习题
复习题 3 — Fisher引理与三大推论
设 i.i.d. ,。 (1) 写出 的精确分布; (2) 求 ; (3) 写出 的精确分布。
查看解答
(1) 由 Fisher 引理,。
(2) 。
查 分布表:,。
因此 (插值估计)。
(3) 由推论 5.4.2(单总体 t 统计量):
复习题 4 — 两正态总体的推断
设 i.i.d. , i.i.d. ,两样本独立。 (1) 写出 的精确分布; (2) 写出检验 时使用的统计量及其分布。
查看解答
(1) 由推论 5.4.1(两总体 F 统计量),在 的条件下:
(2) 在 下,由推论 5.4.3(两总体 t 统计量):
合并样本方差
§5.5 复习题
复习题 5 — 因子分解定理的应用
设 i.i.d. ,其中 已知, 未知。用因子分解定理求 的充分统计量。
查看解答
联合密度为:
令 ,则
仅通过 依赖于样本, 不含 。因此 是 的充分统计量。
注意:当 未知时,充分统计量是 (二维);当 已知时,充分统计量降为一维的 。这说明已知信息越多,充分统计量的维数越低。
复习题 6 — 充分统计量与指数族
设 i.i.d. ,密度为 ()。 (1) 用因子分解定理求 的充分统计量; (2) 将指数分布写成指数族标准形式,验证充分统计量。
查看解答
(1) 联合密度为:
其中 。因此 是 的充分统计量。
(2) 将 写成指数族形式:
对照标准形式 :
- (即 )
自然参数维数 ,充分统计量为 ,与 (1) 的结果一致。
六、各节笔记索引
| 节号 | 节标题 | 核心主题 | 定义数 | 定理数 | 误区数 | 习题数 |
|---|---|---|---|---|---|---|
| 5.1 | 5.1 总体与样本 | 总体=分布、i.i.d.抽样、经验分布函数、格利文科定理 | 4 | 2 | 3 | 10 |
| 5.2 | 5.2 样本数据的整理与显示 | 有序样本、频数频率表、三种直方图、茎叶图 | 6 | 1 | 3 | 10 |
| 5.3 | 5.3 统计量及其分布 | 样本均值方差、次序统计量密度与联合密度、分位数渐近分布 | 9 | 5 | 5 | 10 |
| 5.4 | 5.4 三大抽样分布 | 卡方/F/t分布、Fisher引理、三大推论 | 3 | 4 | 5 | 10 |
| 5.5 | 5.5 充分统计量 | 充分性定义、因子分解定理、指数族充分统计量 | 1 | 2 | 3 | 10 |
| 合计 | 23 | 14 | 19 | 50 |
第五章 统计量及其分布/章节汇总