5.1 总体与样本
本节概览
一、总体与个体
定义
定义 5.1.1 — 总体与个体
在一个统计问题中,研究对象的某个数量指标 的所有可能取值及其概率分布称为总体(population)。总体中的每一个可能取值称为个体(individual)。
总体的数学本质:总体就是随机变量 及其分布 。我们常说”总体 的分布为 “或”总体 “。
生活化类比
生活化类比:总体是"规律"而非"集合"
研究全国大学生的身高:
- 总体不是”所有大学生”这个物理集合,而是”身高”这个随机变量的分布
- 参数 描述总体的特征(平均身高、身高离散程度)
- 我们永远无法穷尽所有大学生,但可以通过样本推断
类似地,研究某工厂生产的灯泡寿命,总体是”寿命”这个随机变量的分布,不是”所有灯泡”这个集合。
有限总体与无限总体
| 类型 | 定义 | 特点 |
|---|---|---|
| 有限总体 | 总体容量 有限 | 如某班50名学生的成绩;不放回抽样时不独立 |
| 无限总体 | 总体容量 | 如正态分布 的所有可能取值;放回抽样近似 |
关键理解:总体本质上是一个概率分布,个体是总体的一次观测。有限总体和无限总体的区分主要影响抽样方式的选择(放回 vs 不放回)。
例题
例 5.1.1 — 磁带伤痕数
检查一卷磁带上的伤痕数。设伤痕数 服从参数为 的 Poisson 分布,则总体就是 Poisson 分布 。
总体分布:
这里参数 未知,需要通过样本数据来推断。
例 5.1.2 — 测量误差
用仪器测量某物理量,设测量误差 ,则总体就是正态分布 。
总体密度:
参数 描述了测量仪器的系统偏差和精度。
二、样本
定义
定义 5.1.2 — 样本
从总体 中随机抽取的 个个体 称为来自总体 的一个样本(sample)。 称为样本容量(sample size)。
样本 是一个 维随机向量,其联合分布由抽样方式决定。
样本的二重性
样本具有二重性(duality),这是理解统计推断的关键:
| 层面 | 样本的性质 | 符号表示 | 用途 |
|---|---|---|---|
| 理论层面(抽样前) | 是随机变量 | 大写 | 建立统计理论、推导分布 |
| 观测层面(抽样后) | 是具体数值 | 小写 | 实际计算、数据分析 |
关键理解:统计推断在理论层面进行——我们研究统计量(样本的函数)的分布,然后用观测值代入计算。二重性是连接理论与实际的桥梁。
例题
例 5.1.3 — 啤酒净含量
某啤酒厂生产瓶装啤酒,标称净含量为 640 mL。随机抽取 25 瓶,测量净含量(单位:mL)如下:
- 总体 :该厂生产的每瓶啤酒的净含量,假设
- 样本容量
- 抽样前: 是 25 个随机变量
- 抽样后: 是 25 个具体数值
完全样本与分组样本
| 类型 | 定义 | 特点 |
|---|---|---|
| 完全样本 | 保留每个观测值 | 信息完整,可进行任意统计分析 |
| 分组样本 | 只保留各区间的频数 | 信息有损失,但数据量大时常用 |
例 5.1.4 — 分组样本
对 100 只电子元件进行寿命测试(单位:小时),结果整理为如下频数分布表:
寿命区间 频数 5 12 25 30 18 10 这就是一个分组样本——我们只知道每个区间有多少个观测值,但不知道每个观测值的具体数值。
三、简单随机抽样
定义
定义 5.1.3 — 简单随机抽样(Simple Random Sampling)
满足以下两个条件的抽样称为简单随机抽样:
- 代表性:总体中每个个体被抽到的概率相同
- 独立性:各次抽取互不影响
数学表述: 独立同分布(i.i.d.),每个 与总体 同分布。
联合分布
设总体 的分布函数为 ,则简单随机样本 的联合分布为:
连续型总体(密度函数 ):
离散型总体(分布列 ):
i.i.d. 假设的意义
i.i.d. 假设是整个经典统计推断的理论基础。它包含两个核心要素:
| 要素 | 含义 | 统计意义 |
|---|---|---|
| 同分布(Identically Distributed) | 每个 与总体 分布相同 | 保证样本具有代表性,能反映总体特征 |
| 独立(Independent) | 各 之间互不影响 | 保证信息不冗余, 个样本提供 份独立信息 |
i.i.d. 假设的直观理解
同分布就像”公平抽样”——不管抽到谁,都代表总体。独立性就像”每次重新洗牌”——前面抽到的结果不影响后面。如果抽样不公平(如只从特定群体抽取),则样本不能代表总体;如果样本之间有依赖关系(如不放回抽样),则需要修正统计方法。
四、有限总体不放回抽样
背景
从有限总体(容量为 )中不放回抽取 个个体时, 虽然同分布,但不独立——因为抽走一个个体后,剩余个体的分布会发生变化。
例 5.1.5 — 产品检验
一批产品共 件,其中含 10 件次品。从中不放回抽取 3 件,设 为第 次抽到的结果(1 表示次品,0 表示正品)。
- (如果第一次抽到次品)
- (如果第一次抽到正品)
虽然 同分布(边际分布都是 ),但它们不独立。
关键区别
| 抽样方式 | 独立性 | 同分布 | 适用条件 |
|---|---|---|---|
| 放回抽样 | 独立 | 同分布 | 任何情况 |
| 不放回抽样 | 不独立 | 同分布 | 有限总体 |
| 不放回抽样(近似) | 近似独立 | 同分布 |
经验法则
当抽样比例 (即抽样不超过总体的 10%)时,不放回抽样中个体之间的依赖性足够弱,可以近似视为 i.i.d.。这一经验法则在实际应用中广泛使用。
不放回抽样下样本均值的期望和方差
设有限总体为 (均匀总体),从中不放回抽取 个,样本均值为 ,则:
证明
证明:
第一步:计算均匀总体 的期望和方差。
第二步:计算期望 。 不放回抽样时 同分布(每个 都从 中等概率抽取),故
第三步:展开方差 。 利用方差的展开公式(注意:不放回抽样中 与 不独立,):
第四步:计算 ()。 利用对称性和 的方差为零(常数不随机):
解得 (负号表示:抽走一个大的值后,剩余值偏小)。
第五步:代入求方差。
第六步:与 i.i.d. 对比。 i.i.d. 时 ,不放回时多了一个因子 ,正是由于不独立性导致的方差缩减。
五、经验分布函数
定义
定义 5.1.4 — 经验分布函数(Empirical Distribution Function)
设 是来自总体 (分布函数 )的简单随机样本, 是样本观测值。将观测值从小到大排列为次序统计量 ,则经验分布函数定义为:
其中 为示性函数(indicator function),当 时取 1,否则取 0。
等价的阶梯函数形式:
例题
例 5.1.6 — 饮料净含量的经验分布函数
某品牌饮料标称净含量为 500 mL,随机抽取 10 瓶测量,得到如下数据(单位:mL):
排序得:
经验分布函数:
经验分布函数的性质
经验分布函数的性质
设 是来自总体 的经验分布函数,则:
性质 1: 是一个合法的分布函数(非降、右连续、,)
性质 2:对任意固定的 ,(二项分布)
性质 3:,
性质 1 的证明
证明:需验证 满足分布函数的三条基本性质。
第一步:非降性
对任意 ,有 ,因此:
对 求和并除以 ,得 。
第二步:右连续性
是阶梯函数,仅在 处有跳跃。在每个跳跃点处, 取右极限值(定义中 包含等号),因此 右连续。
第三步:极限值验证
- 当 时,,故 ,。
- 当 时,(必然事件),故 ,。
三条性质全部满足,故 是合法的分布函数。
性质 2 和性质 3 的证明
证明:
第一步:引入示性函数并建立 i.i.d. 结构
对固定的 ,定义示性函数 。由于 i.i.d.,故 也是 i.i.d. 的 Bernoulli 随机变量:
第二步:证明性质 2(二项分布)
由 的定义,,这是 个 i.i.d. 之和,因此:
第三步:证明性质 3(期望与方差)
利用二项分布的期望和方差公式:
格利文科定理
定理 5.1.1 — 格利文科定理(Glivenko-Cantelli Theorem)
设 是来自总体 的经验分布函数,则:
即 一致收敛到 (几乎必然)。
格利文科定理的意义:
| 维度 | 含义 |
|---|---|
| 数学意义 | 经验分布函数 以概率 1 一致收敛到真实分布函数 |
| 统计意义 | 当样本量 充分大时,可以用 作为 的非参数估计 |
| 与大数定律的关系 | 格利文科定理是强大数定律在分布函数层面的推广——大数定律说”频率收敛到概率”(逐点),格利文科定理说”经验分布函数一致收敛到真实分布函数”(一致) |
关键区别:大数定律只保证在每个固定点 处 ,格利文科定理进一步保证了在==所有 上同时一致收敛==,这是一个更强的结论。
格利文科定理的证明思路
证明思路:该定理的完整证明涉及测度论中的可数性论证,此处给出核心框架。
第一步:将一致收敛分解为有限个点的逐点收敛
对 上的分布函数 ,取其至多可数个间断点 。对任意 ,在每个间断点附近构造小区间,使得 在每个小区间上的跳跃不超过 。这样, 的控制可以归结为有限个点上的逐点偏差控制。
第二步:在每个固定点应用大数定律
由性质 3 知 ,且 。由 Chebyshev 不等式 + Borel-Cantelli 引理(或直接用 Kolmogorov 强大数定律),对每个固定的 :
第三步:利用有限覆盖实现一致控制
将 用有限个区间覆盖,在每个区间端点处 收敛到 。再利用 和 的单调性,将端点处的收敛推广到整个区间上的一致收敛,最终得到:
六、知识结构总览
graph TD A["5.1 总体与样本"] --> B["总体与个体"] A --> C["样本"] A --> D["简单随机抽样"] A --> E["不放回抽样"] A --> F["经验分布函数"] B --> B1["总体=概率分布"] B --> B2["有限/无限总体"] C --> C1["样本二重性"] C --> C2["完全/分组样本"] D --> D1["i.i.d.假设"] D --> D2["联合分布"] E --> E1["不独立但同分布"] E --> E2["n/N≤0.1近似"] F --> F1["定义与性质"] F --> F2["格利文科定理"] style A fill:#f5f5f5,color:#424242 style B fill:#e8f5e9,color:#2e7d32 style C fill:#e8f5e9,color:#2e7d32 style D fill:#fff3e0,color:#e65100 style E fill:#fff3e0,color:#e65100 style F fill:#e3f2fd,color:#1565c0 style F2 fill:#fce4ec,color:#c62828
七、核心思想与证明技巧
总体 = 分布的思想
数理统计的研究对象不是具体的数据集合,而是产生数据的概率分布。这一思想是数理统计与描述性统计的根本区别:
- 描述性统计:对已有数据进行总结和展示(均值、方差、直方图等)
- 推断统计:从样本数据出发,推断总体分布的未知特征(参数估计、假设检验等)
样本二重性
| 层面 | 样本 | 统计量 |
|---|---|---|
| 理论 | 是随机变量 | 也是随机变量 |
| 观测 | 是具体数值 | 是具体数值 |
统计推断在理论层面进行:先研究统计量 的分布(抽样分布),然后用观测值 进行推断。
i.i.d. 假设的意义
i.i.d. 假设将复杂的多维随机变量问题简化为”一个随机变量的 次独立重复”,使得:
- 联合分布可以写成边际分布的乘积
- 样本均值 的期望等于总体期望
- 样本均值 的方差等于总体方差除以 :
格利文科定理的价值
格利文科定理将经验分布函数提升为总体分布的非参数一致估计:
- 不需要对总体分布做任何参数假设(非参数)
- 当 时, 以概率 1 一致逼近 (一致性)
- 这是 Kolmogorov-Smirnov 检验等非参数方法的理论基础
八、补充理解与易混淆点
”总体就是一堆数据”
来源:茆诗松教材§5.1(p223) + 卡方核心笔记(p1) + Wiley”The sample is not the population” + Duke大学讲义Lecture9 + CSDN”用批判性思维看透数据”
误区1:"总体就是一堆数据的集合"
❌ 总体不是数据集合,而是概率分布。数据只是总体的一次实现(样本观测值)。 ✅ 总体是某个数量指标 的分布 。研究”全国大学生身高”的总体是身高这个随机变量的分布 ,不是”所有大学生”这个物理集合。参数 描述总体,统计量 描述样本。
“样本量越大结论就一定越可靠”
来源:茆诗松教材§5.1(p225) + 卡方核心笔记(p3) + 鲲鹏智写”统计分析常见误区” + 图灵社区”Literary Digest案例” + CSDN”数据背后的陷阱”
误区2:"只要样本量足够大,结论就一定可靠"
❌ 样本量只减小抽样误差(sampling error),无法修复抽样偏差(sampling bias)。1936年美国《文学文摘》用240万份问卷预测总统选举却预测错误,因为样本偏向高收入人群。 ✅ 代表性和独立性比样本量更重要。便利抽样、选择性剔除、无应答偏差都会造成有偏样本,增大样本量只会”更精确地得到错误答案”。
“不放回抽样可以当作 i.i.d. 处理”
来源:茆诗松教材§5.1(p226) + 卡方核心笔记(p4) + book118”统计易错点” + 51CTO”总体个体样本辨析” + CMU 36-705 Lecture Notes
误区3:"不放回抽样可以当作 i.i.d. 处理"
❌ 不放回抽样中 虽然同分布,但不独立(抽走一个个体会影响剩余个体的分布)。只有当抽样比例 时,依赖性足够弱,才能近似为 i.i.d.。 ✅ 不放回抽样下样本均值的方差为 (均匀总体),比 i.i.d. 时的 多了一个因子 ,正是由于不独立性导致的方差缩减。
九、习题精选
习题概览
编号 题目来源 知识点 难度 1 教材5.1-1 总体与样本概念辨析 ★☆☆ 2 教材5.1-3 样本联合分布 ★★☆ 3 教材5.1-5 不放回抽样概率计算 ★★☆ 4 教材5.1-7 经验分布函数计算 ★★☆ 5 教材5.1-8 格利文科定理理解 ★★☆ 6 教材5.1-附加 样本均值 vs 样本中位数 ★★★ 7 2012东北师大432 统计量定义 ★☆☆ 8 2019郑州大学432 样本均值/中位数 ★☆☆ 9 2012华东师大432 经验分布函数期望方差 ★★☆ 10 2018大连理工432 无偏估计+次序统计量 ★★★
习题1 — 教材5.1-1:总体与样本概念辨析
习题1 — 教材5.1-1
总体是分布还是数据集合?样本的二重性是什么?请举例说明。
查看解答
解:
(1)总体是概率分布,不是数据集合。例如,研究某工厂生产的灯泡寿命,总体是”寿命”这个随机变量的分布 ,而不是”所有灯泡”这个物理集合。
(2)样本的二重性:抽样前,样本 是 个随机变量(理论层面);抽样后,样本 是 个具体数值(观测层面)。统计推断在理论层面进行,用观测值代入计算。
习题2 — 教材5.1-3:样本联合分布
习题2 — 教材5.1-3
设 是来自标准正态总体 的简单随机样本,求样本的联合密度函数。
查看解答
解:
总体 ,密度函数为:
由简单随机样本的 i.i.d. 性质,联合密度为:
习题3 — 教材5.1-5:不放回抽样概率计算
习题3 — 教材5.1-5
一批产品共 件,其中含 10 件次品。从中不放回抽取 3 件,求恰好抽到 1 件次品的概率。
查看解答
解:
设 为 3 件中次品的件数。从 100 件中不放回抽 3 件, 服从超几何分布:
对比:如果放回抽样(i.i.d.),则 :
两者非常接近,因为 ,满足近似条件。
习题4 — 教材5.1-7:经验分布函数计算
习题4 — 教材5.1-7
设样本观测值为 ,求经验分布函数 。
查看解答
解:
排序得:
等于小于等于 2.5 的观测值个数除以 :
(小于等于 2.5 的观测值为 1 和 2,共 2 个。)
习题5 — 教材5.1-8:格利文科定理理解
习题5 — 教材5.1-8
格利文科定理说明了什么?它与强大数定律有何区别?
查看解答
解:
格利文科定理说明:经验分布函数 以概率 1 一致收敛到真实分布函数 ,即:
与强大数定律的区别:
- 强大数定律:对每个固定的 ,(逐点收敛)
- 格利文科定理:(一致收敛)
格利文科定理更强,因为它要求在==所有 上同时收敛==,而不仅仅是逐点收敛。
习题6 — 教材5.1-附加:样本均值的极值性质
习题6 — 教材5.1-附加
设 为样本观测值,证明使 最小的 是样本均值 。
查看解答
解:
令 ,对 求导:
令 ,得:
验证二阶导数:,故 是最小值点。
因此 在 处取最小值,最小值为 。
习题7 — 2012东北师大432:统计量定义
习题7 — 2012东北师大432
设 , 为样本。考虑 ,。 取何值时 不是统计量?
查看解答
解:
统计量是样本的函数,且不含有任何未知参数。
,其中 是统计量(不含未知参数)。
当 含有未知参数时, 不是统计量。
,。
若 (含未知参数 ),则 不是统计量。
答案:选 B()。
习题8 — 2019郑州大学432:样本均值与中位数
习题8 — 2019郑州大学432
设 为样本观测值。使 最小的 是?使 最小的 是?
查看解答
解:
(1)由习题6的结论,使 最小的 是样本均值 。
(2)使 最小的 是样本中位数 (即排序后位于中间位置的值)。这是中位数的极值性质——中位数最小化绝对偏差之和。
答案:选 C(样本均值和样本中位数)。
习题9 — 2012华东师大432:经验分布函数的期望与方差
习题9 — 2012华东师大432
设 是来自总体 的经验分布函数。求 和 ,并说明 服从什么分布。
查看解答
解:
由经验分布函数的定义:
对固定的 ,,且 i.i.d.。
因此 。
由二项分布的性质:
习题10 — 2018大连理工432:无偏估计与次序统计量
习题10 — 2018大连理工432
设 是来自均匀总体 的简单随机样本。证明 和 都是 的无偏估计。
查看解答
解:
(1)证明 是 的无偏估计。
,故:
(2)证明 是 的无偏估计。
,令 。
,。
由次序统计量的分布,,:
因此:
两者都是 的无偏估计。
十、教材原文
以下为教材扫描版原文,可点击翻阅。
第五章 统计量及其分布/总体与样本