5.1 总体与样本

本节概览

本节是数理统计的开篇,建立”总体→样本→统计量”的基本框架。核心思想:总体是一个概率分布,样本是从总体中抽取的 独立同分布随机变量。

逻辑链条总体与个体样本与二重性简单随机抽样有限总体不放回抽样经验分布函数格利文科定理

前置依赖§2.4(常用分布)、§3.2(独立性)、§4.3(大数定律)

核心主线:从概率论到数理统计的过渡——概率论中分布已知、推导数据性质;数理统计中数据已知、推断分布特征。本节搭建这一过渡的桥梁。


一、总体与个体

定义

定义 5.1.1 — 总体与个体

在一个统计问题中,研究对象的某个数量指标 的所有可能取值及其概率分布称为总体(population)。总体中的每一个可能取值称为个体(individual)。

总体的数学本质:总体就是随机变量 及其分布 。我们常说”总体 的分布为 “或”总体 “。

生活化类比

生活化类比:总体是"规律"而非"集合"

研究全国大学生的身高:

  • 总体不是”所有大学生”这个物理集合,而是”身高”这个随机变量的分布
  • 参数 描述总体的特征(平均身高、身高离散程度)
  • 我们永远无法穷尽所有大学生,但可以通过样本推断

类似地,研究某工厂生产的灯泡寿命,总体是”寿命”这个随机变量的分布,不是”所有灯泡”这个集合。

有限总体与无限总体

类型定义特点
有限总体总体容量 有限如某班50名学生的成绩;不放回抽样时不独立
无限总体总体容量 如正态分布 的所有可能取值;放回抽样近似

关键理解总体本质上是一个概率分布,个体是总体的一次观测。有限总体和无限总体的区分主要影响抽样方式的选择(放回 vs 不放回)。

例题

例 5.1.1 — 磁带伤痕数

检查一卷磁带上的伤痕数。设伤痕数 服从参数为 的 Poisson 分布,则总体就是 Poisson 分布

总体分布:

这里参数 未知,需要通过样本数据来推断。

例 5.1.2 — 测量误差

用仪器测量某物理量,设测量误差 ,则总体就是正态分布

总体密度:

参数 描述了测量仪器的系统偏差和精度。


二、样本

定义

定义 5.1.2 — 样本

从总体 中随机抽取的 个个体 称为来自总体 的一个样本(sample)。 称为样本容量(sample size)。

样本 是一个 维随机向量,其联合分布由抽样方式决定。

样本的二重性

样本具有二重性(duality),这是理解统计推断的关键:

层面样本的性质符号表示用途
理论层面(抽样前)随机变量大写 建立统计理论、推导分布
观测层面(抽样后)具体数值小写 实际计算、数据分析

关键理解:统计推断在理论层面进行——我们研究统计量(样本的函数)的分布,然后用观测值代入计算。二重性是连接理论与实际的桥梁。

例题

例 5.1.3 — 啤酒净含量

某啤酒厂生产瓶装啤酒,标称净含量为 640 mL。随机抽取 25 瓶,测量净含量(单位:mL)如下:

  • 总体 :该厂生产的每瓶啤酒的净含量,假设
  • 样本容量
  • 抽样前: 是 25 个随机变量
  • 抽样后: 是 25 个具体数值

完全样本与分组样本

类型定义特点
完全样本保留每个观测值 信息完整,可进行任意统计分析
分组样本只保留各区间的频数信息有损失,但数据量大时常用

例 5.1.4 — 分组样本

对 100 只电子元件进行寿命测试(单位:小时),结果整理为如下频数分布表:

寿命区间频数
5
12
25
30
18
10

这就是一个分组样本——我们只知道每个区间有多少个观测值,但不知道每个观测值的具体数值。


三、简单随机抽样

定义

定义 5.1.3 — 简单随机抽样(Simple Random Sampling)

满足以下两个条件的抽样称为简单随机抽样

  1. 代表性:总体中每个个体被抽到的概率相同
  2. 独立性:各次抽取互不影响

数学表述: 独立同分布(i.i.d.),每个 与总体 同分布。

联合分布

设总体 的分布函数为 ,则简单随机样本 的联合分布为:

连续型总体(密度函数 ):

离散型总体(分布列 ):

i.i.d. 假设的意义

i.i.d. 假设是整个经典统计推断的理论基础。它包含两个核心要素:

要素含义统计意义
同分布(Identically Distributed)每个 与总体 分布相同保证样本具有代表性,能反映总体特征
独立(Independent) 之间互不影响保证信息不冗余, 个样本提供 份独立信息

i.i.d. 假设的直观理解

同分布就像”公平抽样”——不管抽到谁,都代表总体。独立性就像”每次重新洗牌”——前面抽到的结果不影响后面。如果抽样不公平(如只从特定群体抽取),则样本不能代表总体;如果样本之间有依赖关系(如不放回抽样),则需要修正统计方法。


四、有限总体不放回抽样

背景

从有限总体(容量为 )中不放回抽取 个个体时, 虽然同分布,但不独立——因为抽走一个个体后,剩余个体的分布会发生变化。

例 5.1.5 — 产品检验

一批产品共 件,其中含 10 件次品。从中不放回抽取 3 件,设 为第 次抽到的结果(1 表示次品,0 表示正品)。

  • (如果第一次抽到次品)
  • (如果第一次抽到正品)

虽然 同分布(边际分布都是 ),但它们不独立。

关键区别

抽样方式独立性同分布适用条件
放回抽样独立同分布任何情况
不放回抽样不独立同分布有限总体
不放回抽样(近似)近似独立同分布

经验法则

当抽样比例 (即抽样不超过总体的 10%)时,不放回抽样中个体之间的依赖性足够弱,可以近似视为 i.i.d.。这一经验法则在实际应用中广泛使用。

不放回抽样下样本均值的期望和方差

设有限总体为 (均匀总体),从中不放回抽取 个,样本均值为 ,则:

证明

证明

第一步:计算均匀总体 的期望和方差。

第二步:计算期望 不放回抽样时 同分布(每个 都从 中等概率抽取),故

第三步:展开方差 利用方差的展开公式(注意:不放回抽样中 不独立,):

第四步:计算 )。 利用对称性和 的方差为零(常数不随机):

解得 (负号表示:抽走一个大的值后,剩余值偏小)。

第五步:代入求方差。

第六步:与 i.i.d. 对比。 i.i.d. 时 ,不放回时多了一个因子 ,正是由于不独立性导致的方差缩减


五、经验分布函数

定义

定义 5.1.4 — 经验分布函数(Empirical Distribution Function)

是来自总体 (分布函数 )的简单随机样本, 是样本观测值。将观测值从小到大排列为次序统计量 ,则经验分布函数定义为:

其中 为示性函数(indicator function),当 时取 1,否则取 0。

等价的阶梯函数形式

例题

例 5.1.6 — 饮料净含量的经验分布函数

某品牌饮料标称净含量为 500 mL,随机抽取 10 瓶测量,得到如下数据(单位:mL):

排序得:

经验分布函数:

经验分布函数的性质

经验分布函数的性质

是来自总体 的经验分布函数,则:

性质 1 是一个合法的分布函数(非降、右连续、

性质 2:对任意固定的 (二项分布)

性质 3

性质 1 的证明

证明:需验证 满足分布函数的三条基本性质。

第一步:非降性

对任意 ,有 ,因此:

求和并除以 ,得

第二步:右连续性

是阶梯函数,仅在 处有跳跃。在每个跳跃点处, 取右极限值(定义中 包含等号),因此 右连续。

第三步:极限值验证

  • 时,,故
  • 时,(必然事件),故

三条性质全部满足,故 是合法的分布函数。

性质 2 和性质 3 的证明

证明

第一步:引入示性函数并建立 i.i.d. 结构

对固定的 ,定义示性函数 。由于 i.i.d.,故 也是 i.i.d. 的 Bernoulli 随机变量:

第二步:证明性质 2(二项分布)

的定义,,这是 个 i.i.d. 之和,因此:

第三步:证明性质 3(期望与方差)

利用二项分布的期望和方差公式:

格利文科定理

定理 5.1.1 — 格利文科定理(Glivenko-Cantelli Theorem)

是来自总体 的经验分布函数,则:

一致收敛(几乎必然)。

格利文科定理的意义

维度含义
数学意义经验分布函数 以概率 1 一致收敛到真实分布函数
统计意义当样本量 充分大时,可以用 作为 的非参数估计
大数定律的关系格利文科定理是强大数定律在分布函数层面的推广——大数定律说”频率收敛到概率”(逐点),格利文科定理说”经验分布函数一致收敛到真实分布函数”(一致)

关键区别:大数定律只保证在每个固定点 ,格利文科定理进一步保证了在==所有 上同时一致收敛==,这是一个更强的结论。

格利文科定理的证明思路

证明思路:该定理的完整证明涉及测度论中的可数性论证,此处给出核心框架。

第一步:将一致收敛分解为有限个点的逐点收敛

上的分布函数 ,取其至多可数个间断点 。对任意 ,在每个间断点附近构造小区间,使得 在每个小区间上的跳跃不超过 。这样, 的控制可以归结为有限个点上的逐点偏差控制。

第二步:在每个固定点应用大数定律

由性质 3 知 ,且 。由 Chebyshev 不等式 + Borel-Cantelli 引理(或直接用 Kolmogorov 强大数定律),对每个固定的

第三步:利用有限覆盖实现一致控制

用有限个区间覆盖,在每个区间端点处 收敛到 。再利用 的单调性,将端点处的收敛推广到整个区间上的一致收敛,最终得到:


六、知识结构总览

graph TD
    A["5.1 总体与样本"] --> B["总体与个体"]
    A --> C["样本"]
    A --> D["简单随机抽样"]
    A --> E["不放回抽样"]
    A --> F["经验分布函数"]
    B --> B1["总体=概率分布"]
    B --> B2["有限/无限总体"]
    C --> C1["样本二重性"]
    C --> C2["完全/分组样本"]
    D --> D1["i.i.d.假设"]
    D --> D2["联合分布"]
    E --> E1["不独立但同分布"]
    E --> E2["n/N≤0.1近似"]
    F --> F1["定义与性质"]
    F --> F2["格利文科定理"]
    style A fill:#f5f5f5,color:#424242
    style B fill:#e8f5e9,color:#2e7d32
    style C fill:#e8f5e9,color:#2e7d32
    style D fill:#fff3e0,color:#e65100
    style E fill:#fff3e0,color:#e65100
    style F fill:#e3f2fd,color:#1565c0
    style F2 fill:#fce4ec,color:#c62828

七、核心思想与证明技巧

总体 = 分布的思想

数理统计的研究对象不是具体的数据集合,而是产生数据的概率分布。这一思想是数理统计与描述性统计的根本区别:

  • 描述性统计:对已有数据进行总结和展示(均值、方差、直方图等)
  • 推断统计:从样本数据出发,推断总体分布的未知特征(参数估计、假设检验等)

样本二重性

层面样本统计量
理论 是随机变量 也是随机变量
观测 是具体数值 是具体数值

统计推断在理论层面进行:先研究统计量 的分布(抽样分布),然后用观测值 进行推断。

i.i.d. 假设的意义

i.i.d. 假设将复杂的多维随机变量问题简化为”一个随机变量的 次独立重复”,使得:

  • 联合分布可以写成边际分布的乘积
  • 样本均值 的期望等于总体期望
  • 样本均值 的方差等于总体方差除以

格利文科定理的价值

格利文科定理将经验分布函数提升为总体分布的非参数一致估计

  • 不需要对总体分布做任何参数假设(非参数)
  • 时, 以概率 1 一致逼近 (一致性)
  • 这是 Kolmogorov-Smirnov 检验等非参数方法的理论基础

八、补充理解与易混淆点

”总体就是一堆数据”

来源:茆诗松教材§5.1(p223) + 卡方核心笔记(p1) + Wiley”The sample is not the population” + Duke大学讲义Lecture9 + CSDN”用批判性思维看透数据”

误区1:"总体就是一堆数据的集合"

❌ 总体不是数据集合,而是概率分布。数据只是总体的一次实现(样本观测值)。 ✅ 总体是某个数量指标 的分布 。研究”全国大学生身高”的总体是身高这个随机变量的分布 ,不是”所有大学生”这个物理集合。参数 描述总体,统计量 描述样本。

“样本量越大结论就一定越可靠”

来源:茆诗松教材§5.1(p225) + 卡方核心笔记(p3) + 鲲鹏智写”统计分析常见误区” + 图灵社区”Literary Digest案例” + CSDN”数据背后的陷阱”

误区2:"只要样本量足够大,结论就一定可靠"

❌ 样本量只减小抽样误差(sampling error),无法修复抽样偏差(sampling bias)。1936年美国《文学文摘》用240万份问卷预测总统选举却预测错误,因为样本偏向高收入人群。 ✅ 代表性和独立性比样本量更重要。便利抽样、选择性剔除、无应答偏差都会造成有偏样本,增大样本量只会”更精确地得到错误答案”。

“不放回抽样可以当作 i.i.d. 处理”

来源:茆诗松教材§5.1(p226) + 卡方核心笔记(p4) + book118”统计易错点” + 51CTO”总体个体样本辨析” + CMU 36-705 Lecture Notes

误区3:"不放回抽样可以当作 i.i.d. 处理"

❌ 不放回抽样中 虽然同分布,但不独立(抽走一个个体会影响剩余个体的分布)。只有当抽样比例 时,依赖性足够弱,才能近似为 i.i.d.。 ✅ 不放回抽样下样本均值的方差为 (均匀总体),比 i.i.d. 时的 多了一个因子 ,正是由于不独立性导致的方差缩减。


九、习题精选

习题概览

编号题目来源知识点难度
1教材5.1-1总体与样本概念辨析★☆☆
2教材5.1-3样本联合分布★★☆
3教材5.1-5不放回抽样概率计算★★☆
4教材5.1-7经验分布函数计算★★☆
5教材5.1-8格利文科定理理解★★☆
6教材5.1-附加样本均值 vs 样本中位数★★★
72012东北师大432统计量定义★☆☆
82019郑州大学432样本均值/中位数★☆☆
92012华东师大432经验分布函数期望方差★★☆
102018大连理工432无偏估计+次序统计量★★★

习题1 — 教材5.1-1:总体与样本概念辨析

习题1 — 教材5.1-1

总体是分布还是数据集合?样本的二重性是什么?请举例说明。

习题2 — 教材5.1-3:样本联合分布

习题2 — 教材5.1-3

是来自标准正态总体 的简单随机样本,求样本的联合密度函数。

习题3 — 教材5.1-5:不放回抽样概率计算

习题3 — 教材5.1-5

一批产品共 件,其中含 10 件次品。从中不放回抽取 3 件,求恰好抽到 1 件次品的概率。

习题4 — 教材5.1-7:经验分布函数计算

习题4 — 教材5.1-7

设样本观测值为 ,求经验分布函数

习题5 — 教材5.1-8:格利文科定理理解

习题5 — 教材5.1-8

格利文科定理说明了什么?它与强大数定律有何区别?

习题6 — 教材5.1-附加:样本均值的极值性质

习题6 — 教材5.1-附加

为样本观测值,证明使 最小的 是样本均值

习题7 — 2012东北师大432:统计量定义

习题7 — 2012东北师大432

为样本。考虑 取何值时 不是统计量?

习题8 — 2019郑州大学432:样本均值与中位数

习题8 — 2019郑州大学432

为样本观测值。使 最小的 是?使 最小的 是?

习题9 — 2012华东师大432:经验分布函数的期望与方差

习题9 — 2012华东师大432

是来自总体 的经验分布函数。求 ,并说明 服从什么分布。

习题10 — 2018大连理工432:无偏估计与次序统计量

习题10 — 2018大连理工432

是来自均匀总体 的简单随机样本。证明 都是 的无偏估计。


十、教材原文

以下为教材扫描版原文,可点击翻阅。


第五章 统计量及其分布/总体与样本