5.2 样本数据的整理与显示
本节概览
本节介绍样本数据的整理与图形显示方法,是描述统计的核心工具。主要包括:经验分布函数(理论工具)、频数频率表(数值整理)、直方图(连续数据图形化)、茎叶图(小数据集图形化)。
逻辑链条:原始数据 → 有序样本与经验分布函数 → 频数频率表(分组整理) → 直方图(图形显示) → 茎叶图(保留原始信息)
前置依赖:§5.1(总体与样本概念、经验分布函数定义与性质)、§2.4(二项分布)
核心主线:从杂乱的原始数据出发,通过有序化、分组、图形化等手段,揭示数据的分布特征(集中趋势、离散程度、分布形态),为后续的统计推断奠定基础。
一、经验分布函数的构造与应用
经验分布函数的定义和性质已在 §5.1 中详细讨论(定义5.1.4、经验分布函数三大性质及证明、格利文科定理)。本节重点放在构造方法和实际应用上。
有序样本
定义 5.2.1 — 有序样本
设 是来自总体 的样本观测值,将它们按从小到大排列:
称 为有序样本(order statistics),其中 称为第 个次序统计量。
经验分布函数的构造步骤
回顾 定义 5.1.4,经验分布函数 的构造步骤为:
- 排序:将原始数据从小到大排列得到有序样本
- 分段:以每个 为分段点
- 计数:对任意 ,统计 的个数
- 赋值:
例 5.2.1 — 饮料净重经验分布函数
某饮料厂抽查 5 瓶饮料的净重(ml),数据为:。
解:
排序得有序样本:
经验分布函数:
注意: 处有两个观测值,因此 在该处跳跃 (而非 )。
格利文科定理(回顾)
定理 5.2.1 — 格利文科定理(Glivenko-Cantelli Theorem)
设 是来自总体 的经验分布函数,则:
即 一致收敛到 (几乎必然)。
定理意义
格利文科定理保证了当样本量 充分大时,经验分布函数 可以作为总体分布函数 的良好近似。这是经典非参数统计的基石——不需要假设总体分布的具体形式,直接用数据来估计分布。
详细证明见 §5.1 格利文科定理的证明思路。
二、频数频率表
当样本量较大时,逐点构造经验分布函数不够直观。频数频率表通过分组的方式对数据进行整理,是描述统计中最常用的数值整理方法。
分组步骤
定义 5.2.2 — 频数频率表
将样本数据按取值范围分成若干区间(组),统计落入每个区间的数据个数(频数),并计算频率和累计频率,所得表格称为频数频率表。
编制频数频率表的标准步骤:
第一步:确定组数
组数的选择取决于样本量 ,可参考以下经验规则:
| 样本量 | 推荐组数 |
|---|---|
| 5 ~ 6 | |
| 7 ~ 10 | |
| 9 ~ 13 | |
| 12 ~ 20 |
也可以使用 Sturges 公式:(取整)。
第二步:确定组距
组距 通常取整数或方便计算的值(如 5, 10, 50, 100 等),实际组距可能略大于计算值。
第三步:确定组限
确定每组的下限和上限 ,使得:
- 略小于最小值
- 略大于最大值
- 每个区间为左开右闭 (或左闭右开,需统一)
第四步:统计频数、计算频率
对每组统计频数 ,计算频率 和累计频率。
例 5.2.2 — 20名工人产量频数频率表
某车间 20 名工人的日产量(件)为:
解:
第一步:,取 组。
第二步:,,,取 。
第三步:取 ,组限为 。
第四步:统计得频数频率表:
组序 分组区间 组中值 频数 频率 累计频率 1 152 4 0.20 20% 2 162 8 0.40 60% 3 172 5 0.25 85% 4 182 2 0.10 95% 5 192 1 0.05 100% 合计 — — 20 1.00 —
分组注意事项
- 组距 应统一(等距分组),便于比较和绘图
- 组限的取法需统一(左开右闭或左闭右开),避免数据落在边界上时产生歧义
- 频数频率表的信息损失:分组后丢失了组内数据的具体值,只保留了”落在哪个区间”的信息
三、直方图
直方图是频数频率表的图形化表示,能直观展示数据的分布形态(集中趋势、离散程度、偏态等)。
三种直方图
定义 5.2.3 — 频数直方图
以分组区间为底边,以该组的频数为高的矩形所组成的图形。纵轴表示频数。
定义 5.2.4 — 频率直方图
以分组区间为底边,以该组的频率为高的矩形所组成的图形。纵轴表示频率。
定义 5.2.5 — 单位频率直方图
以分组区间为底边,以该组的频率/组距为高的矩形所组成的图形。纵轴表示频率密度。
三种直方图的核心区别
类型 纵轴含义 矩形面积 面积之和 与密度曲线关系 频数直方图 频数 频数 × 组距 (无特殊意义) — 频率直方图 频率 频率 × 组距 (无特殊意义) — 单位频率直方图 频率/组距 频率 逼近概率密度函数 关键结论:三种直方图的图形形状完全相同(因为等距分组,各组宽度一样,只是纵轴的”刻度”不同)。但只有单位频率直方图的矩形面积之和为 1,当 、组距 时,其阶梯形折线逼近总体概率密度函数 。
直方图与条形图的区别
| 特征 | 直方图 | 条形图 |
|---|---|---|
| 数据类型 | 连续型数值数据 | 离散型/分类数据 |
| 横轴 | 数值区间(有实际含义) | 类别标签(无顺序含义) |
| 矩形间隔 | 无间隔(连续排列) | 有间隔 |
| 矩形宽度 | 有实际含义(= 组距) | 无实际含义(可任意调整) |
| 矩形含义 | 面积表示频率(单位频率直方图) | 高度表示频数 |
四、茎叶图
茎叶图(stem-and-leaf plot)是另一种数据展示方法,由 Tukey 于 1977 年提出。其最大特点是保留全部原始数据信息。
构造方法
定义 5.2.6 — 茎叶图
将每个数据分为”茎”(高位数字)和”叶”(低位数字)两部分,将茎按大小纵向排列,叶按大小横向排列在同一行中,所得图形称为茎叶图。
构造步骤:
- 确定茎和叶:将数据分为两部分。例如两位数可取十位为茎、个位为叶;三位数可取百位和十位为茎、个位为叶
- 列茎:将所有不同的茎按从小到大纵向排列
- 添叶:对每个数据,将叶写在对应茎的行上,叶按从小到大排列
例 5.2.3 — 50名应聘人员成绩茎叶图
某公司招聘,50 名应聘人员的测试成绩为:
解:取十位及以上为茎,个位为叶:
茎 | 叶 ---|---------------------------------- 6 | 4 7 7 | 0 2 3 4 6 7 8 9 8 | 0 1 1 2 3 4 5 6 6 7 8 9 9 9 | 0 1 2 3 4 5 6 7 8 9 10 | 0 1 2 3 4 5 6 7 8 11 | 0 2 5 8 12 | 0 5 8 13 | 3从茎叶图可以看出:数据集中在 80~99 分之间,呈近似正态分布。
背靠背茎叶图
当需要比较两组样本的分布时,可以使用背靠背茎叶图:两组数据共用一个茎,分别向左右两侧展开叶。
例 5.2.4 — 两车间产量背靠背茎叶图
甲、乙两车间各 40 名工人的日产量数据如下(略),构造背靠背茎叶图比较两车间产量分布。
解:
甲车间 茎 乙车间 ---------------------------|----|--------------------------- 8 7 5 3 2 34 | 1 3 5 6 9 8 7 6 5 4 3 35 | 2 4 5 7 8 9 8 7 6 5 5 4 3 2 36 | 0 1 3 4 5 6 7 8 9 8 7 6 5 4 3 2 1 37 | 0 2 3 4 5 6 7 9 9 8 7 6 5 4 3 2 1 0 38 | 1 3 4 5 6 7 8 9 9 8 7 6 5 4 3 2 1 0 0 39 | 0 2 4 5 6 7 8 9 8 7 6 5 4 3 2 1 0 40 | 1 3 5 6 8 9 8 7 6 5 4 3 2 1 41 | 0 2 4 7 8 7 6 5 4 42 | 1 3 5 8 7 5 43 | 2 4 8 5 44 | 3 7 45 | 5 5 46 |从背靠背茎叶图可以看出:甲车间产量集中在 38
41 件,乙车间产量集中在 3740 件,甲车间整体产量略高于乙车间。
茎叶图的优缺点
优点:
- 保留全部原始数据信息(不像直方图那样丢失组内细节)
- 可以直观看出数据的分布形态(对称性、集中趋势、离群值)
- 背靠背茎叶图便于两组数据对比
缺点:
- 仅适用于中小样本( 左右)
- 数据过于分散时(取值范围大但数据少),茎叶图效果差
- 不适合多组数据同时比较(超过两组时图形复杂)
五、知识结构总览
graph TD A["5.2 样本数据的整理与显示"] --> B["有序样本"] A --> C["经验分布函数"] A --> D["频数频率表"] A --> E["直方图"] A --> F["茎叶图"] B --> C D --> E C --> C1["构造步骤"] C --> C2["格利文科定理"] D --> D1["确定组数"] D --> D2["确定组距"] D --> D3["确定组限"] D --> D4["统计频数"] E --> E1["频数直方图"] E --> E2["频率直方图"] E --> E3["单位频率直方图"] F --> F1["单组茎叶图"] F --> F2["背靠背茎叶图"]
六、核心思想与技巧
数据整理方法的选择
| 场景 | 推荐方法 | 理由 |
|---|---|---|
| 小样本() | 经验分布函数 + 茎叶图 | 保留全部信息,不损失精度 |
| 中等样本() | 频数频率表 + 直方图 | 分组整理兼顾直观性 |
| 大样本() | 频数频率表 + 直方图 | 数据量大,分组整理更高效 |
| 两组数据对比 | 背靠背茎叶图 | 直观比较分布差异 |
| 需要估计总体分布 | 单位频率直方图 | 面积和为 1,逼近密度函数 |
分组数与组距的经验法则
- 组数太少 → 信息损失严重,分布形态被”抹平”
- 组数太多 → 每组频数过少,随机波动干扰判断
- Sturges 公式 给出了一个合理的起点
- 实际操作中可尝试多个 值,选择最能反映数据分布特征的那个
七、补充理解与易混淆点
三种直方图纵轴含义混淆
来源:茆诗松《概率论与数理统计》§5.2 p229-230 + 国家统计局《直方图》统计百科 + CSDN《掌握直方图:频数与频率的区别与应用详解》 + bookdown《统计考研复习参考》Ch5 + FineReport《直方图适合哪些数据分布》
误区1:"直方图的纵轴就是频数"
❌ 错误解释:认为所有直方图的纵轴都表示频数,矩形高度直接代表数据个数。 ✅ 正确解释:直方图有三种类型,纵轴含义各不相同。频数直方图纵轴是频数,频率直方图纵轴是频率,单位频率直方图纵轴是”频率/组距”(频率密度)。只有单位频率直方图的矩形面积之和为 1,才能逼近概率密度曲线。三种直方图在等距分组下图形形状相同,但纵轴刻度和面积含义完全不同。
直方图与条形图混淆
来源:茆诗松《概率论与数理统计》§5.2 p229 + 国家统计局《直方图》统计百科 + 原创力文档《直方图教学课件》 + book118《频数直方图复习知识清单》 + CSDN《python绘制直方图方法详解》
误区2:"直方图就是竖起来的条形图"
❌ 错误解释:认为直方图和条形图本质相同,只是方向不同。 ✅ 正确解释:直方图用于连续型数值数据,横轴是数值区间,矩形之间无间隔,矩形的宽度有实际含义(= 组距),面积表示频率(单位频率直方图)。条形图用于离散型/分类数据,横轴是类别标签,条形之间有间隔,条形宽度无实际含义,高度表示频数。两者适用场景完全不同。
茎叶图适用条件误用
来源:茆诗松《概率论与数理统计》§5.2 p231-232 + 习题解答本 p222-223 + 卡方核心笔记 + bookdown《统计考研复习参考》Ch5 + CSDN《数理统计-5.2样本数据的整理和显示》
误区3:"茎叶图适用于任何数据集"
❌ 错误解释:认为茎叶图是万能的数据展示工具,可以替代直方图。 ✅ 正确解释:茎叶图仅适用于中小样本(通常 ),且数据不宜过于分散。当样本量很大或数据取值范围很宽时,茎叶图会变得非常冗长、难以阅读。此时应改用频数频率表 + 直方图。茎叶图的最大优势是保留全部原始数据信息,这是直方图做不到的。
八、习题精选
习题概览
编号 题目来源 知识点 难度 1 教材 5.2-1 经验分布函数构造 ★★☆ 2 教材 5.2-2 分组样本经验分布函数 ★★★ 3 教材 5.2-3 频率分布表与直方图 ★★★ 4 教材 5.2-4 频率分布表补充 ★★☆ 5 教材 5.2-5 频数分布表与直方图 ★★★ 6 教材 5.2-6 茎叶图构造 ★★☆ 7 2012兰州大学432(卡方4.1-4):卡方分布自由度判定 统计量分布识别 ★★★ 8 2014兰州大学432(卡方4.1-6):正态抽样定理证明 正态抽样分布 ★★★★ 9 2017中央财经大学432(卡方4.1-1):统计量概念辨析 统计量概念辨析 ★★★ 10 2013兰州大学432(卡方4.1-2):样本均值方差计算 样本数字特征 ★★★
习题1 — 教材5.2-1:经验分布函数构造
设 10 名工人的产品数为:。求经验分布函数 并作图。
查看解答
解:
排序得有序样本:
经验分布函数:
习题2 — 教材5.2-2:分组样本的经验分布函数
设有分组样本如下表:
区间 频数 3 4 8 3 2 求经验分布函数 。
查看解答
解:
总频数 。累计频率:
- :累计频率
- :累计频率
- :累计频率
- :累计频率
- :累计频率
习题3 — 教材5.2-3:频率分布表与直方图
某地区 30 名毕业生的起薪(元)为:
试编制频率分布表(分 6 组)并画出直方图。
查看解答
解:
排序后:,。
组距 ,取 。
取 ,分组区间为:
组序 分组区间 组中值 频数 频率 累计频率 1 8050 2 0.067 6.7% 2 9450 10 0.333 40.0% 3 10850 14 0.467 86.7% 4 12250 2 0.067 93.3% 5 13650 1 0.033 96.7% 6 15050 1 0.033 100.0% 合计 — — 30 1.000 — 直方图略(以分组区间为底边,以频数/频率/频率密度为高即可)。
习题4 — 教材5.2-4:频率分布表补充
某企业 250 名职工上班所需时间(分钟)的频率分布表如下:
分组区间 频率 0.10 0.24 0.18 0.14 ? 求:(1)空缺的频率;(2)上班时间不超过 60 分钟的职工人数。
查看解答
解:
(1)空缺频率
(2)上班时间不超过 60 分钟的频率
职工人数 人
习题5 — 教材5.2-5:频数分布表与直方图
某图书馆 40 种刊物的月发行量(册)为:
试建立频数分布表并画直方图。
查看解答
解:
,。
取组距 ,则 ,取 ,。
取 ,分组区间为 。
组序 分组区间 组中值 频数 频率 1 1150 10 0.250 2 2850 5 0.125 3 4550 7 0.175 4 6250 5 0.125 5 7950 4 0.100 6 9650 4 0.100 7 11350 3 0.075 8 13050 1 0.025 9 14750 1 0.025 10 16450 0 0.000 11 18150 0 0.000 12 19850 0 0.000 13 21550 0 0.000 直方图略。
习题6 — 教材5.2-6:茎叶图构造
32 名学生的数学成绩为:
试构造茎叶图。
查看解答
解:取百位和十位为茎,个位为叶:
茎 | 叶 ---|---------------------------------- 34 | 5 8 35 | 2 6 8 36 | 2 5 8 37 | 0 2 5 8 38 | 0 2 5 8 39 | 0 2 5 8 40 | 0 5 8 41 | 2 5 8 42 | 0 5 43 | 0 5 44 | 0 8数据集中在 370~400 之间,呈近似对称分布。
习题7 — 2012兰州大学432(卡方4.1-4):卡方分布自由度判定
设 是来自正态总体 的样本,判断下列统计量服从什么分布,并指出自由度: (1);(2)
查看解答
解:
(1),故 。
由卡方分布的可加性( 独立):
(2),,且两者独立。
由 分布的定义:
习题8 — 2014兰州大学432(卡方4.1-6):正态抽样定理证明
设 是来自正态总体 的样本,,。证明: (1) 与 独立; (2)。
查看解答
证明:
第一步:构造正交矩阵
作正交变换 ,其中 为正交矩阵,第一行为 ,使得 。
第二步:利用正交变换的性质
由于 正交, 仍为独立正态随机变量,且:
第三步:分解偏差平方和
由正交变换保范数:
因此 仅依赖于 , 仅依赖于 。由独立性得 与 独立。(结论 1)
第四步:证明卡方分布
由于 ()且相互独立,故:
习题9 — 2017中央财经432(卡方4.1-1):统计量概念辨析
设 是来自正态总体 的样本,其中 已知、 未知。判断下列哪些是统计量: (1);(2);(3);(4)
查看解答
解:
统计量的定义:样本的函数,且不含未知参数。
(1):不含未知参数 → ✅ 是统计量
(2): 已知,不含未知参数 → ✅ 是统计量
(3): 未知 → ❌ 不是统计量
(4): 已知 → ✅ 是统计量
习题10 — 2013兰州大学432(卡方4.1-2):样本均值方差计算
设 是来自总体 的样本,,。求: (1) 和 ; (2)。
查看解答
解:
(1)由期望的线性性和独立性:
(2)利用恒等式 :
九、本节小结
本节介绍了描述统计中三种核心的数据整理与显示方法:
| 方法 | 适用场景 | 优点 | 局限 |
|---|---|---|---|
| 经验分布函数 | 小样本,需要精确分布估计 | 保留全部信息,有理论支撑(格利文科定理) | 大样本时阶梯过多,不够直观 |
| 频数频率表 + 直方图 | 中大样本,需要观察分布形态 | 直观展示集中趋势、离散程度、偏态 | 分组后丢失组内信息,结果依赖分组方式 |
| 茎叶图 | 小样本(),需要保留原始数据 | 保留全部数据信息,可做背靠背对比 | 大样本或数据分散时不适用 |
核心要点:
- 三种直方图(频数/频率/单位频率)图形形状相同,但纵轴含义和面积含义不同
- 只有单位频率直方图的面积和为 1,可逼近概率密度函数
- 数据整理方法的选择取决于样本量和分析目的
十、教材原文
以下为教材扫描版原文,可点击翻阅。
第五章 统计量及其分布/数据整理