5.2 样本数据的整理与显示

本节概览

本节介绍样本数据的整理与图形显示方法,是描述统计的核心工具。主要包括:经验分布函数(理论工具)、频数频率表(数值整理)、直方图(连续数据图形化)、茎叶图(小数据集图形化)。

逻辑链条:原始数据 → 有序样本与经验分布函数频数频率表(分组整理)直方图(图形显示)茎叶图(保留原始信息)

前置依赖§5.1(总体与样本概念、经验分布函数定义与性质)、§2.4(二项分布)

核心主线:从杂乱的原始数据出发,通过有序化、分组、图形化等手段,揭示数据的分布特征(集中趋势、离散程度、分布形态),为后续的统计推断奠定基础。


一、经验分布函数的构造与应用

经验分布函数的定义和性质已在 §5.1 中详细讨论(定义5.1.4、经验分布函数三大性质及证明、格利文科定理)。本节重点放在构造方法实际应用上。

有序样本

定义 5.2.1 — 有序样本

是来自总体 的样本观测值,将它们按从小到大排列:

有序样本(order statistics),其中 称为第 次序统计量

经验分布函数的构造步骤

回顾 定义 5.1.4,经验分布函数 的构造步骤为:

  1. 排序:将原始数据从小到大排列得到有序样本
  2. 分段:以每个 为分段点
  3. 计数:对任意 ,统计 的个数
  4. 赋值

例 5.2.1 — 饮料净重经验分布函数

某饮料厂抽查 5 瓶饮料的净重(ml),数据为:

排序得有序样本:

经验分布函数:

注意: 处有两个观测值,因此 在该处跳跃 (而非 )。

格利文科定理(回顾)

定理 5.2.1 — 格利文科定理(Glivenko-Cantelli Theorem)

是来自总体 的经验分布函数,则:

一致收敛(几乎必然)。

定理意义

格利文科定理保证了当样本量 充分大时,经验分布函数 可以作为总体分布函数 的良好近似。这是经典非参数统计的基石——不需要假设总体分布的具体形式,直接用数据来估计分布。

详细证明见 §5.1 格利文科定理的证明思路


二、频数频率表

当样本量较大时,逐点构造经验分布函数不够直观。频数频率表通过分组的方式对数据进行整理,是描述统计中最常用的数值整理方法。

分组步骤

定义 5.2.2 — 频数频率表

将样本数据按取值范围分成若干区间(组),统计落入每个区间的数据个数(频数),并计算频率和累计频率,所得表格称为频数频率表

编制频数频率表的标准步骤:

第一步:确定组数

组数的选择取决于样本量 ,可参考以下经验规则:

样本量 推荐组数
5 ~ 6
7 ~ 10
9 ~ 13
12 ~ 20

也可以使用 Sturges 公式:(取整)。

第二步:确定组距

组距 通常取整数或方便计算的值(如 5, 10, 50, 100 等),实际组距可能略大于计算值。

第三步:确定组限

确定每组的下限和上限 ,使得:

  • 略小于最小值
  • 略大于最大值
  • 每个区间为左开右闭 (或左闭右开,需统一)

第四步:统计频数、计算频率

对每组统计频数 ,计算频率 和累计频率。

例 5.2.2 — 20名工人产量频数频率表

某车间 20 名工人的日产量(件)为:

第一步,取 组。

第二步,取

第三步:取 ,组限为

第四步:统计得频数频率表:

组序分组区间组中值频数频率累计频率
115240.2020%
216280.4060%
317250.2585%
418220.1095%
519210.05100%
合计201.00

分组注意事项

  • 组距 应统一(等距分组),便于比较和绘图
  • 组限的取法需统一(左开右闭或左闭右开),避免数据落在边界上时产生歧义
  • 频数频率表的信息损失:分组后丢失了组内数据的具体值,只保留了”落在哪个区间”的信息

三、直方图

直方图是频数频率表的图形化表示,能直观展示数据的分布形态(集中趋势、离散程度、偏态等)。

三种直方图

定义 5.2.3 — 频数直方图

以分组区间为底边,以该组的频数为高的矩形所组成的图形。纵轴表示频数。

定义 5.2.4 — 频率直方图

以分组区间为底边,以该组的频率为高的矩形所组成的图形。纵轴表示频率。

定义 5.2.5 — 单位频率直方图

以分组区间为底边,以该组的频率/组距为高的矩形所组成的图形。纵轴表示频率密度。

三种直方图的核心区别

类型纵轴含义矩形面积面积之和与密度曲线关系
频数直方图频数频数 × 组距(无特殊意义)
频率直方图频率频率 × 组距(无特殊意义)
单位频率直方图频率/组距频率逼近概率密度函数

关键结论:三种直方图的图形形状完全相同(因为等距分组,各组宽度一样,只是纵轴的”刻度”不同)。但只有单位频率直方图的矩形面积之和为 1,当 、组距 时,其阶梯形折线逼近总体概率密度函数

直方图与条形图的区别

特征直方图条形图
数据类型连续型数值数据离散型/分类数据
横轴数值区间(有实际含义)类别标签(无顺序含义)
矩形间隔无间隔(连续排列)有间隔
矩形宽度有实际含义(= 组距)无实际含义(可任意调整)
矩形含义面积表示频率(单位频率直方图)高度表示频数

四、茎叶图

茎叶图(stem-and-leaf plot)是另一种数据展示方法,由 Tukey 于 1977 年提出。其最大特点是保留全部原始数据信息

构造方法

定义 5.2.6 — 茎叶图

将每个数据分为”茎”(高位数字)和”叶”(低位数字)两部分,将茎按大小纵向排列,叶按大小横向排列在同一行中,所得图形称为茎叶图

构造步骤

  1. 确定茎和叶:将数据分为两部分。例如两位数可取十位为茎、个位为叶;三位数可取百位和十位为茎、个位为叶
  2. 列茎:将所有不同的茎按从小到大纵向排列
  3. 添叶:对每个数据,将叶写在对应茎的行上,叶按从小到大排列

例 5.2.3 — 50名应聘人员成绩茎叶图

某公司招聘,50 名应聘人员的测试成绩为:

:取十位及以上为茎,个位为叶:

茎 | 叶
---|----------------------------------
 6 | 4 7
 7 | 0 2 3 4 6 7 8 9
 8 | 0 1 1 2 3 4 5 6 6 7 8 9 9
 9 | 0 1 2 3 4 5 6 7 8 9
10 | 0 1 2 3 4 5 6 7 8
11 | 0 2 5 8
12 | 0 5 8
13 | 3

从茎叶图可以看出:数据集中在 80~99 分之间,呈近似正态分布。

背靠背茎叶图

当需要比较两组样本的分布时,可以使用背靠背茎叶图:两组数据共用一个茎,分别向左右两侧展开叶。

例 5.2.4 — 两车间产量背靠背茎叶图

甲、乙两车间各 40 名工人的日产量数据如下(略),构造背靠背茎叶图比较两车间产量分布。

   甲车间                    茎    乙车间
---------------------------|----|---------------------------
             8 7 5 3 2      34  |  1 3 5 6
           9 8 7 6 5 4 3    35  |  2 4 5 7 8 9
         8 7 6 5 5 4 3 2    36  |  0 1 3 4 5 6 7 8
       9 8 7 6 5 4 3 2 1    37  |  0 2 3 4 5 6 7 9
     9 8 7 6 5 4 3 2 1 0    38  |  1 3 4 5 6 7 8 9
   9 8 7 6 5 4 3 2 1 0 0    39  |  0 2 4 5 6 7 8
 9 8 7 6 5 4 3 2 1 0        40  |  1 3 5 6 8 9
       8 7 6 5 4 3 2 1      41  |  0 2 4 7
         8 7 6 5 4          42  |  1 3 5
             8 7 5          43  |  2 4
             8 5            44  |  3
             7              45  |  5
             5              46  |

从背靠背茎叶图可以看出:甲车间产量集中在 3841 件,乙车间产量集中在 3740 件,甲车间整体产量略高于乙车间。

茎叶图的优缺点

优点

  • 保留全部原始数据信息(不像直方图那样丢失组内细节)
  • 可以直观看出数据的分布形态(对称性、集中趋势、离群值)
  • 背靠背茎叶图便于两组数据对比

缺点

  • 仅适用于中小样本 左右)
  • 数据过于分散时(取值范围大但数据少),茎叶图效果差
  • 不适合多组数据同时比较(超过两组时图形复杂)

五、知识结构总览

graph TD
    A["5.2 样本数据的整理与显示"] --> B["有序样本"]
    A --> C["经验分布函数"]
    A --> D["频数频率表"]
    A --> E["直方图"]
    A --> F["茎叶图"]

    B --> C
    D --> E

    C --> C1["构造步骤"]
    C --> C2["格利文科定理"]

    D --> D1["确定组数"]
    D --> D2["确定组距"]
    D --> D3["确定组限"]
    D --> D4["统计频数"]

    E --> E1["频数直方图"]
    E --> E2["频率直方图"]
    E --> E3["单位频率直方图"]

    F --> F1["单组茎叶图"]
    F --> F2["背靠背茎叶图"]

六、核心思想与技巧

数据整理方法的选择

场景推荐方法理由
小样本(经验分布函数 + 茎叶图保留全部信息,不损失精度
中等样本(频数频率表 + 直方图分组整理兼顾直观性
大样本(频数频率表 + 直方图数据量大,分组整理更高效
两组数据对比背靠背茎叶图直观比较分布差异
需要估计总体分布单位频率直方图面积和为 1,逼近密度函数

分组数与组距的经验法则

  • 组数太少 → 信息损失严重,分布形态被”抹平”
  • 组数太多 → 每组频数过少,随机波动干扰判断
  • Sturges 公式 给出了一个合理的起点
  • 实际操作中可尝试多个 值,选择最能反映数据分布特征的那个

七、补充理解与易混淆点

三种直方图纵轴含义混淆

来源:茆诗松《概率论与数理统计》§5.2 p229-230 + 国家统计局《直方图》统计百科 + CSDN《掌握直方图:频数与频率的区别与应用详解》 + bookdown《统计考研复习参考》Ch5 + FineReport《直方图适合哪些数据分布》

误区1:"直方图的纵轴就是频数"

❌ 错误解释:认为所有直方图的纵轴都表示频数,矩形高度直接代表数据个数。 ✅ 正确解释:直方图有三种类型,纵轴含义各不相同。频数直方图纵轴是频数,频率直方图纵轴是频率,单位频率直方图纵轴是”频率/组距”(频率密度)。只有单位频率直方图的矩形面积之和为 1,才能逼近概率密度曲线。三种直方图在等距分组下图形形状相同,但纵轴刻度和面积含义完全不同。

直方图与条形图混淆

来源:茆诗松《概率论与数理统计》§5.2 p229 + 国家统计局《直方图》统计百科 + 原创力文档《直方图教学课件》 + book118《频数直方图复习知识清单》 + CSDN《python绘制直方图方法详解》

误区2:"直方图就是竖起来的条形图"

❌ 错误解释:认为直方图和条形图本质相同,只是方向不同。 ✅ 正确解释:直方图用于连续型数值数据,横轴是数值区间,矩形之间无间隔,矩形的宽度有实际含义(= 组距),面积表示频率(单位频率直方图)。条形图用于离散型/分类数据,横轴是类别标签,条形之间有间隔,条形宽度无实际含义,高度表示频数。两者适用场景完全不同。

茎叶图适用条件误用

来源:茆诗松《概率论与数理统计》§5.2 p231-232 + 习题解答本 p222-223 + 卡方核心笔记 + bookdown《统计考研复习参考》Ch5 + CSDN《数理统计-5.2样本数据的整理和显示》

误区3:"茎叶图适用于任何数据集"

❌ 错误解释:认为茎叶图是万能的数据展示工具,可以替代直方图。 ✅ 正确解释:茎叶图仅适用于中小样本(通常 ),且数据不宜过于分散。当样本量很大或数据取值范围很宽时,茎叶图会变得非常冗长、难以阅读。此时应改用频数频率表 + 直方图。茎叶图的最大优势是保留全部原始数据信息,这是直方图做不到的。


八、习题精选

习题概览

编号题目来源知识点难度
1教材 5.2-1经验分布函数构造★★☆
2教材 5.2-2分组样本经验分布函数★★★
3教材 5.2-3频率分布表与直方图★★★
4教材 5.2-4频率分布表补充★★☆
5教材 5.2-5频数分布表与直方图★★★
6教材 5.2-6茎叶图构造★★☆
72012兰州大学432(卡方4.1-4):卡方分布自由度判定统计量分布识别★★★
82014兰州大学432(卡方4.1-6):正态抽样定理证明正态抽样分布★★★★
92017中央财经大学432(卡方4.1-1):统计量概念辨析统计量概念辨析★★★
102013兰州大学432(卡方4.1-2):样本均值方差计算样本数字特征★★★

习题1 — 教材5.2-1:经验分布函数构造

设 10 名工人的产品数为:。求经验分布函数 并作图。

习题2 — 教材5.2-2:分组样本的经验分布函数

设有分组样本如下表:

区间
频数34832

求经验分布函数

习题3 — 教材5.2-3:频率分布表与直方图

某地区 30 名毕业生的起薪(元)为:

试编制频率分布表(分 6 组)并画出直方图。

习题4 — 教材5.2-4:频率分布表补充

某企业 250 名职工上班所需时间(分钟)的频率分布表如下:

分组区间
频率0.100.240.180.14?

求:(1)空缺的频率;(2)上班时间不超过 60 分钟的职工人数。

习题5 — 教材5.2-5:频数分布表与直方图

某图书馆 40 种刊物的月发行量(册)为:

试建立频数分布表并画直方图。

习题6 — 教材5.2-6:茎叶图构造

32 名学生的数学成绩为:

试构造茎叶图。

习题7 — 2012兰州大学432(卡方4.1-4):卡方分布自由度判定

是来自正态总体 的样本,判断下列统计量服从什么分布,并指出自由度: (1);(2)

习题8 — 2014兰州大学432(卡方4.1-6):正态抽样定理证明

是来自正态总体 的样本,。证明: (1) 独立; (2)

习题9 — 2017中央财经432(卡方4.1-1):统计量概念辨析

是来自正态总体 的样本,其中 已知、 未知。判断下列哪些是统计量: (1);(2);(3);(4)

习题10 — 2013兰州大学432(卡方4.1-2):样本均值方差计算

是来自总体 的样本,。求: (1); (2)


九、本节小结

本节介绍了描述统计中三种核心的数据整理与显示方法:

方法适用场景优点局限
经验分布函数小样本,需要精确分布估计保留全部信息,有理论支撑(格利文科定理)大样本时阶梯过多,不够直观
频数频率表 + 直方图中大样本,需要观察分布形态直观展示集中趋势、离散程度、偏态分组后丢失组内信息,结果依赖分组方式
茎叶图小样本(),需要保留原始数据保留全部数据信息,可做背靠背对比大样本或数据分散时不适用

核心要点

  • 三种直方图(频数/频率/单位频率)图形形状相同,但纵轴含义和面积含义不同
  • 只有单位频率直方图的面积和为 1,可逼近概率密度函数
  • 数据整理方法的选择取决于样本量分析目的

十、教材原文

以下为教材扫描版原文,可点击翻阅。

第五章 统计量及其分布/数据整理