2.7 分布的其他特征数

本节概览

本节在数学期望方差的基础上,引入更多描述随机变量分布特征的数字特征:k阶矩描述分布的各阶幂次特征,变异系数消除量纲影响比较相对波动,分位数与中位数刻画分布的位置信息,偏度度量分布的偏斜方向与程度,峰度度量分布与正态分布相比的尖峭程度和尾部粗细。

逻辑链条:k阶矩(原点矩+中心矩)→ 变异系数(无量纲相对波动)→ 分位数与中位数(位置特征)→ 偏度(偏斜方向)→ 峰度(尖峭程度)→ 常见分布特征数汇总

前置依赖§2.2(数学期望的定义与性质)、§2.3(方差与标准差)、§2.5(正态分布、指数分布、伽马分布、贝塔分布)

核心主线:期望和方差分别描述分布的”中心位置”和”离散程度”,但无法刻画分布的形状特征。偏度和峰度是描述分布形状的两个重要无量纲指标,它们与正态分布的偏离程度在统计推断中有重要应用。


一、k阶矩

矩是概率论中最基本的数字特征族,期望和方差都是矩的特例。

原点矩与中心矩

定义 2.7.1 — k阶矩

为随机变量, 为正整数。若 存在,则称

k阶原点矩

存在,则称

k阶中心矩

特殊情形

  • :一阶原点矩就是数学期望
  • :二阶中心矩就是方差
  • :一阶中心矩恒为零

中心矩与原点矩的关系

利用二项式定理展开中心矩:

前四阶中心矩的展开式为:

阶数展开公式

定理 2.7.1 — 矩的存在性

阶矩存在(即 ),则对任意 阶矩也存在。

证明思路

证明 (2.7.1)

[不等式放缩]:对任意 ,利用 ,更精确地,由 Jensen 不等式或直接利用 (当 ,当 ),因此

阶矩存在。

直观理解:高阶矩存在意味着分布的”尾部”衰减足够快,因此低阶矩自然存在。反之不成立——方差存在不保证三阶矩存在。

矩的计算示例

例 2.7.1 — 正态分布的各阶矩

,求其各阶原点矩。

[建立递推]:由分部积分,

,则

[递推求解]:递推关系为 ,其中

  • 为偶数时:
  • 为奇数时:(奇函数在对称区间上积分为零)

[具体值]


二、变异系数

方差衡量绝对波动大小,但不同量纲的随机变量无法直接比较波动程度。

变异系数的定义

定义 2.7.2 — 变异系数

设随机变量 的二阶矩存在且 ,则称

变异系数

核心特点

  • 变异系数是无量纲的相对指标,消除量纲影响
  • 适用于比较不同量纲或不同量级随机变量的波动程度
  • 要求 (否则分母为零无意义)

例 2.7.2 — 变异系数的应用

表示某种同龄树的高度(单位:米), 表示某年龄段儿童的身高(单位:米)。已知 。是否可以从 就认为 的波动小?

:不能仅凭方差大小判断波动程度,因为两者的量级不同。计算变异系数:

虽然树的绝对方差更大,但相对于其均值,儿童身高的相对波动(20%)远大于树的相对波动(10%)。变异系数揭示了这一被方差掩盖的事实。


三、分位数与中位数

分位数是比期望更稳健的位置特征,对异常值不敏感。

分位数

定义 2.7.3 — 分位数

设连续随机变量 的分布函数为 ,密度函数为 。对任意

称满足

为此分布的==下侧 分位数==。

称满足

为此分布的==上侧 分位数==。

上下侧分位数的关系

例 2.7.3 — 正态分布的分位数关系

设标准正态分布 的下侧 分位数为 ,一般正态分布 的下侧 分位数为 ,求二者关系。

:设 ,标准化得

因此 ,即

直观理解:一般正态分布的分位数 = 均值 + 标准差 × 标准正态分位数。这是一个线性变换关系。

中位数

定义 2.7.4 — 中位数

时的分位数 为此分布的中位数,即满足

中位数 vs 期望

  • 中位数将概率面积等分为二,不受极端值影响
  • 期望受极端值(长尾)影响较大
  • 对称分布(如正态分布)的中位数等于期望

例 2.7.4 — 指数分布的中位数

求指数分布 的中位数

的分布函数为 )。

对比,而 。指数分布右偏,中位数小于期望,说明右侧有长尾拉高了期望。

例 2.7.5 — 分位数与中位数的计算

设连续随机变量 的密度函数为

试求此分布的 分位数 和中位数

:分布函数为

,解得

,解得


四、偏度

偏度描述分布偏斜的方向和程度,是形状特征的第一个重要指标。

偏度的定义

定义 2.7.5 — 偏度

设随机变量 的前三阶矩存在,则称

偏度系数,简称偏度

偏度的含义

的值分布形态直观描述
对称分布密度函数关于期望对称
正偏(右偏)右侧有长尾,均值 > 中位数
负偏(左偏)左侧有长尾,均值 < 中位数

定理 2.7.2 — 偏度的性质

(1)若密度函数关于数学期望对称,则

(2) 是无量纲指标,不受平移和尺度变换影响。

(3) 的绝对值越大,偏斜程度越严重。

证明思路

证明 (2.7.2)

[(1) 对称性]:设 关于 对称,即 。令 ,则 的密度关于原点对称, 为奇函数与偶函数之积,故 ,即 ,因此

[(2) 无量纲性]:令 ),则 ,故

例 2.7.6 — 贝塔分布的偏度

计算三个贝塔分布 的偏度。

:贝塔分布 的偏度公式为

分布形态
28正偏
82负偏
55对称

直观理解,概率质量集中在左侧(靠近0),右侧有长尾→正偏。 恰好相反→负偏。,密度关于 对称→偏度为零。


五、峰度

峰度描述分布与正态分布相比的尖峭程度和尾部粗细,是形状特征的第二个重要指标。

峰度的定义

定义 2.7.6 — 峰度

设随机变量 的前四阶矩存在,则称

峰度系数,简称峰度

为什么减3? 正态分布的 ,减3后使得正态分布的峰度为零,便于比较。

峰度的含义

的值分布形态直观描述
与正态相当尖峭程度和尾部粗细与正态分布相近
尖峰厚尾比正态更尖峭,尾部更粗(极端值更多)
扁平薄尾比正态更平坦,尾部更细(极端值更少)

定理 2.7.3 — 峰度的性质

(1)正态分布

(2) 的值与随机变量是否标准化无关(无量纲指标)。

(3):分布比正态分布更尖峭、尾部更粗。

(4):分布比正态分布更平坦、尾部更细。

证明思路

证明 (2.7.3)

[(1) 正态峰度为零]:由例 2.7.1 知 。故

[(2) 无量纲性]:令 ),则 ,故

例 2.7.7 — 伽马分布的偏度与峰度

计算伽马分布 的偏度与峰度。

:伽马分布 的期望 ,方差

[计算各阶矩]:利用伽马函数的性质,

[计算中心矩]

[偏度]

[峰度]

结论

  • :伽马分布恒为正偏
  • :伽马分布恒为尖峰厚尾
  • 时,:伽马分布逐渐趋近正态分布

六、常见分布特征数汇总

常见分布的偏度与峰度

分布均值方差偏度 峰度
见注

:贝塔分布的峰度公式较复杂,为

规律总结

  • 对称分布(均匀、正态)的偏度
  • 均匀分布的峰度 :比正态更平坦
  • 指数分布的偏度 ,峰度 :强正偏、尖峰厚尾
  • 伽马分布随 增大,偏度和峰度都趋近于0(趋近正态)

七、知识结构总览

graph TD
    A[分布的其他特征数] --> B[k阶矩]
    A --> C[变异系数]
    A --> D[分位数与中位数]
    A --> E[偏度]
    A --> F[峰度]

    B --> B1[原点矩]
    B --> B2[中心矩]
    B --> B3[矩的存在性]

    D --> D1[下侧分位数]
    D --> D2[上侧分位数]
    D --> D3[中位数]

    E --> E1[正偏与负偏]
    F --> F1[尖峰厚尾]
    F --> F2[扁平薄尾]

八、核心思想与证明技巧

核心思想

  1. 矩是数字特征的统一框架:期望(一阶原点矩)、方差(二阶中心矩)、偏度(标准化的三阶中心矩)、峰度(标准化的四阶中心矩减3)都是矩的特例。矩提供了描述分布特征的系统化工具。

  2. 无量纲化是跨分布比较的关键:变异系数(标准差/均值)、偏度(三阶中心矩/)、峰度(四阶中心矩/)都进行了无量纲化处理,使得不同量纲、不同量级的分布可以公平比较。

  3. 以正态分布为参照基准:峰度定义中”减3”正是为了使正态分布的峰度为零。偏度和峰度的实际意义都通过与正态分布的对比来理解。

证明技巧

  • 递推法求矩:如正态分布的各阶矩,利用分部积分建立递推关系
  • 标准化变换:一般正态分位数通过 转化为标准正态分位数
  • 中心矩展开:利用二项式定理将 展开为原点矩的多项式

九、补充理解与易混淆点

方差为零不意味着没有波动

来源:教材p.117 + MIT 18.05讲义 + 浙江大学概率论课件 + 华东师大统计讲义 + StackExchange统计版块

误区1:"方差为零意味着随机变量不波动"

❌ 错误解释:方差为零就说明随机变量取值完全不变。 ✅ 正确解释: 确实意味着 几乎必然等于常数 (即 ),但这是概率论中的”几乎必然”,允许零测集上的例外。在实际应用中,方差为零确实可以理解为没有随机波动。

变异系数不能用于均值为零的分布

来源:教材p.118 + Casella & Berger Statistical Inference + 武汉大学概率论课件 + 中科大数理统计讲义 + Wikipedia Coefficient of Variation

误区2:"变异系数可以比较任何两个分布的波动"

❌ 错误解释:变异系数是万能的相对波动指标,任何分布都可以用。 ✅ 正确解释:变异系数要求 。当均值为零或接近零时(如标准正态分布),变异系数无定义或极不稳定,此时不应使用变异系数。此外,当均值可以为负时,变异系数的解释也需要谨慎。

偏度为零不意味着对称

来源:教材p.122 + 教材习题2.7 + Stanford统计讲义 + 印度统计学院讲义 + CrossValidated论坛

误区3:"偏度为零的分布一定是对称的"

❌ 错误解释: 等价于分布关于期望对称。 ✅ 正确解释:对称分布的偏度一定为零,但偏度为零不一定对称。偏度只度量三阶矩的信息,存在偏度为零但不对称的分布(例如某些混合分布可以构造出 但不对称的情形)。偏度为零只是对称的必要条件,不是充分条件。

峰度为正不意味着单峰

来源:教材p.123 + DeCarlo偏度峰度综述 + 剑桥大学统计课件 + 北师大概率论课件 + Wikipedia Kurtosis

误区4:"峰度为正说明分布只有一个峰"

❌ 错误解释: 意味着分布是单峰的、尖峭的。 ✅ 正确解释:峰度主要反映尾部粗细而非峰的形状。 意味着尾部比正态分布更粗(极端值更多),而非”峰更高”。事实上,均匀分布()是单峰的但峰度为负。峰度的名称容易误导,其核心含义是”尾部行为”而非”峰的形状”。


十、习题精选

习题概览

编号题目来源知识点难度
1教材 2.7-1原点矩与中心矩的计算★★☆
2教材 2.7-3变异系数的比较★★☆
3教材 2.7-5分位数的求解★★☆
4教材 2.7-8中位数与期望的关系★★★
5教材 2.7-10偏度的计算与判断★★★
6教材 2.7-12峰度的计算★★★
72014暨南大学432指数分布的变异系数、偏度、峰度★★★
82020暨南大学432正态分布的k阶原点矩★★★
92019东北师范大学432拉普拉斯分布的原点矩★★☆
102019上海财经大学432中位数的最优化性质★★☆

习题 1 — 教材 2.7-1:原点矩与中心矩的计算

设随机变量 的分布列为

的前四阶原点矩和前四阶中心矩。


习题 2 — 教材 2.7-3:变异系数的比较

,比较 的变异系数。


习题 3 — 教材 2.7-5:分位数的求解

,求 分位数、中位数和 分位数。


习题 4 — 教材 2.7-8:中位数与期望的关系

设连续随机变量 的密度函数为

的期望和中位数,并比较二者的大小。


习题 5 — 教材 2.7-10:偏度的计算与判断

,利用偏度公式验证


习题 6 — 教材 2.7-12:峰度的计算

,验证


习题 7 — 2014暨南大学432:指数分布的变异系数、偏度、峰度

设随机变量 : (1) 求变异系数 (2) 求 和偏度 (3) 求 和峰度


习题 8 — 2020暨南大学432:正态分布的k阶原点矩

设随机变量 ,试求其 阶原点矩。


习题 9 — 2019东北师范大学432:拉普拉斯分布的原点矩

的概率密度为 ),试求: (1) (2)


习题 10 — 2019上海财经大学432:中位数的最优化性质

下列哪个数可以使平均绝对离差 最小? A. 平均数 B. 中位数 C. 众数 D. 以上都不对


十一、教材原文


第二章 随机变量及其分布/分布的特征数