2.3 方差与标准差

本节概览

本节介绍随机变量第二个最重要的数字特征——方差。方差度量随机变量取值偏离其期望的平均程度,是刻画分布”分散程度”的最基本工具。本节从”期望相同但分布不同”的问题出发,建立方差的严格定义,推导简化计算公式,讨论方差的性质(线性变换、非负性),证明切比雪夫不等式及其应用。

逻辑链条:期望的局限性(不能度量分散程度)→ 方差的定义(偏差平方的期望)→ 简化公式 Var(X)=E(X²)-(EX)² → 方差的性质(线性变换、非负性)→ 切比雪夫不等式 → 应用实例(投资决策)

前置依赖§2.2(数学期望的定义、性质、LOTUS法则)、§2.1(分布函数、密度函数)

核心主线:方差 度量分散程度。最常用的计算公式是 。方差的线性变换性质 (注意:平移不影响方差,缩放使方差乘以 )。切比雪夫不等式 是概率论最重要的不等式之一。


一、方差的引入

为什么需要方差

§2.2 中,我们学习了数学期望——随机变量的”平均取值”。期望是刻画分布中心位置的最基本数字特征。然而,仅凭期望一个数字,我们无法完整描述一个随机变量的分布特征。

考虑以下两个随机变量:

  • 的分布律为:
  • 的分布律为:

分别计算它们的期望:

两者的期望完全相同,都是 。但是从直观上看, 的取值范围远大于 —— 之间波动,而 只在 之间波动。 的分布明显比 更”分散”。

这说明:期望只能告诉我们随机变量的”中心在哪里”,却无法告诉我们”数据围绕中心有多分散”。我们需要一个新的数字特征来度量这种分散程度。

如何度量分散程度

要度量分散程度,一个自然的想法是:计算随机变量 与其期望 之间的”偏差”,然后取某种平均。

偏差定义为:

但直接取偏差的期望会得到

这是因为正偏差和负偏差会相互抵消。因此,我们需要对偏差做某种处理来消除符号的影响。有两个候选方案:

方案一:取偏差绝对值的期望

方案二:取偏差平方的期望

方案一(绝对值)的优点是直观,与原始数据同量纲。但它的数学性质不好——绝对值函数 处不可微,导致在理论推导中难以处理。

方案二(平方)虽然改变了量纲,但数学性质优良—— 处处可微,且可以利用期望的线性性进行展开和分解。因此,概率论中选择方案二作为分散程度的度量,这就是方差

选择平方而非绝对值的原因

  1. 可微性 处处可微, 不可微,不利于理论推导
  2. 可分解性:利用期望的线性性, 可以展开为 ,进而得到简化计算公式
  3. 与二阶矩的联系:方差与二阶矩 有简洁的关系,便于计算
  4. 历史传统:自 Gauss 以来,最小二乘法一直是统计学的基础方法

二、方差的定义

方差的严格定义

定义 2.3.1 — 方差

是一个随机变量,若 存在,则称其为 方差,记作

方差的平方根 称为 标准差

对于离散型随机变量,若 的分布律为 ,则:

对于连续型随机变量,若 的密度函数为 ,则:

标准差

定义 2.3.2 — 标准差

方差的正平方根称为标准差,记作

标准差与方差的关系:

  • 方差 的单位是 单位的平方
  • 标准差 的单位与 相同
  • 在解释实际问题时,标准差更直观(例如”平均偏差约 3.92 万元”比”方差为 15.4 万元²”更易理解)
  • 在数学推导中,方差更方便(避免频繁出现根号)

方差存在的前提

方差存在的条件

方差 存在的前提是 存在。

这是因为:

更准确地说, 存在 存在,因为:

其中 存在保证了 也存在(因为 ),所以方差存在。

反之,方差存在也蕴含 存在,因为:

因此,方差存在 二阶矩 存在

期望存在不保证方差存在

一个重要的结论是:方差存在 期望存在(因为 ),但反之不然。

例如,Cauchy 分布的期望不存在,方差自然也不存在。又如,某些分布的期望存在但方差不存在(如 )。


三、方差的简化计算公式

核心公式

性质 2.3.1 — 方差的简化计算公式

存在,则

即方差等于二阶矩减去期望的平方

证明

证明思路

证明:将 展开,利用期望的线性性逐项求期望。

[展开偏差平方]

[期望的线性性]

[化简]:合并同类项得到

计算技巧

在实际计算中,我们通常:

  1. 先计算 (一阶矩)
  2. 再计算 (二阶矩)
  3. 最后用公式 得到方差

这比直接计算 更方便,因为后者需要先知道 的精确值,然后对每个取值做偏差平方运算。

例题:三个分布的方差比较

例 2.3.1 — 三个分布的方差比较

分别服从以下三个分布,比较它们的方差大小。

分布 A(三角分布)

分布 B(均匀分布)

分布 C(倒三角分布)

分布 A 的方差

分布 B 的方差

分布 C 的方差

比较结果

结论

三个分布的期望相同(都是 ),但方差不同。概率越集中于中心(期望附近),方差越小

  • 分布 A:概率集中在 (概率 ),方差最小(
  • 分布 B:概率均匀分布,方差居中(
  • 分布 C:概率集中在两端(),方差最大(

例题:掷骰子的方差

例 2.3.2 — 掷骰子的方差

为掷一颗均匀骰子出现的点数,求

的分布律为

第一步:计算期望

第二步:计算二阶矩

第三步:计算方差

标准差

解读

掷骰子的平均点数为 ,标准差约为 。这意味着每次掷骰子,点数偏离平均值大约 个点。


四、方差的性质

性质一:常数的方差为零

性质 2.3.2 — 常数的方差

为常数,则

证明

证明思路

证明:常数 的期望就是 本身,所以偏差 ,方差的定义直接给出

[常数无波动]:常数不波动,偏差恒为零。

直观理解

常数没有任何随机性,每次取值都相同,所以”分散程度”为零,方差为零。这是合理的。

性质二:线性变换下的方差

性质 2.3.3 — 方差的线性变换性质

存在, 为常数,则

证明

证明思路

证明:利用方差的定义展开,注意 (期望的线性性),然后提取公因子

[期望的线性性],所以

[提取常数]

两个重要推论

  1. 平移不改变方差。将所有数据平移一个常数,只是改变了中心位置,分散程度不变。

  2. 缩放使方差乘以 。将数据缩放 倍,方差变为原来的 倍。

特别注意:缩放因子是 而不是 !如果 ,取负号不改变方差(因为方差是偏差的平方)。

性质三:方差为零的充要条件

定理 2.3.2 — 方差为零的充要条件

的充要条件是 几乎处处为常数,即存在常数 使得

证明思路

证明

充分性 为常数 ): 若 ,则

必要性 几乎处处为常数): 反证法。若 ,但 不是几乎处处为常数,则存在 使得

此时:

这与 矛盾。

[反证法]:假设方差为零但 不是常数,推导出方差大于零的矛盾。

[指示函数技巧]:利用

"几乎处处"的含义

“几乎处处为常数”意味着 以概率 取某个固定值 ,但允许在概率为零的事件上取其他值。例如,设 上均匀分布,定义 (当 ),(当 ),则 几乎处处为常数

补充性质:方差的最小性

性质 2.3.4 — 方差的最小性

对任意常数 ,有

等号成立当且仅当

证明

因为 ,等号成立当且仅当

证明思路

证明:将 改写为 ,展开平方,利用 消去交叉项。

[配方法]

[交叉项为零]

统计学意义

这个性质说明:在所有常数预测中,用期望 作为预测值,能使”均方误差”最小。这是最小二乘法的理论基础之一。


五、切比雪夫不等式

切比雪夫不等式的陈述

定理 2.3.1 — 切比雪夫(Chebyshev)不等式

设随机变量 的期望 和方差 都存在,则对任意 ,有

等价地,

证明思路

证明(以连续型为例,离散型类似):

[指示函数法]

将积分区域分为两部分:

第二个积分非负(被积函数非负),所以:

在积分区域 上,,所以:

两边除以

[放缩关键]:在 的区域上,,用 替换 进行放缩。

直观理解

切比雪夫不等式告诉我们:

  1. 方差越大,偏离期望的概率上界越大——数据越分散,远离中心的概率越大
  2. 越大(允许的偏差范围越大),概率上界越小——这是合理的
  3. 不依赖分布形式:无论 服从什么分布,只要知道 ,就能给出概率估计

直观例子

(即 )。

偏离期望超过 个单位的概率不超过

这个估计太粗糙了(概率当然不超过 ),说明 太小时不等式没有实际意义。

偏离期望超过 个单位的概率不超过

例题:应用切比雪夫不等式

例 2.3.4 — 切比雪夫不等式估计概率下界

某城市居民年收入 (万元)的期望 (即 万元),标准差 (即 万元)。估计年收入在 之间的概率下界。

分析

由切比雪夫不等式:

结论:年收入在 万元到 万元之间的概率至少为

切比雪夫不等式的意义与局限

意义

  • 不依赖分布的具体形式,仅用期望和方差就能给出概率估计
  • 是大数定律和中心极限定理等深刻结果的基础
  • 在无法确定分布类型时,提供了一种”保守估计”

局限性

  • 估计通常非常粗糙,远不如精确计算
  • 较小时,上界可能超过 ,没有实际意义
  • 对于已知分布的随机变量,应直接计算精确概率

六、投资决策应用

例题:房地产 vs 商业投资

例 2.3.3 — 投资决策

某投资者面临两个投资方案,其收益 (万元)的分布如下:

方案 A(房地产)

收益 123456789
0.050.100.150.200.200.150.100.030.02

方案 B(商业)

收益 123456789
00.050.150.250.300.150.080.020

方案 A 的计算

方案 B 的计算

比较与决策

指标方案 A(房地产)方案 B(商业)
期望收益 4.52 万元4.67 万元
方差 3.40961.8411
标准差 1.846 万元1.357 万元

分析结论

  • 方案 B 的期望收益略高(
  • 方案 B 的方差和标准差都明显更小(
  • 方案 B 在收益和风险两个维度上都优于方案 A
  • 商业投资的风险(用方差/标准差度量)远小于房地产投资
  • 综合权衡,应选择方案 B(商业投资)

方差作为风险度量

在金融和投资决策中,方差(或标准差)是最常用的风险度量

  • 方差大 → 收益波动大 → 风险高
  • 方差小 → 收益波动小 → 风险低
  • 投资者通常需要在”高收益”和”低风险”之间做出权衡
  • 这就是金融学中”均值-方差分析”(Markowitz 投资组合理论)的基础

七、知识结构总览

graph TD
    A[方差与标准差] --> B[引入动机]
    A --> C[方差定义]
    A --> D[简化公式]
    A --> E[方差性质]
    A --> F[切比雪夫不等式]
    A --> G[应用实例]

    B --> B1[期望不能度量分散程度]

    C --> C1[偏差平方的期望]
    C --> C2[标准差]

    D --> D1[Var等于二阶矩减一阶矩平方]

    E --> E1[常数方差为零]
    E --> E2[线性变换性质]
    E --> E3[方差为零的充要条件]

    F --> F1[概率上界估计]
    F --> F2[不依赖分布形式]

    G --> G1[投资决策]
    G --> G2[风险度量]

八、核心思想与证明技巧

1. 简化公式是最常用的计算工具

这个公式避免了直接计算 的繁琐过程。实际操作中,只需分别计算一阶矩 和二阶矩 ,然后相减即可。

常见计算错误

注意 !这是初学者最容易犯的错误。

例如,掷骰子:,但

两者之差 才是方差。

2. 线性变换性质的直观理解

  • 平移):把所有数据整体移动,分散程度不变
  • 缩放):把数据拉伸 倍,偏差也拉伸 倍,偏差的平方拉伸

记忆口诀

“平移不管,缩放平方”——平移不影响方差,缩放使方差乘以系数的平方。

3. 切比雪夫不等式是”矩方法”的典型应用

切比雪夫不等式的证明只用了方差(二阶中心矩)的定义,没有用到任何分布的具体形式。这种”仅利用矩的信息来推导概率不等式”的方法称为矩方法,是概率论中非常重要的技巧。

4. 方差存在与期望存在的关系

  • 方差存在 期望存在:因为 (对一切实数 ),所以
  • 期望存在 方差存在:例如 的密度函数 ),则 ,但 ,方差不存在

5. 标准差 vs 方差

特征方差 标准差
定义
单位 单位的平方 相同
数学推导方便(无根号)不方便(有根号)
实际解释不直观直观
典型用途理论推导、证明数据分析、报告

九、补充理解与易混淆点

误区一:方差可以为负

来源:教材 p78 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义

误区1:"方差可以是负数"

❌ 错误解释:方差度量分散程度,如果数据集中在期望附近,方差应该是负的。

✅ 正确解释:方差恒非负。因为 是平方的期望,而平方恒非负,非负随机变量的期望也非负。 当且仅当 几乎处处为常数。

详细说明

方差是偏差平方的期望,而平方 对一切 成立。因此被求期望的量 是一个非负随机变量,其期望自然也非负。

更深层的原因:方差是 空间中的”范数的平方”,而范数恒非负。

误区二:Var(X+Y) = Var(X)+Var(Y) 恒成立

来源:教材 p80 + MIT 18.05 + 3Blue1Brown + 中科大 432 真题 + 华东师大讲义

误区2:"Var(X+Y) = Var(X)+Var(Y) 总是对的"

❌ 错误解释:和期望一样,方差的加法也总是成立的。

✅ 正确解释:。只有当 不相关)时,才有 。独立性可以推出不相关,但反之不然。

详细说明

展开

其中 协方差(将在后续章节学习)。

只有当 (即 不相关)时,交叉项才为零,方差的加法公式才成立。

与期望的对比

期望的加法恒成立,无论 是否独立。

方差的加法不恒成立 只在 不相关时成立。

这是期望和方差在线性运算上的一个重要区别。

误区三:标准差等于方差的平方

来源:教材 p78 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义

误区3:"标准差就是方差"

❌ 错误解释:标准差和方差是同一个东西,只是叫法不同。

✅ 正确解释:标准差 ,是方差的正平方根。标准差的单位与 相同,方差的单位是 单位的平方。在解释实际问题时通常用标准差,在数学推导中通常用方差。

详细说明

  • 方差:(万元²)——单位是平方,不直观
  • 标准差:(万元)——单位与原始数据相同,直观

两者是不同的量,不能混用。特别注意:标准差是方差的平方根,不是方差本身。

误区四:方差越大说明数据越差

来源:教材 p79 + MIT 18.05 + 多校考研真题 + 华东师大讲义

误区4:"方差越大越不好"

❌ 错误解释:方差大意味着数据分散,分散就是不好的。

✅ 正确解释:方差大只说明数据分散程度高,分散本身没有好坏之分。在某些场景下(如质量控制),方差小是好的;在另一些场景下(如投资组合多样性、探索性研究),适度的方差反而是有利的。

详细说明

  • 质量控制:产品尺寸的方差越小越好(一致性高)
  • 投资组合:适度分散可以降低风险(Markowitz 理论)
  • 教育评估:考试成绩方差大可能说明区分度好
  • 科学研究:实验数据的方差大可能意味着有新的发现

方差只是一个描述性统计量,它本身没有价值判断。“方差大好不好”完全取决于具体的应用场景。

误区五:切比雪夫不等式给出精确概率

来源:教材 p80 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义

误区5:"切比雪夫不等式能算出精确概率"

❌ 错误解释:用切比雪夫不等式可以精确计算 的值。

✅ 正确解释:切比雪夫不等式只给出概率的上界,通常非常粗糙。它的价值在于:不依赖分布的具体形式,仅用期望和方差就能给出估计。对于已知分布的随机变量,应该直接计算精确概率。

详细说明

例如,设 ,求

  • 精确值
  • 切比雪夫估计

切比雪夫估计 比精确值 大了约 倍,非常粗糙。

切比雪夫不等式的真正价值

切比雪夫不等式的主要价值不在于精确计算,而在于:

  1. 为未知分布提供保守的概率估计
  2. 作为理论工具证明大数定律等深刻定理
  3. 展示”方差越大,偏离期望的概率越大”这一基本直觉

十、习题精选

教材习题

习题 2.3-1(教材)— 泊松分布的方差与矩

服从参数为 的泊松分布,已知 ,且 。求


习题 2.3-3(教材)— 线性变换的方差

已知 ,求


习题 2.3-4(教材)— 伯努利分布的方差

,且 。求


习题 2.3-5(教材)— 分段分布函数的方差

设随机变量 的分布函数为

其中 。求


习题 2.3-8(教材)— 正态型分布的期望与方差

设随机变量 的分布函数为 ),)。求


习题 2.3-9(教材)— 方差的最小性

证明:对任意常数 ,有


考研真题

习题7(2016 东北师范大学 432)— 方差线性变换

已知 ,求


习题8(2013 东北师范大学 432)— 二项分布期望与标准差

一颗均匀骰子先后抛掷36次,6点出现次数的期望值和方差分别为( ) A. 6 和 5  B. 6 和   C. 36 和 6  D. 36 和 3


习题9(2018 复旦大学 861)— 二维正态分布方差线性组合

,已知 ,求


习题10(2021 东北大学 432)— 负二项分布期望与方差

表示独立重复试验中取得 次成功所进行的试验次数,每次成功的概率为 。 (1) 当 时(几何分布),求 。 (2) 当 时,求

习题概览

编号来源知识点难度
习题 2.3-1教材泊松分布的方差与矩★★☆
习题 2.3-3教材线性变换的方差★★☆
习题 2.3-4教材伯努利分布的方差★★☆
习题 2.3-5教材分段分布函数的方差(指数分布)★★★
习题 2.3-8教材正态型分布的期望与方差(Gamma函数)★★★
习题 2.3-9教材方差的最小性★★☆
习题72016 东北师范大学 432方差线性变换★★☆
习题82013 东北师范大学 432二项分布期望与标准差★★☆
习题92018 复旦大学 861二维正态分布方差线性组合★★★
习题102021 东北大学 432负二项分布期望与方差★★★

习题使用建议

  • 教材习题(2.3-1 至 2.3-9)侧重基础概念巩固,建议在首次学习时完成
  • 考研真题(习题7-10)侧重综合应用,建议在复习阶段作为检测使用
  • 习题7、习题8 难度较低,适合快速检验方差基本公式的掌握程度
  • 习题9 涉及协方差与多维正态分布,需要结合协方差的知识
  • 习题10 涉及负二项分布,需要了解常见离散分布的期望与方差公式汇总

难度说明:★★☆ = 基础题(直接套公式),★★★ = 进阶题(需要综合分析或多步推导)

来源说明:教材习题来自茆诗松《概率论与数理统计》,考研真题来自各校 432 应用统计/861 概率论专业硕士入学考试。


十一、教材原文

以下为教材扫描版原文,可点击翻阅。

第二章 随机变量及其分布/方差与标准差