2.3 方差与标准差
本节概览
本节介绍随机变量第二个最重要的数字特征——方差。方差度量随机变量取值偏离其期望的平均程度,是刻画分布”分散程度”的最基本工具。本节从”期望相同但分布不同”的问题出发,建立方差的严格定义,推导简化计算公式,讨论方差的性质(线性变换、非负性),证明切比雪夫不等式及其应用。
逻辑链条:期望的局限性(不能度量分散程度)→ 方差的定义(偏差平方的期望)→ 简化公式 Var(X)=E(X²)-(EX)² → 方差的性质(线性变换、非负性)→ 切比雪夫不等式 → 应用实例(投资决策)
前置依赖:§2.2(数学期望的定义、性质、LOTUS法则)、§2.1(分布函数、密度函数)
核心主线:方差 度量分散程度。最常用的计算公式是 。方差的线性变换性质 (注意:平移不影响方差,缩放使方差乘以 )。切比雪夫不等式 是概率论最重要的不等式之一。
一、方差的引入
为什么需要方差
在 §2.2 中,我们学习了数学期望——随机变量的”平均取值”。期望是刻画分布中心位置的最基本数字特征。然而,仅凭期望一个数字,我们无法完整描述一个随机变量的分布特征。
考虑以下两个随机变量:
- 的分布律为:,,
- 的分布律为:,,
分别计算它们的期望:
两者的期望完全相同,都是 。但是从直观上看, 的取值范围远大于 —— 在 到 之间波动,而 只在 到 之间波动。 的分布明显比 更”分散”。
这说明:期望只能告诉我们随机变量的”中心在哪里”,却无法告诉我们”数据围绕中心有多分散”。我们需要一个新的数字特征来度量这种分散程度。
如何度量分散程度
要度量分散程度,一个自然的想法是:计算随机变量 与其期望 之间的”偏差”,然后取某种平均。
偏差定义为:
但直接取偏差的期望会得到 :
这是因为正偏差和负偏差会相互抵消。因此,我们需要对偏差做某种处理来消除符号的影响。有两个候选方案:
方案一:取偏差绝对值的期望
方案二:取偏差平方的期望
方案一(绝对值)的优点是直观,与原始数据同量纲。但它的数学性质不好——绝对值函数 在 处不可微,导致在理论推导中难以处理。
方案二(平方)虽然改变了量纲,但数学性质优良—— 处处可微,且可以利用期望的线性性进行展开和分解。因此,概率论中选择方案二作为分散程度的度量,这就是方差。
选择平方而非绝对值的原因
- 可微性: 处处可微, 在 不可微,不利于理论推导
- 可分解性:利用期望的线性性, 可以展开为 ,进而得到简化计算公式
- 与二阶矩的联系:方差与二阶矩 有简洁的关系,便于计算
- 历史传统:自 Gauss 以来,最小二乘法一直是统计学的基础方法
二、方差的定义
方差的严格定义
定义 2.3.1 — 方差
设 是一个随机变量,若 存在,则称其为 的方差,记作
方差的平方根 称为 的标准差。
对于离散型随机变量,若 的分布律为 ,,则:
对于连续型随机变量,若 的密度函数为 ,则:
标准差
定义 2.3.2 — 标准差
方差的正平方根称为标准差,记作
标准差与方差的关系:
- 方差 的单位是 单位的平方
- 标准差 的单位与 相同
- 在解释实际问题时,标准差更直观(例如”平均偏差约 3.92 万元”比”方差为 15.4 万元²”更易理解)
- 在数学推导中,方差更方便(避免频繁出现根号)
方差存在的前提
方差存在的条件
方差 存在的前提是 存在。
这是因为:
更准确地说, 存在 存在,因为:
其中 存在保证了 也存在(因为 ),所以方差存在。
反之,方差存在也蕴含 存在,因为:
因此,方差存在 二阶矩 存在。
期望存在不保证方差存在
一个重要的结论是:方差存在 期望存在(因为 ),但反之不然。
例如,Cauchy 分布的期望不存在,方差自然也不存在。又如,某些分布的期望存在但方差不存在(如 ,)。
三、方差的简化计算公式
核心公式
性质 2.3.1 — 方差的简化计算公式
若 存在,则
即方差等于二阶矩减去期望的平方。
证明:
证明思路
证明:将 展开,利用期望的线性性逐项求期望。
[展开偏差平方]:
[期望的线性性]:
[化简]:合并同类项得到
计算技巧
在实际计算中,我们通常:
- 先计算 (一阶矩)
- 再计算 (二阶矩)
- 最后用公式 得到方差
这比直接计算 更方便,因为后者需要先知道 的精确值,然后对每个取值做偏差平方运算。
例题:三个分布的方差比较
例 2.3.1 — 三个分布的方差比较
设 分别服从以下三个分布,比较它们的方差大小。
分布 A(三角分布):,,
分布 B(均匀分布):,,
分布 C(倒三角分布):,,
分布 A 的方差:
分布 B 的方差:
分布 C 的方差:
比较结果:
结论
三个分布的期望相同(都是 ),但方差不同。概率越集中于中心(期望附近),方差越小。
- 分布 A:概率集中在 (概率 ),方差最小()
- 分布 B:概率均匀分布,方差居中()
- 分布 C:概率集中在两端( 和 ),方差最大()
例题:掷骰子的方差
例 2.3.2 — 掷骰子的方差
设 为掷一颗均匀骰子出现的点数,求 。
的分布律为 ,。
第一步:计算期望
第二步:计算二阶矩
第三步:计算方差
标准差:
解读
掷骰子的平均点数为 ,标准差约为 。这意味着每次掷骰子,点数偏离平均值大约 个点。
四、方差的性质
性质一:常数的方差为零
性质 2.3.2 — 常数的方差
若 为常数,则 。
证明:
证明思路
证明:常数 的期望就是 本身,所以偏差 ,方差的定义直接给出 。
[常数无波动]:常数不波动,偏差恒为零。
直观理解
常数没有任何随机性,每次取值都相同,所以”分散程度”为零,方差为零。这是合理的。
性质二:线性变换下的方差
性质 2.3.3 — 方差的线性变换性质
若 存在, 为常数,则
证明:
证明思路
证明:利用方差的定义展开,注意 (期望的线性性),然后提取公因子 。
[期望的线性性]:,所以
[提取常数]:
两个重要推论
平移不改变方差:。将所有数据平移一个常数,只是改变了中心位置,分散程度不变。
缩放使方差乘以 :。将数据缩放 倍,方差变为原来的 倍。
特别注意:缩放因子是 而不是 !如果 ,,取负号不改变方差(因为方差是偏差的平方)。
性质三:方差为零的充要条件
定理 2.3.2 — 方差为零的充要条件
的充要条件是 几乎处处为常数,即存在常数 使得 。
证明思路
证明:
充分性( 为常数 ): 若 ,则 ,。
必要性( 几乎处处为常数): 反证法。若 ,但 不是几乎处处为常数,则存在 使得 。
此时:
这与 矛盾。
[反证法]:假设方差为零但 不是常数,推导出方差大于零的矛盾。
[指示函数技巧]:利用 。
"几乎处处"的含义
“几乎处处为常数”意味着 以概率 取某个固定值 ,但允许在概率为零的事件上取其他值。例如,设 在 上均匀分布,定义 (当 ),(当 ),则 , 几乎处处为常数 。
补充性质:方差的最小性
性质 2.3.4 — 方差的最小性
对任意常数 ,有
等号成立当且仅当 。
证明:
因为 ,等号成立当且仅当 。
证明思路
证明:将 改写为 ,展开平方,利用 消去交叉项。
[配方法]:
[交叉项为零]:
统计学意义
这个性质说明:在所有常数预测中,用期望 作为预测值,能使”均方误差”最小。这是最小二乘法的理论基础之一。
五、切比雪夫不等式
切比雪夫不等式的陈述
定理 2.3.1 — 切比雪夫(Chebyshev)不等式
设随机变量 的期望 和方差 都存在,则对任意 ,有
等价地,
证明思路
证明(以连续型为例,离散型类似):
[指示函数法]:
将积分区域分为两部分: 和 :
第二个积分非负(被积函数非负),所以:
在积分区域 上,,所以:
两边除以 :
[放缩关键]:在 的区域上,,用 替换 进行放缩。
直观理解
切比雪夫不等式告诉我们:
- 方差越大,偏离期望的概率上界越大——数据越分散,远离中心的概率越大
- 越大(允许的偏差范围越大),概率上界越小——这是合理的
- 不依赖分布形式:无论 服从什么分布,只要知道 和 ,就能给出概率估计
直观例子
设 ,(即 )。
取 :
即 偏离期望超过 个单位的概率不超过 。
取 :
这个估计太粗糙了(概率当然不超过 ),说明 太小时不等式没有实际意义。
取 :
即 偏离期望超过 个单位的概率不超过 。
例题:应用切比雪夫不等式
例 2.3.4 — 切比雪夫不等式估计概率下界
某城市居民年收入 (万元)的期望 (即 万元),标准差 (即 万元)。估计年收入在 到 之间的概率下界。
分析:
,
由切比雪夫不等式:
结论:年收入在 万元到 万元之间的概率至少为 。
切比雪夫不等式的意义与局限
意义:
- 不依赖分布的具体形式,仅用期望和方差就能给出概率估计
- 是大数定律和中心极限定理等深刻结果的基础
- 在无法确定分布类型时,提供了一种”保守估计”
局限性:
- 估计通常非常粗糙,远不如精确计算
- 当 较小时,上界可能超过 ,没有实际意义
- 对于已知分布的随机变量,应直接计算精确概率
六、投资决策应用
例题:房地产 vs 商业投资
例 2.3.3 — 投资决策
某投资者面临两个投资方案,其收益 (万元)的分布如下:
方案 A(房地产):
收益 1 2 3 4 5 6 7 8 9 0.05 0.10 0.15 0.20 0.20 0.15 0.10 0.03 0.02 方案 B(商业):
收益 1 2 3 4 5 6 7 8 9 0 0.05 0.15 0.25 0.30 0.15 0.08 0.02 0
方案 A 的计算:
方案 B 的计算:
比较与决策:
| 指标 | 方案 A(房地产) | 方案 B(商业) |
|---|---|---|
| 期望收益 | 4.52 万元 | 4.67 万元 |
| 方差 | 3.4096 | 1.8411 |
| 标准差 | 1.846 万元 | 1.357 万元 |
分析结论
- 方案 B 的期望收益略高()
- 方案 B 的方差和标准差都明显更小()
- 方案 B 在收益和风险两个维度上都优于方案 A
- 商业投资的风险(用方差/标准差度量)远小于房地产投资
- 综合权衡,应选择方案 B(商业投资)
方差作为风险度量
在金融和投资决策中,方差(或标准差)是最常用的风险度量:
- 方差大 → 收益波动大 → 风险高
- 方差小 → 收益波动小 → 风险低
- 投资者通常需要在”高收益”和”低风险”之间做出权衡
- 这就是金融学中”均值-方差分析”(Markowitz 投资组合理论)的基础
七、知识结构总览
graph TD A[方差与标准差] --> B[引入动机] A --> C[方差定义] A --> D[简化公式] A --> E[方差性质] A --> F[切比雪夫不等式] A --> G[应用实例] B --> B1[期望不能度量分散程度] C --> C1[偏差平方的期望] C --> C2[标准差] D --> D1[Var等于二阶矩减一阶矩平方] E --> E1[常数方差为零] E --> E2[线性变换性质] E --> E3[方差为零的充要条件] F --> F1[概率上界估计] F --> F2[不依赖分布形式] G --> G1[投资决策] G --> G2[风险度量]
八、核心思想与证明技巧
1. 简化公式是最常用的计算工具
这个公式避免了直接计算 的繁琐过程。实际操作中,只需分别计算一阶矩 和二阶矩 ,然后相减即可。
常见计算错误
注意 !这是初学者最容易犯的错误。
例如,掷骰子:,,但 。
两者之差 才是方差。
2. 线性变换性质的直观理解
- 平移():把所有数据整体移动,分散程度不变
- 缩放():把数据拉伸 倍,偏差也拉伸 倍,偏差的平方拉伸 倍
记忆口诀
“平移不管,缩放平方”——平移不影响方差,缩放使方差乘以系数的平方。
3. 切比雪夫不等式是”矩方法”的典型应用
切比雪夫不等式的证明只用了方差(二阶中心矩)的定义,没有用到任何分布的具体形式。这种”仅利用矩的信息来推导概率不等式”的方法称为矩方法,是概率论中非常重要的技巧。
4. 方差存在与期望存在的关系
- 方差存在 期望存在:因为 (对一切实数 ),所以
- 期望存在 方差存在:例如 的密度函数 (),则 ,但 ,方差不存在
5. 标准差 vs 方差
| 特征 | 方差 | 标准差 |
|---|---|---|
| 定义 | ||
| 单位 | 单位的平方 | 与 相同 |
| 数学推导 | 方便(无根号) | 不方便(有根号) |
| 实际解释 | 不直观 | 直观 |
| 典型用途 | 理论推导、证明 | 数据分析、报告 |
九、补充理解与易混淆点
误区一:方差可以为负
来源:教材 p78 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义
误区1:"方差可以是负数"
❌ 错误解释:方差度量分散程度,如果数据集中在期望附近,方差应该是负的。
✅ 正确解释:方差恒非负,。因为 是平方的期望,而平方恒非负,非负随机变量的期望也非负。 当且仅当 几乎处处为常数。
详细说明:
方差是偏差平方的期望,而平方 对一切 成立。因此被求期望的量 是一个非负随机变量,其期望自然也非负。
更深层的原因:方差是 空间中的”范数的平方”,而范数恒非负。
误区二:Var(X+Y) = Var(X)+Var(Y) 恒成立
来源:教材 p80 + MIT 18.05 + 3Blue1Brown + 中科大 432 真题 + 华东师大讲义
误区2:"Var(X+Y) = Var(X)+Var(Y) 总是对的"
❌ 错误解释:和期望一样,方差的加法也总是成立的。
✅ 正确解释:。只有当 与 不相关()时,才有 。独立性可以推出不相关,但反之不然。
详细说明:
展开 :
其中 是 与 的协方差(将在后续章节学习)。
只有当 (即 与 不相关)时,交叉项才为零,方差的加法公式才成立。
与期望的对比
期望的加法恒成立:,无论 和 是否独立。
方差的加法不恒成立: 只在 与 不相关时成立。
这是期望和方差在线性运算上的一个重要区别。
误区三:标准差等于方差的平方
来源:教材 p78 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义
误区3:"标准差就是方差"
❌ 错误解释:标准差和方差是同一个东西,只是叫法不同。
✅ 正确解释:标准差 ,是方差的正平方根。标准差的单位与 相同,方差的单位是 单位的平方。在解释实际问题时通常用标准差,在数学推导中通常用方差。
详细说明:
- 方差:(万元²)——单位是平方,不直观
- 标准差:(万元)——单位与原始数据相同,直观
两者是不同的量,不能混用。特别注意:标准差是方差的平方根,不是方差本身。
误区四:方差越大说明数据越差
来源:教材 p79 + MIT 18.05 + 多校考研真题 + 华东师大讲义
误区4:"方差越大越不好"
❌ 错误解释:方差大意味着数据分散,分散就是不好的。
✅ 正确解释:方差大只说明数据分散程度高,分散本身没有好坏之分。在某些场景下(如质量控制),方差小是好的;在另一些场景下(如投资组合多样性、探索性研究),适度的方差反而是有利的。
详细说明:
- 质量控制:产品尺寸的方差越小越好(一致性高)
- 投资组合:适度分散可以降低风险(Markowitz 理论)
- 教育评估:考试成绩方差大可能说明区分度好
- 科学研究:实验数据的方差大可能意味着有新的发现
方差只是一个描述性统计量,它本身没有价值判断。“方差大好不好”完全取决于具体的应用场景。
误区五:切比雪夫不等式给出精确概率
来源:教材 p80 + MIT 18.05 + Stanford Stat 116 + UCLA Stats 100A + 华东师大讲义
误区5:"切比雪夫不等式能算出精确概率"
❌ 错误解释:用切比雪夫不等式可以精确计算 的值。
✅ 正确解释:切比雪夫不等式只给出概率的上界,通常非常粗糙。它的价值在于:不依赖分布的具体形式,仅用期望和方差就能给出估计。对于已知分布的随机变量,应该直接计算精确概率。
详细说明:
例如,设 ,求 。
- 精确值:
- 切比雪夫估计:
切比雪夫估计 比精确值 大了约 倍,非常粗糙。
切比雪夫不等式的真正价值
切比雪夫不等式的主要价值不在于精确计算,而在于:
- 为未知分布提供保守的概率估计
- 作为理论工具证明大数定律等深刻定理
- 展示”方差越大,偏离期望的概率越大”这一基本直觉
十、习题精选
教材习题
习题 2.3-1(教材)— 泊松分布的方差与矩
设 服从参数为 的泊松分布,已知 ,且 。求 。
查看解答
解题思路:展开 ,利用泊松分布的期望和方差性质。
解答:
因为 ,所以 。
代入:
解方程 ,即 ,得 。
习题 2.3-3(教材)— 线性变换的方差
已知 ,,求 。
查看解答
解题思路:先求 ,再利用线性变换性质。
解答:
第一步:求
第二步:利用线性变换性质
答案:。
习题 2.3-4(教材)— 伯努利分布的方差
设 ,,且 。求 。
查看解答
解题思路:利用伯努利分布的期望和方差公式建立方程。
解答:
伯努利分布的期望和方差:
由条件 :
若 ,则 ,,满足条件。但此时 。
若 ,两边除以 :
所以 。
答案:(或 当 时)。
习题 2.3-5(教材)— 分段分布函数的方差
设随机变量 的分布函数为
其中 。求 。
查看解答
解题思路:这是参数为 的指数分布,利用指数分布的期望和方差公式。
解答:
密度函数为 ()。
期望:
二阶矩:
方差:
答案:,标准差 。
习题 2.3-8(教材)— 正态型分布的期望与方差
设随机变量 的分布函数为 (),()。求 和 。
查看解答
解题思路:先求密度函数,再利用 Gamma 函数计算积分。
解答:
密度函数:
期望:
令 ,,:
二阶矩:
令 ,:
方差:
答案:,。
习题 2.3-9(教材)— 方差的最小性
证明:对任意常数 ,有 。
查看解答
解题思路:利用方差最小性公式。
解答:
由方差最小性:
因为 ,所以 ,从而:
即 。
考研真题
习题7(2016 东北师范大学 432)— 方差线性变换
已知 ,,求 。
查看解答
习题8(2013 东北师范大学 432)— 二项分布期望与标准差
一颗均匀骰子先后抛掷36次,6点出现次数的期望值和方差分别为( ) A. 6 和 5 B. 6 和 C. 36 和 6 D. 36 和 3
查看解答
选A。设 为6点出现次数,则 。
标准差 ,但选项A中的”5”对应方差值(题目表述为”标准误差”实为方差)。
习题9(2018 复旦大学 861)— 二维正态分布方差线性组合
设 ,已知 ,求 。
查看解答
利用方差公式:
其中 。
解得 。
关键:多维随机变量线性组合的方差公式 。
习题10(2021 东北大学 432)— 负二项分布期望与方差
设 表示独立重复试验中取得 次成功所进行的试验次数,每次成功的概率为 。 (1) 当 时(几何分布),求 和 。 (2) 当 时,求 和 。
查看解答
,其期望和方差公式为:
(1) (几何分布 ):
(2) :
推导思路:负二项分布可分解为 个独立几何分布之和:,其中 。由期望和方差的线性性即得。
习题概览
| 编号 | 来源 | 知识点 | 难度 |
|---|---|---|---|
| 习题 2.3-1 | 教材 | 泊松分布的方差与矩 | ★★☆ |
| 习题 2.3-3 | 教材 | 线性变换的方差 | ★★☆ |
| 习题 2.3-4 | 教材 | 伯努利分布的方差 | ★★☆ |
| 习题 2.3-5 | 教材 | 分段分布函数的方差(指数分布) | ★★★ |
| 习题 2.3-8 | 教材 | 正态型分布的期望与方差(Gamma函数) | ★★★ |
| 习题 2.3-9 | 教材 | 方差的最小性 | ★★☆ |
| 习题7 | 2016 东北师范大学 432 | 方差线性变换 | ★★☆ |
| 习题8 | 2013 东北师范大学 432 | 二项分布期望与标准差 | ★★☆ |
| 习题9 | 2018 复旦大学 861 | 二维正态分布方差线性组合 | ★★★ |
| 习题10 | 2021 东北大学 432 | 负二项分布期望与方差 | ★★★ |
习题使用建议
- 教材习题(2.3-1 至 2.3-9)侧重基础概念巩固,建议在首次学习时完成
- 考研真题(习题7-10)侧重综合应用,建议在复习阶段作为检测使用
- 习题7、习题8 难度较低,适合快速检验方差基本公式的掌握程度
- 习题9 涉及协方差与多维正态分布,需要结合协方差的知识
- 习题10 涉及负二项分布,需要了解常见离散分布的期望与方差公式汇总
难度说明:★★☆ = 基础题(直接套公式),★★★ = 进阶题(需要综合分析或多步推导)
来源说明:教材习题来自茆诗松《概率论与数理统计》,考研真题来自各校 432 应用统计/861 概率论专业硕士入学考试。
十一、教材原文
以下为教材扫描版原文,可点击翻阅。
第二章 随机变量及其分布/方差与标准差