4.3 大数定律
本节概览
本节系统建立大数定律的理论体系。大数定律是概率论中最基本的极限定理之一,它从数学上严格论证了”频率稳定于概率”这一经验事实,为统计推断中大样本方法的理论基础。
逻辑链条:大数定律概述 → 马尔科夫大数定律(最一般)→ 切比雪夫大数定律 → 伯努利大数定律 → 辛钦大数定律(最常用)→ 柯尔莫哥洛夫强大数定律 → 相合估计
前置依赖:§4.1(依概率收敛、a.s.收敛)、§2.2(期望)、§2.3(方差、切比雪夫不等式)、§4.2(特征函数、连续性定理)
核心主线:五种大数定律构成从一般到特殊的条件递进链条:马尔科夫(方差存在即可)→ 切比雪夫(方差一致有界)→ 辛钦(i.i.d.,仅需期望存在)→ 伯努利(二项分布特例)→ 柯尔莫哥洛夫(i.i.d.,a.s.收敛)。
一、大数定律概述
直观含义
大数定律描述了大量随机现象的平均结果的稳定性:当独立试验次数充分大时,样本均值会稳定地接近总体期望。
生活化类比
抛硬币:抛1次可能正面向上,抛10次可能7次正面向上(70%),但抛10000次时正面比例几乎一定接近50%。大数定律为这一经验事实提供了严格的数学证明。
大数定律的分类
| 类型 | 收敛方式 | 典型定理 | 应用场景 |
|---|---|---|---|
| 弱大数定律 | 马尔科夫、切比雪夫、辛钦 | 相合性、频率稳定性 | |
| 强大数定律 | 柯尔莫哥洛夫 | 遍历理论、强化学习 |
二、马尔科夫大数定律
马尔科夫大数定律是最一般的弱大数定律,后续所有弱大数定律都是它的特例。
定理 4.3.1 — 马尔科夫大数定律
设 为随机变量序列(不要求独立或同分布),若
则 服从大数定律,即
理解要点:
- 公式(4.3.1)称为马尔科夫条件
- 马尔科夫条件只要求”平均方差趋于零”,不要求独立性或同分布
- 证明思路:对 应用切比雪夫不等式
证明
三、切比雪夫大数定律与伯努利大数定律
切比雪夫大数定律
定理 4.3.2 — 切比雪夫大数定律
设 为相互独立的随机变量序列,且方差一致有界(即存在常数 ,使得 ,),则
理解要点:
- 切比雪夫大数定律是马尔科夫大数定律在独立+方差一致有界条件下的特例
- “方差一致有界”意味着所有 的方差都不超过同一个常数
- 验证马尔科夫条件:
证明
证明:
第一步:利用独立性展开方差。 由 相互独立,协方差 (),故
第二步:利用方差一致有界。 由条件 ():
第三步:验证马尔科夫条件。
满足马尔科夫大数定律的马尔科夫条件,由该定理即得 。
伯努利大数定律
定理 4.3.3 — 伯努利大数定律
设 为 次独立重复试验中事件 发生的次数,,则
理解要点:
- 伯努利大数定律是切比雪夫大数定律在 (i.i.d.)条件下的特例
- 它从数学上严格证明了”频率稳定于概率”
- 验证:,满足方差一致有界
证明
证明:
第一步:建立伯努利试验的数学模型。 令 表示第 次试验中事件 是否发生:
则 i.i.d.,,且 ,。
第二步:验证切比雪夫大数定律的条件。
由于 在 上的最大值为 ,故
第三步:应用切比雪夫大数定律。 独立且方差一致有界(),由切比雪夫大数定律:
即 。
四、辛钦大数定律
辛钦大数定律是实际应用中最常用的大数定律,它不要求方差存在,仅需期望存在。
定理 4.3.4 — 辛钦大数定律(Khintchine)
设 为独立同分布的随机变量序列,且 存在(有限),则
理解要点:
- 辛钦大数定律的条件比切比雪夫更弱:不要求方差存在,只要求期望存在
- 但要求独立同分布(切比雪夫不要求同分布)
- 证明使用特征函数方法
证明(特征函数法)
辛钦 vs 切比雪夫:条件对比
| 条件 | 切比雪夫大数定律 | 辛钦大数定律 |
|---|---|---|
| 独立性 | 要求 | 要求 |
| 同分布 | 不要求 | 要求 |
| 期望存在 | 要求 | 要求 |
| 方差存在 | 要求(一致有界) | 不要求 |
| 结论 |
如何选择使用哪个大数定律?
- 如果随机变量独立但不同分布,且方差有界 → 用切比雪夫
- 如果随机变量独立同分布,且仅需期望存在 → 用辛钦
- 如果随机变量不独立,需验证马尔科夫条件 → 用马尔科夫
- 如果需要几乎处处收敛 → 用柯尔莫哥洛夫强大数定律
五、柯尔莫哥洛夫强大数定律
定理 4.3.5 — 柯尔莫哥洛夫强大数定律
设 为独立同分布的随机变量序列,且 存在(有限),则
即 。
理解要点:
- 强大数定律的结论比弱大数定律更强:不仅偏差的概率趋于零,而且”几乎所有”样本路径最终都收敛到
- 条件与辛钦大数定律完全相同(i.i.d. + 期望存在),但结论更强
- 强大数定律蕴含弱大数定律(a.s.收敛 ⇒ P收敛)
六、相合估计
定义
定义 4.3.1 — 相合估计
设 是参数 的估计量。若 ,则称 是 的相合估计(consistent estimator)。
常见相合估计
由大数定律可以直接得到以下相合估计:
| 估计量 | 估计对象 | 依据 |
|---|---|---|
| 总体均值 | 辛钦大数定律 | |
| 总体方差 | 大数定律 + 依概率收敛的运算性质 | |
| 事件概率 | 伯努利大数定律 | |
| 样本 阶矩 | 总体 阶矩 | 辛钦大数定律 |
样本方差的相合性
样本方差的相合性
设 独立同分布,,,则
证明
证明:
第一步:分解 。 不妨设 (否则令 ,不影响方差)。展开平方并求和:
由于 ,故
第二步:对两个项分别应用大数定律。
- 由辛钦大数定律(Khintchine), i.i.d. 且 (因为 ),故
- 同理,。
第三步:利用依概率收敛的运算性质。 由依概率收敛的乘法运算性质,。再由减法运算性质:
七、知识结构总览
graph TD A["大数定律"] --> B["马尔科夫<br/>最一般"] B --> C["切比雪夫<br/>独立+方差有界"] C --> D["伯努利<br/>二项分布特例"] B --> E["辛钦<br/>i.i.d.+期望存在"] E --> F["柯尔莫哥洛夫<br/>a.s.收敛"] C --> G["相合估计"] E --> G style A fill:#f5f5f5,color:#424242 style B fill:#e8f5e9,color:#2e7d32 style C fill:#fff3e0,color:#e65100 style D fill:#fff3e0,color:#e65100 style E fill:#e3f2fd,color:#1565c0 style F fill:#fce4ec,color:#c62828 style G fill:#f3e5f5,color:#7b1fa2
八、核心思想与证明技巧
核心思想
- 马尔科夫条件是核心:所有弱大数定律的证明都归结为验证马尔科夫条件 ,然后利用切比雪夫不等式完成证明
- 条件递进关系:从马尔科夫(最弱条件)到柯尔莫哥洛夫(最强结论),每个定理都是前一个在特定条件下的加强
- 相合性是统计推断的基石:大数定律保证了样本均值是总体期望的相合估计,这是矩估计法、频率学派统计推断的理论基础
证明技巧
| 技巧 | 说明 | 应用场景 |
|---|---|---|
| 验证马尔科夫条件 | 计算 是否趋于零 | 证明不独立或不同分布序列服从大数定律 |
| 切比雪夫不等式 | $P( | Y_n |
| 独立性展开方差 | (独立时) | 切比雪夫大数定律的证明 |
| 依概率收敛的运算 | 等 | 样本方差相合性 |
九、补充理解与易混淆点
辛钦大数定律与切比雪夫大数定律的混淆
来源:茆诗松教材§4.3 + 卡方训练营讲义 + CSDN”大数定律与中心极限定理” + 帮学堂”大数定律” + EM Notebook”极限定理”
误区1:"辛钦大数定律是切比雪夫大数定律的推广"
❌ 错误解释:辛钦大数定律不是切比雪夫的推广,两者是不同方向上的条件强化。辛钦要求同分布但不要求方差存在,切比雪夫不要求同分布但要求方差一致有界。两者互不包含。 ✅ 正确解释:辛钦和切比雪夫各有适用场景。辛钦适用于i.i.d.序列(如样本均值),条件更实用;切比雪夫适用于独立但不同分布的序列(如不同精度测量值的平均)。它们都是马尔科夫大数定律的特例,但特例化的方向不同。
“大数定律”与”中心极限定理”的混淆
来源:茆诗松教材§4.3 + 卡方训练营讲义 + CSDN”概率论双子星” + 考研数学”大数定律及中心极限定理” + book118”考研数学概率统计”
误区2:"大数定律和中心极限定理说的是同一件事"
❌ 错误解释:大数定律说的是 (收敛到一个常数),中心极限定理说的是 (收敛到一个分布)。两者回答不同的问题。 ✅ 正确解释:大数定律回答”样本均值是否趋近总体期望”(定性:是),中心极限定理回答”样本均值围绕期望波动的分布是什么”(定量:近似正态)。大数定律描述收敛到哪个值,中心极限定理描述以多快的速度和什么分布收敛。
弱大数定律与强大数定律的混淆
来源:茆诗松教材§4.3 + 卡方训练营讲义 + 2018复旦大学861真题 + 2021北京大学432真题 + zhongyl0430.github.io”依分布收敛”
误区3:"强大数定律只是弱大数定律的微小加强,差别不大"
❌ 错误解释:虽然两者条件相同(i.i.d. + 期望存在),但结论有本质区别。弱大数定律允许”偶尔偏离”(概率趋于零但可能发生无穷多次),强大数定律保证”最终稳定”(除了概率为零的集合外,每条样本路径都最终收敛)。 ✅ 正确解释:强大数定律蕴含弱大数定律,但反之不成立。存在满足弱大数定律但不满足强大数定律的例子。在实际应用中,强大数定律的”几乎必然”保证更强,例如在强化学习中需要保证策略几乎必然收敛。
十、习题精选
习题概览
编号 题目来源 知识点 难度 1 教材4.3-1 马尔科夫条件的验证 ★★☆ 2 教材4.3-2 切比雪夫大数定律的应用 ★★☆ 3 教材4.3-3 辛钦大数定律的应用 ★★☆ 4 教材4.3-4 伯努利大数定律的应用 ★★☆ 5 教材4.3-5 相合估计的判断 ★★★ 6 教材4.3-6 样本方差的相合性 ★★★ 7 2014西南大学432 马尔科夫条件验证大数定律 ★★☆ 8 2021中国人民大学805 协方差有界序列的大数定律 ★★★ 9 2018厦门大学868 样本方差依概率收敛 ★★★ 10 2021北京大学432 强大数定律+连续映射定理 ★★★
习题1 — 教材4.3-1:马尔科夫条件的验证
习题1 — 教材4.3-1
设 独立同分布,,。验证 满足马尔科夫条件。
查看解答
解:由独立性,
满足马尔科夫条件,故 服从大数定律。
习题2 — 教材4.3-2:切比雪夫大数定律的应用
习题2 — 教材4.3-2
设 相互独立,,。判断 是否服从大数定律。
查看解答
解:虽然方差一致有界的条件不满足(),但可以直接验证马尔科夫条件:
不满足马尔科夫条件,故 不服从大数定律。
习题3 — 教材4.3-3:辛钦大数定律的应用
习题3 — 教材4.3-3
设 独立同分布, 服从柯西分布,密度为 。判断 是否服从辛钦大数定律。
查看解答
解:柯西分布的期望不存在(),不满足辛钦大数定律的条件。
因此 不服从辛钦大数定律。事实上, 仍然服从柯西分布(柯西分布的样本均值与单个随机变量同分布),不收敛到任何常数。
习题4 — 教材4.3-4:伯努利大数定律的应用
习题4 — 教材4.3-4
用伯努利大数定律确定:至少需要抛多少次硬币,才能使正面频率与 的偏差不超过 的概率至少为 。
查看解答
解:设 为 次抛掷中正面出现的次数,。
由切比雪夫不等式(伯努利大数定律的证明工具):
要求 ,即 ,解得 。
(注:用中心极限定理可以得到更精确的估计 ,但此处使用切比雪夫不等式更保守。)
习题5 — 教材4.3-5:相合估计的判断
习题5 — 教材4.3-5
设 为来自总体 的简单随机样本,, 存在。判断以下估计量是否为 的相合估计: (1) (2)
查看解答
习题6 — 教材4.3-6:样本方差的相合性
习题6 — 教材4.3-6
设 独立同分布,,。证明无偏样本方差 也是 的相合估计。
查看解答
解:已知 (样本方差的相合性)。
。由于 ,由依概率收敛的乘法性质:
故无偏样本方差 也是 的相合估计。
习题7 — 2014西南大学432:马尔科夫条件验证大数定律
习题7 — 2014西南大学432
设 为独立的随机变量序列,且 ,, 证明 服从大数定律。
查看解答
解:,,。
验证马尔科夫条件:
满足马尔科夫条件,故 服从大数定律。
习题8 — 2021中国人民大学805:协方差有界序列的大数定律
习题8 — 2021中国人民大学805
随机变量序列 , 存在,方差有界 ,()。证明: 服从大数定律。
查看解答
解:验证马尔科夫条件。由方差的展开公式:
由于 ,第一项 。
对于协方差项,由 (有界),但需要更精细的估计。由马尔科夫条件,只需:
题目条件保证协方差项的增长速度不超过 ,因此马尔科夫条件满足, 服从大数定律。
习题9 — 2018厦门大学868:样本方差依概率收敛
习题9 — 2018厦门大学868
独立同分布,均值 ,方差 ,样本方差 。证明: 依概率收敛于 。
查看解答
解:不妨设 (否则令 ,以 代替 )。
由辛钦大数定律:,。
再由依概率收敛的性质,,从而
习题10 — 2021北京大学432:强大数定律+连续映射定理
习题10 — 2021北京大学432
设 独立同分布,,。证明: 依概率 1 收敛于 。
查看解答
解:令 ,则 独立同分布。
由于 a.s., a.s. 有定义。若 ,则由柯尔莫哥洛夫强大数定律:
由连续映射定理( 连续):
十一、教材原文
以下为教材扫描版原文,可点击翻阅。
第四章 随机变量序列的极限定理/大数定律