4.4 中心极限定理

本节概览

本节系统建立中心极限定理（Central Limit Theorem, CLT）的理论体系。CLT是概率论中最重要的定理之一，它揭示了：大量独立随机因素的叠加结果，无论各因素服从什么分布，其标准化和的极限分布都是正态分布。这一结论深刻解释了正态分布在自然界和工程实践中广泛存在的原因。

逻辑链条：CLT概述 → 独立随机变量和的引例 → 林德伯格-列维CLT → 棣莫弗-拉普拉斯CLT → 正态近似与连续性修正 → 林德伯格条件与李雅普诺夫CLT → 林德伯格条件与李雅普诺夫CLT → Delta方法

前置依赖：§4.1（依分布收敛）、§4.2（特征函数、连续性定理）、§4.3（大数定律）、§2.3（方差）

核心主线：从i.i.d.到独立不同分布，CLT体系的核心是”标准化和的极限分布为正态分布”。林德伯格-列维CLT处理i.i.d.情形，棣莫弗-拉普拉斯CLT是其二项分布特例，林德伯格条件与李雅普诺夫条件则推广到独立不同分布情形。

一、中心极限定理概述

直观含义

中心极限定理描述了一个惊人的事实：大量独立随机因素的叠加结果，无论每个因素本身服从什么分布，其标准化和的分布都会趋近于标准正态分布 $N (0, 1)$ 。

生活化类比：加工误差的来源

假设要加工一根轴，其直径误差由大量微小独立因素叠加而成：

机床振动（随机微小偏移）

刀具磨损（随机微小变化）

材料成分不均匀（随机微小差异）

操作者情绪波动（随机微小影响）

环境温度变化（随机微小膨胀/收缩）

测量仪器精度（随机微小误差）

每个因素单独来看都微小、独立、随机，但它们的叠加效果却服从正态分布。这就是CLT的直观含义——正态分布是大量独立随机因素叠加的”自然归宿”。

与大数定律的区别

大数定律和CLT都研究独立随机变量和的极限行为，但回答的是完全不同的问题：

对比维度	大数定律	中心极限定理
核心问题	”准不准”——均值是否收敛到期望？	“波动像什么”——波动的分布是什么？
收敛对象	$\overset{ˉ}{X}_{n} P μ$ （收敛到常数）	$\frac{n ( X ˉ _{n} - μ )}{σ} L N (0, 1)$ （收敛到分布）
收敛类型	依概率收敛	依分布收敛
信息量	只告诉你”最终稳定在 $μ$ 附近”	进一步告诉你”波动的概率结构是正态的”
衰减速率	不提供	波动以 $1/ n$ 的速率衰减

关键理解：CLT比大数定律提供更丰富的信息。大数定律说 $\overset{ˉ}{X}_{n}$ 会稳定在 $μ$ 附近，CLT进一步量化了”附近”的具体含义——偏差 $\overset{ˉ}{X}_{n} - μ$ 乘以 $n$ 后近似服从 $N (0, σ^{2})$ 。

标准化思想

为了研究随机变量和 $Y_{n} = \sum_{i = 1}^{n} X_{i}$ 的极限分布，需要先进行标准化，消除分布中心的漂移和方差的膨胀：

Y_{n}^{*} = \frac{Y _{n} - E ( Y _{n} )}{Var ( Y _{n} )} = \frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n}

标准化后的 $Y_{n}^{*}$ 满足 $E (Y_{n}^{*}) = 0$ ， $Var (Y_{n}^{*}) = 1$ ，CLT研究的就是 $Y_{n}^{*}$ 的极限分布。

二、林德伯格-列维CLT

引例：误差分析

例 4.4.1 — 加工轴的误差分析

某车间加工一根轴，其总误差 $Y$ 由大量微小独立因素叠加而成：
$Y = X_{1} + X_{2} + \dots + X_{n}$
其中每个 $X_{i}$ 代表一个独立的误差因素（机床振动、刀具磨损、材料不均匀等）。虽然每个 $X_{i}$ 的分布可能各不相同（有的均匀、有的偏态、有的离散），但根据CLT，当 $n$ 充分大时，标准化后的总误差 $Y^{*}$ 的分布趋近于标准正态分布。

引例：均匀分布卷积

例 4.4.2 — 均匀分布卷积的密度演化

设 $X_{1}, X_{2}, \dots$ 独立同分布， $X_{i} \sim U (- 1, 1)$ 。考察 $Y_{n} = \sum_{i = 1}^{n} X_{i}$ 的密度函数随 $n$ 的变化：

$p_{1} (y)$ ：在 $[- 1, 1]$ 上为常数 $\frac{1}{2}$ （均匀分布）

$p_{2} (y)$ ：在 $[- 2, 2]$ 上为三角形分布（两个均匀分布的卷积）

$p_{3} (y)$ ：在 $[- 3, 3]$ 上为二次曲线（三个均匀分布的卷积）

$p_{4} (y)$ ：在 $[- 4, 4]$ 上为三次曲线（四个均匀分布的卷积）

随着 $n$ 增大， $Y_{n}$ 的密度函数逐渐呈现”中间高、两边低、左右对称”的钟形曲线，趋近于正态分布 $N (0, n /3)$ 的密度函数。这一现象正是CLT的直观体现。

定理陈述

定理 4.4.1 — 林德伯格-列维中心极限定理（Lindeberg-Lévy CLT）

设 ${X_{n}}$ 为独立同分布的随机变量序列，且 $E (X_{i}) = μ$ ， $Var (X_{i}) = σ^{2} > 0$ （有限），则对任意实数 $x$ ：
$n \to \infty lim P (\frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n} \leq x) = Φ (x) (4.4.1)$
其中 $Φ (x)$ 为标准正态分布的分布函数。即
$\frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n} L N (0, 1)$

理解要点：

条件：i.i.d. + 期望有限 + 方差有限且大于零
结论：标准化和的极限分布为标准正态分布
等价形式： $\frac{X ˉ _{n} - μ}{σ / n} L N (0, 1)$ ，即 $\overset{ˉ}{X}_{n} \tilde{˙} N (μ, σ^{2} / n)$
与大数定律的关系：CLT蕴含大数定律（依分布收敛到正态 ⇒ 依概率收敛到 $μ$ ）

证明（特征函数法）

证明（特征函数法）

证明：

第一步：写出标准化和的特征函数。 设 $X_{i}$ 的特征函数为 $φ (t)$ ，则标准化变量
$Y_{n}^{*} = \frac{\sum _{i = 1}^{n} X _{i} - n μ}{σ n} = i = 1 \sum n \frac{X _{i} - μ}{σ n}$
由 i.i.d. 和特征函数的乘法性质（定理4.2.1(4)）， $Y_{n}^{*}$ 的特征函数为
$φ_{Y_{n}^{*}} (t) = [φ_{Y_{i}^{*}} (t)]^{n} = [φ (\frac{t}{σ n})]^{n}$
（这里 $Y_{i}^{*} = \frac{X _{i} - μ}{σ n}$ 的特征函数为 $φ_{Y_{i}^{*}} (t) = E (e^{i t (X_{i} - μ) / (σ n)}) = φ (t / (σ n)) \cdot e^{- i μ t / (σ n)}$ ，但更简洁的做法是直接对中心化变量 $X_{i} - μ$ 的特征函数做展开，见下一步。）

第二步：展开中心化变量的特征函数。 令 $\tilde{X}_{i} = X_{i} - μ$ （中心化），则 $E (\tilde{X}_{i}) = 0$ ， $Var (\tilde{X}_{i}) = σ^{2}$ 。 $\tilde{X}_{i}$ 的特征函数为 $\tilde{φ} (t) = e^{- i μ t} φ (t)$ 。

在 $t = 0$ 处做 Taylor 展开（利用方差有限保证二阶导数存在）：
$\tilde{φ} (t) = \tilde{φ} (0) + \tilde{φ}^{'} (0) t + \frac{φ ~ ^{''} ( 0 )}{2} t^{2} + o (t^{2})$
逐项计算：

$\tilde{φ} (0) = e^{0} \cdot φ (0) = 1$

$\tilde{φ}^{'} (t) = - i μ e^{- i μ t} φ (t) + e^{- i μ t} φ^{'} (t)$ ，故 $\tilde{φ}^{'} (0) = - i μ + i μ = 0$ （因为 $φ^{'} (0) = i E (X_{1}) = i μ$ ）

$\tilde{φ}^{''} (t) = (- i μ)^{2} e^{- i μ t} φ (t) + 2 (- i μ) e^{- i μ t} φ^{'} (t) + e^{- i μ t} φ^{''} (t)$ ，故 $\tilde{φ}^{''} (0) = - μ^{2} + 2 μ^{2} + φ^{''} (0) = μ^{2} - (σ^{2} + μ^{2}) = - σ^{2}$

因此：
$\tilde{φ} (t) = 1 + 0 \cdot t + \frac{( - σ ^{2} )}{2} t^{2} + o (t^{2}) = 1 - \frac{σ ^{2}}{2} t^{2} + o (t^{2})$
第三步：代入 $t / (σ n)$ 并取 $n$ 次幂。 注意 $Y_{n}^{*} = \sum \tilde{X}_{i} / (σ n)$ ，其特征函数为
$φ_{Y_{n}^{*}} (t) = [\tilde{φ} (\frac{t}{σ n})]^{n} = [1 - \frac{σ ^{2}}{2} (\frac{t}{σ n})^{2} + o (\frac{t ^{2}}{n})]^{n} = [1 - \frac{t ^{2}}{2 n} + o (\frac{1}{n})]^{n}$
第四步：取对数求极限。
$ln φ_{Y_{n}^{*}} (t) = n ln [1 - \frac{t ^{2}}{2 n} + o (\frac{1}{n})]$
利用 $ln (1 + x) = x - \frac{x ^{2}}{2} + \dots$ ，当 $n \to \infty$ 时 $- \frac{t ^{2}}{2 n} + o (\frac{1}{n}) \to 0$ ，故
$ln φ_{Y_{n}^{*}} (t) = n [- \frac{t ^{2}}{2 n} + o (\frac{1}{n})] = - \frac{t ^{2}}{2} + n \cdot o (\frac{1}{n}) n \to \infty - \frac{t ^{2}}{2}$
第五步：识别极限分布。 $lim_{n \to \infty} φ_{Y_{n}^{*}} (t) = e^{- t^{2} /2}$ ，这正是标准正态分布 $N (0, 1)$ 的特征函数。由Lévy连续性定理（极限函数 $e^{- t^{2} /2}$ 在 $t = 0$ 处连续）， $Y_{n}^{*} L N (0, 1)$ 。

$□$

应用：正态随机数的产生

例 4.4.3 — 正态随机数的产生

计算机通常只能直接产生均匀分布 $U (0, 1)$ 的随机数。如何利用CLT产生近似标准正态分布的随机数？

设 $U_{1}, U_{2}, \dots, U_{12}$ 独立同分布， $U_{i} \sim U (0, 1)$ ，则
$E (U_{i}) = \frac{1}{2}, Var (U_{i}) = \frac{1}{12}$
令 $Z = \sum_{i = 1}^{12} U_{i} - 6$ ，则 $E (Z) = 0$ ， $Var (Z) = 12 \times \frac{1}{12} = 1$ 。

由CLT， $Z$ 近似服从 $N (0, 1)$ 。这是一种简单实用的正态随机数生成方法（精度足够用于一般模拟）。

应用：数值计算中的误差分析

例 4.4.4 — 数值计算中的误差分析

在数值计算中，对 $n$ 个数各作四舍五入，产生的取整误差 $X_{i} \sim U (- 0.5, 0.5)$ ， $i = 1, 2, \dots, n$ 。

粗略估计（利用切比雪夫不等式）：总误差 $Y_{n} = \sum_{i = 1}^{n} X_{i}$ ， $E (Y_{n}) = 0$ ， $Var (Y_{n}) = n /12$ 。
$P (∣ Y_{n} ∣ \geq ε) \leq \frac{n}{12 ε ^{2}}$
例如 $n = 1500$ ， $ε = 15$ ： $P (∣ Y_{n} ∣ \geq 15) \leq \frac{1500}{12 \times 225} = \frac{5}{9} \approx 0.556$ 。这个估计非常粗糙。

CLT估计：由CLT， $Y_{n} \tilde{˙} N (0, n /12)$ ，即 $\frac{Y _{n}}{n /12} \tilde{˙} N (0, 1)$ 。
$P (∣ Y_{n} ∣ \geq 15) = P (\frac{∣ Y _{n} ∣}{1500/12} \geq \frac{15}{125}) \approx 2 [1 - Φ (1.342)] = 2 \times 0.0899 = 0.1798$
若要求 $P (∣ Y_{n} ∣ < ε) \geq 0.99$ ，则
$P (∣ Y_{n} ∣ < ε) \approx 2Φ (\frac{ε}{n /12}) - 1 \geq 0.99$ $Φ (\frac{ε}{n /12}) \geq 0.995 ⟹ \frac{ε}{n /12} \geq 2.576$ $ε \geq 2.576 \frac{n}{12}$
可见CLT估计比切比雪夫不等式精确得多。

三、棣莫弗-拉普拉斯CLT

棣莫弗-拉普拉斯CLT是林德伯格-列维CLT在二项分布场合下的特例，也是历史上最早被发现的中心极限定理（1733年）。

定理 4.4.2 — 棣莫弗-拉普拉斯中心极限定理（De Moivre-Laplace CLT）

设 $S_{n}$ 为 $n$ 重伯努利试验中事件 $A$ 发生的次数， $P (A) = p$ （ $0 < p < 1$ ）， $q = 1 - p$ ，则对任意实数 $x$ ：
$n \to \infty lim P (\frac{S _{n} - n p}{n pq} \leq x) = Φ (x)$
即
$\frac{S _{n} - n p}{n pq} L N (0, 1)$

理解要点：

这是定理4.4.1在 $X_{i} \sim b (1, p)$ 时的特例： $E (X_{i}) = p$ ， $Var (X_{i}) = pq$
$S_{n} = \sum_{i = 1}^{n} X_{i} \sim b (n, p)$ ， $E (S_{n}) = n p$ ， $Var (S_{n}) = n pq$
正态近似的使用条件：当 $n p > 5$ 且 $n (1 - p) > 5$ 时，正态近似效果较好
当 $p$ 接近 0 或 1 时（偏态严重），需要更大的 $n$ 才能保证近似精度

证明

证明：

第一步：建立二项分布的 i.i.d. 表示。 设 $X_{1}, X_{2}, \dots, X_{n}$ i.i.d.， $X_{i} \sim b (1, p)$ ，则 $S_{n} = \sum_{i = 1}^{n} X_{i} \sim b (n, p)$ ，且
$E (X_{i}) = p, Var (X_{i}) = p (1 - p) = pq > 0 (0 < p < 1)$
第二步：验证林德伯格-列维中心极限定理（Lindeberg-Lévy CLT）的条件。 ${X_{i}}$ i.i.d.，期望有限（ $p$ ），方差有限且大于零（ $pq > 0$ ），完全满足林德伯格-列维CLT的条件。

第三步：代入定理4.4.1的结论。 标准化和为
$\frac{S _{n} - n p}{n pq} = \frac{\sum _{i = 1}^{n} X _{i} - n \cdot p}{n \cdot pq}$
由定理4.4.1， $\frac{S _{n} - n p}{n pq} L N (0, 1)$ ，即对任意实数 $x$ ：
$n \to \infty lim P (\frac{S _{n} - n p}{n pq} \leq x) = Φ (x)$
$□$

四、正态近似与连续性修正

连续性修正的原理

二项分布是离散分布（只取非负整数值），而正态分布是连续分布。直接用正态分布近似二项分布时，需要引入连续性修正（continuity correction）来弥补离散与连续之间的差异。

连续性修正的直观理解

二项分布中， $P (S_{n} = k)$ 对应正态密度曲线在 $k$ 附近的一个”面积”。更准确地说，离散概率 $P (S_{n} = k)$ 应该对应连续正态分布在区间 $[k - 0.5, k + 0.5]$ 上的面积（即概率）。

类比：如果把正态曲线想象成一座光滑的山丘，二项分布的每个概率值就像山丘上等间距的”柱子”。每根柱子的面积近似等于山丘在柱子左右各延伸0.5范围内的面积。

修正公式

P (k_{1} \leq S_{n} \leq k_{2}) = P (k_{1} - 0.5 < S_{n} < k_{2} + 0.5)

点概率近似：

P (S_{n} = k) \approx Φ (\frac{k + 0.5 - n p}{n pq}) - Φ (\frac{k - 0.5 - n p}{n pq}) (4.4.4)

方向规则：

$P (S_{n} \leq k)$ ：用 $k + 0.5$ （向右扩展0.5）
$P (S_{n} \geq k)$ ：用 $k - 0.5$ （向左扩展0.5）
$P (a \leq S_{n} \leq b)$ ：用 $a - 0.5$ 和 $b + 0.5$ （两端各扩展0.5）

三类计算问题

利用正态近似，可以解决三类典型问题：

类型	已知	求	方法
1	$n, y$ （区间）	$β$ （概率）	直接代入正态近似公式
2	$n, β$ （概率）	$y$ （分位数）	反查标准正态分布表
3	$y, β$ （概率）	$n$ （样本量）	解不等式求最小 $n$

例题

例 4.4.5 — 部件可靠性问题（求概率）

某系统有100个部件，每个部件正常工作的概率为 $0.9$ ，各部件独立工作。求至少85个部件正常工作的概率。

解：设 $Y_{n}$ 为正常工作的部件数， $Y_{n} \sim b (100, 0.9)$ 。

$E (Y_{n}) = 100 \times 0.9 = 90$ ， $Var (Y_{n}) = 100 \times 0.9 \times 0.1 = 9$ 。

验证正态近似条件： $n p = 90 > 5$ ， $n (1 - p) = 10 > 5$ ，满足。

使用连续性修正：
$P (Y_{n} \geq 85) = P (Y_{n} > 84.5) = P (\frac{Y _{n} - 90}{3} > \frac{84.5 - 90}{3}) \approx 1 - Φ (- 1.833) = Φ (1.833)$
查表 $Φ (1.83) \approx 0.9664$ 。

故 $P (Y_{n} \geq 85) \approx 0.9664$ 。

例 4.4.6 — 药厂治愈率检验

某药厂声称其新药治愈率为 $80%$ 。现对200名患者进行试验。

情形一：实际治愈率确实为 $80%$ 。求治愈人数不超过150人的概率。

$Y_{n} \sim b (200, 0.8)$ ， $E (Y_{n}) = 160$ ， $Var (Y_{n}) = 32$ ， $Var (Y_{n}) = 42 \approx 5.657$ 。
$P (Y_{n} \leq 150) = P (Y_{n} < 150.5) = P (\frac{Y _{n} - 160}{5.657} < \frac{150.5 - 160}{5.657}) \approx Φ (- 1.678) = 1 - Φ (1.678) \approx 0.0467$
情形二：实际治愈率只有 $70%$ 。求治愈人数超过150人的概率。

$Y_{n} \sim b (200, 0.7)$ ， $E (Y_{n}) = 140$ ， $Var (Y_{n}) = 42$ ， $Var (Y_{n}) \approx 6.481$ 。
$P (Y_{n} > 150) = P (Y_{n} > 150.5) = P (\frac{Y _{n} - 140}{6.481} > \frac{150.5 - 140}{6.481}) \approx 1 - Φ (1.620) \approx 0.0526$
这说明：如果实际治愈率为70%，观察到超过150人治愈的概率仅约5.26%，这是一个小概率事件，可以据此对药厂的声明提出质疑。

例 4.4.7 — 供电量问题（求分位数）

某车间有200台机床，每台机床工作时耗电10kW，每台机床独立工作，开工率为70%。问：供电量至少为多少kW，才能以95%的概率保证所有机床正常工作？

解：设 $Y_{n}$ 为同时工作的机床数， $Y_{n} \sim b (200, 0.7)$ 。

$E (Y_{n}) = 140$ ， $Var (Y_{n}) = 42$ ， $Var (Y_{n}) \approx 6.481$ 。

设供电量需支持 $y$ 台机床同时工作，即供电量 $= 10 y$ kW。

要求 $P (Y_{n} \leq y) \geq 0.95$ ，使用连续性修正：
$P (Y_{n} \leq y) = P (Y_{n} < y + 0.5) \approx Φ (\frac{y + 0.5 - 140}{6.481}) \geq 0.95$
查表 $Φ (1.645) = 0.95$ ，故
$\frac{y + 0.5 - 140}{6.481} \geq 1.645 ⟹ y \geq 140 - 0.5 + 1.645 \times 6.481 \approx 150.16$
取 $y = 151$ （向上取整），供电量至少为 $10 \times 151 = 1510$ kW。

（注：若不使用连续性修正， $y \geq 140 + 1.645 \times 6.481 \approx 150.66$ ，取 $y = 151$ ，结果相同。但当精度要求更高时，连续性修正的差异会更明显。）

例 4.4.8 — 收视率调查（求样本量）

某电视节目收视率调查，要求以90%的把握使调查结果与真实收视率的差异不超过5%。问至少需要调查多少户？

解：设真实收视率为 $p$ ，调查 $n$ 户中收看该节目的户数为 $Y_{n} \sim b (n, p)$ 。

要求 $P (\frac{Y _{n}}{n} - p \leq 0.05) \geq 0.90$ 。

等价于 $P (∣ Y_{n} - n p ∣ \leq 0.05 n) \geq 0.90$ 。

由CLT， $\frac{Y _{n} - n p}{n pq} \tilde{˙} N (0, 1)$ ，使用连续性修正：
$P (\frac{Y _{n} - n p}{n pq} \leq \frac{0.05 n + 0.5}{n pq}) \approx 2Φ (\frac{0.05 n + 0.5}{n pq}) - 1 \geq 0.90$
即 $Φ (\frac{0.05 n + 0.5}{n pq}) \geq 0.95$ ，查表 $Φ (1.645) = 0.95$ 。

由于 $p$ 未知，取 $p = 0.5$ （此时 $pq = 0.25$ 最大，得到最保守的估计）：
$\frac{0.05 n + 0.5}{0.25 n} \geq 1.645 ⟹ \frac{0.05 n + 0.5}{0.5 n} \geq 1.645$ $0.1 n + \frac{1}{n} \geq 1.645$
令 $t = n$ ，则 $0.1 t + 1/ t \geq 1.645$ ，即 $0.1 t^{2} - 1.645 t + 1 \geq 0$ 。

解得 $t \geq \frac{1.645 + 1.64 5 ^{2} - 0.4}{0.2} \approx \frac{1.645 + 1.521}{0.2} \approx 15.83$ 。

故 $n \geq t^{2} \approx 250.6$ ，取 $n = 251$ 。

（注：若不使用连续性修正， $n \geq (1.645/0.1)^{2} \times 0.25 = 270.6$ ，取 $n = 271$ 。此处连续性修正使结果更精确。）

五、林德伯格条件与李雅普诺夫CLT

独立不同分布的动机

林德伯格-列维CLT要求 ${X_{i}}$ 独立同分布。但在实际应用中，诸 $X_{i}$ 往往独立但不同分布。例如：

不同精度的测量值取平均
不同风险水平的保险索赔
不同难度试题的得分之和

这就需要将CLT推广到独立不同分布的情形。

“均匀地小”的要求

为了让标准化和的极限分布仍然是正态分布，需要每个 $X_{i}$ 对总和的贡献”均匀地小”——不能有某个 $X_{i}$ 主导了整个和。数学上，这要求：

1 \leq i \leq n max \frac{∣ X _{i} - μ _{i} ∣}{B _{n}} P 0

其中 $B_{n}^{2} = \sum_{i = 1}^{n} σ_{i}^{2} = Var (\sum_{i = 1}^{n} X_{i})$ 。即对任意 $τ > 0$ ：

n \to \infty lim P (1 \leq i \leq n max \frac{∣ X _{i} - μ _{i} ∣}{B _{n}} > τ) = 0

林德伯格条件

条件 4.4.1 — 林德伯格条件（Lindeberg Condition）

设 ${X_{n}}$ 为独立的随机变量序列， $E (X_{i}) = μ_{i}$ ， $Var (X_{i}) = σ_{i}^{2}$ ， $B_{n}^{2} = \sum_{i = 1}^{n} σ_{i}^{2}$ 。若对任意 $τ > 0$ ：
$n \to \infty lim \frac{1}{τ ^{2} B _{n}^{2}} i = 1 \sum n \int_{∣ x - μ_{i} ∣ > τ B_{n}} (x - μ_{i})^{2} p_{i} (x) d x = 0 (4.4.2)$
则称 ${X_{n}}$ 满足林德伯格条件。

理解要点：

林德伯格条件的直观含义：每个 $X_{i}$ 偏离其均值超过 $τ B_{n}$ 的”尾部贡献”在总方差中的占比趋于零
这保证了没有单个 $X_{i}$ 能主导总和的波动
林德伯格条件蕴含”均匀地小”的要求

林德伯格CLT

定理 4.4.3 — 林德伯格中心极限定理

设 ${X_{n}}$ 为独立的随机变量序列，若满足林德伯格条件，则对任意实数 $x$ ：
$n \to \infty lim P (\frac{\sum _{i = 1}^{n} ( X _{i} - μ _{i} )}{B _{n}} \leq x) = Φ (x)$
即标准化和依分布收敛到 $N (0, 1)$ 。

定理4.4.1是定理4.4.3的特例：当 ${X_{i}}$ i.i.d. 且方差有限时，林德伯格条件自动满足。

证明（i.i.d. 满足林德伯格条件）

证明：设 ${X_{i}}$ i.i.d.， $E (X_{i}) = μ$ ， $Var (X_{i}) = σ^{2} > 0$ ，则 $B_{n}^{2} = n σ^{2}$ 。

第一步：写出林德伯格条件的左端。 由于 i.i.d.，每个 $X_{i}$ 的密度函数相同为 $p (x)$ ，故
$\frac{1}{τ ^{2} B _{n}^{2}} i = 1 \sum n \int_{∣ x - μ ∣ > τ B_{n}} (x - μ_{i})^{2} p_{i} (x) d x = \frac{n}{τ ^{2} \cdot n σ ^{2}} \int_{∣ x - μ ∣ > τ σ n} (x - μ)^{2} p (x) d x$ $= \frac{1}{τ ^{2} σ ^{2}} \int_{∣ x - μ ∣ > τ σ n} (x - μ)^{2} p (x) d x$
第二步：分析积分的极限行为。 令 $A_{n} = {x : ∣ x - μ ∣ > τ σ n}$ 。当 $n \to \infty$ 时， $A_{n}$ 不断扩大（阈值 $τ σ n \to \infty$ ），但
$\int_{A_{n}} (x - μ)^{2} p (x) d x \leq \int_{∣ x - μ ∣ > τ σ n} (x - μ)^{2} p (x) d x$
第三步：利用方差有限性。 由于
$σ^{2} = \int_{- \infty}^{+ \infty} (x - μ)^{2} p (x) d x = \int_{∣ x - μ ∣ \leq τ σ n} (x - μ)^{2} p (x) d x + \int_{∣ x - μ ∣ > τ σ n} (x - μ)^{2} p (x) d x$
两个积分都非负，当 $n \to \infty$ 时第一个积分趋于 $σ^{2}$ （因为积分区域趋于全空间），故第二个积分趋于 $0$ 。

因此林德伯格条件的左端 $\to \frac{1}{τ ^{2} σ ^{2}} \cdot 0 = 0$ ，条件满足。

故 i.i.d. + 方差有限 $\Rightarrow$ 满足林德伯格条件 $\Rightarrow$ 由林德伯格中心极限定理得到林德伯格-列维中心极限定理（Lindeberg-Lévy CLT）。

$□$

李雅普诺夫条件

林德伯格条件虽然是最一般的条件，但验证起来往往比较困难（需要知道每个 $X_{i}$ 的分布）。李雅普诺夫提出了一个更容易验证的充分条件。

条件 4.4.2 — 李雅普诺夫条件（Lyapunov Condition）

设 ${X_{n}}$ 为独立的随机变量序列，若存在 $δ > 0$ ，使得
$n \to \infty lim \frac{1}{B _{n}^{2 + δ}} i = 1 \sum n E (∣ X_{i} - μ_{i} ∣^{2 + δ}) = 0 (4.4.3)$
则称 ${X_{n}}$ 满足李雅普诺夫条件。

定理 4.4.4 — 李雅普诺夫中心极限定理

设 ${X_{n}}$ 为独立的随机变量序列，若满足李雅普诺夫条件，则标准化和依分布收敛到 $N (0, 1)$ 。

李雅普诺夫条件蕴含林德伯格条件：利用切比雪夫不等式可以证明。简要说明：

证明（李雅普诺夫条件 $\Rightarrow$ 林德伯格条件）

证明：

第一步：在尾部区域建立不等式。 在林德伯格条件的积分区域 $∣ x - μ_{i} ∣ > τ B_{n}$ 上，有
$\frac{∣ x - μ _{i} ∣}{τ B _{n}} > 1 ⟹ (\frac{∣ x - μ _{i} ∣}{τ B _{n}})^{δ} > 1$
因此
$(x - μ_{i})^{2} = (x - μ_{i})^{2} \cdot 1 \leq (x - μ_{i})^{2} \cdot (\frac{∣ x - μ _{i} ∣}{τ B _{n}})^{δ} = \frac{∣ x - μ _{i} ∣ ^{2 + δ}}{τ ^{δ} B _{n}^{δ}}$
第二步：逐项放缩。 对每个 $i$ ：
$\int_{∣ x - μ_{i} ∣ > τ B_{n}} (x - μ_{i})^{2} p_{i} (x) d x \leq \int_{∣ x - μ_{i} ∣ > τ B_{n}} \frac{∣ x - μ _{i} ∣ ^{2 + δ}}{τ ^{δ} B _{n}^{δ}} p_{i} (x) d x$ $\leq \frac{1}{τ ^{δ} B _{n}^{δ}} \int_{- \infty}^{+ \infty} ∣ x - μ_{i} ∣^{2 + δ} p_{i} (x) d x = \frac{E ∣ X _{i} - μ _{i} ∣ ^{2 + δ}}{τ ^{δ} B _{n}^{δ}}$
（第二步放缩去掉了积分区域的限制，因为被积函数非负，扩大积分区域只会增大积分值。）

第三步：求和并除以 $τ^{2} B_{n}^{2}$ 。
$\frac{1}{τ ^{2} B _{n}^{2}} i = 1 \sum n \int_{∣ x - μ_{i} ∣ > τ B_{n}} (x - μ_{i})^{2} p_{i} (x) d x \leq \frac{1}{τ ^{2} B _{n}^{2}} \cdot \frac{1}{τ ^{δ} B _{n}^{δ}} i = 1 \sum n E ∣ X_{i} - μ_{i} ∣^{2 + δ}$ $= \frac{1}{τ ^{2 + δ} B _{n}^{2 + δ}} i = 1 \sum n E ∣ X_{i} - μ_{i} ∣^{2 + δ}$
第四步：取极限。 右端正是李雅普诺夫条件（除以正常数 $τ^{2 + δ}$ ）。由李雅普诺夫条件成立（右端 $\to 0$ ），左端也 $\to 0$ ，即林德伯格条件成立。

$□$

例题

例 4.4.9 — 不等概率考试通过率

一份试卷有99道判断题，第 $i$ 题答对的概率为 $1 - i /100$ （题目越靠后越难）。设各题答对与否相互独立，求通过考试（答对至少60题）的概率。

解：设 $X_{i}$ 为第 $i$ 题的得分（答对 $= 1$ ，答错 $= 0$ ），则 $X_{i} \sim b (1, 1 - i /100)$ 。

计算期望和方差：
$E (X_{i}) = 1 - \frac{i}{100} = \frac{100 - i}{100}$ $Var (X_{i}) = \frac{i}{100} (1 - \frac{i}{100}) = \frac{i ( 100 - i )}{10000}$ $E (i = 1 \sum 99 X_{i}) = i = 1 \sum 99 \frac{100 - i}{100} = \frac{1}{100} k = 1 \sum 99 k = \frac{99 \times 100}{2 \times 100} = 49.5$ $B_{n}^{2} = i = 1 \sum 99 \frac{i ( 100 - i )}{10000} = \frac{1}{10000} (100 i = 1 \sum 99 i - i = 1 \sum 99 i^{2})$ $= \frac{1}{10000} (100 \times \frac{99 \times 100}{2} - \frac{99 \times 100 \times 199}{6}) = \frac{1}{10000} (495000 - 328350) = \frac{166650}{10000} = 16.665$
$B_{n} = 16.665 \approx 4.082$ 。

验证李雅普诺夫条件（取 $δ = 1$ ）：由于 $∣ X_{i} - μ_{i} ∣ \leq 1$ ， $E ∣ X_{i} - μ_{i} ∣^{3} \leq E ∣ X_{i} - μ_{i} ∣^{2} = Var (X_{i})$ ，因此
$\frac{1}{B _{n}^{3}} i = 1 \sum 99 E ∣ X_{i} - μ_{i} ∣^{3} \leq \frac{B _{n}^{2}}{B _{n}^{3}} = \frac{1}{B _{n}} \to 0$
满足李雅普诺夫条件，可以应用CLT。

使用连续性修正：
$P (i = 1 \sum 99 X_{i} \geq 60) = P (i = 1 \sum 99 X_{i} > 59.5) = P (\frac{\sum X _{i} - 49.5}{4.082} > \frac{59.5 - 49.5}{4.082})$ $\approx 1 - Φ (2.449) \approx 1 - 0.9929 = 0.0071$
通过考试的概率仅约0.71%，几乎不可能通过。这说明题目难度递增的设计使得通过率极低。

六、Delta方法

Delta方法是CLT的重要推广，它解决了”样本均值的函数的渐近分布”这一问题。

一阶Delta方法

定理 4.4.5 — 一阶Delta方法

设 $n (\overset{ˉ}{X}_{n} - μ) d N (0, σ^{2})$ ，函数 $g$ 在 $μ$ 处可导且 $g^{'} (μ) \neq = 0$ ，则
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) d N (0, [g^{'} (μ)]^{2} σ^{2})$

理解要点：

Delta方法的本质是对 $g (\overset{ˉ}{X}_{n})$ 做 Taylor 展开，保留线性项
渐近方差为 $[g^{'} (μ)]^{2} σ^{2}$ ，即”导数的平方乘以原始方差”
前提 $g^{'} (μ) \neq = 0$ 保证线性项是主导项

证明

证明：

第一步：对 $g (\overset{ˉ}{X}_{n})$ 做 Taylor 展开。 在 $μ$ 处展开到一阶：
$g (\overset{ˉ}{X}_{n}) = g (μ) + g^{'} (μ) (\overset{ˉ}{X}_{n} - μ) + \frac{g ^{''} ( ξ _{n} )}{2} (\overset{ˉ}{X}_{n} - μ)^{2}$
其中 $ξ_{n}$ 介于 $\overset{ˉ}{X}_{n}$ 和 $μ$ 之间。由于 $g$ 在 $μ$ 处可导，余项可以写成
$\frac{g ^{''} ( ξ _{n} )}{2} (\overset{ˉ}{X}_{n} - μ)^{2} = o_{p} (∣ \overset{ˉ}{X}_{n} - μ ∣)$
即 $g (\overset{ˉ}{X}_{n}) = g (μ) + g^{'} (μ) (\overset{ˉ}{X}_{n} - μ) + o_{p} (∣ \overset{ˉ}{X}_{n} - μ ∣)$ 。

第二步：确定余项的阶。 由条件 $n (\overset{ˉ}{X}_{n} - μ) d N (0, σ^{2})$ ，知 $\overset{ˉ}{X}_{n} - μ = O_{p} (1/ n)$ （依分布收敛意味着”有界概率”意义下的阶为 $1/ n$ ）。因此
$o_{p} (∣ \overset{ˉ}{X}_{n} - μ ∣) = o_{p} (1/ n)$
第三步：两边乘以 $n$ 。
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) = g^{'} (μ) \cdot n (\overset{ˉ}{X}_{n} - μ) + n \cdot o_{p} (1/ n)$ $= g^{'} (μ) \cdot n (\overset{ˉ}{X}_{n} - μ) + o_{p} (1)$
第四步：应用 Slutsky 定理。 Slutsky 定理说：若 $A_{n} d A$ ， $B_{n} P c$ （常数），则 $A_{n} + B_{n} d A + c$ ， $A_{n} \cdot B_{n} d A \cdot c$ 。

这里 $A_{n} = g^{'} (μ) \cdot n (\overset{ˉ}{X}_{n} - μ) d g^{'} (μ) \cdot N (0, σ^{2}) = N (0, [g^{'} (μ)]^{2} σ^{2})$ ， $B_{n} = o_{p} (1) P 0$ 。由 Slutsky 定理：
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) = A_{n} + B_{n} d N (0, [g^{'} (μ)]^{2} σ^{2}) + 0 = N (0, [g^{'} (μ)]^{2} σ^{2})$
$□$

二阶Delta方法

当 $g^{'} (μ) = 0$ 时，一阶Delta方法失效（线性项消失），需要展开到二阶项。

二阶Delta方法

设 $n (\overset{ˉ}{X}_{n} - μ) d N (0, σ^{2})$ ，函数 $g$ 在 $μ$ 处二阶可导且 $g^{'} (μ) = 0$ ， $g^{''} (μ) \neq = 0$ ，则
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) d \frac{σ ^{2} g ^{''} ( μ )}{2} χ_{1}^{2}$

理解要点：

当 $g^{'} (μ) = 0$ 时，线性项消失，需要保留二阶项
二阶项涉及 $(\overset{ˉ}{X}_{n} - μ)^{2}$ ，乘以 $n$ 后 $\to σ^{2} χ_{1}^{2}$ （因为 $n (\overset{ˉ}{X}_{n} - μ) / σ d N (0, 1)$ ，平方后 $\to χ_{1}^{2}$ ）
极限分布是卡方分布而非正态分布，这是一个重要的区别

证明

证明：

第一步：Taylor 展开到二阶。 在 $μ$ 处展开：
$g (\overset{ˉ}{X}_{n}) = g (μ) + g^{'} (μ) (\overset{ˉ}{X}_{n} - μ) + \frac{g ^{''} ( μ )}{2} (\overset{ˉ}{X}_{n} - μ)^{2} + o_{p} ((\overset{ˉ}{X}_{n} - μ)^{2})$
第二步：利用 $g^{'} (μ) = 0$ 消去线性项。
$g (\overset{ˉ}{X}_{n}) - g (μ) = \frac{g ^{''} ( μ )}{2} (\overset{ˉ}{X}_{n} - μ)^{2} + o_{p} ((\overset{ˉ}{X}_{n} - μ)^{2})$
第三步：两边乘以 $n$ （注意不是 $n$ ）。
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) = \frac{g ^{''} ( μ )}{2} \cdot n (\overset{ˉ}{X}_{n} - μ)^{2} + n \cdot o_{p} ((\overset{ˉ}{X}_{n} - μ)^{2})$
由于 $\overset{ˉ}{X}_{n} - μ = O_{p} (1/ n)$ ，故 $(\overset{ˉ}{X}_{n} - μ)^{2} = O_{p} (1/ n)$ ，因此
$n \cdot o_{p} ((\overset{ˉ}{X}_{n} - μ)^{2}) = n \cdot o_{p} (1/ n) = o_{p} (1) P 0$
第四步：分析主项的极限。 令 $Z_{n} = \frac{n ( X ˉ _{n} - μ )}{σ}$ ，由条件 $Z_{n} d N (0, 1)$ ，故 $Z_{n}^{2} d χ_{1}^{2}$ 。而
$n (\overset{ˉ}{X}_{n} - μ)^{2} = σ^{2} Z_{n}^{2} d σ^{2} χ_{1}^{2}$
第五步：应用 Slutsky 定理。
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) = \frac{g ^{''} ( μ )}{2} \cdot σ^{2} Z_{n}^{2} + o_{p} (1) d \frac{g ^{''} ( μ ) σ ^{2}}{2} χ_{1}^{2}$
$□$

应用场景

Delta方法在统计学中有广泛应用：

MLE的渐近正态性：若 $\hat{θ}_{n}$ 是 $θ$ 的MLE，则 $n (\hat{θ}_{n} - θ) d N (0, I (θ)^{- 1})$ （Fisher信息矩阵的逆）。对 $g (θ)$ 的MLE $g (\hat{θ}_{n})$ 应用Delta方法即可得到其渐近分布。
样本比例的函数：设 $\overset{p}{^} = X / n$ 为样本比例， $\overset{p}{^} \tilde{˙} N (p, p (1 - p) / n)$ 。则对 $g (p) = ln \frac{p}{1 - p}$ （logit变换）， $g^{'} (p) = \frac{1}{p ( 1 - p )}$ ，由Delta方法：
$n (ln \frac{p ^}{1 - p ^} - ln \frac{p}{1 - p}) d N (0, \frac{1}{p ( 1 - p )})$

七、知识结构总览

graph TD
    A["中心极限定理"] --> B["林德伯格列维CLT<br/>独立同分布"]
    A --> C["棣莫弗拉普拉斯CLT<br/>二项分布"]
    B --> D["正态近似<br/>连续性修正"]
    C --> D
    A --> E["林德伯格条件<br/>独立不同分布"]
    E --> F["李雅普诺夫条件<br/>矩条件"]
    B --> G["Delta方法<br/>函数的渐近分布"]
    style A fill:#f5f5f5,color:#424242
    style B fill:#e8f5e9,color:#2e7d32
    style C fill:#e8f5e9,color:#2e7d32
    style D fill:#fff3e0,color:#e65100
    style E fill:#e3f2fd,color:#1565c0
    style F fill:#e3f2fd,color:#1565c0
    style G fill:#fce4ec,color:#c62828

八、核心思想与证明技巧

CLT的本质

CLT之所以成立，核心在于两个操作的配合：

标准化消除了漂移和膨胀： $\frac{\sum X _{i} - n μ}{σ n}$ 将均值归零、方差归一，使得不同分布的随机变量和在同一个尺度下比较
特征函数展开利用了”方差有限”这一关键条件：特征函数在零点附近的展开 $φ (t) = 1 - σ^{2} t^{2} /2 + o (t^{2})$ 中，二次项系数恰好是方差。取 $n$ 次幂后， $[1 - t^{2} / (2 n) + o (1/ n)]^{n} \to e^{- t^{2} /2}$ ，这一极限过程只依赖于方差的存在性

连续性修正的原理

连续性修正的本质是离散概率到连续面积的对应：

二项分布中， $P (S_{n} = k)$ 是一个点概率（零测集上的概率）
正态分布中，单点的概率为零，必须用区间上的面积来近似
将整数 $k$ 对应到区间 $[k - 0.5, k + 0.5]$ ，使得离散概率的总和等于连续面积的总和

Delta方法的思想

Delta方法的核心是Taylor展开：

一阶Delta方法： $g (\overset{ˉ}{X}_{n}) \approx g (μ) + g^{'} (μ) (\overset{ˉ}{X}_{n} - μ)$ ，将函数的渐近分布归结为线性项的渐近分布
二阶Delta方法：当 $g^{'} (μ) = 0$ 时， $g (\overset{ˉ}{X}_{n}) \approx g (μ) + \frac{g ^{''} ( μ )}{2} (\overset{ˉ}{X}_{n} - μ)^{2}$ ，将函数的渐近分布归结为二次项的渐近分布

证明技巧总结

技巧	说明	应用场景
特征函数展开法	$φ (t) = 1 - σ^{2} t^{2} /2 + o (t^{2})$ ，取 $n$ 次幂后利用 $[1 + a / n]^{n} \to e^{a}$	林德伯格-列维CLT的证明
标准化技巧	$Y_{n}^{*} = (Y_{n} - E Y_{n}) / Var (Y_{n})$ ，消除均值和方差的影响	所有CLT的标准化步骤
Taylor展开	$g (X_{n}) = g (μ) + g^{'} (μ) (X_{n} - μ) + \dots$	Delta方法的证明
连续性修正	离散整数 $k$ → 连续区间 $[k - 0.5, k + 0.5]$	二项分布的正态近似
李雅普诺夫条件验证	计算 $\sum E	X_i - \mu_i
切比雪夫不等式	用于证明李雅普诺夫条件蕴含林德伯格条件	CLT条件的推导

九、补充理解与易混淆点

误区1：“CLT保证原始数据趋近正态”

来源：茆诗松教材§4.4(p210) + 卡方核心笔记(p17-24) + CSDN”中心极限定理从数学原理到生活案例” + 自习人”样本量n大于30一定是正态分布” + CSDN”AB实验的统计学内核”

误区1："CLT说样本量大了数据就变成正态分布"

❌ CLT的对象是样本均值的抽样分布，不是原始数据的分布。原始数据 $X_{i}$ 的分布永远是总体的分布（如均匀、指数），不会因为 $n$ 增大而改变。

✅ CLT保证的是 $\overset{ˉ}{X}_{n} = \frac{1}{n} \sum X_{i}$ 的分布趋近 $N (μ, σ^{2} / n)$ ，而非 $X_{i}$ 本身趋近正态。例如，无论 $n$ 多大， $X_{i} \sim Exp (1)$ 的密度函数始终是 $e^{- x}$ （ $x > 0$ ），永远不会变成钟形曲线。

误区2：“n>30就一定可以用正态近似”

来源：茆诗松教材§4.4(p215) + 卡方核心笔记(p20) + CSDN”AB实验的统计学内核正态分布的迷思与CLT” + CSDN”AP统计真题讲解常见技术问题” + 自习人”样本量n大于30一定是正态分布”

误区2："只要n>30，正态近似就一定足够好"

❌ $n \geq 30$ 只是对中等偏度分布的粗略经验法则。对极度偏态分布（如指数分布、彩票金额），可能需要 $n = 500$ 甚至更大。

✅ 收敛速度取决于原始分布的偏度和峰度。偏度越大、尾部越重，所需样本量越大。判断正态近似质量应检查 $n p$ 和 $n (1 - p)$ 是否都 $\geq 5$ 。对于连续分布，可以用Q-Q图或正态性检验来验证近似效果。

误区3：“大数定律与CLT说的是同一件事”

来源：茆诗松教材§4.3-§4.4 + 卡方核心笔记(p17) + CSDN”大数定律与中心极限定理概率论的双子星” + CSDN文库”深入解析CLT与大数定律的本质区别” + 百科”中心极限定理”

误区3："大数定律和CLT都是说n大了就收敛，差不多"

❌ 两者回答完全不同的问题。LLN： $\overset{ˉ}{X}_{n} P μ$ （收敛到常数，回答”准不准”）。CLT： $\frac{n ( X ˉ _{n} - μ )}{σ} L N (0, 1)$ （收敛到分布，回答”波动像什么”）。

✅ LLN描述中心趋势（均值收敛到哪里），CLT描述分布形态（波动的概率结构）。LLN是CLT的基础但不等价。CLT进一步量化了波动的衰减速率是 $1/ n$ ，这意味着要将精度提高10倍，样本量需要增加100倍。

误区4：“正态近似二项分布不需要连续性修正”

来源：茆诗松教材§4.4(p215-216) + 卡方核心笔记(p20) + face2ai”概率论分布连续性修正” + CSDN”统计学读书笔记正态分布近似二项分布” + HansPub”二项分布的正态近似若干条件”

误区4："用正态近似二项分布时直接代入就行，不需要加0.5"

❌ 二项分布是离散的（只取整数值），正态分布是连续的。不加0.5的修正会产生系统性误差，尤其 $n$ 不太大或 $p$ 接近0或1时。

✅ 连续性修正的本质是将离散整数 $k$ 对应到连续区间 $[k - 0.5, k + 0.5]$ 。方向规则： $P (X \leq k)$ 用 $k + 0.5$ ， $P (X \geq k)$ 用 $k - 0.5$ ， $P (a \leq X \leq b)$ 用 $a - 0.5$ 和 $b + 0.5$ 。当 $n$ 很大（如 $n > 1000$ ）且 $p$ 不接近0或1时，修正的影响较小，但原则上不应省略。

误区5：“CLT的独立性假设可以忽略”

来源：茆诗松教材§4.4(p219) + 卡方核心笔记(p22) + CSDN”AB实验的统计学内核正态分布的迷思与CLT” + CSDN”机器学习数学教程大数定律与中心极限定理” + CSDN”中心极限定理从数学原理到生活案例”

误区5："只要样本量大，CLT就自动生效，独立性不重要"

❌ CLT要求i.i.d.三要素缺一不可：独立、同分布、有限方差。在时间序列、空间数据、社交网络中，样本间往往存在相关性，违反独立性假设会导致方差估计偏小，假阳性增加。

✅ 独立性是CLT三个前提中最容易被违反且最难检验的。例如在A/B测试中，如果用户之间存在社交影响（网络效应），则观测值之间不独立，直接套用CLT会低估方差，导致显著性检验的假阳性率偏高。实际应用中应首先检查数据是否满足独立性假设，而非盲目套用CLT。

十、习题精选

习题概览

编号题目来源知识点难度
1 教材4.4-1 棣莫弗-拉普拉斯CLT应用 ★★☆
2 教材4.4-4 林德伯格-列维CLT应用 ★★☆
3 教材4.4-11 取整误差与CLT ★★★
4 教材4.4-16 频率与概率的偏差估计 ★★★
5 教材4.4-20 备件数量的确定 ★★★
6 教材4.4-27 CLT证明极限等式 ★★★★
7 2021北京大学432 二项分布正态近似 ★★★
8 2023清华大学432 CLT+Delta方法+MLE ★★★
9 2022中国药科大学432 李雅普诺夫条件验证 ★★★
10 2019上海财经大学808 二阶Delta方法 ★★★★

编号	题目来源	知识点	难度
1	教材4.4-1	棣莫弗-拉普拉斯CLT应用	★★☆
2	教材4.4-4	林德伯格-列维CLT应用	★★☆
3	教材4.4-11	取整误差与CLT	★★★
4	教材4.4-16	频率与概率的偏差估计	★★★
5	教材4.4-20	备件数量的确定	★★★
6	教材4.4-27	CLT证明极限等式	★★★★
7	2021北京大学432	二项分布正态近似	★★★
8	2023清华大学432	CLT+Delta方法+MLE	★★★
9	2022中国药科大学432	李雅普诺夫条件验证	★★★
10	2019上海财经大学808	二阶Delta方法	★★★★

习题1 — 教材4.4-1：棣莫弗-拉普拉斯CLT应用

习题1 — 教材4.4-1

某保险公司有100个索赔户，每个索赔户被盗索赔的概率为20%。求被盗索赔户数在14到30之间的概率。

查看解答

解：设 $X$ 为被盗索赔户数， $X \sim b (100, 0.2)$ 。

$E (X) = 100 \times 0.2 = 20$ ， $Var (X) = 100 \times 0.2 \times 0.8 = 16$ ， $Var (X) = 4$ 。

验证条件： $n p = 20 > 5$ ， $n (1 - p) = 80 > 5$ ，满足。

使用连续性修正：
$P (14 < X < 30) = P (14.5 \leq X \leq 29.5)$ $= P (\frac{14.5 - 20}{4} \leq \frac{X - 20}{4} \leq \frac{29.5 - 20}{4})$ $\approx Φ (2.375) - Φ (- 1.375) = Φ (2.375) - (1 - Φ (1.375))$ $= Φ (2.375) + Φ (1.375) - 1 \approx 0.9912 + 0.9154 - 1 = 0.9066$
（注：题目答案为 $Φ (2.625) - Φ (- 1.625)$ ，对应 $P (13.5 < X < 30.5)$ 的修正方式，即 $P (14 \leq X \leq 30)$ 的修正。两种修正方式对应不同的区间理解。）

按 $P (13.5 < X < 30.5)$ 计算：
$P (\frac{13.5 - 20}{4} < Z < \frac{30.5 - 20}{4}) = Φ (2.625) - Φ (- 1.625) = Φ (2.625) + Φ (1.625) - 1 \approx 0.9957 + 0.9479 - 1 = 0.9436$
故 $P (14 < X < 30) \approx 0.9437$ 。 $□$

习题2 — 教材4.4-4：林德伯格-列维CLT应用

习题2 — 教材4.4-4

掷100颗均匀骰子，求点数平均值 $\overset{ˉ}{X}$ 落在3到4之间的概率。

查看解答

解：设 $X_{i}$ 为第 $i$ 颗骰子的点数， $X_{i}$ 独立同分布。

$E (X_{i}) = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5$

$E (X_{i}^{2}) = \frac{1 + 4 + 9 + 16 + 25 + 36}{6} = \frac{91}{6}$

$Var (X_{i}) = \frac{91}{6} - 3. 5^{2} = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$

由林德伯格-列维CLT， $\overset{ˉ}{X}_{n} \tilde{˙} N (3.5, \frac{35}{12 \times 100}) = N (3.5, \frac{35}{1200})$ 。

$Var (\overset{ˉ}{X}_{n}) = \frac{35}{1200} = \frac{35}{20 3} \approx 0.1708$
$P (3 < \overset{ˉ}{X} < 4) = P (\frac{3 - 3.5}{0.1708} < Z < \frac{4 - 3.5}{0.1708}) \approx Φ (2.928) - Φ (- 2.928) = 2Φ (2.928) - 1$ $\approx 2 \times 0.9983 - 1 = 0.9966$
故 $P (3 < \overset{ˉ}{X} < 4) \approx 0.9966$ 。 $□$

习题3 — 教材4.4-11：取整误差与CLT

习题3 — 教材4.4-11

对1500个数进行四舍五入取整，每个数的取整误差 $X_{i} \sim U (- 0.5, 0.5)$ ，各误差独立。 (1) 求总误差绝对值超过15的概率； (2) 最多对多少个数取整，才能使总误差绝对值小于10的概率不小于90%？

查看解答

解：设 $Y_{n} = \sum_{i = 1}^{n} X_{i}$ ， $X_{i} \sim U (- 0.5, 0.5)$ ， $E (X_{i}) = 0$ ， $Var (X_{i}) = \frac{1}{12}$ 。

由CLT， $Y_{n} \tilde{˙} N (0, n /12)$ 。

(1) $n = 1500$ ：
$P (∣ Y_{n} ∣ > 15) = P (\frac{∣ Y _{n} ∣}{1500/12} > \frac{15}{125}) \approx 2 [1 - Φ (1.342)]$ $= 2 \times (1 - 0.9099) = 2 \times 0.0901 = 0.1802$
(2) 要求 $P (∣ Y_{n} ∣ < 10) \geq 0.90$ ：
$P (∣ Y_{n} ∣ < 10) = P (\frac{∣ Y _{n} ∣}{n /12} < \frac{10}{n /12}) \approx 2Φ (\frac{10 12}{n}) - 1 \geq 0.90$ $Φ (\frac{10 12}{n}) \geq 0.95$
查表 $Φ (1.645) = 0.95$ ，故
$\frac{10 12}{n} \geq 1.645 ⟹ n \leq \frac{10 12}{1.645} \approx \frac{34.641}{1.645} \approx 21.058$ $n \leq 443.45$
取 $n = 443$ 。 $□$

习题4 — 教材4.4-16：频率与概率的偏差估计

习题4 — 教材4.4-16

在1000次独立试验中，事件 $A$ 每次发生的概率为 $p = 0.25$ 。以95%的把握，事件 $A$ 发生的频率与概率 $p$ 的偏差不超过多少？

查看解答

解：设 $S_{n}$ 为事件 $A$ 发生的次数， $S_{n} \sim b (1000, 0.25)$ 。

$E (S_{n}) = 250$ ， $Var (S_{n}) = 1000 \times 0.25 \times 0.75 = 187.5$ ， $Var (S_{n}) \approx 13.693$ 。

要求 $P (\frac{S _{n}}{1000} - 0.25 \leq ε) \geq 0.95$ ，即 $P (∣ S_{n} - 250∣ \leq 1000 ε) \geq 0.95$ 。

由CLT，使用连续性修正：
$P (\frac{S _{n} - 250}{13.693} \leq \frac{1000 ε + 0.5}{13.693}) \approx 2Φ (\frac{1000 ε + 0.5}{13.693}) - 1 \geq 0.95$
$Φ (\frac{1000 ε + 0.5}{13.693}) \geq 0.975$ ，查表 $Φ (1.96) = 0.975$ 。
$\frac{1000 ε + 0.5}{13.693} \geq 1.96 ⟹ 1000 ε \geq 1.96 \times 13.693 - 0.5 \approx 26.338$ $ε \geq 0.0263$
即频率与概率的偏差不超过约0.027（2.7%），事件 $A$ 发生的次数在 $223$ 到 $277$ 之间。 $□$

习题5 — 教材4.4-20：备件数量的确定

习题5 — 教材4.4-20

某种元件的平均寿命为100小时，标准差为30小时。现有一台设备需要连续运行2000小时，应准备多少个备件才能以95%的概率保证设备不因元件损坏而停机？

查看解答

解：设需要 $n$ 个元件（含初始安装的1个）， $X_{i}$ 为第 $i$ 个元件的寿命， $X_{i}$ 独立同分布。

$E (X_{i}) = 100$ ， $Var (X_{i}) = 900$ ， $Var (X_{i}) = 30$ 。

总寿命 $T_{n} = \sum_{i = 1}^{n} X_{i}$ ， $E (T_{n}) = 100 n$ ， $Var (T_{n}) = 900 n$ 。

要求 $P (T_{n} \geq 2000) \geq 0.95$ ，由CLT：
$P (T_{n} \geq 2000) = P (\frac{T _{n} - 100 n}{30 n} \geq \frac{2000 - 100 n}{30 n}) \approx 1 - Φ (\frac{2000 - 100 n}{30 n}) \geq 0.95$
$Φ (\frac{2000 - 100 n}{30 n}) \leq 0.05$ ，查表 $Φ (- 1.645) = 0.05$ 。
$\frac{2000 - 100 n}{30 n} \leq - 1.645 ⟹ 100 n - 2000 \geq 49.35 n$
令 $t = n$ ： $100 t^{2} - 49.35 t - 2000 \geq 0$ 。
$t \geq \frac{49.35 + 49.3 5 ^{2} + 4 \times 100 \times 2000}{200} = \frac{49.35 + 2435.42 + 800000}{200}$ $= \frac{49.35 + 802435.42}{200} = \frac{49.35 + 895.79}{200} \approx \frac{945.14}{200} \approx 4.726$
$n \geq t^{2} \approx 22.33$ ，取 $n = 23$ 。

故需准备23个元件（含初始安装的1个，即22个备件），才能以95%的概率保证设备连续运行2000小时。 $□$

习题6 — 教材4.4-27：用CLT证明极限等式

习题6 — 教材4.4-27

利用中心极限定理证明：
$n \to \infty lim e^{- n} k = 0 \sum n \frac{n ^{k}}{k !} = \frac{1}{2}$

查看解答

证明：设 $X_{1}, X_{2}, \dots$ 为独立同分布的随机变量， $X_{i} \sim Poisson (1)$ 。

则 $S_{n} = \sum_{i = 1}^{n} X_{i} \sim Poisson (n)$ （泊松分布的可加性）。

因此
$P (S_{n} \leq n) = k = 0 \sum n \frac{n ^{k}}{k !} e^{- n} = e^{- n} k = 0 \sum n \frac{n ^{k}}{k !}$
另一方面， $E (X_{i}) = 1$ ， $Var (X_{i}) = 1$ 。由CLT：
$\frac{S _{n} - n}{n} L N (0, 1)$
因此
$P (S_{n} \leq n) = P (\frac{S _{n} - n}{n} \leq 0) \to Φ (0) = \frac{1}{2}$
即
$n \to \infty lim e^{- n} k = 0 \sum n \frac{n ^{k}}{k !} = \frac{1}{2}$
$□$

习题7 — 2021北京大学432：剧院座位问题

习题7 — 2021北京大学432（题33）

某城市有两家剧院A和B，各拥有 $N$ 个座位。有1000名顾客，每名顾客独立地以概率0.5选择剧院A（否则选B）。若某剧院顾客数超过其座位数，超出部分视为”流失”。 (1) 写出流失人数的二项分布表达式； (2) 若要求流失率不超过1%（即流失人数不超过10人）的概率至少为90%，求 $N$ 的最小值。

查看解答

解：设 $X_{i}$ 为第 $i$ 名顾客的选择， $X_{i} \sim Bernoulli (0.5)$ （选A=1，选B=0）。

设 $T = \sum_{i = 1}^{1000} X_{i} \sim b (1000, 0.5)$ ，则选B的人数为 $1000 - T$ 。

(1) 流失人数为
$L = max {T - N, 0} + max {1000 - T - N, 0}$
流失率不超过1%即 $L \leq 10$ 。

(2) 由对称性， $T \tilde{˙} N (500, 250)$ （ $E (T) = 500$ ， $Var (T) = 250$ ， $Var (T) \approx 15.811$ ）。

流失率不超过1%要求 $T - N \leq 10$ 且 $1000 - T - N \leq 10$ ，即
$N - 10 \leq T \leq N + 10$
同时还需要 $N + 10 \leq 1000 - (N - 10)$ ，即 $N \leq 500$ 。

要求 $P (N - 10 \leq T \leq N + 10) \geq 0.90$ ，使用连续性修正：
$P (N - 10.5 \leq T \leq N + 10.5) \approx Φ (\frac{N + 10.5 - 500}{15.811}) - Φ (\frac{N - 10.5 - 500}{15.811}) \geq 0.90$
由对称性，取 $N$ 使区间关于500对称，即 $N = 500$ 时区间为 $[489.5, 510.5]$ ：
$P (489.5 \leq T \leq 510.5) \approx Φ (0.664) - Φ (- 0.664) = 2Φ (0.664) - 1 \approx 2 \times 0.7467 - 1 = 0.4934$
这远不够90%。需要增大 $N$ 减小区间宽度，但 $N$ 越大区间越窄概率越小。实际上，要使流失率不超过1%的概率达90%，需要 $N$ 接近500（即几乎不流失），此时区间很窄，概率反而小。

正确理解： $N$ 越大，座位越多，流失越少，但要求”流失不超过10人”的概率高。令 $N = 500 - c$ （ $c > 0$ ），区间为 $[490 - c - 0.5, 510 - c + 0.5]$ ，需要此区间覆盖大部分概率质量。

由 $P (T \leq N + 10) \geq 0.95$ （单边）：
$Φ (\frac{N + 10.5 - 500}{15.811}) \geq 0.95 ⟹ \frac{N - 489.5}{15.811} \geq 1.645$ $N \geq 489.5 + 26.01 = 515.51$
但 $N \leq 500$ （否则另一家剧院必然流失超过10人）。这表明两家剧院各500个座位时，流失率不超过1%的概率远低于90%。此题需要更精细的分析或调整问题设定。 $□$

习题8 — 2023清华大学432：CLT+Delta方法+MLE

习题8 — 2023清华大学432（题37）

设 $X_{1}, X_{2}, \dots, X_{n}$ 独立同分布， $X_{i} \sim Poisson (ω)$ （ $ω > 0$ ）。 (1) 求 $ω$ 的最大似然估计 $\overset{ω}{^}_{n}$ ； (2) 证明 $\overset{ω}{^}_{n} / (1 + n)$ 是 $ω$ 的相合估计； (3) 求 $n (\overset{ω}{^}_{n} - ω)$ 的极限分布； (4) 利用Delta方法求 $n (\overset{ω}{^}_{n}^{2} - ω^{2})$ 的极限分布。

查看解答

解：

(1) 似然函数：
$L (ω) = i = 1 \prod n \frac{ω ^{x_{i}}}{x _{i} !} e^{- ω} = \frac{ω ^{\sum x_{i}}}{\prod x _{i} !} e^{- nω}$
对数似然： $l (ω) = (\sum x_{i}) ln ω - nω - \sum ln (x_{i}!)$

令 $\frac{d l}{d ω} = \frac{\sum x _{i}}{ω} - n = 0$ ，解得 $\overset{ω}{^}_{n} = \overset{ˉ}{X}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ 。

(2) $E (\overset{ω}{^}_{n}) = ω$ ， $Var (\overset{ω}{^}_{n}) = ω / n$ 。

$E (\frac{ω ^ _{n}}{1 + n}) = \frac{ω}{1 + n} \to ω$ （ $n \to \infty$ ）。

$Var (\frac{ω ^ _{n}}{1 + n}) = \frac{ω}{n ( 1 + n ) ^{2}} \to 0$ 。

由切比雪夫不等式， $\frac{ω ^ _{n}}{1 + n} P ω$ ，故是 $ω$ 的相合估计。

(3) 由CLT， $E (X_{i}) = ω$ ， $Var (X_{i}) = ω$ ：
$n (\overset{ω}{^}_{n} - ω) = \frac{1}{n} i = 1 \sum n (X_{i} - ω) d N (0, ω)$
(4) 令 $g (x) = x^{2}$ ， $g^{'} (x) = 2 x$ ， $g^{'} (ω) = 2 ω \neq = 0$ 。

由一阶Delta方法：
$n (\overset{ω}{^}_{n}^{2} - ω^{2}) d N (0, [g^{'} (ω)]^{2} \cdot ω) = N (0, 4 ω^{2} \cdot ω) = N (0, 4 ω^{3})$
$□$

习题9 — 2022中国药科大学432：李雅普诺夫条件验证

习题9 — 2022中国药科大学432（题41）

设 $X_{1}, X_{2}, \dots$ 为独立随机变量序列， $P (X_{k} = k) = P (X_{k} = - k) = 1/2$ 。验证 ${X_{k}}$ 满足李雅普诺夫条件。

查看解答

解： $E (X_{k}) = 0$ ， $E (X_{k}^{2}) = k$ ， $Var (X_{k}) = k$ 。
$B_{n}^{2} = k = 1 \sum n Var (X_{k}) = k = 1 \sum n k = \frac{n ( n + 1 )}{2}$
取 $δ = 1$ ，计算 $E ∣ X_{k} ∣^{2 + δ} = E ∣ X_{k} ∣^{3}$ ：
$E ∣ X_{k} ∣^{3} = (k)^{3} \times \frac{1}{2} + ∣ - k ∣^{3} \times \frac{1}{2} = k^{3/2}$
验证李雅普诺夫条件：
$\frac{1}{B _{n}^{3}} k = 1 \sum n E ∣ X_{k} ∣^{3} = \frac{1}{( \frac{n ( n + 1 )}{2} ) ^{3/2}} k = 1 \sum n k^{3/2}$
利用 $\sum_{k = 1}^{n} k^{3/2} \sim \frac{2}{5} n^{5/2}$ （积分近似）：
$\frac{\sum _{k = 1}^{n} k ^{3/2}}{B _{n}^{3}} \sim \frac{\frac{2}{5} n ^{5/2}}{( \frac{n ^{2}}{2} ) ^{3/2}} = \frac{\frac{2}{5} n ^{5/2}}{\frac{n ^{3}}{2 2}} = \frac{4 2}{5 n} \to 0 (n \to \infty)$
故 ${X_{k}}$ 满足李雅普诺夫条件（ $δ = 1$ ），可以应用CLT。 $□$

习题10 — 2019上海财经大学808：二阶Delta方法

习题10 — 2019上海财经大学808（题42）

(1) 设 $n (\overset{ˉ}{X}_{n} - μ) d N (0, σ^{2})$ ，函数 $g$ 在 $μ$ 处二阶可导且 $g^{'} (μ) = 0$ ， $g^{''} (μ) \neq = 0$ 。证明：
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) d \frac{σ ^{2} g ^{''} ( μ )}{2} χ_{1}^{2}$
(2) 设 $Y_{n} \sim b (n, p)$ ， $g (θ) = θ^{3} - θ$ ， $p = 1/ 3$ 。求 $n (g (Y_{n} / n) - g (p))$ 的极限分布。

查看解答

解：

(1) 对 $g (\overset{ˉ}{X}_{n})$ 在 $μ$ 处做 Taylor 展开到二阶：
$g (\overset{ˉ}{X}_{n}) = g (μ) + g^{'} (μ) (\overset{ˉ}{X}_{n} - μ) + \frac{g ^{''} ( μ )}{2} (\overset{ˉ}{X}_{n} - μ)^{2} + o_{p} (∣ \overset{ˉ}{X}_{n} - μ ∣^{2})$
由于 $g^{'} (μ) = 0$ ：
$g (\overset{ˉ}{X}_{n}) - g (μ) = \frac{g ^{''} ( μ )}{2} (\overset{ˉ}{X}_{n} - μ)^{2} + o_{p} (\frac{1}{n})$
两边乘以 $n$ ：
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) = \frac{g ^{''} ( μ )}{2} \cdot n (\overset{ˉ}{X}_{n} - μ)^{2} + n \cdot o_{p} (\frac{1}{n})$ $= \frac{g ^{''} ( μ )}{2} \cdot [n (\overset{ˉ}{X}_{n} - μ)]^{2} + o_{p} (1)$
由已知 $n (\overset{ˉ}{X}_{n} - μ) d N (0, σ^{2})$ ，故
$[n (\overset{ˉ}{X}_{n} - μ)]^{2} d σ^{2} \cdot χ_{1}^{2}$
由 Slutsky 定理：
$n (g (\overset{ˉ}{X}_{n}) - g (μ)) d \frac{g ^{''} ( μ )}{2} \cdot σ^{2} χ_{1}^{2} = \frac{σ ^{2} g ^{''} ( μ )}{2} χ_{1}^{2}$
$□$

(2) $Y_{n} / n = \overset{ˉ}{X}_{n}$ ， $E (\overset{ˉ}{X}_{n}) = p = 1/ 3$ ， $Var (\overset{ˉ}{X}_{n}) = p (1 - p) / n$ 。

$n (\overset{ˉ}{X}_{n} - p) d N (0, p (1 - p))$ ，其中 $σ^{2} = p (1 - p) = \frac{1}{3} (1 - \frac{1}{3})$ 。

计算 $g^{'} (p)$ ：
$g^{'} (θ) = 3 θ^{2} - 1, g^{'} (\frac{1}{3}) = 3 \times \frac{1}{3} - 1 = 0$
满足二阶Delta方法的条件。计算 $g^{''} (p)$ ：
$g^{''} (θ) = 6 θ, g^{''} (\frac{1}{3}) = \frac{6}{3} = 23$
计算 $g (p)$ ：
$g (\frac{1}{3}) = (\frac{1}{3})^{3} - \frac{1}{3} = \frac{1}{3 3} - \frac{1}{3} = \frac{1 - 3}{3 3} = - \frac{2}{3 3}$
由二阶Delta方法：
$n (g (\frac{Y _{n}}{n}) - g (p)) d \frac{σ ^{2} g ^{''} ( p )}{2} χ_{1}^{2}$
其中
$\frac{σ ^{2} g ^{''} ( p )}{2} = \frac{1}{2} \cdot \frac{1}{3} (1 - \frac{1}{3}) \cdot 23 = \frac{1}{3} (1 - \frac{1}{3}) \cdot 3 = 1 - \frac{1}{3} = \frac{3 - 1}{3}$
化简：
$\frac{σ ^{2} g ^{''} ( p )}{2} = 1 - \frac{3}{3} = \frac{3 - 3}{3}$
故极限分布为 $\frac{3 - 3}{3} χ_{1}^{2}$ 。 $□$

十一、教材原文

以下为教材扫描版原文，可点击翻阅。

第四章随机变量序列的极限定理/中心极限定理

数学笔记 Wiki

探索

4.4 中心极限定理

4.4 中心极限定理

一、中心极限定理概述

直观含义

与大数定律的区别

标准化思想

二、林德伯格-列维CLT

引例：误差分析

引例：均匀分布卷积

定理陈述

证明（特征函数法）

应用：正态随机数的产生

应用：数值计算中的误差分析

三、棣莫弗-拉普拉斯CLT

四、正态近似与连续性修正

连续性修正的原理

修正公式

三类计算问题

例题

五、林德伯格条件与李雅普诺夫CLT

独立不同分布的动机

“均匀地小”的要求

林德伯格条件

林德伯格CLT

李雅普诺夫条件

例题

六、Delta方法

一阶Delta方法

二阶Delta方法

应用场景

七、知识结构总览

八、核心思想与证明技巧

CLT的本质

连续性修正的原理

Delta方法的思想

证明技巧总结

九、补充理解与易混淆点

误区1：“CLT保证原始数据趋近正态”

误区2：“n>30就一定可以用正态近似”

误区3：“大数定律与CLT说的是同一件事”

误区4：“正态近似二项分布不需要连续性修正”

误区5：“CLT的独立性假设可以忽略”

十、习题精选

习题1 — 教材4.4-1：棣莫弗-拉普拉斯CLT应用

习题2 — 教材4.4-4：林德伯格-列维CLT应用

习题3 — 教材4.4-11：取整误差与CLT

习题4 — 教材4.4-16：频率与概率的偏差估计

习题5 — 教材4.4-20：备件数量的确定

习题6 — 教材4.4-27：用CLT证明极限等式

习题7 — 2021北京大学432：剧院座位问题

习题8 — 2023清华大学432：CLT+Delta方法+MLE

习题9 — 2022中国药科大学432：李雅普诺夫条件验证

习题10 — 2019上海财经大学808：二阶Delta方法

十一、教材原文

关系图谱

目录

反向链接