3.5 条件分布与条件期望
本节将条件概率 的思想推广到随机变量层面,建立条件分布 与条件期望 的完整理论框架。核心是从联合分布出发,在给定一个随机变量取值的条件下,研究另一个随机变量的分布特征,并由此导出全期望公式 和全方差公式 两大恒等式。条件分布是连接联合分布与边缘分布的桥梁,条件期望则是处理分层随机模型的核心工具。
逻辑链条 :离散条件分布 → 连续条件密度 → 二维正态条件分布 → 条件期望 → 全期望公式 → 全方差公式
前置依赖 :§3.1 、§3.2 、§3.4
核心主线 :以联合分布为基础,通过”固定一个变量、考察另一个变量”的思路定义条件分布,进而引入条件期望,最终建立全期望公式与全方差公式两大恒等式。
一、离散型条件分布
条件分布律
定义 3.5.1 — 条件分布律(公式3.5.1、3.5.2)
设 ( X , Y ) 为二维离散型随机变量,其联合分布律为 P ( X = x i , Y = y j ) = p ij (i , j = 1 , 2 , … ),X 和 Y 的边缘分布律分别为 p i ⋅ = ∑ j p ij 和 p ⋅ j = ∑ i p ij 。
若 p ⋅ j > 0 ,则在 Y = y j 的条件下 X 的条件分布律 为
P ( X = x i ∣ Y = y j ) = p ⋅ j p ij , i = 1 , 2 , … ( 3.5.1 )
若 p i ⋅ > 0 ,则在 X = x i 的条件下 Y 的条件分布律为
P ( Y = y j ∣ X = x i ) = p i ⋅ p ij , j = 1 , 2 , … ( 3.5.2 )
理解要点 :条件分布律的本质是条件概率 在随机变量上的直接推广。给定 Y = y j 后,联合概率 p ij 被限制在 Y = y j 这一行上,除以该行的边缘概率 p ⋅ j 进行归一化,就得到 X 在该条件下的分布。
条件分布函数
定义 3.5.2 — 条件分布函数(公式3.5.3、3.5.4)
在 Y = y j 的条件下,X 的条件分布函数 为
F ( x ∣ y j ) = P ( X ≤ x ∣ Y = y j ) = x i ≤ x ∑ p ⋅ j p ij ( 3.5.3 )
在 X = x i 的条件下,Y 的条件分布函数为
F ( y ∣ x i ) = P ( Y ≤ y ∣ X = x i ) = y j ≤ y ∑ p i ⋅ p ij ( 3.5.4 )
乘法关系
由条件分布律的定义,联合分布律可以分解为边缘分布律与条件分布律的乘积:
p ij = p i ⋅ ⋅ p j ∣ i = p ⋅ j ⋅ p i ∣ j
这与乘法公式 P ( A B ) = P ( A ) P ( B ∣ A ) 完全对应。
独立性判定
由条件分布律的定义可以直接得到独立性的条件分布刻画:
X 与 Y 独立 ⟺ p ij = p i ⋅ ⋅ p ⋅ j ⟺ p i ∣ j = p i ⋅ ( ∀ i , j )
即:X 与 Y 独立等价于条件分布等于边缘分布——给定 Y 的取值不影响 X 的分布。
设 ( X , Y ) 的联合分布律为
X ∖ Y 0 1 p i ⋅ 0 4 1 4 1 2 1 1 4 1 4 1 2 1 p ⋅ j 2 1 2 1 1
求 X 在 Y = 1 条件下的条件分布律。
解 :由公式 (3.5.1),
P ( X = 0 ∣ Y = 1 ) = p ⋅ 1 p 01 = 1/2 1/4 = 2 1
P ( X = 1 ∣ Y = 1 ) = p ⋅ 1 p 11 = 1/2 1/4 = 2 1
即 X ∣ Y = 1 仍为两点分布 b ( 1 , 1/2 ) ,与 X 的边缘分布相同,说明 X 与 Y 独立。
二、连续型条件分布
条件密度函数
定义 3.5.3 — 条件密度函数(公式3.5.6、3.5.8)
设 ( X , Y ) 为二维连续型随机变量,联合密度为 p ( x , y ) ,边缘密度为 p X ( x ) 和 p Y ( y ) 。
若 p Y ( y ) > 0 ,则在 Y = y 的条件下 X 的条件密度函数 为
p ( x ∣ y ) = p Y ( y ) p ( x , y ) ( 3.5.6 )
若 p X ( x ) > 0 ,则在 X = x 的条件下 Y 的条件密度函数为
p ( y ∣ x ) = p X ( x ) p ( x , y ) ( 3.5.8 )
理解要点 :与离散情形类似,条件密度是联合密度在固定 y 后关于 x 的”切片”,除以 p Y ( y ) 进行归一化,使其积分为 1。注意 p ( x ∣ y ) 是关于 x 的一元密度函数,y 在此处被视为参数 而非随机变量。
条件分布函数
在 Y = y 的条件下,X 的条件分布函数为
F ( x ∣ y ) = P ( X ≤ x ∣ Y = y ) = ∫ − ∞ x p ( t ∣ y ) d t ( 3.5.5 )
乘法公式
联合密度可以分解为边缘密度与条件密度的乘积:
p ( x , y ) = p X ( x ) ⋅ p ( y ∣ x ) ( 3.5.9 )
p ( x , y ) = p Y ( y ) ⋅ p ( x ∣ y ) ( 3.5.10 )
这是连续版的乘法公式,与离散情形完全对应。
边缘密度公式(全概率公式的密度形式)
对乘法公式关于另一个变量积分,得到边缘密度的全概率公式:
p Y ( y ) = ∫ − ∞ + ∞ p X ( x ) p ( y ∣ x ) d x ( 3.5.11 )
p X ( x ) = ∫ − ∞ + ∞ p Y ( y ) p ( x ∣ y ) d y ( 3.5.12 )
这可以理解为:Y 的边缘密度是”在所有可能的 X 取值下,Y 的条件密度的加权平均”。
贝叶斯公式(密度形式)
定理 3.5.1 — 贝叶斯公式,密度形式(公式3.5.13、3.5.14)
p ( x ∣ y ) = ∫ − ∞ + ∞ p Y ( y ∣ x ) p X ( x ) d x p Y ( y ∣ x ) p X ( x ) ( 3.5.13 )
p ( y ∣ x ) = ∫ − ∞ + ∞ p X ( x ∣ y ) p Y ( y ) d y p X ( x ∣ y ) p Y ( y ) ( 3.5.14 )
理解要点 :这与贝叶斯公式 P ( A i ∣ B ) = ∑ j P ( B ∣ A j ) P ( A j ) P ( B ∣ A i ) P ( A i ) 完全对应。分母就是边缘密度 p Y ( y ) ,由全概率公式 (3.5.11) 给出。
例 3.5.2 — 条件密度计算(三角形区域均匀分布)
设 ( X , Y ) 在区域 D = {( x , y ) : 0 < x < y < 1 } 上均匀分布。
(1)求联合密度 p ( x , y )
区域 D 的面积为 2 1 ,故
p ( x , y ) = { 2 , 0 , 0 < x < y < 1 其他
(2)求边缘密度 p X ( x )
p X ( x ) = ∫ − ∞ + ∞ p ( x , y ) d y = ∫ x 1 2 d y = 2 ( 1 − x ) , 0 < x < 1
(3)求条件密度 p ( y ∣ x )
p ( y ∣ x ) = p X ( x ) p ( x , y ) = 2 ( 1 − x ) 2 = 1 − x 1 , x < y < 1
即 Y ∣ X = x ∼ U ( x , 1 ) ,在给定 X = x 的条件下,Y 在 ( x , 1 ) 上均匀分布。
三、二维正态分布的条件分布
若 ( X , Y ) ∼ N ( μ 1 , μ 2 ; σ 1 2 , σ 2 2 ; ρ ) ,则
X ∣ Y = y ∼ N ( μ 1 + ρ σ 2 σ 1 ( y − μ 2 ) , σ 1 2 ( 1 − ρ 2 ) )
Y ∣ X = x ∼ N ( μ 2 + ρ σ 1 σ 2 ( x − μ 1 ) , σ 2 2 ( 1 − ρ 2 ) )
证明思路 :以 X ∣ Y = y 为例。
第一步 :写出联合密度。( X , Y ) 的联合密度为
p ( x , y ) = 2 π σ 1 σ 2 1 − ρ 2 1 exp { − 2 ( 1 − ρ 2 ) 1 [ σ 1 2 ( x − μ 1 ) 2 − 2 ρ σ 1 σ 2 ( x − μ 1 ) ( y − μ 2 ) + σ 2 2 ( y − μ 2 ) 2 ] }
第二步 :由条件密度定义 p ( x ∣ y ) = p Y ( y ) p ( x , y ) ,其中 p Y ( y ) = 2 π σ 2 1 exp { − 2 σ 2 2 ( y − μ 2 ) 2 } 。
第三步 :将联合密度中的指数部分关于 x 进行配方。令 u = x − μ 1 ,v = y − μ 2 ,则指数部分为
− 2 ( 1 − ρ 2 ) 1 [ σ 1 2 u 2 − 2 ρ σ 1 σ 2 uv + σ 2 2 v 2 ]
关于 u 配方,提取不含 u 的项:
= − 2 ( 1 − ρ 2 ) 1 [ σ 1 2 1 ( u − ρ σ 2 σ 1 v ) 2 + σ 2 2 v 2 ( 1 − ρ 2 ) ]
= − 2 σ 1 2 ( 1 − ρ 2 ) ( u − ρ σ 2 σ 1 v ) 2 − 2 σ 2 2 v 2
第四步 :代入条件密度公式,p Y ( y ) 的指数部分恰好消去 − 2 σ 2 2 v 2 项,剩余部分为
p ( x ∣ y ) = 2 π σ 1 1 − ρ 2 1 exp ⎩ ⎨ ⎧ − 2 σ 1 2 ( 1 − ρ 2 ) [ x − μ 1 − ρ σ 2 σ 1 ( y − μ 2 ) ] 2 ⎭ ⎬ ⎫
这正是 N ( μ 1 + ρ σ 2 σ 1 ( y − μ 2 ) , σ 1 2 ( 1 − ρ 2 ) ) 的密度函数。□
核心结论 :
条件期望 :E ( X ∣ Y = y ) = μ 1 + ρ σ 2 σ 1 ( y − μ 2 ) ,这是 y 的线性函数,斜率由 ρ 控制
条件方差 :Var ( X ∣ Y = y ) = σ 1 2 ( 1 − ρ 2 ) ,与 y 无关,且小于 边缘方差 σ 1 2
当 ρ = 0 (X 与 Y 独立)时,X ∣ Y = y ∼ N ( μ 1 , σ 1 2 ) ,条件分布等于边缘分布
当 ∣ ρ ∣ → 1 时,条件方差 → 0 ,条件分布退化到一点——Y 完全决定 X
设 ( X , Y ) ∼ N ( 1 , 0 ; 4 , 9 ; 1/2 ) ,求 E ( X ∣ Y = 2 ) 和 Var ( X ∣ Y = 2 ) 。
解 :由定理 3.5.2,
E ( X ∣ Y = 2 ) = 1 + 2 1 ⋅ 3 2 ( 2 − 0 ) = 1 + 3 2 = 3 5
Var ( X ∣ Y = 2 ) = 4 ( 1 − 4 1 ) = 3
即 X ∣ Y = 2 ∼ N ( 5/3 , 3 ) 。
四、条件期望
定义
定义 3.5.4 — 条件期望(公式3.5.15)
离散型 :在 Y = y j 的条件下,X 的条件期望 为
E ( X ∣ Y = y j ) = i = 1 ∑ + ∞ x i ⋅ p i ∣ j = i = 1 ∑ + ∞ x i ⋅ P ( X = x i ∣ Y = y j )
连续型 :在 Y = y 的条件下,X 的条件期望为
E ( X ∣ Y = y ) = ∫ − ∞ + ∞ x ⋅ p ( x ∣ y ) d x ( 3.5.15 )
当上述级数或积分绝对收敛 时,条件期望存在。
理解要点 :条件期望 E ( X ∣ Y = y ) 就是在给定 Y = y 的条件下,用条件分布 p ( x ∣ y ) 计算的普通期望 。它是一个关于 y 的函数。
条件期望的基本性质
(1)E ( a X + b ∣ Y = y ) = a E ( X ∣ Y = y ) + b ,其中 a , b 为常数
(2)E ( h ( Y ) ∣ Y = y ) = h ( y ) ,即给定 Y = y 时,Y 的函数 h ( Y ) 就是常数 h ( y )
性质(1)的直观理解 :条件期望保留了期望的线性性质——在给定条件下对 X 求期望,线性运算可以提到外面。
性质(2)的直观理解 :既然已经知道 Y = y ,那么 h ( Y ) 就不再是随机的了,它的期望就是它本身 h ( y ) 。
g ( Y ) = E ( X ∣ Y ) 作为随机变量
当不指定 Y 的具体取值时,E ( X ∣ Y ) 是关于 Y 的函数,记为 g ( Y ) = E ( X ∣ Y ) 。由于 Y 是随机变量,所以 g ( Y ) 也是随机变量 。
当 Y 取值为 y 时,g ( Y ) = g ( y ) = E ( X ∣ Y = y )
g ( Y ) 的取值随着 Y 的随机变化而变化
设 ( X , Y ) 在区域 D = {( x , y ) : 0 < x < 1 , 0 < y < x } 上均匀分布,求 E ( X ∣ Y = y ) 。
解 :区域 D 的面积为 1/2 ,联合密度 p ( x , y ) = 2 (0 < y < x < 1 )。
先求 p Y ( y ) :
p Y ( y ) = ∫ y 1 2 d x = 2 ( 1 − y ) , 0 < y < 1
条件密度:
p ( x ∣ y ) = 2 ( 1 − y ) 2 = 1 − y 1 , y < x < 1
即 X ∣ Y = y ∼ U ( y , 1 ) ,故
E ( X ∣ Y = y ) = 2 y + 1
因此 g ( Y ) = E ( X ∣ Y ) = 2 Y + 1 是一个随机变量。
五、全期望公式与全方差公式
全期望公式(重期望公式)
定理 3.5.4 — 全期望公式 / 重期望公式(公式3.5.17)
E ( X ) = E [ E ( X ∣ Y )] ( 3.5.17 )
即:X 的无条件期望等于条件期望 E ( X ∣ Y ) 关于 Y 的期望。
证明 :
离散型 :设 ( X , Y ) 的联合分布律为 p ij ,
E [ E ( X ∣ Y )] = j = 1 ∑ + ∞ E ( X ∣ Y = y j ) ⋅ p ⋅ j = j = 1 ∑ + ∞ ( i = 1 ∑ + ∞ x i ⋅ p ⋅ j p ij ) p ⋅ j
= j = 1 ∑ + ∞ i = 1 ∑ + ∞ x i ⋅ p ij = i = 1 ∑ + ∞ x i j = 1 ∑ + ∞ p ij = i = 1 ∑ + ∞ x i ⋅ p i ⋅ = E ( X )
连续型 :设 ( X , Y ) 的联合密度为 p ( x , y ) ,
E [ E ( X ∣ Y )] = ∫ − ∞ + ∞ E ( X ∣ Y = y ) p Y ( y ) d y = ∫ − ∞ + ∞ ( ∫ − ∞ + ∞ x ⋅ p ( x ∣ y ) d x ) p Y ( y ) d y
= ∫ − ∞ + ∞ ∫ − ∞ + ∞ x ⋅ p Y ( y ) p ( x , y ) ⋅ p Y ( y ) d x d y = ∬ R 2 x p ( x , y ) d x d y = E ( X )
□
直观理解 :全期望公式的本质是分层平均 。先在每一层(给定 Y 的某个取值)内部求平均,再对各层的平均按层的概率加权平均,就得到总平均。这与全概率公式 P ( B ) = ∑ i P ( B ∣ A i ) P ( A i ) 的思想完全一致。
随机变量随机和的期望
若 X 1 , X 2 , … 独立同分布,N 为非负整数随机变量且与 { X i } 独立,则
E ( i = 1 ∑ N X i ) = E ( X 1 ) ⋅ E ( N )
证明 :令 X = i = 1 ∑ N X i 。利用全期望公式,对 N 取条件期望:
E ( X ) = E [ E ( X ∣ N )]
当 N = n 给定时,E ( X ∣ N = n ) = E ( i = 1 ∑ n X i ) = i = 1 ∑ n E ( X i ) = n E ( X 1 ) 。
因此 E ( X ∣ N ) = N ⋅ E ( X 1 ) ,代入全期望公式:
E ( X ) = E [ N ⋅ E ( X 1 )] = E ( X 1 ) ⋅ E ( N )
其中最后一步利用了 N 与 { X i } 独立,故 N 与 E ( X 1 ) (常数)独立。□
直观理解 :如果每天来图书馆的读者数平均为 E ( N ) ,每人平均借 E ( X 1 ) 本书,那么每天总借书量的期望就是 E ( N ) ⋅ E ( X 1 ) 。全期望公式将”随机个数”的问题分解为”先固定个数再求期望”。
全方差公式(方差恒等式)
Var ( Y ) = E [ Var ( Y ∣ X )] + Var [ E ( Y ∣ X )]
即:Y 的总方差 条件方差的期望 条件期望的方差。
证明 :从方差的定义 Var ( Y ) = E ( Y 2 ) − [ E ( Y ) ] 2 出发。
第一步 :对 E ( Y 2 ) 使用全期望公式。注意到
Var ( Y ∣ X ) = E ( Y 2 ∣ X ) − [ E ( Y ∣ X ) ] 2
因此 E ( Y 2 ∣ X ) = Var ( Y ∣ X ) + [ E ( Y ∣ X ) ] 2 ,两边取期望:
E ( Y 2 ) = E [ E ( Y 2 ∣ X )] = E [ Var ( Y ∣ X )] + E [ E ( Y ∣ X ) ] 2
第二步 :对 [ E ( Y ) ] 2 ,由全期望公式 E ( Y ) = E [ E ( Y ∣ X )] ,故
[ E ( Y ) ] 2 = { E [ E ( Y ∣ X )] } 2
第三步 :代入方差定义:
Var ( Y ) = E ( Y 2 ) − [ E ( Y ) ] 2 = E [ Var ( Y ∣ X )] + E [ E ( Y ∣ X ) ] 2 − { E [ E ( Y ∣ X )] } 2
注意到 E [ E ( Y ∣ X ) ] 2 − { E [ E ( Y ∣ X )] } 2 = Var [ E ( Y ∣ X )] (这正是随机变量 E ( Y ∣ X ) 的方差定义)。
因此
Var ( Y ) = E [ Var ( Y ∣ X )] + Var [ E ( Y ∣ X )]
□
直观理解 :
E [ Var ( Y ∣ X )] :组内方差的平均 ——在每一组 X = x 内部,Y 的波动程度的平均
Var [ E ( Y ∣ X )] :组间方差 ——不同组之间 Y 的条件期望的波动程度
总方差 = 组内变异 + 组间变异
这与统计学中方差分析(ANOVA) 的基本思想完全一致。
Beta-Binomial 分布的方差
例 3.5.5 — Beta-Binomial 分布的方差(全方差公式应用)
设 X ∣ P ∼ B ( n , P ) (给定成功率 P ,X 服从二项分布),P ∼ Beta ( α , β ) ,求 E ( X ) 和 Var ( X ) 。
解 :
(1)求 E ( X ) :利用全期望公式 E ( X ) = E [ E ( X ∣ P )] 。
给定 P = p 时,E ( X ∣ P = p ) = n p ,故 E ( X ∣ P ) = n P 。
E ( X ) = E ( n P ) = n E ( P ) = n ⋅ α + β α = α + β n α
(2)求 Var ( X ) :利用全方差公式 Var ( X ) = E [ Var ( X ∣ P )] + Var [ E ( X ∣ P )] 。
Var ( X ∣ P = p ) = n p ( 1 − p ) ,故 Var ( X ∣ P ) = n P ( 1 − P )
E ( X ∣ P ) = n P
计算第一项:
E [ Var ( X ∣ P )] = E [ n P ( 1 − P )] = n E ( P ) − n E ( P 2 )
= n ⋅ α + β α − n ⋅ ( α + β ) ( α + β + 1 ) α ( α + 1 ) = ( α + β ) ( α + β + 1 ) n α β
计算第二项:
Var [ E ( X ∣ P )] = Var ( n P ) = n 2 Var ( P ) = n 2 ⋅ ( α + β ) 2 ( α + β + 1 ) α β
合并:
Var ( X ) = ( α + β ) ( α + β + 1 ) n α β + ( α + β ) 2 ( α + β + 1 ) n 2 α β
= ( α + β ) 2 ( α + β + 1 ) n α β ( α + β ) + n 2 α β = ( α + β ) 2 ( α + β + 1 ) n α β ( α + β + n )
对比 :若 P 是固定的常数 p (即二项分布),则 Var ( X ) = n p ( 1 − p ) 。当 P 本身也是随机变量时,方差多出了 Var [ E ( X ∣ P )] 这一项,反映了参数不确定性带来的额外波动。
六、典型应用场景
随机和模型
随机和 S = i = 1 ∑ N X i 是全期望公式的经典应用场景,其中 N 是随机变量,{ X i } 是独立同分布序列。
常见实例:
泊松-二项模型 :N ∼ P ( λ ) ,X i ∼ b ( 1 , p ) ,则 S ∼ P ( λ p )
泊松-泊松模型 :N ∼ P ( λ 1 ) ,X i ∼ P ( λ 2 ) ,则 S ∼ P ( λ 1 λ 2 ) (复合泊松分布)
二重模型(先抽 N 再抽 X ∣ N )
许多实际问题具有天然的分层结构:
先确定”个数” N (如:今天来多少人、发生多少次事故)
再在给定 N 的条件下,确定每个个体的特征 X i
全期望公式将这种分层模型的总期望分解为两步计算。
全期望公式的实际应用
图书馆借书问题 :设每天来图书馆的读者数 N ∼ P ( λ ) ,每位读者借书数 X i ∼ b ( n , p ) ,且各读者借书数独立。求每天总借书数 S = ∑ i = 1 N X i 的期望。
解 :由定理 3.5.5,
E ( S ) = E ( X 1 ) ⋅ E ( N ) = n p ⋅ λ = n p λ
七、知识结构总览
graph TD
A[联合分布] --> B[条件分布]
B --> C[离散条件分布律]
B --> D[连续条件密度]
D --> E[贝叶斯公式]
D --> F[二维正态条件分布]
F --> G[条件正态分布]
C --> H[条件期望]
D --> H
H --> I[全期望公式]
H --> J[全方差公式]
I --> K[随机和的期望]
J --> L[Beta-Binomial方差]
八、核心思想与证明技巧
全期望公式的证明思路
核心思想:==条件期望对 Y 积分(或求和)==。
离散型:E [ E ( X ∣ Y )] = ∑ j E ( X ∣ Y = y j ) ⋅ p ⋅ j = ∑ j ∑ i x i ⋅ p ij = E ( X )
连续型:E [ E ( X ∣ Y )] = ∫ E ( X ∣ Y = y ) ⋅ p Y ( y ) d y = ∬ x ⋅ p ( x , y ) d x d y = E ( X )
关键步骤:将条件期望的定义代入,p ⋅ j 或 p Y ( y ) 恰好与条件分布律/条件密度中的分母约去,还原为联合分布的期望。
全方差公式的证明思路
核心思想:==从 Var ( Y ) = E ( Y 2 ) − [ E ( Y ) ] 2 出发,分别对两项使用全期望公式==。
E ( Y 2 ) = E [ E ( Y 2 ∣ X )] = E [ Var ( Y ∣ X ) + ( E ( Y ∣ X ) ) 2 ] = E [ Var ( Y ∣ X )] + E [( E ( Y ∣ X ) ) 2 ]
[ E ( Y ) ] 2 = { E [ E ( Y ∣ X )] } 2
相减:E [( E ( Y ∣ X ) ) 2 ] − { E [ E ( Y ∣ X )] } 2 = Var [ E ( Y ∣ X )]
贝叶斯公式的密度形式与离散形式的类比
离散形式 密度形式 P ( A i ∣ B ) = ∑ j P ( B ∣ A j ) P ( A j ) P ( B ∣ A i ) P ( A i ) p ( x ∣ y ) = ∫ p Y ( y ∣ x ) p X ( x ) d x p Y ( y ∣ x ) p X ( x ) 先验概率 P ( A i ) 先验密度 p X ( x ) 似然 P ( B ∣ A i ) 似然函数 p Y ( y ∣ x ) 全概率 ∑ j P ( B ∣ A j ) P ( A j ) 边缘密度 ∫ p Y ( y ∣ x ) p X ( x ) d x 后验概率 P ( A i ∣ B ) 后验密度 p ( x ∣ y )
求和对应积分,概率对应密度,结构完全一致。
九、补充理解与易混淆点
条件密度函数的变量角色
来源 :茆诗松教材§3.5 + 卡方核心笔记§3.5 + 陈希孺《概率论与数理统计》§3.3 + Ross《A First Course in Probability》Ch.5 + MIT 18.05 Lecture Notes
误区1:"条件密度函数 p ( x ∣ y ) 是关于 x 和 y 的联合密度"
❌ 错误解释:p ( x ∣ y ) 同时以 x 和 y 为自变量,是二元密度函数。
✅ 正确解释:p ( x ∣ y ) 是关于 x 的一元密度函数 ,y 被视为参数 。对固定的 y ,∫ − ∞ + ∞ p ( x ∣ y ) d x = 1 ;但 ∬ p ( x ∣ y ) d x d y 通常不等于 1。联合密度是 p ( x , y ) = p Y ( y ) ⋅ p ( x ∣ y ) ,两者不能混淆。
全期望公式的嵌套结构
来源 :茆诗松教材§3.5 + 卡方核心笔记§3.5 + 李贤平《概率论基础》§3.4 + 中科大概率论讲义 + 考研真题432综合
误区2:"全期望公式 E [ E ( X ∣ Y )] 就是简单的嵌套期望"
❌ 错误解释:E [ E ( X ∣ Y )] 只是把一个期望套在另一个期望里面,没有特殊含义。
✅ 正确解释:内层 E ( X ∣ Y ) 是随机变量 g ( Y ) = E ( X ∣ Y ) ,它是关于 Y 的函数;外层 E [ ⋅ ] 是对 g ( Y ) 关于 Y 的分布取期望。全期望公式的本质是分层平均 ——先在每一层(Y 的取值)内部求平均,再对各层平均按层概率加权。它对应全概率公式的期望版本。
全方差公式中两项的含义
来源 :茆诗松教材§3.5 + 卡方核心笔记§3.5 + 韦来生《数理统计》§1.4 + Casella & Berger《Statistical Inference》Ch.4 + 王兆军《数理统计》讲义
❌ 错误解释:E [ Var ( Y ∣ X )] 和 Var [ E ( Y ∣ X )] 都是方差,可以合并为 Var ( Y ) 。
✅ 正确解释:两项含义完全不同,不可合并。E [ Var ( Y ∣ X )] 是条件方差的平均 (组内变异),度量的是各组内部 Y 的波动程度;Var [ E ( Y ∣ X )] 是条件期望的方差 (组间变异),度量的是各组之间 Y 的平均水平差异。总方差等于两者之和,这与方差分析(ANOVA)中”总变异 = 组内变异 + 组间变异”的思想一致。
条件期望是随机变量还是常数
来源 :茆诗松教材§3.5 + 卡方核心笔记§3.5 + 严士健《概率论基础》§3.2 + Durrett《Probability》Ch.1 + 考研432大纲解析
❌ 错误解释:期望是一个数,所以 E ( X ∣ Y ) 也是常数。
✅ 正确解释:需要区分两种写法。E ( X ∣ Y = y ) 是常数 (给定 Y 取特定值 y 后的条件期望);而 E ( X ∣ Y ) 是关于 Y 的函数 g ( Y ) ,是随机变量 ——它的取值随 Y 的随机变化而变化。全期望公式 E ( X ) = E [ E ( X ∣ Y )] 中,外层期望正是对这个随机变量取期望。
十、习题精选
编号 来源 题目内容 难度 1 教材3.5-1 离散型条件分布律 ★★☆ 2 教材3.5-3 条件密度函数计算 ★★☆ 3 教材3.5-5 条件期望计算 ★★★ 4 教材3.5-7 全期望公式应用 ★★★ 5 教材3.5-9 全方差公式应用 ★★★ 6 教材3.5-12 二维正态条件分布 ★★★★ 7 2016中山大学432 条件密度函数(均匀分布) ★★☆ 8 2021东北大学432 条件密度/边缘密度/联合密度 ★★★ 9 2017兰州大学432 离散型条件分布(泊松/二项) ★★★ 10 2020西南大学432 重期望公式(泊松/二项) ★★★★
习题1 — 教材3.5-1:离散型条件分布律 ★★☆
题目 :设 ( X , Y ) 的联合分布律为
X ∖ Y − 1 0 1 0 0.1 0.2 0.1 1 0.2 0.1 0.3
求 X ∣ Y = 1 和 Y ∣ X = 0 的条件分布律。
解答 :
Y = 1 时,p ⋅ 1 = 0.1 + 0.3 = 0.4 :
P ( X = 0 ∣ Y = 1 ) = 0.4 0.1 = 4 1 , P ( X = 1 ∣ Y = 1 ) = 0.4 0.3 = 4 3
X = 0 时,p 0 ⋅ = 0.1 + 0.2 + 0.1 = 0.4 :
P ( Y = − 1 ∣ X = 0 ) = 0.4 0.1 = 4 1 , P ( Y = 0 ∣ X = 0 ) = 0.4 0.2 = 2 1 , P ( Y = 1 ∣ X = 0 ) = 0.4 0.1 = 4 1
习题2 — 教材3.5-3:条件密度函数计算 ★★☆
题目 :设 ( X , Y ) 的联合密度为 p ( x , y ) = e − x (0 < y < x < + ∞ ),求 p ( y ∣ x ) 和 p ( x ∣ y ) 。
解答 :
p X ( x ) = ∫ 0 x e − x d y = x e − x (x > 0 )
p Y ( y ) = ∫ y + ∞ e − x d x = e − y (y > 0 )
p ( y ∣ x ) = x e − x e − x = x 1 (0 < y < x ),即 Y ∣ X = x ∼ U ( 0 , x )
p ( x ∣ y ) = e − y e − x = e − ( x − y ) (x > y ),即 X − Y ∣ Y = y ∼ Exp ( 1 )
习题3 — 教材3.5-5:条件期望计算 ★★★
题目 :设 ( X , Y ) 在单位圆 x 2 + y 2 ≤ 1 上均匀分布,求 E ( X ∣ Y = y ) 。
解答 :
联合密度 p ( x , y ) = π 1 (x 2 + y 2 ≤ 1 )。
给定 Y = y (∣ y ∣ < 1 ),X 的取值范围为 − 1 − y 2 ≤ x ≤ 1 − y 2 。
p Y ( y ) = ∫ − 1 − y 2 1 − y 2 π 1 d x = π 2 1 − y 2
p ( x ∣ y ) = 2 1 − y 2 / π 1/ π = 2 1 − y 2 1 (− 1 − y 2 ≤ x ≤ 1 − y 2 )
即 X ∣ Y = y ∼ U ( − 1 − y 2 , 1 − y 2 ) ,故
E ( X ∣ Y = y ) = 2 − 1 − y 2 + 1 − y 2 = 0
习题4 — 教材3.5-7:全期望公式应用 ★★★
题目 :设某昆虫产卵数 N ∼ P ( λ ) ,每颗卵孵化为成虫的概率为 p ,且各卵是否孵化相互独立。求成虫数 X 的期望。
解答 :
令 X i 为第 i 颗卵是否孵化的示性变量,X i ∼ b ( 1 , p ) ,则 X = ∑ i = 1 N X i 。
由定理 3.5.5:
E ( X ) = E ( X 1 ) ⋅ E ( N ) = p ⋅ λ = p λ
习题5 — 教材3.5-9:全方差公式应用 ★★★
题目 :设 Y ∣ X = x ∼ N ( x , x 2 ) (x > 0 ),X ∼ Exp ( 1 ) ,求 Var ( Y ) 。
解答 :
由全方差公式 Var ( Y ) = E [ Var ( Y ∣ X )] + Var [ E ( Y ∣ X )] 。
E ( Y ∣ X = x ) = x ,Var ( Y ∣ X = x ) = x 2
E [ Var ( Y ∣ X )] = E ( X 2 ) = Var ( X ) + [ E ( X ) ] 2 = 1 + 1 = 2
Var [ E ( Y ∣ X )] = Var ( X ) = 1
因此 Var ( Y ) = 2 + 1 = 3 。
习题6 — 教材3.5-12:二维正态条件分布 ★★★★
题目 :设 ( X , Y ) ∼ N ( 0 , 1 ; 1 , 4 ; 1/2 ) ,求 P ( X > 1 ∣ Y = 1 ) 。
解答 :
由定理 3.5.2:
E ( X ∣ Y = 1 ) = 0 + 2 1 ⋅ 2 1 ( 1 − 0 ) = 4 1 Var ( X ∣ Y = 1 ) = 1 ⋅ ( 1 − 4 1 ) = 4 3
即 X ∣ Y = 1 ∼ N ( 1/4 , 3/4 ) 。
P ( X > 1 ∣ Y = 1 ) = 1 − Φ ( 3/4 1 − 1/4 ) = 1 − Φ ( 3 /2 3/4 ) = 1 − Φ ( 2 3 ) ≈ 1 − Φ ( 0.866 ) ≈ 0.193
习题7 — 2016中山大学432:条件密度函数(均匀分布)★★☆
题目 :设 ( X , Y ) 在区域 D = {( x , y ) : 0 < x < y < 1 } 上均匀分布,求 Y ∣ X 的条件密度。
解答 :
联合密度 f ( x , y ) = 2 (0 < x < y < 1 )。
边缘密度 f X ( x ) = ∫ x 1 2 d y = 2 ( 1 − x ) (0 < x < 1 )。
条件密度 f ( y ∣ x ) = 2 ( 1 − x ) 2 = 1 − x 1 (x < y < 1 )。
即 Y ∣ X = x ∼ U ( x , 1 ) 。
习题8 — 2021东北大学432:条件密度/边缘密度/联合密度 ★★★
题目 :设 ( X , Y ) 在由 x 轴、y 轴、x = 1 、y = e x 围成的区域 D 上均匀分布。
(1)求 f ( x , y ) 。
(2)求 f Y ( y ) 。
(3)求 f X ∣ Y ( x ∣ y ) 。
解答 :
(1) 区域 D 的面积 = ∫ 0 1 e x d x = e − 1 ,故 f ( x , y ) = e − 1 1 (( x , y ) ∈ D )。
(2) 当 0 < y < 1 时,x 的范围为 0 < x < y (因为 y < e x 要求 x > ln y ,但 ln y < 0 ,所以 x > 0 ),f Y ( y ) = ∫ 0 y e − 1 1 d x = e − 1 y 。
当 1 < y < e 时,x 的范围为 ln y < x < 1 ,f Y ( y ) = ∫ l n y 1 e − 1 1 d x = e − 1 1 − ln y = e − 1 ln ( e / y ) 。
(3) 当 0 < y < 1 时,f X ∣ Y ( x ∣ y ) = y / ( e − 1 ) 1/ ( e − 1 ) = y 1 (0 < x < y )。
当 1 < y < e 时,f X ∣ Y ( x ∣ y ) = ( 1 − ln y ) / ( e − 1 ) 1/ ( e − 1 ) = 1 − ln y 1 (ln y < x < 1 )。
习题9 — 2017兰州大学432:离散型条件分布(泊松/二项)★★★
题目 :设 ( X , Y ) 的联合分布律为 P ( X = m , Y = n ) = n ! e − λ λ n ⋅ ( m n ) p m ( 1 − p ) n − m (m = 0 , 1 , … , n ;n = 0 , 1 , 2 , … )。
(1)求 Y 的分布。
(2)求 X ∣ Y = n 的分布。
解答 :
(1) 对 m 求和:
P ( Y = n ) = m = 0 ∑ n n ! e − λ λ n ⋅ ( m n ) p m ( 1 − p ) n − m = n ! e − λ λ n m = 0 ∑ n ( m n ) p m ( 1 − p ) n − m = n ! e − λ λ n ⋅ 1 = n ! e − λ λ n
即 Y ∼ P ( λ ) (泊松分布)。
(2) P ( X = m ∣ Y = n ) = P ( Y = n ) P ( X = m , Y = n ) = ( m n ) p m ( 1 − p ) n − m
即 X ∣ Y = n ∼ b ( n , p ) (二项分布)。
习题10 — 2020西南大学432:重期望公式(泊松/二项)★★★★
题目 :某图书馆每天来的读者数 N ∼ P ( λ ) ,每位读者借书数 X i ∼ b ( n , p ) ,且各读者借书数独立。求每天总借书数 X = ∑ i = 1 N X i 的期望。
解答 :
利用全期望公式(定理 3.5.5):
第一步 :求条件期望。给定 N = k 时,
E ( X ∣ N = k ) = E ( i = 1 ∑ k X i ) = i = 1 ∑ k E ( X i ) = k ⋅ n p
因此 E ( X ∣ N ) = Np 。
第二步 :对 N 取期望,
E ( X ) = E [ E ( X ∣ N )] = E ( Np ) = p E ( N ) = p λ
即每天总借书数的期望为 p λ 。
十一、教材原文
第三章 多维随机变量及其分布/条件分布与条件期望