6.5 贝叶斯估计

本节概览

本节介绍贝叶斯学派的基本思想与方法。核心逻辑链条:先验分布 + 样本似然 后验分布 贝叶斯估计

逻辑链条基本思想先验与后验贝叶斯估计量共轭先验贝叶斯风险比较分析

前置依赖6.1 点估计的概念与无偏性(点估计基本概念)、6.4 最小方差无偏估计(估计量评价)、1.4 条件概率(贝叶斯公式的事件形式)、2.5 常用连续分布(贝塔分布、伽马分布等)。

核心主线:贝叶斯估计的核心逻辑是”先验+样本→后验”。与频率学派不同,贝叶斯学派将参数视为随机变量,利用先验分布编码已有知识,通过贝叶斯公式更新为后验分布,基于后验分布进行推断。共轭先验使计算大为简化。

相关笔记6.1 点估计的概念与无偏性 | 6.2 矩估计及相合性 | 6.3 最大似然估计与EM算法 | 6.4 最小方差无偏估计 | 1.4 条件概率 | 2.4 常用离散分布 | 2.5 常用连续分布


一、贝叶斯统计的基本思想

频率学派 vs 贝叶斯学派

统计学中有两个大的学派:频率学派(也称经典学派)和贝叶斯学派。本书主要介绍频率学派的理论和方法,本节对贝叶斯学派做介绍。

两派的核心分歧在于对未知参数的认识:

比较维度频率学派(经典学派)贝叶斯学派
参数 未知但固定的常数随机变量,有概率分布
概率函数记法(分号)(竖线,条件概率)
信息来源总体信息 + 样本信息总体信息 + 样本信息 + 先验信息
推断基础似然函数后验分布
估计方法最大似然估计、矩估计等后验期望、后验中位数、最大后验等

统计推断的三种信息

贝叶斯学派认为统计推断应使用三种信息:

  1. 总体信息:总体分布或总体所属分布族提供的信息。例如已知”总体是正态分布”,则总体的一切阶矩都存在,密度函数关于均值对称,所有性质由一、二阶矩决定。
  2. 样本信息:抽取样本所得观测值提供的信息。这是最”新鲜”的信息,越多越好。
  3. 先验信息:抽样(试验)之前有关统计问题的一些信息,来源于经验和历史资料。

例 6.5.1(先验信息的直观理解)

在某工厂的产品中每天要抽检 件以确定产品质量。产品质量可用不合格品率 度量,也可用 件抽查产品中的不合格品件数 表示。由于生产过程有连续性,每天的产品质量有关联,在估计现在的 时,以前积累的历史资料应该可供使用。这些积累的历史资料就是先验信息

对先验信息进行加工,可对过去 件产品中的不合格品件数 构造一个分布:

这种对先验信息进行加工获得的分布称为先验分布

贝叶斯学派的基本观点

贝叶斯学派的基本观点可以概括为:

  1. 任一未知量 都可看作随机变量,可用一个概率分布去描述;
  2. 在获得样本之前,这个分布称为先验分布
  3. 在获得样本之后,总体分布、样本与先验分布通过贝叶斯公式结合,得到关于 的新分布——后验分布
  4. 任何关于 的统计推断都应该基于 的后验分布进行。

关于未知量是否可看作随机变量,经典学派与贝叶斯学派间争论了很长时间。如今经典学派已不反对这一观点。著名的美国经典统计学家**莱曼(Lehmann, E.L.)**在其《点估计理论》中写道:“把统计问题中的参数看作随机变量的实现要比看作未知参数更合理一些。“如今两派的争论焦点是:如何利用各种先验信息合理地确定先验分布


二、先验分布与后验分布

贝叶斯公式的密度函数形式

定义 6.5.1(先验分布)

是总体分布 中的参数,根据参数 的先验信息所确定的 的概率分布 称为 先验分布

定义 6.5.2(后验分布)

在获得样本观测值 之后,利用贝叶斯公式将先验分布 更新为 后验分布

贝叶斯公式的密度函数形式推导如下(共五步):

第一步:条件概率函数

总体依赖于参数 的概率函数在经典统计中记为 ,在贝叶斯统计中应记为 ,表示在随机变量 取某个给定值时总体的条件概率函数

第二步:确定先验分布

根据参数 的先验信息确定先验分布

第三步:联合条件概率函数

从贝叶斯观点看,样本 的产生分两步进行:

  • 首先从先验分布 产生一个个体 (“老天爷”做的,人们看不到);
  • 然后从 中产生一组样本。

样本的联合条件概率函数为:

第四步:联合分布

由于 不可知,需要用 的所有可能值进行综合。样本 和参数 联合分布为:

第五步:后验分布

将联合分布分解为 ,其中 的边际概率函数:

无关,不含 的任何信息。因此能用来对 作出推断的仅是条件分布

定理 6.5.1(贝叶斯公式的密度形式)

公式 (6.5.3) 就是用密度函数表示的贝叶斯公式。后验分布 集中了总体、样本和先验中有关 的一切信息,是用总体和样本对先验分布 作调整的结果,它要比 更接近 的实际情况。

例 6.5.2(二项分布的后验分布)

设某事件 在一次试验中发生的概率为 ,对试验进行了 次独立观测,其中事件 发生了 次。显然

若试验前对事件 没有了解,贝叶斯建议采用”同等无知”原则,使用 作为 的先验分布(贝叶斯假设)。

求解过程

写出 的联合分布:

的边际分布:

后验分布:


三、贝叶斯估计量

定义 6.5.3(贝叶斯估计量)

由后验分布 估计 有三种常用方法:

估计方法定义说明
最大后验估计后验密度函数的最大值点使后验概率最大的
后验中位数估计后验分布的中位数对异常值稳健
后验期望估计(贝叶斯估计)后验分布的均值 $\hat{\theta}_B = E(\theta\boldsymbol{x})$

在不注明的情况下,通常提到的”贝叶斯估计”指后验期望估计,记为

损失函数与贝叶斯估计的关系

三种贝叶斯估计分别对应不同的损失函数:

损失函数 对应的贝叶斯估计
平方损失 后验期望 $\hat{\theta}_B = E(\theta
绝对损失 $L =\theta - \hat{\theta}
0-1损失 $L = \begin{cases}0 &\theta-\hat{\theta}

例 6.5.3(正态-正态共轭的贝叶斯估计)

是来自 的样本, 已知, 未知。假设 的先验分布为 ,其中先验均值 和先验方差 均已知。求 的贝叶斯估计。

:样本分布和先验分布分别为:

联合分布 ,记 ,令:

完成平方:

积分得边际密度 ,应用贝叶斯公式得后验分布:

贝叶斯估计(后验均值)为:

这是样本均值 与先验均值 加权平均。当 较小或 较大时, 的权重较大;当 较小时, 的权重较大。

贝叶斯估计 vs 最大似然估计的直观比较

沿用例 6.5.2 的结果,,而最大似然估计

场景分析
抽检3个全合格(贝叶斯估计更合理,不会得出”不合格率为0”的极端结论
抽检10个全合格(样本量更大,估计更接近0
抽检3个全不合格(贝叶斯估计不会得出”不合格率为1”的极端结论
抽检10个全不合格(样本量更大,估计更接近1

结论:在极端情况下(全成功或全失败),贝叶斯估计比最大似然估计更符合人们的直觉。


四、共轭先验分布

定义 6.5.4(共轭先验分布)

是总体分布 中的参数, 是其先验分布。若对任意来自 的样本观测值得到的后验分布 属于同一个分布族,则称该分布族是 共轭先验分布(族)

先验分布中的未知参数称为超参数,应尽力对各种先验信息进行加工获得超参数的估计。

常见共轭先验对汇总

总体分布参数共轭先验分布后验分布
二项分布 成功概率 贝塔分布
负二项分布 成功概率 贝塔分布
泊松分布 均值 伽马分布
指数分布 参数 伽马分布
正态分布 已知)均值 正态分布
正态分布 已知)方差 倒伽马分布
均匀分布 上界 帕雷托分布
多项分布 概率向量 狄利克雷分布

例 6.5.4(二项-贝塔共轭)

在例 6.5.2 中, 是贝塔分布的特例 ,后验分布为 。更一般地,设 的先验分布为 ,则后验分布为 。这说明贝塔分布是伯努利试验中成功概率的共轭先验分布

例 6.5.5(泊松-伽马共轭)

i.i.d. 的先验分布为 ,则:

,仍为伽马分布。


五、贝叶斯风险

定义 6.5.5(贝叶斯风险)

设损失函数为 ,其中 是决策函数(估计量),则 贝叶斯风险定义为:

也可以写为:

其中 风险函数(即频率学派中的均方误差等概念)。

定理 6.5.2(贝叶斯估计的最优性)

在平方损失函数 下,使贝叶斯风险 达到最小的估计量就是后验期望估计

证明

证明

第一步:展开贝叶斯风险

第二步:对内层期望关于 求最小

对固定的 ,最小化 。由条件期望的性质:

等号成立当且仅当

第三步:结论

由于上述不等式对每个 都成立,因此后验期望估计 使贝叶斯风险达到最小。

例 6.5.6(贝叶斯估计优于无偏估计的例子)

设总体 是样本。 的最大似然估计和矩估计都是 ,它是无偏估计。考虑形如 的估计,在均方误差准则下可以找到优于 的估计(即 时 MSE 更小)。这说明在均方误差意义下,有偏的贝叶斯估计可能优于无偏的经典估计。


六、贝叶斯估计与经典估计的比较

比较维度经典估计(频率学派)贝叶斯估计
参数观固定未知常数随机变量
信息利用总体 + 样本总体 + 样本 + 先验
推断依据似然函数后验分布
无偏性重要评价标准不要求无偏
小样本表现依赖大样本渐近可利用先验改善小样本推断
主观性”客观”(但模型选择有主观性)先验选择有主观性
计算复杂度通常较低后验积分可能需要数值方法
区间估计置信区间(频率解释)可信区间(后验概率解释)

何时选贝叶斯方法

  • 有可用的先验信息(历史数据、专家经验)
  • 样本量较小,需要借助先验信息改善估计
  • 需要对参数做概率陈述(如”参数在某个区间的概率”)

何时选经典方法

  • 没有可靠的先验信息
  • 样本量足够大,渐近理论适用
  • 需要保证频率性质(如覆盖概率)

七、知识结构总览

graph TD
    A[贝叶斯统计推断] --> B[三种信息]
    B --> B1[总体信息]
    B --> B2[样本信息]
    B --> B3[先验信息]

    A --> C[先验分布]
    C --> C1[无信息先验]
    C --> C2[共轭先验]
    C --> C3[有信息先验]

    A --> D[贝叶斯公式]
    D --> D1[联合分布]
    D --> D2[边际分布]
    D --> D3[后验分布]

    A --> E[贝叶斯估计]
    E --> E1[后验期望估计]
    E --> E2[后验中位数估计]
    E --> E3[最大后验估计]

    A --> F[贝叶斯风险]
    F --> F1[损失函数]
    F --> F2[最优性定理]

    C2 --> G[常见共轭先验对]
    G --> G1[二项与贝塔]
    G --> G2[泊松与伽马]
    G --> G3[正态均值与正态]
    G --> G4[正态方差与倒伽马]
    G --> G5[均匀与帕雷托]

八、核心思想与解题技巧

核心思想

  1. 贝叶斯学习的本质:后验分布 似然函数 先验分布,即”数据更新信念”。
  2. 共轭先验的计算技巧:只需关注后验分布的”核”(与 有关的部分),忽略归一化常数。
  3. 后验分布的直观理解:先验分布提供”基线”,数据通过似然函数对其进行”修正”,得到后验分布。

解题步骤模板

求贝叶斯估计的一般步骤

  1. 写出似然函数
  2. 写出先验分布
  3. 写出联合分布
  4. 提取后验核 (仅保留与 有关的部分)
  5. 识别后验分布所属的分布族,确定参数
  6. 计算后验期望 作为贝叶斯估计

验证共轭先验的一般步骤

  1. 设先验为某分布族
  2. 计算后验核
  3. 检查后验核是否可以写成与先验相同分布族的形式
  4. 如果可以,读出后验参数,验证共轭性

九、补充理解与易混淆点

误区一:“先验分布就是均匀分布”

来源:茆诗松教材§6.5 + Eggers(2005)贝叶斯推断误解 + CSDN频率学派vs贝叶斯学派争论 + Berkeley Stat210A概率解释讲义 + Book118先验分布选择策略

误区1:"贝叶斯估计必须使用均匀分布作为先验"

❌ 错误解释:贝叶斯本人建议在无先验信息时使用均匀分布(贝叶斯假设),因此所有贝叶斯估计都应该用均匀分布作为先验。 ✅ 正确解释:均匀先验只是无信息先验的一种选择,且并非总是合适的。例如,对位置参数均匀先验可能合理,但对尺度参数则不合理(应考虑 Jeffreys 先验等)。实际应用中,应根据问题背景选择合适的先验分布,共轭先验是常用选择。

误区二:“后验分布就是似然函数归一化”

来源:茆诗松教材§6.5 + Eggers(2005)似然与后验混淆 + CSDN贝叶斯学派参数估计 + Columbia贝叶斯模型讲义 + Book118共轭先验选择

误区2:"当先验是均匀分布时,后验分布等于似然函数"

❌ 错误解释:因为 ,当 时,后验就等于似然。 ✅ 正确解释:后验分布的(未归一化的部分)正比于似然函数,但后验分布是一个合法的概率密度函数(积分为1),而似然函数作为 的函数通常不积分为1。两者在概念上完全不同:后验分布是 的概率分布,似然函数是数据的概率作为参数的函数。

误区三:“贝叶斯估计一定比经典估计好”

来源:茆诗松教材§6.5例6.5.6 + CSDN频率学派vs贝叶斯学派 + Book118先验分布选择 + Fiveable共轭先验讲义 + CSDN不确定性的两种哲学

误区3:"贝叶斯估计总是优于最大似然估计"

❌ 错误解释:贝叶斯估计利用了更多信息(先验),所以一定比经典估计更好。 ✅ 正确解释:贝叶斯估计的优势依赖于先验分布的正确选择。如果先验分布选择不当(如先验均值与真实参数偏离很大),贝叶斯估计可能比最大似然估计更差。当样本量很大时,数据占主导地位,两种方法趋于一致。贝叶斯估计在小样本且有可靠先验信息时优势明显。

误区四:“共轭先验是唯一正确的先验选择”

来源:茆诗松教材§6.5 + Columbia贝叶斯模型讲义 + Book118共轭先验选择 + CSDN贝叶斯学习原理 + Fiveable共轭先验讲义

误区4:"选择共轭先验是因为它是唯一正确的先验"

❌ 错误解释:共轭先验是”正确”的先验分布,必须使用共轭先验。 ✅ 正确解释:共轭先验的主要优势是计算方便——后验分布与先验分布属于同一分布族,只需更新参数即可。但共轭先验不一定能准确反映真实的先验信念。在实际应用中,如果共轭先验不能很好地拟合先验信息,应考虑使用其他先验(如混合先验、非参数先验等),代价是计算更复杂。

误区五:“参数是随机变量”与”参数有频率意义”

来源:茆诗松教材§6.5 + Berkeley Stat210A概率解释讲义 + CSDN频率学派vs贝叶斯学派 + Eggers(2005)贝叶斯推断误解 + Book118先验分布选择策略

误区5:"贝叶斯学派认为参数本身在物理上是随机变化的"

❌ 错误解释:贝叶斯学派认为参数 像掷骰子一样在每次试验中随机取值。 ✅ 正确解释:贝叶斯学派将参数视为随机变量,是用概率分布来描述对参数的不确定性,而非说参数在物理上随机变化。参数的真值是固定的,但我们对其不了解,这种”不了解的程度”用概率分布来量化。这是主观概率(epistemic probability)的观点,与频率概率(长期频率)不同。

误区六:“贝叶斯估计的后验均值一定在参数空间内”

来源:茆诗松教材§6.5 + CSDN贝叶斯学派参数估计 + Book118先验分布选择 + Columbia贝叶斯模型讲义 + CSDN不确定性的两种哲学

误区6:"后验期望估计总是合理的点估计"

❌ 错误解释:后验均值作为贝叶斯估计,一定落在参数空间内,一定是好的估计。 ✅ 正确解释:后验均值不一定落在参数空间内。例如,当参数空间有界时(如 ),后验均值可能在边界附近甚至略微超出(取决于先验和数据的组合)。此外,后验均值受异常值和先验选择的影响,在某些情况下后验中位数或最大后验估计可能更合适。


十、习题精选

习题概览

本节共 10 道习题:6 道教材习题(6.5-1 至 6.5-6)+ 4 道补充题(补充教材6.5-7 至 补充教材6.5-10)。

编号题目关键词难度核心考点
6.5-1泊松分布、离散先验★★离散参数的后验分布计算
6.5-2均匀分布、均匀先验★★连续参数的后验分布
6.5-3几何分布、均匀先验★★☆后验分布 + 贝叶斯估计
6.5-4泊松-伽马共轭★★★验证共轭先验
6.5-5正态-倒伽马共轭★★★验证共轭先验
6.5-6一般总体、两种先验★★不同先验下的后验
补充(教材6.5-7)幂函数总体、伽马先验★★★后验期望估计
补充(教材6.5-8)均匀-帕雷托共轭★★★验证共轭 + 贝叶斯估计
补充(教材6.5-9)指数-伽马、超参数确定★★由矩确定先验参数
补充(教材6.5-10)多项-狄利克雷共轭★★★多参数共轭先验

习题 6.5-1(离散后验分布)

设一页书上的错别字个数服从泊松分布 有两个可能取值:,且先验分布为

现检查了一页,发现有 个错别字,试求 的后验分布。


习题 6.5-2(均匀后验分布)

设总体为均匀分布 的先验分布是均匀分布 。现有三个观测值:,求 的后验分布。


习题 6.5-3(几何分布的后验分布与贝叶斯估计)

是来自几何分布的样本,总体分布列为

的先验分布是均匀分布 。 (1) 求 的后验分布; (2) 若 次观测值为 ,求 的贝叶斯估计。


习题 6.5-4(泊松-伽马共轭验证)

验证:泊松分布的均值 的共轭先验分布是伽马分布。


习题 6.5-5(正态-倒伽马共轭验证)

验证:正态总体方差(均值已知)的共轭先验分布是倒伽马分布。


习题 6.5-6(不同先验下的后验分布)

是来自如下总体的一个样本

(1) 若 的先验分布为均匀分布 ,求 的后验分布; (2) 若 的先验分布为 ,求 的后验分布。


补充(教材6.5-7)(伽马先验的后验期望估计)

是来自如下总体的一个样本

若取 的先验分布为伽马分布,即 ,求 的后验期望估计。


补充(教材6.5-8)(均匀-帕雷托共轭验证与贝叶斯估计)

是来自均匀分布 的样本, 的先验分布是帕雷托分布,其密度函数为

其中 是两个已知的常数。 (1) 验证:帕雷托分布是 的共轭先验分布; (2) 求 的贝叶斯估计。


补充(教材6.5-9)(由先验矩确定超参数)

设指数分布 中未知参数 的先验分布为伽马分布 ,现从先验信息得知:先验均值为 ,先验标准差为 ,试确定先验分布。


补充(教材6.5-10)(多项-狄利克雷共轭验证)

服从多项分布 ,其概率函数为

其中 。若 的先验分布为狄利克雷分布 ,证明: 的后验分布为


十一、教材原文


第六章 参数估计/贝叶斯估计