2.1 随机变量及其分布

本节概览

本节是概率论从”事件语言”到”函数语言”的关键转折点。通过引入随机变量的概念,将样本空间 中的随机事件映射为实数轴上的数值,从而将概率问题转化为实函数的分析问题。在此基础上,本节系统建立分布函数、概率分布列和概率密度函数三大描述工具,为后续所有分布的研究奠定统一框架。

逻辑链条:随机现象的数值化(随机变量定义)→ 统一描述工具(分布函数及其性质)→ 离散型描述(概率分布列)→ 连续型描述(概率密度函数)→ 混合型(分布列与密度的结合)

前置依赖1.1 随机事件及其运算(样本空间、事件、事件运算)、§1.3(概率的基本性质、可加性)、§1.4(条件概率、全概率公式)、§1.5(事件的独立性)、第一章汇总

核心主线:随机变量 是定义在样本空间上的实值函数。分布函数 是描述随机变量概率规律的最基本工具,它统一了离散型和连续型两种情形。离散型用概率分布列 刻画,连续型用概率密度函数 刻画。


一、随机变量的概念

为什么要引入随机变量

第一章中,我们用”事件”来描述随机现象——例如”掷骰子出现偶数点”、“灯泡寿命超过1000小时”。但事件语言有以下局限:

  1. 难以进行数学运算:事件之间只能做交、并、补等集合运算,无法做加减乘除。
  2. 难以统一描述:不同随机试验的事件千差万别,缺乏统一的数学框架。
  3. 难以利用分析工具:微积分、级数等强大的数学工具无法直接作用于事件。

随机变量的引入正是为了克服这些局限——它将随机试验的结果”数字化”,使得我们可以用实函数和实分析的工具来研究概率问题。

定义 2.1.1 — 随机变量

为某随机试验的样本空间。若对每一个 ,都有一个唯一的实数 与之对应,则称 为该试验的一个随机变量

随机变量常用大写字母 表示,其取值用小写字母 表示。

理解要点

  • 随机变量 是一个函数,定义域是样本空间 ,值域是实数集 的某个子集。
  • 的”随机性”来自其自变量 的随机性——在试验之前,我们不知道 会取哪个值,因此也不知道 会取哪个值。
  • 随机变量本质上是”对样本点的编号”或”对随机结果的量化”。

离散型与连续型随机变量

根据随机变量取值的特点,可以分为两大类:

类型特征典型例子
离散型取值为有限个或可列无穷个掷骰子的点数、一天内的顾客数
连续型取值充满某个区间(不可列)电子元件的寿命、测量误差

注意

还存在既非纯离散也非纯连续的混合型随机变量(见模块四例2.1.9),但离散型和连续型是最基本的两类。

引例

引例1:掷骰子

为掷一颗均匀骰子出现的点数,则 的可能取值为

  • 样本空间 ,其中 表示”出现 点”
  • ,即 将每个样本点映射为对应的点数
  • “出现偶数点”这一事件可表示为

引例2:单位时间内的顾客数

为某超市在单位时间内到达的顾客人数,则 的可能取值为 (非负整数集)。

  • 表示”没有顾客到达”
  • 表示”至少有5位顾客到达”
  • 表示”至多有3位顾客到达”

引例3:电子元件的寿命

为某电子元件的使用寿命(单位:小时),则 的可能取值为

  • 表示”寿命超过1000小时”
  • 表示”寿命在500到1000小时之间”
  • 这里 是连续型随机变量

引例4:不合格品数

为从一批产品(含 件,其中 件不合格)中随机抽取 件中的不合格品数,则 的可能取值为

  • 表示”抽到的 件产品全部合格”
  • 表示”恰好抽到 件不合格品”

随机变量与事件的关系

引入随机变量后,任何事件都可以用 (其中 是实数集的某个子集)来表示。例如:

  • 恰好取值 的概率
  • 不超过 的概率
  • 内取值的概率

这使得概率论的研究对象从”事件族”统一为”随机变量的分布”。


二、分布函数

分布函数的定义

定义 2.1.2 — 分布函数

是一个随机变量,称函数

分布函数(Distribution Function),也称为累积分布函数(Cumulative Distribution Function, CDF)。

理解要点

  • 是一个定义在全体实数上的普通函数(非随机函数),其自变量 是任意实数。
  • 的函数值是一个概率值,表示事件 发生的概率。
  • 分布函数是描述随机变量概率规律的最基本、最统一的工具——无论是离散型、连续型还是混合型随机变量,都有分布函数。

引例:圆内随机抛点

例 2.1.1 — 圆内随机抛点

向半径为 的圆内随机投掷一个点,设 为该点到圆心的距离。求 的分布函数。

:由于点是随机投掷的,点落在圆内某个区域的概率与该区域的面积成正比。

事件 表示”点到圆心的距离不超过 “,即点落在半径为 的同心圆内。

  • 时:,故
  • 时:
  • 时:,故

综合得:

图形特征 是一条从 连续增长到 的光滑曲线,在 处开始上升,在 处达到

分布函数的基本性质

定理 2.1.1 — 分布函数的基本性质

任一随机变量的分布函数 都具有以下三条基本性质:

(1) 单调不减:若 ,则

(2) 规范性

简记为

(3) 右连续:对任意实数

证明思路

证明 (定理 2.1.1)

性质(1) — 单调不减

[利用事件的包含关系]:若 ,则事件

§1.3中概率的单调性(性质1.3.4的推论):

性质(2) — 规范性

[利用概率的连续性]

  • 。则 (单调递减),且 (因为 不可能小于所有负数)。

§1.3中概率的上连续性:

  • 。则 (单调递增),且 (因为 必定取某个有限值)。

§1.3中概率的下连续性:

性质(3) — 右连续

[利用概率的可列可加性与连续性]:对任意 ,取 ,则 ,且

,则 (单调递减),且 (因为 ,而 )。

由概率的上连续性:

分布函数性质的逆定理

反过来,任何一个满足上述三条性质的函数 ,都一定是某个随机变量的分布函数。这保证了分布函数作为描述工具的完备性——不会出现”满足三条性质但不是任何随机变量的分布函数”的情况。

分布函数的概率计算公式

由分布函数的定义 ,可以推导出以下8个常用的概率计算公式:

概率形式用分布函数表示

记忆技巧

  • 包含等号的一端用 (不用左极限),不包含等号的一端用 (左极限)
  • 是跳跃高度,离散型不为零,连续型为零

用分布函数计算概率

分布函数最重要的用途之一是统一计算各种类型的概率。以下是8个常用公式:

概率计算公式汇总

为随机变量 的分布函数, 为任意实数,则:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

推导思路(以公式(6)和(3)为例):

  • 公式(6),且 。由§1.3差事件公式:

  • 公式(3)。由概率的连续性:

连续型随机变量的简化

是连续型随机变量,则 处处连续,,因此:

  • (单点概率恒为零)

即对于连续型随机变量,区间端点是否包含不影响概率值。

例题:柯西分布

例 2.1.2 — 柯西分布

验证函数

可以作为某个随机变量的分布函数,并求

验证

(1) 单调不减 对一切 成立,故 严格单调递增。✓

(2) 规范性

(3) 右连续 是初等函数,在其定义域 上处处连续,当然右连续。✓

三条性质全部满足,故 是一个合法的分布函数。

计算概率

密度函数,即 服从柯西分布


三、离散随机变量的概率分布列

概率分布列的定义

定义 2.1.3 — 概率分布列

若离散型随机变量 的所有可能取值为 (有限或可列个),则称

概率分布列(Probability Mass Function, PMF),也称为概率函数分布律

概率分布列也可以用表格形式表示:

例题:掷两颗骰子

例 2.1.3 — 掷两颗骰子

掷两颗均匀骰子,考虑以下三个随机变量的分布列。

(a) = 两颗骰子点数之和

的可能取值为

23456789101112

验证正则性:

(b) = 两颗骰子中的最大点数

的可能取值为

123456

(c) = 第一颗骰子的点数

的可能取值为

123456

概率分布列的基本性质

性质 2.1.1 — 概率分布列的基本性质

概率分布列 满足:

(1) 非负性

(2) 正则性

证明思路

证明 (性质 2.1.1)

[非负性]:由概率的基本性质(§1.2公理1),

[正则性]:由于 互不相容( 在同一时刻只能取一个值),且 必定取某个值),由§1.3可列可加性:

性质2.1.1的逆命题

任何一个满足非负性和正则性的数列 ,都一定是某个离散型随机变量的概率分布列。

分布函数与分布列的关系

例 2.1.4 — 阶梯函数与退化分布

(a) 设离散型随机变量 的分布列为:

012

的分布函数为:

图形特征 是一个阶梯函数(Step Function),在每个取值点 处有一个跳跃,跳跃高度恰好等于

一般公式(对所有满足 求和)。

(b) 退化分布:若 为常数),则 以概率1取确定值

退化分布是离散分布的极端情形——随机变量退化为常数。

例题:汽车遇红灯

例 2.1.5 — 汽车遇红灯

某汽车沿直线行驶,途中经过3个路口。每个路口遇到红灯的概率为 ,遇到绿灯的概率为 ,各路口的红绿灯相互独立。设 为该汽车在行驶过程中首次遇到红灯时已经通过的路口数,求 的分布列。

的可能取值为

  • :第一个路口就是红灯,
  • :第一个路口绿灯,第二个路口红灯,
  • :前两个路口绿灯,第三个路口红灯,
  • :三个路口都是绿灯,

分布列:

0123

验证正则性

利用等比数列求和:

:此分布是几何分布的截断版本(最多试验3次),完整的几何分布在后续章节中详细讨论。


四、连续随机变量的概率密度函数

密度函数的直观引入

例 2.1.6 — 密度函数的直观理解

回顾例2.1.1中圆内随机抛点的问题。 的分布函数为

求导:

处, 的导数不存在(左导数和右导数不相等),但这两个点不影响积分值。

(在不可导点处任意取值,例如取 ),则

可以验证:

  • (非负性)
  • (正则性)
  • (分布函数是密度函数的积分)

这个 就是 概率密度函数

概率密度函数的定义

定义 2.1.4 — 概率密度函数

若存在非负函数 ,使得随机变量 的分布函数可以表示为

则称 连续型随机变量,称 概率密度函数(Probability Density Function, PDF),简称密度函数

理解要点

  • 密度函数 描述的是概率在 附近的”密集程度”,而非概率本身。
  • 由微积分基本定理,若 处连续,则
  • 不一定连续,但 一定连续(连续型随机变量的分布函数处处连续)。

密度函数的基本性质

性质 2.1.2 — 密度函数的基本性质

密度函数 满足:

(1) 非负性

(2) 正则性

证明思路

证明 (性质 2.1.2)

[非负性]:由定义2.1.4直接要求

[正则性]:由分布函数的规范性(定理2.1.1性质(2)):

密度函数性质的逆命题

任何一个满足非负性和正则性的函数 ,都一定是某个连续型随机变量的密度函数。

用密度函数计算概率

为连续型随机变量,密度函数为 ,则:

更一般地,对任意 Borel 集

密度函数的几何意义

表示密度函数曲线 在区间 上方的面积

正则性 表示整个密度函数曲线下方的总面积等于

例题:均匀分布

例 2.1.7 — 均匀分布

设随机变量 在区间 上均匀分布,密度函数为

验证

  • 非负性: 时)✓
  • 正则性:

分布函数

概率计算:对任意

落在 的任何子区间内的概率,只与该子区间的长度成正比,与子区间的位置无关——这就是”均匀”的含义。

例题:电子元件寿命

例 2.1.8 — 电子元件寿命

设某型号电子元件的寿命 (单位:千小时)具有密度函数

其中 为参数。

验证正则性

分布函数

概率计算

:此分布为指数分布 ,是可靠性理论中最重要的分布之一。

密度函数与分布列的异同

密度函数 vs 分布列:4个异同点

比较维度概率分布列 概率密度函数
适用类型离散型随机变量连续型随机变量
取值含义概率值 不是概率值,是概率的”密度”
求和/积分
与分布函数关系

关键区别

  1. 分布列的值 直接就是概率,而密度函数的值 不是概率 可以大于1!)。
  2. 离散型随机变量的分布函数是阶梯函数,连续型的分布函数是连续函数。
  3. 离散型在单点处可以有正概率,连续型在单点处的概率恒为零。
  4. 两者都满足非负性和正则性,结构完全对称。

例题:混合分布

例 2.1.9 — 混合分布

某产品的寿命 (单位:年)具有如下分布:

  • 以概率 在出厂时即损坏(
  • 以概率 正常工作,寿命服从 上的均匀分布

既不是纯离散型也不是纯连续型,而是混合型随机变量。

分布函数

特征分析

  • 处有跳跃:,这是离散部分
  • 上连续递增,这是连续部分
  • 处也有跳跃:(无跳跃,因为

密度函数(连续部分):

加上离散部分 ,完整描述了 的分布。

:混合分布的完整描述需要同时给出离散部分的分布列和连续部分的密度函数。分布函数 仍然是统一描述工具。

离散型与连续型随机变量的对比

对比总结

对比维度离散随机变量连续随机变量
概率计算
连续性右连续的阶梯函数整个数轴上的连续函数
单点概率 在取值点上不为零恒为零(
区间端点影响受影响,需”点点计较”不影响
分布列/密度唯一性唯一不唯一(个别点可任意修改)

五、知识结构总览

graph TD
    A[随机现象] --> B[随机变量]
    B --> C[离散型]
    B --> D[连续型]
    B --> E[混合型]

    C --> F[概率分布列]
    F --> F1[非负性]
    F --> F2[正则性]
    F --> F3[求和得分布函数]

    D --> G[概率密度函数]
    G --> G1[非负性]
    G --> G2[正则性]
    G --> G3[积分得分布函数]

    E --> H[分布列加密度函数]

    F3 --> I[分布函数]
    G3 --> I
    H --> I

    I --> J[单调不减]
    I --> K[规范性]
    I --> L[右连续]

    I --> M[概率计算]

六、核心思想与证明技巧

核心思想与证明技巧

1. 从事件到函数的思维转换

随机变量的引入实现了从”事件语言”到”函数语言”的根本转变。核心映射关系是:事件 的概率 ,其中 是 Borel 集。这使得微积分、级数等分析工具可以系统地应用于概率问题。

2. 分布函数作为统一描述工具

无论是离散型、连续型还是混合型,分布函数 都能完整描述随机变量的概率规律。证明中经常利用 的三条基本性质(单调不减、规范性、右连续),以及概率的连续性来处理极限问题。

3. 离散求和与连续积分的对称性

离散型的分布列 和连续型的密度函数 在结构上完全对称:。掌握其中一种,另一种可以类比得到。

4. 利用概率性质证明分布函数性质

定理2.1.1的证明展示了如何将概率的基本性质(§1.3中的单调性、连续性、可列可加性)“翻译”为分布函数的语言。关键技巧是构造单调事件序列,然后利用概率的连续性取极限。

5. 密度函数的”面积即概率”思想

密度函数 本身不是概率,但 (面积微元)近似等于 落在 内的概率。积分 就是概率 。这一思想贯穿整个连续型随机变量的研究。


七、补充理解与易混淆点

随机变量 vs 普通变量

来源:教材p55-56 + MIT OCW 6.041

误区1:"随机变量就是取值不确定的普通变量"

错误解释:随机变量和普通变量一样,只是它的值事先不知道,等试验做完就确定了。所以随机变量本质上和 中的 没有区别。

正确解释:随机变量 是一个==定义在样本空间 上的函数==,它的”自变量”是样本点 (随机试验的结果),“因变量”是实数。普通微积分中的变量 只是一个占位符,没有概率含义。随机变量之所以”随机”,是因为其自变量 的取值是随机的——在试验之前,我们不知道 中哪个 会出现。试验完成后, 确定, 也就确定了(不再是随机的)。因此,随机变量是函数,不是”不确定的变量”。

分布函数右连续而非左连续

来源:教材p57-58 + UCLA Stats 100A

误区2:"分布函数应该是连续的,至少应该是左连续的"

错误解释:分布函数 既然是概率,应该是光滑连续的函数。即使不光滑,至少应该是左连续的(因为我们习惯从左边逼近)。

正确解释:分布函数 保证右连续),但不一定左连续。对于离散型随机变量, 在每个取值点 处有跳跃,左极限 。跳跃高度恰好等于

右连续性的来源是定义 中的""号——当我们从右边逼近 时,事件 随着 单调递减地趋向 ,由概率的上连续性得到右连续。如果定义改为 ,则 是左连续的。==选择""是数学界的约定==,保证了 的简洁形式。

密度函数值不等于概率

来源:教材p62-63 + CSDN

误区3:"密度函数 的值就是 的概率"

错误解释:既然 叫”概率密度函数”,那 就是在 处的概率。 越大,说明 的概率越大。

正确解释:==密度函数值 不是概率==。对于连续型随机变量, 对一切 成立,所以 不可能是”取 的概率”。正确的理解是: 是概率的”密度”——类似于物理学中质量密度 不是质量,而是单位长度上的质量。概率等于密度函数曲线下方的面积

特别注意: 可以大于1(只要积分等于1即可)。例如, 时,),密度值大于1但完全合法。

连续型随机变量的单点概率恒为零

来源:教材p65 + Stanford Stat 116

误区4:"连续型随机变量取每个值的概率都为零,说明每个值都不可能出现"

错误解释:既然 对所有 成立,而概率为零的事件是不可能事件,所以连续型随机变量不可能取任何值——这显然矛盾。

正确解释:在§1.3中我们学过, 不能推出 (不可能事件)。概率为零只是说明事件发生的可能性”极小”,但不意味着不可能。对于连续型随机变量,单点 是一个”零测集”——它不包含任何区间,因此密度函数在其上的积分为零:

这就好比线段上单个点的长度为零,但线段仍然由无穷多个点组成。连续型随机变量的概率集中在区间上,而非单个点上。这也解释了为什么 ——端点是否包含不影响概率值。

密度函数不唯一

来源:教材p65-66 + 华东师大讲义

误区5:"一个随机变量的密度函数是唯一确定的"

错误解释:给定连续型随机变量 ,其密度函数 是唯一确定的,就像分布列 对离散型随机变量是唯一的一样。

正确解释:密度函数在有限个点(甚至可列个点)上改变函数值,不影响积分结果,因此不改变分布函数。换言之,密度函数在”几乎处处”(almost everywhere)的意义下是唯一的,但逐点意义下不唯一。

例如, 的密度函数可以写成:

处不同,但 ,对应的分布函数完全相同。因此 都是 的合法密度函数。

:相比之下,离散型随机变量的分布列是逐点唯一的——因为 由概率直接确定,没有”几乎处处”的模糊性。


八、习题精选

习题概览

编号题目来源知识点难度
1教材 2.1-1取球最大号码(分布列)★★☆
2教材 2.1-9分布函数求概率★★☆
3教材 2.1-14密度函数求系数★★★
4教材 2.1-8电子元件寿命(指数分布)★★☆
5教材 2.1-18同分布求参数 ★★★
6教材 2.1-19偶函数密度证明★★★
72012南开432正态分布对称性★★☆
82013华东师大432指数分布条件概率★★☆
92022上财432密度函数与分布函数判定★★☆
102014南开432偶函数密度函数性质★★☆

教材习题

习题1(教材 2.1-1)— 取球最大号码

袋中有编号为1, 2, 3, 4, 5的5个球,从中同时取出3个。以 表示取出的3个球中的最大号码,求 的分布列和分布函数。

习题2(教材 2.1-9)— 分布函数求概率

设随机变量 的分布函数为

习题3(教材 2.1-14)— 密度函数求系数

设连续型随机变量 的密度函数为

求常数 的值,并求

习题4(教材 2.1-8)— 电子元件寿命

设某电子元件的寿命 (单位:小时)服从指数分布,密度函数为

求:(1) 该元件寿命超过500小时的概率;(2) 已知该元件已使用了500小时,再使用500小时的概率。

习题5(教材 2.1-18)— 同分布求参数

设随机变量 同分布, 的密度函数为

已知事件 独立,且 ,求 的值。

习题6(教材 2.1-19)— 偶函数密度证明

设连续型随机变量 的密度函数 为偶函数,证明:

特别地,若 连续,则

卡方考研真题

习题7(2012 南开大学 432)— 正态分布对称性

,则对任何实数 ,都有( ) A. B. C. D.

习题8(2013 华东师范大学 432)— 指数分布条件概率

设某型号电子元件的寿命 (单位:小时)的密度函数为

若一个元件已工作到3000小时尚未失效,则它还能工作1000小时的概率是( ) A.   B.   C.   D. 信息不足,无法确定

习题9(2022 上海财经大学 432)— 密度函数与分布函数判定

, 分别是两个随机变量的密度函数,, 分别是两个随机变量的分布函数,以下说法正确的是( ) A. 必为某随机变量的密度函数 B. 必为某随机变量的密度函数 C. 必为某随机变量的分布函数 D. 必为某随机变量的分布函数

习题10(2014 南开大学 432)— 偶函数密度函数性质

设连续随机变量 的密度函数是一个偶函数, 的分布函数,则对任意实数 ,下列( )不成立。 A. B. C. D.


九、教材原文

第二章 随机变量及其分布/随机变量及其分布