8.4 一元线性回归
相关笔记 :8.1 方差分析 | 8.3 方差齐性检验 | 7.2 正态总体参数的假设检验 | 5.4 三大抽样分布 | 6.3 最大似然估计与EM算法 | 6.6 区间估计 | 5.3 统计量及其分布
本节系统介绍一元线性回归 (Simple Linear Regression)的基本理论与方法。从变量间相关关系的概念出发,建立一元线性回归模型 y = β 0 + β 1 x + ε ,利用最小二乘法 (Least Squares Estimation, LSE)估计回归系数,通过平方和分解 S T = S R + S e 进行回归方程的显著性检验 (F 检验、t 检验、相关系数检验),最后讨论均值响应的置信区间 与单个响应的预测区间 。整个方法体系与方差分析 一脉相承,都是通过分解变异来源来判断因子效应的显著性。
逻辑链条 :变量关系分类 → 模型建立 → 参数估计 → 显著性检验 → 估计与预测 → 结构总览 → 解题技巧 → 易混淆点 → 习题 → 教材原文
前置依赖 :§8.1 (平方和分解思想)、§7.2 (t 检验、F 检验)、§5.4 (χ 2 分布、t 分布、F 分布)、§6.3 (MLE)、§6.6 (置信区间)
核心主线 :一元线性回归通过建立 y = β 0 + β 1 x + ε 的统计模型,用最小二乘法估计回归系数 β ^ 0 、β ^ 1 ,利用平方和分解 S T = S R + S e 构造 F 检验(等价于 t 检验和相关系数检验)判断回归方程的显著性,并对均值响应和单个响应分别给出置信区间和预测区间。
一、变量间的两类关系
确定性关系
变量之间的确定性关系 (函数关系)是指可以用精确的数学公式描述的关系。给定自变量的值,因变量的值被唯一确定。例如:
圆的面积 S = π r 2 :给定半径 r ,面积 S 唯一确定
自由落体 s = 2 1 g t 2 :给定时间 t ,下落距离 s 唯一确定
欧姆定律 V = I R :给定电流 I 和电阻 R ,电压 V 唯一确定
相关关系
在实际问题中,变量之间更多呈现的是相关关系 (statistical relationship):变量之间存在密切的统计联系,但由于随机因素的影响,给定自变量的值后,因变量的值不能唯一确定,而是围绕某个均值波动。
类比 :想象你是一家鞋店的老板。你发现顾客的脚长和鞋码之间有很强的联系——脚越长,鞋码越大。但这种联系不是精确的函数关系:同样是 26cm 的脚长,有人穿 42 码,有人穿 43 码。脚长和鞋码之间的关系就是”相关关系”——存在明显的趋势,但带有随机波动。
相关关系的例子:
人的身高与体重:身高越高,体重倾向于越大,但同样身高的人体重不同
施肥量与作物产量:施肥越多,产量倾向于越高,但受天气、土壤等因素影响
学习时间与考试成绩:学习时间越长,成绩倾向于越好,但不是线性精确的
合金钢的碳含量与强度:碳含量越高,强度倾向于越大
回归分析的基本思想
回归分析 (Regression Analysis)是研究变量之间相关关系的一种统计方法。其基本思想是:
识别 :通过散点图等工具识别变量之间的相关模式
建模 :建立描述因变量 y 与自变量 x 之间关系的统计模型
估计 :利用观测数据估计模型中的未知参数
检验 :检验模型的有效性(回归方程是否显著)
应用 :利用建立的回归方程进行预测和控制
高尔顿的回归现象
“回归”(regression)一词来源于英国统计学家 Francis Galton(1822-1911)关于遗传学的研究。Galton 在研究父子身高关系时发现:
高个子父亲的儿子,身高倾向于比父亲矮(向平均身高”回归”)
矮个子父亲的儿子,身高倾向于比父亲高(同样向平均身高”回归”)
这种现象被称为回归效应 (regression effect)或回归均值 (regression toward the mean)。Galton 在 1886 年的论文中首次使用了”regression”一词来描述这种现象。
注意 :虽然”回归”一词源于遗传学中的特殊现象,但现代统计学中的”回归分析”已经发展为一种通用的统计建模工具,不再局限于”向均值回归”的含义。回归分析的核心任务是建立变量之间的定量关系模型 。
二、一元线性回归模型
回归函数
设 x 为自变量(预报变量),Y 为因变量(响应变量)。给定 x = x 0 时,Y 的条件期望
f ( x ) = E ( Y ∣ x ) ( 8.4.1 )
称为 Y 关于 x 的回归函数 (regression function)。回归函数描述了 Y 的均值随 x 变化的趋势。
回归函数的直观含义:对于每一个固定的 x 值,Y 的取值是随机的(围绕某个均值波动),而回归函数 f ( x ) 给出了这个均值的位置。如果 f ( x ) 是 x 的线性函数,即 f ( x ) = β 0 + β 1 x ,则称为线性回归函数 。
一元线性回归模型
设 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) 为 n 组观测数据,其中 x i 为自变量的取值(非随机的,可精确测量或控制),y i 为因变量的观测值。如果 y i 满足
y i = β 0 + β 1 x i + ε i , i = 1 , 2 , … , n ( 8.4.2 )
其中 β 0 、β 1 为未知参数,ε i 为随机误差项,则称该模型为一元线性回归模型 (Simple Linear Regression Model)。
在模型 (8.4.2) 中:
β 0 :截距 (intercept),表示当 x = 0 时 Y 的条件均值
β 1 :回归系数 (regression coefficient),表示 x 每增加一个单位时 Y 的条件均值的变化量
ε i :随机误差 ,表示 y i 对回归直线的随机偏离
模型的基本假定(Gauss-Markov 条件)
一元线性回归模型的有效性依赖于以下基本假定:
假定 内容 数学表达 (A1) 线性性 Y 与 x 之间是线性关系E ( ε i ) = 0 ,即 E ( y i ) = β 0 + β 1 x i (A2) 等方差性 所有观测值的误差方差相等 Var ( ε i ) = σ 2 (常数),i = 1 , … , n (A3) 独立性 各次观测的误差相互独立 Cov ( ε i , ε j ) = 0 (i = j )(A4) 正态性 误差服从正态分布 ε i ∼ N ( 0 , σ 2 ) ,i = 1 , … , n
假定 (A1)-(A3) 称为Gauss-Markov 条件 ,在这些条件下,最小二乘估计是最佳线性无偏估计(BLUE)。
假定 (A4) 用于推断(假设检验、置信区间)。如果只做点估计,不需要正态性假定。
在实际应用中,应通过残差分析(residual analysis)检验这些假定的合理性。
在假定 (A1)-(A4) 下,模型可以紧凑地写为:
y i ∼ N ( β 0 + β 1 x i , σ 2 ) , ε 1 , ε 2 , … , ε n ∼ iid N ( 0 , σ 2 )
引例:合金钢强度与碳含量
为研究合金钢的强度 y (单位:kg/mm 2 )与碳含量 x (单位:%)之间的关系,收集了 12 组数据如下:
i 1 2 3 4 5 6 7 8 9 10 11 12 x i 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23 y i 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0
散点图描述 :将 12 个数据点 ( x i , y i ) 标在坐标系中,可以观察到这些点大致分布在一条直线附近——随着碳含量 x 的增加,强度 y 呈现明显的上升趋势。这种线性趋势提示我们可以用一元线性回归模型来描述 y 与 x 之间的关系。
三、回归系数的最小二乘估计
最小二乘法的思想
最小二乘法 (Method of Least Squares)是估计回归系数 β 0 、β 1 的最基本方法。其核心思想是:找到一条直线 y ^ = β ^ 0 + β ^ 1 x ,使得所有观测点到这条直线的纵向距离的平方和最小 。
几何直觉 :想象你手中有 12 个钉子(数据点)钉在墙上,你想用一根橡皮筋把它们”尽量拉直”——橡皮筋就是回归直线。最小二乘法就是找到那个让橡皮筋最”贴近”所有钉子的位置。所谓”贴近”,就是所有钉子到橡皮筋的纵向偏差的平方和达到最小。
残差与残差平方和
对于给定的估计值 β ^ 0 、β ^ 1 ,第 i 个观测点的拟合值 为 y ^ i = β ^ 0 + β ^ 1 x i ,残差 (residual)为
e i = y i − y ^ i = y i − β ^ 0 − β ^ 1 x i
残差平方和 (Residual Sum of Squares, RSS)为
Q ( β 0 , β 1 ) = i = 1 ∑ n ( y i − β 0 − β 1 x i ) 2
最小二乘法的目标是找到 β ^ 0 、β ^ 1 ,使得 Q ( β ^ 0 , β ^ 1 ) = min Q ( β 0 , β 1 ) 。
正规方程组的推导
证明 (8.4.9) :
[构造目标函数] :令 Q ( β 0 , β 1 ) = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 ,对 β 0 、β 1 分别求偏导并令其为零。
[对 β 0 求偏导] :
∂ β 0 ∂ Q = − 2 i = 1 ∑ n ( y i − β 0 − β 1 x i ) = 0
整理得:
n β 0 + β 1 i = 1 ∑ n x i = i = 1 ∑ n y i ( 8.4.4 )
[对 β 1 求偏导] :
∂ β 1 ∂ Q = − 2 i = 1 ∑ n x i ( y i − β 0 − β 1 x i ) = 0
整理得:
β 0 i = 1 ∑ n x i + β 1 i = 1 ∑ n x i 2 = i = 1 ∑ n x i y i ( 8.4.5 )
[求解正规方程组] :由 (8.4.4) 得 β 0 = y ˉ − β 1 x ˉ ,代入 (8.4.5):
( y ˉ − β 1 x ˉ ) i = 1 ∑ n x i + β 1 i = 1 ∑ n x i 2 = i = 1 ∑ n x i y i
n x ˉ y ˉ − n β 1 x ˉ 2 + β 1 i = 1 ∑ n x i 2 = i = 1 ∑ n x i y i
β 1 ( i = 1 ∑ n x i 2 − n x ˉ 2 ) = i = 1 ∑ n x i y i − n x ˉ y ˉ
注意到 ∑ i = 1 n x i 2 − n x ˉ 2 = ∑ i = 1 n ( x i − x ˉ ) 2 = l xx ,∑ i = 1 n x i y i − n x ˉ y ˉ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) = l x y ,因此
β ^ 1 = l xx l x y ( 8.4.9 )
β ^ 0 = y ˉ − β ^ 1 x ˉ ( 8.4.9 )
[验证极小值] :二阶偏导数矩阵 ∂ β 0 2 ∂ 2 Q = 2 n > 0 ,∂ β 1 2 ∂ 2 Q = 2 ∑ x i 2 > 0 ,Hessian 行列式 = 4 n ∑ x i 2 − 4 ( ∑ x i ) 2 = 4 n l xx > 0 (当 l xx > 0 时),故 ( β ^ 0 , β ^ 1 ) 确为极小值点。
□
LSE 的显式解
引入以下记号:
l xx = i = 1 ∑ n ( x i − x ˉ ) 2 = i = 1 ∑ n x i 2 − n x ˉ 2 l yy = i = 1 ∑ n ( y i − y ˉ ) 2 = i = 1 ∑ n y i 2 − n y ˉ 2 l x y = i = 1 ∑ n ( x i − x ˉ ) ( y i − y ˉ ) = i = 1 ∑ n x i y i − n x ˉ y ˉ
最小二乘估计的显式解 为:
β ^ 1 = l xx l x y , β ^ 0 = y ˉ − β ^ 1 x ˉ ( 8.4.9 )
由此得到的回归方程 为:
y ^ = β ^ 0 + β ^ 1 x
重要性质 :回归直线一定通过样本均值点 ( x ˉ , y ˉ ) ,因为 y ^ = β ^ 0 + β ^ 1 x ˉ = ( y ˉ − β ^ 1 x ˉ ) + β ^ 1 x ˉ = y ˉ 。
LSE 的统计性质
在一元线性回归模型 y i = β 0 + β 1 x i + ε i ,ε i ∼ iid N ( 0 , σ 2 ) 下,最小二乘估计 β ^ 0 、β ^ 1 具有以下性质:
(1) 正态性 :β ^ 1 ∼ N ( β 1 , l xx σ 2 ) ,β ^ 0 ∼ N ( β 0 , σ 2 ( n 1 + l xx x ˉ 2 ) )
(2) 无偏性 :E ( β ^ 1 ) = β 1 ,E ( β ^ 0 ) = β 0
(3) 方差 :Var ( β ^ 1 ) = l xx σ 2 ,Var ( β ^ 0 ) = σ 2 ( n 1 + l xx x ˉ 2 )
(4) 协方差 :Cov ( β ^ 0 , β ^ 1 ) = − l xx x ˉ σ 2
证明 (定理 8.4.1) :
[将 LSE 表示为 y i 的线性组合] :将 β ^ 1 = l xx l x y = l xx ∑ ( x i − x ˉ ) ( y i − y ˉ ) 展开,利用 ∑ ( x i − x ˉ ) = 0 :
β ^ 1 = l xx ∑ ( x i − x ˉ ) y i = i = 1 ∑ n l xx x i − x ˉ ⋅ y i = i = 1 ∑ n c i y i
其中 c i = l xx x i − x ˉ 。同理:
β ^ 0 = y ˉ − β ^ 1 x ˉ = n 1 i = 1 ∑ n y i − x ˉ i = 1 ∑ n c i y i = i = 1 ∑ n ( n 1 − x ˉ c i ) y i = i = 1 ∑ n d i y i
其中 d i = n 1 − x ˉ c i 。这说明 β ^ 0 、β ^ 1 都是 y 1 , y 2 , … , y n 的线性组合。
[正态性] :由于 y i = β 0 + β 1 x i + ε i 且 ε i ∼ N ( 0 , σ 2 ) ,故 y i ∼ N ( β 0 + β 1 x i , σ 2 ) 。β ^ 1 = ∑ c i y i 是独立正态变量的线性组合,故 β ^ 1 服从正态分布。同理 β ^ 0 也服从正态分布。
[无偏性] :E ( β ^ 1 ) = ∑ c i E ( y i ) = ∑ c i ( β 0 + β 1 x i ) = β 0 ∑ c i + β 1 ∑ c i x i 。
其中 ∑ c i = l xx ∑ ( x i − x ˉ ) = 0 ,∑ c i x i = l xx ∑ ( x i − x ˉ ) x i = l xx l xx = 1 。
故 E ( β ^ 1 ) = β 1 。
E ( β ^ 0 ) = E ( y ˉ − β ^ 1 x ˉ ) = ( β 0 + β 1 x ˉ ) − β 1 x ˉ = β 0 。
[方差] :Var ( β ^ 1 ) = ∑ c i 2 Var ( y i ) = σ 2 ∑ c i 2 = σ 2 ∑ l xx 2 ( x i − x ˉ ) 2 = l xx σ 2 。
Var ( β ^ 0 ) = ∑ d i 2 Var ( y i ) = σ 2 ∑ d i 2 。
其中 ∑ d i 2 = ∑ ( n 1 − x ˉ c i ) 2 = n 1 − 2 x ˉ ∑ n c i + x ˉ 2 ∑ c i 2 = n 1 + l xx x ˉ 2 (因为 ∑ c i = 0 )。
故 Var ( β ^ 0 ) = σ 2 ( n 1 + l xx x ˉ 2 ) 。
[协方差] :Cov ( β ^ 0 , β ^ 1 ) = Cov ( ∑ d i y i , ∑ c i y i ) = σ 2 ∑ d i c i 。
∑ d i c i = ∑ ( n 1 − x ˉ c i ) c i = n 1 ∑ c i − x ˉ ∑ c i 2 = 0 − l xx x ˉ = − l xx x ˉ 。
故 Cov ( β ^ 0 , β ^ 1 ) = − l xx x ˉ σ 2 。
□
例题:合金钢强度与碳含量的回归方程计算
例 8.4.2 — 合金钢强度与碳含量(回归方程计算)
对例 8.4.1 的合金钢数据,建立强度 y 关于碳含量 x 的一元线性回归方程。
解 :
第一步:计算基本统计量
x ˉ = 12 1 ∑ x i = 12 0.10 + 0.11 + ⋯ + 0.23 = 12 1.90 = 0.1583
y ˉ = 12 1 ∑ y i = 12 42.0 + 43.5 + ⋯ + 60.0 = 12 590.0 = 49.167
第二步:计算 l xx 、l yy 、l x y
l xx = ∑ x i 2 − 12 x ˉ 2 = 0.3194 − 12 × 0.02507 = 0.3194 − 0.3008 = 0.0186
l yy = ∑ y i 2 − 12 y ˉ 2 = 29492.50 − 12 × 2417.36 = 29492.50 − 29008.33 = 484.17
l x y = ∑ x i y i − 12 x ˉ y ˉ = 95.925 − 12 × 7.783 = 95.925 − 93.400 = 2.525
第三步:计算回归系数
β ^ 1 = l xx l x y = 0.0186 2.525 = 135.75
β ^ 0 = y ˉ − β ^ 1 x ˉ = 49.167 − 135.75 × 0.1583 = 49.167 − 21.492 = 27.675
第四步:写出回归方程
y ^ = 27.675 + 135.75 x
回归方程表明:碳含量每增加 0.01%,合金钢强度平均增加约 1.358 kg/mm 2 。
补充:MLE 与 LSE 的关系
在正态性假定 ε i ∼ N ( 0 , σ 2 ) 下,y i ∼ N ( β 0 + β 1 x i , σ 2 ) ,且各 y i 独立。似然函数为:
L ( β 0 , β 1 , σ 2 ) = i = 1 ∏ n 2 π σ 2 1 exp { − 2 σ 2 ( y i − β 0 − β 1 x i ) 2 }
对数似然函数为:
ln L = − 2 n ln ( 2 π ) − 2 n ln σ 2 − 2 σ 2 1 i = 1 ∑ n ( y i − β 0 − β 1 x i ) 2
对 β 0 、β 1 最大化 ln L 等价于最小化 ∑ ( y i − β 0 − β 1 x i ) 2 ,这正是最小二乘法的目标函数。
结论 :在正态误差模型下,β 0 、β 1 的最大似然估计(MLE)与最小二乘估计(LSE)完全一致。这一等价性是正态回归模型的一个重要性质,也是最小二乘法在回归分析中占据核心地位的原因之一。
进一步,σ 2 的 MLE 为 σ ^ M L E 2 = n 1 ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x i ) 2 = n S e ,但这是有偏估计。常用的无偏估计 为:
σ ^ 2 = n − 2 S e = n − 2 1 i = 1 ∑ n ( y i − y ^ i ) 2
四、回归方程的显著性检验
检验问题
建立回归方程后,一个自然的问题是:回归方程是否真的有意义?即自变量 x 对因变量 y 是否有显著的线性影响?
这等价于检验回归系数 β 1 是否为零:
H 0 : β 1 = 0 vs H 1 : β 1 = 0
若拒绝 H 0 ,则认为 x 对 y 有显著的线性影响,回归方程有意义
若接受 H 0 ,则认为 x 对 y 没有显著的线性影响,回归方程无意义
平方和分解
与方差分析 类似,回归分析的核心也是平方和分解 。
证明 (8.4.13) :
[引入恒等式] :对每个观测值 y i ,有恒等式
y i − y ˉ = ( y i − y ^ i ) + ( y ^ i − y ˉ )
即:总偏差 = 残差 + 回归偏差。
[两边平方求和] :
i = 1 ∑ n ( y i − y ˉ ) 2 = i = 1 ∑ n [( y i − y ^ i ) + ( y ^ i − y ˉ ) ] 2
= i = 1 ∑ n ( y i − y ^ i ) 2 + i = 1 ∑ n ( y ^ i − y ˉ ) 2 + 2 i = 1 ∑ n ( y i − y ^ i ) ( y ^ i − y ˉ )
[证明交叉项为零] :交叉项
Δ = 2 i = 1 ∑ n ( y i − y ^ i ) ( y ^ i − y ˉ ) = 2 i = 1 ∑ n e i ( y ^ i − y ˉ )
将 y ^ i = β ^ 0 + β ^ 1 x i 和 e i = y i − β ^ 0 − β ^ 1 x i 代入:
Δ = 2 i = 1 ∑ n ( y i − β ^ 0 − β ^ 1 x i ) ( β ^ 0 + β ^ 1 x i − y ˉ )
利用正规方程 ∑ e i = 0 和 ∑ x i e i = 0 :
∑ e i ( β ^ 0 − y ˉ ) = ( β ^ 0 − y ˉ ) ∑ e i = 0
∑ e i ⋅ β ^ 1 x i = β ^ 1 ∑ x i e i = 0
故 Δ = 0 。
[得到分解式] :
S T = S e + S R ( 8.4.13 )
其中 S T = ∑ ( y i − y ˉ ) 2 (总平方和),S e = ∑ ( y i − y ^ i ) 2 (残差平方和),S R = ∑ ( y ^ i − y ˉ ) 2 (回归平方和)。
□
三个平方和的含义:
平方和 公式 自由度 含义 S T (总平方和)∑ ( y i − y ˉ ) 2 = l yy n − 1 y 的总变异S R (回归平方和)∑ ( y ^ i − y ˉ ) 2 = β ^ 1 2 l xx = l x y 2 / l xx 1 由 x 的线性变化引起的 y 的变异 S e (残差平方和)∑ ( y i − y ^ i ) 2 = l yy − S R n − 2 除去 x 的线性影响后 y 的剩余变异
自由度也满足分解关系:( n − 1 ) = 1 + ( n − 2 ) 。
平方和的期望
在一元线性回归模型下:
(1) E ( S e ) = ( n − 2 ) σ 2
(2) E ( S R ) = σ 2 + β 1 2 l xx
当 H 0 : β 1 = 0 成立时,E ( S R ) = σ 2 ;当 H 0 不成立时,E ( S R ) > σ 2 。
这个定理的含义非常直观:当 H 0 成立时,回归平方和与残差平方和的期望都等于 σ 2 (乘以各自的自由度),比值接近 1;当 H 0 不成立时,回归平方和的期望变大,比值倾向于大于 1。
残差平方和的分布
在一元线性回归模型下:
(1) σ 2 S e ∼ χ 2 ( n − 2 )
(2) S e 与 β ^ 1 相互独立
(3) 当 H 0 : β 1 = 0 成立时,σ 2 S R ∼ χ 2 ( 1 )
F 检验(方差分析方法)
由定理 8.4.2 和定理 8.4.3,在 H 0 成立时:
F = S e / ( n − 2 ) S R /1 = M S e M S R ∼ F ( 1 , n − 2 )
当 H 0 不成立时,E ( M S R ) > E ( M S e ) ,F 值倾向于偏大。
给定显著性水平 α ,F 检验的拒绝域 为:
W = { F ⩾ F 1 − α ( 1 , n − 2 )}
方差分析表 :
来源 平方和 自由度 均方 F 值p 值回归 S R 1 M S R = S R F = M S R / M S e P ( F 1 , n − 2 ⩾ F ) 残差 S e n − 2 M S e = S e / ( n − 2 ) 总和 S T n − 1
t 检验
由定理 8.4.1,β ^ 1 ∼ N ( β 1 , σ 2 / l xx ) ,用 σ ^ 2 = S e / ( n − 2 ) 替代 σ 2 ,得:
t = σ ^ / l xx β ^ 1 = σ ^ β ^ 1 l xx ∼ t ( n − 2 ) ( 8.4.17 )
(在 H 0 : β 1 = 0 成立时)
给定显著性水平 α ,t 检验的拒绝域 为:
W = { ∣ t ∣ ⩾ t 1 − α /2 ( n − 2 )}
相关系数检验
样本相关系数 定义为:
r = l xx l yy l x y = ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 ∑ ( x i − x ˉ ) ( y i − y ˉ )
r 的取值范围为 [ − 1 , 1 ] ,∣ r ∣ 越接近 1,线性相关程度越强。
在 H 0 : β 1 = 0 成立时,可以证明:
t = 1 − r 2 r n − 2 ∼ t ( n − 2 )
给定显著性水平 α ,相关系数检验的拒绝域为:
W = { ∣ r ∣ ⩾ r 1 − α /2 ( n − 2 ) }
其中 r 1 − α /2 ( n − 2 ) 为相关系数的临界值,可查附表。
三种检验的等价关系
重要结论 :在一元线性回归中,F 检验、t 检验和相关系数检验完全等价 ——对同一组数据,三种检验的结论一定一致。
等价性的数学证明 :
(1) F 检验与 t 检验等价:F = t 2 。
证明:F = M S e S R = S e / ( n − 2 ) β ^ 1 2 l xx = ( σ ^ β ^ 1 l xx ) 2 = t 2 。由于 F ( 1 , n − 2 ) 分布恰好是 t ( n − 2 ) 分布的平方,两者拒绝域等价。
(2) t 检验与 r 检验等价:t = 1 − r 2 r n − 2 。
证明:β ^ 1 = l x y / l xx ,σ ^ 2 = S e / ( n − 2 ) = ( l yy − l x y 2 / l xx ) / ( n − 2 ) 。
t = σ ^ β ^ 1 l xx = ( l yy − l x y 2 / l xx ) / ( n − 2 ) ( l x y / l xx ) l xx = l xx l yy − l x y 2 l x y n − 2
分子分母同除以 l xx l yy :
t = 1 − l x y 2 / ( l xx l yy ) ( l x y / l xx l yy ) n − 2 = 1 − r 2 r n − 2
注意 :三种检验的等价性仅在一元线性回归中成立。在多元回归中,F 检验是整体显著性检验(检验所有回归系数是否全为零),而 t 检验是单个系数的显著性检验,两者不再等价。
例题:合金钢强度与碳含量的显著性检验
例 8.4.3 — 合金钢强度与碳含量(方差分析表 + 显著性检验)
对例 8.4.2 建立的回归方程 y ^ = 27.675 + 135.75 x ,在 α = 0.05 下检验回归方程的显著性。
解 :
由例 8.4.2 已知:l xx = 0.0186 ,l yy = 484.17 ,l x y = 2.525 ,n = 12 。
计算平方和 :
S R = l xx l x y 2 = 0.0186 2.52 5 2 = 0.0186 6.3756 = 342.77
S e = l yy − S R = 484.17 − 342.77 = 141.40
S T = l yy = 484.17
计算均方和 F 值 :
M S R = S R = 342.77
M S e = n − 2 S e = 10 141.40 = 14.14
F = M S e M S R = 14.14 342.77 = 24.24
方差分析表 :
来源 平方和 自由度 均方 F 值p 值回归 342.77 1 342.77 24.24 < 0.001 残差 141.40 10 14.14 总和 484.17 11
查表判断 :F 0.95 ( 1 , 10 ) = 4.96 。
因为 F = 24.24 > 4.96 ,==拒绝 H 0 ==,认为碳含量 x 对合金钢强度 y 有显著的线性影响,回归方程 y ^ = 27.675 + 135.75 x 是显著的。
验证等价性 :
t 检验:t = σ ^ β ^ 1 l xx = 14.14 135.75 × 0.0186 = 3.761 135.75 × 0.1364 = 3.761 18.516 = 4.923
t 0.975 ( 10 ) = 2.228 ,∣ t ∣ = 4.923 > 2.228 ,拒绝 H 0 。
注意 F = t 2 = 4.92 3 2 = 24.24 ,验证了等价性。
相关系数:r = l xx l yy l x y = 0.0186 × 484.17 2.525 = 9.006 2.525 = 3.001 2.525 = 0.8413
r 0.975 ( 10 ) = 0.576 ,∣ r ∣ = 0.8413 > 0.576 ,拒绝 H 0 。三种检验结论完全一致。
五、估计与预测
回归方程建立并通过显著性检验后,可以用于两个目的:
估计 (estimation):给定 x = x 0 ,估计 E ( y 0 ) = β 0 + β 1 x 0 (均值响应)
预测 (prediction):给定 x = x 0 ,预测 y 0 = β 0 + β 1 x 0 + ε 0 (单个响应)
均值响应 E ( y 0 ) 的置信区间
给定 x = x 0 ,均值响应 E ( y 0 ) = β 0 + β 1 x 0 的点估计为 y ^ 0 = β ^ 0 + β ^ 1 x 0 。
由于 y ^ 0 是 β ^ 0 和 β ^ 1 的线性组合,且 β ^ 0 、β ^ 1 服从正态分布,故 y ^ 0 也服从正态分布:
y ^ 0 ∼ N ( β 0 + β 1 x 0 , σ 2 ( n 1 + l xx ( x 0 − x ˉ ) 2 ) )
用 σ ^ 2 = S e / ( n − 2 ) 替代 σ 2 ,构造 t 统计量:
t = σ ^ n 1 + l xx ( x 0 − x ˉ ) 2 y ^ 0 − ( β 0 + β 1 x 0 ) ∼ t ( n − 2 )
由此得到 E ( y 0 ) 的==置信水平为 1 − α 的置信区间==:
y ^ 0 − t 1 − α /2 ( n − 2 ) ⋅ σ ^ n 1 + l xx ( x 0 − x ˉ ) 2 , y ^ 0 + t 1 − α /2 ( n − 2 ) ⋅ σ ^ n 1 + l xx ( x 0 − x ˉ ) 2 ( 8.4.20 )
单个响应 y 0 的预测区间
给定 x = x 0 ,要预测单个新观测值 y 0 = β 0 + β 1 x 0 + ε 0 。预测误差为:
y 0 − y ^ 0 = ( β 0 + β 1 x 0 + ε 0 ) − ( β ^ 0 + β ^ 1 x 0 ) = ( β 0 − β ^ 0 ) + ( β 1 − β ^ 1 ) x 0 + ε 0
由于 y ^ 0 与 ε 0 独立(y ^ 0 由已有数据决定,ε 0 是新的随机误差),预测误差的方差为:
Var ( y 0 − y ^ 0 ) = Var ( y ^ 0 ) + Var ( ε 0 ) = σ 2 ( n 1 + l xx ( x 0 − x ˉ ) 2 ) + σ 2 = σ 2 ( 1 + n 1 + l xx ( x 0 − x ˉ ) 2 )
构造 t 统计量:
t = σ ^ 1 + n 1 + l xx ( x 0 − x ˉ ) 2 y 0 − y ^ 0 ∼ t ( n − 2 )
由此得到 y 0 的==置信水平为 1 − α 的预测区间==:
y ^ 0 − t 1 − α /2 ( n − 2 ) ⋅ σ ^ 1 + n 1 + l xx ( x 0 − x ˉ ) 2 , y ^ 0 + t 1 − α /2 ( n − 2 ) ⋅ σ ^ 1 + n 1 + l xx ( x 0 − x ˉ ) 2 ( 8.4.22 )
置信区间与预测区间的比较
比较维度 均值响应的置信区间 单个响应的预测区间 估计对象 E ( y 0 ) = β 0 + β 1 x 0 y 0 = β 0 + β 1 x 0 + ε 0 标准误 σ ^ n 1 + l xx ( x 0 − x ˉ ) 2 σ ^ 1 + n 1 + l xx ( x 0 − x ˉ ) 2 区间宽度 较窄 较宽(多了一个”1”) 含义 对均值位置的估计 对单个值的预测
关键区别 :预测区间比置信区间宽,因为预测单个值需要额外考虑随机误差 ε 0 的不确定性。==预测区间 = 置信区间 + 随机波动==。
两者的宽度都随 ∣ x 0 − x ˉ ∣ 的增大而增大——离样本均值越远,估计/预测的不确定性越大。这提醒我们:外推(extrapolation)要谨慎 ,在数据范围之外进行预测时,区间会变得很宽,预测结果不可靠。
例题:合金钢强度与碳含量的估计与预测
例 8.4.4 — 合金钢强度与碳含量(估计与预测)
对例 8.4.2 的回归方程 y ^ = 27.675 + 135.75 x ,在 x 0 = 0.16 处:
(a)求均值响应 E ( y 0 ) 的 95% 置信区间;
(b)求单个响应 y 0 的 95% 预测区间。
解 :
y ^ 0 = 27.675 + 135.75 × 0.16 = 27.675 + 21.72 = 49.395
已知 σ ^ = M S e = 14.14 = 3.761 ,t 0.975 ( 10 ) = 2.228 。
(a)均值响应的置信区间
σ ^ n 1 + l xx ( x 0 − x ˉ ) 2 = 3.761 12 1 + 0.0186 ( 0.16 − 0.1583 ) 2 = 3.761 0.0833 + 0.0186 0.00000289
= 3.761 0.0833 + 0.000155 = 3.761 × 0.2888 = 1.086
置信区间:49.395 ± 2.228 × 1.086 = 49.395 ± 2.420 = [ 46.975 , 51.815 ]
(b)单个响应的预测区间
σ ^ 1 + n 1 + l xx ( x 0 − x ˉ ) 2 = 3.761 1 + 0.0833 + 0.000155 = 3.761 × 1.0408 = 3.915
预测区间:49.395 ± 2.228 × 3.915 = 49.395 ± 8.720 = [ 40.675 , 58.115 ]
预测区间 [ 40.675 , 58.115 ] 明显宽于置信区间 [ 46.975 , 51.815 ] ,体现了预测单个值时额外的随机波动不确定性。
例题:动物体积与质量的完整回归分析
例 8.4.5 — 动物体积与质量(完整回归分析案例)
为研究某种动物的体积 y (单位:cm 3 )与质量 x (单位:kg )之间的关系,收集了 10 组数据:
i 1 2 3 4 5 6 7 8 9 10 x i 10.0 10.4 10.6 11.0 11.2 11.6 12.0 12.2 12.4 12.6 y i 10.2 10.8 11.3 11.8 12.0 12.5 13.0 13.2 13.5 13.8
(a)建立 y 关于 x 的线性回归方程;
(b)检验回归方程的显著性(α = 0.05 );
(c)求 x 0 = 11.5 时 E ( y 0 ) 的 95% 置信区间和 y 0 的 95% 预测区间。
解 :
(a)建立回归方程
x ˉ = 10 10.0 + 10.4 + ⋯ + 12.6 = 10 114.0 = 11.40
y ˉ = 10 10.2 + 10.8 + ⋯ + 13.8 = 10 122.1 = 12.21
l xx = ∑ x i 2 − 10 x ˉ 2 = 1304.52 − 10 × 129.96 = 1304.52 − 1299.60 = 4.92
l yy = ∑ y i 2 − 10 y ˉ 2 = 1501.23 − 10 × 149.08 = 1501.23 − 1490.84 = 10.39
l x y = ∑ x i y i − 10 x ˉ y ˉ = 1398.18 − 10 × 139.19 = 1398.18 − 1391.94 = 6.24
β ^ 1 = l xx l x y = 4.92 6.24 = 1.268
β ^ 0 = y ˉ − β ^ 1 x ˉ = 12.21 − 1.268 × 11.40 = 12.21 − 14.455 = − 2.245
回归方程:y ^ = − 2.245 + 1.268 x
(b)显著性检验
S R = l xx l x y 2 = 4.92 6.2 4 2 = 4.92 38.938 = 7.914
S e = l yy − S R = 10.39 − 7.914 = 2.476
M S e = n − 2 S e = 8 2.476 = 0.310
F = M S e S R = 0.310 7.914 = 25.53
F 0.95 ( 1 , 8 ) = 5.32 ,F = 25.53 > 5.32 ,拒绝 H 0 ,回归方程显著。
(c)估计与预测
y ^ 0 = − 2.245 + 1.268 × 11.5 = − 2.245 + 14.582 = 12.337
σ ^ = 0.310 = 0.557 ,t 0.975 ( 8 ) = 2.306 。
均值响应置信区间:
σ ^ 10 1 + 4.92 ( 11.5 − 11.4 ) 2 = 0.557 0.1 + 4.92 0.01 = 0.557 0.1020 = 0.557 × 0.3194 = 0.178
12.337 ± 2.306 × 0.178 = 12.337 ± 0.410 = [ 11.927 , 12.747 ]
单个响应预测区间:
σ ^ 1 + 0.1020 = 0.557 1.1020 = 0.557 × 1.0498 = 0.585
12.337 ± 2.306 × 0.585 = 12.337 ± 1.349 = [ 10.988 , 13.686 ]
六、知识结构总览
graph TD
A[一元线性回归] --> B[模型建立]
A --> C[参数估计]
A --> D[显著性检验]
A --> E[估计与预测]
B --> B1[回归函数]
B --> B2[回归模型]
B --> B3[基本假定]
C --> C1[最小二乘法]
C1 --> C2[正规方程组]
C2 --> C3[回归系数估计]
D --> D1[平方和分解]
D1 --> D2[F检验]
D1 --> D3[t检验]
D1 --> D4[相关系数检验]
D2 --> D5[方差分析表]
E --> E1[均值响应置信区间]
E --> E2[单个响应预测区间]
E1 --> E3[区间宽度分析]
E2 --> E3
七、核心思想与解题技巧
最小二乘法的几何直觉
最小二乘法的核心思想可以用”投影”来理解。将 n 维观测向量 y = ( y 1 , y 2 , … , y n ) T 投影到由 1 = ( 1 , 1 , … , 1 ) T 和 x = ( x 1 , x 2 , … , x n ) T 张成的二维子空间上,投影向量 y ^ = β ^ 0 1 + β ^ 1 x 就是拟合值向量。残差向量 e = y − y ^ 与该子空间正交(这就是正规方程的几何含义:e ⊥ 1 和 e ⊥ x )。
类比 :想象你在阳光下观察一根旗杆的影子。旗杆(观测向量 y )投射到地面(回归子空间)上的影子(拟合向量 y ^ )就是最小二乘解。影子越短(残差越小),旗杆越”贴近”地面——但旗杆永远不会完全躺在地面上(除非完美线性关系)。
平方和分解的统一思想
一元线性回归中的平方和分解 S T = S R + S e 与方差分析 中的 S T = S A + S e 本质上是同一个思想:
比较维度 方差分析 一元线性回归 总平方和 S T = ∑∑ ( Y ij − Y ˉ ) 2 S T = ∑ ( y i − y ˉ ) 2 因子/回归平方和 S A (组间变异)S R (回归解释的变异)误差/残差平方和 S e (组内变异)S e (回归未解释的变异)检验统计量 F = M S A / M S e ∼ F ( r − 1 , n − r ) F = M S R / M S e ∼ F ( 1 , n − 2 ) 核心思想 比较组间与组内变异 比较回归解释与未解释的变异
事实上,一元线性回归可以看作是方差分析的一种特殊情况——当自变量 x 只取有限个离散值时,回归分析与方差分析的问题框架完全一致。
解题套路总结
一元线性回归完整分析模板 :
1. 散点图观察 → 判断线性趋势
2. 计算基本统计量:x̄, ȳ, l_xx, l_yy, l_xy
3. 计算回归系数:β̂₁ = l_xy/l_xx, β̂₀ = ȳ - β̂₁x̄
4. 写出回归方程:ŷ = β̂₀ + β̂₁x
5. 平方和分解:S_R = l_xy²/l_xx, S_e = l_yy - S_R
6. 方差分析表 → F检验
7. (可选)t检验 / 相关系数检验
8. 估计与预测 → 置信区间 / 预测区间
计算技巧 :
l xx 、l yy 、l x y 的计算 :优先使用公式 l xx = ∑ x i 2 − n x ˉ 2 (而非定义式),计算量更小。
S R 的简化 :S R = β ^ 1 l x y (避免重复计算 l x y 2 / l xx ),因为 β ^ 1 = l x y / l xx ,所以 β ^ 1 l x y = l x y 2 / l xx 。
σ ^ 的计算 :σ ^ = M S e = S e / ( n − 2 ) ,这是后续置信区间和预测区间计算的基础。
r 2 的含义 :r 2 = S R / S T ,称为决定系数 (coefficient of determination),表示回归方程解释的 y 的变异占总变异的比例。r 2 越接近 1,回归方程的拟合效果越好。
八、补充理解与易混淆点
相关关系就是因果关系
来源 :茆诗松等《概率论与数理统计教程》(第三版)p.405 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis , 6th ed., Wiley, pp. 15-17 + Freedman, D.A. (2005) Statistical Models: Theory and Practice , Cambridge, pp. 3-8 + CSDN 博客”相关性与因果性的区别”2023 + 知乎专栏”回归分析能证明因果关系吗?“2024
❌ 错误解释:如果两个变量之间存在显著的相关关系(或回归关系),就说明一个变量是另一个变量的原因。例如,回归分析发现”冰淇淋销量”与”溺水人数”显著正相关,就认为吃冰淇淋会导致溺水。
✅ 正确解释:相关关系不等于因果关系 。两个变量之间的相关可能由以下原因产生:(1) x 确实是 y 的原因(因果关系);(2) 存在第三变量 z 同时影响 x 和 y (混杂因素,如气温同时影响冰淇淋销量和游泳人数);(3) y 是 x 的原因(反向因果);(4) 纯粹的巧合。回归分析只能揭示变量之间的统计关联,不能证明因果关系。要建立因果推断,需要随机化实验或更高级的因果推断方法(如工具变量法、倾向得分匹配等)。
最小二乘估计总是最优的
来源 :茆诗松等《概率论与数理统计教程》(第三版)p.410 + Greene, W.H. (2018) Econometric Analysis , 8th ed., Pearson, pp. 18-22 + CSDN 博客”最小二乘法的适用条件与局限性”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models , 3rd ed., Sage, pp. 201-205 + 卡方笔记”回归分析中的稳健估计方法”2024
❌ 错误解释:最小二乘法是回归分析中最好的参数估计方法,在任何条件下都能给出最优的估计结果。
✅ 正确解释:最小二乘估计的最优性(BLUE)依赖于 Gauss-Markov 条件(线性性、等方差性、独立性)。当这些条件不满足时,LSE 不再是最优的:(1) 当存在异常值(outlier)时,LSE 对异常值非常敏感(因为残差取平方),此时稳健回归方法 (如 M 估计、LTS 估计)更合适;(2) 当误差方差不等(异方差性)时,加权最小二乘法 (WLS)比普通最小二乘法(OLS)更有效;(3) 当误差项存在自相关时,需要使用广义最小二乘法 (GLS)。此外,LSE 的正态性推断还依赖于误差的正态性假定。
R²越接近1说明回归模型越好
来源 :茆诗松等《概率论与数理统计教程》(第三版)p.418 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis , 6th ed., Wiley, pp. 100-103 + CSDN 博客”R²的陷阱:为什么高R²不代表好模型”2024 + 知乎专栏”决定系数R²的误用与正确理解”2023 + 卡方笔记”回归模型评价的多种指标”2024
❌ 错误解释:决定系数 R 2 越大,说明回归模型越好,应该追求尽可能高的 R 2 值。
✅ 正确解释:R 2 = S R / S T 反映的是回归方程解释的变异占总变异的比例,但它有以下局限性:(1) R 2 随自变量个数的增加而单调递增(即使加入的自变量毫无意义),因此在多元回归中应使用==调整 R 2 ==(adjusted R 2 );(2) 高 R 2 不一定意味着模型正确——模型可能存在严重的设定偏差(如遗漏重要变量、函数形式错误),但 R 2 仍然很高;(3) R 2 的大小受数据本身变异程度的影响,不同数据集之间的 R 2 不可直接比较;(4) 在某些领域(如社会科学),R 2 = 0.3 可能已经是很好的结果了,因为人类行为本身就有很大的随机性。评价回归模型的好坏应综合考虑残差分析 、模型假设检验 和实际意义 。
预测区间和置信区间可以混用
来源 :茆诗松等《概率论与数理统计教程》(第三版)p.425 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis , 6th ed., Wiley, pp. 66-70 + CSDN 博客”置信区间与预测区间的区别”2023 + statology.org “Confidence Interval vs Prediction Interval” + 卡方笔记”回归分析中的区间估计”2024
❌ 错误解释:均值响应的置信区间和单个响应的预测区间差不多,可以互换使用。或者认为预测区间就是”更宽一点的置信区间”,两者没有本质区别。
✅ 正确解释:置信区间和预测区间有本质区别 ,不能混用。置信区间估计的是总体均值 E ( y 0 ) 的位置——“如果重复很多次实验,在 x = x 0 处的平均响应值会落在哪里”。预测区间预测的是单个未来观测值 y 0 的范围——“下一次在 x = x 0 处做实验,观测值会落在哪里”。预测区间比置信区间宽,因为预测单个值需要额外考虑随机误差 ε 0 的不确定性。混用两者的后果是:如果用置信区间代替预测区间,会低估预测的不确定性,导致实际观测值频繁落在区间之外;如果用预测区间代替置信区间,会过度估计均值的精度,导致决策过于保守。
回归分析不需要检验前提假定
来源 :茆诗松等《概率论与数理统计教程》(第三版)p.428 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis , 6th ed., Wiley, pp. 105-110 + CSDN 博客”回归诊断:为什么不能直接用回归结果”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models , 3rd ed., Sage, pp. 285-310 + 卡方笔记”回归模型假定检验方法”2024
❌ 错误解释:只要把数据输入软件、运行回归、得到显著的 p 值,就可以放心使用回归结果了。模型假定(线性性、等方差性、独立性、正态性)只是理论上的要求,实际中不需要检查。
✅ 正确解释:回归分析的所有推断结论(假设检验、置信区间、预测区间)都建立在模型假定之上 。如果假定不满足,这些结论可能完全不可靠。必须通过残差分析(residual analysis)检验假定的合理性:(1) 残差 vs 拟合值图 :检查线性性和等方差性——如果残差呈现系统性的曲线模式,说明线性性不满足;如果残差的波动幅度随拟合值变化,说明等方差性不满足;(2) 残差的正态Q-Q图 :检查正态性——如果点偏离对角线,说明正态性不满足;(3) 残差的时序图 (时间序列数据):检查独立性——如果残差呈现自相关模式,说明独立性不满足。当假定不满足时,应考虑数据变换(如对数变换、Box-Cox 变换)、加权最小二乘或广义线性模型等方法。
九、习题精选
编号 题目来源 知识点 难度 1 教材习题8.4-1 过原点线性回归模型 ★★★ 2 教材习题8.4-2 MLE与LSE比较 ★★★ 3 教材习题8.4-3 数据变换对回归的影响 ★★★ 4 教材习题8.4-5 维尼纶纤维耐水性能 ★★☆ 5 教材习题8.4-6 弹簧形变与外力 ★★☆ 6 教材习题8.4-7 r 2 与决定系数的关系★★★ 7 教材习题8.4-8 合金钢碳含量与强度 ★★★ 8 教材习题8.4-9 回归模型参数计算 ★★☆ 9 教材习题8.4-10 铸件腐蚀深度回归分析 ★★★ 10 教材习题8.4-11 社会商品零售总额与营业税 ★★★
习题1:过原点的线性回归模型
习题1 — 教材习题8.4-1:过原点的线性回归模型
设一元线性回归模型为 y i = β x i + ε i (i = 1 , 2 , … , n ),其中 ε i ∼ iid N ( 0 , σ 2 ) ,且 x i > 0 。
(a)求 β 的最小二乘估计 β ^ 。
(b)求 β ^ 的分布。
(c)求 σ 2 的无偏估计。
(d)证明 β ^ 是 β 的 UMVUE。
解 :
(a)最小二乘估计
目标函数:Q ( β ) = ∑ i = 1 n ( y i − β x i ) 2
d β d Q = − 2 ∑ i = 1 n x i ( y i − β x i ) = 0
解得:β ^ = ∑ i = 1 n x i 2 ∑ i = 1 n x i y i
(b)β ^ 的分布
β ^ = ∑ i = 1 n ∑ x j 2 x i y i = ∑ i = 1 n c i y i ,其中 c i = ∑ x j 2 x i 。
由于 y i ∼ N ( β x i , σ 2 ) 且各 y i 独立:
E ( β ^ ) = ∑ c i ⋅ β x i = β ∑ x i 2 ∑ x i 2 = β (无偏性)
Var ( β ^ ) = ∑ c i 2 σ 2 = σ 2 ( ∑ x i 2 ) 2 ∑ x i 2 = ∑ x i 2 σ 2
故 β ^ ∼ N ( β , ∑ x i 2 σ 2 ) 。
(c)σ 2 的无偏估计
残差平方和 S e = ∑ i = 1 n ( y i − β ^ x i ) 2 。
E ( S e ) = ∑ i = 1 n E [( y i − β ^ x i ) 2 ]
由于 β ^ 使 S e 最小化,且模型只有一个参数 β ,自由度为 n − 1 。
可以证明 E ( S e ) = ( n − 1 ) σ 2 (利用矩阵投影理论或直接展开计算)。
故 σ ^ 2 = n − 1 S e 是 σ 2 的无偏估计。
(d)UMVUE 的证明
由正态性,β ^ 是充分统计量。由 Lehmann-Scheffé 定理,β ^ 作为 β 的无偏估计且是充分统计量的函数,是 UMVUE。
□
习题2:MLE与LSE比较
习题2 — 教材习题8.4-2:MLE与LSE比较
在一元线性回归模型 y i = β 0 + β 1 x i + ε i ,ε i ∼ iid N ( 0 , σ 2 ) 下:
(a)写出 β 0 、β 1 、σ 2 的似然函数。
(b)求 β 0 、β 1 、σ 2 的最大似然估计。
(c)比较 MLE 与 LSE 的异同。
(d)证明 σ 2 的 MLE 是有偏的,并给出无偏修正。
解 :
(a)似然函数
y i ∼ N ( β 0 + β 1 x i , σ 2 ) ,各 y i 独立:
L ( β 0 , β 1 , σ 2 ) = i = 1 ∏ n 2 π σ 2 1 exp { − 2 σ 2 ( y i − β 0 − β 1 x i ) 2 }
(b)最大似然估计
对数似然函数:
ln L = − 2 n ln ( 2 π ) − 2 n ln σ 2 − 2 σ 2 1 i = 1 ∑ n ( y i − β 0 − β 1 x i ) 2
对 β 0 、β 1 最大化 ln L 等价于最小化 ∑ ( y i − β 0 − β 1 x i ) 2 ,故
β ^ 1 M L E = l xx l x y , β ^ 0 M L E = y ˉ − β ^ 1 M L E x ˉ
对 σ 2 最大化:∂ σ 2 ∂ l n L = − 2 σ 2 n + 2 σ 4 S e = 0
σ ^ M L E 2 = n S e = n 1 i = 1 ∑ n ( y i − y ^ i ) 2
(c)MLE 与 LSE 的比较
比较维度 MLE LSE β 0 、β 1 β ^ 0 = y ˉ − β ^ 1 x ˉ ,β ^ 1 = l x y / l xx 相同 σ 2 S e / n (有偏)通常指 β 0 、β 1 的估计 需要的假定 正态性 只需 Gauss-Markov 条件 推断能力 可直接用于假设检验和区间估计 需要额外的正态性假定
(d)有偏性证明与修正
E ( σ ^ M L E 2 ) = E ( n S e ) = n ( n − 2 ) σ 2 = n n − 2 σ 2 < σ 2
故 MLE 低估了 σ 2 。无偏修正为 σ ^ 2 = n − 2 S e 。
□
习题3:数据变换对回归的影响
习题3 — 教材习题8.4-3:数据变换对回归的影响
设 ( x i , y i ) (i = 1 , 2 , … , n )满足一元线性回归模型 y i = β 0 + β 1 x i + ε i ,ε i ∼ iid N ( 0 , σ 2 ) 。
(a)若对自变量做平移变换 u i = x i − a (a 为常数),证明用 ( u i , y i ) 建立的回归方程与原回归方程等价,并给出新回归系数与原回归系数的关系。
(b)若对自变量做缩放变换 u i = c x i (c = 0 为常数),证明用 ( u i , y i ) 建立的回归方程的 F 值、t 值、R 2 均不变。
解 :
(a)平移变换 u i = x i − a
用 ( u i , y i ) 建立回归方程 y ^ = α ^ 0 + α ^ 1 u 。
u ˉ = x ˉ − a
l uu = ∑ ( u i − u ˉ ) 2 = ∑ ( x i − a − x ˉ + a ) 2 = ∑ ( x i − x ˉ ) 2 = l xx
l u y = ∑ ( u i − u ˉ ) ( y i − y ˉ ) = ∑ ( x i − x ˉ ) ( y i − y ˉ ) = l x y
α ^ 1 = l u y / l uu = l x y / l xx = β ^ 1
α ^ 0 = y ˉ − α ^ 1 u ˉ = y ˉ − β ^ 1 ( x ˉ − a ) = ( y ˉ − β ^ 1 x ˉ ) + β ^ 1 a = β ^ 0 + β ^ 1 a
新回归方程:y ^ = ( β ^ 0 + β ^ 1 a ) + β ^ 1 u = β ^ 0 + β ^ 1 ( x − a ) + β ^ 1 a = β ^ 0 + β ^ 1 x
与原回归方程完全一致。平移变换不改变斜率,只改变截距 。
(b)缩放变换 u i = c x i
u ˉ = c x ˉ
l uu = ∑ ( u i − u ˉ ) 2 = c 2 l xx
l u y = ∑ ( u i − u ˉ ) ( y i − y ˉ ) = c l x y
α ^ 1 = l u y / l uu = c l x y / ( c 2 l xx ) = β ^ 1 / c
S R ( u ) = α ^ 1 2 l uu = ( β ^ 1 / c ) 2 ⋅ c 2 l xx = β ^ 1 2 l xx = S R
S e ( u ) = l yy − S R ( u ) = l yy − S R = S e
F ( u ) = S R ( u ) / M S e ( u ) = S R / M S e = F
t ( u ) = α ^ 1 l uu / σ ^ = ( β ^ 1 / c ) c 2 l xx / σ ^ = β ^ 1 l xx / σ ^ = t
r ( u ) = l u y / l uu l yy = c l x y / c 2 l xx l yy = l x y / l xx l yy = r
故 F 值、t 值、R 2 均不变。缩放变换不改变检验结论 。
□
习题4:维尼纶纤维耐水性能
习题4 — 教材习题8.4-5:维尼纶纤维耐水性能
在维尼纶纤维的生产中,考察甲醛浓度 x (单位:g/L )对缩醛化度 y (单位:摩尔%)的影响,收集了 7 组数据:
x i 18 20 22 24 26 28 30 y i 26.86 28.35 28.75 30.00 30.75 31.41 31.98
(a)建立 y 关于 x 的线性回归方程。
(b)在 α = 0.01 下检验回归方程的显著性。
(c)当 x 0 = 25 时,求 y 0 的 95% 预测区间。
解 :
(a)建立回归方程
n = 7
x ˉ = 7 18 + 20 + 22 + 24 + 26 + 28 + 30 = 7 168 = 24
y ˉ = 7 26.86 + 28.35 + 28.75 + 30.00 + 30.75 + 31.41 + 31.98 = 7 208.10 = 29.729
l xx = ( 18 − 24 ) 2 + ( 20 − 24 ) 2 + ( 22 − 24 ) 2 + ( 24 − 24 ) 2 + ( 26 − 24 ) 2 + ( 28 − 24 ) 2 + ( 30 − 24 ) 2
= 36 + 16 + 4 + 0 + 4 + 16 + 36 = 112
l x y = ( 18 − 24 ) ( 26.86 − 29.729 ) + ( 20 − 24 ) ( 28.35 − 29.729 ) + ( 22 − 24 ) ( 28.75 − 29.729 ) + ( 24 − 24 ) ( 30.00 − 29.729 )
+ ( 26 − 24 ) ( 30.75 − 29.729 ) + ( 28 − 24 ) ( 31.41 − 29.729 ) + ( 30 − 24 ) ( 31.98 − 29.729 )
= ( − 6 ) ( − 2.869 ) + ( − 4 ) ( − 1.379 ) + ( − 2 ) ( − 0.979 ) + 0 + ( 2 ) ( 1.021 ) + ( 4 ) ( 1.681 ) + ( 6 ) ( 2.251 )
= 17.214 + 5.516 + 1.958 + 0 + 2.042 + 6.724 + 13.506 = 46.96
l yy = ( 26.86 − 29.729 ) 2 + ( 28.35 − 29.729 ) 2 + ( 28.75 − 29.729 ) 2 + ( 30.00 − 29.729 ) 2
+ ( 30.75 − 29.729 ) 2 + ( 31.41 − 29.729 ) 2 + ( 31.98 − 29.729 ) 2
= 8.231 + 1.902 + 0.958 + 0.073 + 1.042 + 2.825 + 5.063 = 20.094
β ^ 1 = 112 46.96 = 0.4193
β ^ 0 = 29.729 − 0.4193 × 24 = 29.729 − 10.063 = 19.666
回归方程:y ^ = 19.666 + 0.4193 x
(b)显著性检验 (α = 0.01 )
S R = 112 46.9 6 2 = 112 2205.24 = 19.693
S e = 20.094 − 19.693 = 0.401
M S e = 5 0.401 = 0.0802
F = 0.0802 19.693 = 245.6
F 0.99 ( 1 , 5 ) = 16.26 ,F = 245.6 > 16.26 ,拒绝 H 0 ,回归方程高度显著。
(c)预测区间 (x 0 = 25 )
y ^ 0 = 19.666 + 0.4193 × 25 = 19.666 + 10.483 = 30.149
σ ^ = 0.0802 = 0.2832 ,t 0.975 ( 5 ) = 2.571
σ ^ 1 + 7 1 + 112 ( 25 − 24 ) 2 = 0.2832 1 + 0.1429 + 0.00893 = 0.2832 × 1.0748 = 0.3044
预测区间:30.149 ± 2.571 × 0.3044 = 30.149 ± 0.783 = [ 29.366 , 30.932 ]
□
习题5:弹簧形变与外力
根据胡克定律,弹簧的形变量 y (单位:mm)与所受外力 x (单位:N)之间应满足线性关系。为验证这一关系,进行了 8 次试验,数据如下:
x i 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 y i 3.2 5.8 8.5 11.4 13.9 16.3 19.1 21.5
(a)建立 y 关于 x 的线性回归方程。
(b)检验回归方程的显著性(α = 0.05 )。
(c)求弹性系数(回归系数 β ^ 1 )的 95% 置信区间。
解 :
(a)建立回归方程
n = 8 ,x ˉ = 4.5 ,y ˉ = 12.4625
l xx = ∑ ( x i − 4.5 ) 2 = 6.25 + 2.25 + 0.25 + 0.25 + 0.25 + 2.25 + 6.25 + 12.25 = 30.0
l yy = ∑ ( y i − 12.4625 ) 2 = 85.945 + 44.155 + 15.655 + 1.185 + 2.060 + 14.895 + 44.155 + 81.570 = 289.62
l x y = ∑ ( x i − 4.5 ) ( y i − 12.4625 ) = ( − 3.5 ) ( − 9.2625 ) + ( − 2.5 ) ( − 6.6625 ) + ( − 1.5 ) ( − 3.9625 ) + ( − 0.5 ) ( − 1.0625 )
+ ( 0.5 ) ( 1.4375 ) + ( 1.5 ) ( 3.8375 ) + ( 2.5 ) ( 6.6375 ) + ( 3.5 ) ( 9.0375 )
= 32.419 + 16.656 + 5.944 + 0.531 + 0.719 + 5.756 + 16.594 + 31.631 = 110.25
β ^ 1 = 30.0 110.25 = 3.675
β ^ 0 = 12.4625 − 3.675 × 4.5 = 12.4625 − 16.5375 = − 4.075
回归方程:y ^ = − 4.075 + 3.675 x
(b)显著性检验
S R = 30.0 110.2 5 2 = 30.0 12155.06 = 405.17
S e = 289.62 − 405.17 … 等等,S e = l yy − S R ,但这里 S R > l yy ,说明计算有误。
重新计算 l yy :
∑ y i = 3.2 + 5.8 + 8.5 + 11.4 + 13.9 + 16.3 + 19.1 + 21.5 = 99.7
y ˉ = 99.7/8 = 12.4625
∑ y i 2 = 10.24 + 33.64 + 72.25 + 129.96 + 193.21 + 265.69 + 364.81 + 462.25 = 1532.05
l yy = 1532.05 − 8 × 155.314 = 1532.05 − 1242.51 = 289.54
S R = 110.2 5 2 /30.0 = 405.17 … 仍然大于 l yy 。
重新检查 l x y :∑ x i y i = 3.2 + 11.6 + 25.5 + 45.6 + 69.5 + 97.8 + 133.7 + 172.0 = 558.9
l x y = 558.9 − 8 × 4.5 × 12.4625 = 558.9 − 448.65 = 110.25 (正确)
重新检查 l xx :∑ x i 2 = 1 + 4 + 9 + 16 + 25 + 36 + 49 + 64 = 204
l xx = 204 − 8 × 20.25 = 204 − 162 = 42 (之前计算有误!)
重新计算:β ^ 1 = 110.25/42 = 2.625
β ^ 0 = 12.4625 − 2.625 × 4.5 = 12.4625 − 11.8125 = 0.65
回归方程:y ^ = 0.65 + 2.625 x
S R = 110.2 5 2 /42 = 12155.06/42 = 289.41
S e = 289.54 − 289.41 = 0.13
M S e = 0.13/6 = 0.0217
F = 289.41/0.0217 = 13337 ,远大于 F 0.95 ( 1 , 6 ) = 5.99 ,回归方程高度显著。
(c)弹性系数的置信区间
σ ^ = 0.0217 = 0.1473 ,t 0.975 ( 6 ) = 2.447
β ^ 1 的标准误:σ ^ / l xx = 0.1473/ 42 = 0.1473/6.481 = 0.02273
置信区间:2.625 ± 2.447 × 0.02273 = 2.625 ± 0.056 = [ 2.569 , 2.681 ]
□
习题6:r 2 与决定系数的关系
习题6 — 教材习题8.4-7: r 2 与决定系数的关系
在一元线性回归中,证明以下结论:
(a)R 2 = r 2 ,即决定系数等于样本相关系数的平方。
(b)S R = β ^ 1 2 l xx = l xx l x y 2 。
(c)∣ r ∣ ⩽ 1 ,且 ∣ r ∣ = 1 当且仅当所有数据点完全在回归直线上。
解 :
(a)证明 R 2 = r 2
决定系数 R 2 = S T S R = ∑ ( y i − y ˉ ) 2 ∑ ( y ^ i − y ˉ ) 2 。
由于 y ^ i = β ^ 0 + β ^ 1 x i = y ˉ + β ^ 1 ( x i − x ˉ ) ,故
y ^ i − y ˉ = β ^ 1 ( x i − x ˉ ) 。
S R = ∑ [ β ^ 1 ( x i − x ˉ ) ] 2 = β ^ 1 2 ∑ ( x i − x ˉ ) 2 = β ^ 1 2 l xx
R 2 = l yy β ^ 1 2 l xx = l yy ( l x y / l xx ) 2 ⋅ l xx = l xx l yy l x y 2 = r 2
(b)证明 S R = β ^ 1 2 l xx = l x y 2 / l xx
第一个等式已在上面的推导中证明。
第二个等式:β ^ 1 2 l xx = ( l x y / l xx ) 2 ⋅ l xx = l x y 2 / l xx 。
(c)证明 ∣ r ∣ ⩽ 1
由 Cauchy-Schwarz 不等式:
l x y 2 = [ ∑ ( x i − x ˉ ) ( y i − y ˉ ) ] 2 ⩽ ∑ ( x i − x ˉ ) 2 ⋅ ∑ ( y i − y ˉ ) 2 = l xx ⋅ l yy
故 r 2 = l x y 2 / ( l xx l yy ) ⩽ 1 ,即 ∣ r ∣ ⩽ 1 。
等号成立当且仅当 ( x i − x ˉ ) 与 ( y i − y ˉ ) 成比例,即 y i − y ˉ = c ( x i − x ˉ ) 对某个常数 c 成立,这意味着所有数据点完全在一条直线上。
□
习题7:合金钢碳含量与强度
习题7 — 教材习题8.4-8:合金钢碳含量与强度(综合计算)
对例 8.4.1 的合金钢数据,完成以下分析:
(a)计算样本相关系数 r 。
(b)计算决定系数 R 2 并解释其含义。
(c)在 x 0 = 0.15 处,求 E ( y 0 ) 的 99% 置信区间。
(d)在 x 0 = 0.25 处,求 y 0 的 99% 预测区间,并与(c)的结果比较。
解 :
由例 8.4.2 和例 8.4.3 已知:l xx = 0.0186 ,l yy = 484.17 ,l x y = 2.525 ,σ ^ = 3.761 ,n = 12 ,x ˉ = 0.1583 。
(a)样本相关系数
r = l xx l yy l x y = 0.0186 × 484.17 2.525 = 3.001 2.525 = 0.8413
(b)决定系数
R 2 = r 2 = 0.841 3 2 = 0.7078
含义:碳含量 x 的线性变化可以解释合金钢强度 y 总变异的约 70.78%,剩余 29.22% 的变异由其他因素(随机误差等)引起。
(c)x 0 = 0.15 处 E ( y 0 ) 的 99% 置信区间
y ^ 0 = 27.675 + 135.75 × 0.15 = 27.675 + 20.363 = 48.038
t 0.995 ( 10 ) = 3.169
σ ^ 12 1 + 0.0186 ( 0.15 − 0.1583 ) 2 = 3.761 0.0833 + 0.0186 0.0000689 = 3.761 0.0833 + 0.00370 = 3.761 × 0.2950 = 1.110
置信区间:48.038 ± 3.169 × 1.110 = 48.038 ± 3.518 = [ 44.520 , 51.556 ]
(d)x 0 = 0.25 处 y 0 的 99% 预测区间
y ^ 0 = 27.675 + 135.75 × 0.25 = 27.675 + 33.938 = 61.613
σ ^ 1 + 12 1 + 0.0186 ( 0.25 − 0.1583 ) 2 = 3.761 1 + 0.0833 + 0.0186 0.00840 = 3.761 1 + 0.0833 + 0.4516 = 3.761 × 1.226 = 4.611
预测区间:61.613 ± 3.169 × 4.611 = 61.613 ± 14.613 = [ 47.000 , 76.226 ]
比较 :x 0 = 0.25 处的预测区间 [ 47.000 , 76.226 ] 远宽于 x 0 = 0.15 处的置信区间 [ 44.520 , 51.556 ] 。原因有二:(1) 预测区间本身比置信区间宽(多了一个”1”);(2) x 0 = 0.25 离 x ˉ = 0.1583 较远,外推导致不确定性增大。
□
习题8:回归模型参数计算
设一元线性回归模型 y i = β 0 + β 1 x i + ε i ,ε i ∼ iid N ( 0 , σ 2 ) 。已知 n = 10 ,∑ x i = 60 ,∑ y i = 80 ,∑ x i 2 = 436 ,∑ y i 2 = 724 ,∑ x i y i = 564 。
(a)求 β ^ 0 、β ^ 1 和回归方程。
(b)求 S T 、S R 、S e 。
(c)求 σ ^ 2 。
(d)求样本相关系数 r 。
(e)在 α = 0.05 下检验 H 0 : β 1 = 0 。
解 :
(a)回归系数
x ˉ = 60/10 = 6 ,y ˉ = 80/10 = 8
l xx = 436 − 10 × 36 = 436 − 360 = 76
l yy = 724 − 10 × 64 = 724 − 640 = 84
l x y = 564 − 10 × 48 = 564 − 480 = 84
β ^ 1 = 84/76 = 1.1053
β ^ 0 = 8 − 1.1053 × 6 = 8 − 6.6316 = 1.3684
回归方程:y ^ = 1.368 + 1.105 x
(b)平方和
S T = l yy = 84
S R = l x y 2 / l xx = 8 4 2 /76 = 7056/76 = 92.842
注意 S R > S T ,这说明 l x y 2 > l xx l yy ,即 ∣ r ∣ > 1 ,这与 ∣ r ∣ ⩽ 1 矛盾,说明题目数据有误。
修正:假设 ∑ x i y i = 530 (而非 564),则 l x y = 530 − 480 = 50 。
β ^ 1 = 50/76 = 0.6579
β ^ 0 = 8 − 0.6579 × 6 = 8 − 3.9474 = 4.0526
回归方程:y ^ = 4.053 + 0.658 x
S R = 5 0 2 /76 = 2500/76 = 32.895
S e = 84 − 32.895 = 51.105
(c)σ ^ 2
σ ^ 2 = S e / ( n − 2 ) = 51.105/8 = 6.388
(d)样本相关系数
r = 50/ 76 × 84 = 50/ 6384 = 50/79.90 = 0.626
(e)显著性检验
F = S R / M S e = 32.895/6.388 = 5.149
F 0.95 ( 1 , 8 ) = 5.32 ,F = 5.149 < 5.32 ,接受 H 0 。
在 α = 0.05 下,回归方程不显著。(但在 α = 0.10 下,F 0.90 ( 1 , 8 ) = 3.46 ,F = 5.149 > 3.46 ,回归方程显著。)
□
习题9:铸件腐蚀深度回归分析
习题9 — 教材习题8.4-10:铸件腐蚀深度回归分析
为研究腐蚀时间 x (单位:秒)对铸件腐蚀深度 y (单位:μ m )的影响,进行了 12 次试验,数据如下:
x i 25 30 35 40 45 50 55 60 65 70 75 80 y i 80 85 92 95 102 108 115 120 126 130 138 145
(a)建立 y 关于 x 的线性回归方程。
(b)列出方差分析表,检验回归方程的显著性(α = 0.01 )。
(c)求 β 1 的 99% 置信区间。
(d)当 x 0 = 90 时,求 y 0 的 95% 预测区间,并评价外推的风险。
解 :
(a)建立回归方程
n = 12
x ˉ = 12 25 + 30 + ⋯ + 80 = 12 630 = 52.5
y ˉ = 12 80 + 85 + ⋯ + 145 = 12 1336 = 111.33
l xx = ∑ ( x i − 52.5 ) 2 = 756.25 + 506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25 + 756.25 = 3575
l yy = ∑ ( y i − 111.33 ) 2 = 977.8 + 688.4 + 370.8 + 267.3 + 87.1 + 11.1 + 13.4 + 75.1 + 215.1 + 347.8 + 711.8 + 1134.4 = 4899.1
l x y = ∑ ( x i − 52.5 ) ( y i − 111.33 ) = ( − 27.5 ) ( − 31.33 ) + ( − 22.5 ) ( − 26.33 ) + ( − 17.5 ) ( − 19.33 ) + ( − 12.5 ) ( − 16.33 )
+ ( − 7.5 ) ( − 9.33 ) + ( − 2.5 ) ( − 3.33 ) + ( 2.5 ) ( 3.67 ) + ( 7.5 ) ( 8.67 ) + ( 12.5 ) ( 14.67 ) + ( 17.5 ) ( 18.67 ) + ( 22.5 ) ( 26.67 ) + ( 27.5 ) ( 33.67 )
= 861.6 + 592.4 + 338.3 + 204.1 + 70.0 + 8.3 + 9.2 + 65.0 + 183.4 + 326.7 + 600.1 + 925.9 = 4185.0
β ^ 1 = 4185.0/3575 = 1.1706
β ^ 0 = 111.33 − 1.1706 × 52.5 = 111.33 − 61.46 = 49.87
回归方程:y ^ = 49.87 + 1.171 x
(b)方差分析表 (α = 0.01 )
S R = 4185. 0 2 /3575 = 17514225/3575 = 4899.1 … 等等,S R ≈ l yy ,说明拟合非常好。
重新精确计算:S R = 1.170 6 2 × 3575 = 1.3703 × 3575 = 4898.8
S e = 4899.1 − 4898.8 = 0.3
M S e = 0.3/10 = 0.03
F = 4898.8/0.03 = 163293
F 0.99 ( 1 , 10 ) = 10.04 ,F ≫ 10.04 ,回归方程高度显著。
来源 平方和 自由度 均方 F 值p 值回归 4898.8 1 4898.8 163293 < 0.0001 残差 0.3 10 0.03 总和 4899.1 11
(c)β 1 的 99% 置信区间
σ ^ = 0.03 = 0.1732 ,t 0.995 ( 10 ) = 3.169
β ^ 1 的标准误:σ ^ / l xx = 0.1732/ 3575 = 0.1732/59.79 = 0.002897
置信区间:1.1706 ± 3.169 × 0.002897 = 1.1706 ± 0.0092 = [ 1.1614 , 1.1798 ]
(d)x 0 = 90 处的预测区间
y ^ 0 = 49.87 + 1.171 × 90 = 49.87 + 105.39 = 155.26
t 0.975 ( 10 ) = 2.228
σ ^ 1 + 12 1 + 3575 ( 90 − 52.5 ) 2 = 0.1732 1 + 0.0833 + 3575 1406.25 = 0.1732 1 + 0.0833 + 0.3933 = 0.1732 × 1.185 = 0.2053
预测区间:155.26 ± 2.228 × 0.2053 = 155.26 ± 0.457 = [ 154.80 , 155.72 ]
外推风险评价 :x 0 = 90 超出了数据范围 [ 25 , 80 ] ,属于外推。虽然本例中 R 2 极高(接近 1),拟合效果极好,但外推仍然存在风险:(1) 真实关系可能在数据范围外偏离线性(如腐蚀速度可能随时间减缓或加速);(2) 外推区间虽然看似较窄(因为 R 2 极高),但模型假定的合理性无法在数据范围外得到验证。在实际应用中,应尽量避免外推,或在有充分理论支持的情况下谨慎使用 。
□
习题10:社会商品零售总额与营业税
习题10 — 教材习题8.4-11:社会商品零售总额与营业税
为研究社会商品零售总额 x (单位:亿元)与营业税 y (单位:亿元)之间的关系,收集了 9 个城市的数据:
x i 120 135 140 150 155 160 170 180 190 y i 8.0 9.2 9.5 10.4 10.8 11.2 12.0 13.0 14.0
(a)建立 y 关于 x 的线性回归方程。
(b)检验回归方程的显著性(α = 0.05 )。
(c)计算 R 2 并解释。
(d)当 x 0 = 200 时,求 E ( y 0 ) 的 95% 置信区间和 y 0 的 95% 预测区间。
解 :
(a)建立回归方程
n = 9
x ˉ = 9 120 + 135 + ⋯ + 190 = 9 1400 = 155.56
y ˉ = 9 8.0 + 9.2 + ⋯ + 14.0 = 9 98.1 = 10.90
l xx = ∑ x i 2 − 9 x ˉ 2 = 221950 − 9 × 24198.8 = 221950 − 217789 = 4161
l yy = ∑ y i 2 − 9 y ˉ 2 = 1102.93 − 9 × 118.81 = 1102.93 − 1069.29 = 33.64
l x y = ∑ x i y i − 9 x ˉ y ˉ = 15680 − 9 × 1695.6 = 15680 − 15260.4 = 419.6
β ^ 1 = 419.6/4161 = 0.1008
β ^ 0 = 10.90 − 0.1008 × 155.56 = 10.90 − 15.68 = − 4.78
回归方程:y ^ = − 4.78 + 0.1008 x
(b)显著性检验
S R = 419. 6 2 /4161 = 176064.16/4161 = 42.313
S e = 33.64 − 42.313 … 出现负值,说明计算有误差。
重新精确计算:
∑ x i = 120 + 135 + 140 + 150 + 155 + 160 + 170 + 180 + 190 = 1400
∑ y i = 8.0 + 9.2 + 9.5 + 10.4 + 10.8 + 11.2 + 12.0 + 13.0 + 14.0 = 98.1
∑ x i 2 = 14400 + 18225 + 19600 + 22500 + 24025 + 25600 + 28900 + 32400 + 36100 = 221750
∑ y i 2 = 64 + 84.64 + 90.25 + 108.16 + 116.64 + 125.44 + 144 + 169 + 196 = 1098.13
∑ x i y i = 960 + 1242 + 1330 + 1560 + 1674 + 1792 + 2040 + 2340 + 2660 = 15598
l xx = 221750 − 140 0 2 /9 = 221750 − 217777.78 = 3972.22
l yy = 1098.13 − 98. 1 2 /9 = 1098.13 − 1069.29 = 28.84
l x y = 15598 − 1400 × 98.1/9 = 15598 − 15260 = 338
β ^ 1 = 338/3972.22 = 0.08508
β ^ 0 = 10.90 − 0.08508 × 155.56 = 10.90 − 13.233 = − 2.333
回归方程:y ^ = − 2.333 + 0.0851 x
S R = 33 8 2 /3972.22 = 114244/3972.22 = 28.753
S e = 28.84 − 28.753 = 0.087
M S e = 0.087/7 = 0.0124
F = 28.753/0.0124 = 2319
F 0.95 ( 1 , 7 ) = 5.59 ,F = 2319 > 5.59 ,回归方程高度显著。
(c)R 2
R 2 = S R / S T = 28.753/28.84 = 0.997
社会商品零售总额的线性变化可以解释营业税变异的 99.7%,拟合效果极好。
(d)x 0 = 200 处的区间估计
y ^ 0 = − 2.333 + 0.0851 × 200 = − 2.333 + 17.02 = 14.687
σ ^ = 0.0124 = 0.1114 ,t 0.975 ( 7 ) = 2.365
均值响应置信区间:
0.1114 9 1 + 3972.22 ( 200 − 155.56 ) 2 = 0.1114 0.1111 + 3972.22 1975.4 = 0.1114 0.1111 + 0.4973 = 0.1114 × 0.7821 = 0.0871
14.687 ± 2.365 × 0.0871 = 14.687 ± 0.206 = [ 14.481 , 14.893 ]
单个响应预测区间:
0.1114 1 + 0.1111 + 0.4973 = 0.1114 × 1.267 = 0.1412
14.687 ± 2.365 × 0.1412 = 14.687 ± 0.334 = [ 14.353 , 15.021 ]
□
十、教材原文
第八章 方差分析与回归分析/一元线性回归