8.4 一元线性回归

本节概览

本节系统介绍一元线性回归（Simple Linear Regression）的基本理论与方法。从变量间相关关系的概念出发，建立一元线性回归模型 $y = β_{0} + β_{1} x + ε$ ，利用最小二乘法（Least Squares Estimation, LSE）估计回归系数，通过平方和分解 $S_{T} = S_{R} + S_{e}$ 进行回归方程的显著性检验（ $F$ 检验、 $t$ 检验、相关系数检验），最后讨论均值响应的置信区间与单个响应的预测区间。整个方法体系与方差分析一脉相承，都是通过分解变异来源来判断因子效应的显著性。

逻辑链条：变量关系分类 → 模型建立 → 参数估计 → 显著性检验 → 估计与预测 → 结构总览 → 解题技巧 → 易混淆点 → 习题 → 教材原文

前置依赖：§8.1（平方和分解思想）、§7.2（ $t$ 检验、 $F$ 检验）、§5.4（ $χ^{2}$ 分布、 $t$ 分布、 $F$ 分布）、§6.3（MLE）、§6.6（置信区间）

核心主线：一元线性回归通过建立 $y = β_{0} + β_{1} x + ε$ 的统计模型，用最小二乘法估计回归系数 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ ，利用平方和分解 $S_{T} = S_{R} + S_{e}$ 构造 $F$ 检验（等价于 $t$ 检验和相关系数检验）判断回归方程的显著性，并对均值响应和单个响应分别给出置信区间和预测区间。

一、变量间的两类关系

确定性关系

变量之间的确定性关系（函数关系）是指可以用精确的数学公式描述的关系。给定自变量的值，因变量的值被唯一确定。例如：

圆的面积 $S = π r^{2}$ ：给定半径 $r$ ，面积 $S$ 唯一确定
自由落体 $s = \frac{1}{2} g t^{2}$ ：给定时间 $t$ ，下落距离 $s$ 唯一确定
欧姆定律 $V = I R$ ：给定电流 $I$ 和电阻 $R$ ，电压 $V$ 唯一确定

回归分析的基本思想

回归分析（Regression Analysis）是研究变量之间相关关系的一种统计方法。其基本思想是：

识别：通过散点图等工具识别变量之间的相关模式
建模：建立描述因变量 $y$ 与自变量 $x$ 之间关系的统计模型
估计：利用观测数据估计模型中的未知参数
检验：检验模型的有效性（回归方程是否显著）
应用：利用建立的回归方程进行预测和控制

高尔顿的回归现象

“回归”（regression）一词来源于英国统计学家 Francis Galton（1822-1911）关于遗传学的研究。Galton 在研究父子身高关系时发现：

高个子父亲的儿子，身高倾向于比父亲矮（向平均身高”回归”）
矮个子父亲的儿子，身高倾向于比父亲高（同样向平均身高”回归”）

这种现象被称为回归效应（regression effect）或回归均值（regression toward the mean）。Galton 在 1886 年的论文中首次使用了”regression”一词来描述这种现象。

注意：虽然”回归”一词源于遗传学中的特殊现象，但现代统计学中的”回归分析”已经发展为一种通用的统计建模工具，不再局限于”向均值回归”的含义。回归分析的核心任务是建立变量之间的定量关系模型。

二、一元线性回归模型

回归函数

定义 8.4.1 — 回归函数

设 $x$ 为自变量（预报变量）， $Y$ 为因变量（响应变量）。给定 $x = x_{0}$ 时， $Y$ 的条件期望
$f (x) = E (Y ∣ x) (8.4.1)$
称为 $Y$ 关于 $x$ 的回归函数（regression function）。回归函数描述了 $Y$ 的均值随 $x$ 变化的趋势。

回归函数的直观含义：对于每一个固定的 $x$ 值， $Y$ 的取值是随机的（围绕某个均值波动），而回归函数 $f (x)$ 给出了这个均值的位置。如果 $f (x)$ 是 $x$ 的线性函数，即 $f (x) = β_{0} + β_{1} x$ ，则称为线性回归函数。

一元线性回归模型

定义 8.4.2 — 一元线性回归模型

设 $(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})$ 为 $n$ 组观测数据，其中 $x_{i}$ 为自变量的取值（非随机的，可精确测量或控制）， $y_{i}$ 为因变量的观测值。如果 $y_{i}$ 满足
$y_{i} = β_{0} + β_{1} x_{i} + ε_{i}, i = 1, 2, \dots, n (8.4.2)$
其中 $β_{0}$ 、 $β_{1}$ 为未知参数， $ε_{i}$ 为随机误差项，则称该模型为一元线性回归模型（Simple Linear Regression Model）。

在模型 (8.4.2) 中：

$β_{0}$ ：截距（intercept），表示当 $x = 0$ 时 $Y$ 的条件均值
$β_{1}$ ：回归系数（regression coefficient），表示 $x$ 每增加一个单位时 $Y$ 的条件均值的变化量
$ε_{i}$ ：随机误差，表示 $y_{i}$ 对回归直线的随机偏离

模型的基本假定（Gauss-Markov 条件）

一元线性回归模型的有效性依赖于以下基本假定：

假定	内容	数学表达
(A1) 线性性	$Y$ 与 $x$ 之间是线性关系	$E (ε_{i}) = 0$ ，即 $E (y_{i}) = β_{0} + β_{1} x_{i}$
(A2) 等方差性	所有观测值的误差方差相等	$Var (ε_{i}) = σ^{2}$ （常数）， $i = 1, \dots, n$
(A3) 独立性	各次观测的误差相互独立	$Cov (ε_{i}, ε_{j}) = 0$ （ $i \neq = j$ ）
(A4) 正态性	误差服从正态分布	$ε_{i} \sim N (0, σ^{2})$ ， $i = 1, \dots, n$

假定的重要性

假定 (A1)-(A3) 称为Gauss-Markov 条件，在这些条件下，最小二乘估计是最佳线性无偏估计（BLUE）。

假定 (A4) 用于推断（假设检验、置信区间）。如果只做点估计，不需要正态性假定。

在实际应用中，应通过残差分析（residual analysis）检验这些假定的合理性。

在假定 (A1)-(A4) 下，模型可以紧凑地写为：

y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2}), ε_{1}, ε_{2}, \dots, ε_{n} \sim iid N (0, σ^{2})

引例：合金钢强度与碳含量

例 8.4.1 — 合金钢强度与碳含量

为研究合金钢的强度 $y$ （单位： $kg/mm^{2}$ ）与碳含量 $x$ （单位：%）之间的关系，收集了 12 组数据如下：

$i$ 1 2 3 4 5 6 7 8 9 10 11 12
$x_{i}$ 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23
$y_{i}$ 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0

散点图描述：将 12 个数据点 $(x_{i}, y_{i})$ 标在坐标系中，可以观察到这些点大致分布在一条直线附近——随着碳含量 $x$ 的增加，强度 $y$ 呈现明显的上升趋势。这种线性趋势提示我们可以用一元线性回归模型来描述 $y$ 与 $x$ 之间的关系。

$i$	1	2	3	4	5	6	7	8	9	10	11	12
$x_{i}$	0.10	0.11	0.12	0.13	0.14	0.15	0.16	0.17	0.18	0.20	0.21	0.23
$y_{i}$	42.0	43.5	45.0	45.5	45.0	47.5	49.0	53.0	50.0	55.0	55.0	60.0

三、回归系数的最小二乘估计

最小二乘法的思想

最小二乘法（Method of Least Squares）是估计回归系数 $β_{0}$ 、 $β_{1}$ 的最基本方法。其核心思想是：找到一条直线 $\overset{y}{^} = \hat{β}_{0} + \hat{β}_{1} x$ ，使得所有观测点到这条直线的纵向距离的平方和最小。

几何直觉：想象你手中有 12 个钉子（数据点）钉在墙上，你想用一根橡皮筋把它们”尽量拉直”——橡皮筋就是回归直线。最小二乘法就是找到那个让橡皮筋最”贴近”所有钉子的位置。所谓”贴近”，就是所有钉子到橡皮筋的纵向偏差的平方和达到最小。

残差与残差平方和

对于给定的估计值 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ ，第 $i$ 个观测点的拟合值为 $\overset{y}{^}_{i} = \hat{β}_{0} + \hat{β}_{1} x_{i}$ ，残差（residual）为

e_{i} = y_{i} - \overset{y}{^}_{i} = y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i}

残差平方和（Residual Sum of Squares, RSS）为

Q (β_{0}, β_{1}) = i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2}

最小二乘法的目标是找到 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ ，使得 $Q (\hat{β}_{0}, \hat{β}_{1}) = min Q (β_{0}, β_{1})$ 。

正规方程组的推导

证明思路

证明 (8.4.9)：

[构造目标函数]：令 $Q (β_{0}, β_{1}) = \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}$ ，对 $β_{0}$ 、 $β_{1}$ 分别求偏导并令其为零。

[对 $β_{0}$ 求偏导]：
$\frac{\partial Q}{\partial β _{0}} = - 2 i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i}) = 0$
整理得：
$n β_{0} + β_{1} i = 1 \sum n x_{i} = i = 1 \sum n y_{i} (8.4.4)$
[对 $β_{1}$ 求偏导]：
$\frac{\partial Q}{\partial β _{1}} = - 2 i = 1 \sum n x_{i} (y_{i} - β_{0} - β_{1} x_{i}) = 0$
整理得：
$β_{0} i = 1 \sum n x_{i} + β_{1} i = 1 \sum n x_{i}^{2} = i = 1 \sum n x_{i} y_{i} (8.4.5)$
[求解正规方程组]：由 (8.4.4) 得 $β_{0} = \overset{y}{ˉ} - β_{1} \overset{x}{ˉ}$ ，代入 (8.4.5)：
$(\overset{y}{ˉ} - β_{1} \overset{x}{ˉ}) i = 1 \sum n x_{i} + β_{1} i = 1 \sum n x_{i}^{2} = i = 1 \sum n x_{i} y_{i}$ $n \overset{x}{ˉ} \overset{y}{ˉ} - n β_{1} \overset{x}{ˉ}^{2} + β_{1} i = 1 \sum n x_{i}^{2} = i = 1 \sum n x_{i} y_{i}$ $β_{1} (i = 1 \sum n x_{i}^{2} - n \overset{x}{ˉ}^{2}) = i = 1 \sum n x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ}$
注意到 $\sum_{i = 1}^{n} x_{i}^{2} - n \overset{x}{ˉ}^{2} = \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ})^{2} = l_{xx}$ ， $\sum_{i = 1}^{n} x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ} = \sum_{i = 1}^{n} (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = l_{x y}$ ，因此
$\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} (8.4.9)$ $\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} (8.4.9)$
[验证极小值]：二阶偏导数矩阵 $\frac{\partial ^{2} Q}{\partial β _{0}^{2}} = 2 n > 0$ ， $\frac{\partial ^{2} Q}{\partial β _{1}^{2}} = 2 \sum x_{i}^{2} > 0$ ，Hessian 行列式 $= 4 n \sum x_{i}^{2} - 4 (\sum x_{i})^{2} = 4 n l_{xx} > 0$ （当 $l_{xx} > 0$ 时），故 $(\hat{β}_{0}, \hat{β}_{1})$ 确为极小值点。

$□$

LSE 的显式解

引入以下记号：

l_{xx} = i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2} = i = 1 \sum n x_{i}^{2} - n \overset{x}{ˉ}^{2} l_{yy} = i = 1 \sum n (y_{i} - \overset{y}{ˉ})^{2} = i = 1 \sum n y_{i}^{2} - n \overset{y}{ˉ}^{2} l_{x y} = i = 1 \sum n (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = i = 1 \sum n x_{i} y_{i} - n \overset{x}{ˉ} \overset{y}{ˉ}

最小二乘估计的显式解为：

\hat{β}_{1} = \frac{l _{x y}}{l _{xx}}, \hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} (8.4.9)

由此得到的回归方程为：

\overset{y}{^} = \hat{β}_{0} + \hat{β}_{1} x

重要性质：回归直线一定通过样本均值点 $(\overset{x}{ˉ}, \overset{y}{ˉ})$ ，因为 $\overset{y}{^} = \hat{β}_{0} + \hat{β}_{1} \overset{x}{ˉ} = (\overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ}) + \hat{β}_{1} \overset{x}{ˉ} = \overset{y}{ˉ}$ 。

LSE 的统计性质

定理 8.4.1 — 最小二乘估计量的统计性质

在一元线性回归模型 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ， $ε_{i} \sim iid N (0, σ^{2})$ 下，最小二乘估计 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ 具有以下性质：

(1) 正态性： $\hat{β}_{1} \sim N (β_{1}, \frac{σ ^{2}}{l _{xx}})$ ， $\hat{β}_{0} \sim N (β_{0}, σ^{2} (\frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}}))$

(2) 无偏性： $E (\hat{β}_{1}) = β_{1}$ ， $E (\hat{β}_{0}) = β_{0}$

(3) 方差： $Var (\hat{β}_{1}) = \frac{σ ^{2}}{l _{xx}}$ ， $Var (\hat{β}_{0}) = σ^{2} (\frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}})$

(4) 协方差： $Cov (\hat{β}_{0}, \hat{β}_{1}) = - \frac{x ˉ σ ^{2}}{l _{xx}}$

证明思路

证明 (定理 8.4.1)：

[将 LSE 表示为 $y_{i}$ 的线性组合]：将 $\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} = \frac{\sum ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{l _{xx}}$ 展开，利用 $\sum (x_{i} - \overset{x}{ˉ}) = 0$ ：
$\hat{β}_{1} = \frac{\sum ( x _{i} - x ˉ ) y _{i}}{l _{xx}} = i = 1 \sum n \frac{x _{i} - x ˉ}{l _{xx}} \cdot y_{i} = i = 1 \sum n c_{i} y_{i}$
其中 $c_{i} = \frac{x _{i} - x ˉ}{l _{xx}}$ 。同理：
$\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} = \frac{1}{n} i = 1 \sum n y_{i} - \overset{x}{ˉ} i = 1 \sum n c_{i} y_{i} = i = 1 \sum n (\frac{1}{n} - \overset{x}{ˉ} c_{i}) y_{i} = i = 1 \sum n d_{i} y_{i}$
其中 $d_{i} = \frac{1}{n} - \overset{x}{ˉ} c_{i}$ 。这说明 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ 都是 $y_{1}, y_{2}, \dots, y_{n}$ 的线性组合。

[正态性]：由于 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ 且 $ε_{i} \sim N (0, σ^{2})$ ，故 $y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})$ 。 $\hat{β}_{1} = \sum c_{i} y_{i}$ 是独立正态变量的线性组合，故 $\hat{β}_{1}$ 服从正态分布。同理 $\hat{β}_{0}$ 也服从正态分布。

[无偏性]： $E (\hat{β}_{1}) = \sum c_{i} E (y_{i}) = \sum c_{i} (β_{0} + β_{1} x_{i}) = β_{0} \sum c_{i} + β_{1} \sum c_{i} x_{i}$ 。其中 $\sum c_{i} = \frac{\sum ( x _{i} - x ˉ )}{l _{xx}} = 0$ ， $\sum c_{i} x_{i} = \frac{\sum ( x _{i} - x ˉ ) x _{i}}{l _{xx}} = \frac{l _{xx}}{l _{xx}} = 1$ 。故 $E (\hat{β}_{1}) = β_{1}$ 。

$E (\hat{β}_{0}) = E (\overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ}) = (β_{0} + β_{1} \overset{x}{ˉ}) - β_{1} \overset{x}{ˉ} = β_{0}$ 。

[方差]： $Var (\hat{β}_{1}) = \sum c_{i}^{2} Var (y_{i}) = σ^{2} \sum c_{i}^{2} = σ^{2} \sum \frac{( x _{i} - x ˉ ) ^{2}}{l _{xx}^{2}} = \frac{σ ^{2}}{l _{xx}}$ 。

$Var (\hat{β}_{0}) = \sum d_{i}^{2} Var (y_{i}) = σ^{2} \sum d_{i}^{2}$ 。其中 $\sum d_{i}^{2} = \sum (\frac{1}{n} - \overset{x}{ˉ} c_{i})^{2} = \frac{1}{n} - 2 \overset{x}{ˉ} \sum \frac{c _{i}}{n} + \overset{x}{ˉ}^{2} \sum c_{i}^{2} = \frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}}$ （因为 $\sum c_{i} = 0$ ）。故 $Var (\hat{β}_{0}) = σ^{2} (\frac{1}{n} + \frac{x ˉ ^{2}}{l _{xx}})$ 。

[协方差]： $Cov (\hat{β}_{0}, \hat{β}_{1}) = Cov (\sum d_{i} y_{i}, \sum c_{i} y_{i}) = σ^{2} \sum d_{i} c_{i}$ 。 $\sum d_{i} c_{i} = \sum (\frac{1}{n} - \overset{x}{ˉ} c_{i}) c_{i} = \frac{1}{n} \sum c_{i} - \overset{x}{ˉ} \sum c_{i}^{2} = 0 - \frac{x ˉ}{l _{xx}} = - \frac{x ˉ}{l _{xx}}$ 。故 $Cov (\hat{β}_{0}, \hat{β}_{1}) = - \frac{x ˉ σ ^{2}}{l _{xx}}$ 。

$□$

例题：合金钢强度与碳含量的回归方程计算

例 8.4.2 — 合金钢强度与碳含量（回归方程计算）

对例 8.4.1 的合金钢数据，建立强度 $y$ 关于碳含量 $x$ 的一元线性回归方程。

解：

第一步：计算基本统计量

$\overset{x}{ˉ} = \frac{1}{12} \sum x_{i} = \frac{0.10 + 0.11 + \dots + 0.23}{12} = \frac{1.90}{12} = 0.1583$

$\overset{y}{ˉ} = \frac{1}{12} \sum y_{i} = \frac{42.0 + 43.5 + \dots + 60.0}{12} = \frac{590.0}{12} = 49.167$

第二步：计算 $l_{xx}$ 、 $l_{yy}$ 、 $l_{x y}$

$l_{xx} = \sum x_{i}^{2} - 12 \overset{x}{ˉ}^{2} = 0.3194 - 12 \times 0.02507 = 0.3194 - 0.3008 = 0.0186$

$l_{yy} = \sum y_{i}^{2} - 12 \overset{y}{ˉ}^{2} = 29492.50 - 12 \times 2417.36 = 29492.50 - 29008.33 = 484.17$

$l_{x y} = \sum x_{i} y_{i} - 12 \overset{x}{ˉ} \overset{y}{ˉ} = 95.925 - 12 \times 7.783 = 95.925 - 93.400 = 2.525$

第三步：计算回归系数
$\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} = \frac{2.525}{0.0186} = 135.75$ $\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} = 49.167 - 135.75 \times 0.1583 = 49.167 - 21.492 = 27.675$
第四步：写出回归方程
$\overset{y}{^} = 27.675 + 135.75 x$
回归方程表明：碳含量每增加 0.01%，合金钢强度平均增加约 $1.358 kg/mm^{2}$ 。

补充：MLE 与 LSE 的关系

在正态性假定 $ε_{i} \sim N (0, σ^{2})$ 下， $y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})$ ，且各 $y_{i}$ 独立。似然函数为：

L (β_{0}, β_{1}, σ^{2}) = i = 1 \prod n \frac{1}{2 π σ ^{2}} exp {- \frac{( y _{i} - β _{0} - β _{1} x _{i} ) ^{2}}{2 σ ^{2}}}

对数似然函数为：

ln L = - \frac{n}{2} ln (2 π) - \frac{n}{2} ln σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2}

对 $β_{0}$ 、 $β_{1}$ 最大化 $ln L$ 等价于最小化 $\sum (y_{i} - β_{0} - β_{1} x_{i})^{2}$ ，这正是最小二乘法的目标函数。

结论：在正态误差模型下， $β_{0}$ 、 $β_{1}$ 的最大似然估计（MLE）与最小二乘估计（LSE）完全一致。这一等价性是正态回归模型的一个重要性质，也是最小二乘法在回归分析中占据核心地位的原因之一。

进一步， $σ^{2}$ 的 MLE 为 $\overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i})^{2} = \frac{S _{e}}{n}$ ，但这是有偏估计。常用的无偏估计为：

\overset{σ}{^}^{2} = \frac{S _{e}}{n - 2} = \frac{1}{n - 2} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

四、回归方程的显著性检验

检验问题

建立回归方程后，一个自然的问题是：回归方程是否真的有意义？即自变量 $x$ 对因变量 $y$ 是否有显著的线性影响？

这等价于检验回归系数 $β_{1}$ 是否为零：

H_{0} : β_{1} = 0 vs H_{1} : β_{1} \neq = 0

若拒绝 $H_{0}$ ，则认为 $x$ 对 $y$ 有显著的线性影响，回归方程有意义
若接受 $H_{0}$ ，则认为 $x$ 对 $y$ 没有显著的线性影响，回归方程无意义

平方和分解

与方差分析类似，回归分析的核心也是平方和分解。

证明思路

证明 (8.4.13)：

[引入恒等式]：对每个观测值 $y_{i}$ ，有恒等式
$y_{i} - \overset{y}{ˉ} = (y_{i} - \overset{y}{^}_{i}) + (\overset{y}{^}_{i} - \overset{y}{ˉ})$
即：总偏差 = 残差 + 回归偏差。

[两边平方求和]：
$i = 1 \sum n (y_{i} - \overset{y}{ˉ})^{2} = i = 1 \sum n [(y_{i} - \overset{y}{^}_{i}) + (\overset{y}{^}_{i} - \overset{y}{ˉ})]^{2}$ $= i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2} + i = 1 \sum n (\overset{y}{^}_{i} - \overset{y}{ˉ})^{2} + 2 i = 1 \sum n (y_{i} - \overset{y}{^}_{i}) (\overset{y}{^}_{i} - \overset{y}{ˉ})$
[证明交叉项为零]：交叉项
$Δ = 2 i = 1 \sum n (y_{i} - \overset{y}{^}_{i}) (\overset{y}{^}_{i} - \overset{y}{ˉ}) = 2 i = 1 \sum n e_{i} (\overset{y}{^}_{i} - \overset{y}{ˉ})$
将 $\overset{y}{^}_{i} = \hat{β}_{0} + \hat{β}_{1} x_{i}$ 和 $e_{i} = y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i}$ 代入：
$Δ = 2 i = 1 \sum n (y_{i} - \hat{β}_{0} - \hat{β}_{1} x_{i}) (\hat{β}_{0} + \hat{β}_{1} x_{i} - \overset{y}{ˉ})$
利用正规方程 $\sum e_{i} = 0$ 和 $\sum x_{i} e_{i} = 0$ ：
$\sum e_{i} (\hat{β}_{0} - \overset{y}{ˉ}) = (\hat{β}_{0} - \overset{y}{ˉ}) \sum e_{i} = 0$ $\sum e_{i} \cdot \hat{β}_{1} x_{i} = \hat{β}_{1} \sum x_{i} e_{i} = 0$
故 $Δ = 0$ 。

[得到分解式]：
$S_{T} = S_{e} + S_{R} (8.4.13)$
其中 $S_{T} = \sum (y_{i} - \overset{y}{ˉ})^{2}$ （总平方和）， $S_{e} = \sum (y_{i} - \overset{y}{^}_{i})^{2}$ （残差平方和）， $S_{R} = \sum (\overset{y}{^}_{i} - \overset{y}{ˉ})^{2}$ （回归平方和）。

$□$

三个平方和的含义：

平方和	公式	自由度	含义
$S_{T}$ （总平方和）	$\sum (y_{i} - \overset{y}{ˉ})^{2} = l_{yy}$	$n - 1$	$y$ 的总变异
$S_{R}$ （回归平方和）	$\sum (\overset{y}{^}_{i} - \overset{y}{ˉ})^{2} = \hat{β}_{1}^{2} l_{xx} = l_{x y}^{2} / l_{xx}$	$1$	由 $x$ 的线性变化引起的 $y$ 的变异
$S_{e}$ （残差平方和）	$\sum (y_{i} - \overset{y}{^}_{i})^{2} = l_{yy} - S_{R}$	$n - 2$	除去 $x$ 的线性影响后 $y$ 的剩余变异

自由度也满足分解关系： $(n - 1) = 1 + (n - 2)$ 。

平方和的期望

定理 8.4.2 — 平方和的期望

在一元线性回归模型下：

(1) $E (S_{e}) = (n - 2) σ^{2}$

(2) $E (S_{R}) = σ^{2} + β_{1}^{2} l_{xx}$

当 $H_{0} : β_{1} = 0$ 成立时， $E (S_{R}) = σ^{2}$ ；当 $H_{0}$ 不成立时， $E (S_{R}) > σ^{2}$ 。

这个定理的含义非常直观：当 $H_{0}$ 成立时，回归平方和与残差平方和的期望都等于 $σ^{2}$ （乘以各自的自由度），比值接近 1；当 $H_{0}$ 不成立时，回归平方和的期望变大，比值倾向于大于 1。

残差平方和的分布

定理 8.4.3 — 残差平方和的分布

在一元线性回归模型下：

(1) $\frac{S _{e}}{σ ^{2}} \sim χ^{2} (n - 2)$

(2) $S_{e}$ 与 $\hat{β}_{1}$ 相互独立

(3) 当 $H_{0} : β_{1} = 0$ 成立时， $\frac{S _{R}}{σ ^{2}} \sim χ^{2} (1)$

F 检验（方差分析方法）

由定理 8.4.2 和定理 8.4.3，在 $H_{0}$ 成立时：

F = \frac{S _{R} /1}{S _{e} / ( n - 2 )} = \frac{M S _{R}}{M S _{e}} \sim F (1, n - 2)

当 $H_{0}$ 不成立时， $E (M S_{R}) > E (M S_{e})$ ， $F$ 值倾向于偏大。

给定显著性水平 $α$ ，F 检验的拒绝域为：

W = {F ⩾ F_{1 - α} (1, n - 2)}

方差分析表：

来源	平方和	自由度	均方	$F$ 值	$p$ 值
回归	$S_{R}$	$1$	$M S_{R} = S_{R}$	$F = M S_{R} / M S_{e}$	$P (F_{1, n - 2} ⩾ F)$
残差	$S_{e}$	$n - 2$	$M S_{e} = S_{e} / (n - 2)$
总和	$S_{T}$	$n - 1$

t 检验

由定理 8.4.1， $\hat{β}_{1} \sim N (β_{1}, σ^{2} / l_{xx})$ ，用 $\overset{σ}{^}^{2} = S_{e} / (n - 2)$ 替代 $σ^{2}$ ，得：

t = \frac{β ^ _{1}}{σ ^ / l _{xx}} = \frac{β ^ _{1} l _{xx}}{σ ^} \sim t (n - 2) (8.4.17)

（在 $H_{0} : β_{1} = 0$ 成立时）

给定显著性水平 $α$ ，t 检验的拒绝域为：

W = {∣ t ∣ ⩾ t_{1 - α /2} (n - 2)}

三种检验的等价关系

重要结论：在一元线性回归中， $F$ 检验、 $t$ 检验和相关系数检验完全等价——对同一组数据，三种检验的结论一定一致。

等价性的数学证明：

(1) $F$ 检验与 $t$ 检验等价： $F = t^{2}$ 。

证明： $F = \frac{S _{R}}{M S _{e}} = \frac{β ^ _{1}^{2} l _{xx}}{S _{e} / ( n - 2 )} = (\frac{β ^ _{1} l _{xx}}{σ ^})^{2} = t^{2}$ 。由于 $F (1, n - 2)$ 分布恰好是 $t (n - 2)$ 分布的平方，两者拒绝域等价。

(2) $t$ 检验与 $r$ 检验等价： $t = \frac{r n - 2}{1 - r ^{2}}$ 。

证明： $\hat{β}_{1} = l_{x y} / l_{xx}$ ， $\overset{σ}{^}^{2} = S_{e} / (n - 2) = (l_{yy} - l_{x y}^{2} / l_{xx}) / (n - 2)$ 。
$t = \frac{β ^ _{1} l _{xx}}{σ ^} = \frac{( l _{x y} / l _{xx} ) l _{xx}}{( l _{yy} - l _{x y}^{2} / l _{xx} ) / ( n - 2 )} = \frac{l _{x y} n - 2}{l _{xx} l _{yy} - l _{x y}^{2}}$
分子分母同除以 $l_{xx} l_{yy}$ ：
$t = \frac{( l _{x y} / l _{xx} l _{yy} ) n - 2}{1 - l _{x y}^{2} / ( l _{xx} l _{yy} )} = \frac{r n - 2}{1 - r ^{2}}$

注意：三种检验的等价性仅在一元线性回归中成立。在多元回归中， $F$ 检验是整体显著性检验（检验所有回归系数是否全为零），而 $t$ 检验是单个系数的显著性检验，两者不再等价。

例题：合金钢强度与碳含量的显著性检验

例 8.4.3 — 合金钢强度与碳含量（方差分析表 + 显著性检验）

对例 8.4.2 建立的回归方程 $\overset{y}{^} = 27.675 + 135.75 x$ ，在 $α = 0.05$ 下检验回归方程的显著性。

解：

由例 8.4.2 已知： $l_{xx} = 0.0186$ ， $l_{yy} = 484.17$ ， $l_{x y} = 2.525$ ， $n = 12$ 。

计算平方和：
$S_{R} = \frac{l _{x y}^{2}}{l _{xx}} = \frac{2.52 5 ^{2}}{0.0186} = \frac{6.3756}{0.0186} = 342.77$ $S_{e} = l_{yy} - S_{R} = 484.17 - 342.77 = 141.40$ $S_{T} = l_{yy} = 484.17$
计算均方和 $F$ 值：
$M S_{R} = S_{R} = 342.77$ $M S_{e} = \frac{S _{e}}{n - 2} = \frac{141.40}{10} = 14.14$ $F = \frac{M S _{R}}{M S _{e}} = \frac{342.77}{14.14} = 24.24$
方差分析表：

来源平方和自由度均方 $F$ 值 $p$ 值
回归 342.77 1 342.77 24.24 $< 0.001$
残差 141.40 10 14.14
总和 484.17 11

查表判断： $F_{0.95} (1, 10) = 4.96$ 。

因为 $F = 24.24 > 4.96$ ，==拒绝 $H_{0}$ ==，认为碳含量 $x$ 对合金钢强度 $y$ 有显著的线性影响，回归方程 $\overset{y}{^} = 27.675 + 135.75 x$ 是显著的。

验证等价性：

$t$ 检验： $t = \frac{β ^ _{1} l _{xx}}{σ ^} = \frac{135.75 \times 0.0186}{14.14} = \frac{135.75 \times 0.1364}{3.761} = \frac{18.516}{3.761} = 4.923$

$t_{0.975} (10) = 2.228$ ， $∣ t ∣ = 4.923 > 2.228$ ，拒绝 $H_{0}$ 。

注意 $F = t^{2} = 4.92 3^{2} = 24.24$ ，验证了等价性。

相关系数： $r = \frac{l _{x y}}{l _{xx} l _{yy}} = \frac{2.525}{0.0186 \times 484.17} = \frac{2.525}{9.006} = \frac{2.525}{3.001} = 0.8413$

$r_{0.975} (10) = 0.576$ ， $∣ r ∣ = 0.8413 > 0.576$ ，拒绝 $H_{0}$ 。三种检验结论完全一致。

来源	平方和	自由度	均方	$F$ 值	$p$ 值
回归	342.77	1	342.77	24.24	$< 0.001$
残差	141.40	10	14.14
总和	484.17	11

五、估计与预测

回归方程建立并通过显著性检验后，可以用于两个目的：

估计（estimation）：给定 $x = x_{0}$ ，估计 $E (y_{0}) = β_{0} + β_{1} x_{0}$ （均值响应）
预测（prediction）：给定 $x = x_{0}$ ，预测 $y_{0} = β_{0} + β_{1} x_{0} + ε_{0}$ （单个响应）

均值响应 $E (y_{0})$ 的置信区间

给定 $x = x_{0}$ ，均值响应 $E (y_{0}) = β_{0} + β_{1} x_{0}$ 的点估计为 $\overset{y}{^}_{0} = \hat{β}_{0} + \hat{β}_{1} x_{0}$ 。

由于 $\overset{y}{^}_{0}$ 是 $\hat{β}_{0}$ 和 $\hat{β}_{1}$ 的线性组合，且 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ 服从正态分布，故 $\overset{y}{^}_{0}$ 也服从正态分布：

\overset{y}{^}_{0} \sim N (β_{0} + β_{1} x_{0}, σ^{2} (\frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}))

用 $\overset{σ}{^}^{2} = S_{e} / (n - 2)$ 替代 $σ^{2}$ ，构造 $t$ 统计量：

t = \frac{y ^ _{0} - ( β _{0} + β _{1} x _{0} )}{σ ^ \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}} \sim t (n - 2)

由此得到 $E (y_{0})$ 的==置信水平为 $1 - α$ 的置信区间==：

\overset{y}{^}_{0} - t_{1 - α /2} (n - 2) \cdot \overset{σ}{^} \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}, \overset{y}{^}_{0} + t_{1 - α /2} (n - 2) \cdot \overset{σ}{^} \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}} (8.4.20)

单个响应 $y_{0}$ 的预测区间

给定 $x = x_{0}$ ，要预测单个新观测值 $y_{0} = β_{0} + β_{1} x_{0} + ε_{0}$ 。预测误差为：

y_{0} - \overset{y}{^}_{0} = (β_{0} + β_{1} x_{0} + ε_{0}) - (\hat{β}_{0} + \hat{β}_{1} x_{0}) = (β_{0} - \hat{β}_{0}) + (β_{1} - \hat{β}_{1}) x_{0} + ε_{0}

由于 $\overset{y}{^}_{0}$ 与 $ε_{0}$ 独立（ $\overset{y}{^}_{0}$ 由已有数据决定， $ε_{0}$ 是新的随机误差），预测误差的方差为：

Var (y_{0} - \overset{y}{^}_{0}) = Var (\overset{y}{^}_{0}) + Var (ε_{0}) = σ^{2} (\frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}) + σ^{2} = σ^{2} (1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}})

构造 $t$ 统计量：

t = \frac{y _{0} - y ^ _{0}}{σ ^ 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}} \sim t (n - 2)

由此得到 $y_{0}$ 的==置信水平为 $1 - α$ 的预测区间==：

\overset{y}{^}_{0} - t_{1 - α /2} (n - 2) \cdot \overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}, \overset{y}{^}_{0} + t_{1 - α /2} (n - 2) \cdot \overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}} (8.4.22)

置信区间与预测区间的比较

比较维度	均值响应的置信区间	单个响应的预测区间
估计对象	$E (y_{0}) = β_{0} + β_{1} x_{0}$	$y_{0} = β_{0} + β_{1} x_{0} + ε_{0}$
标准误	$\overset{σ}{^} \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}$	$\overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}}$
区间宽度	较窄	较宽（多了一个”1”）
含义	对均值位置的估计	对单个值的预测

关键区别：预测区间比置信区间宽，因为预测单个值需要额外考虑随机误差 $ε_{0}$ 的不确定性。==预测区间 = 置信区间 + 随机波动==。

两者的宽度都随 $∣ x_{0} - \overset{x}{ˉ} ∣$ 的增大而增大——离样本均值越远，估计/预测的不确定性越大。这提醒我们：外推（extrapolation）要谨慎，在数据范围之外进行预测时，区间会变得很宽，预测结果不可靠。

例题：合金钢强度与碳含量的估计与预测

例 8.4.4 — 合金钢强度与碳含量（估计与预测）

对例 8.4.2 的回归方程 $\overset{y}{^} = 27.675 + 135.75 x$ ，在 $x_{0} = 0.16$ 处：（a）求均值响应 $E (y_{0})$ 的 95% 置信区间；（b）求单个响应 $y_{0}$ 的 95% 预测区间。

解：

$\overset{y}{^}_{0} = 27.675 + 135.75 \times 0.16 = 27.675 + 21.72 = 49.395$

已知 $\overset{σ}{^} = M S_{e} = 14.14 = 3.761$ ， $t_{0.975} (10) = 2.228$ 。

（a）均值响应的置信区间
$\overset{σ}{^} \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}} = 3.761 \frac{1}{12} + \frac{( 0.16 - 0.1583 ) ^{2}}{0.0186} = 3.761 0.0833 + \frac{0.00000289}{0.0186}$ $= 3.761 0.0833 + 0.000155 = 3.761 \times 0.2888 = 1.086$
置信区间： $49.395 \pm 2.228 \times 1.086 = 49.395 \pm 2.420 = [46.975, 51.815]$

（b）单个响应的预测区间
$\overset{σ}{^} 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{l _{xx}} = 3.761 1 + 0.0833 + 0.000155 = 3.761 \times 1.0408 = 3.915$
预测区间： $49.395 \pm 2.228 \times 3.915 = 49.395 \pm 8.720 = [40.675, 58.115]$

预测区间 $[40.675, 58.115]$ 明显宽于置信区间 $[46.975, 51.815]$ ，体现了预测单个值时额外的随机波动不确定性。

例题：动物体积与质量的完整回归分析

例 8.4.5 — 动物体积与质量（完整回归分析案例）

为研究某种动物的体积 $y$ （单位： $cm^{3}$ ）与质量 $x$ （单位： $kg$ ）之间的关系，收集了 10 组数据：

$i$ 1 2 3 4 5 6 7 8 9 10
$x_{i}$ 10.0 10.4 10.6 11.0 11.2 11.6 12.0 12.2 12.4 12.6
$y_{i}$ 10.2 10.8 11.3 11.8 12.0 12.5 13.0 13.2 13.5 13.8

（a）建立 $y$ 关于 $x$ 的线性回归方程；（b）检验回归方程的显著性（ $α = 0.05$ ）；（c）求 $x_{0} = 11.5$ 时 $E (y_{0})$ 的 95% 置信区间和 $y_{0}$ 的 95% 预测区间。

解：

（a）建立回归方程

$\overset{x}{ˉ} = \frac{10.0 + 10.4 + \dots + 12.6}{10} = \frac{114.0}{10} = 11.40$

$\overset{y}{ˉ} = \frac{10.2 + 10.8 + \dots + 13.8}{10} = \frac{122.1}{10} = 12.21$

$l_{xx} = \sum x_{i}^{2} - 10 \overset{x}{ˉ}^{2} = 1304.52 - 10 \times 129.96 = 1304.52 - 1299.60 = 4.92$

$l_{yy} = \sum y_{i}^{2} - 10 \overset{y}{ˉ}^{2} = 1501.23 - 10 \times 149.08 = 1501.23 - 1490.84 = 10.39$

$l_{x y} = \sum x_{i} y_{i} - 10 \overset{x}{ˉ} \overset{y}{ˉ} = 1398.18 - 10 \times 139.19 = 1398.18 - 1391.94 = 6.24$

$\hat{β}_{1} = \frac{l _{x y}}{l _{xx}} = \frac{6.24}{4.92} = 1.268$

$\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ} = 12.21 - 1.268 \times 11.40 = 12.21 - 14.455 = - 2.245$

回归方程： $\overset{y}{^} = - 2.245 + 1.268 x$

（b）显著性检验

$S_{R} = \frac{l _{x y}^{2}}{l _{xx}} = \frac{6.2 4 ^{2}}{4.92} = \frac{38.938}{4.92} = 7.914$

$S_{e} = l_{yy} - S_{R} = 10.39 - 7.914 = 2.476$

$M S_{e} = \frac{S _{e}}{n - 2} = \frac{2.476}{8} = 0.310$

$F = \frac{S _{R}}{M S _{e}} = \frac{7.914}{0.310} = 25.53$

$F_{0.95} (1, 8) = 5.32$ ， $F = 25.53 > 5.32$ ，拒绝 $H_{0}$ ，回归方程显著。

（c）估计与预测

$\overset{y}{^}_{0} = - 2.245 + 1.268 \times 11.5 = - 2.245 + 14.582 = 12.337$

$\overset{σ}{^} = 0.310 = 0.557$ ， $t_{0.975} (8) = 2.306$ 。

均值响应置信区间：
$\overset{σ}{^} \frac{1}{10} + \frac{( 11.5 - 11.4 ) ^{2}}{4.92} = 0.557 0.1 + \frac{0.01}{4.92} = 0.557 0.1020 = 0.557 \times 0.3194 = 0.178$
$12.337 \pm 2.306 \times 0.178 = 12.337 \pm 0.410 = [11.927, 12.747]$

单个响应预测区间：
$\overset{σ}{^} 1 + 0.1020 = 0.557 1.1020 = 0.557 \times 1.0498 = 0.585$
$12.337 \pm 2.306 \times 0.585 = 12.337 \pm 1.349 = [10.988, 13.686]$

$i$	1	2	3	4	5	6	7	8	9	10
$x_{i}$	10.0	10.4	10.6	11.0	11.2	11.6	12.0	12.2	12.4	12.6
$y_{i}$	10.2	10.8	11.3	11.8	12.0	12.5	13.0	13.2	13.5	13.8

六、知识结构总览

graph TD
    A[一元线性回归] --> B[模型建立]
    A --> C[参数估计]
    A --> D[显著性检验]
    A --> E[估计与预测]

    B --> B1[回归函数]
    B --> B2[回归模型]
    B --> B3[基本假定]

    C --> C1[最小二乘法]
    C1 --> C2[正规方程组]
    C2 --> C3[回归系数估计]

    D --> D1[平方和分解]
    D1 --> D2[F检验]
    D1 --> D3[t检验]
    D1 --> D4[相关系数检验]
    D2 --> D5[方差分析表]

    E --> E1[均值响应置信区间]
    E --> E2[单个响应预测区间]
    E1 --> E3[区间宽度分析]
    E2 --> E3

七、核心思想与解题技巧

最小二乘法的几何直觉

最小二乘法的核心思想可以用”投影”来理解。将 $n$ 维观测向量 $y = (y_{1}, y_{2}, \dots, y_{n})^{T}$ 投影到由 $1 = (1, 1, \dots, 1)^{T}$ 和 $x = (x_{1}, x_{2}, \dots, x_{n})^{T}$ 张成的二维子空间上，投影向量 $\hat{y} = \hat{β}_{0} 1 + \hat{β}_{1} x$ 就是拟合值向量。残差向量 $e = y - \hat{y}$ 与该子空间正交（这就是正规方程的几何含义： $e ⊥ 1$ 和 $e ⊥ x$ ）。

类比：想象你在阳光下观察一根旗杆的影子。旗杆（观测向量 $y$ ）投射到地面（回归子空间）上的影子（拟合向量 $\hat{y}$ ）就是最小二乘解。影子越短（残差越小），旗杆越”贴近”地面——但旗杆永远不会完全躺在地面上（除非完美线性关系）。

平方和分解的统一思想

一元线性回归中的平方和分解 $S_{T} = S_{R} + S_{e}$ 与方差分析中的 $S_{T} = S_{A} + S_{e}$ 本质上是同一个思想：

比较维度	方差分析	一元线性回归
总平方和	$S_{T} = \sum\sum (Y_{ij} - \overset{ˉ}{Y})^{2}$	$S_{T} = \sum (y_{i} - \overset{y}{ˉ})^{2}$
因子/回归平方和	$S_{A}$ （组间变异）	$S_{R}$ （回归解释的变异）
误差/残差平方和	$S_{e}$ （组内变异）	$S_{e}$ （回归未解释的变异）
检验统计量	$F = M S_{A} / M S_{e} \sim F (r - 1, n - r)$	$F = M S_{R} / M S_{e} \sim F (1, n - 2)$
核心思想	比较组间与组内变异	比较回归解释与未解释的变异

事实上，一元线性回归可以看作是方差分析的一种特殊情况——当自变量 $x$ 只取有限个离散值时，回归分析与方差分析的问题框架完全一致。

解题套路总结

一元线性回归完整分析模板：

1. 散点图观察 → 判断线性趋势
2. 计算基本统计量：x̄, ȳ, l_xx, l_yy, l_xy
3. 计算回归系数：β̂₁ = l_xy/l_xx, β̂₀ = ȳ - β̂₁x̄
4. 写出回归方程：ŷ = β̂₀ + β̂₁x
5. 平方和分解：S_R = l_xy²/l_xx, S_e = l_yy - S_R
6. 方差分析表 → F检验
7. （可选）t检验 / 相关系数检验
8. 估计与预测 → 置信区间 / 预测区间

计算技巧：

$l_{xx}$ 、 $l_{yy}$ 、 $l_{x y}$ 的计算：优先使用公式 $l_{xx} = \sum x_{i}^{2} - n \overset{x}{ˉ}^{2}$ （而非定义式），计算量更小。
$S_{R}$ 的简化： $S_{R} = \hat{β}_{1} l_{x y}$ （避免重复计算 $l_{x y}^{2} / l_{xx}$ ），因为 $\hat{β}_{1} = l_{x y} / l_{xx}$ ，所以 $\hat{β}_{1} l_{x y} = l_{x y}^{2} / l_{xx}$ 。
$\overset{σ}{^}$ 的计算： $\overset{σ}{^} = M S_{e} = S_{e} / (n - 2)$ ，这是后续置信区间和预测区间计算的基础。
$r^{2}$ 的含义： $r^{2} = S_{R} / S_{T}$ ，称为决定系数（coefficient of determination），表示回归方程解释的 $y$ 的变异占总变异的比例。 $r^{2}$ 越接近 1，回归方程的拟合效果越好。

八、补充理解与易混淆点

最小二乘估计总是最优的

来源：茆诗松等《概率论与数理统计教程》（第三版）p.410 + Greene, W.H. (2018) Econometric Analysis, 8th ed., Pearson, pp. 18-22 + CSDN 博客”最小二乘法的适用条件与局限性”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models, 3rd ed., Sage, pp. 201-205 + 卡方笔记”回归分析中的稳健估计方法”2024

误区2："最小二乘估计总是最优的"

❌ 错误解释：最小二乘法是回归分析中最好的参数估计方法，在任何条件下都能给出最优的估计结果。 ✅ 正确解释：最小二乘估计的最优性（BLUE）依赖于 Gauss-Markov 条件（线性性、等方差性、独立性）。当这些条件不满足时，LSE 不再是最优的：(1) 当存在异常值（outlier）时，LSE 对异常值非常敏感（因为残差取平方），此时稳健回归方法（如 M 估计、LTS 估计）更合适；(2) 当误差方差不等（异方差性）时，加权最小二乘法（WLS）比普通最小二乘法（OLS）更有效；(3) 当误差项存在自相关时，需要使用广义最小二乘法（GLS）。此外，LSE 的正态性推断还依赖于误差的正态性假定。

R²越接近1说明回归模型越好

来源：茆诗松等《概率论与数理统计教程》（第三版）p.418 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 100-103 + CSDN 博客”R²的陷阱：为什么高R²不代表好模型”2024 + 知乎专栏”决定系数R²的误用与正确理解”2023 + 卡方笔记”回归模型评价的多种指标”2024

误区3："R²越接近1说明回归模型越好"

❌ 错误解释：决定系数 $R^{2}$ 越大，说明回归模型越好，应该追求尽可能高的 $R^{2}$ 值。 ✅ 正确解释： $R^{2} = S_{R} / S_{T}$ 反映的是回归方程解释的变异占总变异的比例，但它有以下局限性：(1) $R^{2}$ 随自变量个数的增加而单调递增（即使加入的自变量毫无意义），因此在多元回归中应使用==调整 $R^{2}$ ==（adjusted $R^{2}$ ）；(2) 高 $R^{2}$ 不一定意味着模型正确——模型可能存在严重的设定偏差（如遗漏重要变量、函数形式错误），但 $R^{2}$ 仍然很高；(3) $R^{2}$ 的大小受数据本身变异程度的影响，不同数据集之间的 $R^{2}$ 不可直接比较；(4) 在某些领域（如社会科学）， $R^{2} = 0.3$ 可能已经是很好的结果了，因为人类行为本身就有很大的随机性。评价回归模型的好坏应综合考虑残差分析、模型假设检验和实际意义。

预测区间和置信区间可以混用

来源：茆诗松等《概率论与数理统计教程》（第三版）p.425 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 66-70 + CSDN 博客”置信区间与预测区间的区别”2023 + statology.org “Confidence Interval vs Prediction Interval” + 卡方笔记”回归分析中的区间估计”2024

误区4："预测区间和置信区间可以混用"

❌ 错误解释：均值响应的置信区间和单个响应的预测区间差不多，可以互换使用。或者认为预测区间就是”更宽一点的置信区间”，两者没有本质区别。 ✅ 正确解释：置信区间和预测区间有本质区别，不能混用。置信区间估计的是总体均值 $E (y_{0})$ 的位置——“如果重复很多次实验，在 $x = x_{0}$ 处的平均响应值会落在哪里”。预测区间预测的是单个未来观测值 $y_{0}$ 的范围——“下一次在 $x = x_{0}$ 处做实验，观测值会落在哪里”。预测区间比置信区间宽，因为预测单个值需要额外考虑随机误差 $ε_{0}$ 的不确定性。混用两者的后果是：如果用置信区间代替预测区间，会低估预测的不确定性，导致实际观测值频繁落在区间之外；如果用预测区间代替置信区间，会过度估计均值的精度，导致决策过于保守。

回归分析不需要检验前提假定

来源：茆诗松等《概率论与数理统计教程》（第三版）p.428 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 105-110 + CSDN 博客”回归诊断：为什么不能直接用回归结果”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models, 3rd ed., Sage, pp. 285-310 + 卡方笔记”回归模型假定检验方法”2024

误区5："回归分析不需要检验前提假定"

❌ 错误解释：只要把数据输入软件、运行回归、得到显著的 $p$ 值，就可以放心使用回归结果了。模型假定（线性性、等方差性、独立性、正态性）只是理论上的要求，实际中不需要检查。 ✅ 正确解释：回归分析的所有推断结论（假设检验、置信区间、预测区间）都建立在模型假定之上。如果假定不满足，这些结论可能完全不可靠。必须通过残差分析（residual analysis）检验假定的合理性：(1) 残差 vs 拟合值图：检查线性性和等方差性——如果残差呈现系统性的曲线模式，说明线性性不满足；如果残差的波动幅度随拟合值变化，说明等方差性不满足；(2) 残差的正态Q-Q图：检查正态性——如果点偏离对角线，说明正态性不满足；(3) 残差的时序图（时间序列数据）：检查独立性——如果残差呈现自相关模式，说明独立性不满足。当假定不满足时，应考虑数据变换（如对数变换、Box-Cox 变换）、加权最小二乘或广义线性模型等方法。

九、习题精选

习题概览

编号题目来源知识点难度
1 教材习题8.4-1 过原点线性回归模型 ★★★
2 教材习题8.4-2 MLE与LSE比较 ★★★
3 教材习题8.4-3 数据变换对回归的影响 ★★★
4 教材习题8.4-5 维尼纶纤维耐水性能 ★★☆
5 教材习题8.4-6 弹簧形变与外力 ★★☆
6 教材习题8.4-7 $r^{2}$ 与决定系数的关系 ★★★
7 教材习题8.4-8 合金钢碳含量与强度 ★★★
8 教材习题8.4-9 回归模型参数计算 ★★☆
9 教材习题8.4-10 铸件腐蚀深度回归分析 ★★★
10 教材习题8.4-11 社会商品零售总额与营业税 ★★★

编号	题目来源	知识点	难度
1	教材习题8.4-1	过原点线性回归模型	★★★
2	教材习题8.4-2	MLE与LSE比较	★★★
3	教材习题8.4-3	数据变换对回归的影响	★★★
4	教材习题8.4-5	维尼纶纤维耐水性能	★★☆
5	教材习题8.4-6	弹簧形变与外力	★★☆
6	教材习题8.4-7	$r^{2}$ 与决定系数的关系	★★★
7	教材习题8.4-8	合金钢碳含量与强度	★★★
8	教材习题8.4-9	回归模型参数计算	★★☆
9	教材习题8.4-10	铸件腐蚀深度回归分析	★★★
10	教材习题8.4-11	社会商品零售总额与营业税	★★★

习题1：过原点的线性回归模型

习题1 — 教材习题8.4-1：过原点的线性回归模型

设一元线性回归模型为 $y_{i} = β x_{i} + ε_{i}$ （ $i = 1, 2, \dots, n$ ），其中 $ε_{i} \sim iid N (0, σ^{2})$ ，且 $x_{i} > 0$ 。

（a）求 $β$ 的最小二乘估计 $\hat{β}$ 。（b）求 $\hat{β}$ 的分布。（c）求 $σ^{2}$ 的无偏估计。（d）证明 $\hat{β}$ 是 $β$ 的 UMVUE。

查看解答

解：

（a）最小二乘估计

目标函数： $Q (β) = \sum_{i = 1}^{n} (y_{i} - β x_{i})^{2}$

$\frac{d Q}{d β} = - 2 \sum_{i = 1}^{n} x_{i} (y_{i} - β x_{i}) = 0$

解得： $\hat{β} = \frac{\sum _{i = 1}^{n} x _{i} y _{i}}{\sum _{i = 1}^{n} x _{i}^{2}}$

（b） $\hat{β}$ 的分布

$\hat{β} = \sum_{i = 1}^{n} \frac{x _{i}}{\sum x _{j}^{2}} y_{i} = \sum_{i = 1}^{n} c_{i} y_{i}$ ，其中 $c_{i} = \frac{x _{i}}{\sum x _{j}^{2}}$ 。

由于 $y_{i} \sim N (β x_{i}, σ^{2})$ 且各 $y_{i}$ 独立：

$E (\hat{β}) = \sum c_{i} \cdot β x_{i} = β \frac{\sum x _{i}^{2}}{\sum x _{i}^{2}} = β$ （无偏性）

$Var (\hat{β}) = \sum c_{i}^{2} σ^{2} = σ^{2} \frac{\sum x _{i}^{2}}{( \sum x _{i}^{2} ) ^{2}} = \frac{σ ^{2}}{\sum x _{i}^{2}}$

故 $\hat{β} \sim N (β, \frac{σ ^{2}}{\sum x _{i}^{2}})$ 。

（c） $σ^{2}$ 的无偏估计

残差平方和 $S_{e} = \sum_{i = 1}^{n} (y_{i} - \hat{β} x_{i})^{2}$ 。

$E (S_{e}) = \sum_{i = 1}^{n} E [(y_{i} - \hat{β} x_{i})^{2}]$

由于 $\hat{β}$ 使 $S_{e}$ 最小化，且模型只有一个参数 $β$ ，自由度为 $n - 1$ 。

可以证明 $E (S_{e}) = (n - 1) σ^{2}$ （利用矩阵投影理论或直接展开计算）。

故 $\overset{σ}{^}^{2} = \frac{S _{e}}{n - 1}$ 是 $σ^{2}$ 的无偏估计。

（d）UMVUE 的证明

由正态性， $\hat{β}$ 是充分统计量。由 Lehmann-Scheffé 定理， $\hat{β}$ 作为 $β$ 的无偏估计且是充分统计量的函数，是 UMVUE。

$□$

习题2：MLE与LSE比较

习题2 — 教材习题8.4-2：MLE与LSE比较

在一元线性回归模型 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ， $ε_{i} \sim iid N (0, σ^{2})$ 下：

（a）写出 $β_{0}$ 、 $β_{1}$ 、 $σ^{2}$ 的似然函数。（b）求 $β_{0}$ 、 $β_{1}$ 、 $σ^{2}$ 的最大似然估计。（c）比较 MLE 与 LSE 的异同。（d）证明 $σ^{2}$ 的 MLE 是有偏的，并给出无偏修正。

查看解答

解：

（a）似然函数

$y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})$ ，各 $y_{i}$ 独立：
$L (β_{0}, β_{1}, σ^{2}) = i = 1 \prod n \frac{1}{2 π σ ^{2}} exp {- \frac{( y _{i} - β _{0} - β _{1} x _{i} ) ^{2}}{2 σ ^{2}}}$
（b）最大似然估计

对数似然函数：
$ln L = - \frac{n}{2} ln (2 π) - \frac{n}{2} ln σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2}$
对 $β_{0}$ 、 $β_{1}$ 最大化 $ln L$ 等价于最小化 $\sum (y_{i} - β_{0} - β_{1} x_{i})^{2}$ ，故
$\hat{β}_{1}^{M L E} = \frac{l _{x y}}{l _{xx}}, \hat{β}_{0}^{M L E} = \overset{y}{ˉ} - \hat{β}_{1}^{M L E} \overset{x}{ˉ}$
对 $σ^{2}$ 最大化： $\frac{\partial l n L}{\partial σ ^{2}} = - \frac{n}{2 σ ^{2}} + \frac{S _{e}}{2 σ ^{4}} = 0$
$\overset{σ}{^}_{M L E}^{2} = \frac{S _{e}}{n} = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}$
（c）MLE 与 LSE 的比较

比较维度 MLE LSE
$β_{0}$ 、 $β_{1}$ $\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ}$ ， $\hat{β}_{1} = l_{x y} / l_{xx}$ 相同
$σ^{2}$ $S_{e} / n$ （有偏）通常指 $β_{0}$ 、 $β_{1}$ 的估计
需要的假定正态性只需 Gauss-Markov 条件
推断能力可直接用于假设检验和区间估计需要额外的正态性假定

（d）有偏性证明与修正

$E (\overset{σ}{^}_{M L E}^{2}) = E (\frac{S _{e}}{n}) = \frac{( n - 2 ) σ ^{2}}{n} = \frac{n - 2}{n} σ^{2} < σ^{2}$

故 MLE 低估了 $σ^{2}$ 。无偏修正为 $\overset{σ}{^}^{2} = \frac{S _{e}}{n - 2}$ 。

$□$

比较维度	MLE	LSE
$β_{0}$ 、 $β_{1}$	$\hat{β}_{0} = \overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ}$ ， $\hat{β}_{1} = l_{x y} / l_{xx}$	相同
$σ^{2}$	$S_{e} / n$ （有偏）	通常指 $β_{0}$ 、 $β_{1}$ 的估计
需要的假定	正态性	只需 Gauss-Markov 条件
推断能力	可直接用于假设检验和区间估计	需要额外的正态性假定

习题3：数据变换对回归的影响

习题3 — 教材习题8.4-3：数据变换对回归的影响

设 $(x_{i}, y_{i})$ （ $i = 1, 2, \dots, n$ ）满足一元线性回归模型 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ， $ε_{i} \sim iid N (0, σ^{2})$ 。

（a）若对自变量做平移变换 $u_{i} = x_{i} - a$ （ $a$ 为常数），证明用 $(u_{i}, y_{i})$ 建立的回归方程与原回归方程等价，并给出新回归系数与原回归系数的关系。（b）若对自变量做缩放变换 $u_{i} = c x_{i}$ （ $c \neq = 0$ 为常数），证明用 $(u_{i}, y_{i})$ 建立的回归方程的 $F$ 值、 $t$ 值、 $R^{2}$ 均不变。

查看解答

解：

（a）平移变换 $u_{i} = x_{i} - a$

用 $(u_{i}, y_{i})$ 建立回归方程 $\overset{y}{^} = \overset{α}{^}_{0} + \overset{α}{^}_{1} u$ 。

$\overset{u}{ˉ} = \overset{x}{ˉ} - a$

$l_{uu} = \sum (u_{i} - \overset{u}{ˉ})^{2} = \sum (x_{i} - a - \overset{x}{ˉ} + a)^{2} = \sum (x_{i} - \overset{x}{ˉ})^{2} = l_{xx}$

$l_{u y} = \sum (u_{i} - \overset{u}{ˉ}) (y_{i} - \overset{y}{ˉ}) = \sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ}) = l_{x y}$

$\overset{α}{^}_{1} = l_{u y} / l_{uu} = l_{x y} / l_{xx} = \hat{β}_{1}$

$\overset{α}{^}_{0} = \overset{y}{ˉ} - \overset{α}{^}_{1} \overset{u}{ˉ} = \overset{y}{ˉ} - \hat{β}_{1} (\overset{x}{ˉ} - a) = (\overset{y}{ˉ} - \hat{β}_{1} \overset{x}{ˉ}) + \hat{β}_{1} a = \hat{β}_{0} + \hat{β}_{1} a$

新回归方程： $\overset{y}{^} = (\hat{β}_{0} + \hat{β}_{1} a) + \hat{β}_{1} u = \hat{β}_{0} + \hat{β}_{1} (x - a) + \hat{β}_{1} a = \hat{β}_{0} + \hat{β}_{1} x$

与原回归方程完全一致。平移变换不改变斜率，只改变截距。

（b）缩放变换 $u_{i} = c x_{i}$

$\overset{u}{ˉ} = c \overset{x}{ˉ}$

$l_{uu} = \sum (u_{i} - \overset{u}{ˉ})^{2} = c^{2} l_{xx}$

$l_{u y} = \sum (u_{i} - \overset{u}{ˉ}) (y_{i} - \overset{y}{ˉ}) = c l_{x y}$

$\overset{α}{^}_{1} = l_{u y} / l_{uu} = c l_{x y} / (c^{2} l_{xx}) = \hat{β}_{1} / c$

$S_{R}^{(u)} = \overset{α}{^}_{1}^{2} l_{uu} = (\hat{β}_{1} / c)^{2} \cdot c^{2} l_{xx} = \hat{β}_{1}^{2} l_{xx} = S_{R}$

$S_{e}^{(u)} = l_{yy} - S_{R}^{(u)} = l_{yy} - S_{R} = S_{e}$

$F^{(u)} = S_{R}^{(u)} / M S_{e}^{(u)} = S_{R} / M S_{e} = F$

$t^{(u)} = \overset{α}{^}_{1} l_{uu} / \overset{σ}{^} = (\hat{β}_{1} / c) c^{2} l_{xx} / \overset{σ}{^} = \hat{β}_{1} l_{xx} / \overset{σ}{^} = t$

$r^{(u)} = l_{u y} / l_{uu} l_{yy} = c l_{x y} / c^{2} l_{xx} l_{yy} = l_{x y} / l_{xx} l_{yy} = r$

故 $F$ 值、 $t$ 值、 $R^{2}$ 均不变。缩放变换不改变检验结论。

$□$

习题4：维尼纶纤维耐水性能

习题4 — 教材习题8.4-5：维尼纶纤维耐水性能

在维尼纶纤维的生产中，考察甲醛浓度 $x$ （单位： $g/L$ ）对缩醛化度 $y$ （单位：摩尔%）的影响，收集了 7 组数据：

$x_{i}$ 18 20 22 24 26 28 30
$y_{i}$ 26.86 28.35 28.75 30.00 30.75 31.41 31.98

（a）建立 $y$ 关于 $x$ 的线性回归方程。（b）在 $α = 0.01$ 下检验回归方程的显著性。（c）当 $x_{0} = 25$ 时，求 $y_{0}$ 的 95% 预测区间。

$x_{i}$	18	20	22	24	26	28	30
$y_{i}$	26.86	28.35	28.75	30.00	30.75	31.41	31.98

查看解答

解：

（a）建立回归方程

$n = 7$

$\overset{x}{ˉ} = \frac{18 + 20 + 22 + 24 + 26 + 28 + 30}{7} = \frac{168}{7} = 24$

$\overset{y}{ˉ} = \frac{26.86 + 28.35 + 28.75 + 30.00 + 30.75 + 31.41 + 31.98}{7} = \frac{208.10}{7} = 29.729$

$l_{xx} = (18 - 24)^{2} + (20 - 24)^{2} + (22 - 24)^{2} + (24 - 24)^{2} + (26 - 24)^{2} + (28 - 24)^{2} + (30 - 24)^{2}$ $= 36 + 16 + 4 + 0 + 4 + 16 + 36 = 112$

$l_{x y} = (18 - 24) (26.86 - 29.729) + (20 - 24) (28.35 - 29.729) + (22 - 24) (28.75 - 29.729) + (24 - 24) (30.00 - 29.729)$ $+ (26 - 24) (30.75 - 29.729) + (28 - 24) (31.41 - 29.729) + (30 - 24) (31.98 - 29.729)$ $= (- 6) (- 2.869) + (- 4) (- 1.379) + (- 2) (- 0.979) + 0 + (2) (1.021) + (4) (1.681) + (6) (2.251)$ $= 17.214 + 5.516 + 1.958 + 0 + 2.042 + 6.724 + 13.506 = 46.96$

$l_{yy} = (26.86 - 29.729)^{2} + (28.35 - 29.729)^{2} + (28.75 - 29.729)^{2} + (30.00 - 29.729)^{2}$ $+ (30.75 - 29.729)^{2} + (31.41 - 29.729)^{2} + (31.98 - 29.729)^{2}$ $= 8.231 + 1.902 + 0.958 + 0.073 + 1.042 + 2.825 + 5.063 = 20.094$

$\hat{β}_{1} = \frac{46.96}{112} = 0.4193$

$\hat{β}_{0} = 29.729 - 0.4193 \times 24 = 29.729 - 10.063 = 19.666$

回归方程： $\overset{y}{^} = 19.666 + 0.4193 x$

（b）显著性检验（ $α = 0.01$ ）

$S_{R} = \frac{46.9 6 ^{2}}{112} = \frac{2205.24}{112} = 19.693$

$S_{e} = 20.094 - 19.693 = 0.401$

$M S_{e} = \frac{0.401}{5} = 0.0802$

$F = \frac{19.693}{0.0802} = 245.6$

$F_{0.99} (1, 5) = 16.26$ ， $F = 245.6 > 16.26$ ，拒绝 $H_{0}$ ，回归方程高度显著。

（c）预测区间（ $x_{0} = 25$ ）

$\overset{y}{^}_{0} = 19.666 + 0.4193 \times 25 = 19.666 + 10.483 = 30.149$

$\overset{σ}{^} = 0.0802 = 0.2832$ ， $t_{0.975} (5) = 2.571$

$\overset{σ}{^} 1 + \frac{1}{7} + \frac{( 25 - 24 ) ^{2}}{112} = 0.2832 1 + 0.1429 + 0.00893 = 0.2832 \times 1.0748 = 0.3044$

预测区间： $30.149 \pm 2.571 \times 0.3044 = 30.149 \pm 0.783 = [29.366, 30.932]$

$□$

习题5：弹簧形变与外力

习题5 — 教材习题8.4-6：弹簧形变与外力

根据胡克定律，弹簧的形变量 $y$ （单位：mm）与所受外力 $x$ （单位：N）之间应满足线性关系。为验证这一关系，进行了 8 次试验，数据如下：

$x_{i}$ 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0
$y_{i}$ 3.2 5.8 8.5 11.4 13.9 16.3 19.1 21.5

（a）建立 $y$ 关于 $x$ 的线性回归方程。（b）检验回归方程的显著性（ $α = 0.05$ ）。（c）求弹性系数（回归系数 $\hat{β}_{1}$ ）的 95% 置信区间。

$x_{i}$	1.0	2.0	3.0	4.0	5.0	6.0	7.0	8.0
$y_{i}$	3.2	5.8	8.5	11.4	13.9	16.3	19.1	21.5

查看解答

解：

（a）建立回归方程

$n = 8$ ， $\overset{x}{ˉ} = 4.5$ ， $\overset{y}{ˉ} = 12.4625$

$l_{xx} = \sum (x_{i} - 4.5)^{2} = 6.25 + 2.25 + 0.25 + 0.25 + 0.25 + 2.25 + 6.25 + 12.25 = 30.0$

$l_{yy} = \sum (y_{i} - 12.4625)^{2} = 85.945 + 44.155 + 15.655 + 1.185 + 2.060 + 14.895 + 44.155 + 81.570 = 289.62$

$l_{x y} = \sum (x_{i} - 4.5) (y_{i} - 12.4625) = (- 3.5) (- 9.2625) + (- 2.5) (- 6.6625) + (- 1.5) (- 3.9625) + (- 0.5) (- 1.0625)$ $+ (0.5) (1.4375) + (1.5) (3.8375) + (2.5) (6.6375) + (3.5) (9.0375)$ $= 32.419 + 16.656 + 5.944 + 0.531 + 0.719 + 5.756 + 16.594 + 31.631 = 110.25$

$\hat{β}_{1} = \frac{110.25}{30.0} = 3.675$

$\hat{β}_{0} = 12.4625 - 3.675 \times 4.5 = 12.4625 - 16.5375 = - 4.075$

回归方程： $\overset{y}{^} = - 4.075 + 3.675 x$

（b）显著性检验

$S_{R} = \frac{110.2 5 ^{2}}{30.0} = \frac{12155.06}{30.0} = 405.17$

$S_{e} = 289.62 - 405.17$ … 等等， $S_{e} = l_{yy} - S_{R}$ ，但这里 $S_{R} > l_{yy}$ ，说明计算有误。

重新计算 $l_{yy}$ ：

$\sum y_{i} = 3.2 + 5.8 + 8.5 + 11.4 + 13.9 + 16.3 + 19.1 + 21.5 = 99.7$ $\overset{y}{ˉ} = 99.7/8 = 12.4625$ $\sum y_{i}^{2} = 10.24 + 33.64 + 72.25 + 129.96 + 193.21 + 265.69 + 364.81 + 462.25 = 1532.05$ $l_{yy} = 1532.05 - 8 \times 155.314 = 1532.05 - 1242.51 = 289.54$

$S_{R} = 110.2 5^{2} /30.0 = 405.17$ … 仍然大于 $l_{yy}$ 。

重新检查 $l_{x y}$ ： $\sum x_{i} y_{i} = 3.2 + 11.6 + 25.5 + 45.6 + 69.5 + 97.8 + 133.7 + 172.0 = 558.9$ $l_{x y} = 558.9 - 8 \times 4.5 \times 12.4625 = 558.9 - 448.65 = 110.25$ （正确）

重新检查 $l_{xx}$ ： $\sum x_{i}^{2} = 1 + 4 + 9 + 16 + 25 + 36 + 49 + 64 = 204$ $l_{xx} = 204 - 8 \times 20.25 = 204 - 162 = 42$ （之前计算有误！）

重新计算： $\hat{β}_{1} = 110.25/42 = 2.625$

$\hat{β}_{0} = 12.4625 - 2.625 \times 4.5 = 12.4625 - 11.8125 = 0.65$

回归方程： $\overset{y}{^} = 0.65 + 2.625 x$

$S_{R} = 110.2 5^{2} /42 = 12155.06/42 = 289.41$

$S_{e} = 289.54 - 289.41 = 0.13$

$M S_{e} = 0.13/6 = 0.0217$

$F = 289.41/0.0217 = 13337$ ，远大于 $F_{0.95} (1, 6) = 5.99$ ，回归方程高度显著。

（c）弹性系数的置信区间

$\overset{σ}{^} = 0.0217 = 0.1473$ ， $t_{0.975} (6) = 2.447$

$\hat{β}_{1}$ 的标准误： $\overset{σ}{^} / l_{xx} = 0.1473/ 42 = 0.1473/6.481 = 0.02273$

置信区间： $2.625 \pm 2.447 \times 0.02273 = 2.625 \pm 0.056 = [2.569, 2.681]$

$□$

习题6： $r^{2}$ 与决定系数的关系

习题6 — 教材习题8.4-7： $r^{2}$ 与决定系数的关系

在一元线性回归中，证明以下结论：

（a） $R^{2} = r^{2}$ ，即决定系数等于样本相关系数的平方。（b） $S_{R} = \hat{β}_{1}^{2} l_{xx} = \frac{l _{x y}^{2}}{l _{xx}}$ 。（c） $∣ r ∣ ⩽ 1$ ，且 $∣ r ∣ = 1$ 当且仅当所有数据点完全在回归直线上。

查看解答

解：

（a）证明 $R^{2} = r^{2}$

决定系数 $R^{2} = \frac{S _{R}}{S _{T}} = \frac{\sum ( y ^ _{i} - y ˉ ) ^{2}}{\sum ( y _{i} - y ˉ ) ^{2}}$ 。

由于 $\overset{y}{^}_{i} = \hat{β}_{0} + \hat{β}_{1} x_{i} = \overset{y}{ˉ} + \hat{β}_{1} (x_{i} - \overset{x}{ˉ})$ ，故 $\overset{y}{^}_{i} - \overset{y}{ˉ} = \hat{β}_{1} (x_{i} - \overset{x}{ˉ})$ 。

$S_{R} = \sum [\hat{β}_{1} (x_{i} - \overset{x}{ˉ})]^{2} = \hat{β}_{1}^{2} \sum (x_{i} - \overset{x}{ˉ})^{2} = \hat{β}_{1}^{2} l_{xx}$

$R^{2} = \frac{β ^ _{1}^{2} l _{xx}}{l _{yy}} = \frac{( l _{x y} / l _{xx} ) ^{2} \cdot l _{xx}}{l _{yy}} = \frac{l _{x y}^{2}}{l _{xx} l _{yy}} = r^{2}$

（b）证明 $S_{R} = \hat{β}_{1}^{2} l_{xx} = l_{x y}^{2} / l_{xx}$

第一个等式已在上面的推导中证明。

第二个等式： $\hat{β}_{1}^{2} l_{xx} = (l_{x y} / l_{xx})^{2} \cdot l_{xx} = l_{x y}^{2} / l_{xx}$ 。

（c）证明 $∣ r ∣ ⩽ 1$

由 Cauchy-Schwarz 不等式：
$l_{x y}^{2} = [\sum (x_{i} - \overset{x}{ˉ}) (y_{i} - \overset{y}{ˉ})]^{2} ⩽ \sum (x_{i} - \overset{x}{ˉ})^{2} \cdot \sum (y_{i} - \overset{y}{ˉ})^{2} = l_{xx} \cdot l_{yy}$
故 $r^{2} = l_{x y}^{2} / (l_{xx} l_{yy}) ⩽ 1$ ，即 $∣ r ∣ ⩽ 1$ 。

等号成立当且仅当 $(x_{i} - \overset{x}{ˉ})$ 与 $(y_{i} - \overset{y}{ˉ})$ 成比例，即 $y_{i} - \overset{y}{ˉ} = c (x_{i} - \overset{x}{ˉ})$ 对某个常数 $c$ 成立，这意味着所有数据点完全在一条直线上。

$□$

习题7：合金钢碳含量与强度

习题7 — 教材习题8.4-8：合金钢碳含量与强度（综合计算）

对例 8.4.1 的合金钢数据，完成以下分析：

（a）计算样本相关系数 $r$ 。（b）计算决定系数 $R^{2}$ 并解释其含义。（c）在 $x_{0} = 0.15$ 处，求 $E (y_{0})$ 的 99% 置信区间。（d）在 $x_{0} = 0.25$ 处，求 $y_{0}$ 的 99% 预测区间，并与（c）的结果比较。

查看解答

解：

由例 8.4.2 和例 8.4.3 已知： $l_{xx} = 0.0186$ ， $l_{yy} = 484.17$ ， $l_{x y} = 2.525$ ， $\overset{σ}{^} = 3.761$ ， $n = 12$ ， $\overset{x}{ˉ} = 0.1583$ 。

（a）样本相关系数

$r = \frac{l _{x y}}{l _{xx} l _{yy}} = \frac{2.525}{0.0186 \times 484.17} = \frac{2.525}{3.001} = 0.8413$

（b）决定系数

$R^{2} = r^{2} = 0.841 3^{2} = 0.7078$

含义：碳含量 $x$ 的线性变化可以解释合金钢强度 $y$ 总变异的约 70.78%，剩余 29.22% 的变异由其他因素（随机误差等）引起。

（c） $x_{0} = 0.15$ 处 $E (y_{0})$ 的 99% 置信区间

$\overset{y}{^}_{0} = 27.675 + 135.75 \times 0.15 = 27.675 + 20.363 = 48.038$

$t_{0.995} (10) = 3.169$

$\overset{σ}{^} \frac{1}{12} + \frac{( 0.15 - 0.1583 ) ^{2}}{0.0186} = 3.761 0.0833 + \frac{0.0000689}{0.0186} = 3.761 0.0833 + 0.00370 = 3.761 \times 0.2950 = 1.110$

置信区间： $48.038 \pm 3.169 \times 1.110 = 48.038 \pm 3.518 = [44.520, 51.556]$

（d） $x_{0} = 0.25$ 处 $y_{0}$ 的 99% 预测区间

$\overset{y}{^}_{0} = 27.675 + 135.75 \times 0.25 = 27.675 + 33.938 = 61.613$

$\overset{σ}{^} 1 + \frac{1}{12} + \frac{( 0.25 - 0.1583 ) ^{2}}{0.0186} = 3.761 1 + 0.0833 + \frac{0.00840}{0.0186} = 3.761 1 + 0.0833 + 0.4516 = 3.761 \times 1.226 = 4.611$

预测区间： $61.613 \pm 3.169 \times 4.611 = 61.613 \pm 14.613 = [47.000, 76.226]$

比较： $x_{0} = 0.25$ 处的预测区间 $[47.000, 76.226]$ 远宽于 $x_{0} = 0.15$ 处的置信区间 $[44.520, 51.556]$ 。原因有二：(1) 预测区间本身比置信区间宽（多了一个”1”）；(2) $x_{0} = 0.25$ 离 $\overset{x}{ˉ} = 0.1583$ 较远，外推导致不确定性增大。

$□$

习题8：回归模型参数计算

习题8 — 教材习题8.4-9：回归模型参数计算

设一元线性回归模型 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ， $ε_{i} \sim iid N (0, σ^{2})$ 。已知 $n = 10$ ， $\sum x_{i} = 60$ ， $\sum y_{i} = 80$ ， $\sum x_{i}^{2} = 436$ ， $\sum y_{i}^{2} = 724$ ， $\sum x_{i} y_{i} = 564$ 。

（a）求 $\hat{β}_{0}$ 、 $\hat{β}_{1}$ 和回归方程。（b）求 $S_{T}$ 、 $S_{R}$ 、 $S_{e}$ 。（c）求 $\overset{σ}{^}^{2}$ 。（d）求样本相关系数 $r$ 。（e）在 $α = 0.05$ 下检验 $H_{0} : β_{1} = 0$ 。

查看解答

解：

（a）回归系数

$\overset{x}{ˉ} = 60/10 = 6$ ， $\overset{y}{ˉ} = 80/10 = 8$

$l_{xx} = 436 - 10 \times 36 = 436 - 360 = 76$

$l_{yy} = 724 - 10 \times 64 = 724 - 640 = 84$

$l_{x y} = 564 - 10 \times 48 = 564 - 480 = 84$

$\hat{β}_{1} = 84/76 = 1.1053$

$\hat{β}_{0} = 8 - 1.1053 \times 6 = 8 - 6.6316 = 1.3684$

回归方程： $\overset{y}{^} = 1.368 + 1.105 x$

（b）平方和

$S_{T} = l_{yy} = 84$

$S_{R} = l_{x y}^{2} / l_{xx} = 8 4^{2} /76 = 7056/76 = 92.842$

注意 $S_{R} > S_{T}$ ，这说明 $l_{x y}^{2} > l_{xx} l_{yy}$ ，即 $∣ r ∣ > 1$ ，这与 $∣ r ∣ ⩽ 1$ 矛盾，说明题目数据有误。

修正：假设 $\sum x_{i} y_{i} = 530$ （而非 564），则 $l_{x y} = 530 - 480 = 50$ 。

$\hat{β}_{1} = 50/76 = 0.6579$

$\hat{β}_{0} = 8 - 0.6579 \times 6 = 8 - 3.9474 = 4.0526$

回归方程： $\overset{y}{^} = 4.053 + 0.658 x$

$S_{R} = 5 0^{2} /76 = 2500/76 = 32.895$

$S_{e} = 84 - 32.895 = 51.105$

（c） $\overset{σ}{^}^{2}$

$\overset{σ}{^}^{2} = S_{e} / (n - 2) = 51.105/8 = 6.388$

（d）样本相关系数

$r = 50/ 76 \times 84 = 50/ 6384 = 50/79.90 = 0.626$

（e）显著性检验

$F = S_{R} / M S_{e} = 32.895/6.388 = 5.149$

$F_{0.95} (1, 8) = 5.32$ ， $F = 5.149 < 5.32$ ，接受 $H_{0}$ 。

在 $α = 0.05$ 下，回归方程不显著。（但在 $α = 0.10$ 下， $F_{0.90} (1, 8) = 3.46$ ， $F = 5.149 > 3.46$ ，回归方程显著。）

$□$

习题9：铸件腐蚀深度回归分析

习题9 — 教材习题8.4-10：铸件腐蚀深度回归分析

为研究腐蚀时间 $x$ （单位：秒）对铸件腐蚀深度 $y$ （单位： $μ m$ ）的影响，进行了 12 次试验，数据如下：

$x_{i}$ 25 30 35 40 45 50 55 60 65 70 75 80
$y_{i}$ 80 85 92 95 102 108 115 120 126 130 138 145

（a）建立 $y$ 关于 $x$ 的线性回归方程。（b）列出方差分析表，检验回归方程的显著性（ $α = 0.01$ ）。（c）求 $β_{1}$ 的 99% 置信区间。（d）当 $x_{0} = 90$ 时，求 $y_{0}$ 的 95% 预测区间，并评价外推的风险。

$x_{i}$	25	30	35	40	45	50	55	60	65	70	75	80
$y_{i}$	80	85	92	95	102	108	115	120	126	130	138	145

查看解答

解：

（a）建立回归方程

$n = 12$

$\overset{x}{ˉ} = \frac{25 + 30 + \dots + 80}{12} = \frac{630}{12} = 52.5$

$\overset{y}{ˉ} = \frac{80 + 85 + \dots + 145}{12} = \frac{1336}{12} = 111.33$

$l_{xx} = \sum (x_{i} - 52.5)^{2} = 756.25 + 506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25 + 756.25 = 3575$

$l_{yy} = \sum (y_{i} - 111.33)^{2} = 977.8 + 688.4 + 370.8 + 267.3 + 87.1 + 11.1 + 13.4 + 75.1 + 215.1 + 347.8 + 711.8 + 1134.4 = 4899.1$

$l_{x y} = \sum (x_{i} - 52.5) (y_{i} - 111.33) = (- 27.5) (- 31.33) + (- 22.5) (- 26.33) + (- 17.5) (- 19.33) + (- 12.5) (- 16.33)$ $+ (- 7.5) (- 9.33) + (- 2.5) (- 3.33) + (2.5) (3.67) + (7.5) (8.67) + (12.5) (14.67) + (17.5) (18.67) + (22.5) (26.67) + (27.5) (33.67)$ $= 861.6 + 592.4 + 338.3 + 204.1 + 70.0 + 8.3 + 9.2 + 65.0 + 183.4 + 326.7 + 600.1 + 925.9 = 4185.0$

$\hat{β}_{1} = 4185.0/3575 = 1.1706$

$\hat{β}_{0} = 111.33 - 1.1706 \times 52.5 = 111.33 - 61.46 = 49.87$

回归方程： $\overset{y}{^} = 49.87 + 1.171 x$

（b）方差分析表（ $α = 0.01$ ）

$S_{R} = 4185. 0^{2} /3575 = 17514225/3575 = 4899.1$ … 等等， $S_{R} \approx l_{yy}$ ，说明拟合非常好。

重新精确计算： $S_{R} = 1.170 6^{2} \times 3575 = 1.3703 \times 3575 = 4898.8$

$S_{e} = 4899.1 - 4898.8 = 0.3$

$M S_{e} = 0.3/10 = 0.03$

$F = 4898.8/0.03 = 163293$

$F_{0.99} (1, 10) = 10.04$ ， $F ≫ 10.04$ ，回归方程高度显著。

来源平方和自由度均方 $F$ 值 $p$ 值
回归 4898.8 1 4898.8 163293 $< 0.0001$
残差 0.3 10 0.03
总和 4899.1 11

（c） $β_{1}$ 的 99% 置信区间

$\overset{σ}{^} = 0.03 = 0.1732$ ， $t_{0.995} (10) = 3.169$

$\hat{β}_{1}$ 的标准误： $\overset{σ}{^} / l_{xx} = 0.1732/ 3575 = 0.1732/59.79 = 0.002897$

置信区间： $1.1706 \pm 3.169 \times 0.002897 = 1.1706 \pm 0.0092 = [1.1614, 1.1798]$

（d） $x_{0} = 90$ 处的预测区间

$\overset{y}{^}_{0} = 49.87 + 1.171 \times 90 = 49.87 + 105.39 = 155.26$

$t_{0.975} (10) = 2.228$

$\overset{σ}{^} 1 + \frac{1}{12} + \frac{( 90 - 52.5 ) ^{2}}{3575} = 0.1732 1 + 0.0833 + \frac{1406.25}{3575} = 0.1732 1 + 0.0833 + 0.3933 = 0.1732 \times 1.185 = 0.2053$

预测区间： $155.26 \pm 2.228 \times 0.2053 = 155.26 \pm 0.457 = [154.80, 155.72]$

外推风险评价： $x_{0} = 90$ 超出了数据范围 $[25, 80]$ ，属于外推。虽然本例中 $R^{2}$ 极高（接近 1），拟合效果极好，但外推仍然存在风险：(1) 真实关系可能在数据范围外偏离线性（如腐蚀速度可能随时间减缓或加速）；(2) 外推区间虽然看似较窄（因为 $R^{2}$ 极高），但模型假定的合理性无法在数据范围外得到验证。在实际应用中，应尽量避免外推，或在有充分理论支持的情况下谨慎使用。

$□$

来源	平方和	自由度	均方	$F$ 值	$p$ 值
回归	4898.8	1	4898.8	163293	$< 0.0001$
残差	0.3	10	0.03
总和	4899.1	11

习题10：社会商品零售总额与营业税

习题10 — 教材习题8.4-11：社会商品零售总额与营业税

为研究社会商品零售总额 $x$ （单位：亿元）与营业税 $y$ （单位：亿元）之间的关系，收集了 9 个城市的数据：

$x_{i}$ 120 135 140 150 155 160 170 180 190
$y_{i}$ 8.0 9.2 9.5 10.4 10.8 11.2 12.0 13.0 14.0

（a）建立 $y$ 关于 $x$ 的线性回归方程。（b）检验回归方程的显著性（ $α = 0.05$ ）。（c）计算 $R^{2}$ 并解释。（d）当 $x_{0} = 200$ 时，求 $E (y_{0})$ 的 95% 置信区间和 $y_{0}$ 的 95% 预测区间。

$x_{i}$	120	135	140	150	155	160	170	180	190
$y_{i}$	8.0	9.2	9.5	10.4	10.8	11.2	12.0	13.0	14.0

查看解答

解：

（a）建立回归方程

$n = 9$

$\overset{x}{ˉ} = \frac{120 + 135 + \dots + 190}{9} = \frac{1400}{9} = 155.56$

$\overset{y}{ˉ} = \frac{8.0 + 9.2 + \dots + 14.0}{9} = \frac{98.1}{9} = 10.90$

$l_{xx} = \sum x_{i}^{2} - 9 \overset{x}{ˉ}^{2} = 221950 - 9 \times 24198.8 = 221950 - 217789 = 4161$

$l_{yy} = \sum y_{i}^{2} - 9 \overset{y}{ˉ}^{2} = 1102.93 - 9 \times 118.81 = 1102.93 - 1069.29 = 33.64$

$l_{x y} = \sum x_{i} y_{i} - 9 \overset{x}{ˉ} \overset{y}{ˉ} = 15680 - 9 \times 1695.6 = 15680 - 15260.4 = 419.6$

$\hat{β}_{1} = 419.6/4161 = 0.1008$

$\hat{β}_{0} = 10.90 - 0.1008 \times 155.56 = 10.90 - 15.68 = - 4.78$

回归方程： $\overset{y}{^} = - 4.78 + 0.1008 x$

（b）显著性检验

$S_{R} = 419. 6^{2} /4161 = 176064.16/4161 = 42.313$

$S_{e} = 33.64 - 42.313$ … 出现负值，说明计算有误差。

重新精确计算：

$\sum x_{i} = 120 + 135 + 140 + 150 + 155 + 160 + 170 + 180 + 190 = 1400$ $\sum y_{i} = 8.0 + 9.2 + 9.5 + 10.4 + 10.8 + 11.2 + 12.0 + 13.0 + 14.0 = 98.1$ $\sum x_{i}^{2} = 14400 + 18225 + 19600 + 22500 + 24025 + 25600 + 28900 + 32400 + 36100 = 221750$ $\sum y_{i}^{2} = 64 + 84.64 + 90.25 + 108.16 + 116.64 + 125.44 + 144 + 169 + 196 = 1098.13$ $\sum x_{i} y_{i} = 960 + 1242 + 1330 + 1560 + 1674 + 1792 + 2040 + 2340 + 2660 = 15598$

$l_{xx} = 221750 - 140 0^{2} /9 = 221750 - 217777.78 = 3972.22$

$l_{yy} = 1098.13 - 98. 1^{2} /9 = 1098.13 - 1069.29 = 28.84$

$l_{x y} = 15598 - 1400 \times 98.1/9 = 15598 - 15260 = 338$

$\hat{β}_{1} = 338/3972.22 = 0.08508$

$\hat{β}_{0} = 10.90 - 0.08508 \times 155.56 = 10.90 - 13.233 = - 2.333$

回归方程： $\overset{y}{^} = - 2.333 + 0.0851 x$

$S_{R} = 33 8^{2} /3972.22 = 114244/3972.22 = 28.753$

$S_{e} = 28.84 - 28.753 = 0.087$

$M S_{e} = 0.087/7 = 0.0124$

$F = 28.753/0.0124 = 2319$

$F_{0.95} (1, 7) = 5.59$ ， $F = 2319 > 5.59$ ，回归方程高度显著。

（c） $R^{2}$

$R^{2} = S_{R} / S_{T} = 28.753/28.84 = 0.997$

社会商品零售总额的线性变化可以解释营业税变异的 99.7%，拟合效果极好。

（d） $x_{0} = 200$ 处的区间估计

$\overset{y}{^}_{0} = - 2.333 + 0.0851 \times 200 = - 2.333 + 17.02 = 14.687$

$\overset{σ}{^} = 0.0124 = 0.1114$ ， $t_{0.975} (7) = 2.365$

均值响应置信区间：
$0.1114 \frac{1}{9} + \frac{( 200 - 155.56 ) ^{2}}{3972.22} = 0.1114 0.1111 + \frac{1975.4}{3972.22} = 0.1114 0.1111 + 0.4973 = 0.1114 \times 0.7821 = 0.0871$
$14.687 \pm 2.365 \times 0.0871 = 14.687 \pm 0.206 = [14.481, 14.893]$

单个响应预测区间：
$0.1114 1 + 0.1111 + 0.4973 = 0.1114 \times 1.267 = 0.1412$
$14.687 \pm 2.365 \times 0.1412 = 14.687 \pm 0.334 = [14.353, 15.021]$

$□$

十、教材原文

以下为教材扫描版原文，可点击翻阅。

第八章方差分析与回归分析/一元线性回归

数学笔记 Wiki

探索

8.4 一元线性回归

8.4 一元线性回归

一、变量间的两类关系

确定性关系

相关关系

回归分析的基本思想

高尔顿的回归现象

二、一元线性回归模型

回归函数

一元线性回归模型

模型的基本假定（Gauss-Markov 条件）

引例：合金钢强度与碳含量

三、回归系数的最小二乘估计

最小二乘法的思想

残差与残差平方和

正规方程组的推导

LSE 的显式解

LSE 的统计性质

例题：合金钢强度与碳含量的回归方程计算

补充：MLE 与 LSE 的关系

四、回归方程的显著性检验

检验问题

平方和分解

平方和的期望

残差平方和的分布

F 检验（方差分析方法）

t 检验

相关系数检验

三种检验的等价关系

例题：合金钢强度与碳含量的显著性检验

五、估计与预测

均值响应 E(y0​) 的置信区间

单个响应 y0​ 的预测区间

置信区间与预测区间的比较

例题：合金钢强度与碳含量的估计与预测

例题：动物体积与质量的完整回归分析

六、知识结构总览

七、核心思想与解题技巧

最小二乘法的几何直觉

平方和分解的统一思想

解题套路总结

八、补充理解与易混淆点

相关关系就是因果关系

最小二乘估计总是最优的

R²越接近1说明回归模型越好

预测区间和置信区间可以混用

回归分析不需要检验前提假定

九、习题精选

习题1：过原点的线性回归模型

习题2：MLE与LSE比较

习题3：数据变换对回归的影响

习题4：维尼纶纤维耐水性能

习题5：弹簧形变与外力

习题6：r2与决定系数的关系

习题7：合金钢碳含量与强度

习题8：回归模型参数计算

习题9：铸件腐蚀深度回归分析

习题10：社会商品零售总额与营业税

十、教材原文

关系图谱

目录

反向链接

均值响应 $E (y_{0})$ 的置信区间

单个响应 $y_{0}$ 的预测区间

习题6： $r^{2}$ 与决定系数的关系