8.4 一元线性回归

相关笔记8.1 方差分析 | 8.3 方差齐性检验 | 7.2 正态总体参数的假设检验 | 5.4 三大抽样分布 | 6.3 最大似然估计与EM算法 | 6.6 区间估计 | 5.3 统计量及其分布

本节概览

本节系统介绍一元线性回归(Simple Linear Regression)的基本理论与方法。从变量间相关关系的概念出发,建立一元线性回归模型 ,利用最小二乘法(Least Squares Estimation, LSE)估计回归系数,通过平方和分解 进行回归方程的显著性检验 检验、 检验、相关系数检验),最后讨论均值响应的置信区间单个响应的预测区间。整个方法体系与方差分析一脉相承,都是通过分解变异来源来判断因子效应的显著性。

逻辑链条变量关系分类模型建立参数估计显著性检验估计与预测结构总览解题技巧易混淆点习题教材原文

前置依赖§8.1(平方和分解思想)、§7.2 检验、 检验)、§5.4 分布、 分布、 分布)、§6.3(MLE)、§6.6(置信区间)

核心主线:一元线性回归通过建立 的统计模型,用最小二乘法估计回归系数 ,利用平方和分解 构造 检验(等价于 检验和相关系数检验)判断回归方程的显著性,并对均值响应和单个响应分别给出置信区间和预测区间。


一、变量间的两类关系

确定性关系

变量之间的确定性关系(函数关系)是指可以用精确的数学公式描述的关系。给定自变量的值,因变量的值被唯一确定。例如:

  • 圆的面积 :给定半径 ,面积 唯一确定
  • 自由落体 :给定时间 ,下落距离 唯一确定
  • 欧姆定律 :给定电流 和电阻 ,电压 唯一确定

相关关系

在实际问题中,变量之间更多呈现的是相关关系(statistical relationship):变量之间存在密切的统计联系,但由于随机因素的影响,给定自变量的值后,因变量的值不能唯一确定,而是围绕某个均值波动。

类比:想象你是一家鞋店的老板。你发现顾客的脚长和鞋码之间有很强的联系——脚越长,鞋码越大。但这种联系不是精确的函数关系:同样是 26cm 的脚长,有人穿 42 码,有人穿 43 码。脚长和鞋码之间的关系就是”相关关系”——存在明显的趋势,但带有随机波动。

相关关系的例子:

  • 人的身高与体重:身高越高,体重倾向于越大,但同样身高的人体重不同
  • 施肥量与作物产量:施肥越多,产量倾向于越高,但受天气、土壤等因素影响
  • 学习时间与考试成绩:学习时间越长,成绩倾向于越好,但不是线性精确的
  • 合金钢的碳含量与强度:碳含量越高,强度倾向于越大

回归分析的基本思想

回归分析(Regression Analysis)是研究变量之间相关关系的一种统计方法。其基本思想是:

  1. 识别:通过散点图等工具识别变量之间的相关模式
  2. 建模:建立描述因变量 与自变量 之间关系的统计模型
  3. 估计:利用观测数据估计模型中的未知参数
  4. 检验:检验模型的有效性(回归方程是否显著)
  5. 应用:利用建立的回归方程进行预测和控制

高尔顿的回归现象

“回归”(regression)一词来源于英国统计学家 Francis Galton(1822-1911)关于遗传学的研究。Galton 在研究父子身高关系时发现:

  • 高个子父亲的儿子,身高倾向于比父亲矮(向平均身高”回归”)
  • 矮个子父亲的儿子,身高倾向于比父亲高(同样向平均身高”回归”)

这种现象被称为回归效应(regression effect)或回归均值(regression toward the mean)。Galton 在 1886 年的论文中首次使用了”regression”一词来描述这种现象。

注意:虽然”回归”一词源于遗传学中的特殊现象,但现代统计学中的”回归分析”已经发展为一种通用的统计建模工具,不再局限于”向均值回归”的含义。回归分析的核心任务是建立变量之间的定量关系模型


二、一元线性回归模型

回归函数

定义 8.4.1 — 回归函数

为自变量(预报变量), 为因变量(响应变量)。给定 时,条件期望

称为 关于 回归函数(regression function)。回归函数描述了 的均值随 变化的趋势。

回归函数的直观含义:对于每一个固定的 值, 的取值是随机的(围绕某个均值波动),而回归函数 给出了这个均值的位置。如果 的线性函数,即 ,则称为线性回归函数

一元线性回归模型

定义 8.4.2 — 一元线性回归模型

组观测数据,其中 为自变量的取值(非随机的,可精确测量或控制), 为因变量的观测值。如果 满足

其中 为未知参数, 为随机误差项,则称该模型为一元线性回归模型(Simple Linear Regression Model)。

在模型 (8.4.2) 中:

  • 截距(intercept),表示当 的条件均值
  • 回归系数(regression coefficient),表示 每增加一个单位时 的条件均值的变化量
  • 随机误差,表示 对回归直线的随机偏离

模型的基本假定(Gauss-Markov 条件)

一元线性回归模型的有效性依赖于以下基本假定:

假定内容数学表达
(A1) 线性性 之间是线性关系,即
(A2) 等方差性所有观测值的误差方差相等(常数),
(A3) 独立性各次观测的误差相互独立
(A4) 正态性误差服从正态分布

假定的重要性

  • 假定 (A1)-(A3) 称为Gauss-Markov 条件,在这些条件下,最小二乘估计是最佳线性无偏估计(BLUE)。
  • 假定 (A4) 用于推断(假设检验、置信区间)。如果只做点估计,不需要正态性假定。
  • 在实际应用中,应通过残差分析(residual analysis)检验这些假定的合理性。

在假定 (A1)-(A4) 下,模型可以紧凑地写为:

引例:合金钢强度与碳含量

例 8.4.1 — 合金钢强度与碳含量

为研究合金钢的强度 (单位:)与碳含量 (单位:%)之间的关系,收集了 12 组数据如下:

123456789101112
0.100.110.120.130.140.150.160.170.180.200.210.23
42.043.545.045.545.047.549.053.050.055.055.060.0

散点图描述:将 12 个数据点 标在坐标系中,可以观察到这些点大致分布在一条直线附近——随着碳含量 的增加,强度 呈现明显的上升趋势。这种线性趋势提示我们可以用一元线性回归模型来描述 之间的关系。


三、回归系数的最小二乘估计

最小二乘法的思想

最小二乘法(Method of Least Squares)是估计回归系数 的最基本方法。其核心思想是:找到一条直线 ,使得所有观测点到这条直线的纵向距离的平方和最小

几何直觉:想象你手中有 12 个钉子(数据点)钉在墙上,你想用一根橡皮筋把它们”尽量拉直”——橡皮筋就是回归直线。最小二乘法就是找到那个让橡皮筋最”贴近”所有钉子的位置。所谓”贴近”,就是所有钉子到橡皮筋的纵向偏差的平方和达到最小。

残差与残差平方和

对于给定的估计值 ,第 个观测点的拟合值残差(residual)为

残差平方和(Residual Sum of Squares, RSS)为

最小二乘法的目标是找到 ,使得

正规方程组的推导

证明思路

证明 (8.4.9)

[构造目标函数]:令 ,对 分别求偏导并令其为零。

[对 求偏导]

整理得:

[对 求偏导]

整理得:

[求解正规方程组]:由 (8.4.4) 得 ,代入 (8.4.5):

注意到 ,因此

[验证极小值]:二阶偏导数矩阵 ,Hessian 行列式 (当 时),故 确为极小值点。

LSE 的显式解

引入以下记号:

最小二乘估计的显式解为:

由此得到的回归方程为:

重要性质:回归直线一定通过样本均值点 ,因为

LSE 的统计性质

定理 8.4.1 — 最小二乘估计量的统计性质

在一元线性回归模型 下,最小二乘估计 具有以下性质:

(1) 正态性

(2) 无偏性

(3) 方差

(4) 协方差

证明思路

证明 (定理 8.4.1)

[将 LSE 表示为 的线性组合]:将 展开,利用

其中 。同理:

其中 。这说明 都是 的线性组合。

[正态性]:由于 ,故 是独立正态变量的线性组合,故 服从正态分布。同理 也服从正态分布。

[无偏性]。 其中 。 故

[方差]

。 其中 (因为 )。 故

[协方差]。 故

例题:合金钢强度与碳含量的回归方程计算

例 8.4.2 — 合金钢强度与碳含量(回归方程计算)

对例 8.4.1 的合金钢数据,建立强度 关于碳含量 的一元线性回归方程。

第一步:计算基本统计量

第二步:计算

第三步:计算回归系数

第四步:写出回归方程

回归方程表明:碳含量每增加 0.01%,合金钢强度平均增加约

补充:MLE 与 LSE 的关系

在正态性假定 下,,且各 独立。似然函数为:

对数似然函数为:

最大化 等价于最小化 ,这正是最小二乘法的目标函数。

结论:在正态误差模型下, 的最大似然估计(MLE)与最小二乘估计(LSE)完全一致。这一等价性是正态回归模型的一个重要性质,也是最小二乘法在回归分析中占据核心地位的原因之一。

进一步, 的 MLE 为 ,但这是有偏估计。常用的无偏估计为:


四、回归方程的显著性检验

检验问题

建立回归方程后,一个自然的问题是:回归方程是否真的有意义?即自变量 对因变量 是否有显著的线性影响?

这等价于检验回归系数 是否为零:

  • 若拒绝 ,则认为 有显著的线性影响,回归方程有意义
  • 若接受 ,则认为 没有显著的线性影响,回归方程无意义

平方和分解

方差分析类似,回归分析的核心也是平方和分解

证明思路

证明 (8.4.13)

[引入恒等式]:对每个观测值 ,有恒等式

即:总偏差 = 残差 + 回归偏差。

[两边平方求和]

[证明交叉项为零]:交叉项

代入:

利用正规方程

[得到分解式]

其中 (总平方和),(残差平方和),(回归平方和)。

三个平方和的含义:

平方和公式自由度含义
(总平方和) 的总变异
(回归平方和) 的线性变化引起的 的变异
(残差平方和)除去 的线性影响后 的剩余变异

自由度也满足分解关系:

平方和的期望

定理 8.4.2 — 平方和的期望

在一元线性回归模型下:

(1)

(2)

成立时,;当 不成立时,

这个定理的含义非常直观:当 成立时,回归平方和与残差平方和的期望都等于 (乘以各自的自由度),比值接近 1;当 不成立时,回归平方和的期望变大,比值倾向于大于 1。

残差平方和的分布

定理 8.4.3 — 残差平方和的分布

在一元线性回归模型下:

(1)

(2) 相互独立

(3) 成立时,

F 检验(方差分析方法)

由定理 8.4.2 和定理 8.4.3,在 成立时:

不成立时, 值倾向于偏大。

给定显著性水平 F 检验的拒绝域为:

方差分析表

来源平方和自由度均方
回归
残差
总和

t 检验

由定理 8.4.1,,用 替代 ,得:

(在 成立时)

给定显著性水平 t 检验的拒绝域为:

相关系数检验

样本相关系数定义为:

的取值范围为 越接近 1,线性相关程度越强。

成立时,可以证明:

给定显著性水平 ,相关系数检验的拒绝域为:

其中 为相关系数的临界值,可查附表。

三种检验的等价关系

重要结论:在一元线性回归中, 检验、 检验和相关系数检验完全等价——对同一组数据,三种检验的结论一定一致。

等价性的数学证明

(1) 检验与 检验等价:

证明:。由于 分布恰好是 分布的平方,两者拒绝域等价。

(2) 检验与 检验等价:

证明:

分子分母同除以

注意:三种检验的等价性仅在一元线性回归中成立。在多元回归中, 检验是整体显著性检验(检验所有回归系数是否全为零),而 检验是单个系数的显著性检验,两者不再等价。

例题:合金钢强度与碳含量的显著性检验

例 8.4.3 — 合金钢强度与碳含量(方差分析表 + 显著性检验)

对例 8.4.2 建立的回归方程 ,在 下检验回归方程的显著性。

由例 8.4.2 已知:

计算平方和

计算均方和

方差分析表

来源平方和自由度均方
回归342.771342.7724.24
残差141.401014.14
总和484.1711

查表判断

因为 ,==拒绝 ==,认为碳含量 对合金钢强度 有显著的线性影响,回归方程 是显著的。

验证等价性

检验:

,拒绝

注意 ,验证了等价性。

相关系数:

,拒绝 。三种检验结论完全一致。


五、估计与预测

回归方程建立并通过显著性检验后,可以用于两个目的:

  1. 估计(estimation):给定 ,估计 (均值响应)
  2. 预测(prediction):给定 ,预测 (单个响应)

均值响应 的置信区间

给定 ,均值响应 的点估计为

由于 的线性组合,且 服从正态分布,故 也服从正态分布:

替代 ,构造 统计量:

由此得到 的==置信水平为 的置信区间==:

单个响应 的预测区间

给定 ,要预测单个新观测值 。预测误差为:

由于 独立( 由已有数据决定, 是新的随机误差),预测误差的方差为:

构造 统计量:

由此得到 的==置信水平为 的预测区间==:

置信区间与预测区间的比较

比较维度均值响应的置信区间单个响应的预测区间
估计对象
标准误
区间宽度较窄较宽(多了一个”1”)
含义对均值位置的估计对单个值的预测

关键区别:预测区间比置信区间宽,因为预测单个值需要额外考虑随机误差 的不确定性。==预测区间 = 置信区间 + 随机波动==。

两者的宽度都随 的增大而增大——离样本均值越远,估计/预测的不确定性越大。这提醒我们:外推(extrapolation)要谨慎,在数据范围之外进行预测时,区间会变得很宽,预测结果不可靠。

例题:合金钢强度与碳含量的估计与预测

例 8.4.4 — 合金钢强度与碳含量(估计与预测)

对例 8.4.2 的回归方程 ,在 处: (a)求均值响应 的 95% 置信区间; (b)求单个响应 的 95% 预测区间。

已知

(a)均值响应的置信区间

置信区间:

(b)单个响应的预测区间

预测区间:

预测区间 明显宽于置信区间 ,体现了预测单个值时额外的随机波动不确定性。

例题:动物体积与质量的完整回归分析

例 8.4.5 — 动物体积与质量(完整回归分析案例)

为研究某种动物的体积 (单位:)与质量 (单位:)之间的关系,收集了 10 组数据:

12345678910
10.010.410.611.011.211.612.012.212.412.6
10.210.811.311.812.012.513.013.213.513.8

(a)建立 关于 的线性回归方程; (b)检验回归方程的显著性(); (c)求 的 95% 置信区间和 的 95% 预测区间。

(a)建立回归方程

回归方程:

(b)显著性检验

,拒绝 ,回归方程显著。

(c)估计与预测

均值响应置信区间:

单个响应预测区间:


六、知识结构总览

graph TD
    A[一元线性回归] --> B[模型建立]
    A --> C[参数估计]
    A --> D[显著性检验]
    A --> E[估计与预测]

    B --> B1[回归函数]
    B --> B2[回归模型]
    B --> B3[基本假定]

    C --> C1[最小二乘法]
    C1 --> C2[正规方程组]
    C2 --> C3[回归系数估计]

    D --> D1[平方和分解]
    D1 --> D2[F检验]
    D1 --> D3[t检验]
    D1 --> D4[相关系数检验]
    D2 --> D5[方差分析表]

    E --> E1[均值响应置信区间]
    E --> E2[单个响应预测区间]
    E1 --> E3[区间宽度分析]
    E2 --> E3

七、核心思想与解题技巧

最小二乘法的几何直觉

最小二乘法的核心思想可以用”投影”来理解。将 维观测向量 投影到由 张成的二维子空间上,投影向量 就是拟合值向量。残差向量 与该子空间正交(这就是正规方程的几何含义:)。

类比:想象你在阳光下观察一根旗杆的影子。旗杆(观测向量 )投射到地面(回归子空间)上的影子(拟合向量 )就是最小二乘解。影子越短(残差越小),旗杆越”贴近”地面——但旗杆永远不会完全躺在地面上(除非完美线性关系)。

平方和分解的统一思想

一元线性回归中的平方和分解 方差分析中的 本质上是同一个思想:

比较维度方差分析一元线性回归
总平方和
因子/回归平方和(组间变异)(回归解释的变异)
误差/残差平方和(组内变异)(回归未解释的变异)
检验统计量
核心思想比较组间与组内变异比较回归解释与未解释的变异

事实上,一元线性回归可以看作是方差分析的一种特殊情况——当自变量 只取有限个离散值时,回归分析与方差分析的问题框架完全一致。

解题套路总结

一元线性回归完整分析模板

1. 散点图观察 → 判断线性趋势
2. 计算基本统计量:x̄, ȳ, l_xx, l_yy, l_xy
3. 计算回归系数:β̂₁ = l_xy/l_xx, β̂₀ = ȳ - β̂₁x̄
4. 写出回归方程:ŷ = β̂₀ + β̂₁x
5. 平方和分解:S_R = l_xy²/l_xx, S_e = l_yy - S_R
6. 方差分析表 → F检验
7. (可选)t检验 / 相关系数检验
8. 估计与预测 → 置信区间 / 预测区间

计算技巧

  1. 的计算:优先使用公式 (而非定义式),计算量更小。
  2. 的简化(避免重复计算 ),因为 ,所以
  3. 的计算,这是后续置信区间和预测区间计算的基础。
  4. 的含义,称为决定系数(coefficient of determination),表示回归方程解释的 的变异占总变异的比例。 越接近 1,回归方程的拟合效果越好。

八、补充理解与易混淆点

相关关系就是因果关系

来源:茆诗松等《概率论与数理统计教程》(第三版)p.405 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 15-17 + Freedman, D.A. (2005) Statistical Models: Theory and Practice, Cambridge, pp. 3-8 + CSDN 博客”相关性与因果性的区别”2023 + 知乎专栏”回归分析能证明因果关系吗?“2024

误区1:"相关关系就是因果关系"

❌ 错误解释:如果两个变量之间存在显著的相关关系(或回归关系),就说明一个变量是另一个变量的原因。例如,回归分析发现”冰淇淋销量”与”溺水人数”显著正相关,就认为吃冰淇淋会导致溺水。 ✅ 正确解释:相关关系不等于因果关系。两个变量之间的相关可能由以下原因产生:(1) 确实是 的原因(因果关系);(2) 存在第三变量 同时影响 (混杂因素,如气温同时影响冰淇淋销量和游泳人数);(3) 的原因(反向因果);(4) 纯粹的巧合。回归分析只能揭示变量之间的统计关联,不能证明因果关系。要建立因果推断,需要随机化实验或更高级的因果推断方法(如工具变量法、倾向得分匹配等)。

最小二乘估计总是最优的

来源:茆诗松等《概率论与数理统计教程》(第三版)p.410 + Greene, W.H. (2018) Econometric Analysis, 8th ed., Pearson, pp. 18-22 + CSDN 博客”最小二乘法的适用条件与局限性”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models, 3rd ed., Sage, pp. 201-205 + 卡方笔记”回归分析中的稳健估计方法”2024

误区2:"最小二乘估计总是最优的"

❌ 错误解释:最小二乘法是回归分析中最好的参数估计方法,在任何条件下都能给出最优的估计结果。 ✅ 正确解释:最小二乘估计的最优性(BLUE)依赖于 Gauss-Markov 条件(线性性、等方差性、独立性)。当这些条件不满足时,LSE 不再是最优的:(1) 当存在异常值(outlier)时,LSE 对异常值非常敏感(因为残差取平方),此时稳健回归方法(如 M 估计、LTS 估计)更合适;(2) 当误差方差不等(异方差性)时,加权最小二乘法(WLS)比普通最小二乘法(OLS)更有效;(3) 当误差项存在自相关时,需要使用广义最小二乘法(GLS)。此外,LSE 的正态性推断还依赖于误差的正态性假定。

R²越接近1说明回归模型越好

来源:茆诗松等《概率论与数理统计教程》(第三版)p.418 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 100-103 + CSDN 博客”R²的陷阱:为什么高R²不代表好模型”2024 + 知乎专栏”决定系数R²的误用与正确理解”2023 + 卡方笔记”回归模型评价的多种指标”2024

误区3:"R²越接近1说明回归模型越好"

❌ 错误解释:决定系数 越大,说明回归模型越好,应该追求尽可能高的 值。 ✅ 正确解释: 反映的是回归方程解释的变异占总变异的比例,但它有以下局限性:(1) 随自变量个数的增加而单调递增(即使加入的自变量毫无意义),因此在多元回归中应使用==调整 ==(adjusted );(2) 高 不一定意味着模型正确——模型可能存在严重的设定偏差(如遗漏重要变量、函数形式错误),但 仍然很高;(3) 的大小受数据本身变异程度的影响,不同数据集之间的 不可直接比较;(4) 在某些领域(如社会科学), 可能已经是很好的结果了,因为人类行为本身就有很大的随机性。评价回归模型的好坏应综合考虑残差分析模型假设检验实际意义

预测区间和置信区间可以混用

来源:茆诗松等《概率论与数理统计教程》(第三版)p.425 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 66-70 + CSDN 博客”置信区间与预测区间的区别”2023 + statology.org “Confidence Interval vs Prediction Interval” + 卡方笔记”回归分析中的区间估计”2024

误区4:"预测区间和置信区间可以混用"

❌ 错误解释:均值响应的置信区间和单个响应的预测区间差不多,可以互换使用。或者认为预测区间就是”更宽一点的置信区间”,两者没有本质区别。 ✅ 正确解释:置信区间和预测区间有本质区别,不能混用。置信区间估计的是总体均值 的位置——“如果重复很多次实验,在 处的平均响应值会落在哪里”。预测区间预测的是单个未来观测值 的范围——“下一次在 处做实验,观测值会落在哪里”。预测区间比置信区间宽,因为预测单个值需要额外考虑随机误差 的不确定性。混用两者的后果是:如果用置信区间代替预测区间,会低估预测的不确定性,导致实际观测值频繁落在区间之外;如果用预测区间代替置信区间,会过度估计均值的精度,导致决策过于保守。

回归分析不需要检验前提假定

来源:茆诗松等《概率论与数理统计教程》(第三版)p.428 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 105-110 + CSDN 博客”回归诊断:为什么不能直接用回归结果”2024 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models, 3rd ed., Sage, pp. 285-310 + 卡方笔记”回归模型假定检验方法”2024

误区5:"回归分析不需要检验前提假定"

❌ 错误解释:只要把数据输入软件、运行回归、得到显著的 值,就可以放心使用回归结果了。模型假定(线性性、等方差性、独立性、正态性)只是理论上的要求,实际中不需要检查。 ✅ 正确解释:回归分析的所有推断结论(假设检验、置信区间、预测区间)都建立在模型假定之上。如果假定不满足,这些结论可能完全不可靠。必须通过残差分析(residual analysis)检验假定的合理性:(1) 残差 vs 拟合值图:检查线性性和等方差性——如果残差呈现系统性的曲线模式,说明线性性不满足;如果残差的波动幅度随拟合值变化,说明等方差性不满足;(2) 残差的正态Q-Q图:检查正态性——如果点偏离对角线,说明正态性不满足;(3) 残差的时序图(时间序列数据):检查独立性——如果残差呈现自相关模式,说明独立性不满足。当假定不满足时,应考虑数据变换(如对数变换、Box-Cox 变换)、加权最小二乘或广义线性模型等方法。


九、习题精选

习题概览

编号题目来源知识点难度
1教材习题8.4-1过原点线性回归模型★★★
2教材习题8.4-2MLE与LSE比较★★★
3教材习题8.4-3数据变换对回归的影响★★★
4教材习题8.4-5维尼纶纤维耐水性能★★☆
5教材习题8.4-6弹簧形变与外力★★☆
6教材习题8.4-7与决定系数的关系★★★
7教材习题8.4-8合金钢碳含量与强度★★★
8教材习题8.4-9回归模型参数计算★★☆
9教材习题8.4-10铸件腐蚀深度回归分析★★★
10教材习题8.4-11社会商品零售总额与营业税★★★

习题1:过原点的线性回归模型

习题1 — 教材习题8.4-1:过原点的线性回归模型

设一元线性回归模型为 ),其中 ,且

(a)求 的最小二乘估计 。 (b)求 的分布。 (c)求 的无偏估计。 (d)证明 的 UMVUE。


习题2:MLE与LSE比较

习题2 — 教材习题8.4-2:MLE与LSE比较

在一元线性回归模型 下:

(a)写出 的似然函数。 (b)求 的最大似然估计。 (c)比较 MLE 与 LSE 的异同。 (d)证明 的 MLE 是有偏的,并给出无偏修正。


习题3:数据变换对回归的影响

习题3 — 教材习题8.4-3:数据变换对回归的影响

)满足一元线性回归模型

(a)若对自变量做平移变换 为常数),证明用 建立的回归方程与原回归方程等价,并给出新回归系数与原回归系数的关系。 (b)若对自变量做缩放变换 为常数),证明用 建立的回归方程的 值、 值、 均不变。


习题4:维尼纶纤维耐水性能

习题4 — 教材习题8.4-5:维尼纶纤维耐水性能

在维尼纶纤维的生产中,考察甲醛浓度 (单位:)对缩醛化度 (单位:摩尔%)的影响,收集了 7 组数据:

18202224262830
26.8628.3528.7530.0030.7531.4131.98

(a)建立 关于 的线性回归方程。 (b)在 下检验回归方程的显著性。 (c)当 时,求 的 95% 预测区间。


习题5:弹簧形变与外力

习题5 — 教材习题8.4-6:弹簧形变与外力

根据胡克定律,弹簧的形变量 (单位:mm)与所受外力 (单位:N)之间应满足线性关系。为验证这一关系,进行了 8 次试验,数据如下:

1.02.03.04.05.06.07.08.0
3.25.88.511.413.916.319.121.5

(a)建立 关于 的线性回归方程。 (b)检验回归方程的显著性()。 (c)求弹性系数(回归系数 )的 95% 置信区间。


习题6:与决定系数的关系

习题6 — 教材习题8.4-7: 与决定系数的关系

在一元线性回归中,证明以下结论:

(a),即决定系数等于样本相关系数的平方。 (b)。 (c),且 当且仅当所有数据点完全在回归直线上。


习题7:合金钢碳含量与强度

习题7 — 教材习题8.4-8:合金钢碳含量与强度(综合计算)

对例 8.4.1 的合金钢数据,完成以下分析:

(a)计算样本相关系数 。 (b)计算决定系数 并解释其含义。 (c)在 处,求 的 99% 置信区间。 (d)在 处,求 的 99% 预测区间,并与(c)的结果比较。


习题8:回归模型参数计算

习题8 — 教材习题8.4-9:回归模型参数计算

设一元线性回归模型 。已知

(a)求 和回归方程。 (b)求 。 (c)求 。 (d)求样本相关系数 。 (e)在 下检验


习题9:铸件腐蚀深度回归分析

习题9 — 教材习题8.4-10:铸件腐蚀深度回归分析

为研究腐蚀时间 (单位:秒)对铸件腐蚀深度 (单位:)的影响,进行了 12 次试验,数据如下:

253035404550556065707580
80859295102108115120126130138145

(a)建立 关于 的线性回归方程。 (b)列出方差分析表,检验回归方程的显著性()。 (c)求 的 99% 置信区间。 (d)当 时,求 的 95% 预测区间,并评价外推的风险。


习题10:社会商品零售总额与营业税

习题10 — 教材习题8.4-11:社会商品零售总额与营业税

为研究社会商品零售总额 (单位:亿元)与营业税 (单位:亿元)之间的关系,收集了 9 个城市的数据:

120135140150155160170180190
8.09.29.510.410.811.212.013.014.0

(a)建立 关于 的线性回归方程。 (b)检验回归方程的显著性()。 (c)计算 并解释。 (d)当 时,求 的 95% 置信区间和 的 95% 预测区间。


十、教材原文

以下为教材扫描版原文,可点击翻阅。


第八章 方差分析与回归分析/一元线性回归