8.5 一元非线性回归

相关笔记8.4 一元线性回归 | 8.1 方差分析 | 6.3 最大似然估计与EM算法 | 6.6 区间估计 | 5.3 统计量及其分布

本节概览

本节介绍一元非线性回归(Nonlinear Regression)的基本方法。当变量之间的关系不是线性关系时,可以通过适当的变量代换(线性化变换)将非线性函数转化为线性函数,然后利用一元线性回归的方法进行参数估计。本节的核心内容包括:六种常见可线性化的非线性函数形式、通过散点图判断函数类型、线性化后的参数估计方法,以及用==决定系数 剩余标准差 == 比较不同曲线的拟合效果。

逻辑链条函数形式选择线性化参数估计曲线比较结构总览解题技巧易混淆点习题教材原文

前置依赖§8.4(最小二乘法、回归方程建立与评价)

核心主线:一元非线性回归通过变量代换将非线性函数化为线性函数,利用最小二乘法估计参数后反变换还原,最终通过 在原始尺度上比较不同曲线的拟合效果。


一、确定可能的函数形式

非线性回归的基本思想

在实际问题中,变量 之间的关系往往不是线性的。例如,化学反应速率随温度的变化、生物生长曲线、经济变量之间的弹性关系等,都呈现明显的非线性特征。

非线性回归的基本策略是:通过适当的变量代换(变换),将非线性函数转化为关于新变量的线性函数,然后利用一元线性回归的方法(最小二乘法)进行参数估计,最后通过反变换得到原始变量之间的非线性回归方程。

类比:想象你在看一张被揉皱的纸上的直线。直接看是弯曲的,但如果你把纸展平(做变换),就能看到它其实是一条直线。非线性回归的线性化变换就是这个”展平”的过程——换一个角度看问题,复杂的关系就变简单了。

散点图判断函数类型

选择非线性函数形式的第一步是绘制散点图。将 组观测数据 标在坐标系中,观察数据点的分布趋势,与已知的非线性函数图形进行对比,初步确定可能的函数形式。

散点图判断的一般原则:

散点图特征可能的函数类型曲线形状描述
初始增长快,逐渐趋缓双曲线 类似反比例函数
通过原点附近,单调递增或递减幂函数 凹或凸的曲线
单调递增或递减,增长速率恒定指数函数(I型) 凸或凹的指数曲线
初始变化快,后趋于水平指数函数(II型) 类似渐近曲线
初始变化快,后趋于平缓对数函数 对数型曲线
呈S形,有上下渐近线S形曲线 Sigmoid曲线

注意

散点图只能提供初步判断,最终选择哪种函数形式,需要通过比较不同曲线的拟合优度)来决定。有时可以尝试多种函数形式,从中选择最优的。

六种常见可线性化的非线性函数

以下列出六种常见的可通过变量代换化为线性函数的非线性函数。每种函数都给出了原函数形式、变换方法和变换后的线性形式。

1. 双曲线函数

变换方法:令 ,则

这是一个关于 的线性函数。用 )做一元线性回归,得到 后,原回归方程为

适用场景:当 的增加而趋近于某个常数(渐近线),且初始变化较快时。

2. 幂函数

变换方法:两边取自然对数

,则

做一元线性回归,得到 后,原参数 ,原回归方程为

适用场景:当 之间存在”弹性”关系(如经济学中的需求弹性),且数据大致分布在过原点的曲线附近时。

3. 指数函数(I型)

变换方法:两边取自然对数

,则

做一元线性回归,得到 后,原参数 ,原回归方程为

适用场景:当 的变化呈指数增长或指数衰减时(如放射性衰变、人口增长)。

4. 指数函数(II型)

变换方法:两边取自然对数

,则

做一元线性回归,得到 后,原参数 ,原回归方程为

适用场景:当 的增加趋近于某个渐近值 (当 时),且变化速率逐渐减小时。

5. 对数函数

变换方法:令 ,则

做一元线性回归,得到 后,原回归方程为

适用场景:当 的增加而增长,但增长速度逐渐减慢(边际递减效应)时。

6. S形曲线

变换方法:两边取倒数

,则

做一元线性回归,得到 后,原回归方程为

适用场景:当 的增长呈现S形,有上下渐近线时(如生物种群增长、产品生命周期)。

六种函数汇总表

编号函数名称原函数形式变换 变换 线性形式
1双曲线
2幂函数
3指数(I型)
4指数(II型)
5对数函数
6S形曲线

例题:钢包质量问题

例 8.5.1 — 钢包质量问题(散点图判断)

炼钢厂出钢时盛钢水的钢包,在使用过程中由于钢水及炉渣的侵蚀,其容积(盛钢水量)会不断增大。为了找出使用次数与增大的容积之间的关系,收集了以下数据:

使用次数 234567891011
增大容积 6.428.209.589.509.7010.009.939.9910.4910.59
使用次数 1213141516
增大容积 10.6010.8010.6010.9010.76

散点图分析:将 15 个数据点 标在坐标系中,可以观察到:

  • 较小时(), 增长较快
  • 较大时(), 的增长明显趋缓,逐渐趋于某个上限值(约 11 左右)
  • 整体呈现先快后慢、趋于饱和的曲线形态

根据散点图的特征,初步判断可能适合以下几种函数形式:

  • 双曲线函数 :因为 趋于常数, 也趋于常数
  • 对数函数 :因为增长速率递减
  • 指数渐近函数 :因为趋于渐近线
  • 平方根函数 :作为另一种可能的候选

二、参数估计

线性化方法的一般步骤

非线性回归参数估计的线性化方法分为以下三个步骤:

  1. 变量代换:根据所选函数形式,对原始数据 做变换,得到新的数据
  2. 最小二乘法:用新数据 建立 的一元线性回归方程,得到参数估计
  3. 反变换还原:将 代回原函数形式,得到 关于 的非线性回归方程

重要提醒

线性化方法中,最小二乘法最小化的是变换后变量 的残差平方和 ,而不是原始变量 的残差平方和 。因此,线性化方法得到的参数估计,在原始尺度上不一定是最优的。但这种方法计算简便,在实际中应用广泛。

例 8.5.1 续:四种曲线的参数估计

对钢包质量问题的数据,分别用四种函数形式建立回归方程。

(1) 双曲线函数

,用 建立线性回归。

计算变换后的数据:

20.50006.420.1558
30.33338.200.1220
40.25009.580.1044
50.20009.500.1053
60.16679.700.1031
70.142910.000.1000
80.12509.930.1007
90.11119.990.1001
100.100010.490.0953
110.090910.590.0944
120.083310.600.0943
130.076910.800.0926
140.071410.600.0943
150.066710.900.0917
160.062510.760.0929

计算基本统计量:

回归系数:

变换后的线性回归方程:

还原为原函数形式:

(2) 对数函数

,用 建立线性回归。

计算基本统计量:

回归系数:

对数回归方程:

(3) 平方根函数

,用 建立线性回归。

计算基本统计量:

回归系数:

平方根回归方程:

(4) 指数渐近函数

这个函数形式表示 以 100 为渐近线。令 ,则 。取对数:

(注意 ),则

其中

建立线性回归后,还原得到:


三、曲线回归方程的比较

比较指标

当对同一组数据建立了多个不同的曲线回归方程后,需要比较它们的拟合效果,从中选择最优的。常用的比较指标有两个:

决定系数

其中:

  • :原始观测值
  • :由曲线回归方程计算的预测值(注意:必须用原始尺度上的预测值,而非变换后的预测值)
  • 的样本均值

越接近 1,说明曲线回归方程对数据的拟合效果越好。

剩余标准差

越小,说明预测精度越高,拟合效果越好。

关键注意

的计算中,残差 必须使用原始数据 原始尺度上的预测值 。不能使用变换后的数据 来计算。这是因为线性化变换改变了残差的权重分布,变换后最小化的目标函数与原始尺度上的目标函数不同。

例 8.5.1 续:四种曲线的比较

对钢包质量问题,分别计算四种曲线回归方程的

计算过程(以双曲线为例):

  1. 对每个 ,用回归方程计算预测值
  2. 计算残差
  3. 计算
  4. 代入公式 (8.5.5) 和 (8.5.6)

四种曲线的比较结果:

曲线类型回归方程
双曲线0.90260.2843
对数函数0.87730.3180
平方根函数0.77580.4236
指数渐近函数0.96230.1845

结论:从 两个指标综合来看,指数渐近函数的拟合效果最好( 最大、 最小),双曲线函数次之。

选择建议

在实际应用中,选择最优曲线时应综合考虑以下因素:

  1. 的大小(定量标准)
  2. 残差图的形态(定性标准——残差应随机分布,无系统模式)
  3. 回归方程的实际可解释性(参数是否有明确的物理/经济含义)
  4. 外推的合理性(在数据范围外预测时,曲线的行为是否符合实际)

四、知识结构总览

graph TD
    A[一元非线性回归] --> B[确定函数形式]
    A --> C[参数估计]
    A --> D[曲线比较]

    B --> B1[绘制散点图]
    B1 --> B2[匹配函数类型]
    B2 --> B3[六种常见函数]

    C --> C1[变量代换]
    C1 --> C2[线性回归]
    C2 --> C3[反变换还原]

    D --> D1[决定系数R²]
    D --> D2[剩余标准差s]
    D1 --> D3[选择最优曲线]
    D2 --> D3

五、核心思想与解题技巧

线性化变换的核心思想

非线性回归的线性化方法本质上是坐标变换。通过选择合适的变换函数 ,将原坐标系 中的曲线 映射到新坐标系 中的直线

几何直觉:想象你在一张透明的方格纸上画了一条曲线。如果你把方格纸的横轴和纵轴分别用不同的刻度(如对数刻度)重新标注,原来弯曲的线可能就变成了一条直线。这就是线性化变换的几何本质——改变坐标系的”标尺”,让曲线”看起来”像直线。

线性化方法的优点

  • 计算简便,可以直接利用一元线性回归的全部理论成果
  • 参数估计有显式解,不需要迭代算法
  • 显著性检验、置信区间等推断方法可以直接套用

线性化方法的局限性

  • 最小二乘法最小化的是变换后变量的残差平方和,而非原始变量的残差平方和
  • 变换可能改变误差的结构(如等方差性可能不再满足)
  • 不是所有非线性函数都能通过变换化为线性函数

选择最佳曲线的实用建议

  1. 先看散点图:散点图是选择函数形式的第一步,也是最直观的判断工具
  2. 多试几种:对同一组数据,尝试多种可能的函数形式,不要只试一种
  3. 比较 :用定量指标客观比较不同曲线的拟合效果
  4. 检查残差图:好的拟合应该使残差随机分布,无明显的系统模式
  5. 考虑实际意义:回归方程的参数是否有明确的实际含义,方程在数据范围外的行为是否合理

解题套路总结

一元非线性回归完整分析模板

1. 绘制散点图 → 观察数据分布趋势
2. 选择候选函数形式(2-4种)
3. 对每种函数:
   a. 做变量代换,得到新数据 (u_i, v_i)
   b. 计算基本统计量:ū, v̄, l_uu, l_vv, l_uv
   c. 计算回归系数:b̂ = l_uv/l_uu, â = v̄ - b̂ū
   d. 反变换还原,得到非线性回归方程
4. 对每种函数计算 R² 和 s(用原始数据!)
5. 比较 R² 和 s,选择最优曲线
6. (可选)对最优曲线做残差分析

计算技巧

  1. 变换后数据的计算:先列出变换后的数据表 ,再计算基本统计量,避免混淆
  2. 必须用原始数据计算:将 代入回归方程得到 ,再计算
  3. 反变换的注意:对于涉及对数变换的函数(如幂函数、指数函数),反变换时需要取指数

六、补充理解与易混淆点

R²最高的模型一定是最好的

来源:茆诗松等《概率论与数理统计教程》(第三版)p.440 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 168-172 + Draper, N.R. & Smith, H. (1998) Applied Regression Analysis, 3rd ed., Wiley, pp. 285-290 + CSDN 博客”回归模型选择:R²不是唯一标准”2024 + 知乎专栏”非线性回归模型选择的陷阱”2023

误区1:"R²最高的模型一定是最好的"

❌ 错误解释:在比较多个回归模型时, 最大的模型就是最优模型,应该无条件选择 最大的那个。 ✅ 正确解释: 是衡量拟合优度的重要指标,但不是唯一标准。 最高的模型不一定最好,原因如下:(1) 在非线性回归中, 的比较有时会给出误导性的结论——某些函数形式可能在数据范围内拟合很好,但在数据范围外的行为完全不合理;(2) 没有考虑模型的复杂性,过于复杂的模型可能过拟合(overfitting);(3) 对异常值敏感,一个异常值可能显著影响 的值。选择最优模型应综合考虑 、==剩余标准差 ==、残差图的形态、参数的实际可解释性以及模型的外推合理性。

线性化变换后用最小二乘法得到的参数估计是最优的

来源:茆诗松等《概率论与数理统计教程》(第三版)p.438 + Seber, G.A.F. & Wild, C.J. (2003) Nonlinear Regression, Wiley, pp. 55-62 + Bates, D.M. & Watts, D.G. (1988) Nonlinear Regression Analysis and Its Applications, Wiley, pp. 22-30 + Fox, J. (2016) Applied Regression Analysis and Generalized Linear Models, 3rd ed., Sage, pp. 515-520 + CSDN 博客”线性化回归与非线性最小二乘的区别”2024

误区2:"线性化变换后用最小二乘法得到的参数估计是最优的"

❌ 错误解释:通过线性化变换将非线性函数化为线性函数后,用最小二乘法得到的参数估计就是原始非线性模型的最优参数估计。 ✅ 正确解释:这是一个非常常见的误解。线性化后的最小二乘法最小化的是变换后变量的残差平方和 ,而非原始变量的残差平方和 。由于变换函数(如对数、倒数)是非线性的,这两者并不等价。例如,对 取对数后做线性回归,最小化的是 ,这等价于最小化 ,即相对误差的平方和,而不是绝对误差的平方和。因此,线性化方法得到的参数估计,在原始尺度上只是”近似最优”的。如果需要原始尺度上的最优估计,应使用非线性最小二乘法(Nonlinear Least Squares, NLS),通过迭代算法(如 Gauss-Newton 法、Levenberg-Marquardt 法)直接最小化

任何非线性函数都可以通过变换化为线性函数

来源:茆诗松等《概率论与数理统计教程》(第三版)p.435 + Seber, G.A.F. & Wild, C.J. (2003) Nonlinear Regression, Wiley, pp. 5-12 + Ratkowsky, D.A. (1990) Handbook of Nonlinear Regression Models, Marcel Dekker, pp. 1-8 + CSDN 博客”哪些非线性函数不能线性化”2024 + 卡方笔记”非线性回归的分类”2024

误区3:"任何非线性函数都可以通过变换化为线性函数"

❌ 错误解释:所有非线性函数都可以找到合适的变量代换将其化为线性函数,从而用线性回归的方法处理。 ✅ 正确解释:只有特定形式的非线性函数才能通过变量代换化为线性函数,这类函数通常称为"内线性模型"(intrinsically linear model)。许多常见的非线性函数无法通过简单的变换化为线性函数,例如:(1) (三个参数的指数函数,无法同时线性化 );(2) (含三个参数的 Logistic 函数, 无法线性化);(3) (多项式与指数的混合函数)。对于这类"内非线性模型"(intrinsically nonlinear model),必须使用非线性最小二乘法,通过迭代算法直接在原始尺度上估计参数。

变换后数据的拟合优度等于原始数据的拟合优度

来源:茆诗松等《概率论与数理统计教程》(第三版)p.441 + Montgomery, D.C. et al. (2021) Introduction to Linear Regression Analysis, 6th ed., Wiley, pp. 175-180 + Draper, N.R. & Smith, H. (1998) Applied Regression Analysis, 3rd ed., Wiley, pp. 293-298 + CSDN 博客”为什么变换后R²不能直接比较”2024 + 知乎专栏”对数变换对回归分析的影响”2023

误区4:"变换后数据的拟合优度等于原始数据的拟合优度"

❌ 错误解释:在变换后的数据上计算的 (如 )可以直接用来评价原始数据上 的拟合效果。 ✅ 正确解释:变换后数据上的 和原始数据上的 不同的指标,不能混用。变换后的 衡量的是变换后变量之间的线性关系强度,而原始数据上的 衡量的是原始变量之间的拟合优度。由于变换函数是非线性的(如对数变换会压缩大值、拉伸小值),两者之间没有简单的对应关系。例如,对 取对数后做线性回归,变换后的 可能很高(0.99),但如果反变换回原始尺度计算 ,可能会低得多。因此,在比较不同曲线回归方程时,==必须统一使用原始数据计算 ==,如公式 (8.5.5) 和 (8.5.6) 所示。


七、习题精选

习题概览

编号题目来源知识点难度
1教材习题8.5双曲线函数的线性化变换★★☆
2教材习题8.5幂函数的线性化变换★★☆
3教材习题8.5指数函数的线性化变换★★☆
4教材习题8.5判断能否线性化★★☆
5教材习题8.5判断能否线性化★★☆
6教材习题8.5判断能否线性化★★☆
7教材习题8.5X射线杀菌实验完整回归计算★★★
82013华东师范大学432曲线回归线性化变换★★☆
92014华东师范大学432Box-Cox变换概念★★☆
102013华东师范大学432回归假设与变换方法★★★

习题1:双曲线函数的线性化变换

习题1 — 教材习题8.5:双曲线函数的线性化变换

设非线性回归模型为 ,现有如下观测数据:

123456
2.13.03.64.04.24.4

(a)通过适当的变量代换将模型线性化。 (b)用最小二乘法估计参数 。 (c)写出 关于 的非线性回归方程。


习题2:幂函数的线性化变换

习题2 — 教材习题8.5:幂函数的线性化变换

设非线性回归模型为 ,现有如下观测数据:

12345
1.23.46.19.513.8

(a)通过适当的变量代换将模型线性化。 (b)用最小二乘法估计参数 。 (c)写出 关于 的非线性回归方程。


习题3:指数函数的线性化变换

习题3 — 教材习题8.5:指数函数的线性化变换

设非线性回归模型为 ,现有如下观测数据:

012345
10.014.922.133.049.273.5

(a)通过适当的变量代换将模型线性化。 (b)用最小二乘法估计参数 。 (c)写出 关于 的非线性回归方程。


习题4:判断能否线性化

习题4 — 教材习题8.5:判断能否线性化

判断以下非线性函数能否通过变量代换化为线性函数。如果能,给出具体的变换方法;如果不能,说明理由。

(a)

(b)


习题5:判断能否线性化

习题5 — 教材习题8.5:判断能否线性化

判断以下非线性函数能否通过变量代换化为线性函数。如果能,给出具体的变换方法;如果不能,说明理由。

(a)(其中 为未知参数)

(b)(其中 为未知参数)


习题6:判断能否线性化

习题6 — 教材习题8.5:判断能否线性化

判断以下非线性函数能否通过变量代换化为线性函数。如果能,给出具体的变换方法;如果不能,说明理由。

(a)(Logistic 函数, 未知)

(b) 未知)


习题7:X射线杀菌实验完整回归计算

习题7 — 教材习题8.5:X射线杀菌实验完整回归计算

在X射线杀菌实验中,照射剂量 (单位:千伦琴)与存活细菌数 (单位:百个)的观测数据如下:

12345678
38524517512290685038

(a)绘制散点图,判断适合的函数形式。 (b)用指数函数 建立回归方程。 (c)用幂函数 建立回归方程。 (d)计算两种曲线的 ,比较拟合效果。


习题8:曲线回归线性化变换

习题8 — 2013华东师范大学432:曲线回归线性化变换

对自变量 和因变量 建立曲线回归方程 ,通常是将曲线回归方程转化为线性回归方程 后进行参数估计。如何转化?

A. B. C. D.


习题9:Box-Cox变换概念

习题9 — 2014华东师范大学432:Box-Cox变换概念

自变量 和因变量 建立一元回归模型。若 不服从正态分布,通常会考虑 Box-Cox 变换,这种变换是?

A. 对数变换 B. 广义幂变换 C. 线性变换 D. 三角函数变换


习题10:回归假设与变换方法

习题10 — 2013华东师范大学432:回归假设与变换方法

对自变量 和因变量 建立一元回归模型。若 不服从正态分布应如何处理?以下说法正确的有:

(1) 不需要服从正态分布,只需误差项 服从正态分布即可。 (2) 对 作适当变换后建立回归模型。 (3) 若 是定性数据(如成功/失败),应建立 logistic 回归模型。

A. 仅(1)正确 B. 仅(2)正确 C. (2)和(3)正确 D. (1)、(2)和(3)都正确



八、教材原文

以下为教材扫描版原文,可点击翻阅。


第八章 方差分析与回归分析/一元非线性回归