7.5 正态性检验

相关笔记7.1 假设检验的基本思想与概念 | 7.2 正态总体参数的假设检验 | 7.3 其他分布参数的假设检验 | 7.4 似然比检验与分布拟合检验 | 5.4 三大抽样分布 | 4.4 中心极限定理 | 2.5 常用连续分布

本节概览

本节介绍正态性检验的三种主要方法:正态概率纸检验(图形法)、Shapiro-Wilk检验(W检验,小样本最优)和Epps-Pulley检验(EP检验,大样本适用)。正态性检验是假设检验的重要应用之一,用于判断样本数据是否来自正态总体,是许多参数统计方法(如 检验、方差分析等)的前提条件。我国国家标准 GB/T 4882-2001《数据的统计处理和解释 正态性检验》对这三种方法进行了规范。

逻辑链条概述概率纸W检验EP检验变换对比汇总结构总览解题技巧易混淆点习题教材原文

前置依赖§7.1(假设检验框架)、§7.4(分布拟合检验)、§5.4(正态分布、次序统计量)、§4.4(正态近似)、§7.2(正态总体检验)、§7.3(大样本检验)

核心主线:正态性检验的核心问题是”数据是否来自正态分布”。正态概率纸通过图形直观判断;W检验通过衡量次序统计量与正态分布期望的相关性来检验;EP检验利用特征函数构造统计量。当数据不服从正态分布时,可通过适当的正态性变换(如对数变换)使变换后的数据近似正态。


一、正态性检验概述

§7.2中,我们讨论了在已知总体服从正态分布的前提下,如何对均值和方差进行假设检验。然而在实际应用中,“总体是否服从正态分布”本身就是一个需要检验的问题。许多统计方法(如 检验、 检验、方差分析等)都以正态性假设为前提,因此正态性检验具有重要的实际意义。

正态性检验的定义

定义 7.5.1 — 正态性检验

是来自总体 的样本,考虑假设检验问题

用于检验上述假设的方法称为正态性检验(Normality Test)。

正态性检验的意义

正态性检验在统计分析中具有基础性地位,其重要性体现在以下几个方面:

  1. 参数方法的前提§7.2中的 检验、 检验、 检验和 检验都要求总体服从正态分布。如果正态性假设不成立,这些检验的第一类错误概率可能偏离名义水平
  2. 抽样分布的依据§5.4中的 分布、 分布、 分布都是从正态总体导出的,正态性是这些分布成立的根本条件。
  3. 中心极限定理的补充:虽然中心极限定理保证了大样本下样本均值的近似正态性,但小样本情形下仍需直接检验正态性。

三种方法概述

我国国家标准 GB/T 4882-2001《数据的统计处理和解释 正态性检验》推荐了以下三种正态性检验方法:

方法全称适用样本量检验类型特点
正态概率纸Normal Probability Paper无严格限制图形法直观、简便,但主观性强
W检验Shapiro-Wilk 检验定量检验小样本最优正态性检验
EP检验Epps-Pulley 检验定量检验大样本适用,计算较复杂

方法选择建议

  • :只能使用正态概率纸(图形法),定量检验功效不足。
  • :优先使用 W 检验,功效最高。
  • :使用 EP 检验,或使用 D’Agostino 检验等大样本方法。

二、正态概率纸检验

正态概率纸检验是一种简单直观的图形方法,其核心思想是:如果数据来自正态分布,则在特殊的坐标纸(正态概率纸)上,数据点应近似落在一条直线上。

正态概率纸的构造原理

正态概率纸的构造基于标准正态分布的分位数函数。设 ,则标准化后

构造方法

  1. 横轴:等距刻度,表示观测值
  2. 纵轴:非等距刻度,表示标准正态分布的分位数 ,但标注的是累积概率

因此,如果 ,则 ,即

这说明 之间是线性关系。在正态概率纸上,纵轴已经做了 变换,因此正态数据点应落在一条直线上。

修正频率公式

在实际操作中,我们不知道真实的累积概率 ,需要用样本的修正频率来估计。设 为次序统计量,常用的修正频率公式有:

Blom 公式(推荐)

Weibull 公式

为什么需要修正?

直接使用 作为累积概率的估计会导致 ,而 ,无法在概率纸上描点。修正频率公式避免了端点处的无穷大问题,同时提供了更好的无偏估计。

描点判断方法(4步操作)

第一步:将样本观测值按从小到大排列,得到次序统计量

第二步:计算每个 对应的修正频率

第三步:在正态概率纸上描点

第四步:判断准则——如果各点近似在一条直线附近,则不拒绝 (正态性);如果点明显偏离直线(特别是两端),则拒绝

例 7.5.1 — 零件偏差的正态概率纸检验

从某批零件中随机抽取 10 个,测量其尺寸偏差(单位:mm),数据如下:

试用正态概率纸检验该批零件的尺寸偏差是否服从正态分布。

第一步:数据已按从小到大排列。

第二步:计算修正频率(Blom公式,):

110.50.0610
210.60.1585
310.70.2561
410.80.3537
510.90.4512
611.00.5488
711.10.6463
811.20.7439
911.30.8415
1011.50.9390

第三步:在正态概率纸上描点

第四步:观察散点图,各点近似在一条直线上,没有明显的系统性偏离。因此,在正态概率纸上不拒绝正态性假设

进一步,可拟合直线估计参数:直线斜率的倒数约为 ,纵轴 对应的横轴值约为 。从表中可见

例 7.5.2 — 电子元件寿命的正态概率纸检验与对数变换

对 15 个电子元件进行寿命试验(单位:小时),数据如下:

试用正态概率纸检验寿命数据的正态性。

按上述4步操作,在正态概率纸上描点后发现:数据点明显偏离直线,呈现右偏特征(上端弯曲向上)。因此拒绝正态性假设

考虑对数变换 ,变换后的数据为:

对变换后的数据重新描正态概率纸,各点近似在一条直线上。因此,原始数据服从对数正态分布,即


三、W检验(Shapiro-Wilk检验)

W检验由Shapiro和Wilk于1965年提出,是目前公认的小样本()正态性检验中功效最高的方法。其核心思想是衡量样本次序统计量与正态分布期望之间的相关程度

适用范围

时,W检验的功效会下降,此时应改用EP检验或其他大样本方法。

W统计量的定义

定义 7.5.2 — W统计量

为样本, 为次序统计量。定义Shapiro-Wilk统计量

其中 为系数,满足

定理:线性变换不变性

定理 7.5.1 — W统计量的线性变换不变性

),则基于 计算的 统计量等于基于 计算的 统计量,即

证明 (7.5.1)

[代入变换]

[分子展开]

因为 ,所以常数项消失。

[分母展开]

[比值计算]

定理的意义

该定理说明 统计量的值不依赖于数据的量纲和位置参数,它只衡量数据的”正态程度”而非具体参数值。因此 的分位数表对所有正态分布通用。

W统计量的推导过程

W统计量的构造基于正态分布下次序统计量的性质。设 为次序统计量。

第一步:次序统计量的期望与协方差

定义次序统计量的期望向量和协方差矩阵:

其中 只依赖于 ,不依赖于

第二步:相关系数角度

如果数据来自正态分布 ,则 ,即次序统计量 与期望 之间应存在线性关系。衡量这种线性关系强弱的自然指标是样本相关系数的平方

当数据来自正态分布时, 应接近

第三步:利用对称性简化

由于标准正态分布关于原点对称,次序统计量的期望满足 。利用这一对称性,可以将 简化为:

其中 是与 有关的系数,且

第四步:最优线性无偏估计(BLUE)

进一步,Shapiro和Wilk证明了在正态假设下, 的最优线性无偏估计(BLUE)为:

其中 确定。利用 的比值,可以得到检验正态性的统计量。

第五步:最终W统计量

经过标准化(使系数满足 ),最终得到:

其中系数 满足:

系数 的性质

  • (对称性)
  • 系数值已制成表格(见教材附表),无需手工计算

W统计量的取值范围

定理 7.5.2 — W统计量的取值范围

对任意样本 ),W统计量满足

且当 (正态性)成立时, 的分布仅依赖于样本量 ,不依赖于

证明 (7.5.2)

[分母为正]:分母 (至少有一个 )。

[Cauchy-Schwarz不等式]:由Cauchy-Schwarz不等式,

因此 。进一步利用 可证

[分布自由性]:由定理7.5.1的线性变换不变性,对任意 ,标准化变换 不改变 的值。因此 的分布不依赖于

拒绝域

W检验的拒绝域为:

其中 为临界值,可查附表7。当 的值越接近 ,数据越像来自正态分布。

判断准则

  • :在显著性水平 不拒绝 (数据与正态分布无显著差异)。
  • :在显著性水平 拒绝 (数据不服从正态分布)。
  • 注意: 的取值范围为 ,越接近 越好。

例 7.5.3 — 年降雨量的W检验

某地区连续 44 年的年降雨量数据(单位:mm)如下:

试用 W 检验(取 )检验年降雨量是否服从正态分布。

假设:年降雨量服从正态分布 vs :年降雨量不服从正态分布。

计算

  • 样本均值 mm
  • 样本方差 mm
  • 分母
  • 查系数表得 值,计算分子

因此

查表,查附表7得

判断,因此不拒绝 ,即在显著性水平 下,可以认为该地区年降雨量服从正态分布。


四、EP检验(Epps-Pulley检验)

EP检验由Epps和Pulley于1983年提出,适用于 的样本,尤其适合大样本情形。其核心思想是利用特征函数来构造检验统计量。

适用范围

与W检验不同,EP检验没有样本量上限,当 时尤为适用。

EP统计量的定义

定义 7.5.3 — EP统计量

为样本,定义Epps-Pulley统计量

等价地,EP统计量可写为更简洁的形式:

其中

EP统计量的渐近性质

定理 7.5.3 — EP统计量的渐近分布

(正态性)成立时,当 ,EP统计量 依分布收敛于某个与 无关的极限分布。因此,当 足够大时,可以使用 的分位数作为临界值的保守近似:

证明 (7.5.3)

[标准化不变性]:由于EP统计量基于标准化数据 计算,而标准化消除了位置和尺度参数的影响, 下的分布不依赖于

[渐近收敛]:EP统计量是样本均值型泛函的连续函数,由中心极限定理和Glivenko-Cantelli定理,当 时, 依概率收敛到其总体对应量。在 下,该极限值为 附近的一个常数,其波动渐近由极限分布控制。

[分位数单调性]:可以证明 关于 单调不增,因此使用 的分位数作为 的临界值是保守的(即不会增大犯第一类错误的概率)。

拒绝域

EP检验的拒绝域为:

其中 为临界值,可查附表11。当 的值越大,偏离正态分布越远。

线性插值法

当样本量 不在附表11中时,需要使用线性插值法估计临界值。设 ,且表中给出了 ,则:

大样本处理

时,附表11中没有对应的临界值。此时统一使用 的分位数作为保守估计:

例 7.5.4 — 人造丝纱线断裂强度的EP检验

对 25 根人造丝纱线进行断裂强度试验(单位:g),数据如下:

试用 EP 检验(取 )检验断裂强度是否服从正态分布。

假设:断裂强度服从正态分布 vs :断裂强度不服从正态分布。

标准化处理:首先将数据标准化为 ,其中

计算EP统计量

  • 计算
  • 计算

因此

查表,查附表11得

判断,因此拒绝 ,即断裂强度不服从正态分布。

对数变换:考虑对数变换 ,对变换后数据重新计算:

  • 标准化后计算得
  • 因此不拒绝 ,即 服从正态分布,原始数据服从对数正态分布。

五、正态性变换

当数据不服从正态分布时,一种常用的处理策略是对数据进行适当的变换,使变换后的数据近似服从正态分布。这种方法在工程和科学研究中应用广泛。

Box-Cox变换思想

定义 7.5.4 — Box-Cox变换族

Box-Cox变换是一族幂变换,定义为

其中 为变换参数,通过最大似然估计确定最优值。

Box-Cox变换的核心思想是:通过选择合适的 ,使变换后的数据 尽可能接近正态分布。当 时,Box-Cox退化为对数变换;当 时,退化为恒等变换(即不变换)。

常用正态性变换

1. 对数变换:

  • 适用场景:数据右偏(正偏),即存在较大的极端值。
  • 对应分布:原始数据 服从对数正态分布,即
  • 典型应用:收入数据、寿命数据、浓度数据等。
  • PDF关系:若 ,则

2. 倒数变换:

  • 适用场景:数据左偏(负偏),或数据为速率、时间倒数等。
  • 对应分布:原始数据 服从倒正态分布,即
  • 典型应用:反应时间数据、速度数据等。

3. 根号变换:

  • 适用场景:数据服从泊松分布或近似泊松分布(方差近似等于均值),或数据为非中心 分布。
  • 效果:稳定方差,使右偏分布接近正态。
  • 理论依据:若 (自由度较大时),则 近似服从正态分布。

对数正态分布的判定定理

定理 7.5.4 — 对数正态分布的判定

为正随机变量,则 ” 服从对数正态分布”等价于” 服从正态分布”。即

的期望和方差分别为

证明 (7.5.4)

[必要性]:设 ,令 ,则 。由变换法求 的密度:

这正是参数为 的对数正态分布的密度函数。

[充分性]:设 的密度为上述形式,令 ,由逆变换法:

[期望方差]:利用正态分布的矩母函数

变换后的正态性验证流程

对数据进行正态性变换后,必须重新进行正态性检验以验证变换效果。完整的验证流程如下:

原始数据 → 选择变换 → 变换后数据 → 正态性检验(W/EP) → 是否正态?
                                                      ↓ 是 → 使用参数方法
                                                      ↓ 否 → 尝试其他变换或使用非参数方法

变换选择的经验法则

  • 数据右偏程度轻微:尝试 变换
  • 数据右偏程度中等:尝试 变换
  • 数据右偏程度严重:尝试 变换
  • 不确定时:使用 Box-Cox 变换自动选择最优

六、三种检验方法对比汇总

对比表

特征正态概率纸W检验EP检验
全称Normal Probability PaperShapiro-Wilk TestEpps-Pulley Test
适用样本量无严格限制
检验类型图形法(定性)定量检验定量检验
检验统计量无(目视判断)(基于特征函数)
拒绝域点偏离直线
临界值表无需附表7附表11
优点直观、简便、无需计算小样本功效最高大样本适用,无上限
缺点主观性强,无法定量仅适用于 计算较复杂
提出者Shapiro & Wilk (1965)Epps & Pulley (1983)

方法选择决策树

样本量 n?
├── n < 8 → 正态概率纸(图形法)
├── 8 ≤ n ≤ 50 → W检验(Shapiro-Wilk)
└── n > 50 → EP检验(Epps-Pulley)

与卡方拟合优度检验的关系

§7.4中介绍的卡方拟合优度检验也可以用于正态性检验,但存在以下不足:

  1. 分组问题:卡方检验需要将数据分组,分组方式会影响检验结果。
  2. 参数估计:正态分布有两个未知参数(),需要先估计参数再检验,这会降低检验功效。
  3. 功效较低:对于正态性检验这一特定问题,卡方检验的功效不如W检验和EP检验。

因此,GB/T 4882-2001 推荐优先使用W检验和EP检验,而非卡方拟合优度检验。


七、知识结构总览

graph TD
    A[正态性检验] --> B[正态概率纸检验]
    A --> C[W检验]
    A --> D[EP检验]
    A --> E[正态性变换]
    B --> B1[Blom修正频率]
    B --> B2[描点判断]
    C --> C1[次序统计量期望]
    C --> C2[W统计量]
    C --> C3[拒绝域判断]
    D --> D1[特征函数]
    D --> D2[EP统计量]
    D --> D3[线性插值]
    E --> E1[对数变换]
    E --> E2[根号变换]
    E --> E3[Box-Cox变换]
    C1 --> F[正态分布性质]
    D1 --> F
    B1 --> F

八、核心思想与解题技巧

W检验的核心思想(相关系数角度)

W检验的本质是衡量次序统计量与正态分布期望之间的线性相关程度。可以这样理解:

  1. 如果数据来自正态分布 ,则 ,即 之间存在精确的线性关系
  2. 统计量可以看作是这种线性相关程度的度量。 越接近 ,线性关系越强,正态性越好。
  3. 分子 衡量了次序统计量与正态期望的”匹配程度”,分母 是数据的总变异。

类比:W检验就像检查一组学生的身高是否”均匀增长”。如果身高完全按正态分布的规律排列,就像学生按身高站队时间距非常规律, 就接近 ;如果有些学生”跳级”或”留级”(异常值),间距就会不规律, 就会减小。

EP检验的核心思想(特征函数角度)

EP检验基于正态分布的特征函数性质。正态分布 的特征函数为:

EP统计量利用样本特征函数与正态特征函数之间的偏差来构造检验。具体而言, 中的双重求和项 与正态分布的特征函数密切相关。

解题步骤模板

W检验标准解题步骤

  1. 建立假设:数据服从正态分布 vs :数据不服从正态分布。
  2. 排列数据:将样本值从小到大排列,得到次序统计量
  3. 计算统计量
    • 计算分母
    • 查系数表得 ,计算分子
    • 计算
  4. 查表判断:根据 查附表7得 ,比较
  5. 结论 不拒绝 拒绝

EP检验标准解题步骤

  1. 建立假设:同上。
  2. 标准化:计算
  3. 计算统计量
    • 计算
    • 计算
    • 计算
  4. 查表判断:根据 查附表11得 (必要时用线性插值)。
  5. 结论 不拒绝 拒绝

常见计算技巧

  1. 利用对称性简化W统计量计算:由于 ,计算分子时可以先配对:
  1. EP统计量的计算:双重求和共有 项,但可以利用对称性 减半计算量。

  2. 标准化先行:计算EP统计量前,务必先对数据标准化,否则结果不正确。


九、补充理解与易混淆点

p值大于0.05就证明数据服从正态分布

来源:茆诗松《概率论与数理统计》第三版 p359;PMID: PMC10830673(“Normality tests for continuous data”);domystats.com(“Understanding Normality Testing”);spssservices.com(“When to Use Normality Tests”);CSDN 统计学问答专区

误区1:"p值大于0.05就证明数据服从正态分布"

正确理解:p值大于0.05只能说明”没有足够的证据拒绝正态性”,而非”证明了正态性”。假设检验的逻辑是”不拒绝”而非”接受”。p值大于0.05可能是因为样本量太小(检验功效不足),也可能是因为数据确实近似正态。此外,正态性检验对样本量非常敏感:大样本下,即使数据与正态分布只有微小偏离,检验也会拒绝 。因此,应结合正态概率纸等图形方法综合判断。

正态概率纸上的点完全在一条直线上才能判断正态

来源:茆诗松《概率论与数理统计》第三版 p353;GB/T 4882-2001《数据的统计处理和解释 正态性检验》;mathpretty.com(“正态概率纸的使用方法”);CSDN 博客(“正态概率纸检验详解”);卡方核心笔记(正态性检验专题)

误区2:"正态概率纸上的点完全在一条直线上才能判断正态"

正确理解:由于随机波动的存在,即使数据确实来自正态分布,正态概率纸上的点也不会完全在一条直线上,而是在直线附近随机散布。判断标准是”各点是否系统地偏离直线”:如果偏差是随机的、无规律的,则不拒绝正态性;如果偏差呈现系统性模式(如S形曲线、两端弯曲等),则拒绝正态性。GB/T 4882-2001 指出,应重点关注两端的点是否偏离直线。

W检验适用于所有样本量

来源:茆诗松《概率论与数理统计》第三版 p355;Shapiro & Wilk (1965) “An analysis of variance test for normality”;CSDN 文库(“Shapiro-Wilk检验详解”);spssservices.com(“Shapiro-Wilk Test Guide”);domystats.com(“Normality Test Comparison”)

误区3:"W检验适用于所有样本量"

正确理解:W检验的适用范围为 。当 时,系数 的表值不可靠,检验功效极低;当 时,W检验的功效会逐渐下降,不再是最优选择。Shapiro和Wilk在原始论文(1965)中明确指出该检验是为小到中等样本量设计的。对于大样本(),应使用EP检验或D’Agostino检验。

修正频率公式是任意的

来源:茆诗松《概率论与数理统计》第三版 p354;Blom (1958) “Statistical Estimates and Transformed Beta Variables”;Weibull (1939) “The Phenomenon of Rupture in Solids”;mathpretty.com(“修正频率公式比较”);CSDN 博客(“Blom公式与Weibull公式详解”)

误区4:"修正频率公式是任意的,选哪个都一样"

正确理解:修正频率公式并非任意选取,而是有严格的理论依据。Blom公式 基于正态分布次序统计量的期望值的最优逼近;Weibull公式 基于均匀分布次序统计量的无偏估计。不同的公式适用于不同的场景:Blom公式在正态概率纸检验中表现最好(GB/T 4882-2001 推荐),Weibull公式在Q-Q图和分位数-分位数图中更为常用。选择不当可能导致判断偏差。

正态性检验失败就必须放弃参数方法

来源:茆诗松《概率论与数理统计》第三版 p359;PMID: PMC10830673(“Robustness of parametric methods”);domystats.com(“What to do when normality fails”);CSDN 文库(“正态性假设与稳健统计”);卡方核心笔记(非参数方法选择指南)

误区5:"正态性检验失败就必须放弃参数方法"

正确理解:正态性检验失败并不意味着参数方法完全不可用。首先,许多参数方法(如 检验)对正态性假设具有一定的稳健性(robustness),在中等偏度下仍能保持较好的第一类错误控制。其次,可以考虑以下替代策略:(1)对数据进行正态性变换(如对数变换);(2)使用自助法(Bootstrap)进行推断;(3)增加样本量以利用中心极限定理;(4)最后才考虑非参数方法(如Mann-Whitney U检验)。直接跳到非参数方法可能会损失检验功效。


十、习题精选

习题概览

编号类型来源知识点难度
1教材习题7.5(1)W检验
2教材习题7.5(2)W检验
3教材习题7.5(3)对数正态W检验中高
4教材习题7.5(4)EP检验中高
5教材例题改编正态概率纸判断
6教材例题改编对数变换W检验
7考研浙江大学2023-431W检验应用
8考研华东师大2022-432EP检验计算中高
9考研中科大2021-811正态概率纸判断
10考研武汉大学2024-806正态性变换选择中高

习题1 — 教材习题7.5(1):轴承内径的W检验

从一批轴承中随机抽取 15 个,测量其内径(单位:mm),数据如下:

试用 W 检验()检验轴承内径是否服从正态分布。

习题2 — 教材习题7.5(2):血红蛋白的W检验

测得 20 名健康成人血红蛋白含量(单位:g/L)如下:

试用 W 检验()检验血红蛋白含量是否服从正态分布。

习题3 — 教材习题7.5(3):岩石元素含量的对数正态W检验

测得某矿区 12 块岩石样品中某微量元素含量(单位:ppm)如下:

(1)试用 W 检验()检验该元素含量是否服从正态分布。 (2)若不服从,试对数据进行对数变换后重新检验。

习题4 — 教材习题7.5(4):EP检验

从某生产线上随机抽取 30 个产品,测量其某项质量指标,标准化后数据如下:

试用 EP 检验()检验该质量指标是否服从正态分布。

习题5 — 教材改编:正态概率纸判断题

以下两组数据分别在正态概率纸上描点后,描述了观察到的图形特征。请判断每组数据是否应拒绝正态性假设,并说明理由。

(1)数据A:各点近似在一条直线上,但第1个点和最后一个点分别偏离直线约0.5个单位,其余点偏离不超过0.1个单位。 (2)数据B:各点呈现明显的S形曲线,中间的点在直线上方,两端的点在直线下方。

习题6 — 教材改编:对数变换后的W检验

某工厂排放废水中某污染物浓度(单位:mg/L)的 18 次监测数据如下:

(1)直接用 W 检验()检验正态性。 (2)取对数变换后重新检验,并给出结论。

习题7 — 浙江大学2023-431:W检验综合应用

(浙江大学2023年研究生入学考试,科目代码431,概率论与数理统计)

设从某总体中抽取容量为 的样本,经计算得 W 统计量的值为 。 (1)在显著性水平 下,应作何结论? (2)若将显著性水平改为 ,结论是否改变?(已知 ) (3)说明W检验中”不拒绝 “与”接受 “的区别。

习题8 — 华东师大2022-432:EP检验计算

(华东师范大学2022年研究生入学考试,科目代码432,应用统计)

从某总体中抽取 的样本,标准化后计算EP统计量得 。 (1)已知附表11中 ,试用线性插值法求 。 (2)在 下给出检验结论。 (3)若样本量增至 ,应如何查表判断?

习题9 — 中科大2021-811:正态概率纸综合判断

(中国科学技术大学2021年研究生入学考试,科目代码811,概率论与数理统计)

在正态概率纸上对某组数据描点后,观察到以下特征:

  • 数据点整体近似在一条直线上
  • 但最左侧的2个点明显偏离直线,位于直线下方
  • 其余点紧密围绕直线

(1)这可能暗示数据具有什么分布特征? (2)如果怀疑数据存在异常值,应如何处理? (3)简述正态概率纸检验与W检验的优缺点互补关系。

习题10 — 武汉大学2024-806:正态性变换方法选择

(武汉大学2024年研究生入学考试,科目代码806,统计学)

对以下三组数据,分别推荐最合适的正态性变换,并说明理由:

(1)某城市居民年收入数据(单位:万元):右偏严重,最大值是最小值的200倍。 (2)某化学反应时间数据(单位:秒):左偏,多数值集中在高端。 (3)某路段车辆到达计数数据(每5分钟一辆):均值 方差,右偏。

要求:对每组数据说明(a)推荐变换,(b)理由,(c)变换后如何验证正态性。


十一、教材原文

以下为教材扫描版原文,可点击翻阅。


第七章 假设检验/正态性检验