假设检验

什么是假设检验？

假设检验是用来判断样本与样本、样本与总体的误差是由抽样误差引起还是本质差别造成的统计推断方法。

基本步骤

建立假设
选择检验统计量，给出拒绝域形式
选择显著性水平
给出拒绝域
作出判断

参数假设检验

考虑来自某个参数分布族${F(x,\theta)|\theta\in \Theta}$的样本$x_1,\cdots,x_n$，其中$\Theta$为参数空间。

设$\Theta_0\subset \Theta$，且$\Theta_0\neq \emptyset $
设$\Theta_1\subset \Theta$，$\Theta_0\cap \Theta_1=\emptyset$（一般是$\Theta_1=\Theta-\Theta_0=\Theta_0^c$）

则命题
$$H_0:\theta\in \Theta_0$$
称为一个假设或原假设或零假设（null hypothesis）。

命题
$$H_1:\theta\in\Theta_1$$
称为$H_0$的对立假设或备择假设（alternative hypothesis）。

$$H_0:\theta\in \Theta_0\quad \mathrm{vs} \quad H_1:\theta\in \Theta_1$$

双侧假设/双边假设：如
$$H_0:\theta=\theta_0\quad \mathrm{vs} \quad H_1:\theta\neq\theta_0$$
单侧假设/单边假设：如
$$H_0:\theta=\theta_0\quad \mathrm{vs} \quad H_1:\theta>\theta_0$$
或
$$H_0:\theta=\theta_0\quad \mathrm{vs} \quad H_1:\theta<\theta_0$$
或
$$H_0:\theta\geq\theta_0\quad \mathrm{vs} \quad H_1:\theta<\theta_0$$

检验假设即给出一个法则，按照法则根据给定的样本，决定接受$H_0$还是拒绝$H_0$，等价于把样本空间划分为互不相交的部分

拒绝域：$W$
- 当样本属于$W$时，拒绝$H_0$
接受域：$\bar{W}$
- 当样本属于$\bar{W}$时，接受$H_0$

通常通过检验统计量来判断样本所属的空间。

若以样本均值$\bar{x}$为检验统计量，则检验假设
$$H_0:\mu\geq 10\quad \mathrm{vs} \quad H_1:\mu<10$$
的拒绝域为
$$W={(x_1,\cdots,x_n)|\bar{x}\leq c}={\overline{x}\leq c}$$
其中$c$为临界值（待定；根据检验统计量的分布、假设检验的置信水平确定）。

如果$(x_1,\cdots,x_n)\in W$，则拒绝$H_0$
如果$(x_1,\cdots,x_n)\in \overline{W}$，则接受$H_0$

一个拒绝域唯一确定一个检验法则

一个检验法则也唯一确定一个拒绝域

错误

假设检验的两类错误

第一类错误（type Ⅰ Error）/ 拒真错误 / 错误拒绝 / false positive
$H_0$ is true but reject $H_0$
犯第一类错误概率：
$$\alpha=P(X\in W|H_0)$$
第二类错误（type Ⅱ Error）/ 取伪错误 / 错误接受
$H_0$ is not true but accept $H_0$
犯第二类错误概率：
$$\beta=P(X\in \overline{W}|H_1)$$

无法找到一个检验使得犯两类错误的概率都尽可能地小。

势函数/功效（power）

检验问题
$$H_0:\theta\in \Theta_0\quad \mathrm{vs} \quad H_1:\theta\in \Theta_1$$
的拒绝域为$W$，则样本观测值$X$落在拒绝域内的概率称为该检验的势函数或功效函数（power function）
$$g(\theta)=P_\theta(X\in W)$$
其中$\theta\in\Theta=\Theta_0\cup\Theta_1$。

显然有

$$
\begin{equation}
g(\theta)= \left{
\begin{array}{ll}
\alpha ( \theta ),& \quad \theta \in \Theta_0 \
1- \beta ( \theta ), & \quad \theta \in \Theta_1
\end{array}
\right.
\end{equation}
$$

$1-\beta$也称作统计功效（Statistical Power）（正确拒绝$H_0$的概率）。

在样本量给定的条件下，$\alpha$与$\beta$中一个减小必导致另一个增大
不可能同时控制一个检验的犯第一类错误、犯第二类错误的概率

假设检验的功效受以下因素的影响：

样本量$n$：其他条件保持不变，样本量越大，功效就越大
显著性水平$\alpha$：其他条件保持不变，显著性水平越低，功效就越大
两总体之间的差异：其他条件不变，总体参数的真实值和估计值之间的差异越大，功效就越大。也即，效应量（effect size）越大，功效就越大

统计功效的含义：

$H_1$分布下（备择假设成立的情况下），判断正确的把握是多少
有多大把握能够正确地拒绝原假设$H_0$

效应量（effect size）

样本间差异或相关程度的量化指标

常用的衡量方式：

标准均差（standardized mean difference）
几率（odd ratio）
相关系数（correlation coefficient）

事后检验（post hoc）：根据显著性水平（$\alpha$）、功效和样本量$n$，计算效应量
事前检验（prior）：根据显著性水平（$\alpha$）、功效和效应量，计算样本量$n$

标准均差

$$\theta = \frac{\mu_1 - \mu_2}{\sigma}$$

主要指标：

Cohen’s d效应量：两总体均值之间的标准差异
- 适用于两组样本的样本量和方差相似的情况
- 是一种标准的平均数差异的估计，与当前样本无关
  $$d=\frac{ \bar{x}1 - \bar{x}2 }{ s{pooled} }$$
  其中，
  $$s{pooled} = \sqrt{ \frac{ (n_1-1) s_1^2 + (n_2 -1)s_2^2 }{ n_1 + n_2 } } $$
Hedges’s g：是Cohen’s d方法的改进
- 适用于两组样本的样本量不同的情况
- 小样本情况，使用该方法
  $$g = \frac{ \bar{x}_1 - \bar{x}_2 }{s^*} $$
  其中，
  $$s^* = \sqrt{ \frac{s_1^2(n_1-1) + s_2^2(n_2 - 1) }{n_1 + n_2 - 2} }$$
Glass’s delta（$\Delta$）：和Cohen的方法类似，分母不同，分母是第二组样本的标准差。
- 适用于两组样本的方差不同的情况
  $$\Delta = \frac{\bar{x}1 - \bar{x}_2 }{s_2}$$
  其中，
  $$s_2^2 = \frac{1}{n_2 - 1}\sum{i=1}^{n_2} (x_i - \bar{x}_2)^2$$
Cramer’s Phi ($\Phi$) or V：适用于变量是类别型变量的情况
- 当类别型变量包含2个类别时，使用Cramer’s Phi
- 当类别型变量超过2个类别时，使用Cramer’s V
Cohen’s f2：用于测算方差分析、多元回归之类的效应量
$$f^2 = \frac{R^2}{ 1 - R^2}$$

几率比

几率比（Odd ratio）是实验组成功的几率相对对照组成功的几率的比值。

适用于二分类变量

	Frequency
	Success	Failure
Treatment Group 实验组	$a$	$b$
Control Group 对照组	$c$	$d$

效应量为
$$\mbox{Effect Size} = \frac{ad}{bc}$$

样本量

如何计算假设检验的最小样本量？

显著性检验

Fisher的显著性检验：仅限制犯第一类错误的概率。

对检验问题
$$H_0:\theta\in \Theta_0\quad \mathrm{vs} \quad H_1:\theta\in \Theta_1$$
如果一个检验满足对任意的$\theta\in\Theta_0$，都有
$$g(\theta)\leq \alpha$$
则称该检验为显著性水平为$\alpha$的显著性检验（水平为$\alpha$的检验）。

控制犯第一类错误的概率$\alpha$
在适当控制$\alpha$中制约$\beta$
$\alpha$的最常用选择为$\alpha=0.5$，此外还有$\alpha=0.1$或$\alpha=0.01$

一般情况下，寻找某对假设的显著性检验的步骤如下：

根据实际问题，建立假设$H_0\quad\mathrm{vs}\quad H_1$
选取一个合适的检验统计量$T(X)$，使当$H_0$成立时，$T$的分布完全已知，并根据$H_0$及$H_1$的特点，确定拒绝域$W$的形状
确定显著性水平$\alpha$
确定具体的拒绝域$W$
由样本观测值$x_1,\cdots,x_n$，计算检验统计量的值$T(x_1,\cdots,x_n)$，根据$T(x_1,\cdots,x_n)$是否属于$W$，作出判断

p值

在一个假设检验问题中，利用样本观测值能够作出拒绝原假设的最小的显著性水平称为检验的p值。

如果$p\leq \alpha$，则在显著性水平$\alpha$下拒绝$H_0$
如果$p>\alpha$，则在显著性水平$\alpha$下接受$H_0$

在进行检验假设时，可能计算得到的p值与显著性水平$\alpha$非常接近，这时就比较难作出判断。

检验方法

参数检验

两均值对比
- Z检验
  
  适用于样本量大、总体方差已知的样本
- Post not found: 假设检验-t检验 t检验
  
  适用于样本量小、总体方差未知的样本

非参数检验

两均值对比
- Post not found: 假设检验-U检验 Mann-Whitney U检验

	功能	正态性	不服从正态分布时	方差齐性
单样本t检验	与某数字对比	服从正态分布	单样本Wilcoxon检验
配对样本t检验	配对数据差异	差值服从正态分布	配对Wilcoxon检验
独立样本t检验	两组数据的差异	两组数据都服从正态分布	Mann-Whitney U检验	要求同方差

笔试题

假设检验基本思想的依据是：小概率事件原理
来自：小红书2020校招数据分析笔试题卷一

Skye

统计学 | 假设检验 Hypothesis Testing