合成少数类过采样技术
类不平衡
类不平衡(Class-imbalance)是指在训练分类器时所使用的训练数据的类别分布不均。
一个二分类问题,训练数据集有1000个样本
-
理想情况:正类和负类样本的数量相差不多
-
类不平衡:如果正类样本有990个,而负类样本只有10个
-
把样本数量过少的类别称为少数类
-
把样本数量较多的类别称为多数类
类不平衡的解决方案有:
- 过采样(Oversampling):对少数类进行过采样,合成新的样本来缓解类不平衡
- 欠采样(Undersampling):对多数类进行欠采样,抛弃一些样本来缓解类不平衡
SMOTE
合成少数类过采样技术(SMOTE,Synthetic Minority Oversampling Technique),基于随机过采样算法的一种数据不平衡改进方案。
Chawla N V , Bowyer K W , Hall L O , et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357.