结合样本局部密度的非平衡数据集成分类算法
TP391; 传统的过采样方法是解决非平衡数据分类问题的有效方法之一.基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD.在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE.LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类...
Saved in:
Published in | 计算机科学与探索 Vol. 14; no. 2; pp. 274 - 284 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
西南交通大学 信息科学与技术学院,成都,611756%西南交通大学 信息科学与技术学院,成都 611756
01.02.2020
云计算与智能技术高校重点实验室(西南交通大学),成都 611756 |
Subjects | |
Online Access | Get full text |
ISSN | 1673-9418 |
DOI | 10.3778/j.issn.1673-9418.1901017 |
Cover
Summary: | TP391; 传统的过采样方法是解决非平衡数据分类问题的有效方法之一.基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD.在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE.LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成.在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强. |
---|---|
ISSN: | 1673-9418 |
DOI: | 10.3778/j.issn.1673-9418.1901017 |