结合样本局部密度的非平衡数据集成分类算法

TP391; 传统的过采样方法是解决非平衡数据分类问题的有效方法之一.基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD.在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE.LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 14; no. 2; pp. 274 - 284
Main Authors 杨浩, 陈红梅
Format Journal Article
LanguageChinese
Published 西南交通大学 信息科学与技术学院,成都,611756%西南交通大学 信息科学与技术学院,成都 611756 01.02.2020
云计算与智能技术高校重点实验室(西南交通大学),成都 611756
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1901017

Cover

More Information
Summary:TP391; 传统的过采样方法是解决非平衡数据分类问题的有效方法之一.基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD.在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE.LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成.在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1901017