集成降采样不平衡数据分类方法研究

TP181; 对不平衡数据分类问题进行了研究,提出了两种基于采样的不平衡数据分类方法:一种是采用FarthestFirst聚类降采样,另一种是对样本进行带权重的随机抽样,两种方法均获得了较佳的分类效果.提出了样本带权重随机抽样与分类器集成相结合的不平衡数据分类方法.该方法对训练集的小类样本分别加各种权重,再与大类样本分别合并后进行带权重的随机抽样,生成N份平衡的数据集,分别对基分类器进行训练,最终投票集成组合分类器.实验结果表明,训练集划分与分类器集成相结合的不平衡数据分类方法具有更好的分类效果....

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 7; no. 7; pp. 630 - 638
Main Authors 郭丽娟, 倪子伟, 江弋, 邹权
Format Journal Article
LanguageChinese
Published 厦门大学信息科学与技术学院,福建厦门,361005 2013
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1305012

Cover

More Information
Summary:TP181; 对不平衡数据分类问题进行了研究,提出了两种基于采样的不平衡数据分类方法:一种是采用FarthestFirst聚类降采样,另一种是对样本进行带权重的随机抽样,两种方法均获得了较佳的分类效果.提出了样本带权重随机抽样与分类器集成相结合的不平衡数据分类方法.该方法对训练集的小类样本分别加各种权重,再与大类样本分别合并后进行带权重的随机抽样,生成N份平衡的数据集,分别对基分类器进行训练,最终投票集成组合分类器.实验结果表明,训练集划分与分类器集成相结合的不平衡数据分类方法具有更好的分类效果.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1305012