基于信息熵更新权重的数据流集成分类算法

TP391; 在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力.目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得.为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法.首先使用随机特征子空间对每个基分类器进行初始化来构建集成分类器;其次基于每个新到来的数据块构建一个新的基分类器来替换集成中权重最低的基分类器;然后基于信息熵的权重更新策略实时对基分类器中的权重进行更新;最后满足要求的基分类器参与加权投票,得到分类结果.将所提算法和几个经典学习...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学 Vol. 49; no. 3; pp. 92 - 98
Main Authors	夏源, 赵蕴龙, 范其林
Format	Journal Article
Language	Chinese
Published	南京航空航天大学计算机科学与技术学院南京211106%南京航空航天大学计算机科学与技术学院南京211106 2022 软件新技术与产业化协同创新中心南京210023
Subjects	数据流;概念漂移;信息熵;分类;集成算法
Online Access	Get full text
ISSN	1002-137X
DOI	10.11896/jsjkx.210200047

Cover

More Information
Summary:	TP391; 在动态的数据流中,由于其不稳定性以及存在概念漂移等问题,集成分类模型需要有及时适应新环境的能力.目前通常使用监督信息对基分类器的权重进行更新,以此来赋予符合当前环境的基分类器更高的权重,然而监督信息在真实数据流环境下无法立即获得.为了解决这个问题,文中提出了一种基于信息熵更新基分类器权重的数据流集成分类算法.首先使用随机特征子空间对每个基分类器进行初始化来构建集成分类器;其次基于每个新到来的数据块构建一个新的基分类器来替换集成中权重最低的基分类器;然后基于信息熵的权重更新策略实时对基分类器中的权重进行更新;最后满足要求的基分类器参与加权投票,得到分类结果.将所提算法和几个经典学习算法进行对比,实验结果表明,所提方法的分类准确性有着明显优势,并且适合多种类型的概念漂移环境.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.210200047