基于McDiarmid界的概念漂移数据流分类算法

TP301; 数据流中的概念漂移会导致已有的分类模型性能显著下降.目前处理概念漂移的数据流分类算法大都只针对单一类型的概念漂移(如突变型、渐变型或重复型等),难以同时适应不同场景.为此,提出了一种新的适于多类型概念漂移的数据流分类算法.该算法通过双层窗口保存当前最新的分类结果,根据模糊集隶属度函数对窗口中数据分配权重并计算加权错误率,然后利用McDiarmid界分析当前窗口和过去窗口内错误率的差异δ,根据δ是否具有显著性检测概念漂移.检测到漂移后,使用半参数对数似然算法检验当前概念是否为过去概念的重现,进而决定是否复用旧分类器.实验结果表明,与以往同类算法相比,所提算法在漂移检测延迟、误报率、...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 15; no. 10; pp. 1990 - 2001
Main Authors 梁斌, 李光辉
Format Journal Article
LanguageChinese
Published 物联网技术应用教育部工程研究中心,江苏 无锡 214122 01.10.2021
江南大学 人工智能与计算机学院,江苏 无锡 214122
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.2006100

Cover

More Information
Summary:TP301; 数据流中的概念漂移会导致已有的分类模型性能显著下降.目前处理概念漂移的数据流分类算法大都只针对单一类型的概念漂移(如突变型、渐变型或重复型等),难以同时适应不同场景.为此,提出了一种新的适于多类型概念漂移的数据流分类算法.该算法通过双层窗口保存当前最新的分类结果,根据模糊集隶属度函数对窗口中数据分配权重并计算加权错误率,然后利用McDiarmid界分析当前窗口和过去窗口内错误率的差异δ,根据δ是否具有显著性检测概念漂移.检测到漂移后,使用半参数对数似然算法检验当前概念是否为过去概念的重现,进而决定是否复用旧分类器.实验结果表明,与以往同类算法相比,所提算法在漂移检测延迟、误报率、分类准确率和运行时间等指标上均有一定优势.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.2006100