基于邻域一致性的异常检测序列集成方法

TP391.4; 异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等.数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果.由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用.大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足.集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性.文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency Based Sequential Ensemble Method for...

Full description

Saved in:
Bibliographic Details
Published in计算机科学 Vol. 49; no. 1; pp. 146 - 152
Main Authors 刘意, 毛莺池, 程杨堃, 高建, 王龙宝
Format Journal Article
LanguageChinese
Published 河海大学计算机与信息学院 南京211100%水利部水利大数据重点实验室 南京211100 2022
Subjects
Online AccessGet full text
ISSN1002-137X
DOI10.11896/jsjkx.201000156

Cover

More Information
Summary:TP391.4; 异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等.数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果.由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用.大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足.集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性.文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency Based Sequential Ensemble Method for Outlier Detection,LCSE).首先基于多样性构造异常检测基本模型,其次根据全局集成一致性筛选出异常候选点,最后考虑数据局部邻域相关性选择并组合基本模型结果.通过实验验证,LCSE相比传统方法异常检测的准确率平均提升了20.7%,与集成算法LSCP_AOM和iForest相比,性能(AUC)平均提升了3.6%,因此其性能优于其他集成方法和神经网络方法.
ISSN:1002-137X
DOI:10.11896/jsjkx.201000156