考虑代价敏感的高速公路偷逃费行为识别模型

U491; 为有效提升高速公路车辆偷逃通行费稽查效率,基于电子不停车收费(ETC)数据,结合K最近邻(KNN)和集成学习(Adaboost)算法及代价敏感学习机制,提出一种高速公路车辆偷逃费行为识别模型.针对原始ETC收费流水数据量大且冗余的特点,制定数据离散化和标准化处理规则,修复并规范数据形态后,提取两类逃费特征.通过分析ETC数据集遴选大车小标等7种逃费类型作为主要研究对象.针对逃费数据"高维"特点导致的模型分类效率低问题,通过Pearson与Spearman相关性分析和ReliefF重要性分析选取表现逃费特性的最佳特征子集.针对逃费车辆与正常车辆的类别"不...

Full description

Saved in:
Bibliographic Details
Published in华南理工大学学报(自然科学版) Vol. 52; no. 5; pp. 10 - 19
Main Authors 赵建东, 许慧玲, 吕行, 李平安, 黄诗音
Format Journal Article
LanguageChinese
Published 北京交通大学 综合交通运输大数据应用技术交通运输行业重点实验室,北京 100044%北京交通大学 交通运输学院,北京 100044%中公华通(北京)科技发展有限公司,北京 100088 01.05.2024
北京交通大学 交通运输学院,北京 100044
Subjects
Online AccessGet full text
ISSN1000-565X
DOI10.12141/j.issn.1000-565X.230078

Cover

More Information
Summary:U491; 为有效提升高速公路车辆偷逃通行费稽查效率,基于电子不停车收费(ETC)数据,结合K最近邻(KNN)和集成学习(Adaboost)算法及代价敏感学习机制,提出一种高速公路车辆偷逃费行为识别模型.针对原始ETC收费流水数据量大且冗余的特点,制定数据离散化和标准化处理规则,修复并规范数据形态后,提取两类逃费特征.通过分析ETC数据集遴选大车小标等7种逃费类型作为主要研究对象.针对逃费数据"高维"特点导致的模型分类效率低问题,通过Pearson与Spearman相关性分析和ReliefF重要性分析选取表现逃费特性的最佳特征子集.针对逃费车辆与正常车辆的类别"不平衡"现象所引发的模型过拟合问题,构建组合分类模型,在Adaboost算法中将KNN作为基分类器,先通过TomekLinks欠采样缓解不同类边界模糊问题,再引入代价敏感学习机制,提高模型对少数类(逃费车)的重视程度来缓解对多数类(正常车)的判别倾向.最后,对比不同分类模型对各类逃费事件的识别效果,验证融合代价敏感学习机制的KNN-Adaboost模型的性能.结果表明,该研究提出的模型识别精确率达0.98,召回率达0.96,F1系数达0.97,Kappa系数达0.95,较其他模型能更好地解决样本类不均衡问题,对少数类样本具有较高识别精度,可为提升高速公路收费稽查效率提供参考.
ISSN:1000-565X
DOI:10.12141/j.issn.1000-565X.230078