面向回收信息的线上线下多源异构数据融合系统

TP391; 资源循环利用产业的废旧产品回收过程中多系统协同工作会产生大量多源异构数据,针对废旧产品线上线下回收信息难以融合并有效利用的问题,提出了一种面向回收信息的线上线下多源异构数据融合系统.首先,系统采用Web API接口实现线上线下多源异构数据的数据接入,通过数据解析、数据清洗及数据转换等步骤完成对多源异构数据的预处理.其次,针对现有基于聚类分析的数据融合方法在融合过程中往往还需预先指定聚类簇数的问题,提出了一种基于多目标聚类的融合方法,以在融合过程中自动确定聚类簇数.通过对预处理后的数据进行特征选择、标签编码、数据转换和归一化处理,结合多目标聚类算法完成对部分典型数据的特征提取与聚类...

Full description

Saved in:
Bibliographic Details
Published in计算机科学 Vol. 51; no. z2; pp. 527 - 533
Main Authors 仇明鑫, 雷帅, 柳先辉, 张颖瑶
Format Journal Article
LanguageChinese
Published 同济大学电子与信息工程学院 上海 201804 2024
Subjects
Online AccessGet full text
ISSN1002-137X
DOI10.11896/jsjkx.240100095

Cover

More Information
Summary:TP391; 资源循环利用产业的废旧产品回收过程中多系统协同工作会产生大量多源异构数据,针对废旧产品线上线下回收信息难以融合并有效利用的问题,提出了一种面向回收信息的线上线下多源异构数据融合系统.首先,系统采用Web API接口实现线上线下多源异构数据的数据接入,通过数据解析、数据清洗及数据转换等步骤完成对多源异构数据的预处理.其次,针对现有基于聚类分析的数据融合方法在融合过程中往往还需预先指定聚类簇数的问题,提出了一种基于多目标聚类的融合方法,以在融合过程中自动确定聚类簇数.通过对预处理后的数据进行特征选择、标签编码、数据转换和归一化处理,结合多目标聚类算法完成对部分典型数据的特征提取与聚类,并对全量及增量数据进行基于欧氏距离的数据匹配.最后,系统采用了基于MyCat中间件及MySQL主从复制的分布式数据库方案,以实现融合数据的存储与共享交换.测试表明,该数据融合系统可以实现对废旧产品线上线下多源异构回收信息的数据融合及共享交换,同时,相比基于K-Means的数据融合方法,所提出的基于多目标聚类的数据融合方法在不同数据集上都能够自动确定最优聚类簇数,并且能够获得不差于K-Means融合方法的簇内紧密性和簇间分离性.
ISSN:1002-137X
DOI:10.11896/jsjkx.240100095