基于加权网格和信息熵的并行密度聚类算法

TP311; 针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法.首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩展策略(NE)用于构建每个数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE)来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCORE-MR),从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法(MECORE-...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 14; no. 12; pp. 2094 - 2107
Main Authors 胡健, 徐锴滨, 毛伊敏
Format Journal Article
LanguageChinese
Published 江西理工大学 应用科学学院 信息工程系,江西 赣州 341000%江西理工大学 信息工程学院,江西 赣州 341000 01.12.2020
江西理工大学 信息工程学院,江西 赣州 341000
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1912034

Cover

Abstract TP311; 针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法.首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩展策略(NE)用于构建每个数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE)来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCORE-MR),从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法(MECORE-MR),用于加快合并局部簇的收敛速度,提升了基于密度的聚类算法对局部簇合并的效率.实验结果表明,DBWGIE-MR算法的聚类效果更佳,且在较大规模的数据集下算法的并行化性能更好.
AbstractList TP311; 针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法.首先提出自适应网格划分策略(ADG)来划分网格单元;其次提出邻居网格扩展策略(NE)用于构建每个数据分区的加权网格,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE)来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCORE-MR),从而加快获取局部簇;最后提出了基于并查集的并行合并局部簇算法(MECORE-MR),用于加快合并局部簇的收敛速度,提升了基于密度的聚类算法对局部簇合并的效率.实验结果表明,DBWGIE-MR算法的聚类效果更佳,且在较大规模的数据集下算法的并行化性能更好.
Author 徐锴滨
毛伊敏
胡健
AuthorAffiliation 江西理工大学 信息工程学院,江西 赣州 341000;江西理工大学 应用科学学院 信息工程系,江西 赣州 341000%江西理工大学 信息工程学院,江西 赣州 341000
AuthorAffiliation_xml – name: 江西理工大学 信息工程学院,江西 赣州 341000;江西理工大学 应用科学学院 信息工程系,江西 赣州 341000%江西理工大学 信息工程学院,江西 赣州 341000
Author_FL HU Jian
MAO Yimin
XU Kaibin
Author_FL_xml – sequence: 1
  fullname: HU Jian
– sequence: 2
  fullname: XU Kaibin
– sequence: 3
  fullname: MAO Yimin
Author_xml – sequence: 1
  fullname: 胡健
– sequence: 2
  fullname: 徐锴滨
– sequence: 3
  fullname: 毛伊敏
BookMark eNo9js1Kw0AAhPdQwVr7Dl49JO5fNpujFP-g4EXPZTfZlUbZgquox6L0IEWoIEJBbC8eLSIKRsWX6SZ9DCOKMDAwH8zMAqiYjlEALCHokzDkK6nfttb4iIXEiyjiPooQhoRWQPU_mwd1a9sSBpRiFDJeBZG7z6bZlbsc5XfnxecgH3246_70a5x3J0XvpRheuLfX2bjvJj2XPcy6w-LpvXi8zZ9vFsGcFgdW1f-8BnbX13Yam15ze2Orsdr0LIIUezpKYqkVUVwFWErGJOUkgVoLLWNJ4gBzRSgLmdAJEawE5bcIU0mQ4jJhpAaWf3tPhNHC7LXSzvGhKRdbqU33T8-OLIYYoh-Rb6vuYyw
ClassificationCodes TP311
ContentType Journal Article
Copyright Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
Copyright_xml – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
DBID 2B.
4A8
92I
93N
PSX
TCJ
DOI 10.3778/j.issn.1673-9418.1912034
DatabaseName Wanfang Data Journals - Hong Kong
WANFANG Data Centre
Wanfang Data Journals
万方数据期刊 - 香港版
China Online Journals (COJ)
China Online Journals (COJ)
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitle_FL Parallel Density-Based Clustering Algorithm by Using Weighted Grid and Information Entropy
EndPage 2107
ExternalDocumentID jsjkxyts202012012
GrantInformation_xml – fundername: The National Key Research and Development Program of China under Grant No.2018YFC1504705; the Na-tional Natural Science Foundation of China under Grant No.41562019; the Science and Technology Founda-tion of Jiangxi Provincial Department of Education under Grant Nos.GJJ151528,GJJ151531
  funderid: (国家重点研发计划); (国家自然科学基金); (江西省教育厅科技项目)
GroupedDBID 2B.
4A8
92I
93N
ALMA_UNASSIGNED_HOLDINGS
M~E
PSX
TCJ
ID FETCH-LOGICAL-s1042-f9dcbfe3e8e52bb66b483d0ffafbcb3c528e34676afd3a60ff442924b31e8bd63
ISSN 1673-9418
IngestDate Thu May 29 04:00:17 EDT 2025
IsPeerReviewed true
IsScholarly true
Issue 12
Keywords 信息熵
密度聚类
加权网格
大数据
Language Chinese
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-s1042-f9dcbfe3e8e52bb66b483d0ffafbcb3c528e34676afd3a60ff442924b31e8bd63
PageCount 14
ParticipantIDs wanfang_journals_jsjkxyts202012012
PublicationCentury 2000
PublicationDate 2020-12-01
PublicationDateYYYYMMDD 2020-12-01
PublicationDate_xml – month: 12
  year: 2020
  text: 2020-12-01
  day: 01
PublicationDecade 2020
PublicationTitle 计算机科学与探索
PublicationTitle_FL Journal of Frontiers of Computer Science & Technology
PublicationYear 2020
Publisher 江西理工大学 应用科学学院 信息工程系,江西 赣州 341000%江西理工大学 信息工程学院,江西 赣州 341000
江西理工大学 信息工程学院,江西 赣州 341000
Publisher_xml – name: 江西理工大学 应用科学学院 信息工程系,江西 赣州 341000%江西理工大学 信息工程学院,江西 赣州 341000
– name: 江西理工大学 信息工程学院,江西 赣州 341000
SSID ssib054421768
ssib002040941
ssib002423894
ssib051375751
ssib023646573
ssib036438069
ssib002040926
Score 2.2785172
Snippet TP311; 针对大数据下基于密度的聚类算法中存在的数据网格划分不合理,聚类结果准确度不高以及并行化效率较低等问题,提出了基于MapReduce和加权网格信息熵的DBWGIE-MR算法....
SourceID wanfang
SourceType Aggregation Database
StartPage 2094
Title 基于加权网格和信息熵的并行密度聚类算法
URI https://d.wanfangdata.com.cn/periodical/jsjkxyts202012012
Volume 14
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVEBS
  databaseName: Inspec with Full Text
  issn: 1673-9418
  databaseCode: ADMLS
  dateStart: 20200501
  customDbUrl:
  isFulltext: true
  dateEnd: 99991231
  titleUrlDefault: https://www.ebsco.com/products/research-databases/inspec-full-text
  omitProxy: false
  ssIdentifier: ssib002423894
  providerName: EBSCOhost
– providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  issn: 1673-9418
  databaseCode: M~E
  dateStart: 20070101
  customDbUrl:
  isFulltext: true
  dateEnd: 99991231
  titleUrlDefault: https://road.issn.org
  omitProxy: true
  ssIdentifier: ssib054421768
  providerName: ISSN International Centre
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3daxNBED9qfPFFFBW_EXGfwsW7_brdx7v0QhHqU4t9K7fJnVIhgklB-yAUpQ9SBAURCmL74qNFRMGq-M80Sf8MZzaXy_VDSAvh2NudnZnfTNiZvdxmHOeO8f2U04S7OoP0jTd55qqESVeaRBvtGQiJeMB59r6cmef3FsTCVOVB6a2l5a6pNVeOPFdyEq9CH_gVT8kew7MFU-iANvgXruBhuE7kYxILohskCknM8api7FEhCT0SS6KniWIkDkg0TbSPPdAf1e0sSlTdzmqQ0A4pn4QNJFaSRAIbGhhyJI40iSSJFVIqOx0ogQyHQJYdgulAj7J8EkXYCGOiA-QcMTKscDlKgi2r2Motkem6BQI9gdUWpExb5qCkstAkXkNqpXBojL4sVj6z_ITFIcYjoCIIAHNoojlOQ4UiEqoxiUQ4OrKC6mg9VAYYNcpPROjBt0ssIx_Nj2gEGhJt5o0ME2AnguAIaISmmhsNdEFqGFNHQS4aoLUGpNWjXFUICZCLskYHWwM6Wj-sXRVb4NiQ5TN1XIXcwsMq3eLEYCbR6iCYY6pXCpsyYK7meSQdxVVeXj9oOUp6w8LWecZF88LHB6M5CwJloznKqBUyar72qZc_At__X-lLnaXHz553O_it8PFzyjlNIdxjTZfZF_E4L4XQpcv7arzn-w54QyJfBCossiDFOM-HW6Y8WewDhM8C_P2yuOccdvrDY7gjrYdvESKku_8DZM8NtrOk_bCU4s6dc87me9Nb4XChOe9MrTy64Ojep53dnTe915v9jy8Hf972N3_33q3v_t3qr24P1r4PNl71fv7Y21rvba_1dj7vrW4Mvv4afPnQ__b-ojPfiOfqM25eb8Xt-HhKL9OtpslSlqpUUGOkNFyxlpdlSWaahjUFVSmDxEomWYslEgY4FrvjhvmpMi3JLjmV9pN2ehmgUqNlqqhuGcEDL00CblTLExn1pAoyecW5nUNdzNfTzuIh512dhOiac2a8Blx3Kt2ny-kN2Cd0zU3r83-qMMLx
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8E%E5%8A%A0%E6%9D%83%E7%BD%91%E6%A0%BC%E5%92%8C%E4%BF%A1%E6%81%AF%E7%86%B5%E7%9A%84%E5%B9%B6%E8%A1%8C%E5%AF%86%E5%BA%A6%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95&rft.jtitle=%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6%E4%B8%8E%E6%8E%A2%E7%B4%A2&rft.au=%E8%83%A1%E5%81%A5&rft.au=%E5%BE%90%E9%94%B4%E6%BB%A8&rft.au=%E6%AF%9B%E4%BC%8A%E6%95%8F&rft.date=2020-12-01&rft.pub=%E6%B1%9F%E8%A5%BF%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6+%E5%BA%94%E7%94%A8%E7%A7%91%E5%AD%A6%E5%AD%A6%E9%99%A2+%E4%BF%A1%E6%81%AF%E5%B7%A5%E7%A8%8B%E7%B3%BB%2C%E6%B1%9F%E8%A5%BF+%E8%B5%A3%E5%B7%9E+341000%25%E6%B1%9F%E8%A5%BF%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6+%E4%BF%A1%E6%81%AF%E5%B7%A5%E7%A8%8B%E5%AD%A6%E9%99%A2%2C%E6%B1%9F%E8%A5%BF+%E8%B5%A3%E5%B7%9E+341000&rft.issn=1673-9418&rft.volume=14&rft.issue=12&rft.spage=2094&rft.epage=2107&rft_id=info:doi/10.3778%2Fj.issn.1673-9418.1912034&rft.externalDocID=jsjkxyts202012012
thumbnail_s http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fjsjkxyts%2Fjsjkxyts.jpg