基于MapReduce虚拟机的Deep Web数据源发现方法

TP393; 为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法.基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试.实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性....

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 32; no. 7; pp. 189 - 195
Main Authors 辛洁, 崔志明, 赵朋朋, 张广铭, 鲜学丰
Format Journal Article
LanguageChinese
Published 苏州大学智能信息处理及应用研究所,江苏苏州,215006 2011
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.3969/j.issn.1000-436X.2011.07.022

Cover

More Information
Summary:TP393; 为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法.基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试.实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性.
ISSN:1000-436X
DOI:10.3969/j.issn.1000-436X.2011.07.022