基于属性值序列图模型的deep Web新数据发现策略

TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步....

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 37; no. 3; pp. 20 - 32
Main Authors 鲜学丰, 崔志明, 赵朋朋, 方立刚, 杨元峰, 顾才东
Format Journal Article
LanguageChinese
Published 苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104 2016
苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
苏州大学智能信息处理及应用研究所,江苏 苏州 215006
苏州市职业大学计算机工程学院,江苏 苏州 215104
江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.11959/j.issn.1000-436x.2016049

Cover

More Information
Summary:TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步.
ISSN:1000-436X
DOI:10.11959/j.issn.1000-436x.2016049