基于属性值序列图模型的deep Web新数据发现策略
TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步....
Saved in:
Published in | 通信学报 Vol. 37; no. 3; pp. 20 - 32 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
2016
苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104 苏州大学智能信息处理及应用研究所,江苏 苏州 215006 苏州市职业大学计算机工程学院,江苏 苏州 215104 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104 |
Subjects | |
Online Access | Get full text |
ISSN | 1000-436X |
DOI | 10.11959/j.issn.1000-436x.2016049 |
Cover
Summary: | TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步. |
---|---|
ISSN: | 1000-436X |
DOI: | 10.11959/j.issn.1000-436x.2016049 |