基于属性值序列图模型的deep Web新数据发现策略

TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步....

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 37; no. 3; pp. 20 - 32
Main Authors 鲜学丰, 崔志明, 赵朋朋, 方立刚, 杨元峰, 顾才东
Format Journal Article
LanguageChinese
Published 苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104 2016
苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
苏州大学智能信息处理及应用研究所,江苏 苏州 215006
苏州市职业大学计算机工程学院,江苏 苏州 215104
江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.11959/j.issn.1000-436x.2016049

Cover

Abstract TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步.
AbstractList TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步.
Author 鲜学丰
崔志明
赵朋朋
杨元峰
方立刚
顾才东
AuthorAffiliation 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州大学智能信息处理及应用研究所,江苏 苏州 215006;苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州市职业大学计算机工程学院,江苏 苏州 215104
AuthorAffiliation_xml – name: 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州大学智能信息处理及应用研究所,江苏 苏州 215006;苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104;苏州市职业大学计算机工程学院,江苏 苏州 215104
Author_FL CUI Zhi-ming
FANG Li-gang
XIAN Xue-feng
YANG Yuan-feng
ZHAO Peng-peng
GU Cai-dong
Author_FL_xml – sequence: 1
  fullname: XIAN Xue-feng
– sequence: 2
  fullname: CUI Zhi-ming
– sequence: 3
  fullname: ZHAO Peng-peng
– sequence: 4
  fullname: FANG Li-gang
– sequence: 5
  fullname: YANG Yuan-feng
– sequence: 6
  fullname: GU Cai-dong
Author_xml – sequence: 1
  fullname: 鲜学丰
– sequence: 2
  fullname: 崔志明
– sequence: 3
  fullname: 赵朋朋
– sequence: 4
  fullname: 方立刚
– sequence: 5
  fullname: 杨元峰
– sequence: 6
  fullname: 顾才东
BookMark eNo1jz1Lw0Ach2-oYK39Djo4Jv7vLne5WwQpvkHBpaBbuUsu0iJXMYoZOzgIYotDKyhUHEQXJa5B_DRe8jUUX6YfPMPz8FtANTuwBqFlDD7GksnVvt9LU-tjAPACyjOfAOYQyBqq_7P9edRM054GhmnIgeI6WnP3xWcxcm-zcvjkhu-uGLuLG3f3UT4_uNlldXseG3O0tGd0Oc3LSV5evbrxdTXKq5dpNXlcRHOJOkxN828bqLO50Wlte-3drZ3WetuLWEg9KoSiMUtURFgsBCGUca6pSkBog4EIKUhkFI81MzJmBiSwQAcJEVqTUGnaQCu_2jNlE2UPuv3B6bH9DnZPskz_HKUAlH4BuR1gyQ
ClassificationCodes TP392
ContentType Journal Article
Copyright Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
Copyright_xml – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
DBID 2B.
4A8
92I
93N
PSX
TCJ
DOI 10.11959/j.issn.1000-436x.2016049
DatabaseName Wanfang Data Journals - Hong Kong
WANFANG Data Centre
Wanfang Data Journals
万方数据期刊 - 香港版
China Online Journals (COJ)
China Online Journals (COJ)
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitle_FL Deep Web new data discovery strategy based on the graph model of data attribute value lists
EndPage 32
ExternalDocumentID txxb201603003
GrantInformation_xml – fundername: 国家自然科学基金资助项目; 江苏省自然科学基金资助项目(No.BK2012164).苏州市科技计划基金资助项目(No.SYG201342,No.SYG201343,No.SS201344)The National Natural Science Foundation of China; The Natural Science Foundation of Jiangsu Province; Suzhou Foundation for Development of Science and Technology
  funderid: (61440053,61472268,41201338); (61440053,61472268,41201338); (BK2012164); (SYG201342,SYG201343,SS201344)
GroupedDBID -0Y
2B.
4A8
92I
93N
ALMA_UNASSIGNED_HOLDINGS
CCEZO
CUBFJ
GROUPED_DOAJ
PSX
TCJ
ID FETCH-LOGICAL-c573-388a3d5fac25d88223566b3af08be1028982cea6db5e9d5e09054b4f28bb27ab3
ISSN 1000-436X
IngestDate Thu May 29 04:00:47 EDT 2025
IsPeerReviewed false
IsScholarly true
Issue 3
Keywords new data discovery
data acquisition
数据获取
deep Web
新数据发现
Language Chinese
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-c573-388a3d5fac25d88223566b3af08be1028982cea6db5e9d5e09054b4f28bb27ab3
PageCount 13
ParticipantIDs wanfang_journals_txxb201603003
PublicationCentury 2000
PublicationDate 2016
PublicationDateYYYYMMDD 2016-01-01
PublicationDate_xml – year: 2016
  text: 2016
PublicationDecade 2010
PublicationTitle 通信学报
PublicationTitle_FL Journal on Communications
PublicationYear 2016
Publisher 苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
苏州大学智能信息处理及应用研究所,江苏 苏州 215006
苏州市职业大学计算机工程学院,江苏 苏州 215104
江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
Publisher_xml – name: 江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
– name: 苏州大学智能信息处理及应用研究所,江苏 苏州 215006%苏州大学智能信息处理及应用研究所,江苏 苏州,215006%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
– name: 苏州大学智能信息处理及应用研究所,江苏 苏州 215006
– name: 苏州市职业大学计算机工程学院,江苏 苏州 215104
– name: 苏州市职业大学计算机工程学院,江苏 苏州 215104%江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏 苏州 215104
SSID ssib051376031
ssj0002912165
ssib058759023
ssib001102965
ssib023646527
ssib023168036
ssib036439991
ssib050281523
ssib000968473
Score 2.098468
Snippet TP392; 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性...
SourceID wanfang
SourceType Aggregation Database
StartPage 20
Title 基于属性值序列图模型的deep Web新数据发现策略
URI https://d.wanfangdata.com.cn/periodical/txxb201603003
Volume 37
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  issn: 1000-436X
  databaseCode: M~E
  dateStart: 19800101
  customDbUrl:
  isFulltext: true
  dateEnd: 99991231
  titleUrlDefault: https://road.issn.org
  omitProxy: true
  ssIdentifier: ssib058759023
  providerName: ISSN International Centre
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3Pa9VAEA6lgngRRcWfpYJ7Kq9uNtlk9yJs0jyKB08VeytJXqKnp-grlB6kBw-C2OKhFRQqHkQvSr0W8a8x7_0bzky2SbQVrVDCdPfLZGa_7WZmu7txnBupHGRFwdNeCdlHz3dT3lNuIHp5XgoYCgf4UsHVFneCxbv-7WW5PDW921m1tDrK5vP1I_eV_A-rUAa84i7ZYzDbKIUCkIFfuALDcP0njlkime6zyLDEx6tKsCRymQYhwEUMJsQSEKKYqgDTpxLFNFXpiEUENooZl0oSpiKWhEwD2B8UxaO5e0WGEB2wiJMgraAWmKFnglbt4k1gAlaFzCwgHtVIZmQ3BmaJpvUVtdV9-1jAm4B0mgM89APERoLpuAOBmxQ8pIWANT7TPgl98gtMVGBKC4EbJP5gTUz-WaGF1P5psj0iSN1MpjsxUu_YpE6MSgFVt2cUUptLNE0JqnKZiq2x6CqY71s6rB8K285Qq4FgzY6JTVJoJFUpa4u9SzOtmRHwp4F45LrfWDJ32KY5DLa4z4Q8DCd2YrS0JQ7sjZjxSKirGg8asgIsN3U_ioll6lnIQIhXMBld8QkDgqC-ARQsUAk9IgqO8pLYV9y2hCELDbfc2j5G9kBj1Gwr75gt0XkL43EHvkefuGxe0_XZQHY48rrvXN6J3urJ8sNxgZaaAgPUP3-gfw2Xdga8PjP3t2PXR2trGdV6dJjwCYHzfbg0-GnSTf8huOvuS-dCt6sGBH4UDiLE9vfAD6Rown0PswHdnlUlIdaHcLrRJ11csdb-l16qEA9b8po5ZKFd4dLXcpsWO-lcP_D35p-8pf2JwzId3u-E0ktnnNM2B5419YB21plaf3DOuVW92_-xv1l93R1vfKw2vlX7W9Xz19Xb7-NP76vdF5M3z3AomoWhaLyzN97eG7_8Um29mmzuTT7vTLY_nHeW-slSvNizH3fp5TL0ep5SqTeQZZoLOYAsX3iQV2ZeWnKVFZj0aCXyIg0GmSz0QBZcQ26Z-aVQWSbCNPMuONPDh8PiojObhiXPfe2V2s19lSldKK7DnOdaZEXIi0vOjHV3xY7dT1Z-Yffy3wBXnFMo1zOvV53p0ePV4hrkIqNshjrETyLY1ww
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8E%E5%B1%9E%E6%80%A7%E5%80%BC%E5%BA%8F%E5%88%97%E5%9B%BE%E6%A8%A1%E5%9E%8B%E7%9A%84deep+Web%E6%96%B0%E6%95%B0%E6%8D%AE%E5%8F%91%E7%8E%B0%E7%AD%96%E7%95%A5&rft.jtitle=%E9%80%9A%E4%BF%A1%E5%AD%A6%E6%8A%A5&rft.au=%E9%B2%9C%E5%AD%A6%E4%B8%B0&rft.au=%E5%B4%94%E5%BF%97%E6%98%8E&rft.au=%E8%B5%B5%E6%9C%8B%E6%9C%8B&rft.au=%E6%96%B9%E7%AB%8B%E5%88%9A&rft.date=2016&rft.pub=%E8%8B%8F%E5%B7%9E%E5%B8%82%E8%81%8C%E4%B8%9A%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E5%B7%A5%E7%A8%8B%E5%AD%A6%E9%99%A2%2C%E6%B1%9F%E8%8B%8F+%E8%8B%8F%E5%B7%9E+215104%25%E6%B1%9F%E8%8B%8F%E7%9C%81%E7%8E%B0%E4%BB%A3%E4%BC%81%E4%B8%9A%E4%BF%A1%E6%81%AF%E5%8C%96%E5%BA%94%E7%94%A8%E6%94%AF%E6%92%91%E8%BD%AF%E4%BB%B6%E5%B7%A5%E7%A8%8B%E6%8A%80%E6%9C%AF%E7%A0%94%E5%8F%91%E4%B8%AD%E5%BF%83%2C%E6%B1%9F%E8%8B%8F+%E8%8B%8F%E5%B7%9E+215104&rft.issn=1000-436X&rft.volume=37&rft.issue=3&rft.spage=20&rft.epage=32&rft_id=info:doi/10.11959%2Fj.issn.1000-436x.2016049&rft.externalDocID=txxb201603003
thumbnail_s http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Ftxxb%2Ftxxb.jpg