应用主题爬虫的电力网络舆情数据采集

TN957; 传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进.首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集.实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法....

Full description

Saved in:
Bibliographic Details
Published in西安工程大学学报 Vol. 36; no. 2; pp. 72 - 78
Main Authors 奚增辉, 王卫斌, 陆嘉铭, 瞿海妮
Format Journal Article
LanguageChinese
Published 国网上海市电力公司,上海200122 2022
Subjects
Online AccessGet full text
ISSN1674-649X
DOI10.13338/j.issn.1674-649x.2022.02.010

Cover

More Information
Summary:TN957; 传统电力网络舆情数据采集方法存在召回率低、计算准确率不高以及耗时长等问题,为此,利用主题爬虫技术对数据采集方法进行改进.首先,采用主题爬虫技术搭建数据采集框架,以框架为基础,构建网络舆情的主题向量;其次,定义网络舆情主题及关键字,利用相似度模型计算关键字向量与电力网页的相似度,并添加到网络爬虫队列中;最后,采用最佳优先搜索策略,将最高相似度网页设定为第一优先级,下载并存储网络舆情相关数据,完成数据爬取,实现数据采集.实验结果表明,本中方法平均召回率高达92%,网页相似性计算准确率高于90%,且数据采集耗时均值为36 min,均优于对比方法.
ISSN:1674-649X
DOI:10.13338/j.issn.1674-649x.2022.02.010