基于关键实体和文本摘要多特征融合的话题匹配算法

TP391.1; 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题.针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法.首先,使用 W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体.其次,使用Pegasus模型进行文本摘要,通过BiLSTM 融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征.再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系.最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断....

Full description

Saved in:
Bibliographic Details
Published in郑州大学学报(工学版) Vol. 45; no. 2; pp. 51 - 59
Main Authors 纪科, 张秀, 马坤, 孙润元, 陈贞翔, 邬俊
Format Journal Article
LanguageChinese
Published 济南大学 信息科学与工程学院,山东 济南 250022 2024
济南大学 山东省网络环境智能计算技术重点实验室,山东 济南 250022%北京交通大学 计算机与信息技术学院,北京 100044
Subjects
Online AccessGet full text
ISSN1671-6833
DOI10.13705/j.issn.1671-6833.2024.02.008

Cover

More Information
Summary:TP391.1; 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题.针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法.首先,使用 W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体.其次,使用Pegasus模型进行文本摘要,通过BiLSTM 融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征.再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系.最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断.在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和 F1 值均有所提升.
ISSN:1671-6833
DOI:10.13705/j.issn.1671-6833.2024.02.008