基于关键实体和文本摘要多特征融合的话题匹配算法
TP391.1; 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题.针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法.首先,使用 W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体.其次,使用Pegasus模型进行文本摘要,通过BiLSTM 融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征.再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系.最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断....
        Saved in:
      
    
          | Published in | 郑州大学学报(工学版) Vol. 45; no. 2; pp. 51 - 59 | 
|---|---|
| Main Authors | , , , , , | 
| Format | Journal Article | 
| Language | Chinese | 
| Published | 
            济南大学 信息科学与工程学院,山东 济南 250022
    
        2024
     济南大学 山东省网络环境智能计算技术重点实验室,山东 济南 250022%北京交通大学 计算机与信息技术学院,北京 100044  | 
| Subjects | |
| Online Access | Get full text | 
| ISSN | 1671-6833 | 
| DOI | 10.13705/j.issn.1671-6833.2024.02.008 | 
Cover
| Summary: | TP391.1; 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题.针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法.首先,使用 W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体.其次,使用Pegasus模型进行文本摘要,通过BiLSTM 融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征.再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系.最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断.在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和 F1 值均有所提升. | 
|---|---|
| ISSN: | 1671-6833 | 
| DOI: | 10.13705/j.issn.1671-6833.2024.02.008 |