基于多表达的第一阶段语义检索模型
TP391; 当前,信息检索系统通常采用"检索+重排序"的多级流水线架构.基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能.考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本架构都采用双编码器(bi-encoder)结构.对查询和文档进行独立的编码,分别得到一个稠密表示向量,然后基于获得的查询和文档表示使用简单的相似度函数计算查询-文档对的得分.然而,在编码文档的过程中查询是不可知的,而且文档相比查询而言通常包含更多的主题信息,因此这种简单的单表示模型可能会造成严重的文档信息丢失.为了解决这个问题,设计了一种新的语...
Saved in:
| Published in | 计算机工程与应用 Vol. 59; no. 4; pp. 139 - 146 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
中国科学院 计算技术研究所 网络数据科学与技术重点实验室,北京 100190
15.02.2024
中国科学院大学,北京 100190 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1002-8331 |
| DOI | 10.3778/j.issn.1002-8331.2108-0343 |
Cover
| Summary: | TP391; 当前,信息检索系统通常采用"检索+重排序"的多级流水线架构.基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能.考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本架构都采用双编码器(bi-encoder)结构.对查询和文档进行独立的编码,分别得到一个稠密表示向量,然后基于获得的查询和文档表示使用简单的相似度函数计算查询-文档对的得分.然而,在编码文档的过程中查询是不可知的,而且文档相比查询而言通常包含更多的主题信息,因此这种简单的单表示模型可能会造成严重的文档信息丢失.为了解决这个问题,设计了一种新的语义检索方法MDR(multi-representation dense retrieval),将文档编码成多个稠密向量表示.同时,该方法引入覆盖率(coverage)机制来保证多个向量之间的差异性,从而能够覆盖文档中不同主题的信息.为了评估模型性能,在MS MARCO数据集上进行了段落排序和文档排序任务,实验结果证明了MDR方法的有效性. |
|---|---|
| ISSN: | 1002-8331 |
| DOI: | 10.3778/j.issn.1002-8331.2108-0343 |