基于代码模式的软件问答文档检索优化方法

TP301; 开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索.在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战.针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法.该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档.以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比StackOverflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%....

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 11; no. 10; pp. 1591 - 1598
Main Authors 华晨彦, 邹艳珍, 朱子骁, 谢冰
Format Journal Article
LanguageChinese
Published 北京大学(天津滨海)新一代信息技术研究院,天津 300450 2017
高可信软件技术教育部重点实验室,北京 100871
北京大学 信息科学技术学院,北京 100871
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1609028

Cover

More Information
Summary:TP301; 开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索.在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战.针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法.该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档.以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比StackOverflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1609028