基于代码模式的软件问答文档检索优化方法
TP301; 开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索.在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战.针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法.该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档.以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比StackOverflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%....
Saved in:
| Published in | 计算机科学与探索 Vol. 11; no. 10; pp. 1591 - 1598 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
北京大学(天津滨海)新一代信息技术研究院,天津 300450
2017
高可信软件技术教育部重点实验室,北京 100871 北京大学 信息科学技术学院,北京 100871 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1673-9418 |
| DOI | 10.3778/j.issn.1673-9418.1609028 |
Cover
| Summary: | TP301; 开发人员通常通过问答网站的搜索引擎进行相关软件问答文档的搜索.在检索结果中,包含优质代码片段(使用示例)的问答文档往往更受青睐,但如何度量这些文档中代码片段的质量仍是个巨大的挑战.针对这个问题,提出了一种基于代码模式的软件问答文档检索优化方法.该方法能够基于当前检索结果,抽取文档中的代码片段,分析代码片段中的公共代码模式,并基于代码模式度量文档中代码片段的质量,从原有检索结果中向用户推荐高质量的软件问答文档.以软件开发人员在实践过程中遇到的真实问题为基础进行了实验,对比StackOverflow的搜索结果,所提方法在准确率指标NDCG@5上提升了40%. |
|---|---|
| ISSN: | 1673-9418 |
| DOI: | 10.3778/j.issn.1673-9418.1609028 |