基于PDF版式特征的文献篇章结构细粒度抽取方法研究
[目的 /意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法.[方法 /过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取.根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组.[结果 /结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒...
Saved in:
Published in | 农业图书情报学报 Vol. 33; no. 9; pp. 93 - 103 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
中国农业科学院农业信息研究所
05.09.2022
中国农业科学院农业信息研究所,北京100081 农业农村部农业大数据重点实验室,北京100081%同方知网数字出版技术股份有限公司,北京100192 |
Subjects | |
Online Access | Get full text |
ISSN | 1002-1248 |
DOI | 10.13998/j.cnki.issn1002-1248.21-0237 |
Cover
Summary: | [目的 /意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法.[方法 /过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取.根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组.[结果 /结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作. |
---|---|
ISSN: | 1002-1248 |
DOI: | 10.13998/j.cnki.issn1002-1248.21-0237 |