基于PDF版式特征的文献篇章结构细粒度抽取方法研究

[目的 /意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法.[方法 /过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取.根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组.[结果 /结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒...

Full description

Saved in:
Bibliographic Details
Published in农业图书情报学报 Vol. 33; no. 9; pp. 93 - 103
Main Authors 赵婉婧, 刘敏娟, 刘洪冰, 王新, 段飞虎
Format Journal Article
LanguageChinese
Published 中国农业科学院农业信息研究所 05.09.2022
中国农业科学院农业信息研究所,北京100081
农业农村部农业大数据重点实验室,北京100081%同方知网数字出版技术股份有限公司,北京100192
Subjects
Online AccessGet full text
ISSN1002-1248
DOI10.13998/j.cnki.issn1002-1248.21-0237

Cover

More Information
Summary:[目的 /意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法.[方法 /过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取.根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组.[结果 /结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作.
ISSN:1002-1248
DOI:10.13998/j.cnki.issn1002-1248.21-0237