基于BERT阅读理解框架的司法要素抽取方法

司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素.以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息.同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳.针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法.该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系.同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力.实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家...

Full description

Saved in:

Bibliographic Details
Published in	大数据 Vol. 7; no. 6; pp. 19 - 29
Main Authors	黄辉, 秦永彬, 陈艳平, 黄瑞章
Format	Journal Article
Language	Chinese
Published	人民邮电出版社有限公司 15.11.2021 公共大数据国家重点实验室,贵州贵阳 550025 贵州大学计算机科学与技术学院,贵州贵阳 550025%贵州大学计算机科学与技术学院,贵州贵阳 550025
Subjects	BERT 要素抽取神经网络机器阅读理解要素抽取;机器阅读理解;神经网络;BERT
Online Access	Get full text
ISSN	2096-0271
DOI	10.11959/j.issn.2096-0271.2021057

Cover

More Information
Summary:	司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素.以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息.同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳.针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法.该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系.同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力.实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家庭、劳动争议、借款合同3种案由上分别提升F1值2.7%、11.3%、5.6%.
ISSN:	2096-0271
DOI:	10.11959/j.issn.2096-0271.2021057