中文纠错任务为例的数据集增强质量评价方法

TP391; 数据增强被认为是一种有效提升模型效果的方案.但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性.针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法.该方法使用对比学习优化后的预训练模型提取数据集的特征向量,提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标.在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据....

Full description

Saved in:
Bibliographic Details
Published in计算机工程与应用 Vol. 60; no. 3; pp. 331 - 339
Main Authors 宋程, 谢振平
Format Journal Article
LanguageChinese
Published 江南大学 人工智能与计算机学院,江苏 无锡 214000%江南大学 人工智能与计算机学院,江苏 无锡 214000 01.02.2024
江南大学 江苏省媒体设计与软件技术重点实验室,江苏 无锡 214000
Subjects
Online AccessGet full text
ISSN1002-8331
DOI10.3778/j.issn.1002-8331.2210-0253

Cover

More Information
Summary:TP391; 数据增强被认为是一种有效提升模型效果的方案.但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性.针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法.该方法使用对比学习优化后的预训练模型提取数据集的特征向量,提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标.在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据.
ISSN:1002-8331
DOI:10.3778/j.issn.1002-8331.2210-0253