中文纠错任务为例的数据集增强质量评价方法
TP391; 数据增强被认为是一种有效提升模型效果的方案.但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性.针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法.该方法使用对比学习优化后的预训练模型提取数据集的特征向量,提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标.在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据....
Saved in:
| Published in | 计算机工程与应用 Vol. 60; no. 3; pp. 331 - 339 |
|---|---|
| Main Authors | , |
| Format | Journal Article |
| Language | Chinese |
| Published |
江南大学 人工智能与计算机学院,江苏 无锡 214000%江南大学 人工智能与计算机学院,江苏 无锡 214000
01.02.2024
江南大学 江苏省媒体设计与软件技术重点实验室,江苏 无锡 214000 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1002-8331 |
| DOI | 10.3778/j.issn.1002-8331.2210-0253 |
Cover
| Summary: | TP391; 数据增强被认为是一种有效提升模型效果的方案.但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性.针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法.该方法使用对比学习优化后的预训练模型提取数据集的特征向量,提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标.在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据. |
|---|---|
| ISSN: | 1002-8331 |
| DOI: | 10.3778/j.issn.1002-8331.2210-0253 |