应用动态Token的融合特征的持续图像字幕生成
TP391; 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势.但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性.目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法.针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法.在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而...
Saved in:
Published in | 计算机工程与应用 Vol. 61; no. 4; pp. 176 - 191 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
天津理工大学 计算机科学与工程学院,天津 300384
15.02.2025
|
Subjects | |
Online Access | Get full text |
ISSN | 1002-8331 |
DOI | 10.3778/j.issn.1002-8331.2309-0403 |
Cover
Summary: | TP391; 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势.但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性.目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法.针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法.在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点.利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘.在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法.以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%. |
---|---|
ISSN: | 1002-8331 |
DOI: | 10.3778/j.issn.1002-8331.2309-0403 |