跨视图时序对比学习的自监督视频表征算法

TP391.41%TP183; 现有的自监督表征算法主要关注视频帧之间的短期运动特性,但是帧间动作序列的变化幅度较小,而且单视图数据因语义受限影响深度特征表达能力,视频动作中丰富的多视图信息未被充分利用.为此提出基于跨视图语义一致性的时序对比学习算法,自监督学习RGB帧和光流场两种数据中蕴含的动作时序变化特性,主要思路为:设计局部时序对比学习方法,采用不同正负样本划分策略,挖掘同一实例不重叠片段之间的时序相关性和判别可分性,增强细粒度特征表达能力;研究全局对比学习方法,通过跨视图语义协同训练来增加正样本,学习多实例不同视图的语义一致性,提高模型的泛化能力.通过两个下游任务对模型效果进行评估,在...

Full description

Saved in:

Bibliographic Details
Published in	计算机工程与应用 Vol. 60; no. 18; pp. 158 - 166
Main Authors	王露露, 徐增敏, 张雪莲, 蒙儒省, 卢涛
Format	Journal Article
Language	Chinese
Published	桂林安维科技有限公司,广西桂林 541010%桂林安维科技有限公司,广西桂林 541010%武汉工程大学计算机科学与工程学院智能机器人湖北省重点实验室,武汉 430205 15.09.2024 广西应用数学中心(桂林电子科技大学),广西桂林 541004%桂林电子科技大学数学与计算科学学院广西高校数据分析与计算重点实验室,广西桂林 541004 广西应用数学中心(桂林电子科技大学),广西桂林 541004 桂林电子科技大学数学与计算科学学院广西高校数据分析与计算重点实验室,广西桂林 541004
Subjects	时序对比学习自监督学习局部对比学习 video representation learning temporal contrastive learning 跨视图协同 local contrastive learning self-supervised learning cross-view co-training 视频表征学习
Online Access	Get full text
ISSN	1002-8331
DOI	10.3778/j.issn.1002-8331.2312-0033

Cover

More Information
Summary:	TP391.41%TP183; 现有的自监督表征算法主要关注视频帧之间的短期运动特性,但是帧间动作序列的变化幅度较小,而且单视图数据因语义受限影响深度特征表达能力,视频动作中丰富的多视图信息未被充分利用.为此提出基于跨视图语义一致性的时序对比学习算法,自监督学习RGB帧和光流场两种数据中蕴含的动作时序变化特性,主要思路为:设计局部时序对比学习方法,采用不同正负样本划分策略,挖掘同一实例不重叠片段之间的时序相关性和判别可分性,增强细粒度特征表达能力;研究全局对比学习方法,通过跨视图语义协同训练来增加正样本,学习多实例不同视图的语义一致性,提高模型的泛化能力.通过两个下游任务对模型效果进行评估,在UCF101和HMDB51数据集的实验结果表明,所提方法在动作识别和视频检索任务上,较前沿主流方法平均提升了2～3.5个百分点.
ISSN:	1002-8331
DOI:	10.3778/j.issn.1002-8331.2312-0033