多尺度时空特征聚合的全参考视频质量评价

TP391; 视频质量得分是观测者在多个时间尺度下对视频进行感知的结果,而当前质量评价模型普遍在某个固定尺度下对失真进行描述,单一粒度的特征对全局信息表征并不充足.为充分提取并聚合多粒度信息来刻画人类复杂的感知机制,提出一种基于多尺度时空特征聚合的全参考视频质量评价方法.为解决传统质量评价算法中固定间隔采样丢失关键帧的痛点,通过结合图像结构失真度与感知运动能量对序列自适应采样;为提取不同粒度特征对失真进行表征,并探究聚合多粒度特征的有效方式,利用堆叠的长短时记忆层对序列进行特征提取,模拟视觉神经的正反向感知迭代机制,对网络层特征融合;结合多通道自注意力网络回归预测得分.模型在多个数据集中的SR...

Full description

Saved in:

Bibliographic Details
Published in	计算机工程与应用 Vol. 59; no. 18; pp. 154 - 162
Main Authors	张威, 赵世灵, 刘银豪, 王鸿奎, 殷海兵
Format	Journal Article
Language	Chinese
Published	杭州电子科技大学通信工程学院,杭州 310000 15.09.2023
Subjects	adaptive sampling visual neural perception long short-term memory network 长短时记忆网络自适应采样 video quality assessment 多尺度时空域特征视频质量评价视觉神经感知特征金字塔 feature pyramid multi-scale spatio-temporal feature
Online Access	Get full text
ISSN	1002-8331
DOI	10.3778/j.issn.1002-8331.2205-0212

Cover

More Information
Summary:	TP391; 视频质量得分是观测者在多个时间尺度下对视频进行感知的结果,而当前质量评价模型普遍在某个固定尺度下对失真进行描述,单一粒度的特征对全局信息表征并不充足.为充分提取并聚合多粒度信息来刻画人类复杂的感知机制,提出一种基于多尺度时空特征聚合的全参考视频质量评价方法.为解决传统质量评价算法中固定间隔采样丢失关键帧的痛点,通过结合图像结构失真度与感知运动能量对序列自适应采样;为提取不同粒度特征对失真进行表征,并探究聚合多粒度特征的有效方式,利用堆叠的长短时记忆层对序列进行特征提取,模拟视觉神经的正反向感知迭代机制,对网络层特征融合;结合多通道自注意力网络回归预测得分.模型在多个数据集中的SRCC指标均达到0.93以上,取得最优或次优的性能.
ISSN:	1002-8331
DOI:	10.3778/j.issn.1002-8331.2205-0212