基于ResNet-TSM和BiGRU网络的移动视频感知质量评价模型

TP391; 考虑到卡顿、质量切换、内容特征等因素对用户体验质量的影响都会直接体现在客户端的失真视频里,提出了一种客户端的移动视频感知质量评价模型.该模型无须对每种影响因素均进行表征和度量,而是基于深度特征提取+回归的思路,直接建立失真视频与平均意见分数之间的映射模型.首先,构建了ResNet-TSM网络结构,提取失真视频片段的深度时空特征;为了避免维度灾难,采用LargeVis算法对提取的深度特征进行降维,同时提升特征的表达与区分能力.然后,采用双向门控循环单元网络对视频的长时间依赖关系进行建模,得到各视频片段的打分,再利用时间平均池化方法将各片段分数进行聚合,得到整个视频的打分结果.在Wa...

Full description

Saved in:
Bibliographic Details
Published in北京工业大学学报 Vol. 50; no. 1; pp. 18 - 26
Main Authors 杜丽娜, 杨硕, 卓力, 张菁, 李嘉锋
Format Journal Article
LanguageChinese
Published 北京工业大学计算智能与智能系统北京市重点实验室, 北京 100124 2024
北京工业大学信息学部, 北京 100124
Subjects
Online AccessGet full text
ISSN0254-0037
DOI10.11936/bjutxb2022020009

Cover

More Information
Summary:TP391; 考虑到卡顿、质量切换、内容特征等因素对用户体验质量的影响都会直接体现在客户端的失真视频里,提出了一种客户端的移动视频感知质量评价模型.该模型无须对每种影响因素均进行表征和度量,而是基于深度特征提取+回归的思路,直接建立失真视频与平均意见分数之间的映射模型.首先,构建了ResNet-TSM网络结构,提取失真视频片段的深度时空特征;为了避免维度灾难,采用LargeVis算法对提取的深度特征进行降维,同时提升特征的表达与区分能力.然后,采用双向门控循环单元网络对视频的长时间依赖关系进行建模,得到各视频片段的打分,再利用时间平均池化方法将各片段分数进行聚合,得到整个视频的打分结果.在WaterlooSQoE-Ⅲ和LIVE-NFLX-Ⅱ数据集上的实验结果表明,提出的模型可以获得更高的预测精度.
ISSN:0254-0037
DOI:10.11936/bjutxb2022020009