基于ResNet-TSM和BiGRU网络的移动视频感知质量评价模型
TP391; 考虑到卡顿、质量切换、内容特征等因素对用户体验质量的影响都会直接体现在客户端的失真视频里,提出了一种客户端的移动视频感知质量评价模型.该模型无须对每种影响因素均进行表征和度量,而是基于深度特征提取+回归的思路,直接建立失真视频与平均意见分数之间的映射模型.首先,构建了ResNet-TSM网络结构,提取失真视频片段的深度时空特征;为了避免维度灾难,采用LargeVis算法对提取的深度特征进行降维,同时提升特征的表达与区分能力.然后,采用双向门控循环单元网络对视频的长时间依赖关系进行建模,得到各视频片段的打分,再利用时间平均池化方法将各片段分数进行聚合,得到整个视频的打分结果.在Wa...
        Saved in:
      
    
          | Published in | 北京工业大学学报 Vol. 50; no. 1; pp. 18 - 26 | 
|---|---|
| Main Authors | , , , , | 
| Format | Journal Article | 
| Language | Chinese | 
| Published | 
            北京工业大学计算智能与智能系统北京市重点实验室, 北京 100124
    
        2024
     北京工业大学信息学部, 北京 100124  | 
| Subjects | |
| Online Access | Get full text | 
| ISSN | 0254-0037 | 
| DOI | 10.11936/bjutxb2022020009 | 
Cover
| Summary: | TP391; 考虑到卡顿、质量切换、内容特征等因素对用户体验质量的影响都会直接体现在客户端的失真视频里,提出了一种客户端的移动视频感知质量评价模型.该模型无须对每种影响因素均进行表征和度量,而是基于深度特征提取+回归的思路,直接建立失真视频与平均意见分数之间的映射模型.首先,构建了ResNet-TSM网络结构,提取失真视频片段的深度时空特征;为了避免维度灾难,采用LargeVis算法对提取的深度特征进行降维,同时提升特征的表达与区分能力.然后,采用双向门控循环单元网络对视频的长时间依赖关系进行建模,得到各视频片段的打分,再利用时间平均池化方法将各片段分数进行聚合,得到整个视频的打分结果.在WaterlooSQoE-Ⅲ和LIVE-NFLX-Ⅱ数据集上的实验结果表明,提出的模型可以获得更高的预测精度. | 
|---|---|
| ISSN: | 0254-0037 | 
| DOI: | 10.11936/bjutxb2022020009 |