深度学习批归一化及其相关算法研究进展

深度学习已经广泛应用到各个领域,如计算机视觉和自然语言处理等,并都取得了明显优于早期机器学习算法的效果.在信息技术飞速发展的今天,训练数据逐渐趋于大数据集,深度神经网络不断趋于大型化,导致训练越来越困难,速度和精度都有待提升.2013年,Ioffe等指出训练深度神经网络过程中存在一个严重问题:中间协变量迁移(Internal covariate shift),使网络训练过程对参数初值敏感、收敛速度变慢,并提出了批归一化(Batch normalization,BN)方法,以减少中间协变量迁移问题,加快神经网络训练过程收敛速度.目前很多网络都将BN作为一种加速网络训练的重要手段,鉴于BN的应用价...

Full description

Saved in:
Bibliographic Details
Published in自动化学报 Vol. 46; no. 6; pp. 1090 - 1120
Main Authors 刘建伟, 赵会丹, 罗雄麟, 许鋆
Format Journal Article
LanguageChinese
Published 哈尔滨工业大学(深圳)机电工程与自动化学院 深圳518055 01.06.2020
中国石油大学(北京)自动化系 北京102249%中国石油大学(北京)自动化系 北京102249
Subjects
Online AccessGet full text
ISSN0254-4156
DOI10.16383/j.aas.c180564

Cover

More Information
Summary:深度学习已经广泛应用到各个领域,如计算机视觉和自然语言处理等,并都取得了明显优于早期机器学习算法的效果.在信息技术飞速发展的今天,训练数据逐渐趋于大数据集,深度神经网络不断趋于大型化,导致训练越来越困难,速度和精度都有待提升.2013年,Ioffe等指出训练深度神经网络过程中存在一个严重问题:中间协变量迁移(Internal covariate shift),使网络训练过程对参数初值敏感、收敛速度变慢,并提出了批归一化(Batch normalization,BN)方法,以减少中间协变量迁移问题,加快神经网络训练过程收敛速度.目前很多网络都将BN作为一种加速网络训练的重要手段,鉴于BN的应用价值,本文系统综述了BN及其相关算法的研究进展.首先对BN的原理进行了详细分析.BN虽然简单实用,但也存在一些问题,如依赖于小批量数据集的大小、训练和推理过程对数据处理方式不同等,于是很多学者相继提出了BN的各种相关结构与算法,本文对这些结构和算法的原理、优势和可以解决的主要问题进行了分析与归纳.然后对BN在各个神经网络领域的应用方法进行了概括总结,并且对其他常用于提升神经网络训练性能的手段进行了归纳.最后进行了总结,并对BN的未来研究方向进行了展望.
ISSN:0254-4156
DOI:10.16383/j.aas.c180564