人工神经网络的发展综述
打开文本图片集
摘要:人工神经网络(ANN)是人工智能领域中十分重要的运算模型,ANN通过模拟人类大脑的结构和逻辑,来处理复杂的问题。本文首先介绍了ANN的起源和发展,其次描述了全连接神经网络和深度神经网络的结构,其中具体介绍了卷积神经网络及其应用,最后探讨了ANN的未来发展目标,并提出了对未来工作的期望。
关键词:人工智能;神经网络;卷积神经网络;图像识别
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)20-0227-03
开放科学(资源服务)标识码(OSID):
Abstract: Artificial neural networks (ANNs) are important computational models in the field of artificial intelligence. ANNs deal with complex problems by simulating the structure and logic of the human brain. This paper first introduces the origin and development of ANN, and secondly describes the structure of fully connected neural network and deep neural network. The convolutional neural network and its application are introduced in detail. Finally, it discusses the future development goals of ANN and puts forward expectations for future work.
Key words: Artificial Intelligence; Neural Network; Convolutional Neural Networks; Image Recognition
1引言
实现人工智能(Artificial Intelligence,AI)是人类长期以来共同追求的目标。随着现代计算机技术的迅速发展,人类在AI领域中取得了巨大的进步。2017年5月,由谷歌旗下公司开发的AI机器人AlphaGo1对战世界围棋冠军柯洁,并以3比0的总比分大获全胜。AlphaGo的成功展现了AI在博弈中获得的重大突破,但是在其他领域,AI离实现真正意义上的以“机”代“脑”仍有差距。作为AI的一个重要分支,神经网络可以代替人脑有效地处理一些复杂问题,从而推动AI的发展。
人工神经网络(Artificial Neural Networks, ANN)又称为人工神经元的连接单元的集合,是许多不同的基于机器学习的算法的框架。其通过模拟人脑的处理方式,希望可以按照人类大脑的逻辑运行。ANN受形成动物大脑的生物神经网络的启发,模拟生物大脑中的神经元。每个连接如生物学中大脑的突触,可以在神经元之间传递信号。接收信号的神经元对其进行处理,然后发信号通知与之相连的其他神经元。ANN的提出最初是为了能使其以与人脑相同的方式来解决问题。然而,随着时间的推移,ANN的研究重点从生物学转移到了如何使ANN完成特定任务。随着现代科学技术和硬件设备的蓬勃发展,ANN在处理数据量大且复杂的问题中有着越来越重要的作用。
本文将重点介绍ANN的研究历史及其应用领域,总结了ANN目前存在的问题和局限性,以及对未来发展的期望,旨在为ANN的深入研究提供参考价值,也为刚进入该领域的初学者提供参考资料。
本文的组织结构如下:第2节介绍ANN的发展历史和两种应用较广的ANN模型,包括模型的相关工作和算法优化;第3节介绍了ANN的應用领域;最后,给出了本文的总结与展望。
2神经网络综述
2.1发展历史
ANN的概念起源于1943年,Warren McCulloch和Walter Pitts[1]首次创建了一种基于数学和算法的ANN计算模型,称为M-P模型。该模型通过模拟生物学上的神经细胞的原理和过程,描述了人工神经元的数学理论与网络结构,并证明了单个神经元可以实现逻辑功能,从而开启了ANN研究的时代。M-P模型的结构如图1所示。
ANN的概念提出后,引起了学者们的广泛关注,越来越多的人投入到对ANN的研究中。然而,在1969年Minsky和Papert[2]发现了处理ANN计算的两个关键问题后,ANN的研究遇到瓶颈。两个关键问题分别是:单层感知器不能处理异或问题与计算机处理大型ANN的计算能力有限问题。在此之后,由于感知器的逻辑推理局限性无法解决,使得ANN研究停滞不前。
重新引起人们对ANN的学习兴趣的一个关键因素是1974年Paul Werbos[3]提出的反向传播算法,该算法有效地解决了计算机处理能力不足的问题,提高了训练多层网络的可行性。
2006年,Hinton[4]通过使用预训练的方法缓解了ANN的局部最优解问题,并且设置了7层隐藏层,使ANN有了真正意义上的“深度”,从而掀起了深度学习的浪潮。2016年,AlphaGo的出现使人们对深度学习的研究热情达到了一个新的高度。
现在ANN已经被广泛应用于各个领域,如人脸识别,医学诊断,语音识别,机器翻译等。
2.2 结构
一个最基本的ANN的结构包含三个组成部分:输入层,隐藏层,输出层,并且通常为全连接神经网络(Full Connected Neural Networks, FCNN)。全连接的含义是当前层的每个神经元都与前一层的所有神经元相连,即前一层神经元的输出作为当前层神经元的输入,每个连接都有一个权值,位于同一层的神经元之间没有连接。FCNN结构如图2所示。
深度神经网络(Deep Neural Network,DNN)是指隐藏层的数目大于1的ANN。DNN容易引發梯度消失问题,即当前面隐藏层的参数更新速率低于后面隐藏层的速率时,表现出随着隐藏层数目的增加,模型准确率下降的现象。为了解决梯度消失问题,可以使用ReLU等函数代替Sigmoid函数来作为激活函数。当前DNN的基本结构正是以ReLU函数作为激活函数。
然而,全连接DNN的结构特性容易引发参数数量膨胀的问题,导致训练会出现局部最优解现象。另外,图像中的局部特征可以用来识别整张图像,比如鸟的嘴巴可以用来识别鸟。因此,如果能提取图像中的局部特征来完成整张图像的识别的话,参数将大大减少。而卷积神经网络(Convolutional Neural Networks, CNN)[5]的提出可以有效缓解参数膨胀的问题。
2.3 卷积神经网络
2.3.1介绍
CNN相较于FCNN,采用了局部连接的方式,即每个神经元只和前一层的部分神经元相连,而不再是和所有神经元相连。同时,连接到同一个神经元的一组连接可以共享同一个权值。这样将大大减少参数的数量,提高了模型的训练效率。CNN结构如图3所示。
2.3.2 相关工作
较为经典的CNN模型有LeNet-5[6]、AlexNet[7]、ZF-Net[8]、VGGNet[9]、GoogLeNet[10]、ResNet[11]以及DenseNet[12],上述CNN模型均是LeNet的改进模型。
LeNet-5[6]是一种用于识别手写字符的高效的CNN,其中的5代表模型的网络层数为五层。作者提出一种称为图形变压器网络(Graph Transformer Networks,GTN)的模型,该模型允许在全局范围内使用基于梯度的方法训练这种多模块系统,以使得整体性能测量达到最小值。实验证明了全局训练的优势和GTN的灵活性。
Krizhevsky等[7]训练了一个大型深度CNN,并将LSVRC-2010 ImageNet训练集中的120万个高清图像分类为1000个不同的类别。深度CNN由五个卷积层和两个全连接层组成,其中部分卷积层还伴有池化层。整个网络包含了6000万个参数和500,000个神经元。为了减少全连接层中的过拟合现象,作者使用了一种新的正则化方法,并证实了该方法的有效性。
Zeiler 等[8]提出了一种新颖的可视化技术,该技术可以帮助人们深入研究中间特征映射的功能和分类器的操作,并且该技术在ImageNet分类基准上优于Krizhevsky等[7]的模型。
Simonyan等[9]研究了CNN的深度对其在大规模图像识别设置中的准确度的影响。作者使用了具有非常小的卷积滤波器的模型对深度增加的网络进行评估,结果表明,通过将深度增加到16-19权层可以显著改进现有技术的配置。
Szegedy等[10]提出了一种深度CNN模型,该模型在2014年ImageNet大规模视觉识别挑战赛(ILSVRC2014)中展示了分类和检测的最新技术水平,提高了神经网络内计算资源的利用率,并获得了冠军。GoogLeNet是该模型的一个重要变体,其网络深度为22层,用于评估物体在检测和分类的情况下的质量。
Kaiming He等[11]通过使用残留的学习框架成功训练出了ResNet(Residual Neural Network)。ResNet具有152层,比VGGNet深八倍,而参数量却比VGGNet低,其在ILSVRC2015比赛中获得了第一名,错误率为3.57%,达到错误率最低排名的前五名,效果十分显著。
DenseNet等[12]提出了密集卷积网络(DenseNet),其在ResNet结构的基础上进一步扩展了网络连接。实验表明,该模型在大多数测试集中取得了相对于最新技术的显著改进,减少了需要的计算量,实现了更高的性能。
2.3.3 应用
图像识别在日常生活中被广泛应用,尤其是在人脸识别、遥感图像识别、医学图像识别等领域有着显著的重要性。CNN由于权值共享、神经元局部连接的特性,大大减少了参数的数量,从而能有效地处理高维数据,因而更多地被应用在图像识别领域中。
Fu[13]等人为了解决匹配具有不同分辨率的人脸图像的问题,提出了一种新型的CNN结构——引导卷积神经网络(Guided-CNN),该结构应用并行的子CNN模型作为指导和学习者。作者还引入了新的损失函数,可以作为分辨率内和分辨率之间图像的联合监督。该结构验证了其在识别具有不同遮挡程度的人脸图像时的适用性。
Mohamed等人[14]构建了一个基于CNN的模型,用于协助放射科医生对乳腺密度进行分类,以预测乳腺癌发生的风险。实验表明该模型的ROC曲线下面积高达0.988,证明了该模型良好的分类效果,有助于对目前乳腺密度的临床评估。
3总结与展望
本文简述了ANN的发展历史,并着重介绍了CNN模型及其变形与应用。本文指出,ANN对于解决数据量大且复杂的问题具有重大意义,其也被广泛应用于医学、工业等各个领域。但是ANN还不具有普适性,即针对不同的问题,需要通过调整参数、权值、隐藏层的数量等方法来训练出新的适用于该问题的模型。在未来工作中,可根据具体问题的需求来改进ANN模型,甚至是提出新的模型,以真正实现以“机”代“脑”的宏伟目标。
注释:
1.AlphaGo使用的算法主要为蒙特卡洛树搜索(MCTS)算法,同时训练了两个卷积神经网络来帮助MCTS算法制定策略。
参考文献:
[1] McCulloch, W.S. & Pitts, W. Bulletin of Mathematical Biophysics (1943) 5: 115. https://doi.org/10.1007/BF02478259
[2] Minsky M, Papert S. Perceptron: an introduction to computational geometry[J]. The MIT Press, Cambridge, expanded edition, 1969, 19(88): 2.
[3] Werbos, P.Beyond Regression: New Tools for Prediction and Analysis in the Behavior Science, Unpublished Doctoral Dissertation, Harvard University, 1974.
[4] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504.
[5] HUBEL D. H. Receptive fields, binocular interaction and functional architecture in the cat"s visual cortex. J. Physiol 195, 215-244, 1968.
[6]LeCun, Y., Bottou, L., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
[7] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[8] Zeiler M.D., Fergus R. (2014) Visualizing and Understanding Convolutional Networks. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8689. Springer, Cham
[9] Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1556.
[10] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 1-9
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778
[12] G. Huang Z L L V. Densely Connected Convolutional Networks[C]// The Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu: IEEE,2017: 2261-2269.
[13] T. F, W. C, Y. F W. Learning guided convolutional neural networks for cross-resolution face recognition[C]// The Proceedings of 27th International Workshop on Machine Learning for Signal Processing (MLSP). Tokyo: IEEE, 2017,1-5.
[14] Mohamed A A, Berg W A, Peng H, et al. A deep learning method for classifying mammographic breast density categories[J]. Medical Physics, 2018,45(1):314-321.
【通聯编辑:梁书】
下一篇:永嘉“九山书会”研究综述