1.3 算法基础

在传统的模式识别模型中,特征提取器从图像中提取相关特征,再通过分类器对这些特征进行分类。使用梯度下降法的前馈全连接网络可以从大量数据中学习复杂的高维且非线性的特征映射,因此,传统的前馈全连接网络(BP神经网络)被广泛用于图像识别任务。虽然可以直接将图像中的像素特征(向量)作为输入信号输入网络,但基于全连接网络的识别还存在以下一些问题。

首先,隐藏层神经元数量越多的全连接网络包含的连接权重越多,这极大地增加了内存参数,并且需要更大的训练集来确定连接权重。

其次,图像或音频不具备平移、旋转和拉伸的不变性,其输入神经网络前必须经过预处理。

最后,全连接网络忽略了输入的拓扑结构。在一幅图像中,相关性较高的相邻像素可以归为一个区域,相关性较低的相邻像素则可视为图像中的不同区域,利用这个特性进行局部特征的提取有巨大的优势。但如何充分利用这些局部信息呢?

20世纪60年代,Hubel和Wiesel在研究猫脑皮层中负责处理局部敏感与方向选择的神经元时,发现了一种特别的网络结构,该结构显著降低了反馈神经网络的复杂性。两人随即提出了卷积神经网络(Convolutional Neural Networks,CNN)的概念。

在CNN中,不需要对图像进行复杂的预处理,可以直接输入原始图像,因此其在计算机视觉方面得到了广泛的应用。下面对其做简单介绍。