第一部分 复杂场景下的小目标检测与识别方法研究

第1章 绪论

1.1 研究背景及意义

1.1.1 研究意义

深度学习技术极大地促进了人工智能领域的发展,如计算机视觉、自然语言处理和语音识别等。深度学习技术为传统理想环境下对物体检测与识别技术的研究带来了革命性的发展。检测与识别技术正在改变人们的生活,如人脸识别已经广泛应用于人脸支付等领域,车牌识别已经应用于门禁和高速收费站等场景。上述应用场景都属于理想环境下的目标检测和识别场景,该类场景背景相对单一,目标分辨率有保障,还可通过红外补光的手段来保障相对稳定的光照条件。但是在更为普适的开放环境下,此类系统往往会因拍摄角度、目标尺寸、环境变化等的限制,而无法正常工作。因此,复杂场景下小目标的检测与识别是计算机视觉领域的新兴热点方向。

普适的目标检测与识别是复杂场景下的小目标检测与识别问题,该研究存在3个层面的挑战。一是环境的复杂性,系统需要在各种非理想的、开放的环境下正常工作,因此,无法做单一背景假设。二是目标特性的复杂性,待检测与识别的目标具有尺寸不确定性、分布拥挤、分辨率低等特点。三是数据的不完备性,首先对于某些特定应用领域的数据获取困难,如军事侦察;其次,即使可以获取大量数据,但由于场景和目标的多样性,枚举所有场景和目标并完成正确标注也是一项艰巨的工作,数据不完备将带来巨大的过拟合隐患。环境的复杂性、目标特性的复杂性、数据的不完备性等因素,容易使小目标检测与识别趋向于提取表形更显著的背景特征,而小目标的本质特征则被淹没于背景特征之中。

复杂场景下的小目标检测与识别研究将大大拓展计算机视觉技术在民用领域的应用,现有大量已部署的检测与识别系统,包括视频监控系统、人脸考勤识别系统和车牌识别系统。这类场景往往背景固定,并且感兴趣区域的尺寸大,具有丰富的细节信息。但是上述检测识别系统很难处理复杂场景下的检测与识别任务,如自动驾驶、视频监控和智能无人机。自动驾驶系统必须具备准确感知远方小尺寸物体的能力,该系统应能及时发现潜在危险目标,尽早采取措施,尽早检测到小尺寸物体,如行人、车辆及交通标示牌等,以有效地降低恶性交通事故发生的风险。交通标示牌识别技术可以帮助车辆更加安全稳定地行驶。大规模视频监控系统应能够准确地检测拥挤场景(如地铁、机场等)下小尺寸的人脸,能并快速、准确地发现感兴趣人员的身份。无人机拍摄的影像存在大量小目标,无人机系统若能检测识别这类目标,将对灾害发生后快速部署救灾力量、高效搜救受灾人员起到至关重要的作用。复杂场景下小目标的检测与识别技术就是为了解决上述应用中最重要的问题:如何在图像中准确找到小尺寸物体和判断它们的类别。图1.1展示了复杂场景下小目标检测与识别典型应用的示例,算法成功预测了小尺寸行人、人脸、车辆等的位置和尺寸,并给出了对应的类别和置信度。

图1.1 复杂场景下小目标检测与识别典型应用的示例

图1.1 复杂场景下小目标检测与识别典型应用的示例(续)

在军事应用方面,环境的复杂性、目标特性的复杂性及数据的不完备性正是制约计算机视觉技术应用的瓶颈。从卫星态势感知、导弹末端制导,到单兵智能装备,均离不开复杂场景下小目标检测与识别技术。现代战争需要通过卫星对地面进行观测,从而进行战场态势感知。卫星捕获的图像包含复杂的物体,如港口、舰船和云层等;感兴趣的目标也存在多样性:大尺寸的物体,如港口;小尺寸的物体,如舰船、块状的云层。复杂的地面物体特征和多样性的地面物体目标是准确进行战场态势感知的主要挑战。另外,为满足武器系统迅速精确打击敌方目标的要求,就必须在超远距离下捕获敌方目标。远距离目标在光学成像平面上仅占几像素,无形状和结构特征、强度较弱,且在实战环境中经常藏匿于复杂背景中,十分容易受到沙尘、雾霾、雨雪等复杂天候的影响。而且单兵智能装备,如车辆、飞机和作战头盔等的更新升级也离不开小目标检测与识别技术。面对匿踪于复杂背景中的敌方目标,辅助驾驶系统需要提供有效的威胁预警机制,让驾驶员在保持安全的前提下,集中精力完成主要任务。

1.1.2 研究现状

1.小目标检测与识别

自20世纪60年代起,目标检测与识别领域经历了从指纹识别、考勤打卡等相距较近的检测识别[2,3],到无人车和无人机等相距较远的检测识别[4-7],再到卫星成像的小目标检测识别[8-11]的发展过程。小目标检测与识别的方法分为:图像尺度变换、多尺度特征融合、上下文信息编码和匹配策略[21-23]

基于图像尺度变换的方法是在多个原始图像尺度上进行操作,从而提升算法对小目标的检测效果的。DetNet[22]网络采用了一种空洞卷积结构,通过保持空间分辨率和扩大感受野,避免了过多的下采样操作,提升了神经网络检测小目标的能力。PGAN[23]生成网络是一个深度残差特征生成模型,引入了低层次细粒度特征,通过感知损失约束来提升物体检测率。基于图像尺度变换的方法的缺点在于其计算量较大,对计算机算力和内存要求较高。基于多尺度特征融合的方法融合了神经网络的深层特征和浅层特征,综合考虑了强位置特征和强语义特征,从而来提升模型效果的小目标检测方法。FPN[21]网络不仅上采样深层特征,使其与浅层特征图大小一致,从而能够进行特征图堆叠,而且对每个卷积模块的最终特征图采用1×1卷积核进行降通道操作,可减少特征图的个数,从而显著提升小目标的检测效果。基于多尺度特征融合的方法得到的特征往往很难解释,结果通常不可控。基于匹配策略的方法是通过调整合适的并交比(IoU)来提高算法检测小目标的能力。级联R-CNN[25]网络有多个IoU阈值递增的header,每级使用上一级微调后的bbox作为输入,保证每级的header都可以得到足够多质量可以逐级提升的正样本。ALFNet[26]利用不断提升的IoU阈值训练多个定位模块,来达到提升定位精度的目的。基于匹配策略的方法通过调整IoU阈值,虽然能在一定程度上提升小目标检测能力,但提升程度终究有限。上下文信息在目标检测中起着重要的作用[35-38]。ION[24]结合感兴趣区域的内部信息和外部信息,通过空间递归神经网络将上下文特征结合在一起,提高了小目标检测的准确率。基于上下文信息的方法难点在于如何高效地训练和推理,以准确选取和利用小目标上下文信息来辅助检测。

2.小目标检测与识别的发展趋势

小目标检测与识别领域主要的发展方向包括信息补偿、多尺度区域推荐[27-29]

(1)信息补偿。低分辨率极小目标的识别难度非常大,其难点在于原始信号本身携带了很少的信息量,信息补偿是解决该问题的根本途径。在识别或分类之前,信息补偿尝试重建高分辨率感兴趣区域,来补偿图像丢失的信息。文献[109]提出了一种跨域联想的网络,用来恢复图像细节,并增强低分辨率图片的质量。文献[98-110]利用低分辨率图像生成了逼真的高分辨图像,用于图像分类任务。但是,该技术的主要缺点是上述方法是重建出来的超分图像,可能包含严重的失真区域,尤其是当原始图像分辨率很低时。也就是说,低分辨率图像损失了大量信息,使其无法直接从低分辨率图像中提取出足够可识别特征。

(2)多尺度区域推荐。当前,大多数检测器是基于锚点的方法,这类目标检测器存在一些严重的缺陷,这些缺陷限制了检测的准确性。当前的锚点先验主要是手动设计的,很难匹配多尺度对象。尽管已经提出了一些方法来将基于锚点的方法转换为无锚的方法,如基于关键点的方法;但是仍然存在一些局限性,如高计算成本等,不过依然有很大的改进空间。锚点缺失的方法已经成为对象检测中非常热门的话题[30-34],将来,设计有效的候选区域生成策略可能是非常重要的研究方向。

对象通常倾向于出现在特定的环境中,有时也与其他对象共存。对于每个实例,鸟类通常都会在天空中飞翔,车辆通常在地面上行驶。有效地使用上下文信息可以帮助提高检测性能,特别是对于检测线索不足(小物体,遮挡物等)的物体而言。学习物体与周围环境之间的关系可以提高检测器对场景的理解能力,这对于更好地了解视觉世界至关重要。但是,很少重视如何正确编码上下文信息。

1.1.3 困难挑战

复杂场景小目标检测与识别研究的挑战总结为以下3个:

挑战一,环境的复杂性是计算机视觉中实验室理论结果与实际应用效果存在巨大差异的核心原因之一。现有大量已部署的检测与识别系统往往会固定背景,而实际应用中拍摄的背景通常充满复杂变化。这种复杂变化一方面来自相机的自身移动,如卫星、无人机和车辆载具等;另一方面来自成像条件的改变,如雨、雪、雾等恶劣天气。复杂场景下的小目标检测与识别本质上是背景淹没前景,所以导致前背景难分离,如大浪中的小船、浓雾中的小飞机。图1.2所示为遥感图像中,浓雾天气下的飞机检测,图1.2(f)中的圆圈内为漏检的飞机。

挑战二,目标特性的复杂性给物体检测识别带来了巨大的挑战。物体本身尺寸、颜色、形状和纹理等方面的变化都会增加物体的类内差异,从而对物体的识别造成困难。已有的工作都集中在较大尺寸的目标上(大于64像素×64像素),而本书重点研究小尺寸目标(小于16像素×16像素)。另外,深度学习固有的层次结构及锚点结构使处理小目标更加困难。第一,层次结构导致信息流失。区别于常规尺寸的目标,微小尺寸的目标经过多次卷积和池化后,会发生卷积特征减弱甚至消失的问题,导致小目标检测陷入困境。具体来说,微小目标本身在成像特性方面,极端天候导致微小目标所在区域缺乏丰富细节信息,称为第一次信息流失。在神经网络内部,池化和非线性激活结构会加剧信息流失。两个阶段的信息流失使得微小目标识别极其困难。第二,锚点参数设置,如步长和尺寸。首先,目标小尺寸与锚点大步长的矛盾,小目标尺寸通常为16像素×16像素,锚点步长通常为8像素或16像素,加上池化层对感兴趣区域特征图的降采样,会导致小目标的特征图很容易被忽略;其次,CNNs感受野、锚点及小目标的尺寸不匹配;再次,如果感兴趣物体的尺寸与锚点的尺寸接近,则会有较多锚点与之匹配,否则,锚点会非常少;最后,与常规物体检测相比,小目标检测会带来更多虚警锚点,导致小目标的误检率提高。

图1.2 遥感图像中,浓雾天气下的飞机检测

挑战三,数据的不完备性将带来巨大的过拟合隐患。数据的完备性需要考虑目标完备性、场景完备性和枚举完备性3个方面。目标完备性是指采集某些属性上变化的目标数据,以物体朝向属性为例,即采集样本在各种朝向时的数据;场景完备性是指采集所有场景下的目标数据,如城市、草原、海面等多种场景;枚举完备性是指枚举所有场景和目标的组合,直接采集所有场景和目标的计算复杂度是一个O(M×N),M表示物体在某种属性下的量化粒度,N表示场景抽象的个数。

由此看出,构建枚举完备的数据集工作量是成几何增长的。此外,正确标注也是一项艰巨的工作。数据的不完备性有导致深度学习网络陷入过拟合的风险。网络对训练样本表现出了很好的拟合性能,而在实际应用中,训练样本并没有很好地覆盖实际样本在某些属性上的分布,如物体方向,因此,网络无法在实际应用中有效工作。以小脸检测为例,阐述数据在方向属性上的不完备性(简称“数据方向不完备性”)。图1.3(a)说明街景捕获的人脸方向几乎都是类似垂直于地面的;而图1.3(b)包含其他场景,如跳舞、体育竞技等,人脸方向表现出了多样性。若仅仅使用图1.3(a)中的数据去训练分类器,则分类器具有很大陷入过拟合状态的风险。

图1.3 数据方向不完备性示例

1.1.4 科学问题

在计算机视觉的概率解释中,复杂场景下的小目标检测与识别可以被定义为数据和标签的联合概率分布估计问题。将背景区域和目标区域投影至高维空间后,小目标由于信息匮乏,会导致样本分布可分性差;背景特征会类似噪声,穿插在小目标特征的分布中;数据的不完备性会导致模型对训练样本的过拟合。因此,直接进行联合概率分布估计十分困难。

本部分将该科学问题重新定义为样本在源域特征空间和目标域特征空间的概率分布不一致问题(简称“分布不一致”)。解决该问题的基本思路是在源域知识的指导下,修正目标域样本在特征空间的联合概率分布,从而提高样本目标域特征的可分性。一方面,源域的知识分为3个方面:①引入上下文信息剔除背景噪声,实现细粒度的前景和背景分类,从而完成高精度的前、背景分离;②设计信息补偿机制,将高、低质量样本联合学习,增强低质量样本的可分性;③设计属性引导的数据增强技术,提升数据完备性,降低模型过拟合风险。另一方面,在源域知识的指导下,在特征空间中修正目标域背景和目标样本的分布以扩充训练样本,从而降低联合概率分布估计难度。