3.1 人工智能在植物识别中的应用研究_AI生态：人工智能+生态发展战略-QQ阅读男生轻小说网

书名：AI生态：人工智能+生态发展战略
作者名：张旭王继龙陈志泊李世东顾红波梁永伟胡萍
本章字数：6580字
更新时间：2021-04-02 13:39:32

3.1　人工智能在植物识别中的应用研究

植物资源在地球中分布广泛，同时与人类生活的环境关系密切，因此在生态文明建设过程中有着不可替代的作用。植物资源是国家自然资源的瑰宝，是珍贵的自然遗产，具有“活的文物”“绿色化石”之称，具有重要的经济、历史、文化、生态、科研和旅游等价值。推动植物的认知是生态文明建设的手段之一，而植物识别技术是植物认知过程中的催化剂，植物识别技术的发展是生态文明建设的重要组成部分。

3.1.1　植物识别应用发展概况

传统的植物种类识别主要是依靠有经验的专家或者相关植物行业从业人员的专业知识和实践经验，工作量大且效率低。随着移动终端设备性能的提升和普及，人们获取、保存和处理植物图像的能力也大幅度提升。研究如何通过植物图像来快速识别植物种类具有非常重要的意义。近年来，国内外一些学者以及专业研究机构等，对基于图像分析及图像处理的植物识别进行了广泛的研究，并取得了一定的成果。

在国内，植物图像识别率以及识别范围逐渐提高。杜吉祥等人提出基于叶片识别的移动中值中心超球分类器（MMC），针对20种植物叶片选取其中15种植物叶片进行识别（杜吉祥等，2007）。王晓峰等人利用植物叶片的形状、纹理特征来识别植物（王晓峰等，2008）。黄德双等人开发了植物叶片识别系统（BSA-RSPL），系统实现了叶片图像的预处理，提取叶片特征，实现了简单背景下的植物识别（黄德双等，2009）。张宁等人提出克隆选择算法融合KNN分类器的分类方法，有效地提高了植物识别率（张宁等，2010）。杨天天等针对7种柳属植物叶片图像分析出有效的叶片特征数字化指标，并通过叶片多特征融合，识别正确率达到了90.8%，实现了对特定种属叶片的高准确率识别（杨天天等，2014）。王丽君等人开发了基于图像多特征融合的观叶种类识别系统，该系统提取观叶植物叶片图像的颜色、形状和纹理等26个特征，通过支持向量机达到了91.41%的识别率（王丽君等，2015）。邹秋霞等人开发了基于Android手机的植物叶片分类系统应用，利用移动终端实现了叶片识别（邹秋霞等，2014）。

在国外，Ingrouille等人提取27种植物叶形特征，利用主成分分析（PCA）对橡树进行了分类（Ingrouille et al.，1986）。Guyer等人针对40种植物提取17种叶片特征进行分类（Guyer et al.，1993）。东京大学Yonekawa等人发现，叶片形状因子对植物叶片识别是有效的（Yonekawa et al.，1996）。Osikar J O等人提取叶片的区域几何特征，利用BP神经网络对瑞典15种树木进行分类（Osikar et al.，2001）。自2011年起CLEF论坛（Cross Language Evaluation Forum）每年组织植物图像分类识别比赛，并且在2014年增加了针对植物不同器官以及复杂拍照情况下的识别比赛。Casanona D等人利用复杂网络提取叶片特征，在不同分辨率及一定采样噪声条件下实现了很好的叶片图像识别（Casanona et al.，2011）。在ImageCLEF 2015上，Mostafa等人利用PCANet在扫描叶片图像上取得了90.49%的识别率。2013年Charles等人建立了测试叶片数据库，包含100种植物叶片，每种植物叶片有16个样本，同时在文章中提出了一种图像识别方法，该方法提取了叶片的形状、纹理和边缘特征，利用密度估计算法提高分类识别率达到96% （Mallah et al.，2013）。

国内外研究团队相继研发多款植物物种识别App，如图3-1所示。智能手机植物识别App可为移动终端用户提供不同植物的识别和鉴定。目前，国内外智能手机植物识别App主要有十余款，包括花伴侣、形色、微软识花、发现识花、Plantifier、Garden Answers Plant Identification、PlantNet、Virginia Tech Tree ID和Leafsnap等。

图3-1　国内外植物识别App

花伴侣是中科院植物研究所基于深度学习开发的植物识别应用。可识别中国野生及栽培植物3000多属，5000多种，花伴侣应用非对称卷积，通道1×1卷积（Inception）、残差Block（ResNet）、Fine-Grained语义分割重构（FCN）、Feature Map拼接等技术实现植物图像的识别。

形色识花采用深度卷积神经网络这种机器学习方法，支持4000多种植物的识别，并推出海外版识花软件PictureThis。形色识花App在识别时，上传至App的图片会经过预处理，包括光线调整、颜色反转、曝光度、切出关键部位、再聚焦等，并通过图片分类及物体识别技术，提高图片在场景中的鉴别准确度。这在一定程度上可以改善照片模糊、光线不好以及角度不好所造成的不良影响。

微软识花是微软亚洲研究院和中科院植物所推出的App，支持离线应用，无须联网，可在登山途中或其他无法连接互联网的任意场所使用。微软识花识别的花卉覆盖了中国的大多数花卉，采用自动的视觉多级注意力模型，结合深层神经网络技术，用于图像的处理与识别。第一级是物体级别的关注，即自动关注到图片中花所在的区域，而排除其他不相关的因素，如杂草等。第二级之后则是由粗到精的部位级别的关注，即关注到花的具体部位，然后对花朵的部位特征进行学习和识别。

3.1.2　植物识别关键技术发展前沿

植物识别关键技术发展前沿包括植物图像细粒度识别技术、植物图像描述技术、植物图像小样本模型训练技术、植物图像一图多类识别技术、植物多场景识别技术、植物视频序列识别技术、植物图像残缺复原以及超分辨率技术、植物识别在移动端应用技术等方面，植物识别关键技术发展前沿结构图如图3-2所示。

图3-2　植物识别关键技术发展前沿结构图

（1）植物图像细粒度识别技术。植物识别中，细粒度图像识别问题是植物图像识别中一个难点，它的目标是在大类中识别子类之间的差异。通过图像寻找一些细微差别的局部区域，并利用这些局部区域的特性对原图进行分类。因此如何有效地对植物图像中的对象进行检测，并从中发现重要的局部区域信息，成为了细粒度图像分类算法的关键问题。以竹子为例，拥有70余属，1千多种类，各种竹子图像之间的差异细小，因此利用人工智能技术对这类植物种类进行分类难度较大。针对这类问题可以利用强监督信息分类模型进行解决，可在训练样本中获得更好的分类精度，除了图像的类别标签外，可以使用植物图像物体的标注框和部位标注点等额外的人工标注信息，这些标注信息主要包括物体的前景图片和物体本身重要区别部位的标注，对植物图像标注部分进行重点训练，加强模型对标注部分的识别率，以此提高植物图像细粒度的识别率。

（2）植物图像描述技术。植物图像描述技术在植物相关的生长、科研、植物检索等领域都有着广泛的应用，可以将一幅植物图像自动生成文字描述，例如，“马路旁边有两排金黄叶子的银杏树，银杏树下生长着绿色的冬青”等。植物图像描述技术通过目标检测和分类技术，可以将图片中用户感兴趣的部分从复杂的背景中分离出来并对其进行分类。在此基础上，通过目标描述技术，可以使用更加丰富的信息来产生更进一步的结果，自动产生自然语言来对视觉目标进行描述。

（3）植物图像小样本模型训练技术。植物图像识别技术在工业级的应用中，由于植物图像识别范围要涵盖不同季节、不同地域、不同龄级，因此，植物图像识别模型训练过程一般需要大量的训练样本。然而这些植物图像样本的收集和整理工作往往是比较消耗成本的部分，为解决这一问题，植物图像小样本模型训练技术是未来植物图像识别技术的发展方向。

（4）植物图像一图多类识别技术。在植物图像识别的场景中，由于植物的生长环境复杂，植物图像中往往会出现多个植物类别的情况，在对植物生境研究等应用中不仅要对植物图像的主体种类进行识别，对植物图像的背景植物识别也有着重要的研究意义。植物图像一图多类的识别首先要将植物图像中的不同植物进行提取，分别对图像中不同区域的植物进行识别，融合不同区域信息得到最终识别的结果。

（5）植物多场景识别技术。植物在不同的季节、地域、天气、温度、湿度、龄级等因素环境下，拥有不同的形态、颜色、生境等特点，例如“橘生淮南则为橘，橘生淮北则为枳”，相同的物种在不同的地域生长的形态是有所差异的，植物图像识别技术在工业级的应用应支持在这些不同的场景中进行植物种类的识别。植物多场景识别技术是未来植物识别发展方向。

（6）植物视频序列识别技术。目前植物识别技术主要是基于图片的，未来用户会提供植物视频或者序列信息，因此需要考虑如果处理视频或者序列来识别植物。视频或者序列包含丰富的时空信息，这些信息包括不同帧间的时间信息以及帧内的空间信息。虽然连续的序列对于植物识别提供了丰富的信息，同时也带来了新的问题：计算复杂度高、存储大等。因此未来植物视频序列识别技术也是需要关注的重点问题。

（7）植物图像残缺复原以及超分辨率技术。在现实情况下，用户拍摄的照片可能是残缺的或者分辨率比较低的低质量图片。对于残缺的样本可以根据生成对抗模型对图像进行复原，但是目前生成对抗网络对于图像细节的生成并没有很好的效果，未来的研究需要结合植物所独有的结构信息并利用生成对抗模型来对植物图像进行复原。此外对于低分辨率的植物图像需要进行图像的超分辨率，返回比较清晰超分辨率图像，来增强用户的体验。

（8）植物识别在移动端应用技术。近些年来移动设备越来越普及，这些设备大多装配有摄像头和无线联网模块，这些都是促进植物识别在移动端应用发展的重要因素。移动设备带有丰富的传感器，可以为图像提供拍照时的上下文信息，如GPS获取的地理位置信息、拍摄时间、相机参数等，所以植物图像的识别可以利用这些信息对图像中的目标进行识别。通过移动设备可获取图像的地理标签、时间、天气等各种信息，与图像的视觉特征组合成一个特征向量，然后利用分类器计算植物的分类，可提高植物图像识别的精准度。

3.1.3　人工智能植物识别关键技术

植物图像识别关键技术包括植物图像模型的训练和植物图像识别两个部分，其中植物图像模型的训练包括植物图像数据集分块、植物图像数据规则化、植物图像数据增强、植物图像模型训练；植物图像识别技术包括植物图像预处理、植物图像特征提取、植物图像匹配。植物图像识别关键技术结构图如图3-3所示。

图3-3　植物图像识别关键技术结构图

（1）植物图像数据集分块。植物图像识别模型应涵盖足够大的植物图像数据集，应该覆盖植物识别问题域中所有已知可能出现的场景。植物图像数据集中应该包含3个子集：训练集、测试集、验证集。训练集应该包含问题域中的所有数据，并在训练阶段用来调整网络权值。测试集用来在训练过程中测试网络对于训练集中未出现的数据的分类性能。根据网络在测试集上的性能情况，网络的结构可能需要做出调整，或者增加训练循环的次数。验证集中的数据同样应该包含在测试集和训练集中没有出现过的数据，用于在确定网络结构后能够更加好地测试和衡量网络的性能。

（2）植物图像数据规则化。植物图像的质量对植物识别模型的准确率影响较大，高质量、规则化的植物数据能提高植物识别模型的准确率。植物图像数据的规则化可通过数据均衡、减少噪声、删除无关数据等几个方面实现。每一个植物类别标签所对应的数据量在训练集中应保证数量上的均衡，以避免网络过于倾向于表现某些分类的特点造成过拟合，可以通过移除一些过度富余的分类中的数据，并相应补充一些相对样例稀少的分类中的数据等手段实现数据的均衡。植物图像可通过图像裁剪、图像标记、删除图像中与标注无关的图像部分等手段减少图像的噪声。植物图像数据集中要尽量删除与植物标注无关的图像。总之，植物图像训练集中的数据应该相对于标签类别近似于平均分布、低噪声、清除不相关数据。

（3）植物图像数据增强。在图像的深度学习中，为了丰富图像训练集，更好地提取图像特征，泛化模型（防止模型过拟合），可通过植物图像数据增强的方式进行数据扩容以覆盖更多的应用场景。常用的数据增强技术包括水平/垂直翻转、旋转图像，剪切图像，图像色差变化，图像亮度变化，图像饱和度变化，图像对比度变化，扭曲图像特征，改变图像尺寸大小，增强图像噪声（高斯噪声、盐椒噪声等）等。

（4）植物图像模型训练。训练样例可以有两种基本的方式提供给网络训练使用，也可以是两者的结合：逐个样例训练（EET），批量样例训练（BT）。在EET中，先将第一个样例提供给网络，直到训练误差降低到一个可以接受的范围，或者进行了指定步骤的训练次数。然后再将第二个样例提供给网络训练。EET的优点是，相对于BT只需要很少的存储空间，并且有更好的随机搜索能力，防止训练过程陷入局部最小区域。EET的缺点是，如果网络接收到的第一个样例就是劣质（有可能是噪声数据或者特征不明显）的数据，可能使得网络训练过程朝着全局误差最小化的反方向进行搜索。相对的，BT方法是在所有训练样例都经过网络传播后才更新一次权值，因此每一次学习周期就包含了所有的训练样例数据。BT方法的缺点也很明显，需要大量的存储空间，而且相比EET更容易陷入局部最小区域。而随机训练（ST）则是相对于EET和BT一种折中的方法，ST和EET一样也是一次只接受一个训练样例，但只进行一次BP算法并更新权值，然后接受下一个样例重复同样的步骤计算并更新权值，并且在接受训练集最后一个样例后，重新回到第一个样例进行计算。ST和EET相比，保留了随机搜索的能力，同时又避免了训练样例中最开始几个样例如果出现劣质数据对训练过程的过度不良影响。在图像识别的过程中需要对训练数据进行选择，对每一类训练数据挑选出比较难区分的样本或者分类出错的样本，这样不仅能提高模型的准确度还能够提高模型的泛化能力，使得模型能够有效地处理复杂的数据。同时选取的困难样本在训练的时候能够增大网络模型学习的梯度，使得模型参数的学习更加高效。

（5）植物图像预处理。图像预处理是为了在图像识别过程中减少后续算法的复杂度并提高识别效率。借助降噪手段，将其还原为一张质量清晰的点线图，从而正确地对图像的各个特征进行提取。在图像预处理的过程中，图像分割的质量直接影响着最终的分析结果。比较常用的图像分割方法为灰度方差法、局部灰度差法、基于方向图的图像分割法。其中灰度方差法和局部灰度差法分割某些过于湿润或者过于干燥的图像时效果不佳，基于方向图的图像分割法主要依赖图像方向图的准确性，图像的对比度基本不会影响该方法分割图像的结果，但在单一灰度的图像区域中，方向图分割法难以得到十分精准的效果。一幅图像一般由四类区域构成：清晰区域、可恢复区域、背景区域和不可恢复区域。图像分割的主要目的就是在去除背景区域和不可恢复区域的同时，尽可能不去破坏干净区域以及可恢复区域。现如今大多数图像分割采用三级分割方法：第一级分割出背景区域，第二级为从前景区域中将模糊区域分割和提取出来，第三级为从模糊区域将不可恢复区域进行分割和提取。总之，各种图像分割方法之间各有优劣。进行一幅图像分割时，需要将各种方法有机结合构造一种多级分割体系，以获得最优的分割结果。

（6）植物图像特征提取。植物图像的特征提取对目标图像识别的精度和速度具有重要影响。特征提取就是将图像上的特征点划分为不同特征子集的过程，这些特征子集通常是孤立的点集、连续的曲线集或者连通的区域集。一般情况下，植物图像的特征包含颜色上的特征、图像的纹理、构成图像的形状以及图像各部分之间的空间关系。颜色特征是作为整体特征，表示图像区域中各个景物的表面属性。颜色特征一般是捕捉特征点，因此对于图像的整体方向、大小等属性并不敏感，不适用于图像局部特征的捕捉。纹理特征对应的是图像区域上景物的表面属性。纹理体现了物体表面的性质，但不能完整地映射出图像上物体的根本特征，所以纹理特征无法捕获到图像中高层次的内容。和颜色特征不同的地方是，纹理特征需要同时处理一块图像区域，一般都具有旋转不变性，还有较强的抗噪抗干扰能力，但特征提取结果与真实的纹理区域会随着图像分辨率的变化而产生有较大的偏差。形状特征一般是利用图像中感兴趣的区域进行提取，这些区域都存在一些共同的属性。

（7）植物图像匹配。植物图像的匹配由于受到拍摄环境、拍摄角度以及拍摄设备自身精度等因素的影响，拍摄的图像会存在失真与畸变等问题。如何加强抗干扰能力、保证较高的匹配率、提高匹配的速度，成为了专业人士主要的研究方向。图像匹配有基于灰度的匹配方法和基于特征的匹配方法两种方法。基于灰度的匹配方法，是利用空间二维滑动模板来匹配目标图像。常见的匹配方法有归一化灰度相关匹配、最小二乘影像匹配，不同的算法适用于不同的环境。基于特征的匹配方法，其主要思想就是寻找点、线、区域等特征匹配基元的参数属性，再通过这些属性来进行图像的识别和匹配。这些处理一般从颜色、纹理、形状、空间的位置关系等方面进行操作。特征匹配第一步先对图像进行预处理，从而提取其较高层次的特征属性，紧接着通过这些特征属性，建立图像之间的联系。常用的匹配方法有如下几种：几何图元法、模型识别法、信号处理法和傅氏形状描述法。近些年来，基于神经网络的深度学习方法不断成熟，为图像匹配提供了许多新的技术手段。