2.3 人工智能新兴技术

人工智能新兴技术主要包括智能计算硬件技术、自主无人技术、脑机接口等。下面分别进行简要介绍。

2.3.1 智能计算硬件技术

人工智能算法过程大致可分为数据收集与决策两部分。其中,数据收集方面因需要大量运算,应在云端进行。决策方面,目前各国仍以云端发展为主。以云为中心的架构方式并非在任何情况下都是最理想的解决方案,嵌入式AI是人工智能在移动终端落地的最后一公里解决方案。

(1)神经网络处理器(Neural-network Processing Unit,NPU)。一般来说神经网络处理器是指针对人工神经网络设计的具有模仿人的大脑判断能力和适应能力、可并行处理多种数据功能的处理器。人工神经网络本质上就是一种模仿生物神经网络结构特点的计算机算法,最基本的特征就是模仿人类大脑神经元的传递模式(图2-32),并对输入的信息进行快速处理。

图2-32 典型神经元的结构

资料来源:https://www.cnblogs.com/subconscious/p/5058741.html

人工神经网络算法的最大创新在于通过不断的自我学习,逐步改进自身的拓扑结构,从而变得更加高效。NPU作为深度学习专业芯片,其基本操作是处理神经元和突触。以中国的寒武纪(国际上首个深度学习处理器架构)为例,DianNaoYu指令直接针对大规模神经元和突触的处理来进行设计,因此一条指令就能同时处理一组神经元,从而实现高效能比。2016年以来,中国科学院计算技术研究所孵化的寒武纪公司相继提出了神经网络处理器系列:寒武纪1号(英文名DianNao)(Chen,2014)、寒武纪2号(英文名DaDianNao)(Chen,2014)。紧接着英特尔发布了Nervana神经网络处理器,简称为“NNP”,还发布了自学习神经网络处理器Loihi。

(2)物端芯片。对于物联网终端,人们也提出了智能物联网的概念,即“物联网+AI+先进计算”,智能互联网分为4个阶段:智能通信,智能识别,智能管理,智能运行。物端芯片是整个物联网的核心基础,有了它,物联网终端就能拥有处理机器学习任务的能力。传统终端只具备初步的数字域处理,而智能物联网需要大量本地计算,从终端的初步学习到大量各种AI的应用,这些都需要强壮的终端系统以及核心的终端芯片。随着连接设备的爆炸性增长,以及对隐私、机密性、低延迟和带宽限制的需求,边缘计算逐渐兴起,智能开始从云端向终端迁移。谷歌推出了物端芯片Edge TPU(图2-33)。与此同时,中国科学院计算技术研究所也研制了针对物端计算系统的智能芯片ΦPU(图2-34)。

图2-33 EdgeTPU芯片

资料来源:Rhee,2018

图2-34 ΦPU芯片

2.3.2 自主无人技术

智能自主无人系统(Intelligent Unmanned Autonomous Systems)是能够通过无须人工干预的先进技术进行操作或管理的人造系统。自主无人系统是非常复杂的系统,是机械、控制、计算机、通信和材料等多项技术的融合。与传统的自主系统相比,自主无人系统的发展范围已经逐步扩大,相继出现的各类无人系统对社会和生活产生了显著影响。

(1)无人驾驶车辆。无人驾驶车辆,简称为无人车(Unmanned Vehicles,UV),近10年来引起了学术界和产业界的极大关注。如图2-35所示,无人车是涉及许多技术领域的典型的复杂系统,如认知科学、AI、机器人和汽车工程。因此,无人车被认为是验证视觉、听觉、认知和AI技术的通用实验平台(Montemerlo,2008)。20世纪50年代早期,美国Barrett Electronics公司开发了世界上第一个自动引导车辆系统(Automatically Guided Vehicle System)。2004—2007年,DARPA组织了三届无人车挑战赛,促进了无人车技术的快速发展(Bacha,2008)。UV的发展能够使出行更安全,缓解交通压力并减少环境污染。

图2-35 谷歌无人驾驶汽车模拟结构

资料来源:Guizzo,2011

(2)无人驾驶飞行器。无人驾驶飞行器,通常被称为无人机,是一种典型的先进自主无人系统,可以用来采集数据、监视、调查等。根据应用领域不同,无人机可分为军用和民用两大类。作为一种武器,军用无人机主要用来监视、侦查、攻击和毁伤效果评估。无人机在第二次世界大战、越南战争、第三次中东战争和伊拉克战争中都扮演了重要角色,促进了无人机技术的迅速发展(Fan,2018)。目前,最先进且广为人知的军用无人机有图2-36所示的X47-B、捕食者、全球鹰和Fire Scout,它们已经具备自主起降与自主飞行。民用无人机具有更广泛的应用范围,包括环境监测、资源勘查、农作物评估、交通管制、天气预报、航空摄影、灾难搜救、输电线路和铁路线路检测等(Wikipedia,2016)。与西方国家相比,我国的无人机研制尽管起步较晚,但已步入了快速发展阶段。

图2-36 X47-B无人机

资料来源:https://baike.baidu.com/item/X-47B%E6%97%A0%E4%BA%BA%E6%9C%BA

(3)服务机器人。服务机器人是一种半自主或全自主工作的机器人,它能完成有益于人类健康的服务工作,但不包括从事生产的设备。在社交服务方面,服务机器人(图2-37)聚焦于帮助老年人和残疾人、家政、医护、教育、娱乐、国防、航空和运输。服务机器人发展的3个主要领域为:智能材料和柔性机器人、人工智能技术和感知控制技术、适老助残技术。随着服务机器人越来越接近人们生活,适老助残技术日益引起人们的注意。由美国DARPA资助的Deka Arm是第一个获得美国FDA认证的辅助机器人手臂,它通过一个神经接口将大脑皮层的神经活动转化为控制辅助装置的信号(Rebsamen,2010)。北京航空航天大学针对老年人的日常照料,研制了床椅整合机器人,大大减轻了护理人员的负担。

图2-37 服务机器人示意图

资料来源:https://baike.baidu.com/item/%E6%9C%8D%E5%8A%A1%E6%9C%BA%E5%99%A8%E4%BA%BA

(4)海洋机器人。海洋机器人,即人们所说的水下机器人,常用于探雷扫雷、侦察、情报搜集及海洋探测方面,它适于长时间、大范围的考察任务。海洋资源的勘探和开发,得益于海洋机器人的进步,正在蓬勃发展。根据实际应用的需要以及相关技术的发展,下一代海洋机器人的发展趋势主要分为功能平台和自主控制两个方面。目前,与海洋机器人相关的技术越来越成熟,可靠性也不断提高。人们希望,一个海洋机器人的动作能像鱼一样敏捷,它的智慧能够比拟人类。我们确信,在不久的将来,海洋机器人将在控制、认知和群体智能方面取得进展(Lavery,2018)。

(5)无人车间/智能工厂。无人车间又叫自动化工厂、智能工厂,是利用网络技术、设备监控技术、先进传感技术、大数据技术、人工智能技术等,达成工厂不同层级和软件系统的互联互通,形成“状态感知-实时分析-自主决策-精准执行-学习提升”的生产模式。全部生产活动由电子计算机进行控制,生产第一线配有机器人而无须配备工人的工厂。随着世界贸易和全球化的进步,以及信息通信技术和工业技术的发展,制造业模式和技术到了一个转折点。面对当前复杂的国际国内经济形势和趋势,工业信息化和智能制造是中国企业生存和长期持续发展的关键战略。建设智能工厂将是构成未来工业体系的一个关键特征,是现代企业“两化融合”的最新阶段,是智能制造的重要载体(Zhang,2012)。中国要抓住信息和通信技术带来的巨大历史机遇,工业化和信息化同时发展(修远基金会,2018)。

2.3.3 脑机接口

脑机接口(Brain-Computer Interface,BCI),是一套软件和硬件通信系统,通过使用由大脑活动产生的控制信号,使人能够与他们所在的环境进行通信,而不会干扰周围神经和肌肉。自1929年Hans Berger首次描述脑电图以来,人们估计它可能被用于通信和控制。在20世纪70年代(Berger,1929),一些科学家开发了简单的通信系统,这些通信系统由头部记录的电活动驱动(Vidal,1977)。在音乐作曲家尝试使用大脑活动实时制作音乐之后(Lucier,1982),脑机接口(BCI)的概念于1973年由Vidal形式化(Vidal,1973)。BCI可以使用户能够分别通过想象左手或右手的移动来向左或向右移动屏幕上的光标。1999年6月在纽约奥尔巴尼附近的伦斯勒维尔研究所举行的第一次BCI研究国际会议上,BCI定义如下:“脑机接口是一种不依赖于大脑周围神经和肌肉的输出通信系统。”(Wolpaw,2000)。根据该定义,BCI应该能够通过观察用户脑活动,在用户保持沉默时检测用户的愿望和命令。自从20世纪90年代BCI第一次被实时设计之后(Wolpaw,1991;Pfurtscheller,1993;Irbaumer,1999),脑机接口领域已经取得大规模发展,它包含世界各地数百家实验室和公司,成为一个更加重要的研究和技术领域(Allison,2010)。它有着广泛的应用:针对运动障碍用户的通信和控制,针对普通公众的游戏,实时心理状态监测或中风康复(Ang,2013)。如今,BCI正逐步步入日常生活,有着美好的前景。

(1)BCI系统架构。如图2-38所示,BCI系统架构框图由5个基本部分组成。它们是数据获取和增强、信号预处理、特征提取、分类以及控制接口和设备控制器(McFarland,2006)。

图2-38 BCI系统架构框图

资料来源:Akkar,2017

经典BCI系统中的主要单元是信号采集单元。该单元负责测量和放大脑产生的振荡。它反映了人类当前活动产生的神经行为。在一段时间内大脑的电活动称为脑电图EEG信号,它可用于驱动特定频段的BCI系统(Wolpaw,2002)。目前研究人员已经研究了两种用于信号采集的技术:侵入性和非侵入性方法。在侵入性技术中,电极植入人体大脑内部或神经外科脑表面,而非侵入性技术使用外部传感器测量大脑活动(Nijholt,2010)。BCI系统使用大脑信号来收集有关用户意图的信息。脑电图是BCI系统中用于获取大脑信息使用最广泛的。这是由于其分辨率高,对用户的风险很小,便携性高,成本相对较低。基于EEG的BCI系统由放置在头皮上的一组传感器组成,用于测量和获取脑电活动。在每个活着的人类大脑中,电活动不断发生。我们一生中可能有1/3时间在睡觉,但大脑永远不会休息。即使一个人失去意识,大脑仍然活跃(Webster,1998)。EEG信号的特征在于幅度和频率。EEG信号的幅度通常在10~100μV之间变化(成人通常在10~50μV之间)(Silva,1999)。

(2)BCI系统应用。在早期,BCI主要用于医疗应用。如今,随着性能、范围和投资的大幅提升,BCI几乎可以用于人机交互可想象的每个领域。根据BNCI Horizon 2020,BCI可分为5个应用领域。

人体功能替代。BCI可以为慢性病引起的残疾患者提供解决方案。在中风的情况下,许多人失去了运动能力或说话能力。首次尝试使用BCI为患有严重运动障碍的患者创建新的通信路径是基于光标移动。BCI最受欢迎的应用之一是轮椅控制。I. Merino等人基于稳态视觉激发电位(SSVEP)的BCI不需要基于运动图像的BCI训练(Merino,2016)。在相关工作中,使用6个3cm×3cm的闪烁刺激,通过颜色和频率改变,每个闪烁的方块指示命令。使用典型相关分析(CCA)进行SSVEP频率检测,所提出的方法为多个用户提供了稳健且准确的结果。此方法的主要好处是无须训练即可轻松添加更多命令。使用所提出的控制四轴飞行器的方法的网络摄像头反馈是BCI的新颖应用。除去运动外,BCI的第二大应用与语音合成有关。根据J. S. Brumberg的说法,元音和辅音的离散分类非常困难(Brumberg,2016)。运动图像适用于2D空间中的鼠标控制等连续控制。上述研究提出了一种利用运动图像在英语中生成8个元音的方法,以通过由元音的外边界定义的声音地图进行导航。在训练期间,参与者被指示想象/aa/元音的右手运动、/uw/元音的左手运动以及/iy/声音的双脚运动。为提供改进的BCI性能,为参与者提供了听觉和视觉反馈。在BCI中4种范式被使用:P300信号,运动图像,稳态视觉诱发电位(SSVEP)和慢皮质电位。A. A. Torres-Garcia等人已经提出了一种新的语音分类范式,称为想象语音。

人体功能恢复。BCI是中风康复的潜在方法。使用来自大脑的信号来控制辅助设备,如辅助机器人或肌肉刺激器。早期的研究表明,移动肢体的同侧区域负责执行和规划。D. T Bundy等人首次证明了对侧半球EEG信号可用于控制一维中的光标移动(Bundy,2014)。

人体功能改善。由于新颖的可穿戴EEG设备可以长时间使用,从而无须干预的BCI应用也可以改善健康状况。D. Looney等人提出了一种用于连续脑监测应用的Ear-EEG设备,所提出的装置由带有嵌入式电极的耳塞组成,以记录耳道内的脑电波(Looney,2014)。最近由B. Mirkovic等人提出的申请:使用BCI的听力设备控制可以使用连续EEG语音包络跟踪来检测对自然语音的关注方向(Mirkovic,2016)。上述研究证明,由于电极数量较少,连续EEG的准确度低于头皮EEG,但两者都能提供足够的解码精度。最近的另一个BCI应用程序与使用可穿戴EEG耳机的记忆改进有关。根据M. Avaneh等人的说法,开始后1~2s的顶叶和枕叶EEG信号幅度测量可用于识别记的差或良好的单词(Arvaneh,2016)。

人体功能增强。BCI性能的主要限制之一是用户无法学习提供纯正的EEG模式。一小部分用户患有BCI缺乏症,这意味着他们无法学习如何使用BCI。一种可能的解决方案是创建具有若干反馈路径(即视觉、体感、听觉)的交互式共同学习环境,以这种方式,可以显著增加用户参与度并且用户可获得关于他的神经元活动的更详细信息(即所提供的模式有什么问题)。像反馈方法这样的游戏不仅可以提供更好的EEG模式,还可以增强用户的能力。现在,情绪障碍是最常见的疾病之一。大量研究表明了音乐与情绪之间的关系。情感脑机接口(aBCI)是情绪增强的可能解决方案。根据I. Daly等人的说法,aBCI音乐界面可用于调节情绪(Daly,2016)。所提出的系统由EEG和其他生理信号记录器,情感状态检测器,用于确定将用户情感状态改变为目标情感状态的最佳方式的推理系统和钢琴音乐生成器组成。上述解决方案可以以平均精度0.54检测当前的情感状态,并且它具有新颖音乐治疗应用的潜力。情感状态监测为艺术家们开辟了新的沟通途径。其中最受欢迎的应用之一是Lisa Park的Eunoia,它可以将情绪(即悲伤、愤怒、仇恨、欲望、快乐)实时转化为声学振动。

研究工具。在早期,BCI主要关注通信和控制。新的硬件和机器学习方法为BCI提供了新的可替代的改进应用程序,可用作各领域的研究工具(例如神经科学、市场营销等)。最近的一些研究揭示了软饮料对脑机接口的影响。根据J. Mundahl的研究,咖啡因会降低静息时的α能量,但会增加注意力(Mundahl,2016)。咖啡因对BCI表现的影响可以忽略不计,因为这两种效应相互抵消。基于糖的饮料降低了BCI的性能。上述观察结果取自在咖啡因或基于糖的饮料消费之前和之后6位参与者在左脑和右脑运动皮质位置(C3,C4)上记录的EEG数据。在每种情况下,记录静止状态,然后是左右光标控制。对BCI研究的另一个兴趣在于主题可转移性,并且培训时间最短。根据H. Cho等人的说法,在运动图像BCI的情况下,如果各个特征与标准特征相似,则主体传递速率与个体精确度相当(Cho,2016)。受试者转移的可能解决方案是交互式神经反馈,其中用户学习如何使用系统或共同适应的方式(Kuzovkin,2016)。上述方法不仅仅对受试者的可转移性有帮助,也有助于解决BCI文盲问题。

脑机接口在娱乐、假肢控制以及学术研究等方面具有巨大的潜力,由于计算能力和传感技术的快速发展,人人可使用的医疗级别脑机设备已经出现,进一步拓展到了游戏、心理状态监测等应用领域。但是,由于缺乏标准化和相适应的道德规范,脑机接口的发展还存在一定程度的阻碍。