第一章 初识人工智能

1956年夏天,一场在美国达特茅斯学院召开的会议上,以约翰·麦卡锡和马文·明斯基为代表的一批学者将“人工智能”(Artificial Intelligence)确立为一个专门术语,随后发展为一门独立的学科。此后的60多年中,无数研究者进行了不懈的探索和努力,人工智能的发展也在满怀期待与失望之间反复徘徊,历经起起落落。但用机器模拟甚至超越人类智能的尝试从未停止。2016年,以AlphaGo为标志,人类失守了围棋这一被视为最后智力堡垒的棋类游戏。有人认为,这不过是用更强大的计算机、更复杂的算法,实现了更复杂的功能而已。计算机就算跳棋、象棋、围棋下得再好,也只是一台(或者一群)冷冰冰的机器。也有人惊呼,快速发展的人工智能将逼近“奇点”,带来下岗大潮、隐私泄露等诸多问题,甚至可能会导致人类的毁灭。

img

1956年达特茅斯会议参会人员合影

一、何为人工智能?

2001年,由史蒂文·斯皮尔伯格(Steven Allan Spielberg)执导的科幻电影《人工智能》(Artificial Intelligence)上映。该影片讲述了在人类已经进入强人工智能时代的21世纪中期,一个名叫大卫的机器人踏上寻找“母亲”并找寻自我、探索人性之路的故事。影片中的“主人公”大卫是一个具有自主意识和意志、能够自主做出决策并实施相应行为的强智能机器人。不可否认,影片中对于大卫的描述只是人类对于智能机器人的想象,对21世纪中期人工智能时代生活场景的描述同样也只是影片创作者的幻想。

那么,从科学角度看,人工智能到底是什么?下面从人工智能的不同学派、不同发展历程和不同学者给出的定义进行分析,多角度刻画人工智能。

1.人工智能的主要学派

智能的评判标准在不断变化,智能的道路也分出多条路径。目前,人工智能的主要学派有下列三家。

(1)符号主义(symbolicism),又称逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(符号操作系统)假设和有限合理性原理。

(2)连接主义(connectionism),又称仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。

(3)行为主义(actionism),又称进化主义或控制论学派,其原理为控制论及感知-动作型控制系统。

图灵问题通常被认为是人工智能研究肇始,图灵巧妙地回避了智能的实现机制,仅从“等效”角度定义了机器智能。一直以来,“人工智能”术语中的“人工”是最无争议的,大家一致认同“人工”等价于计算机技术实现。然而,“智能”的实现机制在不同时期和不同机遇情况下,出现了不同理念变迁和范式更迭。机器学习的概念本身也隐含在图灵问题之中:计算机除了能够执行“指令规定的事情”之外,能否自我学习执行特定任务?图灵问题引出了一种新的编程范式,即连接主义/机器学习。在经典的程序设计(符号主义人工智能的范式)中,计算机的输入是规则(程序)和需要根据这些规则进行处理的数据,系统输出的是答案,如下图所示。在机器学习方法论中,计算机的输入是数据和从这些数据中预期得到的答案,系统的输出则是解决问题的规则。这些规则经过前期的学习过程(训练过程),可应用于新的数据求解(泛化过程),从而使得计算机系统自主生成答案。

img

人工智能不同范式中的系统I/O

深度学习是机器学习的子集。它是指利用多层神经网络,以越来越复杂的方式处理数据,使软件通过海量数据训练机器去执行语音、图像识别等任务,从而不断提高其信息识别和处理能力的过程。聚集在神经上部用于深度学习的多层神经网络被称为深度神经网络。

img

深度学习是机器学习一个相当有发展前途的分支领域,但在21世纪前十年才崛起。在随后的几年里,它在实践中取得了革命性进展,在视觉和听觉等感知问题上取得了令人瞩目的成果,而这些问题所涉及的技术,在人类看来是非常自然、非常直观的,但长期以来却一直是机器难以解决的。

特别要强调的是,深度学习已经取得了以下突破,它们都是机器学习历史上非常困难的领域:

● 接近人类水平的图像分类;

● 接近人类水平的语音识别;

● 接近人类水平的手写文字转录;

● 更好的机器翻译;

● 更好的文本到语音转换;

● 数字助理,比如Google Now和Alexa Internet;

● 接近人类水平的自动驾驶;

● 更好的广告定向投放,Google、百度等都在使用;

● 更好的网络搜索结果;

● 能够回答用自然语言提出的问题;

● 在围棋上战胜人类。

深度学习的分类是基于其学习机制不同进行的。深度学习的学习机制主要有四种:监督学习、无监督学习、自监督学习和强化学习。

(1)监督学习是一种机器学习过程,在这个过程中,输出被反馈到计算机,供软件学习,以便下次得到更准确的结果。有了监督学习,“机器”就可以接受最初的培训。相比之下,非监督学习是指计算机在未经初始培训的情况下进行学习。监督学习需要有明确的带标签输入数据,通常用作分类机制或回归机制。例如,恶意软件检测是典型的二进制分类场景(恶意或良性)。与分类相比,回归学习根据输入数据输出一个或多个连续值的预测值。

(2)无监督学习与监督学习相反,其输入数据不带标签。无监督学习通常被用于聚类数据、减少数据维度或估计密度。例如,模糊深度置信网络(DBN)结合模糊系统,可以提供一种自适应机制来调节DBN的深度,从而获得高度精确的聚类。

(3)自监督学习是监督学习的一个特例,它与众不同,值得单独归为一类。自监督学习是没有人工标注的标签的监督学习,可以看作没有人类参与的监督学习。虽然其仍然需要标签,但它们是从输入数据中生成的,通常是使用启发式算法生成的。有名的自监督学习的例子是自编码器(autoencoder)。监督学习、自监督学习和无监督学习之间的区别有时很模糊,自监督学习可以被重新解释为监督学习或无监督学习,这取决于关注的是学习机制还是应用场景。

(4)强化学习的机制是对智能代理的行为进行奖励,可以看作监督学习和无监督学习的融合。强化学习适用于具有长期反馈的任务场景。

简言之,深度学习因其在优化、描述、预测等方面的显著优势,在自主系统中得到了广泛应用。比较有代表性的应用领域有图像与视频识别、文本分析与自然语言处理、金融经济学与市场分析等。新技术军事化历来是军备发展战略的基础组成部分,图像识别必然会成为目标识别、定位与锁定攻击的助力手段。

2.人工智能的发展历程

研究人工智能时,首先必须认识到人工智能的理论仍未完全突破,人工智能技术仍处在发展之中,并且面临着许多不确定性。

虽然深度学习近年来取得了令人瞩目的成就,但人们对这一领域在未来十年能够取得的成就似乎期望过高。虽然一些改变世界的应用(如自动驾驶汽车)已经触手可及,但更多的应用可能在长时间内仍然难以实现,比如可信的对话系统、达到人类水平的跨任意语言的机器翻译、达到人类水平的自然语言理解,所以不应该乐观地把达到人类水平的通用智能(human-level general intelligence)的期望太当回事。在短期内期望过高的风险是,一旦畅想的技术没有被成功实现,那么将导致研究投资方停止投资,而这会导致在很长一段时间内研究进展缓慢。这种事在人工智能发展史上曾经发生过,回顾这些技术的高潮和低谷,有助于对舆论炒作带来的“高烧”进行降温,降低研究人员的心理预期和压力,潜心研究人工智能技术,这样反而有助于智能技术自身的发展。

历史上,人工智能发展经历多次起落。第一次,20世纪50年代的达特茅斯会议确立了人工智能(AI)这一术语,20世纪60年代符号主义人工智能盛行。人们陆续发明了第一款感知神经网络软件和聊天软件,证明了数学定理,人们惊呼“人工智能来了”“再过十年机器人会超越人类”。马文·明斯基是符号主义人工智能方法最有名的先驱和支持者之一,明斯基在1967年宣称:“在一代人的时间内……将基本解决创造‘人工智能’的问题。”三年后的1970年,明斯基做出了更为精确的定量预测:“在3~8年的时间里,我们将拥有一台具有人类平均智能水平的机器。”直到2016年1月,明斯基这位在人工智能方面有着卓越贡献的科学家及哲学家因脑溢血在家中与世长辞,但这一目标看起来仍然十分遥远,目前仍然无法预测需要多长时间才能实现。在20世纪60年代到70年代初,一些专家却相信这一目标近在咫尺(正如今天许多人所认为的那样)。几年之后,由于这些过高的期望未能实现,研究人员和政府资金均转向其他领域,这标志着第一次人工智能冬天的开始(这一说法来自“核冬天”,因为当时是冷战高峰之后不久)。

第二次,20世纪80年代,一种新的符号主义人工智能——专家系统(expert system)——开始在大公司中受到追捧。最初的几个成功案例引发了一轮投资热潮,进而全球企业都开始设立人工智能部门来开发专家系统。1985年前后,各家公司每年在这项技术上的花费超过10亿美元。但到了20世纪90年代初,这些系统的维护费用变得很高,难以扩展并且应用范围有限,人们逐渐对其失去兴趣,于是开始了第二次人工智能的冬天。

当今时代可能正在见证人工智能的炒作与让人失望的第三次循环,目前公众处于极度乐观的阶段。最好的做法是降低对人工智能的短期期望,确保对这一技术领域不太了解的人能够清楚地知道深度学习能做什么、不能做什么。在这个过程中,智能产业可能会经历一些挫折,也可能会遇到新的人工智能的冬天。正如互联网行业那样,在1998—1999年被过度炒作,进而在21世纪初期遭遇“寒潮”,并导致投资停止。

虽然对人工智能的短期期望可能不切实际,但长远来看前景是光明的。不要相信短期的炒作,但一定要相信长期的愿景。人工智能可能需要一段时间才能充分发挥其潜力,相信最终会实现上述目标。人工智能最终将应用到我们社会和日常生活的几乎所有方面,正如今天的互联网一样。深度学习已经得到了人工智能历史上前所未有的公众关注度和产业投资,但这并不是机器学习的第一次成功。可以这样说,当前工业界所使用的绝大部分机器学习算法都不是深度学习算法。深度学习不一定总是解决问题的正确工具:有时没有足够的数据,深度学习不适用;有时用其他算法可以更好地解决问题。

img

人工智能的发展浪潮

图片来源:李睿深,郝英好,石晓军.颠覆性技术丛书:人工智能[M].北京:国防工业出版社,2021.

二、人工智能的几种定义

1.艾伦·麦席森·图灵提出的“图灵测试”

“图灵测试”由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一台机器)在分隔开的情况下,测试者通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么被测试的机器就通过了测试,并被认为具有人类智能。“图灵测试”一词来源于计算机科学和密码学的先驱艾伦·麦席森·图灵写于1950年的一篇论文《计算机器与智能》,其中30%是图灵对2000年时的机器思考能力的一个预测。

2.约翰·麦卡锡和明斯基对人工智能的定义

人工智能的一个比较流行的定义,也是该领域较早的定义,是由约翰·麦卡锡在1956年的达特矛斯会议上提出的:人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。在这次会议上,以约翰·麦卡锡为代表的一批学者将“人工智能”(Artificial Intelligence)确立为一个专门术语,随后也发展为一门独立的学科。

3. 斯图尔特·罗素和诺文对人工智能的定义

人工智能是有关智能主体的研究与设计的学问,而智能主体是指一个可以观察周遭环境并做出行动以达到目标的系统。人工智能能够模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)。

人工智能是人造机器所表现出来的智能性。总体来讲,对人工智能的定义大多可划分为四类,即机器“像人一样思考”“像人一样行动”“理性地思考”和“理性地行动”。这里“行动”应广义地理解为采取行动,或制定行动的决策,而不是肢体动作。

img

像人一样思考

4.约翰·罗杰斯·希尔勒提出的“强人工智能”

1)强人工智能(Bottom-Up AI)

强人工智能观点认为有可能制造出真正能推理(Reasoning)和解决问题(Problem-Solving)的智能机器,并且,这样的机器被认为是有知觉的、有自我意识的。强人工智能分为两类:

(1)类人的人工智能,即机器的思考和推理就像人的思维一样。

(2)非类人的人工智能,即机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式。

2)弱人工智能(Top-Down AI)

弱人工智能观点认为不可能制造出能真正地推理和解决问题的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。

关于强人工智能的争论不同于更广义的一元论和二元论的争论。其争论要点是:如果一台机器的唯一工作原理就是对编码数据进行转换,那么这台机器是不是有思维的?希尔勒认为这是不可能的。他举了个例子来说明,如果机器仅仅是对数据进行转换,而数据本身是对某些事情的一种编码表现,那么在不理解这一编码与实际事情之间的对应关系的前提下,机器不可能对其处理的数据有任何理解。基于这一论点,希尔勒认为即使有机器通过了图灵测试,也不一定说明机器就真的像人一样有思维和意识。

也有哲学家持不同的观点。丹尼尔·丹尼特认为,人也不过是一台有灵魂的机器而已,为什么我们认为人可以有智能而普通机器就不能呢?他认为像上述的数据转换机器是有可能存在思维和意识的。

有的哲学家认为,如果弱人工智能是可实现的,那么强人工智能也应该是可实现的。比如西蒙·布莱克本在其哲学入门教材Think里提出:一个人的行动看起来是“智能”的并不能真正说明这个人就真的是智能的;我永远不可能知道另一个人是否真的像我一样是智能的,还是说他仅仅看起来是智能的。基于这个论点,既然弱人工智能认为可以令机器看起来像是智能的,那就不能完全否定机器是真的有智能。布莱克本认为这是一个主观认定的问题。

需要指出的是,弱人工智能并非和强人工智能是完全对立的,也就是说,即使强人工智能是可能的,弱人工智能仍然是有意义的。至少,目前的计算机能做的事,像算术运算等,在百年前被认为是很需要智能的。

5.尼尔逊对人工智能的定义

美国斯坦福大学人工智能研究中心尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科——是怎样表示知识以及怎样获得知识并使用知识的科学。”

6.温斯顿对人工智能的定义

美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”

7.百度百科和相关论文对人工智能的定义

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。从智能化水平看,人工智能大体可分为运算智能、感知智能和认知智能3个层次。

(1)运算智能即快速计算和记忆存储的能力。旨在协助存储和快速处理海量数据,是感知和认知的基础,以科学运算、逻辑处理、统计查询等形式化、规则化运算为核心。在此方面,计算机早已超过人类,但如集合证明、数学符号证明一类的复杂逻辑推理,仍需要人类直觉的辅助。

(2)感知智能即视觉、听觉、触觉等感知能力。旨在让机器“看”懂与“听”懂,并据此辅助人类高效地完成“看”与“听”的相关工作,以图像理解、语音识别、语言翻译为代表。由于深度学习方法的突破和重大进展,感知智能开始逐步趋于实用水平,目前已接近人类。

(3)认知智能即“能理解、会思考”。旨在让机器学会主动思考及行动,以实现全面辅助或替代人类的工作,以理解、推理和决策为代表,强调会思考、能决策等。因其综合性更强,更接近人类智能,认知智能研究难度更大,长期以来进展一直比较缓慢。

8.布鲁金斯学会《人工智能改变世界》对人工智能的论述

人工智能通常是指“机器能够做出与人类一样的反应,具有像人类那样思考、判断和意图的能力”。这些软件系统“做出通常需要人类专业水平的决策”,并帮助人们预测问题或处理问题。也就是说,它们是以自主、智能和自适应的方式工作。

1)自主

人工智能算法被设计用来做出决定,这通常需要使用实时数据。它们不像被动式机器那样会进行机械或预先设置的响应。人工智能通过使用传感器、数据或远程输入,结合来自各种不同来源的信息,实时做出分析,并根据其得出的见解进行操作。这个分析和决策的过程随着存储系统、处理速度和分析技术的大幅改进,其复杂性也大大增加。

2)智能

人工智能通常与机器学习和数据分析相伴而行。机器学习需要数据并找出其中的潜在趋势,如果它发现与实际问题相关的问题,就可以利用这些知识来分析具体问题。这需要足够多的数据,以便相关算法可以识别有用的模式。数据包括数字信息、卫星图像、视觉信息、文本或非结构化数据等形式。

3)自适应

AI系统有能力在其做出决策时学习和适应。如在交通领域,自动驾驶车辆具有让驾驶员和车辆知道即将到来的拥堵、坑洼、公路建设或其他可能的交通障碍的能力。车辆可以利用路上其他车辆的经验,而无须人类参与,并且它们实现的“体验”马上可以完全转移到其他类似配置的车辆上。先进的算法、传感器和摄像头融合了当前操作的经验,并使用仪表板和显示屏显示实时信息,以便驾驶员能够了解当前的交通状况和车辆状况。

4)人类智慧与人工智能的差别

虽然人类智慧和人工智能之间有许多相似之处,但也存在很大差异。每个在动态环境中交互的自治系统都必须构建一个世界模型,并持续更新该模型。这意味着系统必须能够感知世界(通过相机、麦克风或触觉传感器感知世界),然后进行重建,确保计算机的“大脑”在做出决策之前,具有其所在世界的有效和最新的模型。世界模型的准确度及其更新的及时性是决定自治系统有效与否的关键。

例如,自治无人驾驶飞机导航相对比较明确,因为它飞行时所依据的世界模型只包括那些能够指示优选路线、高度障碍物和禁飞区域的地图。雷达通过指示哪些高度没有障碍物来实时扩充这个模型。GPS坐标会向无人驾驶飞机传导需要去的地方,同时GPS坐标计划的总体目标在于避免飞机进入禁飞区或避免其与障碍物碰撞。

相比之下,无人驾驶汽车的导航更加困难。汽车不仅需要类似的地图测绘能力,而且还要了解所有附近的车辆、行人和骑自行车的人的位置,以及他们在接下来的几秒钟内所在的地方。无人驾驶汽车(和一些无人机)通过激光雷达、传统雷达和立体计算机视觉的组合来实现这一点。因此,无人驾驶汽车的世界模型比典型无人驾驶飞机的世界模型更加先进,同时反映了操作环境的复杂性。无人驾驶汽车的智能系统需要跟踪附近所有车辆和障碍物的一切动态情况,不断地计算所有可能出现的交点,然后对交通状况进行预判,以做出行动决定。

实际上,这种对其他司机未来行为做出的估计或猜测是人类驾驶的关键组成部分,但是人类能够轻而易举地通过认知来做到这一点。计算机需要使用很强的计算能力来跟踪所有这些变量,同时还要试图保持和更新其当前的世界模型。考虑到此问题的计算十分浩大,因此,为了保持行动的安全执行时间,无人驾驶汽车将根据概率分布进行最佳猜测。因此,实际上,汽车目前会依据某种置信区间猜测哪个路径或行动是最佳的选择。自治系统的最佳运行条件应能够在环境不确定性较低的情况下完善高保真世界模型。