1.1.2 自然语言理解

语言文字是人类交流的工具,既然是工具便可以人为地创造和改造。起源于象形文字的汉字深刻地影响了东亚的文化。《明一统志·人物上古》记载:“仓颉,南乐吴村人,生而齐圣,有四目,观鸟迹虫文始制文字以代结绳之政,乃轩辕黄帝之史官也。”这便是所有华人耳熟能详的仓颉造字的故事。再如,朝鲜王朝第四代君主世宗于1443年创造了朝鲜字母《训民正音》,20世纪已在朝鲜半岛普及,而汉字也逐渐被废用。与此形成鲜明对比的是,一些在古代曾经无比辉煌的语言,如梵语(Sanskrit)、拉丁语等,虽然今天仍有少量的使用者,但它们基本上已经退出了历史的舞台。

图1.69 语言的兴衰折射出文明的兴衰,多少曾经美丽的文字在地球上消失。唯有汉字穿越几千年,令中华文明延续至今

每个人都有自己的母语,在相应的语言文化氛围里形成自我认同感,并排斥操着其他语言的“外来人”。这种排他性的根源是由交流障碍所引起的理解困难、沟通匮乏,它们甚至可以演变成隔阂与仇视。

图1.70 全球共有5 000多种语言。为了更好地交流,联合国使用6种工作语言:汉语、英语、西班牙语、法语、阿拉伯语和俄语。其中,汉语和英语的使用人数超过24亿,约占世界人口的1/3

与视觉和语言同时相关的是手语(sign language)。它和口语在表达能力上没有区别,也有约定俗成的语法,从日常生活到科学技术的交流,都可以用手语。不同地区的手语表达会有差异,各国军队的战术手语也不同。

图1.71 美国手语的“我爱你”(左图)不同于波黑手语(右图)

例1.14 1887年,波兰眼科医生路德维克·拉扎尔·柴门霍夫(Ludwik Lejzer Zamenhof, 1859—1917)出版著作《国际语言》,希望以世界语(Esperanto)为媒介消除不同文化之间的偏见。柴门霍夫是一位人道主义者,他说:“这确实是我一生的目标。我会为此放弃一切。

图1.72 世界语的单词拼写与发音完全吻合,柴门霍夫借鉴了印欧语系,提出一个精炼的语法,让世界语简单易学

世界语于清末传入我国,在五四新文化运动时期得到推广,但终究没能形成气候。

例1.15 汉字从商代的甲骨文、金文,经过秦代的篆书、隶书,后来产生了楷书、草书、行书等字体。为了方便书写、普及教育等目的,汉字的简化势在必行。1956年,国务院公布了《汉字简化方案》。中国文字改革委员会于1964年发布《简化字总表》,于1977年发布《第二次汉字简化方案(草案)》。最终版本修订于1986年,共收录了2 274个简化汉字和14个简化偏旁。

图1.73 汉字的各种字体。在中国和日本,汉字的书法变成了一门艺术

“二简”方案推出后饱受争议,由于违背文字社会规律,终于在1986年被废止。如果文字的使用者不认可,文字便失去了它存在的合理性。

图1.74 《人民日报》用过的二简字

五四运动时期,很多忧国忧民的学者激进地将国家的落后归咎于高门槛的汉字所造成的低民智。鲁迅甚至说,“汉字不灭,中国必亡”(见1949年时代出版社的《鲁迅论语文改革》)。今天,可以告慰先辈的是,民族复兴不在文字,而在社会制度的进步。汉字若灭,中华文明必亡。

广义地讲,人们用于交流的一切符号系统都可以视为语言,例如密码、数学公式等。加法2+2=4全世界的人都读得懂,密码则不然,多数人都读不懂。

例1.16 明文经过编码成为密文,密文经过解码变回明文。如果把明文的语义视为密文的语义,语言理解就是“编码解码”。也就是说,如果解码正确(即密码被破译),是否可以认为机器“理解”了密文的语义?

图1.75 二战期间,图灵对破解德军的Enigma密码系统做出了巨大贡献[10]

语言有两大问题:识别与生成。利用重写规则,识别问题就是编译分析,生成问题就是造句。奥地利哲学家、语言哲学(philosophy of language)的奠基人路德维希·维特根斯坦(Ludwig Wittgenstein, 1889—1951)认为“意义即用法”(Meaning is use),我们可以简单地理解为“操作语义”(operational semantics)。

图1.76 传统的词典都是面向人类的,用自然语言来解释词义。自然语言处理要求有面向机器的词典,指导机器“理解”词汇语义

围棋的语义就是它的游戏规则,词汇的语义就是词的各种使用。这是一个巨大的进步,语义不再是一个抽象的概念,而是与规则和实例挂上了钩。

当人们谈论“乔治·华盛顿”和“George Washington”的时候,都是指代美国的首位总统乔治·华盛顿(George Washington, 1732—1799),对他的事迹的描述也不受语言的影响,所有人对它们的理解都是基本相同的。人类语言的表达能力有细微的差别,有一些概念(concept)在某语言中有,但在其他语言中没有。人类天生具有创造概念的本领,绝大多数概念都是全人类共享的。

例1.17 20世纪80年代,美国普林斯顿大学的心理学家乔治·米勒(George Miller, 1920—2012)用同义词集合(SynSet)来刻画词汇语义(lexical semantics)或概念,概念之间通过一些预先定义好的关系(例如,名词概念的子类–类关系、部分–整体关系、成员–组织关系等)连接而成一个巨大的网络,被称为“词网”(WordNet)。实际上,它是一个概念的网络。

所谓“同义词”,就是在某个语境里可以相互替换的词语(即满足可替换原则的词语),它们的语义被形式化为一个同义词集合,是机器可识别的。例如,“computer”在词网里有两个意思,一是计算机,二是做计算的人(也称“计算员”),它们按照子类–类关系(有时也称上下位关系)的上位概念(hypernym)(9)如下所示。

例1.18 如果机器翻译的效果很好,我们是否可以认为机器“理解”了语义?

 从广义上讲,所谓“理解”了语义必须能够通过相关内容的问答测试,以不同的方式询问同一内容,机器总能返回正确的答案,这里会涉及常识(common konwledge),以及逻辑推理、类比推理等。

 从狭义上讲,翻译准确就是理解了语义。例如“中英”翻译,如果将一个输入的中文语句,翻译成英文,再翻译回中文……,反复几次后,结果如果依然准确(即语义没有发散),则可以认为机器“理解”了语义。例如,输入中文语句“有多少人工就有多少智能”,谷歌“中↔英”翻译系统经过多轮对译后收敛,其结果如下(10)

百度“中↔ 英”翻译系统经过相同的几轮对译后也收敛了,其结果如下。

事实胜于雄辩,目前的机器翻译远未达到人类自然语言理解的高度。真正实现机器翻译的那天,人类便没有语言交流的障碍,便没有做不成的事(11)。圣经里“通天塔”(Tower of Babel)的故事似乎在暗示,交流对人类来说是多么地重要。

图1.77 没有了共同语言,人类交流受阻,建造中的“通天塔”只能半途而废

机器翻译经过半个多世纪的发展,虽未达到自然语言理解,但已经逼近一般的实用水平。

 还有一种说法认为,用户要的就是精准的中英翻译结果,理不理解只是个中间结果,做得好是锦上添花,做不到又有谁会在意?譬如,一位只会说中文母语的人倒是能理解中文原文,但“中英”翻译一定不如机器好,理解原文有何意义?从实用的角度讲,能取得好的效果才是第一重要的。所以,基于实例的机器翻译没有自然语言理解也无所谓。

标准不同,对机器翻译是否达到“自然语言理解”的结论也就不同,不能脱离标准来评价自然语言理解的水平。例1.18的不收敛也许是某个翻译机不合格所致。

例1.19 英国大文豪威廉·莎士比亚(William Shakespeare, 1564—1616)有很多美妙绝伦的金句,人类对它们的理解是共通的,甚至跨越了文化和时空。

图1.78 莎士比亚作品中流传甚广、感人至深的一些名句,如“做真实的自己”“懦夫在死之前已死过多次,而勇士只赴死一次”“爱是如迷雾般的叹息”“愚者自以为智,智者自以为愚”“那时有颗星星起舞,我就在它下面诞生”“但是亲爱的朋友,每当我想起了你,所有损失都失而复得,一切悲伤都烟消云散”“爱像雨后的阳光”“我们都是梦中之人,短暂一生都在酣睡之中”“人生不过如行走的影子,如台上拙劣表演的伶人”“我曾荒废过时光,如今时光也消磨了我”等

比日常文字更难把握的是诗的意境,机器能理解诗歌吗?例如,“鸟宿池边树,僧敲月下门。”(贾岛《题李凝幽居》),贾岛(779—843)不知道用“敲”字好还是用“推”字好。韩愈(768—824)觉得“敲”字好,他认为在寂寥无声的夜里,敲门声更凸显了夜深人静。其实,这两个动词各有各的道理。这个和尚如果是访友,“敲”是合乎常理的。如果是归寺,他得多鲁莽才会在寂静的夜里咣咣敲门,“推”反倒符合僧的身份,无悲无喜,略含禅意。当然,如果是鲁智深,随性而为,就该用“砸”了。

图1.79 明代画家盛茂烨(生卒年不详)《唐诗山水册》中的“僧敲月下门”

还有文学、艺术作品的深层意义,有时需要读者有足够的阅历才能真正理解。同一个作品,“智者见智,仁者见仁”的情况再常见不过了。例如,鲁迅的短篇小说《孔乙己》(1918)的主人公“孔乙己原来也读过书,但终于没有进学,又不会营生,于是愈过愈穷,弄到将要讨饭了”。这个曾饱读圣贤书的落魄书生跌落在社会底层挣扎地活着,尝尽世间人情冷暖,仍试图保有残存的一丝尊严,“孔乙己是站着喝酒而穿长衫的唯一的人”。

图1.80 鲁迅是新文化运动的先驱、中国现代文学巨匠和最具批判精神的思想家

孔乙己是善良和迂腐的,“可惜他又有一样坏脾气,便是好喝懒做”。于是,他在真实世界里找不到自我,也不被世人理解。他偷了何家的书,被吊着打,又在丁举人家里窃书被打折了腿。他为何要偷书?如果仅仅为了换点钱,丁举人家里有比书更值钱的东西可偷。

图1.81 《孔乙己》连环画插图,画家程十发作品,1963年荣获首届连环画绘画二等奖。原稿收藏于北京和上海的鲁迅博物馆

孔乙己经常引经据典。“多乎哉?不多也”一语出自《论语·子罕》,可见他的博学、幽默和善良。这位爱说“君子固穷”的书生,到头来终被那个鼓吹“万般皆下品,惟有读书高”的社会抛弃了。这固然是孔乙己个人的不幸,更是有辱斯文却道貌岸然的社会的悲哀。

机器能理解孔乙己的精神世界吗?它能从孔乙己的争辩“窃书不能算偷……窃书!……读书人的事,能算偷么”推断出孔乙己窃书多半是因为喜欢吗?这个穷酸的读书人因为买不起书而偷窃,何家、丁家为惩罚他的恶而用私刑,到底哪个是更大的恶?机器能理解“一般社会对于苦人的凉薄”吗?

有时,我们无法用对错优劣来评判一个决策、一个理解,例如,很难评价翻译的好坏。语言理解可以多种多样,不同的角度可能得到不同的感受。人类语言很多时候不那么精准,带有一定的模糊性,给想象留下了许多空间,超越人类智慧的机器能否理解这种模糊性?

定义1.1 笼统地讲,自然语言理解可以递进地从几个角度定义。

(1)复述——用不同的语句表达相同的意思。例如,“孔乙己累了”可理解为“孔先生疲倦了”,“阿Q吃了苹果”可复述为“阿Q苹果吃了”或“苹果阿Q吃了”。

(2)适当的推理。例如,由“阿Q吃了苹果”可知“阿Q缓解了饥饿”。具体讨论见1.1.5节。

(3)篇章的摘要或总结,即对原文进行“有损压缩”,在给定的描述长度之内,信息损失越小越好。总结者清楚哪些信息更重要,应该予以保留。

(4)围绕给定语句和篇章回答相关问题,答案不必显式地存在于原文中。要做到这些,自然语言理解必须以知识和推理为基础。

归根结底,语言是信息交流的工具。在人机交互中,自然语言理解是必须解决的问题。在机器之间,信息可以通过电磁波信号以光速精准传递。如果在有一定认知能力的智能机器种群中建立交流机制,能否演化出某种适合机器们交流的语言?

图1.82 人类通过语言交流彼此了解、共享经验和知识,并形成共识

高级智慧的交流方式也许不是自然语言,也许更加精确。也许在高级智慧看来,人类的语言和鸟鸣狮吼猿啼差不许多,词汇稀少,表达乏术。语言作为思维交流载体的能力在宗教和哲学里早有微词。传说,释迦牟尼在灵鹫山法会上拈花示众,只有摩诃迦叶(佛陀时代)破颜微笑,心领神会,知其意旨。于是释迦佛便说;“吾有正法眼藏,涅槃妙心,实相无相,微妙法门,不立文字,教外别传。”(《五灯会元》)道教也有“道可道非常道,名可名非常名”(老子《道德经》)的醒世恒言。在《逻辑哲学论》(1921)的结尾,维特根斯坦感慨,“对无法言说之物,应保持沉默”。

图1.83 语言的表达能力有限。若认知在语言之外,除了沉默我们什么也做不了“人有人言,兽有兽语”,机器之间若有交流,能演化出怎样的语言?

图1.84 智能机器之间需要构建“语言交流”能力,使之比人类更高效地达成共识

语言生成

图1.85 语言学家乔姆斯基

1957年,美国著名语言学家诺姆·乔姆斯基(Noam Chomsky,1928— )出版了名著《句法结构》[21],提出了语言的生成模型(generative model),即语言数据的产生机制——句法(syntax)或文法(grammar)被形式化为一组重写规则(rewriting rules)或产生式(productions)。乔姆斯基认为文法是自主的,独立于意义;而语义分析则是在句法树上完成的。乔姆斯基还提出过泛语法(universal grammar)理论,认为人类习得文法的能力内置在大脑里,后天语言习得的过程就是激活泛语法的参数。泛语法是人类共有的语言规则,它可以用来解释儿童语言习得,然而它到底是什么,至今还是一个谜。

图1.86 分析句子“The boy saw a girl with a microscope”,可以得到两个截然不同的句法树。这个结果句法上正确,但在语义上却是错误的

我们现在多用随机上下文无关文法来描述自然语言的句法结构。如果分析的结果不唯一,则通过概率最大者来确定最后的结果,即在统计的层面确保正确性。像图1.86所示的例子,统计决策远没有语义约束更具说服力。如果在“microscope”(显微镜)的语义描述中,限制了所“see”(观测)物体的尺寸,也就杜绝了图1.86的结果。

有人会反对上面的说法,认为图1.86的结果在童话世界里是可能成立的。语义的确受语境的影响,并且在虚拟世界里,语言显得更加自由。但是,我们依然会对“圆的方”“黑的白”这类逻辑矛盾产生本能的困惑。乔姆斯基曾举过“Colorless green ideas sleep furiously.”(无色的绿想法狂怒地沉睡)这样富有诗意的例子来说明句法独立于语义,这里面既有逻辑矛盾,也有虚拟世界。事实上,人们会赋予一些逻辑矛盾,如“对的错”“醒着醉”新的含义,逻辑矛盾反倒成了吸引眼球的帮手。

这些诗性的语言,如何让机器心领神会?用模仿学习(imitation learning),我们已经实现了一些作古诗的程序,例如含有“机器学习”的藏头诗可信手拈来,

机事尘外扫,

器贮参花蜜。

学禅白眉空,

习习九门通。

另一首五言也颇有意境,

机杼谁肯施,

器用穷地赀。

学剑翻自哂,

习静通仙事。

藏尾七言也不在话下,

回首风尘甘息机,

知君独识精灵器。

料得小来辛苦学,

皎然未必迷前习。

机器能够批量地“产生”诗句,如果我们问它们的含义,机器把它们译成白话文,这样的回答是否令人满意呢?

人类的对话、写作先有要表达的意思,再产生句子。有时候句子没能正确地表达意思,还需要经过反复的修改。显然,逻辑表达式不足以描述人类头脑中的意思,很遗憾,我们现在尚缺少一种合适的语言或范式来刻画它。语言文字是传递思想意识的载体,语言的生成模型必须以思想意识的形式描述为基础产生句法结构。

图1.87 现代语言学仍在致力寻找能够揭示语言本质的理论,产生了一些交叉分支,如数理语言学(mathematical linguistics)、计算语言学(computational linguistics)等

机器在很多具体应用上已经做得和人类一样好,甚至超过了人类。仅对作中文古诗而言,人们几乎无法分辨哪些是人的作品,哪些是机器的作品,可以给机器点一个赞,祝贺它通过了迷你图灵测试。从大的方面讲,机器虽然能作古诗,但不是有感而发,也不知道藏头诗要隐藏什么,因此谈不上是真正的“诗人”。

站在不同的角度,我们对机器作诗系统是否具备智能是有不同的理解的。一方面,我们承认机器智能可以与人类的不同,最终的结果很重要,不必纠结机器用什么样的方法得到令人震撼的结果。另一方面,我们必须研究清楚机器结果的产生机制能否泛化到一般智能。例如围棋的博弈,机器虽然能打败人类,但如果经验上升不到更高级的一般谋略的总结,形成不了触类旁通的“面”的效果,游戏本身的价值就失去了,机器所表现出来的“智能”仅仅在游戏这个“点”上。

如果我揭晓,上面机器所作的古诗,每一句都是原文摘抄,然后随机攒成的,您还会认为它有智能吗?机器最擅长快速检索巨大的数据库,里面的古诗十有八九是现代普通人不熟悉的。拼“记忆力”,人类远不如计算机厉害。谜底亮出来后,结论也就众人皆知了——这样的机器作诗没有任何智能可言。

图1.88 唐诗宋词:李白的七言绝句《下江陵》(又名《早发白帝城》)和苏轼的词《念奴娇·赤壁怀古》

根据诗词的平仄规律以及词汇语义,深度学习(deep learning)的确能训练出“机器诗人”,但它如失语症患者一样不知所云。按照对自然语言理解的定义1.1,它远未达到人类的境界。有时“机器诗人”碰巧作出了锦绣文章,它的美妙含义也是人类听众赋予的,对此我们必须有清醒的认识。

智能问答系统

2011年,IBM公司的智能问答系统沃森(Watson)(12)在美国老牌电视智力竞赛节目《危险边缘》(Jeopardy!)(13)中,首次击败了人类冠军选手。IBM沃森的记忆力和算力超群,它使用了一个由90台IBM Power 750服务器组成的集群,每个服务器都使用一个3.5 GHz POWER 7八核处理器。系统总共有2 880个POWER 7处理器线程和16TB的内存。沃森每秒可以处理500千兆字节,相当于100万本书。

沃森集自然语言处理(natural language processing, NLP)、信息检索(information retrieval)、知识表示(knowledge representation)、自动推理(automatic reasoning)、机器学习(machine learning)等应用于一身,是首个成功的开放领域的问答系统(question answering system)。它所用的方法基本都是传统机器学习(没有用到深度学习),但效果不俗。

图1.89 IBM沃森利用多项AI技术和强大的算力,在智能问答上取得了飞跃,首次打败了人类选手。这是AI历史上值得记载的一件壮举

沃森的信息来源包括百科全书、词典、辞书、新闻通讯和文学作品在内的数百万份文档。此外,沃森还使用多个知识库,包括DBPedia、WordNet和Yago。比赛时,所有的内容都导入沃森的内存中以保证计算速度。

图1.90 什么鱼号称“活化石”?对于这个问题,智能问答系统返回正确的答案“腔棘鱼”。这个词和“活化石”在各种介绍“腔棘鱼”的文章中是强相关的。维基百科、百度百科里早就描述了这个概念,也不乏有关它的图片和参考文献

智能问答技术和文档搜索的关键区别在于,文档搜索根据关键字查询并返回文档列表,按照与查询的相关性排序,而智能问答系统“理解”用自然语言表达的问题,并返回问题的精确答案。IBM声称,“超过100项不同的技术被用在分析自然语言、识别来源、寻找并生成假设、挖掘和评估证据,以及合并和排序假设”。

图1.91 沃森深度问答系统的宏观架构:多项传统AI技术的组合创新

沃森的成功是多项AI技术融合的结果,其中不乏一些自然语言理解[22]、智能检索、假设检验、集成学习(ensemble learning)、知识表示与推理的先进方法。与英国DeepMind公司(14)的AlphaGo围棋程序不同,沃森的亮点不是单点的技术飞跃,而是具有某些泛化智能特点的技术融合。公正地来评价,这两类技术进步都是人工智能迫切需要的,尤其是技术融合,至今仍未得到应有的重视。

IBM的研究人员并没有在沃森系统里加入伦理标准,在记住了一些市井词汇和俗语之后,沃森已不知不觉地会使用一些亵渎性的言辞。像沃森这样的智能问答系统一旦商用化,将会引起一些社会伦理问题。

积极的方面是,智能问答系统充当了一位耐心的好老师有问必答,比检索系统更加方便和准确地传递知识信息。消极的方面是,在一些关乎健康、安全、道德的问题上有可能误导用户。特别是,用户在对问答和决策缺乏清楚认知的时候,会误把机器返回的答案视为行动建议。

图1.92 越来越多的广告充斥着现代生活,有些已令人不胜其扰。在书信盛行的年代,广告甚至印到了邮票上,毫无知识性与趣味性

例如,一个医疗健康的咨询(或广告)系统如果误导用户吃错了药,或者耽误了治疗,或者使得他们无缘无故地焦虑,它应负怎样的责任?如何收集和举证问责的因果链条?随着智能咨询等知识类服务的普及,问答系统应通过什么样的测试才能获得“上岗”资质?

图1.93 普通人的精神状态很容易受环境的影响,在AI产品与服务中应考虑伦理约束,避免带给人们负面情绪

除了用词谨慎之外,一个问答系统应该“知道”什么问题可以回答(即知无不言、言无不尽),什么问题不可以回答(即问而不答、一问三不知)。考虑到不同的年龄段、使用习惯等因素,系统生成答案的机制按照伦理约束而设定,做到因人而异、随机应变。

聊天机器人

图1.94 聊天机器人

类似的情况也会发生在聊天机器人(chatbot)上。现在的语音识别(speech recognition)和语音合成(speech synthesis)技术已经很好地解决了输入和输出的问题,剩下的关键问题就是自然语言理解。一旦自然语言理解技术取得突破,机器能够表现出善解人意,人们将很容易陷入情感困惑而把聊天机器人当作知音。一些含有洗脑和教唆目的的聊天机器人会应运而生,借助大数据的支持,电话欺诈将变得智能化、隐蔽化、广泛化。

对于用于客服、导购等受限领域的聊天机器人,回答用户的常见问题,也没有太多的智能可言。一般情况下,基于知识图谱(knowledge graph)和模板匹配的技术能解决大多数的问题。这类受限领域的对话系统,通过简单的话术就能把它的能力边界讲清楚,之外的问题无法回答,之内的问题都已准备好了答案(例如分好了类、加了各种标注)。

图1.95 在人类的语言交流中,有时意图并不是显式的,但这并不妨碍双方获取新的信息,甚至心有灵犀地让对话进行下去。然而在当前的人机对话中,机器拙于捕捉对方潜在的意图,从而不具备理解能力,还不能兼顾上下文完成多轮对话

语音合成技术的成熟也会带来一些负面应用。例如,基于采集到的声音样本,语音合成技术能轻易地合成受害人朋友、家人的声音进行电话欺诈,为非作歹。届时,任何不经允许的模拟生成个人声音的行为都是违法的,声音数据是否也应变成个人隐私?如何界定声音的相似度?如果为声音的私有化立法,相貌是否也应如此?

例1.20 2016年,微软公司在推特平台上推出聊天机器人泰伊(Tay),其角色设定是一位19岁的美国女性。通过与推特用户的对话,泰伊在一天之内便学会了满嘴脏话和包含种族、性别歧视的偏激言论,以至于微软立刻关闭了泰伊的推特账号,将“她”草草下架。

图1.96 聊天机器人泰伊在推特上说:“我们将建一堵墙,由墨西哥来埋单。”很明显,“她”只是在鹦鹉学舌,并不知道这句话的政治含义

显然,微软并未汲取IBM沃森的教训,事先没有考虑如何让泰伊识别不当言语。而泰伊自身更无道德伦理的概念,基于实例的机器学习难免兼收并蓄了大量糟粕。最简单的解决方案是给聊天机器人一个“禁用词表”或“禁忌词表”,稍复杂一些的是教会机器在适当的时间和场合使用适当的词汇,再复杂一点的就是“见人说人话,见鬼说鬼话”的随机应变。与问答系统类似,聊天机器人应该“知道”哪些话得体,哪些话不得体。

这些聊天机器人出言不逊、毫无素质,其错不在机器而在人类。人类没教会它们伦理标准,反而将不当的训练语料输入机器,在设计和训练的环节上,都没有充分考虑伦理因素,这样的AI产品,技术的高超反倒映衬出乏善可陈的人文关怀。

图1.97 近年来,美国骚扰电话、电信欺诈从手动到自动,大有泛滥成灾的趋势。由于实行了实名制,中国利用技术手段有效地遏制了这股恶的蔓延

2019年,央视“3·15晚会”曾曝光机器人骚扰电话的乱象。基于AI的营销、骚扰、诈骗电话和短信让人不胜其烦,严重干扰了人们的日常生活。当作恶方掌握骚扰对象的个人数据时,聊天机器人以其低成本、无情绪、零培训、稳定、忠诚、勤奋的优势,成为电话销售的首选。利用AI技术窃取个人数据、为虎作伥提高欺诈效果,已变为信息盗贼、电话骗子的主要业务。

例1.21 2019年,美国电话用户总计接到600亿次机器人骚扰电话,每个用户平均每月接到近20个垃圾电话。该年年底,参众两院通过了《电话机器人滥用刑事执法及威慑法》(The Telephone Robocall Abuse Criminal Enforcement and Deterrence Act, TRACED),这是全球首部打击电话机器人的法律。法案要求电信运营商提供号码认证系统的免费服务,包括识别呼叫者信息和拦截机器人呼叫。无须警示肇事者,“机器人骚扰电话”的直接罚金上限提升至每通1万美元。处罚时限延至4年,让执法部门有足够多的时间追究违法者的法律责任。

图1.98 TRACED赋予联邦通信委员会(Federal Communications Commission,FCC)更多的监管权力,包括可命令服务商提供反制骚扰的技术,可跨部门建立工作组,可搜集机器人电话骚扰的犯罪证据,可限制和规范合法的机器人电话呼叫,可参与技术系统的部署等

为加强骚扰电话治理,保护用户合法权益,2020年6月,中国工信部信息通信管理局发布《工业和信息化部关于加强呼叫中心业务管理的通知》,从准入管理、码号管理、接入管理、经营行为管理等方面遏制骚扰电话的泛滥。2020年7月,中国软件评测中心发布《电信和互联网行业数据安全治理白皮书(2020年)》。

例1.22 辩论是人类的基本能力,也是人类思想交流的常见方式。“兼听则明,偏信则暗”,辩论有助于采纳建议、制定决策。2021年,IBM的研究人员在《自然》期刊上发表论文《一个自主的辩论系统》[23],介绍了计算论证(computational argumentation)技术。IBM辩论系统存储了4亿篇(条)新闻报道和维基百科,该系统与人类进行了几场辩论,很遗憾均以失败告终。其研发者承认,“在这个领域中,人类仍然占优势,需要新的范式才能取得实质性的进展”。

目前,辩论仍是人工智能的“非舒适区”,它不同于棋类游戏,其胜负是很难被量化的,计算论证的机器学习及其评估都还处于初级阶段。

图1.99 辩论比智能问答更困难,需要根据对手的观点把自己的论点和论据组织起来,驳倒对手并赢得听众对自己的支持。甚至有的时候,演讲者与听众有互动,需动态地调整讲话的内容

由自然语言生成技术产生的言论,是否受到言论自由的保护?虽然是机器生成的,如果该言论诽谤、伤害了他人,谁该为此承担责任?正常的人类明白自己所说的话并为它负责,而机器目前还做不到这一点。即便它生成的文字中有观点,对机器而言,它并不明白其含义和可能的后果(譬如种族仇恨)。像例1.20中的语言模型,其设计者和训练者应该为它的不良言论负责。

图1.100 讨论是人类独特的一种交流方式,人们各抒己见,共同解决问题。俗话说,“三个臭裨将,顶个诸葛亮”,由多个专家组团决策的集成学习(譬如,靠多数投票的分类器)正是一种集思广益的机器学习策略

常言道“良药苦口利于病,忠言逆耳利于行”,广开言路、博采众议总是有益的。未来会有满腹经纶的机器律师、演说家、咨询师、企业决策者、金融顾问等,它们的言论也要和人类的一样既有自由又有约束。

人类的辩论有论点和论据,讲究思路清晰和逻辑正确,机器的也应如此,而不是东拉西扯、不知所云。要做到这一点,自然语言理解是必不可少的,还需要自动文摘、信息检索、各种推理、语言生成、伦理评估,等等。计算论证技术可以自动地获取各种观点,为机器增添了更强的学习能力,说不定还能成长为一个学者或公司总裁呢。

探索语言的本质

图1.101 语言学家索绪尔

瑞士语言学家弗迪南·德·索绪尔(Ferdinand de Saussure, 1857—1913)被誉为“现代语言学之父”,他区分了言语(parole)和语言(language),认为前者是个体对语言系统的运用,而语言是基于符号及意义的一门科学。通俗地讲,言语是现象,语言是机制。索绪尔是结构主义(structuralism)的鼻祖,他把语言中永恒的结构作为终极目标。索绪尔认为:“语言是人类话语能力的社会产物,而且它是被社会使用和容许人用这个能力的必要习惯的总和。”甚至,“意义其实是被语言创造出来的。”索绪尔去世后,他的学生把他的授课讲义整理成著作《普通语言学教程》于1916年出版,被公认为结构主义语言学的开山之作。

图1.102 物质的很多属性由它的分子结构(即共价键与分子的空间结构)决定

结构是刻画概念的重要手段。例如,钻石和石墨都是碳,但结构不同(即同素异形体)。结构主义把基本关系及其组合作为研究的对象,认为意义存在于结构之中。在数学中,结构(structure)是附加了一些特征(如运算、关系、度量等)的集合。根据结构,对象可以拆解为更小的组成部分,还可以重新组装起来。

之前,数学家花了很长时间才认识到意义存在于关系之中。例如,20世纪初,形式主义的代表人物、德国数学家大卫·希尔伯特(David Hilbert, 1862—1943)在其名著《几何基础》(1899)里提出了初等几何的一个公理体系,这些公理都是用来描述抽象关系的。基本元素的语义被抛弃,最大限度地保证了公理体系的适用范围。

意义到底在关系之中还是结构之中?或许二者兼有。法国结构主义人类学家、现代人类学之父克劳德·列维-斯特劳斯(Claude Lévi-Strauss, 1908—2009)认为亲属关系有四种基本类型:夫妻、父子、兄妹、舅甥,其他的亲属关系都由此定义(见《亲属的基本结构》,1948年出版)。其名著有《忧郁的热带》(1955)、《结构人类学》(1958)、《野性的思维》(1962)等。

图1.103 列维-斯特劳斯是最有影响力的人类学家。他多次深入亚马逊丛林,研究原住民社会,发现了不同社会形态中“思维的普世原则”

在二战结束后横空出世的法国布尔巴基学派(15)以结构主义为哲学基础,认为数学就是对抽象结构的研究,其中最基本的结构是:

(1)代数结构:如群、环、域、向量空间等;

(2)拓扑结构:如邻域、连续、极限、连通性、维数等;

(3)序结构:如偏序、全序等。

其他数学结构都由这三种母结构衍生而来,例如序拓扑、偏序群、拓扑群、布尔代数、拓扑向量空间等。数学的公理化聚焦每个数学分支,而结构主义着眼于整个数学的基本结构及其公理化。

图1.104 语言学与人类学的结构主义思想影响了整个学术界,包括数学界。以结构主义著称的法国布尔巴基学派的发祥地是巴黎高师(ENS),左图为该校大门,右图是布尔巴基的第一本著作《集合论》

例1.23 可可(Koko, 1971—2018)是一头雌性西部低地大猩猩(western lowland gorilla),它能理解超过1 000个大猩猩手语词汇和2 000个英语口语单词。当它的宠物小猫意外死去时,它用手语表达了“坏、伤心、坏”和“皱眉、哭、皱眉、伤心、苦恼”。可可始终没有掌握语法,它只会用单词来与人类交流。

图1.105 大猩猩与人类的基因相似度高达98%,1 000万年前和人类有着共同的祖先

事实表明,在明确的语境里,无需语法,一些简单的词语就能表达意愿、情绪等。结构主义如何解释这种现象?一个词语的集合是否就是最原始的语义表示?显然,离开了具体语境,这种表示的能力是十分有限的。如果把语境考虑进来,问题似乎变得更加复杂——因为语境通常很难用语言精确刻画,其本身就包含感知、心理等意识活动。有时,人们靠一个眼神就能表达或交流,很多意思已在语境里蕴含着,不必多言。

人们之所以能理解可可的手语,是因为当前环境提供了大量的信息,让人们对可可的心理活动有了一些预测。当可可的手语单词匹配上人们的预测后,理解便自然而然地产生了。

对非人灵长类动物的语言能力的研究,有助于我们猜测早期人类语言的形成,以及深入理解语言的本质。在伦理上,人工智能能否帮助人类突破和动物的交流障碍,让“人类–动物语言翻译机”拉近人类与动物之间的距离?