1.5.2 知识图谱构建技术

知识图谱构建技术解决的核心问题是“知识从哪来”。当确定了知识图谱模式之后,知识图谱构建技术就会源源不断地将数据转换为知识,如同人类一样不断地学习和汲取知识。知识图谱的构建过程就是根据知识来源选择合适的技术,实现从数据到知识的转换。在图1-3 中,将知识来源分为非结构化数据和结构化数据,相应的,知识图谱构建技术可以分为映射式构建技术和抽取式构建技术。

如果知识的源头是结构化数据,那么通过设定一系列的规则或逻辑,对数据进行过滤和变换,即可将其转化为符合知识图谱需要的知识。因而,从结构化的源头数据到目标知识的构建技术称为映射式构建技术。映射式构建偏向于传统的数据治理、ETL 或大数据分析等技术,通常根据结构化数据源和目标知识图谱的要求,设定、配置或编写一系列的规则来实现。

如果知识的源头是非结构化数据,则需要更为复杂的处理,才能够将其转化为符合知识图谱需要的知识。这个从非结构化源头数据到目标知识图谱的构建过程中用到的技术被称为抽取式构建技术,其核心是从非结构化数据源中提取实体和关系。非结构化数据可以分为文本、图像和声音,相应的处理技术有自然语言处理(Natural Language Processing,NLP)、计算机视觉(Computer Vision,CV)和声音处理(Speech Processing)技术。

通常,知识的来源多为文本,现阶段常见的知识图谱也大多是基于文本的。即使在多模态知识图谱中,图像、视频和语音等多媒体通常用于展示,而没有参与到检索、计算和推理等环节中。因此,狭义的抽取式构建技术往往指从非结构化文本中抽取实体和关系来构建知识图谱,其核心就是自然语言处理。

不过,人类知识的来源不只有文本,也包括视觉和声音。以本章开篇例子中所提到的月亮为例,人们看到的“月亮”“月球”或相关的文字,高挂天空的明月或弦月等物理的月亮,通过望远镜看到的崎岖不平的月球表面,月亮或月球有关的图片及影视视频,月亮的卡通形象和符号,以及听到的“月亮”“Moon”“Luna”等不同语种的声音等,都能被关联到同一个知识点“月球”上。从根本上说,人类的知识来源是来自多种感知器官的,是多媒体的。知识图谱也应当包含这些多媒体的知识来源,因而,广义的抽取式构建技术应当包含对图像、视频和声音等知识的提取。受限于计算机的算力和人工智能的算法能力,当前知识图谱中知识的主要来源还是文本,图像、视频和声音等方面的内容较少。图1-4展示了广义知识图谱的构建技术,具体包含以下内容。

● 声音:人工智能细分领域的声音处理技术,比如语音识别、语音情感识别、声纹识别、说话者识别等。

● 图像和视频:人工智能细分领域的计算机视觉与图像处理技术,比如语义分割、物体检测、图像/视频分类、人脸识别、物体跟踪、视频理解、行为识别、场景解析/理解、图像/视频情感识别等。

● 文本:人工智能细分领域的自然语言处理技术,比如机器翻译、实体抽取、文本分类、情感分析、命名实体识别、关系抽取、事件抽取、依存分析、语义角色标注、形态分析、分词、主题模型等。

在图1-4 所示的构建技术中,还有一个技术领域是知识融合。和抽取式构建技术类似,知识融合也分为狭义的知识融合和广义的知识融合。

狭义的知识融合是指对相同知识点的不同文字描述的融合,往往涉及同义词、近义词、缩略词,以及不同语言之间的翻译等。以月亮为例,狭义的知识融合会将“月亮”“月球”“婵娟”“明月”,以及“Yueliang”(拼音)、“Moon”(英语)、“La Lune”(法语)、“Luna”(意大利语)、“La Luna”(西班牙语)、“Mond”(德语)、“Лyнa”(俄语)等多种表达形式融合为一个实体。

广义的知识融合不仅需要满足狭义的知识融合要求,还需要融合多媒体、向量等表现形式。同样以月亮为例,在文字之外,还需要对月亮的照片、卡通样式的月亮、、☽、☾、与月亮有关的影视、不同的人用不同语言朗读“月球”的声音等进行融合。当前,深度学习盛极一时,文字、图像和声音的表示学习已经令人习以为常,其输出结果一般是高维向量。广义的知识融合往往还致力于对“月球”的不同向量表示进行融合,并将图像、声音、文字也融合到一起。

基于人工智能和知识图谱技术发展的现状,当前主流的知识图谱的表示形式仍以文本为主。本书受限于篇幅,在知识图谱构建技术方面偏向于介绍狭义的知识图谱构建技术。第3章和第4 章分别详细介绍了实体抽取和关系抽取的内容,这是与文字有关的抽取式构建技术的核心,其理论基础是自然语言处理和计算语言学(Computational Linguistics)。