第六章 健康医疗大数据质量与数据治理

医疗大数据的数据来源丰富,数据质量问题会发生在数据生命周期的各个环节。利用完整性、准确性、一致性、及时性等质量维度,定义具体的度量公式,通过自动评估或人工评估等技术可评估数据质量。为了提高数据治理水平,医疗数据治理架构重点考虑组织与人员结构、流程与活动、标准与规范、平台与工具四类元素。数据治理技术中重点关注了健康医疗术语库的构建、医学自然语言处理和结构化技术。本章介绍健康医疗大数据质量的问题来源、质量评估方法、数据治理框架和数据治理技术等方面内容。

第一节 数据质量产生的原因

一、健康医疗数据来源

首先,临床数据是健康医疗数据的重要来源。随着临床信息管理水平不断提高,各国医疗信息化的普及程度不断增加,数据的来源更为多样。以美国为例,根据美国医疗卫生信息与管理系统协会(HIMSS)在2013年的年度报告中统计,如表6-1所示,截至2012年临床知识库、临床决策知识系统、实验室信息系统、放射信息系统、药品管理系统、医嘱录入、付费系统等的使用已经超过90%。
表6-1 2010~2012年美国临床信息系统应用情况(N=4217)
续表
通常一家医院的临床数据分散在多个不同的业务系统中。医院常见的业务系统包括:医院信息管理系统、临床医疗信息系统、医学影像系统、实验室信息系统等。其中:
1.医院信息管理系统(hospital information system,HIS)
以收费为中心,覆盖了医院所有业务和患者就诊的各个环节。根据MorrisF•Collen所给的定义,医院信息管理系统是利用电子计算机和通讯设备,为医院所属各部门提供患者诊疗信息和行政管理信息的收集、存储、处理、提取和数据交换的能力并满足授权用户的功能需求的平台。医院信息管理系统一般包括:门/急诊挂号系统、门/急诊收费系统、住院患者管理系统、药房管理系统、医院人事管理系统等。
2.临床医疗信息系统(clinical information system,CIS)
以医生临床诊疗行为为核心,主要目标是收集和处理患者的临床医疗信息,为临床医疗和护理提供服务。主要包括:医嘱处理系统、医护工作站系统等。
3.医学影像系统(picture archiving and communication systems,PACS)
是影像归档和通信系统,系统中存储了患者的医学影像(包括磁共振、CT、超声、X线,各种红外线仪、显微仪等设备产生的图像)数据,并提供一些辅助诊断管理功能。
4.放射科信息系统(radiology information system,RIS)
存储了患者医学影像的报告,是管理医院放射科的患者登记预约、就诊、出片、报告、医生审核等工作流程的软件。
5.实验室信息系统(laboratory information system,LIS)
是管理患者检验过程的信息系统,包括:生成化验条码标签、检验数据统计分析、生成检验报告等功能。
此外,医院的信息系统还包括:医院感染/传染监控系统、病理科信息系统、临床知识库系统、重症监护临床信息系统等。
首先,随着我国大力推广双向转诊制度,通常一个患者生病时就诊、确诊、治疗、康复的过程可能涉及多家医疗机构。为了获得患者诊疗的全过程数据,临床数据涉及多个医疗机构。这些医疗机构可能既包括了大型的综合性医学中心,也包括了基层社区医院。
其次,健康医疗数据包括了基因组学信息。基因组学通过研究人类染色体中基因和碱基对组成的核苷酸序列,揭示了疾病的遗传学特性,为疾病预防、诊断和治疗提供新的方法。2012年完成的人类基因组DNA元件百科全书计划(ENCODE)针对150种细胞类型进行了1600次试验,这些试验得到了许多惊人的结论,证明了人类基因组中剩余的序列至少有80%发挥着重要功能。目前,基因组学信息与临床相结合最成功的研究是对肿瘤的靶向治疗。通过对患者进行基因检测,利用针对性的靶向药物治疗,增加了疾病治疗的精准性。
再次,健康医疗数据还涉及个人健康数据。个人健康数据的来源主要包括一些穿戴设备采集的信息和部分个人的在线信息。智能穿戴设备中采集了个人的各项体征信息指标,例如心率、体温、血氧饱和度、血压、心电图等信息。个人在线信息主要存储了个人饮食、生活方式、锻炼习惯、睡眠等信息。这些信息作为作为常规医疗的辅助,协助长期随访,为医生临床监控慢性病患者的病情变化提供了有效的参考。
最后,健康医疗数据还包括公共健康数据,主要是指疾病监测与卫生监督数据,包括传染病、重点慢性病、症候群及病原的监测以及餐饮、食品、水源的监测。公共健康数据包含范围较广,通常是由不同来源的多种数据汇聚形成。我国的中国疾病预防控制信息系统涉及几十家不同领域的机构,例如传染病预防控制所、病毒病预防控制所、寄生虫病预防控制所、性病艾滋病预防控制中心、慢性非传染性疾病预防控制中心、营养与食品安全所、环境与健康相关产品安全所、职业卫生与中毒控制所等多家单位。信息涵盖了传染病信息、高温中暑病例信息、鼠疫防治管理信息、重点慢性病监测信息、出生登记信息、人口死亡信息、突发公共卫生事件、救灾防病信息、全国饮用水水质卫生监测信息等。
总之,健康医疗数据来源广泛,既包括了医疗信息,还包括了基因组学信息、个人健康数据、公共健康数据等。

二、质量维度

数据质量维度是一个信息的一个方面或特征,也是分类信息和数据质量需求的一种方法。维度用于定义、衡量和管理数据和信息的质量。表6-2列举出部分医疗信息系统中的质量维度。
表6-2 医疗文献中的质量维度
从表6-2中可以看出,不同的领域对数据质量维度的定义各不相同。这些质量维度中出现频率最高的是完整性、准确性、一致性和及时性。下面针对这四项常用的医疗数据的质量维度,分别描述它们的含义和用途。
(一)完整性
完整性的定义并非唯一,这里给出常见的三种定义:
定义1:完整性是指数据有足够的广度、深度和满足当前任务的程度。
定义2:在一次数据采集中包含数值的程度。
定义3:信息具有一个实体描述的所有必需的部分。
此外,Naumann等人定义完整性为数据源中非空值的数量与普遍关系的大小之比。Liu等人认为应根据收集原则收集了所有值才是完整的。可以看出,对于完整性的定义,实质上都是一致的,即给定数据集合中包含描述相应的真实世界对象集合的数据的程度。
简单来说,完整性就是指数据信息是否存在缺失的情况。在关系型数据库中,完整性通常与不可用值有关。不可用值不仅包含了缺失值,还包含了现实世界中存在但在数据集中不可用的值。表6-3给出了不可用与数据完整性的关系,采集病患性别时,数据表中“性别”字段可能直接为空,这是缺失值;也可能不为空但写成了“-”,这是存在但不可用的值,显然,这两种情况都是不可用值,数据不完整。
表6-3 患者基本信息表
(二)准确性
有许多关于准确性的定义,以下给出广为接受的几个定义:
定义1:准确性是指数据正确、可靠和可鉴别的程度。
定义2:当存储在数据库中的数据能对应到真实世界的值时,数据是准确的。
定义3:一个数值 v,与真实值 v’之间的相似程度。
数据的准确性可以分为语法准确性和语义准确性。例如:表6-3属性“性别“值=“中”,显然,该属性值不符合性别字段的定义,说明该属性值为语法错误。如果ID=“1”的患者的症状是“白带增多”、诊断是“子宫肌瘤”,此时性别=“男”虽然从语法角度看是准确的,但是实际语义上是错误的。通常,现有的大多数数据质量监控只能发现语法错误。语义准确性与上下文密切相关,由数据的应用场景决定,需要利用权威的参考源或最终数据的使用者来评价。
(三)一致性
数据一致性是指关联数据之间的逻辑关系是否正确和完整。数据不一致的表现形式多种多样,以表6-4为例(表6-4是表6-3中对应患者的就诊记录),可将不一致情况分为以下三种情况:
表6-4 患者就诊记录表
1.不同表中相同属性的值不一致 例如,EMPI=“E20180408E1”的患者的血型在表6-3中的血型是“A”,表6-4中血型是“O”,两个记录不一致。
2.同一表中相同属性的值不一致 例如EMPI=“E20180408E1”的患者两次就诊中记录血型不一致,表6-4中ID号“1”的血型是“O”,门诊号“5”血型是“AB”,两个记录不一致。此外,上海有不同的别名“沪”“申”等,因此,居住城市“上海”“沪”“申”的值应该相同。
3.不同表中相同属性的记录缺失,例如EMPI=“E20180408E5”的患者在表6-3中缺少患者的基本信息。
导致数据不一致的原因有很多,归纳产出不一致的原因,包括:①数据原始录入错误;②数据字典发生改变/数据集成时使用不同的数据字典造成的问题;③由于网络、服务器或者软件出现故障,导致部分数据写入成功,部分数据写入失败,造成数据之间的不一致;④数据更新的不同步,当多个用户共同维护一个数据库时,只更新了部分数据,造成数据之间的不一致。
数据不一致的情况与数据完整性、数据准确性的定义之间存在交叉的情况,例如上述③中,既可以看做是不一致问题,也可以看做是完整性问题。此外,表6-4中患者“E20180408E3”的疾病诊断是“冠心病”,而作为依据的症状竟然是“腹泻”,这显然是不符合逻辑的,该问题可以看做数据的不一致,也可以认为是数据不准确。
(四)及时性
及时性是一个与时间相关的维度,也被称为时效性。及时性是反映数据随着时间的推移是否更新及时的一个维度。常见的定义包括:
定义1:及时性是指在现实世界状态改变与信息系统状态修改之间的时延。
定义2:及时性是数据源的平均生存期。
定义3:及时性是一个任务中数据充分更新的程度。
及时性由两个部分组成:生存期、更新率。生存期或时效性反映了信息是在多久之前存入系统的。更新率衡量了信息更新的频率。
各级管理部门和各家医院都对入院记录、住院病历、首次病程录、手术记录、出院(死亡)记录等重要记录提出了规定的完成时间,因此及时性是一个非常重要的评价指标。

三、数据质量问题来源分析

目前健康医疗领域面临的数据质量问题可能会发生在数据生命周期的各个环节。如图6-1所示,数据质量问题可能来源于数据设计、数据采集、外部数据获取、数据集成、数据处理以及数据使用阶段。
图6-1 数据生命周期中的质量问题
(一)数据设计
在数据库系统设计阶段,需要对元数据进行梳理,建立一套统一的标准,保证后续各个环节数据的一致性和统一性。但实际在设计阶段很难完成这一过程。医疗信息化建设在近十年有了飞速发展,然而医院的信息系统更新或升级速度滞后于数据的增长和用户的要求。系统的设计可能无法完全满足实际需求,出现部分实际需要的字段没有出现在系统中或者在系统中受到限制,数据模式不完整。
(二)数据采集
在医疗系统内数据采集主要通过手工录入,或者采用具有自动录入选项的软件实现语音到文本的转换。
一方面,原始数据采集机制的手动数据输入过程可能会有意或无意地将数据错误引入到系统中,例如患者姓名、地址的不正确输入可能导致数据记录的歧义,这些数据记录在分析时可能导致错误的结果。虽然现有医疗信息系统通过输入数据完整性、数据类型方面的校验,或者使用下拉列表等方式尽可能减少数据输入的错误,但是系统无法实现对数据是否准确进行校验。此外,下拉列表中预填充内容可能无法准确表达所有患者的实际情况。在输入电子病历记录时,医生经常使用模板或复制粘贴命令来生成符合行业规范或者当地保险公司指南和规章的文本。显然,这种复制粘贴的做法掩盖了患者就诊过程的变化。
另一方面,通常对就诊信息进行数字化语音识别装置自动录入时,由于需要克服嘈杂的环境、识别复杂的医学专业术语以及满足不同语言、语速和口音等要求,产生的数据可能会生成系统和随机的错误,且这些错误很难量化和避免。
此外,医学图像在成像过程中不可避免地会受到噪声等影响,使得图像存在不均匀或失真的情况,形成与扫描组织结构无关的伪影。不同成像系统产生伪影的原因各不相同。例如,在MRI中,可能是由于Bo场不均匀、RF噪声或者不规则、化学位移、重影或电磁干扰等;CT中常见的伪像原因包括散射、伪增强、锥形束、金属伪像等;在超声成像中有灰度和多普勒超声伪像等。
(三)外部数据获取
为了获得更完整的信息,有时会从医疗系统外部获取部分数据。较为常见的外部数据包括从政府获取的公共卫生统计的信息,以及通过移动智能端获取的个人健康信息。外部数据获取阶段存在的质量问题是数据缺失、数据来源可信性无法保证。
外部数据获取面临的一个主要问题是数据缺失问题。从政府获取的生命统计数据,如出生率、死亡率和死亡原因等,对于确定和评估公共卫生计划的有效性至关重要。但是通常出生率和死亡率信息是依赖于当地政府的登记制度。发达国家都有记录出生和死亡的国家民事登记制度,但不幸的是,发展中国家的出生情况和死亡情况登记比例较低。以出生统计为例,总计约有4800万未注册出生。此外,非洲和东南亚一半以上的国家没有记录死亡原因的数据。
外部数据获取面临的另一个主要问题是数据来源的可信性问题。虽然从移动智能设备企业或者手机应用APP中能获取大量的个人健康信息,但是这些信息来源是否是可以信任的,主要依赖于对应的企业。例如,针对澳大利亚的GooglePlay和ItunesApp Store应用商店中排名前200名的付费或者免费的移动健康APP筛选出28个体重管理方面的应用程序来看,从开发者的可信度、信息来源/参考、赞助商的披露、最近一个月是否修改等多方面对数据分析,发现仅有1个应用完全履行了所有的责任标准,仅1/3的应用APP中说明了开发团队成员具有科学或健康专业资格,可以看出数据来源的可信性程度不高。
(四)数据集成
众所周知,医疗应用迫切需要使用医疗机构之间的医疗信息(患者记录、实验室分析、医学图像等),然而每个机构中的医疗信息系统彼此不同。因此,医疗信息集成是有效地使用医疗数据必不可少的步骤。通常,信息集成可能涉及数据的清理、转换、迁移、集成过程。
为了将来自不同组织或者在同一组织中的不同来源信息进行整合,必须启动某些数据的清理和转换操作,当数据经过多个清理、转换、迁移过程时,数据有可能丢失,实体(患者、用药或者费用)之间的关系可能损坏或丢失,造成数据的不一致。例如,如果某一字段应该保存日期,则检查提供的数据是否具有适当的大小、值和格式,以转换为符合新数据库中的约束条件的日期数据,因此对于出生日期,可能会观察到不切实际的日期(1800-01-01,原始数据为空,转移时自动填入系统默认值),不是有效日期的字符串(5144,日期型数据迁移为字符串型数据)或者是未来的某个日期(2099-10-10,2位的年份转换4位年份)等。此时,日期信息随着数据的集成过程,大量的原始信息丢失,如果分析师查找在某个日期范围内发生的信息,则这可能对分析和结论有重大影响。
此外,数据集成过程中容易产生数据的冗余,出现各种数据不一致的情况。例如同一属性出现多次、同一属性命名不同、同一属性在不同位置的值不一致性等情况。
(五)数据处理
为了提高数据使用的效果,数据集成后需要进行多种数据处理。常见的问题是数据变换过程中由于数据类型不同,数据长度的不一致,造成变换时数据丢失和错误。
数据处理过程中一个突出的问题是非结构化数据向结构化数据转变过程中带来的质量问题。通常健康医疗领域中非结构化数据占总数据的70%~80%,而传统的统计分析方法无法对其进行处理,因此需要将其进行结构化转换。转换过程可能会造成部分信息的丢失,例如:临床的现病史文本“患者2周前无明显诱因下出现大便带鲜红色液体2次,……”,对其进行结构化时可能仅记录为“便血:有”,此时便血的颜色信息、时间信息都被略去。
(六)数据使用
传统的数据应用经常是对单一数据源进行深入的追踪和分析,比如说,企业营销记录、客户访问日志、医院电子病历系统等。即使是数据仓库相关应用,通常也需要预定义严格的数据结构和数据使用。在传统的数据应用中,分析人员对数据的来源和结构有一定的控制和深层了解。在大数据时代,数据可以来自于不同的组织机构甚至是不同的行业,根据不同的应用场景需求,动态汇聚和融合。比如说,患者健康数据,可以来源于不同的社区医院和三甲医院,也可以来源于体检机构,或是智能健康终端的管理结构,进一步的,为了解发病原因,可以和环保机构的环境数据,或是公安的家族数据进行关联。
这种按需融合的数据集合产生机制会对保障数据质量带来问题和挑战。一方面,数据的产生与需求割裂开来,即原始系统产生的数据,与最终数据的应用场景并不密切相关。两者的割裂,会给数据质量的提升带来逻辑上的悖论。联系到前面所说的质量定义中,数据质量是“场景适用性”,那么如果要提升数据质量,是否要预定义一些未来常用的关键任务场景呢?另一方面,数据的融合,无论是在字段模式级别,还是在字段值的语义级别,都会带来新的数据质量问题。

第二节 数据质量评估方法

一、质量度量定义

(一)质量维度与度量
在已构建的质量模型基础上,此处进一步对质量模型进行了细分,并对于底层的质量维度给出了相应的度量。如图6-2所示,框架中的前三层是质量模型,而第四层是质量度量。图6-2的第一层分为内部质量、外部质量和使用质量。第二层称为质量维度,例如,内部质量包含的维度包括丰富度、准确性、完整性、一致性等;外部质量的维度包括及时性、可用性、数据服务访问性能等;使用质量的维度包括可查询性、信息性等。第三层称为质量的子维度,它们是每个维度的细分,逐渐面向数据集的特征。例如,丰富度可以分为数据大小、模式大小或是类层次的深度。第四层是具体的度量,可以直接计算。例如,数据大小的度量可以有表的数量、实例数量、主实体记录数量、事实数量等。
图6-2 质量维度与质量度量
(二)数据模型对度量定义的影响
根据图6-2的度量框架,针对每个度量指标进行定义。度量的定义与数据集的表示方式有关。常见的数据集的表示方式包括E-R模型和图模型,其中E-R模型由实体、属性和关系组成,图模型由模式图、数据图以及两者之间的关系组成,其中模式图由类、属性组成;数据图由实例、事实组成;模式图与数据图之间用rdf:type关联。采用不同的模型表示数据集,对应的度量的定义也不相同,例如数据大小在E-R模型中需要度量表的数量和主实体记录数量,而在图模型中度量的是实例数量和事实数量。此外,有些度量仅用于E-R模型表示的数据,例如表与表之间关系的完整性;有些度量只能用于图模型表示的数据,例如subclassof关系的准确性。
(三)度量定义和计算
依据上述度量的定义,给出度量的计算公式。基于定义度量公式,获取公式中每个具体参数来源时,有两种情况:
1.度量的计算独立于领域上下文
例如丰富度中的度量——表的数量,表的数量度量了数据集中表的个数,该度量通过机器评估可以直接得到数据集中表的个数。
2.度量无法独立进行计算,依赖于领域上下文
如果没有领域上下文,部分度量无法确定评估主体。例如:丰富度中的一个度量——主实体记录数量,该度量评估主实体表中记录的数量,定义计算公式时无法明确知道数据集中哪个实体是主实体,必须将领域上下文作为参数,说明主实体具体是哪个实体,例如医疗领域中患者的病历就是主实体,然后根据主实体计算该实体中记录条数。此外,如果没有领域上下文,部分度量无法进行评估。例如完整性中的一个度量——视图完整性,该度量定义了实体属性的完整性。计算公式如公式6-1所示:
其中NOP i表示实体i的属性个数,NOLP i表示实体i中缺失的属性个数。由于评估人员或机器都无法了解表的设计视图中是否缺失了必须的属性,因此必须给出一个上下文参考模式,明确实体必须的属性,然后以此为依据再进行评估。例如,评估人员无法判断给定的患者信息表中是否缺失字段,但是如果存在患者信息表的参考模式,参考模式中记录了患者信息表中必须有卡号、姓名、社保卡卡号等字段,利用该上下文参考模式能有效地判断患者信息表是否存在字段缺失,缺失了哪些字段等。
另外一种特殊情况,为了简化度量表示,方便理解,同一个公式定义根据可独立于领域上下文或者依赖于领域上下文,两种方式进行计算。例如完整性中的度量——记录完整性,该度量评估属性中有空缺的记录占总记录的比例。计算公式为公式6-2所示:
其中NOR i表示实体i的记录个数,NOIP i表示实体i中不完整的记录个数。评估时可按照两种评估依据:①如果记录中任意一字段有空值,表示该记录不完整;②如果领域上下文中规定不能为空的字段有空值,则表示该记录不完整。
总之,数据大小和数据完整性等度量,既可以用上下文无关的方式定义,也可以用领域上下文方式定义。例如:患者的电子病历度量时,数据大小可以评估数据集中表的数量、任意表的记录数量,也可以评估电子病历的记录数量。两种方式评估都有意义,但是后一种方式评估出的结果更贴合实际,真实反映了度量的内涵。模式完整性等度量必须用领域上下文方式定义,否则该度量无法评估。
(四)领域上下文的表示和构建
领域上下文包括:①上下文的名称,例如医疗上下文;②参考模式,包括该领域的数据的标准模式,数据应该包括哪些字段,对这些字段有哪些约束,例如医疗领域中的电子病历规范;③参考数据集中包括该领域的样例数据集,是一组质量较好的示例集合;④数据字典包括该领域的标准字典库,如医疗行业的疾病分类编码集;⑤用例包括用于计算使用质量的测试用例,如医疗问题库,主要涉及药物用途、副作用、与药物反应的基因、药物的靶、与药物反应的食物、与疾病相关基因、疾病相关用药等;⑥评分标准包括用于度量的权重,说明各度量的重要程度。
领域上下文的构建有多种方式,可以由相关领域专家在上下文模板中手工输入,评估人员在评估过程中不断扩充,也可以由机器在评估过程中自动学习,或者由评估申请方提供等方式构建。例如领域专家将疾病分类编码写入上下文中的数据字典中,将记录患者病历填写要求的规范写入上下文的参考模式中。
(五)度量聚合
根据度量的计算公式,可以评估得到每个度量的评估结果,由于评估的目标是了解数据集的整体质量,因此,必须给出一个评估分数或者给出在相似数据集的排名。本项目拟根据度量聚合排序方法定义评估总分计算公式,根据度量评估结果值,对各度量的评分加权,利用聚合函数,形成评估总分计算公式。其中,各度量的权重可以从多种来源获得,例如从领域上下文的评分标准获得,或者由相关领域专家、评估人员直接设置权重参数,或者利用已评估同领域数据的评估结果机器学习得到。

二、自动化评估

质量评估过程中需采用自动评估技术,可以减少人工干预。下列技术是现实自动评估的关键要素:
(一)质量规则发现技术
要使用数据质量规则评估数据,首先就需要获得规则。以往的研究中主要是通过领域专家手工的过程来设计数据质量规则或者依赖已经累计的上下文参考模式(业务规则),显然整个收集过程时间漫长且评估成本昂贵。许多算法致力于解决质量规则自动发现的问题,例如基于等级方法提出的条件功能性依赖(CFDs)算法、基于深度优先搜索技术提出的拒绝约束(DCs)算法,以及基于关联规则挖掘的算法条件依赖包含(CINDs)算法。此外,还可以通过检查规则的可满足性,利用涵义分析删除冗余规则。
(二)错误自动检测技术
目前错误自动检测技术最终还是与检测的数据相关,面向特定的错误类型。面向结构化数据,依赖于质量规则的错误检测法,例如使用的基于SQL的条件依赖包含方法,该方法应用于关系型数据库中,给定一个质量规则的CFD和CIND集合,自动生成SQL查询语句,执行查询语句返回违反质量规则库的所有元组,利用该方法能迅速发现数据集中的错误。
面向半结构文本数据,使用监督及学习方法检测不正确的文本,对长/短句子利用自然语言处理库,使用令牌标记器和句段标识,并自动计数。该方法能有效识别错误文本、特殊符号、缩略词或拼写错误等。
对于链接数据,基于测试驱动的错误自动检测方法,使用SPARQL查询模板,编制了综合的数据质量测试模式,同时允许用户生成适用于模式的测试实例,然后自动执行测试实例。该方法的优点是领域规范语义可以在数据质量测试用例中进行编码,能发现更多数据质量问题。
(三)重复检测技术
重复检测是冗余性、一致性评估的一个重要问题,大数据时代多源异构不可避免地会使数据重复,同时庞大的数据量对重复检测的效率提出了极高的要求,目前采用的是近似重复记录检测方法,也被称为记录链接或对象匹配。记录链接的大部分研究工作考虑了相似性连接的算法,但该算法依赖于关键对的寻找。为了解决这个问题,Zardetto等人采用基于混合模型的统计方法,获得成对匹配和不匹配的概率聚类,该方法完全自动化,实现了数据-对象的匹配,但该方法仅在几个数据集进行测试,无法保证大数据检测的效率。Kolb等为了解决庞大数据量的重复检测问题,利用搜索空间缩减技术,使用基于MapReduce的多遍相邻排序,提出自动数据分区和负载平衡方法支持不同的大小的窗口,实现重复数据的标识。
(四)基于模板的自动检测技术
该方法的主要思想是,基于数据集合字段中以及字段间应有的约束,生成基于SQL的测试用例。如果发现SQL查询能在目标数据集合中找到不满足约束的数据,则这些数据为错误数据。
该方法主要的步骤为:模板定义、模板实例化、执行查询得到错误数据。
1.模板定义
模板表达了字段的约束,如值域模板、比较模板、正则模板等。值域模板说明某一字段的值应该在某一个范围内,比如人的性别是男或女;比较模板说明一条记录中的某一个字段值和另外一个字段值的大小关系,比如人的死亡日期要晚于其出生日期。
2.模板实例化
根据数据集中具体的数据对模板进行实例化,生成可在数据集上进行查询的测试用例(SQL查询)。对模板进行实例化生成测试用例有多种方式:①利用数据集中的模式来自动生成测试用例;②由相关领域专家选择相应的模板,然后依据对数据集的了解对模板实例化,生成测试用例;③由于预定义模板不一定能覆盖到所有的测试情况,领域专家书写出模板,然后对模板实例化,得到测试用例。
3.执行查询得到错误数据
由于数据集中正确的数据很多,而且前面的模板都是正确数据的模板。在数据集上执行查询,得到查询结果。每一个测试用例有三种不同的结果:没有结果返回(正确)、有结果返回、超时。如果有返回结果,说明存在错误的数据,并得到错误数据。
但是该方法也有一些不足,拟从模板扩充、模式增强两个方面作出改进。
1.模板扩充 由于只是从某一个数据集的错误数据中对模板进行总结,这使得其定义的模板不全面。在医疗领域患者的病历数据中,发现某一个患者多条住院记录里,他的性别不一致。现有模板并没有包含这种错误。可以采取多种方式对错误数据的模板进行补充,包括:①从各领域数据使用的用户社区、论坛,以及用户反馈中寻找错误数据,找出模板不包含的错误数据,总结出模板;②由相关领域专家凭借对数据集的了解以及使用经验对模板进行补充;③将人工评估结果中的错误数据汇总,筛选出已定义的模板中不包含的错误数据,对这些数据进行总结,形成新的模板。
2.模式增强 由于很多数据集的模式信息很少,这使得自动化的模板实例化方法变得不可行,需进行模式增强(schema enrichment),完善数据集的模式信息。模式增强的目标有:对模式中字段值域进行补充、对字段的值类型进行补充、对字段的唯一性进行补充等。
可以采用多种方式对模式进行增强。包括:①对标准数据集中的字段值做统计分布,分布中字段值的范围将会作为相应字段的值域,对字段类型的补充也可使用这种方法;②对标准数据集中的数据进行机器学习,得到隐含的模式信息;③由领域专家对模式信息进行完善。

三、人为评估

在度量框架中有一些度量需要质量评估者进行人工度量。首先,大数据下的数据样本量非常庞大;其次,人工质量评估过程需要耗费大量的人力和时间,而且人工质量评估带有一定的主观性。所以使用的人工评估要在保证一定的由于人工主观性带来的评估误差的情况下,尽可能地减轻人工评估的负担,节约时间。
采取如下过程进行人工评估:①对待评估的数据集进行抽样,具体的抽样技术在上一节已经介绍过。②抽样得到的数据作为评估任务分配给多个评估角色,以降低人工的主观性误差。③评估角色按照要求进行人工评估。④解决多个评估角色对同一条数据评估的不一致性。⑤整合评估结果,计算出最终的度量分值。
任务分配阶段是将抽样得到的样本作为评估任务,进行任务分配。为了减少人工评估的主观度量的随意性,需要合理的分配算法,本项目拟使用众包方法把评估任务分配给评估角色。使用如下算法:
1.将任务中的数据顺序随机打乱。
2.将任务分成N块。这里N=任务大小/人数(M)。
3.将任务n1、n2、n3分配给评估者m1,将任务n2、n3、n4分配给评估者m2,将任务n3、n4、n5分配给评估者m3……将任务nn-1、nn、n1分配给评估者mm-1,将任务nn、n1、n2分配给评估者mm。这样就可保证每一条数据可以被不同的三个人评测。
样本评估过程阶段,制订一套完整的规章制度,建立评估者库,随机选择评估者安排评估任务,建立各领域的数据质量评估专家队伍,确保评估者能高效地完成评估任务。
解决不一致性阶段,用Kendall W统计量来衡量一致性程度。一致性程度数值是一个非参数统计量,范围在[0,1]区间,如公式6-3所示,值为0表示评估者无异议。评估过程中,可以设定评估人数目,评估后计算一致性(W)。如果W过大,则增加更多的评估人,倘若经过多次后仍然无法达成一致,则建议请更权威的专家进行评定。
其中,
n为待评估对象的数目,可以是数据集整体,也可以是某个数据项,m为评估人数,r (i,j)为第j个评估者对评估对象i的评估结果。这里的r (i,j)通常是一个等级,如果最终应用给出的是绝对分数,可以通过离散化(如分箱技术)将其转换为对应的等级。R i代表评估对象i的总评分, 代表评估对象的平均评分。计算结果阶段,将抽样的样本数据的评估结果整合计算出该人工度量的评估结果。

四、整体评估流程

数据可用性评估方法如图6-3所示。首先,通过评估需求模板收集评估需求,然后汇聚需求得到评估字段;其次,利用数据集成和数据筛选过程确定评估需求;再次,建立评估映射关系并定义评估度量,定义评估度量后可返回更新评估映射;最后,利用错误自动检测技术定量地评估数据质量,并根据评估结果分析数据的可用性。
图6-3 数据可用性评估方法示意
整个过程可分为以下6个步骤:①收集评估需求;②确定评估数据;③建立评估映射;④定义评估度量;⑤评估数据质量;⑥分析评估结果。
整个过程主要由3类角色参与,第一类角色是领域专家(如临床医生)负责步骤①,参与步骤③和步骤⑤。第二类角色是数据管理者以及负责系统构建与数据集成的信息技术(information technology,IT)工程师,负责步骤②和步骤③,同时参与步骤⑤。第三类角色是构造与执行质量度量的数据质量工程师,负责步骤④和步骤⑤。对于步骤⑥,需要3类角色共同参与,解释数据结果。

第三节 医疗数据治理架构与方法

一、医疗数据治理现状

如在上一节总结的,导致数据出现质量问题的原因是多样的,可能是原始应用系统设计的原因,可能是应用系统错误的人为输入,或是多系统数据融合与集成导致的,因此必须在数据的全生命周期中有专门的人力、合理的流程以及合适的方法来保证数据质量,这些过程与方法属于数据治理的范畴。
根据维基百科的定义,数据治理(data governance)是指组织遵循的一个既定义的流程,以确保整体生命周期中的数据质量。从全球范围来看,加强数据治理、提升数据质量已成为企业提升管理能力的重要任务。传统数据治理通常在一个企业内部。但是,在大数据应用通常会涉及跨企业、跨行业的数据。因此,将数据治理方法论从企业拓展到特定行业,或是建立独立于行业的公共数据治理方法是大数据治理的一个新话题。
在医疗健康行业,医疗数据的核心产生方是医院,医院也是数据的使用方。然而,到目前为止,总的来说,大部分医院并没有建立起合适的数据管理团队与管理规范,数据的采集、清洗、存储与使用还处于早期阶段。从人员和流程角度,目前大多数医院的现状是如下:
1.基本没有专职的数据管理人员
大部分医院的数据管理由医院信息科代管,而医院信息科大多忙于医院日常业务,如医院核心系统,包括电子病历系统或是HIS系统的运行和维护,没有精力和人力对数据相关业务进行整理。另外,管理数据与数据业务具有一定的业务和IT技能门槛,需要了解业务系统的数据、理解目前的数据加工手段与方法、理解数据挖掘引用需求。从医院的角度来说,目前为止,缺乏这样的人才。更重要的是,理解医院整体的数据利用方法与流程,建立适合于医院的数据管理制度势在必行。这项工作需要对医疗行业、医院业务、IT以及大数据了解比较全面的高级管理人员,这是医院更为缺乏的人才。
2.整体流程规范没有确立
总的来说,由于医院对数据的采集和利用还处于早期阶段,医院的数据利用链条没有打通,从而数据流水线没有建立起来。因此,到目前为止,医院利用数据的整体规范没有建立起来。但是,由于医院数据在临床科研中的应用比较广泛,部分医院建立了从电子病历抽取数据的规范和要求。
虽然部分医院也在设立“临床数据管理科”或是“临床大数据中心”,以加强数据建设。从医院数据管理的角度,专门成立此类科室,负责院内、院外的数据的管控和利用已经势在必行。
从整体医疗行业跨组织的数据共享来说,区域平台逐渐建立。另外,国家卫生健康委员会在福建、江苏、山东、安徽、贵州等多个省开展区域大数据中心建设。2017年又牵头筹建了中国健康医疗大数据股份有限公司,加上正在筹建的中国健康医疗大数据产业发展集团公司和中国健康医疗大数据科技发展集团公司,我国在健康医疗大数据领域已经初步形成了由“国家队”主导的三大集团公司格局。
然而,目前区域平台的数据大多数限于医疗质量管理。国家的大数据中心建设,整体来看,还只是处于数据采集阶段,没有形成有计划、有秩序、有规则的跨组织的医疗数据治理方案,数据的利用也在早期。目前存在下列问题:
1.数据来源有限 医疗数据可以来自医院的信息系统,也可以是个人设备健康数据,或者是医保数据,甚至是一些第三方检查机构的数据。但是到目前为止,数据采集来源还集中在医院HIS系统。
2.数据采集的标准和目的不明确,缺乏认可的采集标准 如图6-4所示,医疗数据可以用于流行病调查、临床科研,也可以用于药厂或者商业保险机构。但是,不同应用对于数据采集的频率、数据字段以及数据质量的要求是不一样的,因此,需要将不同应用数据需求融合,定义清晰的数据采集和加工规范。
3.原始数据质量低,数据质控标准不明确 如前所述,来源于医院的EHR数据本身就存在数据质量问题,而多数据源的融合又增加了新的数据质量问题,因此需要建立清晰的数据质量体系,在数据采集、加工和流通的各个环节对数据质量进行细粒度的控制。
4.没有建立数据从采集到利用的流程 在跨组织数据利用过程中,数据来源是多方的,数据使用也是多方的,这个多对多的关系如何建立和运行,是非常复杂的。比如说,这个过程是否需要一个中心机构存储和管理数据,还是完全是点对点的一种多方沟通机制,目前也缺乏研究。中心机制的做法是有专门机构协调各方,好处是数据安全性高,坏处是中心管控可能会影响数据使用方法的探索。点对点机制的好处是灵活方便,坏处是资源利用率低、重复采集和加工、浪费人力。无论是哪一种方式,到目前为止,都没有组织机构建立起一个比较好的,包括了技术能力支撑、业务流程整合和商业运营的医疗数据链。
5.数据没有确权和利益分配机制 在多方协同形成新的数据源的过程中,原始数据的提供者的利益和权益的保障没有得到有效的支撑。目前,医院数据的采集分为两类,:①区域平台,出于管理要求采集;②应用需求,由各家医院根据需要进行数据交换。在这个过程中,数据从归属权上归谁所有,而谁有权在什么场合使用,都没有明确的规定。导致了上级部门可以随时采集数据,而数据的使用又无法可依。
图6-4 医院内部数据治理

二、医疗数据参考治理架构

图6-4和图6-5分别给出了医院内部数据治理架构和跨组织的医疗卫生数据管控框架。整体上看,医疗数据治理架构包括四类元素:
1.组织与人员结构
应该成立专门的数据管理部门,如图6-4所示的“临床数据管理科”,团队应该包含流程管理、数据质量保证和数据质量控制机制等人员,完成流程审批、数据质量检查、数据加工方与使用方的管理、数据应用的审计。这个工作的具体执行可以由临床数据管理科牵头,和IT供应商、医院管理人员、信息科等协同完成。
2.流程与活动
整体流程包括:原始医院信息系统、数据加工、大数据存储和数据利用几个环节。每个环节都会有一系列的活动,比如说数据加工,会包含数据的采集、抽取、清洗等多个活动。这些活动可以称为过程活动,与此相对应的是普适性活动,这些普适性活动贯穿于数据加工与使用的全生命周期,包括数据质量保证活动、质量控制、数据质量监控与报告、主数据管理、元数据管理、平台与工具维护、配置管理等。
3.标准与规范
需要建立的规范有:数据使用流程规范、数据质量规范、隐私规范、基于流程的数据管控规范、不同环节的数据规范(包括主数据、元数据规范等)。规范中也包含了人员角色的配置与管理,可以确定数据归谁所有、谁制订数据标准、谁更新维护、谁做数据质量跟踪等。规范完成以后,可以达到下列目的:①数据有明确和准确的定义;②数据有明确的责任方;③数据有清晰的存储方式与合理的时间期限;④数据加工方法明晰;⑤数据访问与控制方式明确;⑥数据内容符合标准与质量要求。
4.平台与工具
数据处理过程的工具包括ETL工具、文本结构化工具、Hadoop平台等大数据存储工具,数据使用过程会包含各种临床需要的统计算法包,或是人工智能算法。从大数据管理角度来说,元数据管理、数据权限管理、审批流程管理、数据质量评估工具、数据质量监控等都应该有相应的工具支撑。
图6-5 跨组织的医疗卫生数据管控
跨组织的数据治理如图6-5所示,其特点在于:
1.行业标准的制订 由于可能牵涉跨地区多家医院数据的整合,需要建立通用的行业数据标准以及元数据标准,以方便整合。
2.政府推动的行业数据治理 由于医疗数据牵涉个人隐私,且大部分医院都属于公立医院,因此,数据合理的采集、共享与使用,以及各种行业标准的制订,会依赖于以卫健委为核心的政府机构。
3.基于区块链的确权机制与数据的分布式存储 对于逻辑上相关的数据,如一个患者的所有看病记录,由于牵涉不同医疗机构,可能存储在不同的地方。在数据共享和使用的过程中,需要利益各方对原始数据的来源达到共识,这个过程可以使用区块链机制。但是,为了识别不同的数据块,建立全局索引是一个必然,此时又牵涉了患者的隐私问题。因此,相比较而言,政府机构比起第三方的企业或数据流程机构,更适合于医疗数据的管理和治理。
4.数据来源、数据管理方和使用方的增加 除了医院外,其他政府机构,如医保、疾控都可以是数据的来源方。数据管理方也可能处于一种分布式管理状态,每个组织管理自己的数据,由政府机构或是第三方可信的机构进行协同管理。另外,大规模的行业医疗数据平台为药厂和保险机构进行数据分析,提供了良好的支撑条件。
5.基于本体的元数据标准 由于涉及行业内大规模异构的数据与数据值域,通过简单的字典表构建元数据标准已经远远不够。因此,应通过本体技术,实现对于领域的定义,并确定该领域内共同认可的词汇、词汇的同一关系、上下位关系、词汇的业务含义等,达成对领域知识的共同理解。其中,医疗行业的SNOMED标准、LOINC标准都是可选的本体标准。

第四节 数据治理的技术

一、健康医疗术语库的构建

构建健康医疗术语库是实现临床术语标准化的一种非常有效的方法。统一的术语库对于临床医学信息的标准化和电子化起着十分重要的作用,目的在指称同一事物的时候,统一不同的临床医生和医疗卫生机构使用的不同临床术语。
医疗术语库提供了面向医疗行业的全面统一的医学术语系统,涵盖了大多数的临床信息,如疾病、科室、手术、症状、药物、检验检查等,可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合,便于计算机处理。
通过模式图定义、知识抽取、知识融合完成术语库的构建。
1.模式图定义
模式图包含知识库拥有的概念、概念的属性,以及概念之间的层次关系。数据图中的三元组均是以模式图为标准进行表示的。
2.知识抽取
主要包括医疗垂直网站的知识抽取和中文百科站点的知识抽取两部分。
3.知识融合
主要包括实体对齐、实体类型对齐和实体属性对齐。
在术语库构建的过程中,可以基于深度学习技术,建立症状和疾病等术语的中英文翻译模型,并参照SNOMED CT中的目录结构,将原英语词汇经过多种在线翻译平台翻译为中文,并通过机器学习算法筛选优化存为中文同义词,以进行术语的融合工作。
采用上述知识图谱构建技术,图6-6给出了“胃癌”术语的相关信息,胃癌术语无父结点,子结点包括胃转移性恶性肿瘤、贲门恶性肿瘤等,胃癌的同义词有胃恶性肿瘤,ICD编码是C16.9,英文名称是“Gastric cancer”等。利用这些信息可以对临床中的信息进行标准化工作。
图6-6 术语库示例

二、医学自然语言处理和结构化

目前各医院间电子病历系统信息化程度不同、结构化程度差异很大,半结构化数据、非结构化文本仍然广泛存在。利用自然语言处理和结构化技术,将电子病历中的未结构化数据快速结构化,实现症状、疾病、检查、用药的多粒度、多角度识别;实现对文本语义的关联与依赖关系识别、时间关系识别,从而满足复杂多变的临床数据应用需求。可以通过对诊断文本、主诉文本进行结构化,对结构化的诊断数据进行二次校验,从而确保结构化数据的质量。
抽取出电子病历中的症状、疾病、检查等信息,或与知识库中的实体进行链接,或对检查指标进行统一转换(包括书写格式的统一与计量单位的统一等),从而实现病历文本的结构化与病历信息的标准化。病历文本结构化主要涉及实体识别、构成分析和关系识别三方面的工作。
1.实体识别
包括电子病历远程标注和基于CRF的实体识别模型生成两部分。电子病历远程标注是基于语法规则迭代地对电子病历进行远程标注。基于CRF的实体识别模型生成是利用远程标注结果,训练一个基于CRF的实体识别模型,用于从电子病历中识别更多的症状、检查等实体。
2.构成分析
以中文症状为例,中文症状可以拆分为以下16种构成成分:原子症状、连词、否定词、存在词、程度词、发展词、能够词、不能词、动作词、情景限定词、方位词、部位词、中心词、感觉词、特征词、修饰词。对于识别出的症状,使用CRF方法进行构成分析,继而完成对症状实体的标准化。
3.关系识别
主要涉及上下位关系的识别和时间关系的识别两方面的工作。采用基于症状构成成分的上下位关系自动识别方法。另外针对独立时间和基于事件的时间,使用基于bootstrapping的识别算法和基于条件随机场的识别算法。
图6-7给出了通过上述方法得到的实体识别结果。电子病历文本如下:
图6-7 实体识别效果
“【主诉】2星期前便血2次 【现病史】患者2星期前无明显诱因下出现大便带鲜红色液体2次,无肛门口异物感,肛门口无突出物,……”。
实体识别出后可结构化为:“便血”:“2次”;“肛门口”&“异物感”:“无”;“肛门口”&“突出物”:“无”。
图6-8给出通过上述方法得到的关系识别结果。电子病历文本“左主干正常。左前降支近段见50%×10mm狭窄。左回旋支未见明显狭窄,冠脉内注入硝酸甘油100μg后复造影示左前降支未见明显狭窄。右冠脉未见明显狭窄。”通过抽取后解析,得到的实体关系抽取结果。例如:部位词“左前降支”与“狭窄”之间存在修饰关系,即抽取出左前降支狭窄;复造影后部位词“左前降支”与“狭窄”之间由于有否定词“未见”,即抽取出左前降支无狭窄。通过实体识别技术和关系抽取技术可以迅速地实现电子病历的结构化。
图6-8 关系抽取结果展示
(阮彤 叶琪)

参考文献

1.Himss.2013 Annual Reports of the U.S.Hospital IT Market[EB /OL].
2.Collen MF.Hospital Computer Systems[M].Biomedical Engineering and Health Systems.New York:Wiley,1974:768-769.
3.Danette McGilvray.Executing Data Quality Projects:Ten Steps to Quality Data and Trusted Information[M].San Francisco:Morgan Kaufmann,2008:220-224.
4.Dufour Émilie,Duhoux Arnaud,Contandriopoulos Damien.Reliability of a Canadian database for primary care nursing services'clinical and administrative data[J].International Journal of Medical Informatics,2018,117(1):1-5.
5.Edward Nicol,Lilian Dudley,Debbie Bradshaw,et al.Assessing the quality of routine data for the prevention of mother-to-child transmission of HIV:An analytical observational study in two health districts with high HIV prevalence in South Africa[J].International Journal of Medical Informatics,2016,95(11):60-70.
6.N.Puttkammer,J.G.Baseman,E.B.Devine,et al.An assessment of data quality in a multi-site electronic medical record system in Haiti[J].International Journal of Medical Informatics,2016,86(2):104-116.
7.TsenG M,Raketich N,Simmons C.Evaluation of chlamydia and gonnorhea electronic provider reports data quality[J].Journal of the Public Health Information,2018,9(1):337-344.
8.Altman M R,Colorafi K,Daratha K B.The reliability of electronic health record data used for obstetrical research[J].Applied Clinical Informatics,2018,9(1):156-162.
9.K.Krupa,M.Bekiesinska-Figatowska,Artifacts in magnetic resonance imaging[J].Polish Journal Of Radiology,2015,80(1):93-106.
10.F.E.Boas,D.Fleischmann,CT artifacts:causes and reduction techniques,Imaging Med,2012,4(2):229-240.
11.S.J.Prabhu,K.Kanal,P.Bhargava,et al.Ultrasound artifacts:classification,applied physics with illustrations,and imaging appearances[J].Ultrasound Quarterly,2014,30(2):145-157.
12.Juliana Chen,Janet E Cade,Margaret Allman-Farinelli.The Most Popular Smartphone Apps for Weight Loss:A Quality Assessment[J].Jmir Mhealth&Uhealth,2015,3(4):104-110.
13.阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用.医学信息学杂志,2016,4:8-13.
14.Zeng L,Wang Q,Zhang L.Using NMT with Grammar Information and Self-taught Mechanism in Translating Chinese Symptom and Disease Terminologies[C]//National CCF Conference on Natural Language Processing and Chinese Computing.Springer,2017:750-759.