第一篇 概述篇

第一章 健康医疗大数据导论

随着云计算、大数据、物联网、移动互联和人工智能等信息新技术在健康医疗领域的应用,特别是国家“互联网+”和大数据战略的强有力推动,目前健康医疗大数据呈指数方式激增。健康医疗大数据不同于其他行业的数据,具有多种显著特征,对健康医疗大数据的充分运用,将会提升整个健康医疗领域的管理和科研水平,优化资源配置、创新服务模式、提高服务效率、改善服务质量、降低服务成本,满足人民群众日益增长的健康医疗需求。健康医疗大数据将促进行业数字经济的发展,营造大数据文化氛围,给健康医疗领域带来巨大变化。

第一节 健康医疗大数据概述

一、数据与大数据

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物未经加工的原始素材。数据可以是连续的,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。
一般而言,数据缺乏组织及分类,无法明确表达事物代表的意义,它可能是一堆的杂志、一大叠报纸、数种会议记录或是整本病历记录。数据描述事物的符号记录,是可定义为有意义的实体,涉及事物的存在形式;数据是关于事件的一组离散且客观的事实描述,是构成消息和知识的原始材料。
大数据(big data)的概念于20世纪80年代由未来学家托夫勒在其所著的《第三次浪潮》中提出,托夫勒将其热情地赞颂为“第三次浪潮的华彩乐章”。在《数据科学发展简史》中,大数据的来源最主要是信息新技术的使用和数据的指数级增长。
大数据自提出至今得到广泛关注,但并无统一的定义。维基百科中指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。研究机构Gartner认为,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的大数据的定义为:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。徐宗本院士在香山科技会议上将大数据定义为:不能够集中存储,并且难以在可接受时间内分析处理,其中个体或者部分数据呈现低价值而整体数据呈现高价值的海量复杂数据集。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”。通过“加工”,即使用大数据相关分析、处理的技术,实现数据的应用“增值”。

二、健康医疗大数据的概念

健康医疗大数据是指与健康医疗相关,满足大数据基本特征的数据集合,是国家重要的基础性战略资源,正快速发展为新一代信息技术和新型健康医疗服务业态。北京大学医学信息中心俞国培教授认为,应将健康医疗大数据分成医院医疗大数据、区域卫生服务平台大数据、疾病监测大数据、自我量化大数据、网络大数据和生物大数据6类。
健康医疗大数据的应用发展,将推动健康医疗模式的革命性变化,有利于扩大医疗资源供给、管控医疗成本、提升医疗服务运行效率和质量,满足多样化、多层次的健康需求;有利于培育新的业态和经济增长点,带来巨大的商业机会和创业空间。
积极发展应用健康医疗大数据已成为世界各国的重要共识,一些发达国家将其作为国家重大战略并付诸行动。最近几年,健康医疗大数据的发展应用蓬勃兴起,为解决人民群众对健康多样化日益增长的需求和医疗卫生优质资源供给不足的矛盾提供了新的解决手段。

三、健康医疗大数据的发展

中国信息通信研究院结合对大数据相关企业的调研测算如图1-1所示,我国大数据产业处于快速推进期,到2020年大数据将带动中国GDP 2.8%~4.2%。大数据正在得到空前重视。2017年底,习近平总书记在中共中央政治局第二次集体学习时强调,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国。最近一年来,贵州、海南、广东、四川等地陆续发布促进大数据发展工作方案或相关地方法规,以促进和保障大数据发展有序推进,各类便民应用层出,产业集聚明显加快。大数据技术与应用发展正式上升至国家战略层面。
图1-1 中国大数据产业规模估计
随着“健康中国2030”的不断推进,健康医疗大数据正成为国家重要的基础性战略资源,同时国家层面出台了《关于促进和规范健康医疗大数据应用发展的指导意见》等文件。在国家卫计委牵头下,国有资本主导的三大健康医疗大数据集团正式成立,“1+7+X”的健康医疗区域模型规划也在逐步成形。在此背景下,健康医疗大数据迎来快速发展,一方面各地政府热情高涨;另外一方面资本市场也对其青睐有加,2016年全年融资事件高达52起,总额近百亿,市场前景辽阔。
发展和应用好健康医疗大数据,是一项创新推进供给侧结构性改革的重大民生工程,有利于激发深化医药卫生体制改革的动力和活力,有利于提高健康医疗服务效率和质量,有利于健康产业发展,增加有效供给,提高群众获得感,促进培育新业态、形成新的经济增长点。

四、健康医疗大数据的特征与分类

(一)健康医疗大数据的特征
2001年,高德纳分析员道格•莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:①量(volume),即数据多少;②速(velocity),即资料输入、输出的速度;③类(variety),即多样性。在莱尼的理论基础上,IBM提出了大数据的5V特征,得到了业界的广泛认可:①数量(volume);②多样性(variety);③速度(velocity),即处理速度快;④真实性(veracity),即追求高质量的数据;⑤低价值密度(value)。健康医疗大数据是大数据的子集,也符合大数据的5V特征(图1-2)。
图1-2 大数据5V特征
1.大容量(volume)
大数据的第一个特点就是大,数量庞大,从TB级别跃升到PB级别。这包括常见的结构化数据和非结构化数据,其中非结构化数据的超大规模和增长占总数据量的80%~90%,比结构化数据增长快10~50倍。
2.多样性(variety)
数据格式变得越来越多样,随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂。它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。
3.快速度(velocity)
数据存在时效性,需要快速处理,并得到结果。快速度包括两方面,一是数据产生得快,二是数据处理得快。
4.真实性(veracity)
数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得知识最重要的因素。追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性。
5.低价值密度(value)
大数据价值密度相对较低,随着互联网及物联网的广泛应用,信息感知无处不在。但繁杂的数据世界中包含的有用信息非常少,结合业务逻辑并通过强大数据分析方法来挖掘数据价值,是大数据时代最需要解决的问题。
健康医疗大数据除具有大数据的5V特征之外,还具有健康医疗大数据独特的属性特征:
1.微观性 健康医疗大数据是每个个体健康医疗大数据的集合。个体的人口特征、行为特征、诊疗经历、体检数据、饮食数据、运动和睡眠数据的汇聚构成了健康医疗大数据。因此,整个社会的健康医疗大数据天然是微观性的。
2.隐私性 健康医疗大数据分析中隐私保护需要注意两方面:一是用户身份、姓名、地址和疾病等敏感信息的保密;二是经分析后所得的私人信息的保密。健康医疗大数据中包含了大量需要保密的临床数据、检查检验数据以及患者的个人隐私内容,因此对健康医疗大数据进行分析时,需要确保数据的保密、安全。
3.追踪性 个体的健康医疗大数据包括一个人从出生、婴幼儿保健、疫苗注射、入学和工作体检、就诊、住院、饮食、运动、睡眠、死亡等一系列生命过程所产生的连续数据。
4.全面性 健康医疗大数据在个体健康信息内容上通常是广泛覆盖的,不仅指身体健康,还包括心理、社会适应、道德品质,数据相互依存、相互促进、有机结合。
5.冗余性 冗余性指的是健康医疗大数据中包含了大量相同或相似的被重复记录的数据,如对某种疾病的多次检查诊断、疾病症状的描述及与疾病无关的其他信息的重复记录。
(二)健康医疗大数据的分类
数据分类在收集、处理和应用数据过程中非常重要。健康医疗大数据的分类方式很多,每种方式都有特别的作用。下面将逐个介绍各种常见的分类方式,并简单介绍每种分类的使用场景,以及对每个角色的重要程度。
1.从字段类型上
可以分为文本类数据(string、char、text等)、数值类数据(int、float、number等)、时间类数据(data、timestamp等)。
(1)文本类数据:
常用于描述性字段,如姓名、地址、交易摘要等。这类数据不是量化值,不能直接用于四则运算。在使用时,可先对该字段进行标准化处理,再进行字符匹配,也可直接模糊匹配。
(2)数值类数据:
用于描述量化属性,或用于编码,是对多个枚举值进行有规则编码,可进行四则运算,但无实质业务含义。不少编码都作为维度存在,如邮编、身份证号码、卡号等。
(3)时间类数据:
仅用于描述事件发生的时间,时间是一个非常重要的维度,在业务统计或分析中非常重要。
这种分类方式是最基本的,和很多场景有关:①在系统设计时,需要确定每个字段的类型,以便设计数据库结构;②在数据清洗时,数值类和时间类数据是清洗的重点,这类字段在业务上一般都有明确的取值范围,比如年龄必须大于0;③在建立维度模型时,数值类数据中的编码型字段和时间类字段通常作为维度,数值类数据中的量化属性作为度量。
2.从数据结构上
可以分为结构化数据、半结构化数据、非结构化数据。
(1)结构化数据:
通常是指用关系型数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。
(2)半结构化数据:
是指以自描述的文本方式记录的数据,由于自描述数据无须满足关系型数据库上那种非常严格的结构和关系,在使用过程中非常方便。
(3)非结构化数据:
通常是指语音、图片、视频等格式的数据。这类数据一般按照特定应用格式进行编码,数据量非常大,且不能简单地转换成结构化数据。
这种分类方式适用的场景包括:①结构化数据是传统数据的主体,而半结构化和非结构化数据是大数据的主体;②在数据平台设计时,结构化数据用传统的关系型数据库便可高效处理,而半结构化和非结构化数据必须用Hadoop等大数据平台;③在数据分析和挖掘时,不少工具都要求输入结构化数据,因此必须把半结构化数据先转换成结构化数据。
3.从数据处理角度上
可以分为原始数据、衍生数据。
(1)原始数据:
是指来自上游系统的没有做过任何加工的数据。
(2)衍生数据:
是指通过对原始数据进行加工处理后产生的数据。
这种分类方式主要用在数据管理上,对原始数据的管理和衍生数据的管理有一些差别。虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修改的原始数据,一旦衍生数据发生问题,可以随时通过原始数据重新计算。
4.从数据粒度上
可以分为明细数据、汇总数据。
(1)明细数据:
通常是从业务系统获取的原始数据,是粒度比较小的,包括了最为丰富的业务细节。
(2)汇总数据:
为了提高数据分析效率,需要对数据进行预加工,通常以时间维度、地区维度、产品维度等常用维度进行汇总。
这种分类方式的相关应用场景有两种,一种是在数据仓库设计时,如何对数据进行汇总,按什么方式进行汇总,才能达到使用效率和汇总成本的平衡。另一种是数据分析人员在分析数据时,在明细数据、各种汇总数据之间选择合适的数据,以提高分析效率。
5.从更新方式上
可以分为批量数据、实时数据。
(1)批量方式:
通常每隔一段时间提供一次数据,其中一次数据包括该时段内所有变化的数据。
(2)实时方式:
即每当数据发生变化或产生新数据时,就会立刻提供。
批量方式每次处理的数据量少,需要根据时间间隔进行。实时方式时效快,能有效满足时效要求高的业务。但这种方式对技术要求更高,必须保证系统足够稳定,一旦出现数据错误,容易对业务产生较严重的影响。
6.从场景应用上
按照数据产生的来源,可以将健康医疗大数据分为临床大数据、个人健康大数据、生物组学大数据、中医大数据、药学大数据、公共卫生大数据和其他运营类大数据等。

第二节 健康医疗大数据相关技术与应用

一、健康医疗大数据通用技术

健康医疗大数据领域涉及的相关技术范围非常广,包括大数据的获取技术、资源管理及平台技术、数据质量和治理技术、内存计算技术、备份和归档技术、安全技术、数据挖掘与知识发现技术、数据可视化技术、人工智能技术、语义提取与表型构建技术、大数据与区块链技术等。
1.获取技术
数据获取是大数据挖掘和分析的基础。大数据的获取技术包含数据采集、数据传输和预处理技术。数据的采集来源一般分为业务系统数据、物联网设备数据、生物医学数据、互联网络等数据。数据采集后,通过网络传输、数据中心传输和跨网传输,把数据传输到相应的服务器节点或数据中心,并进行包括数据集成和数据清洗预处理等操作。
2.资源管理及平台技术
为了打破传统医疗的信息孤岛,实现医疗数据的挖掘和分析,医疗卫生机构急需构建一个健康医疗数据库系统。健康医疗数据库系统以Hadoop、Spark、关系型数据库、NoSQL数据库、MPP数据库、内存数据库等技术实现。数据存储、数据分析和数据可视化等步骤都在数据库中完成,并且数据库系统实现了数据共享互通,实现了健康医疗数据的量化管理,提升了医疗机构的价值。常见的数据中心的资源调度框架包括资源分配的策略、资源分配的粒度、资源分配的方式、不同类型任务的调度。
3.数据质量和治理技术
大数据质量的评估是在已构建的质量模型的基础上,进一步对质量模型进行细分,并对于底层的质量维度给出相应的度量。数据治理技术包括健康医疗术语库的构建、医学自然语言处理和结构化等。
4.内存计算技术
数据库技术与存储技术的融合提升,可以将大数据以数据库的整体形式存储在内存中而不是机械磁盘中,这样可以使数据性能速度得到几百倍甚至几千倍的提升,并且使得全新的应用成为可能。这种数据存储方式的改变正在并将继续对医疗健康行业的应用产生重大影响,进而最终影响医院的运营方式。决策者们将能够以思想般的速度获得实时信息,从而具备前所未有的洞察力。
5.备份和归档技术
备份是针对应用系统的一个或多个完整的数据拷贝,当应用系统出现问题时,可以随时从备份中恢复需要的数据。主要用于保存数据的副本,达到数据保护的目的;归档作为数据管理的一种方式长期组织并保存数据。二者协同一起用于实现数据的保护。
6.安全技术
大数据安全主要是保障数据不被窃取、破坏和滥用,以及确保大数据系统的安全可靠运行。需要构建包括系统层面、数据层面和服务层面的大数据安全框架,从技术保障、管理保障、过程保障和运行保障多维度保障大数据应用和数据安全。
7.数据挖掘与知识发现技术
数据挖掘技术有助于从原始数据中发现知识并进行学习。数据挖掘技术包括数据描述和预测两大类。数据描述是一种无监督学习模型,它通过数据特征的发现和表述来对数据特征进行描述,典型的数据描述包括聚类分析和关联分析等。预测属于有监督学习模型,例如分类模型和回归模型,包括决策树分类、贝叶斯分类、人工神经网络、K最近邻分类等(图1-3)。
8.数据可视化技术
可视化技术是将数据、信息和知识转化为一种形象化的视觉表达形式,主要包括数据可视化、科学可视化和信息可视化。健康医疗大数据可视化的基本方法有可视化中的图表、色彩运用,以及三维可视化、动态可视化等。常用的可视化工具有Microsoft Excel、Power BI、Tableau Software、BDP、ChartBlocks、Infogram、RAWGraphs、Gephi、Many Eyes、TileMill等。
9.人工智能技术
医疗工作的复杂性和繁琐性提出智能医疗的需求。智能医疗研究的主要内容包括:用机器进行图象和物体识别、智能诊断、医学辅助诊断、电子病历信息检索、医学机器人、专家系统等。
图1-3 大数据机器学习技术
10.语义提取与表型构建技术
储存在电子病历中的大量表型数据具有重要的研究意义,对这些数据进行语义提取、术语及本体控制以及向通用数据模型的迁移,共同组成临床表型组构建的关键技术体系。表型构建包括疾病的语料构建(图1-4)和电子病历的自动信息抽取。
图1-4 语料标注流程
11.大数据与区块链技术
区块链是一种分布式数据库(distributed shared ledger),不仅表现为数据的分布式存储,也呈现为数据的分布式记录,系统参与者集体维护。区块链可以生成一套去中心化的、记录时间先后的、不可篡改的可信任数据库。区块链技术在健康医疗行业将会有良好的应用前景。
12.移动物联网技术
移动设备及物联网设备的普及使用,为移动医疗应用提供了应用基础。健康医疗移动物联网设备有:健康医疗传感器、健康医疗物联网智能设备、健康医疗移动物联网IP网络、健康医疗移动物联网无线传感网络等。这些健康医疗大数据对改进健康医疗服务模式,对经济社会发展都有着重要的促进作用。
13.健康医疗大数据的标准化
信息标准是医疗卫生信息化和大数据应用的基础。面对众多的异构信息平台、海量的各类数据,如何实现信息平台间互操作性,实现业务互通协同、数据交换共享,健康医疗信息标准的研发和应用成为首当其冲的问题。现在常用的医疗卫生信息数据标准有HL7、HL7 V3消息、HL7CDA R2、HL7 FHIR、ICD、SNOMED CT、WS363-2011《卫生信息数据元目录》和WS364-2011《卫生信息数据元值域代码》等。

二、健康医疗大数据技术的应用

健康医疗大数据应用将带来健康医疗模式的深刻变化。基于大数据的临床决策支持系统、药物大数据应用、中医药及民族医药大数据应用、生物组学大数据应用、医学影像大数据应用、公共卫生大数据应用、区域医疗中的大数据应用、个人健康管理大数据应用和基于大数据的临床科研应用,正在构建一个全新的数据驱动的健康医疗服务与管理模式。
1.临床决策支持系统
临床医疗工作任务繁重,实现医疗工作的智能化显得十分必要。当前部分流程化医疗任务已被人工智能取代,如医院导诊机器人、智能手术平台、健康预约提醒等。临床大数据在临床医学方面的应用主要包括以下几个方面:可为协助医务人员实现临床辅助诊断的智能化、精准诊疗与个性化治疗、不良反应与差错分析提醒等;可为患者服务,如健康预测与预警等;可为管理者服务,如精细化管理决策支持、数据服务与数据经济等;可为研究人员服务,如用药分析与药物研发等。
2.药学大数据应用
药物开发一直以来都是一个漫长、昂贵,并且步骤繁琐的过程。大数据改变了我们研究分子生物学和药物开发的方式。大数据通常指的是一种方法,首先以无偏倚的方式收集全面的数据,不需要先验假设,然后通过数据挖掘算法进行分析以产生新的科研构想。药学大数据应用包括:新药开发、药物安全性、药物基因组研究,以及老药新用等。
3.中医药及民族医药大数据应用
促进中医药及民族医药大数据资源目录体系建设、重要数据库建设、文献资源基础建设。以中医药为例,形成了中医馆健康平台、中医药知识发现、中医智能辅助诊断、中医药居家健康信息服务和中医慢病管理等服务。
4.生物组学大数据应用
随着高通量分子生物学和计算机信息技术的发展,生物组学大数据对现代生物医学的影响可谓是颠覆性的。生物组学大数据的应用,可以整合能够包含表型组谱、基因组序列、转录组表达谱、蛋白质组表达谱和代谢组表达谱等数据库,建立创新性的大规模研发疾病预警、诊断、治疗与疗效评价的生物标志物技术体系。以临床应用为导向,形成重大疾病的风险评估、预测预警、早期筛查、个体化治疗等精准防诊治方案,这些将助力精准医学的快速、深入发展。
5.医学影像大数据应用
医学影像大数据是整个医疗大数据主要数据来源,占据总数据量80%以上。医学影像大数据的应用同时衍生出图像处理技术、图像处理分析技术。图像处理分析技术又包括图像处理技术和机器学习技术。
6.公共卫生大数据应用
公共卫生大数据是大数据的一个专业分支,特指与维持人的生命健康或引起身体疾病/亚健康状态相关的生活行为方式、遗传因素、社会环境因素及治疗过程中可以测量记录的一切与人类健康相关的数据信息的集合。基于公共卫生大数据的分析,可实现对全人群的健康测量与评估,从而实施行之有效的干预措施,提高人群健康水平。
7.全民健康大数据平台的区域应用
全民健康大数据平台通过采集和整合区域内多源异构的医疗健康相关数据,建立全民健康大数据中心,利用大数据集成、存储、计算、分析等技术,对医疗健康相关数据进行统一处理,并且向各类大数据应用系统发布数据,实现对医疗健康数据资源的全面利用。该项技术同时可以为区域内居民、医疗卫生专业人员、卫生行政管理人员、健康服务产业从业人员提供数据分析、趋势预测、决策支持等多种信息服务。
8.个人健康管理大数据应用
个人健康管理旨在调动个人、家庭和社会的积极性,利用有效的资源达到最大的健康改善效果,有效降低健康风险和医疗费用支出。它是将传统的以疾病为中心的医疗诊疗模式转变为以健康为中心的健康服务模式。借助大数据采集、挖掘、分析等相关技术,个人健康管理平台就可以集中管理散落在各个机构的数据信息,为个人提供全生命周期的健康数据服务。

三、健康医疗大数据应用的范围与优势

(一)健康医疗大数据的应用范围
1.区域平台医疗体系建设
健康医疗大数据可应用于建设统一、权威、互联互通的全民健康信息平台。实施全民健康保障信息化工程,按照安全为先、保护隐私的原则,充分依托国家电子政务外网和统一数据共享交换平台,拓展完善现有设施资源,全面建成互通共享的国家、省、市、县四级全民健康信息平台,强化公共卫生、计划生育、医疗服务、医疗保障、药品供应、综合管理等应用信息系统数据采集、集成共享和业务协同。消除数据壁垒,畅通部门、区域、行业之间的数据共享通道,探索社会化健康医推动健康医疗大数据资源共享开放,打通数据资源共享通道。
2.辅助决策支持
大数据分析、筛选大量数据,经过分类、分析、处理,使临床决策支持系统更智能。透过分析海量的健康医疗大数据,比较多种干预措施的有效性,为临床决策提供有价值的参考,大幅降低过度治疗或治疗不足现象的发生,同时减少不必要的医疗费用支出,减轻患者负担。国内由原国家卫生计生委统计信息中心和电子科技大学共同组建的医疗健康大数据研究院,利用大数据+深度学习技术实现了色素性皮肤病的计算机辅助诊断,开发了自动诊断眼部疾病的机器人等。
3.精准医学与个性化治疗干预
精准医学应用现代遗传技术、分子影像技术、生物信息技术,结合患者的生活环境、临床数据、个人健康档案,实现精准的疾病分类及诊断,制订具有个性化的疾病预防和治疗方案。短期将重点推进在癌症和慢性疾病治疗上的应用,长期则是把精准医学知识扩展到全部健康医疗领域。
健康医疗大数据分析可应用于个性化治疗干预,大数据分析能够对具有某种特异体质的群体进行早期干预,避免或减少疾病发生的可能性,如对带有易于诱发癌症基因的一类群体或对某类药物发生过敏的群体实施个性化治疗干预。精准医学与个性化治疗将创建一个融合参与者、健康医疗大数据共享以及隐私保护的新型研究模型,在更大规模人群和更长时间评价中产生更准确的临床诊疗方法和精准健康管理模式。
4.公共卫生和全民健康
健康医疗大数据可应用于整合社会网络公共信息资源,完善疾病敏感信息预警机制,掌握和动态分析全人群疾病发生趋势,开展重点传染病、职业病、口岸输入性传染病和医学媒介生物监测,建立实验室病原检测结果快速识别网络体系。及时发现和处置传染病暴发,应对新发和不明原因的疾病,可在了解不同传染病发病情况和病原体变异水平上发挥重要作用。
整合多源监测数据的基础是监测模式的改变和监测信息系统的整合,即从以单一疾病监测管理为中心向以患者全程监测管理为中心转变,从条块化的单病种监测和病次监测向患者全生命周期监测转变。充分利用居民健康档案、电子病历和全员人口信息库三大基础数据库,依托区域全民健康信息平台,通过建立主索引的方式,以人为中心整合多源监测数据,建设传染病动态监测信息系统和健康危害因素监测信息系统,加强与外部数据的共享交换,实现分布式大数据计算与应用,有效预防控制重大疾病。
5.帮助发现药物副作用
健康医疗大数据分析通过对临床试验数据和患者记录进行大数据分析,归纳出患者服用药品后的不适症状及服用药物后可能产生的副作用。分析收集不良反应报告,可以及时、有效地对药物不良反应进行监测、评价和预防,确保上市药品的安全。在生物医药领域,可以利用大数据有效缩短药品研发周期。Berg Health公司就是利用结合了生物模型元素、大数据分析、人工智能、基因组学、蛋白质组学和代谢组学的药物研发平台,从大量样本数据中创建患者“图谱”,进而挖掘出实际可用的数据,通过明确发病时细胞活动途径的改变来反向推导出合适的药物治疗方案。使用这种新方法,只需要9~12个月就能研发出一种药物,使药物研发变得更便宜、更快捷。
6.助力疾病风险预测与慢病管理
健康医疗大数据分析可以对某种疾病的易感人群作出判断,比如对健康医疗大数据分析可以判别哪些患者有患糖尿病的高风险,这样就可以尽早地让他们做好预防保健措施,降低疾病发生的风险和延缓疾病的发生。此外,健康医疗大数据的应用发展创新了慢病管理模式,推动了健康数据监测由被动监测向主动监测与被动监测相结合的方式转化,利用移动互联网及云平台可以突破地域限制,使得需要长期监测的慢性病患者在家中便可享受快捷、高质量的医疗服务,提高其慢病管理的依从性。大数据技术不断完善慢病知识库和智能专家系统,使患者拥有慢病助手,为其推荐个性化诊疗方案,使慢病诊治更科学化、精准化。
(二)健康医疗大数据的应用优势
目前,传统医疗模式正向移动医疗模式转变,这是新技术、新形势带来的具有颠覆性的巨大变革。健康医疗大数据将重点在基于疗效的研究、临床数据的挖掘、医疗数据透明度的提升、远程患者的监控、患者档案的先进分析、利用大数据提高研发效率及医疗服务行业的新商业模式等方面发挥功能。健康医疗大数据的应用优势主要体现在五个方面:
1.服务居民
让群众享有便捷高效的优质服务。
(1)通过对居民就医行为、习惯的大数据分析,优化诊疗服务流程,让百姓看病更方便。
(2)健康管理的发展促进了大数据应用,使对疾病的早期甚至可能发病因素进行干预、治疗成为可能。
(3)借助大数据手段,对居民健康危险因素进行分析,开展居民健康管理服务,实现了个性化健康保健指导。
2.服务医生
让医疗行为更精准、更精细。大数据将极大提高医疗决策,特别是临床决策的科学性,主要包括用药分析、药品不良反应、疾病并发症、治疗疗效相关性分析和制订个性化治疗方案等。医生可将电子病历、电子处方、新兴的健康应用以及公共卫生报告整合成可供使用的数据,以精准查找致病病因,提出科学治疗方案,促进个性化、精准化治疗。
3.服务科研
为医学创新搭建平台。主要是用于疾病诊断与预测、临床实验数据的分析与处理、针对重大疾病识别疾病易感基因、为极端表型人群提供最佳治疗路径等。如应用大数据挖掘分析技术,深化国际医药科技计划研究与应用成效,提高危害人类健康的重大疾病的预防和诊疗水平。通过挖掘数据来评估所招募患者是否符合试验条件,并进一步找出最合适的临床试验基地,从而加快临床试验进程等。还可以通过支持研制、推广数字化健康医疗设备,促进健康医疗智能化装备产业升级,形成新业态和新经济增长点。
4.服务管理
使服务效率和服务质量进一步提升。主要是规范用药评价、管理绩效分析,流行病、急病等预防干预及措施评价、公众健康监测、付费或定价、临床路径的优化等。
5.服务医改
为深化医改注入活力。深化医药卫生体制改革,就要解决深层次、制约医药卫生事业科学发展的体制、机制和结构性问题。大数据为医改提供了方法论,大数据的记录、分析和重组揭示了事物之间的关联和真相。

第三节 健康医疗大数据的挑战与机遇

一、面临的问题与挑战

国家明确提出将健康医疗大数据的应用发展纳入国家大数据战略布局,并规划了未来几年的发展目标。健康医疗大数据的分析和挖掘有着巨大的发展前景。大机遇也面临着大挑战,目前我国主要面临着技术人员短缺、数据整合困难以及数据安全、数据隐私保护等方面的诸多问题。
(一)医疗数据的互联互通
医疗资源的数据壁垒是医疗行业面临的巨大问题,如何打破各个医疗机构的信息孤岛,实现行业的信息融合是重中之重。打通数据资源共享通道,并依托各级电子政务网构建横向到边、纵向到底的健康医疗信息网络,形成国家健康医疗大数据应用体系;推进可穿戴设备人工智能、健康电子产品、健康医疗移动应用等产生的数据资源规范接入共享平台。同时,加强健康医疗大数据深度挖掘,构建政、产、学、研、用合作共赢的大数据采集应用平台,将数据的真实性、关联性、潜在价值性挖掘出来,可进一步推进医疗资源的最大化利用。
(二)标准规范是核心
由于所处医疗区域、单位等背景不同,产生的医疗资源因为不同规范标准,无法进行信息的挖掘。医疗大数据的共享首先即需要制订较为完善的信息标准和规范。微观上,医院要提高管理规范,从内部规范协调好各部门,做到从本身来说能真正及时有效地实现健康医疗大数据的共享。宏观上,政府层面配套相关的完善的法律、政策,建立全国健康医疗数据资源目录体系,制订分类、分级、分地域的健康医疗大数据应用服务标准体系,在此基础上,大力推进医疗机构之间的联通和共享。
(三)安全可控是关键
大数据的应用要把安全工作放在突出位置,加强组织保障和规章制度建设,落实好信息安全等级保护的相关要求。目前国内医疗行业技术安全防范和管理能力不够,尚未建立起兼顾安全与发展的数据开放、管理和信息安全保障体系。这需要国家出台相关政策,同时加强数据安全技术的研发和更新,减少技术漏洞。在保障安全的前提下,推进网络信任体系建设,确保医疗诊治行为的程序合法性和实体安全性。
(四)隐私保护和医疗伦理
在医疗健康领域,患者通常受到的隐私危害包括:患者个人真实形象受到侵害、患者精神层面受到伤害和患者财产损失或不获益等。医学伦理问题聚焦于医疗机构及医务人员从事各种医疗行为时侵害患者权益的状况,二者是医疗行业独有的本质问题。我国目前已出台相关健康医疗数据的管理规范,但对于二者尚未有实质性约束。
(五)医学信息人才与数字化医生的培育
随着科学技术的发展,真正将健康医疗大数据的深化挖掘和应用发展是“健康中国”的一项战略性工程。具备医学和信息技术的复合型人才严重短缺。需要强化医学信息学学科建设和人才融合培育,打造高层次、复合型的核心技术研发人才和科研团队;建立多层次多类型的健康医疗大数据应用人才培养培训体系,提升临床医生的信息素养,培养数字化医生。推进政府、高等院校、科研院所、医疗机构、企业人才共育模式,促进健康医疗大数据应用更快、更好地发展。

二、健康医疗大数据与数字经济发展

2016年G20峰会首次将数字经济列为峰会的一项重要议题,主持起草的《G20数字经济发展与合作倡议》提出通过数字经济推动世界经济包容性增长的具体举措。在“十三五”期间,中国也提出将大力实施网络强国战略、国家大数据战略、“互联网+”行动计划等一系列重大战略和行动,促进数字经济进一步创新发展。
推动数据经济的发展,离不开健康医疗大数据的支撑。作为创新和包容性增长的动力,发展数字经济已经成为世界主要发达国家政府的共识。全球有28个国家制定了数字经济战略,以占据国际制高点。我国数字经济目前已经进入快速发展期,2016年数字经济规模达到22.6万亿元,同比增长18.9%,占GDP比重达到30.3%,对GDP的贡献已达到69.9%。数字经济对国民经济发展的先导作用和推动作用日趋明显,已上升至国家战略层面,将是未来增长最快、最具潜力的领域,成为拉动我国健康医疗领域数字转型的重大突破口。
为实现健康中国,最核心的是提高健康医疗卫生服务能力。健康医疗领域已经或即将发生几种转变:①民众层面:将由被动治疗转变为主动健康管理;②医院层面:将注重收治数量转变为注重疗愈质量;③治疗过程:将从短期治疗痊愈前后延伸为日常预防和院后康复与保健;④技术实现:将从医生诊疗转变为数据驱动的人机协同诊疗。
这些转变的实现,要从四个方面入手:发展医疗“互联网+”、提升医疗效率、加强健康管理、发展健康医疗大数据和人工智能应用。其中,基础的关键技术支撑,是基于健康医疗大数据的数据融合和协同应用。
以数字技术创新为核心驱动力,以现代信息网络为重要载体,通过数字技术与健康医疗大数据深度融合,不断提高我国健康医疗行业数字化、智能化水平,将会加快健康中国战略的实施。

三、大数据文化及思考

(一)大数据新文化
我们正生活在一个无形的数据海洋之中,每一次具有引领性、标志性、颠覆性的大数据技术发明,必将对人类文明和产业发展产生巨大而深远的影响。从宏观层面讲,大数据是一个时代的标志,即信息化进入到一个崭新境界的历史性形态;从微观层面讲,大数据是信息技术对于人的行为的数据化管理。也就是说,人们的一切行为都可以运用大数据技术使之更科学化。
大数据不仅代表着科技文明和高技术产业,也逐渐升级演变为新的文化现象、文化形态。一方面,数据活动过程离不开一定的文化背景;另一方面,数据活动过程又直接影响到整个社会文化的面貌。利用大数据推动文化产业创新转型发展,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点。可以这么说,数据活动过程已经形成了一种特殊的文化,即数据文化。当“一切靠数据说话,一切凭数据决策”成为一种社会现象时,就是数据文化形成时。数据文化是一种特殊的文化类型和文化现象,它尊重事实、强调精确、推崇理性和逻辑性。
数据是信息的载体,在当今时代,大数据对经济、文化、教育、社会等方方面面都产生了深刻的影响,使其逐渐从一种信息符号、信息技术体系应用,提升到可以影响到区域内各种社会活动主体思维、价值判断和行为选择的文化高度。这就是大数据的意义所在,也是研究大数据文化的意义所在。
总的来说,大数据文化是运用大数据技术将之对于人类活动的承载、传承、服务提高到一个划时代的新境界,使人类行为发展实现超常规的跨越。在这个跨越中,一切皆有可能。
(二)大数据文化内涵
大数据文化虽一直被提及,但是大数据文化意识形态如何,以及我国处于大数据文化的哪个阶段,至今尚不明晰。事实上,我们已经知悉大数据文化具备文化的特质,那我们可以通过文化解构的方法比对文化框架元素来剖析大数据的建设发和发展。众多国内学者一致认为文化应包括:物质层、制度层、行为层和精神层。
1.大数据物质层文化
是指多元社会主体在相应的社会活动中,能够使用和驾驭的大数据物理实体层面的具体展映。大数据时代特有的物质展映,包括大数据技术及其应用体系,如云计算、物联网以及相应的大数据支撑设施等。在这种物质层方面直接体现的是技术型文化和业务型文化。技术以及技术的衍生物是构成大数据的物质基础,也是大数据价值的物质载体。同时根据技术的专业性和特征的客观性,大数据体现在器物交换过程中的业务活动,进而推动社会经济发展。目前看来,大数据业务特性突出体现在大数据服务决策、创造经济社会效益和服务公众等方面。一方面,大数据的技术性使得人类自身活动的边界有所拓展;另一方面,大数据承载着多元业务的需要,包括医院、服务机构,能够大大提升诸多业务领域的价值。
2.大数据制度层文化
是指文化指向与大数据发展相适配的由合格制度主体制订并被广泛遵守执行的各类政策、法规、标准等制度性规范,以及在这些规范约束和激励下形成的社会行为规约、习惯和一致性活动指向等。
大数据制度层文化受一个国家或者地区制度传统和文化的制约,例如欧、美、日等国家的大数据制度观与我国就存在着一定的差异,各国在制定可以普遍遵守的大数据技术性制度的前提下,需要兼顾本国的制度特色和文化特质。
我国从大数据治理需要和国家制度设计能力与愿景出发,勾勒出大数据制度框架和行动纲要。很显然,对各国大数据制度体系状况进行分析,能够探寻出各国大数据的认知状况、行动能力和目标指向等文化内涵。
3.大数据行为层文化
是指多元社会主体在利用大数据进行统计、分析预测、决策以及适时控制过程中所外化出的自觉性行为和偏好倾向。根据大数据活动过程中的外化,大数据行为层根据个体差异明显体现在主体的行为能力、行为透明、行为效率三个方面。根据能力匹配,数据文化的发展客观上要求不同参与主体具有与其相匹配的技术能力、业务能力和适应能力,大数据的重要价值是能够让这些能力在短期内得到极大提升。
4.大数据精神层
精神层文化位于结构关系的中心,是另外三层文化的集中体现和升华,属于意识层面,是多元社会主体在思想意识层面上形成的关于大数据的总体意识状况和精神维度。大数据精神层文化的形成是大数据文化的根本标志,并会在物质层、行为层和制度层集中体现。
总的来说,这四者组成一个有机整体,精神层作为四者的中心,辐射外围层(图1-5)。制度层文化为其他三层文化提供制度保障,促进大数据可持续地应用和共享发展。行为层文化直接作用于其他三层文化,是精神层文化作用于现实实践领域的工具和桥梁。
图1-5 大数据文化四层结构及其关系
(三)推动健康医疗大数据文化发展
根据大数据的内涵,推动健康医疗大数据文化的孕育和发展,需要来自医疗卫生各个社会团体的支持。分析大数据演进路径,有助于了解大数据文化的发展,如来自政府的引导。
政府在这段时期发挥着至关重要的作用,是不可替代的角色。政府主导就是要求政府基于大数据文化发展的需求,与其他社会主体协同推进、兼顾施策,充分发挥其在科技、经济、教育、贸易以及安全方面的引领、支撑和统筹等职能,不断推动大数据文化的创新发展。
学术界因为其在理论造诣方面的优势,以及在与政府和企业界沟通方面的便捷,成为推动大数据文化理论研究和全面实践的重要推手。学术界推动大数据文化演进是一个百花齐放、百家争鸣、不断推陈出新的过程,在知识创新和知识引领社会进步的时代,大数据理论研究成果水平直接影响到大数据应用的广度和深度。我国各个领域和行业,如医学、金融、气象、商业等纷纷以大数据为研究视角,从学术角度探讨其开发模式和推进策略。
同时,在市场经济条件下,商业资本和商业利益成为引导投资、实现商业价值目标的决定性因素。大数据文化的涌现离不开商业资本的撬动和商业利益的追逐。商业创新型模式是大数据文化发展的基本依据和不竭动力。具体来说,商业创新型模式是指商业企业将大数据作为一种技术性变革引入到社会生产与服务过程中,通过分析和挖掘海量数据,为顾客和自身创造价值,进而推动全社会大数据文化的出现和发展。
最后,当前大数据文化在各方面均取得了重大成果,在日常生活的方方面面,公众均已体会到了大数据特有的文化元素和符号特征,大数据文化作为一种价值观念得到了社会公众的认同。同时,公众也具备了主动培育大数据文化的素养和能力。公众是大数据文化价值体现的直接受体,也是大数据文化最基本的构成力量,是衡量一个国家和地区大数据文化状态的基本指标。公众首先必须了解什么是大数据,大数据在政府部门、企业行业的应用情况,政府部门利用大数据技术所做的涉及公共利益的决策是否透明、公正;公众通过专门的大数据知识培训后,能够主动适应大数据技术带给工作、生活等方面的新变化;在大数据理念和技术应用的激励下,促进健康医疗大数据的繁荣。
(周毅 韦晓燕)

参考文献

1.迪莉娅.我国大数据产业发展研究[J].科技进步与对策,2014,31(04):56-60.
2.大数据概念与发展[J].中国科技术语,2017,19(04):43-50.
3.潘文.我国大数据发展现状与趋势[J].领导科学论坛,2017(04):28-44.
4.彭宇,庞景月,刘大同,等.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015,29(04):469-482.
5.敖勇平.健康医疗大数据的现状及应用场景探索[J].电脑知识与技术,2018,14(06):1-2.
6.金兴,王咏红.健康医疗大数据的应用与发展[J].中国卫生信息管理杂志,2016,13(02):187-190.
7.孟群,毕丹,张一鸣,等.健康医疗大数据的发展现状与应用模式研究[J].中国卫生信息管理杂志,2016,13(06):547-552.
8.林敏.健康医疗大数据的应用与发展[J].医疗装备,2017,30(01):198-199.
9.宋波,杨艳利,冯云霞.医疗大数据研究进展[J].转化医学杂志,2016,5(05):298-300.
10.史鸣奇.大数据在健康医疗领域的应用发展研究[J].科技视界,2017(07):11-12+22.
11.王家耀.培育数据文化发展时空大数据[N].中国测绘报,2017-10-17(003).
12.陈德权,林海波.大数据的文化解构与演进路径研究[J].电子政务,2016(12):64-70.
13.刘爽.大数据时代的文化强国建设[J].知识经济,2013(21):43.
14.王彩娜.大数据文化价值链亟待提升[N].中国经济报,2017-12-27(007).
15.宋时飞.业界共同开掘大数据文化价值[N].中国经济导报,2017-12-19(A02).