1.4 大数据的典型应用

大数据正在成为一座待挖掘的潜能无限的“金矿”,它既包含了互联网企业所无法获取的有关人的数据,例如用户上网行为、网上交易,也包含了物联网系统自动感知的有关物的数据,包括地理位置、设备运营状态、监控视频等信息。从大数据这个“金矿”中最大可能地发掘出其商业价值是大数据应用的终极目标。因此,大数据及其技术将越来越广泛地应用到社会的各行各业,并发挥重大作用。本节将简单介绍几种大数据的典型应用场景。

1.4.1 智慧医疗的应用

智慧医疗是医疗信息化的升级发展,通过与大数据、云计算技术的深度融合,以医疗云数据中心为载体,为各方提供医疗大数据服务,实现医生与病人、医疗与护理、大医院与社区医院、医疗与保险、医疗机构与卫生管理部门、医疗机构与药品管理之间的六个协同,逐步构建智慧化医疗服务体系。如图1-3所示。

图1-3 智慧化医疗服务体系

我国医疗大数据主要由医院临床数据、公共卫生数据和移动医疗健康数据三大部分组成,各数据端口均呈现出了多样化且快速增长的发展趋势。如图1-4和图1-5所示。

图1-4 医疗大数据来源多样化

图1-5 医疗大数据快速增长

根据2016年1月北京“中国信息化百人会”年会所发布的《智慧医疗与大数据2015年度报告》,近几年我国医院信息化发展迅猛,为智慧医疗发展奠定了坚实基础。

(1)个人医疗健康服务需求快速增长。我国卫生总费用和人均卫生费用迅速增长,卫生总费用从2004年的7590.29亿元,到2014年的35312.40亿元,10年内增长近4倍,但与发达国家相比仍较低。老龄化日趋严重和亚健康问题,健康医疗服务供不应求的矛盾加剧。截至2014年年底,中国60周岁以上人口达到2.12亿,占总人口的15.5%,亚健康人群占比已超过70%。

(2)企业对医疗大数据的应用需求强劲迸发。药企、险企、医疗硬件厂商、互联网平台等企业急需借助大数据应用降低成本并提升经营利润。

(3)医疗资源分布不均、过度医疗等问题,导致医患矛盾日益突出,医疗机构急需以医疗大数据重构医患关系,有效解决医患双方信息不对称及挂号、候诊、收费队伍长,看病时间短的“三长一短”问题。

为此,2014年、2015年医改政策频出,国务院医改办以及卫计委积极推进分级诊疗、远程诊疗、社会办医、医药电商的进程,目标是破除以药养医,解除看病难、看病贵的难题。

在智慧医疗中,我们所面对的数目及种类众多的病菌、病毒,以及肿瘤细胞,都处于不断进化的过程中。在发现和诊断疾病时,疾病的确诊和治疗方案的确定是最困难的。借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,据此建立针对疾病特点的大数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类大数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,快速制定出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法形成大规模应用。未来需要将这些数据统一收集,纳入统一的大数据平台。这样,各类企业以医院、医生、患者、医药、医险、医检等为入口,纷纷布局智慧医疗与大数据,促进医院信息化、可穿戴设备、在线医疗咨询服务、医药电商等行业的蓬勃发展,从而打造出完整的智慧医疗产业链条(见图1-6),最终将造福于社会每个人。

图1-6 智慧医疗产业链条

1.4.2 智慧农业的应用

大数据在农业中的应用主要是指依据未来商业需求的预测来进行农牧产品生产,降低菜贱伤农的概率。同时大数据的分析将会更加精确地预测未来的天气,帮助农牧民做好自然灾害的预防工作。大数据同时也会帮助农民依据消费者消费习惯来决定增加哪些品种农作物的种植,减少哪些品种农作物的生产,提高单位种植面积的产值,同时有助于快速销售农产品,完成资金回流。牧民可以通过大数据分析来安排放牧范围,有效利用牧场。渔民可以利用大数据安排休渔期、定位捕鱼范围等。

在2015年4月召开的“2015中国农业展望大会”期间,农业大数据也成为这届大会的六大热点问题之一。会议专家一致认为,由于涉农数据的大量涌现,我国急需开展以下技术研究。

(1)针对耕地、育种、播种、施肥、植保、收获、储运、畜牧业生产等多个环节,将数字、文字、音视频等不同格式、不同业务载体的海量数据整合成标准统一的多元数据的标准融合技术。

(2)完成海量数据的存储、索引、检索和组织管理,突破农业异质数据转换、集成与调度技术,实现海量数据快速查询和调用的数据组织管理技术。

(3)加强适农大数据分析挖掘技术。围绕病虫害综合防治、粮食产量预测等重点领域,开展并行高效农业数据挖掘算法,建立智能机理预测分析模型;围绕农产品品种、气象、环境、生产履历、产量、空间地理、遥感影像等数据资源建立农业协同推理和智能决策模型;围绕农产品市场信息开展多品种市场关联预测技术和农产品市场预警多维模拟技术研究。

由于我国农业信息化起步较晚,而且基础薄弱,与一些发达国家相比,我国“三农”领域的信息化水平还比较滞后,所以应该抓住大数据发展的机遇,在缩小城乡数字鸿沟、把大数据及其基础设施的建设作为新农村建设重要经济增长点的同时,着重加强以下工作。

(1)加强数据学科体系建设,丰富数据科学理论方法。国内外实践表明,农业信息学科的新概念、新理论、新方法的创新,是引领农业信息技术重大变革、促使农业生产发生巨大飞跃的重要引擎。数据密集型科学将加速信息技术与现代农业相关学科的融合发展。但数据要形成一门科学还需要更加注重大数据基础理论研究和科学方法创新,更加注重大数据学科体系建设。应在大数据生命周期、演化与传播规律,数据科学与农业相关学科之间的互动融合机制,以及大数据计算模型、作物模型与模拟、智能控制理论与技术、农业监测预警技术、大数据可视化呈现与精准化推送等方面加强研究,形成系统、全面、深入的理论支撑。

(2)要构建农业基准数据,夯实农业发展基础支撑。目前,我国尚存在农业基准数据资源薄弱、数据结构不合理、数据标准化水平差等问题。应结合农业部门现有的监测系统,建立现代农业自然资源、生产、市场、农业管理等基准数据,并对数据采集、传输、存储和汇交等制定标准和规范,为现代农业发展决策提供坚实的基础支撑。

(3)加强智能模型系统研发,推动农业智能转型。数据的处理和分析能力是大数据技术的核心。应针对农业领域数据因海量、分散、异构等现象而难以集成、不能挖掘其巨大潜在价值的现状,重点开展农业大数据智能学习与分析模型系统关键技术研究,利用人工智能、数据挖掘、机器学习、数学建模等技术,针对农业领域所要解决的实际问题,建立有效的数学模型对数据进行处理,并利用最终形成的模型对海量数据进行处理分析,辅助农业决策,实现决策的智能化、精确化和科学化。

(4)倡导数据开放,服务和引领农业发展。数据的应用是大数据的最终目的,数据的公开开放有助于我国农业的健康发展。为此,应加强数据立法,为农业信息公开提供法律保障;形成数据开发的体制和机制,保证在数据会商、开放标准、发布规范等方面的切实可行;以召开中国农业展望大会和发布中国农业展望报告为契机,形成具有中国特色的农产品监测预警和信息发布制度,最终为生产决策、市场监测、农业管理提供信息支撑,引领现代农业发展。

1.4.3 金融行业的应用

大数据在金融行业应用范围较广,主要分为以下5个方面。

● 精准营销。依据客户消费习惯、地理位置、消费时间进行推荐。

● 风险管控。依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈。

● 决策支持。利用决策树技术进行抵押贷款管理,利用数据分析报告实施产业信贷风险控制。

● 效率提升。利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度。

● 产品设计。利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品。

1.银行大数据应用

国内不少银行已经开始尝试通过大数据来驱动业务运营。例如,中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。总的来看,银行大数据应用可以分为以下四大方面。

(1)客户画像

客户画像主要分为个人画像和企业画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据,以及相关产业链上下游数据等。需要注意的是,由于银行拥有的客户信息并不全面,因此基于这些数据得出结论有时候可能是完全错误的。例如,如果一个信用卡用户月均刷卡15次,平均每次刷卡金额300元,平均每年打6次客服电话,从未有过投诉,按照传统的数据分析,该客户就是一位满意度较高、流失风险较低的客户。但是如果看到该客户的微信,真实情况可能是:由于工资卡和信用卡不在同一家银行,还款不方便,拨打客服电话经常没有接通,因此客户多次在微信上抱怨,实际上是一位流失风险较高的客户。可见,不能仅仅考虑银行自身业务所采集到的数据,更应考虑外部系统更多的数据,这些数据包括:社交媒体上的行为数据、在电商网站的交易数据、企业客户的产业链上下游数据以及其他有利于扩展银行对客户兴趣爱好的数据。

(2)精准营销

在客户画像的基础上,银行可以有效地开展精准营销。精准营销的形式有实时营销、交叉营销、个性化推荐和客户生命周期管理等。其中,实时营销就是根据客户的实时状态来进行营销,例如,在客户采用信用卡采购孕妇用品时,可以通过建模来推测怀孕的概率并推荐孕妇群体喜欢的业务。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。例如,招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。

(3)风险管控

风险管控手段包括中小企业贷款风险评估、欺诈交易识别与反洗钱分析等。

其中,通过中小企业贷款风险评估,银行可通过企业的生产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效地开展中小企业贷款。

所谓实时欺诈交易识别与反洗钱分析,就是银行利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生的操作诸如转账等,结合智能规则引擎(例如,从一个不经常出现的国家为一个特有用户转账,或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。例如,摩根大通银行利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。

(4)运营优化

运营优化包括市场和渠道分析优化、产品和服务优化、舆情分析等。其中,市场和渠道分析优化的重点是通过监控网络渠道推广的质量来优化渠道推广策略。产品和服务优化的重点是通过用户需求的智能化分析,实现产品创新和差异化的服务优化。舆情分析的重点是通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的负面信息,及时发现和处理问题。

2.保险行业大数据应用

保险行业过去一般是通过保险代理人(保险销售人员)开拓保险业务,代理人的素质及人际关系网往往是业务开拓的关键因素。随着互联网和智能手机的普及,网络营销、移动营销和个性化的电话销售的作用越来越明显。保险行业大数据应用可以细分为以下三个方面。

(1)客户细分和精细化营销

客户细分和精细化营销包括客户细分和差异化服务、潜在客户挖掘及流失用户预测、客户关联销售和客户精准营销。

营销保险业务需要首先了解客户的真实需求,而风险偏好是确定客户需求的关键。风险喜好者、风险中立者和风险厌恶者对于保险需求有不同的态度。一般来讲,风险厌恶者有更大的保险需求。在客户细分的时候,除了风险偏好数据外,要结合客户职业、爱好、习惯、家庭结构、消费方式偏好数据,利用机器学习算法来对客户进行分类,并针对分类后的客户提供不同的产品和服务策略。

保险公司可以利用关联规则找出最佳险种销售组合,利用时序规则找出顾客生命周期中购买保险的时间顺序,从而把握保户提高保额的时机,建立既有保户再销售清单与规则,从而促进保单的销售。此外,借助大数据,保险业可以直接锁定客户需求。

在网络营销领域,保险公司可以通过收集互联网用户的各类数据,如地域分布等属性数据,搜索关键词等即时数据,购物行为、浏览行为等行为数据,以及兴趣爱好、人脉关系等社交数据,在广告推送中实现地域定向、需求定向、偏好定向、关系定向等定向方式,实现精准营销。

(2)欺诈行为分析

基于企业内外部交易和历史数据,实时或准实时预测和分析欺诈等非法行为,包括医疗保险欺诈与滥用分析以及车险欺诈分析等。

其中,医疗保险欺诈与滥用通常可分为两种,一种是非法骗取保险金,即保险欺诈;另一种则是在保额限度内重复就医、虚报理赔金额等。保险公司能够利用过去数据,寻找影响保险欺诈最为显著的因素及这些因素的取值区间,建立预测模型,并通过自动化计分功能,快速将理赔案件依照滥用欺诈可能性进行分类处理。

同样,利用大数据实现车险欺诈分析,保险公司能够利用过去的欺诈事件建立预测模型,将理赔申请分级处理,从而在很大程度上解决车险欺诈问题,包括车险理赔申请欺诈侦测、业务员及修车厂勾结欺诈侦测等。

(3)精细化运营

精细化运营包括产品优化、保单个性化、运营分析、代理人甄选等。

3.证券行业大数据应用

目前国内外证券行业的大数据应用大致有以下三个方向。

(1)股价预测

2011年5月,英国对冲基金Derwent Capital Markets建立了规模为4000万美金的对冲基金,该基金是首家基于社交网络的对冲基金。该基金通过分析Twitter的数据内容来感知市场情绪,从而指导投资。利用Twitter的对冲基金Derwent Capital Markets在首月的交易中确实盈利了,其以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。

麻省理工学院的学者,根据情绪词将Twitter内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,或是“害怕”“担心”的负面情绪,其占Twitter内容总数的比例,都预示着道琼斯指数、标准普尔500指数、纳斯达克指数的下跌。

美国佩斯大学的一位博士则采用了另外一种思路,他追踪了星巴克、可口可乐和耐克3家公司在社交媒体上的受欢迎程度,同时比较它们的股价。他发现,Facebook上的粉丝数、Twitter上的听众数和Youtube上的观看人数都和股价密切相关。另外,品牌的受欢迎程度,还能预测股价在10天、30天之后的上涨情况。

但是,Twitter 情绪指标,仍然不可能预测出会冲击金融市场的突发事件。例如,在 2008 年10月13号,美国联邦储备委员会突然启动一项银行纾困计划,令道琼斯指数反弹,而3天前的Twitter相关情绪指数毫无征兆。而且,研究者自己也意识到,Twitter用户与股市投资者并不完全重合,这样的样本代表性有待商榷,但这仍无法阻止投资者对于新兴的社交网络倾注更多的热情。

(2)客户关系管理

客户关系管理包括客户细分、流失客户预测。通过分析客户的账户状态、账户价值、交易习惯、投资偏好以及投资收益,来进行客户聚类和细分,可以发现客户交易模式类型,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,从而更好地配置资源和政策,改进服务,抓住最有价值的客户。此外,可以根据客户历史交易行为和流失情况来建模,从而预测客户流失的概率。

(3)投资景气指数

2014年9月12日,南方新浪大数据100指数发布。该指数将南方基金的专业股票研究优势与大数据结合,在南方基金量化投资研究平台的基础上,先从A股市场中遴选出100只股票组成样本股,再通过新浪财经大数据定性和定量分析,找出股票热度预期、成长预期、估值提升预期与股价表现的同步关系,选出具有超额收益预期的股票,建构、编制并发布策略指数。为了突破传统的基于财务数据、价值成长因子、指数指标因子的多因子模型研究框架,该指数根据新浪财经频道下股票页面点击量、关注度等方面刻画投资者情绪,衡量投资者对单个股票的评价,综合评价并精选出具有超额收益预期的股票,组成指数的100只样本股。该指数将新闻事件、公司事件对股价的影响也纳入研究范围,成功地找到了一种有效连接用户情绪和股价表现的关系,从而弥补了新闻事件所带来的互动信息数据研究的空白。同时,为了及时反映股市热点变化,大数据100指数样本股实施月度定期调整。

1.4.4 零售行业的应用

零售行业的大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本;另一个层面是依据客户购买的产品,为客户提供可能购买的其他产品,扩大销售额,也属于精准营销范畴。另外,零售行业可以通过大数据掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理。零售行业的数据对于产品生产厂家是非常宝贵的,零售商的数据信息将会有助于资源的有效利用,降低产能过剩。厂商依据零售商的信息按实际需求进行生产,可以减少不必要的生产浪费。

1.4.5 电子商务行业的应用

电子商务是最早利用大数据进行精准营销的行业。除了精准营销,电子商务可以依据客户消费习惯来提前为客户备货,并利用便利店作为货物中转点,在客户下单15分钟内将货物送上门,提高客户体验。马云的菜鸟网络宣称的24小时完成在中国境内的送货,以及刘强东宣传的未来京东将在15分钟完成送货上门,都是基于客户消费习惯的大数据分析和预测。

电子商务可以利用其交易数据和现金流数据,为其生态圈内的商户提供基于现金流的小额贷款,电子商务行业也可以将此数据提供给银行,同银行合作为中小企业提供信贷支持。由于电子商务的数据较为集中,数据量足够大,数据种类较多,因此未来电子商务数据应用将会有更多的想象空间,包括预测流行趋势、消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托大数据分析,电子商务的消费报告将有利于品牌公司产品设计,生产企业的库存管理和计划生产,物流企业的资源配置,生产资料提供方产能安排等,有利于精细化社会化大生产和精细化社会的出现。

1.4.6 电子政务的应用

通过大数据,政府可以实现精细化管理。政府过去一直都在利用数据来进行管理,但是由于过去没有高效的数据处理平台,造成了很多数据只是被收集,而没有体现其社会价值。由于缺少全局的数据和完善的数据,数据本身没有体现其应用的价值,所以在过去政府并不重视数据价值。依托于大数据和大数据技术,政府可以及时得到更加准确信息,利用这些信息,政府可以更加高效地管理国家这部机器,实现精细化资源配置和宏观调控。

1.交通管理

交通的大数据应用主要体现在两个方面:一方面,可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划;另一方面,可以利用大数据来实现即时信号灯调度,提高已有线路运行能力。科学地安排信号灯是一个复杂的系统工程,必须利用大数据计算平台才能计算出一个较为合理的方案。科学的信号灯安排将会提高30%左右已有道路的通行能力。在美国,政府依据某一路段的交通事故信息来增设信号灯,降低了50%以上的交通事故率。机场的航班起降依靠大数据将会提高航班管理的效率,航空公司利用大数据可以提高上座率,降低运行成本。铁路利用大数据可以有效安排客运和货运列车,提高效率,降低成本。

2.天气预报

借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性也会大大提升。同时对于重大自然灾害,例如龙卷风,通过大数据计算平台,人们能够更加精确地了解其运动轨迹和危害的等级,这有利于帮助人们提高应对自然灾害的能力。天气预报的准确度的提升和预测周期的延长将会有利于农业生产的安排。

3.医药卫生管理

食品安全问题一直是国家的重点关注问题,它关系着人们的身体健康和国家安全。最近几年外国旅游者减少了到中国旅游,进口食品大幅度增加,食品安全问题是其中的一个重要原因。在数据驱动下,采集人们在互联网上提供的举报信息,国家可以掌握部分乡村和城市的死角信息,挖出不法加工点,提高执法透明度,降低执法成本。国家可以参考医院提供的就诊信息,分析出涉及食品安全的信息,及时进行监督检查,第一时间进行处理,降低已有不安全食品的危害;可以参考个体在互联网的搜索信息,掌握流行疾病在某些区域和季节的爆发趋势,及时进行干预,降低其流行危害。此外,政府可以提供不安全食品厂商信息和不安全食品信息,帮助人们提高食品安全意识。

4.宏观调控和财政支出

政府利用大数据技术可以了解各地区的经济发展情况、各产业发展情况、消费支出和产品销售情况,依据数据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。大数据还可以帮助政府进行自然资源的监控与管理,包括国土资源、水资源、矿产资源、能源等。大数据通过各种传感器来提高其管理的精准度。同时大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。大数据及大数据技术带给政府的不仅仅是效率提升、科学决策、精细管理,更重要的是数据治国、科学管理的意识改变,未来大数据将会从各个方面来帮助政府实施高效和精细化管理。政府运作效率的提升、决策的科学客观、财政支出的合理透明,都将大大提升国家整体实力,成为国家竞争优势。大数据带给国家和社会的益处将会具有极大的想象空间。

5.社会群体自助及犯罪管理

国家正在将大数据技术用于舆情监控,其收集到的数据除了了解民众诉求、降低群体事件之外,还可以用于犯罪管理。大量的社会行为正逐步走向互联网,人们更愿意借助于互联网平台来表述自己的想法和宣泄情绪。社交媒体和朋友圈正成为追踪人们社会行为的平台,正能量的东西有,负能量的东西也不少。一些好心人通过微博来帮助别人寻找走失的亲人或提供可能被拐卖人口的信息,这些都是社会群体互助的例子。国家可以利用社交媒体分享的图片和交流信息,来收集个体情绪信息,预防个体犯罪行为和反社会行为。最近,警方就曾通过微博信息抓获了聚众吸毒的人,处罚了虐待小孩的家长。