第1章 大数据的基础

1.1 大数据的定义与特征

近年来,由于社会信息化和网络化的发展,大数据引起了人们的极大关注。“大数据”一词越来越多地被人们提及,并且深入到日常生活的诸多领域,在许多行业发挥着重要作用。大数据的发展异常迅猛,但关于大数据是什么,目前仍存在多种不同的理解和定义。

1.1.1 定义

维基百科的定义:大数据(Bigdata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

互联网数据中心(IDC,Internet Data Center)的定义:满足4V[种类(Variety),流量(Velocity),容量(Volume),价值(Value)],即种类多、流量大、容量大、价值高的数据称为大数据。

麦肯锡的定义:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。

甲骨文(Oracle)的定义:大数据通常是指以下类型的数据。

① 传统企业数据:包括客户关系管理(CRM,Client Realationship Management)系统中的客户信息、事务性企业资源计划(ERP,Enterprise Resource Planning)数据、网店交易、总账数据。

② 机器生成的数据或传感器数据:包括呼叫详情记录(CDR,Calling Detail Records)、Web日志、智能仪表、制造传感器、设备日志(常称为数字信息)、交易系统数据。

③ 社交数据:包括客户反馈、推特(Twitter)等微博网站,脸书(Facebook)等社交媒体平台。

顾能公司(Gartner)的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据是一个宽泛的概念,上面几个定义无一例外地突出了一个“大”字。因为大数据不仅用来描述大量的数据,还应涵盖处理数据的速度和能力。前面几个定义都是从大数据本身出发,而人们更关心的是大数据能帮助大家干什么。大数据发展的最终目标是人们从各种类型的海量数据中快速获得高价值的信息,没有价值或者没有发现其价值的大数据从某种意义上来讲是一种资源浪费。

1.1.2 特征

当前,较为统一的认识是来自互联网数据中心(IDC)的对大数据的定义,包含四个基本特征:规模性(Volume),多样性(Variety),高速性(Velocity),价值性(Value),即所谓的4V特性。

一是数据规模大,据TechWeb报道:一天之中,互联网产生的全部内容可以刻满1.68亿张碟;发出的邮件有2940亿封之多,相当于美国两年的纸质信件数量;发出的社区帖子达200万个,相当于《时代》杂志770年的文字量;1.72亿人登录Facebook,耗费的时间总计47亿分钟,上传2.5亿张图片,如果都打印出来相当于80座埃菲尔铁塔的高度。截止到2012年,全球数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。据统计,2013年,仅中国产生的数据总量已经超过了0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球数据总量。而这还只是序曲,更大的浪潮在后头。IDC预测,未来几年,全球数据量每隔两年翻一番,2020年将达到35ZB。

二是数据种类多,数据的多样性体现在三个方面。首先,数据来源多,分为社交网络、搜索引擎、传感器数据、通话记录、位置信息等;其次,数据类型多,分为文本、音频、视频、光谱、图片等;再次,数据格式多,分为结构化数据和非结构化数据,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,这些多样性的数据对数据的处理能力提出了更高的要求。如何像处理结构化数据那样,方便、快捷地处理非结构化数据,是信息产业一直以来努力的方向之一。

三是高速性,一方面指数据不断更新,增长的速度快;另一方面要求数据访问、处理、交付等速度快。每一天的每一分钟里,从网络购物、打电话、上网冲浪到访问社交网站都会产生大量的新数据。一幅名为“数据永不眠”的图片让读者了解到数据的增长速度到底有多快。一分钟内,谷歌(Google)收到超过4百万次搜索请求;E-mail用户发送超过2亿封电子邮件;腾讯微信用户发送超过1000万条信息;Facebook用户分享超过2百万条内容;Apple用户下载应用超过4万次;Instagram用户发送新图超过20万张;Amazon购物网站完成超过8万美元的网络销售额。随着数据呈爆炸的形式增长,新数据的不断涌现,人们对于数据处理的速度提出了更高的要求。数据处理的时效性高,才能使得大量的数据得到有效的利用。如果数据并未得到有效的处理,就没有了其存在的价值。此外,随着移动网络的发展,人们对数据的实时应用需求更加普遍,对数据的响应时间也更加敏感,大多希望能在第一时间抓住重要事件发生的信息,比如通过手持终端设备关注天气、交通、物流等信息。心理学实验证实,从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟内形成结果,否则处理结果就是过时和无效的,这就是人们所说的“1秒定律”。这一特征也是大数据与传统数据挖掘技术有着本质不同的关键分界点。

四是价值密度低,通常,大量的非传统数据中往往隐藏着有用的信息,难点在于确定哪些数据有用,然后转换和提取这些数据进行分析,获取有价值的信息,但是发挥价值的仅是其中非常小的部分。这就好比淘金一样,在一大堆沙子中人们也许只能得到那么一点点金,而就是这一点点金才具有价值。以当前广泛应用的监控视频为例,银行、地铁等一些敏感的地点,摄像头都是24小时运转,在不间断的监控过程中,会产生大量的视频数据,一般情况下,这些视频数据可能是无用的,并不会引人注目,但对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅只有一两秒,却给公安人员带来非常大的价值。因为无法在事前知道哪一秒会有用,只好把所有的视频数据都保存下来,甚至保存了一年的数据,只有那一秒对破案有用。但是在研究人类行为的社会学家眼中,这些视频数据可能就是难得的第一手资料,也许可以借此窥探人类的某些行为模式。所以大数据的价值密度低是指相对于特定的应用,信息有效与否是相对的,数据的价值也是相对的,对于某些应用是无效的信息而对于另外一些应用却有可能至关重要。如果转变思维方法,将这些数据重新组合和处理,其潜在的价值之大难以估量。据资料报道,2012年,运用大数据的世界贸易额已达60亿美元。2016年,这个数字预计将达200亿美元。

大数据的4V特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性,以及对数据进行专业化处理并最终获得有价值信息的能力。

1.2 大数据的来源

根据美国互联网数据中心报告得出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、振动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

根据数据来源的不同,可将大数据大致分为如下几种类型。

① 来源于使用者。人们在互联网活动以及使用移动互联网过程中会产生各种类型的数据,包括文字、图片、视频等。这些数据是大量的、鲜活的,代表了一个个具体网民的想法,反映了他们想做的、想了解的事。这些数据价值密度低,但却体现出人们生活的真实需求。

② 来源于计算机。各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计日志等自动生成的信息。这些数据通常来自企业内部,大多属于结构化数据。

③ 来源于数字设备。各类数字设备所采集的数据,如天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据、摄像头不断产生的数字信号、移动设备的呼叫详细记录等。

由于来源不同,类型不同的数据透视的是同一个事物的不同方面,以消费客户为例,消费记录信息能透视客户的消费能力、消费频率、消费兴趣点等;渠道信息能透视客户的渠道偏好,消费支付信息能透视客户的支付渠道情况;还有很多,如客户会否在社交网站上分享消费情况,消费前后有否在搜索引擎上搜索过相关的关键词等,这些信息(数据)从不同的方面表达了客户消费过程的方方面面。因此,一般来说,用以分析的数据来源越广泛越全面,其分析的结果就越立体,越接近于真实。因此,大数据分析意味着人们能够从不同来源的数据中获取新的洞察力,并将其与企业业务体系的各个细节相融合,以助力企业在创新或者市场拓展上有所突破。针对“数据量”这个话题,亚马逊CTO Vogels曾经说过,“在运用大数据时,你会发现数据越大,结果越好。企业时常会决策错误,有的影响很小,而有的则是致命的,主要是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”可以预料,在不远的未来,企业如何通过抓住用户获取源源不断的数据资产将会是一个新的重点。在这个层面上,Facebook、Twitter、Google、Amazon、百度、阿里巴巴、腾讯、电信运营商等领先企业具有无可比拟的优势。

1.3 大数据的现状与发展

当前,许多国家的政府、国际组织和企业等都意识到了大数据的重要作用,纷纷布局大数据市场,实施大数据战略,将开发利用大数据作为夺取新一轮竞争制高点的重要举措。

1.3.1 国外产业现状

2011年,美国白宫科技政策办公室(OSTP)发布了《大数据研究和发展倡议》,提出联邦政府希望与行业、科研院校和非营利机构一起,组织大数据高级监督小组协调和拓展政府在这一重要领域的发展,共同迎接大数据所创造的机遇和挑战。2012年3月29日,奥巴马政府宣布投资2亿美元启动《大数据研究和发展计划》,希望增强收集海量数据、分析萃取信息的能力。以美国白宫科技政策办公室(OSTP)为首,国土安全部(DHS)、美国国家科学基金会(NSF)、国防部(DOD)、美国国家安全局(NSA)、能源部(DOE)等与民间企业或大学开展多项与大数据相关的各种研究开发。奥巴马指出,通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,改变教学研究,加强国家安全。据悉,美国国防部已经在积极部署大数据行动,利用海量数据挖掘高价值情报,提高快速响应能力,实现决策自动化。2012年5月美国数字政府战略发布,更是提出要通过协同化的方式,让所有部门共同提高海量数据收集、储存、管理、分析和共享的核心技术能力,并形成合力;扩大大数据技术开发和应用所需人才的供给。以信息和客户为中心,改变联邦政府工作方式,为美国民众提供更优公共服务。

英国商业、创新和技能部在2013年初宣布,将注资6亿英镑发展8类高新技术,其中对大数据的投资即达1.89亿英镑。负责科技事务的国务大臣戴维•威利茨说,政府将在计算基础设施方面投入巨资,加强数据采集和分析,这也将吸引企业在这一领域的投资,从而在数据革命中占得先机。英国在大数据方面的战略举措有在本届议会期满前,开放有关交通运输、天气和健康方面的核心公共数据库,并在五年内投资1000万英镑建立世界上首个“开放数据研究所”;政府将与出版行业共同实现对通过公共资助产生科研成果的免费访问,英国皇家学会也在考虑如何改进科研数据在研究团体及其他用户间的共享和发布;英国研究理事会将投资200万英镑建立一个公众可通过网络检索的“科研门户”网站。通过大数据技术使用,优化政府部门的日常运行和刺激公共机构的生产力,可以为英国政府节省130亿至220亿英镑开支;减少福利系统中的诈骗行为和错误数量将为英国政府节省10亿至30亿英镑开支;有效地追收逃税漏税将为英国政府多创造20亿至80亿英镑的收入。

2014年上半年,也频频传出包括谷歌、苹果等公司收购大数据技术公司的消息。而随着市场需求的不断增加,大数据的产业链正在不断完善,无论在产业链的上游、中游还是下游都涌现出一批能够掌握相关标准、技术并推出商用级产品的公司。据全球云计算提供商Rackspace预言,提供明确的商业价值和商业回报的大数据应用生态系统即将出现。

1.3.2 国内产业现状

2014年7月,国内的三大互联网公司BAT(百度、阿里巴巴、腾讯)先后宣布在大数据领域的“新动作”,百度与北京市政府联手,推出基于大数据监测的健康管理产品“健康云”,解决百姓看病难问题,三年内将覆盖1000万北京市民;阿里巴巴将其电商平台上数万家企业的交易数据开放给包括中国银行、招商银行、中国建设银行等在内的7家银行,联手为中小企业提供基于网商信用的无抵押贷款;腾讯牵手国内外知名高校,成立腾讯互联网与社会研究院,发起大数据社会化研究,并培养相关人才。

根据公开的信息,作为全球很大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。

腾讯是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一,拥有超过7.52亿QQ即时通讯活跃账户、1亿微信用户、4.25亿微博用户和超过1亿的视频用户。在积累了个人用户多方面的海量数据后,2012年腾讯提出了“大数据营销”的概念。腾讯网总编辑表示将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个人的智慧门户。腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、关系、用户产生的内容(UGC)等数据,通过合理的方法找到对企业有帮助的数据,并且将营销预算合理的分配在为数众多的数据来源平台上,从而提高营销效率。2011年4月腾讯追加在天津的数据中心建设投资,欲建立亚洲最大的数据储备处理中心。

相比中国用户最多的两家互联网企业,淘宝在大数据方面的举措丝毫不逊色,因为几乎所有淘宝业务都依赖淘宝数据库。每天大约有6000万用户登录淘宝网,约20亿页面浏览量(PV)。淘宝所使用的OceanBase分布式数据库,在基准数据和增量数据基础上,实现不同部门对数千亿条记录、数百TB数据上的跨行跨表事务共同完成,并支持每天4000万~5000万的更新操作。早在2009年淘宝便自建大型数据库,并通过对全国淘宝购买数据的挖掘,发布了2011年淘宝中国地图,对其掌握的大量用户交易数据进行了形象的展示。在利用大数据提高用户购物体验的前提下,淘宝根据长尾原理充分利用大数据挖掘技术,建设开放平台,提供各种增值服务。

1.3.3 发展趋势

虽然大数据仍在起步阶段,存在诸多挑战,但未来的发展依然非常乐观。大数据的发展呈现几大趋势。

趋势一,数据资源化。何谓资源化,是指大数据成为企业和社会关注的重要战略资源,数据成为新的战略制高点,是大家抢夺的新焦点。《华尔街日报》在一份题为《大数据,大影响》的报告中宣称,数据已经成为一种新的资产类别,就像货币或黄金一样。Google、Facebook、亚马逊、腾讯、百度和阿里巴巴等企业正在运用大数据力量获得商业上更大的成功,并且金融和电信企业也在运用大数据来提升自己的竞争力。此外,在市场影响方面,大数据也将扮演重要角色,影响着广告、产品推销和消费者行为,大数据将不断成为机构和企业的资产,成为提升机构和企业竞争力的有力武器。

趋势二,与云计算的深度结合。大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,因此,从2013年开始,大数据技术与云计算技术进入更完美的结合期。总体而言,云计算、物联网、移动互联网等新兴计算形态,既是产生大数据的地方,也是需要大数据分析的领域。

趋势三,大数据安全和隐私。随着数据的价值越来越重要,大数据的安全稳定也将会逐渐被重视。网络和数字化生活也使犯罪分子更容易获取关于他人的信息,也有更多的骗术和犯罪手段出现,所以在大数据时代,无论对于数据本身的保护,还是对于由数据而演变的一些信息的安全,对大数据分析有较高要求的企业将至关重要。大数据安全是跟大数据业务相对应的,与传统安全相比,大数据安全的最大区别是安全厂商在思考安全问题的时候首先要进行业务分析,找出关于大数据业务的威胁,提出有针对性的解决方案。比如,对于数据存储这个事例,目前很多企业采用开源软件如Hadoop技术来解决大数据问题,由于其开源性,其安全问题也是突出的。市场需要更多专业的安全厂商,针对不同的大数据安全问题来提供专业的服务。

趋势四,数据科学和数据联盟的成立。未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,大数据越关联越有价值,越开放越有价值。数据将会呈现一种共享的趋势,不同领域的数据联盟将出现,并且成为未来产业的核心一环。

另外,大数据作为一种重要的战略资源,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。大数据对于推动信息产业创新、大数据存储管理挑战、改变经济社会管理面貌等方面也具有重要意义。

现在,通过数据的价值,用户希望掌握真正的便捷信息,从而让生活更便利。对于企业来说,如何从海量数据中挖掘出可以有效利用的部分,并且用于品牌营销,才是企业制胜的法宝。

1.4 大数据的主要应用

大数据的关注重点不是如何定义,而是如何使用。随着互联网的不断延伸和普及,越来越多的人开始认识到大数据的作用和价值,大数据悄然地改变着人们的生活,同时对经济、社会、文化、政治等各方面产生深刻影响。

1.4.1 医疗行业

随着医院的信息系统逐步完善,积累了大量的临床信息,大数据时代的到来,给医疗行业带来了新的机遇。医疗行业早就遇到了海量数据和非结构化数据的挑战,近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。全球知名咨询公司麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。医疗服务业几大领域的应用方向包括临床辅助决策、医疗质量监管、疾病预测模型、临床试验分析、个性化治疗,在这些背景下,大数据的分析和应用都将发挥巨大的作用,从而提高医疗效率和医疗效果。

(1)临床辅助决策

从长远来看,不论是过度治疗还是治疗不足都将给病人身体带来负面影响,并产生更高的医疗费用。研究表明,对同一病人来说,不同的医疗服务机构,会有不同的医疗护理方法和效果,成本也有很大差异。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集,可以帮助医生确定临床上最有效和最具有成本效益的治疗方法,医疗护理系统也将有可能减少过度治疗,以及治疗不足。在一个大型医疗机构内部,通过对患者症状及主诉的描述,系统可以给出几套可能的诊断及治疗方案,并通过对各种治疗方案的提取及比对,可以给临床医生提供最佳的诊疗路径,对减少住院天数、降低诊疗费用提供最贴近实际的帮助。另一方面,对护理细节的提醒也帮助护理工作者降低了工作过程中的疏漏,提高了医疗安全。

(2)医疗质量监管

通过对医院内部数据的分析,可以充分地发挥医院自我评价的作用,促进医院内部“医疗质量和医疗安全”的持续改进。该方法改变了原有的现场评审方式,摆脱了以往制度文件的检查方法,运用PDCA[Plan(计划)、Do(执行)、Check(检查)和Action(行动)]原理和方法,追踪个案病例,研究一个病人的服务全过程,将所涉及的各专业和科室贯穿在一起进行整体评价,通过对医院运营和临床诊疗数据的实时抽取、自动转换、集中存储、统一展示,实现对临床业务的规划、协调和控制,实时监测和管理医疗机构的日常运营,为领导决策提供及时、真实、可信的数据,保证医疗质量和医疗安全。

(3)疾病预测模型

大量的数据可以分析出疾病、症状及实验室数据的相关性,从而帮助临床科研人员建立针对某一些典型疾病的预测模型,该模型具有动态自我学习的特点,会随着数据的更新而不断调整。当前常用的疾病预测模型有回归模型、时间序列模型、灰色理论模型、马尔科夫(Markov)模型、神经网络模型和组合预测模型等,但是建立在大数据基础上的疾病预测模型能够客观地提取数据中的信息,不会受到偏见和成见的影响,从而帮助患者在更早的时期采取有效的治疗方案。

(4)临床实验分析

分析临床试验数据和病人记录可以确定药品更多的适应症、发现副作用,在对临床试验数据和病人记录进行分析后,可以对药物进行重新定位,或者实行针对其他适应症的营销,实时或者近乎实时地收集不良反应报告可以促进药物警戒(药物警戒是上市药品的安全保障体系)的发展。在某些情况下,医学临床实验暗示出了一些问题,但没有足够的统计数据去证明,现在基于临床试验大数据分析就可以给出充足的证据。

1.4.2 电子商务

随着信息产业的发展,大数据已经开始慢慢渗透入人们的生活,近年来电子商务在我国发展异常迅速,推动着我国互联网经济的繁荣昌盛,下面用实例来展现大数据对当今电子商务的影响。

① 美国医药网站WebMD根据怀孕的女性用户填写的受孕信息定期给用户邮寄电子邮件营销(EDM),提醒“准妈妈”在该时间点的注意事项,需要摄入的营养,产前的生理变化和要做好的思想准备,产后的恢复,宝宝的育养和健康等。

② 1号店便利用对大数据的分析给顾客发送个性化EDM,若顾客曾经在1号店网站上查看过一个商品而没有购买,则有几种可能:a.缺货;b.价格不合适;c.不是想要的品牌或不是想要的商品;d.只是看看。若在顾客查看时该商品缺货则到货时立即通知顾客;若当时有货而顾客没有买就很有可能是因为价格引起的,则在该商品降价促销时通知顾客;同时,在引入和该商品相类似或相关联的商品时温馨告知顾客。另外,通过挖掘顾客的周期性购买习惯,在临近顾客的购买周期时适时的提醒顾客。

③ 淘宝网在2012年推出了淘宝时光机,该应用通过分析顾客自注册为用户以来的行为,用幽默生动的语言告知顾客淘宝的成长,和该用户相类似喜好的其他用户的统计行为,对该顾客经过分析后对其喜好的了解和对其行为的预测等等,用生动的文稿和个性化的数据拉近了和顾客的距离。

④ Google的Adsense对顾客的搜索过程和其对各网站的关注度进行数据挖掘,并在其联盟内的网站追踪顾客的去向,在联盟网站上推出和顾客潜在兴趣相匹配的广告,精准化营销,提高转化率。

⑤ Amazon近几年推出了前沿部署履行中心(FDFC,Forward Deployed Fulfillment Center)的概念,以加快对顾客配送的速度。Amazon的订单履行中心分两个层级,履行中心(FC)和前沿部署履行中心(FDFC)。其中FC品种更齐全,而FDFC在物理位置上更靠近目标市场,但品种重点针对目标市场的热销商品,顾客的大部分需求可以通过FDFC来满足,不能满足的长尾商品则由FC来满足,这样顾客急需的商品多数可以通过FDFC以更快捷和低成本的物流来完成。由于热销商品是随着时间和季节而改变的,故将什么商品储存在FDFC的决策是动态调整的,而此决策的依据就是对顾客需求的分析和预测。

1.4.3 电信行业

随着移动互联网的飞速发展,电信行业出现了新的业务形态和数据类型,各种社交网站的快速崛起所带来的非结构化数据加快了电信行业数据量的增长速度。海量的非结构化数据带来的不仅仅是存储、传输的问题,分析这些海量的非结构化数据以便更好地服务客户、提高业务效率已经成为全球运营商当前最紧迫的问题。

中国联通的用户上网记录数据量巨大,传统的IOE架构已经无力应对这些海量数据,所以联通采用x86平台+Hadoop来实现对大数据的存储和分析,基于Hadoop构建了结构化的访问数据库。在结构化的访问数据库之上提供了数据挖掘工具,另外也提供了一些分布式同步、远程调用和序列化工具。总体架构采用Apache Hadoop软件的英特尔分发版,采用数据仓库技术,针对海量数据进行高性能查询和分析工作。到2012年6月联通已经部署完成了北京、黑龙江、浙江、重庆四个省份,这四个省份的所有联通用户上网记录都可以快速查询,提高了使用效率,海量的上网记录数据并没有给整个存储系统带来性能方面的压力。

1.4.4 金融行业

党的“十八大”提出将金融改革列为未来十年发展的重中之重,金融企业将依靠构建智慧型的数据分析体系(MIS)充分挖掘规律,以支持业务创新与服务创新。大数据在加强风险管控、精细化管理、业务创新等业务转型中将起到重要作用,目前大数据应用已经在金融业逐步推开,并取得了良好的效果,形成了一些较为典型的业务类型,如高频金融交易、小额信贷、精准营销等。

高频金融交易的主要特点是实时性要求高和数据规模大。目前沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据,随着时间的积累数据规模非常可观。与一般日志数据不同的是这些数据在金融工程领域有较高的分析价值,金融投资研究机构需要对历史和实时数据进行挖掘创新,以创造和改进数量化交易模型,并将之应用在基于计算机模型的实时证券交易过程中。

阿里巴巴和建行在2007年推出一个针对小企业的贷款计划—e贷通,阿里巴巴拥有大量用户信息,并汇集了他们详细的信用记录,利用淘宝等交易平台掌握企业交易数据,通过大数据技术自动分析判定是否给予企业贷款;而建行坐拥巨额资金,希望贷款给并无信用历史的小企业。2011年,双方合作到期后,没有续约,而选择了各自发展。到2012年年底,阿里巴巴累计服务小微企业已经超过20万家,放贷300多亿元,坏账率仅为0.3%左右,远远低于商业银行的0.97%的坏账率。而建行表示,在其电子商务网站推出后的6个月里,注册店铺已达到1万个,交易额达35亿元人民币,目前中国工商银行、中国银行和民生银行都在考虑开设类似网站。

在精准营销方面,各大金融机构也纷纷开始行动。招行通过数据分析识别出招行信用卡价值客户经常出现在星巴克、DQ、麦当劳等场所后,通过“多倍积分累计”、“积分店面兑换”等活动吸引优质客户;通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个百分点和7个百分点;通过对客户交易记录进行分析,有效识别出潜在的小微企业客户,并利用远程银行和云转介平台实施交叉销售,取得了良好成效。

1.5 大数据的相关标准组织

大数据标准化工作是支撑大数据产业发展和应用的重要基础。目前,大数据技术的相关标准的研制还在起步阶段,国际上有4大标准化组织针对大数据进行专门研究,我国也在持续开展数据标准化工作。

1.5.1 ISO/IEC JTC1 SC32

数据管理与交换分技术委员会(ISO/IEC JTC1 SC32)是最早开展大数据研究的,也是与大数据关系最为密切的国际标准化组织。SC32下设4个工作组,分别负责电子业务(WG1)、元数据(WG2)、数据库语言(WG3)和SQL多媒体和应用(WG4)。目前还建立了下一代分析与大数据研究组(SG Next Generation Analyticsand BigData)、云计算元数据研究组(SG Metadata for Cloud Computing)、基于事实基础的建模元模型研究组(SG Meta model for Fact Based Modelling)等专项研究组。

2012年,SC32针对大数据、社交网络、云计算等新兴领域,开展了相关标准的研究工作。后来,他们发现这些研究领域已经超过了SC32的范围,于是2012年的柏林全会上SC32决定成立下一代分析和大数据研究组。

2013年在韩国庆州召开的ISO/IEC JTC1 SC32全体会议及工作组会议上,SC32该研究组完成正式的研究报告提交至JTC1审议。该报告给出了大数据现有的标准基础,并对大数据标准化研究工作的方向做出了说明。

2014年6月北京全会上,SC32启动了4项为大数据提供标准化支持的新工作项目,包括SQL对多维数组的支持、SQL对JSON的支持、数据集注册元模型和数据源注册元模型。在此期间,还举办了大数据标准化国际开放论坛,为国内外大数据领域的专家学者和产业管理部门人员、IT界的骨干企业提供了一个开放交流的平台,同时展示大数据相关研究成果。这是首次在中国举办的关于大数据标准化领域的国际交流盛会,促进了我国在大数据产业技术领域和标准化研究工作的发展与创新。

1.5.2 ISO/IEC JTC1 SG2

ISO/IEC JTC1 SG2 是ISO/IEC JTC1于2013年11月全会上新成立负责大数据国际标准化的研究组,工作重点包括调研国际标准化组织(ISO)、国际电工委员会(IEC)、第1联合技术委员会(ISO/IEC JTC1)等在大数据领域的关键技术、参考模型以及用例等基础标准;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序;向2014年ISO/IEC JTC1全会提交大数据建议的技术报告和其他研究成果。大数据研究组的成立,标志着JTC1统筹开展大数据的标准化工作,有利于大数据国际、国内标准化工作的开展。

1.5.3 NIST

2013年,美国国家标准和技术研究院(NIST)建立了大数据公共工作组(NBD-PWG),工作范围是建立来自于政府、学术界、产业界的大数据公共环境,其重点研究对象包括大数据的术语和定义、用例和需求、安全和隐私、参考体系结构和技术路线图等,提出数据分析技术应满足的可移植性、可用性、互操作和扩展性需求,安全有效地支持大数据应用的技术设施,为大数据相关方选择最佳方案提供便利。

截止到2014年8月,NBD-PWG正在研制的《大数据定义》、《大数据术语》、《大数据需求》、《大数据安全和隐私需求》、《大数据参考体系结构》和《大数据技术路线图》等输出物,均已经形成了初步版本。

1.5.4 国内标准化工作进展

对于大数据标准化在中国的研究进展,中国电子技术标准化研究院发布的《大数据标准化白皮书》指出,全国信息技术标准化技术委员会(TC28)持续开展数据标准化工作,在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。

2012年,全国信息技术标准化委员会(以下简称全国信标委)成立了非结构化数据管理标准工作组,联合产、学、研、用等力量,着力于制定非结构化数据管理体系结构、数据挖掘、数据模型、信息集成、信息提取、查询语言、应用模式等相关国家标准和行业标准。目前在研的国家标准有《非结构化数据表示规范》、《非结构化数据访问接口规范》和《非结构化数据管理系统技术要求》等。

全国信标委云计算标准工作组目前正在研究大数据存储和分析应用方面,同时组织编制《云数据存储和管理》系列国家标准,为促进大数据存储和分析标准研究奠定基础。

2013年7月5日,全国信标委SOA分技术委员会全会上启动大数据预研项目。2013年7月22日开展大数据应用、技术、产业和标准化调研,将作为下一步大数据标准化研究的基础。