- 云存储安全:大数据分析与计算的基石
- 陈兰香
- 5642字
- 2021-03-31 14:09:32
1.2 云存储发展现状
云存储是一个以数据存储和管理为核心的云计算系统,云存储与云计算息息相关。
1.2.1 定义、服务模型与分类
2011年9月,美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)[4]对云计算的定义、特征、服务模式和类型作了详细说明。
云计算是一种商业计算模型,它可以实现随时随地及随需应变的可配置的IT资源(例如,计算、存储、网络、服务器、应用),资源能够快速供应并释放,使管理资源的工作量及与服务提供商的交互减小到最低限度。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。它是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。
有计算的地方便有存储,特别是在大数据时代,数据为王,通常需要将计算能力迁移到存储端,比如最近提出的Near-Data Processing(近数据端处理)、In-Data Processing(在数据端处理)、Processing-in-Memory(在内存中处理)及Processing-in-Storage(在存储中处理),存储与计算越来越不可分离。因为数据量太大,将数据迁移到计算端的时间可能比直接将存储数据的设备使用卡车运送到计算端还要慢。
云计算的服务模型可以分为3种,如图1-1所示。
图1-1 云计算的3种服务模型
• 软件即服务(Software as a Service,SaaS):是一种通过互联网提供软件的模式,用户无须购买软件,可直接使用构建在云端的软件来管理企业经营活动。在这一方面,比较典型的有Google Docs、Microsoft、Salesforce online CRM、Oracle CRM On Demand、Office Live Workspace等。
• 平台即服务(Platform as a Service,PaaS):用户使用云平台所支持的语言和工具,开发应用并部署在云平台上。用户不直接管理或控制包括网络、服务器、存储,甚至单个应用功能在内的底层云基础设施,但可以控制部署的应用程序,也有可能配置应用的托管环境。比如将软件开发平台作为一种服务,以SaaS的模式提交给用户。PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。在这一方面,比较典型的有Google App Engine、Microsoft Windows Azure、IBM IT Factory、Force.com等。
• 基础设施即服务(Infrastructure as a Service,IaaS):用户通过互联网可以获得完善的计算机基础设施服务。5G是高效、高速的移动互联的基础设施,随着未来5G技术的发展,对基础设施服务的需求会日益增长。比如提供处理器、存储、网络等(虚拟)硬件资源给用户,用户可任意安装软件和开发环境,包括安装操作系统和应用程序。用户不管理或控制底层的基础设施,但可以控制操作系统、存储、部署的应用,也有可能选择网络构件(例如,主机防火墙)。在这一方面,比较典型的有亚马逊EC2、S3和SQS、IBM Blue Cloud、Sun Grid、Nirvanix SDN、Cleversafe dsNet等。
这3种模型从应用到平台再到架构,越来越底层,开发者获得的可操作性和灵活性也越来越大。通常说的云存储一般可分类到IaaS,但对于云存储服务提供者,他们提供的PaaS和SaaS同样需要云存储技术来部署相应的平台。
按照部署方式,云计算可以分为私有云(Private Cloud)、社区云(Community Cloud)、公共云(Public Cloud)与混合云(Hybrid Cloud)4种模式。
私有云是指构建在一个组织内部且为该组织或者信任该组织的用户提供服务的云,可以由该机构或第三方管理;社区云是指一些有着共同利益(如任务、安全需求、策略、规约考虑等)并打算共享基础设施的组织共同创立的云,可以由该机构或第三方管理;公共云是指若干企业和用户共享使用的一种云环境,由销售云服务的组织机构管理;混合云由两个或两个以上的云(私有云、社区云或公共云)组成,它们各自独立,但通过标准化技术或专有技术绑定在一起,云之间实现了数据和应用程序的可移植性。
云计算与云存储密不可分,因此云计算的定义、服务模型和分类同样适用于云存储。下面将介绍为什么需要云存储。
1.2.2 为什么需要云存储
据国际数据公司(International Data Corporation,IDC)2013年的报告[5]显示,2012年全球数据已经达到2.8ZB(1ZB等于1万亿GB,2.8ZB也就相当于28亿个1TB的移动硬盘),而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有40ZB的数据量,如图1-2所示。
图1-2 IDC预测全球数据量增长趋势
而2013年中国的数据量占比为13%,数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。2013全球数据分布如图1-3所示。
全球IT市场咨询公司Springboard Research于2010年6月10日发布了《中国云存储服务报告》(China Cloud Storage Services Report)[6]。报告显示,未来5年中国云存储服务市场的年复合增长率将达到103%,平均每年市场价值翻一番。从图1-4中可以看出,中国云存储服务的市场价值将由2009年的605万美元快速增长至2014年的2.0854亿美元。
图1-3 2013全球数据分布
图1-4 2009—2014年中国云存储服务的市场价值
同时报告指出,尽管每月每GB的存储服务价格持续下降,但是云存储市场总容量的增长幅度更快,从而推动云存储市场整体规模在未来5年内的快速上涨。图1-5显示了2009—2014年中国云存储服务的存储容量需求,预计将从2009年的0.6PB上升到2014年的66.29PB,增长了110倍以上。
图1-5 2009—2014年中国云存储服务的存储容量需求
因为最新数据未公开,所以图示数据都是旧的数据,在本小节中只是以此说明数据量在呈指数级增长,中国在全球数据量的占比是比较高的,云存储市场潜力巨大。
根据IBM的调查统计报告[7],企业的IT费用呈逐年上升趋势,如图1-6所示。该调查报告将IT费用分解为3个方面:新购置服务器的费用、服务器管理和维护费用、能源以及制冷设备的费用。在这3个方面中,服务器管理和维护费用开销最大,而且上升速度最快。为了保证业务高峰时IT系统的稳定性,企业实际部署的服务器的峰值工作量比平均值要高2~10倍,因此数据中心服务器的利用率一般只有5%~20%。另外,在进行IT建设时,IT工作人员花费70%的时间和精力做基础架构、软件以及日常的维护工作,只有20%或者更少的时间花在真正与业务相关的系统建设上。
图1-6 企业每年的IT费用统计与预测
虽然购置服务器和能源及制冷设备的成本相当,但是企业的管理和人员成本太高,利用率又太低。
选择云存储服务,一方面能够为企业的数据中心节省成本,还能够实现资源的集中共享,把空闲时段的资源补充到企业更需要的应用上去,也免去了日常的管理与维护费用,与其适配的能源及制冷设备亦可免去。源自云存储服务的规模经济性,可以实现更低的硬件成本、更低廉的电力价格、更低的管理费用,加上更高的利用率,使云存储服务的经济性提高达30倍[8]。
图灵奖获得者(Jim Gray)在其获奖演说[9]中指出:由于互联网的发展,未来每18个月新产生的数据量将是有史以来数据量之和。这说明人们对存储容量的需求是惊人的,存储市场具有无限的潜力。云存储是信息存储的一种趋势,它可为用户带来如下好处。
(1)无须购置初始耗资较大的服务器,也免去了专业的服务器及数据管理人员,避免过大的初始投资,能源及制冷设备减少。
(2)实现任意地点、任意时间、任意数据访问。
(3)提供可用性、可维护性与扩展性保障。
(4)保障法规遵从的需求。
(5)实现数据长期保存。
云存储的主要特色是:容量规模大;使用多少,支付多少;上不封顶,下不设限。有了云存储,永远也不会出现存储空间不足的情况。对存储需求不可预测、需要廉价存储阵列或低成本长期存档的用户来说,按需购买存储容量的云存储与一次性购买整套存储系统相比显然会带来更多的方便和效益。另外,云存储在为用户节省初始投资的同时也节约了社会资源与能源。
1.2.3 现状与发展趋势
高德纳咨询公司(Gartner)是全球最权威的IT研究与顾问咨询公司之一,其研究范围覆盖全部IT产业,可从IT的研究、发展、评估、应用、市场等多个角度,为客户提供客观、公正的论证报告及市场调研报告,协助客户进行市场分析、技术选择、项目论证等。尤其是在投资风险和管理、营销策略、发展方向等重大问题上,利用其提供的重要咨询建议,决策者可以更科学合理地做出正确抉择。
技术成熟度曲线是Gartner为企业提供的一种用于评估新技术成熟度的经典工具,它将各种新科技的成熟演变速度及达到成熟所需的时间分成如下5个阶段。
(1)技术萌芽期(Innovation Trigger):当一项新技术诞生时,伴随着业界和媒体的关注,无论是大众还是业内人士对技术的期望值都越来越高。在这个阶段用户的需求和产品往往并不成熟,但会有大量的资金进入。
(2)期望膨胀期(Peak of Inflated Expectations):公众的期望值达到顶峰,有少量用户开始采用该项技术。
(3)泡沫破裂期(Trough of Disillusionment):过高的期望值和产品成熟度之间存在鸿沟,公众的期望值下降,出现负面评价,但成功并能存活的经营模式逐渐成长。
(4)稳步爬升期(Slope of Enlightenment):相关技术供应商不断完善自己的产品,加上用户需求的明确,产品在设计和应用场景上趋于成熟,最佳实践开始出现。
(5)生产高峰期(Plateau of Productivity):新技术产生的利益和潜力被市场所认可,开始出现产品间的价格竞争。
2017年7月,高德纳咨询公司(Gartner)发布了2017年度存储技术成熟度曲线[10],如图1-7所示。该技术成熟度曲线是根据存储相关的硬件和软件技术的商用影响、采用率和成熟度进行评估,以便帮助用户决策在哪些方面以及何时对这些存储技术进行投资。
该报告将存储市场细分为共享加速存储、管理SDS(Software-Defined Storage,软件定义存储)、云数据备份、移动设备数据备份工具、文件分析、开源存储、复制数据管理、SDS基础设施和集成系统。集成系统包括超融合、数据清理、集成备份设备、存储集群文件系统、跨平台结构化数据归档、信息分散算法、对象存储、固态DIMM(Dual In-line Memory Module,双线内存模块)、新兴数据存储保护方案、混合DIMM、企业终端备份、云存储网关、灾备即服务、公共云存储、虚拟机备份与恢复、针对消息数据的SaaS归档、在线数据压缩、存储多租户技术、企业信息归档、自动化存储分层、基于网络的复制设备、连续数据保护(Continuous Data Protection,CDP)、重复数据删除、外部存储虚拟化和固态阵列。对比2016年度的存储技术成熟度曲线,报告中没有增加任何新兴技术。
图1-7 2017年存储技术成熟度曲线
在2017年的技术成熟度曲线中,与存储安全相关的技术包括:云数据备份(技术萌芽期)、移动设备数据备份工具(技术萌芽期)、新兴数据存储保护方案(泡沫破裂期)、灾备即服务(泡沫破裂期)、虚拟机备份与恢复(稳步爬升期)、连续数据保护(稳步爬升期)。其中的公共云存储正处在稳步爬升期,说明大众对云存储的认知度越来越高,相关技术供应商不断完善自己的产品,加上用户需求的明确,产品在设计和应用领域上趋于成熟,最佳实践开始出现。
云计算自从2009年在Gartner公司的新兴技术成熟度曲线中达到峰值以来,已经历了8年时间,其发展开始趋于理性,度过了“期望膨胀期”,进入“泡沫破裂期”。业界已不再热衷于炒作云计算的概念,而是将实现云计算规模化应用作为努力的方向。在2017年存储技术成熟度曲线中,公共云存储已经进入“稳步爬升期”,表明技术已经落地,进入实质生产阶段。
2017年2月,全球各大IT企业发布财报显示,云计算的营业收入及份额在企业的总体比重中占据越来越重要的地位。其中,亚马逊的云业务实现营业收入174.6亿美元,排在首位;谷歌CEO在财报会上表示2017年全年云计算收入约40亿美元,云计算成为其继广告收入后的第二大增长动力之一;阿里云2017年累计营业收入则超过了百亿元人民币。据Gartner公司的调研,IaaS市场收入预计将从2018年的458亿美元增长到2020年的724亿美元。
无论从技术的发展现状,还是企业的实际营业收入,云计算与云存储的发展都已经步入了“稳步爬升期”,并且在朝着“生产高峰期”发展。从目前的IT行业发展现状来看,云存储的发展趋势必然是一路畅通,原因总结如下(非仅限于此)。
1. 大数据发展需要云计算与云存储
2017年11月11日,淘宝和天猫商场实现1682亿元的销售额(淘宝公布数据),11秒交易额突破1亿元,28秒交易额突破10亿元,3分01秒交易额突破百亿元,40分12秒破500亿元,9小时破1000亿……其背后功臣是阿里巴巴研发的阿里云计算及大数据处理平台。
大数据的规模效应给数据存储、数据管理以及数据分析带来极大的挑战,云计算与云存储作为大数据的支撑技术和基础平台,必然会得到IT企业的重视与大力发展。
2. 人工智能技术的发展需要云计算与云存储
人工智能、深度学习都是当前的热点研究领域,但它们能够大展身手的两个前提条件是:强大的计算能力和高质量的大数据。其中最有代表性的事件就是谷歌大脑(Google Brain)的建立,它是一个庞大的深度学习框架,拥有数万台高性能的计算机和顶级的图形处理器作为计算单元。
2012年6月,“谷歌大脑”在“看”了一千万段YouTube上的视频,然后自己“学习”到如何从视频中识别一只猫。今天,有深度学习的进步,有基于互联网的海量数据支撑,有谷歌强大的云计算平台,“谷歌大脑”正在帮助谷歌公司解决横跨多个领域的几乎所有人工智能的相关问题:谷歌的搜索引擎正在使用“谷歌大脑”优化搜索结果的排序,或直接回答用户感兴趣的知识性问题;谷歌的街景服务使用“谷歌大脑”智能识别街道上的门牌号,以进行准确定位;使用“谷歌大脑”的谷歌翻译平台在2016年连续取得翻译质量的革命性突破,将全世界一百多种语言的相互翻译质量提升了一个层次;谷歌自动驾驶汽车正是基于“谷歌大脑”对数百万英里的行驶记录进行分析,以改进驾驶策略,保证绝对安全……[11]
大数据技术的发展,给人工智能技术带来了曙光,而人工智能的发展也离不开云计算与云存储提供的强大的计算和数据处理能力。
3. 物联网的发展需要云计算与云存储
当前已经进入一个万物互联的时代,互联的万物又无时无刻不在产生大量的数据。同时,各国网络基础设施的发展、移动互联网的发展、即将到来的5G网络的普及、智能手机的广泛应用,进一步促进对云计算与云存储的需求。
为适应迅速增长的移动数据量,满足用户计算需求,云计算技术通过互联网提供了动态的数据接入、存储和计算服务。亚马逊AWS、谷歌Drive、百度开放云和阿里云等云存储服务应用纷纷推出各类智能终端接入的云存储解决方案,降低了智能手机等移动终端的存储开销,提供便利的数据接入和数据分享。
云存储可以实现任意地点、任意时间、任意数据访问及保障法规遵从的需求等。对存储需求不可预测、需要廉价存储的用户来说,按需购买存储容量的云存储与一次性购买整套存储系统相比显然会带来更多的方便和效益,且云存储在为用户节省投资的同时也节约了社会资源与能源。当用户将数据存放在云存储中,他们最关心的是数据是否安全;是否存在隐私泄露;数据是否完整无误;如果出现故障,是否可以恢复其数据等。