1.2.2 从数据获取到安全保护

大数据的体量巨大、类型多元异构、处理要求高等特点要求大数据应用各环节都要用到各类前沿的信息技术,包括预测分析、数据挖掘、统计分析、人工智能、神经网络、自然语言处理、并行计算等。根据技术架构和基本处置流程,大数据的技术体系主要包括大数据采集与预处理、存储与管理、计算模式、分析与挖掘、可视化分析、隐私与安全等几个方面。

(1)大数据采集与预处理。

大数据采集与预处理是大数据处理的基础,主要利用 ETL(Extract-Transform-Load)工具负责将人类活动、计算机和物理世界等各领域中分布的、异构数据源中的数据抽取到临时中间层后进行清洗、去冗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理(OLAP)、数据挖掘的基础;也可以利用日志采集工具把实施采集的数据作为流计算系统的输入,进行实时处理分析。相关技术与传统数据采集、预处理技术通用,但大数据的体量大和多样性也对数据预处理技术提出了挑战,目前常用的数据采集和预处理产品有Flume、Kafka、Sqoop、Kettle等,工业界在大数据清洗和质量控制方面也开发出了多种工具产品,如SAS公司的Data Flux、IBM公司的Data Stage、Informatica公司的Power Center等。

(2)大数据存储与管理。

数据存储与大数据应用密切相关,主要解决大规模数据的持久存储和管理问题。目前,主流的存储产品包括分布式文件系统、关系型数据库、非关系型数据库等。不同的存储技术满足不同的存储要求,分布式文件系统如 HDFS、Ozone 等,实现数据、文件在计算机网络中的分布式存取,解决海量数据存储和管理难问题;关系型数据库,如MySQL、PostgreSQL、Oracle 等传统数据库,为结构化数据的存储、查询提供快速高效的服务,广泛应用于银行、证券等领域的业务系统;非关系型数据库包括NoSQL、NewSQL,具体产品如HBase、MongoDB、Spanner等,能够实现对海量非结构化数据的存取,完美解决大数据结构复杂的问题。随着大数据的发展,非关系型数据库的应用越来越广泛。

(3)大数据计算模式。

严格来说,大数据计算模式并不是大数据处置流程的环节,而是各类数据分析技术的集合,指根据大数据的不同数据特征和计算特征,从多样的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。主流的大数据计算模式包括批处理计算、流式计算、图计算、内存计算等。其中,批处理计算典型产品如 MapReduce、Spark 等,能够对静态的海量数据进行快速计算分析;流式计算典型产品如Spark Streaming、Storm、Flink等,实现对实时数据的计算分析,能够有效满足电商、社交网络等对大数据分析处理的要求;图技术典型产品包括Pregel、Giraph、Trinity等,实现对社交网络、Web链接关系、各种社会关系等的计算分析;内存计算典型产品如Dremel、Hana、Spark等,是指CPU直接从内存,而不是硬盘上读取并计算、分析数据,进一步提升了数据的处理速度。

(4)大数据分析与挖掘。

大数据分析与挖掘是数据应用的关键,通过综合利用各类大数据计算模式,对实时数据、存储数据等进行深入分析和挖掘,充分发挥数据价值,提高数据质量和可信度,提供智能决策。除了传统的数据分析算法,神经网络算法、决策树算法、深度神经网络算法、卷积神经网络等数据并行机器学习、深度学习算法在大数据分析与挖掘等方面发挥着重要作用,相关产品包括谷歌的大数据深度分析平台 Disbelief、Spark 的基于矩阵模型的大数据学习系统 MLlib、卡内基梅隆大学的基于图模型的大数据学习系统Graph Lab等。

(5)大数据可视化分析。

大数据可视化分析是一门通过交互可视界面来分析、推理和决策的科学,通过将数据可视化和数据处理分析方法相结合,对抽象数据使用计算机支持的、交互的、可视化的表现形式以增强认知能力,在提高可视化质量的同时为用户提供更完整的大规模数据解决方案。目前,面向大数据主流应用的信息可视化技术包括文本可视化、网络(图)可视化、时空可视化、多维可视化及相关的人机交互、认知科学、数据挖掘等技术。文本可视化包括标签云、语义结构树、动态时序可视化等;网络(图)可视化包括基于节点连接的图和树的可视化、基于空间填充的树可视化、图简化方法、动态网络可视化;时空可视化包括流式、时空立方体等。虽然数据可视化分析研究相对成熟,但面对大数据规模,如何提出新的或改进的可视化方法帮助人们分析大规模、高维度、多来源、动态演化的信息,并辅助做出实时决策,仍是当前研究的重点和挑战。

(6)大数据隐私与安全。

随着大数据快速演进和广泛应用,越来越多的发展问题涌现出来,数据安全已成为事关国家安全与经济社会发展的重大问题,而安全和隐私问题是人们公认的关键问题。当前,大数据面临的安全问题除了数据窃取、数据破坏、勒索、钓鱼、APT等网络攻击行为,还有数据非法交易、数据滥用、数据泄露等内部管理、应用方面的问题。面对各类安全问题,除了防火墙、网闸、杀毒软件等传统安全防护手段,更应该充分利用差分隐私保护、动态隐私保护、零信任、威胁情报、态势感知、安全多方计算等前沿网络安全防护产品,保障大数据在安全的前提下得到充分利用。