第五节 社科大数据技术

一 分布式海量数据采集及整合技术

大数据首先要面临的问题是大数据的采集和融合,大数据采集与整合系统运用分布式技术架构,聚合采用分布式数据采集、分布式存储管理、自然语言处理、数据融合等技术,克服大数据中数据类型多,非结构化数据多、数据量大、数据格式标准不统一等诸多技术难点,实现海量数据采集和结构化转换,最终形成统一的高价值数据库。

图1—3 高价值结构化大数据库

基于上述技术的系统架构图如下:

图1—4 大数据采集系统构架

系统能够提供强大稳定的批量数据采集功能,并且能够对各数据源进行提供数据源管理、配置采集规则、采集任务监控、采集任务调度、采集导出管理、数据源管理等全面的管理功能。数据采集有以下四个特点。

(1)网站覆盖度广。采集范围可覆盖国内外各种主流网站,可指定网站进行采集,包括政府网站、微博等,且支持中文、英文等多语种采集。

(2)采集准确性高。能利用自然语言智能处理技术,精准识别采集网站目标,自动过滤垃圾数据,使采集更精准。

(3)运行稳定性强。通过采用先进的分布式云计算架构,保证了数据采集7×24小时稳定运行。

(4)资源占用率低。系统建立后台数据管理功能,能对网页采取更新数据的增量采集功能,使采集对服务器和带宽资源的大大降低。

系统支持对合作伙伴网站的数据采集:通过建设对合作伙伴的特殊网站的数据统一标准,将数据采集服务器设立在公网,而通过网闸设备联结政务网,把合作伙伴的数据单向通过网闸传输到采集服务器上。

系统能提供多种主流数据采集接口,包括txt、excel文件、数据库、消息队列、webservice等接口,满足各种类型的数据采集需要。

其他部门数据采集:建设政府间其他部门数据统一标准,在政务外网设立数据采集共享服务器,实现社科院和政府其他部门之间的数据采集和共享。各部门定期把自己部门的数据上传到采集共享服务器,社科院定期把数据取走加工,再把其他部门需要的数据上传到采集共享服务器。

获取到数据后,通过标签方式和结合行业主流分类方式,建立互联网大数据行业标准和社科数据标准,通过大数据技术、自然语言处理和语义融合等技术,实现互联网各种数据类型到统一标准的自动归并,实现互联网社科大数据的整合。

二 文本数据自然语言处理与情感分析技术

大数据分析工具需要高质量的大数据,这样才能提取出准确有价值的信息,而多源大数据往往包括大量文本数据,这些数据必须先进行处理才能进行分析。文本数据自然语言处理能够对文本型数据进行自动的结构化处理,从而发现数据的语义价值,通过文本自然语言处理后,将能够使用工具进行数据挖掘和情感分析等工作。

自然语言处理要提出给每个数据源的错误报告,日志、使用元信息的新语义结构化文本。错误报告包括原文本数据中存在的多种异常,比如:文本类型异常,数据格式异常,重复数据等。处理的日志是一个处理行为的集合,例如:处理后的语言,均化后的格式。经过自然语言处理后,产生出一个带有元信息的新的结构化文本。

常用的自然语言处理功能包括:文本分类,文本分词,词性标注,命名实体识别,关键词抽取,依存句法分析,时间短语识别、语法识别等,而在社科等领域,有一种特殊需求,就是对文本本身的情感分析。

情感分析是根据已知的文字内容和情感符号,推测文本内容所表达的情感偏向,比如正面还是负面。如果能够处理好情感分析,就可以大大提升人们对于文本表达中的理解和处理效率,也可以利用情感分析的结论为其他人或事物服务,比如根据经济学家所发表的论文、微博等信息,来预测未来经济的趋势。

当前最新的技术是运用深度学习来进行情感分析,以往人们应用关键词来判断情感,但准确度低,现在深度学习的准确率已经极大地提高,避免大量人工提取特征所需要的大量工作。自然语言处理的深度学习模型包括多层神经网络(MLP)、卷积神经网络(CNN)和长短记忆模型(LSTM)以及SVM、随机森林、逻辑回归等。

三 分布式大数据存储技术

分布式计算中心的各个计算节点接收任务管理中产生的任务,然后获取任务中的任务配置信息,包括在ETL预处理平台中定义的来源数据和模型管理中指定的数据处理模型。

计算服务框架封装了常用的函数库、算法库和通用模型库,也可根据项目数据的需要,建立专业化、智能化的项目分析模型库。通过管理控制中心的任务管理模块对数据处理任务的配置化管理,建立任务与指定模型的调用关系,利用任务调度,计算服务框架执行任务,并依据指定模型转换为底层的数据处理和分析。

计算任务从定义到执行的处理过程如下图所示:

图1—5 分布式计算任务处理过程

四 大数据挖掘与可视化技术

数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,它融合了人工智能、机器学习、模式识别、统计学、数据库等多个领域的理论和技术。大数据的数据挖掘是指面对大量不完整、噪声大、模糊、随机的实际应用数据,从中用算法提取隐含的、未知的、潜在的有用信息和知识的过程。大数据挖掘能够自动分析大数据,并建立预测模型,挖掘出潜在的规律,从而帮助决策者提前做出正确的决策。

社科大数据平台通过整合内部系统数据、政府相关部门数据、互联网数据等广泛数据资源,为统计分析、印证提供了必要支撑。通过对来自多方面的纷繁复杂的大数据进行分析挖掘,找出蕴藏其中的有价值的信息,为各部门的总体分析、研判、指标评估提供依据。

为了让枯燥乏味、抽象难懂的数据变得更加易于理解,更加形象活泼,需要使用数据可视化的技术。大数据平台提供丰富的数据可视化技术组件,包括:地图、热力图、关系网络图、树图、标签云、空间信息流图、弦图、散点矩阵图、气泡图、折线图、柱状图、条形图、雷达图、饼图、仪表盘、漏斗图、混搭图、表格等。

一些常见的图表类型和形式如下:

(1)折线图

(2)柱状图

(3)散点图

(4)K线图

(5)饼图

(6)雷达图

(7)力导向布局图

(8)仪表盘

(9)漏斗图

(10)混搭

(11)组件

(12)其他

五 基于大数据的预警技术

大数据的其中一个核心目标是预警、预测、决策、智能,是从海量经过预处理后的数据中提取隐含的、未曾发现的、有价值的趋势,并给出预警信息。预警预测需要根据不同目标及应用场景,选择合适的挖掘算法和模型。通过对项目的需求分析,涉及的挖掘算法包括贝叶斯分类、支持向量机、深度学习、XGboost等。

对经济预警分析时,主要使用朴素贝叶斯分类、支持向量机(SVM)两种分类技术分别进行模型验证,通过样本数据来训练分类模型,通过测试数据来验证模型的误差率,根据模型的准确度和误差率来确定其中一种分类技术应用到实际挖掘处理中。

基于朴素贝叶斯分类技术的实现方案如下:首先确定评价指标分类类别,选取样本数据,计算样本数据的出现概率,确定各类别的特征词集合。从测试数据中提取特征词,根据这些特征词在各类别特征词集合中出现的概率,确定每条数据的所属分类。根据测试数据的分类准确率,调整样本数据的特征词集合,直到将误差控制在一定范围内。最后,将优化后的模型应用到生产环境,进行实际的挖掘处理。

基于支持向量机(SVM)分类技术的实现方案如下:首先确定评价指标分类类别,选取样本数据,转换成支持向量机能识别的格式,选择支持向量机的训练函数进行支持向量机分类模型的训练,选取一定比例的测试数据和支持向量机的测试函数进行支持向量机分类模型的验证,通过多次交叉验证分类模型,得到指标评价最优支持向量机模型。最后,将优化后的支持向量机模型应用到生产环境,进行实际的挖掘处理。

针对预测分析,我们可以使用人工神经网络分类算法。首先确定影响预测的输入因子,根据隐含层神经元个数的选择原则,构建预测人工神经网络模型。然后用训练样本进行预测人工神经网络模型的训练,通过测试数据验证模型的准确率和误差率,不断优化模型,直到将误差控制在一定范围内。最后,将优化后的模型应用到生产环境,进行实际的挖掘处理。