- 从数据科学看懂数字化转型:数据如何改变世界
- 刘通
- 8439字
- 2024-12-31 21:34:26
第一部分 数字化产业目标
第1章 走进数字经济时代
1.1 大数据与互联网:触动数字经济快捷键
虽然人们通过数据分析进行生产生活实践已有很多年历史,但是数字经济的繁荣及和数字经济相关主题的“火爆”,其实也只是近一两年的事情。众所周知,任何社会发展的潮流和趋势,背后都有一系列综合因素共同驱动,对于数字经济的发展也是一样。我们要关注驱动数字经济发展的关键因素,或者说,影响社会发展大方向的底层“慢变量”到底是什么,这样才能更好地理解数字经济“前世今生”的发展脉络,从而更准确地判断出数据要素支撑产业数字化应用落地的未来方向。
1.1.1 数字经济到来,产业革命加速
1.数字经济定义
随着2020年中小企业数字化转型的全面产业布局规划,可以说我国已经正式步入数字经济的快车道,当前社会中各行各业的企业和机构都开始拥抱数据科学技术带来的变化与挑战,关注数字化转型的事业,重视数字创新能力的培养,并加快推动其所在领域的数字能力变革。数字经济以互联网、人工智能、区块链作为主要的技术手段,把数据作为业务价值的核心生产要素,对人与人的社会关系和生产服务方式带来了巨大变革。数字经济时代的主要特征见表1-1。
在数字化的产业实践方面,最典型的行业代表当属电商零售领域,产品智能推荐、自动营销推广、社区团购、基于自媒体的远程导购,这些技术应用模式极大地丰富了消费者的购物体验,并提升了产品从生产,到销售,再到物流的整体供应链综合效能。
在城市交通领域,基于对交通数据的融合与协同分析,可以预测路段拥堵事件,对交通信号系统进行智能化联网联控,降低交通阻塞概率,保证出行畅通;通过构建城市要素综合平台,赋能行业应用,包括智能选址、智能物流调度、智能城市建设规划等;围绕人工智能技术,还发展出了智能汽车的大规模产业化落地,极大地提高了人们出行体验的便捷性和安全性;此外,无人物流配送和智能交通执法也逐渐成为重要的产业化应用方向。
表1-1 数字经济时代的主要特征
在金融领域,通过对上市公司的年报统计数据及公司发行股票K线走势的历史数据,可以构建关于股价的预测模型,帮助人们更加理性地选股、投资;通过将人工智能技术与区块链相结合构建智能信用体系,应用在交易中的票据管理、合同管理等方向,多角度实现金融行业服务的降本增效;通过自然语言处理技术、语音识别技术,对包括互联网渠道在内的图文数据、音视频数据进行自动挖掘分析,识别潜力投资方向,引导投资决策。
在医疗领域,可以通过图像识别技术进行影像检测,进行器官病灶的自动筛查,面向心电信号数据的采集与挖掘,可以辅助识别潜在的心血管疾病风险;基于医疗领域的专业知识图谱和图谱背后庞大的知识库,可以实现就医咨询、用药咨询、智能问答、智能导诊及智能预约等自动化远程医疗服务;围绕医疗专业领域知识和海量医疗实验数据的深度关联分析,还能支持药物研发、病患管理,面对复杂病患问题定制专业诊疗方案。数字经济规模与增长变化趋势如图1-1所示。
图1-1 数字经济规模与增长变化趋势
当今,使用数据来发现和理解客观世界,挖掘社会和商业的本质规律,并以此对业务进行改造和创新,持续地创造经济价值,已经越来越被产业端所接受。一方面,人们更加熟悉数据是怎么一回事,逐渐认识到数据的重要性,对数据的产业应用落地方向越来越“有感觉”;另一方面,随着数据科学相关学科人才教育和培养的成熟化,整个社会的人力资源结构方面,掌握数据处理、数据分析、数据科技创新方法的人才也越来越多。
到底什么是数字经济?从广义上来讲,凡是直接或间接利用数据来引导资源发挥作用,推动生产力发展的经济形态都可以纳入其范畴。简单地讲,数字经济就是把数据作为核心资源要素的经济活动。如果在业务的开展中,数据对最终经济价值的创造起到了关键作用,那么这个经济活动就可以被看作数字经济的组成部分。在传统的农业经济模式中,经济价值的增长仅仅依赖于技术进步、劳动力和土地;相比较,在工业经济阶段,经济模型中又引入了资本这一项内容,而现在当社会发展到数字经济的阶段时,又进一步添加了数据这个重要的要素(变量)。数字经济与传统经济模式的区别如图1-2所示。
图1-2 数字经济与传统经济模式的区别
2.数字化创新与数字化转型
根据笔者的观察和研究,数字经济活动包括两个主要形式:一是数字化创新,二是数字化转型。在数字经济时代,数字化创新和数字化转型是产业端拥抱数字变革的两类重要的实践活动,也是本书重点讨论的关键话题。
1)数字化创新
数字化创新是指基于数据分析手段对现有业务活动进行改造或升级,创造出新的业务模式,更高效地创造经济价值和社会价值。数字化创新的具体产出形态体现在数字服务能力及基于数字服务能力的软硬件系统的建设方面。数字化创新面向的对象是业务,其活动通常是产品化、项目制、阶段性的,企业通过设计和构建一个又一个具体的数字化创新应用来实现其数据资源的价值变现。
数字化创新有非常多不同的具体表现形式,如何开展数字化创新取决于企业的规模、所处行业,以及企业所掌握的数据资源类型和丰富程度。在数字化创新中,需要面对具体的业务需求进行数字能力重构,在业务环节中引入算法和大数据要素,并添加人和机器交互的过程。数字化创新的产出是数据产品,一般以软件平台应用或软硬件结合的智能系统作为输出交付,用户通过这些系统达到“降本增效”的目的,从而获得新的业务能力。
2)数字化转型
数字化转型是指企业全面提升自身数据管理和数据应用综合实力的产业活动。数字化转型面向的对象是组织,其活动通常是持续的、长期的。数字化转型没有具体的起始和结束时间节点,企业要认识到数字化转型是整体能力的转型,是业务、技术、人员、战略、文化的全面转型活动,是面向企业自身组织形态和产业形态的系统化建设工作。
在数字化转型过程中,不仅要关注数字化技术的落地实施,更要关注企业完整数字化能力的塑造。在数字化转型过程中,需要解决企业长期的战略发展问题,而非某个单体业务的升级和改造。在数字化转型过程中,企业要定义好数据架构,设计有效的信息战略,搭建相匹配的数字化人才体系,不断建设高价值的数字资源底座,完善和优化数据标准和数据管理制度。
1.1.2 大数据技术:从实验环境走向现实环境
1.传统数据分析方法无法满足现实业务需求
数字经济之所以快速发展,首先要归功于人们对数据分析处理能力的快速提升。自从2003年谷歌提出了分布式的数据存储与计算技术架构,大数据技术便得到快速发展和崛起。无论是在软件方面、硬件方面,还是在关于数据处理的技术方面,都出现了越来越多的创新形态,揭示着人们在数据处理能力的边界得到了史无前例的拓展。
可以说,在以数据为基本对象的技术实践上,从传统的实验室环境,真正走向了现实业务的实战环境。数据不是为了验证某个科学理论,而是为了带来业务启发,提供智能决策能力,最终完成从数据要素到经济价值的完整过程转换。为了突出说明大数据技术的重要性,还是要先回到传统的数据分析方法,了解传统方法的特征和局限性。
在传统的数据分析场景中,数据是干净、纯粹、任务相关的,甚至是统计分布客观均匀的。例如要分析小麦作物与光照强度的相关性,那么会严格控制实验环境中温度、湿度、微生物指标等诸多物理参数,接着只要收集足够多的数据样本,就可以进行非常有效的数据分析。这些数据是在严格控制的环境下产生的,因此数据与目标问题的相关性非常强,通过有意“挑选”出来的数据对象可以很好地解释人们关心的问题,提供令人满意的解决方案。
因此,在传统数据分析场景中,数据量通常不需要太大,往往几十条、几百条就能支持业务分析应用。人们此时可以把更多精力关注到数学模型的客观性、严谨性,以及可解释性。对于传统的数据分析,常用的方法主要包括回归分析、统计推断、指标分析、传统机器学习、概率图模型等,这些模型要求变量的挑选及变量之间的关系都设计精良,只有这样,才能充分发挥出这些数据的本源价值,然而,传统的数据分析方法只适用于“实验室环境”的数据集,在真实世界中并没有太多施展拳脚的机会。关于传统数据分析与大数据分析的区别,见表1-2。
表1-2 传统数据分析与大数据分析的区别
在真实世界场景中,数据环境是大数据的环境,虽然数据够多,但是数据质量并不好,也就是所谓的数据看起来多,实际上少(有用的数据少)。那么,这个质量不好怎么理解呢?其实就是“著名的”大数据5V特征,即Volume(数据量大)、Velocity(数据高速产生)、Variety(数据形式多样)、Value(价值密度低)、Veracity(真实性差)。此时,需要进行分析的并不是干净的实验室数据,而是实实在在的“脏数据”,大数据技术就是用来处理具有杂乱特征的数据资源的相关技术。
大数据概念不是被设计出来的,而是被发现出来的。5V不就是客观世界中信息的最原始形态么?数据本身是自然而然的,是按照最朴素的状态产生出来的,数据量很大,也不一定干净,有表格、文字、音频、视频、日志等不同格式,数据渠道来源不同,信息有真有假,内容有实有虚。传统数据分析方法中那些看似精巧的人工设计,在这个灵活多变的实战场景下似乎捉襟见肘。人们需要一套应付“非典型”数据问题的数据分析技术——大数据技术。
大数据技术解决了两方面的问题,一是效率的问题,二是质量的问题,两方面问题本身也是彼此相关的。面对效率问题,大数据技术得益于底层软硬件计算框架的能力发展,而面对质量问题,大数据技术则依赖于数据科学算法的研究和创新。
2.大数据技术提供更高效的数据处理性能
为了解决大数据场景下的数据处理效率问题,需要在底层的计算机技术架构上提出新的设计思路,毕竟,传统的计算框架不能很好地支持和兼容大数据应用场景的特殊性。在现有的计算机硬件基础之上,如何构建有效的软硬件协同机制,更好地适应面向超大规模数据处理“又快又准”的客观需求,是底层数据处理架构设计师“特别关心”的问题。这些架构上的创新,对于大数据的5V特征都特别有针对性。面向大数据的应用场景,需要考虑数据的存储问题和数据的计算处理问题。
1)数据的存储问题
为了能够对不同格式的数据进行灵活存储、读写和管理,在传统的关系数据库的基础上,又先后兴起了NoSQL和New SQL等非关系数据库。非关系数据库可以对任意结构的数据源进行定义和存储,业务适用性更广泛,很好地回应了5V中Variety(多样)的特征。
此外,由于大数据场景下数据规模巨大(Volume),需要构建能够存储大规模数据的数据管理系统和文件管理系统,于是相应地就催生了分布式的数据存储架构。该架构可以在单台机器存储能力有限的情况下,用多台机器组网构成存储节点集群,统一地存储和管理海量的数据资源。大数据技术生态如图1-3所示。
图1-3 大数据技术生态
2)数据的计算处理问题
针对给定的数据计算问题,大数据技术实现了编程和执行策略的优化设计。例如,通过引入并行计算架构,以及该架构下Open MP、GPU、MPI等相应的并行编程技术,可以同时对多个近似的、单元化的计算任务进行并行处理,提升芯片的整体利用率;通过引入分布式计算架构,把单个复杂的计算任务分配给多个单台机器协同处理,发挥多个计算资源的整体性能;通过引入流式计算架构,可以有效地解决实时计算的问题(Velocity,高速),机器可以边读取、边计算,让数据处理系统快速地响应外部业务环境的实时变化。
3.大数据技术提供更先进的数据分析能力
考虑到大数据场景下数据质量通常并不那么好,因此在数据分析方法的层面上也逐渐衍生出了新的技术解决思路,即在大数据的“技术理念”下,会自然地“放松”算法模型在科学严谨性上的约束限制,同时更加强调其实用性价值。
人们更加关注数据之间的相关性,而非因果性,尽管这种相关性可能比较隐晦,或者难以解释,但是确实能够呈现出数据背后隐含的业务含义,并对日常应用起到重要的定量决策支撑。深度学习和强化学习可以说是大数据在算法方向最为重要的技术突破,其背后的想法是:只要数据规模足够大,哪怕数据质量差一点也没关系。
尤其是深度学习模型,与传统的统计模型或机器学习模型的不同在于,其模型的变量和结构都可以从数据中探索而来,而不用人为地进行精巧设计。深度学习模型非常善于从低价值密度的大规模数据资源中,面向特定的业务场景,进行知识模型的自动提炼。当前,市场化商业环境所能产生的业务数据,在很多领域已经可以满足建模所需的数据规模需求,这也为深度学习的广泛应用提供了良好的落地基础。
然而值得注意的是,大数据技术的出现对传统数据分析方法来讲,是补充而非替代的作用。大数据技术充分发挥了数据在规模维度上的资源优势,从而对前端的数字化应用提供更多有价值的业务信息。在实际应用中,传统数据分析中的思想和方法更多是和大数据技术互相融会贯通、协同应用,很多底层的技术思想也在互相借鉴,弥补着自身技术的不足与应用缺陷。
1.1.3 互联网发展加速“数据闭环”融合
大数据技术解决的是数据处理的问题,而互联网提供了大数据技术能够在产业落地上充分发挥价值的重要技术环境。互联网起到了连接业务主体的作用,构成了数据和信息高效的自动传播渠道。
首先,通过互联网可以把社会系统和人工系统中关注的信息以数据的形式进行采集和存储操作;其次,使用包括大数据技术在内的一系列数据分析技术从中挖掘出有价值的可指导经济活动的业务知识;最后,充分利用这些知识构建数字产品或方案,再将其放到互联网环境中进行发布和应用。当然,最终的数字化应用还会再产生新的数据,于是通过这个过程,围绕数据主体形成了从产生、到分析,到应用的数字业务闭环。
1.移动互联网促进社会系统的数字化
数字创新离不开充分的数据资源,而数据资源既来自人类社会系统,也来自人工系统。在人类社会系统中,移动互联网的兴起和深度市场化应用,加速了数据资源增长的总体进程。从表面形态看,移动互联网与传统PC互联网看似差异不大,无非是把网络应用的实现载体从PC计算机迁移到了手机、平板电脑等移动设备上,但是,移动互联网却不仅是PC互联网的简单延伸或补充,而是“无意中”创造了一个全新的网络经济业态。
1)移动互联网解决身份一致问题
在PC互联网时代,同一台机器可以供多人使用(如办公环境、网吧环境等),在“多人一机”的模式下,平台很难关注并满足用户网络行为的个性化需求,用户在网络环境中的私有化特征不突出,而移动互联网通过终端实现了“人机合一”的效果,网络终端背后代表的是某个个体,而不是任意一个可能使用这台设备的人。通过“唯一的”终端ID号,用户在不同平台的账号都可以进行关联融合,形成丰富的在线行为画像,从而极大地增加了用户在商业世界的可分析性。
2)移动互联网解决数据资源问题
由于移动设备在成本上门槛低,并且在使用上受时空约束的影响较小,因此当移动设备普及应用后,整个社会无论是在上网人数还是人均上网时长方面,都获得了极大的增速;与此同时,当用户的网络使用行为不断强化时,移动应用厂商的创新动力也在同步强化,网页应用、App应用、微信小程序应用,多种形式的移动应用层出不穷,在零售、教学、健康、交通出行等越来越多的场景实现了线上线下的充分融合。
分别以移动终端和移动应用为物理和内容的载体,加速了人类社会系统的数字化进程,任何与“人”和人的社会活动相关的数字业务创新都有了更强的数据资源基础。互联网加速“数字化”业务闭环的逻辑如图1-4所示。
图1-4 互联网加速“数字化”业务闭环
2.物联网促进物理系统的数字化
与移动互联网类似,物联网也是依托于互联网技术的技术创新。物联网与传统互联网的区别在于,它不是面向人和人之间的连接,而是对“人和物”及“物和物”进行网络连接,从而支撑面向非社会系统的数字化产业实践,而物理系统进一步又可以分为人工系统和自然系统两方面。
1)面向人工系统的物联网
人工系统的典型的形式是制造业的生产车间环境。通过物联网技术,生产车间中的人、设备、工件、产品都是可“发声”的单元对象,彼此进行实时通信、配合、协同工作。物联网是支撑物与物之间的信息传播的通道,而传播信息的前提则是工业环境的信息可被采集和理解。这就需要传感器对工业状态和工业活动的信息进行自动记录。
生产设备可以随时报告自己的工作状态和生产环境参数;生产线上的工件可以记录在每个工业操作环节前、中、后,以及工件质量发生的时序变化;产成品则可以记录从车间流转到供应链后每个环节的物流节点信息和产品增值信息。
在物联网的基础上,只要有足够多的传感器,就可以更加完整地获取相关“物体”的重要状态信息,通过对这些数据进行深入统计分析、建模分析,就能更加精准地理解复杂的工业系统中各种物体的及时状态与活动规律,从而对生产行为实施有效控制与决策,例如监控系统异常、调整设备参数、优化设备调度、形成生产计划等。
2)面向自然系统的物联网
自然系统的数据分析关注人或物的微观状态信息。在医疗健康领域,通过智能穿戴设备可以持续地采集人的生理信号,然后采用物联网将数据上传到“云”端服务器进行复杂的计算分析,最终推断出人的健康状况,同时提供实时的健康指导建议。
此外,物联网技术还可以对自然界中任意的动植物进行数据采集和监控,更好地对自然环境每时每刻的状态进行定量评估,推动农牧业的综合产值增加,助力以“碳中和”为目标的生态环保事业。
3.互联网支撑和强化数字应用的落地环境
正如前面所提到的,移动互联网更加紧密地连接了人与人之间的关系,物联网连接了人与物、物与物之间的关系。基于这些各式各样的关系,极大地支撑了数据的产生和数据的传输,为数字化应用提供了充分的数据资源保障。
互联网在数字化的进程中,其作用不仅是加速了社会系统、物理系统中对象的状态和活动向数字系统的映射转化过程,更大的意义在于,互联网提升了数字产品在业务中的实用化效率。
在一个数字化创新业务中,要依托于数据来提供全新的技术解决方案,因此就需要为整个技术解决方案寻找一个合适的应用载体。这个应用载体一般为软件,这些软件可以是部署在某个企业内部的业务系统,也可以是面向社会大众的网站服务,还可以是移动端的App应用,或是操控工业设备自动工作的智能系统或平台。
尽管早期的软件项目大多是单机版本,但是在当今的数字化时代,依托于网络环境的软件应用越来越多,这个技术变迁趋势的好处是显而易见的。只有网络化,才能更好地支撑后台服务器端和前台需求端都日益复杂的软件架构体系。可以说,正是因为互联网技术的成熟应用,才造就了数字化创新产品或服务具有良好的落地环境。互联网对于促进数字应用产业落地的重要性来自以下3个方面。
1)业务场景多样化
在互联网的环境下,人们可以更加便捷地进行远程办公和生活,网络应用跨时空的便利性催生了大量的数字化业务场景。在第4代、第5代移动通信技术(5G)大规模普及的条件下,各种移动设备的网速得到了显著提高。网络信号的接收真正可以做到大容量和低延迟,基于互联网的软件应用与本地化应用的体验在流畅度上几乎别无二致,而基于互联网的数字化应用又能真正打通服务、产品和资源的信息流和业务流,因此,软件的网络化成为未来的主流技术产品趋势。
2)数据能力协作化
互联网是基于分布式架构的重要技术保障。前面提到,产业端的实用化数据分析场景大多是大数据场景,而在大数据场景下,就需要解决大数据的存储和大数据的计算两方面的技术痛点。
分布式的数据存储架构和分布式的数据计算架构,分别是上述问题的主流解决方案。分布式技术架构的底层逻辑,又在于通过多台机器协作的方式,来共同“负担”大规模数据在存储和计算方面的任务压力,而既然是任务共享,多机配合,那么就需要靠底层的机器通信行为完成任务的分配、协调,以及任务结果的整合。这些都需要非常安全、稳定、可靠的网络环境来支撑完成。
3)软件形态服务化
互联网是支撑软件服务化架构的重要技术设施。所谓服务化,就是把软件中重要的、常用的方法功能模块进行独立封装和打包,在构建一个软件应用时,可以通过调取必要的技术服务,快速完成软件功能的搭建。服务化的方式允许软件开发过程像拼乐高积木一样方便快捷。在数字经济时代,市场环境和业务需求总是变化莫测的,因此软件项目的开发实施也需要具备非常强的机动性,能够做到随机应变。
尤其是基于数字化创新的软件项目,由于目标的应用形态也不清晰,具有较强的探索性和前瞻性,就更需要软件项目的技术落地对数字化的应用需求具有非常强的反馈能力。软件系统的服务化可以说是未来技术架构发展的重要潮流。与服务化密切相关的另一重要概念是“云原生”。“云原生”是指将技术服务部署在远程“云”端进行集中部署和管理的一种软件应用设计理念。
对于企业来讲,在进行数字化技术建设时,大多数的数字业务应用的不是从0到1在本地重新开发代码,而是通过互联网访问“云”端的方式,按需调用服务,最大化地复用已有的成熟数据处理能力。除此以外,互联网还能很好地协调服务与服务之间的黏结、配合与调度。
结合以上的讨论,正是由于互联网技术的发展,我们才能更好地从外部环境中(社会系统、物理系统)中获取有价值的数据,然后充分利用从数据中抽象出来的信息和知识重新对业务进行设计,以软件作为数字产品发布到网络环境,进一步指导业务的优化和升级,形成基于数据的完整价值链闭环。