2.2.1 元宇宙中的大数据

大数据是组织收集的结构化数据(例如交易和财务数据)、半结构化数据(例如Web服务器日志和来自传感器的流数据)和非结构化数据(例如文本、文档和多媒体数据)的组合,可以利用大数据挖掘信息并用于机器学习项目及构建预测建模(见图2.7)。

大数据是信息技术和计算机技术持续发展的产物。它为人们提供了一种可量化的认知世界的方式,称得上是一次重大的科技进步。2009年,谷歌公司的工程师根据用户的搜索数据成功预测了甲型H1N1流感在全球范围的流行,该预测结果甚至早于美国公共卫生官员的判断。谷歌公司对流行病的预测并不需要大规模实地检测,而是利用每天数十亿次用户的网络搜索数据得出了上述预测结果。这便是谷歌公司基于大数据的分析技术为社会生活提供支持的一个典型应用案例。

图2.7 大数据类型

根据实际操作流程和技术的演进,大数据分析可大致分为四部分。首先是对数据的预处理,包括收集、存储、清洗和整合。之后,可以使用统计学方法得到一些数据特征的描述。为了发掘数据隐含的更深层次的价值,可进一步采用数据挖掘技术(初级的机器学习技术),以及人工智能技术(高级的机器学习技术)。可以预见的是,在元宇宙世界中,会有更多高质量的数据用于机器学习,并促进大数据技术继续发展和革新。

在现实世界中,人的时间、劳动力和成本的问题很容易被元宇宙中的人工智能所取代。例如在现实世界中,人们必须经过很多流程才可以播放新闻,例如招聘播音员,在工作室拍摄,以及剪辑视频,最后在电视上播放。然而在元宇宙中,利用人工智能播音员,可以快速、持续、长时间地传递紧急和重要的新闻。为了在元宇宙中播放新闻,真实播音员的面部表情、肌肉运动、声音、细微差别和手势都是可以被用来学习的有效数据。存储在区块链块中的元数据就可以选择性地提供必要的高质量数据。

元宇宙中的创意活动往往是用人工智能而非真人来开发的。人工智能艺术家在创作作品时,会了解作品的趋势和风格,然后使用所学来进行创作。过去,大量的数据被用于风格分析。现在,人工智能艺术家将数据存储在分布式账本中,以便可以轻松选择和重复使用。获取更多数据并反复练习,可以减少选择错误数据的概率。