1.2.2 工业大数据的特征

1.基本特征

工业大数据虽然来自工业领域,但是仍具备一般大数据的五大特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实)。

(1)“数据规模大”。工业大数据的主体是来自生产系统的设备数据,这些数据以高频率、全天候地采集,其体量庞大。以风力发电机为例,正常状态下每秒产生500个左右的监测点数据。相比于其他行业领域,大部分工业设备全天候持续运行,时序数据需要长时间或永久留存,数据量可以达到PB或TB级别。

(2)“处理速度快”。工业大数据的处理对象往往是高精尖的大型复杂装备,从数据采集到数据处理,直至完成数据分析往往需要毫秒级的处理速度。特别是针对设备故障检测,需要瞬时预判故障症状,及时采取防范措施,因此需要更快速的数据处理速度。

(3)“数据多样化”。工业大数据的来源包括企业内部涉及多学科多专业的生产数据和业务数据,以及企业外部供应商和用户的互联网数据,数据来源丰富,类型多样,半结构化和非结构化数据占比逐渐增大,形成了丰富的数据资源。

(4)“价值密度低”。大部分工业大数据描述的是生产系统正常运行条件下的行为特征,这些数据只能用于一般统计过程和数据关联分析。企业往往需要运用大数据诊断生产瓶颈,预测机器故障及发现异常情况,这些则要求采集非正常生产条件下的数据资源,而这类数据较难获得,在大数据资源中的占比较少。因此总体上,大数据的价值密度低。

(5)“数据真实”。数据真实是工业大数据最基本的特征。工业大数据是通过传感器等采集手段从物理对象中获取的信息,表征了物理对象的真实特征和行为。在这个基础上,利用数据模拟物理对象并对其进行优化,是工业大数据的根本目的。数据的真实性是数据分析结果的可信性和可靠性的保障基础。

2.工业大数据的特点

相比其他行业的大数据资源,工业大数据具有多模态、强关联、高通量的自生特点。

(1)“多模态”:相比于数据量的大小,工业大数据更加注重样本的全面性,即大数据应能反映工业系统在各种条件下的运行特征,尽可能地囊括各个生产要素并全方位地描述要素信息,缺失的信息会导致分析模型的不完整,进而造成分析结果的碎片化。全面的信息涉及工业系统的“光、机、电、液、气”多学科、多专业的领域数据,具有多维度、多类型、多结构的复杂性。在实际应用中,工业大数据的采集需要结合应用场景和分析目的,力求保证建模的完整性和分析的全面性。

(2)“强关联”:工业数据之间不是简单的字段关联,而是在多个学科支撑下的对物理实体及其所处环境在机理层面的关联,具有很强的因果性,即分析结果是可靠的并能够进行因果揭示。不同于互联网数据关注的是数据特征,工业大数据更加注重挖掘隐藏在数据背后的物理意义和机理逻辑。

(3)“高通量”:嵌入了传感器的智能互联产品使数据采集能力得到了质的飞跃,特别是物联网技术快速发展使生产设备的时序数据全天候持续不断产生,采集频率高,数据吞吐量大,数据体量极大。例如,单台风机的采样频率为50 Hz,按照2万台来计算,数据写入速度为4.5GB/s。