AIoT领域需要什么样的数据基础架构?【AIoT产业年会演讲分享】

物联网智库

共 4282字,需浏览 9分钟

 ·

2022-01-26 17:38

物联网智库 整理发布
二次转载请联系原作者

导读

为了保障物联网数据的充分流动和有效利用,除了通信技术本身的连接能力外,还需要打通物联网各层架构之间的壁垒,才能实现数据采集、传输、处理、分析全生命周期的管理,进而让数据真正发挥“物联网时代石油”的价值。EMQ映云科技是一家在物联网数据基础设施领域深耕多年的企业,在2021中国AIoT产业年会上,EMQ映云科技解决方案VP余杰霖为大家带来了题为《EMQ:AIoT的数据基础设施》的精彩演讲。以下是其演讲全文分享:



我今天分享的主题是《AIoT的数据基础设施》,这是我在产业互联网行业过去十年来所积累的经验和对行业趋势的判断,希望对大家有所帮助。


EMQ是一家开源物联网数据基础设施软件供应商,我们一直以开源为核心,产品覆盖了消息和流处理,以及边缘端的能力,主要目的是解决实时数据的移动、流处理和分析,希望服务产业的数字化、实时化、智能化转型。


在运营商的努力下,我们现在面对的AIoT物联网架构基本解决了连接的问题。在端侧,有很多异构设备在实时产生数据,这些数据通过一个小网关进行初步汇聚,经过边缘基站接入到核心网络后,再进入到云数据中心,对数据分析处理后反馈到各个端——这是目前所看到的大部分物联网架构的模型。

但是连接的问题解决了,数据与信息之间还是有很大的区别,即空有数据但不产生价值,物联网数据并没有真正反哺到业务层。现在中国大部分AIoT企业的应用也只是停留在数据化的阶段,而非数字化、信息化。


EMQ认为,物联网时代的数字化转型有四个趋势:

一是全面的云原生转向,从原来的业务上云、数据上云,转变为无论是应用服务还是数据基础设施应用服务,都逐步向云原生靠拢。不论是研发、部署,还是运维、测试,云原生理念目前已深入行业内部。

二是数据逐渐从云端下沉到边缘端,如数据量比较高的V2X以及对于边缘端的设备数据采集有要求的应用,使得边缘计算开始崛起。但边缘计算本身并不是完美的,其可能存在碎片化的问题也带来了云边协同的困难。

三是分布式云的发展,很多互联网平台和AIoT应用的开发者将原有的云原生技术向边缘发展,把之前集中在公有云上的内容逐渐放到了分布式云中。

四是数据的类型也在发生变化,从移动互联网时代由手机产生的具有明显波峰波谷的交易型数据、事务型数据,转变成由机器产生的连续不断的分析型数据。

接下来,我将详细阐述物联网全连接时代数据的范式变化。


  • 数据生产主体和产生方式

数据产生主体从人类转变为机器。人类行为产生的交易型数据可以有诸如双十一、双十二这种明显的波峰波谷变化,而对于物联网设备来说,往往每分钟甚至每秒都在上报数据,没有明显的波峰波谷,而且这些数据具有非常明显的时空上下文特征。

  • 数据类型

对AIoT领域的数据来说,其产生的那一刻价值最大。例如当你使用充电桩时某一刻充电失败了,这背后失败的原因,对用户来说才是价值最高的,所以需要从事务型数据转变为流式数据,以进行实时的分析处理。

  • 数据体量

在连接的问题解决之后,数据连接量就迎来了井喷式增长。根据最新的报告,全球的物联网数据未来会达到ZB级别,这意味着大部分大型的物联网平台以后面对的数据量将从原来的GB时代过渡到PB、EB时代。

  • 数据处理

对于海量数据并发连接的需求,同时又要做到实时的流式计算,原有的大数据架构必然要发生改变。之前是从数据的源头把数据录入到事先设计好的表中,在需要分析的时候从数据库里把数据读出来进行分析。而现在面对的数据很多都是半结构化、非结构化的,比如视频、音频之类的数据,对于这一类数据,往往在产生的那一刻不知道该怎么分析,需要有查询的能力,才能把数据的价值发挥到最大,这就要求从原先的批处理方式过渡为流式计算,自然会产生新的数据库。

综合以上几点,我们提出了四个原则,我们的产品也是基于这四个原则来设计和开发的:


第一,移动计算优先。在半导体产业发展中我们看到了共享内存的设计,数据在信息层面的复制成本是很低的,但在物理层面对它进行搬运和存储的复制成本非常高,特别是在海量数据情况下。所以我们尽量把价值高的计算移动到离数据产生更近的地方,让计算和数据产生更大的价值。

第二,数据流可复用。在任何的AIoT设备中,一个数据源都不会只对接一个系统,很可能因为业务的发展,需要数据能够一次接入,多次复用。

第三,全场景可适配。面对物联网设备端的系统,包括设备协议里需要具有的能力,任何一个适合的互联网IoT架构,都需要有一个组件来弥合碎片化协议的接入。

第四,分布式云原生。未来很多数据会从中心化的云端转变为在分布式的边缘云进行处理。

AIoT对数据提出最大的要求就是互操作性。之前数据存储进去后再读取出来的成本是很高的,原本可能有非常多的设备对应一个应用,如果之后增加更多的应用,就会造成很复杂的架构耦合,带来的结果就是架构不可横向扩展。


如果有一个统一的数据命名空间,所有的数据在内部互相共享,并对不同的数据模型进行隔离,让真正的AI和IoT应用不用关心数据的内部路由,才是最适合IoT时代的架构。

对于这个作为命名空间使用的统一数据接入层,我们提出了四个要求:


一是要能够承受持续稳定的海量超高并发连接,而且这个连接量是以前移动互联网时代前所未见的。

二是对于一些需要防控的场景,需要保证链路的QoS支持,特别是OTA场景,必须能够和端侧建立可靠的数据传输通道以及双向QoS支持。

三是对于大数据量,要同时满足超低延时的有状态流式处理与分析数据,这样在数据产生的时候就能直接进行计算产生价值。

四是数据的可重用,需要流虚拟化,降低数据重用成本,快速的从海量的数据中找到所需数据,才能在数据平台上发展出更多的应用。

基于以上这些原则,我们的产品也在不断地迭代。首先是解决数据在云端海量连接和移动存储的架构。


EMQ X是我们最早开始做的一个弹性、可靠、多协议的产品,前端可以接受标准的协议,内部是一个消息路由层的规则引擎,能够和别的开源组件或者应用系统无缝集成,让数据多次存储快速消费,同时也可以在云原生中部署,各种架构部署都非常友好。


HstreamDB流式数据库,可以针对多个数据流合成一个数据的虚拟流,这个虚拟流能在上面针对分析模型产生实时的视图,帮助任务决策,同时也提供插件和大数据架构的AI应用集成。


讲AIoT的部分,不可不说到边缘计算。因为数据在边缘,无边缘计算就没有连接也没有数据,但边缘计算在方案交付过程中有几个挑战:

首先就是边缘的异构设备和协议接入问题,其次是异构设备和碎片化带来的边缘数据之间缺乏互操作性的问题,即有的设备是蓝牙接入,也有是2G、3G、4G接入,在边缘端就需要有一个能支持云边协同的组件,能自己识别到设备所处的状态,按照现在的边缘设备所处的情况进行边缘数据自治。

对于大部分云端或者软件开发者来说,边缘端的硬件环境始终还是陌生的,而且这个环境对于他们来说非常掣肘,难以用原有的开发模式。在各种垂直行业里,不同的协议都有自己的一席之地,我们必须有边缘端的接入层弥合不同的碎片化协议和设备接入。

在边缘端,一边是不断上涨的设备连接量和计算需求,另外一边是捉襟见肘的边缘硬件的资源和成本限制。


这里结合一个背景,在云数据中心的发展趋势里,多核处理器已经是主流了,我们可以确信在边缘端也能实现这个趋势。未来势必会有更多的边缘多核处理器来支撑更高的设备连接量和计算需求。这对传统的边缘端嵌入式开发者的习惯和编程模型都提出了新的挑战。

基于边缘碎片化协议的问题,首先我们开发了工业协议网关软件Neuron,来应对工业4.0的背景下对于不同垂直行业的设备统一接入和协议转换的需求。

Neuron 2.0做得非常轻量化,很容易在各个不同的硬件平台上进行移植使用,甚至可以移植到模组上,可以解决互操作性难的问题。它还可以部署在各种各样单核、多核的芯片架构系统之上。另外我们也很好地平衡了在边缘端对硬件多核性能的利用,以及对软件产品可移植性和可多载性的保证。


对于嵌入式编程领域,如何高效而正确地使用多核硬件进行并行算法的实现,达到高性能的同时又兼顾易移植、易适配的特性,是一直以来存在的问题。而NanoMQ通过内部改进后的NNG异步I/O很好地解决了这一点。


NanoMQ 是 EMQ 今年刚刚发布的面向 IoT&5G 边缘计算场景的下一代轻量级高性能 MQTT 消息服务引擎,也是国内第一款开源的边缘轻量级MQTT Broker。NanoMQ 具备高性能的消息总线能力,弥合边缘硬件和云端的架构差异,连接物理世界与数字智能。赋予边缘消息汇聚再分发能力,解决了边缘端接入层的海量并发问题,进而为边缘计算应用开发提供便利。

为了解决边缘端计算卸载和与AI系统对接的能力,我们推出了eKuiper,将Flink在边缘端做了轻量化实践。例如这里展示了一个简单的应用例子:前端接一个摄像头,通过一个插件就能形成在边缘端的数据推理。


综上所述,EMQ映云科技在数据的连接、移动、存储、处理和分析链路上提供了完善的产品矩阵,实现云边端统一数据的闭环,以便在最靠近数据产生的地方为数据创造最大的价值。


我们既有边缘端的消息数据服务Neuron与NanoMQ,以及用于流式分析的eKuiper,还在云端有支持海量连接的EMQ X,以及支持流式数据处理分析的HSreamDB。

基于这些产品,我们可以为行业打造一个架构。首先在边缘部分把它想象成一个网关,连接不同的工业协议,如果有边缘端的AI应用,可以用eKuiper进行流式处理,然后再通过边缘的云端进行桥接,从而把数据打通,形成数据从诞生到边缘汇聚、存储分析全链路的覆盖。

有了数据的全链路追踪和覆盖能力,就可以形成数据的闭环,将数据转变成信息和业务的洞察能力,从而实现数据反哺到业务的流程。

EMQ希望通过我们自己的世界级开源软件,为IoT行业企业数字化转型升级提供一些帮助,真正服务于产业与社会。谢谢!


3月31日,深圳

中国万物智联大会——工业物联网专场

诚邀您的参与~


版权声明:“物联网智库”除发布原创干货以外,致力于优秀科技/研究/投资类文章精选、精读。部分文章推送时未能与原作者取得联系。若涉及版权问题,或由于二次转载标错了转载来源,敬请原作者联系我们。联系方式:微信wangsujing1314


浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报