- 边缘计算与算力网络:5G+AI时代的新型算力平台与网络连接
- 雷波等
- 4615字
- 2021-01-07 18:28:25
1.3 算力平台与网络连接
孤立的算力平台是很难为大众服务的。例如,各类超算中心面向非常专业的用户群体,需要考虑数据的安全性与代码的特殊性,一种常见的方案是用户携带硬盘乘坐飞机去超算中心所在城市,待运算完毕之后,再携带存储结果的硬盘回到本地。显然这样的方案是很难被规模复制的,因此算力平台需要通过网络与用户或其他平台进行连接。
1.3.1 云计算时代的网络解决方案:云网一体
云网一体是指将云计算架构与网络能力充分融合,利用SDN/NFV技术将应用、云计算、网络及用户联通起来,提供“云、网、边、端”的完整、灵活、可扩展的云网一体化服务,网络将按照云计算的要求提供网络资源(网络即服务),而云则根据应用的需要调用网络资源。
云网一体化要求在基础设施布局、管控架构及业务产品等层面上都呈现“云、网、边、端”的高度协同。
随着5G时代的到来,运营商需要从网络架构、基础设施、业务服务和运营模式四个方面全面提升,以满足未来融合应用场景的“云、网、边、端”一体化服务需求。在网络架构方面,电信运营商加快推进NFV云化网络重构,将5G核心网、城域网部分网元功能和业务应用都部署在云数据中心上,由云化形态的数据中心和全局智能化网络编排管理共同组成新型的网络架构。在基础设施方面,电信运营商开始规划部署边缘计算,将业务数据传送到离用户更近的边缘数据中心机房或基站处理,降低网络时延,以满足未来5G实时业务交付。在业务方面,电信运营商以网络为基础,围绕云专线、云专网等云网融合产品和服务,构建面向行业的新型运营服务体系,实现云网融合产品的“一点受理,自动开通、统一运维、自动随选”的目标。同时,以网络连接为中心,对上游用户提供面向行业应用的网络连接服务,对下游厂商实现合作伙伴云服务能力和运营商自身网络服务的集成,构建属于运营商特征的云网一体生态。在运营模式方面,电信运营商需要重构现有运营系统,构建业务端到端的支撑体系,通过SR/EVPN等技术统一业务端到端承载,从而简化网络配置,降低运维复杂度。
1.3.2 从边缘计算视角看网络:ECA/ECN/ECI
经过这几年的边缘计算实践,业界已经逐步认识到:在现有网络架构体系下,是很难满足边缘计算对网络的需求的。第一,在网络层级的划分上,传统分类方法难以描述边缘计算所涉及的网络基础设施,如用户系统通过无线回传网[无线接入网IP化(IP Radio Access Network,IP RAN)、切片分组网(Slicing Packet Network,SPN)]接入边缘计算系统,同时边缘计算系统到云计算系统之间也可能通过无线回传网,但两类场景下的要求和发展方向存在很大的差异。第二,围绕边缘计算的需求,新型网络技术与新型网络设备正在发展中,但与现有技术和设备的定义差异很大,难以用现有概念去定义和评估。因此有必要以边缘计算系统为中心,重新审视和划分对应的网络基础设施,研究和应用新的解决方案与关键技术,从而满足边缘计算对网络的各类诉求。
从边缘计算的视角,参照云计算相关网络的划分方案,可以将边缘计算所涉及的网络基础设施分为三部分,分别是边缘计算接入网络(Edge Computing Access,ECA)、边缘计算(内部)网络(Edge Computing Network,ECN)、边缘计算互联网络(Edge Computing Interconnect,ECI)。
1. ECA
ECA是指从用户系统到边缘计算系统所经过的一系列网络基础设施,ECA是边缘计算网络技术体系区别于云计算网络技术体系的重要部分。ECA具备下列特征。
1)融合性
在物联网、工业互联网、智能家庭等场景下,用户侧终端接口及协议种类非常丰富[仅国际电工委员会(International Electrotechnical Commission,IEC)确定的工业现场总线就高达几十种]。边缘计算网络用户侧接口需要支持异构性,以接入各种类型的用户/网络终端。
同时,国内主流三大运营商侧的网络基础设施也分为固定承载网与移动承载网两大体系。为了满足边缘计算更高的业务要求,ECA需要将不同类型的网络进行整合,从传统的简单的互联互通逐步升级到基于深度融合的互操作。
另外,随着运营商边缘计算下沉到企业园区网及5G网络延伸到企业办公/生产网络,运营商网络与企业园区网络逐步从互联走向以互联、互通、互操作为标志的融合。
2)低时延
边缘计算业务具有低时延特性,这不仅需要将边缘计算系统部署在网络边缘,缩短与用户系统之间的空间距离,而且需要减小两者之间的逻辑距离,即减小流量在网络中的实际传送距离。同时,部分场景还需要考虑专有的低时延网络技术,从技术本身提供更低的传送时延(如5G、TSN、DetNet等技术)。因此,ECA需要采用多种策略,以实现从用户系统到边缘计算系统之间的端到端低时延。
3)高带宽
边缘计算业务对网络基础资源的带宽需求可分为两类需求:一是高下行带宽需求,典型的业务有视频点播类、云VR等业务,其对网络的需求主要是下行带宽需求;二是高上行带宽需求,典型的业务有AI应用、智能监控等业务,其对网络的需求主要是上行带宽需求。现有网络大多重点解决下行带宽问题,而上行带宽增加则需要ECA引入更多的新技术和新协议。
4)大连接
对于边缘计算在物联网相关场景中的应用,其承载的连接数量是现有连接数量的数千倍,因此ECA必须具备支持海量连接的能力。
5)高安全性
ECA融合用户侧网络与运营商侧网络,导致网络边界发生变化,这会引发两方面的问题。一方面是用户担心其信息在不受控的外部网络被截取复制;另一方面是运营商担心不受限的用户设备冲击整个网络,带来网络安全隐患。因此ECA必须考虑可信区域重叠的问题,即用户如何与运营商建立安全的可信机制。
2. ECN
ECN是指边缘计算系统内部网络基础设施,如连接服务器所用的网络设备、与外网互联的网络设备及由其构建的网络等。边缘计算系统规模小于云计算系统,且两者发展方向也截然不同:云计算系统强调规模效应,通过集中部署大量计算资源、存储资源来降低单位成本,而边缘计算系统则强调用户感知提升,通过拉近与用户的距离实现低时延、高带宽、大连接、高安全性等业务指标。因此,边缘计算(内部)网络(ECN)与数据中心(内部)网络(Data Center Network,DCN)具有完全不一样的特征。
1)架构简化
ECN所涉及的设备数量、连接数量远小于DCN,可根据规模大小选择不同类型的网络架构,当扩展性要求高时可以采用Spine-Leaf架构等,当服务器规模在20~100台时可以采用简单三层网络架构(出口—汇聚—接入),当小于20台时可以采用扁平架构(即用一套网络设备同时完成接入、汇聚和出口功能)。
2)功能完备
边缘计算系统作为独立存在的用户业务承载系统,需要满足相应的运营和监管要求,如仍需要提供深度数据包检测(Deep Packet Inspection,DPI)、流量探针、综合管理等功能,简而言之,就是“麻雀虽小五脏俱全”。因此,ECN有必要根据系统规模,尽量采用简化架构,增加设备能力,从而减少网络设备占用的空间和电力等资源。
3)无损性能
高性能计算业务,如AI类业务,需要网络具有超低时延、零丢包等能力,避免网络成为瓶颈。因此,当此类业务部署在边缘计算系统中时,需要ECN具备无损网络能力。
4)边云协同,集中管控
边缘计算系统天然的分布式属性,单个规模不大但数量众多,若采用单点管理模式难以满足运营的需求,还会占用宝贵的机房资源,降低收益。而且边缘计算业务更强调端到端时延、带宽及安全性,因此边云、边边之间的协同也是非常重要的问题。一种理想的方案是在云计算系统中引入智能化的跨域管理编排系统,统一管控一定范围内所有边缘计算系统中的网络基础设施,因此ECN必须支持基于边云协同的集中管控模式,以保证网络与计算资源的自动化高效配置。
3. ECI
ECI是指从边缘计算系统到云计算系统(如公有云、私有云、通信云、用户自建云等)、其他边缘计算系统、各类数据中心所经过的网络基础设施。相比DCI(数据中心互联)网络,ECI具有如下特征。
1)连接多样化
边缘计算系统涉及与多种类型系统的连接,包括云计算系统、其他边缘计算系统、用户自建的系统等,因此ECI连接的对象多,且属于不同运营方(如用户本身、云服务运营商、其他边缘计算运营商等),从而ECI相对DCI更为复杂多变,难用单一技术或者网络完成互联工作。
2)跨域低时延
用户对低时延的要求也会从ECA延伸到ECI中来,如在车联网业务场景中,还需要在边边协同的基础上继续保持用户业务的低时延特性。但目前这方面的研究还处于起步阶段,有待后续根据业务需求进一步发展。
1.3.3 算网一体化布局
边缘计算的低时延内在需求需要网络由云网一体化向算网一体化演进。作为面向新兴场景的新型网络架构,涉及众多技术,需要泛在多样的连接、确定性无损转发、算力的按需分配、网络切片和网络智能化及在各种必要场景中的加速能力。为了支持云网边端协同与融合的整体能力和内涵,需要设计相应的参考架构并且应用相关技术,参考架构需要考虑连接能力、信息特征、资源约束性、资源应用编排等各方面因素。
虽然边缘计算技术可以看作云计算技术的扩展,但是由于边缘计算节点数量众多、边缘站点资源有限等原因,边缘计算的架构和传统云计算的架构存在一定的差别。如果要实现算力资源在边缘和核心的灵活调度,则需要设计新架构进行资源管理。从运营商角度考虑,边缘节点的建设仍然离不开云资源池的建设,仍然需要虚拟化、云管等一系列云计算维护和管理体系,只有和当前正在推进的NFV体系融合,才能更好地降低云资源池的建设成本,提升边缘计算价值。
5G时代带来了计算节点的下沉,算力将遍布整个网络,业务对算力的需求也逐渐呈现出多样化、多变化的特征。如何结合网络对算力资源进行调度、充分利用,以及如何对整个网络进行算网一体化的改造,是当下亟须研究的问题。运营商要结合边缘计算的特点从网络架构、基础设施、业务服务和运营模式等多个方面进行提升,更需要对底层网络架构进行算网一体化的重构,将传统以承载南北向流量为主的基础网络架构,向能够灵活调度、兼顾时延指标、利于东西向流量的新型网络架构方向演进。
1.3.4 边缘计算时代的新型网络连接:算力网络
由于多级算力部署是边缘计算乃至云计算发展的必然选择,因此在多级算力之间进行合理的算力分配与灵活调度,也就成为边缘计算实施与部署过程中必不可少的一环。但在现有的云计算服务体系中,尤其在基础设施即服务(Infrastructure as a Service,IaaS)层面,还停留在让用户自行选择应用部署位置的阶段,没有提供按需分配和调度算力的手段。究其原因,是现有的云计算体系并未将广域网(如电信运营商的接入网、城域网、骨干网)纳入整体的管控中,而各方所提的云网融合还处在一个相对简单的初级阶段,还需要建设一个横跨云网和网管的超级协同编排系统,运营难度相对复杂。因此有必要从底层架构开始,重新考虑和设计云、网、边深度融合方案,用以实现算力等基础信息资源的分配与调度,构建算力网络,这是一种新的技术发展方向。
算力网络是一种通过网络分发服务节点的算力信息、存储信息、算法信息等,结合网络信息(如路径、时延等),针对用户需求,提供最佳的资源分配及网络连接方案,并实现整网资源最优化使用的解决方案。算力网络将具备以下四个基本特征。
(1)资源抽象:算力网络需要将计算资源、存储资源、网络资源(尤其是广域范围内的连接资源)及算法资源等都抽象出来,作为产品的组成部分提供给用户。
(2)业务保证:以业务需求划分服务等级,而不是简单地以地域划分,向用户承诺诸如网络性能、算力大小等服务等级的协议(Service-Level Agreement,SLA),屏蔽底层的差异性(如异构计算、不同类型的网络连接等)。
(3)统一管控:统一管控云计算节点、边缘计算节点、网络资源(含计算节点内部网络和广域网络)等,根据业务需求对算力资源及相应的网络资源、存储资源等进行统一调度。
(4)弹性调度:实时监测业务流量,动态调整算力资源,完成各类任务,高效处理和整合输出,并在满足业务需求的前提下实现资源的弹性伸缩,优化算力分配。