边缘计算硬件架构介绍
共 5904字,需浏览 12分钟
·
2021-08-03 22:12
边缘计算包括跨越广泛位置和条件的系统组合,并支持各种用例。某个用例可能需要高功率GPU来实现人工智能(AI),而另一个用例则可能需要低功耗来延长电池寿命。设备的位置,例如微型边缘数据中心或壁挂式工业机柜,对硬件施加了不同的限制。
部署在边缘的硬件历来是专门为特定工作负载构建的,通常是内容分发网络或物联网。随着边缘计算的普及和新的用例的出现,通用基础设施也被部署来运行类似云的工作负载。IDC预测到2023年,边缘网络将占所有已部署云基础设施的60%以上。除了已经推动边缘增长的趋势之外,大流行对劳动力和运营实践的影响将继续加速边缘位置的基础设施、应用和数据资源的交付,这一影响将贯穿2021年和未来几年。
熟悉的数据中心公司和云提供商将添加边缘产品,但形态将越来越多样化。例如,许多首批规模边缘部署系统都是使用微模块化边缘数据中心构建的,而这些系统正迅速被新的形态(如街边机柜和灯杆附件)所增强。为了满足整体连续性需求,特别是在需要计算的网络中的不同点,边缘硬件将有所不同,从电信中心办公室的全尺寸机架到工厂生产线上或通过专用5G连接的仓库中的智能摄像头,或者加固的户外地点,如赛道、石油钻塔、工厂、办公室,甚至飞机和船舶都能成为微型数据中心。
IT和运营技术(OT)越来越融合,这种趋势在边缘尤为明显。2021年也将带来更多的变化:ARM服务器处理器、AI处理芯片、GPU、智能网卡(SmartNIC)和现场可编程门阵列(FPGA)板将越来越普遍。在边缘执行的更广泛的工作负载将增加硬件的异构性,从而产生更广泛的CPU,以及新型硬件和网络加速器。
基于ARM的芯片在边缘的物联网设备中一直很常见,但是ARM新的Neoverse平台的目标产品包括服务器、存储处理器以及网络硬件。AWS在其基于ARM的Graviton实例上投入了大量资金,这有助于验证ARM作为通用服务器处理器架构的价值。AWS还发布了其Outposts超融合系统的1U版本,其中包括Graviton2处理器。微软正在开发自己的基于ARM的硬件,用于CDN和其它边缘场景,但尚未将其用到自己的数据中心之外的地方。Apple最近发布的基于ARM的M1处理器可能会增加对该领域的关注,消费者可以看到功率和性能的提升(并为数百万软件开发人员提供架构的轻松本地访问),从而更好地全面了解ARM的平台能力。
与此同时,英特尔正在推动为物联网创建的Atom、Pentium和Xeon D SoC,作为竞争对手在用户边缘设备中与ARM和AMD竞争,例如用于工业应用的摄像头内分析和实时检查。FPGA、Xeon和ARM内核都出现在SmartNIC中,英伟达热衷于将其更名为DPU:数据处理单元为I/O、存储、安全甚至虚拟化以及网络加速提供CPU卸载,并可与GPU功能结合作为多用途硬件加速器。在中国供应商的推动下,开源的RISC-V硅架构也有可能在这里发挥作用。
近年来,超大规模云提供商已转向FPGA,用于网络卸载以释放可出售给客户的CPU资源,并且越来越多地用于AI加速,因为硬件可以重新编程以适应机器学习算法的改进。没有多少组织具备自己构建和运行类似FPGA系统的技术能力,但随着它们被打包到SmartNIC、DPU或其它加速器中,它们将变得更易于访问。而且其电源效率更像是ASIC(专用集成电路)而不是GPU,因此非常适合边缘计算。
英特尔、英伟达和AMD也在采取措施为数据中心(包括边缘)提供完整的硬件和软件堆栈。英特尔将推出首款独立GPU,以及物联网专用硬件、人工智能加速硬件、FPGA 和智能网卡、旨在提高CPU推理速度的Xeon指令以及基于硅光子学的可组合网络交换机。所有这些选项都由英特尔的oneAPI编程模型联系在一起。
为了与垂直堆栈竞争,AMD和英伟达正在进行重大收购。英伟达已经购买了Mellanox的SmartNIC和网络技术,并宣布有意收购ARM。这将允许英伟达作为获得许可的IP提供GPU和张量核加速,除了提供自己的集成硬件选项(如EGX边缘AI平台),并配有软件即服务(Software-as-a-Service,SaaS)控制平面。AMD收购Xilinx将为其带来FPGA,包括Alveo SmartNIC和加速器,该公司一直将其定位为英伟达GPU的竞争。而另一种广泛应用于ARM核心SoC中的专业硬件加速技术也不会消失。
外形规格的标准化是使部署更容易、成本更低的重要战略,包括寻找共享基础设施投资的可扩展点。类似于超大规模数据中心的硬件是如何围绕开放计算项目的用例专门设计的,基础设施边缘的物理和操作现实的设计正在努力进行中。Open19是一种方法,它由LinkedIn、Flex、HPe和Vapor率先提出,现在是Linux基金会的一个项目,成员包括Equinix和Cisco。
Open19提供了适用于标准19英寸机架的外形尺寸的开源标准,该机架在现有的区域数据中心和电信中心办公室中无处不在。Open19通过利用“盲插”电缆系统,实现电源和数据的无电缆安装。这使计算基础设施能够与物理机架、网络和电源基础设施分开安装和维护。这可以显著降低远程现场位置的运营和维护成本,并允许在机架或机架子单元中异构部署专用硬件。
让机器人在需要更大容量时安装新的Open19服务器还需要一段时间,但预先连接的机架在安装任何计算之前可以同时连接电源、冷却系统和网络,已经加速了Equinix等早期采用者的构建和修复。
大多数边缘位置都将部署硬件以延长使用寿命:云硬件的使用寿命为5-7年或更久,但是预期的维护和物理服务的频率甚至更低。一个极端的例子是微软的实验性水下数据中心Project Natick,它在2020年产生了令人鼓舞的结果,不仅是因为预期的冷却效率,还因为在氮气环境下,没有受到维护方面的干扰,服务器运行的稳定性和正常运行时间:故障率为陆地上标准Azure数据中心中相同服务器的八分之一,这是除了必要性之外的一大优势。
弹性和容灾也将在边缘发展。最大化数据中心正常运行时间的传统方法往往依赖于完全冗余(例如,2n+1)机械系统,这些系统通常成本太高,并且在边缘位置占用太多空间。在边缘环境中,系统正常运行时间将由高可用性软件和人工智能辅助自动化提供,就像当今主要依赖物理冗余的标准一样。软件编排允许开发人员在多个位置生成工作负载,高可用性软件系统可以使用实时和预测性遥测馈送将流量路由到最佳可用的位置,并在检测到故障时重新启动附近位置的服务。
网络硬件正变得越来越基于软件。电信公司正在推动和采用数据中心熟悉的软件定义网络(Software-Defined Networking,SDN)和网络功能虚拟化(Network Functions Virtualization,NFV)趋势,希望围绕商品“白盒”服务器设备进行标准化,从而允许将工作负载放置在低成本硬件上的更多位置。其中包括在客户终端将多个专有硬件设备整合到单个通用白盒设备上,这一点尤为重要。通用客户终端设备(Universal Customer Premise Equipment,uCPE)并不新鲜,但它已经不再是预测,而是成为了现实。许多现有的uCPE设备使用英特尔处理器,但这是ARM重点瞄准的领域。
电信公司拥有充分利用SmartNIC的网络专业知识,随着更多标准化软件支持的到来,企业现在才可以使用这些SmartNIC,但它们应该非常适合边缘。
数据处理单元(Data Processing Unit,DPU)的功率预算仅比服务器中网卡的功率预算有所增加。因此,这些设备可能被证明是一种高效的方式,可以在电力可用性有限的位置实现加速并释放边缘服务器上的CPU内核。可以运行SoNIC等网络操作系统的SmartNIC还可以在某些边缘位置消除对单独交换机的需求,这意味着非技术人员可以通过插入电源线和以太网电缆来安装服务器。
存储
正如SmartNIC从CPU卸载特定网络的处理一样,计算存储正在成为一种在数据存储的确切位置执行数据处理和简单的存储相关应用(如压缩、加密、备份或搜索)的方式。这对于在边缘运行的数据密集型应用具有功率和性能优势,并且随着存储阵列中的嵌入式计算变得更加复杂,它可以支持更多的工作负载。
机器学习训练通常从存储中读取数据,并将模型写回存储中。将训练算法转移到可以在存储设备上执行搜索和聚合的设备上计算资源中,可以释放CPU用于其它工作,或通过允许工作负载在较低规格的设备上运行来降低功耗要求。更低的延迟甚至可以提高训练性能。
计算存储甚至可以在物联网设备上运行云服务的边缘版本,因为它采用SSD和非易失性存储器标准(NonVolatile Memory Express,NVMe)封装,适合没有其它加速选项的设备。随着三星加入了少数且鲜为人知的已经提供计算存储设备的供应商的行列,这项技术有望在长期内成为主流。
虽然边缘计算的当前趋势通常涉及更紧密的加速集成,但超大规模云提供商正在开始研究分类体系结构。为了减少熟悉的多租户方法不可避免的碎片化,其中计算、存储、网络和内存成为一组可组合的结构,机柜式架构(RSA)分别部署了CPU、GPU、硬件加速、RAM、存储和网络容量。然后动态组合资源以适应任意规模的工作负载;甚至主板的组件也可以进行模块化和分离。非易失性内存模型,如NVMe和英特尔的Optane,提供了一组有趣的组件,将类似内存的性能与持久存储相结合,允许在电源可靠性可能存在问题的情况下进行高性能操作。随着NVMe over TCP标准添加到Linux内核中,计算、RAM和存储的分解变得更加引人注目和可靠。
低延迟网络是边缘计算基础设施的重要组成部分,必须以足够的密度和本地临近度来实施,以便网络连接在端点设备附近终止。随着通用边缘网络的出现,它们将重塑互联网路由数据的方式。例如,随着越来越多的数据在本地创建并保存在本地,互连密度将在边缘激增,公共和私有互联网骨干网将延伸到边缘,对等互联和数据交换将发生在接入网的一两跳内,这也是新一代边缘CDN和边缘云系统将运行的地方。
但边缘网络的挑战不仅仅是时延和抖动。例如,为了让无线接入网络利用边缘计算、对等互联和交换点,无线网络必须能够在本地终止数据连接。这被称为本地突破,在不同的地理区域和不同的技术之间,其复杂性会有很大的差异。
边缘网络是使用固定和无线连接,并依照公共和私有解决方案构建的。在某些情况下,特别是对于本地部署,需要新的和升级的网络设备,如通用客户终端设备(uCPE),以利用当前和新兴的边缘设备。此外,除了云增强和边缘原生服务外,可能需要新设备来支持边缘服务,包括内容分发网络(CDN)和应用分发网络(ADN)。
随着边缘计算解决方案的激增,它们需要敏捷的连接,以高效地适应不同的操作环境和服务需求。当边缘解决方案依赖于跨异构网络环境的广域网(WAN)连接时,情况尤其如此。例如,与自动驾驶汽车和移动游戏相关的移动服务必须在WAN环境中可靠地运行。软件定义广域网(SD-WAN)解决方案支持网络资源的敏捷管理,以便在需要的时间和地点调配网络资源。
边缘计算对网络基础设施提出了新的要求。为此,专用边缘网络应运而生。传统回传网络过载的背景下,新的后端服务可能需要在边缘节点间迁移,保持足够接近相关的数据和设备,尤其是当设备处于运行状态时。在边缘,网络路由会监控延迟和拥塞,同时,网络路由可以根据QoS目标动态重新配置。边缘网络实时适应应用和网络条件的服务方面越来越敏捷,通常是通过整合数据中心和云技术,如VXLAN,这些技术允许创建动态层2网络。动L2网络可以在保持IP地址不变的情况下,简化后端服务从一个边缘服务器到另一个边缘服务器、从一个L2交换机到另一个L2交换机的实时迁移,同时保证服务的连续性。在其它条件下,这种服务的连续性难以实现。
边缘计算网络与部署在边缘的设备的连接依赖各种无线技术。尽力而为的边缘服务由Wi-Fi和低功耗无线接入(Low Power Wireless Access,LPWA)等未经许可的无线技术支持。Wi-Fi用于本地提供宽带服务,版本不断升级,如Wi-Fi 6和802.11be。LPWA在非授权频谱中提供广域覆盖,尽管只有窄带能力。与此同时,越来越多的边缘服务,尤其是边缘原生服务(如协作自动驾驶汽车和移动沉浸式游戏),对网络可用性、可靠性、带宽和延迟性能要求极高,可能超过非授权频谱技术可提供的能力。
卫星连接用于全球覆盖的边缘计算服务的主干网络,如海洋或石油平台应用。近年来,高吞吐量卫星(HTS)技术的出现显著提高了卫星性能。卫星星座按轨道可分为低轨(LEO)、中轨(MEO)和地球同步轨道(GEO)卫星星座。更高轨道的GEO卫星可以提供更广的覆盖,并且所需的卫星数量更少,但连接延迟更大。
4G-LTE、LTE-M(Cat-M1)、NB-IoT(窄带物联网)和5G等授权频谱都有望用于无线边缘连接。所需资源可以通过与移动网络运营商的商业关系获得,在可以获得私有和工业许可证的市场中获得,或者部署在共享频谱许可证中,例如美国的公民宽带无线电服务(Citizens Broadband Radio Service,CBRS)频段。
随着数字服务的激增和对边缘计算需求的推动,对网络性能的多样性要求将继续增加。我们必须在考虑现有网络技术的能力、各方需求以及其它因素(包括总拥有成本和地理覆盖要求)的基础上仔细评估这些要求。
推荐阅读:
不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)