云计算基础设施技术需求(白皮书)
共 6764字,需浏览 14分钟
·
2021-02-28 08:13
自从云计算技术在将近 20 年前推出以来,应用和计算资源不断从企业数据中心向云环境持续迁移。本文重点讨论云基础设施技术需求,白皮书下载链接:云基础设施技术需求(白皮书)
IT基础架构向云端的迁移仍在继续,而据 Gartner 预测,到 2025 年,将有 80% 的企业关停传统数据中心,随着这一转变的推进,云服务提供商将面临在超大规模云环境中不断提高性能、扩展性和安全性的挑战。为达到所需的服务水平,这些超大规模云服务提供商采用一些工具,包括:
本文将探讨中国片上系统 (SoC) 开发人员在满足现代云基础架构需求方面所面临的一些挑战,以及可用于开发高效 SoC 解决方案的工具与技术。
推动云计算发展的主要趋势推动当前云计算市场发展的主要趋势有三个,而每个趋势都给 SoC 设计人员提出了挑战:
云数据的快速增长云数据正以指数级不断增长。受互连设备数量快速增长,流视频、社交媒体上共享的内容日益增多、在线增强现实和虚拟现实 (AR/VR) 体验以及 5G 无线网络的推动,IDC 预计,从 2020 年至 2025 年,云数据的数量将增长3 倍。
云数据的增长推动着位于中心的超大规模数据中心和位于网络边缘的远程设施中计算密度不断增加。计算密度的提高需要更节能的 CPU,这样才能在现有数据中心设施的功耗和热量预算范围内提高计算能力。由于对更节能的 CPU 的需求,市场最近对于针对每瓦特性能而优化的基于 ARM 的服务器 CPU 再次表现出了极大的兴趣。
数据量的增长对更快的服务器接口提出了需求,因为在服务器内部和服务器之间需要搬运大量数据。服务器内的数据移动可能是主要的瓶颈,也是延时的根源。通过最大限度地减少数据移动,并在数据需要移动时提供高带宽、低延迟接口,这对于最大程度提高性能、减少延时和功耗至关重要。要提高性能,所有内部服务器接口都在进行升级:
● DDR5 接口的速度提高到 6400 Mbps
● 当 PCIe 接口从 16GT/s 的 PCIe 4.0 过渡到 32GT/s 的 PCIe 5.0 时,其对带宽的需求会加倍。由于 PCIe 4.0 未广泛普及,某些设备的带宽会增加更多,因此,某些设备将直接从 PCIe 3.0 (8GT/s) 转到 PCIe 5.0。
● NVMe SSD 正从 PCIe 3.0 转向 PCIe 5.0,使带宽增加 4 倍
● Compute Express Link (CXL) 提供了在 PCIe 电接口上运行的缓存一致性接口,并允许多个处理器 / 加速器有效共享数据和内存,从而减少系统中需要移动的数据量。
● 通过采用 PAM4 编码并支持多种协议的 56Gbps 和 112Gbps 新型高速 SerDes 技术,可在包括晶片、芯片、加速器与背板的设备之间提供更快的接口除了上面列出的接口之外,多种类型的内存还可以满足不同用例的容量、功耗和性能要求。如果内存容量是主要考虑因素,DDR5 则是必选的内存类型。如果内存带宽是最重要的考虑因素,HBM2E 则可提供对内存中数据的高速访问。
举例来说,图 5 显示了一个服务器的典型框图,该服务器分别配备采用 CXL 和 PCIe 的一致性和非一致性 I/O 接口,以及一个大容量 DDR5 内存接口。
为了在处理服务器之间传输的数据时提高性能和效率,许多服务器现在都整合了“智能 NIC”,它包含 NIC 上的嵌入式处理器,用于减轻主机CPU上的网络协议、安全功能,SDN 和其他功能的处理负担。智能 NIC 有助于以更高的性能对网络数据包进行处理,同时为应用的处理保留主机CPU带宽。
除了更快的接口和更高效的存储器外,保护数据对于云计算同样至关重要。随着数据在云端传输和存储的价值不断提高,数据的不当访问和滥用等方面的威胁也在增加。为了适当地保护授权用户可访问的数据的机密性、完整性和可用性,标准化机构纷纷将安全要求纳入数据接口协议中。要在这些高速接口中实施必需的安全算法,需要用于数据加密和解密的高质量加解密 IP、用于实施高速安全协议的安全协议加速器 IP,以及用于提供信任根和安全密钥管理的可信执行环境。为了避免在各个数据路径中产生瓶颈,用于实现这些功能的 IP 必须能够保持原数据路径线速率运行。
在过去几年间,全球数据中心市场呈现温和增长的态势,IT 支出从 2017 年的 1810 亿美元将增长到 2021 年预期的 2120亿美元(复合年增长率为 4.0%)。如图 8 所示,约三分之一的支出用于服务器系统。截至 2019 年第四季度,按收入计算的前 5 位供应商包括 HPE/New H3C Group和Dell Technologies,分别拥有约 16% 的市场份额,IBM、浪潮和联想进入前五名。值得指出的是,华为的服务器提供商地位不断增强,由于中国的“一带一路”基础设施项目的推动,有望很快跻身前五名。
如前文所述,数据增长对网络速度提出了更高的要求。许多数据中心正在将从服务器到架顶 (ToR) 交换机的网络接口速度从 25GbE 提高到 100GbE。在从 ToR 交换机到分支交换机和主干交换机的链路上以及数据中心设施之间安装了400GbE 基础架构。领先的以太网交换机厂商已经在开发基于 112G SerDes 的 800Gbps 交换机,而且随着数据量的持续增长,未来几年可能会推出 1.6Tbps 以太网。
支持 400Gbps 以太网端口的基础架构交换机可采用 56G x 8 或 112G x 4 SerDes 电接口。
2019 年,数据中心网络基础架构(主要以全球以太网交换机和路由器市场为代表)与 2018 年相比略有增长,实现总收入 443 亿美元(以太网交换机为 288 亿美元,路由器为 155 亿美元)。华为和 Arista Networks 是前五名企业中在 2019全年相对于 2018 年实现市场份额增长的仅有两家供应商。图显示了全球前五名以太网交换机厂商各自的市场份额。
目前,中国是仅次于美国的全球第二大云基础架构市场,三家大型云服务提供商占据主导地位:阿里巴巴的云基础架构服务支出超过 46%,腾讯占 18%,百度 AI Cloud 占 8.8%。在 2019 年第四季度,中国云基础架构市场呈现 66.9% 的强劲增长势头,达到 33 亿美元,占全球市场的 10.8%。
存储行业的最新进步要求管理不断增长的数据量,并使用加速器来处理数据。这些进步包括使用计算存储、存储类内存、与持久性存储器连接的缓存一致性接口,以及适用于更高数据传输速度的下一代 NVMe接口。计算存储系统是智能存储系统,在存储服务器内完成应用处理任务,旨在最大程度减少从存储服务器到计算服务器的网络数据传输。计算存储系统可以查询本地数据库,并且仅将结果集发送到应用 / 数据库服务器,而不是将大量原始数据发送到应用/数据库服务器进行处理。
通过仅发送结果集,计算存储系统可以减少网络负载,使应用处理器能够执行其他任务。存储类内存 (SCM) 为增强服务器性能提供了一种相对低成本、高性能、持久内存解决方案。SCM 可以根据应用的需求以多种方式部署。例如,使用 SCM 作为附加内存层可以在数据库服务器上实现在内存中进行数据处理,与 NAND 闪存驱动器相比,数据读写性能提高 10 倍或更多。
在存储应用中使用缓存一致性接口可以使多个设备在共享内存时保持缓存一致性,从而提高性能,并减少数据移动。Compute Express Link (CXL) 就是这样一种接口。基于 PCIe 5.0 的 CXL 1.1 以 32GT/s 的速度为缓存、内存和 I/O 设备提供数据传输。
NVMe 存储设备纷纷采用 PCIe 5.0 接口,将 SSD 吞吐量提高到每个PCIe 通道 4GB/s。与PCIe 3.0相比,这一速度提高了4倍,目前,x86 服务器中一般都实施了 PCIe 3.0。
随着云应用不断演进,出现了更多可视化内容,对可视化计算的支持已经成为云基础架构的一项额外功能,包括用于商业应用(包括在线协作)和娱乐(例如电影)的流视频、AR/VR 和图像分析(例如 ADAS、安全和其他需要实时图像识别的应用)。可视化计算的激增导致高性能 GPU 集成到云服务器中,并通过高速加速器接口连接到主机 CPU 基础架构。
云与边缘的融合将使云服务更靠近最终用户,从而提供更丰富、更高性能和更低的延时体验。同时,随着云服务提供商和电信提供商急于推销本地化、高响应性的服务,这将为他们创造新的商机,因为这些服务过去只能从云核心提供。在过去几年中,连接到互联网的设备数量一直在迅速增加,并且在未来几年中将以更快的速度增长。据 Statistica 估计,2018 年有 220 亿个联网设备,到 2025 年,这一数字将增长到 380 亿以上。
在这些联网的设备中,很多都是传感器,用于收集数据并将其上传到云端,以分析并确定立即或将要采取的行动。信息安全、交通和物料流管理以及自动驾驶汽车是众多控制系统中的几个例子,而且这些控制系统已经或即将会通过互联网交换信息。特别需要指出的是,对于控制系统,数据必须可靠地传送,而且从收集数据到基于这些数据发出命令几乎不能有延时。换句话说,这些类型的应用需要延时极低的基础架构。
要实现对控制系统和其他对延时敏感的应用的快速响应,最佳方法也许是使数据收集、存储和处理基础架构更靠近使用点,即网络边缘。因此,我们看到越来越多的云服务提供商与电信公司合作,在多访问边缘计算 (MEC) 平台中提供云服务。Microsoft Azure9 和 Google Cloud已与 AT&T 合作,在 AT&T 的多访问边缘计算站点部署了云基础架构。另外,AWS 与 Sprint(现为 T-Mobile)和 Verizon合作,通过各自的基础架构部署 AWS 云服务。
然而,在边缘基础架构中部署云服务要求运行云服务的设备能够容忍边缘环境,因为边缘环境不一定拥有与典型云数据中心相同的物理空间、环境控制或电力供应。因此,允许的延时越短,服务就越需要部署到边缘,而且允许的功耗也可能越低。
最后,用于数据分析的人工智能已成为云数据中心的重要功能。人工智能加速器在设备中和云端无处不在。人工智能加速器支持执行卷积、递归、尖峰和其他深度神经网络,以支持大量应用。针对云环境的人工智能加速器一般针对 TOPS进行了优化,以提供最高的性能。这些加速器的设计支持扩展,以缩短训练时间并适应最复杂的人工智能算法(支持超过 80 亿个参数)。由于人工智能加速器倾向于处理大量数据,因此,内存接口通常是瓶颈所在,这使得高带宽内存对于这些设备特别有益。
针对边缘计算(尤其是聚合器和网关应用)的人工智能加速器通常针对每瓦性能 (TOPS/W) 进行了优化,以解决边缘基础架构和服务的功耗与延时问题。这些设备具有较高的计算能力和相对简单的软件模型,能够提供快速响应能力。它们往往为实现低成本和低功耗而进行了优化,而这通常会要求使用低功耗 DDR (LPDDR) 内存。
为了支持人工智能解决方案的扩展,加速器必须包含一个高速接口,例如 56Gbps 或 112Gbps SerDes 或 HBI。芯片间的高速接口提供了加速器缩放和扩展能力,可满足苛刻的人工智能应用的需求。
新思科技提供了高质量且经过硅验证的全面 IP 产品组合,使设计人员能够开发支持当前和未来云计算应用的 SoC。新思科技的 DesignWare® 接口 IP、处理器 IP、安全 IP 和基础 IP 针对高性能、低延时和低功耗进行了优化,同时支持从16nm 到 5nm FinFET 的先进处理技术。新思科技针对云 SoC 的全面 IP 产品组合包括:
● DDR5/4 内存控制器和 PHY:提供一流的性能,数据速率高达 DDR5-6400,引入了 DDR5 相位感知调度引擎,与竞争对手相比,面积减少了 15%,功耗降低 10%
● HBM2/2E 内存 PHY:具有业界领先的面积和功耗,并且功耗比竞争对手的 IP 低 80%
● 112G 多协议 SerDes:以 <5.5pJ/ 比特的速率支持多种数据速率(1.25 至 112 Gbps)
● 112G USR/XSR SerDes 和 HBI 接口:针对芯片间接口进行了面积优化
● 高速以太网解决方案,包括原型设计套件和 IP 子系统,可加快产品开发速度,并缩短上市时间
● PCIe 5.0 解决方案:经过硅验证,并已被 90% 的领先半导体公司使用
● CXL 解决方案:基于新思科技经过硅验证的 PCIe 5.0 IP 而构建,可降低集成风险,其中包括用于验证 I/O、内存访问和一致性协议功能的 VC 验证 IP
● ARC HS 处理器:提供从 1 到 12 个 CPU 内核的业界领先的扩展性,并支持多达 16 个用户硬件加速器,以适应极端工作负载
● 高能效 CCIX PHY 和最低 延时的控制器
● USB 3.0、USB 3.1、USB 3.2 和 USB4 解决方案:具有行业领先的低功耗和小面积实施能力,在数百万 SoC 中提供了经验证的互操作性,并且降低设计风险
● 高质量、经过硅验证的基础 IP:包括内存编译器和非易失性存储器 (NVM)、逻辑库、通用 I/O (GPIO) 和测试解决方案,使片上系统 (SoC) 设计人员能够 降低集成风险,并加快产品上市速度
● TCAM 和多端口内存:支持用于网络和其他应用的高速、低功耗网络解决方案
● ASIP Designer:通过基于 C/C++- 编译器的高效软件开发套件而开发定制加速器,该套件可自动适应每种体系架构的变更,并自动生成针对功耗和面积而优化的可合成的 RTL
● 安全 IP:包括安全协议加速器、加密加速器和信任根 IP,可为云计算和其他市场中的多种产品提供最高效的芯片设计和最高的安全性的绝大多数 IP。
云计算的演进为 SoC 开发人员带来了许多新的机遇和挑战。这种技术引发的一些关键变化包括互联网中传输以及云端存储或使用的数据量快速增长,云服务向网络边缘的扩展,以及为处理海量数据并从中获取洞察而广泛部署的人工智能。
随着机器间的通信、流视频、增强现实和虚拟现实以及其他应用生成越来越多的数据,云基础架构必须不断增强,以最大程度减少需要移动的数据,并最大程度加快从一个位置向另一位置传输数据的速度,无论是长距离传输,还是服务器内部的一个芯片传输到另一个芯片。
随着互联网用户和联网设备数量不断增多,互联网上数据的快速增长要求采用新的机制而减少数据移动,并加快数据从一个位置向另一位置的传输。
借助高质量、经过硅验证的 IP 构件,设计人员能够开发用于高端云计算解决方案的 SoC,包括服务器、网络、存储、可视化计算、边缘计算和人工智能加速器应用。
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师技术全联盟书店”相关电子书(35本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收188元(原总价290元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。