AI服务器五大硬件拆解分析

架构师技术联盟

共 5440字,需浏览 11分钟

 ·

2023-08-16 07:22

一篇关于“一台AI服务器到底要用多少PCB”的深度报告,旨在通过拆解服务器 PCB 构成的过程让读者了解一台服务器内部真实的情况,希望读者能够对服务器中所用PCB情况有更为直观的了解,从而把握未来升级过程中真正的价值所在。
1、五大硬件部分可归纳为——GPU 板组、CPU 母板组、配件
AI 服务器我们瞄准英伟达 DGX A100 和 DGX H100 两款具有标杆性产品力的产品进行分析,鉴于 H100 发布时间较短、资料详尽度不够,我们首先从 DGX A100 出发来观测具有产品力的 AI 服务器的基本架构。英伟达DGX A100 外形类似于常见的家用主机,通过对部件构成进行深度分解,我们认为 DGX A100 大体上可以分为五个硬件板块:
1) 风扇模组,从前部(Front)入手,首先看到的是风扇模组板块,DGX A100 的风扇模组由 8 个风扇组成,这一搭配与传统服务器 8U 规格的基本一致;
2) 硬盘,前部风扇模组板块的下方摆放了硬盘和前控制台板(控制与外接设备的信号传输),DGX A100 配备了 8 个 3.84TB 的硬盘,合计内部存储 30TB;
3) GPU 板组(GPU Board Tray),后部(Rear)是整个 AI 服务器的关键组件组装区域,最核心的板块就是 GPU 板组,这也是 AI 服务器区别与普通服务器的关键,从 DGXA100 的架构来看,GPU 板组主要包含 GPU 组件、模组板、NVSwitch 三块,这三块都会涉及到不同类型的 PCB 产品;
4) CPU 母板组(CPU Motherboard Tray),这一部分是所有服务器的核心部件(包括普通服务器和 AI 服务器),其中包含 CPU 母板、系统内存、网卡、PCIE Switch 等部件,CPU 母板、系统内存、网卡是主要涉及到 PCB 用量的部分;
5) 电源模组,DGX A100 后部的下方还配有 6 组电源,电源内部会涉及到厚铜 PCB 板的使用。
从功能性的角度,我们认为 AI 服务器的 PCB 价值量计算可以归纳为三个部分,其一是AI 服务器最为核心的 GPU 板组,其二是所有服务器都必备的 CPU 母板组,最后是风扇、硬盘、电源板块等配件组。本文将基于这三大部分逐一分解。
2、GPU 板组:单机价值量 1.2 万,载板占比 52%、PCB 板占 48%
GPU 板组的 PCB 主要是由 4 个部分组成,GPU 载板、NVSwitch、OAM、UBB。
1) GPU 载板,英伟达 A100 的 GPU 和 DRAM 采用 2.5/3D 先进封装工艺,用于承载的板材采用 70*70mm~100*100mm、14~16 层的 FCBGA 载板,数量上与 GPU 数量存在一一对应关系,按照 DGX A100 搭载 8 颗 GPU 的数量来看,1 台 AI 服务器需要用到 8 颗 GPU 载板;根据产业链调研,单颗价值量约为 100 美元,即 650 元人民币/颗,由此对应单机 GPU 载板价值量为 5200 元。
2) NVSwitch,基于 NVLink 标准用于 GPU 之间通信的基础模组,搭载 NVSwitch 的载体是类似于载板的产品,加工性要求较简单、关键是承担多数据量高速传输的性能,根据产业链调研单颗价值量约为 30 美元,即 195 元/颗,按 A100 搭载 6 颗计算可得单机价值量为 1170 元。
3) OAM,OCP Accelerator Module,中文简称 GPU 加速卡,是用于承载 GPU 芯片的板卡,数量上看 OAM 与 GPU 存在一一对应的关系,以 DGX A100 搭载 8 个 GPU 的数量来看,1台 AI 服务器需要用到8块 OAM;面积上来看,借鉴 PCIE 版本 267.7mm*111.15mm的尺寸规格(内部 PCB 规格与外壳规格基本一致),可测算出 OAM 的面积尺寸约为0.03 平方米;PCB 板型上来看,由于 OAM 涉及到 GPU 高速多线路信号传递,根据产业链调研,DGX A100 OAM 的 SXM 版本需要用到 20 层、Ultra Low Loss 等级 CCL 材料、4 阶 HDI 工艺,对应产品单价为 12000 元/平方米,DGX A100 OAM 的 PCIE 版本相对规格较低,只需要用到 14 层、Ultra Low Loss 和高 Tg FR4 等级 CCL 材料混压、1 阶 HDI 工艺,对应产品单价 7000 元/平方米。综合来看,如果按照 DGX A100 机型配置,高端 AI 服务器的 OAM 单价价值量将达到 2880 元。
4) UBB,Unit Baseboard,中文简称GPU模组板,是用于搭载整个GPU平台的PCB 板,1台AI服务器对应1块UBB,根据 DGX A100整机底面规格和产业链调研,我们预估UBB面积约为0.30平方米,需要用到26层通孔PCB板,CCL材料运用Ultra Low Loss,对应单价约为10000元/平方米,对应单机价值量为 3000 元。
综上合计,英伟达DGX A100 GPU板组主要由GPU载板、NVSwitch、GPU加速卡、GPU 模组板四部分组成,四部分合计单机 PCB 面积达到 0.624 平方米,对应 PCB 单机价值量为12250 元,其中载板级别的产品单机价值量为 6370 元、占比 52%,PCB 级别的产品单机价值量 5880 元、占比 48%。
3、CPU母板组:单机价值量2845元,载板占46%、主板占40%
CPU 母板组涉及到CPU载板、CPU主板和配板,其中功能性配板包括系统内存卡、网卡、拓展卡、存储操作系统驱动板。
1)CPU 载板,根据产业链调研,CPU载板与GPU 载板规格相近,如果按单颗 CPU 载板价值量 100 美元、DGX 搭载2颗CPU,则单机价值量约为 1300 元。
2)CPU 主板,主要用于承载 CPU 芯片、PCIE Switch 芯片、TPM 模组及各种功能性配板卡,该类 PCB 板的规格主要由 CPU 平台设计和总线标准,按照 DGX A100 的方案主要采用 64 核 AMD Rome 的 CPU 芯片、总线标准仍然为 PCIE 4.0,因此 CPU 主板仍然采用 10~12 层、Low Loss 等级 CCL 材料、通孔板的设计,根据产业链调研,单价约为3000 元/平方米;按照 DGX A100 的尺寸规格设计,估测 CPU 主板面积为 0.38 平方米,由此可计算 CPU 主板单机价值量为 1140 元。
3)功能性配板,配板种类较多,根据产业链调研,配板一般采用的规格是 8~10 层板、Mid Loss 等级 CCL,单价约为 1500 元/平方米,面积和数量参照 DGX A100 则为:
 CPU 内存卡,DGX A100 设计配置 32 块 CPU 内存卡、合计 2TB RAM,一般来说服务器 CPU 内存卡行业有较为统一的标准尺寸,估测单块内存卡面积约为 0.004平方米/片;
网卡,DGX A100 网卡采用 Mellanox ConnectX 系列产品(有 X-7 和 X-6 的产品选配),标配的网卡为10张(8 个单端口 200Gb/s 的 IB,2 个双端口 200Gb/s 以太网),根据英伟达官网披露 Mellanox ConnectX-7 的尺寸 68.90mm*167.65mm,计算可得单块网卡板面积约为 0.012 平方米/张;
 拓展卡,Riser Card,服务器会因为板卡摆放设计而用一些拓展卡来拓展 PCIE接口,DGX A100 中因为有一张横置 Storage networking 网卡,因此需要设置一张拓展卡,根据产业链调研该拓展卡面积约为 0.01 平方米/张;
 存储操作系统驱动板,DGX A100中会搭载2个1.92TB M.2 NVMe 的系统驱动器,但两个驱动器是搭载在一张PCB板的两面,因此系统驱动板只有1块,面积约为0.01 平方米/张。
上述四部分合计,功能性配板单机面积为 0.27 平方米,对应单机价值量约为 405 元。
综上合计,英伟达DGX A100 CPU母板组PCB用量面积合计为0.662平方米,单机价值量约为 2845 元,其中载板级产品占比 46%,PCB 级的主板产品占比40%,PCB级的配板产品占比14%。
4、其他配件:单机价值量合计 226 元
除 GPU 板组和CPU模板组外,其他配件还包括电源、硬盘、前控制台板等,根据产业链调研,这一类产品主要采用 6~10 层、FR4/Mid Loss 等级CCL的规格,单价约为1000~1500 元/平方米不等,参照 DGX A100 规格对用量和面积进行计算则为:
1)电源,从用量上看 DGX A100搭配6个电源,参照台达电2200W 服务器电源 DPS-2200-AB-2 型号 73.5*265.0mm的规格,我们估测单个电源用PCB板面积为0.019平方米;
2)硬盘,从用量上看 DGX A100 搭配8个硬盘,参照行业标准3.5盘,我们估测单块硬盘中 PCB 面积为0.008平方米;
3)前控制台板,主要用于控制外接设备,是放在8个硬盘中间的1块 PCB 板,根据产业链调研,我们估测该板面积约为 0.010 平方米。

综合GPU板组、CPU模板组和配件,我们估测DGX A100整机 PCB用量面积为 1.474 平方米,单机价值量为15321元,其中GPU板组单机价值量达到 1.2万元、占比达到80%,CPU母板组单机价值量为2845 元、占比为 19%,其他配件单机价值量 226 元、占比为1%;从板级的分类来看,载板级别单机价值量为7670元、占比达到 50.1%,PCB 板级单机价值量为7651元、占比为 49.9%。

下载链接:
从特斯拉、英伟达、Mobileye的视角,看智能驾驶芯片的竞争格局
Chiplet半导体行业弯道超车,先进封装、IC载板、半导体IP等多环节收益

一台AI服务器到底要用多少PCB

AI时代流量变化格局变化研究:地图的流量入口潜力

AI+散热,液冷站在新风口

《芯片封测行业技术分析合集》
1、封测行业研究框架 
2、半导体封测专题:封测行业景气,先进封测驱动芯片成长 
3、半导体精华:先进封测,价值增厚
4、裸芯片封测技术的发展与挑战 
5、先进封测装与Chiplet共塑后摩尔半导体产业新格局
6、IC半导体封装测试流程(精华版)
《70+篇半导体行业“研究框架”合集》

《46份智能网卡和DPU合集》

365+份重磅ChatGPT专业报告

《人工智能AI大模型技术合集》
《FPGA五问五答系列合集》


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)(39本全)”相关电子书已经更新至39本,持续更新中。
1、下单“架构师技术全店资料打包汇总(全)”,包含服务器基础知识全解(终极版)pdf及ppt版本,价格仅收239元(原总价399元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


浏览 3883
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报