老黄数字人登场!英伟达秀“元宇宙”肌肉,推巴掌大AI超算和虚拟化身平台
共
8299字,需浏览
17分钟
·
2021-11-13 21:46
黄仁勋“手办”对答如流,英伟达强势拉开元宇宙序幕,帮企业开发大模型。芯东西11月9日报道,今日,人工智能及高性能计算顶级技术盛会NVIDIA GTC大会如约而至。这个市值已高达7700亿美元的AI顶级玩家,刚刚推出全球最小、功能最强大、能效最高的下一代AI超级计算机NVIDIA Jetson AGX Orin,其算力达到200TOPS,可与内置GPU的服务器媲美。在下午的虚拟主题演讲中,NVIDIA创始人兼CEO黄仁勋穿着熟悉的皮衣,公布了一系列最新AI技术和产品,并推出承载着其“元宇宙”愿景的全新虚拟化身平台。由这个平台生成的“迷你玩具版黄仁勋”Toy-Me,能与人自然地问答交流。在帮助企业降低AI开发部署门槛方面,NVIDIA可以说是做到了极致,比如提供方便企业构建AI大模型的框架,以及定制专属声音的虚拟助手。黄仁勋说,NVIDIA开发者数量已接近300万,CUDA过去15年下载量达3000万次,一年下载量达到700万。此外,NVIDIA继续表露对医疗健康领域的热情,推出搭载新一代Orin芯片、无缝连接医疗设备和边缘服务器的AI计算平台Clara Holoscan。黄仁勋还宣布,NVIDIA将构建一个数字孪生模型来模拟和预测气候变化,新的超级计算机将名为E-2,即Earth Two,地球的数字孪生,能够在虚拟世界模拟引擎Omniverse中以Million-X百万倍的速度运行。
自2014年推出Jetson TK1至今,NVIDIA Jetson系列已经积累了85万名开发者。今日,NVIDIA推出全球最小、功能强大、能效最高的新一代AI超级计算机NVIDIA Jetson AGX Orin,用于机器人、自主机器、医疗器械和其他形式的边缘嵌入式计算。Jetson AGX Orin保持了与前代机型Jetson AGX Xavier相同的外形尺寸和引脚兼容性,处理能力提升6倍,每秒算力达200TOPS,可与内置GPU的服务器相媲美,而尺寸只有手掌那么大。它采用NVIDIA Ampere架构GPU、Arm Cortex-A78AE CPU以及新一代深度学习和视觉加速器。高速接口、更快的存储带宽和对多模态传感器的支持,为多个并行AI应用流水线输送数据。与历代Jetson计算机一样,使用Jetson AGX Orin的客户可以运用NVIDIA CUDA-X加速计算栈、NVIDIA JetPack SDK和最新NVIDIA工具进行应用开发和优化,包括云原生开发工作流程。来自NVIDIA NGC目录的预训练模型已经过优化,并可以使用NVIDIA TAO工具套件和客户数据集进行微调。这减少了生产级AI的部署时间和成本,而云原生技术实现了产品整个生命周期内的无缝更新。DRIVE AGX Orin同样由Jetson AGX Orin等 NVIDIA Ampere架构提供支持,它是新发布的NVIDIA DRIVE Concierge和DRIVE Chauffeur背后的先进处理器,这两个AI平台分别为安全的自动驾驶提供动力。针对特定用例的软件框架包括用于机器人技术的NVIDIA Isaac Sim,用于自动驾驶的NVIDIA DRIVE,用于智慧城市的NVIDIA Metropolis。最新的Isaac版本包括对机器人操作系统(ROS)开发人员社区的重要支持。NVIDIA还发布了用于Isaac Sim的全新NVIDIA Omniverse Replicator,用于为机器人生成合成训练数据。这些硬件加速软件包使ROS开发者更容易在Jetson平台上构建高性能AI机器人。NVIDIA Jetson AGX Orin模块和开发者工具包将于2022年第一季度上市。黄仁勋还在演讲中谈道:“到2024年,绝大多数新款电动汽车将具备强大的自动驾驶能力。”他展示了一个新自动驾驶平台DRIVE Hyperion 8 GA,这是2024年模型的架构。其传感器套件包含12个摄像头、9个毫米波雷达、12个超声波雷达和1个前向激光雷达,所有这些都由2颗NVIDIA DRIVE Orin芯片来进行处理。据他透露,目前,英伟达已经在全球各地收集到了PB级的道路数据,并拥有大约3000名训练有素的标记员,创建训练数据。尽管如此,合成数据仍是NVIDIA数据策略的基石。
为了方便企业开发部署大型语言模型,NVIDIA推出了为训练具有数万亿参数的语言模型而优化的加速框架NeMo Megatron。NVIDIA NeMo Megatron是Megatron的基础上发展起来的。Megatron是由NVIDIA研究人员主导的开源项目,研究大型Transformer语言模型的高效训练。Megatron 530B是全球最大的可定制语言模型。利用先进的数据、张量和管道并行化技术,它能使大型语言模型的训练有效地分布在成千上万的GPU上。企业可以通过NeMo Megatron框架,进一步训练它以服务新的领域和语言。经优化,该框架可以在NVIDIA DGX SuperPOD的大规模加速计算基础设施上进行扩展。除了NeMo Megatron外,NVIDIA还推出了一个开发Physics-ML模型的框架NVIDIA Modulus。它使用物理原理及源自原理型物理和观测结果的数据训练Physics-ML模型,支持多GPU多节点训练,由此生成的模型,其物理仿真速度比模拟快1000-100,000倍。科学家可借助Modulus创建数字孪生模型,来解决预测气候变化等重要科学问题。例如研究人员利用欧洲中期天气预报中心的ERA5大气数据训练Physics-ML模型,该模型在128个A100 GPU上训练需要4小时,训练后的模型能以30公里的空间分辨率预测飓风严重程度和路径。原本需要7天才能完成的预测,现在在一个GPU上只需0.25秒,比模拟快了10万倍。为了帮助企业加快AI之旅,NVIDIA宣布在全球范围内扩展其LaunchPad计划,它允许用户即时访问在加速基础设施上运行的NVIDIA AI软件。企业可使用NVIDIA LaunchPad免费体验开发和部署大型语言模型。LaunchPad计划由Equinix服务支持,包括数据中心、连接和裸金属产品,获得LaunchPad体验后,企业可以在全球Equinix地点运行其NVIDIA加速的人工智能工作负载。
NVIDIA的Riva语音AI软件同样有了新进展,黄仁勋宣布了该软件一个新功能——Riva定制语音。Riva可识别英语、西班牙语、德语、法语、日语、普通话和俄语等7种语言,可以生成隐藏字幕、翻译、摘要、回答问题并理解意图。只需训练30分钟的音频数据,企业即可构建属于自己品牌大使的声音,获得类似人类的表现力。也就是说,用户根据特定的领域或行业术语,可以量身定制拥有独特声音的虚拟助理。不到三年间,NVIDIA的对话AI软件已被下载超过25万次,并被广泛采用到各个行业。对于小规模研发,NVIDIA NGC容器注册表免费提供NVIDIA Riva,开发者可加入Riva开放测试版程序来试用该软件。对于拥有大规模部署并寻求NVIDIA专家技术支持的客户,NVIDIA宣布了NVIDIA Riva Enterprise计划,该计划预计将于明年初推出。
虚拟助手的下一步,是拥有常识、推理能力和生动的视觉形象。在GTC大会上,黄仁勋宣布推出一个全方位的虚拟化身平台——Omniverse Avatar。它是NVIDIA一系列先进AI技术的集大成者,将Metropolis的感知能力、Riva的语音识别能力、Merlin的推荐能力、Omniverse的动画渲染能力等交汇于一体。这使得开发者能构建出一个完全交互式的虚拟化身,它足够生动,能对语音和面部提示做出反应,能理解多种语言,能给出智能的建议。Metropolis工程师用Maxine创建了Tokkio智能操作台应用程序,让操作台具有高度交互性,可快速做出对话响应。在餐厅,两名顾客点餐时,一个客户服务虚拟化身可以跟他们交谈和理解他们的需求。这些演示由NVIDIA AI软件和Megatron 530B提供支持,Megatron 530B是目前世界上最大的可定制语言模型。在DRIVE Concierge AI平台的演示中,中央仪表板屏幕上的数字助理,可帮助司机选择最佳驾驶模式,使其按时到达目的地,然后在汽车续航里程下降到100英里以下时,按他的请求设置提醒。借助Maxine,这个人的话不仅被转录,还能以相同的声音和语调被实时转换成德语、法语等多种语言。Maxine使用计算机视觉来追踪人的面部,并识别其表情,3D动画可为其制作虚拟而逼真的头像。可以想象,在企业和开发人员中,每个行业都需要某种形式的虚拟化身。使用Omniverse Avatar平台,你可以为视频会议和协作平台、客户支持平台、内容创建、应用收益和数字孪生、机器人应用等等构建定制的AI助理。NVIDIA的虚拟世界模拟Omniverse是打造虚拟世界的关键平台。从机器人、自动驾驶车队、仓库、工业厂房到整个城市,都能在Omniverse数字孪生中完成创建、训练和运行。黄仁勋说,Omniverse面向数据中心规模设计,有朝一日有望能达到全球数据规模。爱立信正构建整个城市的数字孪生环境,帮助确定如何放置和配置每个站点以获得最佳覆盖范围和网络性能,可对整个5G网络执行逼真远程仿真。
目前微软、三星、Snap等25000多家客户都在使用NVIDIA的AI推理平台。今日,NVIDIA推出多节点分布式推理功能的NVIDIA Triton推理服务器,以及NVIDIA A2 Tensor Core GPU加速器。NVIDIA A2 GPU是一个入门级、低功耗的紧凑型加速器,适用于边缘服务器中的推理和边缘AI,推理性能比CPU高出20倍。NVIDIA AI推理平台此次更新包括开源NVIDIA Triton推理服务器软件的新功能,和对NVIDIA TensorRT的更新。最新NVIDIA Triton推理服务器中的多GPU、多节点特性,使大型语言模型推理工作负载能够实时在多个GPU和节点上扩展。借助Triton推理服务器,Megatron 530B能在两个NVIDIA DGX系统上运行,将处理时间从CPU服务器上的1分钟以上缩短到0.5秒,令实时部署部署大型语言模型成为可能。
在软件优化上,Triton推理服务器的模型分析器,新工具可以自动化地从数百种组合中为AI模型选择最佳配置,以实现最优性能,同时确保应用程序所需的服务质量。RAPIDS FIL是针对随机森林和梯度提升决策树模型GPU或CPU推理的新后端,为开发者使用Triton进行深度学习和传统机器学习提供了一个统一的部署引擎。Triton与AWS、阿里云等平台集成,并支持在各代GPU、x86 CPU和Arm CPU上优化AI推理工作负载。NVIDIA AI Enterprise也集成了Triton。NVIDIA AI Enterprise是一款经NVIDIA优化、认证和支持的用于开发和部署AI的端到端软件套件,客户可利用它在本地数据中心和私有云的主流服务器上运行AI工作负载。NVIDIA旗舰TensorRT推理引擎亦进行了更新,已原生集成到TensorFlow和PyTorch中,只需1行代码,就能提供比框架内推理快3倍的性能。NVIDIA TensorRT 8.2是SDK的最新版本,可实时运行数十亿个参数的语言模型。NVIDIA还宣布微软会议软件Teams采用NVIDIA AI和Azure认知服务。微软Azure认知服务为高品质AI模型提供基于云的API,以创建智能应用程序。他们在用Triton运行语音转文本模型,为微软Teams用户提供准确的实时字幕和转录。微软Teams每月有近2.5亿活跃用户,微软Azure认知服务上的NVIDIA GPU和 Triton推理服务器使用28种语言和方言,结合AI模型帮助提升实时字幕和转录功能的成本效益。Mavenir宣布由NVIDIA Metropolis AI-on-5G平台提供支持的MAVedge-AI智能视频分析,以加速企业人工智能,该方案预计2022年初提供给客户。
面向数据中心,黄仁勋宣布推出BlueField DOCA 1.2来支持全新网络安全功能,希望使BlueField成为业界构建零信任安全平台的理想之选。目前有1400名开发者正在BlueField上进行开发,现在采用BlueField的网络安全公司已可提供零信任安全即服务。NVIDIA还发明了一个深度学习网络安全平台Morpheus来监控分析网络行为。它构建于NVIDIA RAPIDS和NVIDIA AI之上,其工作流会为每种应用和用户的组合创建AI模型和数字指纹,并学习其日常的模式和寻找异常操作。这些异常操作将触发安全警告,并提醒分析员作出响应。Bluefield、DOCA和Morpheus都是数据中心的全堆栈加速AI解决方案的一部分。NVIDIA将为其网络安全合作伙伴提供一个零信任的安全平台,从而提高安全性和应用程序性能。 Bluefield坐在网络上,向Morpheus AI平台提供数据中心发生的所有活动。Morpheus是一个深度学习网络安全平台,可以监控和分析来自每个用户、机器和服务的所有信息。NVIDIA今日也宣布了Morpheus早期访问2版本。Morpheus创建了预训练的用户活动指纹模型。当这些指纹发生变化时,它能够实时识别出异常交易正在发生,创建一个可疑行为正在发生的安全警报,并隔离活动和加以提醒。
在医疗健康领域,NVIDIA宣布与多家先进癌症中心合作,将AI的力量带到癌症治疗。这些癌症中心将采用NVIDIA DGX来加速开发AI模型。许多医疗设备公司正在将AI和机器人技术融入其中,在机器人手术、移动CT扫描、支气管镜检中使用NVIDIA加速计算平台。为加速AI医疗设备的应用,NVIDIA推出一个面向医疗健康行业的新计算平台NVIDIA Clara Holoscan。Holoscan是继Isaac和Drive后,NVIDIA的第三个机器人平台,能为可扩展、软件定义、端到端流媒体数据处理的医疗设备提供所需的计算基础设施。该平台集成了NVIDIA AGX Orin和ConnectX-7,FP32算力达5.2TFLOPS,AI算力达250TOPS,740Gbps高速IO用于连接传感器。添加RTX A6000 Ampere GPU后,可获得另外39TFLOPS(FP32)和超过600TOPS的AI推理性能。Clara Holoscan是一个医疗设备与边缘服务器无缝连接的端到端平台,能助力开发者创建AI微服务,用以在设备上运行低延迟串流应用,同时将更复杂的任务传至数据中心资源。 借助Clara Holoscan,开发者可以自定义应用,按需在其医疗设备中充分添加或减少计算和输入/输出功能,从而平衡延迟、成本、空间、性能和带宽的需求。Clara Holoscan SDK通过加速库、AI模型和超声波、数字病理学、内窥镜检查等参考应用支持此项工作,以帮助开发者利用嵌入式和可扩展的混合云计算。在药物发现方面,加拿大AI制药创企Entos发明了一种深度学习架构OrbNet,用物理机器学习方法训练图神经网络,取代分子模拟中昂贵的原子间作用力,将分子模拟速度提高1000倍。
此次GTC期间,NVIDIA还宣布了下一代NVIDIA Quantum-2平台,可进行云原生超级计算。该网络平台由NVIDIA Quantum-2交换机、ConnectX-7网络适配器、BlueField-3数据处理单元(DPU)和支持新架构的所有软件组成。ConnectX-7将于明年1月问世。其中,Quantum-2 InfiniBand交换机基于新的Quantum-2 ASIC,采用台积电7N节点,包含570个晶体管,超过有540亿晶体管的A100。Quantum-2 InfiniBand拥有400Gbps,网络速度翻倍,交换机吞吐量增加了2倍,集群可扩展性增为原来的6.5倍,同时降低了数据中心的功耗。其多租户性能隔离利用先进的基于遥测的拥塞控制系统,确保可靠的吞吐量,无论用户激增或工作量需求激增,都能确保可靠的吞吐量,从而防止一个租户的活动干扰其他租户的活动。相比上一代,第三代SHARPv3TM网络计算技术的交换机计算能力比原来高32倍,用于加速AI训练。
首先是NVIDIA ReOpt,这是一款针对运筹优化问题的加速求解器,可实现实时路线规划优化。以与NVIDIA合作的达美乐披萨为例,配送14个披萨的路径有870亿种,这意味达美乐要在30分钟内将披萨送达绝非易事。运筹优化对“最后一英里”配送是必需的,路线规划是个极为棘手的物流问题,如果应用到行业中,即使是小规模的路线优化也能节省数十亿美元。黄仁勋展示了一个用NVIDIA Omniverse虚拟仓库来展示优化路线在自动订单拣选场景中的影响,优化后的规划能使订单拣选节省一半的时间和路程。当前路线优化求解器收到新订单后,需要数小时来重新运行和响应,而ReOpt能持续运行并实时动态地进行重新优化,在短短几秒钟内响应并扩展至数千个位置。第二个是cuQuantum DGX设备,配备有针对量子计算工作流的加速库,可用态矢量和张量网络的方法来加速量子电路模拟。借助该设备,曾经需要耗费几个月的模拟,现在几天就能完成。NVIDIA研究部门在量子算法模拟方面取得了重要里程碑,用1688个量子位为3375个顶点集求解MaxCut问题。这是有史以来最大的精确量子电路模拟,比以往模拟的量子位多8倍。第三个加速库是在PyData和NumPy生态系统的大规模加速计算cuNumeric,它允许用户用Python代码在超级计算机上透明加速和扩展NumPy工作流,并无需更改代码。它属于NVIDIA RAPIDS开源Python数据科学套件,RAPIDS今年的下载量超过50万次,比去年增长了4倍多。NumPy在过去5年下载量达到了1.22亿次,别用于GitHub上近80万个项目。在著名的CFD Python教学代码中,cuNumeric能扩展至1000个GPU,而扩展效率仅比线性扩展效率损失了20%。
乘着AI、高性能计算和元宇宙的东风,NVIDIA今年过得可谓风生水起,市值一路扶摇直上,突破7700亿美元。其Omniverse平台更是被分析机构视作NVIDIA一项重要的平台扩张战略。在这表面风光的背后,NVIDIA的远见和前瞻性不容小觑。无论是如火如荼的AI,还是方兴未艾的虚拟世界,NVIDIA能成为科技热潮的直接受益者,都离不开过去多年对其软硬件产品的打磨。此次NVIDIA GTC大会期间,我们还将看到更多覆盖深度学习、数据科学、高性能计算、机器人等领域的最新进展,而始于NVIDIA CUDA的加速计算正在这些领域催化效率提升,推动现代科技快速进化、走向未来。
浏览
48点赞
评论
收藏
分享
手机扫一扫分享
分享
举报
点赞
评论
收藏
分享
手机扫一扫分享
分享
举报