OpenPPL高性能深度学习推理平台
OpenPPL 是基于自研高性能算子库的推理引擎,拥有极致调优的性能;提供云原生环境下 的 AI 模型多后端部署能力,支持 OpenMMLab 等深度学习模型的高效部署。
架构如下:
高性能
设计微架构友好的任务/数据/指令等多级并行策略,自研 NV GPU、 x86 CPU 计算库,满足部署场景对神经网络推理、常用图像处理的性能需求
- 支持 GPU T4 平台 FP16 推理
- 支持 CPU x86 平台 FP32 推理
- 核心算子优化,平均性能领先业界
OpenMMLab 部署
支持 OpenMMLab 检测、分类、分割、超分等系列前沿模型,同时提供模型前后处理所需图像处理算子
- 遵循 ONNX 开放标准,提供 ONNX 转换支持
- 支持网络动态特性
- 提供 MMCV 算子高性能实现
云上多后端部署
面向云端异构推理场景,支持多平台部署
- 支持 x86 FMA & AVX512、NV Turing 架构
- 支持异构设备并行推理
评论
英伟达Blackwell平台网络配置分析
本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品,包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡(InfiniB
架构师技术联盟
0
【深度学习】人人都能看懂的LSTM
熟悉深度学习的朋友知道,LSTM是一种RNN模型,可以方便地处理时间序列数据,在NLP等领域有广泛应用。在看了台大李宏毅教授的深度学习视频后,特别是介绍的第一部分RNN以及LSTM,整个人醍醐灌顶。本文就是对视频的记录加上了一些个人的思考。0. 从RNN说起循环神经网络(Recurrent Neur
机器学习初学者
0
科普:深度学习训练,不同预算GPU选购指南
以下文章来源于微信公众号:DeepHub IMBA作者:Mike Clayton本文仅用于学术分享,如有侵权,请联系后台作删文处理导读购买显卡第一个要考虑的问题是什么?当然是预算。本文提供了不同预算的显卡选购指南,希望能对各位读者有所帮助。在进行机器学习项目时,特别是在处理深度学习和神经网络时,最好
机器学习初学者
0
深度解读RoCE v2网络技术
在日新月异的网络技术领域中,远程直接内存访问(RDMA)技术已成为优化数据传输流程、提升整体网络效能的关键驱动力。其中,以太网融合RDMA技术——RoCE(RDMA over Converged Ethernet),其第二代版本RoCE v2凭借显著的性能提升与更强的灵活性脱颖而出。本文来自“深度解
架构师技术联盟
0
学习开放日:开放复杂科学、AI+X 海量学习资源!
Datawhale干货 学习开放日:4月27-28日1. 什么是学习开放日?以AI为代表的技术突飞猛进,人类知识森林快速扩张,仅凭一人之力不仅难以覆盖,更是难以串联知识线索。唯有像蚂蚁探索最优路径一样,我们才能在信息爆炸的知识森林中探索出更好的方向!因此,今年集智斑图联合国内最
Datawhale
1
展讯平台手机重启问题分析指南
和你一起终身学习,这里是程序员Android经典好文推荐,通过阅读本文,您将收获以下知识点:一、 User 版本 默认开启 sysdump 方法二、插入SD卡 抓取Sysdump log三、 sysdump log 分析四、展讯平台抓取重启 串口log的方案五、展讯平台判断重启类型六、展讯平台关闭
程序员Android
0
【深度学习】图解自注意力机制(Self-Attention)
一、注意力机制和自注意力机制的区别Attention机制与Self-Attention机制的区别传统的Attention机制发生在Target的元素和Source中的所有元素之间。简单讲就是说Attention机制中的权重的计算需要Target来参与。即在Encoder-Decoder 模型中,At
机器学习初学者
0
面试官:MySQL 上亿大表,如何深度优化?
来源:cnblogs.com/YangJiaXin/p/10828244.html背景分析测试实施索引优化后delete大表优化为小批量删除总结前段时间刚入职一家公司,就遇上这事!背景XX实例(一主一从)xxx告警中每天凌晨在报SLA报警,该报警的意思是存在一定的主从延迟(若在此时发生主从切换,需要
好好学java
0