FTLib云原生分布式训练解决方案

联合创作 · 2023-10-01

FTLib(Fault-Tolerant Library)是一个支持弹性伸缩和自动容错的云原生分布式训练解决方案,旨在帮助企业应对因训练数据量激增产生的意外情况,真正部署和运行大规模的分布式训练。为了向不同用户提供不同级别的 API,避免对训练框架的侵入式修改,FTLib 已被作为一个库引入到 Python 中,因此,它可以针对不同需求提供不同的 API。

浏览 3
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报