Cortex lab大规模机器学习生产基础架构

联合创作 · 2023-09-26 06:32

Cortex 是大规模机器学习的生产基础设施,用于在生产中部署、管理和扩展机器学习模型。

网站 Slack •文档

无服务器工作负载

  • 实时- 实时响应请求并根据正在进行的请求量自动缩放。
  • 异步- 异步处理请求并根据请求队列长度自动缩放。
  • 批处理- 按需运行分布式和容错批处理作业。

自动化集群管理

  • 自动扩展 - 使用 CPU 和 GPU 实例弹性扩展集群。
  • Spot 实例- 在具有自动按需备份的 Spot 实例上运行工作负载。
  • 环境- 创建具有不同配置的多个集群。

CI/CD 和可观察性集成

  • 供应- 使用声明性配置或 Terraform 提供者供应集群。
  • 指标- 将指标发送到任何监控工具或使用预先构建的 Grafana 仪表板。
  • 日志- 将日志流式传输到任何日志管理工具或使用预构建的 CloudWatch 集成。

专为 AWS 打造

  • EKS - Cortex 在 EKS 之上运行,以可靠且经济高效地扩展工作负载。
  • VPC - 将集群部署到您 AWS 账户上的 VPC 中,以保护您的数据的私密性。
  • IAM - 与 IAM 集成以进行身份​​验证和授权工作流。
浏览 1
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报