Cortex lab大规模机器学习生产基础架构
Cortex 是大规模机器学习的生产基础设施,用于在生产中部署、管理和扩展机器学习模型。
无服务器工作负载
- 实时- 实时响应请求并根据正在进行的请求量自动缩放。
- 异步- 异步处理请求并根据请求队列长度自动缩放。
- 批处理- 按需运行分布式和容错批处理作业。
自动化集群管理
- 自动扩展 - 使用 CPU 和 GPU 实例弹性扩展集群。
- Spot 实例- 在具有自动按需备份的 Spot 实例上运行工作负载。
- 环境- 创建具有不同配置的多个集群。
CI/CD 和可观察性集成
- 供应- 使用声明性配置或 Terraform 提供者供应集群。
- 指标- 将指标发送到任何监控工具或使用预先构建的 Grafana 仪表板。
- 日志- 将日志流式传输到任何日志管理工具或使用预构建的 CloudWatch 集成。
专为 AWS 打造
- EKS - Cortex 在 EKS 之上运行,以可靠且经济高效地扩展工作负载。
- VPC - 将集群部署到您 AWS 账户上的 VPC 中,以保护您的数据的私密性。
- IAM - 与 IAM 集成以进行身份验证和授权工作流。
评论