AIBrix 用于 GenAI 推理的可插拔基础设施组件
AIBrix 是一项开源计划,旨在提供构建可扩展 GenAI 推理基础设施的基本构建块。AIBrix 提供针对部署、管理和扩展大型语言模型 (LLM) 推理而优化的云原生解决方案,专门针对企业需求量身定制。
主要特点:
- LLM 网关和路由:有效管理和引导跨多个模型和副本的流量。
- 高密度 LoRA 管理:简化对轻量级、低秩模型适配的支持。
- 分布式推理:可扩展的架构,可处理跨多个节点的大量工作负载。
- LLM App-Tailored Autoscaler:根据实时需求动态扩展推理资源。
- 统一 AI 运行时:一个多功能的侧车,可实现指标标准化、模型下载和管理。
- 异构 GPU 推理:使用异构 GPU 进行经济高效的 SLO 驱动 LLM 推理。
- GPU 硬件故障检测:主动检测 GPU 硬件问题。
- 基准测试工具(TBD):用于测量推理性能和资源效率的工具。
评论