MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
极市平台
共 7748字,需浏览 16分钟
·
2024-07-15 22:00
极市导读
MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。最近,谷歌DeepMind提出了全新的策略PEER,可将MoE扩展到百万个专家,还不会增加计算成本。>>加入极市CV技术交流群,走在计算机视觉的最前沿
背景与介绍
Unified Scaling Laws for Routed Language Models
百万MoE所系
PEER层设计
乘积键检索
参数高效专家和多头检索
为什么用大量的小专家
实验
预训练isoFLOP分析
语言建模数据集评估
消融实验
作者介绍
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货
评论