国内外30个热门大模型架构的信息汇总

共 818字,需浏览 2分钟

 ·

2024-05-08 08:00



LLM 架构配置




注意


1.RoPE指的是RoPE家族的位置编码,经过了XPos,线性内插,NTK-Aware Scaled RoPEdynamic NTK等若干次进化,故上表中提及的RoPE并不一定是完全相同的位置编码方法。


2.模型类型中若含有MoE,表示该系列的模型中存在使用MoE架构的模型,而并非是所有模型使用MoE架构。


3.所有的模型架构配置信息来源于 Hugging FaceModel Scope 以及 GitHub 的具体实现,具体链接已在表格中提供,20244月收集,若不符合相关论文中的描述,请读者谅解。


4.即使某些LLM使用了相同的配置信息,其内部架构也可能不同。


统计图表


模型架构




注意力机制




位置编码




激活函数




归一化





😘帅哥美女们,请高抬贵手,你们的点赞、收藏和关注是我更新的最大动力!😘


其他资源


AGIDreamFactory 项目:https://github.com/mannaandpoem/AGIDreamFactory


知识星球:https://articles.zsxq.com/id_0dwcztn0ceri.html


参考


1. Models - Hugging Face


2. 模型库首页 · 魔搭社区 (modelscope.cn)


3. huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)





浏览 43
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报