国内外30个热门大模型架构的信息汇总-技术圈

国内外30个热门大模型架构的信息汇总

共 818字，需浏览 2分钟

2024-05-08 08:00

LLM 架构配置

注意

1.RoPE指的是RoPE家族的位置编码，经过了XPos，线性内插，NTK-Aware Scaled RoPE和dynamic NTK等若干次进化，故上表中提及的RoPE并不一定是完全相同的位置编码方法。

2.模型类型中若含有MoE，表示该系列的模型中存在使用MoE架构的模型，而并非是所有模型使用MoE架构。

3.所有的模型架构配置信息来源于 Hugging Face，Model Scope 以及 GitHub 的具体实现，具体链接已在表格中提供，于2024年4月收集，若不符合相关论文中的描述，请读者谅解。

4.即使某些LLM使用了相同的配置信息，其内部架构也可能不同。

统计图表

模型架构

注意力机制

位置编码

激活函数

归一化

😘帅哥美女们，请高抬贵手，你们的点赞、收藏和关注是我更新的最大动力！😘

其他资源

AGIDreamFactory 项目：https://github.com/mannaandpoem/AGIDreamFactory

知识星球：https://articles.zsxq.com/id_0dwcztn0ceri.html

参考

1. Models - Hugging Face

2. 模型库首页 · 魔搭社区 (modelscope.cn)

3. huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)