Llama 3恐怖如斯,400B+版本即将到来!还有文生图Imagine Flash三步成图!

机器学习算法工程师

共 2679字,需浏览 6分钟

 · 2024-04-19

点蓝色字关注“机器学习算法工程师

设为星标,干货直达!


简单总结一下:

Llama 3包含8B和70B两个版本(包含预训练模型和Instruction tuning模型),性能相比Llama 2有明显提升,其中最大的模型Llama 3 70B人工评测超过GPT-3.5,未来还会推出参数量更大(400B+)的版本。


最重要是Llama 3会在各个平台开源:Llama 3 will be everywhere.

模型可以在HuggingFace上下载了:

https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6 huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6






预训练模型性能:



Instruction微调后性能:



其中最大的模型Llama 3 70B在人工评测上超过Claude Sonnet,Mistral Medium以及GPT-3.5:



在模型架构上,Llama 3和Llama 2一样采用decoder-only的Transformer架构,但是做了几项关键改进。Llama 3使用了一个词汇量为128K的tokenizer,它以更高的效率编码文本,这显著提升了模型性能。同时为了提高Llama 3模型的推理效率,8B和70B大小的模型中都采用了分组查询注意力(GQA)。训练模型时使用了8,192 tokens的序列,并采用了掩码以确保自注意力不会跨越文档边界。

训练数据集超过15T的tokens,比用于训练Llama 2的数据集大了七倍,并且包含了四倍多的代码。为了支持多语言,Llama 3的训练数据集中有5%以上的非英文语料,非英文语料包含超过30种其它语言。

Llama 3训练是在两个定制化的24K GPUs集群上训练。

目前Meta还在训练参数量超过400B的Llama 3模型,虽然没有训练完成,但是性能已经足够强了:


真的是非常期待!


附在线体验链接:https://llama3.replicate.dev/

简单测试一下中文能力,幻觉还是有点严重:


逻辑推理能力也一言难尽:



最后再看看GPT-4的答案:

"Stable Diffusion"和"Midjourney"似乎并不是广为人知的术语或者产品名称,至少在我作为一个AI模型的知识库中并没有找到相关的信息。这可能是特定领域的术语,或者是特定公司或产品的名称。如果你能提供更多的上下文信息,比如这两个术语是在什么领域或背景下使用的,我可能会更有帮助。例如,它们可能是软件包、公司、服务、理论模型、策略或其他东西。如果你能提供更多的信息,我会很乐意帮助你理解这两个术语,并帮助你决定哪一个更适合你的需求。


这是一个经典的数学问题,我们可以通过建立方程来解决。假设兔子的数量为x,鸡的数量为y。我们知道兔子有4只脚,鸡有2只脚。兔子和鸡都有1个头。根据题目,我们可以得到两个方程:x + y = 20 (头的数量) 4x + 2y = 45 (脚的数量) 我们可以将第二个方程简化为2x + y = 22.5,但是兔子和鸡的数量必须是整数,所以这个方程没有解。因此,题目中的条件可能存在错误,无法得出兔子和鸡各有多少只的正确答案。


合理的先后顺序应该是:剪指甲:这是第一步,因为你需要保持你的脚趾甲整洁和舒适,以便穿袜子和鞋子。穿袜子:在剪完指甲后,你可以穿上袜子。袜子可以保护你的脚,防止鞋子直接摩擦你的脚。穿鞋:在穿上袜子后,你可以穿上鞋子。这是穿袜子的主要目的,保护你的脚不受到外界的伤害。系鞋带:最后,你需要系上鞋带,以确保鞋子紧紧地固定在你的脚上,防止在行走或运动时滑落。

GPT-4虽然知识有限,但是完胜!


Meta除了发布Llama 3之外,还发布了文生图模型Emu的蒸馏版本Imagine Flash技术论文,Imagine Flash通过反向蒸馏,可以将Emu的去噪步数减少到1-3步



Imagine Flash的反向蒸馏方法可以减少 0 的信息泄露:


在效果上超过ADD,Step Distillation以及LCM:



更多例子:





推荐阅读

使用PyTorch 2.0加速Transformer:训练推理均拿下!

硬核解读Stable Diffusion(系列三)

硬核解读Stable Diffusion(系列二)

硬核解读Stable Diffusion(系列一)

带你入门扩散模型:DDPM


机器学习算法工程师


                                    一个用心的公众号


浏览 126
10点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
10点赞
评论
收藏
分享

手机扫一扫分享

举报