点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

转自新智元

OpenAI的GPT-3已发布两年，但还是只听说过，没见过。最近Meta复现了一遍GPT-3，改名OPT，把代码、权重、部署都开源了出来，并且还更环保，碳足迹仅为原版七分之一。

2020年，OpenAI放出了具有1750亿参数的预训练模型GPT-3，横扫文本生成领域，不仅能问答、翻译、写文章，还能做数学计算。

唯一的「美中不足」就是没开源，代码和模型看着眼馋，却到不了嘴边。

并且与微软签订了「独占协议」，公众只能通过付费API与模型进行交互，完整的研究访问授权仍然仅限于少数资源丰富的实验室。

直到Meta AI发布了一篇论文，直接复现了一遍GPT-3，效果不输原版，还全开源了出来，从代码、模型到部署，服务一条龙，从此1750亿参数全量GPT-3触手可得。

论文链接：https://arxiv.org/abs/2205.01068

仓库链接：https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

Meta并且还给模型改了个名字OPT，也就是更open的预训练Transformer语言模型，简直是照着OpenAI的脸打呀。

OPT包含了多个尺寸的模型，对于显卡数量囊中羞涩的研究组来说，可以选择最适合自己的模型大小进行研究。

为了防止模型被滥用，Meta AI对于OPT-175B模型加了一个非商业许可，用户需要填写一个申请表，该模型的访问权限将授予学术研究人员；隶属于政府、民间社会和学术界组织的人员；以及世界各地的工业研究实验室。

除了开源外，Meta这次重新训练还很重视「环保」问题。

人工智能的模型训练极其消耗电力，在开发OPT时，Meta表示充分考虑了能源效率，通过全分片数据并行（FSDP）和Nvidia的tensor并行抽象，使得OPT-175B的碳足迹仅为GPT-3的七分之一。

对于开源的原因，MetaAI的董事总经理Joelle Pineau表示，虽然GPT-3现在可以用API访问，但模型的代码和训练参数对于整个研究社区来说显然更重要，OPT-175B的发布也是业界首次开放如此大规模的AI模型，未来将会有更多论文基于可复现的结果发表出来。

不过也有网友指出，想看OpenAI笑话的可以停了，且不说GPT-3已经不是当下最大型的语言模型，OpenAI的GPT-4都快来了。

模型卡片

2018年，计算机科学家Margaret Mitchell提出「模型卡片」概念，通过对模型建立档案，可以让用户了解模型开发的背景及适用条件，提高AI运行的透明度，Meta AI也给OPT建立了一张模型卡片。

论文链接：https://arxiv.org/pdf/1810.03993.pdf

发布日期：2022年5月3日发布OPT-175B

模型版本：1.0.0

模型类型：大型解码Transformer语言模型

不适用的用例：OPT-175B并非发布给生产使用或真实世界部署，OPT-175B和其他大型语言模型一样有多种缺陷，对于商业应用来说还为时过早。

评估数据的选择：除了在公开语言模型标准下评估外，Meta AI还在Hate Speech Detection, CrowS-Pairs, StereoSet等任务上对模型的偏见进行评估。

限制：与其他大型语言模型一样，训练数据的缺乏多样性会对模型的质量产生下游影响，OPT-175B在偏见和安全性方面受到限制。OPT-175B在多样性和幻觉（hallucination）方面也可能存在质量问题。总的来说，OPT-175B对现代大型语言模型的问题并不免疫。通过发放非商业许可证，Meta希望以此提高沟通、透明度，并研究大型语言模型的问题，特别是在不符合商业利益的领域。