大数据文摘转载AI科技评论作者:Ben Dickson编译:李梅编辑:陈彩娴 5月初,Meta发布了一个可以执行多个不同任务的大型语言模型:Open pretraining Transformer (OPT-175B)。在过去几年里,大型语言模型(large language model,LLM)已经成为人工智能研究的热点之一。 在OpenAI发布包含1750亿参数的深度神经网络GPT-3之后,就引发了一场LLM的「军备竞赛」,OPT-175B是这场竞赛的一个最新参与者。GPT-3已经表明,LLM可以无需额外训练就能执行许多任务。后来,微软将GPT-3集成到它的几个产品中,不仅展示了LLM在科学研究上的前景,也展示了LLM在商业上的应用潜力。 而OPT-175B的独一无二性在于Meta对「开放」的承诺,正如这个模型的名字(OpenXX)所暗示的那样。Meta已经向公众提供了这个模型,并且公布了训练和发展过程中的大量细节。在Meta AI博客上发表的一篇文章中,Meta将OPT-175B的发布描述为「大规模语言模型的民主化访问」(Democratizing access to large-scale language models)。 Meta这种朝着透明化方向的发展是值得称赞的。然而,在大型语言模型的激烈竞争下,民主化已经变得难以实现。
1750亿参数的OPT
Meta发布的OPT-175B有一些关键特征。它包括了预训练的模型以及需要训练和使用LLM的代码。训练神经网络比运行神经网络要消耗更多的计算资源,所以,对于没有计算资源来训练模型的组织来说,预训练模型特别有用。通过减少训练大型神经网络所需的计算资源,它还会有助于避免造成巨大的碳足迹。 与GPT-3一样,OPT也有不同的规模,参数从1.25亿到1750亿不等,参数越多的模型学习能力越强。目前,所有300亿参数及以下的版本都可以直接下载。完整的1750亿参数版本的模型将提供给部分研究人员和机构,只需要填写一张申请表。 Meta AI在博客上表示:“为了保证学术诚信和防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。该模型将授权学术研究人员使用,与政府、民间社会和学术界有关的组织,以及世界各地的行业研究实验室。” 除了模型,Meta还发布了一个完整的日志,提供了大型语言模型开发和训练过程的详细技术时间表。通常来说,经发表论文只包含关于最终版本模型的信息。Meta表示,该日志提供了一些有价值的信息,包括「用于训练OPT-175B的计算量,以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销」。