深度生成模型：实现通用人工智能最有前途方法之一-技术圈

公众号【机器学习与AI生成创作】后台回复：168。可参与免费寄送【深度生成模型】图书活动，活动截止日期为 2023-09-17 晚上10点。

也可自行购买，戳如下优惠京东专属链接：

What I cannot create, I do not understand.

——Richard Feynman

来自诺贝尔物理学奖获得者费曼的这句话，一直在叩响着人工智能研究者的内心，OpenAI的研究也一直秉承着一个核心愿望，那就是“开发算法和技术，让计算机了解我们的世界。”

目前有两种方式来让计算机了解我们的世界，那就是监督学习和无监督学习。

其中，监督学习虽有很大的技术进步，但是最大短板在于数据标注过程往往既耗时又昂贵，甚至可能是不道德，乃至不可能实现的。这就是为什么我们越来越意识到无监督学习（或者自监督学习）方法的重要性。

无监督学习最切合人类学习知识的模型，就像一个小孩在长大的过程中，不会有人一直告诉他们所看到和听到的信息都是什么，接触的关于世界的信息大部分都是未标注的，需要在无监督的状态下学习世界的规律，即自己去从数据中寻找模式和结构。

而深度生成模型就是无监督学习的最有效方法之一，也是OpenAI公司说的“实现通用人工智能最有前途方法之一”。

《深度生成模型》这本书涵盖了深度生成模型的多种类型，包括自回归模型、流模型、隐变量模型、基于能量的模型等，主要讲述如何将概率建模和深度学习结合起来去构建可以量化周边环境不确定性的强大的AI系统。

这种AI系统可以从生成的角度来理解周边世界。

书中提及的这些模型构成了以 ChatGPT 为代表的大语言模型，以及以 Stable Diffusion 为代表的扩散模型等深度生成模型背后的技术基石。

正如译者所说，翻译这本书，把他从ChatGPT 的出现带来的炙热、焦虑和无所适从中带出来，而更多的是冷静思考。因此对于新技术，只有了解其背后原理才能让人泰然处之。

对于大语言模型等新技术，虽然我们也许无法全部掌握，但其背后的大部分基础内容在本书中都有所体现，只要认真阅读本书，推导公式，运行代码，学习各种生成模型的发展及其应用，就会让我们更加从容地了解和面对新技术。

ChatGPT 背后的 Tranformer 架构及其从 GPT-1、GPT-2 到 BERT、GPT-3等相关模型，都基于本书第 4 章所述的自动编码器和第 2 章所述的自回归模型发展而来。ChatGPT 及其他相关大语言模型主要集中在数据采集、数据规模和质量及模型参数扩展上，但其生成模型基础架构仍然基于本书所述，只是对语言模型进行了优化。

除了上述的文本生成图像或文本生成文本的生成模型，更多多模态应用正在如火如荼地发展，例如从文本到 3D 模型（Dreamfusion、Magic3D）、视频（Phenaki、Soundify）、语音（AudioLM、Whisper、Jukebox）、代码（CodeX、Alphacode），以及从图像生成文本的模型（Flamingo、VisualGPT）等。这些应用的技术基石都可以在本书中找到。

本书的特别之处在于，像孩子们通过搭积木去学习物理规律一样，本书读者可以通过代码来学习深度生成模型。

本书作者在这个领域发表了大量论文，对该领域有深刻的认知。

本书可以作为概率生成模型课程的教材。