Datawhale蝴蝶书重磅出版!-技术圈

文末赠书喜欢AI，对ChatGPT超级好奇，但被市面上爆增的大模型书籍和教学视频弄得眼花缭乱？没事！Datawhale团队最新推出的“蝴蝶书”——《ChatGPT原理与应用开发》来啦！这本书源自Datawhale开源项目HuggingLLM，GitHub 2K+星、B站播放量超30万，是Datawhale在打造了“南瓜书”“蘑菇书”“熊猫书”后，推出的第4本王牌之作。

扫码5折购书，限100人

翻开《ChatGPT原理与应用开发》你会发现，书中的内容以实战为主，不仅对相关任务有详细的背景和系统设计介绍，还教你使用ChatGPT相关API创造新的功能和应用，并且提供实例代码和实现流程，让每一位学习者都能做出自己的AI产品！

为什么创作这本书？

借助ChatGPT，人们可以做到现在大部分 NLP 工程师在做的事，比如文本分类、实体抽取、文本推理等。甚至随着大语言模型能力的不断提升，它们可能做得比 NLP 工程师都要好。不过，AI也有许多局限性，要想实现应用就需要投入大量的资源和时间。其中涉及的理论多到爆炸不说，案例、代码、实操、创新更是一个都不能少，搞不懂，易出错，很多开发者一碰就想放弃。开源项目 HuggingLLM力图帮助人们降低门槛，缩小应用程序和研究之间的差距，使得大模型应用开发变得触手可及。HuggingLLM是一个面向非算法专家但具有一定编程基础，对人工智能和 ChatGPT（或类似模型）感兴趣的人群的开源项目，旨在利用 ChatGPT API 开发相关应用。所以，当开源项目HuggingLLM发布时，立即获得了来自不同领域的朋友们的关注与支持，目前star点赞2K+。翻阅参与者在Github上提交的成功案例，我们看到：

有人机协同，创造未来的虚拟女友；

有应用非凡，前景无限的AI辅助自动标注；

有启迪人生，提高问商的助思者；

有模拟人生，脑洞不停的AI NPC；

......

正如项目名字所寓意的那样，上万名参与者通过这个开源项目拥抱了AI时代的变化，无障碍地使用LLM创造了新的价值。这个开源项目的组织者还在B站上同步更新视频教程，播放量高达31.1W，获得网友一片好评。

纸书做了哪些更新？

《ChatGPT原理与应用开发》是基于大语言模型进行商业应用开发的最佳实践书，更是值得你“好好上课”！

初心不改

本书内容也正如HuggingLLM最初的立项理由所述，主要是讲基于 ChatGPT 的算法应用和服务，聚焦于自然语言处理的常见任务和应用。它向我们介绍了如何使用类似 ChatGPT 这样的大语言模型来完成之前只有算法工程师才能处理的工作。

内容优化

本书以实践为主，重点是任务的讲解和设计 ，但也会科普一些自然语言处理算法的基本原理和基础知识，适合所有对大语言模型感兴趣的开发者阅读。本书一共有 8 章内容，分别如下。第 1 章基础知识—大语言模型背后，主要介绍了与 ChatGPT 相关的 NLP 领域的基础知识和原理。第 2 章相似匹配—万物皆可 Embedding，主要介绍了文本表示，以及与文本匹配相关的任务和应用。第 3 章句词分类—句子 Token 都是类别，主要介绍了 NLP 领域最常见的任务——分类。第 4 章文本生成—超越理解更智能，主要介绍了与文本生成技术相关的任务。第 5 章复杂推理—更加像人一样思考，主要介绍了如何使用大语言模型做复杂的逻辑推理任务。第 6 章工程实践—真实场景大不同，主要介绍了如何在真实业务中使用大语言模型。第 7 章局限与不足—工具不是万能的，主要介绍了 ChatGPT（或其他类似的大语言模型）的缺陷或不擅长的地方，包括事实性错误、实时更新、性能瓶颈等方面。第 8 章商业应用—LLM 是星辰大海，可以把该章当作一篇调研报告来阅读，主要针对工具应用和行业应用两大方面展开，期望能够给读者更多启迪，帮助大家构思更好的应用或服务。这本书由郝少春、黄玉琳、易华挥三位作者在HuggingLLM教程内容之上优化而成。

郝少春

· 某AI大语言模型公司的算法工程师，Datawhale成员；

· 拥有7年算法和工程架构经验及丰富的项目和产品经历，涉及文本、音频、视频、图像等多种模态。

黄玉琳

· 上海财经大学硕士，京东算法工程师，Datawhale成员；

· 从事智能供应链领域的算法研究及应用工作；

· 主要研究方向为机器学习、自然语言处理、运筹优化。

易华挥

· 四川大学华西医院生物大数据中心的科研助理，Datawhale成员；

· 主要研究方向为多模态表征学习及其在医学影像分析中的应用；

· 发表顶会论文3篇。

大咖推荐，口碑保证！

这本书一经推出，就受到了吴飞、周明、朱信忠、金耀辉、张俊林5位人工智能领域专家的亲笔推荐！

“这本书是由Datawhale所推出的力作，秉承了Datawhale‘为了学习者’的一贯理念，基于志愿者团队精彩的开源学习内容精心编纂而成，深入浅出地介绍大语言模型的原理和工程实践，对于初学者了解ChatGPT非常有帮助！”

——吴飞，浙江大学人工智能研究所所长

“书中内容围绕自然语言处理任务展开，很多设计思路和细节其实可以应用到多个领域。期望读者多学多练，能够在实践中提升自我。”

——周明，澜舟科技创始人兼CEO，创新工场首席科学家

“这本书虽然以ChatGPT作为示例，但绝大部分内容都可以无缝切换为其他大语言模型。这得益于本书基于以‘自然语言处理算法任务’为核心的设计理念，因而这本书具有更长的生命周期。”

——朱信忠，浙江师范大学人工智能研究院副院长，浙江省特级专家，Datawhale首席科学家

“这本书以明晰而简洁的文字，阐述了大语言模型的工作原理，堪称杰作。更为可贵的是，书中还详细介绍了ChatGPT的工程实施策略。”

——金耀辉，上海交通大学人工智能研究院总工程师、教授

“这是一本有关大语言模型应用和服务的实践指导书，详细介绍了如何开发基于大语言模型算法的应用和服务。这本书注重实际任务的设计及实现的思路讲解，并提供了对自然语言处理基础知识和算法原理的科普性介绍。”

——张俊林，新浪微博新技术研发负责人

▲ 滑动查看更多通过上面的介绍以及各位专家的推荐，相信读者应该对这本书有了初步了解。下面小异再具体说说如何更好地使用本书。

如何阅读本书？

第一，读者可以先行了解第1章进行一个科普入门。

书籍后面的内容根据内容规模和难度，讲解顺序重新排列为：相似匹配、句词分类、文本生成、复杂推理......读者可以按部就班地学习，也可以根据自己的兴趣选择任意章节进行学习。因为各章节相对独立，彼此没有直接明显的前后依赖关系，在学习时可以灵活调整。

第二，以“任务”为核心。

本书注重“任务”多于“工具” ，虽然ChatGPT 是目前大语言模型领域总体效果最好的，但未来一定会有其他更好的大语言模型出现。书中详细介绍了与NLP相关的任务（如相似匹配、句词分类、文本生成、复杂推理）的背景和系统设计，这些方法也适用于其他大模型。只要读者理解了要做的事情，理解了系统设计，工具就能为我们所用。

第三，利用好本书内容、提供的思维导图、GitHub开源项目HuggingLLM、B站视频课程等各种资源，来全方位地助力自己的学习与实践。

· GitHub开源项目HuggingLLM链接是datawhalechina/hugging-llm: HuggingLLM, Hugging Future. (github.com)

· B站视频课程链接是学会如何使用大模型，让创意有能力落地成应用：HuggingLLM，Hugging未来_哔哩哔哩_bilibili

第四，一定要亲自动手完成一个应用或服务的 Demo！

你可以在书中找到详细的示例代码，稍做修改后就可以在实际环境中使用。光看不做在编程领域是绝对行不通的，只是想想或者口头上说与亲自动手完全是两回事。万事开头难，但一旦完成了第一个项目，后面再做类似的就会相对容易一些。所以大胆地实操吧！另外要说明的是，这本书不是特别为算法或者自然语言处理工程师等行业人员设计的。当然，如果你是NLP工程师，也可以通过这本书受益。

这本书更适合以下人员：

· 对ChatGPT感兴趣的人；

· 希望实际运用这项技术来创造新的服务或者解决现有问题的人；

· 有一定编程基础的人。

结语

本书的封面上有一幅幅蝴蝶图案，这是因为作者们相信人工智能将会涌现出更多美丽的形态，恰如蝴蝶从蛹中蜕变一样，这也寓意希望读者阅读本书后将有崭新的领悟。赶紧拿起这本“蝴蝶书”，开启你的全新认知之旅吧！

▼▼▼

滑动查看更多

DataWhale好书推荐

机器学习公式详解第2版

▼ 点击下方即可购书，限时特惠 5折

本书从本科数学基础的视角进行讲解，帮助读者快速掌握各个机器学习算法背后的数学原理。本书思路清晰，视角独特，结构合理，可作为高等院校计算机及相关专业的本科生、研究生教材，也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。

pandas数据处理与分析

▼ 点击下方即可购书，限时特惠 5折

本书基于pandas官方推荐的中文教程“Joyful Pandas”编写，是以实战为中心的pandas教程。

本书基于作者自身学习pandas的切身经验，在对pandas庞杂内容的主线认真梳理之后，他整理出一条由浅入深、适合初学者的学习路线。本书能让初学者摆脱常规学习pandas的痛苦，从核心概念开始学习，理解函数之间的逻辑关系，建立起数据处理的宏观体系，真正快乐地学会pandas。

Easy RL 强化学习教程

▼ 点击下方即可购书，限时特惠 5折

同样出自Datawhale的“蘑菇书”《Easy RL 强化学习教程》是一本真真切切的学霸笔记，三位作者王琦、杨毅远、江季分别是中国科学院大学、清华大学、北京大学的相关专业硕士研究生。

作者把自己学习强化学习过程中的想法、思路、难点、技巧等整理成教程，分享给更多的人，通过数千人的使用学习获取反馈再仔细作补充与修改，经过一年多的持续优化，最终形成了这本“蘑菇书”。

—END—

分享你对“蝴蝶书”的看法

在留言区参与互动，分享你学习使用ChatGPT的经验，我们将选3名读者分别获得蝴蝶书1本，截止时间3月5日中午12点。