给人工智能“大模型”当保姆，都要操哪些心？-技术圈

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信（shizhongmax）。

给人工智能“大模型”当保姆

都要操哪些心？

文 |史中

（一）ChatGPT和宋丹丹，谁陪你聊天更贵？

“有人花钱吃喝，有人花钱点歌，有人花钱美容，有人花钱按摩，今儿我雇个好活，有人花钱，雇我陪人儿唠嗑儿。”

2000年，作为一个小屁孩在电视前看春晚时，我决计想不到，有生之年世界上真能出现一个陪人唠嗑的机器人，还能唠得和小品《钟点工》里宋丹丹演的“大妹子”一样好。。。

二十三年以后，我等到了 ChatGPT。

先问你个问题：ChatGPT 和宋丹丹，你觉得谁陪你聊天会更贵一些？

看上去有点儿无厘头，其实这是个严肃的问题。你先在心里盲猜一个答案，然后我给你求解：

先来看钟点工的价格。

小品里宋丹丹说了，唠一小时40块。

再来看 ChatGPT。

它唠嗑的价格，一般人不知道，但中哥我知道。

这是浚源告诉我的。

给你介绍一下，浚源有三个身份：

一、人工智能老师傅；二、字节跳动火山引擎旗下“方舟平台”的研发负责人；三、不仅关心AI马儿跑，更关心马儿吃多少草的“现实主义者”。

话说，2022年底，ChatGPT 刚横空出世那阵儿，作为人工智能界的“老炮儿”，浚源简单跟它对话了几句，就得出了两个了不得的结论：

一、这种大模型加持的AI，掌握了理解上下文的能力，可以像人一样你一言我一语地“连续对话”。

就凭这一样，已经华丽丽地实现了几代人工智能科学家半个多世纪的梦想。

二、能做到这一点，是因为他们掌握了 AI 大模型的“涌现机制”。

从专业角度看，这个进步不是“骗炮”，它很可能让人工智能摆脱如中世纪般漫长的“人工智障阶段”，得以在各行各业迅速普及！

一想到“普及”两个字，他不困了，按捺不住想要算算这大模型运转的成本是多少。

话说，ChatGPT 的“工资”也是明码标价的——它是按照 Token 来计算的。

啥是 Token？咱们人类理解语言的基本单位是字词，但是大模型理解语言的方法稍有不同，它的基本单位就是 Token。

一个 Token 有时候对应半个词，有时候对应多个词，大部分时候对应一个词。

为了方便，咱们就简单理解为一个 Token 对应一个词吧。

这张图直观展示了啥是“Token”。

ChatGPT 跟你聊天，分为两步：

1）先理解你说的话；

2）再生成它说的话。

这“一听”+“一说”，里头总共有多少Token，它就收你多少钱。

现在 ChatGPT 有两个版本，普通版的 ChatGPT 3.5，还有史诗级的 ChatGPT 4.0。调用 ChatGPT 3.5 的价格是“每1000个 Token 0.002美金”；调用 ChatGPT 4.0 的成本大概是“每1000个 Token 0.06美金”。

咱们就按一问一答500个Token算：ChatGPT 3.5 回答一个问题大概是不到1分钱人民币，ChatGPT 4.0 回答一个问题大概是不到5毛钱人民币。

也就是说，如果你打字飞快，把 ChatGPT 4.0 壁咚到墙角一顿唠，一小时能问出去几十个问题，极限状态也能耗费掉30-40块钱。

说到这儿，我们的问题大概就有答案了：

目前人类最先进的 AI 大模型——ChatGPT 4.0——竟然和宋丹丹老师陪聊的价格差不多。。。

它聊一小时也相当于黄宏老师的1小锤，0.5大锤。。。

相当于赵丽蓉老师的0.22杯宫廷玉液酒。。。

好，不开玩笑了。其实刚才这些计算都是非常粗略的，不足作为商业参考，我讲这些只是为了让你能直观地感受到：

人工智能不是省油的灯——“大模型”干起活来，其实成本并不低。

而我们今天要讲的所有故事，皆与此相关。

话说，大模型干活的成本高低，本来和浚源也没太大关系。因为他当时还在忙另一个项目，测试大模型只是满足一下自己该死的求知欲。

可是，2023年3月底的一天，他的命运轨迹突然如秋名山的赛道，来了一个急转弯。

当时火山引擎智能算法负责人吴迪找到他，开门见山：眼看大模型的浪头已经开始翻涌，火山引擎准备跳进这个历史大潮里，你要不要来？

“来！”浚源回答很干脆。

浚源

（二）一帮人工智能老师傅，发现了啥惊天大幂幂？

老规矩，在讲“老师傅搞事情”之前，为了让浅友们都能上车，咱们还是先把时间暂停，强势科普一点儿基本姿势。

问：到底啥是大模型？

答：就像飞机是用钢铁模仿鸟儿翅膀一样，大模型是用计算机模仿人类的大脑。

咱们的大脑之所以能做决策，是因为它把学过的知识、见过的人、想过的事情都做成了“缩略图”存在了脑细胞里——遇到啥问题，去“缩略图”上查一下，就能得出答案。

你老板之所以给你发工资，不就是因为你有这个技能点么？

大模型也是一样——你只要把全世界的知识都拿来，然后像虎妈一样督促它“好好学习”，也能在它“大脑”里生成缩略图。

和你一样，大模型也能用这个能力打工赚钱！

问：那一个大模型从“啥也不是”到能“打工赚钱”，中间拢共分几步？

答：分五步。

1、找一座“贵族学校”。

众所周知，训练“AI 模型”需要用 GPU 卡。训练 AI 大模型，更是得用成千上万个 GPU 卡。

GPU 卡堪比黄金，每张都得一万美元起步，堆在一起妥妥就是盖了一座贵族学校嘛！这也没办法，大模型的本质就是氪金魔法，没有金刚钻，别练大模型。

2、找来一堆“课本”。

所谓课本，就是数据，成吨的数据。（训练一个靠谱的大模型，怎么也得几千亿 Token 吧。。。）

课本里的知识越多、越纯、越高级，最终学出来的大模型就越厉害。

3、找一群“老师”来上课。

所谓老师，就是“机器学习平台”。把一个小孩纸丢进学校里，他是没办法自学成才的，得有老师来讲课。

同样，AI 也需要“灵魂的工程师”。

机器学习平台负责“安排课表”，然后对照“课本”上的知识一堂一堂地给大模型“上课”。所有知识都学完，大模型就毕业了。

4、找一群“师傅”来带徒弟。

你懂的，很多毕业生虽然满脑袋都是知识，但啥也干不好，因为没有专业领域的实践经验嘛！

大模型也一样，得根据它将要承担的具体工作，找个“师傅”来继续做“职业培训”。这个过程就叫对模型的“精调”。至此，大模型的“训练”阶段终于结束，可以出徒了。

5、大模型开始“搬砖”。

大模型搬砖的姿势，学名叫做“推理”。比如，我给大模型提一个请求，它在“大脑”里过一下，输出一个结果，就完成了一次推理。

当然，每次推理都会耗费一些计算力。

注意，有趣的事情来了：

推理的计算力成本和“模型大小”有关系。

说到一个模型的大小，其实就在说它包含多少个参数。就拿 ChatGPT 3.5 来说，它的模型大概有几千亿个参数（具体数量没有公布），而 ChatGPT 4.0 大概有上万亿个参数（具体数量也没公布）。

你可以把参数类比为人的“脑细胞”。

思考同样的问题，脑细胞多的“大脑袋”比脑细胞少“小脑袋”更耗费能源。当然，“大脑袋”能解决的问题也更复杂。很公平，对吧？

诶，就在这里，老师傅们发现了一个惊天大幂幂。

啥秘密呢？

AI大模型的复杂度并不是随着任务复杂度“同步增加”。任务复杂，模型必须指数级增大。这也意味着推理成本会随之提升。

人脑则不同：随着思考问题难度的增加，推理成本几乎不会上升。（当然人脑存在一个思考极限。）

大幂幂来了：假如要处理的问题难到一定程度，“AI 大模型解题的成本”就会超过“人脑解题的成本”。

那 AI 大模型大到啥程度，就会比（同等聪明的）人更贵了呢？

拿2023年的科技水平来说，至少在 ChatGPT 4.0 能处理的任务复杂度这个级别，人和 AI 的成本已经大致相当了。（这下你明白为啥我在文章开头要算那个账了吧？）

当然，浚源强调这样简单比较并不准确。但一个总体趋势是：特别难的任务推理成本还太高，目前不太实用。

了解了这些，我们再回到吴迪和浚源他们身边，你就能跟上这群“AI 老炮儿”当时的思考逻辑了：

像 GPT 4.0 那样超大的模型，更靠近通才——靠一个模型就能胜任多种工作。虽然研发一劳永逸，适配各行各业相对简单，但是它的推理成本会很高，甚至超过真人！

明显用人来干更便宜的情况下，谁会用 AI 去干呢？

像 GPT 3.5 那样或者更小一点的大模型，更靠近专才——必须针对各个工作单独调整模型，才能完美胜任。（或者说它也是通才，但比真正的通才更专一些。）

虽然适配工作很麻烦，但是，它的推理成本低啊！大家用得起，才有商业化的动力。

话说，就在我们故事开始的2023年3月，眼看中国大大小小的企业都已经开始研发大模型，堪称“百模大战”。

当时很多看客觉得，中国大模型要想追上 ChatGPT 3.5 的水平，起码得2-3年。但浚源掐指一算，不用那么久——预计到2023年底，大家就能追上 ChatGPT 3.5 的水平。

这也意味着，“小而专”的大模型在中国的商用已经箭在弦上。

有了这些共识，老师傅们再盘腿坐在一起，商量火山引擎要搞点儿啥事情。

他们得出结论：既然这么多小而专的大模型想进入各行各业，必然需要根据具体的工作种类进行定向精调、各种适配。

那作为云计算服务商，能不能把各家大模型都放在一起，火山引擎提供统一的平台和工具，帮这些大模型在各行各业落地呢？

这不就是那个经典逻辑么？在美国西部淘金热的时候，赚大钱的不是那些亲自淘金的，而是在一旁卖铲子的。。。

但我转念一想：不对啊！帮大模型在各行各业落地，这是你说帮就帮的么？这些大模型愿意么？各行各业的客户愿意么？

其实，2023年春天吴迪忽悠浚源“入伙”时，浚源就提出了这个疑问：“咱们家里到底有啥矿，让人家非得和我们火山引擎合作不可嘞？？”

吴迪呵呵一笑：你有所不知，就在此时此刻，智谱、MiniMax、出门问问、澜舟科技、百川智能这些明星公司的大模型已经跑在咱们火山引擎上了！

吴迪

（三）火山引擎的“朋友圈”来之不易

实话实说，第一次听到吴迪说“中国很多明星大模型都跑在火山引擎上”，我也觉得他在吹牛。

怎么可能有这么多嘛？！

但是仔细了解了“火山简史”之后我发现，如果我是大模型创业公司，可能也会把大模型放在火山引擎上来训练。

听我来讲讲这段故事。

火山引擎跟人工智能的关系，怎么说呢。。。就主打一个“家传”。

话说，字节跳动的两大天王——抖音和今日头条——它们火爆的原因有千万条，但如果只能说一条，那肯定是“人工智能推荐技术”。

就拿抖音举例，它有一个熊熊燃烧的人工智能推荐引擎，可以对平台上发生的一切细节进行实时计算，然后针对每个正在刷抖音的用户，找到此时此刻你最有可能喜欢的短视频，随着你手指轻轻一划，这条短视频就传输到了你的屏幕上。

想想看，能给几亿人“量体裁衣”推荐视频的人工智能，训练起来得有多艰难、运转起来得有多壮观。

有关这个推荐引擎，篇幅有限今天就不展开了，浅友们可以参考《你在被窝里刷手机，一个引擎在远方玩命奔跑》《你在抖音上点的小红心哪里去了》。

我要说的是，它就运转在火山引擎上。

你注意过抖音登录屏幕这行小字么？

其实，火山引擎这些年一直在给自家业务提供服务，2020年才正式挂牌对外提供基础计算力，算是云计算的后后后来者了，在市场份额上自然照阿里云、腾讯云有不少距离。

但这里要注意，我所说的距离是指以“CPU”为基础算力的传统云；在以“GPU”为基础算力的人工智能云上，火山引擎可是并不逊色。

刚才咱们说，训练大模型很像“送 AI 去上学”，不仅是指学的过程像，连“卷”的样子也像。

咱们人类教育已经卷到了极致，卷完学区房卷学校，卷完学校卷老师，卷完老师卷辅导。

送 AI 上学也一样，家家不都得找“师资力量”最强的学校么？！

火山引擎“师资力量”咋样呢？我说两个事儿你感受一下：

第一，火山引擎上有“名校”。

刚才说过，GPU 是大模型的学校。

无论是前几年互联网的蓬勃时代，还是疫情的低迷时期，火山引擎对于 GPU 卡可是从不吝啬，一直在买买买。

当然，这主要是因为它的“客户”抖音、今日头条发展太迅猛，对底层AI计算力的需求一直饥渴。

然鹅，这客观上导致火山引擎成为了中国 GPU 的大户。

虽然官方没有披露数据，但是火山引擎手里掌握的 AI 计算力，绝对是全中国数一数二的，数三都不太可能。。。

现在全世界都掀起大模型浪潮，所有人都在争抢 AI 计算力，在这种“饥荒”状态下，看到火山引擎手里充沛的 AI 计算力，那不就是饿了三天看到肉包子的效果么？

第二，火山引擎上有“名师”。

刚才也说过，“机器学习平台”就是大模型的老师。

可这老师具体是咋工作的嘞？我简单给你摆一摆。

1）你可以把大模型看成是一个有千亿个脑细胞的大脑，老师教授知识的过程，从细节上看就是在“调整每一个脑细胞的参数”。

2）每一本“书”进入大脑，都会刷新一遍所有脑细胞的参数。老师孜孜不倦地一本一本往脑袋里装书，脑细胞参数就一遍一遍被“刷新”。

3）但这里的问题是，由于操作太精密，每一波脑细胞参数完全刷新之后才能存档（CheckPoint），进行过程中是不能“存档”的。

一旦中断，至少得“一本书”从头再来。

4）训练一个大模型，需要几千张 GPU 卡连续工作几个礼拜，你中间卡碟，心若在梦就在，只不过是重头再来，那前面白算的一段成本谁给报销？！

5）所以，训练必须一！遍！过！

仔细想想：这种大模型训练过程，跟杂技“顶碗”是一样一样的，所有的碗必须全部到位，一个碗碎了，整个杂技就都废了。

这还不够，GPU 是人类最精密最凶残的造物——每张 GPU 卡700w，一个机箱里插8张——光是发热已经秒杀了一般的电暖气。。。

你想想看，这大夏天的，人脑子都容易热傻了，何况电脑。一堆“电暖气”在一起绞尽脑汁儿算数，一个不小心就会导致故障。

还没完，在保证不出故障的情况下，你还得尽量提高 GPU 的使用效率，确保整个“教学任务”用最短的时间完成。

所以，火山引擎这群“老师”（机器学习平台），必须同时做到三点：

1、制定最有效率的教学大纲（保证训练总时长最短）；

2、严谨地教书育人（保证训练过程不出错）；

3、维持课堂秩序（保证底层硬件之间的协作顺畅）。

这难度就不是顶碗了，这是顶碗的时候踩着平衡木，手里还得扔着五个球。。。

怎么样，这活儿不是谁都能干的吧？

话说这些技能，火山引擎的老师傅也不是一开始就会的。但是。。。这几年为了支撑抖音用户从1亿到2亿，从3亿到6亿，老师傅不会也得会。

比如他们搞出了“0碎片”技术，保证每一丝 GPU 都被用到极限；比如他们研发了一套AI专用的通信框架，让原来25天才能训完的模型用15天就能搞定。

大模型，那可是各家公司的宝贝疙瘩，很多创业公司几十号人就开发这么一个模型，自然要找最好的“学校”来培养。

看了一圈，火山引擎又有名校又有名师，妥妥的重点学校，来这儿也是顺理成章了。

就这样，从2022年开始，火山引擎和这些大模型公司陆续交上了朋友。

老师傅很清楚，这豪华“朋友圈”可不是误打误撞得来的，而是人家从心底相信火山引擎过去十年苦练的真功夫才会慕名而至——每一个朋友都来之不易，绝不能辜负，得帮人帮到底，送佛送到西啊！

怎么才算帮人帮到底呢？

吴迪掏出老司机的经验，开始盘算：

从2023年初到2023年底，这个阶段大家应该都在“卷”大模型本身，AI 计算力主要会用于“模型训练”；

但从这个时间节点往后，大家的模型都训练得差不多了，目标是进入各行各业，那就得有“师傅”来进行各种“职业培训”，也就是“模型精调”。

显然从那时起，“精调”所占用的 AI 计算力肯定会慢慢攀升——2-3年后，“精调消耗的算力”就可能超越“训练消耗的算力”。

就像下图所示：

如此说来，火山引擎要想让手里的 AI 算力和 AI 底层技术在历史长河里奔腾不息，就得不断根据水流调整开船的姿势：

1）先把大模型请上船，帮它们用最低成本和最高效率做训练；

2）再把千行百业务的客户也请上船，帮他们做精调和适配，让大模型这种新技术顺畅地融入他们的血液！

这，就是“火山方舟”大模型服务平台的由来。

怎么样，目标很清晰吧？吴迪拍拍浚源的肩头，去干吧！

不过突然被推入大海，从零开始造船，浚源还有点儿蒙——既然要做“平台”，火山方舟就得一手托两家，左手是大模型公司，右手是用大模型的各行各业——得同时满足两方的需求才行。

那。。。怎么才能让两方都满意嘞？

浚源首先想到的就是：得给大模型配个“脑壳”！

（四）大模型最怕“裸奔”

细心的朋友想必已经观察到了，人的大脑一般是不裸露在外面的。。。

这当然是因为大脑很柔软，也很精密，需要被格外地保护起来。

大模型也是如此。

简单来说，大模型有“两怕”。

第一怕：大模型开发者怕使用者探测到它的模型结构。这样一来，花费上千万美元成本训练的模型，就可能被人白嫖了呀。。。

第二怕：大模型使用者怕模型开发者看到它的数据。如果“用于精调的数据”和用户使用模型时的“请求数据”被拿走，那相当于企业机密就走光了呀。。。

这麻杆打狼两头害怕，还怎么合作呀？！

诶，有办法——像人脑那样，给大模型加个“脑壳”呗！

浚源告诉我，这个“脑壳”的学名叫做“安全沙箱”。

简单来说，它的原理是酱的：

1）安全沙箱绑在火山引擎上，既不属于大模型生产方，也不属于大模型使用方，与世隔绝。（沙子都漏不出去嘛！）

2）大模型生产方把模型 Copy 一份放在沙箱里，大模型的使用方把一条条“请求”加密之后送进沙箱，再把用于解密的钥匙放在沙箱里。

这样，全世界就只有这个沙箱里的大模型可以看到请求的明文。

3）同样，一条条回答从沙箱里送出来时，也是加密的，只有大模型用户有解密钥匙，这样，就做到模型使用全程只有“天知地知你知我知”。

4）如果需要对模型进行“精调”，也是同样的操作。大模型的使用方把自己用于精调的数据加密之后送进沙箱。

精调后的模型参数就留在沙箱里，大模型的开发者也拿不出来。

总之，沙箱就像一个完美的特工：该说的说；不该说的打死也不说。

对于字节这群顶级老师傅来说，做出这个安全沙箱简直是洒洒水，真正难的，是如何“一次成型”地把它快速做好。

确切地说，留给浚源的时间只有两个月。

为啥要的这么急呢？

很简单的道理：火山引擎上的各个大模型正在紧锣密鼓，都快训练得八九不离十了！

脑子都快好了，脑壳还没好，这哪行？！

可是，一个大模型的运转过程中，数据会像水流一样在云上的计算、存储、网络这三个基础设施里来回“流窜”。

要想造出一个滴水不漏的沙箱，就必须像大坝截流一样，把这三个峡口都堵严实，但凡有一样隔离不彻底，都有可能造成数据泄露。

更难的是，这三样基础设施是由火山引擎底层技术部门维护的，不是浚源团队自己说干就干的，得靠兄弟团队配合。。。

幸好浚源平时靠谱。这张脸，此时不刷，更待何时？！

这不，整个四月份，他派出了好几支“方舟远征军”，驻扎在各个产品团队里，上午说需求、中午聊架构，下午跟他们一起撸代码，晚上一起撸串。。。

老师傅们就这样一起撸了两个月代码，感情越撸越好，配合越来越默契，终于做出了一个紧致无比沙箱。

然后，他们马不停蹄把几大合作伙伴的顶尖大模型都塞进沙箱里。

至此，赛博世界华灯璀璨，老师傅们在街边列队整齐，伸出温热的小手，向千行百业的客户招呼——来呀，感受中国大模型的汹涌澎湃呀！

这个画面太美，不妨让它暂停一会儿。我先问你个问题：说了半天“千行百业”，你知道大模型到底能用在什么行业么？

我就不逞能了，直接让吴迪回答吧。

他把目前大模型的应用场景分成三类：

第一类是“生成”。比如大模型看了一堆A产品的资料后，就能变身“AI 客服”，顾客买了A产品，不用看说明书，遇到不会用的地方尽管提问，它都能对答如流。

第二类是“控制”。比如把大模型塞进汽车，它就能变成“AI 管家”。你说一句“我想在车里打个盹儿”，它就能帮你把座椅放倒，把空调打到不吹人的舒适温度，车内灯光调暗，没准还给你来个摇篮曲。

第三类是“辅助创作”。比如让大模型看一堆游戏设定和美术稿，他就能变身“AI 设计师”，游戏开发者可以让它自动生成符合游戏画风的道具、场景、NPC，还能创作符合 NPC 人设的对白。人类设计师只要在它的基础上修改就行，大大节省了创作成本。

你发现没，这些工作的共性就是：需要一些创造力，但不多。

或者你可以简单理解：目前大模型能胜任的工作难度，大致相当于大专院校毕业3年以内人类社畜的水平吧。

之前说过，由于推理成本的限制，做这些工作只能使用比较小的大模型。

比较小的大模型，只有适配后才能更好地完成任务。模型越小，这个适配工作就越多。

如此说来，既然火山引擎铁了心要帮助大模型在千行百业落地，那就必须有一个贴身团队来服务客户——就像“保姆”一样，帮他们配对合适的大模型，并且帮助他们降低使用成本。

那，这个“保姆”要谁来干呢？

吴迪想来想去，在火山引擎内部，还真有一个“服务型人才”，那就是老科。

你还记得字节跳动有一张技术王牌么？

没错，就是那个熊熊燃烧的可以同时帮几亿人推荐内容的“推荐引擎”。

好东西自然不能独享。早在火山引擎还没正式成立的2017年，“推荐引擎”就对外服务了——大大小小的企业都能用到“抖音同款”推荐引擎。而负责把这个推荐引擎接入千家万户的服务团队，正是老科的团队。

让他们来带领大模型面向企业的服务（AI to B）团队，有两个肉眼可见的好处：

第一、火山的推荐引擎已经接入了千行百业，很多公司都已经成为了好朋友，老科团队可以从里面挑选最好最好的朋友“送福利”，让他们优先试用“火山方舟”。

第二、毕竟大模型是人类科技的风口浪尖，客户试用之后难免会遇到些小问题。鉴于老科团队跟客户们都有交情，客户们要是有啥不满意，想打人的时候。。。下手不会太重。。。

2023年5月，火山引擎的几位老师傅去桂林团建，在大自然鬼斧神工的美景里，吴迪看着远方，问老科：“要不要来？”

老科说：“来！”

老科

（五）大模型的“保姆”和“红娘”

话说，要想保姆出场，得先让红娘出场。

因为在我看来，老师傅面临的困难，首先是“唐伯虎点秋香问题”。

举个例子吧：

我是A公司的老板，我们公司生产一种“夺命3000”的格斗神器，想用大模型做一个“AI 客服”。

此时我的角色就是唐伯虎。

我面前有一群“AI大模型”，我知道，里面一定有一个模型最适合做“AI 客服”——成本最低，效果也最好。它就是我的“秋香”。

唯一的问题是：这群大模型都盖着盖头，我不知道谁是“秋香”。。。

大模型是封闭在沙箱里的，开发者不可能打开脑壳给我看；就算开发者愿意给我看，面对一堆代码，我哪知道它到底适不适合我？

这里就要轮到“大模型红娘”出场了！

老师傅键盘敲得飞起，开发了一套“大模型评测工具”，专门在“不掀开盖头（头盖）”的情况下，通过对话来评测这个大模型是不是你的“秋香”。

简单来说，这个评测工具有两个功能。

第一个功能：“自动化评测”。

还拿A公司举例吧。我不是想做“AI 客服”么，那我可以自己写一些符合我要求的“问题和答案”，打包成一个数据集，放在这个评测工具里。

它会自动把火山引擎上所有的模型都跑一遍，然后给出分值。

分值越高，就说明这个模型给出的答案最接近我的数据集，那它就八九不离十是我的秋香了！

第二个功能：“人工评测”。

我觉得我家的“AI 客服”不仅要能回答问题，说话还要有文采。

但“文采”这个事儿非常主观，萝卜青菜各有所爱，自动评测就不太好用了。

这时我就需要“自主命题”，比如让所有的大模型都围绕“萝卜”给我写首诗，我最喜欢谁的风格就选谁！

注意，我一直在说“我的秋香”，而不是“秋香”。

意思就是，这些顶尖大模型之间的“优劣”差异本没那么大，反而是看谁更适合你的任务需求。

换句话说，你的“秋香”不一定是别人的秋香，有可能是别人的“如花”。

这就引出了一个新问题：

假如我的A公司想用 AI 大模型完成不同的任务，不仅要做客服系统，还要做内部培训系统，还要做宣传文案辅助设计系统——对于不同任务，最适合的大模型很可能是不同的。

这相当于我不仅有唐伯虎，还有祝枝山、文徵明、徐祯卿。。。他们日后分别要和秋香、冬香、春香、夏香配对协作。

但每个大模型开发者都不同，可想而知操作它们的姿势也不尽相同，这就很麻烦。

不用说，又到了“大模型红娘”出场的时候了。

当时意识到各个模型操作不统一的问题，老师傅火速开发了一个“统一工作流平台”。

简单来说就是，在每一个大模型的基础上，都安装一套“火山牌”转接插头。

这样一来，七国八制的大模型就被归拢为同一套操作流程，我只要学会跟“秋香”合作，那冬香、春香、夏香就都用同样的姿势就OK了！

扫清了这些障碍，我的A公司终于能“迎娶”秋香过门了！

这时，终于到了大伙儿一直期待的重要步骤——对秋香进行调教，也就是所谓的“模型精调”。

从这开始，也是老科的“保姆”团队重点要做的事情了。

话说之前咱们一直没来得及解释，到底啥是精调。

沿用我们的比喻，就是唐伯虎迎娶秋香之前，要把唐家府上的各种规矩拿出来，给她进行一套“职业培训”。让她在学习了社会的一般规范（在模型训练阶段就完成了）的基础上，继续学习唐府的个性规范（需要精调来做）。

具体的做法和训练模型时类似，也要拿来一些教科书（如果让它做“AI 客服”，这里就需要“产品说明书”的数据），然后请老师（机器学习平台）来上课，把大脑里的所有模型再刷几遍。

精调之后，秋香就不再是纯粹的秋香，而是“唐家夫人”了。

到这儿，保姆可以撤了吧？！不行，还有重要任务没完成。

那就是——玩儿命降低模型推理成本。

别忘了，在大模型训练的时候，“秋香”可是看了全世界的知识，这些知识她都学杂了，既会三国杀，又会C++。从摩托车维修技术到母猪产后护理，没它不懂的。

但讲真，做为一个“AI 客服”。。。并不需要懂母猪的产后护理。

所以，这里就要对模型进行剪枝，也就是忘掉一些一辈子都用不到的知识。

忘记之后大脑就“瘦身”了，每次思考时“过电”的脑细胞少了，耗费的能源自然就少了，推理成本也就大幅下降了！

剪枝做完了，保姆的任务完成了吗？还没有。

老师傅还可以通过算子优化，继续降低推理成本。

简单来说就是：既然知道这个“AI 客服”日后会经常思考哪些内容，不如现在就把这部分“脑回路”加固一下，做成一些思考的“快捷方式”。让它每次推理这些固定问题时能够更快速、更省流。

毕竟模型日后要进行亿万次推理，每次哪怕省出几个电子，那累积起来都是巨大的成本节省。

看到没，老科带着老师傅“逮住蛤蟆攥出团粉”——把能想的办法都想绝了。。。

有的模型经过他们一番调整，推理成本甚至能下降到最初的十分之一！

话说，大模型在整个人类历史中也才出现了半年，虽然老科是人工智能老司机，但很多地方也得摸着石头过河。

为了尽快积累经验，他们经常是组团去给客户精调模型——客户那边出一个工程师，老科这边能派出去好几个，这阵仗可给客户吓得不轻。。。

“这么干，成本能受得了么？”我表示震精。

“我们当然不会一直这样做。每次回来，我们都会把适配的经验尽快沉淀成工具，以后再做同样的事情，就会用工具辅助人来做。慢慢地工具的比重越来越大，人的比重越来越小，最终的目的就是让客户自己用工具轻松完成精调和适配！”

他笑。

聊到这儿时，我突然想到了字节跳动创始人张一鸣的一句话：“大部分事情你做第二遍的时候，要么做得更快，要么做得更好。”

这恐怕是“人类”和“人工智能”所共享的进步哲学，也是根植在字节跳动这群老师傅心里的技术信仰。

总之，整个2023年的6月，火山方舟上老师傅和用户面前仿佛摆了一桌“螃蟹”，两边一起吃，边聊边吃，把酒临诗，一场人类技术的艰难求索，就此变成了江心纵舟，登极远目。

2023年6月28日，老师傅向左跟几个大模型供应商挑了挑眉毛，向右跟几十家内测客户确认了眼神，决定正式对外发布“火山方舟”平台。

从春天艰难的从零起步，到夏天方舟气象初成，只经历了三个月时间。

（六）“人类之子”

在我和火山这群老师傅聊天的时候，方舟平台刚刚发布。

无数具体的大模型应用都在紧锣密鼓的精调训练中，老科得帮客户保守秘密，不能给我讲得太详细。

他告诉我，不用着急，丑媳妇肯定会见公婆——从现在开始到年底之前，大家会看到各行各业的大模型应用“井喷”。

大模型对我们的生活到底有啥改变，每个人都都能用今后的每一天慢慢体会。

但是，对于火山方舟的老师傅来说，他们没工夫坐在山头抽着旱烟欣赏自己的“造物”，打怪升级的道路才刚刚开始。

大模型就像一个“人类之子”，他可以不只有“脑子”，还可以有“手脚”。

啥是手脚呢？

比如，大模型可以写代码，但是写好的代码只能展示给人类，人类再粘贴到运行环境里运行。如果给大模型插上一个运行环境，它不就可以直接写好代码运行了吗？如果遇到代码错误，它就可以根据运行结果继续调试，直至开发成功。

再比如，大模型可以给你生成菜谱，但需要你照着菜谱自己炒菜啊！如果把一个机械臂连在大模型上，它就可以按照菜谱给你直接把菜做出来了！

这些连在大模型上的系统，统称“插件”。有了插件，大模型就相当于有了手脚。

怎么样，你有什么感觉？

没错，这不就是科幻电影里的“机器人”么？

你看，一旦有了插件，大模型就从一个“缸中之脑”变成了开放世界的真实玩家。

脚下的地图拓展成无穷，伴随的可能性也变成了无穷。在人间游走，它对伦理、文化、技术边界、哲学的冲击，可能将会次第展开。

可以这样说：

站在天空俯瞰，人类对大模型的应用历史就像一座迷宫。

但此时此刻，我们不仅不知道出口，而且，连迷宫的形状和特点还没完全探索清楚。

但除了接受挑战，我们别无选择。

不过对于火山方舟的老师傅来说，仍旧有三件事儿是绝对正确的，那就是：降低成本、降低成本、还是降低成本！！

浚源告诉我，除了老师傅十年来磨炼的人工智能“训练加速”和“推理优化”技术之外，还有一些更大的变量在影响大模型的成本。

比如，有没有可能继续把大模型做得更“精专”？

现在各行各业正在使用的大模型一般都有1000多亿个参数。但是，如果大幅降低大模型的参数，例如降到60-70亿个，会怎么样呢？

这种大模型，在普通人眼里显然不够“聪明”，但它用来完成极其特定的任务，却是非常省钱的！

就拿微软来说，他们就做了一个极小的 GPT，塞进 Excel 里，做成了 ExcelGPT。

这个 ExcelGPT 只会做一件事儿——按照常识帮你把表格补齐。

你看，这个大模型既不用懂摩托车修理，也不用懂母猪的产后护理，它只需要理解简单的常识。用一个极小的大模型就能完成任务！

看到这你也许有点懵，那到底多大的模型最合适呢？

这个问题，火山引擎的负责人谭待在方舟发布会上，用一个有趣的比喻做了回答：

就拿我们公司来说，我们有一些博士，攻坚最难的任务；但我们公司不都是博士，也有很多研究生、有更多本科生，他们每个人都负责相应的任务，让成本和产出达成最优的平衡。

相信大模型也是这样，未来一个公司可能同时使用很多大模型，有超大的模型负责最需要创造力的任务，也有小模型和专业模型负责更普遍的任务。

这些模型结合起来，各安其位，才是大模型的完整生态。