给人工智能“大模型”当保姆,都要操哪些心?
浅黑科技
共 25766字,需浏览 52分钟
· 2023-08-08
浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
一、这种大模型加持的AI,掌握了理解上下文的能力,可以像人一样你一言我一语地“连续对话”。
就凭这一样,已经华丽丽地实现了几代人工智能科学家半个多世纪的梦想。
二、能做到这一点,是因为他们掌握了 AI 大模型的“涌现机制”。
从专业角度看,这个进步不是“骗炮”,它很可能让人工智能摆脱如中世纪般漫长的“人工智障阶段”,得以在各行各业迅速普及!
1)先理解你说的话;
2)再生成它说的话。
像 GPT 4.0 那样超大的模型,更靠近通才——靠一个模型就能胜任多种工作。虽然研发一劳永逸,适配各行各业相对简单,但是它的推理成本会很高,甚至超过真人!
明显用人来干更便宜的情况下,谁会用 AI 去干呢?
像 GPT 3.5 那样或者更小一点的大模型,更靠近专才——必须针对各个工作单独调整模型,才能完美胜任。(或者说它也是通才,但比真正的通才更专一些。)
虽然适配工作很麻烦,但是,它的推理成本低啊!大家用得起,才有商业化的动力。
1、制定最有效率的教学大纲(保证训练总时长最短);
2、严谨地教书育人(保证训练过程不出错);
3、维持课堂秩序(保证底层硬件之间的协作顺畅)。
从2023年初到2023年底,这个阶段大家应该都在“卷”大模型本身,AI 计算力主要会用于“模型训练”;
但从这个时间节点往后,大家的模型都训练得差不多了,目标是进入各行各业,那就得有“师傅”来进行各种“职业培训”,也就是“模型精调”。
1)先把大模型请上船,帮它们用最低成本和最高效率做训练;
2)再把千行百业务的客户也请上船,帮他们做精调和适配,让大模型这种新技术顺畅地融入他们的血液!
第一怕:大模型开发者怕使用者探测到它的模型结构。这样一来,花费上千万美元成本训练的模型,就可能被人白嫖了呀。。。
第二怕:大模型使用者怕模型开发者看到它的数据。如果“用于精调的数据”和用户使用模型时的“请求数据”被拿走,那相当于企业机密就走光了呀。。。
站在天空俯瞰,人类对大模型的应用历史就像一座迷宫。
但此时此刻,我们不仅不知道出口,而且,连迷宫的形状和特点还没完全探索清楚。
就拿我们公司来说,我们有一些博士,攻坚最难的任务;但我们公司不都是博士,也有很多研究生、有更多本科生,他们每个人都负责相应的任务,让成本和产出达成最优的平衡。
相信大模型也是这样,未来一个公司可能同时使用很多大模型,有超大的模型负责最需要创造力的任务,也有小模型和专业模型负责更普遍的任务。
这些模型结合起来,各安其位,才是大模型的完整生态。
当机器的思考有价
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦对了,如果喜欢文章,请别吝惜你的“在看”或“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。
Thx with in Beijing
评论
蚂蚁开源新算法,给大模型提提速!
ChatGPT Plus 一个月就要 20 美元 ,这是笔不小的费用。虽然已经是尊贵的 Plus 用户,但 每次 输 入一个问题后,还是需要等待一段时间才能拿到结果,感觉就像逐字蹦出来的一样。 这 是什么原因呢? 其实,回答的响...
HelloGitHub
0
如何给模型加入先验知识
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达转载自 | 极市平台来源丨https://zhuanlan.zhihu.com/p/188572028端到端的深度神经网络虽然能够自动学习到一些可区分度好的特征,但是往往会拟合到一些非重要特征,导致模型会局部坍塌到一些不好的特征上
小白学视觉
1
当面试官问起Java内存模型
点击上方“服务端思维”,选择“设为星标”回复”669“获取独家整理的精选资料集回复”加群“加入全国服务端高端社群「后端圈」作者 | 安琪拉出品 | 安琪拉的博客《并发与高并发系列第三集-Java内存模型》这篇是并发编程的第...
服务端思维
0