对谈 | AI大咖告诉你,有关ChatGPT的一切(下篇)
共 6172字,需浏览 13分钟
·
2023-03-03 20:12
👆点击“博文视点Broadview”,获取更多书讯
ChatGPT如今已经无人不知无人不晓,相关话题大家也都非常关注。
无论是它给我们工作生活带来的影响和变革、AI生成式产品未来的发展方向,还是为了应对其带来的挑战,深扒其背后的技术,让自己更有竞争力,都是大家所想要了解和关心的内容~~
针对这个话题,博文视点“怎么看”栏目邀请到领域内非常权威的王文广老师和鲍捷老师做客直播间,从ChatGPT产品影响、技术使用及投资前景、个人学习路线等多个角度为我们带来了精彩解读!
王文广:达观数据副总裁,《知识图谱:认知智能理论与实战》作者,“走向未来”公众号主理人。
鲍捷:文因互联董事长和创始人,爱荷华州立大学(Iowa State University)博士,金融知识图谱工作组主席。
以下为部分简单整理的访谈文字稿,由于内容过多,分上下两篇发布,已发布上篇对谈 | AI大咖告诉你,有关ChatGPT的一切(上篇),本文为下篇,也欢迎关注“博文视点Broadview”视频号观看完整直播视频!
Q:既然现在全球人民都被ChatGPT的表现惊到,那它现在是不是已经很完美了,有哪些是有待改进的地方?
王文广:其实ChatGPT远达不到完美。
我们现在觉得它很牛,是因为它和我们以前的人工智能相比有一个大的跃进,但不能说它是完美的。
凡是用过ChatGPT的人要么为它所信服,觉得特别牛,要么觉得它是个大忽悠。但没人会认为它是一个人工智障产品。
我们以前有很多叫人工智障的产品。相信大家用各种智能助手的时候,都会发现这么一个问题,比如我家就有那种智能音箱,现在基本上只干一件事情——放音乐,好像也没别的用处。当然有时候会开关台灯、窗帘这种。干不了别的事情,因为你一旦给它多说一点,它就根本不管你讲什么了,基本就干不了活,或者干的和预期的完全不一样。
但ChatGPT其实不会,你给它一个输入,它总能给你一个看起来合理的回答。至于看起来是不是真的合理,要基于两点来讨论:
一点是,它给的东西是不是车轱辘话——看起来非常正确,找不出任何毛病,但是没有任何用。
另一点是,它有时候还会给你一些看起来非常正确,但事实上是错误的东西。它不会给出来一些很智障的回答,这是他很牛的地方。但也正是因为它会给出看似正确,但是实际上是错误的回答,就存在很致命的风险。
这个问题是基于大模型本身所固有的缺陷!
要解决这个问题可能还是回归到符号主义。你可能需要使用知识图谱,或者注入知识计算引擎,并且让它在回复事实的时候给你基于这个知识图谱里可信的知识,把它的可信的知识来源也给到你。
谷歌在这方面做得其实比较多。谷歌内部一直有类似于ChatGPT的产品,也在发相关论文。其中有非常完整的论文描述了如何引入知识图谱或外部知识语言。
事实上,虽然大家对ChatGPT了解很多,但是我觉得谷歌的技术还是优于ChatGPT,而且他可以给出一个比ChatGPT更好的聊天机器人。但是他怕一给会出错,造成的负面舆论对公司影响太大。然而ChatGPT无所谓,他相对是一个小公司,一般人对小公司都比较宽容,对大公司比较苛刻。发生同样的问题,小公司就无所谓,但大公司会被骂得很惨,包括微软。微软使用了ChatGPT,其实实现的能力比ChatGPT要强,但最近被骂得可多了。
OpenAI就像一个小孩子,他有一点优点就值得赞扬,现在他有这么大的一个优点,那肯定可以把它吹上天。如果一个小学三年级的学生能够解微积分,那他肯定非常牛,是个天才。但如果是一个数学专业的大学生,还做不出微积分,那就不是一个天才了。这就是本质的区别。
谷歌的思路一直是,要用知识图谱把外部可信的知识源引入模型里,让它给出来的东西尽可能是可信的。而且谷歌的论文里一直在强调可信这个东西。
鲍捷:我刚又去调戏了一下ChatGPT,想验证一下我的一些观点。
我问了他一些数学问题,包括微积分、不等式解方程、质数分解,这一系列的问题它都能做出来。我不相信这些东西是语言模型带给他的。这些能力应该不只是语言模型本身的能力,背后肯定找到了一系列的方法,把这种计算模型隐藏在后面。
谷歌每出来一套新的这种机器翻译系统,我们都要去调戏调戏,然后我总会发现它对一类非常简单的问题搞不定。什么问题呢?抽象来讲就叫递归文法。用大白话来说的话,就是能不能做算数。
但是算数是一种最基础的递归文法。我们需要用有限的词汇和有限的规则去表达无限的知识。这是之前基于统计的方法,包括基于神经网络的方法,一直没有解决的问题。这也是之前为什么人工智能各个不同的学派相爱相杀这么多年,但谁也没有办法把对方杀死。乔姆斯基的整套文法理论到最上面的图灵机,都有一系列的表达式,再往下就有完全没有文法的东西——你可以理解为一种语言只有名词没有动词。
我在10多年前的时候研究了一个方向,叫语义信息论,试图想去建模一个问题,就是大规模的语言模型。之前其实是一系列基于概率的方法,包括早年的贝尔斯网络,后来的MDP。这个东西对应到我们的语言里可以大致理解为一种只有名词而没有动词的语言。那怎样把动词给加进来呢?动词在文法理论里面叫谓词。然后我们发现,一旦把谓词加到语言里,这个东西的概率化就变得几乎不可能。如果你想去建模语言本身的这种复杂结构,传统的理论认为,如果你仅仅只是通过联合概率或者条件概率几乎没有办法做到,所以这也是为什么之前相当多的各种嵌入方法在比较复杂的需要动词的上下文中做得都不是特别好。它更多的时候是一种鹦鹉学舌。
ChatGPT带给我最大的一个震惊就在于,它居然可以很好地处理动词问题。在目前这个版本里,他把知识建模做得相当不错,包括各种算数问题、微积分问题。所以我们之前拿它做了一系列正则表达式的测试,它对正则语言掌握得非常好。这是很了不起的!
我想这一部分可能更多来自于Codex训练。这是它的一个核心突破。还是如我刚才所说,我依然不相信这仅仅是通过所谓的参数数量本身带来的,一定是里面有精细化的模型结构。它一定有大量的子模块,融合了各种不同的方法。
王文广:这点我可以纠正一下,他的数学能力、逻辑能力、代码能力、正则表达式能力都是通过语言模型展现出来的。这个有很多研究,比如T5模型。
早期的时候,你给它算几万亿或者几万万亿以下的加法,它都能算对,但再大时也会算错,还有乘法或者很多算数也会算错。但现在升级了,基本上是靠语言模型所展现出来的,所以才会让整个业界震惊,就是因为它的能力就是语言模型所表现出来的。
当然这个语言模型表现出来的前提是这个大模型喂进去了足够多的语料,不管是它记住了也好还是真的像人一样有这种数学思维能力也好,但它确实是通过足够多的语料,加上足够大的模型所展现出来的能力。在小模型里面它表现很差。
现在很多数学的评估,包括SAT还有GSK,美国各种英文的入学考试,全部成为评估材料了。而且不仅在ChatGPT上做,OpenAI有很多历史遗留的不同版本的开放API可以去测。其他家也开源过很多这种语料,包括谷歌内部也有好多模型,他们还有一些像斯坦福和MIT的老师在谷歌内部做过一些实验,都表明了足够大的模型加上足够多的语料,就能够展现出非常强大的逻辑能力。
鲍捷:这一点是让我非常吃惊的,打破了我对这件事的认知。我的认知本身就需要被突破,但是对这种完全基于概率模型的、底层的知识表现结构能够实现这种递归式知识表现,感到非常不可思议。如果这是一个非凡的成绩,那需要非凡的证据,我还不确定是不是已经有了,至少他做算数经常出错
所以从它的缺陷的角度来讲,怎么能够让它不一本正经地胡说八道呢?还是需要知识的validator。如果真的被用到能挣钱的领域,就像我们在做的金融领域,那是绝对不允许一本正经胡说八道的,你必须每句话都是真的,你生成的一张财务报表里面所有的数据必须经得起考验。如果我们在垂直领域里面应用它的话,那我们会更强调接口,从而使得它的结果本身能够更好地有安全保证。这也是刚刚文广说的,如果仅仅只保留这种不可约的纯概率的方式的话,那么在这些需要强安全性的应用领域里是很难落地的。
我最关注的就是这种领域,有明确的数据边界,有明确的任务边界,以及必须要避免不可逆的严重后果,满足这三个条件后,我相信ChatGPT的路线会非常好,但要真正落地的话,不一定用和它同样的架构。
王文广:我同意!我看评论里面有讲,很多数学算法不是语言模型所解决的,ChatGPT后来升级过一次,没有公开是不是调用第三方的模块。但是我刚才说的是当语言模型足够时,能够解决很多数学问题,当然也不能解决所有的数学问题。ChatGPT现在是表现得很强,每个领域都能解决很多问题,但不能解决每个领域的所有问题。
Q:如今,各大公司也都开始聚焦研发自己的ChatGPT产品,可能也有很多人开始想要把它作为创业方向,两位老师觉得这件事的实际意义是什么?
王文广:如果你想做一个比较通用的ChatGPT的话,那除非自带5,000万美元进来,否则我是不太建议进入这个赛道的。
我的公众号“走向未来”里把OpenAI称作屠龙刀,把谷歌称作倚天剑,都是神兵利器,不是普通刀刃。别的兵器跟它相撞肯定没戏,因为它们是那种特殊的材质锻造出来的。
那么,没戏的时候就不要跟他正面PK,可以找一个自己的领域。比如我们会深耕制造业和金融领域去做一些事情,然后在这个领域里可能还会再找细分领域去做一些事情。可以在这个领域里面把护城河给构建起来。
另外还是有很多新的机遇出现!比如,ChatGPT或者国内以后有类似版本的话,你可以用来提升自己领域的工作效率。做营销的可以拿它来写文章,效率可以翻10倍、100倍;写网文的原来一天只能更1,000字,现在1天可以更10万字;以前不会画画,只会写字,得找人合作,现在可以把这些AI工具组合起来去做一些事情……在它的帮助下可以做很多很多,各种各样的事情都可以做。
每个人得想清楚自己占山为王要占哪个山头,在哪个山头里称王。
机遇非常多,因为它是刚出现的东西,所以谁现在优先想到一个点,这个点是别人没想到的,就有机会。
鲍捷:如果你是想创业的话,就不要信我说的东西。我认为在目前的这种环境下,不建议年轻人没有准备好就去创业,现在的创业难度比七八年前或者10年前上升了一个数量级不止。其实我最近这几年劝退了无数的朋友,但是最后发现那些就是不听劝的人才是真正的创业者。
如果你真去做的话,我还有另外一个观点,就是这个世界上压根就不应该有人工智能公司。就好像世界上绝大多数的公司都不是操作系统公司,也都不是所谓的浏览器公司,也都不是所谓的编译器公司(有极少数,但绝大多数公司肯定不是)。
所以,世界上不应该有一个神经网络的公司,不应该有一个强化学习的公司,不应该有一个ChatGPT公司,尤其是在当前的市场环境下,不管人工智能有多强大,都依然只是那个蛋糕上面的樱桃。那个蛋糕是什么呢?就是业务系统!
如果你没有基于业务系统去追求一个先进算法,那除非你有50亿美元使劲去烧。即使像OpenAI这样的公司,他们扛了三四年之后也会扛不住,最后还是变成一个商业公司。
所以对于是不是用ChatGPT去创业,我的建议是,第一,你既然要开始创业了,就别考虑什么算法,算法不重要,任何一种算法都能用,你首先要做的事情就是找到属于自己山头的那个业务系统。先能够让现金流跑起来,让业务闭环,再一步一步迭代上去,逐步把强化学习模块、语言模型模块加进来,千万不要一开始做一个复杂的。
Q:对于目前这场ChatGPT军备赛,两位老师从技术上和产业应用上有没有一些建议给到想参与这场游戏的公司或创业者?
鲍捷:不要迷信技术!技术不能自己就能够解决领域问题。
如果你真的对语言特别感兴趣,你要学的不是人工智能,而应该学操作系统。就像很多运维的知识和Linux这种底层的操作能力,以及大规模内存存储和通信服务的架构能力,会帮助你在落地的过程中真正能够把业务系统跑起来,而不是虚无缥缈地说这东西好好,却跑不起来,要等有多少GPU之后再去跑。有一块GPU就能先跑起来,然后学会迭代!架构系统要占到成功的90%以上,具体算法本身不是那么关键。
王文广:我也一直强调这一点,就是大工程这个概念。
AI发展到今天,已经不是一个小模型,或者搞一个算法就能解决的一个问题,而是一个一个大团队综合实力的体现。
没有一个技术是新的,但是把这些东西都组合起来,是一个巨大的工程。
现在大家可能觉得没钱、没卡做不出来,但当你有1万张卡的时候,能不能跑起来,可能都是一个巨大的问题。
比如,业务实现中有很多数据标注工作,你如何去标注这个数据,不是随随便便就能把数据标注好的。就光这件事情本身其实能做的东西太多了,所以这其实是一个大产业链,而不是学算法这么一个问题。
这里面每个环节不同的角色、不同的人都能找到机会。有一双慧眼,你才能找到机会。
Q:最后,老师们留一些寄语给大家吧~~
鲍捷:不要临渊羡鱼,开始干起来。如果你手上没有足够的资源,就先从一个小模块开始做起来。如果完全没有做过这方面的工作,就先从play它的API开始。如果你有一些基础,可以先从小规模的语言模型开始尝试,迭代起来。
如果你还在读书的话,还是建议把人工智能各个不同的古老分支多学一点,没有什么东西是落伍的。因为强化学习我最早学是 1998年,这已经25年过去了,所以没有任何一个东西是新的,你永远不知道什么时候用到哪种算法。如果你袋子里的武器足够多的话,就会发现遇到的这些算法层面上的问题总有一个方法帮你去解决。
如果你现在是一个工程师的话,无论你要解决哪种问题,首先让自己成为一个非常优秀的程序员,然后才考虑成为一个人工智能的程序员。如果连基本的工程都搞不定的话,想太多也没有用。
如果你是业务人员,并不是技术人员,也想去尝试这件事情,那就要么跟人合作,要么完全可以从一些最简单的业务闭环验证开始,当你真正在业务层面上能够验证一个闭环的时候,技术上的加速只是一个技术问题。
所以,不管你有什么样的基础,总是可以立即开始,不要等!
王文广:我深有体会,我也是一直在做产业落地,或者说工程实践方面的工作,就是要脚踏实地!
从鲍捷老师的脚踏实地之上,我再补充一点仰望星空的内容。
一方面就是数学基础,这点很重要,特别是微积分、线性代数。这东西不新,都已经几百年历史了,大家也都学过。基础打牢之后会对你学人工智能的内容很有帮助。
第二就是在打牢基础之后可以展望得远一点。比如,可以了解一下通用人工智能是不是就要来临,有没有更好的方法促使它来临。符号主义、行为主义、连接主义都有几十年的历史了。那未来是否有更好的方法可以做到更好的融合?一旦通用人工智能到来之后,我们不仅仅在AI这个领域,在各行各业都有巨大的机会。因为这是一个巨大的机遇期,是各行各业巨大的机遇期。
……
ChatGPT相关图书请戳👇
每日抽奖
发布:刘恩惠
审核:陈歆懿
如果喜欢本文 欢迎 在看丨留言丨分享至朋友圈 三连