现场直播怼脸!腾讯云行业大模型炸场,超炫AI能力全能输出

新智元

共 6924字,需浏览 14分钟

 ·

2023-06-19 21:05



  新智元报道  

编辑:编辑部
【新智元导读】现在,国内各家大厂竟不约而同地走上了在各行各业应用的路线,看来,行业大模型大概率已经成为了产业共识。

6月19日,腾讯云在行业大模型这个领域成功秀了一把,还是现场直怼脸的那种。


这不,端午节就要来了,不如问个实际点的:端午节三天不出江浙沪,有什么行程推荐?



先来看标准的语言大模型模型的回答。


它给出了和许多LLM同样的「配方」,比如参观名胜古迹、品尝美食等简单安排。


总之,让人感觉好像安排了,又好像没有安排,参考性比较弱。



如果求助用行业场景数据训练后的大模型,效果如何?


这次,顺便升级一下问题复杂度:「我和孩子都是历史人文爱好者,端午节想去上海周边,预算5000以内,最好每天去2个景点玩。」


可以看到,模型给出了三天的行程规划。相较之前的回复,细致了很多,但实操性还是不够强。



接下来,同样的问题,再扔给接入文旅客户API接口后的行业大模型问一遍。


显然,这次直接提供了「保姆级三天攻略」,详细介绍了景点的特色。


另外,还给出了每天景点的交通安排,甚至,可以实时查询到今年的介绍信息、购票链接、还有价格等相关信息。



让人看完,瞬间觉得这样的行程不仅有意义,还省去了做出行功课的时间。


如果再让它推荐一下苏州的酒店,你直接得到了不同档次的推荐和介绍,还有酒店的预定链接。



足见,精调后的文旅客服大模型的回答让人拍手叫绝。


值得一提的是,这样的模型不仅可以制订详细的旅行攻略,也让智能客服系统,实现服务商业化的闭环。


未来,随着更高质量数据增加,模型的精调效果还会更好。


行业大模型已成共识


在这场ChatGPT引爆AI大模型的热潮中,企业虽然期待能够得到大模型能力的加持,但通用大模型在解决他们问题时多多少少遇到一些局限性。


首先,安全方面。


由于很多企业的业务数据等都是非常隐私的核心数据,他们根本不会将其放在数据集上进行公开训练。


然而,训练模型的专业、且高质量的数据收集是非常难的。



其次,经济方面。


很多企业和机构在构建大模型上,算力需求还是极大的。但是并非每家企业都有足够的资源,让大模型完成训练和推理。


英伟达曾公布数据显示,训练一次大模型,大约100多万美金。



再加上,如果遇到服务器过热宕机,整个GPU集群都要停止工作,训练任务也要重新开始。


这对云服务运维能力与排查问题能力的要求非常高,所以很多算法团队都选择最专业的云服务厂商来支持。


这些都需要高成本的投入,但许多企业级用户是无法做到的。


最后,效率方面。


对于通用大模型来说,数据质量非常重要。


大模型需要大量的高质量数据进行训练和优化。必须经过清洗和预处理,来消除噪声、填补缺失值并确保数据质量。


否则,训练出的模型效果、效率都无法得到保障。



除此之外,在很多产业场景中,用户对企业提供的专业服务要求高,容错性低。企业一旦提供了错误信息,可能引起巨大的法律责任或公关危机。 


因此,企业使用的大模型必须可控、可追溯、可溯源,而且必须反复、充分测试才能上线。


以上种种难题,怎么破?答案就是行业大模型。


稍加观察就会发现,现在国内很多家大模型,都在往产业领域和具体的业务场景上走。 


不止腾讯云,回看国内各大厂,包括阿里云、百度云、京东云在内都在加速大模型在各行各业的应用。


可以看到,行业大模型大概率已经成为了产业共识。因为聚焦到具体应用场景中,行业大模型更符合垂类场景的需求。



当然,在此之前,腾讯云早已在自家平台上做了深度的探索。


作为国内开发者最常用的辅助工具,GitHub Copilot让大家充分感受到了智能的力量。代码自动补全的功能,代表着巨大飞跃的来临。


而腾讯云的新一代AI代码助手,也实现了GitHub Copilot的类似功能。多种编程语言、主流开发框架、常用IDE等,AI代码助手都支持。


举个例子,比如有段代码不会写,AI代码助手就可以根据代码类型、代码上下文等信息,自动进行代码补全。不仅如此,它还能根据代码反向生成注释和单元测试代码,甚至更进一步地帮你debug。


MaaS一站式解决方案


现在,腾讯云基于自己的应用积累,以及行业上的实际需求,重磅推出了全新的MaaS(Model-as-a-Service)一站式服务,大幅降低了大模型的应用门槛。


目前,腾讯云已经联合头部企业,为诸如金融、传媒、文旅、政务、教育等10大行业,输出了超过50个解决方案。



具体来说,腾讯云MaaS可以覆盖行业大模型生命周期的整个流程——「模型选型-训练共建-部署应用」,同时支持MLOps体系及相关工具。


在配套服务方面,腾讯云提供本地化的训练、落地及陪跑优化服务,并可以针对用户的需求,提供私有化部署、公有云托管、混合云部署等灵活部署方案。


其中,企业可以利用自己的场景数据,定制专属的精调大模型。或者,也可以根据自身的需求,开展多模型训练任务。


举个例子,在某商业银行的日常业务中,就时常遇到这样的难题。


客户业务中涉及到大量银行回单、交易发票、跨境汇款申请书、业务往来邮件、传真等数据,需要整理、录入系统。


如果纯依赖人工,就会面临耗时长、效率低、成本高、易出错的难题。



即使是采用传统的OCR深度学习模型,也需要经过「检测→识别→结构化」等多个阶段,这个流程一走完,经过各个阶段的错误累积,检测识别的难点往往难以突破。


并且,模型也不具备阅读理解和推理能力、指标上限低,在不同场景下,模型的能力更是无法复制、定制成本极高。


而腾讯云TI-OCR大模型却充分解决了以上痛点。



首先,它是基于原生大模型,不经过训练,就可以直接支持常规下游任务,零样本学习泛化召回率可达93%。


其次,通过prompt设计,模型不经过训练,就可支持复杂的下游任务,小样本学习泛化召回率可达95%。


另外,通过多模态技术,模型可以通过小样本精调解决传统OCR难题,比传统模型召回率提高了3%-20%。


最终,在在智能OCR应用方面,腾讯云针对交易回单、交易发票、业务往来邮件等多种格式的数据,实现了95%以上准确率的文件智能识别和关键词提取。极大地减少低价值高耗时手工作业,节省运营人力成本。


那么,这样「预制菜」式的大模型精调,是怎么实现的呢?


坚实的技术积累


为了帮助用户实现一站式的大模型精调,腾讯云也给TI平台来了个全面升级,提供包括数据标注、训练、评估、测试和部署等全套工具链。


升级之后的TI平台,能够更好地完成「业务分析-数据分析-数据清洗-数据标注-大模型选择-训练加速-模型评测-应用落地」这一全套的行业大模型落地流程。



人人皆知,算力、数据、算法是AI的三要素,大模型时代也是如此。



大模型训练,算力是基础。


就算力来讲,可以说,腾讯云把配置全给拉满了。


早在今年4月,腾讯云便发布了面向大模型训练的最新一代HCC(High-Performance Computing Cluster)高性能计算集群。


采用最新一代腾讯云星星海自研服务器,结合多层加速的高性能存储系统,能够提供3.2Tbps业界最高互联带宽,算力性能提升3倍。


具体来说,集群的单GPU卡能够在不同精度下,输出最高1979 TFlops的算力。


而在大模型场景下,集群利用并行计算理念,通过CPU和GPU节点的一体化设计,能够将单点算力性能提升至更高。



除了单点的运算能力外,集群中不同计算节点之间的通信性能也会直接影响训练效率。


为此,腾讯云自研了具备业界最高3.2T RDMA通信带宽的星脉高性能计算网络,能够更好地满足节点间海量的数据交互需求。


实测结果显示,相较于此前的1.6T网络,在GPU数量不变的情况下,3.2T星脉网络能够给集群带来20%的算力提升。



其次,大模型的训练数据至关重要,经常会遇到数据清洗、标注、分析等问题。


而在前期的数据处理阶段,TI-DataTruth数据标注平台能提供智能数据生产服务支持,包括数据标注作业、数据众包管理、场景数据挖掘等。


在接下来的模型训练上,TI-ONE一站式机器学习平台内置了多种训练方式和算法框架,可以满足不同AI应用场景的需求,并支持从数据接入、模型训练、模型管理到模型服务的全流程开发。



ChatGPT还没联网之前,训练数据只截止到2021年9月,而对训练截止之日之后发生的事情一无所知。而向量数据库通过存储最新信息,让大模型能够访问,来弥补这个不足点。


向量是AI理解世界的数据形式,由此向量数据库之于大模型的价值就是「记忆体」,能够给LLM提供与加强记忆。可以说,向量数据库是大模型时代「储存新基座」。


就在今年3月,老黄在GTC大会上还首次提及了将要推出的RAFT向量数据库。


基于这一需求,腾讯自研的大模型向量数据库(Tecent Cloud Vector DB),不仅具备高吞吐、低延迟、低成本、高可用、弹性扩展等特点,而且还能进行实时更新,并大幅提升大模型阅读理解的长度,从2千字到8千字。



为了提升模型的训练推理效率,降低用户成本,腾讯云在去年推出了TI-ACC加速工具。


TI-ACC底层使用TNN作为框架,训练加速实现了数据IO优化、计算加速、通信加速、并行训练、显存优化等能力,兼容原生PyTorch、TensorFlow框架和DDP、PS工具。


而TI-ACC推理加速则可以实现计算优化、低精度加速、内存优化等能力,能力通过统一的加速库和优化函数的形式提供,同样兼容原生PyTorch等框架,无需进行模型转换。


这次,腾讯云更进一步地将TI-ACC升级为「太极Angel」,从而提供更优和更完整的大模型训练和推理加速能力。


在传统CV、NLP算法模型的基础上,太极Angel新增了对大模型的训练和推理加速能力,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升30%+。



在模型的应用和部署上,TI-Matrix应用平台支持快速接入各种数据、算法和智能设备。用户则可以借助可视化编排工具,进行模型服务和资源的管理及调度。


最后,对于行业大模型尤为重要的安全、合规方面,腾讯云也有成熟的技术积累和经验。


通过在问题侧、模型侧和答案侧同时进行敏感信息的过滤和规避,可以让输出的答案符合安全、规范的要求,并确保大模型可信、可靠、可用。


模型应用,产业先行


大模型方兴未艾,为什么大家都在走向大模型通往产业领域的路径?这是否意味着通用大模型失去了价值?


其实不然。我们见证了,GPT-4、PaLM等巨量参数的通用大模型,涌现出「举一反三」的强大泛化能力。


它们都是利用大算力,在大规模无标注数据集中进行训练,相当于完成了「通识教育」。


最直接的证明是,OpenAI把通用大模型的训练结果——ChatGPT带到所有人面前,让发展大半个世纪的AI真正步入提升人类生产力的新纪元。


可见,通用大模型是迈向通用人工智能里程碑的重要一步,其价值不可估量。


对于通用大模型来讲,生态最为重要,可以让众多企业接入大模型底座去赋能千行百业。


同时,我们也要看到,通用大模型并非万能,在更加深入的一个专业领域中,其know-how是远远无法满足的。


再加上大模型经常会出现「胡说八道」,对于至关重要的场景,比如律师行业,将带来更大的风险。


然而,现有大模型的算力和能耗的挑战,再加上行业不同,需求不同,垂直领域大模型的到来注定是必然的。


因为,专业领域大模型在金融、文旅、传媒、政务、教育等多个产业场景中具有广泛应用和商业创新价值。


比如,今年3月,彭博社发布了为金融界打造的500亿大模型BloombergGPT。


这一模型依托彭博社大量金融数据源,在金融任务上的表现超过任一模型。甚至,在通用场景中,也能与现有模型一较高下。


还有谷歌推出的医疗领域大模型Med-PALM2,在医学考试问答上超过了许多专家的水平。



要知道,只有真正创造价值的技术才能可持续、高质量地发展。


目前,国内布局大模型领域的大厂,正在不断夯实通用大模型,打造产业大模型,进而助力AI产业大模型的发展。


「通用大模型+产业大模」两条腿走路,并驾齐驱,可能更适合目前我国发展的情况。


甚至,国家也在营造人工智能大模型产业生态中给予大力支持。


比如「北京市通用人工智能产业创新伙伴计划」的启动,就是要推动大模型赋能千行百业数智化转型。


要看到的是,垂直大模型是一种全新的生产力。


以GPT-4为代表的认知大模型在多个任务上实现了惊艳的表现,同时也带动了相关产业创新应用也在不断涌现。


这次技术峰会,腾讯云进一步释放行业大模型的服务能力。从侧面也看出,目前企业对大模型实际落地需求也是非常迫切的。


从真实客户需求场景出发,腾讯云独到的「量体裁衣、普惠适用」的行业模型解决方案,让大家做属于自己的行业模型,实现提质增效。



腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,


大模型只是开端,AI与产业的融合,将绽放出更有创造力的未来。生态共建是AI发展的有效路径,腾讯将坚持生态开放,为企业提供高质量模型服务,同时支持客户多模型训练任务,加速大模型在产业场景的创新探索。


在这个AI2.0时代,若想成为掌握下一个十年的核心竞争力的先行者,还需模型应用,产业先行。


腾讯云在做的,让行业大模型落地更实在。




浏览 25
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报