首款国产AI搜索横空出世,革了传统搜索引擎的命!无限追问,告别广告
共 7200字,需浏览 15分钟
·
2023-08-30 23:47
新智元报道
新智元报道
【新智元导读】大模型时代的搜索范式革命已经开启,AI技术将彻底改变搜索体验。第一家国产AI搜索引擎已经落地。
在大模型时代,我们需要什么样的搜索?
ChatGPT石破天惊地出现,让所有人都意识到:人类接受和处理信息的模式,是时候重构了。
此前,一位UC伯克利教授曾给出惊人预测,2030年的GPT,一天可以学习人类需要学2500年的知识。
虽然暂时还无法和硅基生命在这个赛道上一分高下,但毫无疑问,在知识爆炸、信息过载的时代,我们需要的信息,绝不仅仅是简单的搜索后随意堆叠在眼前的、未经咀嚼的「生食」。
我们需要的是「成品」,是更懂人心的搜索工具,更真实、更实用的信息,和更权威更可靠的信息来源。
如果这个工具足够善解人意,能够准确猜到我们的意图,通过切中的追问为我们提供源源不断的启发,就更完美了。
现在,以上这些都不再是幻想!
就在前天,昆仑万维正式推出了国内第一款融入大语言模型的搜索引擎——天工AI搜索,并同时开启内测申请(内测地址:tiangong.cn)。
作为参加内测的首批用户,经过两天的深度体验后,小编觉得:比传统搜索智能、比GPT-4实时,比其他AI搜索准确。
传统搜索的奇点时刻,真的来了!
搜索如何迈入AI时代
小编体验后最强烈的感受就是——第一次,搜索变得人性化了。
智能检索,全面总结
在这无穷的可能性中,我们需要浪费数不清的时间,像「寻宝」一样探索,最终还未必有结果。
而基于大模型能力的AI搜索,是一种生成式搜索,用户可通过自然语言清晰表达自己的意图,AI搜索提供的是经过组织和提炼后的答案,不是「信息」,而是「知识」。
大模型带来的整合、提炼、串联信息的能力,让AI搜索能更好地应对开放式问题。处理知识类和创意类搜索时,表现也完爆传统搜索引擎。
就天工AI搜索来说,它与传统的搜索引擎类似,会首先将搜索结果的信息源展示出来。
然后,再给出由AI大模型生成的总结。
最后再配上由AI生成的追问,形成的「链接——回答——追问」的结果呈现方式。
而且,基于对上下文语意的理解,天工AI搜索能够以AI总结+多轮对话的方式,不断帮助用户发掘自己真正的搜索意图,解决用户的实际问题和困难,并且实现对复杂问题的深入研究。
比如,假如我们现在需要减肥,但对此毫无了解,在传统的搜索引擎中输入「如何10天瘦十斤」,然后就要面对海量的链接。
天工AI搜索中,给出的不是孤立的链接,而是有机串连的结果。
这样的好处在于,避免了传统搜索中「一堆链接无序地砸到脸上」的情况,不必担心信息过载。我们理解信息的速度和全面性,都会大大提高。
因为天工AI搜索将链接放在上下文之中,有机地梳理、呈现出来,让用户一眼就能把握住要点。
基于上述回答,我们可以很自然地分别对运动和饮食两个核心方法,进行进一步的追问。
根据它提供的追问,我们接下来可以问:该怎么规划饮食。
回答非常靠谱,没有AI自己杜撰的「机器料理」,也很好地满足了只有「牛肉和鸡肉」这个条件。
最后,我们可以让它根据菜谱,总结一份超市购物清单。
短短10分钟,我们就得到一个完整的减肥方案,操作性极强。
让一个健身小白,在网上茫茫多的「信息」之中,成功获取到了能指导自己减肥的「知识」!
总结来看,传统搜索引擎给出的结果,是根据各家算法获得的链接和问题的相关性做出排名后,由高到低呈现出来。各个链接之间的逻辑永远都只是一个抽象的相关性排名、高的在前,低的在后。
而天工AI搜索,是传统搜索的智能化版本,它能够通过大语言模型将各个链接的内容,以及之间可能存在的逻辑联系总结概括出来,从而帮助用户更快更好地获得对自己有帮助的回答。
顺便,小编也向Bing Chat提出了同样的问题,然而它的回答就很敷衍。
只是罗列了几种食品的排列组合。完全无视了5天不重样的要求。
与此同时,天工AI搜索还通过大模型实现了对广告网页的识别和筛选,解决了传统搜索引擎中无处不在的广告问题。
如此一来,也就确保了用户能够获得纯净、高质量的搜索结果,完全不用担心自己在使用过程中会受到广告的误导。
接下来,让我们仔细剖解一下,天工AI搜索的几个独特「超能力」。
无限追问,环环相扣
在使用传统搜索时,如果我们想要继续深入了解某话题,不仅需要从头开始一轮新的搜索,而且在加入新的关键词的同时,还得思考需要保留哪些旧的关键词,才能让搜索引擎不跑题。
此外,为了便于回溯之前查询的答案,我们还不得不保留多个浏览器标签页,操作起来极其繁琐。
而天工AI搜索,却可以通过20多轮交互展开深度探索,推着我们向终极答案一步步逼近。
就拿天工大模型刚刚发布时,轻松搞定的那道自家算法工程师面试题为例。
在经过一番「上网学习」之后,天工AI搜索很快就给出了基于二分法的Python实现。
紧接着,天工AI搜索又根据问题本身以及自己用到的方法,给出了三个更进一步的追问。
显然,如果我们想更加深入地学习这道题的解法,直接点击问题一即可。
针对这个问题,天工AI搜索除了对之前所用的「二分法」进行了解析外,给出了「插值法」和「斐波那契法」这两种新的方法。
如果想进一步了解插值法的相关实现,直接告诉天工AI搜索就可以了,完全不用重复之前的问题。
在使用天工AI搜索的「追问」时,小编忽然感到,这个过程如此似曾相识。
古希腊哲学,就是一门纵深追问与精密逻辑的系统。穷尽万物、寻其根本,在追问中,人类探寻着宇宙本源。
看来,无论是形而上的学习一门新知识,还是具体到写一篇学术论文,天工AI搜索在辅助我们打开思路、展开推理的过程中,一定大有可为。
追根溯源,回答可靠
传统搜索的一大痛点,就是不同来源的信息鱼龙混杂。另一面,大模型的生成机制,也无法避免「一本正经地胡说八道」现象。
这里,天工AI搜索的另一大特点,就是在所有回答下方,列出了信源索引,供我们验证信息。
由此,任何一个人可以考察回答的准确性,进而保障了答案可追溯、可考证、可信赖。
就比如,让天工AI搜索解答大型语言模型发展前景是什么?
天工AI搜索给出4种发展趋势,并在回答上方,列出了6条信息信源,覆盖了知乎等各种媒体来源。
如果无法确认第2个要点,可以根据标注的来源,翻阅全文去进一步了解。
又或者对第3点有疑问,查阅第6个链接。
此外,每轮搜索结果,都会保留在历史记录中,方便随时查找,甚至,还可以一键分享给他人。
量身定做,千人千面
第一次,我们在搜索上得到了「量身定做」、「千人千面」式的体验。
小编分别开了两个问题,设定了不同的初始体重,请天工AI搜索帮我制定减肥健身计划。
天工AI搜索给出的回答和追问中,针对大体重人群,专门强调了运动减肥的安全性,提醒用户要避免运动伤病。
而在追问和回答当中,甚至专门提出了「低冲击有氧运动」的方式,防止减肥过程中给身体造成损害。
而在另一个问题当中,我们将体重设置在80公斤时,天工AI搜索给出的回答和追问中就不涉及避免运动伤痛,而是强调运动效果和运动习惯养成。
用户使用追问进一步提问后获得的回答以及追问和150公斤设定也下会有非常大的区别。
同样是提问健身减肥,只要用户能向天工AI搜索提供尽量多的细节,就会得到更加定制化的搜索结果和回复。
这种「量身定做」「千人千面」的定制化搜索体验,在支持多轮对话的搜索环境中,依赖的是天工AI搜索在追问系统中采用的意图识别,用户反馈接收,上下文感知等技术。
这样的体验与仅仅依赖关键词匹配的传统搜索,完全不属于一个时代!
实时信息,避免幻觉
比如,最近室温超导讨论热度非常火,我们可以让几个搜索工具pk一下,跟进一下最近的论文情况。
天工AI搜索给出的链接,包括了arXiv上的论文,知乎讨论和新闻报道,从多个渠道汇集了事件的最新进展。
而且生成的回答中,不仅有关于每篇论文的内容介绍,还从更宏观的层面将超导事件认定为「存在差异和争议」。
更为亮点的是,它给出的论文中包括了最重要的中科院硫化亚铜论文,这篇论文是外界认定超导事件最新进展的最重要依据之一。
接下来,轮到GPT-4选手出场了。
它在联网插件的支持之下,也提供了3篇论文,每篇都做了摘要。
然而,这3篇论文都属于发表较早、支持「LK-99是室温超导体」的论文,没有客观反映出LK-99事件整体的最新进展。
显然,与GPT-4相比,天工AI搜索给出的结果更加全面,时效性也更强,更好地还原了事件的全貌。
如今的搜索,谁能把握时效上的优势,谁就能给用户最正确的信息。而GPT-4+联网插件在时效性上,和天工AI搜索还有一定差距。
另外,天工AI搜索利用链接对信息进行溯源,能极大地避免LLM的「幻觉」。
小编随便问了GPT-4一个中国历史故事。大概因为GPT-4的训练数据不包括《资治通鉴》,它果然开始胡诌了。
而能通过链接溯源的天工AI搜索,天生自带联网功能,彻底灭除「幻觉」可能。
而即便是之前产生幻觉的GPT-4,只要给它装上联网插件,它立马就能找到正确答案。
可见,AI+搜索的构架就是针对大模型出现「幻觉」的绝杀!
解密背后技术
核心,还是大模型。
4月17日,昆仑万维首次发布了一款双千亿级大型语言模型——「天工」。
它在文案创作、知识问答、代码生成、逻辑推断、数学计算等领域,展现出非凡能力。经过多次技术迭代,「天工」在许多维度上已达到,甚至超越了业界标准。
技术上,「天工」部署在国内领先的GPU集群上,整合了千亿预训练基座模型,以及千亿RLHF模型,称得上是「大力出奇迹」的模型。
同时,模型还引入了蒙特卡洛搜索树算法,使得输出内容更加人性化。要知道,名噪一时的AlphaGo背后便结合这一算法。
值得一提的是,天工团队从数十万亿的数据中清洗、筛选出了3万亿个单词数据用于大模型的训练,让大模型拥有卓越的中文语境、词汇和语法处理能力。
正是有了「天工」大模型在技术上的突破,以及独特的优势,能够大大拓展天工AI搜索的能力边界。
- 大模型Query意图识别和理解
比起传统搜索,能够提供更加精准的搜索结果,甚至大大简化操作。
对于Query改写,大模型通过将查询进行重组、调整或替换,使其更加准确、简洁、易于理解。
而对于意图识别,其主要任务是识别用户查询背后的意图或目的,以便更好地理解用户需求,并为其提供准确的回答或建议。
- 追问技术
其目的,就是为了准确捕获用户意图,提供最相关的搜索结果。
而这一技术的核心便是,对用户的查询进行理解,并在需要更多信息时向用户提出追问。
其实现原理过程如下:意图识别;信息完备性检测;问题生成;用户反馈接收;动态调整与学习;上下文感知。
此外,为了实现无限追问,还需要大量的数据进行训练,也需要不断地进行迭代和优化,以满足用户多变的需求。
- 信息智能摘要和基于检索的大模型技术应用
应对开放式问题回答的挑战,「天工」采用了Dense Passage Retrieval(DPR)技术。
DPR在处理「长篇文档」和「复杂问题」上具有天然的优势,并能给出优秀的检索结果。
为满足不同的应用场景,DPR提供了2种核心实现方式,各有千秋:
1. single-vector:把问题与文档均编码为单一的向量。
2. multi-vectors:对文档进行多向量编码,但将问题以单一向量表示。
第一种方法因其简洁的存储和检索能力备受推崇,但在某些场景下检索效果可能稍差。与之对比,multi-vectors虽需更大的存储空间,但其在检索准确性通常更为出色。
- 向量语义检索
- 跨语言检索和信息整合
比如,提问「什么是Transformer架构?」
天工AI搜索的参考内容中,便给出了2个国外文章的链接。
这背后,便是利用了「天工」大模型出色的跨语言理解能力,拓展了搜索知识边界,也能让我们第一时间了解全球资讯和研究成果。
那么,跨语言检索和信息整合具体如何实现,有以下几步:
查询翻译;检索与排序;文档翻译(如果需要的话);信息整合;反馈与优化;深度学习与表征学习。
这一全套流程,需要整合多项AI能力,包括机器翻译、信息检索、数据融合和深度学习。另外,大量的双语数据、用户交互日志和高质量的文档数据,也是提升CLIR效率。
从上,我们看到了「天工」大模型和AI搜索之间的关系和演进。
用大模型,重塑搜索
AI搜索,是大模型+搜索技术结合的创新形式。
ChatGPT横空出世后,业界的一种声音认为,谷歌、必应等搜索巨头将会被颠覆。
作为用户获取信息的高频入口,搜索必将成为大模型落地的核心应用场景,并真正释放出大模型所蕴含的巨大生产力。
其实,从国外来看,一些科技公司已经用大模型赋能搜索,为用户提供更好的体验。
微软最先将GPT-4模型整合到New Bing中,让必应搜索能力大大升级,为所有人提供了一个智能化AI助力。
谷歌I/O大会上,劈柴宣布了颠覆性搜索生成体验(SGE),提供问题回答摘要,还有显示文章来源的卡片。
由PaLM 2驱动的全新AI搜索引擎,直接改变了谷歌搜索的底层逻辑。
除此之外,还有DuckDuckGo、You.com、Perplexity.ai全都将大模型融入了搜索。
反观国内,包括百度、360等大模型应用突破,也最先将大模型能力应用到搜索中。
作为一家全球领先的互联网公司,昆仑万维同样会付诸实践,让大模型能力更好地为搜索助力。
2020年,这家前瞻性的头部科技公司便开始布局AIGC和大模型领域。
至今三年的时间,昆仑万维发布了AIGC领域中全系列算法和模型昆仑天工、以及各种生成式AI工具,并开源了各种项目。
有了大模型的助力,天工AI搜索便有了塑造「搜索链接一切」的边界能力,将重塑搜索形态和体验。
天工AI搜索,作为国内第一款落地投入应用的AI搜索产品,是昆仑万维在AI领域持续深耕的一个重要里程碑。
未来已来,而天工AI搜索,将会成为每个人的生产力助手。