谷歌搜索近5年来最大变化,使用BERT算法改进10%搜索结果
【新智元导读】Google搜索使用了BERT算法,以改进用户在输入搜索查询时的搜索结果。Google研究员兼搜索副总裁Pandu Nayak称:“这是我们过去五年中最大、最正向的变化,也许是自开始以来最大的变化。”想了解更多资讯,欢迎来新智元 AI 朋友圈与大咖一起讨论~
Google推出了一项新技术,以改进用户在输入搜索查询时提供的结果,尽管很多用户可能没有注意到这点。
谷歌目前正在对其核心搜索算法进行更改,并表示该算法可以改进10%的查询结果。它是Google研究人员基于尖端自然语言处理(NLP)开发的技术,BERT。
上周五,该公司宣布将开始使用在其研究实验室开发的名为BERT的人工智能系统,以帮助回应来自美国的英语会话查询用户。这把在美国用英语发起的查询搜索结果的匹配度提高了10%左右。后续将会推出面向其他语言和国家的算法。算法所做的更改主要是以技术方式理解语言和上下文语境,为用户提供更好的搜索响应。
Google称,这一技术的本质是通过更好地理解一个句子中各个单词之间的关联,来提升搜索结果的准确率。谷歌在一次新闻发布会上讨论了一个例子,其搜索算法能够解析以下短语的含义:“你能为某个药店买药吗?”
Google研究员兼搜索副总裁Pandu Nayak称,旧的Google搜索算法将该句子视为“单词袋”。它会关注重点词汇“药”和“药店”,并简单地给出与“药”和“药店”相关的查找结果。而新算法能够理解“为某人”一词的上下文,以意识到这是一个有关您是否可以接受他人处方的问题,并且给出了正确的结果。
例如,键入“在没有路缘的山坡上停车”,Google之前的算法通常会认为“停车(parking)”“路缘(curb)”很重要,而不是“没有(no)”,这意味着用户可能会得到有关在路边停车的搜索结果,但停车地点是“有路缘的山坡“。BERT则更善于理解关键字“没有”,并给出符合“no curb”的结果。
经过调整的算法是基于BERT。首字母缩略词的每个单词都是NLP中的一个术语,但要点是BERT看起来不像“单词袋”那样处理句子,而是处理句子中的所有单词。这样做可以使它认识到“为某人”一词不应该被忽略,这对理解句子的意义是至关重要的。
Google提取了一个英语句子集,并随机删除了15%的单词,然后BERT的任务就是弄清楚被删掉的单词应该是什么。Google高级研究员兼研究高级副总裁Jeff Dean认为,随着时间的流逝,这种训练对于使NLP模型“理解”语境非常有效。
搜索的所有更改均经过一系列测试,以确保它们实际上在改善结果。其中一项测试涉及使用Google的人工审核人员队伍,他们通过对搜索结果的质量进行评级来训练该公司的算法,Google还进行了实时的A / B实时测试。
算法进步后,Google还配备了新硬件,Pandu Nayak称,“使用BERT构建的某些模型较为复杂,以至于它们限制了我们使用传统硬件可以完成的工作的极限,因此我们第一次使用最新的Cloud TPU来提供搜索结果并快速为您提供更多相关信息。”
但并非每个查询都会受到BERT的影响,它只是Google用于对搜索结果进行排名的许多不同工具中的最新工具。究竟如何将它们完美地结合在一起,这还是一个谜。Google故意将其中的某些过程神秘化,以防止垃圾邮件发送者玩弄其系统。但还有一个重要的神秘原因:当计算机使用机器学习技术做出决策时,可能很难知道为什么要做出这些选择。
这就是机器学习“黑匣子”问题,是机器学习的一个普遍问题。因为如果结果在某种程度上是错误的,可能很难诊断原因。谷歌表示,它已经努力确保将BERT添加到其搜索算法中不会增加偏见,但其训练模型本身是有偏见的,由于BERT受过庞大的英语句子的训练,而这些句子本身也带有偏见,因此需要密切注意。
该公司还表示,至少在大型发行商看来,它预计算法不会直接或间接影响流量。每当Google提出更改搜索算法的信号时,就会引起网络用户的注意。因为一些公司的“生死存亡”是受到谷歌搜索排名的变化影响的。
最后,说到搜索结果的质量,Google研究员兼搜索副总裁Pandu Nayak说:“这是我们过去五年中最大、最正向的变化,也许是自开始以来最大的变化。”