黄学东分享：Zoom AI如何正确地「碾压GPT-4」-技术圈

编辑：润

差异化地利用不同成本的AI工具，让能力强成本高的AI完成难度大的任务；成本低能力弱的AI完成简单的任务，从而在完成质量和GPT-4几乎一致的前提下，将AI完成任务的推理成本降到了GPT-4的6%。

在去年底，对标GPT-4，Zoom AI就做到了「质量一样，成本打1折」！

文章地址：https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/

3月26号，黄院士又发表了一篇新的技术博客，宣布联邦AI技术取得的最新进展：

通过整合Claude 3等新推出的强力LLM，「联邦 AI」在特定的任务场景中，完成质量已经超过了GPT-4——

在Zoom提供的会议摘要功能「Meeting recap」上，Zoom AI的结果相比GPT-4将错误率减少了20%，在自动预测下一步操作的「Next Steps」上，Zoom AI的正确率提高了60%。

具体来说，Zoom AI将市面上的所有可用的LLM都整合了起来。

集众家之所长，从而在产品层面做到了质量「碾压GPT-4」！

这样的技术路径不但大大降低了使用大模型的成本，而且随着市面上不同公司的大模型性能的变化，可以灵活选择最适合任务的模型进行搭配。

从避免了与某一个模型深度绑定后，反而限制了产品服务质量的情况。

在Zoom最新的内部基准测试中，通过让人类评委盲选最准确的会议摘要的方式进行了测试。Zoom LLM和Claude-3配合下在会议总结和提取下一步操作两个任务上的表现都优于英文版的GPT-4。

将Zoom LLM与GPT-4总结日语会议的结果相比较。Zoom LLM也能够提供更好的结果，降低了接近15%的错误率。

根据Zoom委托GigaOm进行的一项研究显示，Zoom AI Companion的会议转录的准确率高达95%以上。

在会议提问场景中，Zoom AI Companion提供的结果比ChatGPT-4 web快四倍。

而在安全性上，Zoom AI组建一个由Claude-3、Gemini和GPT-4等多个LLM组成的「委员会」，降低了大多数LLM输出的固有偏差，从而减少了幻觉，进一步提高了输出的质量。

最主要的原因是不同的LLM不太可能犯同样的幻觉错误，所以Zoom LLM可以生成更一致的回应，进一步减少幻觉的影响。

而且根据黄院士透露，在性能表现超越GPT-4的任务中，推理成本有所上升，但依然只有GPT-4一半左右。

虽然要取得超越GPT-4的性能，Zoom AI成本要比去年底的「成本打一折」时高上不少，但是依然比仅仅使用GPT-4要便宜很多。

参考资料：

https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/