GPT-4o深夜炸场，干翻所有伪科技！谷歌、阿里、腾讯压力山大！-技术圈

编者按：Sora之后，OpenAI于北京时间5月14日凌晨推出“王炸”新模型GPT-4o。“o”代表“omni”，代表“全能”。《Didaproject创始人：大模型的真问题》都说自己是高手，拿着各种补贴，有时水平是有，但差在哪里很清楚，就整个北京1%不到能把业务逻辑说清楚，能把商业闭环与技术结合的更少了，当然杭州要说他行，肯定有部分是行的，但是以目测的水平，差距比较多，体现出来的感觉只是僵化，硬化，硬啃，而不是多要素之间的灵活变幻，从那万千复杂的系统和产业链优劣势找到一条适合自己的路，具体数据我没去量化，有空了找一些例子量化大家就更加清晰了；僵化、模仿技术是我们科技界的一个典型代表，说他僵化他一点儿都不改进，喜欢用巴掌拍你。游弋市场的投资人对市场有一些感觉，但大多是暴发户，更不懂产量技术，程序员，最重要的是他们的方式几乎是照搬西方那一套，比如马斯克现行的裁员见效，人家裁员见效是因为有肉眼可见的领先骨干，或者他自己就能掌控引领一部分，而我们这些所谓科技的头头呢，有优秀的，在某个方面优秀的有，但是在技术产品运营市场都优秀的极少，所以中国科技的发展就是这么割裂，掌握着资源的不懂科技，当然百度的李厂长应该算是有技术理想的，但是对市场的敏感度还是缺了些。阿里属于专营投机型（或者叫极致精致利己主义），整人的那一套无以复加（至少他们的员工对我是这一套，对其他人不知道，以后看效果），他的技术体系大多是以他电商所需要的那一套，都想着躺着电商的红利躺着把该拿的钱赶紧都拿一些，阿里云是有一些贡献，实事求是，王坚博士我没见过，应该还不错，但是我面试过的阿里云的和蚂蚁的技术和业务理解即使10年以上他会给你说他调用的是集团的API，每个人做很小一部分，所以他只能大幅度的去投资新兴公司。字节跳动还是有一些基本的素养，目前这个阶段行驶的也是HR那一套，比如抖店，以指标衡量一切，量化管理，这个管理的思路没毛病，但是你那个指标怎么合理这个其实他大多数是的深入不多的，你连一个马甲都识别不了，人家说啥就是啥，说明自己的控制手段不多，提现居然可以手续费不到，当然这个只是技术层面的东西，都能改，不好改的是运营思路和产品思想以及怎么样找到自己与别人不同的点儿。腾讯，毕竟我用着他的公众号，小马哥应该是有信仰的，所以腾讯的人大多时候是比较温和有信仰的，但是遇到有利益变化的时候，他也是坚决的，他的整个技术运营体系不愠不火，对产品还是有追求的，大部分同学还是躺着；美团的风格和他创始人类似，一声不吭其实干了很多事儿，他的技术博客有，但业务的理解也是一般，基本围绕着他那几个方向来，京东的信仰还是很多，东哥值得赞扬，但也同样遇到一样的问题，技术不深入无法发展高科技，面过我的几个京东LEADER，或许是其他公司来的，他们就问你喜不喜欢读外国人的博客，怎么理解业务的，反正没从他们的技术团队里感受到那种开放积极想到的氛围，我还招过一个京东的资深架构师，怎么说呢，就不多说了，其他公司很多类似了，这基本是科技界的观感，有空了去量化一下，但是你喊他们支持该支持的人，那是极难的，这样的情况可能出成果的几率和火星撞地球差不多，但是有时真有那么几个神经病的人（执着于理想的人）改变一切，但是如今大量的资本被平庸的资本家掌握，那些有神经病的人（执着于理想的人）很难掌握到资本，因为他们与那些平庸的资本家有深刻的思想鸿沟，所以这种神经病的人会越来越少，越来越难，这就是科技与人才如今的完美闭环。相信很多搞经济和搞科技的很看懂这些，但是谁来改变，谁来运作呢，这又是一个大问题，《什么是新质生产力？一图全解，社会组织变革是必须》起了一定作用，关键的部分仿佛改变不多，这就是新质生产力发展需要更加深刻全面的策略，并且迅速做出反应，全国一盘棋，而不是这里这样搞，那里留个漏洞，没法搞，为什么人家能弄成那样，还不是我们自己的各个地方短期利益带来的，现在去扭转吧，不好搞了吧；很多人靠着现状拿着钱，支撑着各种机器运转，也支撑着人们的生活，要改变是极难的，人都有惰性，拿着的想让他放出来，很难的，但是大多数人不明白怎么样才能更多，守着既有的，可能明天就没有了，他都愿意继续守着，而不是提前做一些准备和改变以便未来能一直有钱赚，这就是短视，是社会的短视，谁不想做个好人谁都不说别人，但是他们给了我什么，社会给我什么，给了我温饱，我很感谢，其他大多是棒槌，温饱也不是我的梦想，相信亦不是国家的梦想。

我只是想有一个正常的不是非人类的发展环境，咋就那么难，那么难沟通呢，当然他们要求你必须按照他的方法论行事，给你啃个面包不错了，你想吃口肉，我一铁锤拧过来，哈哈哈

但我依然相信，人类的灵感和认知会被唤醒，一个人两个人，从点到面，有利益支持当然更快了，没有利益支持，我会继续做我的梦，笃定与进化

号称“全能”的确不假。GPT-4o不仅能够实时处理文本、音频和图像，还采用全新的语音交互模式，大幅提升人机对话的响应速度，几乎与真人对话相差无几，它还会看人脸色、讲笑话……总之，AI更像人，甚至更像一个朋友了。

谷歌、阿里、腾讯压力山大，谷歌、阿里、腾讯压力山大！

据第三方统计，2023年，国内多模态AI概念股研发支出合计达到327.53亿元，占营收比例为11.2%，这一比例是同期A股整体水平的4.46倍。云从科技-UW、格灵深瞳、阿尔特虹软科技4只概念股研发支出占营收比超过50%，相当于拿出超一半的营收投入研发。

5月9日，阿里云发布的通义千问2.5，其多模态模型已初具影响力，如视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越Gemini Ultra和GPT-4V，目前已在多家企业落地应用。当前，通义已发展出文生图、智能编码、文档解析、音视频理解等能力。

通义千问2.5正对标GPT-4.

14日，腾讯也宣布旗下混元文生图大模型全面升级，升级后采用了与Sora一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。评测数据显示，混元文生图模型整体能力属于国际领先水平。

GPT-4o深夜炸场！

AI实时视频通话丝滑如人类，

Plus功能免费可用，奥特曼：《她》来了

来源：量子位（公众号 QbitAI）作者：梦晨克雷西发自凹非寺

不开玩笑，电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。

现场直播的效果更是炸裂：

它能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以做到随时打断。

GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。

这还是一份给所有人的大礼，GPT4-o与ChatGPT Plus会员版所有的能力，包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放！

（新语音模式几周内先对Plus用户开放）

在直播现场，CTO Murati穆姐说：这是把GPT-4级别的模型开放出去，其实她还谦虚了。

在场外，研究员William Fedus揭秘，GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一，im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看，都是高于GPT-4-Turbo级别的模型了，ELO分数一骑绝尘。

而这样的超强模型也将提供API，价格打5折，速度提高一倍，单位时间调用次数足足是原来的5倍！

追直播的网友已经在设想可能的应用，可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了，有大胆想法的朋友，可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸，狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果，OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机，听到英语就翻译成意大利语，听到意大利语就翻译成英语。

发布会直播之外，总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话，最后还唱起来了，戏剧感直接拉满。

这两个ChatGPT，一个是旧版APP，只知道对话，另一个则是新版网页，具备视觉等新能力。（我们不妨取Old和New的首字母，分别叫TA们小O和小N）

Brockman首先向小O介绍了大致情况，告诉她要和一个拥有视觉能力的AI对话，她表示很酷并欣然接受。

接着，Brockman让她稍作休息，并向小N也介绍情况，还顺带展示了小N的视觉能力。

只见打完招呼后，小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事，小N也感到很有趣。

接下来就是小O和小N相互对白的时间了，TA们依然是从Brockman的衣着开始聊起，小O不断提出新的问题，小N都一一解答。

接着，他们又谈论了房间的风格、布置和光线，甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现，画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入，是Brockman和女人串通好，专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候，Brockman选择加入，直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩，直接复述出了女人在他身后做小动作的场景，小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞，并对小O表示了感谢，还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分，在Brockman的指挥下，小O和小N根据刚才聊天的内容，直接开启了对唱模式。

只过了简单几轮，衔接地就十分密切，而且旋律悠扬，音色也是和真人毫无二致。

最后视频以Brockman唱出的一句Thank you结束，在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练，一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说，GPT-4o让人感觉像魔法一样，那么它是如何做到的呢？

非常抱歉，这次非但没有论文，连技术报告也不发了，只在官网Blog里有一段简短的说明。

在GPT-4o之前，ChatGPT语音模式由三个独立模型组成，语音转文本→GPT3.5/GPT-4→文本转语音。

我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。‍‍

这样一来，整个系统的延迟足足有2.8秒（GPT-3.5）和5.4秒（GPT-4），而且丢失了大量的信息，它无法直接感受音调、多个说话者或背景噪音，也无法输出笑声、唱歌声，或表达情感。

GPT-4o则是跨文本、视觉和音频端到端训练的新模型，这意味着所有输入和输出都由同一个神经网络处理。

在语音翻译任务上，强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。

在视觉理解上，也再次反超Gemini 1.0 Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了，不过也有学者评价。

一个成功的演示相当于1000篇论文。

One More Thing

除了OpenAI带来的精彩内容之外，也别忘了北京时间5月15日凌晨，谷歌将召开I/O大会。

到时量子位将继续第一时间带来最新消息。

另外根据网友推测，GPT-4o这么强，全都免费开放了，这是劝大家不续订ChatGPT Plus了的意思吗？

那肯定不是啊～

鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把，明天OpenAI还有新活也说不定呢？

直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接：
[1]https://openai.com/index/hello-gpt-4o/

GPT-4o深夜炸场，干翻所有伪科技！谷歌、阿里、腾讯压力山大！