Google AI全家桶,打响大模型反击战

智能计算芯世界

共 4482字,需浏览 9分钟

 ·

2024-05-21 07:52

谷歌举办 2024 I/O 开发者大会,AI 成为绝对主角。2 小时主题演讲中,AI 被提及了 121 次,涉及多款基础大模型更新亮相、AI Agent 与多模态生成式 AI 发布、Gemini 入局谷歌全产品线以及新一代硬件展出等事项。

1. 谷歌进入 Gemini 时代,多款新模型更新亮相

2023 年谷歌 I/O 大会上,谷歌首次分享了 Gemini 计划:一开始就构建原生多模态模型,能够跨文本、图像、视频、代码等多种数据类型进行推理。自此,谷歌在 2023 12 月发布 Gemini 1.0,今年 2 月升级的 Gemini 1.5 Pro 上下文长度可达 100 tokens4 月在模型中加入音频理解、系统指令、JSON 模型等功能。此外,在开源的道路上,谷歌今年 2 月份推出 2B7B 轻量级开源模型Gemma,该模型采用与创建 Gemini 模型相同的研究和技术构建,并在 4 月份推出了 Gemma 的变体模型 CodeGemma RecurrentGemma

今年 I/O 大会上,谷歌 AI 大模型已完成升级迭代,Gemini Gemma 性能进一步提升,逐步进入 Gemini 时代。具体而言,谷歌更新了 Gemini 1.5 Pro 的长文本能力,并引入了新的 1.5Flash 轻量版型号,与此同时,Gemma 也升级至第二代并引入新的变体模型 PaliGemma

1Gemini 1.5 Pro 进阶版,实现 200 tokens 上下文,具备更强大的推理与理解能力。下个月 Gemini 1.5 Pro 还将在 API 层面推出新功能,包括视频输入、并行函数调用和文本缓存,以提高处理多个请求和问答文件时的效率。

2Gemini 1.5 Flash 是为了满足用户对低延迟和低成本的需求而产生的轻量化模型。1.5 Flash Gemini 家族的新成员,也是 API 中速度最快的 Gemini 型。它针对大规模、大批量、高频的任务进行了优化,服务更具有成本效益,且依旧具有多模态推理能力和突破的上下文窗口。

3)开源大模型 Gemma 升级至第二代,参数从第一代 2B7B 的提升至 27B预计今年 6 月份发布。Gemma 2 采用全新架构,旨在实现突破性的性能和效率,它的性能优于一些尺寸超过其两倍的模型,并且可以在 GPU Vertex AI 中的单个 TPU 主机上高效运行。此外,Gemma 推出第一个视觉语言开源模型PaliGemma,并针对图像字幕、视觉问答和其他图像标记任务进行了优化。

4)此外,Gemini 家族中的 Nano 版本正在从纯文本输入扩展至图像,未来将具有多模态能力。Pixel 开始,使用具有多模态功能的 Gemini Nano 的应用程序将能够像人们一样理解世界——它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。

2. Astra 对标 GPT-4o,图像、音乐、视频多模态模型发布

在谷歌发布会的前一日,OpenAI 发布最新的旗舰型号大模型 GPT-4o,不仅提供与 GPT-4 同等的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。其中,GPT-4o 最大的亮点是可以实现即时语音对话以及具备先进的视觉和音频理解能力,能够智能感知语气与语态。

谷歌推出 AI Agent 项目 Astra 模型,具备类似 GPT-4o 的能力,可以实现跨文本、音频、视频多模态实时推理。Astra GPT-4o 的使用效果类似,用户可以通过它和 AI 实时对话,以及视频聊天。在发布会上,工作人员在演示视频中将手机镜头对准身边的物品,并向 Project Astra 提出一些疑问,它几乎能做到零延时地准确回答。

AI Agent 具有广泛用途,具体来看:1)健康管理与医疗咨询:AI 健康代理助手可以通过分析用户输入的症状、健康记录和生活习惯,提供个性化的健康建议和早期疾病预警;2)客户服务自动化:AI 代理可以集成在客服系统中,提供7*24 小时无间断服务。能够理解和回应用户查询,提供账户信息、解决常见问题、处理交易等;3)个性化学习辅导:AI 学习代理可以根据学生的学习进度、兴趣和难点定制个性化学习计划。

《AI Agent技术应用合集》

1、面向办公自动化领域的 AI Agent 建设思考与分享 2、AI Agent 在企业经营分析场景的落地 3、LLM和Multi-Agent在运维领域的实验探索

3. Gemini 赋能谷歌全产品线,打造 AI 生产力工具集合

目前,已有超过 150 万个开发者正在使用谷歌各种工具 Gemini 模型,利用它调试代码、获取新的见解并打造下一代 AI 应用。谷歌力图每个人都能从 Gemini的功能中受益,不断将其突破性功能以强大的方式整合至自身产品体系中,其中包括搜索、PhotosWorkspace 和安卓等产品中。

1)搜索:谷歌将 Gemini 融入搜索引擎,将支持多轮推理、规划能力以及对视频提问。具体来看,有如下亮点:aAI 概述:用户可以通过在搜索结果的顶部,获取由 AI 大模型生成的摘要,以此简化整个搜索过程,让复杂问题的检索过程,变得简单;b)多步推理:对于复杂问题的搜索,可将其拆分为一个个小问题,然后自动对问题排序回答;3)拟定计划:在多步推理加持下,AI 概述可为用户提供计划的方案;d)视频提问:通过视频对话进行搜索并逐步获取答案。

2Photos:推出了新功能——Ask Photos,可以一键从图库中帮用户找到想要的照片和视频。该功能将于今年夏天推出。

3Workspace:提供的一套生产力和协作工具中,包括谷歌邮箱、谷歌 Docs谷歌 Calendar 等,使得在这些工具间进行跨应用工作变得更加容易。例如,谷歌邮箱可自动分析邮件以及附件,识别整理好收据,然后一键在 Drive Sheets中处理。

4. AI 时代的基础设施,新一代 TPU 性能最强能效最高

谷歌为 AI 大模型定制基础设施 TPU,支撑 Gemini 及其他模型训练与服务需求。据谷歌黑板报微信公众号,训练最先进的模型需要大量的计算能力。过去六年中,行业对机器学习计算能力的需求增长了 100 万倍,而且每年都会以十倍的速度增长。谷歌25年以来致力于投资技术基础设施,为AI进步提供定制的TPU

Gemini 完全是在谷歌第四代和第五代 TPU 上进行训练和服务,谷歌 TPU 还支持Anthropic 在内的其他领先的 AI 公司训练他们的大模型。

发布会上,谷歌推出第六代 TPU Trillium,在性能和能效上较上一代均有显著提升。据量子位微信公众号,与 TPU v5e 相比,Trillium 的峰值计算性能提高4.7 倍,HBM 和带宽增加了 1 倍,芯片间互联(ICI)带宽也增加了 1 倍。另外,Trillium 的能效比 TPU v5e 高出了 67%以上,主要系公司采取先进的液冷技术。关于推出时间,谷歌计划今年年底向 Cloud 用户提供 Trillium

除了 TPU,谷歌还推出了 CPU GPU 来支持任何工作负载。CPU 方面,谷歌上个月宣布首款基于 Arm 定制的 CPU——Axion 处理器,可提供业界领先的性能和能效;GPU 方面,谷歌成为首批提供 Nvidia 尖端 Blackwell GPU Cloud提供商之一,该 GPU 将于 2025 年初上市。

下载链接:

《半导体行业深度报告合集(2024)》

《人形机器人专题》
人形机器人专题2:编码器 人形机器人专题3:IMU传感器专题 人形机器人专题4:减速专题研究
《AI应用专题系列合集》
1、AI应用专题之一:百花齐放,静待杀手级别应用 2、AI应用专题之二:“情感陪伴”领域有望孵化杀手级应用
《半导体芯片行业系列研究》
1、半导体芯片行业系列研究:中国逻辑芯片行业概览 2、半导体芯片行业系列研究:中国存储芯片行业概览
智能时代的计算架构发展趋势
《半导体行业系列报告合集》
面向超万卡集群的新型智算技术白皮书(2024)
《大模型与网络通信技术合集》
1、生成式大模型承载网络技术探索 
2、通信网络与大模型的融合与协同
《第三代化合物半导体技术研究合集(3)》
1、第三代半导体报告:中国氮化镓行业概览 
2、氮化镓:第三代半导体后起之秀,下游渗透潜力巨大 
3、国产第三代半导体公司的发展现状研究 
4、碳化硅(SiC)行业深度:市场空间、未来展望、产业链及公司深度梳理
《第三代化合物半导体技术研究合集(2)》
1、中国SiC碳化硅器件行业深度研究报告 
2、八大维度解析:功率公司碳化硅、IGBT、分立器件哪家强? 
3、半导体材料系列:第三代半导体碳化硅行业前瞻
4、中国芯未来梦:2023半导体洞察报告
《第三代化合物半导体技术研究合集(1)》
1、第三代半导体行业深度报告 
2、碳化硅行业深度:碳化硅,核心优势、产业链及相关公司深度梳理 
3、III-V族化合物半导体研究框架

《70+篇半导体行业“研究框架”合集》

600+份重磅ChatGPT专业报告
《人工智能AI大模型技术合集》
《56份GPU技术及白皮书汇总》


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 76
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报