又火两个惊艳的AI项目,已开源!
共 2055字,需浏览 5分钟
·
2024-07-15 16:04
大家好,今天继续聊聊科技圈发生的那些事。
一、Cradle
Cradle,一款全新的框架,使大模型可以通过人类平时浏览的操作界面,执行复杂的计算机任务。
还记不记得,前些日子微软展示的,基于GPT-4o,让Copilot实时为你提供游戏操作建议?例如当你进行到游戏的某个步骤的时候,Copilot会建议你该做什么,并且给你提供相应的教程。
而 Cradle 以屏幕截图作为输入,以键盘和鼠标操作作为输出。这意味着什么?Cradle甚至能代替人工操作者,直接根据实时的截图,像人一样进行鼠标和键盘的操作!
Cradle 的框架实现大致分为以下几个步骤:
-
信息收集:Cradle 从视频片段中提取所有有用的视觉和文本信息(包括布局、图像、动画和UI元素等),以便理解当前情况并进行进一步推理。同时,通过OCR技术提取图像中的文本信息,包括内容(标题和段落)、导航标签(菜单和链接)、通知和指示等。
-
技能和动作生成:Cradle 利用LMM生成代码函数作为语义级别的技能,这些技能封装了较低级别的键盘和鼠标控制,将LMM生成的语义动作与操作系统级别的可执行动作连接起来。类似于人类在游戏中的逐步提高,这些技能可以根据游戏教程、指南、游戏手册和设置获得,也可以是自我成长。这些技能也可以预定义或组合以解决更复杂的任务。
-
动作执行:在Cradle生成动作并决定在环境中执行后,将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令,以与环境进行交互。
目前 Cradle 已经可以在应用和游戏领域取得非常优秀的表现。CRADLE不仅能够操作日常软件,如Chrome、Outlook和飞书,还能够使用美图和剪映进行图片和视频编辑。
在游戏方面,Cradle 史无前例地跟随《荒野大镖客2》的主线剧情游玩了40分钟,在《都市:天际线》中创建一个拥有千人的城市,在《星露谷物语》中种植和收获防风草,甚至在《当铺人生2》中能够进行交易和议价,在一周内实现87%的最大化总利润!
想象一下,当你找不到小伙伴和你一起联机游玩《星露谷物语》时,你可以找到 Cradle 帮你打理你的农场。或者下一次打开直播间,标题挂着的可能就是“AI独立通关xxx游戏”了。Cradle 展现出的能力十分惊叹,期待这个项目后续的发展。
项目地址:
https://github.com/baai-agents/cradle
二、LivePortrait
近日,快手和复旦大学、中科大共同研发的 LivePortrait 开源了。这同样是一款图生视频的大模型。提供一张正脸照,一段视频,照片上的人物就会栩栩如生的模仿视频中的表情了。
不知道大家有没有用过苹果的拟我表情,就是那个你可以选择一个动物或者其他东西的贴纸,然后录制一小段视频,贴纸角色会模仿你的口型。LivePortrait 实现的其实和这个功能差不多。其实这类数字人项目我们也介绍过很多,不过这次的 LivePortrait 是国产团队研发的,性能也很不错,生成视频超快。
通过扩展训练数据到约 6900 万高质量帧和采用混合图像视频训练策略,LivePortrait 能够更好地泛化,适应更多不同类型的输入数据。此外,LivePortrait 利用紧凑的隐式关键点代表混合形状,并设计缝合和重定向模块,这些模块使用计算开销极小的小型MLP,从而增强了对生成动画的控制能力。
甚至经过微调,你可以让小动物们模仿人的表情!
项目的部署也比较简单,首先克隆仓库,使用conda创建虚拟环境,安装所需的依赖项和FFmpeg。然后下载模型的权重文件,放到相应的目录,通过脚本运行即可。当然,如果你缺少一些相应的算力或是嫌部署过于麻烦,你也可以通过 HuggingFace 在线使用。感兴趣的小伙伴可以自行体验看看。
在线体验地址:
https://huggingface.co/spaces/KwaiVGI/LivePortrait
项目地址:
https://github.com/KwaiVGI/LivePortrait
好了,本期的内容就是这么多,我们下期再见!