编译 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

你是否能想象 AI 以第一人称视角来理解世界是什么样的呢？

未来，以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实（AR）眼镜和虚拟现实（VR）耳机等设备在日常生活中，将会变得像智能手机一样普遍且有用。

想象一下，你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒，知道你完成一个食谱；帮助你找到丢失的钥匙，或是像全息图一样在你的记忆中重现。

为了构建这些新技术，人工智能需要像我们一样，可以从第一人称的角度理解世界并进行互动。在研究界，通常称为以自我为中心的感知。

然而，今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习，而相机只是动作的旁观者。

Facebook AI 推出 Ego4D

近日，Facebook AI 宣布推出 Ego4D，这是一个雄心勃勃的长期项目，为的就是解决以自我为中心的感知领域的研究挑战。

研究者汇集了一个由 9 个国家的 13 所大学和实验室组成的联盟，他们在野外收集了 700 多名参与者的日常生活，超过 2,200 小时的第一人称视频。

Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员，以大幅提高公开的以自我为中心的数据规模，使其在录像时间方面比任何其他数据集都大 20 倍以上。

AI 也可以体验第一视觉

Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示，今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。

就像是，将计算机视觉系统绑在过山车上，即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的，但是它也不知道它在看什么。

为了让人工智能系统能够像我们一样的方式与世界互动，人工智能领域需要发展到一种全新的第一人称感知范式，”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下，通过人眼理解日常生活活动。”

Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战，这将推动未来 AI 助手向现实世界应用的发展。

例如，“我把钥匙放哪儿了？”“手机在哪里？”“有看到我的充电线吗？”这种场景别提有多熟悉了，几乎每天都会上场。

Ego4D 的第一个基准挑战是情景记忆（Episodic memory）。

关键就是什么时候发生的？AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。

你可以问 AI 助手各种各样的问题，例如：我把孩子最喜欢的泰迪熊放哪儿了？

下一步就是进行预测：接下来可能会做什么？

人工智能可以理解佩戴者的行为会如何影响这个人未来的状态，比如这个人可能会移动到哪里，他们可能会触摸什么物体，或者他们接下来可能会从事什么活动。预测行动不仅需要认识到已经发生的事情，还需要展望未来，预测下一步行动。这样AI系统就可以在当下提供有用的指导。

例如，就在你想要再次准备向锅里加盐时，你的人工智能助手会赶紧通知你“等等，您已经加盐了”

第三个挑战基准就是手-物之间的互动（Hand and object manipulation）也是难点和关键的一步，因为AI需要理解在做什么，如何做？

学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互，识别抓取，并检测物体状态变化。这种推动力也受到机器人学习的推动，机器人可以通过视频中观察到的人们的经验间接获得经验。

因此，当你在烹饪一份食谱时，AI 助手可以指导你需要哪些配料，需要先做什么，了解你已经做了什么，指导你完成每一个关键步骤。

人类可以用声音来理解世界，未来的人工智能也要学会这种视听记录（Audio-visual diarization）。

如果你正在上一堂重要的课，但因收到的信息而分了心，你可以问AI：“教授把我们的试卷收上去之后，课堂讨论的主要话题是什么？”

这个就是第四个挑战基准 - 视听分类

我正在与谁互动，如何互动？例如“如何在嘈杂的地方更好地听到别人说话的声音”

社会互动（Social interaction）是 Ego4D 的最后一个方向。

除了识别视觉和声音提示外，理解社交互动是智能 AI 助手的核心。一个社交智能的 AI 会理解谁在和谁说话，谁在关注谁。

所以，下次参加晚宴时，即使再嘈杂，AI 助手可以帮助你专注于桌子对面和你说话的人在说什么。

以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块，这将让 AI 不仅可以在现实世界中理解和互动，还可以在元宇宙中进行理解和交互，构成更有用的 AI 助手和其他未来创新的基础。

解开真实数据集

基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟，今天的 CV 系统几乎可以识别图像中的任何对象，它是建立在数据集和基准（例如 MNIST、COCO 和 ImageNet）之上的，它们为研究人员提供了一个用于研究真实世界图像的试验台。

但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。

为了构建这个数据集，每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器，以便他们能够捕捉第一人称、无脚本视频。日常生活。

参与者从日常场景中录制大约8分钟的视频片段，例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。

Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容，用手或是面前的物体做了什么，以及他们如何以第一人称视觉与其他人进行互动。

与现有数据集相比，Ego4D 数据集提供了更大的场景、人物和活动的多样性，这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。

Ego4D 及以后的下一步是什么？

Facebook AI 试图通过 Ego4D 项目打造一条全新的道路，以构建更智能、更具交互性和灵活性的计算机视觉系统。

随着人工智能对人们正常生活方式有了更深入的理解，它可以开始以前所未有的方式对交互体验进行情境化和个性化。

Grauman表示：“Ego4D 使人工智能有可能获得根植于物理和社会世界的知识，这些知识是通过生活在其中的人的第一人称视角收集的。”“由此开始，人工智能不仅会更好地了解周围的世界，有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯，或者为你的下一次家庭旅行指引路线。”

有了 Ego4D 的基准支持，配合上在全新数据集中的训练，AI 助手有可能以非常独特和有意义的方式提供很多的价值，例如，帮助回忆起最近与同事交谈中的关键信息，或者指导制作新的晚餐食谱，新的宜家家居等。

Facebook 表示，从这一系列工作中获得的价值将推动我们走向未来的现实。

玛丽皇后大学的人工智能研究员Mike Cook认为，“从积极的角度来说，至少就目前而言，这是一个非常棒的大型数据集。”

“但，这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划，但是......他们向它注入资金并不意味着它一定会变得重要。”

参考链接：

https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/
https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/

本文由AI科技大本营翻译，转载请注明出处。

Facebook 正在研究新型 AI 系统，以自我视角与世界进行交互

Facebook AI 推出 Ego4D

AI 也可以体验第一视觉

解开真实数据集

Ego4D 及以后的下一步是什么？