这，就很抽象！-技术圈

大家好，我是 Jack。

上周末，可把我忙坏了，公司有活动，周六参加了一天，周日又做了一天的视频。

新视频，还在赶制中，7 月份视频又鸽了一个月，难受~ 不过新视频绝对精彩，信我！

今天，聊聊“多模态”的两个算法，MDETR 挺有意思，DALL·E Mini 很抽象。

MDETR

今年，是“多模态”百家争鸣的一年，各种多模态算法，层出不穷。

MDETR 一种端到端的多模态推理算法，可以支持文本和图像的同时推理。

这就很有意思了。

输入：

5 people each holding an umbrella

MDETR 可以找出对应的人，并框选出来：

输入：

A green umbrella. A pink striped umbrella. A plain white umbrella

MDETR 只框选文字描述的目标：

这就是多模态，视觉和文本的结合。

甚至可以问：

What color is the train?

MDETR 可以告诉你是红色，并且把火车框选出来。

MDETR 是基于 DETR 实现的调制检测器，结合 NLP 来执行目标检测任务，真正实现了端到端的多模态推理。

对于图像，MDETR 采用的是一个 CNN 作为 backbone 提取视觉特征，然后引入位置编码；对于语言，采用训练好的 Transformer 语言模型来生成与输入值相同大小的 hidden state，然后作者采用了一个模态相关的 Linear Projection 将图像和文本特征映射到一个共享的 embedding 空间。

接着，将图像 embedding 和语言 embedding 进行 concat ，生成一个样本的图像和文本特征序列。