MSRA、北大的女娲:图像视频生成的大一统模型
机器学习与生成对抗网络
共 4965字,需浏览 10分钟
·
2021-11-30 17:11
点击上方“机器学习与生成对抗网络”,关注星标
获取有趣、好玩的前沿干货!
新智元 编辑:好困 小咸鱼 LRS
【新智元导读】微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA(女娲),直接包揽8项SOTA。其中,NÜWA更是在文本到图像生成中完虐OpenAI DALL-E。
8大SOTA效果抢先看
8大SOTA效果抢先看
文字转图像(Text-To-Image,T2I)
草图转图像(SKetch-to-Image,S2I)
图像补全(Image Completion,I2I)
用文字指示修改图像(Text-Guided Image Manipulation,TI2I)
文字转视频(Text-to-Video,T2V)
视频预测(Video Prediction,V2V)
草图转视频(Sketch-to-Video,S2V)
用文字指示修改视频(Text-Guided Video Manipulation,TV2V)
NÜWA为啥这么牛?
NÜWA为啥这么牛?
实验结果
实验结果
文本转图像(T2I)
文本转视频(T2V)
图像补全(I2I)
视频预测(V2V)
草图转图像(S2I)
用文本引导图像修改(TI2I)
结论
结论
P.S. 本文截图由ReadPaper自动截取生成(还挺好用,狗头)。
参考资料:
https://arxiv.org/abs/2111.12417
https://github.com/microsoft/NUWA
猜您喜欢:
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 | 超100篇!CVPR 2020最全GAN论文梳理汇总!
评论