2021 年，深度学习方面取得了哪些关键性进展？-技术圈

链接：https://www.zhihu.com/question/504050716
编辑：深度学习与计算机视觉
声明：仅做学术分享，侵删

作者：星邪
https://www.zhihu.com/question/504050716/answer/2280529580

不敢妄加评论，只是个人意见，GitHub上有人总结了2021 Amazing AI papers，我认为比较中肯，基本可以算是今年影响力比较大的论文集锦:https://github.com/louisfb01/best_AI_papers_2021

我认为其一是Transformer攻占各个领域，尤其是Swin Transformer大杀四方；其二是各大研究机构的.预训练大模型发布及其在下游任务的惊人性能，当然这也离不开self-supervised+transformer；其三就是大家都提到的MAE，当然还是离不开transformer；还有一个我认为比较重要的是基于NeRF的一系列工作也在今年开始爆发，包括CVPR best paper GIRAFFE，不过这方面工作主要还是集中在国外研究团队

作者：Riser
https://www.zhihu.com/question/504050716/answer/2285962009

刚刚看了Andrew Ng老师的“赠人玫瑰，手有余香”的圣诞寄语，并回顾了2021年AI社区的发展，并对未来社区的发展进行了展望。

原文链接：https://read.deeplearning.ai/the-batch/issue-123/

吴恩达老师主要谈到了：多模态AI的起飞，万亿级参数的大模型，Transformer架构，还有恩达老师本行—AI生成音频内容，人工智能相关法律的纷纷出台,前三个课题也是我比较关注的，结合恩达老师的talk发表一点点自己的理解。

个人觉得Open AI的 CLIP绝对是2021多模态AI的杰出代表，将图像分类任务建模为图文匹配，利用互联网大量的文本信息监督图像任务，感觉“文本+图像”，甚至“文本+图像+知识图谱"是这块未来前景很好的一条线，也有很多lab已经开始了这块的研究。另外Open AI的Dall·E（根据输入文本生成对应图像），DeepMind 的 Perceiver IO （文本、图像、视频及点云进行分类），斯坦福大学的ConVIRT（为医学 X 射线影像添加文本标签）也都是这个课题很好的开端。

显然过去一年，模型经历了从更大到更大的发展历程。

从谷歌参数量1.6万亿的Switch Transformer，到北京人工智能研究院1.75万亿的悟道2.0，一次次刷新模型量级的上线，抛开模型量级不说，它们最初的motivation和Bert都是一样的，为许多下游任务提供更general更好用的语言预训练模型，或许这种“general learning”的思想也将迁移到CV领域（事实上，我们做很多任务也会迁移imagenet的预训练模型），更大级别的general CV model或许需要我们对图像的数据格式特点和自监督训练模式进行思考。

另外就是Transformer在各大视觉顶会和机器学习顶会杀疯了，Swin Transformer踩着VIT，Detr等众多视觉Transformer前驱的肩膀上拿下ICCV2021 best paper，证明了Transformer在视觉任务上的适用性，Transformer在音频文本等序列任务基本已经被证明革了RNN的命，而这年，我们看到Transformer开始挑战CNN在视觉任务的霸主地位，当然将这两者有机融合也是当前很热很被看好的点。DeepMind 发布了 AlphaFold 2 的开源版本，其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构，震惊医学界，对人类自然生物领域做出了杰出贡献。这些都证明了Transformer具备良好的普适性，也期待更多更优越的模型架构出现，解决更多的问题。

另外不可忽视的就是基于nerf（Neural Radiance Fields）的一系列工作的爆发，几乎统治了三维重建等很多课题，严格来说nerf是2020年的工作，一直觉得没有拿到当年ECCV的best paper很遗憾（当然Raft也很强。。），不过GIRAFFE拿下今年的CVPR2021 best paper也算弥补了这个遗憾。

总之，2021年很多AI研究依旧激动人心，让我们共同期待和亲历2022 AI 的发展！！！

作者：匿名用户
https://www.zhihu.com/question/504050716/answer/2280944226

理论方面感觉都在灌水。唯一可能可以算关键性进展的工作可能是 Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent; Frei & Gu 2021. 这篇文章是深度学习优化理论的集大成者。

作者：灰瞳六分仪 https://www.zhihu.com/question/504050716/answer/2280495756

我关心的领域都比较小，也没啥很惊艳的东西

比较火热的工作中，MAE确实很有趣，但总觉得还是没有NLP里使用mask那么自然

总感觉CV中比较自然的自监督预训练的未来没有大家想的这么近，隐约感觉会和二维画面的三维重建有关

作者：匿名用户
https://www.zhihu.com/question/504050716/answer/2279821079

我心中最关键的是clip…我觉得clip比vit要有意思。当然vit也开启了很重要的一个方向，rethinking architecture for vision tasks

dalle是个非常impressive的work。gan也有很多，比如styleganv3和gaugan2。nerf的followup也有很多。

除此之外，还有ssl吧，但我觉得都不是本质性的breakthrough。。。即便是mae也只是证明了以前的self reconstruction对vit的backbone十分有效

作者：吃猫的鱼
https://www.zhihu.com/question/504050716/answer/2279784861

看到这问题脑海中想到的第一个可能就是今年ICCV的best paper：swin transformer了。这篇论文也是对当前transformer在CV领域的热门ViT(Vision Transformer)的一种继承吧。

包括可以看今年transformer在计算机视觉顶会CVPR和ICCV上的应用，用到transformerz占了很大一部分，可以看到在CV领域使用transformer将会是一股热潮。而Swin Transformer更是其中的巅峰之作，目前在CV领域应该没有效果超过Swin Transformer的结构的了。

所以我觉得Swin Transformer可以说是今年深度学习领域的关键性进展了吧。

戳我，查看GAN的系列专辑~！

猜您喜欢：

超110篇！CVPR 2021最全GAN论文汇总梳理！

超100篇！CVPR 2020最全GAN论文梳理汇总！

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》