2021 年,深度学习方面取得了哪些关键性进展?

共 3333字,需浏览 7分钟

 ·

2022-02-16 09:27

链接:https://www.zhihu.com/question/504050716

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:星邪
https://www.zhihu.com/question/504050716/answer/2280529580

不敢妄加评论,只是个人意见,GitHub上有人总结了2021 Amazing AI papers,我认为比较中肯,基本可以算是今年影响力比较大的论文集锦:https://github.com/louisfb01/best_AI_papers_2021

我认为其一是Transformer攻占各个领域,尤其是Swin Transformer大杀四方;其二是各大研究机构的.预训练大模型发布及其在下游任务的惊人性能,当然这也离不开self-supervised+transformer;其三就是大家都提到的MAE,当然还是离不开transformer;还有一个我认为比较重要的是基于NeRF的一系列工作也在今年开始爆发,包括CVPR best paper GIRAFFE,不过这方面工作主要还是集中在国外研究团队


作者:Riser
https://www.zhihu.com/question/504050716/answer/2285962009

刚刚看了Andrew Ng老师的“赠人玫瑰,手有余香”的圣诞寄语,并回顾了2021年AI社区的发展,并对未来社区的发展进行了展望。

原文链接:https://read.deeplearning.ai/the-batch/issue-123/

吴恩达老师主要谈到了:多模态AI的起飞,万亿级参数的大模型,Transformer架构,还有恩达老师本行—AI生成音频内容,人工智能相关法律的纷纷出台,前三个课题也是我比较关注的,结合恩达老师的talk发表一点点自己的理解。

个人觉得Open AI的 CLIP绝对是2021多模态AI的杰出代表,将图像分类任务建模为图文匹配,利用互联网大量的文本信息监督图像任务,感觉“文本+图像”,甚至“文本+图像+知识图谱"是这块未来前景很好的一条线,也有很多lab已经开始了这块的研究。另外Open AI的Dall·E(根据输入文本生成对应图像),DeepMind 的 Perceiver IO (文本、图像、视频及点云进行分类),斯坦福大学的ConVIRT(为医学 X 射线影像添加文本标签)也都是这个课题很好的开端。
显然过去一年,模型经历了从更大到更大的发展历程。
从谷歌参数量1.6万亿的Switch Transformer,到北京人工智能研究院1.75万亿的悟道2.0,一次次刷新模型量级的上线,抛开模型量级不说,它们最初的motivation和Bert都是一样的,为许多下游任务提供更general更好用的语言预训练模型,或许这种“general learning”的思想也将迁移到CV领域(事实上,我们做很多任务也会迁移imagenet的预训练模型),更大级别的general CV model或许需要我们对图像的数据格式特点和自监督训练模式进行思考。
另外就是Transformer在各大视觉顶会和机器学习顶会杀疯了,Swin Transformer踩着VIT,Detr等众多视觉Transformer前驱的肩膀上拿下ICCV2021 best paper,证明了Transformer在视觉任务上的适用性,Transformer在音频文本等序列任务基本已经被证明革了RNN的命,而这年,我们看到Transformer开始挑战CNN在视觉任务的霸主地位,当然将这两者有机融合也是当前很热很被看好的点。DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构,震惊医学界,对人类自然生物领域做出了杰出贡献。这些都证明了Transformer具备良好的普适性,也期待更多更优越的模型架构出现,解决更多的问题。
另外不可忽视的就是基于nerf(Neural Radiance Fields)的一系列工作的爆发,几乎统治了三维重建等很多课题,严格来说nerf是2020年的工作,一直觉得没有拿到当年ECCV的best paper很遗憾(当然Raft也很强。。),不过GIRAFFE拿下今年的CVPR2021 best paper也算弥补了这个遗憾。
总之,2021年很多AI研究依旧激动人心,让我们共同期待和亲历2022 AI 的发展!!!

作者:匿名用户
https://www.zhihu.com/question/504050716/answer/2280944226

理论方面感觉都在灌水。唯一可能可以算关键性进展的工作可能是 Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent; Frei & Gu 2021. 这篇文章是深度学习优化理论的集大成者。

作者:灰瞳六分仪 https://www.zhihu.com/question/504050716/answer/2280495756
我关心的领域都比较小,也没啥很惊艳的东西
比较火热的工作中,MAE确实很有趣,但总觉得还是没有NLP里使用mask那么自然
总感觉CV中比较自然的自监督预训练的未来没有大家想的这么近,隐约感觉会和二维画面的三维重建有关

作者:匿名用户
https://www.zhihu.com/question/504050716/answer/2279821079
我心中最关键的是clip…我觉得clip比vit要有意思。当然vit也开启了很重要的一个方向,rethinking architecture for vision tasks
dalle是个非常impressive的work。gan也有很多,比如styleganv3和gaugan2。nerf的followup也有很多。
除此之外,还有ssl吧,但我觉得都不是本质性的breakthrough。。。即便是mae也只是证明了以前的self reconstruction对vit的backbone十分有效

作者:吃猫的鱼
https://www.zhihu.com/question/504050716/answer/2279784861
看到这问题脑海中想到的第一个可能就是今年ICCV的best paper:swin transformer了。这篇论文也是对当前transformer在CV领域的热门ViT(Vision Transformer)的一种继承吧。
包括可以看今年transformer在计算机视觉顶会CVPR和ICCV上的应用,用到transformerz占了很大一部分,可以看到在CV领域使用transformer将会是一股热潮。而Swin Transformer更是其中的巅峰之作,目前在CV领域应该没有效果超过Swin Transformer的结构的了。
所以我觉得Swin Transformer可以说是今年深度学习领域的关键性进展了吧。



 戳我,查看GAN的系列专辑~!


猜您喜欢:

超110篇!CVPR 2021最全GAN论文汇总梳理!

超100篇!CVPR 2020最全GAN论文梳理汇总!

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成


附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享


《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》


     

浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报