ICLR 2021最佳论文放榜!清华宋飏等3位一作华人学生获最佳论文奖!

共 4741字,需浏览 10分钟

 ·

2021-04-02 14:13



  新智元报道  

来源:iclr

编辑:LRS、yaxin

【新智元导读】ICLR2021 今天在官网公布了最佳论文奖!一作华人学生3篇论文获得了最佳论文奖,2篇来自Deepmind,还有谷歌、斯坦福大学等机构的研究人员都取得了佳绩。


刚刚,ICLR2021 公布了最佳论文奖!

 

 

今年,共有8篇最佳论文胜出,其中3篇是华人学生一作,2篇是来自Deepmind,还有谷歌、斯坦福大学等机构的研究人员都取得了佳绩。

 

ICLR 是深度学习领域的顶级会议,今年的 ICLR 2021大会从5月4日到5月8日在奥地利维也纳举行。

 

本届ICLR共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。

 

其中860篇论文被接收,接受率为28.7%,这些论文有53篇Oral,114篇Spotlight以及693 Poster。


8篇论文获最佳论文!华人一作占3席


最佳论文1:超复数乘法的参数量只需要1/n

 

标题:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

《比全连接更强:超复数乘法的参数量只需要1/n》

作者:Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu

作者机构:谷歌研究院,苏黎世联邦理工大学,南洋理工大学,Mila

论文地址:https://openreview.net/pdf?id=rcQdycl0zyk

 

表示学习在超复数空间的表示学习的有效性已经得到了验证。基于四元数(quaternions)的全连接层(四元数就是四维空间的超复数)的汉密尔顿乘积已经取代了传统的实数矩阵乘法,并且在性能不变的情况下,可学习的参数量降低为原来的1/4,在多种应用场景得到了验证。

 

 

但是一个限制就是只有几个固定的维度可以使用,如四维、八维或十六维,为了使用超复数乘法,智能牺牲模型的灵活性。

 

基于这个目的,这篇文章提出了一种参数化超复数乘法,使模型能够与数据无关地学习乘法规则。这个模型不仅包括汉密尔顿乘积,通过设置任意1/n的可学习参数,也使模型更灵活。

 

使用LSTM和Transformer模型对自然语言推理、机器翻译、文本风格迁移的实验上,证明了所提出方法的架构灵活性和有效性。

 

 

本文的第一作者是Aston Zhang,是亚马逊Web Services的高级科学家,伊利诺伊大学香槟分校获得计算机科学博士学位。

 

出版《动手学深度学习》,面向中文读者的「能运行、可讨论」的深度学习教科书,被全球 40 个国家 175 所大学用于教学,由四位主要作者和GitHub贡献者共同编著。

 

 

最佳论文2 :重新思考可微分NAS方法中的架构选择

 

标题:Rethinking Architecture Selection in Differentiable NAS

作者:Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, and Cho-Jui Hsieh

作者机构:加州伯克利大学

论文地址:https://openreview.net/forum?id=PKubaeJkw3

 

自谷歌2016年提出了基于强化学习神经网络架构搜索(NAS)一来,一些关于NAS方法泉涌而出,其中最有影响力的工作就是DARTS。

 

NAS以其搜索效率高、搜索过程简单等优点成为当前最流行的神经网络结构搜索方法之一。

 

它借鉴了早期谷歌提出的weight sharing的搜索思想,将搜索架构建模为矩阵α使用可微分的策略对矩阵α与网络参数进行交替优化,在分类和其他任务上都取得了很好的效果。

 

来自加州大学洛杉矶分校的研究人员发现DARTS有一些显而易见的缺点,他们重新审视了DARTS方法中的Architecture Selection,发现很多论文中都在重点讨论搜索中超图网络的优化问题,很少有学者去关注架构问题。

 

论文中作者重新评估了几个可微分的 NAS 方法与所提出的架构选择,发现架构参数α中的权重参数在很多情况下并不能衡量对应候选操作对于supernet的重要性。

 

在预训练DARTS supernet中随机选择了三条边,作者分别计算了其中不同候选操作对应的α值与离散化精度。

 

 

作者按照对搜索网络的贡献度来进行候选操作的选择,并进一步提出了一种alternative perturbation-based的架构选择方法,这一方法在DARTS、SDARTS、SDAS等一些NAS模型上取得了性能的提升。

 

论文一作Ruochen Wang来自洛杉矶加州大学(UCLA),他目前是UCLA亨利·萨穆埃利工程与应用科学学院研究生研究助理。

 

Ruochen Wang在2015年获得密歇根大学计算机科学、统计学学士学位,2020年获得密歇根大学和洛杉矶加州大学的计算机科学硕士学位。

 

 

最佳论文3:基于随机微分方程的分数生成式建模

 

标题:Score-Based Generative Modeling through Stochastic Differential Equations

作者:Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole

作者机构:斯坦福大学,谷歌

论文地址:https://openreview.net/pdf?id=PxTIG12RRHS

 

从数据中生成噪声是很简单的,从噪声中找到数据则需要生成式的模型。这篇文章提出随机查分方程(SDE),通过逐渐注入噪声,把一个复杂的数据分布转换到一个已知的先验分布。另外一个对称的逆时SDE通过把噪声逐渐去处,把先验分布转换回数据分布。

 

至关重要的是,逆时SDE仅依赖于扰动数据分布的时间相关梯度场(场也叫做分数)。

 

 

由于利用了基于分数的生成式模型的优势,这篇论文提出的模型能够准确地使用神经网络来估计分数,并且使用几个SDE求解器来生成样例。

 

论文中提出的框架封装了之前基于分数的生成式模型,扩散概率模型,兼容新的采样过程,并且具有不同的建模能力。

 

除此之外,一个预测校正器框架被用来纠正离散化的逆时SDE在演化过程中的误差。

 

一个等价的神经ODE能够从与SDE相同的分布中采样数据,额外计算精确的概率,提升采样效率。

 

 

本文提供了一个新的途径使用基于分数的模型解决时序反向问题,在基于类别的生成、图像修复、着色实验中得到了验证。

 

由于多种架构上的改进,本文在CIFA-10数据集上的非条件图像生成实验上达到SOTA,评分9.89,FID 2.20,2.99bits/dim的概率,在1024*1024图像生成上,首次阐述了如何基于分数生成模型高保真地生成图像。

 

 

论文一作宋飏本科毕业于清华大学物理系,现为斯坦福大学计算机系博士生,他的导师是斯坦福大学计算机科学学院Stefano Ermon教授。

 

目前致力于研究具有灵活的模型结构,稳定的训练方式,优异的样本质量,以及能够自由控制的新型生成式模型。

 

他表示自己对生成模型的各种应用很感兴趣,比如解决逆问题,以及减少机器学习系统的安全漏洞。

 

 

还有5篇论文获得最佳论文奖,它们分别是:

 

论文4

标题:Complex Query Answering with Neural Link Predictors

作者:Erik Arakelyan, Daniel Daza, Pasquale Minervini, and Michael Cochez

作者机构:UCL 人工智能中心、阿姆斯特丹大学、Discovery Lab

论文地址:https://openreview.net/forum?id=Mos9F9kDwkz

 

论文5

标题:EigenGame: PCA as a Nash Equilibrium

作者:ZIan Gemp, Brian McWilliams, Claire Vernade, and Thore Graepel

作者机构:Deepmind

论文地址:https://openreview.net/forum?id=NzTU59SYbNq

 

论文6

标题:Learning Mesh-Based Simulation with Graph Networks

作者:Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia

作者机构:Deepmind

论文地址:https://openreview.net/forum?id=roNqYL0_XP

 

论文7

标题:Neural Synthesis of Binaural Speech From Mono Audio

作者:Alexander Richard, Dejan Markovic, Israel D. Gebru, Steven Krenn, Gladstone Alexander Butler, Fernando Torre, and Yaser Sheikh

作者机构:Facebook Reality Labs

论文地址:https://openreview.net/forum?id=uAX8q61EVRu

 

论文8

标题:Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

作者:Atsushi Nitanda, and Taiji Suzuki

作者机构:东京大学,国立研究开发法人理化学研究所(Riken),科学技术振兴机构

论文地址:https://openreview.net/pdf?id=PULSD5qI2N1

 


参考资料:

https://iclr-conf.medium.com/announcing-iclr-2021-outstanding-paper-awards-9ae0514734ab

https://zhuanlan.zhihu.com/p/344538995

https://twitter.com/davencheung/status/1377584920453857286?s=21


浏览 148
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报