田渊栋的2021年终总结:多读历史!历史就是一个大规模强化学习训练集

视学算法

共 3405字,需浏览 7分钟

 ·

2022-01-13 21:00



  视学算法报道  

作者:田渊栋

编辑:好困 LRS

【新智元导读】田渊栋博士最近又在知乎上发表了他的2021年度总结,成果包括10篇Paper和1部长篇小说及续集。文章中还提到一些研究心得和反思,把自己当作agent,从历史中强化学习。

这一年在组里开了一个比较大的方向,组织并带领团队一点点往前走,并且获得了一些初步的成果。文章方面,中了十篇paper(三篇ICML,四篇NeurIPS,一篇AAAI,一篇SIGCOMM,还有一篇CGO tool paper),包括三篇ICML long oral,其中一篇一作的ICML获得了杰出论文奖提名。


年底投的几篇ICLR的文章质量也是不错。研究内容围绕着两条主线,一是强化学习的算法设计及其在智能优化方向上的应用,二是对自监督学习的理解与改进。


非常感谢所有的合作者们!


AAAI 2022:https://arxiv.org/abs/2112.09174


SIGCOMM 2021:https://dl.acm.org/doi/10.1145/3452296.3472902


CGO tool paper:https://arxiv.org/abs/2109.08267


ICML杰出论文奖提名:https://icml.cc/virtual/2021/poster/10403

论文:https://arxiv.org/abs/2102.06810


业余时间内完稿了一部长篇小说《破晓之钟》,续集《幽夜星火》也在撰写中。

更重要的是,11月初我们的女儿降生,给家里带来了很多欢乐。


总的来说,这一年非常忙碌,也丰富多彩。


「我的文字」:http://yuandong-tian.com/novel.html


年岁渐长,限制会越来越多,家庭责任与身体健康都会慢慢成为越来越强的限制条件,让再有梦想的人,都会陷入「有心无力」的困局。如何从这个困局中摆脱出来,先构想一个远大的梦,再制定可完成的目标并一步步达成,这是一个毕生要做的功课。

这一切,对自己提出了更高的要求。


在战略上,要分清主次。



没必要的工作不用做,搞清楚什么是对自己最重要,什么该果断放弃,说一句「没时间」并不丢人,反而是逐渐走向成熟的体现。


今年我参加了公司内辅导实习生的活动,和实习生日常聊天,实习生抱怨每次赶论文都要熬夜好几天,我和她说「我赶论文从不熬夜」,她几乎惊掉下巴——当然,在博士阶段还是要经常熬夜的,但在博士毕业之后,特别是最近几年,开始奉行「deadline前做不出来就放到下个deadline」的原则,原因很简单,如果结果是最后一刻赶出来的,如何有时间思考验证实验结果是否正确?这样也能减少每次投稿的数目,把稿件的质量提上去。


我当过几次领域主席(Area Chair),也作为主要负责的最后一作作者帮忙改写过很多对评审的反驳(rebuttal)意见,可以明显发现,作者如果对一篇文章尽心尽力,评审是能感受到并且愿意提分的。


已经是中年人了,再与年轻人们内卷拼体力是没有意义的,要拼眼界与思考的格局,找到问题的关键,并把时间花在刀刃上。我记得我以前写过一个知乎回答,说自己一天日常可以工作十多个小时,现在看起来,算是过时的了。


现在仍然有一天工作十多个小时的觉悟,但条件是这事情确实重要,确实有意义,值得去做。最坏的情况是,忙但不知道自己的目标为何,辛苦却走向死路,那就既给自己虚幻的安全感与满足感,又注定了接下来悲剧的命运,下场是最惨的,还不如躺平享受人生。


一个比较资深的人,首要任务不是一味自己埋头工作,而是总结过去走过的弯路,特别是那些花费几个月却没有成效的努力,想清楚怎么去做,花多少时间和资源去做,哪个部分可以拿来主义,哪个部分必然存在亮点和创新。基本盘定下了,大的格局也就定下了,有意外之喜是锦上添花,结果不如人意也至少有法子保底。


另外,预判别人看不到的问题和陷阱,并采取一切手段,包括技术或是非技术的,以尽量避免这样的事情发生。所谓智者见于未萌,而不是真着了火到处救火显得很忙。


在执行上,需要将能安排的事情都安排好。


如何快速进行多任务切换,如何不忘记不紧急但重要的事情,如何使用碎片时间进行一些有意义的阅读和思考,是相当重要的。我在下半年抽空写了一个时间管理软件,把待办事项,文章笔记,思路归纳和整理,团队的项目进度都集中放在一个文件里,然后通过一些简单的代码自动解析自定义标签,输出一个综合的日程表。这样可以解决文档散布各处,太多太杂乱的问题。


稍微整理了一下,代码开源了,大家有兴趣可以玩玩。当然,多任务切换的关键在于,能不能在一段时间内集中火力,把一件事做好,再去做下一件事。如果已经定下具体的目标,一切的工具都只是辅助,必要时可以全都舍弃掉。


开源项目:https://github.com/yuandong-tian/scheduler2



要记得别人给自己的批评,并且时常反思。


记得去年这个时候,我还在花很多时间去逐条反驳我们投稿ICLR2021文章的那个给3分的评委给出的18个问题


Openreview:https://openreview.net/forum?id=c5QbJ1zob73¬eId=gHbY_xI60M7


当时觉得这位评委竟然把我们的工作贬斥得一文不值,列举的每个问题都简直在胡说八道,非常气愤。但现在回头看来,虽说诸如「证明不严格啊」之类的都在胡扯,细节上提的问题也暴露出他并没仔细看,但若是想一想他提这些问题的根本动机,有一点说得还是在理——文章里想要表达的思路太多太杂,也没写得特别清楚。


比较一下去年和今年年初的两篇文章,一篇被ICLR和ICML连着拒稿,另一篇拿了ICML杰出论文提名,感慨良多。这一切都是有内在原因的,而理解了这些内在原因,就可以使自己的工作质量,更上一层楼。

能碰到这样认真的评审,我算是幸运——这样的思考,让被拒稿的坏事就变成了好事。要知道,批评是稀缺资源,高质量的批评更是少见,因为别人根本没有时间和精力去认真阅读自己的成果,更不用说提出什么有用建议。我在半年前写过一篇一些应对批评的经验,年底还是要重申这一点。


知乎回答:https://zhuanlan.zhihu.com/p/390765721


不能故步自封,要经常把棋盘翻过来想。


自己曾经的优点,可能反而成为下一步成长道路上的绊脚石。认识到每种能力都有用处与局限,能够在恰当时间和场合去运用这种能力,在另一些时间和场合刻意限制使用这种能力,这是比拥有及炫耀「一技之长」更难更艰辛的道路。而这一切的取舍,都是为了一个宏大的目标,为了自身的长远发展。


有句谚语叫「善游者溺,善骑者堕」,说的是做自己擅长的事,往往会掉以轻心阴沟翻船,其实它还有更深一层的意义——有一技之长的人,稍不小心,就可能变成自己技术的奴隶。


最后,有空多看历史。



历史就是一个大规模离线强化学习训练集,多少比自己厉害百倍,能在史书上留下一笔的人杰,在关键时刻走错了一步前功尽弃,这些都一字一句记录在案,给后人以警醒。每年年底写个总结,期待做得更好的2022,把自己的经历放进这个训练集里,让大家看一看,或许能有所借鉴,目的也就是在这里了——


这也算是自己的历史罢。

千里渡来年愈少,万顷劫波付笑谈。

共勉。


作者信息


田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。

 

曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。

 

在博士毕业后发布《博士五年总结系列》,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。


本文授权转载


参考资料:

https://zhuanlan.zhihu.com/p/451903256


点个在看 paper不断!

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报