田渊栋的2021年终总结：多读历史！历史就是一个大规模强化学习训练集-技术圈

视学算法报道

作者：田渊栋

编辑：好困 LRS

【新智元导读】田渊栋博士最近又在知乎上发表了他的2021年度总结，成果包括10篇Paper和1部长篇小说及续集。文章中还提到一些研究心得和反思，把自己当作agent，从历史中强化学习。

这一年在组里开了一个比较大的方向，组织并带领团队一点点往前走，并且获得了一些初步的成果。文章方面，中了十篇paper（三篇ICML，四篇NeurIPS，一篇AAAI，一篇SIGCOMM，还有一篇CGO tool paper），包括三篇ICML long oral，其中一篇一作的ICML获得了杰出论文奖提名。

年底投的几篇ICLR的文章质量也是不错。研究内容围绕着两条主线，一是强化学习的算法设计及其在智能优化方向上的应用，二是对自监督学习的理解与改进。

非常感谢所有的合作者们！

AAAI 2022：https://arxiv.org/abs/2112.09174

SIGCOMM 2021：https://dl.acm.org/doi/10.1145/3452296.3472902

CGO tool paper：https://arxiv.org/abs/2109.08267

ICML杰出论文奖提名：https://icml.cc/virtual/2021/poster/10403

论文：https://arxiv.org/abs/2102.06810

业余时间内完稿了一部长篇小说《破晓之钟》，续集《幽夜星火》也在撰写中。

更重要的是，11月初我们的女儿降生，给家里带来了很多欢乐。

总的来说，这一年非常忙碌，也丰富多彩。

「我的文字」：http://yuandong-tian.com/novel.html

年岁渐长，限制会越来越多，家庭责任与身体健康都会慢慢成为越来越强的限制条件，让再有梦想的人，都会陷入「有心无力」的困局。如何从这个困局中摆脱出来，先构想一个远大的梦，再制定可完成的目标并一步步达成，这是一个毕生要做的功课。

这一切，对自己提出了更高的要求。

在战略上，要分清主次。

没必要的工作不用做，搞清楚什么是对自己最重要，什么该果断放弃，说一句「没时间」并不丢人，反而是逐渐走向成熟的体现。

今年我参加了公司内辅导实习生的活动，和实习生日常聊天，实习生抱怨每次赶论文都要熬夜好几天，我和她说「我赶论文从不熬夜」，她几乎惊掉下巴——当然，在博士阶段还是要经常熬夜的，但在博士毕业之后，特别是最近几年，开始奉行「deadline前做不出来就放到下个deadline」的原则，原因很简单，如果结果是最后一刻赶出来的，如何有时间思考验证实验结果是否正确？这样也能减少每次投稿的数目，把稿件的质量提上去。

我当过几次领域主席（Area Chair），也作为主要负责的最后一作作者帮忙改写过很多对评审的反驳（rebuttal）意见，可以明显发现，作者如果对一篇文章尽心尽力，评审是能感受到并且愿意提分的。

已经是中年人了，再与年轻人们内卷拼体力是没有意义的，要拼眼界与思考的格局，找到问题的关键，并把时间花在刀刃上。我记得我以前写过一个知乎回答，说自己一天日常可以工作十多个小时，现在看起来，算是过时的了。

现在仍然有一天工作十多个小时的觉悟，但条件是这事情确实重要，确实有意义，值得去做。最坏的情况是，忙但不知道自己的目标为何，辛苦却走向死路，那就既给自己虚幻的安全感与满足感，又注定了接下来悲剧的命运，下场是最惨的，还不如躺平享受人生。

一个比较资深的人，首要任务不是一味自己埋头工作，而是总结过去走过的弯路，特别是那些花费几个月却没有成效的努力，想清楚怎么去做，花多少时间和资源去做，哪个部分可以拿来主义，哪个部分必然存在亮点和创新。基本盘定下了，大的格局也就定下了，有意外之喜是锦上添花，结果不如人意也至少有法子保底。

另外，预判别人看不到的问题和陷阱，并采取一切手段，包括技术或是非技术的，以尽量避免这样的事情发生。所谓智者见于未萌，而不是真着了火到处救火显得很忙。

在执行上，需要将能安排的事情都安排好。

如何快速进行多任务切换，如何不忘记不紧急但重要的事情，如何使用碎片时间进行一些有意义的阅读和思考，是相当重要的。我在下半年抽空写了一个时间管理软件，把待办事项，文章笔记，思路归纳和整理，团队的项目进度都集中放在一个文件里，然后通过一些简单的代码自动解析自定义标签，输出一个综合的日程表。这样可以解决文档散布各处，太多太杂乱的问题。

稍微整理了一下，代码开源了，大家有兴趣可以玩玩。当然，多任务切换的关键在于，能不能在一段时间内集中火力，把一件事做好，再去做下一件事。如果已经定下具体的目标，一切的工具都只是辅助，必要时可以全都舍弃掉。

开源项目：https://github.com/yuandong-tian/scheduler2

要记得别人给自己的批评，并且时常反思。

记得去年这个时候，我还在花很多时间去逐条反驳我们投稿ICLR2021文章的那个给3分的评委给出的18个问题。

Openreview：https://openreview.net/forum?id=c5QbJ1zob73¬eId=gHbY_xI60M7

当时觉得这位评委竟然把我们的工作贬斥得一文不值，列举的每个问题都简直在胡说八道，非常气愤。但现在回头看来，虽说诸如「证明不严格啊」之类的都在胡扯，细节上提的问题也暴露出他并没仔细看，但若是想一想他提这些问题的根本动机，有一点说得还是在理——文章里想要表达的思路太多太杂，也没写得特别清楚。

比较一下去年和今年年初的两篇文章，一篇被ICLR和ICML连着拒稿，另一篇拿了ICML杰出论文提名，感慨良多。这一切都是有内在原因的，而理解了这些内在原因，就可以使自己的工作质量，更上一层楼。

能碰到这样认真的评审，我算是幸运——这样的思考，让被拒稿的坏事就变成了好事。要知道，批评是稀缺资源，高质量的批评更是少见，因为别人根本没有时间和精力去认真阅读自己的成果，更不用说提出什么有用建议。我在半年前写过一篇一些应对批评的经验，年底还是要重申这一点。

知乎回答：https://zhuanlan.zhihu.com/p/390765721

不能故步自封，要经常把棋盘翻过来想。

自己曾经的优点，可能反而成为下一步成长道路上的绊脚石。认识到每种能力都有用处与局限，能够在恰当时间和场合去运用这种能力，在另一些时间和场合刻意限制使用这种能力，这是比拥有及炫耀「一技之长」更难更艰辛的道路。而这一切的取舍，都是为了一个宏大的目标，为了自身的长远发展。

有句谚语叫「善游者溺，善骑者堕」，说的是做自己擅长的事，往往会掉以轻心阴沟翻船，其实它还有更深一层的意义——有一技之长的人，稍不小心，就可能变成自己技术的奴隶。

最后，有空多看历史。

历史就是一个大规模离线强化学习训练集，多少比自己厉害百倍，能在史书上留下一笔的人杰，在关键时刻走错了一步前功尽弃，这些都一字一句记录在案，给后人以警醒。每年年底写个总结，期待做得更好的2022，把自己的经历放进这个训练集里，让大家看一看，或许能有所借鉴，目的也就是在这里了——

这也算是自己的历史罢。

千里渡来年愈少，万顷劫波付笑谈。

共勉。

作者信息

田渊栋博士是Meta人工智能研究院研究员、研究经理，围棋AI项目负责人，其研究方向为深度增强学习及其在游戏中的应用，以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位，2013年获得美国卡耐基梅隆大学机器人研究所博士学位。

曾获得2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions），ICML2021杰出论文荣誉提名奖。

在博士毕业后发布《博士五年总结系列》，从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。

本文授权转载

参考资料：

https://zhuanlan.zhihu.com/p/451903256

点个在看 paper不断！