2022选择了交大,回顾这一年的成长
作者:王琦,上海交通大学,Datawhale成员
2022年是颇为忙碌的一年,今年我从中国科学院大学毕业、申请上了上海交通大学的博士、参与贡献了开源教程“Easy-RL”(5.6K GitHub Stars)、出版了著作《Easy RL:强化学习教程》,“蘑菇书” 得到了多位强化学习领域专家的推荐,被评为人民邮电出版社的季度好书,并被国家图书馆收录、拿到了 Datawhale 的致卓奖。
这一年经历了很多事情,也有不少的收获,有一些观点跟强化学习的思想不谋而和(强化学习可能是能够实现通用人工智能的一种途径,其中的算法设计思想值得推敲)。开源地址:https://github.com/datawhalechina/easy-rl
选择长期的价值
1.选择交大读博
在做决策的时候,很容易短视,对短期价值更加看重。硕士的最后一个学期,我就面临一个相当重要的决策:就业或者继续深造。身边大部分同学都选择了就业,拿到了年薪不错的 offer。如果这个时候,我比较考虑短期的价值,就应该随波逐流,直接选择就业。但我的目标是进高校或研究所,继续科研工作。除了读博,其实我做开源也是选择长期的价值。做开源这件事并不能带给我一些直接的、短期的价值,相反,我需要花费大量的时间来对开源项目进行维护。但从长期的角度来看,开源可以不仅锻炼我学习的能力,还可以让我认识更多志趣相投的小伙伴。
2.觉得 Datawhale 做的事情有意义
或许可以从另一个角度来考虑长期收益的事情。我很喜欢乔布斯斯坦福演讲中关于因果相连的一个故事。乔布斯当年在里德学院选择了一门书法课进行学习,他学习书法纯粹是出于兴趣,并没有觉得这是一个很有用的课程。但当乔布斯后来设计第一台苹果电脑的时候,需要设计字体,这个时候,之前书法课的知识就起作用了。利用之前学到的书法知识,乔布斯设计出了丰富、美妙的苹果电脑字体。类似地,当时我加入Datawhale,只是觉得 Datawhale 做的事情很有意义,并没有考虑太多。后来能够在Datawhale以及人民邮电出版社陈冀康老师(以下简称陈老师)的牵头下出版书籍,并且这段经历为我申博增添了不少亮点,完全是我意料之外的事情。
平衡探索与利用
3.感受到做笔记的
好处
如何平衡探索与利用也是一个值得思考的问题。一般来说,大家更倾向于利用,因为这样成本最低,风险最低,结果也是在预知内的,可控的。做笔记就是利用的一种实现方法,通过做笔记把一些经验、知识以及可能遇到的问题记录下来,这样做的好处是,如果遇到相同的问题,可以直接查看自己的笔记(自己的笔记相比别人的总结更加容易理解)。
4.不断尝试一些新工具/新技巧
如果一直是利用也会导致一些问题,利用意味着我们是在舒适区,如果想去学习区,则要尝试着使用一些新工具/新技巧,接受一些新想法,这样才能不断地进步。Think different,在解决一些任务的时候,可以想想我们怎样才能做得更好,是不是采取一些与之前不一样的方法。举个例子,在日常工作,完成一些任务的时候,我们一般都会有一套工具链:比如写文档用 Word/LaTeX/Markdown,数据分析用 Excel/Python,展示汇报用 PPT。而这套工具链是可以不断改进的,不断尝试一些新工具/新技巧,可以让你的工作效率不断提升。
学会模仿学习
5.模仿学习优秀项目
在一开始学习新东西的时候,我们很难达到一个专业的高度。这种情况,就有一个比较常用的技巧:模仿专家的学习。当时我准备设计“Easy-RL”的时候,Datawhale 已经有非常棒的开源项目:“南瓜书”、Joyful-Pandas等,于是我花了一段时间研究这些开源项目,学习这些项目的优秀之处。通过这样的模仿学习,“Easy-RL”作为开源项目,其雏形至少是比较标准的。
在进行模仿学习的时候,有一点很重要,我们要善于观察。福尔摩斯里面有句话很有启发:“You see, but you do not observe(你是在看,而不是在观察)”。学会观察这些项目成功的地方。这个技巧对于写论文也是适用的。要想写出优秀的论文,一开始都要阅读大量的优秀论文,观察这些论文的排篇布局、遣词造句,不断积累才能写出一篇像样的论文。
6.思考底层原因
当然,我们也可以使用“吸星大法”,直接模仿优秀人的学习,观察他们值得学习的习惯或思考方式。但使用“吸星大法”的话,一定要注意有批判地“吸收”,切忌拿来主义,不要只是模仿别人,而没有自己的思考。看到别人这样做的时候,要思考下他这样做的底层原因,从而达到灵活变通,最终实现“青出于蓝而胜于蓝”。
接受反馈,才能快速成长
7. 接受反馈能快速成长
很多时候,我们的认知是存在思维定式的。如果这个时候,能有其他人从他的角度给出建议,这肯定是大有裨益的。接受反馈,能够让人快速成长。举个例子,大家如果想要发表论文,不仅需要写完论文,还要发给审稿人看,也就是有 peer review(同行评审),同行会对你的论文进行评价,然后给出大量建议,这些建议能够让你的论文更加完善。
8. 开源带来大量反馈
开源可以带来大量的反馈,在 Datawhale 做开源项目,会有很多来自不同渠道的反馈。比如“南瓜书”的作者谢文睿(睿哥)给我提供了不少如何做好开源项目的建议,这些建议都很有借鉴性。跟马燕鹏老师合作,开展了“蘑菇书”的组队学习,学习者在学习过程中也给出了很棒的建议。除此之外,GitHub 的读者会在 issue 区,微信读者群的读者会在微信群提建议,这些建议让“蘑菇书”越来越好。后续在出版的时候,“蘑菇书”的责编郭媛老师以及出版社的陈老师、校对老师针对出版的要求,给出了相当专业的建议。不得不说,“蘑菇书”其实是群策群力的结果,里面有众多小伙伴的智慧。
除了开源项目以及出版的反馈,还有表达上的反馈。有一次我在Datawhale内部做了一个分享,分享后没一会儿,有组织成员给我打了一个微信电话,非常细心地提供了很多做公开分享的建议(比如语速过快的解决方法),受益良多。后续参加分享时,根据提出的建议,我做出了一些改进,相比之前,分享效果更好了。
三个臭皮匠,顶个诸葛亮
9.三个人一起进步
多个智能体能够更好地学习,“一个人可能走得快,一群人才能走得远”。在 Datawhale 中,我找到了很好的合作者:杨毅远(以下简称毅远),江季(以下简称季哥),三个人的通力协作才有了“蘑菇书”。有了毅远和季哥的加入,“蘑菇书”的内容丰富了许多,不仅有理论知识,还有算法实战、面试题、习题。此外,我们三个人还会分享学习经验、工具技巧等等,三个人一起进步!
“蘑菇书”的小伙伴们
在“蘑菇书”出版时,陈老师也赋诗一首:
三师三校三友著,深入宝山采蘑菇。 为继共学做晚厨,RL自此无难处。
放宽心,不断试错
10.最好先动起来
放宽心,保持良好的心态,不断试错。当然,我们不能盲目地试错,要先经过一定的分析,把事情想清楚,再开始行动。但有时候考虑太多,瞻前顾后,会导致过多的顾虑,从而迟迟不肯行动,这种情况最好先“动起来”。当人开始做事的时候,注意力都在解决问题上,焦虑就少了许多。“流水不争先,争的是滔滔不绝”,“日拱一卒,功不唐捐”,有的时候,坚持的力量真的超过我们的想象。
最后用一句我很喜欢的话来结尾吧:“stay hungry,stay foolish(求知若饥,虚心若愚)。”整理不易, 点 赞 三连 ↓