读论文七步走!CV老司机万字长文:一篇论文需要读4遍
极市导读
论文对于AI新手和工程师来说可能是一件比较难的事。最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅入深都需要读4遍。>>加入极市CV技术交流群,走在计算机视觉的最前沿
人工智能从业者需要读论文吗?
机器学习的各种模型发展日新月异,想要走在技术的最前沿,不看论文,光看博客、技术文档是远远不够的。
但随着AI研究从业者逐渐增多,各类科普、教程做的实在是太好了,一些本科生甚至初、高中生都能利用工具来训练自己的模型到现实中的应用。
但对于那些缺乏学术背景、没有系统学习过如何写论文的人来说,读一篇学术论文可能比训练一个模型要难太多了。
并且如果在训练模型过程中有了一些创新的想法,想要发表一篇论文,但读论文都读不好的话,那写论文肯定也会出问题。
最近Nvidia developer上就有一篇博客用万字长文,七步教会你如何「务实地」读论文。
博客作者Richmond Alake是一名机器学习和计算机视觉工程师,主要工作就是帮助各种初创公司开发深度学习模型来解决商业应用中的计算机视觉任务,技术领域的从业时间超过5年。
除此之外,他还是一个博客专家,写过100多篇关于人工智能和机器学习主题的文章,总浏览量超过一百万。
天才第一步:选个好题目
天才第一步:选个好题目
机器学习和数据科学领域有大量可供研究的主题领域,但这并不一定意味着每个研究课题都是好的选择。
对于初入AI行业的人来说,可能更关注于机器学习的各种应用场景,但如果考虑到长期的职业前景的话,那些专业术语又让AI新手感到迷茫。
所以确定一个研究主题是很困难的,对每个人来说,好题目的定义都是不一样的,不过有一点是相同的,要选择一个感兴趣的或者已经有经验的机器学习领域。
对于博客作者来说,深度学习就是他的兴趣。
Richmond表示他当时「误入」计算机视觉的原因就是因为对姿态估计、动作分类、手势识别这些课题特别感兴趣,开发深度学习模型解决CV问题也会让他觉得很有成就感。
不同领域的工程师也需要不同的专业技能。
如果你的目标是自然语言处理工程师,那你就需要研究Transformer,RNN,语言模型,情感分类等等。
对于数据科学家来说,需要更关注数据增强,数据可视化,模式识别的技术。
在这篇博客中,作者选择他比较熟悉的姿态估计(Pose Estimation)为例来介绍。
第二步:找论文
第二步:找论文
读论文,最重要的就是找到主题相关的、优质的论文。
PapersWithCode是一个比较常用的工具,能够帮助研究人员快速找到机器学习相关的论文,并且还会把论文相关的数据集、代码和其他资源都一起呈现出来。
在网站中搜索Pose Estimation后,就会把相关的数据集、性能最佳的模型等列出来。
例如当你锁定一篇论文后,就可以点到详情页,看到相关信息。
第三步:读论文
第三步:读论文
确定完主题、找到合适的论文后,我们终于要开始读了。
每一篇论文的格式实际上都是「八股文」,采用固定的格式进行编写,这种格式既能帮助论文作者梳理思路,也能帮助读者快速定位文章中的创新点。
对于研究新手来说,拿到一篇论文的第一个想法就是从头到尾地把论文读一遍,然后开始做笔记,这种想法虽然无可厚非,但肯定不是最高效读论文的一种方式。
更实用的一种阅读方法是先理解论文研究的背景,「标题」、「摘要」和「结论」部分是快速理解论文内容的三个关键部分。
在第一遍读完论文后需要达成三个目标:
1、确认这篇论文和自己的研究内容是相关的
2、读完论文的内容、方法和结论后,能够对论文的研究背景和意义有所了解
3、认识到文章的主要创新点,总结论文作者的目标、方法和主要贡献
第四步:再读一遍论文
第四步:再读一遍论文
第二遍读论文的主要目的就是熟悉论文的内容。和读第一遍一样,不要直接读论文的核心内容,只有充分了解论文的背景、研究出发点才能更好地理解论文。
第二遍主要从「引言」和「图表」入手。
引言部分概述了研究工作的目标,会解释论文中的问题域、研究范围、先前的研究工作和方法。能够帮助读者找到该领域过去的相似研究工作,为读者拓宽了探索思路,引言部分也为读者提供了理解论文所需的必要知识。
图标的话属于论文中的说明性材料,能够帮助读者理解论文中的研究问题,并对文中所提出的方法进行解释。表格也能够对论文中涉及到的相关方法进行量化分析。
对于深度学习来说,模型架构图也是必不可少的,有时候读一篇论文只看架构图就能理解了文章的主要工作。
第五步:再再读一遍
第五步:再再读一遍
第三遍要更加深入地读论文,但文章中的公式、不熟悉的术语都可以跳过。
从摘要到结论重新看一遍,在读完每个章节后都休息一下,将所有想法、见解、收获和不熟悉的概念一起记下来。
并且读论文时要有节奏,一个比较有效的学习方法是学50分钟,然后休息15分钟。如此学习两次以后,可以休息30分钟以上来干点别的事。
如果还不熟悉这种节奏的话,可以从学25分钟休息5分钟开始练习。
第六步:再再再读一遍
第六步:再再再读一遍
这次是最后一遍读论文了,但也是最难的、最考验思维和学习能力的一遍。
你需要将前面遇到的所有不理解的、不熟悉的术语、公式、名词、概念、算法都进行深入研究。最重要的就是利用外部资源来帮助理解论文,例如相关文献、搜索引擎、同学的讨论等等。
最后一遍读论文所需时间通常是不固定的,几个小时、几天甚至几周都有可能。并且你在搜索引擎中可能也找不到论文的相关讨论,这就需要你来思考、实践或者联系作者来寻找答案。
第七步:总结
第七步:总结
把论文中的内容用自己的话重新总结出来能够帮助你对论文内容加深理解,确保学到的知识可以记得更长远一点。
不管是手写还是打字总结,都能够帮助加强记忆。
毋庸置疑,AI从业人员必须要学会读论文,而初学者往往很难入手。通过这样一遍遍、有规则地读论文,能帮你快速掌握、理解论文中的内容。
参考资料:
https://developer.nvidia.com/blog/how-to-read-research-papers-a-pragmatic-approach-for-ml-practitioners/
如果觉得有用,就请分享到朋友圈吧!
公众号后台回复“transformer”获取最新Transformer综述论文下载~
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~