半路出家OCR后成领域专家，白翔：计算机视觉科研没有捷径-技术圈

极市学者专访｜第三期

“听大牛说说计算机视觉那些事儿”

本次极市学者访谈，我们非常荣幸地邀请到了华中科技大学白翔教授。白翔教授是计算机视觉领域的优秀学者，也是场景文字领域的知名大牛。在本次访谈中，白翔教授不仅分享了他对于人工智能行业、场景文字检测与识别技术发展的前沿观点，还为当下的计算机视觉科研者们分享了他非常宝贵的科研经历与心得。

每一位科研者都走过一条属于他自己的科研路。那么白翔教授的科研路是什么样的？下文即答案。

白翔，教授，IAPR Fellow。研究领域为计算机视觉与模式识别，文档分析与识别。已在国内外刊物和学术会议上发表论文180余篇，谷歌学术显示引用15000余次，h指数63 ……

这是白翔教授目前的学术成就。可以说在国内计算机视觉研究领域，白翔教授所处的位置是比较高的。而这份成就的取得，可以从他的学生时代说起。

白翔教授于2003年、2005年和2009年在华中科技大学取得本科、硕士及博士学位，2007年获“微软学者”奖，读博期间以第一作者在计算机视觉最具影响力的期刊PAMI上发表了3篇论文，并于2011年获湖北省优秀博士论文。可以说，他在学生时代就是出类拔萃的。

但即便如此，白翔教授也有过被拒稿的经历：

在硕士研究生求学期间，他写了一篇论文投到《软件学报》这个权威期刊上，该文章在投稿前在导师的帮助下至少修改了15遍，最后被拒稿。后来，经过不到两年的努力，白翔教授就在PAMI上发表了2篇论文，同时为SCI核心源杂志Pattern Recognition担任审稿人。

当时的他将这一成功简单地概括为两点：坚持+兴趣。

白翔教授说：“硕士阶段的积累很重要，它为后面出成果打下了基础。学习的收获，不能仅仅用发了多少论文来衡量。其次，计算机视觉研究确实是我的兴趣所在，我是在享受这个过程，名利并不是做研究的目的。”

作为年少成名的科研者，让人意想不到的是，白翔教授也有过找工作被拒的经历。硕士毕业后，他曾进入某国际知名企业的最后一轮面试，但没有获得Offer。

短暂的动摇之后，他坚守了自己的信念：“在找工作的时候，我发现我更喜欢研究我自己感兴趣的东西。我选择了继续攻读博士，因为我觉得前面的研究工作没有完成，这时候放弃比较可惜。”

后来，事实也证明，留在学校继续做研究，是他正确的选择。

在这次访谈中，白翔教授非常耐心地为我们答疑解惑，在分享他在计算机视觉领域的科研经历的同时，表达了他对于深度学习学业与产业的思考。相信下文的访谈实录能为你的科研工作与生活带来不少启发。

关于科研

“坚持的力量”

极市平台：您在计算机视觉领域造诣深厚，能否分享一段您印象最深的科研经历？

白翔：印象比较深的是2011年到2013年间，我面临着选择新研究课题的问题。因为我在博士阶段做的是形状表述与图匹配相关的工作，相对来说比较基础。当时的我特别想尝试一下应用基础研究。研究方向的选择是比较重要的，我花了相当一段时间去思考后，选择场景文字检测与识别这个研究课题。我认为该课题具备较高的应用潜力。

进入该领域前期是一个非常困难的阶段。当时的场景文字检测和识别是非常繁琐的问题，它涉及到很多算法，要实现一套有效的解决方案，需要花大量时间去摸索。具体来说，文本不同于一般目标，是由多个非连通的字符组成，这就要求在算法实现中增加较多经验式的操作。在传统的区域特征提取方法之上，需要完成字符之间的关联，同时需要克服虚景或非文字部分带来的干扰。此外，当时可供参考的开源代码非常稀少，导致在前期摸索中走了不少弯路（这也是之后我们开源了多篇论文源码的重要原因）。

尽管困难重重，我跟学生更多强调的是不要着急写论文，要静下心来解决实际问题。我们花了大量时间去反复论证，这一过程也积累了对该研究领域的深刻认识。后来大家看到的这些论文其实跟这段时间的积累是分不开的。

当时，我们观察到许多照片中的文字并不是呈水平方向排列，很多是倾斜甚至是弯曲的。因此，我们希望做一套方案，能克服当时场景文本检测方法的局限性，通用于各种形状的文本。回头来看，现在多方向文本检测技术已经很普遍，并且这种方式在遥感目标检测领域也被普遍采纳，但这些都离不开当时做研究的这股韧性和坚持。

极市平台：您在计算机视觉领域少年成名，在读博期间就以第一作者发表了3篇计算机视觉顶级期刊TPAMI论文，那么您认为对于一个计算机视觉博士而言，什么是完整、全面的博士科研训练？

白翔：我觉得首先要有兴趣，兴趣才是最好的老师。按照王国维人生三种境界，初入领域的研究生需经过从第一阶段“独上高楼，忘尽天涯路”通往第二阶段“衣带渐宽终不悔，为伊消得人憔悴”的过程。如果仅仅是把科研做为完成学业的任务去完成，而不是发自内心的喜欢这项工作，是很难在所从事的研究课题上获得突破的。

当然，兴趣也是可以培养的，但必须建立在对计算机视觉研究有一定的了解之上。另外，需要具备一定的程序设计基础，毕竟这是一个偏应用的学科，对实际动手能力有一定的要求。良好的数学基础也是必要的，例如概率论、线行代数有关基础知识。但最重要的不是具备多少基础，而是怎么去做这个事。

对于初入研究的学生，我一般会建议他们去参加一些学术竞赛或实战项目。这种方式能让学生深入了解实际问题，清楚该领域的真正瓶颈所在。阅读文献或者听他人的报告，这虽然有助于快速获得一些经验，但对研究入门者而言，它更多只会带来感性的认识。要获得理性的认识，就需要接触实际的数据、实际的算法和系统。对研究问题的认识越深刻，就越有可能突破其瓶颈。

深度探讨OCR领域相关研究

极市平台： OCR在实际应用中经常碰到这样的情形：不同语种、不同形式的文字同时存在，在这种情况下，学术界是否能有较为通用的方法，来解决这一问题？

白翔：对于文字的多样性的问题，学术界的考虑其实是不够的。为什么这样说？首先，文字数据与其他数据相比不是那么丰富，开源的数据规模和种类相对偏少。基于这种情况，我们也在考虑组织构建大规模文字数据集。另外，文字数据很多时候是涉及到隐私的，比如手写字、发票等，都是不宜对外公开的。第三，文字的标注也比较复杂。对于一般物体，只需一个包围盒即可；而对文字进行词或行级别的包围盒标注不一定足够，例如汉字，字符级别的标注往往是需要的。特别是对于连写的手写字，标注起来更加繁琐。

我们之前的算法基本都是出于使检测和识别过程简易化的目的，对文本行或单词直接处理。但如果要把它做得更加的鲁棒和通用，字符级别的定位与识别也是有较明显的提升作用的，这也体现在最近一些新的研究工作中，例如Mask TextSpotter，CRAFT等。但不管怎样，要解决通用OCR这一难题，学术界缺乏数据类型丰富且标注精细的大规模数据集。从另外一个方面看，小样本或者无监督条件下的文字检测识别方法目前鲜有学者对此展开研究，这可能是解决通用文字识别的一个途径。

总体而言，要实现通用OCR，还要有很多工作需要做。这不能靠一个人来做，它需要工业界和学术界的紧密合作，通过制定有关的标准，以及基本数据集和评价方法，才有希望解决这个问题。就现阶段来看，文字识别技术泛化性尚可，因为它使用合成数据来进行训练就可以取得稳定的识别精度，而文字检测技术的泛化性还存在较大问题，易受环境的影响。但如果遇到版式或结构极其复杂的情况，两者都会遇到极大的困难。

极市平台：对于一个场景文本研究者而言，若想取得一定的学术成就，您认为与其他细分领域相比，会有哪些侧重？

白翔：研究没有捷径可走，但有方法规律可循，这和做什么细分领域没有太大关系。无论哪个细分领域，没有明显的难易之分，都会面临极大的挑战。那么对于如何做好计算机视觉相关研究，我个人比较注重是否真正的尝试去解决所在方向的瓶颈问题？打个比方，场景文字往往是多方向排列的，但传统文档文字识别方法一般只关注水平排列的文字，这就要求我们对检测算法的适用性提出了更高的要求；做文字识别时，发现适合于英文的方法不适用于中文，如何设计一套方法，同时适用于拉丁文（英文）和非拉丁文（例如中文）？因此，需要找到现阶段限制该技术发展的瓶颈问题，并围绕这些瓶颈问题去突破技术的上限。通过技术的创新可以解决很多问题，但这个问题是不是重要的？是不是卡脖子的问题？当你在做研究的时候，你需要给自己定的一个目标。目标导向正确了，剩下来要做的事情就是如何去解决它。这个过程你会经过反复的验证，大胆的尝试，甚至可能经历无数次的失败，但不要害怕失败，因为失败本身就是经验的积累，是提高自身水平的过程，是成功之路上必须经过的环节。无论做什么样的研究，对于年轻学者而言比较困难的是如何做到不忘初心，在研究过程中需要反复思考你的研究是什么？解决的这个问题是什么？要把它做到什么程度？是不是能给这个领域或者子领域带来技术上的突破？这是关键。

关于产业

“计算机视觉离全面落地还有50步要走”

极市平台：作为场景文本领域的集大成者，您认为这个领域还有哪些值得研究的课题与应用？是否还存在一些被人们忽视的方向？您最近正在以及未来打算继续深入研究什么课题？

白翔：虽然计算机视觉热度非常高，但其中很多技术和方法在实际应用中存在非常大的限制。比如手机端的OCR识别程序，在应对夜间街景图片时会错漏百出。对此，我的看法时，要实现计算机视觉全面落地，深度学习与传统视觉方法可能已经带我们走完了前50步，后面仍然还有50步要走。

在这种情况下，我觉得目前有这么几个方面可以值得去尝试。首先是图像合成技术。目前基于生成的方法，已经取得了一些非常逼真的效果。在一些特定领域会有一些实际用途，包括图像数据生成与扩增，人的服饰搭配，动画制作，视频剪辑等。

另外还有多模态融合与感知。人类在识别物体时候，其实是有其3D或其它先验的，将图像信息与点云或来自其它传感设备得到的信息相融合，可以取得更加可靠的识别效果。例如，国内有些研究组结合红外成像在视频监控中取得了理想的应用效果；我们最近将临床数据与CT影像相结合，在新冠重症预测任务中获得了更鲁棒的测评性能。再举一个例子，要获得更准确的视频行为识别（例如电影片段）需要结合图像和文字甚至语音的方式。

第三，我认为计算机视觉在对地观测领域的应用基础研究将有较大潜力。现有的视觉研究大多面向监控视频图像或日常生活图像，而航拍图像存在目标尺度变化大、方向性强、形状和分布更复杂的特点，从事该方向的研究能够给更多潜在实际应用带来想象空间。

最后，从行业应用来看，计算机视觉在智慧教育和工业质检中将大有可为。随着文字识别与语音识别技术不断进步，已经可以看到计算机视觉在教育领域展露头角，比如公式识别在自动阅卷的应用。而工业缺陷的自动检测能大大减少工业产品质量检测过程的人力成本并且显著提升效率。无论是智慧教育还是工业质检中的视觉技术都存在着较多科学问题和应用问题亟待解决。

极市平台：在计算机视觉研究领域中，精度和速度一直是两个很重要的要素，那么您认为，应当如何取舍模型的精度和速度？

白翔：我跟很多工业界的朋友们有过这方面讨论。之前我一直很奇怪一件事情：我们2015年底提出来CRNN算法，为什么工业界现在还在用？我们后面提出来的一些更鲁棒的方法，他们反而不用。后来工业界的朋友告诉我，CRNN一般情况下就够用了。在企业的实际应用中，还要考虑模型的大小和运算的速度。像BAT这样的大型互联网公司，每天都有上亿的图片要处理。从实用性角度来看，如果一个算法太慢，即使它精度很高, 但是时间消耗太大，这些企业是无法接受的。

计算机视觉领域中的很多方法，精度和速度往往是互相矛盾的，如何在精度和速度中（甚至还包括能耗）找到一个平衡至关重要。说到底，计算机视觉是一个面向应用的研究领域，一定要了解实际应用的需求，要考虑精度和速度两者的推动。如果应用基础研究问题的定义不从实际应用需求中去总结，那就有点纸上谈兵的感觉，甚至会把一些研究方向带偏。

极市平台：您如何看待学术界和工业界的关系？您如何看待研究生、博士生找工作、找实习这一问题？

白翔：这个问题问得非常好。现在工业界对人工智能的技术和人才的热情非常高，导致很多教授或优秀学生，都高薪去了工业界，那么这就不是一个稳定的状态。如果说去工业界的高端人才越来越多，就会削弱高校培养高端人工智能人才的能力。过去一两年我在加拿大、美国交流期间，也听到了一些要把教授、学子还给学术界的呼吁。也有少数企业取代了高校的部分功能，对实习学生进行科研训练和指导，甚至发表了高水平论文。总体而言，工业界和学术界之间现在关系已经非常密切，合作产生的研究成果也屡见不鲜，但学术界与工业界的合作形式不应主要放在学生实习方面，我更加看好通过共建校企联合研究实验室的方式，这样可以把学者留在高校，同时也能保证足够的产学研合作。

目前有很多学生可能对实习的热情度较高，但高校教师也需要研究生参与完成自己正在承担的科研课题。总体上我比较支持学生去实习，但我希望学生去实习之前已经具备了一定的研究基础和技术创新能力。这样能更加有效地帮助企业在产品线或研究端进行技术升级，同时也有助于学生增加实战经验。另外，我会注意保证学生的实习任务和研究目标的一致性。具体来说，我会建议研究生找一个跟自己开题研究方向相同或密切相关的公司部门或研究组去实习，避免研究任务跨度太大。因为研究是需要专注的，尤其对于年轻学子，频繁换研究主题会影响做研究的深度。

如今，发表顶会论文已经成为研究生入职的一个重要评价标准，这导致不少研究生在学习阶段加强了对顶会论文或学术竞赛的追逐，却忽视了其它素质方面的锻炼。事实上视觉有关企业的主要任务是推动科技产业进步，推动科技产业进步和发表多少论文没有直接关系，发表论文也不能直接证明其推动了科技产业进步。对此，我还呼吁工业界要看重人才的综合素质，而不能将论文作为评价人才的唯一导向或主要导向。

END

关于极市专访

活动介绍：以分享大牛的科研工作经验为主旨，与计算机视觉领域知名学者、业界技术大咖等进行深度交流。

读完文章，大家如果对白翔教授还有想请教的问题，或者对极市学者专访有想法与建议，欢迎在下方留言评论。