童心未泯的 YOLO 之父，小马哥 Joseph Redmon 笑傲 CV 江湖记-技术圈

↑ 点击蓝字关注极市平台

作者丨二玖

编辑丨极市平台

在这个六一儿童节，我们将为大家介绍一位这样的计算机视觉大牛：留着大胡子却怀揣着少女心，技术超神却依然童心未泯——他就是YOLO之父，一位或许现在正在过着儿童节的计算机视觉开发者。

一年了，大家还记得那位退隐CV江湖的YOLO之父“小马哥”吗？

可能搞目标检测的，或者说搞计算机视觉的，都知道一个叫YOLO的系列工作。YOLO是You Only Look Once的缩写，即“你只需要看一次”。

YOLO可以说是计算机视觉领域最知名的目标检测算法之一，它是用来找出图像中人们感兴趣的目标，并确定其大小、位置和类别，很多日常生活中的常见任务都离不开这种算法。

作为开创one-stage检测的先河，纵然YOLO算法在学术界可能不如RCNN等系列算法那样引人注目，但是在工业界，YOLO的名头可是响当当的。毕竟，每次YOLO更新，都会迎来一大波公司更新自家算法的热潮。

在这个六一儿童节，我们将带领大家走进YOLO的作者：Joseph Redmon，一位经常让自己家的狗和自己一起出镜，可能你去美国滑雪的话还能偶遇的“看不出是大神的大神”。人是真的低调，但技术也是真的硬核。

图注：Joseph Redmon

明明长了络腮胡，确有一颗少女心

关于Joseph Redmon成为大神之前的那些事儿，我们可以从他精心设计的小马简历重窥见一二：

图注： “鬼马精灵”Joseph Redmon的简历

Joseph Redmon在简历中称呼自己为“小马”。小马哥毕业于一所美国非常著名的文理学院——明德学院（Middlebury College），文理学院是指奉行博雅教育、以本科教育为主、规模小而精的大学，而明德学院在全美排名第五，是一所在本科教育上丝毫不逊色于常青藤联盟的高等学府。

小马哥在明德学院主修计算机科学，并辅修数学。也是在明德学院求学期间，他对计算机科学和数学产生了强烈的好奇与持续的热爱。他以最优异的成绩毕业，还获得了系里的优秀学术奖。同时，小马哥也十分喜欢传授知识，因此，他在明德学院担任了两年助教。

期间，小马哥先是前往美国国家标准与技术研究院，他在那儿开发了一个分析热中子三轴光谱数据的在线工具，甚至还有自己的核反应堆。随后他前往IBM实习，与当时IBM的阿尔玛登研究中心(Almaden Research Center)合作，开发与网上购物相关的技术。小马哥还在当时的一家初创公司ZeroCater工作过，他在那儿负责了一些比较重要的项目。但也是在ZeroCater，这匹小马明白每日“耕作”并不适合他。于是他迅速的甩掉钻头和缰绳，飞奔回了阿拉斯加。

毕业后，不走寻常路的小马哥在阿拉斯加州的Unalaska担任了一名电台DJ，但不忘老本行，小马哥作为自由网络开发者，以及资深爱马人士，他还给阿拉斯加灌木丛里所有漂亮的小马制作了一个高质量网站。

图注： Joseph Redmon的小马

结束这些工作之后，小马哥前往华盛顿大学攻读博士学位，他的大神之路，也就正式开始了。

一路开挂的YOLO系列

2013年开启华盛顿大学求学生涯，Joseph Redmon 跟随 Allen School 教授 Ali Farhadi 从事计算机视觉研究。

在2016年，他提出了他至今以来最有名的个人项目：《You Only Look Once: Unified, Real-Time Object Detection》。这篇论文也发表在CVPR2016上，并获得了 CVPR 2016的“OpenCV People's Choice Award”奖项——也就CVPR最佳人气奖，由此可见大家对于YOLO这一算法的追捧与喜爱。

小马哥也就是从这里开始，如脱缰的野马，一发不可收拾。每年推出一个YOLO新版本，一代比一代强。

在当时，主流的目标检测算法是基于Region Proposal的R-CNN系算法，这类算法在包含实例分割、目标检测等多个计算机视觉任务上都表现优异。但它们通常存在一个问题，就是速度较慢。对比之下，YOLO让当时的技术实现了一个十分重要的突破：one-stage，即“你只需要浏览一次（You Only Look Once）”，就能一步到位地完成目标定位和目标识别。

R-CNN系算法是two-stage的，因而需要将目标检测先进行区域生成，再分类和回归分别求解，而YOLO则使目标检测不用区域生成即可进行求解。由于 YOLO 只使用单个网络，因此可以在检测性能上直接对其进行端到端的优化，这使得基础的YOLO模型实时处理图像的速度能达到每秒45帧。

2017年，Joseph Redmon与导师合著，发表了论文《YOLO9000: Better, Faster, Stronger》，也就是YOLOv2。这篇论文获得了CVPR 2017 最佳论文荣誉提名奖(Best Paper Honorable Mention)，与最佳论文仅一步之遥。

要知道，CVPR是计算机视觉领域最受关注的顶会之一。出道仅4年，小马哥的工作就被提名了最佳论文，这就相当于一位初出茅庐的青年导演被提名奥斯卡的最佳影片一样啊。

相对于第一个版本，YOLOv2在继续保持处理速度的基础上，实现了更准确的预测、更快的速度以及更多的识别对象这三大改进，YOLOv2能够检测9000种不同对象，因此也将其称之为YOLO9000。

如果说前两篇还只是正常发挥，那么在2018年提出的YOLOv3，绝对能算的上是惊艳之作。这篇论文，从改进思路到行文风格，一看就知道它是出自Joseph Redmon之笔。

虽然Joseph Redmon在论文开篇说：“有时，你一整年都在敷衍了事却不自知。比如今年我就没做什么研究，而是在推特上挥霍光阴，置 GANs 于不顾。但凭着上年余留的一点动力，我对 YOLO 做了一些成功的升级。实话说，没什么特别有趣的东西，只不过是些小修小补。同时我对其他人的研究也做出了少许贡献。”

大家看了是不是想说：既然没做啥，你说这么多干嘛？如果这样想，你就too young too naive啦，大神只是谦虚一下而已。这次YOLOv3的提出，解决了一个非常重要的问题——针对YOLO在小目标检测上的性能不够强大做出了改进。此外，这一新版本不仅保持了 YOLO 的一贯的速度优势，同时提升了模型精度，针对小目标检测以及重叠遮挡目标的识别短板进行了补齐，一跃成为了当时速度和精度均衡性能最强的目标检测网络。

图示：充满了“Joseph Redmon”风格的性能图示。坐标轴内的曲线图出现于2017年的《Focal Loss for Dense Object Detection》这篇论文，Focal Loss的原图中虽然性能表格中包含了YOLO，但并未绘制其所在位置。于是小马哥就直接将这张图用在了他YOLOv3的论文中，还把YOLO画在了第二象限。

2018年，凭借在“创造更快、更好、更有用的计算机视觉应用工具”方面的贡献，Joseph Redmon还获得了2018年度谷歌博士奖学金，当年全球仅有的39名获奖者。小马哥的技术，又一次得到了学界的认可。

插曲：此前，小马哥曾在艾伦人工智能研究所实习，这家研究所孵化出了初创公司 XNOR.ai，创建者之一是他的导师Ali Farhadi，也是YOLO的合著者。小马哥参与了XNOR-Net 的开发工作。Xnor.ai作为为数不多的专注于在边缘提供AI功能的创业公司，2019年被评选为美国50家最有前途的人工智能公司之一。2020年1月，XNOR.ai被苹果收购，交易金额或高达 2 亿美元。因此，小马哥已经成功地实现从技术YOLO（you only look once）到人生YOLO（you only live once）的转变。

小马哥的隐退

2017年，Joseph Redmon在TED进行了演讲，分享了自己在计算机视觉和目标检测领域的最新技术。

在演讲结束时，他说：“我真的非常激动，因为我们在底层计算机视觉问题上提出了一个强大的解决方案，而任何人都可以使用它来做些什么。剩余的部分就要看在座的各位，以及世界上所有能够使用这个它的人。而我也已经迫不及待地想要看到大家究竟会用这一技术，进行什么样的创造了。”

视频：Joseph Redmon的TED演讲

在YOLOv3的论文末尾，他又再一次强调了他对自己的技术在未来的应用愿景：“也许更值得思考的问题是：‘当我们有了检测器，我们将拿它们来做什么？’这项技术已经被很好的掌握，但它真正但用途不应该是用来收集大家的个人信息并将其出售等等。大多数研究计算机视觉的人都只是做点令人愉快的、好的事情，比如计算国家公园里斑马的数量，或者追踪溜进他们院子时的猫。但是计算机视觉已经被用于令人质疑的领域，因此，作为研究人员，我们有责任思考我们的工作对这个世界可能造成的危害，并思考如何减轻这种危害，因为我们非常珍惜这个世界。

而就在大家都翘首以盼YOLOv4的时候，Joseph Redmon却在2020年2月突然在推特上发布声明——他说，出于道德上的考虑，他决定停止一切有关计算机视觉的研究。

这一消息在计算机视觉学术界和工业界都引起了轩然大波，它的背景牵涉到另一件人工智能领域的重要事件：就在Joseph Redmon发布声明的前几天，人工智能顶会 NeurIPS 2020 的发布了全新的论文接收标准。这一标准包括一个重要的改动：考虑到避免 AI 研究被滥用，或者因失败带来严重后果，NeurIPS 要求研究者在投稿时对自己论文的长远影响进行介绍。

NeurIPS的新标准和Joseph Redmon的退出引发了学术界激烈的讨论。人们开始思考“研究工作对社会有潜在的负面影响，是否应该停止研究？”。

一些学者认为，我们并不需要考虑新研究对社会的影响。虽然在学习阶段，科学研究是中立的是一种普适性观点，但如果真的认真考虑其广泛影响，那如人脸识别这类的技术工作都不应该被发表。新技术的提出即是一种社会价值的创造，而如何防范它被应用于不正当之处是技术提出后需要考虑的，况且，如果要真正完全地考虑新技术的未来影响，即使我们想，可能我们也并不能考虑充分。

而以Joseph Redmon为代表的另一方学者则认为，他提到：“我已经停止了计算机视觉研究，因为我看到了自己工作造成的影响。我热爱自己的作品，但我无法忽视它在军事领域的应用以及给个人隐私带来的风险。”

他的考虑不无道理。纵然考虑一项新研究对于社会的全部影响是十分困难甚至不切实际，但在当下鼓励开源的技术圈，拿到作者的源码，然后私自将其用于其他不当用途的情况的确也不在少数。本是抱着推动技术发展和人类进步的源码作者看到自己的工作成果被滥用并导致不良影响的情况，无疑是十分痛心的。

但正如一位网友所评论的：

部分学者停止技术研究，并不能从根本上解决技术滥用的问题。历史也不会因为一个人的停留而停止发展。

YOLO大旗没有倒下

在Joseph Redmon退出CV学术界后，他的技术却并未止步。2个月后，便有人接过了他的大旗。2020年4月，另一位曾经参与YOLO项目维护的大神Alexey Bochkovskiy，在arXiv上提交了YOLO v4，而且这篇论文也得到了Joseph Redmon的肯定——他将其拉入了他建立的YOLO项目主线。紧接着6月，YOLOv5也发布了，它的模型与比 YOLOv4 相比小近 90%，而在准确度指标上与 YOLOv4 相当。