YOLOX在MMDetection复现全录

机器学习算法工程师

共 5265字,需浏览 11分钟

 ·

2021-10-13 11:46

前段时间我们支持了 YOLOX,在复现中多亏了 5 位社区用户的积极参与,使其有望在短时间发布,在此再次表示感谢! 


关于 YOLOX 复现细节见:

https://zhuanlan.zhihu.com/p/398545304


5 位社区用户的 github 账号如下,欢迎大家去主页逛逛~


- HAOCHENYE :

https://github.com/HAOCHENYE

- xiaohu2015 :

https://github.com/xiaohu2015

- zhiqwang :

https://github.com/zhiqwang

- HsLOL :

https://github.com/HsLOL

- shinya7y :

https://github.com/shinya7y



后续,我们也和参与的社区用户进行了深入沟通,希望能够得到宝贵意见以便更好的共同完善 MMDetection (shinya7y 由于不在国内,没有联系到)。


罗马不是一日建成,大佬也不是生来就是大佬~

我们的贡献者们又经历过怎样的灵感闪光,怎样迈过一座座大山呢?


让我们一起来听听社区贡献者的心声吧!!!



@HAOCHENYE


作为 MMDetection 的忠实粉丝以及重度用户,能够参与到这次 YOLOX 的复现中,真的是太令人兴奋了。回顾整个过程委实收获颇丰,在此十分感谢 OpenMMLab 的大佬们的指导以及一起奋战的小伙伴~!在这次过程中我主要负责数据部分的对齐,在此记录一些感悟心得。


 团队协作复现


作为一个小厂工作的算法工程师,其实鲜有多人协作贡献代码的经历,基本一个项目就是自己在主线分支一路狂奔。这次复现经历对我来说最宝贵,其实不是一些代码,理论层面的知识,而是这样团队协作模式的学习。


这里真的真的非常感谢 OpenMMLab 大佬对我的帮助,帮我解决各种愚蠢的 GIT 问题,耐心的教我 PR 流程,规范我的 GIT 行为,太有爱了!!


 代码迁移


YOLOX 相较于 YOLOv5,其马赛克增强部分的代码基本是完全迁移的,其原创的部分主要在于 MixUp增强,以及最后 15 个 epoch 开关数据增强的模式。考虑到第一版的复现旨在还原精度,因此我只需要把 YOLOX 的整个 MosaicDetectionDataset 移植过来,做好和 Pipeline 的对接工作即可。但是需要注意的有两点:


1. YOLOX 的 YOLOBatchSampler 不仅仅返回当前所需的 Index,还会返回当前 batch 图像的 size,辅助 Dataset 进行多尺度训练,因此 MMDetection 也需要一个 Hook 进行类似操作,在 after_train_iter 的方法中修改 Dataset 的尺度。


2. 最后 15 个epoch关闭增强的操作也在 Hook 中进行,Dataset 需要为其预留 flag。


 代码整合


在完成精度校验后,需要将 YOLOX 的代码转换成 MMDetection 风格,这个步骤做了非常多的讨论尝试,主要分为以下几种:


(1) 把 MosaicDataset 作为一个新的 Wrapped_dataset,内置 Mosaic 和 MixUp 增强。


- 优点:风格和 YOLOX 基本一致,改动小,维持了 Pipeline 的轻量。

- 缺点:Mosaic 和 MixUp 本质上是一种数据增强,放在 Dataset 中理不合,不利于其他任务的灵活调用


(2) 新增 Mosaic 和 Mixup Pipeline,在 Pipeline 中完成 Dataset 的构造,内部可以访问训练数据集,实现数据增强。


- 优点:逻辑清晰,调用灵活。

- 缺点:Pipeline过于重,构造缓慢,以 YOLOX 任务为例,训练过程重新需要加载3遍训练数据,耗时过长。


(3) 新增 MultiImageMixDataset 和 Mosaic 和 Mixup 的 Pipeline,MultiImageMixDataset 调用Mosaic 和 Mixup Pipeline 的接口,获取融合图片的 Index,将图片取出后传递给 Pipeline,实现数据增强。


- 优点:Pipeline 灵活,并且共享一个 Dataset,轻量,可太妙了。

- 缺点:有啥缺点嘞?


经过和大佬的讨论,最后敲定了第三种方案。


 精度复查


不幸的是,经过代码整合后,精度没有对上,为了排除 Dataset 部分的问题,只能做 1 对 1 的校验了。我将 YOLOX 的 MosaicDetection Dataset 移植到 MMDetection 中。


同时建立 MultiImageMixDataset 及对应 Pipeline 和 MosaicDetection,使用一个猥琐的函数去除所有随机性,for 循环顺序遍历两个 Dataset,核对精度。经验证的确发现了一些问题 ——


YOLOX 的 bboxes 获取存在 1 个像素的误差;


YOLOX 过滤了小 bboxes,而 MMDetection 版本没有做;


np.array 转换成 float 后,图像总体均值会有 0.5 左右的差异,而 MMDetection 和 YOLOX 转浮点的时机不同,会造成 0.5 左右的均值像素误差;


然而经测试,以上原因均不是导致训练误差的原因,经测试,对齐后的两个 Dataset,image 和 bbox 的误差均在 1e-4 以内。


 精度再查


梅开二度,训练精度还是没对上,于是我考虑 Dataset 在完整项目中的对齐效果。我将 YOLOX 的Trainer 抄到 MMDetection 中,删除 Model 相关的代码,保留 Dataset、Dataloader 和多尺度训练的代码。


此外还保留每个数据增强函数的随机性, 使用装饰器对每个函数设置随机种子,保证每个对应的函数产生相同的随机数。一顿操作下来,验证 Dataset 的精度是对齐的。


 总结


经过这次的合作开发,我对 MMDetection 理解又更上一层楼啦,也对一些设计理念有了更深的理解,感觉稍微孵化一下,再结合 MMCV,自己也能写出个比较规范的其他领域的项目。此外更重要的是,我在平时的工作中能够更加规范的使用 GIT 来进行合作开发,也会用更加严格的标准去规范自己的编程风格,委实受益匪浅。能参与到这样的项目中,和大佬们交流学习真的太好啦!


最后祝 MMDetection 发展越来越好,Star 蹭蹭涨,高性能又快又好模型越来越多!



@xiaohu2015


这次有幸参与使用 MMDetection 复现 YOLOX 的工作,收获很大,也非常感谢 reviewer 对我的帮助。这个过程中,除了加深了对 YOLOX 的理解外,我也对 MMDetection 的设计有了更多的理解,最重要的是对代码书写也有几点体会:


 规范性


前期我曾参与 YOLOX 的训练 loss 的实现,其实也就是简单地把原始的实现给稍微修改一下,但这个明显不符合 MMDetection 的规范,看到后面 MMDetection 的 developer 实现的 loss,真是学习到了很多,比如说将 simOTA 单独抽离出来形成了一个类 SimOTAAssinger。


一个高质量的开源项目需要保持一定的规范性,我觉得这也是 MMDetection 受众多的一个重要原因。


 简洁性


实现功能只是一个方面,在代码优化方面,我们应该多多想想怎么让代码更加简洁可懂,减少代码的冗余,这个也非常重要。在优化 EMA 那块时,对于两种不同的 EMA,我也抽离了它们共用的部分,放在base 类里面,让代码更加简洁。


这是我第一次参与开源项目的 PR,也是第一次参与 github 项目的团队协作,再次感谢 MMDetection 团体以及小组的每一个协助者。


在参与过程中,最大的体会是代码优化没有极限,一个优秀的开源框架,背后经过了很多人不断的打磨,不断的优化,不断的完善文档,不断的提高易用性等等。


感谢 MMDetection 团队不断的努力,不断的优化打造出如此优异的框架,同时也期待 OpenMMLab 开源框架系列越来越好,用户越来越多!


个人知乎账号

https://www.zhihu.com/people/xiaohuzc


@zhiqwang

首先感谢眸哥在整个 YOLOX 开发过程中给我们提供了很多帮助,仔细精准分配了任务,并帮助我们纠正对 YOLOX 网络和 MMDetection 框架的认识误区。


其次要感谢 MMDetection 给我们提供了一个非常好的平台供我们学习和成长,可以看出 MMDetection 花了很大心思来维护社区,所以才有了现在如此好的氛围和环境。


这次协同开发的过程中我也深刻感受到 MMDetection 的模块化设计优秀之处。可以看到 MMDetection 设计之初为考虑到能够容纳各种优秀的目标检测模型,MMDetection 对目标检测任务进行了优雅的抽象。这种抽象也形成了很大的影响力,不断被优秀的论文所引用,也被其他深度学习框架而借鉴。


详细来说 MMDetection 的模块化也能帮助我们快速认识新的目标检测模型,例如在 YOLOX 的开发过程中,我们将原 YOLOX 设计重构成 MMDetection 的形式,能更快吸收原 YOLOX 设计的精妙点,能快速抓住 YOLOX 的本质提升之处,也方便我们接下来做消融实验。


最后要提到 MMDetection 的工程化也做得非常好,文档和单元测试都非常齐全虽然是协同开发,因为模块化和完整的单元测试,我们整个小组也能在比较快的时间里面完成这个任务!


MMDetection yyds!


个人知乎账号

https://www.zhihu.com/people/zhiqwang


@HsLOL


MMDetection 作为当下最成熟、最流行的目标检测框架,已经被广大开发者所使用,而我也感到非常荣幸能够与眸哥和诸多大佬共同参与到此次 YOLOX 的复现工作中,为 MMDetection 这一优秀的目标检测框架贡献自己的一份力量。


虽然我接触 MMDetection 的时间并不是很长,但是 MMDetection 良好的社区氛围和对小白非常友好的新手教程,使我在阅读源码理解算法流程的同时,也想进一步的学习 MMDetection 的构建流程。


我在此次复现工作中主要负责学习率调整模块的复现,最初的计划是直接调用 MMCV 库中有关学习率余弦衰减的代码,但是阅读 YOLOX 源码发现,YOLOX 在数据增强达到一定轮数之后就固定住了学习率,而且 MMCV 库中的实现方式及 Warm Up 函数与 YOLOX 相比均有所不同,所以需要按照 YOLOX 的思路继承 MMCV 库中的相关类后,在对其中的相关代码进行复写。


在这里非常感谢眸哥在项目开发过程中对我的帮助,如果没有眸哥的耐心解答和帮助,我很可能坚持不到最后。在经过此次复现工作后,我对 MMDetection 框架和构建流程有了更深的理解,我也非常希望今后还可以参与到 MMDetection 的复现工作中。


最后祝 MMDetection 越来越好!


个人知乎账

https://www.zhihu.com/people/fhs-37


开发者是社区的灵魂

我们真诚地感谢每一位用户和贡献者


欢迎更多开发者加入OpenMMLab

让我们一起交换价值


推荐阅读

CPVT:一个卷积就可以隐式编码位置信息

SOTA模型Swin Transformer是如何炼成的!

谷歌AI用30亿数据训练了一个20亿参数Vision Transformer模型,在ImageNet上达到新的SOTA!

BatchNorm的避坑指南(上)

BatchNorm的避坑指南(下)

目标跟踪入门篇-相关滤波

SOTA模型Swin Transformer是如何炼成的!

MoCo V3:我并不是你想的那样!

Transformer在语义分割上的应用

"未来"的经典之作ViT:transformer is all you need!

PVT:可用于密集任务backbone的金字塔视觉transformer!

涨点神器FixRes:两次超越ImageNet数据集上的SOTA

Transformer为何能闯入CV界秒杀CNN?

不妨试试MoCo,来替换ImageNet上pretrain模型!


机器学习算法工程师


                                    一个用心的公众号


浏览 88
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报