YOLO 系目标检测算法家族全景图！-技术圈

YOLO目标检测算法诞生于2015年6月，从出生的那一天起就是“高精度、高效率、高实用性”目标检测算法的代名词。

在原作者Joseph Redmon博士手中YOLO经历了三代到YOLOv3，今年初Joseph Redmon宣告退出计算机视觉研究界后，YOLOv4、YOLOv5相继而出，且不论谁是正统，这YOLO算法家族在创始人拂袖而出后依然热闹非凡。

本文带领大家细数在此名门之中自带“YOLO”的算法，总计 23 项工作，它们有的使YOLO更快，有的使YOLO更精准，有的扩展到了3D点云、水下目标检测、有的则在FPGA、CPU、树莓派上大显身手，甚至还有的进入了语音处理识别领域。

而几乎所有YOLO系算法都力图保持高精度、高效率、高实用性，这也许就是工业界偏爱YOLO的理由吧！

YOLOv1 开山鼻祖之作

You Only Look Once: Unified, Real-Time Object Detection

作者：Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

单位：华盛顿大学；Allen Institute for AI；FAIR

论文：https://arxiv.org/abs/1506.02640

引用 | 10222

主页：https://pjreddie.com/darknet/yolo/

时间：2015年6月8日

标准版本的YOLO在Titan X 的 GPU 上能达到 45 FPS。更快的 Fast YOLO 检测速度可以达到 155 FPS。

YOLOv2

YOLO9000: Better, Faster, Stronger

作者：Joseph Redmon, Ali Farhadi

单位：华盛顿大学；Allen Institute for AI

论文： https://arxiv.org/abs/1612.08242

引用 | 5168

主页：https://pjreddie.com/darknet/yolo/

时间：2016年12月25日

在 YOLO 基础上，保持原有速度的同时提升精度得到YOLOv2，让预测变得更准确（Better），更快速（Faster）。

通过联合训练策略，可实现9000多种物体的实时检测，总体mAP值为19.7。

YOLOv3

YOLOv3: An Incremental Improvement

作者：Joseph Redmon, Ali Farhadi

单位：华盛顿大学

论文：https://arxiv.org/abs/1804.02767

引用 | 3363

主页：https://pjreddie.com/darknet/yolo/

Star | 18.3K

时间：2018年4月8日

在320×320 YOLOv3运行22.2ms，28.2 mAP，像SSD一样准确，但速度快三倍。在Titan X上，它在51 ms内实现了57.9的AP50，与RetinaNet在198 ms内的57.5 AP50相当，性能相似但速度快3.8倍。

YOLOv4 目标检测tricks集大成者

YOLOv4: Optimal Speed and Accuracy of Object Detection

作者：Alexey Bochkovskiy；Chien-Yao Wang；Hong-Yuan Mark Liao

单位：(中国台湾)中央研究院

论文：https://arxiv.org/pdf/2004.10934v1.pdf

引用 | 17

代码：https://github.com/AlexeyAB/darknet

Star | 11.9K

时间：2020年4月24

解读：YOLOv4来了！COCO 43.5 AP，65FPS！实现速度与精度的最优平衡

在MS COCO 数据集实现 43.5% AP (65.7% AP50 )，速度也更快了，在Tesla V100 GPU上 ∼65 FPS！

YOLOv5

2020年6月25日，Ultralytics发布了YOLOV5 的第一个正式版本，号称其性能与YOLO V4不相伯仲，同样也是现今最先进的目标检测技术，并在推理速度上是目前最强。

论文：无

代码：https://github.com/ultralytics/yolov5

Star | 3.5K

解读：一文读懂YOLOv5 与 YOLOv4

Fast YOLO

Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video

作者：Mohammad Javad Shafiee, Brendan Chywl, Francis Li, Alexander Wong

单位：滑铁卢大学

论文：https://arxiv.org/abs/1709.05943

引用 | 53

时间：2017年9月18日

Complex-YOLO

Complex-YOLO: An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds

作者：Martin Simon, Stefan Milz, Karl Amende, Horst-Michael Gross

单位：伊尔梅瑙工业大学

论文：https://arxiv.org/abs/1803.06199

引用 | 65

代码：https://github.com/ghimiredhikura/Complex-YOLOv3（非官方）

Star | 95(非官方)

代码：https://github.com/maudzung/Complex-YOLOv4-Pytorch（基于v4）

Star | 442（基于v4）

时间：2018年3月16日

基于YOLOv2的一个变种,用于点云3D目标检测。

MV-YOLO

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

作者：Saeed Ranjbar Alvar, Ivan V. Bajić

单位：西蒙弗雷泽大学

论文：https://arxiv.org/abs/1805.00107

引用 | 10

时间：2018年4月30日

一种结合压缩视频中的运动信息和YOLO目标检测的目标跟踪算法。

YOLO3D

YOLO3D: End-to-end real-time 3D Oriented Object Bounding Box Detection from LiDAR Point Cloud

作者：Waleed Ali, Sherif Abdelkarim, Mohamed Zahran, Mahmoud Zidan, Ahmad El Sallab

单位：Valeo AI Research, Egypt

论文：https://arxiv.org/abs/1808.02350

引用 | 26

备注：ECCV 2018 Workshop

时间：2018年8月7日

YOLO-LITE

YOLO-LITE: A Real-Time Object Detection Algorithm Optimized for Non-GPU Computers

作者：Jonathan Pedoeem, Rachel Huang

单位：佐治亚理工学院等

论文：https://arxiv.org/abs/1811.05588

引用 | 73

代码：https://reu2018dl.github.io/

Star | 336

时间：2018年11月14日

YOLO-LITE 是 YOLOv2-tiny 的Web实现，在 MS COCO 2014 和 PASCAL VOC 2007 + 2012 数据集上训练。在 Dell XPS 13 机器上可达到 21 FPS ,VOC 数据集上达到33.57 mAP。

Spiking-YOLO

Spiking-YOLO: Spiking Neural Network for Energy-Efficient Object Detection

作者：Seijoon Kim, Seongsik Park, Byunggook Na, Sungroh Yoon

单位：首尔大学

论文：https://arxiv.org/abs/1903.06530

引用 | 3

备注：AAAI 2020

解读：Spiking-YOLO : 前沿！脉冲神经网络在目标检测的首次尝试

时间：2019年3月12日

该文第一次将脉冲神经网络用于目标检测，虽然精度不高，但相比Tiny_YOLO 耗能更少。（研究意义大于实际应用意义）

DC-SPP-YOLO

DC-SPP-YOLO: Dense Connection and Spatial Pyramid Pooling Based YOLO for Object Detection

作者：Zhanchao Huang, Jianlin Wang

单位：北京化工大学

论文：https://arxiv.org/abs/1903.08589

引用 | 8

时间：2019年3月20日

该作提出一种DC-SPP-YOLO(基于YOLO的密集连接和空间金字塔池化技术)的方法来改善YOLOv2的目标检测精度。

SpeechYOLO

SpeechYOLO: Detection and Localization of Speech Objects

作者：Yael Segal, Tzeviya Sylvia Fuchs, Joseph Keshet

单位：巴伊兰大学

论文：https://arxiv.org/abs/1904.07704

引用 | 2

时间：2019年4月14日

YOLO算法启发的语音处理识别算法。

SpeechYOLO的目标是在输入信号中定位语句的边界，并对其进行正确分类。受YOLO算法在图像中进行目标检测的启发所提出的方法。

Complexer-YOLO

Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds

作者：Martin Simon, Karl Amende, Andrea Kraus, Jens Honer, Timo Sämann, Hauke Kaulbersch, Stefan Milz, Horst Michael Gross

单位：伊尔梅瑙工业大学等

论文：https://arxiv.org/abs/1904.07537

引用 | 24

时间：2019年4月16日

Complex-YOLO的改进版，用于实时点云3D目标检测与跟踪，推断速度加速20%，训练时间减少50%。

SlimYOLOv3

SlimYOLOv3: Narrower, Faster and Better for UAV Real-Time Applications

作者：Pengyi Zhang, Yunxin Zhong, Xiaoqiong Li

单位：北理工

论文：https://arxiv.org/abs/1907.11093

引用 | 18

解读：SlimYOLOv3：更窄、更快、更好的无人机目标检测算法

代码：https://github.com/PengyiZhang/SlimYOLOv3

Star | 953

时间：2019年7月15日

该文对YOLOv3的卷积层通道剪枝，大幅削减了模型的计算量(~90.8% decrease of FLOPs)和参数量( ~92.0% decline of parameter size)，剪枝后的模型在基本保持原模型的检测精度同时，运行速度约为原来的两倍。

REQ-YOLO

REQ-YOLO: A Resource-Aware, Efficient Quantization Framework for Object Detection on FPGAs

作者：Caiwen Ding, Shuo Wang, Ning Liu, Kaidi Xu, Yanzhi Wang, Yun Liang

单位：北大；东北大学；鹏城实验室

论文：https://arxiv.org/abs/1909.13396

引用 | 14

时间：2019年9月29日

Tiny-YOLO的 FPGA 实现，REQ-YOLO速度可高达200~300 FPS！

YOLO Nano

YOLO Nano: a Highly Compact You Only Look Once Convolutional Neural Network for Object Detection

作者：Alexander Wong, Mahmoud Famuori, Mohammad Javad Shafiee, Francis Li, Brendan Chwyl, Jonathan Chung

单位：滑铁卢大学；DarwinAI Corp

论文：https://arxiv.org/abs/1910.01271

引用 | 6

时间：2019年10月3日

YOLO Nano 比 Tiny YOLOv2 和 Tiny YOLOv3更小，更快，mAP更高！模型仅4.0MB。在 NVIDIA Jetson Xavier上速度竟高达26.9~48.2 FPS！

xYOLO

xYOLO: A Model For Real-Time Object Detection In Humanoid Soccer On Low-End Hardware

作者：Daniel Barry, Munir Shah, Merel Keijsers, Humayun Khan, Banon Hopman

单位：坎特伯雷大学

论文：https://arxiv.org/abs/1910.03159

引用 | 3

时间：2019年10月7日

该工作所提出的 xYOLO 是从 YOLO v3 tiny 变化而来，xYOLO比Tiny-YOLO快了70倍！在树莓派3B上速度9.66 FPS！模型仅0.82 MB大小，这可能是速度最快模型最小的YOLO变种。

IFQ-Tinier-YOLO

IFQ-Net: Integrated Fixed-point Quantization Networks for Embedded Vision

作者：Hongxing Gao, Wei Tao, Dongchao Wen, Tse-Wei Chen, Kinya Osa, Masami Kato

单位：Canon Information Technology (Beijing) Co., LTD；Device Technology Development Headquarters, Canon Inc.

论文：https://arxiv.org/abs/1911.08076

引用 | 4

时间：2019年11月19日

该工作一部分基于YOLOv2，设计了IFQ-Tinier-YOLO人脸检测器，它是一个定点网络，比Tiny-YOLO减少了256倍的模型大小（246k Bytes）。

DG-YOLO

WQT and DG-YOLO: towards domain generalization in underwater object detection

作者：Hong Liu, Pinhao Song, Runwei Ding

单位：北大；鹏城实验室

论文：https://arxiv.org/abs/2004.06333

时间：2020年4月14日

该工作旨在研究水下目标检测数据，因为水下目标的数据比较少，提出了新的水质迁移的数据增广方法和YOLO新变种：DG-YOLO ，该算法由 YOLOv3, DIM 和 IRM penalty 组成。

Poly-YOLO

Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

作者：Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba

单位：奥斯特拉发大学；Varroc Lighting Systems

论文：https://arxiv.org/abs/2005.13243

解读：mAP提升40%！YOLO3改进版—— Poly-YOLO：更快，更精确的检测和实例分割

代码：https://gitlab.com/irafm-ai/poly-yolo

时间：2020年5月27日

基于YOLOv3，支持实例分割，检测mAP提升40%！

E-YOLO

Expandable YOLO: 3D Object Detection from RGB-D Images

作者：Masahiro Takahashi, Alessandro Moro, Yonghoon Ji, Kazunori Umeda

单位：（日本）中央大学；RITECS Inc

论文：https://arxiv.org/abs/2006.14837

时间：2020年6月26日

YOLOv3的变种，构建了一个轻量级的目标检测器，从RGBD-D立体摄像机输入深度和彩色图像。该模型的处理速度为44.35fps（GPU: NVIDIA RTX 2080 and CPU: Intel Core i7 8700K）。

PP-YOLO

PP-YOLO: An Effective and Efficient Implementation of Object Detector

作者：Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen

单位：百度

论文：https://arxiv.org/abs/2007.12099

解读：https://zhuanlan.zhihu.com/p/163565906

代码：https://github.com/PaddlePaddle/PaddleDetection

时间：2020年7月23日

PP-YOLO由在YOLOv3上添加众多tricks“组合式创新”得来，从下图前两列中可看到其使用的技术：

PP-YOLO在精度和效率之间取得更好的平衡，在COCO数据集上达到45.2% mAP，并且速度72.9 FPS！，超越YOLOv4和谷歌EfficientDet，是更加实用的目标检测算法。

还有哪些优秀的YOLO系算法？欢迎留言补充！

推荐阅读

RNN 图解版

计算机视觉顶尖期刊和会议的段子

基于深度学习的目标检测算法面试必备（RCNN~YOLOv5）

超越YOLOv5，1.3M超轻量，高效易用，目标检测领域这一个就够了！

在看，让更多人看到