关于视觉算法工业部署及优化学习路线的探讨
极市导读
CV算法岗内卷程度有目共睹,因而算法部署落地成为了一个较好的方向。那么,学习这方面的技能知识,需要掌握那哪些工具技能?本文精选了三个知乎高质量回答,希望能为你带来帮助。>>加入极市CV技术交流群,走在计算机视觉的最前沿
作者丨ybai62868
深度学习框架方面,读一读caffe的源码和设计理念,看看其中的cpu/gpu上的op是怎么写的。 深度学习编译器方面,读一读tvm的源码和设计理念,看看编译器是怎么把一个dl model经过relay IR 再到 tvm IR,再到不同backend的codegen。以及编译器对计算图的常见优化(算子融合,data layout等) 深度学习模型部署方面,针对nvidia的gpu,看看cuda,tensorRT的document,自己尝试着把一个检测或者分割的模型部署到实验室的机器上。针对移动端的cpu,gpu,看看mnn,学习下mnn的code design。很多非常好的profiling,可视化工具。针对fpga设备,可以看看hls,opencl,verilog。毕竟直接拿现成的tool把model中的op翻译成hls,opencl代码还不是非常高效,很多东西还是直接写HDL所带来的speed up才更直接。这就和很多时候在arm架构的cpu上去优化算法,直接手写汇编所带来的提升更加直接。
作者丨BBuf
谢邀,我是19年开始逐渐接触CV中的一些算法部署,在NCNN,TensorRT,OpenVINO,NNIE和华为Atlas系列的各个框架上都有一些部署经历。另外目前作为一个新的小型Pytorch推理框架MsnhNet的核心开发者之一,感觉自己是比较适合回答这个问题的。我个人将从两个方面回答这个问题,第一个是怎么学的问题,第二个是怎么学得更好的问题。
算法落地部署怎么学?
我这里就以Hisi 3519A嵌入式开发版(AI硬件和工具链叫NNIE)为例,描述一下我的学习经历。
首先,拿到一块开发版我们做CV相关算法部署的人员最关注的应该就是它的CPU以及AI硬件的浮点峰值,这可以让我们后面在部署我们某个算法,某个网络的时候做到心中有数,具体怎么算或者怎么查看可以参考:高洋:浮点峰值那些事儿。实际上,各个厂家的开发板都会提供对应的工具链和一些Benchmark数据。例如最近接触到的地平线旭日开发板就提供了包括Mobilenetv1/2/3,Yolov3/4/5,FCN/SegNet等常见视觉场景用到的网络的Benchmark数据,通过这些数据我们可以清楚的看到对于某个分辨率的图像跑特定网络的fps以及内存消耗等等。上面介绍的这些是我在拿到一个开发板进行部署之前关注的。
然后,在了解了硬件的一些关键信息之后,我们就可以花几天熟悉一下开发版对应工具链(也就是开发板的前向推理框架)和官方示例。一般来说特定的开发板使用厂商提供的推理框架性能应该是最高的,因为他分它们的AI芯片如NNIE一些通用框架(比如NCNN,MNN,Tegine等)是没有相关的底层加速实现的,例如nvida的显卡部署我们首选TensorRT,Intel的CPU首选OpenVINO,arm的cpu选NCNN或者MNN。一般来说特定开发版官方示例都提供了一些经典的视觉任务比如分类,检测使用它们的工具链进行部署的例子,我们要熟悉这些例子,特别关注一下如何Debug,内存释放等等。
再然后,我们就可以针对我们的某个任务在我们想要的硬件平台进行部署了。例如我要部署一个DeepSort框架到Hisi 3519A开发板上,首先我要保证我能在CPU上正常运行我们的DeepSort代码。然后将我们的DeepSort代码拆分成检测,Reid,卡尔曼滤波,帧匹配各个过程利用开发版的推理框架分别编码。我建议在部署一个工程的时候最好进行子任务的拆分,因为这样更容易让我们编码完成之后进行Debug的时候更容易找到是哪部分出了问题,不至于调试时长时间卡顿,降低工作效率。
最后,在我们部署完一个工程或者视觉任务以后我们最好再评估一下我们的网络耗时和Benchmark提供的数据是否能对应上,如果我们的某个网络性能明显低于Benchmark数据需要查看是否AI硬件被使用了,是否网络细节设计不合理等等。只有我们部署的项目的精度和速度在上线之后经过了大量数据验证,我们才能算完成了一个部署任务。
所以,我将自己部署一个工程的思路分享出来,这里面都是我认为应该学习的比较关键的点。希望能帮助到你。
算法落地部署怎么学得更好?
上面说了怎么学,这个只是基于一些已有的开源推理框架或者开发板对应的工具链进行开发。如果你想学得更好,我就不班门弄斧了。如果感兴趣可以搜索一下知乎的 AI移动端优化 这个专栏,从里面圈圈虫,章小龙,白牛,梁德澎等做优化部署的大佬们的文章可以看出,想要学得更好得尝试自己去做一些算法优化的活。
因为,算法部署用到的各个框架的核心技术就是针对特定硬件平台的底层优化,例如NCNN针对Arm平台使用Neon汇编优化,针对X86使用SSE/AVX2优化,针对GPU使用Vulkan优化等等。当然我知道一个人的能力是有限的,如果你仅仅是感兴趣而已,那么你可以选择只学习某个平台比如Arm CPU的优化技术。
我也是处于一边学,一边做的状态。个人认为NCNN是这个世界上最好的优化框架,如果你基础已经够了(例如你了解了Neon汇编,知道卷积的计算过程)可以参考NCNN源码进行学习,如果你不太了解可以参考上面那个专栏或者在GiantPandaCV的AI移动端优化专栏学习一些基础知识,先入门然后我们一起学得更好。
虽然我是GiantPandaCV的运营者,但这个回答真不是为了打广告,另外非常感谢其它回答提到了本公众号,受宠若惊。
再留一个我们正在建设的知识网站吧,地址:http://www.giantpandacv.com/
作者丨OLDPAN
一看这个题目的关键字“部署”和“落地”就深深吸引到了我 。想想当年(去年)秋招,神仙打架诸神黄昏的CV岗,大神们的简历上都是充满顶会比赛top1等等,我不擅长算法(虽然我是算法工程师),简历上也就只能简单水水top10的比赛,写一些水水的项目。唯一感觉和大佬们简历稍微不同的也就落地和部署这块了。看了前面几位大佬的回答,感触颇深,所以我也来简单聊聊(大部分其他回答已经说了,我再补充些吧)。
个人认为算法部署落地这个方向是比较踏实务实的方向,相比“设计模型提出新算法”,对于咱们这种并不天赋异禀来说,只要你肯付出,收获是肯定有的(不像设计模型,那些巧妙的结果设计不出来就是设计不出来你气不气)。其实算法部署也算是开发了,不仅需要和训练好的模型打交道,有时候也会干一些粗活累活(也就是dirty work),自己用C++、cuda写算子(预处理、op、后处理等等)去实现一些独特的算子。算法部署最常用的语言是啥,当然是C++了,C++虽然复杂,但是由于优异的性能和各种特性(类对象、元编程等),被很多推理框架作为backbone的语言。
如果你想要自学但不知道学哪个,无从下手,哈哈恭喜你和当初的我一毛一样。不过你现在要是问,我还是不知道应该跟你怎么说,因为部署落地这方面你需要学习需要做的事情还是蛮多的。最好还是以项目作为驱动,或者找一些开源的推理部署框架练练手,找一两个开源项目玩玩,找找感觉,自己也就逐渐有方向了。
前面几位大佬提到的NCNN(优秀)、MNN(牛逼)等框架(还有很多框架这里不一一列举了额),是针对移动端进行部署进行优化的推理引擎,对ARM核进行了优化,如果你想做和移动端或者嵌入式端有关系的,可以看看这两个框架的源码,跑一两个demo找找感觉,另外还有Openvino和TensorRT,分别是对应cpu和gpu端的首推框架(想详细了解可以参考我之前的文章),可以找相关的项目去做做。
部署的流程一般就是:
训练一个模型,也可以是拿一个别人训练好的模型
针对不同平台生成的模型进行转换,也就是俗称的parse、convert,前端解释器
针对转化后的模型进行优化,这一步很重要,涉及到很多优化的步骤
将转化好的模型运行在特定的平台(嵌入端或者服务端)
需要掌握什么技术,学好C++很重要,起码能看懂各种关于部署精巧设计的框架(再列一遍:Caffe、libtorch、ncnn、mnn、tvm、openvino、tensorrt,不完全统计,我就列过我用过的)。当然并行计算编程语言也可以学一个,针对不同的平台而不同,可以先学学cuda,资料更多一些,熟悉熟悉并行计算的原理,对以后学习其他并行语言都有帮助。
部署和落地的重要性...当然是很重要呃,对于硬件公司来说,需要将深度学习算法部署到性能低到离谱的开发板上,因为成本能省就省,这时就需要部署了。在算法层面优化模型是一方面,但更重要的是从底层优化这个模型,这就涉及到部署落地方面的各个知识(手写汇编算子加速、算子融合等等);对于软件公司来说,我们往往需要将算法运行到服务器上,当然服务器可以是布满2080TI的高性能CPU机器,但是如果QPS请求足够高的话,需要的服务器数量也是相当之大的。这个要紧关头,如果我们的模型运行的足够快...可以省机器又可以腾一些buffer上新模型岂不很爽,这个时候也就需要优化模型了,其实优化手段也都差不多,只不过平台从arm等嵌入式端变为gpu等桌面端了。
系统的知识嘛,有是有,不过实际中都是用到啥再看啥,有项目在push你,个人建议直接上手项目,没有自己找找,按需学习。
这里简单总结下可以选择上手:
好用的开源推理框架:caffe NCNN、MNN、TVM
好用的不开源推理框架:Openvino、TensorRT
好用的开源服务器框架:triton-server
好用又不好用的编程语言:C++、CUDA、python
基础知识:计算机原理 编译原理等
最近在搞triton server,将TensorRT作为inference后qps很夸张(这个是服务端部署),有兴趣可以找我一块交流。
回答链接:
https://www.zhihu.com/question/428800593/answer/1560898134
推荐阅读