算法卷不动了，最后一个值得卷的百万年薪赛道！-技术圈

众所周知，深度神经网络模型被广泛应用在图像分类、物体检测，目标跟踪等计算机视觉任务中，并取得了巨大成功。

随着不同场景的需求变得更加多样，越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进行决策和操作；另外IoT物联设备生成的数据量通常很大，由于运营成本、时间和隐私方面的考虑，移动和存储所有生成的数据不太可行。

AI技术的一个趋势是在设备端上部署高性能的神经网络模型，并在真实场景中实时运行。如移动端/嵌入式设备，这些设备的特点是内存资源少，处理器性能不高，功耗受限，这使得目前精度最高的模型根本无法在这些设备进行部署和达到实时运行。

存储空间和算力资源的限制，使得神经网络模型在移动设备和嵌入式设备上的存储与计算仍然具有巨大的挑战。

边缘AI技术到底有多火爆

IDC公司预测，到2025年，物联网设备数量预计将超过560亿台。MarketsandMarkets则表示，2020年全球边缘计算市场规模约为36亿美元。

预计到2025年将增长到157亿美元，复合年增长率达到惊人的34.1%。

在边缘的用例以及对经济的影响将变得巨大。EdgeAI可用于监视和监控目标、自动驾驶车辆、智能扬声器和工业物联网。而像新冠肺炎等流行病则加速了边缘计算的应用。

麦肯锡预测，到2025年，仅涉及物联网(IoT)应用的用例所产生的经济价值将在每年3.9万亿美元至11.1万亿美元之间。

目前招聘平台上，关于边缘AI算法人才的需求，也是非常火爆，非常多的大厂都在疯狂揽人，其招聘岗位数量和薪资甚至不逊于NLP算法工程师。

为了全面系统的培养高性能神经网络人才，贪心学院重磅推出《高性能神经网络与AI芯片应用研修课程》，为想进入边缘AI行业的同学们提供一个可以大幅提升自身就业竞争力的选择。

本课程会讲解边缘AI相关知识、高性能网络设计、通用芯片及专用芯片计算加速方法等专业技能，并结合优秀编译器的架构和实现细节的讲解，为学生构建高性能AI算法的软硬件视角，能够解决应用落地时神经网络的优化和部署相关问题。

内容亮点

全面技术讲解：课程涵盖了轻量化神经网络设计、神经网络部署前的优化方法、神经网络编译器的设计模式和具体实现、神经网络部署到芯片上的计算加速等全面的AI嵌入式芯片设计和应用相关人员就业必备的知识。
软硬件相结合：本课程除了全面讲解高性能神经网络相关的知识技术外，还会指导学员在硬件上进行实操。
专家导师授课：课程导师为AI芯片行业专家，相关项目经验十分丰富。

你将收获

掌握神经网络高性能实现的算法及工具
掌握通用芯片及专用AI芯片架构及网络加速技术
掌握通用芯片及专用AI芯片神经网络部署应用的实际案例
短期内对一个领域有全面的认识，大大节省学习时间
认识一群拥有同样兴趣的人、相互交流、相互学习

感兴趣的请添加咨询顾问

项目介绍

▌项目1

项目名称：模型轻量化

项目内容描述：mobilenet、shufflenet、squeezenet等，模型量化、剪枝和蒸馏技术，网络的计算量和内存分析的工具，主干网络的轻量化，检测网络的轻量化，分割网络的轻量化，不同框架提供的加速方案。

项目使用的数据集：COCO，ADE20k，ImageNet

项目使用的算法：模型量化，模型剪枝和模型蒸馏

项目使用的工具：python，c/c++，pytorch，tensorflow，distiller，ncnn

项目预期结果：学员掌握轻量化网络设计准则，模型轻量化技术，能够上手操作一个网络部署前的优化。

项目对应第几周的课程：1~4周

▌项目2

项目名称：神经网络编译器

项目内容描述：tvm，ncnn，mnn，tnn 各自的特点，对于神经网络的优化方案，tvm的具体设备的优化方案，算子融合，路径优化，内存优化，ncnn的网络的表示数据结构，ncnn的一些优化计算的思路，量化方法，mnn中的数据结构，模型转换和量化方法，tnn和ncnn的区别，系统架构，量化方法。

项目使用的算法：离线量化，在线感知量化

项目使用的工具：python，c/c++，tvm，ncnn，tnn，mnn

项目预期结果：学员对于神经网络编译器有全面的了解，对于主流神经网络编译器能够实践使用，完成模型到芯片所需要格式的转换。

项目对应第几周的课程：5~8周

▌项目3

项目名称：通用芯片加速技术

项目内容描述：cpu，arm对应的指令集级别的加速，编译器中具体的优化策略，simd，avx，sse，openblas，neon和cpu中对于卷积的运算加速方案，cpu上的具体实例，arm上的具体实例，环境配置，神经网络的例子，加速方案的组合和实际效果。

项目使用的算法：simd，avs，sse，blas，winograd

项目使用的工具：nnpack，qnnpack，lowpgemm，tvm，ncnn

项目预期结果：学员深入掌握cpu，arm等芯片的神经网络加速技术，并且通过一个例子来看具体的加速效果。

项目对应第几周的课程：9~12周

▌项目4

项目名称：专用芯片加速技术

项目内容描述：gpu和k210 npu及各自神经网络编译器中的加速优化技术，gpu上的cuda加速的方法，cublas，opencl，vulkan的开发例子，nncase上编译一个网络，k210开发板环境配置及人脸检测模型的部署

项目使用的算法：人脸检测

项目使用的工具（编程语言、工具、技术等）：Python，C/C++，opencl，vulkan，nncase

项目预期结果：学员可以掌握gpu及npu上神经网络的编译加速，并且通过一个具体的例子来完成人脸检测模型在k210芯片上的部署。

项目对应第几周的课程：13~16周

感兴趣的请添加咨询顾问

详细内容介绍

第一周：轻量化网络结构设计

本节课将讲解网络参数量、浮点运算数等模型评价指标、工具，以及分类网络，检测网络，分割网络的轻量化设计。

课程提纲：

轻量化网络设计背景介绍
网络的计算量和内存分析工具
主干网络的轻量化
检测网络的轻量化
分割网络的轻量化
典型网络的设计思路

第二周：知识蒸馏优化、低秩分解优化

本节课将讲解神经网络知识蒸馏优化、神经网络计算低秩分解加速计算方法。

课程提纲：

知识蒸馏方法介绍
知识蒸馏原理和步骤介绍
知识蒸馏训练方法缩减网络的实际分类网络演示
低秩分解原理
低秩分解加速计算在神经网络推理中的应用

第三周：网络剪枝

本节课将讲解网络稀疏性原理，网络剪枝原则及剪枝的常见方法。

课程提纲：

网络剪枝的原理
常用的剪枝策略
神经网络框架中的剪枝功能介绍
剪枝的实际使用

第四周：网络量化

本节课将讲解网络的低比特化，以及在AI芯片中的计算，实现网络量化的离线和在线感知的量化方法。

课程提纲：

网络量化的技术发展
不同离线量化算法的实现原理
神经网络框架中在线感知量化算法的原理及实现
实际案例

第五周：神经网络编译器简介

本节课将讲解tvm、ncnn、tnn、mnn的简要对比，tvm relay和网络转换，网络的编译优化和推理加速。

课程提纲：

tvm、ncnn、tnn、mnn的简要对比
tvm relay和网络转换
网络的编译优化和推理加速
tvm的实际案例

第六周：ncnn

本节课将讲解ncnn的系统架构图，数据结构，支持的框架，网络的表示，网络优化，量化，以及各平台的优化策略。

课程提纲：

ncnn的系统架构图
ncnn的数据结构及支持框架
ncnn的网络表示
ncnn网络优化，量化，及各平台的优化策略

第七周：tnn

本节课将讲解tnn的系统架构图，数据结构，支持的框架，网络的表示，网络优化，量化，以及各平台的优化策略。

课程提纲：

tnn的系统架构图
tnn的数据结构及支持框架
tnn的网络表示
tnn网络优化，量化，及各平台的优化策略

第八周：mnn

本节课将讲解mnn的系统架构图，数据结构，支持的框架，网络的表示，网络优化，量化，以及各平台的优化策略。

课程提纲：

mnn的系统架构图
mnn的数据结构及支持框架
mnn的网络表示
mnn网络优化，量化，及各平台的优化策略

第九周：cpu中的指令集优化

本节课将讲解cpu中的指令集优化，simd、avx、sse方法，及tvm中对于cpu上神经网络加速的位置。

课程提纲：

cpu中的指令集优化：simd，avx，sse方法
tvm中对于cpu上神经网络加速的位置

第十周：arm中的神经网络加速

本节课将讲解arm中的neon优化，及ncnn，tnn和mnn的实现，并结合实际例子来看具体的加速效果。

课程提纲：

arm中的neon优化
ncnn，tnn和mnn实现的讲解
具体加速效果的实际案例

第十一周：卷积计算的优化算法

本节课将讲解卷积计算的优化算法，包括winograd等。

第十二周：神经网络加速库

本节课将讲解openblas库的优化，nnpack/qnnpack的优化，及lowpgemm。

课程提纲：

openblas库的优化
nnpack/qnnpack的优化
lowpgemm

第十三周：gpu上神经网络的运行和加速

本节课将讲解gpu与cpu计算加速的区别，英伟达gpu的原生cuda加速方法，及推理侧tensorrt的使用。

课程提纲：

gpu与cpu计算加速的区别
英伟达gpu的原生cuda加速方法
推理侧tensorrt的使用

第十四周：gpu加速通用加速库

本节课将讲解通用加速库cublas，vulkan，opencl的使用。

课程提纲：

通用加速库cublas的使用
Vulkan的使用
opencl的使用

第十五周：dsp，fpga，npu专用加速计算

本节课将讲解dsp，fpga，npu的专用加速计算。

课程提纲：

dsp计算加速
fpga计算加速
npu专用加速计算

第十六周：npu使用

本节课将以嘉楠科技的k210为例，实现一个人脸检测案例。

课程提纲：

嘉楠科技k210芯片介绍
nncase人脸检测案例

感兴趣的请添加咨询顾问

授课方式

基础知识讲解
前沿论文解读
论文代码复现
该知识内容的实际应用
该知识的项目实战
该方向的知识延伸及未来趋势讲解

适合人群

大学生

编程及深度学习基础良好，为了想进入AI芯片行业发展

在职人士

想进入AI芯片行业的算法或IT工程师
想通过掌握硬件技术，拓宽未来职业路径的AI算法工程师

入学基础要求

掌握python、C++开发，及深度学习的基础知识。

课程研发及导师团队

王欢

肇观科技算法总监

华中科技大学模式识别与人工智能硕士

原拼多多、同盾科技等公司算法工程师，AI算法领域从业15+年

蓝振忠

课程研发顾问

ALBERT模型的第一作者

西湖大学特聘研究员和博士生导师

Google AI实验室科学家

美国卡耐基梅隆大学博士

先后在NIPS, CVPR, ICCV, IJCAI等会议发表30篇以上论文，1000+引用次数

Jerry Yuan

课程研发顾问

美国微软(总部)推荐系统部负责人

美国亚马逊(总部)资深工程师

美国新泽西理工大学博士

14年人工智能, 数字图像处理和推荐系统领域研究和项目经验

先后在AI相关国际会议上发表20篇以上论文

李文哲

贪心科技CEO

美国南加州大学博士

曾任独角兽金科集团首席数据科学家、美国亚马逊和高盛的高级工程师

金融行业开创知识图谱做大数据反欺诈的第一人

先后在AAAI、KDD、AISTATS、CHI等国际会议上发表过15篇以上论文

感兴趣的请添加咨询顾问

历届学员去向