小白也能看懂的DL图文小课 | 第二关:深度学习的兴起
回复“100题”领取『名企AI面试100题』PDF
回复“干货资料”领取『NLP、CV、ML等AI方向』干货资料
回复“往期招聘”查看『往期内推招聘』
前言:本文创作的主要目的,是对深度学习算法的基础知识做一个简介,方便初学者或小白快速入门,文章系列会不断更新,建议收藏~
1、数据量的增长
我们画一个图,在水平轴上绘制出所有任务的数据量;
而在垂直轴上,画出各种算法(包括深度学习)的性能,比如说垃圾邮件过滤或者广告点击预测的准确率,或者是神经网络在自动驾驶汽车时判断位置的准确性。
根据图像可以发现,传统机器学习算法的性能一开始在增加更多数据时会上升,但是一段变化后它的性能就会像一个高原一样。
假设你的水平轴拉的很长很长,它们不知道如何处理规模巨大的数据。
如果你训练一个小型的神经网络,那么这个性能可能会像图中黄色曲线表示那样;如果你训练一个稍微大一点的神经网络,比如说一个中等规模的神经网络(图中蓝色曲线),它在某些数据上面的性能也会更好一些;
如果你训练一个非常大的神经网络,它就会变成图中绿色曲线那样,并且保持变得越来越好。
如果你没有大量的训练集,在小的训练集中,各种算法的优先级事实上并不是很明确,特征工程能力,将决定最终的模型表现。
因此你知道在这个图形区域的左边,各种算法之间的优先级并不是定义的很明确,最终的性能更多的是取决于你在工程选择特征方面的能力以及算法处理方面的一些细节。
只有在某些大数据规模非常庞大的训练集,也就是在横坐标数据量的数据量非常的大时,神经网络模型的预测表现才能明显优于传统机器学习模型,并且规模越大,效果越好。
因此可以注意到两点:如果想要获得较高的性能体现,那么有两个条件要完成:
第一个是你需要训练一个规模足够大的神经网络,另外需要很多的数据。因此我们经常说规模一直在推动深度学习的进步,这里的规模指的是神经网络的规模,同时也有数据的规模。多亏数字化社会的来临,现在的数据量都非常巨大,仅仅在过去的 20 年里对于很多应用,我们便收集到了大量的数据,远超过机器学习算法能够高效发挥它们优势的规模,所以这也是深度学习兴起的重要原因之一。
2、算法创新
许多算法方面的创新,一直是在尝试着使得神经网络训练的更快。
比如,神经网络方面的一个很经典的巨大突破是从 sigmoid 函数转换到一个 ReLU函数。
我们知道的一个使用 sigmoid 函数的问题是,在距离0值较远的位置 sigmoid 函数的梯度会接近零,所以学习的速度会变得非常缓慢,因为当你实现梯度下降时,在梯度接近零的时候,参数会更新的很慢,所以学习的速率也会变的很慢。
而通过改变激活函数,神经网络换用一个叫做 ReLU (修正线性单元)的函数,仅仅通过将 Sigmod 函数转换成 ReLU 函数,便能够使得梯度下降(gradient descent)的算法运行的更快,这就是一个比较简单的算法创新的例子。有关梯度下降、学习速率的内容后面课程会详细介绍。
根本上讲,算法创新所带来的影响,实际上是对计算带来的优化。我们通过改变算法,使得代码运行的更快,这也使得我们能够使用更大规模的数据训练规模更大的神经网络。
3、运算性能提升
渐渐地,尤其是在最近这几年,得益于在 CPU 还是 GPU 方面取得了巨大的进步,见证了算法方面的极大创新。
我们训练神经网络的过程,很多时候是凭借直觉的。往往对神经网络架构有了一个想法,于是尝试写代码实现这个想法,然后运行来检验神经网络效果有多好,通过参考这个结果再返回去修改神经网络里面的一些细节。然后我们不断的重复上面的操作,这需要很长的时间。
快速计算可以大大缩短这个过程,让我们实现更多的尝试和创新。
得益于快速计算,我们能够更快得到实验结果。当我们训练模型的时候,我们可以利用算力的提高去构建更多更高效的神经网络。当你能够有一个建模需求,在相同的时间内,你能够尝试更多的想法,那极有可能使得你的神经网络在你的应用方面工作的更好、更快的计算,你也能更快地得到你的实验结果。
得益于快速计算,深度学习社区变的也非常繁荣。快速计算也同时帮助了神经网络的实验人员和有关项目的研究人员在深度学习的工作中迭代的更快,产生了许多令人难以置信地的算法发明,这些算法发明使得深度学习不断壮大。这些力量目前也正常不断的在市场上产生巨大的效果,使得深度学习变得越来越好,越来越广为人知。



如果你已经拥有一定的基础,想要一份够分量的东西来充实自己的简历,增加简历的含金量、来提升自己的竞争力。
那么我建议你参见七月在线最新一期的机器学习集训营,用3个月的时间,短期提升、快速补强,提升简历含金量。
最新一期【机器学习集训营】,继续维持了"直播教学 面试辅导 就业推荐并重,且提供CPU和GPU双云平台并布置作业考试竞赛"为代表的十二位一体的教学模式之外,新增部分在线直播、实训项目。
针对企业项目,除了“自动驾驶车道线检测、大规模行人重识别(ReID)、智能问答系统、聊天机器人、商品推荐系统”外,电影推荐系统更新为文本推荐系统,且新增第七大企业级项目:电商商品检索系统。
且为再次提升大家的AI项目经验和工程能力,本期新增部分在线直播(比如常见深度学习框架tf/pytorch的应用)、实训项目。
本期集训营拥有超豪华讲师团队,讲师大多数为国内外知名互联网公司技术骨干或者顶尖院校的专业大牛,学员将在这些顶级讲师的手把手指导下完成学习。
完成项目进入就业阶段后,BAT等大厂技术专家会一对一进行简历优化(比如将集训营项目整理到简历中)、面试辅导(比如面试常见考点/模型/算法),且和就业老师一起进行就业推荐等等就业服务。
(七月在线部分学员薪资展示)
机会永远留给提前做好准备的人!迄今为止,「机器学习集训营」已迭代至第十七期,如果你想从事AI方向的工作,想在最短时间内成长为行业中高级人才,进入知名互联网公司,扫码咨询课程详情!
(或七月在线任意一个老师领取)
戳↓↓“阅读原文”查看课程详情!