三张图读懂机器学习:基本概念、五大流派与九种常见算法
点击上方“程序员大白”,选择“星标”公众号
重磅干货,第一时间送达
报道| 深度学习冲鸭 编辑|王萌
著作权归作者所有,本文仅作学术分享,若侵权,请联系后台删文处理
一、机器学习概览
1. 什么是机器学习?
机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。
2. 机器学习和人工智能的关系
机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。
3. 机器学习的工作方式
①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据
②模型数据:使用训练数据来构建使用相关特征的模型
③验证模型:使用你的验证数据接入你的模型
④测试模型:使用你的测试数据检查被验证的模型的表现
⑤使用模型:使用完全训练好的模型在新数据上做预测
⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现
4. 机器学习所处的位置
①传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果
②统计学:分析师比较变量之间的关系
③机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。首先存在大数据→机器会学习使用训练数据集来进行分类,调节特定的算法来实现目标分类→该计算机可学习识别数据中的关系、趋势和模式
④智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据
5. 机器学习的实际应用
机器学习有很多应用场景,这里给出了一些示例,你会怎么使用它?
快速三维地图测绘和建模:要建造一架铁路桥,PwC 的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。 增强分析以降低风险:为了检测内部交易,PwC 将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。 预测表现最佳的目标:PwC 使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。
主导流派:符号主义 架构:服务器或大型机 主导理论:知识工程 基本决策逻辑:决策支持系统,实用性有限
主导流派:贝叶斯 架构:小型服务器集群 主导理论:概率论 分类:可扩展的比较或对比,对许多任务都足够好了
主导流派:联结主义 架构:大型服务器农场 主导理论:神经科学和概率 识别:更加精准的图像和声音识别、翻译、情绪分析等
主导流派:联结主义+符号主义 架构:许多云 主导理论:记忆神经网络、大规模集成、基于知识的推理 简单的问答:范围狭窄的、领域特定的知识共享
主导流派:联结主义+符号主义+贝叶斯+…… 架构:云计算和雾计算 主导理论:感知的时候有网络,推理和工作的时候有规则 简单感知、推理和行动:有限制的自动化或人机交互
主导流派:算法融合 架构:无处不在的服务器 主导理论:最佳组合的元学习 感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估 场景举例:基于规则的信用评估、赛马结果预测
优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的 场景举例:新闻分类、手写识别。
优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显 场景举例:路面交通流量分析、邮件过滤
优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类 场景举例:情感分析、消费者分类
优点:容许数据的变化性,适用于识别(recognition)和预测操作 场景举例:面部表情分析、气象预测
优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用 场景举例:用户流失分析、风险评估
优点:循环神经网络在存在大量有序信息时具有预测能力 场景举例:图像分类与字幕添加、政治情感分析
优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用 场景举例:自然语言处理、翻译
优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的 场景举例:图像识别、文本转语音、药物发现
推荐阅读
关于程序员大白
程序员大白是一群哈工大,东北大学,西湖大学和上海交通大学的硕士博士运营维护的号,大家乐于分享高质量文章,喜欢总结知识,欢迎关注[程序员大白],大家一起学习进步!