一文了解机器学习
BrainTechnology
共 2665字,需浏览 6分钟
· 2021-12-05
来源:DeepHub IMBA
本文约2300字,建议阅读8分钟
本文介绍了机器学习的种类。
机器学习
机器学习根据不同的任务类型可以分为以下三大类型:
有监督学习
无监督学习
强化学习
有监督学习
在这种类型中,机器学习算法是在标记数据上训练的。尽管这种方法需要准确地标记数据,但在适当的情况下使用监督学习是非常有效的。
开始时,系统接收输入数据和输出数据。它的任务是创建适当的规则,将输入映射到输出。训练过程应该持续,直到表现水平足够高为止。
在训练之后,系统应该能够分配一个在训练阶段没有看到的输出对象。在大多数情况下,这个过程是非常快速和准确的。
监督学习的类型:
Regression:回归,输出是连续值
Classification:分类,输出是离散值
回归
回归是一种有监督的机器学习技术,用于预测连续值。例如,我们可以用它来预测某种产品的价格,比如某个城市的房价或股票的价值。
机器学习中的回归由数学方法组成,数据科学家可以根据一个或多个预测变量(x)的值预测一个连续的结果(y)。线性回归可能是回归分析中最流行的形式,因为它在预测和预测中很容易使用。
分类
分类是一种旨在重现类别分配的技术。它可以预测响应值,并将数据分成“类”。例如识别照片中的汽车类型,鉴别垃圾邮件,检测表情,人脸识别等等。
分类的三种主要类型是:
二元分类 Binary Classification
它是分类的过程或任务,其中将给定的数据分为两类。它基本上是一种关于事物属于两个群体中的哪一个的预测。
假设有两封电子邮件发送给您,一封是由不断发送广告的保险公司发送的,另一封是您的银行发送的关于您的信用卡账单的电子邮件。
电子邮件服务提供商将对两封电子邮件进行分类,第一封将发送到垃圾邮件文件夹,第二封将保留在主邮件中。这个过程被称为二元分类,因为有两个离散的类,一个是垃圾邮件,另一个不是垃圾邮件的。所以这是一个二元分类的问题。
算法:
逻辑回归
KNN
决策树/随机森林/提升树
支持向量机 SVM
朴素贝叶斯
多层感知机
多分类 Multi-class Classification
多类分类是指那些具有两个以上类标签,但是输入数据只对应一个类标签的分类任务。
算法:
KNN
决策树/随机森林/提升树
朴素贝叶斯
多层感知机
注:这里去掉了SVM和逻辑回归,因为他们只支持二分类,但是可以通过其他方法实现多分类,一般情况下会构建与分类数相同的模型并进行二元分类,比如数字识别0-9,SVM会训练10个二元模型,分别判断是否是1,是否是2,逻辑回归也是同理。
多标签分类 Multi-Label Classification
多标签分类是指那些具有两个或多个类标签的分类任务,其中每个示例可以预测一个或多个类标签。
多分类可以叫做单标签多分类,是一对一的关系,而多标签分类是一对多的关系。
通俗的讲,一张照片里面有猫和狗,如果使用多分类来说,他只能将照片分成1类,猫或狗(一对一),但是对于多标签来说,会同时输出猫和够(一对多)
无监督学习
无监督学习算法可以执行比监督学习系统更复杂的处理任务。
无监督学习的类型:
A.聚类
聚类是指自动将具有相似特征的数据点组合在一起并将它们分配给“簇”的过程。
常用算法:
K-Means(K均值)
DBSCAN
使用高斯混合模型(GMM)
B.关联
关联规则学习是一种无监督学习技术,它在大型数据中检查一个数据项对另一个数据项的依赖性 ,它试图在数据集的变量之间找到一些有趣的关系或关联。根据不同的规则来发现数据中变量之间的有趣关系。
常用算法:
Apriori算法
PCY算法
FP-Tree算法
XFP-Tree算法
GPApriori算法
市场分析:是关联规则挖掘的流行示例和应用之一。大型零售商通常使用这种技术来确定商品之间的关联。(啤酒尿布)
医学诊断:关联规则有助于识别特定疾病的患病概率。
蛋白质序列:关联规则有助于确定人工蛋白质的合成。
强化学习
尽管监督学习和强化学习都使用输入和输出之间的映射,但与向代理提供的反馈是执行任务的正确动作集的监督学习不同,强化学习使用奖励和惩罚作为积极和消极行为的信号。
与无监督学习相比,强化学习在目标方面有所不同。虽然无监督学习的目标是找到数据点之间的异同,但在强化学习的情况下,目标是找到一个合适的动作模型,使代理的总累积奖励最大化。
描述 RL 问题基本要素的一些关键术语是:
- 环境Environment ——代理运行的物理世界
- 代理Agent ——也叫智能体,就是我们所写的算法
- 行动Action——代理产生的动作
- 状态State——代理的状态
- 奖励Reward——来自环境的反馈,好的还是坏的
- 策略Policy ——将代理的状态映射到动作的方法,通过状态选择做什么行动
- 价值Value ——代理在特定状态下采取行动将获得的未来奖励
deephub译者注
对于实现的方法,我们还可以根据模型分成不同的实现方法,例如:
传统的机器学习:各种回归
核方法:SVM等
贝叶斯模型:概率相关
树型模型:决策树、随机森林、各种boosting
神经网络:多层感知机、各种NN
以上分类并不冲突并且是交叉的。最简单的就是我们在使用神经网络分类和回归的时候,最后一层一般都会使用线性层(有的也叫稠密层)这一层使用的算法就是线性回归,再例如我们也可以使用神经网络来进行聚类算法,比如deepCluster。
本文内容来源以上网址及公众号。以上内容仅供学习使用,不作其它用途,如有侵权,请留言联系,作删除处理!
有任何疑问及建议,扫描以下公众号二维码添加交流:
评论
科普:深度学习训练,不同预算GPU选购指南
以下文章来源于微信公众号:DeepHub IMBA作者:Mike Clayton本文仅用于学术分享,如有侵权,请联系后台作删文处理导读购买显卡第一个要考虑的问题是什么?当然是预算。本文提供了不同预算的显卡选购指南,希望能对各位读者有所帮助。在进行机器学习项目时,特别是在处理深度学习和神经网络时,最好
机器学习初学者
0
【深度学习】人人都能看懂的LSTM
熟悉深度学习的朋友知道,LSTM是一种RNN模型,可以方便地处理时间序列数据,在NLP等领域有广泛应用。在看了台大李宏毅教授的深度学习视频后,特别是介绍的第一部分RNN以及LSTM,整个人醍醐灌顶。本文就是对视频的记录加上了一些个人的思考。0. 从RNN说起循环神经网络(Recurrent Neur
机器学习初学者
0
学习开放日:开放复杂科学、AI+X 海量学习资源!
Datawhale干货 学习开放日:4月27-28日1. 什么是学习开放日?以AI为代表的技术突飞猛进,人类知识森林快速扩张,仅凭一人之力不仅难以覆盖,更是难以串联知识线索。唯有像蚂蚁探索最优路径一样,我们才能在信息爆炸的知识森林中探索出更好的方向!因此,今年集智斑图联合国内最
Datawhale
1
springboot第70集:字节跳动后端三面经,一文让你走出微服务迷雾架构周刊
创建一个使用Kubernetes (K8s) 和 Jenkins 来自动化 GitLab 前端项目打包的CI/CD流水线,需要配置多个组件。下面,我将概述一个基本的设置步骤和示例脚本,以帮助你理解如何使用这些工具整合一个自动化流程。前提条件确保你已经有:Kubernetes 集群:用于部署 Jenk
程序源代码
0
了解加密货币到加密货币的互换
1、什么是加密货币互换?加密货币到加密货币的互换是指以现行市场汇率将一种加密货币直接兑换为另一种加密货币。与需要法定货币存款和较长流程的传统交易所不同,加密货币到加密货币的互换可以无缝地促进交换。掉期在提高加密货币的流动性和效率方面发挥着重要作用。该功能使用户能够将他们的加密货币与钱包中的其他代币进
区块链头条
0
【深度学习】图解自注意力机制(Self-Attention)
一、注意力机制和自注意力机制的区别Attention机制与Self-Attention机制的区别传统的Attention机制发生在Target的元素和Source中的所有元素之间。简单讲就是说Attention机制中的权重的计算需要Target来参与。即在Encoder-Decoder 模型中,At
机器学习初学者
0
一篇文章带你了解JavaScript作用域
点击上方“前端进阶学习交流”,进行关注回复“前端”即可获赠前端相关学习资料今日鸡汤杨家有女初长成,养在深闺人未识。在JavaScript中,对象和函数也是变量。在JavaScript中,作用域是你可以访问的变量、对象和函数的集合。JavaScript 有函数作用域: 这个作用域在函数内变化。一、本地
前端进阶学习交流
0
PyPy为什么能让Python比C还快?一文了解内在机制
我的小册:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。来源:机器之心「如果想让代码运行得更快,您应该使用 PyPy。」—— Python 之父 Guido van Rossum对于研究人员来说,迅速把想法代码化并查看其是否行得通至关重要。Pyth
菜鸟学Python
0