吴恩达:机器学习的六个核心算法
Python大数据分析
共 8257字,需浏览 17分钟
· 2022-08-09
本文介绍了吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。
来源:Ai科技评论
算法:线性和逻辑回归、决策树等 概念:正则化、优化损失函数、偏差/方差等
线性回归:直的&窄的
汽车的油耗 y 与其重量 x 之间的关系取决于直线的斜率 w(油耗随重量上升的幅度)和偏置项 b(零重量时的油耗):y=w*x+b。 在训练期间,给定汽车的重量,算法会预测预期的油耗。它比较了预期和实际的油耗。然后,它将平方差最小化,通常通过普通最小二乘技术,磨练 w 和 b 的值。 考虑汽车的阻力可以生成更精确的预测。附加变量将线延伸到平面。通过这种方式,线性回归可以容纳任意数量的变量/维度。
逻辑回归:跟随曲线
训练水平调整曲线的中心位置,垂直调整曲线的中间位置,以最大限度地减少函数输出与数据之间的误差。 将中心调整到右侧或左侧意味着杀死普通人需要或多或少的毒药。陡峭的坡度意味着确定性:在中途点之前,大多数人幸存下来;超过一半,「就只能说再见了」(死亡的意思)。缓坡更宽容:低于曲线中部,一半以上幸存;再往上,只有不到一半的人会幸存。 在一个结果和另一个结果之间设置一个阈值,比如 0.5,曲线就变成了一个分类器。只需在模型中输入剂量,您就会知道您应该计划聚会还是葬礼。
在 1960 年代后期,英国统计学家 David Cox 和荷兰统计学家 Henri Theil 独立工作,对具有两种以上可能结果的情况进行了逻辑回归。 进一步的工作产生了有序逻辑回归,其中结果是有序值。 为了处理稀疏或高维数据,逻辑回归可以利用与线性回归相同的正则化技术。
梯度下降:一切都在下坡
基本方法是向地形下降最陡的方向移动。诀窍是校准你的步幅。步幅太小,就需要很长时间才能取得进展;步幅太大,你就会跳入未知的领域,可能是上坡而不是下坡。 给定当前位置,算法通过计算损失函数的梯度来估计最快下降的方向。梯度指向上坡,那么该算法就是通过减去梯度的一小部分来以相反的方向前进。称为学习率的分数 α 决定了再次测量梯度之前的步长。 反复做这几个步骤,希望你能到达一个山谷。恭喜!
神经网络:寻找函数
一个神经元可接受各种输入(例如,代表像素或单词的数字,或前一层的输出),将它们与权重相乘,乘积相加,并得出由开发人员选择的非线性函数或激活函数的总和。期间要考虑到它是线性回归、加上一个激活函数。 训练修改权重。对于每个示例输入,网络会计算一个输出并将其与预期输出进行比较。反向传播可通过梯度下降来改变权重,以减少实际输出和预期输出间的差异。当有足够多(好的)例子重复这个过程足够多次,网络就能学会执行这个任务。
决策树:从根到叶
这棵树从一个可视为包含了所有案例的生物数据库的根节点出发——黑猩猩、大猩猩和红毛猩猩,以及卷尾猴、狒狒和狨猴。根会在两个子节点间提供选择,是否表现出某种特定特征,导致两个子节点包含具有和不具有该特征的示例。以此类推,这个过程中以任意数量的叶节点结束,每个叶节点都包含大部分或全部属于一个类别。 为了成长,树必须找到根决策。要做选择,则得考虑所有的特征及其价值——后附肢、桶状胸等——并选择能够最大限度提高分割纯度的那个特征。「最佳纯度」被定义为一个类别示例会 100% 进入一个特定的子节点、而不进入另一个节点。分叉很少在只做了一个决定之后就百分之百纯粹、且很可能永远也达不到。随着这个过程继续进行,产生一个又一个层次的子节点,直至纯度不会因为考虑更多的特征而增加多少。此时,这棵树树已经完全训练好了。 在推理时,一个新的示例从上到下经历过决策树,完成每个级别不同决策的评估。它会得到它所在叶节点所包含的数据标签。
K均值聚类:群体思维
在训练期间,算法最初通过随机选择 k 人来指定 k 个质心。(K 必须手动选择,找到一个最优值有时非常重要。)然后它通过将每个人与最近的质心相关联来增长 k 个集群。 对于每个集群,它计算分配到该组的所有人的平均位置,并将该平均位置指定为新的质心。每个新的质心可能都没有被一个人占据,但那又如何呢?人们倾向于聚集在巧克力和火锅周围。 计算出新的质心后,算法将个体重新分配到离他们最近的质心。然后它计算新的质心,调整集群,等等,直到质心(以及它们周围的组)不再移动。之后,将新成员分配到正确的集群就很容易。让他们在房间里就位并寻找最近的质心。 预先警告:鉴于最初的随机质心分配,你可能最终不会与你希望与之相处的以数据为中心的可爱 AI 专家在同一组中。该算法做得很好,但不能保证找到最佳解决方案。
K-medoids 使用实际数据点作为质心,而不是给定集群中的平均位置。中心点是可以将到集群中所有点的距离最小化的点。这种变化更容易解释,因为质心始终是数据点。 Fuzzy C-Means Clustering 使数据点能够不同程度地参与多个集群。它根据与质心的距离,用集群的度来代替硬簇分配。
加入知识星球【我们谈论数据科学】
500+小伙伴一起学习!
· 推荐阅读 ·
评论
如何计算数据中心的冷却需求?
今日分享 【导读】数据中心的冷却要求受多种因素影响,包括设备的热量输出、占地面积、设施设计和电气系统功率额定值等等……众所周知,环境因素会严重影响数据中心设备。过多的热量积聚会损坏服务器,可能导致其自动关闭。经常在高于可接受的温度下运行服务器会缩短其使用
数据中心运维管理
0
多人同时导出 Excel 干崩服务器!新来的阿里大佬给出的解决方案太优雅了!
点击关注公众号,Java 干货及时推送↓推荐阅读:面试辅导,我们出大成果了!来源:juejin.cn/post/7259249904777838629前言 业务诉求:考虑到数据库数据日渐增多,导出会有全量数据的导出,多人同时导出可以会对服务性能造成影响,导出涉及到mysql查询的io操作,
Java技术栈
1
什么样的冷却方法适合数据中心运营?
冷却数据中心的最简单方法是安装空气交换器,通过服务器室生成冷空气。但是,如果想要节省资金,至少从长远来看,更好的方法可能是在每个机架上安装空气交换器,并使用它们为单个机架的服务器降温。"后机架冷却",与数据中心中更为传统的空气冷却系统相比,特别是在能源效率方面,其具有一些优势。冷却数据中心的最简单
数据中心运维管理
0
Go 1.22 的新增功能系列之二:reflect.TypeFor
Go 1.22 的第一个候选版本已经发布,这意味着最终版本即将发布,现在是我在博客中介绍我在这个周期中所做工作的时候了。像往常一样,我的贡献很小,但它们是我的,所以我将从幕后的角度来谈谈它们。首先是reflect.TypeFor。这是整个函数:// TypeFor returns the [Type
GoCN
0
有意思!一个关于 Spring 历史的在线小游戏
发现 Spring One 的官网上有个好玩的彩蛋,分享给大家!进到Spring One的官网,可以看到右下角有个类似马里奥游戏中的金币图标。点击该金币之后,会打开一个新的页面,进入下面这样一个名为:The History Of Spring 的在线小游戏你可以使用上下左右的方向键来控制Spring
公众号程序猿DD
1
了解加密货币到加密货币的互换
1、什么是加密货币互换?加密货币到加密货币的互换是指以现行市场汇率将一种加密货币直接兑换为另一种加密货币。与需要法定货币存款和较长流程的传统交易所不同,加密货币到加密货币的互换可以无缝地促进交换。掉期在提高加密货币的流动性和效率方面发挥着重要作用。该功能使用户能够将他们的加密货币与钱包中的其他代币进
区块链头条
0
李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道
架构师大咖
架构师大咖,打造有价值的架构师交流平台。分享架构师干货、教程、课程、资讯。架构师大咖,每日推送。
公众号该公众号已被封禁0、李彦宏:开源大模型不如闭源,后者会持续领先当今
源码共读
0
Go早期是如何在Google内部发展起来的
2007年Go诞生于Google,2009年Google正式对外宣布了Go语言的开源!时至今日,距离Go开源已经过去了近15个年头了[1]!Go在Google公司内部究竟是怎样的一个状态呢?前Google员工Yves Junqueira近期撰文从其个人所见所闻谈了Go在Google的历程[2]!这里
GoCN
0