机器学习与优化基础(Machine Learning and Optimization)
共 7209字,需浏览 15分钟
·
2021-05-20 17:57
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文转自|新机器视觉
因此,优化算法在机器学习中起着一个承上启下的作用!
一般机器学习中涉及的优化命题可以表示为:
比如:
-
最小二乘回归
-
岭回归
-
LASSO:
-
支持向量机
-
正则化逻辑斯蒂回归
优化算法基础
优化算法的阶次
-
目标函数本身(零阶) -
梯度信息(一阶) -
hessian信息(二阶)
优化算法的常见组成
梯度下降
梯度方向是函数增长速度最快的方向,那么梯度的反方向就是函数减小最快的方向。因此,如果想要计算函数的最小值,就可以用梯度下降的思想来做。假设目标函数的梯度为 ,当前点的位置为 ,则下一个点的选择与当前点的位置和它的梯度相关
近端映射(proximal operator)
函数 的近端映射可以定义为
拿个机器学习中常见的 范数给大家举个例子, (一范数就是各元素绝对值之和),对应的近端映射表示为
这个优化问题是可分解的!也就是对每一个维度求最小值
对 的正负进行分类讨论,然后利用一阶最优条件(求导令导数为零)可得
因此近端梯度算法也就是
对偶(dual)
-
对偶理论:对偶也就是孪生双胞胎,一个优化命题也就有其对应的兄弟优化命题。 -
拉格朗日函数:将原本优化命题的目标函数和约束整合成一个函数。 -
KKT条件:函数的最优值满足的性质。
随机化
无约束问题的典型算法
梯度下降法
共轭梯度法
方向的构造方法为:
其中当初始化的时候相当于梯度下降法(因为初始时刻只有梯度方向)。这里未知项是这个系数 ,它的计算公式为
有了搜索方向,那么每次次迭代为
拟牛顿法
Proximal gradient(近端梯度)
约束问题的经典算法
投影梯度下降法(Projected gradient descent)
第一阶段先进行梯度下降
第二阶段进行投影
罚函数法
Frank-Wolfe算法
交替方向法ADMM
用交替方法(只优化一个变量,固定其他变量)的方式进行优化,即
坐标下降法
当优化问题遇到大数据
加速优化与展望
对于大规模优化的一些研究可以从以下几个角度展开:随机优化、分布式优化、异步优化、基于学习的优化等等。
参考书籍推荐
[1] Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Springer Science & Business Media, 2013.
[2] Optimization for machine learning[M]. Mit Press, 2012.
[3] Nocedal J, Wright S. Numerical optimization[M]. Springer Science & Business Media, 2006.
[4] Zhouchen Lin. Accelerated Optimization for Machine Learning[M]. Springer, 2020.
End
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~