为什么多元向量函数的导数是个矩阵

机器学习与数学

共 1801字,需浏览 4分钟

 ·

2021-01-05 16:18

那是因为要求函数可微,而这个要求其实挺高的。

1函数可微性

微积分的基本理念是利用仿射函数对函数进行近似。如果存在线性函数 和向量 ,使得对于任意 ,都有

那么称函数 是一个仿射函数。

给定函数 和点 ,希望找到一个仿射函数 ,使其在点 附近能够近似函数 。首先,显然仿射函数应该满足

,可得

于是

最后一个等式是由于 是线性函数。因此,仿射函数可写为

对于给定的函数 ,在点 处是可微的是指存在一个仿射函数能够在点 附近近似函数 。具体来说,这个近似是指存在线性函数 ,使得

上式中的线性函数 可由 唯一确定, 称为 在点 的导数。

.几何解释

考虑一个 的函数,如

在点 处的切平面是该点处各个方向上所有函数曲面与过该点并与 xy-平面垂直的平面之间的交线的切线构成的平面。

如果点 处存在这样一个平面,那么我们说 在点 处是可微的。如果函数 在定义域 上处处可微,那么称 上是可微的。

不妨想象一下在一个光滑的山坡上滑雪时的情形。滑雪板的中心始终与山坡(函数曲面)相切,而你与滑雪板垂直。打个比方,可微就相当于山坡能让你顺畅地滑雪下山,而且能够选不同方向;而如果不可微,可能会让你磕磕绊绊、举步维艰。

再回头看一下一元函数的情况,

对照两个图,是否感觉到: 一元函数的导数推广到多元向量值函数上就应该是一个导数矩阵。但其实背后对应的是可微这个概念,也正是从可微性导出了雅可比矩阵。

2导数矩阵

那么上文中的线性函数 到底长什么样呢?

我们知道,从 的线性变换,都可以表示为一个 矩阵。为了确定可微函数 的导数 所对应的矩阵表示 ,引入 空间的标准基 。考虑向量

根据导数的定义,有

这意味着,对于 ,有

 是矩阵 的第 向量 仅仅在第 个元素上存在差异,该元素上的差值为 。因此,上式的左边等于偏导数

可以通过向量中每个元素求极限的方式来计算向量极限。因此,如果记向量值函数

那么有

矩阵 可写为

矩阵 称为 在点 雅可比矩阵导数矩阵,记为 有了导数矩阵,上面所说的仿射近似就可以写为,

.梯度

如果 是可微的,那么函数

称为 的梯度。梯度是从一个从 的函数。

.Hessian 矩阵

给定函数 ,如果梯度 可微,则称 是二次可微的, 的导数记为

其中, 表示 首先对 求导,再对 求导的偏导数。矩阵 称为 在点 的 Hessian 矩阵。

.思考

用上面这些概念可以得出多元函数的二阶近似,

那如果是一个多元向量值函数呢,近似形式会是什么样子呢?

3微分法则

利用函数 和函数 可构成复合函数 ,对其进行微分可以使用链式法则。

.链式法则

如果 在开集 上是可微的,且 上可微。那么它们的复合函数 上是可微的,且导数为

.乘积法则

表示两个可微函数,另有函数  可定义为 ,那么 也是可微的,且

.例子

给定矩阵 ,计算

我们令 ,使用上面乘积法则可得,

如果 是对称矩阵,那么可推知

特别的,当 时,有

4应用举例

已知 矩阵 以及 ,考虑如下最小二乘问题,

即要你求解使 最小的

将目标函数改写为,

我们知道, 为该函数的极小值点的必要条件是 。由式 可知该导数为,

上式为 可得,

两边转置得,

这正是法方程(normal equation),至于它有没有唯一解,那就要看矩阵 了。

⟳参考资料⟲

[1]

Tangent plane: http://www.math.ubc.ca/~cwsei/math200/graphics/tangentplane.html

[2]

An Introduction to Optimization, Edwin K. P. Chong and Stanislaw H. Żak.: https://www.engr.colostate.edu/~echong/book4/



.相关阅读

拉格朗日乘子法的来历与直观解释

雅可比矩阵几何意义的直观解释及应用

最优化理论发展简史

凸优化入门 - 基本概念与 Jensen 不等式



浏览 162
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报