矩阵特征值是这么来的,以及有趣的盖尔圆

机器学习与数学

共 2788字,需浏览 6分钟

 ·

2020-10-25 20:58

正如前面的篇章所言,由求解线性代数方程组引发了一系列有关行列式与矩阵的研究。

然而,矩阵与矩阵代数的理论与其他方面的一些研究也有关系,比如线性微分方程组、二次型等主题。

本篇将探讨的矩阵特征值与特征向量就是从这两个主题引发的,对历史考古感兴趣的可以看下面这一篇。

矩阵特征值的故事 - 缘起琴弦

线性微分方程组

考虑求解两个一阶线性微分方程组的问题,

可以用矩阵表示为,

或者简写为,

其中 ,以及

由于单个方程 的解的形式为 ,因此我们不妨也来设想一下式 具有类似下面这种形式的解,

微分这两个表达式并将结果代入式 得,

注意每个方程左右两边的相同项

消去后得,

写成矩阵的形式,得

总结一下以上过程,

换句话说,只要可以找到矩阵方程 的解,即 的话,就可以为式 构造具有式 这种形式的解。

显然, 满足 ,但是 没有提供有关式 的有用解。

所示,真正重要的是求出非零向量的解。

但是,当且仅当矩阵 奇异时, 才包含非零向量。

因此,感兴趣的值恰好是使矩阵 成为奇异矩阵的那些 的值,或者等效地使 的那些

正是这些观察引发了特征值和特征向量的定义。

久期方程

物理中经常会导出关于 个变量 的一个二次型的极值问题,如

要求服从如下约束,

其中 是常量。例如,我们取

此时约束为

作为拉格朗日的高徒,柯西自然会熟练使用拉格朗日乘子法,通过引入辅助函数

并求解方程组来获得极值。为了便于说明,我们取 ,有

这里,二次型可以表示系统的能量,而 用于表示状态。该问题对应求解在一定约束下什么状态让系统能量最低。

求关于 的偏导数,并将它们设置为零,然后得到一个联立方程组,

柯西当时还没有矩阵的概念,就用上面线性方程组的形式来表示自然也没问题。而我们现在一看上面的方程组就能立马想到如下形式,

由于对解有约束条件,即 是一个单位向量,因此得求出上面方程组的非零解,从而系数矩阵的行列式为零,即

跟前面解线性微分方程组的问题一起看,是不是有种殊途同归的感觉?但是此处的问题相对特殊一点,涉及的实矩阵是一个对称矩阵,因此特征值必为实数。

而且,在处理这个问题时,柯西将线性方程组、行列式、特征值与特征向量以及拉格朗日乘子法完美地联系在一起了。

另外,除了求二次型的极值问题,其实二次型的标准化也涉及到特征值,请看 1852 年发表的有关柯西特征值问题的西尔维斯特(Sylvester)版本。

特征值和特征向量

对于 矩阵 ,满足 的标量 和向量 分别称为 的特征值和特征向量,而任何这样的对 都称为 的特征对。

表示一组不同的特征值,称为 的谱(Spectrum)

  • 奇异 
            
  • 是与 相关联的所有特征向量的集合。我们把矩阵 的零空间 称为 的一个特征空间。

  • 使得 成立的非零行向量 ,称为 的左特征向量。

从几何学上来说, 表示: 特征向量在由 进行变换下仅发生长度或符号的变化 - 而 中的方向与 保持相同。特征值 只是特征向量 在由 转换时所发生的拉伸收缩量。下图描述了 中的情况。

谱半径

对于方阵

称为 的谱半径。对于很多应用来说,往往仅需要知道 的特征值的一个范围。也就是说,可能并不需要精确了解每个特征值,而通常只需要 的一个上限。因为每个矩阵范数都有 ,所以可以简单地得出 的一个粗略上限。

这是正确的,因为如果 是任何特征对,则由

以及 可知,

所以

这个结果在谱半径和范数之间建立了一个比较简单的关系,而更强关系则需要更多知识。

上式给出的特征值边界计算起来很方便,如可以使用 范数 或 范数来快速估计。但是一分钱一分货,这样做虽然方便,但是往往会得到一个较大的圆,其半径通常比谱半径 要大得多。

通过使用如下所述的一组盖尔(Gerschgorin)圆,可以做得更好。

盖尔圆

  • 1、 的特征值包含在由如下定义的 个盖尔圆的并集 中,

换句话说,特征值落入以 为中心的圆的集合中,其半径由第 行元素 在删除元素 后的绝对值之和给出。

  • 2、如果 个盖尔圆的并集 与任何其他 个圆没有联通,则 的圆中确实存在 个特征值(计数多重性)

  • 3、由于 ,可以用删除对角线元素的列元素绝对值之和来代替删除对角线元素的行元素绝对值之和,因此 的特征值也包含在由如下定义的盖尔圆的并集 中。

  • 4、组合 1 和 3,说明 的特征值包含在交集 中。

证明:

的特征对,并假设 已被规范化,以便 。假设 的元素并且 ,那么有

因此有,

因此, 至少落入一个盖尔圆之中,而所有此类圆的并集包含了

看例子

估计如下矩阵的特征值,

  • 粗略的估计可以使用 -范数,对于所有 都有

  • 从行总和可以得到下图中的盖尔圆。前文中的性质保证一个特征值位于以 为中心的圆中,而其余两个特征值位于以 +5 为中心的较大圆中。

〄 从行总和得到的一系列盖尔圆。
  • 而结合行和与列和可以得到 ,从而得出最佳估计。
〄 从 得到更紧凑的盖尔圆。

换句话说,一个特征值位于以 为中心的圆中,而其他两个特征值位于上图中其他两个圆的并集中。

我们可以通过计算来证实这一点,

对角占优矩阵

矩阵 如果满足下式,则被称为对角占优(或者严格对角线占优)

从上面盖尔圆定理可以看出,对角占优矩阵没有零特征值。由行列式与特征值的关系可知, 当且仅当矩阵 非奇异。因此,对角占优矩阵为非奇异矩阵。

进一步可得,如果矩阵严格对角占优,

  • 如果其所有对角元素均为正,则其特征值的实部为正;
  • 如果其所有对角元素均为负,则其特征值的实部为负。

盖尔圆在线绘制

有兴趣的话可以在这个页面 https://bwlewis.github.io/cassini/ 里在线体验一下盖尔圆。

小结

好了,最后稍微小结一下行列式与目前了解的几个概念之间的关系来结束本文。

到目前来看,行列式还是有些用处的,如下图中所示,行列式可以把几个知识点串起来。当然咯,主要也是针对低次情况。

相关阅读

矩阵和线性代数原来是这么来的

概率论原来可以这样优雅地入门

机器学习的数学基础 之 向量范数

机器学习的数学基础 之 矩阵范数

矩阵前传 - 消元法与行列式之独立演义

矩阵前传 - 牛顿没带红的货被高斯带红了

矩阵前传 - 克莱姆没能证明的法则被他两行搞定
矩阵前传 - 矩阵之父 Sylvester 为什么提出 Matrix
矩阵前传 - 柯西-比内公式及其用初等矩阵的证明
二次型和矩阵合同原来是这么一回事

拉格朗日乘子法的来历与直观解释



浏览 210
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报