首先，我们回顾一下矩阵奇异值分解的基本性质。

令具有奇异值分解。则该分解具有下列性质，

1、如果，即矩阵的秩为，那么的非零奇异值的数量等于。
2、将两个正交矩阵分别看成按左、右奇异向量按列排列，即

\mathbf{U}=\left[\begin{array}{ccc}\mid & & \mid \\ \mathbf{u}_{1} & \cdots & \mathbf{u}_{m} \\ \mid & & \mid\end{array}\right],

以及

\mathbf{V}=\left[\begin{array}{ccc}\mid & & \mid \\ \mathbf{v}_{1} & \cdots & \mathbf{v}_{n} \\ \mid & & \mid\end{array}\right].

则有如下外积展开式，

\mathbf{A}=\sum_{i=1}^{r} \sigma_{i} \mathbf{u}_{i} \mathbf{v}_{i}^{\top}.

开头的图片是针对更一般的张量分解的图示，自然也包括了矩阵分解，不过只需要两根杆子。

1矩阵范数

度量、范数和内积原来是这么个关系

在上面这篇里，我们介绍了向量的范数，那么矩阵的范数又是怎么样的呢？

.定义

考虑实数域上的矩阵，范数是满足以下性质的从实矩阵到的一个函数，

，以及
对于任意数，有
对于可相乘矩阵，有

.矩阵 F-范数

矩阵的 Frobenius 范数定义为，

\begin{array}{lll} \|\mathbf{A}\|_{F}^{2}&=\sum_{i, j}\left|a_{i j}\right|^{2}\\[0.618em]&=\sum_{i}\left\|\mathbf{A}_{i \star}\right\|_{2}^{2}\\[0.618em]&=\sum_{j}\left\|\mathbf{A}_{\star j}\right\|_{2}^{2}\\[0.618em]&=\operatorname{tr}\left(\mathbf{A}^{\top} \mathbf{A}\right) \end{array}

我们知道，矩阵具有专门的乘法，从而将它与一般的向量空间区分开。但是向量范数的三个性质与向量乘积并没有关系。

因此，对于矩阵来说，貌似需要一个额外的性质，能够将与和相关联起来。

而 F-范数刚好具有此额外性质，即

\begin{array}{lll} \|\mathbf{A} \mathbf{x}\|_{2}^{2}\!\!\!&=\sum_{i}\left|\mathbf{A}_{i \star} \mathbf{x}\right|^{2} \leq \sum_{i}\left\|\mathbf{A}_{i \star}\right\|_{2}^{2}\|\mathbf{x}\|_{2}^{2}\\[0.618em]&=\|\mathbf{A}\|_{F}^{2}\|\mathbf{x}\|_{2}^{2}. \end{array}

因此有，

\|\mathbf{A} \mathbf{x}\|_{2} \leq\|\mathbf{A}\|_{F}\|\mathbf{x}\|_{2} \qquad (\star)

可以说 Frobenius 矩阵范数和欧氏向量范数之间是相容的来表达这一点。

相容性条件表示对于所有可相乘的矩阵和，有

\begin{array}{lll} \|\mathbf{A} \mathbf{B}\|_{F}^{2} \!\!\!&=\sum_{j}\left\|[\mathbf{A} \mathbf{B}]_{\star j}\right\|_{2}^{2}\\[0.618em]&=\sum_{j}\left\|\mathbf{A} \mathbf{B}_{\star j}\right\|_{2}^{2} \leq \sum_{j}\|\mathbf{A}\|_{F}^{2}\left\|\mathbf{B}_{\star j}\right\|_{2}^{2} \\[0.618em] &=\|\mathbf{A}\|_{F}^{2} \sum_{j}\left\|\mathbf{B}_{\star j}\right\|_{2}^{2}\\[0.618em]&=\|\mathbf{A}\|_{F}^{2}\|\mathbf{B}\|_{F}^{2}, \end{array}

简写为，

\|\mathbf{A} \mathbf{B}\|_{F} \leq\|\mathbf{A}\|_{F}\|\mathbf{B}\|_{F}.

因此可将乘积性质添加到三条属性中以定义一般的矩阵范数。

除了 Frobenius 范数满足前面矩阵范数的定义外，但是其他有用的矩阵范数又是从何而来呢？

实际上，如下所述，每个合法的向量范数都会生成（或诱导出）一个矩阵范数。

.诱导矩阵范数

在上为定义的向量范数可诱导一个上的矩阵范数。对于一个矩阵，以及向量，有

\|\mathbf{A}\|=\max _{\|\mathbf{x}\|=1}\|\mathbf{A} \mathbf{x}\| \qquad (a)

连续函数在有界闭区域上必有最小、最大值。

很明显，在某种意义上，诱导矩阵范数与其基础向量范数相容，即

\|\mathbf{A x}\| \leq\|\mathbf{A}\|\|\mathbf{x}\| \qquad (b)

当非奇异时，

\min _{\|\mathbf{x}\|=1}\|\mathbf{A} \mathbf{x}\|=\frac{1}{\left\|\mathbf{A}^{-1}\right\|} \qquad (c)

证明

容易验证满足前三个条件。而则意味着。

换句话说，诱导范数表示可以将单位球面上的向量拉伸的最大程度，而表示非奇异矩阵可以将单位球面上的向量收缩的最大程度。

下图描述了在中的诱导矩阵 2-范数的情况。

2奇异值与矩阵范数

下面，我们从奇异值角度审视一下矩阵的几个常用范数。

我们再次来看一下矩阵的秩 1 展开式，

\begin{array}{lll} \mathbf{A}\!\!\!&=\mathbf{U\Sigma V}^{\top}\\[0.618em]&=\color{red}{\sigma_{1}} \color{#001155}{\mathbf{u}_{1} \mathbf{v}_{1}^{\top}}+\color{red}{\sigma_{2}} \color{#001155}{\mathbf{u}_{2} \mathbf{v}_{2}^{\top}}+\cdots+\color{red}{\sigma_{r}} \color{#001155}{\mathbf{u}_{r} \mathbf{v}_{r}^{\top}}. \end{array}

注意看，上面将矩阵分解成了个秩 1 矩阵之和。这些矩阵都是两个单位向量的外积形式，本身元素的大小都有限，每个矩阵对的贡献主要得看前面的系数，即奇异值。

由上面诱导矩阵范数的定义可知，范数在一定意义上是考量一个矩阵对单位向量的缩放能力。我们将展开式代入矩阵向量乘积，

\begin{array}{lll} \mathbf{A}\color{green}{\mathbf{x}}\!\!\!&=\mathbf{U\Sigma V}^{\top}\color{green}{\mathbf{x}}\\[0.618em]&=\color{red}{\sigma_{1}} \color{#001155}{\mathbf{u}_{1} \mathbf{v}_{1}^{\top}}\color{green}{\mathbf{x}}+\color{red}{\sigma_{2}} \color{#001155}{\mathbf{u}_{2} \mathbf{v}_{2}^{\top}}\color{green}{\mathbf{x}}+\cdots+\color{red}{\sigma_{r}} \color{#001155}{\mathbf{u}_{r} \mathbf{v}_{r}^{\top}}\color{green}{\mathbf{x}}\\[0.618em]&=\color{red}{(\sigma_{1}\mathbf{v}_{1}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{1}}+\color{red}{(\sigma_{2}\mathbf{v}_{2}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{2}}+\cdots+\color{red}{(\sigma_{r}\mathbf{v}_{r}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{r}}. \end{array}

矩阵对单位向量的变换可以按奇异值和相应的奇异向量分解开，而缩放能力主要反映在奇异值上。

那么，我们能不能直接从奇异值来考量或定义矩阵范数呢？

.Schatten p-范数

由矩阵的奇异值构成的向量

\left[\sigma_1, \sigma_2, \ldots, \sigma_r \right]

定义如下范数，

\|\mathbf{A}\|_{p}=\left(\sum_{i=1}^{r} \sigma_{i}^{p}\right)^{\frac{1}{p}}.

巧的是，这样用向量范数直接从奇异值定义的矩阵范数与常规方式定义的矩阵范数之间真的有等价关系。不信请看:

1、矩阵的 Schatten -范数等于矩阵的 F 范数，即

\|\mathbf{A}\|_{\rm {F}}^2= \sum _{i=1}^{m}\sum _{j=1}^{n}|a_{ij}|^{2}=\operatorname {tr} (\mathbf{A}^{\top}\mathbf{A})=\sum _{i=1}^{r}\sigma _{i}^{2}.

其中，

\begin{array}{lll} \operatorname {tr} (\mathbf{A}^{\top}\mathbf{A})&=\operatorname {tr} (\mathbf{V\Sigma U}^{\top}\mathbf{U\Sigma V}^{\top})\\[0.618em]&=\operatorname {tr} (\mathbf{V}^{\top}\mathbf{\Sigma}^2\mathbf{V})\\[0.618em]&=\sum _{i=1}^{r}\sigma _{i}^{2}. \end{array}

2、矩阵的 Schatten -范数等于矩阵的 -范数，即

\begin{array}{ccc} \mathbf{A}=\mathbf{U \Sigma V}^{\top} \Rightarrow \mathbf{A}^{\top} \mathbf{A}=\mathbf{V \Sigma}^{2} \mathbf{V}^{\top}\\[0.618em] \Downarrow\\[0.618em] \begin{array}{ccc} \rho\left(\mathbf{A}^{\top} \mathbf{A}\right)=\rho\left(\mathbf{V \Sigma}^{2} \mathbf{V}^{\top}\right)=\max _{i}\left|\sigma_{i}\right|^{2} \\[0.618em] \Downarrow\\[0.618em] \|\mathbf{A}\|_{2}=\max _{\|\mathbf{x}\|_{2}=1}\|\mathbf{A} \mathbf{x}\|_{2}=\sqrt{\rho\left(\mathbf{A}^{\top} \mathbf{A}\right)} \end{array} \end{array}

3、矩阵的 Schatten -范数

定义如下，

\|\mathbf{A}\|_{*}=\operatorname{tr}\left(\sqrt{\mathbf{A}^{\top} \mathbf{A}}\right)=\sum_{i=1}^{r} \sigma_{i}

也称为矩阵的迹范数（trace norm 或 nuclear norm）。这个范数貌似没有对应普通的诱导范数，但在实际应用中却很受青睐。

下面我们来对上面的定义简单地解读一番。

由可得，。

令，则有

\mathbf{BB} = \mathbf{V \Sigma V}^{\top} \mathbf{V \Sigma V}^{\top} = \mathbf{V {\Sigma}^{2}V}^{\top} = \mathbf{A}^{\top} \mathbf{A}

因此，

\text{tr}(\mathbf{B}) = \text{tr}(\mathbf{V \Sigma V}^{\top}) = \text{tr}(\mathbf{\Sigma})=\sum_{i=1}^{r} \sigma_{i}.

.程序小实验

import numpy as np
from scipy.linalg import sqrtm

A = np.array([[1,2,3],[1,1,1],[0,1,-1]])
A

array([[ 1,  2,  3],
       [ 1,  1,  1],
       [ 0,  1, -1]])

U, S, V = np.linalg.svd(A)

AtA = A.T@A
AtA

array([[ 2,  3,  4],
       [ 3,  6,  6],
       [ 4,  6, 11]])

m = np.diag(S)@V
m

array([[-1.31467133, -2.16665828, -3.20525993],
       [ 0.19957118,  1.13213211, -0.84714312],
       [ 0.48146718, -0.15449536, -0.0930447 ]])

root_VSVT = V.T@np.diag(S)@V
root_VSVT

array([[0.90174674, 0.71064345, 0.82573525],
       [0.71064345, 2.09285003, 1.05591886],
       [0.82573525, 1.05591886, 3.03367709]])

S.sum()

6.028273858670582

root = sqrtm(AtA)
root

array([[0.90174674, 0.71064345, 0.82573525],
       [0.71064345, 2.09285003, 1.05591886],
       [0.82573525, 1.05591886, 3.03367709]])

root@root

array([[ 2.,  3.,  4.],
       [ 3.,  6.,  6.],
       [ 4.,  6., 11.]])

np.trace(root)

6.028273858670583

3小结

将分解，

\begin{array}{lll} \mathbf{A}\color{green}{\mathbf{x}}\!\!\!&=\mathbf{U\Sigma V}^{\top}\color{green}{\mathbf{x}}\\[0.618em]&=\color{red}{\sigma_{1}} \color{#001155}{\mathbf{u}_{1} \mathbf{v}_{1}^{\top}}\color{green}{\mathbf{x}}+\color{red}{\sigma_{2}} \color{#001155}{\mathbf{u}_{2} \mathbf{v}_{2}^{\top}}\color{green}{\mathbf{x}}+\cdots+\color{red}{\sigma_{r}} \color{#001155}{\mathbf{u}_{r} \mathbf{v}_{r}^{\top}}\color{green}{\mathbf{x}}\\[0.618em]&=\color{red}{(\sigma_{1}\mathbf{v}_{1}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{1}}+\color{red}{(\sigma_{2}\mathbf{v}_{2}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{2}}+\cdots+\color{red}{(\sigma_{r}\mathbf{v}_{r}^{\top}\mathbf{x})} \color{#001155}{\mathbf{u}_{r}}. \end{array}

矩阵对单位向量的变换可以按奇异值和相应的奇异向量分解开，而缩放能力主要反映在奇异值上。

因此，我们可以从奇异值的大小（甚至数量）来定义矩阵范数。可见，奇异值的确很厉害吧。

相关阅读

矩阵和线性代数原来是这么来的

矩阵特征值的故事 - 缘起琴弦

二次型和矩阵合同原来是这么一回事

矩阵特征值是这么来的，以及有趣的盖尔圆

万能的 SVD 分解是哪位牛人提出来的？

度量、范数和内积原来是这么个关系

线性映射: 从凯莱引入矩阵乘法说起

矩阵之芯 SVD: 奇异值分解及其几何解释

矩阵之芯 SVD: 基本应用以及与其他分解的关系

矩阵之芯 SVD: 从奇异值分解看四个基本子空间

矩阵之芯 SVD: 从奇异值分解 SVD 看 PCA

矩阵之芯 SVD - 从奇异值角度看矩阵范数