下面这篇揭示了矩阵的基本子空间理论可以很好地解释降维算法的原理。

从奇异值分解 SVD 看 PCA

实际上，子空间还可以拿来解释线性最小二乘法。我们用一个简单例子来直观地分析最小二乘问题及其解法。

1问题

假设我们要通过在弹簧上附加不同的重量并测量其长度来确定弹簧的弹性系数。

我们知道长度取决于力，具体来说，可以根据胡克定律的公式

e+\kappa F=l

其中，和是待确定的常数。

假设我们已经进行了实验并获得了以下数据，

\begin{array}{cccccc}<br /> \mathrm{F} & 1 & 2 & 3 & 4 & 5 \\<br /> \hline 1 & 7.97 & 10.2 & 14.2 & 16.0 & 21.2<br /> \end{array}

我们绘制了相应的散点图，显然这些点并不在一条直线上。这意味着我们不能精确地求得上面那两个待定常数。

由于测量中的误差不可避免，我们希望使用获得的所有数据以最大程度地减少误差的影响。因此引入了一个数据量超过未知数个数的线性方程组，即所谓的超定方程组，

\begin{array}{l}<br /> e+\kappa 1=7.97 \\<br /> e+\kappa 2=10.2 \\<br /> e+\kappa 3=14.2 \\<br /> e+\kappa 4=16.0 \\<br /> e+\kappa 5=21.2<br /> \end{array}

或以矩阵形式写为，

\left[\begin{array}{ll}<br /> 1 & 1 \\<br /> 1 & 2 \\<br /> 1 & 3 \\<br /> 1 & 4 \\<br /> 1 & 5<br /> \end{array}\right]\left[\begin{array}{l}<br /> e \\<br /> \kappa<br /> \end{array}\right]=\left[\begin{array}{l}<br /> 7.97 \\<br /> 10.2 \\<br /> 14.2 \\<br /> 16.0 \\<br /> 21.2<br /> \end{array}\right]

我们将使用最小二乘法确定弹簧的弹性常数的近似值。

令，线性方程组

\mathbf{A x}=\mathbf{b}

称为超定方程组：其方程式的个数多于未知数的个数。

2几何上直观来看

通常，上面这种方程组并没有解。例如，当和时，可以从几何上直观得看出这一点。

我们在空间中考虑两个向量和，上面的问题相当于要找到这两个向量的一个线性组合，使得

x_{1} \mathbf{a}_{1}+x_{2} \mathbf{a}_{2} = \mathbf{b}.

如下图所示，可以看到这样的问题通常并不能找到解。两个向量和张成一个平面，如果右侧的不在该平面中，则并不存在和的一个线性组合使得成立。

在这种情况下，求解线性方程组的一个明显替代方案是使如下向量，

\mathbf{r}=\mathbf{b}-x_{1} \mathbf{a}_{1}-x_{2} \mathbf{a}_{2}=\mathbf{b}-\mathbf{A x}

尽可能地小。

这里，称为残差向量。这个替代问题的解取决于我们如何测量残差向量的长度。

在最小二乘法中，我们使用标准的欧几里得范数。因此，我们想找到使如下式子最小化的向量，

\min _{\mathbf{x}}\|\mathbf{b}-\mathbf{A x}\|_{2}.

由于未知向量在上式中是以线性形式出现的，因此也称为线性最小二乘问题。

在该例子中，凭我们对空间中距离的了解可以知道，如果我们选择平面中使得残差向量正交于平面，则向量的末端与平面之间的距离将最小化。

由于矩阵的列张成整个平面，因此我们可以通过使正交于的列来求得解。对于一般情况，这种几何直觉也是有效的，即有

\mathbf{r}^{\top} \mathbf{a}_{j}=0, \; j=1,2, \ldots, n.

可以写成如下矩阵形式，

\mathbf{r}^{\top}\left[\begin{array}{llll}<br /> \mathbf{a}_{1} & \mathbf{a}_{2} & \cdots & \mathbf{a}_{n}<br /> \end{array}\right]=\mathbf{r}^{\top} \mathbf{A}=\mathbf{0}.

然后，代入得到法方程，

\mathbf{A}^{\top} \mathbf{A x}=\mathbf{A}^{\top} \mathbf{b}

求解上述方程组，可得解。

3法方程

定理

假设的列向量是线性独立的，则法方程

\mathbf{A}^{\top} \mathbf{A x}=\mathbf{A}^{\top} \mathbf{b}

有唯一解。

证明

我们首先证明是正定的。令为任意非零向量。然后，根据线性独立性的定义，可得。由于，于是

\mathbf{x}^{\top} \mathbf{A}^{\top} \mathbf{A x}=\mathbf{y}^{\top} \mathbf{y}=\sum_{i=1}^{n} y_{i}^{2}>0.

等价于是正定的。因此，是非奇异的，并且法方程具有唯一解，将其表示为。

然后，我们证明是最小二乘问题的解，即对于所有的都有，其中。

可以将写为，

\begin{array}{lll}<br /> \mathbf{r}&=\mathbf{b}-\mathbf{A} \widehat{\mathbf{x}}+\mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})\\[0.68em]&=\widehat{\mathbf{r}}+\mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})<br /> \end{array}

于是有，

\begin{array}{lll}<br /> \|\mathbf{r}\|_{2}^{2} &=\mathbf{r}^{\top} \mathbf{r}=(\widehat{\mathbf{r}}+\mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x}))^{\top}(\widehat{\mathbf{r}}+\mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})) \\[0.68em]<br /> &=\widehat{\mathbf{r}}^{\top} \widehat{\mathbf{r}}+\widehat{\mathbf{r}}^{\top} \mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})+(\widehat{\mathbf{x}}-\mathbf{x})^{\top} \mathbf{A}^{\top} \widehat{\mathbf{r}}\\[0.68em]<br /> &+(\widehat{\mathbf{x}}-\mathbf{x})^{\top} \mathbf{A}^{\top} \mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})<br /> \end{array}

由于，上式中间两项等于零，我们得

\begin{array}{lll}<br /> \|\mathbf{r}\|_{2}^{2}&=\widehat{\mathbf{r}}^{\top} \widehat{\mathbf{r}}+(\widehat{\mathbf{x}}-\mathbf{x})^{\top} \mathbf{A}^{\top} \mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})\\[0.68em]&=\|\widehat{\mathbf{r}}\|_{2}^{2}+\|\mathbf{A}(\widehat{\mathbf{x}}-\mathbf{x})\|_{2}^{2} \\[0.68em]&\geq\|\widehat{\mathbf{r}}\|_{2}^{2}<br /> \end{array}

证毕。

缺点

然而，用法方程解线性最小二乘问题有两个明显的缺点，

计算可能导致信息丢失。
的条件数是的条件数的平方，即

\kappa\left(\mathbf{A}^{\top} \mathbf{A}\right)=(\kappa(\mathbf{A}))^{2}

我们通过一个示例来说明第 1 点。

例子

给定，定义如下矩阵，

\mathbf{A}=\left[\begin{array}{ll}<br /> 1 & 1 \\<br /> \epsilon & 0 \\<br /> 0 & \epsilon<br /> \end{array}\right].

于是有，

\mathbf{A}^{\top} \mathbf{A}=\left[\begin{array}{cc}<br /> 1+\epsilon^{2} & 1 \\<br /> 1 & 1+\epsilon^{2}<br /> \end{array}\right].

假设很小，以至于的浮点表示满足，因此在浮点运算中，该法方程是奇异的。这相当于在中丢失了中存在的重要信息。

4使用 SVD 求解

最小二乘问题可以使用 SVD 来求解。假设我们有一个待定的线性方程组，其中矩阵为列满秩。

矩阵的 SVD 分解如下，

\mathbf{A}=\left[\mathbf{U}_{1} \;\mathbf{U}_{2}\right]\left[\begin{array}{c}<br /> \mathbf{\Sigma} \\<br /> \mathbf{0}<br /> \end{array}\right] \mathbf{V}^{\top}

其中。利用 SVD 和正交变换下范数不变的事实，得

\begin{array}{lll}<br /> \|\mathbf{r}\|^{2}&=\|\mathbf{b}-\mathbf{A x}\|^{2}\\[0.8em]&=\left\|\mathbf{b}-\mathbf{U}\left[\begin{array}{c}<br /> \mathbf{\Sigma} \\<br /> \mathbf{0}<br /> \end{array}\right] \mathbf{V}^{\top} \mathbf{x}\right\|^{2}\\[0.8em]&=\left\|\left[\begin{array}{l}<br /> \mathbf{b}_{1} \\<br /> \mathbf{b}_{2}<br /> \end{array}\right]-\left[\begin{array}{c}<br /> \mathbf{\Sigma} \\<br /> \mathbf{0}<br /> \end{array}\right] \mathbf{y}\right\|^{2}<br /> \end{array}

其中，以及。从而

\|\mathbf{r}\|^{2}=\left\|\mathbf{b}_{1}-\mathbf{\Sigma y}\right\|^{2}+\left\|\mathbf{b}_{2}\right\|^{2}.

现在，我们可以通过解来最小化，即最小二乘解由下式给出，

\mathbf{x}=\mathbf{V y}=\mathbf{V \Sigma}^{-1} \mathbf{b}_{1}=\mathbf{V \Sigma}^{-1} \mathbf{U}_{1}^{\top} \mathbf{b}.

由于是对角矩阵，即

\mathbf{\Sigma}^{-1}=\operatorname{diag}\left[\frac{1}{\sigma_{1}}, \frac{1}{\sigma_{2}}, \ldots, \frac{1}{\sigma_{n}}\right].

所以解也可以写成，

\mathbf{x}=\sum_{i=1}^{n} \frac{\mathbf{u}_{i}^{\top} \mathbf{b}}{\sigma_{i}} \mathbf{v}_{i}.

列满秩的假设意味着所有奇异值都不为零:。我们还看到，在这种情况下，解是唯一的。

下面将上述内容概括总结一下。

.基于 SVD 的最小二乘解

已知矩阵是列满秩的，并且它的精简版 SVD 分解为。

然后最小二乘问题，

\min _{\mathbf{x}}\|\mathbf{A x}-\mathbf{b}\|_{2},

有如下唯一解，

\mathbf{x}=\mathbf{V \Sigma}^{-1} \mathbf{U}_{1}^{\top} \mathbf{b}=\sum_{i=1}^{n} \frac{\mathbf{u}_{i}^{\top} \mathbf{b}}{\sigma_{i}} \mathbf{v}_{i}.

.SVD 求解过程的几何解释

我们再次来看这个超定线性方程组，

\mathbf{A x}=\mathbf{b}.

结合下面这篇里的子空间理论，

从奇异值分解看四个基本子空间

求解上面方程组相当于要从矩阵的列空间里找向量的系数。

但是，这里的问题就出在向量往往并不在矩阵的列空间里，所以只能退而求其次，在列空间里找到一个向量，使之与的残差向量的长度最小。

我们再来看一下解，

\mathbf{x}=\mathbf{V \Sigma}^{-1} \mathbf{U}_{1}^{\top} \mathbf{b}.

结合下图，我们把上式一步步来解读一下。

从右往左看，表示向量往列空间的正交坐标系里投影得到新的坐标。这个就是上图中平面内的黄色虚箭头表示的向量在坐标系里的坐标，

\widehat{\mathbf{\xi}} = \mathbf{U}_{1}^{\top} \mathbf{b}.

但这个坐标并不是我们要的解，因为最终要的解是相对矩阵的列来说的坐标。

现在来看黄色虚线向量，即

\widehat{\mathbf{u}} = \mathbf{U}_{1}\widehat{\mathbf{\xi}}.

我们要找的是使下式成立的，

\mathbf{A}\widehat{\mathbf{x}} = \widehat{\mathbf{u}} = \mathbf{U}_{1}\widehat{\mathbf{\xi}}.

把 SVD 分解代入上式，得

\mathbf{U}_{1} \mathbf{\Sigma V}^{\top}\widehat{\mathbf{x}} = \mathbf{U}_{1}\widehat{\mathbf{\xi}}.

两边左乘，

\mathbf{\Sigma V}^{\top}\widehat{\mathbf{x}} = \widehat{\mathbf{\xi}}.

由于矩阵是列满秩的，因此得唯一解，

\widehat{\mathbf{x}}= \mathbf{V \Sigma}^{-1}\widehat{\mathbf{\xi}}= \mathbf{V \Sigma}^{-1} \mathbf{U}_{1}^{\top} \mathbf{b}.

.用线性变换来解释

我们知道，矩阵表示的线性变换在基和基之间可以用矩阵表示。

现在，黄色虚向量在基下的坐标为，可以通过逆变换得到待求解在基下的坐标，对应的向量正是，即。

正向验证一下，坐标经矩阵变换后为，这正是黄色虚向量在基下的坐标。

.伪逆（广义逆矩阵）

我们再次看上面得到的解，

\mathbf{x}=\mathbf{V \Sigma}^{-1} \mathbf{U}_{1}^{\top} \mathbf{b}.

这里可以引出一个概念，那就是伪逆。

但是，要注意的是这里的矩阵不要求列满秩。

定义矩阵的一个奇异值分解为，则的伪逆为，

\mathbf{A}^{+}=\mathbf{V \Sigma}^{+} \mathbf{U}^{\top},

其中，

\mathbf{\Sigma}^{+}=\left[\begin{array}{cc}<br /> \mathbf{S}^{-1} & \mathbf{0} \\<br /> \mathbf{0} & \mathbf{0}<br /> \end{array}\right] \in \mathbb{R}^{n \times m}.

有了系数矩阵的伪逆，上面最小二乘问题的解是不是可以写得更简洁呢？

\mathbf{x} = \mathbf{A}^{+}\mathbf{b}

5收尾

本篇讲的是线性最小二乘问题，除了上面的解法还有很多其他方法，如求导、分解等。

另外，最小二乘有线性问题，自然也有非线性问题。那么所谓的非线性最小二乘问题会是怎么样呢？以及如何求解呢？这些问题后续展开。

.相关阅读

矩阵和线性代数原来是这么来的

矩阵特征值的故事 - 缘起琴弦

二次型和矩阵合同原来是这么一回事

矩阵特征值是这么来的，以及有趣的盖尔圆

万能的 SVD 分解是哪位牛人提出来的？

度量、范数和内积原来是这么个关系

线性映射: 从凯莱引入矩阵乘法说起

矩阵之芯 SVD: SVD 分解原来是这么来的

矩阵之芯 SVD: 奇异值分解及其几何解释

矩阵之芯 SVD: 基本应用以及与其他分解的关系

矩阵之芯 SVD: 从奇异值分解看四个基本子空间

矩阵之芯 SVD: 从奇异值分解 SVD 看 PCA

矩阵之芯 SVD: 从奇异值角度看矩阵范数

用 SVD 分解直观地看最小二乘法