二次型和矩阵合同原来是这么一回事-技术圈

在数学中，二次型（Quadratic Form）是指关于变元的二次齐次多项式。例如，

4 x^{2}+2 x y-3 y^{2}

是关于变元和的一个二次型。

二次型在一元、两元和三元的情况下，被称为 unary，binary 和 ternary，可以写为以下形式，

q(x)=a x^{2} \quad(\text { unary })

q(x, y)=a x^{2}+b x y+c y^{2} \quad(\text { binary })

q(x, y, z)=a x^{2}+b x y+c y^{2}+d y z+e z^{2}+f x z \quad(\text { ternary })

其中是系数。

二次型在许多数学分支，包括数论、线性代数、群论(正交群)、微分几何、微分拓扑和李代数中，占有重要地位。

二次型可以用于表示某些二次曲线。例如，可以表示下图中旋转的椭圆，

其在坐标系中的方程对应如下关于二次型的等值式，

13 x^{2}+10 x y+13 y^{2}=72.

这个例子说明，正确选择坐标系或者基底，通常可以简化方程或者待处理的特定问题。

将坐标系逆时针旋转度，进入坐标系。此时，乘积项没有了，椭圆方程简化为，

\frac{u^{2}}{9}+\frac{v^{2}}{4}=1.

这个方程中两个变元之间独立了，形式干净漂亮。那么给定一个二次型，我们如何得到它的标准型呢？这就是本文要讨论的内容，在正式开始之前，我们先来回顾一下有关二次型的研究背景和简史。

0历史简介

对特定二次型的研究，特别是关于给定整数是否可以是整数上二次形式的值的问题，可以追溯到多个世纪以前。一个这样的例子是关于两个数平方和的问题，即确定何时可以用这样的形式表示整数，其中，是整数。这个问题与古老的毕达哥拉斯三元组问题有关。

公元 628 年，印度数学家 Brahmagupta 撰写的著作中包括对这类方程的研究。特别地，他考虑了现在称为 Pell 方程的问题，并找到了一种求解方法。在欧洲，布龙克尔（Brouncker），欧拉（Euler）和拉格朗日（Lagrange）研究了这个问题。

而对二次型进行系统性研究可以说是从 18 世纪开始的，它起源于对二次曲线和二次曲面的分类问题的讨论，将二次曲线和二次曲面的方程变形，选有主轴方向的轴作为坐标轴以简化方程的形状，这个问题是在 18 世纪引入的。

柯西在前人基础上得出结论: 当方程是标准型时，二次曲面用二次型的符号来进行分类。然而，那时并不清楚，在化简成标准型时，为何总是得到同样数目的正项和负项。西尔维斯特（就是那个首先使用 Matrix 这词的数学家）回答了这个问题，他给出了个变元的二次型的惯性定律，但并没有证明。这个定律后来被雅可比（Jacobi）重新发现和证明。1801 年，高斯在《算术研究》中引进了二次型的正定、负定、半正定和半负定等术语。

另外，在矩阵论的发展史上，德国数学家弗罗贝尼乌斯（Frobenius）取得了很大贡献。1878 年，弗罗贝尼乌斯提出了正交矩阵的正式定义，并讨论了正交矩阵与合同矩阵的一些重要性质。1879 年，他结合行列式引入矩阵秩的概念。弗罗贝尼乌斯还整理和扩展了魏尔斯特拉斯关于不变因子和初等因子的理论工作。

1二次型的定义

矩阵出现之前

所谓二次型，就是系数在一定数域上的齐次多项式，并且是二次多项式。在矩阵的概念提出之前，可以用下面的形式来定义。

设是一数域，一个系数在数域中的的二次齐次多项式

\begin{array}{l} f\left(x_{1}, x_{2}, \cdots, x_{n}\right)=a_{11} x_{1}^{2}+ a_{12} x_{1} x_{2}+\cdots+ a_{1 n} x_{1} x_{n}\\+a_{21} x_{2}x_{1}+a_{22} x_{2}^{2}+\cdots+ a_{2 n} x_{2} x_{n}+ \\ \quad \cdots \\ + \; a_{n n} x_{n}^{2} \end{array}

称为数域上的一个元二次型，或者，在不致引起混淆时简称为二次型。

例如，

\begin{array}{l} x_{1}^{2}+x_{1} x_{2}+6 x_{1} x_{3}+2 x_{2}^{2}+4 x_{2} x_{3}+8 x_{3}^{2} \end{array}

就是有理数域上的一个三元二次型。

用矩阵的形式定义

对于向量和矩阵，定义为

f(\mathbf{x})=\mathbf{x}^{\top} \mathbf{A} \mathbf{x}=\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{i} x_{j}

的标量函数被称为二次形式。当是正定矩阵时，二次型被称为正定的。换句话说，当且仅当对所有都有成立时，上式是正定二次型。

注意二次型的公式里有个转置，这个可以说非常好，它正是后面引出矩阵合同这个概念的缘由。

此时，我们再看上面的那个三元二次多项式，

\begin{array}{l} x_{1}^{2}+2 x_{1} x_{2}+6 x_{1} x_{3}+2 x_{2}^{2}+4 x_{2} x_{3}+8 x_{3}^{2} \end{array}

可以将上面二次型用矩阵表示，

\begin{bmatrix} x_1 & x_2 & x_3 \end{bmatrix} \begin{bmatrix} 1 & 1 & 3\\ 1 & 2 & 2\\ 3 & 2 & 8 \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ x_3 \end{bmatrix}

然而，由于和这两项前面的系数并不确定，反应到矩阵上就是它们对应的矩阵元素和并不能唯一确定下来。换句话说，可以用不同的矩阵来表示这个二次型。但是如果要求这个矩阵是对称的，那么它就是唯一的。

假设给定矩阵，由于

\mathbf{x}^{\top} \mathbf{A} \mathbf{x}=\mathbf{x}^{\top}\displaystyle \frac{\left(\mathbf{A}+\mathbf{A}^{\top}\right)}{2} \mathbf{x}

而是对称的，所以二次型对应的矩阵始终可以用对称矩阵表示。因此，可以假设每个二次型的矩阵都是对称的。而当以及是 Hermitian 时，表达式被称为复二次型。

二次型的对角化

当是对角矩阵时，称二次型为对角型。

\mathbf{x}^{\top} \mathbf{D} \mathbf{x}=\sum_{i=1}^{n} d_{i i} x_{i}^{2}.

每个二次型都可以通过变量代换来对角化。

这是因为是对称的，因此存在一个正交矩阵，其中

\mathbf{Q}^{\top} \mathbf{A} \mathbf{Q}=\mathbf{D}=\operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right),

以及，（或），得到

\mathbf{x}^{\top} \mathbf{A} \mathbf{x}=\mathbf{y}^{\top} \mathbf{Q}^{\top} \mathbf{A} \mathbf{Q} \mathbf{y}=\mathbf{y}^{\top} \mathbf{D} \mathbf{y}=\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}

这表明二次型的性质由对称矩阵的特征值确定，而我们知道实对称矩阵的特征值均为实数（柯西在 1829 年已经发现）。以这种方式对角化一个二次型的效果相当于旋转标准坐标系，以便在新坐标系中的图形呈标准型。如果是正定的，则其所有特征值都是正的，因此有常数使得的像是一个以原点为中心的椭球面。

例如，上图就对应了如下二次型，

7 x^{2}+4 x y+6 y^{2}+4 y z+5 z^{2} = 1

需要注意的是，二次型的对角化并不一定要通过矩阵的特征分解来实现，这里不需要正交，只需要非奇异，因此也可以通过其他分解来实现。

实际上，不必通过求解特征值问题来对角化二次型，因为可以使用基于非奇异矩阵（但不一定是正交）的合同变换来实现。例如，因为是对称的，因此可以通过对的 LDU 分解来得到一个合同变换。

这种分解计算起来相对来说更加方便，并且对角矩阵对角线上的元素是高斯消元过程中出现的主元。

令（或者），得

\mathbf{x}^{\top} \mathbf{A} \mathbf{x}=\mathbf{y}^{\top} \mathbf{D} \mathbf{y}=\sum_{i=1}^{n} p_{i} y_{i}^{2}

最终得到的二次型称为标准型，如果系数为正负 1，则称为规范型。

合同（Congruence）

没有查到这词是谁翻译的，现代人看到合同两字，可能会想这两个矩阵是在做生意吗？

Congruence 这个词在数学中多次出现，在几何中称全等，算术中称作同余，总之它可以用于表示一种等价关系。

矩阵的合同不需要对称，是满足如下性质的一种等价关系，

反身性: 任意矩阵都与其自身合同；
对称性: 合同于，则可以推出合同于；
传递性: 合同于，合同于，则可以推出合同于。

合同矩阵的秩相同，矩阵合同的主要判别法：

设，均为复数域上的阶对称矩阵，则与在复数域上合同等价于与的秩相同。
设，均为实数域上的阶对称矩阵，则与在实数域上合同等价于与有相同的正、负惯性指数（即正、负特征值的个数相等）。

可以这么理解: 两个实对称矩阵合同，当且仅当它们是在各自基底下表示同一个二次型。

西尔维斯特惯性定律

实对称矩阵的惯性指数定义为三元组，其中，和分别是正、负和零特征值的个数。1852 年西尔维斯特（Sylvester）发现，在合同变换下，的惯性指数是不变的。

令表示实对称矩阵和是合同的（即存在非奇异矩阵使得）。

西尔维斯特惯性定律指出，对于实对称矩阵，

当且仅当和具有相同的惯性指数。

西尔维斯特提出该惯性定律时并没有证明，下面我们用后来提出的理论来简要证明一下，如果对证明兴趣不大可以跳过此节。

证明

1. 先证必要性

如果是实对称矩阵且惯性指数为，则有

\mathbf{A} \cong\left(\begin{array}{ccc} \mathbf{I}_{p \times p} & & \\ & -\mathbf{I}_{j \times j} & \\ & & \mathbf{0}_{s \times s} \end{array}\right)=\mathbf{E} \qquad (\star)

因为如果

\left\{\lambda_{1}, \ldots, \lambda_{p},-\lambda_{p+1}, \ldots,-\lambda_{p+j}, 0, \ldots, 0\right\}

是的特征值（其中，），则存在一个正交矩阵，使得

\mathbf{P}^{\top} \mathbf{A} \mathbf{P}=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{p},-\lambda_{p+1}, \ldots,-\lambda_{p+j}, 0, \ldots, 0\right)

令，

\mathbf{D}=\operatorname{diag}\left(\lambda_{1}^{-1 / 2}, \ldots, \lambda_{p+j}^{-1 / 2}, 1, \ldots, 1\right)

那么，是非奇异矩阵，因此可得。

令是一个实对称矩阵，其惯性指数为，由上面结论可得，

\mathbf{B} \cong\left(\begin{array}{ccc} \mathbf{I}_{q \times q} & & \\ & -\mathbf{I}_{k \times k} & \\ & & \mathbf{0}_{t \times t} \end{array}\right)=\mathbf{F}

如果，则（合同关系具有传递式），因此，得。

为了得到，我们用反证法。假设，有非奇异矩阵使得。如果和，则由秩公式可得

\begin{array}{l} \operatorname{dim}(\mathcal{M} \cap \mathcal{N}) &= \operatorname{dim} \mathcal{M}+\operatorname{dim} \mathcal{N}-\operatorname{dim}(\mathcal{M}+\mathcal{N})\\ &=(n-q)+p-\operatorname{dim}(\mathcal{M}+\mathcal{N})>0 \end{array}

因此，存在一个非零向量。对于这样的向量

\begin{array}{l} \mathbf{x} \in \mathcal{M} &\Rightarrow \mathbf{x}=\mathbf{Y} \mathbf{y}=\mathbf{K}\left(\begin{array}{c} \mathbf{0} \\ \mathbf{y} \end{array}\right) \\ &\Rightarrow \mathbf{x}^{\top} \mathbf{E} \mathbf{x}=\left(\mathbf{0}^{\top} \mid \mathbf{y}^{\top}\right) \mathbf{F}\left(\begin{array}{c} \mathbf{0} \\ \mathbf{y} \end{array}\right) \leq 0 \end{array}

以及

\begin{array}{l} \mathbf{x} \in \mathcal{N} \quad &\Rightarrow \quad \mathbf{x}=\left(x_{1}, \ldots, x_{p}, 0, \ldots, 0\right)^{\top} \quad \\[0.8em]&\Rightarrow \quad \mathbf{x}^{\top} \mathbf{E} \mathbf{x}>0 \end{array}

矛盾。

因此，不能成立。类似地，$p

以上证明了，如果，则和具有相同的惯性指数。

2. 再证充分性

反过来，如果和的惯性指数为，则公式 () 成立，因此。

惯性指数举例

与双线性形式的关系

与二次型相关的双线性形式定义为，

\begin{array}{l} b_{q}(\mathbf{x}, \mathbf{y})&=\frac{1}{2}(q(\mathbf{x}+\mathbf{y})-q(\mathbf{x})-q(\mathbf{y}))\\[0.7em]&=\mathbf{x}^{{\top}} \mathbf{A} \mathbf{y}=\mathbf{y}^{{\top}} \mathbf{A} \mathbf{x} \end{array}

因此，是域上由矩阵定义的对称双线性形式。相反，可以由任何对称双线性形式定义二次型，

q(\mathbf{x}) = b(\mathbf{x}, \mathbf{x})

在一般的域上，元对称双线性形式和二次型可以等同视之。

另外，这里其实隐藏着张量这个数学概念，具体留作后文进一步解读。

2小结

最后，不用矩阵再总结一下西尔维斯特惯性定律（Sylvester's law of inertia）。在实数域中，一个形如

a_{11} x_{1}^{2}+a_{12} x_{1} x_{2}+a_{13} x_{1} x_{3}+\ldots+a_{n n} x_{n}^{2}

的二次型通过变元代换可以化简成唯一的规范型，

y_{1}^{2}+y_{2}^{2}+\ldots+y_{p}^{2}-y_{p+1}^{2}-\ldots-y_{r}^{2}

上式由系数矩阵的秩，正惯性系数的个数，负惯性系数的个数以及的数目唯一确定，而正惯性系数个数减去负惯性系数个数的值称作符号差。

注意，虽然矩阵合同的概念是后来提出来的，但是上面这些工作是在 1852 年前提出的。

两个实对称矩阵合同，当且仅当它们是在各自基底下表示同一个二次型/双线性形式。

有了矩阵的概念以及矩阵分解以后，书写和证明将变得更加方便。在凯莱提出矩阵代数的同时，他以矩阵符号运算的方式指出，二次型转化为标准型对应了矩阵的对角化。

相关阅读

矩阵前传 - 克莱姆没能证明的法则被他两行搞定

矩阵前传 - 矩阵之父 Sylvester 为什么提出 Matrix

矩阵前传 - 柯西-比内公式及其用初等矩阵的证明

二次型和矩阵合同原来是这么一回事

0历史简介