二次型理论与二元函数极值判别

二元函数极值判别法的核心,其实是二次型的正定、负定、不定理论。

在驻点处,一阶变化消失,函数局部的主要变化由二阶项决定。而二阶项本质上就是一个二次型。

1. 什么是二次型

二次型是只含二次项的齐次多项式。

一元情形:$a x^2$

二元情形:$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$

三元情形:$$ Q(x,y,z)=a_{11}x^2+a_{22}y^2+a_{33}z^2+2a_{12}xy+2a_{13}xz+2a_{23}yz $$

其中交叉项常写成 $2a_{12}xy$,是为了方便用矩阵表示。


2. 二次型的矩阵表示

对于二元二次型 $Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$

可以写成矩阵形式: $$ Q(x,y)= \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a_{11} & a_{12}\\ a_{12} & a_{22} \end{pmatrix} \begin{pmatrix} x\\ y \end{pmatrix} $$

也就是:

$$ Q(\mathbf{x})=\mathbf{x}^T A\mathbf{x} $$

其中 $\mathbf{x}=\begin{pmatrix}x\\y\end{pmatrix},\quad A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$

这里的矩阵 $A$ 是一个实对称矩阵。


3. 为什么可以只考虑对称矩阵

设 $$A=\begin{pmatrix}a & b\\c & d\end{pmatrix}$$

$$\begin{pmatrix}x & y\end{pmatrix}A\begin{pmatrix}x\\y\end{pmatrix}=ax^2+(b+c)xy+dy^2$$

可以看出,真正影响 $xy$ 项的是 $b+c$,而不是 $b$ 和 $c$ 各自的值。

因此总可以把矩阵换成对称矩阵:

$$ \begin{pmatrix} a & \frac{b+c}{2}\\ \frac{b+c}{2} & d \end{pmatrix} $$

它给出的二次型完全相同。

所以研究实二次型时,通常默认对应矩阵是实对称矩阵。


4. 二次型的符号类型

研究二次型,最重要的是判断:

$Q(\mathbf{x})$ 在非零向量 $\mathbf{x}\ne 0$ 时,到底总是正、总是负,还是有正有负。


4.1 正定

若对任意非零向量 $\mathbf{x}\ne 0$,都有

$$ Q(\mathbf{x})>0 $$

则称 $Q$ 是正定二次型,对应矩阵 $A$ 是正定矩阵。

典型例子:

$$ Q(x,y)=x^2+y^2 $$

只要 $(x,y)\ne(0,0)$,就有 $x^2+y^2>0$,所以它是正定二次型。

直观图像:开口向上的碗。


4.2 负定

若对任意非零向量 $\mathbf{x}\ne 0$,都有

$$ Q(\mathbf{x})<0 $$

则称 $Q$ 是负定二次型。

典型例子:

$$ Q(x,y)=-x^2-y^2 $$

只要 $(x,y)\ne(0,0)$,就有 $-x^2-y^2<0$,所以它是负定二次型。

直观图像:倒扣的碗。


4.3 不定

若存在某些非零向量使得 $Q(\mathbf{x})>0$,同时也存在某些非零向量使得 $Q(\mathbf{x})<0$,则称 $Q$ 是不定二次型。

典型例子:

$$ Q(x,y)=x^2-y^2 $$

沿 $x$ 方向:

$$ Q(x,0)=x^2>0 $$

沿 $y$ 方向:

$$ Q(0,y)=-y^2<0 $$

所以它是不定二次型。

直观图像:马鞍面。


4.4 半正定与半负定

若对任意向量 $\mathbf{x}$,都有

$$ Q(\mathbf{x})\ge 0 $$

但存在非零向量 $\mathbf{x}\ne 0$ 使得

$$ Q(\mathbf{x})=0 $$

则称 $Q$ 是半正定二次型。

典型例子:

$$ Q(x,y)=x^2 $$

无论 $x,y$ 怎么取,都有 $x^2\ge 0$。但当 $x=0,y\ne 0$ 时,$Q(0,y)=0$。所以它是半正定,而不是正定。

类似地,若总有 $Q(\mathbf{x})\le 0$,但在某些非零方向上等于 $0$,则称为半负定。


5. 二元二次型的判别法

$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$

对应矩阵为

$$A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$$

$$ D=\det A=a_{11}a_{22}-a_{12}^2 $$

则有如下判别:

条件二次型类型
$D>0,\ a_{11}>0$正定
$D>0,\ a_{11}<0$负定
$D<0$不定
$D=0$可能半正定、半负定,也可能需要进一步判断

这就是二元函数极值判别法的代数来源。


6. 为什么 $D>0,\ a_{11}>0$ 时正定

对二次型配方:

$$Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$$

若 $a_{11}\ne 0$,则

$$Q(x,y)=a_{11}\left( x+\frac{a_{12}}{a_{11}}y \right)^2+\left(a_{22}-\frac{a_{12}^2}{a_{11}}\right)y^2$$

$$a_{22}-\frac{a_{12}^2}{a_{11}}=\frac{a_{11}a_{22}-a_{12}^2}{a_{11}}=\frac{D}{a_{11}}$$

所以

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

如果 $D>0$ 且 $a_{11}>0$,那么

$a_{11}>0$,且 $\frac{D}{a_{11}}>0$。

因此 $Q(x,y)$ 是两个平方项的正系数之和,所以对任意非零 $(x,y)$,都有

$$Q(x,y)>0$$

因此二次型正定。


7. 为什么 $D>0,\ a_{11}<0$ 时负定

仍然看配方形式:

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

如果 $D>0$ 且 $a_{11}<0$,那么

$a_{11}<0$,且 $\frac{D}{a_{11}}<0$。

所以 $Q(x,y)$ 是两个平方项的负系数之和。

因此对任意非零 $(x,y)$,都有

$$Q(x,y)<0$$

所以二次型负定。


8. 为什么 $D<0$ 时不定

若 $D<0$,则在配方形式中:

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

两个平方项的系数一正一负。

因为 $D$ 与 $a_{11}$ 相除后,$\frac{D}{a_{11}}$ 与 $a_{11}$ 的符号相反。

于是存在某些方向使 $Q(x,y)>0$,也存在某些方向使 $Q(x,y)<0$。

所以它是不定二次型。

典型例子:

$$Q(x,y)=x^2-y^2$$

对应矩阵为

$$ A= \begin{pmatrix} 1 & 0\\ 0 & -1 \end{pmatrix} $$

此时 $D=-1<0$ 沿 $x$ 轴,$Q(x,0)=x^2>0$;沿 $y$ 轴,$Q(0,y)=-y^2<0$。

所以它是不定二次型。


9. 为什么 $D=0$ 时无法简单判断

若 $D=0$,则二次型发生退化。

例如在配方形式中,若 $a_{11}\ne 0$,则

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2$$

它只剩下一个平方项。

此时可能是半正定,也可能是半负定。

例如:

$$Q(x,y)=x^2$$

对应矩阵为

$$ \begin{pmatrix} 1 & 0\\ 0 & 0 \end{pmatrix} $$

有 $D=0$,它是半正定。

$$ Q(x,y)=-x^2 $$

对应矩阵为

$$ \begin{pmatrix} -1 & 0\\ 0 & 0 \end{pmatrix} $$

也有 $D=0$,它是半负定。

在极值判别中,半正定或半负定还不够,因为二阶项可能在某些方向上消失,此时要看更高阶项。

例如:

$$ f(x,y)=x^2+y^4 $$

在 $(0,0)$ 处有极小值。

$$ f(x,y)=x^2-y^4 $$

在 $(0,0)$ 处不是极值点。

这两个函数在 $(0,0)$ 处的二阶部分都是 $x^2$,但最终极值性质不同。

所以 $D=0$ 时,二阶判别法失效,需要结合更高阶项或极值定义判断。


10. 二次型与二元函数极值判别的关系

设 $P_0=(x_0,y_0)$ 是二元函数 $f(x,y)$ 的驻点,即

$$f_x(P_0)=0,\qquad f_y(P_0)=0$$

由 Taylor 展开,在 $P_0$ 附近有

$$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=\frac12\left[f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2\right]+o(\rho^2)$$

其中

$$\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}$$

由于驻点处一阶项消失,所以函数值的主要变化由二阶项决定。

这个二阶项就是一个二次型:

$$Q(\Delta x,\Delta y)=f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2$$

它对应的矩阵是 Hessian 矩阵:

$$H(P_0)=\begin{pmatrix}f_{xx}(P_0) & f_{xy}(P_0)\\f_{yx}(P_0) & f_{yy}(P_0) \end{pmatrix}$$

若二阶偏导连续,则

$$f_{xy}(P_0)=f_{yx}(P_0)$$

所以 Hessian 矩阵是对称矩阵。


11. 二元函数极值判别法

$$a_{11}=f_{xx}(P_0),\qquad a_{12}=f_{xy}(P_0),\qquad a_{22}=f_{yy}(P_0)$$

$$D=\begin{vmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{vmatrix}=a_{11}a_{22}-a_{12}^2$$

则:

条件Hessian 类型函数局部形状结论
$D>0,\ a_{11}>0$正定各方向向上弯极小值
$D>0,\ a_{11}<0$负定各方向向下弯极大值
$D<0$不定有的方向上升,有的方向下降不是极值点
$D=0$退化二阶信息不足无法判定