二次型理论与二元函数极值判别
二元函数极值判别法的核心,其实是二次型的正定、负定、不定理论。
在驻点处,一阶变化消失,函数局部的主要变化由二阶项决定。而二阶项本质上就是一个二次型。
1. 什么是二次型
二次型是只含二次项的齐次多项式。
一元情形:$a x^2$
二元情形:$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$
三元情形:$$ Q(x,y,z)=a_{11}x^2+a_{22}y^2+a_{33}z^2+2a_{12}xy+2a_{13}xz+2a_{23}yz $$
其中交叉项常写成 $2a_{12}xy$,是为了方便用矩阵表示。
2. 二次型的矩阵表示
对于二元二次型 $Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$
可以写成矩阵形式: $$ Q(x,y)= \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a_{11} & a_{12}\\ a_{12} & a_{22} \end{pmatrix} \begin{pmatrix} x\\ y \end{pmatrix} $$
也就是:
$$ Q(\mathbf{x})=\mathbf{x}^T A\mathbf{x} $$
其中 $\mathbf{x}=\begin{pmatrix}x\\y\end{pmatrix},\quad A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$
这里的矩阵 $A$ 是一个实对称矩阵。
3. 为什么可以只考虑对称矩阵
设 $$A=\begin{pmatrix}a & b\\c & d\end{pmatrix}$$
则
$$\begin{pmatrix}x & y\end{pmatrix}A\begin{pmatrix}x\\y\end{pmatrix}=ax^2+(b+c)xy+dy^2$$
可以看出,真正影响 $xy$ 项的是 $b+c$,而不是 $b$ 和 $c$ 各自的值。
因此总可以把矩阵换成对称矩阵:
$$ \begin{pmatrix} a & \frac{b+c}{2}\\ \frac{b+c}{2} & d \end{pmatrix} $$
它给出的二次型完全相同。
所以研究实二次型时,通常默认对应矩阵是实对称矩阵。
4. 二次型的符号类型
研究二次型,最重要的是判断:
$Q(\mathbf{x})$ 在非零向量 $\mathbf{x}\ne 0$ 时,到底总是正、总是负,还是有正有负。
4.1 正定
若对任意非零向量 $\mathbf{x}\ne 0$,都有
$$ Q(\mathbf{x})>0 $$
则称 $Q$ 是正定二次型,对应矩阵 $A$ 是正定矩阵。
典型例子:
$$ Q(x,y)=x^2+y^2 $$
只要 $(x,y)\ne(0,0)$,就有 $x^2+y^2>0$,所以它是正定二次型。
直观图像:开口向上的碗。
4.2 负定
若对任意非零向量 $\mathbf{x}\ne 0$,都有
$$ Q(\mathbf{x})<0 $$
则称 $Q$ 是负定二次型。
典型例子:
$$ Q(x,y)=-x^2-y^2 $$
只要 $(x,y)\ne(0,0)$,就有 $-x^2-y^2<0$,所以它是负定二次型。
直观图像:倒扣的碗。
4.3 不定
若存在某些非零向量使得 $Q(\mathbf{x})>0$,同时也存在某些非零向量使得 $Q(\mathbf{x})<0$,则称 $Q$ 是不定二次型。
典型例子:
$$ Q(x,y)=x^2-y^2 $$
沿 $x$ 方向:
$$ Q(x,0)=x^2>0 $$
沿 $y$ 方向:
$$ Q(0,y)=-y^2<0 $$
所以它是不定二次型。
直观图像:马鞍面。
4.4 半正定与半负定
若对任意向量 $\mathbf{x}$,都有
$$ Q(\mathbf{x})\ge 0 $$
但存在非零向量 $\mathbf{x}\ne 0$ 使得
$$ Q(\mathbf{x})=0 $$
则称 $Q$ 是半正定二次型。
典型例子:
$$ Q(x,y)=x^2 $$
无论 $x,y$ 怎么取,都有 $x^2\ge 0$。但当 $x=0,y\ne 0$ 时,$Q(0,y)=0$。所以它是半正定,而不是正定。
类似地,若总有 $Q(\mathbf{x})\le 0$,但在某些非零方向上等于 $0$,则称为半负定。
5. 二元二次型的判别法
设
$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$
对应矩阵为
$$A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$$
记
$$ D=\det A=a_{11}a_{22}-a_{12}^2 $$
则有如下判别:
| 条件 | 二次型类型 |
|---|---|
| $D>0,\ a_{11}>0$ | 正定 |
| $D>0,\ a_{11}<0$ | 负定 |
| $D<0$ | 不定 |
| $D=0$ | 可能半正定、半负定,也可能需要进一步判断 |
这就是二元函数极值判别法的代数来源。
6. 为什么 $D>0,\ a_{11}>0$ 时正定
对二次型配方:
$$Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$$
若 $a_{11}\ne 0$,则
$$Q(x,y)=a_{11}\left( x+\frac{a_{12}}{a_{11}}y \right)^2+\left(a_{22}-\frac{a_{12}^2}{a_{11}}\right)y^2$$
而
$$a_{22}-\frac{a_{12}^2}{a_{11}}=\frac{a_{11}a_{22}-a_{12}^2}{a_{11}}=\frac{D}{a_{11}}$$
所以
$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$
如果 $D>0$ 且 $a_{11}>0$,那么
$a_{11}>0$,且 $\frac{D}{a_{11}}>0$。
因此 $Q(x,y)$ 是两个平方项的正系数之和,所以对任意非零 $(x,y)$,都有
$$Q(x,y)>0$$
因此二次型正定。
7. 为什么 $D>0,\ a_{11}<0$ 时负定
仍然看配方形式:
$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$
如果 $D>0$ 且 $a_{11}<0$,那么
$a_{11}<0$,且 $\frac{D}{a_{11}}<0$。
所以 $Q(x,y)$ 是两个平方项的负系数之和。
因此对任意非零 $(x,y)$,都有
$$Q(x,y)<0$$
所以二次型负定。
8. 为什么 $D<0$ 时不定
若 $D<0$,则在配方形式中:
$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$
两个平方项的系数一正一负。
因为 $D$ 与 $a_{11}$ 相除后,$\frac{D}{a_{11}}$ 与 $a_{11}$ 的符号相反。
于是存在某些方向使 $Q(x,y)>0$,也存在某些方向使 $Q(x,y)<0$。
所以它是不定二次型。
典型例子:
$$Q(x,y)=x^2-y^2$$
对应矩阵为
$$ A= \begin{pmatrix} 1 & 0\\ 0 & -1 \end{pmatrix} $$
此时 $D=-1<0$ 沿 $x$ 轴,$Q(x,0)=x^2>0$;沿 $y$ 轴,$Q(0,y)=-y^2<0$。
所以它是不定二次型。
9. 为什么 $D=0$ 时无法简单判断
若 $D=0$,则二次型发生退化。
例如在配方形式中,若 $a_{11}\ne 0$,则
$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2$$
它只剩下一个平方项。
此时可能是半正定,也可能是半负定。
例如:
$$Q(x,y)=x^2$$
对应矩阵为
$$ \begin{pmatrix} 1 & 0\\ 0 & 0 \end{pmatrix} $$
有 $D=0$,它是半正定。
而
$$ Q(x,y)=-x^2 $$
对应矩阵为
$$ \begin{pmatrix} -1 & 0\\ 0 & 0 \end{pmatrix} $$
也有 $D=0$,它是半负定。
在极值判别中,半正定或半负定还不够,因为二阶项可能在某些方向上消失,此时要看更高阶项。
例如:
$$ f(x,y)=x^2+y^4 $$
在 $(0,0)$ 处有极小值。
但
$$ f(x,y)=x^2-y^4 $$
在 $(0,0)$ 处不是极值点。
这两个函数在 $(0,0)$ 处的二阶部分都是 $x^2$,但最终极值性质不同。
所以 $D=0$ 时,二阶判别法失效,需要结合更高阶项或极值定义判断。
10. 二次型与二元函数极值判别的关系
设 $P_0=(x_0,y_0)$ 是二元函数 $f(x,y)$ 的驻点,即
$$f_x(P_0)=0,\qquad f_y(P_0)=0$$
由 Taylor 展开,在 $P_0$ 附近有
$$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=\frac12\left[f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2\right]+o(\rho^2)$$
其中
$$\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}$$
由于驻点处一阶项消失,所以函数值的主要变化由二阶项决定。
这个二阶项就是一个二次型:
$$Q(\Delta x,\Delta y)=f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2$$
它对应的矩阵是 Hessian 矩阵:
$$H(P_0)=\begin{pmatrix}f_{xx}(P_0) & f_{xy}(P_0)\\f_{yx}(P_0) & f_{yy}(P_0) \end{pmatrix}$$
若二阶偏导连续,则
$$f_{xy}(P_0)=f_{yx}(P_0)$$
所以 Hessian 矩阵是对称矩阵。
11. 二元函数极值判别法
设
$$a_{11}=f_{xx}(P_0),\qquad a_{12}=f_{xy}(P_0),\qquad a_{22}=f_{yy}(P_0)$$
记
$$D=\begin{vmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{vmatrix}=a_{11}a_{22}-a_{12}^2$$
则:
| 条件 | Hessian 类型 | 函数局部形状 | 结论 |
|---|---|---|---|
| $D>0,\ a_{11}>0$ | 正定 | 各方向向上弯 | 极小值 |
| $D>0,\ a_{11}<0$ | 负定 | 各方向向下弯 | 极大值 |
| $D<0$ | 不定 | 有的方向上升,有的方向下降 | 不是极值点 |
| $D=0$ | 退化 | 二阶信息不足 | 无法判定 |