二次型理论与二元函数极值判别

二元函数极值判别法的核心，其实是二次型的正定、负定、不定理论。

在驻点处，一阶变化消失，函数局部的主要变化由二阶项决定。而二阶项本质上就是一个二次型。

1. 什么是二次型

二次型是只含二次项的齐次多项式。

一元情形：$a x^2$

二元情形：$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$

三元情形：$$ Q(x,y,z)=a_{11}x^2+a_{22}y^2+a_{33}z^2+2a_{12}xy+2a_{13}xz+2a_{23}yz $$

其中交叉项常写成 $2a_{12}xy$，是为了方便用矩阵表示。

2. 二次型的矩阵表示

对于二元二次型 $Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$

可以写成矩阵形式： $$ Q(x,y)= \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a_{11} & a_{12}\\ a_{12} & a_{22} \end{pmatrix} \begin{pmatrix} x\\ y \end{pmatrix} $$

也就是：

$$ Q(\mathbf{x})=\mathbf{x}^T A\mathbf{x} $$

其中 $\mathbf{x}=\begin{pmatrix}x\\y\end{pmatrix},\quad A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$

这里的矩阵 $A$ 是一个实对称矩阵。

3. 为什么可以只考虑对称矩阵

设 $$A=\begin{pmatrix}a & b\\c & d\end{pmatrix}$$

则

$$\begin{pmatrix}x & y\end{pmatrix}A\begin{pmatrix}x\\y\end{pmatrix}=ax^2+(b+c)xy+dy^2$$

可以看出，真正影响 $xy$ 项的是 $b+c$，而不是 $b$ 和 $c$ 各自的值。

因此总可以把矩阵换成对称矩阵：

$$ \begin{pmatrix} a & \frac{b+c}{2}\\ \frac{b+c}{2} & d \end{pmatrix} $$

它给出的二次型完全相同。

所以研究实二次型时，通常默认对应矩阵是实对称矩阵。

4. 二次型的符号类型

研究二次型，最重要的是判断：

$Q(\mathbf{x})$ 在非零向量 $\mathbf{x}\ne 0$ 时，到底总是正、总是负，还是有正有负。

4.1 正定

若对任意非零向量 $\mathbf{x}\ne 0$，都有

$$ Q(\mathbf{x})>0 $$

则称 $Q$ 是正定二次型，对应矩阵 $A$ 是正定矩阵。

典型例子：

$$ Q(x,y)=x^2+y^2 $$

只要 $(x,y)\ne(0,0)$，就有 $x^2+y^2>0$，所以它是正定二次型。

直观图像：开口向上的碗。

4.2 负定

若对任意非零向量 $\mathbf{x}\ne 0$，都有

$$ Q(\mathbf{x})<0 $$

则称 $Q$ 是负定二次型。

典型例子：

$$ Q(x,y)=-x^2-y^2 $$

只要 $(x,y)\ne(0,0)$，就有 $-x^2-y^2<0$，所以它是负定二次型。

直观图像：倒扣的碗。

4.3 不定

若存在某些非零向量使得 $Q(\mathbf{x})>0$，同时也存在某些非零向量使得 $Q(\mathbf{x})<0$，则称 $Q$ 是不定二次型。

典型例子：

$$ Q(x,y)=x^2-y^2 $$

沿 $x$ 方向：

$$ Q(x,0)=x^2>0 $$

沿 $y$ 方向：

$$ Q(0,y)=-y^2<0 $$

所以它是不定二次型。

直观图像：马鞍面。

4.4 半正定与半负定

若对任意向量 $\mathbf{x}$，都有

$$ Q(\mathbf{x})\ge 0 $$

但存在非零向量 $\mathbf{x}\ne 0$ 使得

$$ Q(\mathbf{x})=0 $$

则称 $Q$ 是半正定二次型。

典型例子：

$$ Q(x,y)=x^2 $$

无论 $x,y$ 怎么取，都有 $x^2\ge 0$。但当 $x=0,y\ne 0$ 时，$Q(0,y)=0$。所以它是半正定，而不是正定。

类似地，若总有 $Q(\mathbf{x})\le 0$，但在某些非零方向上等于 $0$，则称为半负定。

5. 二元二次型的判别法

设

$$ Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2 $$

对应矩阵为

$$A=\begin{pmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{pmatrix}$$

记

$$ D=\det A=a_{11}a_{22}-a_{12}^2 $$

则有如下判别：

条件	二次型类型
$D>0,\ a_{11}>0$	正定
$D>0,\ a_{11}<0$	负定
$D<0$	不定
$D=0$	可能半正定、半负定，也可能需要进一步判断

这就是二元函数极值判别法的代数来源。

6. 为什么 $D>0,\ a_{11}>0$ 时正定

对二次型配方：

$$Q(x,y)=a_{11}x^2+2a_{12}xy+a_{22}y^2$$

若 $a_{11}\ne 0$，则

$$Q(x,y)=a_{11}\left( x+\frac{a_{12}}{a_{11}}y \right)^2+\left(a_{22}-\frac{a_{12}^2}{a_{11}}\right)y^2$$

而

$$a_{22}-\frac{a_{12}^2}{a_{11}}=\frac{a_{11}a_{22}-a_{12}^2}{a_{11}}=\frac{D}{a_{11}}$$

所以

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

如果 $D>0$ 且 $a_{11}>0$，那么

$a_{11}>0$，且 $\frac{D}{a_{11}}>0$。

因此 $Q(x,y)$ 是两个平方项的正系数之和，所以对任意非零 $(x,y)$，都有

$$Q(x,y)>0$$

因此二次型正定。

7. 为什么 $D>0,\ a_{11}<0$ 时负定

仍然看配方形式：

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

如果 $D>0$ 且 $a_{11}<0$，那么

$a_{11}<0$，且 $\frac{D}{a_{11}}<0$。

所以 $Q(x,y)$ 是两个平方项的负系数之和。

因此对任意非零 $(x,y)$，都有

$$Q(x,y)<0$$

所以二次型负定。

8. 为什么 $D<0$ 时不定

若 $D<0$，则在配方形式中：

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2+\frac{D}{a_{11}}y^2$$

两个平方项的系数一正一负。

因为 $D$ 与 $a_{11}$ 相除后，$\frac{D}{a_{11}}$ 与 $a_{11}$ 的符号相反。

于是存在某些方向使 $Q(x,y)>0$，也存在某些方向使 $Q(x,y)<0$。

所以它是不定二次型。

典型例子：

$$Q(x,y)=x^2-y^2$$

对应矩阵为

$$ A= \begin{pmatrix} 1 & 0\\ 0 & -1 \end{pmatrix} $$

此时 $D=-1<0$ 沿 $x$ 轴，$Q(x,0)=x^2>0$；沿 $y$ 轴，$Q(0,y)=-y^2<0$。

所以它是不定二次型。

9. 为什么 $D=0$ 时无法简单判断

若 $D=0$，则二次型发生退化。

例如在配方形式中，若 $a_{11}\ne 0$，则

$$Q(x,y)=a_{11}\left(x+\frac{a_{12}}{a_{11}}y\right)^2$$

它只剩下一个平方项。

此时可能是半正定，也可能是半负定。

例如：

$$Q(x,y)=x^2$$

对应矩阵为

$$ \begin{pmatrix} 1 & 0\\ 0 & 0 \end{pmatrix} $$

有 $D=0$，它是半正定。

而

$$ Q(x,y)=-x^2 $$

对应矩阵为

$$ \begin{pmatrix} -1 & 0\\ 0 & 0 \end{pmatrix} $$

也有 $D=0$，它是半负定。

在极值判别中，半正定或半负定还不够，因为二阶项可能在某些方向上消失，此时要看更高阶项。

例如：

$$ f(x,y)=x^2+y^4 $$

在 $(0,0)$ 处有极小值。

但

$$ f(x,y)=x^2-y^4 $$

在 $(0,0)$ 处不是极值点。

这两个函数在 $(0,0)$ 处的二阶部分都是 $x^2$，但最终极值性质不同。

所以 $D=0$ 时，二阶判别法失效，需要结合更高阶项或极值定义判断。

10. 二次型与二元函数极值判别的关系

设 $P_0=(x_0,y_0)$ 是二元函数 $f(x,y)$ 的驻点，即

$$f_x(P_0)=0,\qquad f_y(P_0)=0$$

由 Taylor 展开，在 $P_0$ 附近有

$$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=\frac12\left[f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2\right]+o(\rho^2)$$

其中

$$\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}$$

由于驻点处一阶项消失，所以函数值的主要变化由二阶项决定。

这个二阶项就是一个二次型：

$$Q(\Delta x,\Delta y)=f_{xx}(P_0)(\Delta x)^2+2f_{xy}(P_0)\Delta x\Delta y+f_{yy}(P_0)(\Delta y)^2$$

它对应的矩阵是 Hessian 矩阵：

$$H(P_0)=\begin{pmatrix}f_{xx}(P_0) & f_{xy}(P_0)\\f_{yx}(P_0) & f_{yy}(P_0) \end{pmatrix}$$

若二阶偏导连续，则

$$f_{xy}(P_0)=f_{yx}(P_0)$$

所以 Hessian 矩阵是对称矩阵。

11. 二元函数极值判别法

设

$$a_{11}=f_{xx}(P_0),\qquad a_{12}=f_{xy}(P_0),\qquad a_{22}=f_{yy}(P_0)$$

记

$$D=\begin{vmatrix}a_{11} & a_{12}\\a_{12} & a_{22}\end{vmatrix}=a_{11}a_{22}-a_{12}^2$$

则：

条件	Hessian 类型	函数局部形状	结论
$D>0,\ a_{11}>0$	正定	各方向向上弯	极小值
$D>0,\ a_{11}<0$	负定	各方向向下弯	极大值
$D<0$	不定	有的方向上升，有的方向下降	不是极值点
$D=0$	退化	二阶信息不足	无法判定

二次型理论与二元函数极值判别#

1. 什么是二次型#

2. 二次型的矩阵表示#

3. 为什么可以只考虑对称矩阵#

4. 二次型的符号类型#

4.1 正定#

4.2 负定#

4.3 不定#

4.4 半正定与半负定#

5. 二元二次型的判别法#

6. 为什么 $D>0,\ a_{11}>0$ 时正定#

7. 为什么 $D>0,\ a_{11}<0$ 时负定#

8. 为什么 $D<0$ 时不定#

9. 为什么 $D=0$ 时无法简单判断#

10. 二次型与二元函数极值判别的关系#

11. 二元函数极值判别法#

二次型理论与二元函数极值判别

1. 什么是二次型

2. 二次型的矩阵表示

3. 为什么可以只考虑对称矩阵

4. 二次型的符号类型

4.1 正定

4.2 负定

4.3 不定

4.4 半正定与半负定

5. 二元二次型的判别法

6. 为什么 $D>0,\ a_{11}>0$ 时正定

7. 为什么 $D>0,\ a_{11}<0$ 时负定

8. 为什么 $D<0$ 时不定

9. 为什么 $D=0$ 时无法简单判断

10. 二次型与二元函数极值判别的关系

11. 二元函数极值判别法