最速下降法

image-20231120160603044

t为步长 xkx_k是迭代出的第k个向量 gkg_k是梯度


性质:

锯齿现象:相邻两次迭代点的梯度正交(gk,gk+1g_k,g_{k+1})

线性收敛,不具有二次终止性,一般要无限步迭代(某些特殊初始点可以有限步终止)


当原函数为正定二次函数时,t有显式计算公式

(其他无约束最优化方法的步长均可使用该公式):

image-20231120160833958

QGQ\equiv G

非二次正定函数时,只能使用代入函数,对t求导使其导数为零的方式寻找最优步长


原函数二阶导矩阵,即GkG_k Hession矩阵为正定时,最终的结果是严格局部极小点

Newton法

image-20231120161719937


性质:

二次终止性 二阶收敛

对于正定二次函数,迭代一步得到极小点

非正定函数,一般不会有限步终止,通常使用修正Newton法


修正Newton法

GG奇异时(不存在G1G^{-1}) 使用直线搜索法,即xk+1=ls(xk,pk)x_{k+1} = ls(x_k,p_k) 也就是xk+1=xk+tpkx_{k+1} = x_k + t*p_k,记该式为公式1 (pk默认为Gk1gkp_k默认为-G_k^{-1}*\vec{g_k})

GG非奇异时,沿用Newton迭代公式 Xk+1=Xk+pkX_{k+1} = X_k + p_k , pk=Gk1gkp_k=-G_k^{-1}*\vec{g_k}

  1. xk+1<xkx_{k+1}<x_{k} 迭代有效

  2. xk+1xkx_{k+1}\geq x_{k} 迭代无效,使用以下规则:

    2.1 当 gkTpkϕ|g_k^Tp_k| \leq \phi (ϕ\phi是一个接近于0的整数) 时 ,说明g与p几乎垂直,即p是不利的方向,改取 p为g-g,按公式1运算(此时退化为最速下降法)

    2.2 当 gkTpk<ϕg_k^Tp_k < -\phi时,p为下降方向,按公式1计算

    2.3 当 gkTpk>ϕg_k^Tp_k > \phi时,p为上升方向,改取p为-p,按公式1计算

共轭方向法

共轭方向法具有二次终止性.
对于n元正定二次函数,共轭方向法至多迭代 n 次即可求到极小点
对于非正定二次函数,共轭方向法一般不会有限步迭代终止


F-R共轭梯度法

image-20231120171951571

共轭梯度法是共躯方向法,是下降算法,超线性收敛

矩阵的二范数(Frobenius 范数)是矩阵元素平方和的平方根


DFP法

image-20231120184410577

DFP 法是共扼方向法,是下降算法,超线性收敛.

步长加速法

最小二乘法

即最小化线性回归模型(y=β0+β1x+ϕy=\beta_0+\beta_1x+\phi)的残差平方和

Minimize i=1n(yi(β0+β1xi))2\sum^n_{i=1} (y_i-(\beta_0+\beta_1x_i))^2

image-20231120192426005

ATAx=ATbA^TA\vec x=A^T\vec b 得最小二乘解 x=ATA1ATb\vec x = {A^TA}^{-1}A^T\vec b ,同时也是回归方程的解

线性方程组的解指带入最小二乘解的值s(x)=f12(x)+f22(x)++fm2(x)s(\vec x)= f_1^2(\vec x)+f_2^2(\vec x)+\cdots+f_m^2(\vec x)

s为零则有解,s不为零无解