リッジ回帰(L2正則化) - 機械学習基礎理論独習

過学習と正則化

過学習とはモデルがデータに適合しすぎてしまうことを言います。

f:id:olj611:20210301070607p:plain

過学習を防ぐために目的関数に正則化項(罰則項)を加えて最適化します。
このことを正則化と言います。

f:id:olj611:20210301070755p:plain

この記事では加える正則化項がL2ノルムなのでL2正則化といいます。リッジ回帰とも言います。

$\begin{eqnarray} E({\bf w})=\frac{1}{2}||{\boldsymbol\Phi}{\bf w}-{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\tag{1} \end{eqnarray}$

正則化の効果

正則化の効果をグラフで見てみます。
$\lambda=e^{-18}$ としました。
グラフより正則化有の方がいい感じに曲線にフィットしているのが分かります。
また、 ${\bf w}$ の要素の絶対値も正則化有の方が小さいことが分かります。

f:id:olj611:20210301072018p:plain

解析解

目的関数を最小化するような ${\bf w}$ を求めてみます。

$\begin{eqnarray} &&\frac{\partial}{\partial{\bf w}}E({\bf w})={\bf 0}\\ &&\Leftrightarrow\frac{\partial}{\partial{\bf w}}\left(\frac{1}{2}||{\boldsymbol\Phi}{\bf w}-{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\right)={\bf 0}\\ &&\Leftrightarrow\frac{\partial}{\partial{\bf w}}\left(\frac{1}{2}{\bf w}^T\boldsymbol\Phi^T\boldsymbol\Phi{\bf w}-{\bf w}^T\boldsymbol\Phi^T{\bf t}+\frac{1}{2}||{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\right)={\bf 0}\\ &&\Leftrightarrow\boldsymbol\Phi^T\boldsymbol\Phi{\bf w}-\boldsymbol\Phi^T{\bf t}+\lambda{\bf w}={\bf 0}\\ &&\Leftrightarrow(\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I}){\bf w}=\boldsymbol\Phi^T{\bf t}\\ &&\Leftrightarrow{\bf w}=(\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I})^{-1}\boldsymbol\Phi^T{\bf t}\tag{2}\\ \end{eqnarray}$

$\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I}$ は正則であるとします。
ただし、 $w_0$ は正則化項から外すことも多いので注意してください。
$w_0$ を正則化項から外す場合は、(2)の ${\bf I}$ の1行1列成分を0にしてください。