機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

リッジ回帰(L2正則化)

過学習正則化

過学習とはモデルがデータに適合しすぎてしまうことを言います。

f:id:olj611:20210301070607p:plain

過学習を防ぐために目的関数に正則化項(罰則項)を加えて最適化します。
このことを正則化と言います。

f:id:olj611:20210301070755p:plain

この記事では加える正則化項がL2ノルムなのでL2正則化といいます。リッジ回帰とも言います。

\begin{eqnarray}
E({\bf w})=\frac{1}{2}||{\boldsymbol\Phi}{\bf w}-{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\tag{1}
\end{eqnarray}

正則化の効果

正則化の効果をグラフで見てみます。
\lambda=e^{-18}としました。
グラフより正則化有の方がいい感じに曲線にフィットしているのが分かります。
また、{\bf w}の要素の絶対値も正則化有の方が小さいことが分かります。

f:id:olj611:20210301072018p:plain

解析解

目的関数を最小化するような{\bf w}を求めてみます。

\begin{eqnarray}
&&\frac{\partial}{\partial{\bf w}}E({\bf w})={\bf 0}\\
&&\Leftrightarrow\frac{\partial}{\partial{\bf w}}\left(\frac{1}{2}||{\boldsymbol\Phi}{\bf w}-{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\right)={\bf 0}\\
&&\Leftrightarrow\frac{\partial}{\partial{\bf w}}\left(\frac{1}{2}{\bf w}^T\boldsymbol\Phi^T\boldsymbol\Phi{\bf w}-{\bf w}^T\boldsymbol\Phi^T{\bf t}+\frac{1}{2}||{\bf t}||^2+\frac{\lambda}{2}||{\bf w}||^2\right)={\bf 0}\\
&&\Leftrightarrow\boldsymbol\Phi^T\boldsymbol\Phi{\bf w}-\boldsymbol\Phi^T{\bf t}+\lambda{\bf w}={\bf 0}\\
&&\Leftrightarrow(\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I}){\bf w}=\boldsymbol\Phi^T{\bf t}\\
&&\Leftrightarrow{\bf w}=(\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I})^{-1}\boldsymbol\Phi^T{\bf t}\tag{2}\\
\end{eqnarray}

\boldsymbol\Phi^T\boldsymbol\Phi+\lambda{\bf I}は正則であるとします。
ただし、w_0正則化項から外すことも多いので注意してください。
w_0正則化項から外す場合は、(2)の{\bf I}の1行1列成分を0にしてください。

偉人の名言

f:id:olj611:20210301074958p:plain
学ぶことで才能は開花する。志がなければ、学問の完成はない。
諸葛孔明

参考文献

パターン認識機械学習 上巻

動画

この動画はブログの記事書く前に作成したので、内容が異なる可能性があります。

目次へ戻る