機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.5(基本) www

問題

付録 E に示したラグランジュ未定乗数法を用いて、正則化誤差関数 (3.29)の最小化と、
正則化されていない二乗和誤差 (3.12) の制約条件 (3.30) 下での最小化が等価であることを示せ。
そして、パラメータ \eta\lambda の関係を議論せよ。

参照

\begin{eqnarray}
E_D({\bf w})=\frac{1}{2}\sum_{n=1}^N(t_n-{\bf w}^\top{\boldsymbol\phi}({\bf x}_n))^2\tag{3.12}
\end{eqnarray}

\begin{eqnarray}
\frac{1}{2}\sum_{n=1}^N(t_n-{\bf w}^\top{\boldsymbol\phi}({\bf x}_n))^2+\frac{\lambda}{2}\sum_{j=1}^M|w_j|^q\tag{3.29}
\end{eqnarray}

\begin{eqnarray}
\sum_{j=1}^M|w_j|^q\leq\eta\tag{3.30}
\end{eqnarray}

解答

正則化されていない二乗和誤差 (3.12) の制約条件 (3.30) 下で最小化します。

(3.30) を変形します。

\begin{eqnarray}
\frac{1}{2}\left(\sum_{j=1}^M|w_j|^q-\eta\right)\leq0\tag{1}\\
\end{eqnarray}

(3.12),(1) より、ラグランジュ関数は以下のようになります。

\begin{eqnarray}
L({\bf w},\lambda)=\frac{1}{2}\sum_{n=1}^N(t_n-{\bf w}^\top{\boldsymbol\phi}({\bf x}_n))^2+\frac{\lambda}{2}\left(\sum_{j=1}^M|w_j|^q-\eta\right)\tag{2}
\end{eqnarray}

(2)(3.29){\bf w}に関して同じ式であるので、
(2){\bf w}について最小化するのと、式 (3.29){\bf w} について最小化するのは等価です。
よって、正則化誤差関数 (3.29)の最小化と、
正則化されていない二乗和誤差 (3.12) の制約条件 (3.30) 下での最小化が等価であることが示せました。

(2) の最小化を \lambda>0 で考えると、KKT条件より

\begin{eqnarray}
&&\frac{\lambda}{2}\left(\sum_{j=1}^M|w_j^\star(\lambda)|^q-\eta\right)=0\\
&&\Leftrightarrow \eta=\sum_{j=1}^M|w_j^\star(\lambda)|^q\tag{3}
\end{eqnarray}

となることが分かります。式 (6) では、式 (2) の最小化時のw_jw_j^\starとしました。
パラメータ \eta\lambda の関係式は式 (6) です。

補足

以上の幾何学的解釈が下のグラフです。

f:id:olj611:20210313014215p:plain:w500

ラッソ回帰のパラメータは、疎な解が得られますが
それはグラフからも直感的に解釈することができます。

目次へ戻る