機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.22(標準)

問題

対数周辺尤度関数 (3.86)\beta に関する最大化が再推定方程式 (3.95)
帰着されることを示すのにすべての段階を、 (3.86) から始めて確かめよ。

参照

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)=\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-E({\bf m}_N)-\frac{1}{2}\ln|{\bf A}|-\frac{N}{2}\ln(2\pi)\tag{3.86}\\
\end{eqnarray}

\begin{eqnarray}
\gamma=\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\tag{3.91}
\end{eqnarray}

\begin{eqnarray}
\frac{1}{\beta}=\frac{1}{N-\gamma}\sum_{n=1}^N\left(t_n-{\bf m}_N^\top{\boldsymbol\phi}({\bf x}_n)\right)^2\tag{3.95}
\end{eqnarray}

解答

行列\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}を行列\bf Pで対角化します。

\begin{eqnarray}
{\bf P}^{-1}(\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}){\bf P}={\rm diag}(\lambda_1,\ldots,\lambda_M)\tag{1}
\end{eqnarray}

すると、行列{\bf A}にも対角化ができます。

\begin{eqnarray}
{\bf P}^{-1}{\bf A}{\bf P}={\rm diag}(\alpha+\lambda_1,\ldots,\alpha+\lambda_M)\tag{2}
\end{eqnarray}

(2)の導出については、PRML演習問題 3.20(標準) wwwの補足を参照してください。

\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}固有値\lambda_i\betaに比例するので、\lambda_i=\beta a_iとおいて、\beta微分すると、

\begin{eqnarray}
\frac{d}{d\beta}\lambda_i&=&\frac{d}{d\beta}\beta a_i\\
&=&a_i\\
&=&\frac{\lambda_i}{\beta}\tag{3}
\end{eqnarray}

となります。
\ln|{\bf A}|\beta微分します。

\begin{eqnarray}
\frac{d}{d\beta}\ln|{\bf A}|&=&\frac{d}{d\beta}\ln\prod_{i=1}^M(\lambda_i+\alpha)\\
&=&\frac{d}{d\beta}\sum_{i=1}^M\ln(\lambda_i+\alpha)\\
&=&\sum_{i=1}^M\frac{d}{d(\lambda_i+\alpha)}\ln(\lambda_i+\alpha)\frac{d}{d\beta}(\lambda_i+\alpha)\\
&=&\frac{1}{\beta}\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\\
&=&\frac{\gamma}{\beta}\tag{4}
\end{eqnarray}

対数周辺尤度(3.86)\beta微分して=0とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\beta}\ln p({\bf t}|\alpha,\beta)=0\\
&&\Leftrightarrow\frac{N}{2\beta}-\frac{1}{2}||{\bf t}-{\boldsymbol\Phi}{\bf m}_N||^2-\frac{\gamma}{2\beta}=0\\
&&\Leftrightarrow\frac{1}{\beta}=\frac{1}{N-\underbrace{\gamma}_{(3.91)}}||{\bf t}-{\boldsymbol\Phi}{\bf m}_N||^2\\
&&\Leftrightarrow\frac{1}{\beta}=\frac{1}{N-\gamma}\sum_{n=1}^N\left(t_n-{\bf m}_N^\top{\boldsymbol\phi}({\bf x}_n)\right)^2\tag{5}
\end{eqnarray}

(5) より、式 (3.95) が示せました。

目次へ戻る