機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.20(標準) www

問題

対数周辺尤度関数 (3.86)\alpha に関する最大化が再推定方程式 (3.92)
帰着されることを示すのに必要なすべての段階を、(3.86) から始めて確かめよ。

参照

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)=\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-E({\bf m}_N)-\frac{1}{2}\ln|{\bf A}|-\frac{N}{2}\ln(2\pi)\tag{3.86}\\
\end{eqnarray}

\begin{eqnarray}
\gamma=\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\tag{3.91}
\end{eqnarray}

\begin{eqnarray}
\alpha=\frac{\gamma}{{\bf m}_N^\top{\bf m}_N}\tag{3.92}
\end{eqnarray}

解答

行列\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}を行列\bf Pで対角化します。

\begin{eqnarray}
{\bf P}^{-1}(\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}){\bf P}={\rm diag}(\lambda_1,\ldots,\lambda_M)\tag{1}
\end{eqnarray}

すると、行列{\bf A}にも対角化ができます。

\begin{eqnarray}
{\bf P}^{-1}{\bf A}{\bf P}={\rm diag}(\alpha+\lambda_1,\ldots,\alpha+\lambda_M)\tag{2}
\end{eqnarray}

(2)の導出については、後で補足説明します。
よって、

\begin{eqnarray}
 |{\bf A}|=\prod_{i=1}^M(\lambda_i+\alpha)\tag{3}
\end{eqnarray}

となります。

\ln|{\bf A}|\alpha微分します。

\begin{eqnarray}
\frac{d}{d\alpha}\ln|{\bf A}|&=&\frac{d}{d\alpha}\ln\prod_{i=1}^M(\lambda_i+\alpha)\\
&=&\frac{d}{d\alpha}\sum_{i=1}^M\ln(\lambda_i+\alpha)\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i+\alpha}\tag{4}\\
\end{eqnarray}

対数周辺尤度(3.86)\alpha微分して=0とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\alpha}\ln p({\bf t}|\alpha,\beta)=0\\
&&\Leftrightarrow \frac{M}{2\alpha}-\frac{1}{2}{\bf m}_N^\top{\bf m}_N-\frac{1}{2}\sum_{i=1}^M\frac{1}{\lambda_i+\alpha}=0\\
&&\Leftrightarrow\alpha{\bf m}_N^\top{\bf m}_N=M-\sum_{i=1}^M\frac{\alpha}{\lambda_i+\alpha}\\
&&\Leftrightarrow\alpha{\bf m}_N^\top{\bf m}_N=\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\\
&&\Leftrightarrow\alpha=\frac{\overbrace{\gamma}^{(3.91)}}{{\bf m}_N^\top{\bf m}_N}\tag{5}\\
\end{eqnarray}

(5) より、式 (3.92) が示せました。

補足

(2) の説明です。
\alpha{\bf I}固有値は全て \alpha (重解)なので、固有ベクトル\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}固有ベクトルに合わせることができます。
よって、対角化する直交行列は \beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi} を対角化する直交行列 {\bf P} と同じものとなります。

以下で、式(2) を導出します。

\begin{eqnarray}
&&{\bf P}^{-1}(\alpha{\bf I}){\bf P}+{\bf P}^{-1}(\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}){\bf P}={\rm diag}(\alpha,\ldots,\alpha)+{\rm diag}(\lambda_1,\ldots,\lambda_M)\\
&&\Leftrightarrow{\bf P}^{-1}(\alpha{\bf I}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}){\bf P}={\rm diag}(\alpha+\lambda_1,\ldots,\alpha+\lambda_M)\\
&&\Leftrightarrow{\bf P}^{-1}{\bf A}{\bf P}={\rm diag}(\alpha+\lambda_1,\ldots,\alpha+\lambda_M)\tag{6}
\end{eqnarray}

目次へ戻る