機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.21(標準)

問題

(3.92) はエピデンスの枠組みにおける最適な\alpha の値である。
この結果は、次の等式を使って導出することもできる。

\begin{eqnarray}
\frac{\rm d}{{\rm d}\alpha}\ln|{\bf A}|={\rm Tr}\left({\bf A}^{-1}\frac{\rm d}{{\rm d}\alpha}{\bf A}\right)\tag{3.117}
\end{eqnarray}

実対称行列 \bf A固有値展開、および \bf A行列式とトレースの固有値表現の標準的結果(付録 C 参照)を用いて、
この等式を証明せよ。
そして、(3.117) を用いて (3.86) から (3.92) を導け。

参照

\begin{eqnarray}
{\bf A}=\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{3.81}
\end{eqnarray}

\begin{eqnarray}
E({\bf m}_N)=\frac{\beta}{2}  \left | \left | \mathbf t-\boldsymbol \Phi \mathbf m_N \right | \right | ^ 2+\frac{\alpha}{2}\mathbf m_N^\top \mathbf m_N\tag{3.82}
\end{eqnarray}

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)=\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-E({\bf m}_N)-\frac{1}{2}\ln|{\bf A}|-\frac{N}{2}\ln(2\pi)\tag{3.86}\\
\end{eqnarray}

\begin{eqnarray}
\gamma=\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\tag{3.91}
\end{eqnarray}

\begin{eqnarray}
\alpha=\frac{\gamma}{{\bf m}_N^\top{\bf m}_N}\tag{3.92}
\end{eqnarray}

\begin{eqnarray}
{\bf A}=\sum_{i=1}^M\lambda_i{\bf u}_i{\bf u}_i^\top\tag{C.45}
\end{eqnarray}

\begin{eqnarray}
{\bf A}^{-1}=\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top\tag{C.46}
\end{eqnarray}

\begin{eqnarray}
 |{\bf A}|=\prod_{i=1}^M\lambda_i\tag{C.47}
\end{eqnarray}

解答

{\bf A}固有値\lambda_i\ (i=1,\ldots,M) とします。

(3.117) の左辺 \dfrac{\rm d}{{\rm d}\alpha}\ln|{\bf A}| を計算します。

\begin{eqnarray}
\frac{\rm d}{{\rm d}\alpha}\ln|{\bf A}|&=&\frac{\rm d}{{\rm d}\alpha}\ln\underbrace{\prod_{i=1}^M\lambda_i}_{(C.47)}\\
&=&\frac{\rm d}{{\rm d}\alpha}\sum_{i=1}^M\ln\lambda_i\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i}\frac{\rm d\lambda_i}{{\rm d}\alpha}\tag{1}
\end{eqnarray}

(3.117) の右辺 {\rm Tr}\left({\bf A}^{-1}\dfrac{\rm d}{{\rm d}\alpha}{\bf A}\right) を計算します。

\begin{eqnarray}
{\rm Tr}\left({\bf A}^{-1}\frac{\rm d}{{\rm d}\alpha}{\bf A}\right)&=&{\rm Tr}\Bigg(\underbrace{\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top}_{(C.46)}\frac{\rm d}{{\rm d}\alpha}\sum_{j=1}^M\lambda_j{\bf u}_j{\bf u}_j^\top\Bigg)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top\sum_{j=1}^M\left(\frac{{\rm d}\lambda_j}{{\rm d}\alpha}{\bf u}_j{\bf u}_j^\top+\lambda_j\frac{{\rm d}{\bf u}_j}{{\rm d}\alpha}{\bf u}_j^\top+\lambda_j{\bf u}_j\frac{{\rm d}{\bf u}_j^\top}{{\rm d}\alpha}\right)\right)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top\sum_{j=1}^M\left(\frac{{\rm d}\lambda_j}{{\rm d}\alpha}{\bf u}_j{\bf u}_j^\top+2\lambda_j{\bf u}_j\frac{{\rm d}{\bf u}_j^\top}{{\rm d}\alpha}\right)\right)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top\sum_{j=1}^M\frac{{\rm d}\lambda_j}{{\rm d}\alpha}{\bf u}_j{\bf u}_j^\top+\sum_{i=1}^M\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^\top\sum_{j=1}^M2\lambda_j{\bf u}_j\frac{{\rm d}{\bf u}_j^\top}{{\rm d}\alpha}\right)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\sum_{j=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_j}{{\rm d}\alpha}{\bf u}_i{\bf u}_i^\top{\bf u}_j{\bf u}_j^\top+\sum_{i=1}^M\sum_{j=1}^M\frac{1}{\lambda_i}2\lambda_j{\bf u}_i{\bf u}_i^\top{\bf u}_j\frac{{\rm d}{\bf u}_j^\top}{{\rm d}\alpha}\right)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}{\bf u}_i{\bf u}_i^\top+\sum_{i=1}^M2{\bf u}_i\frac{{\rm d}{\bf u}_i^\top}{{\rm d}\alpha}\right)\\
&=&{\rm Tr}\left(\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}{\bf u}_i{\bf u}_i^\top\right)+{\rm Tr}\left(\sum_{i=1}^M2{\bf u}_i\frac{{\rm d}{\bf u}_i^\top}{{\rm d}\alpha}\right)\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}+{\rm Tr}\left(\sum_{i=1}^M\left(\frac{{\rm d}{\bf u}_i}{{\rm d}\alpha}{\bf u}_i^\top+{\bf u}_i\frac{{\rm d}{\bf u}_i^\top}{{\rm d}\alpha}\right)\right)\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}+{\rm Tr}\left(\frac{{\rm d}}{{\rm d}\alpha}\sum_{i=1}^M{\bf u}_i{\bf u}_i^\top\right)\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}+{\rm Tr}\left(\frac{{\rm d}}{{\rm d}\alpha}{\bf I}\right)\\
&=&\sum_{i=1}^M\frac{1}{\lambda_i}\frac{{\rm d}\lambda_i}{{\rm d}\alpha}\tag{2}
\end{eqnarray}

(1),(2) より、式 (3.117) が示せました。

(3.86)\alpha微分して =0 とおきます。

\begin{eqnarray}
&&\frac{{\rm d}}{{\rm d}\alpha}\ln p({\bf t}|\alpha,\beta)=0\\
&&\Leftrightarrow\frac{M}{2}\frac{{\rm d}}{{\rm d}\alpha}\ln\alpha+\frac{{\rm d}}{{\rm d}\alpha}E({\bf m}_N)-\frac{1}{2}\frac{{\rm d}}{{\rm d}\alpha}\ln|{\bf A}|=0\\
&&\Leftrightarrow\frac{M}{2\alpha}+\frac{{\rm d}}{{\rm d}\alpha}\left(\frac{\beta}{2} \left | \left | \mathbf t-\boldsymbol \Phi \mathbf m_N \right | \right | ^ 2+\frac{\alpha}{2}\mathbf m_N^\top \mathbf m_N\right)-\frac{1}{2}{\rm Tr}\left({\bf A}^{-1}\frac{\rm d}{{\rm d}\alpha}{\bf A}\right)=0\\
&&\Leftrightarrow\frac{M}{2\alpha}+\frac{1}{2}\mathbf m_N^\top \mathbf m_N-\frac{1}{2}{\rm Tr}\left({\bf A}^{-1}\right)=0\ \left(\because \frac{\rm d}{{\rm d}\alpha}{\bf A}={\bf I}\right)\\
&&\Leftrightarrow \frac{M}{2\alpha}-\frac{1}{2}{\bf m}_N^\top{\bf m}_N-\frac{1}{2}\sum_{i=1}^M\frac{1}{\lambda_i+\alpha}=0\\
&&\Leftrightarrow\alpha{\bf m}_N^\top{\bf m}_N=M-\sum_{i=1}^M\frac{\alpha}{\lambda_i+\alpha}\\
&&\Leftrightarrow\alpha{\bf m}_N^\top{\bf m}_N=\sum_{i=1}^M\frac{\lambda_i}{\lambda_i+\alpha}\\
&&\Leftrightarrow\alpha=\frac{\overbrace{\gamma}^{(3.91)}}{{\bf m}_N^\top{\bf m}_N}\tag{3}\\
\end{eqnarray}

(3) より、式 (3.92) が示せました。

補足

\displaystyle\sum_{i=1}^M{\bf u}_i{\bf u}_i^\top={\bf I} の変形は、射影(直交射影) の式 (9) を参考にしてください。

参考リンク

射影(直交射影)

目次へ戻る