機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 7.10(標準) www

問題

RVM回帰モデルについて周辺化尤度関数の式 (7.85) を、
(7.84)\bf w に対する積分を実行することで導け。(指数に現れる 2 次式を平方完成するとよい。)

参照

\begin{eqnarray}
p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)=\int p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha}){\rm d}{\bf w}\tag{7.84}
\end{eqnarray}

\begin{eqnarray}
\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\ln {\mathcal N}({\bf t}|{\bf 0},{\bf C})\\
&=&-\frac{1}{2}\left(N\ln(2\pi)+\ln|{\bf C}|+{\bf t}^\top{\bf C}^{-1}{\bf t}\right)\tag{7.85}
\end{eqnarray}

\begin{eqnarray}
{\bf C}=\beta^{-1}{\bf I}+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top\tag{7.86}
\end{eqnarray}

解答

周辺尤度 p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta) を求めます。

\begin{eqnarray}
p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\int p({\bf t},{\bf w}|{\bf X},{\boldsymbol\alpha},\beta){\rm d}{\bf w}\\
&=&\int p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha}){\rm d}{\bf w}\\
&=&\int \mathcal{N}({\bf t}|{\boldsymbol\Phi}{\bf w},\beta^{-1}{\bf I}_N)\mathcal{N}({\bf w}|{\bf 0},{\bf A}^{-1}){\rm d}{\bf w}\\
&=&\int\frac{\sqrt{\beta^N}}{\sqrt{(2\pi)^N}}\exp\left(-\frac{\beta}{2}({\bf t}-{\boldsymbol\Phi}{\bf w})^\top({\bf t}-{\boldsymbol\Phi}{\bf w})\right)\frac{\sqrt{|{\bf A}|}}{\sqrt{(2\pi)^{N+1}}}\exp\left(-\frac{1}{2}{\bf w}^\top{\bf A}{\bf w}\right){\rm d}{\bf w}\\
&=&\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^{2N+1}}}\int\exp\left(-\frac{1}{2}\left({\bf w}^\top{\bf A}{\bf w}+\beta({\bf t}-{\boldsymbol\Phi}{\bf w})^\top({\bf t}-{\boldsymbol\Phi}{\bf w})\right)\right){\rm d}{\bf w}\tag{1}
\end{eqnarray}

(1) の指数部を \bf w について平方完成します。

\begin{eqnarray}
{\bf w}^\top{\bf A}{\bf w}+\beta({\bf t}-{\boldsymbol\Phi}{\bf w})^\top({\bf t}-{\boldsymbol\Phi}{\bf w})&=&{\bf w}^\top{\bf A}{\bf w}+\beta{\bf w}^\top{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf w}-2\beta{\bf w}^\top{\boldsymbol\Phi}^\top{\bf t}+\beta{\bf t}^\top{\bf t}\\
&=&{\bf w}^\top({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}){\bf w}-2\beta{\bf w}^\top{\boldsymbol\Phi}^\top{\bf t}+\beta{\bf t}^\top{\bf t}\\
&=&({\bf w}-{\boldsymbol\mu}_{\bf w})^\top{\bf \Lambda}_{\bf w}({\bf w}-{\boldsymbol\mu}_{\bf w})+\beta{\bf t}^\top{\bf t}-{\boldsymbol\mu}_{\bf w}^\top{\bf \Lambda}_{\bf w}{\boldsymbol\mu}_{\bf w}\\
&=&({\bf w}-{\boldsymbol\mu}_{\bf w})^\top{\bf \Lambda}_{\bf w}({\bf w}-{\boldsymbol\mu}_{\bf w})+\beta{\bf t}^\top{\bf t}-\beta^2{\bf t}^\top{\boldsymbol\Phi}{\bf\Lambda}_{\bf w}^{-1}{\boldsymbol\Phi}^\top{\bf t}\\
&=&({\bf w}-{\boldsymbol\mu}_{\bf w})^\top{\bf \Lambda}_{\bf w}({\bf w}-{\boldsymbol\mu}_{\bf w})+{\bf t}^\top(\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}{\bf\Lambda}_{\bf w}^{-1}{\boldsymbol\Phi}^\top){\bf t}\\
&=&({\bf w}-{\boldsymbol\mu}_{\bf w})^\top{\bf \Lambda}_{\bf w}({\bf w}-{\boldsymbol\mu}_{\bf w})+{\bf t}^\top{\bf\Lambda}_{\bf t}{\bf t}\tag{2}
\end{eqnarray}

(2) で、{\boldsymbol\mu}_{\bf w},{\bf\Lambda}_{\bf w},{\bf\Lambda}_{\bf t} は以下のようにおきました。

\begin{eqnarray}
&&{\boldsymbol\mu}_{\bf w}=\beta{\bf\Lambda}_{\bf w}^{-1}{\boldsymbol\Phi}^\top{\bf t}\tag{3}\\
&&{\bf\Lambda}_{\bf w}={\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{4}\\
&&{\bf\Lambda}_{\bf t}=\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}{\bf\Lambda}_{\bf w}^{-1}{\boldsymbol\Phi}^\top\tag{5}
\end{eqnarray}

(2) を式 (1) に代入します。

\begin{eqnarray}
p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^{2N+1}}}\int\exp\left(-\frac{1}{2}\left(({\bf w}-{\boldsymbol\mu}_{\bf w})^\top{\bf \Lambda}_{\bf w}({\bf w}-{\boldsymbol\mu}_{\bf w})+{\bf t}^\top{\bf\Lambda}_{\bf t}{\bf t}\right)\right){\rm d}{\bf w}\\
&=&\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^{2N+1}}}\exp\left(-\frac{1}{2}{\bf t}^\top{\bf\Lambda}_{\bf t}{\bf t}\right)\frac{\sqrt{(2\pi)^{N+1}}}{\sqrt{|{\bf\Lambda}_{\bf w}|}}\\
&=&\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^N|{\bf\Lambda}_{\bf w}|}}\exp\left(-\frac{1}{2}{\bf t}^\top{\bf\Lambda}_{\bf t}{\bf t}\right)\tag{6}
\end{eqnarray}

(6)\bf t に関して、平均が \bf 0、共分散が {\bf\Lambda_{\bf t}}正規分布になっています。
(6) の正規化項を見てみると、

\begin{eqnarray}
\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^N|{\bf\Lambda}_{\bf w}|}}=\frac{\sqrt{|{\bf\Lambda}_{\bf t}|}}{\sqrt{(2\pi)^N}}\tag{7}
\end{eqnarray}

が成り立たなければなりません。
(7) を、|{\bf\Lambda}_{\bf t}|^{-1} について解きます。

\begin{eqnarray}
&&\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{(2\pi)^N|{\bf\Lambda}_{\bf w}|}}=\frac{\sqrt{|{\bf\Lambda}_{\bf t}|}}{\sqrt{(2\pi)^N}}\\
&&\Leftrightarrow\frac{\sqrt{\beta^N|{\bf A}|}}{\sqrt{|{\bf\Lambda}_{\bf w}|}}=\sqrt{|{\bf\Lambda}_{\bf t}|}\\
&&\Leftrightarrow\frac{\beta^N|{\bf A}|}{|{\bf\Lambda}_{\bf w}|}=|{\bf\Lambda}_{\bf t}|\\
&&\Leftrightarrow|{\bf\Lambda}_{\bf t}|^{-1}=\frac{|{\bf\Lambda}_{\bf w}|}{\beta^N|{\bf A}|}\tag{8}\\
\end{eqnarray}

(8) を変形します。

\begin{eqnarray}
 |{\bf\Lambda}_{\bf t}|^{-1}&=&\frac{|{\bf\Lambda}_{\bf w}|}{\beta^N|{\bf A}|}\\
&=&\frac{|{\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}|}{\beta^N|{\bf A}|}\\
&=&\frac{|{\bf A}||{\bf I}_N+\beta{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}|}{\beta^N|{\bf A}^\top|}\\
&=&\beta^{-N}|{\bf I}_N+\beta{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top|\\
&=&\left|\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top\right|\tag{9}\\
\end{eqnarray}

(9) の式変形で、公式|{\bf A}+{\bf B}{\bf C}|=|{\bf A}||{\bf I}_N+{\bf C}{\bf A}^{-1}{\bf B}|,|a{\bf A}|=a^N|{\bf A}|を用いました。

(5) より

\begin{eqnarray}
{\bf\Lambda}_{\bf t}&=&\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top\tag{10}
\end{eqnarray}

です。

ウッドベリーの公式

\begin{eqnarray}
({\bf A}+{\bf B}{\bf D}^{-1}{\bf C})^{-1}={\bf A}^{-1}-{\bf A}^{-1}{\bf B}({\bf D}+{\bf C}{\bf A}^{-1}{\bf B})^{-1}{\bf C}{\bf A}^{-1}\tag{11}
\end{eqnarray}

{\bf A}^{-1}=\beta{\bf I}_N,{\bf B}={\boldsymbol\Phi},{\bf C}={\boldsymbol\Phi}^\top,{\bf D}={\bf A}として、式 (10) に適用します。

\begin{eqnarray}
{\bf\Lambda}_{\bf t}=(\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top)^{-1}\tag{12}
\end{eqnarray}

(6),(7),(9),(12) より、以下が成り立ちます。

\begin{eqnarray}
p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\frac{1}{\sqrt{(2\pi)^N}}\cdot\frac{1}{\sqrt{|\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top|}}\exp\left(-\frac{1}{2}{\bf t}^\top(\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top)^{-1}{\bf t}\right)\\
&=&\mathcal{N}({\bf t}|{\bf 0},{\bf C})\tag{13}
\end{eqnarray}

(13)\bf C は以下のように定義しました。

\begin{eqnarray}
{\bf C}=\beta^{-1}{\bf I}_N+{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top\tag{14}
\end{eqnarray}

(13) に対数を取ります。

\begin{eqnarray}
\ln p({\bf t}|{\bf X},{\boldsymbol\alpha},\beta)&=&\ln \mathcal{N}({\bf t}|{\bf 0},{\bf C})\\
&=&-\frac{1}{2}\left(N\ln(2\pi)+\ln|{\bf C}|+{\bf t}^\top{\bf C}^{-1}{\bf t}\right)\tag{15}
\end{eqnarray}

(15) より、式 (7.85) が示せました。

参考文献

入門 パターン認識機械学習

目次へ戻る