機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.16(標準)

問題

(3.77)積分の評価に (2.115) を直接用いて、
(3.86) で与えられる線形回帰モデルの対数エビデンス関数 p({\bf t}|\alpha,\beta) の結果を導け。

参照

\begin{eqnarray}
&&p(\bf x) &=& \mathcal{N}(\mathbf x | \boldsymbol\mu, \mathbf\Lambda^{-1})\tag{2.113}\\
&&p(\bf y | \bf x) &=& \mathcal{N}(\mathbf y | \mathbf A \mathbf x + \mathbf b, \mathbf{L}^{-1}) \tag{2.114}\\
\end{eqnarray}

のとき、

\begin{eqnarray}
p(\mathbf y) = \mathcal{N}(\mathbf y | \mathbf A {\boldsymbol\mu} + \mathbf b , \mathbf{L}^{-1} + \mathbf A \mathbf \Lambda^{-1} \mathbf A^{\top}) \tag{2.115}
\end{eqnarray}

\begin{eqnarray}
p({\bf t}|{\bf X},{\bf w},\beta)=\prod_{n=1}^N{\mathcal N}(t_n|{\bf w}^\top{\boldsymbol\phi}({\bf x}_n),\beta^{-1})\tag{3.10}
\end{eqnarray}

\begin{eqnarray}
p({\bf w}|\alpha)={\mathcal N}({\bf w}|{\bf 0},\alpha^{-1}{\bf I})\tag{3.52}
\end{eqnarray}

\begin{eqnarray}
{\bf m}_N=\beta{\bf S}_N{\boldsymbol\Phi}^\top{\bf t}\tag{3.53}
\end{eqnarray}

\begin{eqnarray}
{\bf S}_N^{-1}=\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{3.54}
\end{eqnarray}

\begin{eqnarray}
p({\bf t}|\alpha,\beta)=\int p({\bf t}|{\bf w},\beta)p({\bf w}|\alpha){\rm d}{\bf w}\tag{3.77}
\end{eqnarray}

\begin{eqnarray}
{\bf A}=\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{3.81}
\end{eqnarray}

\begin{eqnarray}
E({\bf m}_N)=\frac{\beta}{2}  \left | \left | \mathbf t-\boldsymbol \Phi \mathbf m_N \right | \right | ^ 2+\frac{\alpha}{2}\mathbf m_N^\top \mathbf m_N\tag{3.82}
\end{eqnarray}

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)=\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-E({\bf m}_N)-\frac{1}{2}\ln|{\bf A}|-\frac{N}{2}\ln(2\pi)\tag{3.86}\\
\end{eqnarray}

\begin{eqnarray}
({\bf A}+{\bf B}{\bf D}^{-1}{\bf C})^{-1}={\bf A}^{-1}-{\bf A}^{-1}{\bf B}({\bf D}+{\bf C}{\bf A}^{-1}{\bf B})^{-1}{\bf C}{\bf A}^{-1}\tag{C.7}
\end{eqnarray}

\begin{eqnarray}
 |{\bf I}_N+{\bf AB}^\top|=|{\bf I}_M+{\bf A}^\top{\bf B}|\ \ \  ({\bf A},{\bf B}\in{\mathbb R}^{N\times M})\tag{C.14}
\end{eqnarray}

解答

周辺尤度 p({\bf t}|\alpha,\beta) を計算します。

\begin{eqnarray}
p({\bf t}|\alpha,\beta)&=&\int p({\bf t},{\bf w}|\alpha,\beta){\rm d}{\bf w}\\
&=&\int p({\bf t}|{\bf w},\beta)p({\bf w}|\alpha){\rm d}{\bf w}\\
&=&\int \underbrace{\left(\prod_{n=1}^N{\mathcal N}(t_n|{\bf w}^\top{\boldsymbol\phi}({\bf x}_n),\beta^{-1})\right)}_{(3.10)}\underbrace{\mathcal{N}({\bf w}|{\bf 0},\alpha^{-1}{\bf I}_M)}_{(3.52)}{\rm d}{\bf w}\\
&=&\int \mathcal{N}({\bf t}|{\boldsymbol\Phi}{\bf w},\beta^{-1}{\bf I}_N)\mathcal{N}({\bf w}|{\bf 0},\alpha^{-1}{\bf I}_M){\rm d}{\bf w}\tag{1}\\
\end{eqnarray}

(1) は式 (2.113),(2.114),(2.115) を使えば、積分計算せずに求まります。
(2.113),(2.114),(2.115)
{\bf x}={\bf w},{\boldsymbol\mu}={\bf 0},{\boldsymbol\Lambda}^{-1}=\alpha^{-1}{\bf I}_M,{\bf y}={\bf t},{\bf A}={\boldsymbol\Phi},{\bf L}^{-1}=\beta^{-1}{\bf I}_N,{\bf b}={\bf 0}のように当てはめると

\begin{eqnarray}
&&p({\bf t}|\alpha,\beta)=\mathcal{N}({\bf t}|{\bf 0},\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top)\tag{2}\\
\end{eqnarray}

となります。
(2) に対数を取ります。

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)&=&\ln \mathcal{N}({\bf t}|{\bf 0},\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top)\\
&=&-\frac{N}{2}\ln 2\pi-\frac{1}{2}\ln|\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top|-\frac{1}{2}{\bf t}^\top(\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top)^{-1}{\bf t}\tag{3}\\
\end{eqnarray}

(3)の第 2 項を計算します。

\begin{eqnarray}
 |\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top|&=& |\beta^{-1}{\bf I}_N+\beta^{-1}\beta\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top|\\
&=&\underbrace{\beta^{-N}|{\bf I}_N+\beta\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top|}_{|a{\bf A}|=a^N|{\bf A}|}\\
&=&\beta^{-N}\underbrace{|{\bf I}_M+\beta\alpha^{-1}{\boldsymbol\Phi}^\top{\boldsymbol\Phi}|}_{(C.14)}\\
&=&\beta^{-N}|\alpha^{-1}\alpha{\bf I}_M+\alpha^{-1}\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}|\\
&=&\beta^{-N}\underbrace{\alpha^{-M}|\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}|}_{|a{\bf A}|=a^N|{\bf A}|}\\
&=&\beta^{-N}\alpha^{-M}|\underbrace{{\bf A}}_{(3.81)}|\tag{4}
\end{eqnarray}

ウッドベリーの公式 (C.7) において {\bf A}=\beta^{-1}{\bf I}_N,{\bf B}=\alpha^{-1}{\boldsymbol\Phi},{\bf C}={\boldsymbol\Phi}^\top,{\bf D}^{-1}={\bf I}_M として、式 (3) の第 3 項に適用します。

\begin{eqnarray}
 -\frac{1}{2}{\bf t}^\top(\beta^{-1}{\bf I}_N+\alpha^{-1}{\boldsymbol\Phi}{\boldsymbol\Phi}^\top)^{-1}{\bf t}&=&-\frac{1}{2}{\bf t}^\top(\beta{\bf I}_N-\beta\alpha^{-1}{\boldsymbol\Phi}({\bf I}_M+{\boldsymbol\Phi}^\top\beta\alpha^{-1}{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top\beta){\bf t}\\
&=&-\frac{1}{2}{\bf t}^\top(\beta{\bf I}_N-\beta^2\alpha^{-1}{\boldsymbol\Phi}(\alpha^{-1}(\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}))^{-1}{\boldsymbol\Phi}^\top){\bf t}\\
&=&-\frac{1}{2}{\bf t}^\top(\beta{\bf I}_N-\beta^2\alpha^{-1}{\boldsymbol\Phi}( (\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})^{-1} \alpha ){\boldsymbol\Phi}^\top){\bf t}\\
&=&-\frac{1}{2}{\bf t}^\top(\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}(\alpha{\bf I}_M+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi})^{-1}{\boldsymbol\Phi}^\top){\bf t}\\
&=&-\frac{1}{2}{\bf t}^\top(\beta{\bf I}_N-\beta^2{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top){\bf t}\\
&=&-\frac{1}{2}(\beta{\bf t}^\top{\bf t}-{\beta^2}{\bf t}^\top{\boldsymbol\Phi}{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf t})\\
&=&-\frac{1}{2}(\beta{\bf t}^\top{\bf t}-{\beta^2}{\bf t}^\top{\boldsymbol\Phi}{\bf A}^{-1}{\bf A}{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf t})\\
&=&-\frac{1}{2}(\beta{\bf t}^\top{\bf t}-({\beta}{\bf t}^\top{\boldsymbol\Phi}{\bf A}^{-1}){\bf A}(\beta{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf t}))\\
&=&-\frac{1}{2}(\beta{\bf t}^\top{\bf t}-(\beta{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf t})^\top{\bf A}(\beta{\bf A}^{-1}{\boldsymbol\Phi}^\top{\bf t}))\\
&=&-\frac{1}{2}(\beta{\bf t}^\top{\bf t}-{\bf m}_N^\top{\bf A}{\bf m}_N)\\
&=&-\frac{1}{2} \left ( \beta \mathbf t^\top \mathbf t-2 \mathbf m^\top_N \mathbf A \mathbf m_N +  \mathbf m^\top_N \mathbf A \mathbf m_N \right ) \\
&=& - \frac { 1 } { 2 } \left ( \beta \mathbf { t } ^\top \mathbf { t } - 2  \mathbf { m } ^ \top_ { N } \mathbf { A } \left ( \beta \mathbf { A } ^ { - 1 } \mathbf { \Phi } ^\top \mathbf { t } \right ) +  \mathbf { m } ^\top_ { N }  \left ( \alpha \mathbf { I } _ { M } + \beta \mathbf { \Phi } ^\top \mathbf { \Phi } \right ) \mathbf { m } _ { N } \right ) \\
&=&-\frac{1}{2} \left ( \beta \mathbf t^\top \mathbf t-2 \mathbf m^\top_N  \boldsymbol \Phi  ^\top \mathbf t \beta + \beta  \mathbf m^\top_N  \boldsymbol \Phi  ^\top\boldsymbol \Phi\mathbf m_N+\alpha \mathbf m^\top_N \mathbf m_N \right ) \\
&=&-\frac{1}{2} \left ( \beta  \left ( \mathbf t-\boldsymbol \Phi \mathbf m_N \right ) ^\top \left ( \mathbf t-\boldsymbol \Phi \mathbf m_N \right )  +\alpha \mathbf m_N^\top \mathbf m_N \right ) \\
&=& -\frac{\beta}{2}  \left | \left | \mathbf t-\boldsymbol \Phi \mathbf m_N \right | \right | ^ 2-\frac{\alpha}{2}\mathbf m_N^\top \mathbf m_N\tag{5}
\end{eqnarray}

(4),(5) を式 (3) に代入します。

\begin{eqnarray}
\ln p({\bf t}|\alpha,\beta)&=&-\frac{N}{2}\ln 2\pi-\frac{1}{2}\ln\beta^{-N}\alpha^{-M}|{\bf A}|-\frac{\beta}{2}  \left | \left | \mathbf t-\boldsymbol \Phi \mathbf m_N \right | \right | ^ 2-\frac{\alpha}{2}\mathbf m_N^\top \mathbf m_N\\
&=&\frac{M}{2}\ln\alpha+\frac{N}{2}\ln\beta-\underbrace{E({\bf m}_N)}_{(3.82)}-\frac{1}{2}\ln|{\bf A}|-\frac{N}{2}\ln(2\pi)\tag{6}\\
\end{eqnarray}

(6) より、式 (3.86) が示せました。

補足

ウッドベリーの公式を使うところで、{\bf A}=\beta^{-1}{\bf I}_N,{\bf B}=\alpha^{-1}{\bf I}_N,{\bf C}={\boldsymbol\Phi}^\top,{\bf D}^{-1}={\boldsymbol\Phi} すると、
{\bf D}={\boldsymbol\Phi}^{-1} を計算することになりますが、
{\boldsymbol\Phi}N\times M 行列であり、正方行列とは限らないので逆行列が計算できません。

目次へ戻る