機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 3.8(標準) www

問題

3.1 節の線形基底関数モデルを考える。
そして、すでに N 個のデータ点が観測され、\bf w の事後分布が (3.49) で与えられるとする。
この事後分布は次に観測されるデータの事前確率とみなすことができる。
追加のデータ点 ({\bf x}_{N+1},t_{N+1}) を考え、指数関数の中で平方完成することにより、
事後確率が再び (3.49) の形式で与えられ、{\bf S}_N{\bf S}_{N+1} に、{\bf m}_N{\bf m}_{N+1} にそれぞれ置き換えたものになることを示せ。

参照

\begin{eqnarray}
p({\bf w}|{\bf t})={\mathcal N}({\bf w}|{\bf m}_N,{\bf S}_N)\tag{3.49}
\end{eqnarray}

\begin{eqnarray}
{\bf m}_N={\bf S}_N\left({\bf S}_0^{-1}{\bf m}_0+\beta{\boldsymbol\Phi}^\top{\bf t}\right)\tag{3.50}
\end{eqnarray}

\begin{eqnarray}
{\bf S}_N^{-1}={\bf S}_0^{-1}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\tag{3.51}
\end{eqnarray}

解答

N 個のデータが与えられたときの {\bf w} の事後分布を事前分布とみなすので、式 (3.49) は以下のように書けます。

\begin{eqnarray}
p({\bf w})={\mathcal N}({\bf w}|{\bf m}_N,{\bf S}_N)\tag{1}
\end{eqnarray}

追加のデータ点 ({\bf x}_{N+1},t_{N+1}) が与えられたときの尤度関数は、以下のように書けます。
また、{\boldsymbol\phi}_{N+1}={\boldsymbol\phi}({\bf x}_{N+1}) とします。

\begin{eqnarray}
p(t_{N+1}|{\bf x}_{N+1},{\bf w})=\left(\frac{\beta}{2\pi}\right)\exp\left(-\frac{\beta}{2}\left(t_{N+1}-{\bf w}^\top{\boldsymbol\phi}_{N+1}\right)^2\right)\tag{2}
\end{eqnarray}

(1),(2) より、\bf w の事後分布は次式で表されます。

\begin{eqnarray}
p({\bf w}|t_{N+1},{\bf x}_{N+1},{\bf m}_N,{\bf S}_N)&\propto&p(t_{N+1}|{\bf w},{\bf x}_{N+1},{\bf m}_N,{\bf S}_N)p({\bf w}|{\bf x}_{N+1},{\bf m}_N,{\bf S}_N)\\
&=&p(t_{N+1}|{\bf x}_{N+1},{\bf w})p({\bf w})\\
&=&\underbrace{\left(\frac{\beta}{2\pi}\right)\exp\left(-\frac{\beta}{2}\left(t_{N+1}-{\bf w}^\top{\boldsymbol\phi}_{N+1}\right)^2\right)}_{(2)}\underbrace{{\mathcal N}({\bf w}|{\bf m}_N,{\bf S}_N)}_{(1)}\\
&\propto&\exp\left(-\frac{1}{2}({\bf w}-{\bf m}_N)^\top{\bf S}_N^{-1}({\bf w}-{\bf m}_N)-\frac{\beta}{2}\left(t_{N+1}-{\bf w}^\top{\boldsymbol\phi}_{N+1}\right)^2)\right)\\
&\propto&\exp\left(-\frac{1}{2}\left({\bf w}^\top{\bf S}_N^{-1}{\bf w}-2{\bf w}^\top{\bf S}_N^{-1}{\bf m}_N+\beta{\bf w}^\top{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top{\bf w}-2\beta{\bf w}^\top{\boldsymbol\phi}_{N+1}t_{N+1}\right)\right)\\
&=&\exp\left(-\frac{1}{2}\left({\bf w}^\top\left({\bf S}_N^{-1}+\beta{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\right){\bf w}-2{\bf w}^\top\left({\bf S}_N^{-1}{\bf m}_N+\beta{\boldsymbol\phi}_{N+1}t_{N+1}\right)\right)\right)\tag{3}
\end{eqnarray}

(3) より、p({\bf w}|t_{N+1},{\bf x}_{N+1},{\bf m}_N,{\bf S}_N)ガウス分布であることが分かるので、平均を {\bf m}_{N+1}、共分散行列を {\bf S}_{N+1} とおくと、以下が成り立ちます。

\begin{eqnarray}
p({\bf w}|t_{N+1},{\bf x}_{N+1},{\bf m}_N,{\bf S}_N)&=&{\mathcal N}({\bf w}|{\bf m}_{N+1},{\bf S}_{N+1})\\
&\propto&\exp\left(-\frac{1}{2}({\bf w}-{\bf m}_{N+1})^\top{\bf S}_{N+1}^{-1}({\bf w}-{\bf m}_{N+1})\right)\\
&\propto&\exp\left(-\frac{1}{2}\left({\bf w}^\top{\bf S}_{N+1}^{-1}{\bf w}-2{\bf w}^\top{\bf S}_{N+1}^{-1}{\bf m}_{N+1}\right)\right)\tag{4}
\end{eqnarray}

(3),(4) の係数を比較すると、以下が成り立ちます。

\begin{eqnarray}
{\bf m}_{N+1}={\bf S}_{N+1}\left({\bf S}_N^{-1}{\bf m}_N+\beta{\boldsymbol\phi}_{N+1}t_{N+1}\right)\tag{5}
\end{eqnarray}

\begin{eqnarray}
{\bf S}_{N+1}^{-1}={\bf S}_N^{-1}+\beta{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\tag{6}
\end{eqnarray}

(5) に式 (3.50) を代入します。

\begin{eqnarray}
{\bf m}_{N+1}&=&{\bf S}_{N+1}(\underbrace{{\bf S}_0^{-1}{\bf m}_0+\beta{\boldsymbol\Phi}^\top{\bf t}}_{={\bf S}_N^{-1}{\bf m}_N}+\beta{\boldsymbol\phi}_{N+1}t_{N+1})\\
&=&{\bf S}_{N+1}\left({\bf S}_0^{-1}{\bf m}_0+\beta\left({\boldsymbol\Phi}^\top{\bf t}+{\boldsymbol\phi}_{N+1}t_{N+1}\right)\right)\\
&=&{\bf S}_{N+1}\left({\bf S}_0^{-1}{\bf m}_0+\beta\widetilde{{\boldsymbol\Phi}}^\top\tilde{\bf t}\right)\tag{7}
\end{eqnarray}

(7)\widetilde{{\boldsymbol\Phi}},\ \tilde{\bf t} を以下のようにおきました。

\begin{eqnarray}
\widetilde{{\boldsymbol\Phi}}=\begin{pmatrix}{\boldsymbol\phi}_1^\top\\ \vdots\\ {\boldsymbol\phi}_N^\top\\ {\boldsymbol\phi}_{N+1}^\top\\ \end{pmatrix},
\tilde{{\bf t}}=\begin{pmatrix}t_1\\ \vdots\\ t_N\\ t_{N+1}\\ \end{pmatrix},\tag{8}
\end{eqnarray}

(7) は式 (3.50) と同じ形をしていることが分かります。

(6) に式 (3.51) を代入します。

\begin{eqnarray}
{\bf S}_{N+1}^{-1}&=&{\bf S}_0^{-1}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}+\beta{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\\
&=&{\bf S}_0^{-1}+\beta\left({\boldsymbol\Phi}^\top{\boldsymbol\Phi}+{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\right)\\
&=&{\bf S}_0^{-1}+\beta\widetilde{{\boldsymbol\Phi}}^\top\widetilde{{\boldsymbol\Phi}}\tag{9}
\end{eqnarray}

(9) は式 (3.51) と同じ形をしていることが分かります。

(4),(7),(9) より、事後確率が再び (3.49) の形式で与えられ、{\bf S}_N{\bf S}_{N+1} に、{\bf m}_N{\bf m}_{N+1} にそれぞれ置き換えたものになることが示せました。

補足
  • (7),(9) の検算をします。

まず、{\boldsymbol\Phi}^\top{\bf t}+{\boldsymbol\phi}_{N+1}t_{N+1}=\widetilde{{\boldsymbol\Phi}}^\top\tilde{\bf t} を確認します。

\begin{eqnarray}
\widetilde{{\boldsymbol\Phi}}^\top\tilde{\bf t}&=&\begin{pmatrix}{\boldsymbol\phi}_1,\ldots,{\boldsymbol\phi}_N,{\boldsymbol\phi}_{N+1}\end{pmatrix}\begin{pmatrix}t_1\\ \vdots\\ t_N\\ t_{N+1}\end{pmatrix}\\
&=&{\boldsymbol\phi}_1t_1+\cdots{\boldsymbol\phi}_Nt_N+{\boldsymbol\phi}_{N+1}t_{N+1}\\
&=&\begin{pmatrix}{\boldsymbol\phi}_1,\ldots,{\boldsymbol\phi}_N\end{pmatrix}\begin{pmatrix}t_1\\ \vdots\\ t_N\end{pmatrix}+{\boldsymbol\phi}_{N+1}t_{N+1}\\
&=&{\boldsymbol\Phi}^\top{\bf t}+{\boldsymbol\phi}_{N+1}t_{N+1}\tag{10}
\end{eqnarray}

次に、{\boldsymbol\Phi}^\top{\boldsymbol\Phi}+{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top=\widetilde{{\boldsymbol\Phi}}^\top\widetilde{{\boldsymbol\Phi}} を確認します。

\begin{eqnarray}
\widetilde{{\boldsymbol\Phi}}^\top\widetilde{{\boldsymbol\Phi}}&=&\begin{pmatrix}{\boldsymbol\phi}_1,\ldots,{\boldsymbol\phi}_N,{\boldsymbol\phi}_{N+1}\end{pmatrix}\begin{pmatrix}{\boldsymbol\phi}_1^\top\\ \vdots\\ {\boldsymbol\phi}_N^\top\\ {\boldsymbol\phi}_{N+1}^\top\\ \end{pmatrix}\\
&=&{\boldsymbol\phi}_1{\boldsymbol\phi}_1^\top+\cdots{\boldsymbol\phi}_N{\boldsymbol\phi}_N^\top+{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\\
&=&\begin{pmatrix}{\boldsymbol\phi}_1,\ldots,{\boldsymbol\phi}_N\end{pmatrix}\begin{pmatrix}{\boldsymbol\phi}_1^\top\\ \vdots\\ {\boldsymbol\phi}_N^\top \end{pmatrix}+{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\\
&=&{\boldsymbol\Phi}^\top{\boldsymbol\Phi}+{\boldsymbol\phi}_{N+1}{\boldsymbol\phi}_{N+1}^\top\tag{11}
\end{eqnarray}

  • 「本家の解答」は式 (5),(6) でやめているようです。
目次へ戻る