機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 6.26(基本)

問題

(2.115) の結果を用いて、ガウス過程による分類モデルに対する事後分布 p(a_{N+1}|{\bf t}_N)の平均 (6.87) と分散 (6.88) を導け。

参照

\begin{eqnarray}
p({\bf x}) = \mathcal{N}(\mathbf x | \boldsymbol\mu, \mathbf\Lambda^{-1})\tag{2.113}
\end{eqnarray}

\begin{eqnarray}
p({\bf y} | {\bf x}) = \mathcal{N}({\mathbf y}| {\mathbf A} \mathbf x + \mathbf b, \mathbf{L}^{-1}) \tag{2.114}
\end{eqnarray}

\begin{eqnarray}
p({\mathbf y}) = \mathcal{N}({\mathbf y} | {\mathbf A} {\boldsymbol\mu} + \mathbf b , \mathbf{L}^{-1} + \mathbf A \mathbf \Lambda^{-1} \mathbf A^{\top}) \tag{2.115}
\end{eqnarray}

\begin{eqnarray}
p(a_{N+1}|{\bf t}_N)&=&\int p(a_{N+1},{\bf a}_N|{\bf t}_N){\rm d}{\bf a}_N\\
&=&\frac{1}{p({\bf t}_N)}\int p(a_{N+1},{\bf a}_N)p({\bf t}_N|a_{N+1},{\bf a}_N){\rm d}{\bf a}_N\\
&=&\frac{1}{p({\bf t}_N)}\int p(a_{N+1}|{\bf a}_N)p({\bf a}_N)p({\bf t}_N|{\bf a}_N){\rm d}{\bf a}_N\\
&=&\int p(a_{N+1}|{\bf a}_N)p({\bf a}_N|{\bf t}_N){\rm d}{\bf a}_N\tag{6.77}
\end{eqnarray}

\begin{eqnarray}
p(a_{N+1}|{\bf a}_N)={\mathcal N}(a_{N+1}|{\bf k}^\top{\bf C}_N^{-1}{\bf a}_N,c-{\bf k}^\top{\bf C}_N^{-1}{\bf k})\tag{6.78}
\end{eqnarray}

\begin{eqnarray}
{\bf a}_N^\star={\bf C}_N({\bf t}_N-{\boldsymbol\sigma}_N)\tag{6.84}
\end{eqnarray}

\begin{eqnarray}
{\bf H}=-\nabla\nabla\Psi({\bf a}_N)={\bf W}_N+{\bf C}_N^{-1}\tag{6.85}
\end{eqnarray}

\begin{eqnarray}
q({\bf a}_N)={\mathcal N}({\bf a}_N|{\bf a}_N^\star,{\bf H}^{-1})\tag{6.86}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}[a_{N+1}|{\bf t}_N]={\bf k}^\top({\bf t}_N-{\boldsymbol\sigma}_N)\tag{6.87}
\end{eqnarray}

\begin{eqnarray}
{\rm var}[a_{N+1}|{\bf t}_N]=c-{\bf k}^\top({\bf W}_N^{-1}+{\bf C}_N)^{-1}{\bf k}\tag{6.88}
\end{eqnarray}

解答

PRML下巻 p29より、式 (6.86)p({\bf a}_N|{\bf t}_N) の近似なので、以下のように書けます。

\begin{eqnarray}
p({\bf a}_N|{\bf t}_N)\simeq q({\bf a}_N)={\mathcal N}({\bf a}_N|{\bf a}_N^\star,{\bf H}^{-1})\tag{1}
\end{eqnarray}

(6.78),(1) を式 (6.77) に代入します。

\begin{eqnarray}
p(a_{N+1}|{\bf t}_N)=\int {\mathcal N}(a_{N+1}|{\bf k}^\top{\bf C}_N^{-1}{\bf a}_N,c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}){\mathcal N}({\bf a}_N|{\bf a}_N^\star,{\bf H}^{-1}){\rm d}{\bf a}_N\tag{2}
\end{eqnarray}

(2.115) において、以下のように対応付けます。
{\bf x}\rightarrow{\bf k}^\top{\bf C}_N^{-1},{\bf y}\rightarrow a_{N+1},{\boldsymbol\mu}\rightarrow {\bf a}_N^\star,{\bf\Lambda}^{-1}\rightarrow{\bf H}^{-1},\ {\bf A}\rightarrow{\bf k}^\top{\bf C}_N^{-1},{\bf b}\rightarrow{\bf 0},{\bf L}^{-1}\rightarrow c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}

\begin{eqnarray}
p(a_{N+1}|{\bf t}_N)&=&{\mathcal N}(a_{N+1}|\underbrace{{\bf k}^\top{\bf C}_N^{-1}{\bf a}_N^\star}_{={\mathbb E}[a_{N+1}|{\bf t}_N]},\underbrace{c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}-{\bf k}^\top{\bf C}_N^{-1}{\bf H}^{-1}({\bf k}^\top{\bf C}_N^{-1})^\top}_{={\rm var}[a_{N+1}|{\bf t}_N]})\tag{3}
\end{eqnarray}

{\mathbb E}[a_{N+1}|{\bf t}_N] を計算します。

\begin{eqnarray}
{\mathbb E}[a_{N+1}|{\bf t}_N]&=&{\bf k}^\top{\bf C}_N^{-1}{\bf a}_N^\star\\
&=&{\bf k}^\top{\bf C}_N^{-1}\underbrace{{\bf C}_N({\bf t}_N-{\boldsymbol\sigma}_N)}_{(6.84)}\\
&=&{\bf k}^\top({\bf t}_N-{\boldsymbol\sigma}_N)\tag{4}
\end{eqnarray}

(4) より、式 (6.87) が導けました。

{\rm var}[a_{N+1}|{\bf t}_N]を計算します。

\begin{eqnarray}
{\rm var}[a_{N+1}|{\bf t}_N]&=&c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}-{\bf k}^\top{\bf C}_N^{-1}{\bf H}^{-1}({\bf k}^\top{\bf C}_N^{-1})^\top\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}-{\bf k}^\top{\bf C}_N^{-1}{\bf H}^{-1}{\bf C}_N^{-1}{\bf k}\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}{\bf k}-{\bf k}^\top{\bf C}_N^{-1}(\underbrace{{\bf W}_N+{\bf C}_N^{-1}}_{(6.85)})^{-1}{\bf C}_N^{-1}{\bf k}\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}({\bf I}-({\bf W}_N+{\bf C}_N^{-1})^{-1}{\bf C}_N^{-1}){\bf k}\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}(\underbrace{({\bf W}_N+{\bf C}_N^{-1})^{-1}({\bf W}_N+{\bf C}_N^{-1})}_{={\bf I}}-({\bf W}_N+{\bf C}_N^{-1})^{-1}{\bf C}_N^{-1}){\bf k}\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}({\bf W}_N+{\bf C}_N^{-1})^{-1}({\bf W}_N+{\bf C}_N^{-1}-{\bf C}_N^{-1}){\bf k}\\
&=&c-{\bf k}^\top{\bf C}_N^{-1}({\bf W}_N+{\bf C}_N^{-1})^{-1}{\bf W}_N{\bf k}\\
&=&c-{\bf k}^\top\underbrace{( ({\bf C}_N^{-1}({\bf W}_N+{\bf C}_N^{-1})^{-1}{\bf W}_N)^{-1} )^{-1}}_{({\bf A}^{-1})^{-1}={\bf A}}{\bf k}\\
&=&c-{\bf k}^\top(\underbrace{ {\bf W}_N^{-1}({\bf W}_N+{\bf C}_N^{-1}){\bf C}_N }_{({\bf ABC})^{-1}={\bf C}^{-1}{\bf B}^{-1}{\bf A}^{-1}})^{-1}{\bf k}\\
&=&c-{\bf k}^\top({\bf C}_N+{\bf W}_N^{-1})^{-1}{\bf k}\tag{5}
\end{eqnarray}

(5) より、式 (6.88) が導けました。

目次へ戻る