機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 9.22(標準)

問題

期待完全データ対数尤度 (9.66) を最大化することで、
回帰問題のためのRVM(関連ベクトルマシン)の超パラメータについての
M ステップ更新式 (9.67)(9.68) を導け。

参照

\begin{eqnarray}
p(t|{\bf x},{\bf w},\beta)={\mathcal N}(t|y({\bf x}),\beta^{-1})\tag{7.76}
\end{eqnarray}

\begin{eqnarray}
y({\bf x})=\sum_{i=1}^Mw_i\phi_i({\bf x})={\bf w}^\top{\boldsymbol\phi}({\bf x})\tag{7.77}
\end{eqnarray}

\begin{eqnarray}
p({\bf t}|{\bf X},{\bf w},\beta)=\prod_{n=1}^Np(t_n|{\bf x}_n,{\bf w},\beta)\tag{7.79}
\end{eqnarray}

\begin{eqnarray}
p({\bf w}|{\boldsymbol\alpha})=\prod_{i=1}^M{\mathcal N}(w_i|0,\alpha_i^{-1})\tag{7.80}
\end{eqnarray}

\begin{eqnarray}
p({\bf w}|{\bf t},{\bf X},{\boldsymbol\alpha},\beta)={\mathcal N}({\bf w}|{\bf m},{\bf\Sigma})\tag{7.81}
\end{eqnarray}

\begin{eqnarray}
{\bf m}=\beta{\bf\Sigma}{\boldsymbol\Phi}^\top{\bf t}\tag{7.82}
\end{eqnarray}

\begin{eqnarray}
{\bf\Sigma}=\left({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\right)^{-1}\tag{7.83}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}_{\bf w}\left[\left(\ln p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha})\right)\right]\tag{9.66}
\end{eqnarray}

\begin{eqnarray}
\alpha_i^{\rm new}=\frac{1}{m_i^2+\Sigma_{ii}}\tag{9.67}
\end{eqnarray}

\begin{eqnarray}
(\beta^{\rm new})^{-1}=\frac{||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2+\beta^{-1}\sum_i\gamma_i}{N}\tag{9.68}
\end{eqnarray}

解答

(9.66) を計算します。

\begin{eqnarray}
&&{\mathbb E}_{\bf w}\left[\left(\ln p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha})\right)\right]\\
&=&{\mathbb E}_{\bf w}\left[\ln p({\bf t}|{\bf X},{\bf w},\beta)+\ln p({\bf w}|{\boldsymbol\alpha})\right]\\
&=&{\mathbb E}_{\bf w}\left[\ln p({\bf t}|{\bf X},{\bf w},\beta)\right]+{\mathbb E}_{\bf w}\left[\ln p({\bf w}|{\boldsymbol\alpha})\right]\\
&=&{\mathbb E}_{\bf w}\Bigg[\ln \underbrace{\prod_{n=1}^N{\mathcal N}(t_n|{\bf w}^\top{\boldsymbol\phi}_n,\beta^{-1})}_{(7.76),(7.77),(7.79)}\Bigg]+{\mathbb E}_{\bf w}\Bigg[\ln \underbrace{\prod_{i=1}^M{\mathcal N}(w_i|0,\alpha_i^{-1})}_{(7.80)}\Bigg]\\
&=&{\mathbb E}_{\bf w}\left[ \sum_{n=1}^N\ln{\mathcal N}(t_n|{\bf w}^\top{\boldsymbol\phi}_n,\beta^{-1})\right]+{\mathbb E}_{\bf w}\left[\sum_{i=1}^M\ln{\mathcal N}(w_i|0,\alpha_i^{-1})\right]\\
&=&{\mathbb E}_{\bf w}\left[ \sum_{n=1}^N\left(\frac{1}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{1}{2}\beta(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2\right)\right]+{\mathbb E}_{\bf w}\left[\sum_{i=1}^M\left(\frac{1}{2}\ln\left(\frac{\alpha_i}{2\pi}\right)-\frac{1}{2}\alpha_i w_i^2\right)\right]\\
&=&\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N{\mathbb E}_{\bf w}\left[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2\right]+\frac{1}{2}\sum_{i=1}^M\ln\left(\frac{\alpha_i}{2\pi}\right)-\frac{1}{2}\sum_{i=1}^M\alpha_i {\mathbb E}_{\bf w}[w_i^2]\\
&=&\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N(t_n^2-2t_n{\mathbb E}[{\bf w}^\top]{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top{\mathbb E}_{\bf w}[{\bf w}{\bf w}^\top]{\boldsymbol\phi}_n)+\frac{1}{2}\sum_{i=1}^M\ln\left(\frac{\alpha_i}{2\pi}\right)-\frac{1}{2}\sum_{i=1}^M\alpha_i ({\mathbb E}_{\bf w}[{\bf w}{\bf w}^\top])_{ii}\\
&=&\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N(t_n^2-2t_n{\bf m}^\top{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top({\bf m}{\bf m}^\top+{\bf\Sigma}){\boldsymbol\phi}_n)+\frac{1}{2}\sum_{i=1}^M\ln\left(\frac{\alpha_i}{2\pi}\right)-\frac{1}{2}\sum_{i=1}^M\alpha_i ({\bf m}{\bf m}^\top+{\bf\Sigma})_{ii}\\
&=&\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N((t_n-{\bf m}^\top{\boldsymbol\phi}_n)^2+{\boldsymbol\phi}_n^\top{\bf\Sigma}{\boldsymbol\phi}_n)+\frac{1}{2}\sum_{i=1}^M\ln\left(\frac{\alpha_i}{2\pi}\right)-\frac{1}{2}\sum_{i=1}^M\alpha_i (m_i^2+\Sigma_{ii})\tag{1}
\end{eqnarray}

(1)\alpha_i微分して、=0 とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\alpha_i}{\mathbb E}_{\bf w}\left[\left(\ln p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha})\right)\right]=0\\
&&\Leftrightarrow \frac{1}{2}\sum_{j=1}^M\frac{\partial}{\partial\alpha_i}\ln\left(\frac{\alpha_j}{2\pi}\right)-\frac{1}{2}\sum_{j=1}^M\frac{\partial}{\partial\alpha_i}\alpha_j (m_j^2+\Sigma_{jj})\\
&&\Leftrightarrow\frac{1}{2}\frac{1}{\alpha_i}-\frac{1}{2}(m_i^2+\Sigma_{ii})=0\\
&&\Leftrightarrow\alpha_i=\frac{1}{m_i^2+\Sigma_{ii}}\tag{2}
\end{eqnarray}

(2) より、式 (9.67) が導けました。

(1)\beta微分して、=0 とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\beta}{\mathbb E}_{\bf w}\left[\left(\ln p({\bf t}|{\bf X},{\bf w},\beta)p({\bf w}|{\boldsymbol\alpha})\right)\right]=0\\
&&\Leftrightarrow \frac{N}{2}\frac{\partial}{\partial\beta}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\partial}{\partial\beta}\frac{\beta}{2}\sum_{n=1}^N((t_n-{\bf m}^\top{\boldsymbol\phi}_n)^2+{\boldsymbol\phi}_n^\top{\bf\Sigma}{\boldsymbol\phi}_n)=0\\
&&\Leftrightarrow\frac{N}{2}\frac{1}{\beta}-\frac{1}{2}\sum_{n=1}^N((t_n-{\bf m}^\top{\boldsymbol\phi}_n)^2+{\boldsymbol\phi}_n^\top{\bf\Sigma}{\boldsymbol\phi}_n)=0\\
&&\Leftrightarrow\beta^{-1}=\frac{1}{N}\left(\sum_{n=1}^N(t_n-{\bf m}^\top{\boldsymbol\phi}_n)^2+\sum_{n=1}^N{\boldsymbol\phi}_n^\top{\bf\Sigma}{\boldsymbol\phi}_n\right)\\
&&\Leftrightarrow\beta^{-1}=\frac{1}{N}\left(||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2+{\rm Tr}({\boldsymbol\Phi}{\bf\Sigma}{\boldsymbol\Phi}^\top)\right)\\
&&\Leftrightarrow\beta^{-1}=\frac{1}{N}\left(||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2+{\rm Tr}({\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma})\right)\\
&&\Leftrightarrow\beta^{-1}=\frac{1}{N}\left(||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2+\underbrace{{\rm Tr}( \beta^{-1}({\bf I}-{\bf A}{\bf\Sigma}) )}_{(7.83)}\right)\\
&&\Leftrightarrow\beta^{-1}=\frac{1}{N}\left(||{\bf t}-{\boldsymbol\Phi}{\bf m}||^2+\beta^{-1}\sum_{i=1}^M(1-\alpha_i\Sigma_{ii})\right)\tag{3}
\end{eqnarray}

(3) より、式 (9.68) が導けました。

補足

{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}= \beta^{-1}({\bf I}-{\bf A}{\bf\Sigma}) の導出をします。

(7.83) を変形します。

\begin{eqnarray}
&&{\bf\Sigma}=\left({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\right)^{-1}\\
&&\Leftrightarrow\left({\bf A}+\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}\right){\bf\Sigma}={\bf I}\\
&&\Leftrightarrow\beta{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}={\bf I}-{\bf A}{\bf\Sigma}\\
&&\Leftrightarrow{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf\Sigma}=\beta^{-1}({\bf I}-{\bf A}{\bf\Sigma})\tag{4}
\end{eqnarray}

目次へ戻る