機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 9.21(標準)

問題

ベイズ線形回帰モデルについて、3.5 節におけるエビデンスの枠組みを用いて、
パラメータ \alpha に関する (9.63) と同様の、パラメータ \beta に関する M ステップ更新式を導け。

参照

\begin{eqnarray}
{\mathbb E}[{\bf x}]={\boldsymbol\mu}\tag{2.59}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}[{\bf x}{\bf x}^\top]={\boldsymbol\mu}{\boldsymbol\mu}^\top+{\bf\Sigma}\tag{2.62}
\end{eqnarray}

\begin{eqnarray}
p({\bf w}|{\bf t})={\mathcal N}({\bf w}|{\bf m}_N,{\bf S}_N)\tag{3.49}
\end{eqnarray}

\begin{eqnarray}
{\mathbb E}[\ln p({\bf t},{\bf w}|\alpha,\beta)]=\frac{M}{2}\ln\left(\frac{\alpha}{2\pi}\right)-\frac{\alpha}{2}{\mathbb E}[{\bf w}^\top{\bf w}]+\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]\tag{9.62}
\end{eqnarray}

\begin{eqnarray}
\alpha=\frac{M}{{\mathbb E}[{\bf w}^\top{\bf w}]}=\frac{M}{{\bf m}_N^\top{\bf m}_N+{\rm Tr}({\bf S}_N)}\tag{9.63}
\end{eqnarray}

解答

本解答における期待値 {\mathbb E}[\cdot] は事後分布 p({\bf w}|{\bf t}) に関する期待値 {\mathbb E}_{p({\bf w}|{\bf t})}[\cdot] です。

{\mathbb E}[\ln p({\bf t},{\bf w}|\alpha,\beta)]\beta微分して、=0 とおきます。

\begin{eqnarray}
&&\frac{\partial}{\partial\beta}{\mathbb E}[\ln p({\bf t},{\bf w}|\alpha,\beta)]=0\\
&&\Leftrightarrow\frac{\partial}{\partial\beta}\left(\frac{M}{2}\ln\left(\frac{\alpha}{2\pi}\right)-\frac{\alpha}{2}{\mathbb E}[{\bf w}^\top{\bf w}]+\frac{N}{2}\ln\left(\frac{\beta}{2\pi}\right)-\frac{\beta}{2}\sum_{n=1}^N{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]\right)=0\\
&&\Leftrightarrow\frac{\partial}{\partial\beta}\frac{N}{2}\ln\beta-\frac{\partial}{\partial\beta}\frac{\beta}{2}\sum_{n=1}^N{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]=0\\
&&\Leftrightarrow\frac{N}{2}\frac{1}{\beta}-\frac{1}{2}\sum_{n=1}^N{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]=0\\
&&\Leftrightarrow\frac{1}{\beta}=\frac{1}{N}\sum_{n=1}^N\underbrace{{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]}_{=:X}\tag{1}
\end{eqnarray}

X:={\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2] を計算します。

\begin{eqnarray}
X&:=&{\mathbb E}[(t_n-{\bf w}^\top{\boldsymbol\phi}_n)^2]\\
&=&{\mathbb E}[t_n^2-2t_n{\bf w}^\top{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top{\bf w}{\bf w}^\top{\boldsymbol\phi}_n]\\
&=&{\mathbb E}[t_n^2]-2{\mathbb E}[t_n{\bf w}^\top{\boldsymbol\phi}_n]+{\mathbb E}[{\boldsymbol\phi}_n^\top{\bf w}{\bf w}^\top{\boldsymbol\phi}_n]\\
&=&t_n^2-2t_n{\mathbb E}[{\bf w}]^\top{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top{\mathbb E}[{\bf w}{\bf w}^\top]{\boldsymbol\phi}_n\\
&=&t_n^2-2t_n\underbrace{{\bf m}_N^\top}_{(2.59),(3.49)}{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top(\underbrace{{\bf m}_N{\bf m}_N^\top+{\bf S}_N}_{(2.62),(3.49)}){\boldsymbol\phi}_n\\
&=&t_n^2-2{\bf m}_N^\top{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top{\bf m}_N{\bf m}_N^\top{\boldsymbol\phi}_n+{\boldsymbol\phi}_n^\top{\bf S}_N{\boldsymbol\phi}_n\\
&=&(t_n-{\bf m}_N^\top{\boldsymbol\phi}_n)^2+{\boldsymbol\phi}_n^\top{\bf S}_N{\boldsymbol\phi}_n\tag{2}
\end{eqnarray}

(2) を 式 (1) に代入します。

\begin{eqnarray}
&&\frac{1}{\beta}=\frac{1}{N}\sum_{n=1}^N\left((t_n-{\bf m}_N^\top{\boldsymbol\phi}_n)^2+{\boldsymbol\phi}_n^\top{\bf S}_N{\boldsymbol\phi}_n\right)\\
&&\Leftrightarrow\frac{1}{\beta}=\frac{1}{N}\left(||{\bf t}-{\boldsymbol\Phi}{\bf m}_N||^2+{\rm Tr}\left({\boldsymbol\Phi}{\bf S}_N{\boldsymbol\Phi}^\top\right)\right)\tag{3}
\end{eqnarray}

(3) の式変形については、補足にて説明します。
(3) より、\beta の更新式が求まりました。

補足

{\boldsymbol\Phi}{\bf S}_N{\boldsymbol\Phi}^\top を計算します。

\begin{eqnarray}
{\boldsymbol\Phi}^\top{\boldsymbol\Phi}{\bf S}_N&=&\begin{pmatrix}{\boldsymbol\phi}_1^\top \\ \vdots \\ {\boldsymbol\phi}_N^\top \end{pmatrix}{\bf S}_N
\begin{pmatrix}{\boldsymbol\phi}_1 & \cdots & {\boldsymbol\phi}_N \end{pmatrix}\\
&=&\begin{pmatrix}{\boldsymbol\phi}_1^\top{\bf S}_N \\ \vdots \\ {\boldsymbol\phi}_N^\top{\bf S}_N \end{pmatrix}
\begin{pmatrix}{\boldsymbol\phi}_1 & \cdots & {\boldsymbol\phi}_N \end{pmatrix}\\
&=&\begin{pmatrix}{\boldsymbol\phi}_1^\top{\bf S}_N{\boldsymbol\phi}_1 & \cdots &{\boldsymbol\phi}_1^\top{\bf S}_N{\boldsymbol\phi}_N \\ \vdots & \ddots & \vdots \\ {\boldsymbol\phi}_N^\top{\bf S}_N{\boldsymbol\phi}_1 & \cdots &{\boldsymbol\phi}_N^\top{\bf S}_N{\boldsymbol\phi}_N \end{pmatrix}\tag{4}
\end{eqnarray}

(4) より、{\rm Tr}({\boldsymbol\Phi}{\bf S}_N{\boldsymbol\Phi}^\top)=\displaystyle\sum_{n=1}^N{\boldsymbol\phi}_n^\top{\bf S}_N{\boldsymbol\phi}_n が成り立ちます。

目次へ戻る