機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.40(標準) www

問題

D 次元ガウス確率変数  \bf x を考える。
この分布 {\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma}) の共分散 \bf\Sigma は既知としたとき、観測値集合 {\bf X}=\{{\bf x}_1,\ldots,{\bf x}_N\} から平均 \boldsymbol\mu を推定したいとする。
事前分布 p({\boldsymbol\mu})={\mathcal N}({\boldsymbol\mu}|{\boldsymbol\mu}_0,{\bf\Sigma}_0) について、これに対応する事後分布 p({\boldsymbol\mu}|{\bf X}) を求めよ。

参照

\begin{eqnarray}
\mu_{\rm ML}=\frac{1}{N}\sum_{n=1}^Nx_n\tag{2.143}
\end{eqnarray}

解答

問題文にはありませんが、観測値 {\bf x}_n は分布 {\mathcal N}({\bf x}|{\boldsymbol\mu},{\bf\Sigma}) から独立に生成されると仮定します。
事後分布 p({\boldsymbol\mu}|{\bf X}) を計算します。

\begin{eqnarray}
p({\boldsymbol\mu}|{\bf X})&\propto& p({\bf X}|{\boldsymbol\mu})p({\boldsymbol\mu})\\
&=&\prod_{n=1}^N\left({\mathcal N}({\bf x}_n|{\boldsymbol\mu},{\bf\Sigma})\right){\mathcal N}({\boldsymbol\mu}|{\boldsymbol\mu}_0,{\bf\Sigma}_0)\\
&=&\exp\left(\sum_{n=1}^N\left(-\frac{1}{2}({\bf x}_n-{\boldsymbol\mu})^\top{\bf\Sigma}^{-1}({\bf x}_n-{\boldsymbol\mu})\right) - \frac{1}{2}({\boldsymbol\mu}-{\boldsymbol\mu}_0)^\top{\bf\Sigma}_0^{-1}({\boldsymbol\mu}-{\boldsymbol\mu}_0)+{\rm const}\right)\\
&=&\exp\left(\sum_{n=1}^N\left(-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\boldsymbol\mu}+{\boldsymbol\mu}^\top{\bf\Sigma}^{-1}{\bf x}_n\right) - \frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}_0^{-1}{\boldsymbol\mu}+{\boldsymbol\mu}^\top{\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0+{\rm const}\right)\\
&=&\exp\left(-\frac{1}{2}{\boldsymbol\mu}^\top\left(\sum_{n=1}^N{\bf\Sigma}^{-1}+{\bf\Sigma}_0^{-1}\right){\boldsymbol\mu}+{\boldsymbol\mu}^\top\left(\sum_{n=1}^N{\bf\Sigma}^{-1}{\bf x}_n + {\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0\right)+{\rm const}\right)\\
&=&\exp\left(-\frac{1}{2}{\boldsymbol\mu}^\top\left(N{\bf\Sigma}^{-1}+{\bf\Sigma}_0^{-1}\right){\boldsymbol\mu}+{\boldsymbol\mu}^\top\left({\bf\Sigma}^{-1}\sum_{n=1}^N{\bf x}_n + {\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0\right)+{\rm const}\right)\tag{1}
\end{eqnarray}

事後分布 p({\boldsymbol\mu}|{\bf X})={\mathcal N}({\bf x}|{\boldsymbol\mu}_N,{\bf\Sigma})_N としてを計算します。

\begin{eqnarray}
p({\boldsymbol\mu}|{\bf X})&=&{\mathcal N}({\bf x}|{\boldsymbol\mu}_N,{\bf\Sigma}_N)\\
&=&\exp\left(-\frac{1}{2}({\boldsymbol\mu}-{\boldsymbol\mu}_N)^\top{\bf\Sigma}_N^{-1}({\boldsymbol\mu}-{\boldsymbol\mu}_N)+{\rm const}\right)\\
&=&\exp\left(-\frac{1}{2}{\boldsymbol\mu}^\top{\bf\Sigma}_N^{-1}{\boldsymbol\mu}+{\boldsymbol\mu}^\top{\bf\Sigma}_N^{-1}{\boldsymbol\mu}_N+{\rm const}\right)\tag{2}
\end{eqnarray}

(1),(2){\boldsymbol\mu}2 次形式の項の係数比較します。

\begin{eqnarray}
{\bf\Sigma}_N^{-1}={\bf\Sigma}_0^{-1}+N{\bf\Sigma}^{-1}\tag{3}
\end{eqnarray}

(1),(2){\boldsymbol\mu}1 次形式の項の係数比較します。

\begin{eqnarray}
&&{\bf\Sigma}_N^{-1}{\boldsymbol\mu}_N={\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0 + {\bf\Sigma}^{-1}\sum_{n=1}^N{\bf x}_n\\
&&\Leftrightarrow{\boldsymbol\mu}_N={\bf\Sigma}_N\left({\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0 + {\bf\Sigma}^{-1}\sum_{n=1}^N{\bf x}_n\right)\\
&&\Leftrightarrow{\boldsymbol\mu}_N=(\underbrace{{\bf\Sigma}_0^{-1}+N{\bf\Sigma}^{-1}}_{(3)})^{-1}({\bf\Sigma}_0^{-1}{\boldsymbol\mu}_0 + {\bf\Sigma}^{-1}\underbrace{N{\boldsymbol\mu}_{\rm ML}}_{(2.143)})\tag{4}
\end{eqnarray}

(3),(4) より、事後分布 p({\boldsymbol\mu}|{\bf X}) のパラメータが求まりました。

目次へ戻る