機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.10(標準)

問題

ガンマ関数の性質\Gamma(x+1)=x\Gamma(x)を用いて、(2.38)のディリクレ分布の平均、分散、および共分散の結果を導出せよ。

\begin{eqnarray}
{\mathbb E}[\mu_j]=\frac{\alpha_j}{\alpha_0}\tag{2.273}
\end{eqnarray}

\begin{eqnarray}
{\rm var}[\mu_j]=\frac{\alpha_j(\alpha_0-\alpha_j)}{\alpha_0^2(\alpha_0+1)}\tag{2.274}
\end{eqnarray}

\begin{eqnarray}
{\rm cov}[\mu_j\mu_l]=-\frac{\alpha_j\alpha_l}{\alpha_0^2(\alpha_0+1)}\ \ \ \ \ \ j\not=l\tag{2.275}
\end{eqnarray}

ただし、\alpha_0(2.39)で定義されている。

参照

\begin{eqnarray}
{\rm Dir}({\boldsymbol\mu}|{\boldsymbol\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}\tag{2.38}
\end{eqnarray}

\begin{eqnarray}
\alpha_0=\sum_{k=1}^K\alpha_k\tag{2.39}
\end{eqnarray}

解答

{\mathbb E}[\mu_j]を計算します。

\begin{eqnarray}
{\mathbb E}[\mu_j]&=&\int\mu_j{\rm Dir}({\boldsymbol\mu}|{\boldsymbol\alpha}){\rm d}{\boldsymbol\mu}\\
&=&\int\mu_j\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_j\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_1^{\alpha_1-1}\mu_2^{\alpha_2-1}\cdots\mu_j^{\alpha_j}\cdots\mu_K^{\alpha_K-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_1^{\alpha_1-1}\mu_2^{\alpha_2-1}\cdots\mu_j^{(\alpha_j+1)-1}\cdots\mu_K^{\alpha_K-1}{\rm d}{\boldsymbol\mu}\tag{1}
\end{eqnarray}

ディリクレ分布は正規化されているので、式(2.38)より、以下の式が成り立ちます。

\begin{eqnarray}
\int \prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}=\frac{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}{\Gamma(\alpha_0)}\tag{2}
\end{eqnarray}

(2.39)の両辺に1を加えることにより、以下の式が成り立ちます。

\begin{eqnarray}
\alpha_0+1=\alpha_j+1+\sum_{k=1,k\not=j}^K\alpha_k\tag{3}
\end{eqnarray}

(3)において、\alpha'_0=\alpha_0+1,\alpha'_j=\alpha_j+1,\alpha'_k=\alpha_k(k\not=j)とおくと、以下の式が成り立ちます。

\begin{eqnarray}
\alpha'_0=\sum_{k=1}^K\alpha'_k\tag{4}
\end{eqnarray}

(2),(4)より、以下が成り立ちます。

\begin{eqnarray}
\int \prod_{k=1}^K\mu_k^{\alpha'_k-1}{\rm d}{\boldsymbol\mu}=\frac{\Gamma(\alpha'_1)\cdots\Gamma(\alpha'_K)}{\Gamma(\alpha'_0)}\tag{5}
\end{eqnarray}

(1)に式(4),(5)を用いることにより、以下のように変形できます。

\begin{eqnarray}
{\mathbb E}[\mu_j]&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_1^{\alpha'_1-1}\mu_2^{\alpha'_2-1}\cdots\mu_j^{\alpha'_j-1}\cdots\mu_K^{\alpha'_K-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\prod_{k=1}^K\mu_k^{\alpha'_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha'_1)\cdots\Gamma(\alpha'_K)}{\Gamma(\alpha'_0)}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_j+1)\cdots\Gamma(\alpha_K)}{\Gamma(\alpha_0+1)}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\alpha_j\Gamma(\alpha_j)\cdots\Gamma(\alpha_K)}{\alpha_0\Gamma(\alpha_0)}\\
&=&\frac{\alpha_j}{\alpha_0}\tag{6}
\end{eqnarray}

(6)より、式(2.273)が示せました。

{\mathbb E}[\mu^2]を計算します。

\begin{eqnarray}
{\mathbb E}[\mu_j^2]&=&\int\mu_j^2{\rm Dir}({\boldsymbol\mu}|{\boldsymbol\alpha}){\rm d}{\boldsymbol\mu}\\
&=&\int\mu_j^2\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_j^2\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_1^{\alpha_1-1}\mu_2^{\alpha_2-1}\cdots\mu_j^{(\alpha_j+2)-1}\cdots\mu_K^{\alpha_K-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_j+2)\cdots\Gamma(\alpha_K)}{\Gamma(\alpha_0+2)}\tag{7}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots(\alpha_j+1)\alpha_j\Gamma(\alpha_j)\cdots\Gamma(\alpha_K)}{(\alpha_0+1)\alpha_0\Gamma(\alpha_0)}\\
&=&\frac{(\alpha_j+1)\alpha_j}{(\alpha_0+1)\alpha_0}\tag{8}
\end{eqnarray}

(7)は、{\mathbb E}[\mu_j]と同様の変形を行いました。

{\rm var}[\mu_j]を計算します。

\begin{eqnarray}
{\rm var}[\mu_j]&=&{\mathbb E}[\mu_j^2]-{\mathbb E}[\mu_j]^2\\
&=&\frac{(\alpha_j+1)\alpha_j}{(\alpha_0+1)\alpha_0}-\left(\frac{\alpha_j}{\alpha_0}\right)^2\\
&=&\frac{(\alpha_j+1)\alpha_j}{(\alpha_0+1)\alpha_0}-\frac{\alpha_j^2}{\alpha_0^2}\\
&=&\frac{(\alpha_j+1)\alpha_j\alpha_0-\alpha_j^2(\alpha_0+1)}{\alpha_0^2(\alpha_0+1)}\\
&=&\frac{\alpha_j(\alpha_0-\alpha_j)}{\alpha_0^2(\alpha_0+1)}\tag{9}
\end{eqnarray}

(9)より、式(2.274)が示せました。

{\mathbb E}[\mu_j\mu_l]を計算します。

\begin{eqnarray}
{\mathbb E}[\mu_j\mu_l]&=&\int\mu_j\mu_l{\rm Dir}({\boldsymbol\mu}|{\boldsymbol\alpha}){\rm d}{\boldsymbol\mu}\\
&=&\int\mu_j\mu_l\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_j\mu_l\prod_{k=1}^K\mu_k^{\alpha_k-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\int\mu_1^{\alpha_1-1}\mu_2^{\alpha_2-1}\cdots\mu_j^{(\alpha_j+1)-1}\cdots\mu_l^{(\alpha_l+1)-1}\cdots\mu_K^{\alpha_K-1}{\rm d}{\boldsymbol\mu}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_j+1)\cdots\Gamma(\alpha_l+1)\cdots\Gamma(\alpha_K)}{\Gamma(\alpha_0+2)}\tag{10}\\
&=&\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)}\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\alpha_j\Gamma(\alpha_j)\cdots\alpha_l\Gamma(\alpha_l)\cdots\Gamma(\alpha_K)}{(\alpha_0+1)\alpha_0\Gamma(\alpha_0)}\\
&=&\frac{\alpha_j\alpha_l}{(\alpha_0+1)\alpha_0}\tag{11}
\end{eqnarray}

(10)は、{\mathbb E}[\mu_j]と同様の変形を行いました。

{\rm cov}[\mu_j\mu_l]を計算します。

\begin{eqnarray}
{\rm cov}[\mu_j\mu_l]&=&{\mathbb E}[\mu_j\mu_l]-{\mathbb E}[\mu_j]{\mathbb E}[\mu_l]\\
&=&\frac{\alpha_j\alpha_l}{(\alpha_0+1)\alpha_0}-\frac{\alpha_j}{\alpha_0}\frac{\alpha_l}{\alpha_0}\\
&=&\frac{\alpha_j\alpha_l}{(\alpha_0+1)\alpha_0}-\frac{\alpha_j\alpha_l}{\alpha_0^2}\\
&=&\frac{\alpha_j\alpha_l\alpha_0-\alpha_j\alpha_l(\alpha_0+1)}{\alpha_0^2(\alpha_0+1)}\\
&=&-\frac{\alpha_j\alpha_l}{\alpha_0^2(\alpha_0+1)}\tag{12}
\end{eqnarray}

(12)より、式(2.275)が示せました。

目次へ戻る