機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

PRML演習問題 2.4(標準)

問題

二項分布の平均が(2.11)であることを示せ。
これには、正規化条件(2.264)の両辺を\mu微分し変形してnの平均を求めよ。
同様に、(2.264)の両辺を\muについて2階微分し、二項分布の平均(2.11)も用いて、
二項分布の分散の結果(2.12)を証明せよ。

参照

\begin{eqnarray}
&&{\mathbb E}[m]\equiv\sum_{m=0}^Nm{\rm Bin}(m|N,\mu)=N\mu\tag{2.11}\\
&&{\rm var}[m]\equiv\sum_{m=0}^N(m-{\mathbb E}[m])^2{\rm Bin}(m|N,\mu)=N\mu(1-\mu)\tag{2.12}\\
&&\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}=1\tag{2.264}
\end{eqnarray}

解答

(2.264)\mu微分します。

\begin{eqnarray}
&&\frac{\rm d}{{\rm d}\mu}\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}=\frac{\rm d}{{\rm d}\mu}1\\
&&\Leftrightarrow \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\left(\left(\frac{\rm d}{{\rm d}\mu}\mu^m\right)(1-\mu)^{N-m}+\mu^m\frac{\rm d}{{\rm d}\mu}(1-\mu)^{N-m}\right)=0\\
&&\Leftrightarrow \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\left(m\mu^{m-1}(1-\mu)^{N-m}-\mu^m(N-m)(1-\mu)^{N-m-1}\right)=0\\
&&\Leftrightarrow \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^{m-1}(1-\mu)^{N-m-1}(m(1-\mu)-\mu(N-m)=0\\
&&\Leftrightarrow \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^{m-1}(1-\mu)^{N-m-1}(m-N\mu)=0\\
&&\Leftrightarrow \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^{m-1}(1-\mu)^{N-m-1}m=\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^{m-1}(1-\mu)^{N-m-1}N\mu\\
&&両辺に\mu(1-\mu)を掛ける\\
&&\Leftrightarrow \sum_{m=0}^Nm\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}=\sum_{m=0}^NN\mu\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}\tag{1}\\
&&\Leftrightarrow \sum_{m=0}^Nm{\rm Bin}(m|N,\mu)=\sum_{m=0}^NN\mu{\rm Bin}(m|N,\mu)\\
&&\Leftrightarrow {\mathbb E}[m]={\mathbb E}[N\mu]\\
&&\Leftrightarrow {\mathbb E}[m]=N\mu\tag{2}
\end{eqnarray}
(2)より、式(2.11)が示せました。

(1)より以下が成り立ちます。

\begin{eqnarray}
&&m \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}=N\mu\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}\tag{3}
\end{eqnarray}
(3)\mu微分します。
\begin{eqnarray}
&&\frac{\rm d}{{\rm d}\mu}m \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}=\frac{\rm d}{{\rm d}\mu}N\mu\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}\\
&&\Leftrightarrow m \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}(m-N\mu)\\
&&\ \ \ \ =N\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}+N\mu\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^{m-1}(1-\mu)^{N-m-1}(m-N\mu)\\
&&両辺に\mu(1-\mu)を掛ける\\
&&\Leftrightarrow m \sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}(m-N\mu)\\
&&\ \ \ \ =\mu(1-\mu)N\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}+N\mu\sum_{m=0}^N\begin{pmatrix}N\\ m\end{pmatrix}\mu^m(1-\mu)^{N-m}(m-N\mu)\\
&&\Leftrightarrow \sum_{m=0}^Nm(m-\mu N){\rm Bin}(m|N,\mu)=\sum_{m=0}^N\mu(1-\mu)N{\rm Bin}(m|N,\mu)+\sum_{m=0}^NN\mu(m-\mu N){\rm Bin}(m|N,\mu)\\
&&\Leftrightarrow{\mathbb E}[m^2]-N\mu{\mathbb E}[m]=\mu(1-\mu)N+N\mu{\mathbb E}[m]-N^2\mu^2\\
&&\Leftrightarrow{\mathbb E}[m^2]-N^2\mu^2=\mu(1-\mu)N+N^2\mu^2-N^2\mu^2\\
&&\Leftrightarrow{\mathbb E}[m^2]=N\mu(N\mu-\mu+1)\tag{4}
\end{eqnarray}

{\rm var}[m]を求めます。

\begin{eqnarray}
{\rm var}[m]&=&{\mathbb E}[m^2]-{\mathbb E}[m]^2\\
&=&N\mu(N\mu-\mu+1)-N^2\mu^2\\
&=&N\mu(1-\mu)\tag{5}
\end{eqnarray}
(5)より、式(2.12)が示せました。

別解

問題文の指示を無視することにはなるが、PRML演習問題 1.10(基本) wwwの結果から
独立な事象について、和の平均は平均の和になり、和の分散が分散の和になるので、以下のように求まります。

\begin{eqnarray}
{\mathbb E}[m]&=&{\mathbb E}[x_1+\dots+x_N]\\
&=&\mu+\dots+\mu\\
&=&N\mu\tag{6}
\end{eqnarray}

\begin{eqnarray}
{\rm var}[m]&=&{\rm var}[x_1+\dots+x_N]\\
&=&\mu(1-\mu)+\dots+\mu(1-\mu)\\
&=&N\mu(1-\mu)\tag{7}
\end{eqnarray}

目次へ戻る