エントロピー

エントロピーの定義

エントロピーは以下のように定義されます。

$\begin{eqnarray} {\rm H}[p({\bf x})]&=&-\int p({\bf x})\ln p({\bf x})){\rm d}{\bf x}\\ &=&-\langle\ln p({\bf x})\rangle_{p({\bf x})}\tag{1}\\ \end{eqnarray}$

エントロピーは確率分布の「乱雑さ」を表す指標として知られています。

エントロピーの例1

$p(x=1)=1/3,p(x=0)=2/3$ となるような確率分布のエントロピーを計算してみます。

$\begin{eqnarray} {\rm H}[p(x)]&=&-\sum_{x}p(x)\ln p(x)\\ &=&-\left(p(x=1)\ln p(x=1)+p(x=0)\ln p(x=0)\right)\\ &=&-\left(\frac{1}{3}\ln\frac{1}{3}+\frac{2}{3}\ln\frac{2}{3}\right)\\ &=&0.6365\tag{2} \end{eqnarray}$

同様にして、 $q(x=1)=q(x=0)=1/2$ となるような確率分布のエントロピーを計算してみます。

$\begin{eqnarray} {\rm H}[q(x)]&=&0.6931\ldots\tag{3} \end{eqnarray}$

感覚的にエントロピーは確率分布から生じる変数の「予測のしにくさ」を表しているとも言えます。

エントロピーの例2: ベルヌーイ分布

ベルヌーイ分布は以下のような分布でした。

$\begin{eqnarray} &&{\rm Bern}(x|\mu)=\mu^x(1-\mu)^{1-x}\tag{4}\\ &&\langle x\rangle=\mu\tag{5}\\ \end{eqnarray}$

エントロピーを計算してみます。

$\begin{eqnarray} {\rm H}[q(x)]&=&-\langle\ln{\rm Bern}(x|\mu)\rangle\\ &=&-\langle x\ln\mu+(1-x)\ln(1-\mu)\rangle\\ &=&-\langle x\rangle\ln\mu-(1-\langle x\rangle)\ln(1-\mu)\\ &=&-\mu\ln\mu-(1-\mu)\ln(1-\mu)\tag{6}\\ \end{eqnarray}$

(6)のグラフを書くと以下のようになります。

f:id:olj611:20210307133526p:plain:w480

ベルヌーイ分布では、 $\mu=0.5$ の時エントロピーが最大となり
$\mu=0.5$ の時が「最も出目(0 or 1)が予測しづらい」と言えます。

エントロピーの例3: 1次元ガウス分布

1次元ガウス分布は以下のような分布でした。

$\begin{eqnarray} &&\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\tag{7}\\ &&\langle x\rangle=\mu\tag{8}\\ &&\langle x^2\rangle=\mu^2+\sigma^2\tag{9}\\ \end{eqnarray}$

エントロピーを計算してみます。

$\begin{eqnarray} {\rm H}[\mathcal{N}(x|\mu,\sigma^2)]&=&-\langle\mathcal{N}(x|\mu,\sigma^2)\rangle\\ &=&\frac{1}{2}\left\langle\frac{(x-\mu)^2}{\sigma^2}+\ln \sigma^2+\ln 2\pi\right\rangle\\ &=&\frac{1}{2}\left(\frac{\langle x^2\rangle-2\langle x\rangle\mu+\mu^2}{\sigma^2}+\ln\sigma^2+\ln 2\pi\right)\\ &=&\frac{1}{2}(1+\ln \sigma^2+\ln 2\pi)\tag{10}\\ \end{eqnarray}$