変分推論

変分推論とは

変分推論は確率分布の近似手法です。
ある確率分布 $p(z_1,z_2,z_3)$ を、より簡単な近似分布 $q(z_1,z_2,z_3)$ で表現できないか考えます。
${\rm KL}(q||p)$ は分布の距離のようなものなので、これが小さくなるようにします。
単純に $q=p$ とするのではなく、 $q$ にある制限を設けます。
$p(z_1,z_2,z_3)\approx q(z_1)q(z_2)q(z_3)$ のように各確率変数に独立の仮定をおきます。
変分推論においてこうした分解された形を用いることは、物理学で平均場近似と呼ばれる近似法に対応しています。

変分推論の基礎となる近似式の導出

すでに $q(z_2)$ と $q(z_3)$ が与えられているとします。
このときの $q(z_1)$ を求めてみましょう。
期待値はブラケットによる表記法( $\langle x\rangle_{p(x)}\stackrel{\mathrm{def}}{\equiv}{\mathbb E}_{p(x)}[x]$ )を用いることにします。

$\begin{eqnarray} &&{\rm KL}[q(z_1)q(z_2)q(z_3)||p(z_1,z_2,z_3)]\\ &=&-\left\langle\ln\frac{p(z_1,z_2,z_3)}{q(z_1)q(z_2)q(z_3)}\right\rangle_{q(z_1)q(z_2)q(z_3)} \tag{1}\\ &=&-\left\langle\left\langle\ln\frac{p(z_1,z_2,z_3)}{q(z_1)q(z_2)q(z_3)}\right\rangle_{q(z_2)q(z_3)}\right\rangle_{q(z_1)} \tag{2}\\ &=&-\left\langle \left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}-\left\langle\ln q(z_1)\right\rangle_{q(z_2)q(z_3)}-\left\langle\ln q(z_2)\right\rangle_{q(z_2)q(z_3)}-\left\langle\ln q(z_3)\right\rangle_{q(z_2)q(z_3)} \right\rangle_{q(z_1)} \tag{3}\\ &=&-\left\langle \left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}-\left\langle\ln q(z_1)\right\rangle_{q(z_2)q(z_3)} \right\rangle_{q(z_1)}+{\rm const.} \tag{4}\\ &=&-\left\langle \left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}-\ln q(z_1) \right\rangle_{q(z_1)}+{\rm const.} \tag{5}\\ &=&-\left\langle \ln\exp\left\{\left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}\right\}-\ln q(z_1) \right\rangle_{q(z_1)}+{\rm const.} \tag{6}\\ &=&-\left\langle \ln\frac{\exp\left\{\left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}\right\}}{q(z_1)} \right\rangle_{q(z_1)}+{\rm const.} \tag{7}\\ &=&{\rm KL}[q(z_1)||\exp\{\left\langle\ln p(z_1,z_2,z_3)\right\rangle_{q(z_2)q(z_3)}\}]+{\rm const.}\tag{8}\\ \end{eqnarray}$

(5)では $z_1$ に関係ないものを ${\rm const.}$ としてまとめております。
(6)の式変形ですが $\ln\exp x=x$ を使った変形をしております。

(8)を最小値は次の式で得ることができます。

$\begin{eqnarray} q(z_1)=\frac{\exp{\langle\ln p(z_1,z_2,z_3)\rangle_{q(z_1)q(z_2)}}}{\int \exp{\langle\ln p(z_1,z_2,z_3)\rangle_{q(z_1)q(z_2)}}{\rm dz_1}}\tag{9}\\ \end{eqnarray}$

(9)式に対数を取ってみましょう。

$\begin{eqnarray} \ln q(z_1)=\langle\ln p(z_1,z_2,z_3)\rangle_{q(z_1)q(z_2)}+{\rm const.}\tag{10}\\ \end{eqnarray}$

(10)の ${\rm const.}$ は(9)の正規化項 $\int \exp{\langle\ln p(z_1,z_2,z_3)\rangle_{q(z_1)q(z_2)}}{\rm dz_1}$ です。
同様に、 $q(z_2)$ や $q(z_3)$ に対する最適化も全く同じ議論になり、それぞれの近似分布に対する更新を繰り返すことにより、KLダイバージェンスが徐々に最小化されていきます。

ここで、現実的な想定として、観測データ ${\mathcal D}$ が与えられた一般的な確率モデル $p({\mathcal D},{\bf Z})$ の事後分布 $p({\bf Z}|{\mathcal D})$ に対する近似公式を求めてみます。
${\bf Z}$ は潜在変数やパラメータであるとします。
(8)式より((8)式は一般的なケースは示していません。いづれ書くのでお待ちください。)