はじめに
本記事は、「ベイズ推論による機械学習入門」という書籍を参考に書いたので、
今までの記事とは異なり、潜在変数をと書いております。
本記事でも、「平均場近似の変分推論といえば、この式!」という以下の式を使います。
式については、こちらで解説しています。
潜在変数、混合比率については、本記事では詳しくは説明しませんので、わからない方は
混合ガウス分布の最尤推定か変分混合ガウス分布の記事を参考にしてください。
全体の流れ
変分推論の記事はどうしても長くなってしまう為、全体の流れを書きます。
1. まず観測データと観測されていない未知の変数に関して、同時分布を構築する。
2. 事後分布を解析的あるいは近似的に求める。
これ実は、ベイズ統計全般に言える事なのでですが、すごくすごく大事なことなので書いておきました。
今回ももちろんこの流れに沿っています。
今回のモデルでは、 となります。
2で、「解析的あるいは近似的に」とありますが、今回は「近似的に」求めます。
ポアソン混合モデル
ポアソン混合モデルは、多峰性の離散非負データ(図の左のヒストグラム参照)を学習する際に用いられます。
図
ここでは、次元データに対するポアソン混合モデルを考えます。
まず、ポアソン混合モデルの確率変数を書き下します。
観測データを とします。
潜在変数を とします。
混合比率を とします。
ポアソン分布のパラメータを とします。
次に、確率分布を書き下します。
はポアソン分布を採用します。
よって、混合分布における条件付き分布は以下のようになります。
観測値はそれぞれ独立だと仮定すると、以下が成り立ちます。
の事前分布は、ポアソン分布の共役事前分布であるガンマ分布とします。
式のはガンマ分布の正規化項です。
はそれぞれ独立とします。
は1 of K表現を用いているので、はカテゴリ分布とします。
とはペアであり、がそれぞれ独立と仮定しているので、はそれぞれ独立です。
混合比率 の事前分布ですが、
はカテゴリ分布のパラメータなので、共役事前分布のディリクレ分布を採用します。
式で、はハイパーパラメータであり、固定です。
また、はディレクレ分布の正規化定数です。
グラフィカルモデルは、以下のようになります。
図
同時分布は、以下の式で表せます。
変分推論を適用
準備が整いましたので、変分推論を適用します。
潜在変数とパラメータの事後分布を以下のように近似します。
このように潜在変数とパラメータを分けて近似する手続きを変分EMアルゴリズムということがあります。
また、を近似事後分布、または変分事後分布と呼びます。
の導出
に式を当てはめるため、式において、とします。
式で、を含まない項はにまとめました。
式で、がやになっていますが、周辺化したためです。
式で、期待値の線形性を使って、をの外に出しました。
式より、は個の和で表現されているため、は個の積で表現されます。
よって、は各点ごとの独立な分布に分解されることが分かります。
したがって、式より、は以下のように書けます。
式のを変形します。
式で、期待値の線形性を使って、をの外に出しました。
式で、がになっていますが、で周辺化されたためです。
式で、であるため、をの外に出し、
はとは無関係である為、にまとめました。
式のを変形します。
式で、期待値の線形性を使って、をの外に出しました。
式でをのように変形していない理由ですが、
という制約のため、分解して考えにくい為であると思います。
また、後でわかるのですがはディレクレ分布であり、成分の分布での期待値は普通考えない為だと思われます。
式を式に代入します。
式において、
とおきます。
式を式に代入します。
式のは式のです。
式から式の変形はやや面倒なので、最後に説明します。
式でとおきました。
式より、近似分布はパラメータを持つカテゴリ分布になることが分かります。
近似分布がまだ明らかになっていないので、
式のの計算は後回しにします。
の導出
に式を当てはめるため、式において、とします。
式で、とはに無関係なので、としています。
また、式は項がとで分かれているので、近似分布において独立、
すなわち、になることを意味しています。
式をについて整理します。
式で、に関係ない項はにまとめています。
式をについて整理します。
式で、に関係ない項はにまとめています。
以下で、とを別々に計算していきます。
の導出
式より、を計算していきます。
式で、をとし、としていないのは、
という制約のため、分解して考えにくい為であると思います。
また、はカテゴリ分布であり、成分の分布での期待値は普通考えない為だと思われます。
式において、
のようにおきます。
式を式に代入します。
式のはの正規化項であり、式のです。
式は、式が積の形で書けているので、がそれぞれ独立であることを利用しました。
式より、近似分布はパラメータを持つガンマ分布になることが分かります。
式のは後で計算します。
の導出
式より、を計算していきます。
式で、をとしていないのは、
という制約のため、分解して考えにくい為であると思います。
また、はカテゴリ分布であり、成分の分布での期待値は普通考えない為だと思われます。
式において、
とおきます。
式を式に代入します。
式で、とおきました。
式のはの正規化項であり、式のです。
式より、近似分布はパラメータを持つディレクレ分布になることが分かります。
式のは後で計算します。
期待値の計算
全ての近似分布が明らかになったので、まだ計算していない期待値を計算します。
式より、なので、
です。
式より、なので、
です。
式より、なので、
です。
式を含むパラメータに代入していきます。
式に、式を代入します。
式に、式を代入します。
式に、式を代入します。
式に、式を代入します。
近似分布のパラメータの更新式が求まりましたので、
以下の繰り返し法で求めます。
アルゴリズム
1.初期化
を初期化します。
を以下のように初期化します。
2.の更新 (の更新)
を更新します。
ただし、
とします。
3.の更新 (の更新)
を更新します。
4.の更新 (の更新)
を更新します。
5.終了条件
対数尤度を再計算し、前回との差分があらかじめ設定していた収束条件を満たしていなければ2に戻り、満たしていれば終了します。
※を初期化し、2と3と4の処理を入れ替えても同じです。
※対数尤度の代わりに、繰り返し回数を決めて、それを終了条件とするのもよいと思います。
※対数尤度の代わりに、変分下限(変分下界)を計算してもよいと思います。
※対数尤度計算時のは、の平均やモードなどを使えばよいと思います。
式から式の変形について
この式変形は混合分布の変分推論では必ず出てきますし、重要な式変形だと思うので、丁寧に説明していきます。
もう一度、式を書き出してみます。(式が式に式が式に相当します。)
式のはの正規化項なので、はを全てのについて足し合わせたものです。
まずは、について計算します。
式から式への式変形が一番のポイントだと思います。
にはかつという制約があります。
これを分かりやすくいうと、はまたはの値をとり、なら(でないにおいて)ということです。
例えば、の場合、
(のみがの場合)、
(のみがの場合)、
(のみがの場合) のつの場合があるということです。
は全てのについて足し合わせなさい、ということなので、
(のみがの場合)(のみがの場合)(のみがの場合) と書けるので、
式から式への式変形が実現します。
式から式への変形は、スカラーの乗がであることさえ知っていれば分かります。
次に、求めた式を式に代入します。
式から式の変形ですが、式において、のときなので、式のようにまとめてと書けます。
とおいているので、式に代入すれば、式が導けます。
以上より、式から式の変形ができることが確認できました。
まとめ
最後に今回の記事の一連の流れを確認しておきます。
式番号は既に登場したものにをつけます。
まずは、同時分布を次のように設計しました。
次に、パラメータの事後分布を以下のように仮定しました。
近似分布を計算すると、であることが分かり、
であることが分かりました。
近似分布を計算すると、 であることが分かりました。
近似分布を計算すると、であることが分かり、
であることが分かりました。
近似分布を計算すると、
であることが分かりました。
近似分布のパラメータは相互に依存しているため、
解析的に解くのは難しいですが、上に書いた繰り返し法のアルゴリズムで解くことができます。
偉人の名言
統計とは、街灯の柱と酒を飲むようなもの。
ウィンストン・チャーチル
動画
なし