ベイズモデル比較
本記事では、ベイズの立場からモデル比較の問題を考えます。
個のモデルを比較する場合を考えます。
観測されたデータをとします。
モデルの不確かさは、事前確率分布で表します。
この時、モデルの事後分布は
となります。
簡単のため、すべてのモデルの事前分布が等しい場合を考えます。
ベイズモデル比較では、モデルエビデンスと呼ばれる項が重要な働きをします。
モデルエビデンスは周辺尤度とも呼ばれます。
2つのモデルに対するエビデンスの比はベイズ因子と呼ばれます。
モデルの事後分布が分かれば、予測分布は以下のようになります。
モデル平均の単純な近似は、一番尤もらしいモデルを1つ選ぶ方法です。
これをモデル選択と言います。
パラメータを持つモデルに対しては、周辺尤度は以下で与えられます。
また、周辺尤度は事後分布を計算するときの分母に現れる正規化定数でもあります。
周辺尤度の近似
パラメータに関する積分を単純近似することにより、周辺尤度の別の解釈ができます。
パラメータがが1つであるとします。簡単のためモデルの依存性を省略します。
このとき、事後分布は以下のようになります。
事後分布が最頻値の近傍で鋭く尖っている時、その幅をで表せば、
全体の積分は幅で近似できます。
さらに、事前分布が平坦で幅のとき、なので、
となります。
式はと考えると分かりやすいです。
対数を取ります。
これを図で表すと、以下のようになります。
モデルが個のパラメータを含むときの周辺尤度の近似は、
すべてのパラメータが同じ比を持つとき、
となります。
周辺尤度最大化により、中間程度の複雑さのモデルが選ばれやすい理由
なぜ周辺尤度最大化により、中間程度の複雑さのモデルが選ばれやすいかを説明します。
以下の図を用いて説明します。
複雑さが単調増加の関係にある3つのモデルを考えます。
単純なモデルは自由度が少ないため、生成されるデータ集合は多様性に乏しいです。
したがって、その分布は横軸の比較的狭い領域に集中します。
複雑なモデルは非常に多様なデータ集合を生成することができます。
したがって,その分布は広範囲に広がります。
よって、あるデータ集合に対しては、
中間的な複雑さを持つモデルのエビデンスが最大になることがあります。
本質的に単純過ぎるモデルはデータにうまくフィットできないことが多く、
一方、複雑過ぎるモデルは予測分布があまりに広範に分布するため、
データ集合のどれかに割り当てられる確率は相対的に低いです。
周辺尤度が大きい方が正しいモデルである理由
ベイズモデルの比較の枠組みでは、真の分布が含まれていると暗に仮定しています。
2つのモデルがあり、が正しいモデルだと仮定します。
ベイズ因子をデータの集合の分布に対して、平均します。
はKLダイバージェンスなので、0以上です。
つまり、正しいモデルに対して、平均的に
なので、正しいモデルのベイズ因子の方が大きくなります。
偉人の名言
人生における失敗者の多くは、諦めた時にどれだけ成功に近づいていたかに気付かなかった人たちである。
トーマス・エジソン
動画
なし