機械学習基礎理論独習

誤りがあればご指摘いただけると幸いです。数式が整うまで少し時間かかります。リンクフリーです。

勉強ログです。リンクフリーです
目次へ戻る

隠れマルコフモデル

はじめに

本記事は、マルコフモデルと状態空間モデルの記事の続きです。
本記事では、隠れマルコフモデルについて説明していきます。
隠れマルコフモデルとは、以下の状態空間モデルにおいて、潜在変数が離散変数であるモデルでした。

図1
f:id:olj611:20210921165135p:plain:w500

このモデルの同時分布は以下で与えられるのでした。

\begin{eqnarray}
p({\bf x}_1,\ldots,{\bf x}_N,{\bf z}_1,\ldots,{\bf z}_N)=p({\bf z}_1)\left(\prod_{n=2}^Np({\bf z}_n|{\bf z}_{n-1})\right)\prod_{n=1}^Np({\bf x}_n|{\bf z}_n)\tag{1}
\end{eqnarray}

隠れマルコフモデル

標準的な混合分布モデルの場合と同様に、潜在変数は離散的な多項変数 {\bf z}_n であり、
どの混合成分が対応する観測 {\bf x}_n を生成するか記述します。
{\bf z}_n は1-of-K符号化を取るとします。z_{nk}\in\{0,1\} かつ \sum_{k=1}^Kz_{nk}=1 を満たします。
{\bf z}_n{\bf z}_{n-1} に依存するので、条件付き分布 p({\bf z}_n|{\bf z}_{n-1}) は遷移確率を要素に表 {\bf A} にまとめることができます。
{\bf A}(j,k) 成分 A_{jk} は、以下のように定義されます。

\begin{eqnarray}
A_{jk}\equiv p(z_{nk}=1,z_{n-1,j}=1)\tag{2}
\end{eqnarray}

また、A_{jk} は確率なので、以下を満たします。

\begin{eqnarray}
&&0\leqslant A_{jk}\leqslant 1\tag{3}\\
&&\sum_{k=1}^KA_{jk}=1\tag{4}
\end{eqnarray}

以上より、条件付き分布は次の形で書けます。

\begin{eqnarray}
p({\bf z}_n|{\bf z}_{n-1},{\bf A})=\prod_{k=1}^K\prod_{j=1}^KA_{jk}^{z_{n-1,j}z_{nk}}\tag{5}
\end{eqnarray}

最初の潜在ノードは、親ノードを持たないので特別です。
混合ガウス分布の最尤推定の記事と同じ要領で
\pi_k\equiv p(z_{1k})=1,\sum_k\pi_k=1,{\boldsymbol\pi}=\{\pi_1,\ldots\pi_K\}となる混合係数を考えると、

\begin{eqnarray}
p({\bf z}_1|{\boldsymbol\pi})=\prod_{k=1}^K\pi_k^{z_{1k}}\tag{6}
\end{eqnarray}
となります。

遷移行列はノードを状態とする状態遷移図によって図示されることがあります。
K=3 の時の例を下図に示します。
f:id:olj611:20210922185821p:plain:w300
状態遷移図を時間方向に展開したものが下図に示す格子図です。これはトレリス図とも言われます。
f:id:olj611:20210922185840p:plain:w400

観測変数の条件付分布 p({\bf x}_n|{\bf z}_n,{\boldsymbol\phi}) を定義します。
ここで、{\boldsymbol\phi}=\{{\boldsymbol\phi}_1,\ldots,{\boldsymbol\phi}_K\} は分布を支配するパラメータの集合です。
混合ガウス分布の最尤推定の記事の式 (4) と同じ要領で、以下のようになります。

\begin{eqnarray}
p({\bf x}_n|{\bf z}_n,{\boldsymbol\phi})=\prod_{k=1}^Kp({\bf x}_n|{\boldsymbol\phi}_k)^{z_{nk}}\tag{7}
\end{eqnarray}

(1),(5),(6),(7) より、潜在変数 {\bf Z} と観測変数 {\bf X} の同時分布は次のようになります。

\begin{eqnarray}
p({\bf X},{\bf Z}|{\boldsymbol\theta})&=&p({\bf z}_1|{\boldsymbol\pi})\left(\prod_{n=2}^Np({\bf z}_n|{\bf z}_{n-1},{\bf A})\right)\prod_{n=1}^Np({\bf x}_n|{\bf z}_n,{\boldsymbol\phi})\\
&=&\prod_{k=1}^K\pi_k^{z_{1k}}\left(\prod_{n=2}^N\prod_{k=1}^K\prod_{j=1}^KA_{jk}^{z_{n-1,j}z_{nk}}\right)\prod_{n=1}^N\prod_{k=1}^Kp({\bf x}_n|{\boldsymbol\phi}_k)^{z_{nk}}\tag{8}
\end{eqnarray}

(8){\boldsymbol\theta}=\{{\boldsymbol\pi},{\bf A},{\boldsymbol\phi}\} とおきました。

{\boldsymbol\pi},{\bf A},{\boldsymbol\phi}を含めた、グラフィカルモデルは以下のようになります。
図3
f:id:olj611:20210922232943p:plain:w500

left-to-right HMM

標準的なHMMモデルにおいて、遷移確率 {\bf A} に制限を加えた、実用上重要なleft-to-right HMMモデルについて説明します。
このleft-to-right HMMモデルは {\bf A}k < j となる A_{jk} 成分を零にすることによって得られます。
図4は 3 状態のleft-to-right HMMの状態遷移図です。
図4
f:id:olj611:20210922193323p:plain:w300
このようなモデルでは多くの場合、初期状態確率 p({\bf z}_1) は、p(z_{11})=1,p(z_{1j})=0(j\not=1) と変更されます。
さらに、遷移確率は状態インデックスが大きく変化することを避けるために、もし k>j+\Delta なら A_{jk}=0 となるよう制限されます。
図4でこの種類のモデルを格子図を用いて示しました。
f:id:olj611:20210922193944p:plain:w400
音声認識やオンライン文字認識などの多くの隠れマルコフモデルの応用では、left-torightの構造が採用されています。

偉人の名言

f:id:olj611:20210922194305p:plain:w300
練習したからといって、すぐに結果がでるものではない。
毎日コツコツ努力していると、人間はある日突然、成長する。
桑田真澄

参考文献

パターン認識機械学習 下巻 p328-p333

動画

なし

目次へ戻る