日本音響学会

音のなんでもコーナー

Q and A (008)

Q:

音声認識で使われているアルゴリズム HMM (Hidden Markov Model) の Hidden (隠れ)は,どうしてそう呼ばれているのですか。

A:

HMM (Hidden Markov Model,隠れマルコフモデル)は音声認識方式として広く採用されています。何故「隠れ」と呼ばれているかについてですが,一言でいってしまえば「通常のマルコフモデルの場合には出力シンボル系列が与えられると状態遷移系列を特定できるのに対して,隠れマルコフモデルでは出力シンボル系列が与えられても状態遷移系列を特定することができないため」ということができます。ここで,出力シンボルといっているのは音声認識でいうと音声分析された特徴ベクトルの時系列(あるいは特徴ベクトルをベクトル量子化した量子化コード時系列)に相当します。通常のマルコフモデルとの対比でもう少し詳しく説明しましょう。
  ある時点で生じる状態遷移の確率が直前のm個の状態遷移系列により定まる場合,これをm重マルコフモデルといいます。実際には m = 1 の場合で使うことが多いので m = 1 の場合で考えましょう。この場合直前の状態のみで次に遷移する状態の確率が定まります。この確率のことを状態遷移確率といいます。更に通常のマルコフモデルの場合は遷移先の状態によって出力されるシンボルが定まります。図-1に示すような簡単な具体例で考えてみましょう。図-1は二つの状態 S1 と S2 からなるマルコフモデルです。S1→S1 の状態遷移及び S2→S1 の状態遷移ではシンボル p を,S2→S2 の状態遷移及び S1→S2 の状態遷移ではシンボル q を出力するものとします。 aijは状態 Si から状態 Sj への状態遷移確率です。シンボル系列が pqpqpp と与えられたとします。このとき S1 をスタートとする状態遷移 はS1→S1→S2→S1→S2→S1→S1 と特定することができます。マルコフモデルの場合にはこのように状態遷移系列を求めることができます。外部に現れたシンボル系列から内部状態遷移を知ることができるという意味で通常のマルコフモデルは「隠れ」ではないわけです。
  次に隠れマルコフモデルについて考えましょう。隠れマルコフモデルが通常のマルコフモデルと大きく異なる点は,個々の状態遷移に対してあらゆるシンボルが出力される可能性を考える点です。これを確率(あるいは確率分布)として表現します。出力シンボルが図-11の例のような離散シンボルの場合には確率として扱い,特徴ベクトルのような連続量の場合には確率分布として扱います。この確率のことを出力確率といいます。隠れマルコフモデルは状態遷移確率と出力確率の2種の確率で特徴づけられます。この意味で隠れマルコフモデルは2重に確率的なモデルであるとも言われます。図-1のマルコフモデルに対応する隠れマルコフモデルを図-2に示します。bijp は状態 Si から状態 Sj へ遷移したときにシンボル p を出力する確率です。図-1と図-2の対比からマルコフモデルでは各状態遷移に対して出力シンボルが固定されているのに対して隠れマルコフモデルでは各状態遷移に対してすべての出力シンボルの可能性を考え,これが確率として与えられていることが分かります。 隠れマルコフモデルでは個々の状態遷移に対してすべてのシンボルが出力される可能性があるために,シンボル系列が観測されても状態遷移系列を特定することができません。このように外部に現れたシンボル系列を見ても内部状態を知ることができないということが「隠れ」と呼ばれるゆえんです。

天野 明雄(日立製作所)