日本音響学会

音のなんでもコーナー

Q and A (045)

Q:

音声認識の分野で使われている『音韻認識』と『音素認識』は同じ概念なのですか。『音韻』と『音素』とはどう違うのか,いつも疑問に思います。明確な定義があるのでしょうか。

A:

日本音響学会編「音響用語辞典」(コロナ社)では,「音素」の定義として,「ひとつの言語において,言葉の意味の区別を表すのに用いられる単位。日本語では,phonemeに相当する訳語として音素を当て,それにアクセント素を加えたものを音韻と呼ぶことがある。」とあります。「音韻」の定義としては,「音に関するいっさいを表わすものとして,日本で古くから用いられてきた用語。一般には音韻の方が音素より広い意味で用いられることが多く,phonemeのほかに,音の長短,強勢,アクセントなど韻律的要素まで含めたものとして用いられることがある。」とあります。音韻論や音声学の本では,音素の定義をいろいろと見かけますが,音韻の定義はほとんど見かけません。音素の古典的定義は,[hato]と[hako]のような対立がある場合,[t]と[k]が意味の弁別に関与しているので音素とし,/t/,/k/と表記します。従って,音素と認められるかどうかは言語によって異なります。[ ]での表記を音声表記,//での表記を音素記号といいます。音声表記で表される音声記号は,人間にとって調音あるいは,聞こえが同じ音の集合を表わしていると考えられ,主に国際音声字母が用いられます。また,一つの音素記号に複数の音声記号が対応することがあります。/s/に対する[s],[∫],/c/に対応する[t∫],[ts],/h/に対応する[h],[c],[φ]などです。母音にも,複数の音声表記に対応するものがあり,更に調音結合を考慮した場合はより多くの音声記号に対応します。また,音声では,ある区間が一つの音素に対応することは少なく,複数の音素が重複して実現されます。従って,音素は,一つの物理的実体を持っているとは考えられず,ある程度の心理的実体を持った仮想的単位といえます。しかし,音声を音声記号で分類することはきちんとした訓練を受けた人でも大変困難なことです。音声認識の目的は音声を言語的表現にすることですので,音素を認識単位とした方がよりすっきりすると言えます。問題となる音素内のばらつきは確率統計的方法で吸収していくという現在採用されている方法が妥当なものといえます。音声記号を用いても性別,方言などによるばらつきを吸収するために確率統計的方法をとる必要がありますから,言語が固定されていれば音素を単位とした方が楽と言えます。また,明らかに別パターンになる場合で,かつそれが前後の音素環境に依存する場合(異音という。例,[∫]など)は,音素の定義からは外れますが,それを別の音素とみなすという便法がとられることもあります。現在[音韻認識]という用語を使用している方でも英訳は“phoneme””を利用している方が多いようです。たまに“phonetic unit””を使用している方もいましたが,この場合は音声信号に対応するのではないかと思われます。ただ,実際には音素に幾つかの音声信号を加えた場合が多いようです。音素認識という場合でも,同様なことが行われていますので,実際問題としては,「音韻認識」と「音素認識」は日本語音声認識の分野ではほぼ同じことを意味していると考えても問題はないと思います。しかし,今後は曖昧さを無くすため,幾つかの異音を含めた場合も含めて音素を対象とするものを「音素認識」,更に韻律的なものを含めた場合を「音韻認識」と,統一していくことが望ましい方向と思われます。

執筆者:牧野正三(東北大)