日本音響学会

音のなんでもコーナー

Q and A (111)

Q:

音声認識の技術が進みPC上でも高い精度で動作するようになったと聞きました。研究用の実験システムに組み込んでみたいのですが,音声認識ソフトに変更を加えて利用することは可能ですか?

A:

現在の音声認識方式は,入力音声を最も高い確率で出力する単語系列を探索する「認識アルゴリズム」のほかに,あらかじめ大量のデータを用いて学習された「音響モデル」(音素の音響的特徴を表す隠れマルコフモデル)と,「言語モデル」(単語の並びの偏りを表すNグラム確率)を必要とします。市販の音声認識ソフトウェアにはあらかじめ標準的な音響モデルと,数万の語彙からなる言語モデルが組み込まれており,ワープロの入力などに利用することができるようになっています。新聞記事のように定型的な文章の読み上げであれば,90%以上の単語正解精度で不特定話者の音声を認識することができます。
 音声認識を研究目的に利用するためにはプログラムの改変や,音響モデル・言語モデルの入れ替えが必要な場合が多いと思います。残念ながら市販のほとんどの音声認識ソフトウェアはソースプログラムを開示しておりませんし,音響モデルや言語モデルの入れ替えを行うこともできません。
 1997年から3年間IPA(情報処理振興事業協会)の助成を受けた国内の複数の大学の共同研究により,いわゆるフリーソフトとして日本語連続音声認識基本ソフトウェアが開発されました。この基本ソフトウェアには,連続音声認識ソフトウェア(Julius),約5年分の新聞記事を利用して学習された言語モデル,男女合わせて約200名の新聞記事読み上げ音声により学習された音響モデル,が含まれています。(これらは参考文献に付属するCDROMに格納されています。)
 基本ソフトに含まれるJuliusはUnix OS上で実行されることを前提としており,標準的なC言語で書かれたソースコードで提供されるため,実験目的に合わせて改変することが可能です。音素モデルはHMM(隠れマルコフモデル)の標準的なツールキットであるHTKのファイル形式であれば自由に入れ替えることができます。HTKには音響モデルの作成ツールの他様々な機能が含まれています。言語モデルも同様にarpa形式と呼ばれる標準的なファイル形式であれば利用できます。arpa形式の言語モデルは,山形大学で開発されたツールキットPalmkitを利用することでテキストデータから作成することができます。
 ただし音響モデルや言語モデルを学習するためには一般に大量の学習データ(音響モデルの学習には数時間の発声,言語モデルの学習には数万文のテキスト)が必要です。本学会の音声データベース調査委員会では,研究目的に利用可能な音声データベースとその入手方法のリストを作成しておりますので,参考にして下さい。

参考文献
鹿野清宏他編著, IT—TEXT音声認識システム, オーム社

関連ページのURL
音響モデル作成ツールHTK(Hidden Markov ModelToolkit)
http://htk.eng.cam.ac.uk/
言語モデル作成ツールPalmKit
http://palmkit.sourceforge.net/index.html
連続音声認識コンソーシアム
http://www.lang.astem.or.jp/CSRC/index.html
研究用音声データベースリスト
http://www.ciair.coe.nagoya-u.ac.jp/db/

(武田一哉:名大・電子情報学)