日本音響学会

音のなんでもコーナー

Q and A (012)

Q:

音声認識装置の認識率とは具体的には何のことですか?認識率で音声認識を使ったシステムの性能が分かるのですか?

A:

音声認識装置に音声を入力しますと,認識結果の候補を,幾つか,順位を付けて出力するのが一般的です。認識率とは,それらの候補のうち第1位の認識候補が正解である確率で表すのが一般的のようです。
  つまり,認識率 90 % とは,100回の認識を行ううち90回は第1位の認識候補が正解であるということです。しかし,このような尺度が,どのような場合でも,実際の音声認識システムの性能を正確に表現するとは限りません。それは音声認識を用いるシステムでは,一般に音声認識の結果を確認する処理が必要であることに起因します。例えば,入力は音声認識,出力はグラフィックディスプレーである場合を考えてみましょう。認識候補の上位5個を表示し,ユーザにマウスで正解を指定させるというインターフェースであれば,1位候補が正解である必要は必ずしもなく,上位5位に正解が含まれていればよいことになります。一方,電話回線サービスのように入力,出力ともに音声であるシステムではどうでしょう?1位候補が不正解であると,システムからの「(1位候補)デスカ?」という質問に,ユーザが「いいえ」と答え,第2,第3の質問で正解候補を確認する手間が生じますね。つまり,できるだけ1位候補の正解率が高いことが望まれます。 また,提示された候補が否定された場合,更に下位の候補を提示するか,あるいは再度発声し直してもらうかという判断をしなければならないことに注意すべきです。
  仮に1位候補正解率 70 %,5位までの累積正解率 95 % の認識装置Aと,1位候補正解率 85 %,5位までの累積正解率 90 % の認識装置Bがあったとすると,グラフィックディスプレーを持つシステムでは認識装置Aを,音声のみの入出力を持つシステムでは認識装置Bを適用することが有利であろうということが予想できます。
  上記の例は認識率という尺度ではなく,正解が入力できるまでに,ユーザが発声しなくてはならない平均発声回数という尺度でヒューマンインタフェースを評価することが妥当な場合があることを示唆しています。重要な点は,音声認識のみの一方通行的なシステムはむしろまれであり,必ずシステムとユーザとのインタラクションを繰り返すことで入出力(対話)が進行していくものであることを留意して,システムの評価を行わなければならないということでしょう。

西 宏之(NTTヒューマンインタフェース研究所)