日本音響学会

音のなんでもコーナー

Q and A (191)

Q:

音声認識や音声合成の技術が発展して音声対話システムも開発されているようですが,どうして日常あまり見かけないのでしょうか?

A:

まず,音声対話システムといっても定義は様々なので,ここでは「音声を主なコミュニケーション手段として人間と対話をすることのできるシステム」としましょう。「あまり見かけない」ということですが,エンタテインメントや玩具の世界や,音声メディアが必要不可欠なカーナビゲーションシステムなどでは音声対話機能がよく使われるようになっています。しかし,確かに,私たち成人がコンピュータシステムと対話する機会は日常的にはあまりありません。
  一つには,音声認識や音声合成,言語処理などの要素技術の問題が指摘できます。日常的な場面での対話を実現するには,現在の技術が主に扱っている範囲よりも更に多様な発話様式の音声を認識し,多様な雑音環境に耐え,また略語や新語,省略,言い換えなどの言語運用上の現象に対応しなければなりません。次に,対話を行うために必要な様々な知識の問題が指摘できます。現在,実用化されている音声対話システムの多くは話題の領域を限定することで,領域の知識の記述を可能にしていますが,日常的な場面を念頭に置いた場合,領域を限定せずに知識を構築する,あるいは領域を上手に限定する技術が求められます。トップダウンに知識を記述することの困難は人口知能分野でフレーム問題と呼ばれています。
  ここまで主に技術的な問題を述べてきましたが,そもそも私たちは対話に何を求めているかを考える必要もあります。人間同士の対話は信念の共有に基づいて行われ,対話を通じて,既に共有している信念の確認や,新たな相互信念の構築を行っていると言われます。談話分析を行うと,目的指向の対話は質問−応答の対で構成されることが多いのに対し雑談には明確な構造が見られず,互いに相手の言説に対する評価を述べる発話が多い傾向があるようです。 ユーザの信念や好みを理解し,システム自身も信念や好みを持ち,それを表現することが求められるのかもしれません。音声による対話では,抑揚やリズムなどの韻律によって心的な状態や態度を表現でき,信念に対するお互いの評価が確認し易い一面があります。最近では音声の韻律情報の分析・生成の研究が盛んに行われていますし,上述の知識の問題に対してはウェブ資源を活用する研究が進んでいます。近い将来,音声対話ならではのコミュニケーションが実現できれば,日常的な場面で私たちが音声対話システムを使う機会がもっと増えるのではないでしょうか。

菊池 英明(早稲田大)