日本音響学会

音のなんでもコーナー

Q and A (017)

Q:

マルチモーダルインタフェースという言葉を論文などで目にしますが,マルチメディアとマルチモーダルとは,どう違うのでしょうか?

A:

マルチメディア (multimedia) に対してマルチモーダル (multimodal) という用語が用いられていますが,その使用法は必ずしも統一されていません。回答者が参加した1990年ACM(米国計算機学会)のマルチメディア/マルチモーダル・インターフェイス・ワークショップでは,用語の定義につき熱心な討論がなされ,文献(*)に結果がまとめられていますが,以下に要点を説明します。
・マルチメディア (multimedia) メディア(単数形 medium:複数形 media) とは情報のキャリアのことです。例えば印刷用紙,ビデオ,オーディオやビットマップディスプレイ等は,メディアです。コンピュータ業界では,単に複数の出力メディアを有する場合でも,マルチメディア・コンピュータと呼んでいますが,新聞紙にはテキストと写真,図が混在していてもマルチメディアと言わないので,画面上のテキストとイメージをマルチメディアと呼ぶのは適当ではありません。コンピュータの入力にキーボード,マウス,マイクロフォン,カメラ及びその他のメディアを複数使用する場合に,マルチメディア入力と呼びます。
・マルチモーダル (multimodal) モダリティー (modality) とは,情報が知覚される感覚を示します。テレビはオーディオとビジュアル情報を扱い視覚と聴覚に働きかけるので,マルチモーダルであり,一方新聞はすべて視覚情報なのでマルチモーダルではないと言えます。計算機からのマルチモーダル出力は人間の複数の感覚器に働きかけるのに対し,マルチモーダル入力は複数のセンサ(例えば音声とマウス)を用いたコンピュータの入力に対応します。一方,オーディオの分野ではマルチチャンネル (multichannel) という表現もしばしば使われますが,マルチチヤンネルとは単一のモダリティーしかない場合でも同時に複数の情報にアクセスできることを意味します。例えば,同時に2台の TV を見る場合は2チャンネルであると言えます。欧米の研究者でも,マルチモーダル/マルチメディアの用法は必ずしも定着している訳ではありませんが,マルチモーダルが情報が知覚される感覚の次元が複数であるという点に留意し適宜使い分けることが必要と思われます。 コンピュータの世界では,オーディオインタフェースや音声インタフェースが注目されてきましたが,ジェスチャーと音声認識を融合したり,アニメーション,テキスト表示などとオーディオ出力を統合した,マルチモーダルインタフェースの実現に向けて,オーディオ・メディアと本学会の活躍の場が広がるものと期待されます。

*R.Dannenberg and M.Blattner,“The trend toward multimedia interfaces,”in Multi Media Interface Design,M,Blattner,Ed.,Introduction.ACM Press Book(1992)

竹林 洋一(東芝)