日本音響学会

音のなんでもコーナー

Q and A (075)

Q:

最近,音声や言語研究に対するデータベースの話題がよく聞かれます。その中で,“コーパス”と“データベース”とを使い分けているようですが,両者はどう違うのでしょうか?また,“音韻バランスセット”とは何でしょうか?何故バランスをとる必要があるのですか?

A:

辞書を引きますと,コーパスは英語でcorpus(複数形はcorpora)と書き,もともとは“集成”とか“大全”を意味し,何かを集大成したものを指すようです。また,ある言語や方言の言語学的な分析のために収集されたデータのこともコーパスといいます。我々が“音声コーパス”,“言語コーパス”と言った場合,通常はこの意味で使っています。“データベース”は単にデータを蓄積したものではなく,使用目的に応じて,編集やラベル付与等の必要な情報を付加したデータ構造全体を指すのに対し,データ構造は問題にせず,単にデータを大量に蓄積したものを“コーパス”と呼んで区別しています。なお,英語の“corpus”には“corpse”と同じ意味,すなわち,“死体”という意味もあるようです。大規模音声又は言語“コーパス”が“死体”にならないよう,十分活用できる体制作りが望まれます。音声データベースではよく,“音韻バランス”といいます。音声言語には母音,子音等の言語的な最小単位があります。これを一括して我々は“音韻”と呼んでいます。発声記号に相当する単位と思っていただければ分かり易いかと思います。音声データベースには様々な利用方法がありますが,音声認識の学習や評価に利用することが多く,その技術では,ある種の統計量や確率を問題にすることがほとんどです。音素単位の学習や認識・評価に利用するには,従って,日本語に現れるすべての音韻を網羅する必要があり,しかもそれらが等確率でかつできるだけ違った音素環境で出現するデータベースであるほうが望ましいわけです。音声認識以外の利用にしても事例は同じです。そのような要請に近い音声データベースを“音韻バランス”のとれたデータベースといいます。なお,“自然界”つまり日常我々が使っている日本語音声(新聞、雑誌等の書き言葉を含めて)では,もちろん各音韻は等確率ではなくそれぞれ出現頻度が異なります。それを反映したデータベースであることが望ましいという議論もあります。小規模のデータベースの構築には上記のような配慮が必要ですが,昨今は次第に規模が大きくなってきており,特別な配慮をしなくても“自然界”が自然に反映されたデータベースになりつつあります。

桑原尚夫(帝京科学大)