日本音響学会

音のなんでもコーナー

Q and A (018)

Q:

音声認識の研究で はspontaneous speech が話題になっています。そこで,spontaneous speech と朗読音声 (read speech) の違いを分析してみたいと考え ています。そのような研究のために入手可能な日本語 spontaneous speech のデータベースはありませんか。

A:

日本音響学会の連続音声データベース調査委員会(1990年7月設置,現在は,音声データベース調査委員会)で検討・設計したものが研究用連続音声データベース(CD-ROM)Vol.7として配布されています。このCD-ROMには,道案内,観光案内,音楽会案内,パスポート取得問い合わせ,スキーツアー案内などの各種案内を話題とした模擬対話(37対話)をそれぞれ2名の話者が発声した音声波形と,その書き起こしテキストが収録されています。これは,あらかじめ与えられた各話題設定に応じて2名の話者が模擬対話を行った結果を録音したものです。音声は,16 kHz,16 ビットでディジタル化されています。8機関が協力して分担収録したため,録音特性は必ずしも統一されていませんが,AD 変換(低域ろ波器特性(48 dB/oct,8 kHz で-15 dB)は1箇所でまとめて行っています。書き起こしテキストは37対話あり,各対話は,47〜187文から成っています。このテキストは研究用連続音声データベース(CD-ROM)Vol.6に収録されたテキストの誤り等を修正した改訂版です。各対話は2名の話者が行い,全部で37対話なので,のべ74名が話しています。 しかし,何名かの話者は複数の対話に参加しているため,異なり話者の総数は37名(男29名,女8名)となっています。CD-ROMは,ISO 9660 フォーマット,音声データは,IEEE 形式(2バイト/1サンプル,上位バイト,下位バイトの順)で格納されています。波形ファイルにはヘッダはなく,音声データのみが格納されています。頒布実費は3,090円/枚+送料実費です。連絡先は,次のとおりです。(財)日本情報処理開発協会Al・ファジィ振興センター調査課 片岡幸一〒105東京都港区芝公園3-5-8 tel.03-3432-9390 Fax.03-3431-4324 E-mail:kataoka@jipdec.or.jp なお,spontaneous speech については,その収集方法自体が研究課題となっています。音声データベース調査委員会でも spontaneous speech のデータベース設計法などに関して検討していく予定です。また,本データベースを利用するソフトウェアツールも作成・頒布されています。詳しくは,本誌1994年1月号「コーヒーブレーク耳よりなはなし」をご覧下さい。 研究用連続音声データベース(CD-ROM)vo.1〜6については,本誌1992年12月号に「日本音響学会研究用連続音声データベース」という解説が載っています。Vol.1〜3が音素バランス文,Vol.4〜6が案内タスク文の読み上げとなっています。

竹沢 寿幸(音声データベース調査委員会幹事,ATR)