日本音響学会

音のなんでもコーナー

Q and A (030)

Q:

mel 尺度と Bark 尺度と ERB 尺度とはどのようなもので聴覚の周波数軸としてはどれを使えばよいのでしょうか?

A:

まず mel 尺度ですが,これは人間の音の高さの知覚特性から得られた尺度です。1,000 Hz,SPL 40 dB の純音を基準の音(1,000 mel)として,これより2倍の高さあるいは1/2の高さに知覚される音をマグニチュード測定法などで測定し,それぞれ 2,000 mel,500 mel と決めました。メル尺度と周波数の関係でよく用いられる式は
    mel = (1000/log2)log(f/1000+1)
です。式を見ても分かるように,対数の関係となっています。
  これに対して,Bark 尺度と ERB 尺度はどちらも Fletcher が提唱した聴覚フィルタの概念から得られた尺度です。Fletcher の言う聴覚フィルタとは,中心周波数が連続的に変化する帯域フィルタで,(1)信号音に一番近い中心周波数を持つ帯域フィルタが信号音の周波数分析を行い,(2)信号音のマスキングに影響を及ぼす雑音成分はこの帯域フィルタ内の周波数成分に限られるようなフィルタです。Flether はこの帯域フィルタのバンド幅を臨界帯域(CB)と名付けています。
  Zwickerは様々な方法で聴覚フィルタの中心周波数とバンド幅の関係を測定し,1961年に,聴覚フィルタの中心周波数とその周波数における臨界帯域の関数を表の形で発表しました。Zwicker はこの中で臨界帯域は中心周波数の関数となっており,中心周波数が低い場合には臨界帯域は狭く中心周波数が高い場合には広くなっていること,また,中心周波数が 500 Hz 以下では臨界帯域はほぼ一定の 100 Hz であることを示しました。
  実際に聴覚フィルタを模擬するフィルタを設計する場合には,中心周波数と臨界帯域の関係が数式で表わされている方が都合が良く,1980年に Zwicker と Terhardt が与えた中心周波数と臨界帯域の関係式が多く用いられています。また,周波数軸はしばしば臨界帯域を幅 1 とする周波数軸に変換されて表示されます。Zwicker と Terhardt は同じ論文で,周波数軸から Bark 軸への変換式を次のように与えました。
    Bark = 13arctan(0.76f) + 3.5arctan((f/7.5)2)
これが Bark 尺度です。
  一方,ERB 尺度も,Fletcher が提唱した聴覚フィルタに基づいて はいますが,Patterson,Moore らが Zwicker とは異なる方法で測定した聴覚フィルタのパラメータを用いた尺度です。
  Békésy によれば,基底膜上の最大振幅の位置と周波数はほぼ対数の関係であり,周波数が高くなるほど周波数間隔は密になります。Greenwood は,Békésy が求めた周波数と基底膜上の最大振幅の位置との関係を考慮して,臨界帯域幅は基底膜上で等間隔であるという仮説を立て,Masked Audiogram を使って臨界帯域を測定した結果からこの仮説を実証しました。仮に,Greenwood の結果が正しいとすれば,Békésy の結果と同様に,臨界帯域は周波数が低いときには小さく,周波数が高くなるにしたがって指数関数的に大きくならなければなりません。これは,Zwicker の測定結果から得られる,臨界帯域幅は 500 Hz 以下でほぼ一定であるという結果と異なります。
  また,Patterson によれば,聴覚フィルタの特性を測定する場合には,Off-Frequency Listening の影響を考慮しなければなりません。Off-Frequency Listening により,特に中心周波数が低い場合に帯域幅が大きく測定されてしまうからです。Zwicker の示したデータの 500 Hz 以下の部分には Off-Frequency Listening などで生じた測定誤差が潜んでいる可能性も否定できません。そこで Patterson らは,ノッチトノイズを用いた新たな臨界帯域測定法を考案し,OFF-Frequency Listening の影響を考慮しながら聴覚フィルタの周波数特性を測定しました。そして,高さと面積が同じ長方形で聴覚フィルタを近似し,長方形の幅(Equivalent Rectangular Bandwidth: ERB)を古典的な臨界帯域に代わる値としました。また,Moore は,ERB を幅 1 として,物理的な周波数との関係を発表しました。
    ERBs = 21.4log(4.37f/1000+1)
これが ERB 尺度です。式を見ても分かるように,ERB 尺度も mel 尺度と同様に対数の関係となっています。
  応用としては,メル尺度は,周波数軸をメル尺度で変形した対数スペクトラムから得られるケプストラム(メルケプストラム)が容易に計算できるので,ケプストラムと組合せて音声認識用の特徴量として多く用いられています。Bark 尺度は,様々な音知覚現象の説明に用いられている臨界帯域の概念と関係が深いため,音知覚過程の記述に多く用いられています。そして,ERB 尺度は基底膜上の最大振動位置との対応関係が良いので,末梢系での処理の記述などに多く用いられています。しかし,それぞれの尺度は何を表現しているかが異なるため,何を使うかはその応用先をしっかり検討して選んで下さい。
  詳しくは,赤木:“聴覚フィルタとそのモデル”電子情報通信学会誌77(9),948ー956を見て下さい。

赤木 正人(北陸先端大)