[go: up one dir, main page]

JP2009296298A - 音声信号処理装置および方法 - Google Patents

音声信号処理装置および方法 Download PDF

Info

Publication number
JP2009296298A
JP2009296298A JP2008147755A JP2008147755A JP2009296298A JP 2009296298 A JP2009296298 A JP 2009296298A JP 2008147755 A JP2008147755 A JP 2008147755A JP 2008147755 A JP2008147755 A JP 2008147755A JP 2009296298 A JP2009296298 A JP 2009296298A
Authority
JP
Japan
Prior art keywords
gain
audio signal
loudness
smoothing
time constant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008147755A
Other languages
English (en)
Inventor
Kiyotaka Nagai
清隆 永井
Mikio Oda
幹夫 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2008147755A priority Critical patent/JP2009296298A/ja
Publication of JP2009296298A publication Critical patent/JP2009296298A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】音声信号に対する単一バンドのDRCやAGCによる息継ぎ現象等の不自然な音の時間的な変動感を抑える。
【解決手段】入力音声信号の周波数分析を行う周波数分析部190と、前記周波数分析結果に基づいて、ラウドネス平滑化部140とゲイン平滑化部160との時定数をそれぞれ算出するラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とを備え、低域周波数成分が所定の値より大きい場合、および/または全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記時定数を大きくすることにより、不自然な音の時間的な変動感を抑えた聞き取りやすい音声信号にすることができる。
【選択図】図1

Description

本発明は、音声信号のダイナミック・レンジを制御する音声信号処理装置および方法に関するものである。
音声信号のダイナミック・レンジを適切に抑えて、聞き取りやすい音声信号にする音声信号処理方法としては、ダイナミック・レンジ・コントロール/コンプレッション(Dynamic Range Control/Compression:DRC)や自動利得制御(Automatic Gain Control:AGC)が知られている。
図6は、非特許文献1に記載されたDRCを使用する従来の音声信号処理装置の構成を示すブロック図である。図6において、600は乗算部、610はラウドネス測定部、620はゲイン算出部、630はゲイン平滑化部、640はゲイン平滑化時定数算出部である。以下その動作について説明する。
ラウドネス測定部610は、入力音声信号のラウドネス(聴覚による音の大きさの尺度)を測定して出力する。ラウドネス測定部610は、周波数重み付けフィルタを通した後の入力音声信号の2乗平均をブロック単位(サンプリング周波数48kHzで256サンプル)で算出して、ラウドネスとして出力する。
ゲイン算出部620は、前記入力音声信号のダイナミック・レンジを制御するためにあらかじめ設定されたラウドネス対ゲイン関数に基づいて、前記ラウドネスからゲインを算出する。
ゲイン平滑化時定数算出部640は、前記ゲインを時間平滑化するときの時定数を算出し、ゲイン平滑化時定数として出力する。ゲイン平滑化時定数算出部640は、ラウドネス測定部610で測定した現在のラウドネスから平滑化ラウドネス(過去のラウドネスを時間平滑化したもの)を減算することにより、ラウドネスの変動値を算出する。ゲイン平滑化時定数算出部640は、次に、前記ラウドネスの変動値に基づいて、次の4種類の時定数の1つを選択して出力する。なお、1)から4)にいくにしたがって、時定数の値が大きくなる。
1)高速アタック時定数(ラウドネス変動値が正で、アタックの閾値より大きい場合)
2)低速アタック時定数(ラウドネス変動値が正で、アタックの閾値以下の場合)
3)高速リリース時定数(ラウドネス変動値が負で、リリース閾値より小さい場合)
4)低速リリース時定数(ラウドネス変動値が負で、リリース閾値以上の場合)
ゲイン平滑化部630は、ゲイン算出部620からのゲインをゲイン平滑化時定数算出部640からのゲイン平滑化時定数で時間平滑化を行い、平滑化されたゲインを算出して出力する。
乗算部600は、入力音声信号に前記平滑化されたゲインを乗算して出力音声信号を算出して出力する。
図6の装置では、入力音声信号のダイナミック・レンジを適切に抑え、静寂でない環境でも聞き取りやすい音声信号に処理して出力することができる。
また、特許文献1には、AGCを使用して、入力信号レベルを一定レベルの信号にして出力する従来の自動利得制御装置について記載されている。
非特許文献1および特許文献1に記載しているのは、全周波数帯域に対して一括してDRC処理あるいはAGC処理を行う単一バンドの処理であるが、非特許文献2には、音声信号を複数の周波数帯域(バンド)に分割して、それぞれの周波数帯域に対してDRC処理あるいはAGC処理を行うマルチバンドの処理について記載している。なお、ここでは、オーディオ用のコンプレッサ等で使用されている単一バンド、マルチバンドという言葉を使用するが、非特許文献2では、その代わりとして、補聴器等で使用されている単一チャンネル、マルチチャンネルという言葉を使用している。
特許第4014429号公報 チャールズ・キュー・ロビンソン(Charles Q. Robinson)他1名,「メタデータによるダイナミック・レンジ制御(Dynamic Range Control via Metadata)」,第107回AESコンベンション(107th AES convention),1999年9月,プレプリント(Preprint)5028 ハーベイ・ディロン(Harvey Dillon)著,中川雅文監訳,「補聴器ハンドブック」,医歯薬出版株式会社,2004年10月,第6章,p.155−181
しかしながら、前記非特許文献1および特許文献1に記載された従来の単一バンドの音声信号処理装置では、息継ぎ現象(信号の変動に応じて雑音や背景音のレベルが変動し、息継ぎをするように感じられる現象)等の不自然な音の時間的な変動感があるという課題を有していた。また、息継ぎ現象を抑えるために、低速なリリース時定数を使用すると、時間的な変動感は抑えられるものの、音声信号のゲインが抑えられる時間が長くなり、打音の響き等の情報量が減少する、という課題を有していた。前記非特許文献1に記載された音声信号装置では、複数の時定数を適応的に切り替えることにより、前記息継ぎ現象に関する課題を改善している。しかしながら、更なる改善が期待されていた。
一方、非特許文献2に記載されたマルチバンド処理では、バンド毎に独立した処理を行うことにより、息継ぎ現象は発生しにくいが、スペクトルの形状がフラットになり、バンド間の周波数バランスが変化する、という課題を有していた。
本発明は、前記従来の課題を解決するもので、音声信号に対する単一バンドのDRCやAGCによる息継ぎ現象等の不自然な音の時間的な変動感を抑えた音声信号処理装置および方法を提供することを目的とする。
この課題を解決するために、本発明の音声信号処理装置は、入力音声信号にゲインを乗算し、出力音声信号を算出する乗算部と、前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定部と、前記測定されたラウドネスを所定の時定数で時間平滑化を行うラウドネス平滑化部と、前記平滑化されたラウドネスに基づいて前記ゲインを算出するゲイン算出部と、前記入力音声信号または出力音声信号の周波数分析を行う周波数分析部と、前記周波数分析部の分析結果に基づいて、前記ラウドネス平滑化部の時定数を算出するラウドネス平滑化時定数算出部と、を備えたものであり、前記周波数分析結果に基づいて算出した時定数でラウドネスの時間平滑化を行うことにより、息継ぎ現象等の不自然な音の時間的な変動感を抑えることができる。
また、前記ラウドネス平滑化時定数算出部は、低域周波数成分が所定の値よりも大きい場合、および/または全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記ラウドネス平滑化部の時定数を大きくするように算出することを特徴とするものである。
また、さらに、前記ゲインを所定の時定数で時間平滑化を行い、平滑化されたゲインを算出するゲイン平滑化部を備え、前記乗算部は、前記入力音声信号に前記平滑化されたゲインを乗算することを特徴とするものである。
また、さらに、前記周波数分析結果に基づいて、前記ゲイン平滑化部の時定数を算出するゲイン平滑化時定数算出部を備えたことを特徴とするものである。
また、入力音声信号に平滑化されたゲインを乗算し、出力音声信号を算出する乗算部と、前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定部と、前記測定されたラウドネスに基づいてゲインを算出するゲイン算出部と、前記算出されたゲインを所定の時定数で時間平滑化を行い、平滑化されたゲインを算出するゲイン平滑化部と、前記入力音声信号または出力音声信号の周波数分析を行う周波数分析部と、前記周波数分析部の分析結果に基づいて、前記ゲイン平滑化部の時定数を算出するゲイン平滑化時定数算出部と、を備えたことを特徴とするものである。
また、前記ゲイン平滑化時定数算出部は、低域周波数成分が所定の値よりも大きい場合、および/または全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記ゲイン平滑化部の時定数を大きくするように算出することを特徴とするものである。
また、前記低域周波成分が30Hz乃至150Hz以下の成分であることを特徴とするものである。
本発明によれば、最小可聴限以上の音に対しては、低域周波数の音は、中高域周波数の音と比較して、同じ信号レベルの変化に対して音の大きさの変化が大きい、という心理音響学の知見を利用して、低域周波数成分が大きい場合、および/または全周波数成分に占める低域周波数成分の比率が大きい場合には、比較的大きな値の時定数でラウドネスおよび/またはゲインの時間平滑化を行うことにより、単一バンドのDRCやAGCの不自然な音の時間的な変動感を抑えた聞き取りやすい音声信号にすることができる。単一バンドのゲイン制御であるので、ゲイン制御によって周波数バランスが変化しない。
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における音声信号処理装置の構成を示すブロック図である。図1において、100は入力音声信号を重畳するブロックに分割する重畳ブロック分割部、110はブロック分割部100の出力とゲイン平滑化部160の出力とを乗算する乗算部、120は110の出力を重畳加算して出力音声信号を合成する重畳加算合成部、130は入力音声信号のラウドネスを測定するラウドネス測定部、140はラウドネス平滑化時定数算出部170の出力を使用してラウドネス測定部130の出力を時間平滑化するラウドネス平滑化部、150はラウドネス平滑化部140の出力からゲインを算出するゲイン算出部、160はゲイン平滑化時定数算出部180の出力を使用してゲイン算出部150の出力を時間平滑化するゲイン平滑化部、170はラウドネス平滑化部140の出力と周波数分析部190の出力とからラウドネス平滑化部140の時定数を算出するラウドネス平滑化時定数算出部、180はラウドネス平滑化部140の出力と周波数分析部190の出力とからゲイン平滑化部160の時定数を算出するゲイン平滑化時定数算出部、190は入力音声信号の周波数分析を行い、分析結果を出力する周波数分析部である。
図1の音声信号処理装置は、単一バンドのブロック単位のDRC処理を行う。以下、その動作について説明する。
重畳ブロック分割部100は、入力音声信号を重畳するブロックに分割して出力する。すなわち、(数1)に示すように、入力音声信号x(n)に対して50%重畳する窓関数w(n)を乗算することにより、重畳するブロックに分割した分割音声信号y(n,t)を算出する。ここで、nはサンプル時刻番号、tはブロック番号、Nはブロック長で、N/2はブロックシフト長を表す。Nの値としては、サンプリング周波数Fsが48kHzの場合には、例えば、64から4096に設定される。
Figure 2009296298
窓関数w(n)としては、例えば、(数2)に示すハニング窓を用いる。
Figure 2009296298
乗算部110は、重畳ブロック分割部100からの分割音声信号にゲイン平滑化部160からの平滑化されたゲインGs(t)を乗算し、ゲイン制御された分割音声信号を出力する。
重畳加算合成部120は、乗算部110からのゲイン制御された分割音声信号を(数3)に示すように重畳加算することにより、出力音声信号z(n)を合成して出力する。
Figure 2009296298
以上のようにして、クロスフェード重畳加算を行い、ブロック単位の分割音声信号を滑らかに接続することができる。
ラウドネス測定部130は、前記入力音声信号のブロック単位のラウドネスを測定して出力する。ラウドネスの測定方法としては、各種の方法が提案されているが、実施の形態1では、重み付けフィルタによる方法を用いる。すなわち、最初に、入力音声信号x(n)に対して周波数重み付けフィルタを通した信号v(n)を作成する。次に、(数4)に示すように、前記重み付けフィルタを通した信号v(n)に対して、前記窓関数w(n)を掛けてブロックに分割し、前記ブロック単位で2乗平均を算出することにより、ブロック番号tのラウドネスL(t)を測定する。前記周波数重み付けフィルタとしては、例えば、ITU−Rのラウドネス測定の標準化に関する勧告BS.1770に記載の特性を有するフィルタを用いる。
Figure 2009296298
ラウドネス平滑化部140は、最初に、ラウドネス測定部130からのブロック番号tのラウドネスL(t)と1つ前のブロック番号(t−1)の平滑化されたラウドネスLs(t−1)とを比較して、L(t)>Ls(t−1)の場合にはアタック状態、そうでない場合にはリリース状態、と判定して結果をアタック/リリース情報として、ラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とに出力する。次に、ラウドネス平滑化部140は、前記アタック/リリース情報に基づいて、ラウドネス平滑化時定数算出部170が算出したラウドネス平滑化時定数Tl(t)でラウドネス測定部130からのラウドネスL(t)の時間平滑化を行い、平滑化されたラウドネスLs(t)を算出して出力する。ラウドネスの時間平滑化は(数5)にしたがって行う。(数5)で、Aの値は、(数6)にしたがって算出される。
Figure 2009296298
Figure 2009296298
ゲイン算出部150は、(数7)に示すように、あらかじめ設定されたラウドネス対ゲインのDRC関数F()を使用して、ラウドネス平滑化部140からの平滑化されたラウドネスLs(t)に基づいて、ブロック単位のゲインG(t)を算出する。
Figure 2009296298
図2は、前記ラウドネス対ゲインのDRC関数の一例を示す模式図である。図2で横軸は対数軸で表したラウドネスで、縦軸はdB軸(20log10G(t))で表したゲインである。図2のDRC関数は、次の3つの領域に分類される。
1)ラウドネスが第1の閾値L1以下の場合には、G(t)>1で増幅する。
2)ラウドネスが第1の閾値より大きく、第2の閾値L2以下の場合にはG(t)=1(すなわち、0dB)でゲインの変更を行わない。
3)ラウドネスが第2の閾値より大きい場合には、G(t)<1で減衰する。
図2のDRC関数は、小さい音を増幅し、大きい音を減衰するので、ダイナミック・レンジを抑えて、静寂でない環境でも聞き取りやすい音声信号にすることができる。
ゲイン平滑化部160は、ゲイン平滑化時定数算出部180で算出されたゲイン平滑化時定数Tg(t)で、ゲイン算出部150からのゲインG(t)の時間平滑化を行い、平滑化されたゲインGs(t)を算出して出力する。前記ゲインの時間平滑化は(数8)にしたがって行う。(数8)で、Bの値は、(数9)にしたがって算出される。
Figure 2009296298
Figure 2009296298
周波数分析部190は、前記入力音声信号の前記ブロック単位の周波数分析を行い、周波数分析結果を出力する。周波数分析部190では、最初に、入力音声信号x(n)に対して(数10)の短時間離散的フーリエ変換を行い、フーリエ変換係数X(k,t)を算出する。ここで、w(n)は前記窓関数であり、kはフーリエ変換係数番号を表す。なお、短時間離散的フーリエ変換は、高速フーリエ変換を使用して、効率的に実行することができる。
Figure 2009296298
次に、(数11)に従って、周波数帯域毎に前記フーリエ変換係数をグループ化し、各周波数帯域の信号レベルP(m,t)を算出する。ここで、mは周波数帯域番号、Mは周波数帯域の数を表す。
Figure 2009296298
(数11)で、k1(m)とk2(m)は、それぞれ周波数帯域mの開始フーリエ変換係数番号と終了フーリエ変換係数番号を表す。実施の形態1では、M=2であり、30Hz乃至150Hz以下の低域周波数成分P(0,t)とそれ以外の中高域周波数成分P(1,t)とにグループ化して、分析結果として出力する。なお、各周波数帯域の信号レベルP(m,t)の算出時に、(数11)の代わりに、(数12)に示すように、重み付け係数c(k)を掛けて算出しても良い。
Figure 2009296298
また、短時間離散的フーリエ変換の代わりに帯域分割フィルタバンクを使用して各周波数帯域の信号レベルを算出しても良い。
ラウドネス平滑化時定数算出部170は、ラウドネス平滑化部140からのアタック/リリース情報と周波数分析部190からの各周波数帯域の信号レベルとに基づいて、ラウドネス平滑化部140で使用するラウドネス平滑化時定数を算出して出力する。ラウドネス平滑化時定数算出部170は、前記アタック/リリース情報に基づいて、アタック状態とリリース状態とで異なる値の時定数を算出する。アタック状態の場合には、リリース状態と比較して、通常、小さな値の(高速な)時定数となるように算出する。
実施の形態1では、低域周波数成分P(0,t)が、所定の値以下の場合には、小さな値の(高速な)時定数を算出し、そうでない場合には、全周波数成分(P(0,t)+P(1,t))に占める低域周波数成分P(0,t)の比率が所定の値よりも大きい場合には大きな値の時定数を算出する。図3は、前記全周波数成分に占める低域周波数成分の比率に対する時定数の関数の一例を示す模式図で、前記比率が所定の値R1より大きな場合には、前記比率に応じて大きな値の時定数を算出する。
図4は、ISO 226:2003「音響−正常な音の大きさの等感曲線」に記載された自由音場試聴条件下の耳科学的に正常な人に対する純音の音の大きさの基準等感曲線である。各曲線上の点は、純音の周波数に関係なく、すべて同じ大きさに聞こえる。同じ大きさに聞こえるための各周波数の音圧レベルが縦軸で示されている。図4からわかるように、最小可聴限(Hearing threshold)以上の音に対しては、低域周波数の音は中高域周波数の音と比較して、同じ信号レベルの変化に対して音の大きさの変化が大きい。すなわち、中高域周波数の音と比較して、低域周波数の音の方が、聞こえ始めると、信号レベルの変化による音の大きさの変化が大きい。
したがって、ラウドネス平滑化時定数算出部170で、前記心理音響学の知見を利用して、低域周波数成分が所定の値より大きい場合、および全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、平滑化時定数を大きくするように算出することにより、音の大きさの変化を抑えることができる。
ゲイン平滑化時定数算出部180は、ラウドネス平滑化部140からのアタック/リリース情報と周波数分析部190からの各周波数帯域の信号レベルとに基づいて、ゲイン平滑化部160で使用するゲイン平滑化時定数を算出して出力する。ゲイン平滑化時定数算出部180の動作は、ラウドネス平滑化時定数算出部170の動作と同様であり、説明を省略する。
なお、ラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とで算出する時定数を同一の値としても良い。この場合には、ラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180は兼用することができるので、いずれか一方で良い。
以上のように実施の形態1の音声信号処理装置では、入力音声信号の周波数分析を行う周波数分析部190と、周波数分析部190の分析結果に基づいて、ラウドネス平滑化とゲイン平滑化の時定数をそれぞれ算出するラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とを備えることにより、低域周波数では、信号レベルの変化に対する音の大きさの変化が大きい、という心理音響学の知見を利用して、低域周波数成分が所定の値より大きい場合、および全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記時定数を大きくして、前記ラウドネス平滑化と前記ゲイン平滑化を行うので、音の変動感を抑えた聞き取りやすい音声信号にすることができる。
なお、実施の形態1の音声信号処理装置では、ラウドネス平滑化部140とその時定数を算出するラウドネス平滑化時定数算出部170、およびゲイン平滑化部160とその時定数を算出するゲイン平滑化時定数算出部180をともに備えた構成としたが、前者か後者のいずれか一方のみを備えた構成としても良い。
また、実施の形態1のラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とでは、低域周波数成分が所定の値よりも大きい場合、および全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、時定数を大きくするように算出したが、前記2つの場合のいずれか一方の場合を満足するときには、時定数を大きくするように算出してもよい。
また、実施の形態1のラウドネス平滑化時定数算出部170とゲイン平滑化時定数算出部180とでは、低域周波数成分に基づいて時定数を算出するようにしたが、高域周波数成分に対しても同様な考え方を適用して、時定数を算出するようにしてもよい。
(実施の形態2)
図5は、本発明の実施の形態2における音声信号処理装置の構成を示すブロック図である。図1の実施の形態1の音声信号処理装置は、フィード・フォワード型のブロック単位のDRCの構成であるのに対して、図5の実施の形態2の音声信号処理装置は、フィード・バック型のサンプル単位のAGCの構成である。
図5において、500は入力音声信号とゲイン平滑化部540の出力とを乗算する乗算部、510は出力音声信号のラウドネスを測定するラウドネス測定部、520はラウドネス平滑化時定数算出部550の出力を使用してラウドネス測定部510の出力を平滑化するラウドネス平滑化部、530はラウドネス平滑化部520の出力からゲインを算出するゲイン算出部、540はゲイン平滑化時定数算出部560の出力を使用してゲイン算出部530の出力を平滑化するゲイン平滑化部、550はラウドネス平滑化部520の出力と周波数分析部570の出力とからラウドネス平滑化部520の時定数を算出するラウドネス平滑化時定数算出部、560はラウドネス平滑化部520の出力と周波数分析部570の出力とからゲイン平滑化部540の時定数を算出するゲイン平滑化時定数算出部、570は出力音声信号の周波数分析を行い、分析結果を出力する周波数分析部である。図5の音声信号処理装置は、単一バンドのサンプル単位のAGC処理を行う。以下、その動作について説明する。
乗算部500は、(数13)に示すように、入力音声信号x(n)(ただし、nはサンプル時刻番号)にゲイン平滑化部540からの平滑化されたサンプル単位のゲインGs(n)を乗算し、ゲイン制御された出力音声信号z(n)を算出する。
Figure 2009296298
ラウドネス測定部510は、乗算部500からの出力音声信号のラウドネスを測定して出力する。ラウドネスの測定方法として、実施の形態1では、周波数重み付けフィルタによる方法を用いたが、実施の形態2では、周波数重み付けフィルタを使用しないで(フラットな周波数特性で)、(数14)に示すように、過去Nサンプルの出力音声信号の2乗平均を算出することにより、サンプル時刻番号nのラウドネスL(n)を測定する。Nの値としては、例えば、サンプリング周波数Fsが48kHzの場合には、64から4096に設定される。
Figure 2009296298
ラウドネス平滑化部520は、最初に、ラウドネス測定部510からのサンプル時刻番号nのラウドネスL(n)と1つ前のサンプル時刻番号(n−1)の平滑化されたラウドネスLs(n−1)とを比較して、L(n)>Ls(n−1)の場合にはアタック状態、そうでない場合にはリリース状態、と判定して結果をアタック/リリース情報として、ラウドネス平滑化時定数算出部550とゲイン平滑化時定数算出部560とに出力する。次に、ラウドネス平滑化部520は、前記アタック/リリース情報に基づいて、ラウドネス平滑化時定数算出部550が算出したラウドネス平滑化時定数Tl(n)でラウドネス測定部510からのラウドネスL(n)の時間平滑化を行い、平滑化されたラウドネスLs(n)を算出して出力する。ラウドネスの時間平滑化は(数15)に従って行う。(数15)で、Aの値は、(数16)にしたがって算出される。
Figure 2009296298
Figure 2009296298
ゲイン算出部530は、(数17)に示すようにラウドネス平滑化部520からの平滑化されたラウドネスLs(n)とあらかじめ設定された目標ラウドネスLTとからサンプル単位のゲインG(n)を算出する。なお、前記ゲインの値が、あらかじめ設定された上限値より大きい場合には、前記ゲインの値を前記上限値に制限する。また、前記ゲインの値があらかじめ設定された下限値よりも小さい場合には、前記ゲインの値を前記下限値に制限する。
Figure 2009296298
ゲイン平滑化部540は、ゲイン平滑化時定数算出部560からのゲイン平滑化時定数Tg(n)でゲイン算出部530からのゲインG(n)の時間平滑化を行い、平滑化されたゲインGs(n)を算出して出力する。前記ゲインの時間平滑化は(数18)に従って行う。(数18)で、Bの値は、(数19)にしたがって算出される。
Figure 2009296298
Figure 2009296298
周波数分析部570は、最初に、前記出力音声信号z(n)を入力として、帯域分割フィルタバンクで、M個の周波数帯域に分割した信号Z(m,n)(ただし、mは周波数帯域番号)を算出する。次に、(数20)に従って、各周波数帯域の過去Nサンプルの2乗和を算出し、各周波数帯域の信号レベルP(m,n)として出力する。
Figure 2009296298
実施の形態2の周波数分析部570では、実施の形態1と同様に、M=2であり、30Hz乃至150Hz以下の低域周波数成分P(0,n)とそれ以外の中高域周波数成分P(1,n)とを算出して分析結果として出力する。
ラウドネス平滑化時定数算出部550は、ラウドネス平滑化部520からのアタック/リリース情報と周波数分析部570からの各周波数帯域の信号レベルとに基づいて、ラウドネス平滑化部520で使用する時定数を算出して出力する。ラウドネス平滑化時定数算出部550では、実施の形態1のラウドネス平滑化時定数算出部170と同様にして、低域周波数成分が所定の値より大きい場合、および全周波数に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記時定数を大きくするように算出する。
同様に、ゲイン平滑化時定数算出部560は、ラウドネス平滑化部520からのアタック/リリース情報と周波数分析部570からの各周波数帯域の信号レベルとに基づいて、ゲイン平滑化部540で使用する時定数を算出して出力する。ゲイン平滑化時定数算出部560の動作は、ラウドネス平滑化時定数算出部550の動作と同様であり、説明を省略する。
なお、ラウドネス平滑化時定数算出部550とゲイン平滑化時定数算出部560とで算出する時定数を同一の値としても良い。この場合には、ラウドネス平滑化時定数算出部550とゲイン平滑化時定数算出部560は兼用することができるので、いずれか一方で良い。
以上のように実施の形態2の音声信号処理装置では、出力音声信号の周波数分析を行う周波数分析部570と、周波数分析部570の分析結果に基づいて、ラウドネス平滑化とゲイン平滑化の時定数をそれぞれ算出するラウドネス平滑化時定数算出部550とゲイン平滑化時定数算出部560とを備えることにより、低域周波数では、信号レベルの変化に対する音の大きさの変化が大きい、という心理音響学の知見を利用して、低域周波数成分が所定の値より大きい場合、および全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記時定数を大きくして前記ラウドネス平滑化とゲイン平滑化を行うので、音の変動感を抑えた聞き取りやすい音声信号にすることができる。
なお、実施の形態2の音声信号処理装置では、ラウドネス平滑化部520とその時定数を算出するラウドネス平滑化時定数算出部550、およびゲイン平滑化部540とその時定数を算出するゲイン平滑化時定数算出部560をともに備えた構成としたが、前者か後者のいずれか一方のみを備えた構成としてもよい。
また、実施の形態2のラウドネス滑化時定数算出部550とゲイン平滑化時定数算出部560とでは、低域周波数成分が所定の値よりも大きい場合、および全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、時定数大きくするように算出したが、前記2つの場合のいずれか一方の場合を満足するときには、時定数を大きくするようにしてもよい。
また、実施の形態2のラウドネス平滑化時定数算出部550とゲイン平滑化時定数算出部560では、低域周波数成分に基づいて時定数を算出するようにしたが、高域周波数成分に対しても同様な考え方を適用して、時定数を算出するようにしてもよい。
なお、実施の形態1ではブロック単位で処理をしているが、実施の形態2と同様にサンプル単位で処理してもよい。
また、実施の形態2ではサンプル単位で処理をしているが、実施の形態1と同様にブロック単位で処理してもよい。
なお、本発明の音声信号処理装置は、各ブロックにおける処理をコンピュータに実行させるためのプログラムによって動作するコンピュータで構成してもよい。
以上のように、本発明にかかる音声信号処理装置は、不自然な音の時間的な変動感を抑えて、音声信号のダイナミック・レンジを制御し、聞き取りやすい音声信号にすることができるので、テレビ、ラジオ、DVD、ビデオカメラ、ミニコン、携帯電話等の音声信号処理装置等として有用である。
本発明の実施の形態1における音声信号処理装置の構成を示すブロック図 本発明の実施の形態1のゲイン算出部150で使用するラウドネス対ゲインのDRC関数の一例を示す模式図 本発明の実施の形態1および2における全周波数成分に占める低域周波数成分の比率に対する時定数の関数の一例を示す模式図 ISO 226:2003「音響−正常な音の大きさの等感曲線」に記載された自由音場試聴条件下の耳科学的に正常な人に対する純音の音の大きさの基準等感曲線を示すグラフ 本発明の実施の形態2における音声信号処理装置の構成を示すブロック図 非特許文献1に記載された従来の音声信号処理装置の構成を示すブロック図
符号の説明
100 重畳ブロック分割部
110,500 乗算部
120 重畳加算合成部
130,510 ラウドネス測定部
140,520 ラウドネス平滑化部
150,530 ゲイン算出部
160,540 ゲイン平滑化部
170,550 ラウドネス平滑化時定数算出部
180,560 ゲイン平滑化時定数算出部
190,570 周波数分析部

Claims (10)

  1. 入力音声信号にゲインを乗算し、出力音声信号を算出する乗算部と、
    前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定部と、
    前記測定されたラウドネスを所定の時定数で時間平滑化を行うラウドネス平滑化部と、
    前記平滑化されたラウドネスに基づいて前記ゲインを算出するゲイン算出部と、
    前記入力音声信号または出力音声信号の周波数分析を行う周波数分析部と、
    前記周波数分析部の分析結果に基づいて、前記ラウドネス平滑化部の時定数を算出するラウドネス平滑化時定数算出部と、を備えたことを特徴とする音声信号処理装置。
  2. 前記ラウドネス平滑化時定数算出部は、低域周波数成分が所定の値よりも大きい場合、および/または全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記ラウドネス平滑化部の時定数を大きくするように算出することを特徴とする請求項1に記載の音声信号処理装置。
  3. さらに、前記ゲインを所定の時定数で時間平滑化を行い、平滑化されたゲインを算出するゲイン平滑化部を備え、
    前記乗算部は、前記入力音声信号に前記平滑化されたゲインを乗算することを特徴とする請求項1に記載の音声信号処理装置。
  4. さらに、前記周波数分析結果に基づいて、前記ゲイン平滑化部の時定数を算出するゲイン平滑化時定数算出部を備えたことを特徴とする請求項3に記載の音声信号処理装置。
  5. 入力音声信号に平滑化されたゲインを乗算し、出力音声信号を算出する乗算部と、
    前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定部と、
    前記測定されたラウドネスに基づいてゲインを算出するゲイン算出部と、
    前記算出されたゲインを所定の時定数で時間平滑化を行い、平滑化されたゲインを算出するゲイン平滑化部と、
    前記入力音声信号または出力音声信号の周波数分析を行う周波数分析部と、
    前記周波数分析部の分析結果に基づいて、前記ゲイン平滑化部の時定数を算出するゲイン平滑化時定数算出部と、を備えたことを特徴とする音声信号処理装置。
  6. 前記ゲイン平滑化時定数算出部は、低域周波数成分が所定の値よりも大きい場合、および/または全周波数成分に占める低域周波数成分の比率が所定の値よりも大きい場合には、前記ゲイン平滑化部の時定数を大きくするように算出することを特徴とする請求項5に記載の音声信号処理装置。
  7. 前記低域周波成分が30Hz乃至150Hz以下の成分であることを特徴とする請求項2または請求項6に記載の音声信号処理装置。
  8. 入力音声信号にゲインを乗算し、出力音声信号を算出する乗算ステップと、
    前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定ステップと、
    前記測定されたラウドネスを所定の時定数で時間平滑化を行うラウドネス平滑化ステップと、
    前記平滑化されたラウドネスに基づいて前記ゲインを算出するゲイン算出ステップと、
    前記入力音声信号または出力音声信号の周波数分析を行う周波数分析ステップと、
    前記周波数分析の分析結果に基づいて、前記ラウドネス平滑化の時定数を算出するラウドネス平滑化時定数算出ステップと、を備えたことを特徴とする音声信号処理方法。
  9. 入力音声信号に平滑化されたゲインを乗算し、出力音声信号を算出する乗算ステップと、
    前記入力音声信号または出力音声信号のラウドネスを測定するラウドネス測定ステップと、
    前記測定されたラウドネスに基づいてゲインを算出するゲイン算出ステップと、
    前記算出されたゲインを所定の時定数で時間平滑化を行い、平滑化されたゲインを算出するゲイン平滑化ステップと、
    前記入力音声信号または出力音声信号の周波数分析を行う周波数分析ステップと、
    前記周波数分析の分析結果に基づいて、前記ゲイン平滑化の時定数を算出するゲイン平滑化時定数算出ステップと、を備えたことを特徴とする音声信号処理方法。
  10. 請求項8または請求項9記載の音声信号処理方法における各ステップをコンピュータに実行させるためのプログラム。
JP2008147755A 2008-06-05 2008-06-05 音声信号処理装置および方法 Pending JP2009296298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008147755A JP2009296298A (ja) 2008-06-05 2008-06-05 音声信号処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008147755A JP2009296298A (ja) 2008-06-05 2008-06-05 音声信号処理装置および方法

Publications (1)

Publication Number Publication Date
JP2009296298A true JP2009296298A (ja) 2009-12-17

Family

ID=41544070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008147755A Pending JP2009296298A (ja) 2008-06-05 2008-06-05 音声信号処理装置および方法

Country Status (1)

Country Link
JP (1) JP2009296298A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792588A (zh) * 2010-03-10 2012-11-21 杜比国际公司 用于在单个回放模式中结合响度测量的系统
JP2015523606A (ja) * 2012-07-12 2015-08-13 ディーティーエス インコーポレイテッドDts, Inc. 雑音検出及びラウドネス低下検出によるラウドネスコントロール
JP2015179011A (ja) * 2014-03-19 2015-10-08 株式会社ジェイ・パワーシステムズ 金属管の欠陥検査方法、金属管の欠陥検査装置および金属管の欠陥検査プログラム
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
CN109785851A (zh) * 2013-09-12 2019-05-21 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN110648677A (zh) * 2013-09-12 2020-01-03 杜比实验室特许公司 用于下混合音频内容的响度调整

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792588B (zh) * 2010-03-10 2015-11-25 杜比国际公司 用于在单个回放模式中结合响度测量的系统
JP2013521539A (ja) * 2010-03-10 2013-06-10 ドルビー・インターナショナル・アーベー 単一再生モードにおいてラウドネス測定値を合成するシステム
US9154102B2 (en) 2010-03-10 2015-10-06 Dolby Laboratories Licensing Corporation System for combining loudness measurements in a single playback mode
CN102792588A (zh) * 2010-03-10 2012-11-21 杜比国际公司 用于在单个回放模式中结合响度测量的系统
JP2015523606A (ja) * 2012-07-12 2015-08-13 ディーティーエス インコーポレイテッドDts, Inc. 雑音検出及びラウドネス低下検出によるラウドネスコントロール
CN110648677A (zh) * 2013-09-12 2020-01-03 杜比实验室特许公司 用于下混合音频内容的响度调整
CN109785851A (zh) * 2013-09-12 2019-05-21 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN109903776A (zh) * 2013-09-12 2019-06-18 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN109920440A (zh) * 2013-09-12 2019-06-21 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN109979472A (zh) * 2013-09-12 2019-07-05 杜比实验室特许公司 用于各种回放环境的动态范围控制
US11842122B2 (en) 2013-09-12 2023-12-12 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN109979472B (zh) * 2013-09-12 2023-12-15 杜比实验室特许公司 用于各种回放环境的动态范围控制
US12185077B2 (en) 2013-09-12 2024-12-31 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
US12210799B2 (en) 2013-09-12 2025-01-28 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US12279104B1 (en) 2013-09-12 2025-04-15 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
JP2015179011A (ja) * 2014-03-19 2015-10-08 株式会社ジェイ・パワーシステムズ 金属管の欠陥検査方法、金属管の欠陥検査装置および金属管の欠陥検査プログラム
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters

Similar Documents

Publication Publication Date Title
JP5542122B2 (ja) ダイナミックサウンド提供システム
CN101625868B (zh) 音量调节设备和音量调节方法
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
US8812308B2 (en) Apparatus and method for modifying an input audio signal
JP7768603B2 (ja) ラウドネスレベルを制御するオーディオ信号処理方法及び装置
CN102461207B (zh) 声音重放装置、声音重放方法和记录介质
EP2265039B1 (en) Hearing aid
CN103177727B (zh) 一种音频频带处理方法及系统
US20110002467A1 (en) Dynamic enhancement of audio signals
CN103874002A (zh) 包括非自然信号减少的音频处理装置
JP2010534030A (ja) 聴覚情景分析とスペクトルの歪みを用いた音響処理
JP2009296298A (ja) 音声信号処理装置および方法
JPH11265199A (ja) 送話器
JP4922427B2 (ja) 信号補正装置
JPH09311696A (ja) 自動利得調整装置
JP6531418B2 (ja) 信号処理装置
JPH0956000A (ja) 補聴器
JP6244652B2 (ja) 音声処理装置及びプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP2011035573A (ja) 音信号処理装置および音信号処理方法
JP2011071806A (ja) 電子機器、及び電子機器の音量制御プログラム
JP2008129108A (ja) オートゲインコントロール装置、音声記録装置、映像・音声記録装置および通話装置