JP2001343985A - 音声スイッチ方法及び音声スイッチ - Google Patents
音声スイッチ方法及び音声スイッチInfo
- Publication number
- JP2001343985A JP2001343985A JP2000165695A JP2000165695A JP2001343985A JP 2001343985 A JP2001343985 A JP 2001343985A JP 2000165695 A JP2000165695 A JP 2000165695A JP 2000165695 A JP2000165695 A JP 2000165695A JP 2001343985 A JP2001343985 A JP 2001343985A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- probability
- calculating
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Telephone Function (AREA)
Abstract
(57)【要約】
【課題】語頭切れを防ぎ通話品質を向上する音声スイッ
チ方法を提供する。 【解決手段】受話信号を第1の減衰量で減衰させて再生
信号を出力し、収音信号から再生信号に基づいて生成し
た擬似反響信号を差引いて残差信号を生成し、残差信号
を第2の減衰量で減衰させて送話信号とし、受話信号と
残差信号の情報に基づいて前記第1及び第2の減衰量を
制御する音声スイッチ方法において、短時間区間毎に受
話信号に受話音声が含まれる確率を算出し、短時間区間
毎に受話信号及び残差信号から、残差信号に送話信号が
含まれる確率を算出し、前記確率に基づいて単一もしく
は複数周波数帯域にて第1及び第2の減衰量の配分を算
出して第1及び第2の減衰量の制御を行う。
チ方法を提供する。 【解決手段】受話信号を第1の減衰量で減衰させて再生
信号を出力し、収音信号から再生信号に基づいて生成し
た擬似反響信号を差引いて残差信号を生成し、残差信号
を第2の減衰量で減衰させて送話信号とし、受話信号と
残差信号の情報に基づいて前記第1及び第2の減衰量を
制御する音声スイッチ方法において、短時間区間毎に受
話信号に受話音声が含まれる確率を算出し、短時間区間
毎に受話信号及び残差信号から、残差信号に送話信号が
含まれる確率を算出し、前記確率に基づいて単一もしく
は複数周波数帯域にて第1及び第2の減衰量の配分を算
出して第1及び第2の減衰量の制御を行う。
Description
【0001】
【発明の属する技術分野】本発明は、拡声通話系での音
声通信に利用され、再生された受話音声が発信元に送信
して生じる反響を抑制して通話品質を確保することを目
的とする。
声通信に利用され、再生された受話音声が発信元に送信
して生じる反響を抑制して通話品質を確保することを目
的とする。
【0002】
【従来の技術】拡声通話系では、スピーカから拡声され
た受話がマイクに収音される反響が問題となる。この反
響現象は音響エコーとも呼ばれ、対地の拡声通話系と形
成される閉ループのループゲインが1より大きい場合に
はハウリングが発生し通話が不可能となる。またループ
ゲインが1より小さい場合にも通話の障害や不快感など
の悪影響を生じる。
た受話がマイクに収音される反響が問題となる。この反
響現象は音響エコーとも呼ばれ、対地の拡声通話系と形
成される閉ループのループゲインが1より大きい場合に
はハウリングが発生し通話が不可能となる。またループ
ゲインが1より小さい場合にも通話の障害や不快感など
の悪影響を生じる。
【0003】このような拡声通話系の問題点を解決する
方法として、音声の信号パワーを算出しパワーの大きい
部分を音声区間として扱うことで受話と送話を検出し、
これに応じて受話もしくは送話信号の減衰量を切替えて
反響を抑圧する音声スイッチ法と、反響模擬による反響
消去(エコーキャンセラ)法がある。反響模擬による反
響消去法は、反響を完全に消去できないため、通常音声
スイッチ法と組み合わせて使用される。
方法として、音声の信号パワーを算出しパワーの大きい
部分を音声区間として扱うことで受話と送話を検出し、
これに応じて受話もしくは送話信号の減衰量を切替えて
反響を抑圧する音声スイッチ法と、反響模擬による反響
消去(エコーキャンセラ)法がある。反響模擬による反
響消去法は、反響を完全に消去できないため、通常音声
スイッチ法と組み合わせて使用される。
【0004】
【発明が解決しようとする課題】しかし、単純なパワー
比較により送話・受話側の減衰量を切替える音声スイッ
チ法を備える拡声通話系やTV会議システムには、音声
の話頭切れが生じる問題があった。それは、周囲に雑音
源が存在する通話環境や反響消去量が不充分な通話環境
では、送受話判定を誤ったときに送話・受話側の減衰が
急激に切り替わるためである。特に子音の音声パワーは
母音の1/10以下であるため、子音で始まる音声は話
頭切れが生じやすい。なお音声中の各単音パワーの相対
比較については、例えば「聴覚と音声」(三浦種敏監
修、電子情報通信学会編,1979,pp.295-297)に記載され
ている。
比較により送話・受話側の減衰量を切替える音声スイッ
チ法を備える拡声通話系やTV会議システムには、音声
の話頭切れが生じる問題があった。それは、周囲に雑音
源が存在する通話環境や反響消去量が不充分な通話環境
では、送受話判定を誤ったときに送話・受話側の減衰が
急激に切り替わるためである。特に子音の音声パワーは
母音の1/10以下であるため、子音で始まる音声は話
頭切れが生じやすい。なお音声中の各単音パワーの相対
比較については、例えば「聴覚と音声」(三浦種敏監
修、電子情報通信学会編,1979,pp.295-297)に記載され
ている。
【0005】一方音声認識のための音声区間検出法で
は、音声パワーの代わりの音声ピッチ情報やLPC(linear
predictive coding)スペクトル分析による音声パラ
メータを含む特徴量ベクトルに基づいて検出を行なうこ
とで、計算量は大幅に増加するものの子音検出能力や音
声区間の検出制度が向上することが知られている。例え
ば特開平4−251299号公報の音声区間検出法で
は、LPCスペクトル分析後の低周波数帯域のスペクトル
ピークと高周波帯域の平均スペクトルを特徴量としてい
る。
は、音声パワーの代わりの音声ピッチ情報やLPC(linear
predictive coding)スペクトル分析による音声パラ
メータを含む特徴量ベクトルに基づいて検出を行なうこ
とで、計算量は大幅に増加するものの子音検出能力や音
声区間の検出制度が向上することが知られている。例え
ば特開平4−251299号公報の音声区間検出法で
は、LPCスペクトル分析後の低周波数帯域のスペクトル
ピークと高周波帯域の平均スペクトルを特徴量としてい
る。
【0006】
【課題を解決するための手段】そこで本発明は、子音で
始まる音声でも話頭切れが生じないようにするために、
受話信号及び送話信号から特徴量ベクトルを抽出し、短
時間区間毎に受話音声及び送話音声が含まれる確率を求
め、この確率に応じて単一もしくは複数帯域で受話信号
と送話信号に挿入する減衰量の配分を制御する。
始まる音声でも話頭切れが生じないようにするために、
受話信号及び送話信号から特徴量ベクトルを抽出し、短
時間区間毎に受話音声及び送話音声が含まれる確率を求
め、この確率に応じて単一もしくは複数帯域で受話信号
と送話信号に挿入する減衰量の配分を制御する。
【0007】
【発明の実施の形態】(第1の実施例)図1に、本発明
の音声スイッチの構成例を示す。音声スイッチ部1に入
力された受話信号は、受話減衰部14にてN帯域分割フ
ィルタ141により帯域分割され、N帯域受話減衰部1
42にて各帯域毎に減衰され、N帯域合成フィルタ14
3により帯域合成されて再生信号を出力し、再生器3に
より音響信号に変換される。反響消去部2では、再生信
号から擬似反響生成部21にて生成した擬似反響信号を
収音器4の収音信号から減算器22で差し引くことで受
話反響成分を減らして残差信号を得る。残差信号は、送
話減衰部15にてN帯域分割フィルタ151により帯域
分割され、N帯域送話減衰部152にて各帯域毎に減衰
され、N帯域合成フィルタ153により帯域合成され
て、送話信号となる。
の音声スイッチの構成例を示す。音声スイッチ部1に入
力された受話信号は、受話減衰部14にてN帯域分割フ
ィルタ141により帯域分割され、N帯域受話減衰部1
42にて各帯域毎に減衰され、N帯域合成フィルタ14
3により帯域合成されて再生信号を出力し、再生器3に
より音響信号に変換される。反響消去部2では、再生信
号から擬似反響生成部21にて生成した擬似反響信号を
収音器4の収音信号から減算器22で差し引くことで受
話反響成分を減らして残差信号を得る。残差信号は、送
話減衰部15にてN帯域分割フィルタ151により帯域
分割され、N帯域送話減衰部152にて各帯域毎に減衰
され、N帯域合成フィルタ153により帯域合成され
て、送話信号となる。
【0008】受話音声確率算出部11にて、現短時間区
間内に受話信号に受話音声が含まれる確率が算出され、
送話音声確率算出部12にて、現短時間区間内で残差信
号に送話音声の含まれる確率が、受話信号と残差信号か
ら算出される。また、送受話減衰量配分算出部13では
受話側への減衰量配分比pを、受話信号短時間区間内に
受話音声の存在する確率rと送話信号短時間区間内に送
話音声の存在する確率sに基づいて、例えば図2に示さ
れた関数 p= s(1−r/2) で決定する。通例、音声スイッチにおいては受話減衰部
14の減衰量と送話減衰部15の減衰量との積を一定に
制御する。例えば、基準値に減衰量配分比を乗じた値を
もって受話減衰部14の減衰量として定める。送話減衰
部15の減衰量は基準値に減衰量配分比で除した値とし
て定める。このようにして減衰量の配分を制御すると、
送話(音声)がないとき(s=0のとき)送話側の減衰量は
最大であり、送話音声の存在確率が大きくなることにし
たがい、送話側の減衰量が小さくなる。これらの処理
は、入力信号をN帯域の周波数帯域に分割して各帯域毎
に独立に行ない、減衰を受けた各帯域毎の成分を全帯域
に合成する。このような構成にすることによって、一部
の帯域だけについてループゲインが1を越えないように
減衰量を制御でき、より木目の細かい減衰量の制御が実
現する。
間内に受話信号に受話音声が含まれる確率が算出され、
送話音声確率算出部12にて、現短時間区間内で残差信
号に送話音声の含まれる確率が、受話信号と残差信号か
ら算出される。また、送受話減衰量配分算出部13では
受話側への減衰量配分比pを、受話信号短時間区間内に
受話音声の存在する確率rと送話信号短時間区間内に送
話音声の存在する確率sに基づいて、例えば図2に示さ
れた関数 p= s(1−r/2) で決定する。通例、音声スイッチにおいては受話減衰部
14の減衰量と送話減衰部15の減衰量との積を一定に
制御する。例えば、基準値に減衰量配分比を乗じた値を
もって受話減衰部14の減衰量として定める。送話減衰
部15の減衰量は基準値に減衰量配分比で除した値とし
て定める。このようにして減衰量の配分を制御すると、
送話(音声)がないとき(s=0のとき)送話側の減衰量は
最大であり、送話音声の存在確率が大きくなることにし
たがい、送話側の減衰量が小さくなる。これらの処理
は、入力信号をN帯域の周波数帯域に分割して各帯域毎
に独立に行ない、減衰を受けた各帯域毎の成分を全帯域
に合成する。このような構成にすることによって、一部
の帯域だけについてループゲインが1を越えないように
減衰量を制御でき、より木目の細かい減衰量の制御が実
現する。
【0009】図3に、受話信号に受話音声及び残差信号
に送話音声が含まれる確率を算出する受話音声確率算出
部11と送話音声確率算出部12の構成を示す。受話側
では、受話信号のk番目の短時間区間はM次元特徴量ベ
クトル抽出部11Bにて短時間区間から求めた全帯域パ
ワーPT、高域部と低域部のパワー比γ、偏自己相関係数
K1,線形予測分析残差の自己相関係数の最大値ρからな
る4次元特徴量ベクトル
に送話音声が含まれる確率を算出する受話音声確率算出
部11と送話音声確率算出部12の構成を示す。受話側
では、受話信号のk番目の短時間区間はM次元特徴量ベ
クトル抽出部11Bにて短時間区間から求めた全帯域パ
ワーPT、高域部と低域部のパワー比γ、偏自己相関係数
K1,線形予測分析残差の自己相関係数の最大値ρからな
る4次元特徴量ベクトル
【0010】
【数1】 に変換される。特開平4−100099号公報によれ
ば、雑音レベルNSが既知のとき、入力信号の短時間区間
から求めた全帯域パワーPT、高域部と低域部のパワー比
γ、偏自己相関係数K1、線形予測分析残差の自己相関係
数の最大値ρから、注目している短時間区間を有声音、
無声音、無音区間に以下のように判別できる。 (1)有声音は一般に無声音に比べてパワーが大きいの
で、予め測定されている雑音レベルNSと比較し、γ>0
かつPT>NS+30dBであるとき有声音とする。なお、
この条件はS/N比が十分でなければ有効に機能しないの
で、その場合には信号の周期性に着目する。すなわち、
有声音は声帯の振動に伴う周期性があり、ρmaxに相当
する時間遅れ(周期)が声帯の基本振動数に対応し、そ
の大小が声帯振動の周期性に依存するので、その値が大
きいときに信号の周期性がρmax>0.25であるとき有声
音とする。(2)偏自己相関係数K1が音声のスペクトル
概形の傾きを示し、その値が小さいほどスペクトルが平
坦であることからK1<0.3であるときに無声音であると
する。(3)無音区間である条件はPT<NSとし、それを
満たすときに該当フレームの判定を無音区間とする。
ば、雑音レベルNSが既知のとき、入力信号の短時間区間
から求めた全帯域パワーPT、高域部と低域部のパワー比
γ、偏自己相関係数K1、線形予測分析残差の自己相関係
数の最大値ρから、注目している短時間区間を有声音、
無声音、無音区間に以下のように判別できる。 (1)有声音は一般に無声音に比べてパワーが大きいの
で、予め測定されている雑音レベルNSと比較し、γ>0
かつPT>NS+30dBであるとき有声音とする。なお、
この条件はS/N比が十分でなければ有効に機能しないの
で、その場合には信号の周期性に着目する。すなわち、
有声音は声帯の振動に伴う周期性があり、ρmaxに相当
する時間遅れ(周期)が声帯の基本振動数に対応し、そ
の大小が声帯振動の周期性に依存するので、その値が大
きいときに信号の周期性がρmax>0.25であるとき有声
音とする。(2)偏自己相関係数K1が音声のスペクトル
概形の傾きを示し、その値が小さいほどスペクトルが平
坦であることからK1<0.3であるときに無声音であると
する。(3)無音区間である条件はPT<NSとし、それを
満たすときに該当フレームの判定を無音区間とする。
【0011】特徴量ベクトル時系列パターン判定部11
Dでは、上記の判定法により[数1]の特徴量ベクトル
を有声音区間(V)、無声音区間(U)、無音区間(N)に分
類する。k番目の受話信号の短時間区間に受話音声が含
まれる確率は、例えば、有声音区間(V)、無声音区間
(U)、無音区間(N)からなる時系列パターンと図4に示
される隠れマルコフモデルから算出される。送話側で
は、M次元特徴量ベクトル抽出部12Bによって残差信号
が特徴量ベクトル
Dでは、上記の判定法により[数1]の特徴量ベクトル
を有声音区間(V)、無声音区間(U)、無音区間(N)に分
類する。k番目の受話信号の短時間区間に受話音声が含
まれる確率は、例えば、有声音区間(V)、無声音区間
(U)、無音区間(N)からなる時系列パターンと図4に示
される隠れマルコフモデルから算出される。送話側で
は、M次元特徴量ベクトル抽出部12Bによって残差信号
が特徴量ベクトル
【0012】
【数2】 特徴量ベクトル時系列パターン判定部12Dでは、例え
ばこれまでの4ブロックの特徴量ベクトルをまとめて得
られる16次元ベクトル
ばこれまでの4ブロックの特徴量ベクトルをまとめて得
られる16次元ベクトル
【0013】
【数3】 を計算する。これが所定の閾値以下であれば残差信号は
ほとんど受話エコーで送話信号は含まれていないと判断
する。閾値を越えていれば残差信号に送話信号が含まれ
ていると判断し、残差信号から上記判別方法により抽出
された有声音区間(V)、無声音区間(U)、無音区間(N)
からなる時系列パターンと隠れマルコフモデルから、現
短時間区間に送話音声が含まれる確率を算出する。
ほとんど受話エコーで送話信号は含まれていないと判断
する。閾値を越えていれば残差信号に送話信号が含まれ
ていると判断し、残差信号から上記判別方法により抽出
された有声音区間(V)、無声音区間(U)、無音区間(N)
からなる時系列パターンと隠れマルコフモデルから、現
短時間区間に送話音声が含まれる確率を算出する。
【0014】なお、この実施例では音声区間を3つに分
類するための4次元の特徴量ベクトルを用いているが、
より次元の大きい特徴量ベクトルを用いることも可能で
ある。図4に本発明の実施例に用いられる隠れマルコフ
モデルの各状態遷移を示す。短時間区間に音声が含まれ
る確率は、図4の隠れマルコフモデルを用いて、次のよ
うに計算される。このマルコフモデルは4つの状態S0、
S1、S2、S3を遷移し、遷移するときに無音区間(N)、無
声音区間(U)もしくは有声音区間(V)を出力する。隠れ
マルコフモデルの各状態S0〜S3には、その状態に滞在し
ているときに音声を含む確率をあらかじめ設定してお
く。例えば、図4のマルコフモデルではS0では音声確率
0%、S1では30%、S2では70%、S3では100%に設定し
た。
類するための4次元の特徴量ベクトルを用いているが、
より次元の大きい特徴量ベクトルを用いることも可能で
ある。図4に本発明の実施例に用いられる隠れマルコフ
モデルの各状態遷移を示す。短時間区間に音声が含まれ
る確率は、図4の隠れマルコフモデルを用いて、次のよ
うに計算される。このマルコフモデルは4つの状態S0、
S1、S2、S3を遷移し、遷移するときに無音区間(N)、無
声音区間(U)もしくは有声音区間(V)を出力する。隠れ
マルコフモデルの各状態S0〜S3には、その状態に滞在し
ているときに音声を含む確率をあらかじめ設定してお
く。例えば、図4のマルコフモデルではS0では音声確率
0%、S1では30%、S2では70%、S3では100%に設定し
た。
【0015】図4の矢印上の数字は状態遷移確率と無音
区間(N)、無声音区間(U)もしくは有声音区間(V)の出
力確率を示している。例えば、状態S0から状態S1への遷
移確率は0.7で、この遷移中に有声音区間(V)を出力す
る確率がPV=0.0、無声音区間(U)を出力する確率がPU=
1.0、無音区間(N)を出力する確率がPN=0.0になってい
る。状態S0から状態S2への遷移確率は0.3で、この遷移
中には100%の確率で有声音区間(V)を出力する。状態S
1から状態S2への遷移確率は0.6で、この遷移中に無声音
区間(U)、有声音区間(V)、無音区間(N)を出力する確
率は、それぞれPV=0.8、PU=0.2、PN=0.0である。
区間(N)、無声音区間(U)もしくは有声音区間(V)の出
力確率を示している。例えば、状態S0から状態S1への遷
移確率は0.7で、この遷移中に有声音区間(V)を出力す
る確率がPV=0.0、無声音区間(U)を出力する確率がPU=
1.0、無音区間(N)を出力する確率がPN=0.0になってい
る。状態S0から状態S2への遷移確率は0.3で、この遷移
中には100%の確率で有声音区間(V)を出力する。状態S
1から状態S2への遷移確率は0.6で、この遷移中に無声音
区間(U)、有声音区間(V)、無音区間(N)を出力する確
率は、それぞれPV=0.8、PU=0.2、PN=0.0である。
【0016】今、U→U→Vという、時系列パターンが抽
出され、かつS0〜S3の各状態に存在する確率をそれぞれ
Pn=(S0n S1n S2n S3n)で表わす。例えば、P1は最
初にUが抽出され、かつS0〜S3の各状態に存在する確率
であり、P3は時系列パターンUUVが抽出され、かつS0〜S
3の各状態に存在する確率になる。初期状態はP0=(10
0 0)に設定すると、 P1=(0 1.0×0.7×S00 0.0×0.3×S00 0) =(0 0.7 0 0) P2=(0 0.8×0.4×S11 0.2×0.6×S11 0) =(0 0.224 0.12 0) P3=(0 0 0.8×0.6×S12+0.8×0.4×S22 1.0×0.6×S22) =(0 0 0.1459 0.072) になる。
出され、かつS0〜S3の各状態に存在する確率をそれぞれ
Pn=(S0n S1n S2n S3n)で表わす。例えば、P1は最
初にUが抽出され、かつS0〜S3の各状態に存在する確率
であり、P3は時系列パターンUUVが抽出され、かつS0〜S
3の各状態に存在する確率になる。初期状態はP0=(10
0 0)に設定すると、 P1=(0 1.0×0.7×S00 0.0×0.3×S00 0) =(0 0.7 0 0) P2=(0 0.8×0.4×S11 0.2×0.6×S11 0) =(0 0.224 0.12 0) P3=(0 0 0.8×0.6×S12+0.8×0.4×S22 1.0×0.6×S22) =(0 0 0.1459 0.072) になる。
【0017】時系列UUを抽出した時点で、状態S1に存在
する確率は0.224/(0.224+0.12)に、状態S2に存在する
確率は0.12/(0.224+0.12)になる。短時間区間に音声
が含まれる確率は、例えば次式で計算できる。 30%×(0.224/(0.224+0.12))+70%×(0.12/(0.224+
0.12))≒44% なお隠れマルコフモデルによる観測シンボル系列からの
確率推定は、例えば 中川聖一、「確率モデルによる音
声認識」、電子情報通信学会編、第3章に詳しく説明さ
れている。
する確率は0.224/(0.224+0.12)に、状態S2に存在する
確率は0.12/(0.224+0.12)になる。短時間区間に音声
が含まれる確率は、例えば次式で計算できる。 30%×(0.224/(0.224+0.12))+70%×(0.12/(0.224+
0.12))≒44% なお隠れマルコフモデルによる観測シンボル系列からの
確率推定は、例えば 中川聖一、「確率モデルによる音
声認識」、電子情報通信学会編、第3章に詳しく説明さ
れている。
【0018】図4のような音声処理に用いるマルコフモ
デルは、一般に初期状態と最終状態があり、状態S0への
逆行する遷移を持たない。したがって音声が開始されて
からしばらく経過すると、最終状態以外の状態に存在す
る確率はほとんど0となり、次の音声区間でも最終状態
にとどまり続けてしまう。これを防ぐために、受話信号
において無音区間(N)が一定数継続したことが検出さ
れたときに、隠れマルコフモデルを初期化する。また残
差信号から無音区間(N)が一定数継続したことが検出
されたとき、送話側の隠れマルコフモデルを初期化す
る。これにより、既に最終状態に到達している隠れマル
コフモデルを初期状態に戻し、次の音声区間先頭から音
声スイッチを制御することが可能となる。
デルは、一般に初期状態と最終状態があり、状態S0への
逆行する遷移を持たない。したがって音声が開始されて
からしばらく経過すると、最終状態以外の状態に存在す
る確率はほとんど0となり、次の音声区間でも最終状態
にとどまり続けてしまう。これを防ぐために、受話信号
において無音区間(N)が一定数継続したことが検出さ
れたときに、隠れマルコフモデルを初期化する。また残
差信号から無音区間(N)が一定数継続したことが検出
されたとき、送話側の隠れマルコフモデルを初期化す
る。これにより、既に最終状態に到達している隠れマル
コフモデルを初期状態に戻し、次の音声区間先頭から音
声スイッチを制御することが可能となる。
【0019】この実施例では、4状態を持ち3つのシン
ボルを出力する隠れマルコフモデルを用いたが、状態数
がより大きく、出力シンボル数の大きい隠れマルコフモ
デルを用いることも可能である。さらに、例えば線形予
測を用いて高能率で符号化された音声が伝送路にて伝送
されるとき、音声スペクトル概形とピッチ周期パラメー
タからなる音声符号の各要素を音声スイッチの特徴量と
して利用する。これにより、復号後の信号から複数の特
徴量を抽出する方法と比較して、少ない処理量で本発明
の音声スイッチを実現することが可能となる。
ボルを出力する隠れマルコフモデルを用いたが、状態数
がより大きく、出力シンボル数の大きい隠れマルコフモ
デルを用いることも可能である。さらに、例えば線形予
測を用いて高能率で符号化された音声が伝送路にて伝送
されるとき、音声スペクトル概形とピッチ周期パラメー
タからなる音声符号の各要素を音声スイッチの特徴量と
して利用する。これにより、復号後の信号から複数の特
徴量を抽出する方法と比較して、少ない処理量で本発明
の音声スイッチを実現することが可能となる。
【0020】
【発明の効果】以上に述べたように、この発明は受話信
号と残差信号から、一定時間区間毎に音声の特徴をより
反映する特徴量ベクトルを抽出し、その時系列に基づい
て現在の短時間音声区間に音声が含まれる確率を算出
し、この確率に基づいて受話・送話の減衰量配分を制御
する。このため本発明の音声スイッチは、単純なパワー
比較により送話側と受話側の減衰量を切替える従来の音
声スイッチ法と比較して、音声パワーの小さい子音で始
まる音声でも話頭切れが生じないようにできる。
号と残差信号から、一定時間区間毎に音声の特徴をより
反映する特徴量ベクトルを抽出し、その時系列に基づい
て現在の短時間音声区間に音声が含まれる確率を算出
し、この確率に基づいて受話・送話の減衰量配分を制御
する。このため本発明の音声スイッチは、単純なパワー
比較により送話側と受話側の減衰量を切替える従来の音
声スイッチ法と比較して、音声パワーの小さい子音で始
まる音声でも話頭切れが生じないようにできる。
【図1】本発明の音声スイッチの構成を示す図。
【図2】受話音声存在確率rと送話音声存在確率sから
受話側の減衰量配分比pを決める関数を示す図。
受話側の減衰量配分比pを決める関数を示す図。
【図3】受話音声確率算出部と送話音声確率算出部の構
成を示す図。
成を示す図。
【図4】実施例で用いられる隠れマルコフモデルの一例
を示す図。
を示す図。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 9/08 G10L 9/00 C H04R 3/02 D (72)発明者 青木 茂明 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 DD03 5D020 CC05 5K027 BB03 DD07 DD10 5K038 CC00 DD06 FF13
Claims (8)
- 【請求項1】受話信号を第1の減衰量で減衰させて再生
信号を出力し、 前記再生信号に基づいて擬似反響信号を生成し、 収音信号から前記擬似反響信号を差し引いて残差信号を
生成し、 前記残差信号を第2の減衰量で減衰させて送話信号と
し、 前記受話信号と残差信号の情報に基づいて前記第1及び
第2の減衰量を制御する音声スイッチ方法において、 前記第1及び第2の減衰量の制御は、 短時間区間毎に受話信号に受話音声が含まれる確率を算
出するステップと、 短時間区間毎に受話信号及び残差信号から、残差信号に
送話音声が含まれる確率を算出するステップと、 前記確率に基づいて単一もしくは複数周波数帯域にて第
1及び第2の減衰量の配分を算出するステップを有する
ことを特徴とする音声スイッチ方法。 - 【請求項2】請求項1に記載の音声スイッチ方法におい
て、 前記短時間区間毎に受話信号に受話音声が含まれる確率
を算出するステップは、 受話信号の短時間区間から特徴量ベクトルを抽出するス
テップと、特徴量ベクトルの時系列から受話音声が含ま
れる確率を算出するステップを有し、 短時間区間毎に残差信号に送話音声が含まれる確率を算
出するステップは、 受話信号と残差信号の短時間区間から特徴量ベクトルを
抽出するステップと、特徴量ベクトルの時系列から送話
音声が含まれる確率を算出するステップを有することを
特徴とする音声スイッチ。 - 【請求項3】請求項2に記載の音声スイッチ方法におい
て、 前記特徴量ベクトルの時系列から短時間区間毎に音声が
含まれる確率を算出するステップは、 「隠れマルコフモデル」を用いて確率計算するステップ
を有し、非音声区間が検出されたときに、確率の計算に
用いる隠れマルコフモデルを初期化することを特徴とす
る音声スイッチ方法。 - 【請求項4】請求項2または3に記載の音声スイッチ方
法において、 前記受話信号と送話信号は、符号化された信号であり、
特徴量ベクトルが符号要素からなることを特徴とする音
声スイッチ方法。 - 【請求項5】受話信号を第1の減衰量で減衰させて再生
信号を出力する受話減衰部と、 前記再生信号を参照して擬似反響信号を生成し、収音信
号から前記擬似反響信号を差引き残差信号を出力する反
響消去部と、 前記残差信号を第二の減衰量で減衰させて送話信号を出
力する送話減衰部と、 前記受話信号と残差信号を入力し、第1及び第2の減衰
量を制御する制御部を備えた音声スイッチにおいて、 前記制御部は、 短時間区間毎に受話信号に受話音声が含まれる確率を算
出する受話音声確率算出部と、 短時間区間毎に受話信号及び残差信号から残差信号に送
話音声が含まれる確率を算出する送話音声確率算出部
と、 前記算出した確率に基づいて単一もしくは複数周波数帯
域にて第1及び第2の減衰量の配分を算出する送受話減
衰量配分算出部を備えたことを特徴とする音声スイッ
チ。 - 【請求項6】請求項5に記載の音声スイッチにおいて、 前記受話音声確率算出部は、 受話信号の短時間区間から特徴量ベクトルを抽出する手
段と、特徴量ベクトルの時系列から受話音声が含まれる
確率を算出する手段とを有し、 前記送話音声確率算出部は、 受話信号と残差信号の短時間区間から特徴量ベクトルを
抽出する手段と、 特徴量ベクトルの時系列から送話音声が含まれる確率を
算出する手段を有することを特徴とする音声スイッチ。 - 【請求項7】請求項6に記載の音声スイッチにおいて、 前記特徴量ベクトルの時系列から短時間区間毎に音声が
含まれる確率を算出する手段は、 「隠れマルコフモデル」を用いて確率計算し、非音声区
間が検出されたときに、確率の計算に用いる隠れマルコ
フモデルを初期化する手段を備えたことを特徴とする音
声スイッチ。 - 【請求項8】請求項6または7に記載の音声スイッチに
おいて、 前記受話信号と送話信号は、符号化された信号であり、
特徴量ベクトルが符号要素からなることを特徴とする音
声スイッチ。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000165695A JP2001343985A (ja) | 2000-06-02 | 2000-06-02 | 音声スイッチ方法及び音声スイッチ |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000165695A JP2001343985A (ja) | 2000-06-02 | 2000-06-02 | 音声スイッチ方法及び音声スイッチ |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001343985A true JP2001343985A (ja) | 2001-12-14 |
Family
ID=18669133
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000165695A Pending JP2001343985A (ja) | 2000-06-02 | 2000-06-02 | 音声スイッチ方法及び音声スイッチ |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2001343985A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6884514B2 (en) * | 2002-01-11 | 2005-04-26 | Saint-Gobain Ceramics & Plastics, Inc. | Method for forming ceramic layer having garnet crystal structure phase and article made thereby |
| JP2005252761A (ja) * | 2004-03-05 | 2005-09-15 | Nec Corp | ハウリング抑圧方法及び装置 |
| JP2009182594A (ja) * | 2008-01-30 | 2009-08-13 | Aiphone Co Ltd | インターホンシステム |
| JP2010068108A (ja) * | 2008-09-09 | 2010-03-25 | Aiphone Co Ltd | インターホンシステム |
| JP2012185394A (ja) * | 2011-03-07 | 2012-09-27 | Fujitsu Ltd | 分析装置、分析プログラムおよび分析方法 |
| JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
| JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
| JP2013228459A (ja) * | 2012-04-24 | 2013-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声聴取装置とその方法とプログラム |
-
2000
- 2000-06-02 JP JP2000165695A patent/JP2001343985A/ja active Pending
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6884514B2 (en) * | 2002-01-11 | 2005-04-26 | Saint-Gobain Ceramics & Plastics, Inc. | Method for forming ceramic layer having garnet crystal structure phase and article made thereby |
| JP2005252761A (ja) * | 2004-03-05 | 2005-09-15 | Nec Corp | ハウリング抑圧方法及び装置 |
| JP2009182594A (ja) * | 2008-01-30 | 2009-08-13 | Aiphone Co Ltd | インターホンシステム |
| JP2010068108A (ja) * | 2008-09-09 | 2010-03-25 | Aiphone Co Ltd | インターホンシステム |
| JP2012185394A (ja) * | 2011-03-07 | 2012-09-27 | Fujitsu Ltd | 分析装置、分析プログラムおよび分析方法 |
| JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
| JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
| JP2013228459A (ja) * | 2012-04-24 | 2013-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声聴取装置とその方法とプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12542142B2 (en) | System and method for enhancement of a degraded audio signal | |
| US6138040A (en) | Method for suppressing speaker activation in a portable communication device operated in a speakerphone mode | |
| US8676571B2 (en) | Audio signal processing system and audio signal processing method | |
| CA2212658C (en) | Voice activity detection using echo return loss to adapt the detection threshold | |
| US8355511B2 (en) | System and method for envelope-based acoustic echo cancellation | |
| EP4394761A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
| JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
| WO2008011319A2 (en) | Method and system for near-end detection | |
| KR20010033994A (ko) | 통신 시스템에서 컴퍼트 잡음을 제공하기 위한 방법 및 장치 | |
| US7945442B2 (en) | Internet communication device and method for controlling noise thereof | |
| JP2003500936A (ja) | エコー抑止システムにおけるニアエンド音声信号の改善 | |
| JP2004133403A (ja) | 音声信号処理装置 | |
| JP2001343985A (ja) | 音声スイッチ方法及び音声スイッチ | |
| JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
| JP5898515B2 (ja) | 半導体装置及び音声通信装置 | |
| US7260526B2 (en) | Method of filtering noise of source digital data | |
| KR102330345B1 (ko) | Pu 적용 cts 컨바인 시스템 | |
| JP3466049B2 (ja) | 通話機の音声スイッチ | |
| JP3255077B2 (ja) | 電話機 | |
| EP4428859A1 (en) | System and method for mixing microphone inputs | |
| US20250037732A1 (en) | System and method for level-dependent maximum noise suppression | |
| JP2005229422A (ja) | 音声処理装置 | |
| JPH11298382A (ja) | ハンズフリー装置 | |
| JPH0337699A (ja) | 騒音抑圧回路 | |
| JP2007151047A (ja) | 音声スイッチ方法、音声スイッチ装置、音声スイッチプログラム及びそのプログラムを記録した記録媒体 |