JP2001343985A

JP2001343985A - 音声スイッチ方法及び音声スイッチ

Info

Publication number: JP2001343985A
Application number: JP2000165695A
Authority: JP
Inventors: Akira Emura; 暁江村; Suehiro Shimauchi; 末廣島内; Shigeaki Aoki; 茂明青木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2000-06-02
Filing date: 2000-06-02
Publication date: 2001-12-14

Abstract

(57)【要約】【課題】語頭切れを防ぎ通話品質を向上する音声スイッ
チ方法を提供する。【解決手段】受話信号を第１の減衰量で減衰させて再生
信号を出力し、収音信号から再生信号に基づいて生成し
た擬似反響信号を差引いて残差信号を生成し、残差信号
を第２の減衰量で減衰させて送話信号とし、受話信号と
残差信号の情報に基づいて前記第１及び第２の減衰量を
制御する音声スイッチ方法において、短時間区間毎に受
話信号に受話音声が含まれる確率を算出し、短時間区間
毎に受話信号及び残差信号から、残差信号に送話信号が
含まれる確率を算出し、前記確率に基づいて単一もしく
は複数周波数帯域にて第１及び第２の減衰量の配分を算
出して第１及び第２の減衰量の制御を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、拡声通話系での音
声通信に利用され、再生された受話音声が発信元に送信
して生じる反響を抑制して通話品質を確保することを目
的とする。

【０００２】

【従来の技術】拡声通話系では、スピーカから拡声され
た受話がマイクに収音される反響が問題となる。この反
響現象は音響エコーとも呼ばれ、対地の拡声通話系と形
成される閉ループのループゲインが１より大きい場合に
はハウリングが発生し通話が不可能となる。またループ
ゲインが１より小さい場合にも通話の障害や不快感など
の悪影響を生じる。

【０００３】このような拡声通話系の問題点を解決する
方法として、音声の信号パワーを算出しパワーの大きい
部分を音声区間として扱うことで受話と送話を検出し、
これに応じて受話もしくは送話信号の減衰量を切替えて
反響を抑圧する音声スイッチ法と、反響模擬による反響
消去（エコーキャンセラ）法がある。反響模擬による反
響消去法は、反響を完全に消去できないため、通常音声
スイッチ法と組み合わせて使用される。

【０００４】

【発明が解決しようとする課題】しかし、単純なパワー
比較により送話・受話側の減衰量を切替える音声スイッ
チ法を備える拡声通話系やＴＶ会議システムには、音声
の話頭切れが生じる問題があった。それは、周囲に雑音
源が存在する通話環境や反響消去量が不充分な通話環境
では、送受話判定を誤ったときに送話・受話側の減衰が
急激に切り替わるためである。特に子音の音声パワーは
母音の１／１０以下であるため、子音で始まる音声は話
頭切れが生じやすい。なお音声中の各単音パワーの相対
比較については、例えば「聴覚と音声」（三浦種敏監
修、電子情報通信学会編,1979,pp.295-297）に記載され
ている。

【０００５】一方音声認識のための音声区間検出法で
は、音声パワーの代わりの音声ピッチ情報やLPC(linear
predictive coding)スペクトル分析による音声パラ
メータを含む特徴量ベクトルに基づいて検出を行なうこ
とで、計算量は大幅に増加するものの子音検出能力や音
声区間の検出制度が向上することが知られている。例え
ば特開平４−２５１２９９号公報の音声区間検出法で
は、LPCスペクトル分析後の低周波数帯域のスペクトル
ピークと高周波帯域の平均スペクトルを特徴量としてい
る。

【０００６】

【課題を解決するための手段】そこで本発明は、子音で
始まる音声でも話頭切れが生じないようにするために、
受話信号及び送話信号から特徴量ベクトルを抽出し、短
時間区間毎に受話音声及び送話音声が含まれる確率を求
め、この確率に応じて単一もしくは複数帯域で受話信号
と送話信号に挿入する減衰量の配分を制御する。

【０００７】

【発明の実施の形態】（第１の実施例）図１に、本発明
の音声スイッチの構成例を示す。音声スイッチ部１に入
力された受話信号は、受話減衰部１４にてN帯域分割フ
ィルタ１４１により帯域分割され、N帯域受話減衰部１
４２にて各帯域毎に減衰され、N帯域合成フィルタ１４
３により帯域合成されて再生信号を出力し、再生器３に
より音響信号に変換される。反響消去部２では、再生信
号から擬似反響生成部２１にて生成した擬似反響信号を
収音器４の収音信号から減算器２２で差し引くことで受
話反響成分を減らして残差信号を得る。残差信号は、送
話減衰部１５にてＮ帯域分割フィルタ１５１により帯域
分割され、Ｎ帯域送話減衰部１５２にて各帯域毎に減衰
され、N帯域合成フィルタ１５３により帯域合成され
て、送話信号となる。

【０００８】受話音声確率算出部１１にて、現短時間区
間内に受話信号に受話音声が含まれる確率が算出され、
送話音声確率算出部１２にて、現短時間区間内で残差信
号に送話音声の含まれる確率が、受話信号と残差信号か
ら算出される。また、送受話減衰量配分算出部１３では
受話側への減衰量配分比ｐを、受話信号短時間区間内に
受話音声の存在する確率ｒと送話信号短時間区間内に送
話音声の存在する確率ｓに基づいて、例えば図２に示さ
れた関数 p= s(1−r/2) で決定する。通例、音声スイッチにおいては受話減衰部
１４の減衰量と送話減衰部１５の減衰量との積を一定に
制御する。例えば、基準値に減衰量配分比を乗じた値を
もって受話減衰部１４の減衰量として定める。送話減衰
部１５の減衰量は基準値に減衰量配分比で除した値とし
て定める。このようにして減衰量の配分を制御すると、
送話（音声）がないとき(s=0のとき)送話側の減衰量は
最大であり、送話音声の存在確率が大きくなることにし
たがい、送話側の減衰量が小さくなる。これらの処理
は、入力信号をN帯域の周波数帯域に分割して各帯域毎
に独立に行ない、減衰を受けた各帯域毎の成分を全帯域
に合成する。このような構成にすることによって、一部
の帯域だけについてループゲインが１を越えないように
減衰量を制御でき、より木目の細かい減衰量の制御が実
現する。

【０００９】図３に、受話信号に受話音声及び残差信号
に送話音声が含まれる確率を算出する受話音声確率算出
部１１と送話音声確率算出部１２の構成を示す。受話側
では、受話信号のｋ番目の短時間区間はM次元特徴量ベ
クトル抽出部１１Bにて短時間区間から求めた全帯域パ
ワーPT、高域部と低域部のパワー比γ、偏自己相関係数
K1,線形予測分析残差の自己相関係数の最大値ρからな
る４次元特徴量ベクトル

【００１０】

【数１】に変換される。特開平４−１０００９９号公報によれ
ば、雑音レベルNSが既知のとき、入力信号の短時間区間
から求めた全帯域パワーPT、高域部と低域部のパワー比
γ、偏自己相関係数K1、線形予測分析残差の自己相関係
数の最大値ρから、注目している短時間区間を有声音、
無声音、無音区間に以下のように判別できる。（１）有声音は一般に無声音に比べてパワーが大きいの
で、予め測定されている雑音レベルNSと比較し、γ＞０
かつPT＞NS＋３０ｄBであるとき有声音とする。なお、
この条件はS/N比が十分でなければ有効に機能しないの
で、その場合には信号の周期性に着目する。すなわち、
有声音は声帯の振動に伴う周期性があり、ρmaxに相当
する時間遅れ（周期）が声帯の基本振動数に対応し、そ
の大小が声帯振動の周期性に依存するので、その値が大
きいときに信号の周期性がρmax＞0.25であるとき有声
音とする。（２）偏自己相関係数K1が音声のスペクトル
概形の傾きを示し、その値が小さいほどスペクトルが平
坦であることからK1＜0.3であるときに無声音であると
する。（３）無音区間である条件はPT＜NSとし、それを
満たすときに該当フレームの判定を無音区間とする。

【００１１】特徴量ベクトル時系列パターン判定部１１
Dでは、上記の判定法により［数１］の特徴量ベクトル
を有声音区間（V)、無声音区間（U)、無音区間（N)に分
類する。ｋ番目の受話信号の短時間区間に受話音声が含
まれる確率は、例えば、有声音区間（V)、無声音区間
（U)、無音区間（N)からなる時系列パターンと図４に示
される隠れマルコフモデルから算出される。送話側で
は、M次元特徴量ベクトル抽出部１２Bによって残差信号
が特徴量ベクトル

【００１２】

【数２】特徴量ベクトル時系列パターン判定部１２Dでは、例え
ばこれまでの４ブロックの特徴量ベクトルをまとめて得
られる１６次元ベクトル

【００１３】

【数３】を計算する。これが所定の閾値以下であれば残差信号は
ほとんど受話エコーで送話信号は含まれていないと判断
する。閾値を越えていれば残差信号に送話信号が含まれ
ていると判断し、残差信号から上記判別方法により抽出
された有声音区間（V)、無声音区間（U)、無音区間（N)
からなる時系列パターンと隠れマルコフモデルから、現
短時間区間に送話音声が含まれる確率を算出する。

【００１４】なお、この実施例では音声区間を３つに分
類するための４次元の特徴量ベクトルを用いているが、
より次元の大きい特徴量ベクトルを用いることも可能で
ある。図４に本発明の実施例に用いられる隠れマルコフ
モデルの各状態遷移を示す。短時間区間に音声が含まれ
る確率は、図４の隠れマルコフモデルを用いて、次のよ
うに計算される。このマルコフモデルは４つの状態S0、
S1、S2、S3を遷移し、遷移するときに無音区間（N)、無
声音区間（U)もしくは有声音区間（V)を出力する。隠れ
マルコフモデルの各状態S0〜S3には、その状態に滞在し
ているときに音声を含む確率をあらかじめ設定してお
く。例えば、図４のマルコフモデルではS0では音声確率
０％、S1では30％、S2では70％、S3では100％に設定し
た。

【００１５】図４の矢印上の数字は状態遷移確率と無音
区間（N)、無声音区間（U)もしくは有声音区間（V)の出
力確率を示している。例えば、状態S0から状態S1への遷
移確率は0.7で、この遷移中に有声音区間（V)を出力す
る確率がPV=0.0、無声音区間（U)を出力する確率がPU=
1.0、無音区間（N)を出力する確率がPN=0.0になってい
る。状態S0から状態S2への遷移確率は0.3で、この遷移
中には100％の確率で有声音区間（V)を出力する。状態S
1から状態S2への遷移確率は0.6で、この遷移中に無声音
区間（U)、有声音区間（V)、無音区間（N)を出力する確
率は、それぞれPV=0.8、PU=0.2、PN=0.0である。

【００１６】今、U→U→Vという、時系列パターンが抽
出され、かつS0〜S3の各状態に存在する確率をそれぞれ
Pn＝（S0n S1n S2n S3n）で表わす。例えば、P1は最
初にUが抽出され、かつS0〜S3の各状態に存在する確率
であり、P3は時系列パターンUUVが抽出され、かつS0〜S
3の各状態に存在する確率になる。初期状態はP0＝（10
0 0）に設定すると、 P1＝（0 1.0×0.7×S0₀ 0.0×0.3×S0₀ 0）＝（0 0.7 0 0） P2＝（0 0.8×0.4×S1₁ 0.2×0.6×S1₁ 0）＝（0 0.224 0.12 0） P3＝（0 0 0.8×0.6×S1₂＋0.8×0.4×S2₂ 1.0×0.6×S2₂）＝（0 0 0.1459 0.072）になる。

【００１７】時系列UUを抽出した時点で、状態S1に存在
する確率は0.224／(0.224＋0.12)に、状態S2に存在する
確率は0.12／(0.224＋0.12)になる。短時間区間に音声
が含まれる確率は、例えば次式で計算できる。 30％×(0.224／(0.224＋0.12))＋70%×(0.12／(0.224＋
0.12))≒44％なお隠れマルコフモデルによる観測シンボル系列からの
確率推定は、例えば中川聖一、「確率モデルによる音
声認識」、電子情報通信学会編、第３章に詳しく説明さ
れている。

【００１８】図４のような音声処理に用いるマルコフモ
デルは、一般に初期状態と最終状態があり、状態S0への
逆行する遷移を持たない。したがって音声が開始されて
からしばらく経過すると、最終状態以外の状態に存在す
る確率はほとんど０となり、次の音声区間でも最終状態
にとどまり続けてしまう。これを防ぐために、受話信号
において無音区間（N）が一定数継続したことが検出さ
れたときに、隠れマルコフモデルを初期化する。また残
差信号から無音区間（N）が一定数継続したことが検出
されたとき、送話側の隠れマルコフモデルを初期化す
る。これにより、既に最終状態に到達している隠れマル
コフモデルを初期状態に戻し、次の音声区間先頭から音
声スイッチを制御することが可能となる。

【００１９】この実施例では、４状態を持ち３つのシン
ボルを出力する隠れマルコフモデルを用いたが、状態数
がより大きく、出力シンボル数の大きい隠れマルコフモ
デルを用いることも可能である。さらに、例えば線形予
測を用いて高能率で符号化された音声が伝送路にて伝送
されるとき、音声スペクトル概形とピッチ周期パラメー
タからなる音声符号の各要素を音声スイッチの特徴量と
して利用する。これにより、復号後の信号から複数の特
徴量を抽出する方法と比較して、少ない処理量で本発明
の音声スイッチを実現することが可能となる。

【００２０】

【発明の効果】以上に述べたように、この発明は受話信
号と残差信号から、一定時間区間毎に音声の特徴をより
反映する特徴量ベクトルを抽出し、その時系列に基づい
て現在の短時間音声区間に音声が含まれる確率を算出
し、この確率に基づいて受話・送話の減衰量配分を制御
する。このため本発明の音声スイッチは、単純なパワー
比較により送話側と受話側の減衰量を切替える従来の音
声スイッチ法と比較して、音声パワーの小さい子音で始
まる音声でも話頭切れが生じないようにできる。

【図面の簡単な説明】

【図１】本発明の音声スイッチの構成を示す図。

【図２】受話音声存在確率ｒと送話音声存在確率ｓから
受話側の減衰量配分比ｐを決める関数を示す図。

【図３】受話音声確率算出部と送話音声確率算出部の構
成を示す図。

【図４】実施例で用いられる隠れマルコフモデルの一例
を示す図。

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｍ 9/08 Ｇ１０Ｌ 9/00 ＣＨ０４Ｒ 3/02 Ｄ (72)発明者青木茂明東京都千代田区大手町二丁目３番１号日本電信電話株式会社内Ｆターム(参考） 5D015 DD03 5D020 CC05 5K027 BB03 DD07 DD10 5K038 CC00 DD06 FF13

Claims

【特許請求の範囲】

【請求項１】受話信号を第１の減衰量で減衰させて再生
信号を出力し、前記再生信号に基づいて擬似反響信号を生成し、収音信号から前記擬似反響信号を差し引いて残差信号を
生成し、前記残差信号を第２の減衰量で減衰させて送話信号と
し、前記受話信号と残差信号の情報に基づいて前記第１及び
第２の減衰量を制御する音声スイッチ方法において、前記第１及び第２の減衰量の制御は、短時間区間毎に受話信号に受話音声が含まれる確率を算
出するステップと、短時間区間毎に受話信号及び残差信号から、残差信号に
送話音声が含まれる確率を算出するステップと、前記確率に基づいて単一もしくは複数周波数帯域にて第
１及び第２の減衰量の配分を算出するステップを有する
ことを特徴とする音声スイッチ方法。
【請求項２】請求項１に記載の音声スイッチ方法におい
て、前記短時間区間毎に受話信号に受話音声が含まれる確率
を算出するステップは、受話信号の短時間区間から特徴量ベクトルを抽出するス
テップと、特徴量ベクトルの時系列から受話音声が含ま
れる確率を算出するステップを有し、短時間区間毎に残差信号に送話音声が含まれる確率を算
出するステップは、受話信号と残差信号の短時間区間から特徴量ベクトルを
抽出するステップと、特徴量ベクトルの時系列から送話
音声が含まれる確率を算出するステップを有することを
特徴とする音声スイッチ。
【請求項３】請求項２に記載の音声スイッチ方法におい
て、前記特徴量ベクトルの時系列から短時間区間毎に音声が
含まれる確率を算出するステップは、「隠れマルコフモデル」を用いて確率計算するステップ
を有し、非音声区間が検出されたときに、確率の計算に
用いる隠れマルコフモデルを初期化することを特徴とす
る音声スイッチ方法。
【請求項４】請求項２または３に記載の音声スイッチ方
法において、前記受話信号と送話信号は、符号化された信号であり、
特徴量ベクトルが符号要素からなることを特徴とする音
声スイッチ方法。
【請求項５】受話信号を第１の減衰量で減衰させて再生
信号を出力する受話減衰部と、前記再生信号を参照して擬似反響信号を生成し、収音信
号から前記擬似反響信号を差引き残差信号を出力する反
響消去部と、前記残差信号を第二の減衰量で減衰させて送話信号を出
力する送話減衰部と、前記受話信号と残差信号を入力し、第１及び第２の減衰
量を制御する制御部を備えた音声スイッチにおいて、前記制御部は、短時間区間毎に受話信号に受話音声が含まれる確率を算
出する受話音声確率算出部と、短時間区間毎に受話信号及び残差信号から残差信号に送
話音声が含まれる確率を算出する送話音声確率算出部
と、前記算出した確率に基づいて単一もしくは複数周波数帯
域にて第１及び第２の減衰量の配分を算出する送受話減
衰量配分算出部を備えたことを特徴とする音声スイッ
チ。
【請求項６】請求項５に記載の音声スイッチにおいて、前記受話音声確率算出部は、受話信号の短時間区間から特徴量ベクトルを抽出する手
段と、特徴量ベクトルの時系列から受話音声が含まれる
確率を算出する手段とを有し、前記送話音声確率算出部は、受話信号と残差信号の短時間区間から特徴量ベクトルを
抽出する手段と、特徴量ベクトルの時系列から送話音声が含まれる確率を
算出する手段を有することを特徴とする音声スイッチ。
【請求項７】請求項６に記載の音声スイッチにおいて、前記特徴量ベクトルの時系列から短時間区間毎に音声が
含まれる確率を算出する手段は、「隠れマルコフモデル」を用いて確率計算し、非音声区
間が検出されたときに、確率の計算に用いる隠れマルコ
フモデルを初期化する手段を備えたことを特徴とする音
声スイッチ。
【請求項８】請求項６または７に記載の音声スイッチに
おいて、前記受話信号と送話信号は、符号化された信号であり、
特徴量ベクトルが符号要素からなることを特徴とする音
声スイッチ。