JP2016038513A

JP2016038513A - 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム

Info

Publication number: JP2016038513A
Application number: JP2014163023A
Authority: JP
Inventors: 遠藤　香緒里; Kaori Endo; 香緒里遠藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2016-03-22
Also published as: EP2993666A1; US20160042747A1; US9679577B2; EP2993666B1

Abstract

【課題】周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる音声切替装置を提供する。
【解決手段】音声切替装置（１）は、第１の周波数帯域を持つ第１の音声信号を受信している間に、第１の音声信号に基づいて第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部（１１）と、受信する音声信号が、第１の音声信号から第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に第１の音声信号が最後に受信された第１の時点以降において背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部（１４）と、第１の時点以降において疑似騒音を第２の音声信号に重畳する重畳部（１５）とを有する。
【選択図】図３

Description

本発明は、音声信号を含む周波数帯域が互いに異なる複数の音声信号間での切り替えを行う音声切替装置、音声切替方法及び音声切替用コンピュータプログラムに関する。

近年、伝送される音声信号が含まれる周波数帯域が異なる複数の通話サービスが提案されている。例えば、Long Term Evolution(LTE)に対応している無線通信システムにおいて、LTEに準拠する通信回線を利用して、Internet Protocol(IP)ネットワーク上で音声信号を伝送することで音声通話を実現するVoice over LTE(VoLTE)が提案されている。VoLTEでは、例えば、伝送される音声信号の帯域が略0Hz〜略8kHzとなっており、3G回線において伝送される音声信号の帯域（略0Hz〜略4kHz）よりも広い。そのため、VoLTEと3Gの両方の音声通信サービスが提供されている携帯電話機では、通信環境の変化などにより、音声通話中に、音声信号の通信方式がVoLTEから3Gへ切り替わることがある。このような場合、受話音声の品質がその切り替わりに伴って変化するので、ユーザは、その切り替わりの際に、受話音声に違和感を覚えることがある。

そこで、通信環境などによって伝送される音声信号の帯域が切り替わる際の音声信号の不連続性を抑制する技術が研究されている（例えば、特許文献１を参照）。

例えば、特許文献１に開示された音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号及び広帯域音声信号が混合された混合信号を出力する。そしてこの音声切替装置は、狭帯域音声信号及び広帯域音声信号の混合比を経時的に変化させる。

国際公開第２００６／０７５６６３号

しかしながら、特許文献１に記載された技術は、狭帯域音声信号と広帯域音声信号を混合するので、通信方式の切替により、狭帯域音声信号と広帯域音声信号のうちの一方の音声信号しか得られない場合には、この技術は適用できない。

一つの側面では、本発明は、周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる音声切替装置を提供することを目的とする。

一つの態様では、音声切替装置が提供される。この音声切替装置は、第１の周波数帯域を持つ第１の音声信号を受信している間に、第１の音声信号に基づいて第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、受信する音声信号が、第１の音声信号から第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に第１の音声信号が最後に受信された第１の時点以降において背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、第１の時点以降において疑似騒音を第２の音声信号に重畳する重畳部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

一つの側面として、周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる。

音声信号の通信方式が、通話中に音声信号が含まれる周波数帯域が相対的に広い通信方式から、音声信号が含まれる周波数帯域が相対的に狭い通信方式に切り替わる場合の音声信号が含まれる周波数帯域の変化を示す模式図である。一つの実施形態による音声切替装置の概略構成図である。処理部の概略構成図である。騒音類似度算出処理の動作フローチャートである。第２の音声信号のパワースペクトルが平坦でないときの騒音類似度の算出に利用されるサブ周波数帯域の一例を示す図である。騒音類似度と更新係数の関係を示す図である。周波数と係数η(t)の関係を示す図である。音声信号の通信方式の切替前後での出力される音声信号を表す模式図である。音声切替処理の動作フローチャートである。変形例による、処理部の概略構成図である。

以下、図を参照しつつ、音声切替装置について説明する。
図１は、音声信号の通信方式が、通話中に音声信号が含まれる周波数帯域が相対的に広い通信方式から、音声信号が含まれる周波数帯域が相対的に狭い通信方式に切り替わる場合の音声信号が含まれる周波数帯域の変化を示す模式図である。

図１において、横軸は時間を表し、縦軸は周波数を表す。音声信号１０１は、相対的に音声信号の伝送帯域が広い第１の通信方式（例えば、VoLTE）が使用されている場合の音声信号を表す。一方、音声信号１０２は、相対的に音声信号の伝送帯域が狭い第２の通信方式（例えば、3G）が使用されている場合の音声信号を表す。音声信号１０１は、音声信号１０２よりも高周波数帯域の成分を含んでいる。そのため、通話中に適用される通信方式が第１の通信方式から第２の通信方式に切り替わると、その切替後において、音声信号１０１には含まれるが、音声信号１０２には含まれない高周波数帯域の成分１０３が欠落したように通話中のユーザには感じられる。また、通信方式の切替処理に伴い、音声信号１０１の再生が終了してから音声信号１０２の再生が開始されるまでの間に、音声信号が受信されない無音期間１０４が生じる。このような一部の周波数帯域の成分の欠落または無音期間の存在は、ユーザに対して、再生された受話音声に違和感を感じさせることがある。

そこで、本実施形態による音声切替装置は、相対的に音声信号の伝送帯域が広い第１の通信方式で通話がなされている間に得られた音声信号に基づいて背景騒音を学習する。そしてこの音声切替装置は、通話中に、第１の通信方式から相対的に音声信号の伝送帯域が狭い第２の通信方式に切り替わった際に、学習した背景騒音に基づいて疑似騒音を生成し、その疑似騒音を、切替直後の無音期間及び欠落した周波数帯域に重畳する。さらに、この音声切替装置は、切替後の第２の通信方式で受信した音声信号と背景騒音間の類似度を求め、類似度が高いほど、疑似騒音を重畳する期間を長くする。これにより、この音声切替装置は、音声信号の切り替えに伴うユーザの違和感を軽減する。

図２は、一つの実施形態による音声切替装置の概略構成図である。この例では、音声切替装置１は、携帯電話機として実装される。そして音声切替装置１は、集音部２と、アナログ／デジタル変換部３と、通信部４と、ユーザインターフェース部５と、記憶部６と、処理部７と、出力部８と、記憶媒体アクセス装置９とを有する。なお、この音声切替装置は、音声信号が含まれる周波数帯域が異なる複数の通信方式を利用でき、かつ、通話中に通信方式の切替が可能な様々な通信装置に適用できる。

集音部２は、例えば、マイクロホンを有し、集音部２の周囲の空間を伝搬する音声を集音し、その音声の音圧に応じた強度を持つアナログ音声信号を生成する。そして集音部２は、生成したアナログ音声信号をアナログ／デジタル変換部（以下、Ａ／Ｄ変換部と呼ぶ）３へ出力する。

Ａ／Ｄ変換部３は、例えば、アンプと、アナログ／デジタル変換器とを有する。Ａ／Ｄ変換部３は、集音部２から受け取ったアナログ音声信号をアンプにより増幅する。そしてＡ／Ｄ変換部３は、その増幅されたアナログ音声信号をアナログ／デジタル変換器により所定のサンプリング周期（例えば、8kHz）でサンプリングすることにより、デジタル化された音声信号を生成する。

通信部４は、集音部２により生成され、処理部７により符号化された音声信号を他の機器へ送信する。また通信部４は、他の機器から受信した信号に含まれる音声信号を取り出して処理部７へ出力する。そのために、通信部４は、例えば、ベースバンド処理部（図示せず）と、無線処理部（図示せず）と、アンテナ（図示せず）とを有する。通信部４のベースバンド処理部は、処理部７により符号化された音声信号を、通信部４が準拠する無線通信規格に準拠した変調方式に従って変調してアップリンク信号を生成する。通信部４の無線処理部は、そのアップリンク信号を無線周波数を持つ搬送波に重畳する。そしてそのアップリンク信号は、アンテナを介して他の機器へ送信される。また通信部４の無線処理部は、アンテナを介して他の機器から音声信号を含むダウンリンク信号を受信し、そのダウンリンク信号をベースバンド周波数を持つ信号に変換して、ベースバンド処理部へ出力する。ベースバンド処理部は、無線処理部から受け取った信号を復調して、その信号に含まれる音声信号などの各種の信号または情報を取り出して、処理部７へ渡す。その際、ベースバンド処理部は、処理部７から指示された制御信号に従って、通信方式を選択し、選択された通信方式に従って信号を復調する。

ユーザインターフェース部５は、例えば、タッチパネルを有する。そしてユーザインターフェース部５は、ユーザによる操作に応じた操作信号、例えば、通話の開始を指示する信号を生成し、その操作信号を処理部７へ出力する。またユーザインターフェース部５は、処理部７から受け取った表示用の信号に従って、アイコン、画像またはテキストなどを表示する。なお、ユーザインターフェース部５は、操作信号入力用の複数の操作ボタンと、液晶ディスプレイといった表示装置とを別個に有していてもよい。

記憶部６は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部６は、音声切替装置１で用いられる各種コンピュータプログラム及び各種のデータを記憶する。また記憶部６は、音声切替処理で用いられる各種の情報を記憶する。

処理部７は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部７は、音声切替装置１全体を制御する。
処理部７は、音声切替装置１が有するユーザインターフェース部５を介したユーザの操作により、例えば、通話が開始されると、呼び出し、応答、切断などの呼制御処理を実行する。

また処理部７は、集音部２により生成された音声信号を高能率符号化し、さらに、通信路符号化して、その符号化された音声信号を通信部４を介して出力する。また処理部７は、通信環境などに応じて、音声信号の通信に利用する通信方式を選択し、選択した通信方式に従って音声信号を通信するように通信部４を制御する。そして処理部７は、選択された通信方式に従って、通信部４を介して他の機器から受け取った、符号化された音声信号を復号し、その復号した音声信号を出力部８へ出力する。また処理部７は、適用する通信方式を、音声信号を含む周波数帯域が相対的に広い第１の通信方式（例えば、VoLTE）から音声信号を含む周波数帯域が相対的に狭い第２の通信方式（例えば、3G）への切り替えに伴う音声切替処理を実行する。処理部７は、音声切替処理を実行している間、その音声切替処理を実行する各部に、復号した音声信号を渡す。また処理部７は、切り替え前の通信方式に従って受信した音声信号が終了してから、切り替え後の通信方式に従って音声信号の受信を開始するまでの間、無音となる音声信号を音声切替処理を実行する各部に渡す。
なお、処理部７による音声切替処理の詳細については後述する。

出力部８は、例えば、処理部７から受け取った音声信号をアナログ化するためのデジタル／アナログ変換器とスピーカとを有し、処理部７から受け取った音声信号を音波として再生する。

記憶媒体アクセス装置９は、例えば、半導体メモリカードといった記憶媒体９ａにアクセスする装置である。記憶媒体アクセス装置９は、例えば、記憶媒体９ａに記憶された処理部７上で実行されるコンピュータプログラムを読み込み、処理部７に渡す。

以下、処理部７による音声切替処理の詳細について説明する。
図３は、処理部７の概略構成図である。処理部７は、学習部１１と、無音区間検出部１２と、類似度算出部１３と、疑似騒音生成部１４と、重畳部１５とを有する。
処理部７が有するこれらの各部は、例えば、処理部７が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部７が有するこれらの各部は、処理部７が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声切替装置１に実装されてもよい。

また、処理部７が有するこれらの各部のうち、学習部１１は、音声切替装置１が第１の通信方式に従って他の機器から音声信号を受信している間に適用される。一方、無音区間検出部１２、類似度算出部１３、疑似騒音生成部１４及び重畳部１５は、第１の通信方式から第２の通信方式への切り替えの途中、あるいは、その切り替えが完了して第２の通信方式に従った音声信号の受信を開始してから一定期間の間に適用される。

なお、以下では、説明の便宜上、音声信号が含まれる周波数帯域が相対的に広い第１の通信方式で受信した音声信号を第１の音声信号と呼ぶ。また、音声信号が含まれる周波数帯域が相対的に狭い第２の通信方式で受信した音声信号を第２の音声信号と呼ぶ。さらに、第１の音声信号が含まれる周波数帯域を第１の周波数帯域と呼び、一方、第２の音声信号が含まれる周波数帯域を第２の周波数帯域と呼ぶ。すなわち、第１の周波数帯域（例えば、略0kHz〜略8kHz）は、第２の周波数帯域（例えば、略0kHz〜略4kHz）よりも広い。

学習部１１は、第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する。背景騒音モデルは、第２の音声信号に重畳する疑似騒音の生成に利用される。そのために、学習部１１は、第１の音声信号を所定の時間長（例えば、数10msec）を持つフレーム単位に分割する。そして学習部１１は、現フレームのパワーP(t)を算出し、そのパワーP(t)を所定の閾値Th1と比較する。パワーP(t)が閾値Th1未満となる場合、そのフレームには、通話相手の声が含まれず、背景騒音のみが含まれていると推定される。なお、Th1は、例えば、6dBに設定される。この場合、学習部１１は、現フレームの第１の音声信号を時間周波数変換することにより、周波数領域の信号である第１の周波数信号を算出する。学習部１１は、例えば、時間周波数変換として、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)を利用できる。第１の周波数信号には、例えば、フレームに含まれるサンプリング点の総数の1/2個の周波数のスペクトルが含まれる。

学習部１１は、現フレームの第１の周波数信号のパワースペクトルを、例えば、次式に従って算出する。

ここでRe(i,t)は、現フレームtにおける、第１の周波数信号のi番目のサンプル点が表す周波数のスペクトルの実部を表す。またIm(i,t)は、現フレームtにおける、第１の周波数信号のi番目のサンプル点が表す周波数のスペクトルの虚部を表す。そしてP(i,t)は、現フレームtにおける、i番目のサンプル点が表す周波数のパワースペクトルである。
そして学習部１１は、次式に従って、忘却係数を用いて現フレームのパワースペクトルを背景騒音モデルのパワースペクトルに加重加算することで背景騒音モデルを学習する。

ここでPN(i,t)及びPN(i,t-1)は、それぞれ、現フレームt及び一つ前のフレーム(t-1)における背景騒音モデルにおける、i番目のサンプル点が表すパワースペクトルである。そして係数αは、忘却係数であり、例えば、0.99に設定される。

一方、学習部１１は、現フレームのパワーP(t)が閾値Th1以上である場合、現フレームには、背景騒音以外の音声、例えば、通話相手の話者の声が含まれる区間である発声区間であると推定される。そこでこの場合、学習部１１は、背景騒音モデルPN(i,t)を更新せず、一つ前のフレーム(t-1)についての背景騒音モデルPN(i,t-1)と同一とする。あるいは、学習部１１は、（２）における忘却係数αを、パワーP(t)が閾値Th1未満である場合よりも大きくして（例えば、α=0.999）、（１）式及び（２）式に従って背景騒音モデルを更新してもよい。

変形例として、学習部１１は、パワーP(t)を、一つ前のフレームにおける、背景騒音モデルの全帯域のパワーPNave(=ΣPN(i,t-1))からオフセットTh2を減じた値(PNave-Th2)と比較してもよい。なお、Th2は、例えば、3dBに設定される。この場合、パワーP(t)が(PNave-Th2)未満となる場合、学習部１１は、（１）式及び（２）式に従って背景騒音モデルを更新すればよい。

学習部１１は、最新の背景騒音モデル、すなわち、現フレームについて学習された背景騒音モデルPN(i,t)を記憶部６に保存する。

無音区間検出部１２は、第１の通信方式に従って最後に音声信号を受信した時点以降において、音声切替処理が実行されている間、第２の音声信号の受信が開始されていない区間である無音区間を検出する。
そのために、無音区間検出部１２は、処理部７から受け取った音声信号を所定の時間長（例えば、数10msec）を持つフレーム単位に分割する。そして無音区間検出部１２は、現フレームのパワーP(t)を算出し、そのパワーP(t)を所定の閾値Th3と比較する。パワーP(t)が閾値Th3未満となる場合、現フレームは無音区間であると判定する。なお、Th3は、例えば、6dBに設定される。一方、パワーP(t)が閾値Th3以上である場合、無音区間検出部１２は、現フレームは無音区間でないと判定する。

無音区間検出部１２は、各フレームについて、無音区間か否かの判定結果を類似度算出部１３及び疑似騒音生成部１４へ通知する。

類似度算出部１３は、第１の通信方式に従って最後に音声信号を受信した時点以降、かつ、音声切替処理が実行されている間において、現フレームが無音区間でない場合、現フレームに含まれる第２の音声信号と背景騒音モデル間の類似度を算出する。この類似度は、疑似騒音を第２の音声信号に重畳する期間の設定に利用される。第２の音声信号と背景騒音モデル間の類似度が高いほど、第２の音声信号に背景騒音モデルから生成される疑似騒音を重畳して得られる音声に対するユーザの違和感は少ないと想定される。そこで、この類似度が高いほど、疑似騒音が重畳される期間は長く設定される。なお、以下では、便宜上、第２の音声信号と背景騒音モデル間の類似度を騒音類似度と呼ぶ。

図４は、類似度算出部１３による騒音類似度算出処理の動作フローチャートである。類似度算出部１３は、フレームごとにこの動作フローチャートに従って騒音類似度を算出する。

類似度算出部１３は、現フレームtにおける第２の音声信号の各周波数のパワースペクトルP2(i,t)を算出する（ステップＳ１０１）。そのために、類似度算出部１３は、現フレームについて、第２の音声信号に対して時間周波数変換を実行して第２の周波数信号を算出し、その第２の周波数信号に対して（１）式を適用することで、パワースペクトルP2(i,t)を算出できる。そして類似度算出部１３は、パワースペクトルの周波数帯域全体にわたる平坦度合いを表す平坦度Fを算出する（ステップＳ１０２）。なお、平坦度Fは、例えば、次式に従って算出される。

ここでMAX(P2(i,t))は、周波数帯域全体にわたるパワースペクトルのうちの最大値を出力する関数であり、MIN(P2(i,t))は、周波数帯域全体にわたるパワースペクトルのうちの最小値を出力する関数である。（３）式から明らかなように、この場合、平坦度Fの値が小さいほど、パワースペクトルP2(i,t)は平坦となり、周波数ごとのパワースペクトルの値の差が小さい。なお、類似度算出部１３は、関数の平坦度合いを求める他の式に従って、平坦度Fを算出してもよい。

類似度算出部１３は、平坦度Fが所定の閾値Th4以上か否か判定する（ステップＳ１０３）。なお、閾値Th4は、例えば、6dBに設定される。平坦度Fが閾値Th4以上である場合（ステップＳ１０３−Ｙｅｓ）、現フレームには、背景騒音以外の音の成分も含まれている可能性が有る。そこで類似度算出部１３は、パワースペクトルP2(i,t)の値が極小値となる周波数を含むサブ周波数帯域について、パワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の騒音類似度SD(t)を算出する（ステップＳ１０４）。パワースペクトルP2(i,t)の値が極小値となる周波数及びその近傍の周波数では、背景騒音以外の音の成分が含まれている可能性が低いためである。なお、サブ周波数帯域は、第２の周波数帯域よりも狭く、パワースペクトルP2(i,t)の値が極小値となる周波数に相当するサンプリング点をi₀とすると、例えば、(i₀±3)に相当する周波数帯域とすることができる。

例えば、類似度算出部１３は、以下の条件を満たす、i番目のサンプリング点に相当する周波数について、パワースペクトルP2(i,t)の値が極小値となると判定する。

ここで、パワースペクトルの局所的平均値Pave(i,t)の算出に利用される周波数帯域の幅を表す変数N₂は、例えば、5に設定される。また閾値Thaveは、例えば、5dBに設定される。
類似度算出部１３は、（４）式の条件を満たす周波数を全て抽出する。

図５は、第２の音声信号のパワースペクトルが平坦でないときの騒音類似度SD(t)の算出に利用されるサブ周波数帯域の一例を示す図である。図５において、横軸は周波数を表し、縦軸はパワーを表す。この例では、周波数ごとのパワースペクトル５００は、周波数f1及び周波数f2において極小値を持つ。そこで、周波数f1及び周波数f2をそれぞれ中心とする、サブ周波数帯域５０１及びサブ周波数帯域５０２が、騒音類似度SD(t)の算出に利用される。

類似度算出部１３は、次式に従って、パワースペクトルP2(i,t)が極小値となる周波数を含むサブ周波数帯域に含まれる周波数ごとのパワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の差の平均二乗誤差（root mean squared error）を算出する。そして類似度算出部１３は、その平均二乗誤差を騒音類似度SD(t)とする。

なお、Nは、（４）式に従って抽出された、パワースペクトルP2(i,t)が極小値となる周波数を含む１以上のサブ周波数帯域に含まれる各周波数に相当するサンプリング点の数である。jは、パワースペクトルP2(i,t)が極小値となる周波数を含む１以上のサブ周波数帯域に含まれる何れかの周波数に対応するサンプリング点である。そしてt₀は、背景騒音モデルが最後に更新されたフレームを表す。

また、ステップＳ１０３にて、平坦度Fが閾値Th4未満である場合（ステップＳ１０３−Ｎｏ）、現フレームには、背景騒音以外の音の成分が含まれている可能性は低い。そこで類似度算出部１３は、次式に従って、第２の音声信号が含まれる周波数帯域全体にわたって周波数ごとのパワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の差の平均二乗誤差を算出する。そして類似度算出部１３は、その平均二乗誤差を騒音類似度SD(t)とする（ステップＳ１０５）。

なお、Lmaxは、第２の音声信号が含まれる第２の周波数帯域の上限周波数に相当する、サンプリング点の番号である。

（５）式及び（６）式から明らかなように、騒音類似度SD(t)の値が小さいほど、第２の音声信号と背景騒音モデル間の類似度は高くなる。なお、第２の音声信号と背景騒音モデル間の類似度の算出式は、（５）式及び（６）式に限られない。例えば、その類似度の算出式として、（５）式または（６）式の右辺の逆数が用いられてもよい。

類似度算出部１３は、騒音類似度SD(t)を算出する度に、騒音類似度SD(t)を疑似騒音生成部１４へ通知する。

疑似騒音生成部１４は、類似度SD(t)及び背景騒音モデルに基づいて、第２の音声信号に重畳する疑似騒音を生成する。

現フレームが無音区間である場合、疑似騒音生成部１４は、第２の周波数帯域の下限周波数から、疑似騒音の上限周波数fmax(t)までの周波数帯域について疑似騒音を生成する。本実施形態では、第２の音声信号が含まれる第２の周波数帯域を、第１の音声信号が含まれる第１の周波数帯域と比較すると、図１に示されるように、第２の周波数帯域の上限周波数よりも第１の周波数帯域の上限周波数の方が高い。そこで、疑似騒音の上限周波数fmax(t)は、第２の周波数帯域の上限周波数よりも高く、かつ、第１の周波数帯域の上限周波数以下に設定される。

一方、現フレームが無音区間でない場合、疑似騒音生成部１４は、疑似騒音の上限周波数fmax(t)と第２の周波数帯域の上限周波数間の周波数帯域について疑似騒音を生成する。

また、疑似騒音生成部１４は、第１の通信方式による第１の音声信号の受信が終了した時点からの経過時間に応じて、疑似騒音の上限周波数fmax(t)を低下させる。例えば、疑似騒音生成部１４は、次式に従って、一つ前のフレーム(t-1)の上限周波数fmax(t-1)と現フレームtの騒音類似度SD(t)に従って現フレームの上限周波数fmax(t)を決定する。なお、上限周波数fmax(t)の初期値は、第１の周波数帯域の上限周波数（例えば、8kHz）とすることができる。

なお、閾値ThSDは、例えば、5dBに設定される。また係数γ(t)は、疑似騒音の上限周波数fmax(t)の更新に利用される更新係数である。

図６は、騒音類似度SD(t)と更新係数γ(t)の関係を示す図である。図６において、横軸は騒音類似度SD(t)を表し、縦軸は更新係数γ(t)を表す。そしてグラフ６００は、騒音類似度SD(t)と更新係数γ(t)の関係を表す。
図６及び（７）式から明らかなように、現フレームの騒音類似度SD(t)が小さいほど、すなわち、現フレームの第２の音声信号のパワースペクトルと背景騒音モデルが似ているほど、更新係数γ(t)が大きくなる。そのため、上限周波数fmax(t)の低下速度は緩やかになる。

疑似騒音の上限周波数fmax(t)が所定の閾値fth以下となると、疑似騒音生成部１４は、疑似騒音の生成を停止する。なお、閾値fthは、例えば、第２の周波数帯域の上限周波数（例えば、4kHz）とすることができる。

なお、現フレームが無音区間である場合、疑似騒音生成部１４は、上限周波数fmax(t)を更新しない（すなわち、fmax(t)=fmax(t-1)）。

また、疑似騒音生成部１４は、次式に従って、背景騒音モデルが含まれる周波数帯域、すなわち、第１の周波数帯域全体にわたって背景騒音モデルから疑似騒音の周波数スペクトルを生成する。

ここで、RANDは、0〜2πの間の値を持つ乱数であり、例えば、処理部７が有する乱数発生器、あるいは、処理部７で実行される、乱数発生用アルゴリズムに従って、フレームごとに生成される。そしてPNRE(i,t)は、現フレームtにおける疑似騒音のi番目のサンプリング点に相当する周波数のスペクトルの実部を表し、PNIM(i,t)は、現フレームtにおける疑似騒音のi番目のサンプリング点に相当する周波数のスペクトルの実部を表す。（８）式に示されるように、疑似騒音の各周波数の振幅は、背景騒音モデルにおける対応する周波数の振幅と同じとなるように疑似騒音は生成される。これにより、第１の音声信号が受信しているときの背景騒音の周波数特性と似た周波数特性を持つ疑似騒音が生成されるので、ユーザは、受信音声が第１の音声信号から第２の音声信号に切り替わったことに気付き難くなる。
また、疑似騒音の各周波数の位相は、背景騒音モデルにおける対応する周波数の位相と無相関となるように疑似騒音は生成される。そのため、疑似騒音はより自然な騒音となる。

現フレームが無音区間でない場合、（８）式に従って生成する疑似騒音の下限周波数は、第２の音声信号の上限周波数に相当するサンプリング点Lmaxの次のサンプリング点(Lmax+1)に相当する周波数とすることができる。

疑似騒音生成部１４は、次式に従って、疑似騒音の各周波数のスペクトルを、上限周波数fmax(t)に基づいて定められる係数η(i)で補正することで、（８）式に従って生成した疑似騒音から上限周波数fmax(t)よりも高周波のスペクトルを除去する。

ここで、Δfは、疑似騒音を減衰させる周波数帯域の幅であり、例えば、300Hzである。またΔbは、一つのサンプリング点に対応する周波数帯域の幅である。そしてfは、i番目のサンプリング点に対応する周波数である。

図７は、周波数と係数η(t)の関係を示す図である。図７において、横軸は周波数を表し、縦軸は係数η(t)を表す。そしてグラフ７００は、周波数と係数η(t)の関係を表す。
（９）式及び図７から明らかなように、周波数(fmax(t)-Δf)よりも周波数が高くなるにつれて、疑似騒音のその周波数のスペクトルも小さくなる。そして上限周波数fmax(t)よりも高い周波数では、疑似騒音のスペクトルは0となる。

疑似騒音生成部１４は、フレームごとに得られた疑似騒音の各周波数のスペクトルに対して周波数時間変換を適用することで時間領域の信号である疑似騒音に変換する。なお、疑似騒音生成部１４は、周波数時間変換として、逆FFTまたは逆MDCTを利用できる。そして疑似騒音生成部１４は、フレームごとに、疑似騒音を重畳部１５へ出力する。

重畳部１５は、疑似騒音が生成されたフレームごとに、第２の音声信号に、その疑似騒音を重畳する。そして重畳部１５は、疑似騒音が重畳されたフレームを、順次出力部８へ出力する。なお、疑似騒音の上限周波数fmax(t)が所定の周波数fth以下となると、疑似騒音が生成されなくなるので、重畳部１５は、疑似騒音の第２の音声信号への重畳を停止する。このように、疑似騒音の上限周波数fmax(t)がfth以下となるまで低下したところで第２の音声信号への疑似騒音の重畳を停止することで、音声切替装置１は、第１の音声信号から第２の音声信号へ切り替わったことをユーザに気付かれ難くできる。またこのように、疑似騒音の重畳をある程度の期間が経過した時点で停止することで、音声切替装置１は、疑似騒音の生成及び重畳による処理負荷を軽減できる。

図８は、音声信号の通信方式の切替前後での出力される音声信号を表す模式図である。図８において、横軸は時間を表し、縦軸は周波数を表す。第１の音声信号８０１の受信が終了した後の無音区間８０２、及び、第２の音声信号８０３の受信が開始されてからの一定期間に、疑似騒音８０４が重畳されている。無音区間８０２では、疑似騒音８０４が含まれる周波数帯域は、第１の音声信号８０１が含まれる周波数帯域と同一である。そして第２の音声信号８０３の受信が開始されてから、疑似騒音８０４の上限周波数fmax(t)は徐々に低下し、その上限周波数fmax(t)と第２の音声信号８０３の上限周波数が一致した時点で、疑似騒音の重畳が終了する。また、背景騒音モデルと第２の音声信号間の類似度が高いほど、例えば、点線８０５で示されるように、第２の音声信号８０３に疑似騒音８０４が重畳される期間が長くなる。

図９は、処理部７により実行される音声切替処理の動作フローチャートである。処理部７は、フレーム単位でこの動作フローチャートに従って音声切替処理を実行する。
処理部７は、音声切替処理が実行中か否かを表すフラグpFlagが、音声切替処理の実行中であることを表す値'1'であるか否か判定する（ステップＳ２０１）。フラグpFlagの値が、音声切替処理が終了したことを表す'0'であれば（ステップＳ２０１−Ｎｏ）、処理部７は、音声切替処理を終了する。なお、処理部７は、音声信号の伝送に適用される通信方式が第２の通信方式から第１の通信方式に切り替わるか、第１の通信方式を利用して通話が開始されたときに、pFlagの値を'1'に書き換える。

一方、フラグpFlagの値が'1'であれば（ステップＳ２０１−Ｙｅｓ）、処理部７は、現フレームの音声信号が、相対的に狭い伝送帯域を持つ第２の音声信号か否か判定する（ステップＳ２０２）。なお、処理部７は、現時点で適用されている通信方式を参照することで、現在受信中の音声信号が第２の音声信号か否かを判定できる。

現フレームの音声信号が相対的に広い伝送帯域を持つ第１の音声信号である場合（ステップＳ２０２−Ｎｏ）、処理部７の学習部１１は、現フレームが発声区間か否か判定する（ステップＳ２０３）。現フレームが発声区間でない場合（ステップＳ２０３−Ｎｏ）、学習部１１は、現フレームの各周波数のパワースペクトルに基づいて、背景騒音モデルを学習する（ステップＳ２０４）。ステップＳ２０４、またはステップＳ２０３にて現フレームが発声区間である場合（ステップＳ２０３−Ｙｅｓ）、処理部７は、次フレームについてステップＳ２０１以降の処理を実行する。

一方、ステップＳ２０２において、現フレームの音声信号が第２の音声信号である場合（ステップＳ２０２−Ｙｅｓ）、処理部７の無音区間検出部１２は、現フレームが無音区間か否か判定する（ステップＳ２０５）。現フレームが無音区間でない場合（ステップＳ２０５−Ｎｏ）、処理部７の類似度算出部１３は、背景騒音モデルと現フレームの第２の音声信号間の騒音類似度を算出する（ステップＳ２０６）。そして処理部７の疑似騒音生成部１４は、騒音類似度に基づいて、疑似騒音の上限周波数fmax(t)を更新する（ステップＳ２０７）。そして疑似騒音生成部１４は、fmax(t)が閾値fthより高いか否か判定する（ステップＳ２０８）。

fmax(t)がfth以下となる場合（ステップＳ２０８−Ｎｏ）、もはや疑似騒音を第２の音声信号に重畳する必要性が無い。そこで疑似騒音生成部１４は、pFlagの値を'0'に書き換える（ステップＳ２１１）。

一方、fmax(t)がfthよりも高い場合（ステップＳ２０８−Ｙｅｓ）、疑似騒音生成部１４は、fmax(t)以下の周波数帯域で、背景騒音モデルに基づいて疑似騒音を生成する（ステップＳ２０９）。また、ステップＳ２０５において、現フレームが無音区間であると判定された場合も（ステップＳ２０５−Ｙｅｓ）、疑似騒音生成部１４は疑似騒音を生成する。そして処理部７の重畳部１５は、疑似騒音を現フレームの第２の音声信号に重畳する（ステップＳ２１０）。そして処理部７は、疑似騒音が重畳された第２の音声信号を出力部８へ出力する。

ステップＳ２１０またはＳ２１１の後、処理部７は、次フレームについてステップＳ２０１以降の処理を実行する。

以上に説明してきたように、この音声切替装置は、音声信号が含まれる周波数帯域が相対的に広い第１の通信方式で通話がなされている間に得られた第１の音声信号に基づいて背景騒音モデルを学習する。この音声切替装置は、通話中に、第１の通信方式から音声信号が含まれる周波数帯域が相対的に狭い第２の通信方式に切り替わった際に、学習した背景騒音モデルに基づいて疑似騒音を生成する。そしてこの音声切替装置は、その疑似騒音を、切替直後の無音区間及び第２の通信方式で得られた第２の音声信号に重畳する。さらに、この音声切替装置は、切替後の第２の音声信号と背景騒音間の類似度に応じて疑似騒音を重畳する期間を調節する。これにより、この音声切替装置は、通信方式の切り替えに伴う音質の変化によるユーザの違和感を軽減することができる。

なお、変形例によれば、処理部７は、受信したダウンリンク信号から取り出された音声信号に基づいて、第１の音声信号から第２の音声信号に切り替わったか否かを判定してもよい。

図１０は、この変形例による、処理部７１の概略構成図である。処理部７１は、学習部１１と、無音区間検出部１２と、類似度算出部１３と、疑似騒音生成部１４と、重畳部１５と、帯域切替判定部１６とを有する。
処理部７１が有するこれらの各部は、例えば、処理部７１が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部７１が有するこれらの各部は、処理部７１が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声切替装置１に実装されてもよい。

この変形例による処理部７１は、上記の実施形態による処理部７と比較して、帯域切替判定部１６を有する点で相違する。そこで以下では、帯域切替判定部１６及びその関連部分について説明する。

帯域切替判定部１６は、フレームごとに、受信した音声信号を時間周波数変換して、周波数ごとのパワースペクトルを算出する。そして帯域切替判定部１６は、次式に従って、そのパワースペクトルから、第２の周波数帯域のパワーL(t)と、第１の周波数帯域から第２の周波数帯域を除いた周波数帯域のパワーH(t)を算出する。

ここで、Lmaxは、第２の周波数帯域の上限周波数に相当するサンプリング点の番号である。またHmaxは、第１の周波数帯域の上限周波数に相当するサンプリング点の番号である。

帯域切替判定部１６は、パワーL(t)からパワーH(t)を減じて得られるパワー差Pdiff(t)を所定のパワー閾値ThBと比較する。そして帯域切替判定部１６は、パワー差Pdiff(t)がパワー閾値ThBよりも大きい場合、受信している音声信号は第２の音声信号であると判定する。なお、パワー閾値ThBは、例えば、10dBに設定される。一方、帯域切替判定部１６は、パワー差Pdiff(t)がパワー閾値ThB以下である場合、受信している音声信号は第１の音声信号であると判定する。そして帯域切替判定部１６は、一つ前のフレームにおいて、第１の音声信号を受信したと判定し、現フレームにおいて、第２の音声信号を受信したと判定した場合、受信する音声信号が第１の音声信号から第２の音声信号に切り替わったと判定する。そして帯域切替判定部１６は、その旨を処理部７１の各部に通知する。

学習部１１は、受信する音声信号が第１の音声信号から第２の音声信号に切り替わったことを通知されると、背景騒音モデルの更新を停止する。また、類似度算出部１３は、受信する音声信号が第１の音声信号から第２の音声信号に切り替わったことを通知されると、それ以降の各フレームについて、音声切替処理の実行中、騒音類似度を算出する。また疑似騒音生成部１４は、受信する音声信号が第１の音声信号から第２の音声信号に切り替わったことを通知されると、それ以降の各フレームについて、疑似騒音を生成する。

この変形例によれば、音声切替装置は、音声信号の伝送に利用される通信方式が切り替わったことを検知できなくても、受信した音声信号に基づいて、その音声信号が第１の音声信号から第２の音声信号に切り替わったことを検知できる。そのため、この音声切替装置は、第２の音声信号への疑似騒音の重畳を開始するタイミングを適切に決定できる。さらにこの音声切替装置は、受信した音声信号そのものに基づいて音声信号の切替のタイミングを特定できるので、通信装置から音声信号だけを受け取って、その音声信号をスピーカにより再生する装置にも適用できる。

さらに他の変形例によれば、疑似騒音が第２の音声信号に重畳される期間は、予め設定されてもよい。例えば、疑似騒音が第２の音声信号に重畳される期間は、第１の通信方式による第１の音声信号の受信が終了した時点から、1〜5秒間とすることができる。この場合、疑似騒音生成部１４は、第１の通信方式による第１の音声信号の受信が終了した時点からの経過時間が長くなるほど、疑似騒音を弱くしてもよい。
この変形例によれば、類似度算出部１３は省略されてもよい。そのため、処理部は、音声切替処理を簡単化できる。

さらに、上記の各実施形態または変形例による音声切替装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する重畳部と、
を有する音声切替装置。
（付記２）
前記第１の時点以後において、前記第２の音声信号の受信を開始していない無音区間を検出する無音区間検出部をさらに有し、
前記疑似騒音生成部は、前記無音区間において、前記疑似騒音を前記第１の周波数帯域全体にわたって生成し、
前記重畳部は、前記無音区間に前記第１の周波数帯域全体にわたって生成された前記疑似騒音を重畳する、付記１に記載の音声切替装置。
（付記３）
前記疑似騒音生成部は、前記第１の時点以降の前記無音区間に含まれない区間において、前記第２の周波数帯域の上限周波数より高く、かつ、前記第１の周波数帯域の上限周波数以下となる前記疑似騒音の上限周波数から前記第２の周波数帯域の上限周波数の間の周波数帯域において前記疑似騒音を生成する、付記１または２に記載の音声切替装置。
（付記４）
前記疑似騒音生成部は、前記疑似騒音の上限周波数を、前記第１の時点以降において前記無音区間を除いた経過時間が長くなるほど低下させる、付記３に記載の音声切替装置。
（付記５）
前記重畳部は、前記疑似騒音の前記上限周波数が前記第２の周波数帯域の前記上限周波数以下となると前記第２の音声信号へ前記疑似騒音の重畳を停止する、付記４に記載の音声切替装置。
（付記６）
前記第１の時点以降の前記無音区間以外の区間において、前記背景騒音モデルと前記第２の音声信号間の類似度合いを表す類似度を算出する類似度算出部をさらに有し、
前記疑似騒音生成部は、前記類似度が高いほど前記疑似騒音の前記上限周波数の低下を緩やかにする、付記４または５に記載の音声切替装置。
（付記７）
前記類似度算出部は、前記第２の音声信号を所定の時間長を持つフレーム単位に分割し、前記フレームごとに前記第２の音声信号を時間周波数変換して周波数ごとのパワースペクトルを算出し、前記フレームごとに、前記パワースペクトルの前記第２の周波数帯域にわたる平坦度合いを表す平坦度を算出し、前記平坦度が所定の閾値以上の場合には前記第２の周波数帯域全体にわたって各周波数の前記第２の音声信号と前記背景騒音モデル間のパワースペクトルの誤差を求めることで前記類似度を算出し、一方、前記平坦度が前記所定の閾値未満の場合には、前記パワースペクトルが極小値となる周波数を含む、前記第２の周波数帯域よりも狭いサブ周波数帯域に含まれる各周波数の前記第２の音声信号と前記背景騒音モデル間のパワースペクトルの誤差を求めることで前記類似度を算出する、付記６に記載の音声切替装置。
（付記８）
前記背景騒音モデルは、周波数ごとの振幅を含み、
前記疑似騒音生成部は、前記疑似騒音の各周波数の振幅を、前記背景騒音モデルの対応する周波数の振幅に応じて決定する、付記１〜７の何れかに記載の音声切替装置。
（付記９）
前記疑似騒音生成部は、前記第１の時点以降の所定期間にわたって前記疑似騒音を生成し、かつ、前記第１の時点からの経過時間が長くなるほど前記疑似騒音を弱くする、付記１に記載の音声切替装置。
（付記１０）
第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する、
ことを含む音声切替方法。
（付記１１）
第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する、
ことをコンピュータに実行させるための音声切替用コンピュータプログラム。

１音声切替装置
２集音部
３アナログ／デジタル変換部
４通信部
５ユーザインターフェース部
６記憶部
７、７１処理部
８出力部
９記憶媒体アクセス装置
９ａ記憶媒体
１１学習部
１２無音区間検出部
１３類似度算出部
１４疑似騒音生成部
１５重畳部
１６帯域切替判定部

Claims

第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する重畳部と、
を有する音声切替装置。
前記第１の時点以後において、前記第２の音声信号の受信を開始していない無音区間を検出する無音区間検出部をさらに有し、
前記疑似騒音生成部は、前記無音区間において、前記疑似騒音を前記第１の周波数帯域全体にわたって生成し、
前記重畳部は、前記無音区間に前記第１の周波数帯域全体にわたって生成された前記疑似騒音を重畳する、請求項１に記載の音声切替装置。
前記疑似騒音生成部は、前記第１の時点以降の前記無音区間に含まれない区間において、前記第２の周波数帯域の上限周波数より高く、かつ、前記第１の周波数帯域の上限周波数以下となる前記疑似騒音の上限周波数から前記第２の周波数帯域の上限周波数の間の周波数帯域において前記疑似騒音を生成する、請求項１または２に記載の音声切替装置。
前記疑似騒音生成部は、前記疑似騒音の上限周波数を、前記第１の時点以降において前記無音区間を除いた経過時間が長くなるほど低下させる、請求項３に記載の音声切替装置。
前記重畳部は、前記疑似騒音の前記上限周波数が前記第２の周波数帯域の前記上限周波数以下となると前記第２の音声信号へ前記疑似騒音の重畳を停止する、請求項４に記載の音声切替装置。
前記背景騒音モデルは、周波数ごとの振幅を含み、
前記疑似騒音生成部は、前記疑似騒音の各周波数の振幅を、前記背景騒音モデルの対応する周波数の振幅に応じて決定する、請求項１〜５の何れか一項に記載の音声切替装置。
第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する、
ことを含む音声切替方法。
第１の周波数帯域を持つ第１の音声信号を受信している間に、前記第１の音声信号に基づいて当該第１の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第１の音声信号から前記第１の周波数帯域よりも狭い第２の周波数帯域を持つ第２の音声信号に切り替わる際に前記第１の音声信号が最後に受信された第１の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第１の時点以降において前記疑似騒音を前記第２の音声信号に重畳する、
ことをコンピュータに実行させるための音声切替用コンピュータプログラム。