[go: up one dir, main page]

JP2016038513A - 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム - Google Patents

音声切替装置、音声切替方法及び音声切替用コンピュータプログラム Download PDF

Info

Publication number
JP2016038513A
JP2016038513A JP2014163023A JP2014163023A JP2016038513A JP 2016038513 A JP2016038513 A JP 2016038513A JP 2014163023 A JP2014163023 A JP 2014163023A JP 2014163023 A JP2014163023 A JP 2014163023A JP 2016038513 A JP2016038513 A JP 2016038513A
Authority
JP
Japan
Prior art keywords
audio signal
pseudo noise
frequency band
frequency
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014163023A
Other languages
English (en)
Inventor
遠藤 香緒里
Kaori Endo
香緒里 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014163023A priority Critical patent/JP2016038513A/ja
Priority to EP15175516.2A priority patent/EP2993666B1/en
Priority to US14/800,107 priority patent/US9679577B2/en
Publication of JP2016038513A publication Critical patent/JP2016038513A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

【課題】周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる音声切替装置を提供する。
【解決手段】音声切替装置(1)は、第1の周波数帯域を持つ第1の音声信号を受信している間に、第1の音声信号に基づいて第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部(11)と、受信する音声信号が、第1の音声信号から第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に第1の音声信号が最後に受信された第1の時点以降において背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部(14)と、第1の時点以降において疑似騒音を第2の音声信号に重畳する重畳部(15)とを有する。
【選択図】図3

Description

本発明は、音声信号を含む周波数帯域が互いに異なる複数の音声信号間での切り替えを行う音声切替装置、音声切替方法及び音声切替用コンピュータプログラムに関する。
近年、伝送される音声信号が含まれる周波数帯域が異なる複数の通話サービスが提案されている。例えば、Long Term Evolution(LTE)に対応している無線通信システムにおいて、LTEに準拠する通信回線を利用して、Internet Protocol(IP)ネットワーク上で音声信号を伝送することで音声通話を実現するVoice over LTE(VoLTE)が提案されている。VoLTEでは、例えば、伝送される音声信号の帯域が略0Hz〜略8kHzとなっており、3G回線において伝送される音声信号の帯域(略0Hz〜略4kHz)よりも広い。そのため、VoLTEと3Gの両方の音声通信サービスが提供されている携帯電話機では、通信環境の変化などにより、音声通話中に、音声信号の通信方式がVoLTEから3Gへ切り替わることがある。このような場合、受話音声の品質がその切り替わりに伴って変化するので、ユーザは、その切り替わりの際に、受話音声に違和感を覚えることがある。
そこで、通信環境などによって伝送される音声信号の帯域が切り替わる際の音声信号の不連続性を抑制する技術が研究されている(例えば、特許文献1を参照)。
例えば、特許文献1に開示された音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号及び広帯域音声信号が混合された混合信号を出力する。そしてこの音声切替装置は、狭帯域音声信号及び広帯域音声信号の混合比を経時的に変化させる。
国際公開第2006/075663号
しかしながら、特許文献1に記載された技術は、狭帯域音声信号と広帯域音声信号を混合するので、通信方式の切替により、狭帯域音声信号と広帯域音声信号のうちの一方の音声信号しか得られない場合には、この技術は適用できない。
一つの側面では、本発明は、周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる音声切替装置を提供することを目的とする。
一つの態様では、音声切替装置が提供される。この音声切替装置は、第1の周波数帯域を持つ第1の音声信号を受信している間に、第1の音声信号に基づいて第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、受信する音声信号が、第1の音声信号から第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に第1の音声信号が最後に受信された第1の時点以降において背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、第1の時点以降において疑似騒音を第2の音声信号に重畳する重畳部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
一つの側面として、周波数帯域が互いに異なる音声信号間で切り替えが生じる際の違和感を低減できる。
音声信号の通信方式が、通話中に音声信号が含まれる周波数帯域が相対的に広い通信方式から、音声信号が含まれる周波数帯域が相対的に狭い通信方式に切り替わる場合の音声信号が含まれる周波数帯域の変化を示す模式図である。 一つの実施形態による音声切替装置の概略構成図である。 処理部の概略構成図である。 騒音類似度算出処理の動作フローチャートである。 第2の音声信号のパワースペクトルが平坦でないときの騒音類似度の算出に利用されるサブ周波数帯域の一例を示す図である。 騒音類似度と更新係数の関係を示す図である。 周波数と係数η(t)の関係を示す図である。 音声信号の通信方式の切替前後での出力される音声信号を表す模式図である。 音声切替処理の動作フローチャートである。 変形例による、処理部の概略構成図である。
以下、図を参照しつつ、音声切替装置について説明する。
図1は、音声信号の通信方式が、通話中に音声信号が含まれる周波数帯域が相対的に広い通信方式から、音声信号が含まれる周波数帯域が相対的に狭い通信方式に切り替わる場合の音声信号が含まれる周波数帯域の変化を示す模式図である。
図1において、横軸は時間を表し、縦軸は周波数を表す。音声信号101は、相対的に音声信号の伝送帯域が広い第1の通信方式(例えば、VoLTE)が使用されている場合の音声信号を表す。一方、音声信号102は、相対的に音声信号の伝送帯域が狭い第2の通信方式(例えば、3G)が使用されている場合の音声信号を表す。音声信号101は、音声信号102よりも高周波数帯域の成分を含んでいる。そのため、通話中に適用される通信方式が第1の通信方式から第2の通信方式に切り替わると、その切替後において、音声信号101には含まれるが、音声信号102には含まれない高周波数帯域の成分103が欠落したように通話中のユーザには感じられる。また、通信方式の切替処理に伴い、音声信号101の再生が終了してから音声信号102の再生が開始されるまでの間に、音声信号が受信されない無音期間104が生じる。このような一部の周波数帯域の成分の欠落または無音期間の存在は、ユーザに対して、再生された受話音声に違和感を感じさせることがある。
そこで、本実施形態による音声切替装置は、相対的に音声信号の伝送帯域が広い第1の通信方式で通話がなされている間に得られた音声信号に基づいて背景騒音を学習する。そしてこの音声切替装置は、通話中に、第1の通信方式から相対的に音声信号の伝送帯域が狭い第2の通信方式に切り替わった際に、学習した背景騒音に基づいて疑似騒音を生成し、その疑似騒音を、切替直後の無音期間及び欠落した周波数帯域に重畳する。さらに、この音声切替装置は、切替後の第2の通信方式で受信した音声信号と背景騒音間の類似度を求め、類似度が高いほど、疑似騒音を重畳する期間を長くする。これにより、この音声切替装置は、音声信号の切り替えに伴うユーザの違和感を軽減する。
図2は、一つの実施形態による音声切替装置の概略構成図である。この例では、音声切替装置1は、携帯電話機として実装される。そして音声切替装置1は、集音部2と、アナログ/デジタル変換部3と、通信部4と、ユーザインターフェース部5と、記憶部6と、処理部7と、出力部8と、記憶媒体アクセス装置9とを有する。なお、この音声切替装置は、音声信号が含まれる周波数帯域が異なる複数の通信方式を利用でき、かつ、通話中に通信方式の切替が可能な様々な通信装置に適用できる。
集音部2は、例えば、マイクロホンを有し、集音部2の周囲の空間を伝搬する音声を集音し、その音声の音圧に応じた強度を持つアナログ音声信号を生成する。そして集音部2は、生成したアナログ音声信号をアナログ/デジタル変換部(以下、A/D変換部と呼ぶ)3へ出力する。
A/D変換部3は、例えば、アンプと、アナログ/デジタル変換器とを有する。A/D変換部3は、集音部2から受け取ったアナログ音声信号をアンプにより増幅する。そしてA/D変換部3は、その増幅されたアナログ音声信号をアナログ/デジタル変換器により所定のサンプリング周期(例えば、8kHz)でサンプリングすることにより、デジタル化された音声信号を生成する。
通信部4は、集音部2により生成され、処理部7により符号化された音声信号を他の機器へ送信する。また通信部4は、他の機器から受信した信号に含まれる音声信号を取り出して処理部7へ出力する。そのために、通信部4は、例えば、ベースバンド処理部(図示せず)と、無線処理部(図示せず)と、アンテナ(図示せず)とを有する。通信部4のベースバンド処理部は、処理部7により符号化された音声信号を、通信部4が準拠する無線通信規格に準拠した変調方式に従って変調してアップリンク信号を生成する。通信部4の無線処理部は、そのアップリンク信号を無線周波数を持つ搬送波に重畳する。そしてそのアップリンク信号は、アンテナを介して他の機器へ送信される。また通信部4の無線処理部は、アンテナを介して他の機器から音声信号を含むダウンリンク信号を受信し、そのダウンリンク信号をベースバンド周波数を持つ信号に変換して、ベースバンド処理部へ出力する。ベースバンド処理部は、無線処理部から受け取った信号を復調して、その信号に含まれる音声信号などの各種の信号または情報を取り出して、処理部7へ渡す。その際、ベースバンド処理部は、処理部7から指示された制御信号に従って、通信方式を選択し、選択された通信方式に従って信号を復調する。
ユーザインターフェース部5は、例えば、タッチパネルを有する。そしてユーザインターフェース部5は、ユーザによる操作に応じた操作信号、例えば、通話の開始を指示する信号を生成し、その操作信号を処理部7へ出力する。またユーザインターフェース部5は、処理部7から受け取った表示用の信号に従って、アイコン、画像またはテキストなどを表示する。なお、ユーザインターフェース部5は、操作信号入力用の複数の操作ボタンと、液晶ディスプレイといった表示装置とを別個に有していてもよい。
記憶部6は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部6は、音声切替装置1で用いられる各種コンピュータプログラム及び各種のデータを記憶する。また記憶部6は、音声切替処理で用いられる各種の情報を記憶する。
処理部7は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部7は、音声切替装置1全体を制御する。
処理部7は、音声切替装置1が有するユーザインターフェース部5を介したユーザの操作により、例えば、通話が開始されると、呼び出し、応答、切断などの呼制御処理を実行する。
また処理部7は、集音部2により生成された音声信号を高能率符号化し、さらに、通信路符号化して、その符号化された音声信号を通信部4を介して出力する。また処理部7は、通信環境などに応じて、音声信号の通信に利用する通信方式を選択し、選択した通信方式に従って音声信号を通信するように通信部4を制御する。そして処理部7は、選択された通信方式に従って、通信部4を介して他の機器から受け取った、符号化された音声信号を復号し、その復号した音声信号を出力部8へ出力する。また処理部7は、適用する通信方式を、音声信号を含む周波数帯域が相対的に広い第1の通信方式(例えば、VoLTE)から音声信号を含む周波数帯域が相対的に狭い第2の通信方式(例えば、3G)への切り替えに伴う音声切替処理を実行する。処理部7は、音声切替処理を実行している間、その音声切替処理を実行する各部に、復号した音声信号を渡す。また処理部7は、切り替え前の通信方式に従って受信した音声信号が終了してから、切り替え後の通信方式に従って音声信号の受信を開始するまでの間、無音となる音声信号を音声切替処理を実行する各部に渡す。
なお、処理部7による音声切替処理の詳細については後述する。
出力部8は、例えば、処理部7から受け取った音声信号をアナログ化するためのデジタル/アナログ変換器とスピーカとを有し、処理部7から受け取った音声信号を音波として再生する。
記憶媒体アクセス装置9は、例えば、半導体メモリカードといった記憶媒体9aにアクセスする装置である。記憶媒体アクセス装置9は、例えば、記憶媒体9aに記憶された処理部7上で実行されるコンピュータプログラムを読み込み、処理部7に渡す。
以下、処理部7による音声切替処理の詳細について説明する。
図3は、処理部7の概略構成図である。処理部7は、学習部11と、無音区間検出部12と、類似度算出部13と、疑似騒音生成部14と、重畳部15とを有する。
処理部7が有するこれらの各部は、例えば、処理部7が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部7が有するこれらの各部は、処理部7が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声切替装置1に実装されてもよい。
また、処理部7が有するこれらの各部のうち、学習部11は、音声切替装置1が第1の通信方式に従って他の機器から音声信号を受信している間に適用される。一方、無音区間検出部12、類似度算出部13、疑似騒音生成部14及び重畳部15は、第1の通信方式から第2の通信方式への切り替えの途中、あるいは、その切り替えが完了して第2の通信方式に従った音声信号の受信を開始してから一定期間の間に適用される。
なお、以下では、説明の便宜上、音声信号が含まれる周波数帯域が相対的に広い第1の通信方式で受信した音声信号を第1の音声信号と呼ぶ。また、音声信号が含まれる周波数帯域が相対的に狭い第2の通信方式で受信した音声信号を第2の音声信号と呼ぶ。さらに、第1の音声信号が含まれる周波数帯域を第1の周波数帯域と呼び、一方、第2の音声信号が含まれる周波数帯域を第2の周波数帯域と呼ぶ。すなわち、第1の周波数帯域(例えば、略0kHz〜略8kHz)は、第2の周波数帯域(例えば、略0kHz〜略4kHz)よりも広い。
学習部11は、第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する。背景騒音モデルは、第2の音声信号に重畳する疑似騒音の生成に利用される。そのために、学習部11は、第1の音声信号を所定の時間長(例えば、数10msec)を持つフレーム単位に分割する。そして学習部11は、現フレームのパワーP(t)を算出し、そのパワーP(t)を所定の閾値Th1と比較する。パワーP(t)が閾値Th1未満となる場合、そのフレームには、通話相手の声が含まれず、背景騒音のみが含まれていると推定される。なお、Th1は、例えば、6dBに設定される。この場合、学習部11は、現フレームの第1の音声信号を時間周波数変換することにより、周波数領域の信号である第1の周波数信号を算出する。学習部11は、例えば、時間周波数変換として、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)を利用できる。第1の周波数信号には、例えば、フレームに含まれるサンプリング点の総数の1/2個の周波数のスペクトルが含まれる。
学習部11は、現フレームの第1の周波数信号のパワースペクトルを、例えば、次式に従って算出する。
Figure 2016038513
ここでRe(i,t)は、現フレームtにおける、第1の周波数信号のi番目のサンプル点が表す周波数のスペクトルの実部を表す。またIm(i,t)は、現フレームtにおける、第1の周波数信号のi番目のサンプル点が表す周波数のスペクトルの虚部を表す。そしてP(i,t)は、現フレームtにおける、i番目のサンプル点が表す周波数のパワースペクトルである。
そして学習部11は、次式に従って、忘却係数を用いて現フレームのパワースペクトルを背景騒音モデルのパワースペクトルに加重加算することで背景騒音モデルを学習する。
Figure 2016038513
ここでPN(i,t)及びPN(i,t-1)は、それぞれ、現フレームt及び一つ前のフレーム(t-1)における背景騒音モデルにおける、i番目のサンプル点が表すパワースペクトルである。そして係数αは、忘却係数であり、例えば、0.99に設定される。
一方、学習部11は、現フレームのパワーP(t)が閾値Th1以上である場合、現フレームには、背景騒音以外の音声、例えば、通話相手の話者の声が含まれる区間である発声区間であると推定される。そこでこの場合、学習部11は、背景騒音モデルPN(i,t)を更新せず、一つ前のフレーム(t-1)についての背景騒音モデルPN(i,t-1)と同一とする。あるいは、学習部11は、(2)における忘却係数αを、パワーP(t)が閾値Th1未満である場合よりも大きくして(例えば、α=0.999)、(1)式及び(2)式に従って背景騒音モデルを更新してもよい。
変形例として、学習部11は、パワーP(t)を、一つ前のフレームにおける、背景騒音モデルの全帯域のパワーPNave(=ΣPN(i,t-1))からオフセットTh2を減じた値(PNave-Th2)と比較してもよい。なお、Th2は、例えば、3dBに設定される。この場合、パワーP(t)が(PNave-Th2)未満となる場合、学習部11は、(1)式及び(2)式に従って背景騒音モデルを更新すればよい。
学習部11は、最新の背景騒音モデル、すなわち、現フレームについて学習された背景騒音モデルPN(i,t)を記憶部6に保存する。
無音区間検出部12は、第1の通信方式に従って最後に音声信号を受信した時点以降において、音声切替処理が実行されている間、第2の音声信号の受信が開始されていない区間である無音区間を検出する。
そのために、無音区間検出部12は、処理部7から受け取った音声信号を所定の時間長(例えば、数10msec)を持つフレーム単位に分割する。そして無音区間検出部12は、現フレームのパワーP(t)を算出し、そのパワーP(t)を所定の閾値Th3と比較する。パワーP(t)が閾値Th3未満となる場合、現フレームは無音区間であると判定する。なお、Th3は、例えば、6dBに設定される。一方、パワーP(t)が閾値Th3以上である場合、無音区間検出部12は、現フレームは無音区間でないと判定する。
無音区間検出部12は、各フレームについて、無音区間か否かの判定結果を類似度算出部13及び疑似騒音生成部14へ通知する。
類似度算出部13は、第1の通信方式に従って最後に音声信号を受信した時点以降、かつ、音声切替処理が実行されている間において、現フレームが無音区間でない場合、現フレームに含まれる第2の音声信号と背景騒音モデル間の類似度を算出する。この類似度は、疑似騒音を第2の音声信号に重畳する期間の設定に利用される。第2の音声信号と背景騒音モデル間の類似度が高いほど、第2の音声信号に背景騒音モデルから生成される疑似騒音を重畳して得られる音声に対するユーザの違和感は少ないと想定される。そこで、この類似度が高いほど、疑似騒音が重畳される期間は長く設定される。なお、以下では、便宜上、第2の音声信号と背景騒音モデル間の類似度を騒音類似度と呼ぶ。
図4は、類似度算出部13による騒音類似度算出処理の動作フローチャートである。類似度算出部13は、フレームごとにこの動作フローチャートに従って騒音類似度を算出する。
類似度算出部13は、現フレームtにおける第2の音声信号の各周波数のパワースペクトルP2(i,t)を算出する(ステップS101)。そのために、類似度算出部13は、現フレームについて、第2の音声信号に対して時間周波数変換を実行して第2の周波数信号を算出し、その第2の周波数信号に対して(1)式を適用することで、パワースペクトルP2(i,t)を算出できる。そして類似度算出部13は、パワースペクトルの周波数帯域全体にわたる平坦度合いを表す平坦度Fを算出する(ステップS102)。なお、平坦度Fは、例えば、次式に従って算出される。
Figure 2016038513
ここでMAX(P2(i,t))は、周波数帯域全体にわたるパワースペクトルのうちの最大値を出力する関数であり、MIN(P2(i,t))は、周波数帯域全体にわたるパワースペクトルのうちの最小値を出力する関数である。(3)式から明らかなように、この場合、平坦度Fの値が小さいほど、パワースペクトルP2(i,t)は平坦となり、周波数ごとのパワースペクトルの値の差が小さい。なお、類似度算出部13は、関数の平坦度合いを求める他の式に従って、平坦度Fを算出してもよい。
類似度算出部13は、平坦度Fが所定の閾値Th4以上か否か判定する(ステップS103)。なお、閾値Th4は、例えば、6dBに設定される。平坦度Fが閾値Th4以上である場合(ステップS103−Yes)、現フレームには、背景騒音以外の音の成分も含まれている可能性が有る。そこで類似度算出部13は、パワースペクトルP2(i,t)の値が極小値となる周波数を含むサブ周波数帯域について、パワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の騒音類似度SD(t)を算出する(ステップS104)。パワースペクトルP2(i,t)の値が極小値となる周波数及びその近傍の周波数では、背景騒音以外の音の成分が含まれている可能性が低いためである。なお、サブ周波数帯域は、第2の周波数帯域よりも狭く、パワースペクトルP2(i,t)の値が極小値となる周波数に相当するサンプリング点をi0とすると、例えば、(i0±3)に相当する周波数帯域とすることができる。
例えば、類似度算出部13は、以下の条件を満たす、i番目のサンプリング点に相当する周波数について、パワースペクトルP2(i,t)の値が極小値となると判定する。
Figure 2016038513
ここで、パワースペクトルの局所的平均値Pave(i,t)の算出に利用される周波数帯域の幅を表す変数N2は、例えば、5に設定される。また閾値Thaveは、例えば、5dBに設定される。
類似度算出部13は、(4)式の条件を満たす周波数を全て抽出する。
図5は、第2の音声信号のパワースペクトルが平坦でないときの騒音類似度SD(t)の算出に利用されるサブ周波数帯域の一例を示す図である。図5において、横軸は周波数を表し、縦軸はパワーを表す。この例では、周波数ごとのパワースペクトル500は、周波数f1及び周波数f2において極小値を持つ。そこで、周波数f1及び周波数f2をそれぞれ中心とする、サブ周波数帯域501及びサブ周波数帯域502が、騒音類似度SD(t)の算出に利用される。
類似度算出部13は、次式に従って、パワースペクトルP2(i,t)が極小値となる周波数を含むサブ周波数帯域に含まれる周波数ごとのパワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の差の平均二乗誤差(root mean squared error)を算出する。そして類似度算出部13は、その平均二乗誤差を騒音類似度SD(t)とする。
Figure 2016038513
なお、Nは、(4)式に従って抽出された、パワースペクトルP2(i,t)が極小値となる周波数を含む1以上のサブ周波数帯域に含まれる各周波数に相当するサンプリング点の数である。jは、パワースペクトルP2(i,t)が極小値となる周波数を含む1以上のサブ周波数帯域に含まれる何れかの周波数に対応するサンプリング点である。そしてt0は、背景騒音モデルが最後に更新されたフレームを表す。
また、ステップS103にて、平坦度Fが閾値Th4未満である場合(ステップS103−No)、現フレームには、背景騒音以外の音の成分が含まれている可能性は低い。そこで類似度算出部13は、次式に従って、第2の音声信号が含まれる周波数帯域全体にわたって周波数ごとのパワースペクトルP2(i,t)と背景騒音モデルPN(i,t)間の差の平均二乗誤差を算出する。そして類似度算出部13は、その平均二乗誤差を騒音類似度SD(t)とする(ステップS105)。
Figure 2016038513
なお、Lmaxは、第2の音声信号が含まれる第2の周波数帯域の上限周波数に相当する、サンプリング点の番号である。
(5)式及び(6)式から明らかなように、騒音類似度SD(t)の値が小さいほど、第2の音声信号と背景騒音モデル間の類似度は高くなる。なお、第2の音声信号と背景騒音モデル間の類似度の算出式は、(5)式及び(6)式に限られない。例えば、その類似度の算出式として、(5)式または(6)式の右辺の逆数が用いられてもよい。
類似度算出部13は、騒音類似度SD(t)を算出する度に、騒音類似度SD(t)を疑似騒音生成部14へ通知する。
疑似騒音生成部14は、類似度SD(t)及び背景騒音モデルに基づいて、第2の音声信号に重畳する疑似騒音を生成する。
現フレームが無音区間である場合、疑似騒音生成部14は、第2の周波数帯域の下限周波数から、疑似騒音の上限周波数fmax(t)までの周波数帯域について疑似騒音を生成する。本実施形態では、第2の音声信号が含まれる第2の周波数帯域を、第1の音声信号が含まれる第1の周波数帯域と比較すると、図1に示されるように、第2の周波数帯域の上限周波数よりも第1の周波数帯域の上限周波数の方が高い。そこで、疑似騒音の上限周波数fmax(t)は、第2の周波数帯域の上限周波数よりも高く、かつ、第1の周波数帯域の上限周波数以下に設定される。
一方、現フレームが無音区間でない場合、疑似騒音生成部14は、疑似騒音の上限周波数fmax(t)と第2の周波数帯域の上限周波数間の周波数帯域について疑似騒音を生成する。
また、疑似騒音生成部14は、第1の通信方式による第1の音声信号の受信が終了した時点からの経過時間に応じて、疑似騒音の上限周波数fmax(t)を低下させる。例えば、疑似騒音生成部14は、次式に従って、一つ前のフレーム(t-1)の上限周波数fmax(t-1)と現フレームtの騒音類似度SD(t)に従って現フレームの上限周波数fmax(t)を決定する。なお、上限周波数fmax(t)の初期値は、第1の周波数帯域の上限周波数(例えば、8kHz)とすることができる。
Figure 2016038513
なお、閾値ThSDは、例えば、5dBに設定される。また係数γ(t)は、疑似騒音の上限周波数fmax(t)の更新に利用される更新係数である。
図6は、騒音類似度SD(t)と更新係数γ(t)の関係を示す図である。図6において、横軸は騒音類似度SD(t)を表し、縦軸は更新係数γ(t)を表す。そしてグラフ600は、騒音類似度SD(t)と更新係数γ(t)の関係を表す。
図6及び(7)式から明らかなように、現フレームの騒音類似度SD(t)が小さいほど、すなわち、現フレームの第2の音声信号のパワースペクトルと背景騒音モデルが似ているほど、更新係数γ(t)が大きくなる。そのため、上限周波数fmax(t)の低下速度は緩やかになる。
疑似騒音の上限周波数fmax(t)が所定の閾値fth以下となると、疑似騒音生成部14は、疑似騒音の生成を停止する。なお、閾値fthは、例えば、第2の周波数帯域の上限周波数(例えば、4kHz)とすることができる。
なお、現フレームが無音区間である場合、疑似騒音生成部14は、上限周波数fmax(t)を更新しない(すなわち、fmax(t)=fmax(t-1))。
また、疑似騒音生成部14は、次式に従って、背景騒音モデルが含まれる周波数帯域、すなわち、第1の周波数帯域全体にわたって背景騒音モデルから疑似騒音の周波数スペクトルを生成する。
Figure 2016038513
ここで、RANDは、0〜2πの間の値を持つ乱数であり、例えば、処理部7が有する乱数発生器、あるいは、処理部7で実行される、乱数発生用アルゴリズムに従って、フレームごとに生成される。そしてPNRE(i,t)は、現フレームtにおける疑似騒音のi番目のサンプリング点に相当する周波数のスペクトルの実部を表し、PNIM(i,t)は、現フレームtにおける疑似騒音のi番目のサンプリング点に相当する周波数のスペクトルの実部を表す。(8)式に示されるように、疑似騒音の各周波数の振幅は、背景騒音モデルにおける対応する周波数の振幅と同じとなるように疑似騒音は生成される。これにより、第1の音声信号が受信しているときの背景騒音の周波数特性と似た周波数特性を持つ疑似騒音が生成されるので、ユーザは、受信音声が第1の音声信号から第2の音声信号に切り替わったことに気付き難くなる。
また、疑似騒音の各周波数の位相は、背景騒音モデルにおける対応する周波数の位相と無相関となるように疑似騒音は生成される。そのため、疑似騒音はより自然な騒音となる。
現フレームが無音区間でない場合、(8)式に従って生成する疑似騒音の下限周波数は、第2の音声信号の上限周波数に相当するサンプリング点Lmaxの次のサンプリング点(Lmax+1)に相当する周波数とすることができる。
疑似騒音生成部14は、次式に従って、疑似騒音の各周波数のスペクトルを、上限周波数fmax(t)に基づいて定められる係数η(i)で補正することで、(8)式に従って生成した疑似騒音から上限周波数fmax(t)よりも高周波のスペクトルを除去する。
Figure 2016038513
ここで、Δfは、疑似騒音を減衰させる周波数帯域の幅であり、例えば、300Hzである。またΔbは、一つのサンプリング点に対応する周波数帯域の幅である。そしてfは、i番目のサンプリング点に対応する周波数である。
図7は、周波数と係数η(t)の関係を示す図である。図7において、横軸は周波数を表し、縦軸は係数η(t)を表す。そしてグラフ700は、周波数と係数η(t)の関係を表す。
(9)式及び図7から明らかなように、周波数(fmax(t)-Δf)よりも周波数が高くなるにつれて、疑似騒音のその周波数のスペクトルも小さくなる。そして上限周波数fmax(t)よりも高い周波数では、疑似騒音のスペクトルは0となる。
疑似騒音生成部14は、フレームごとに得られた疑似騒音の各周波数のスペクトルに対して周波数時間変換を適用することで時間領域の信号である疑似騒音に変換する。なお、疑似騒音生成部14は、周波数時間変換として、逆FFTまたは逆MDCTを利用できる。そして疑似騒音生成部14は、フレームごとに、疑似騒音を重畳部15へ出力する。
重畳部15は、疑似騒音が生成されたフレームごとに、第2の音声信号に、その疑似騒音を重畳する。そして重畳部15は、疑似騒音が重畳されたフレームを、順次出力部8へ出力する。なお、疑似騒音の上限周波数fmax(t)が所定の周波数fth以下となると、疑似騒音が生成されなくなるので、重畳部15は、疑似騒音の第2の音声信号への重畳を停止する。このように、疑似騒音の上限周波数fmax(t)がfth以下となるまで低下したところで第2の音声信号への疑似騒音の重畳を停止することで、音声切替装置1は、第1の音声信号から第2の音声信号へ切り替わったことをユーザに気付かれ難くできる。またこのように、疑似騒音の重畳をある程度の期間が経過した時点で停止することで、音声切替装置1は、疑似騒音の生成及び重畳による処理負荷を軽減できる。
図8は、音声信号の通信方式の切替前後での出力される音声信号を表す模式図である。図8において、横軸は時間を表し、縦軸は周波数を表す。第1の音声信号801の受信が終了した後の無音区間802、及び、第2の音声信号803の受信が開始されてからの一定期間に、疑似騒音804が重畳されている。無音区間802では、疑似騒音804が含まれる周波数帯域は、第1の音声信号801が含まれる周波数帯域と同一である。そして第2の音声信号803の受信が開始されてから、疑似騒音804の上限周波数fmax(t)は徐々に低下し、その上限周波数fmax(t)と第2の音声信号803の上限周波数が一致した時点で、疑似騒音の重畳が終了する。また、背景騒音モデルと第2の音声信号間の類似度が高いほど、例えば、点線805で示されるように、第2の音声信号803に疑似騒音804が重畳される期間が長くなる。
図9は、処理部7により実行される音声切替処理の動作フローチャートである。処理部7は、フレーム単位でこの動作フローチャートに従って音声切替処理を実行する。
処理部7は、音声切替処理が実行中か否かを表すフラグpFlagが、音声切替処理の実行中であることを表す値'1'であるか否か判定する(ステップS201)。フラグpFlagの値が、音声切替処理が終了したことを表す'0'であれば(ステップS201−No)、処理部7は、音声切替処理を終了する。なお、処理部7は、音声信号の伝送に適用される通信方式が第2の通信方式から第1の通信方式に切り替わるか、第1の通信方式を利用して通話が開始されたときに、pFlagの値を'1'に書き換える。
一方、フラグpFlagの値が'1'であれば(ステップS201−Yes)、処理部7は、現フレームの音声信号が、相対的に狭い伝送帯域を持つ第2の音声信号か否か判定する(ステップS202)。なお、処理部7は、現時点で適用されている通信方式を参照することで、現在受信中の音声信号が第2の音声信号か否かを判定できる。
現フレームの音声信号が相対的に広い伝送帯域を持つ第1の音声信号である場合(ステップS202−No)、処理部7の学習部11は、現フレームが発声区間か否か判定する(ステップS203)。現フレームが発声区間でない場合(ステップS203−No)、学習部11は、現フレームの各周波数のパワースペクトルに基づいて、背景騒音モデルを学習する(ステップS204)。ステップS204、またはステップS203にて現フレームが発声区間である場合(ステップS203−Yes)、処理部7は、次フレームについてステップS201以降の処理を実行する。
一方、ステップS202において、現フレームの音声信号が第2の音声信号である場合(ステップS202−Yes)、処理部7の無音区間検出部12は、現フレームが無音区間か否か判定する(ステップS205)。現フレームが無音区間でない場合(ステップS205−No)、処理部7の類似度算出部13は、背景騒音モデルと現フレームの第2の音声信号間の騒音類似度を算出する(ステップS206)。そして処理部7の疑似騒音生成部14は、騒音類似度に基づいて、疑似騒音の上限周波数fmax(t)を更新する(ステップS207)。そして疑似騒音生成部14は、fmax(t)が閾値fthより高いか否か判定する(ステップS208)。
fmax(t)がfth以下となる場合(ステップS208−No)、もはや疑似騒音を第2の音声信号に重畳する必要性が無い。そこで疑似騒音生成部14は、pFlagの値を'0'に書き換える(ステップS211)。
一方、fmax(t)がfthよりも高い場合(ステップS208−Yes)、疑似騒音生成部14は、fmax(t)以下の周波数帯域で、背景騒音モデルに基づいて疑似騒音を生成する(ステップS209)。また、ステップS205において、現フレームが無音区間であると判定された場合も(ステップS205−Yes)、疑似騒音生成部14は疑似騒音を生成する。そして処理部7の重畳部15は、疑似騒音を現フレームの第2の音声信号に重畳する(ステップS210)。そして処理部7は、疑似騒音が重畳された第2の音声信号を出力部8へ出力する。
ステップS210またはS211の後、処理部7は、次フレームについてステップS201以降の処理を実行する。
以上に説明してきたように、この音声切替装置は、音声信号が含まれる周波数帯域が相対的に広い第1の通信方式で通話がなされている間に得られた第1の音声信号に基づいて背景騒音モデルを学習する。この音声切替装置は、通話中に、第1の通信方式から音声信号が含まれる周波数帯域が相対的に狭い第2の通信方式に切り替わった際に、学習した背景騒音モデルに基づいて疑似騒音を生成する。そしてこの音声切替装置は、その疑似騒音を、切替直後の無音区間及び第2の通信方式で得られた第2の音声信号に重畳する。さらに、この音声切替装置は、切替後の第2の音声信号と背景騒音間の類似度に応じて疑似騒音を重畳する期間を調節する。これにより、この音声切替装置は、通信方式の切り替えに伴う音質の変化によるユーザの違和感を軽減することができる。
なお、変形例によれば、処理部7は、受信したダウンリンク信号から取り出された音声信号に基づいて、第1の音声信号から第2の音声信号に切り替わったか否かを判定してもよい。
図10は、この変形例による、処理部71の概略構成図である。処理部71は、学習部11と、無音区間検出部12と、類似度算出部13と、疑似騒音生成部14と、重畳部15と、帯域切替判定部16とを有する。
処理部71が有するこれらの各部は、例えば、処理部71が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部71が有するこれらの各部は、処理部71が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声切替装置1に実装されてもよい。
この変形例による処理部71は、上記の実施形態による処理部7と比較して、帯域切替判定部16を有する点で相違する。そこで以下では、帯域切替判定部16及びその関連部分について説明する。
帯域切替判定部16は、フレームごとに、受信した音声信号を時間周波数変換して、周波数ごとのパワースペクトルを算出する。そして帯域切替判定部16は、次式に従って、そのパワースペクトルから、第2の周波数帯域のパワーL(t)と、第1の周波数帯域から第2の周波数帯域を除いた周波数帯域のパワーH(t)を算出する。
Figure 2016038513
ここで、Lmaxは、第2の周波数帯域の上限周波数に相当するサンプリング点の番号である。またHmaxは、第1の周波数帯域の上限周波数に相当するサンプリング点の番号である。
帯域切替判定部16は、パワーL(t)からパワーH(t)を減じて得られるパワー差Pdiff(t)を所定のパワー閾値ThBと比較する。そして帯域切替判定部16は、パワー差Pdiff(t)がパワー閾値ThBよりも大きい場合、受信している音声信号は第2の音声信号であると判定する。なお、パワー閾値ThBは、例えば、10dBに設定される。一方、帯域切替判定部16は、パワー差Pdiff(t)がパワー閾値ThB以下である場合、受信している音声信号は第1の音声信号であると判定する。そして帯域切替判定部16は、一つ前のフレームにおいて、第1の音声信号を受信したと判定し、現フレームにおいて、第2の音声信号を受信したと判定した場合、受信する音声信号が第1の音声信号から第2の音声信号に切り替わったと判定する。そして帯域切替判定部16は、その旨を処理部71の各部に通知する。
学習部11は、受信する音声信号が第1の音声信号から第2の音声信号に切り替わったことを通知されると、背景騒音モデルの更新を停止する。また、類似度算出部13は、受信する音声信号が第1の音声信号から第2の音声信号に切り替わったことを通知されると、それ以降の各フレームについて、音声切替処理の実行中、騒音類似度を算出する。また疑似騒音生成部14は、受信する音声信号が第1の音声信号から第2の音声信号に切り替わったことを通知されると、それ以降の各フレームについて、疑似騒音を生成する。
この変形例によれば、音声切替装置は、音声信号の伝送に利用される通信方式が切り替わったことを検知できなくても、受信した音声信号に基づいて、その音声信号が第1の音声信号から第2の音声信号に切り替わったことを検知できる。そのため、この音声切替装置は、第2の音声信号への疑似騒音の重畳を開始するタイミングを適切に決定できる。さらにこの音声切替装置は、受信した音声信号そのものに基づいて音声信号の切替のタイミングを特定できるので、通信装置から音声信号だけを受け取って、その音声信号をスピーカにより再生する装置にも適用できる。
さらに他の変形例によれば、疑似騒音が第2の音声信号に重畳される期間は、予め設定されてもよい。例えば、疑似騒音が第2の音声信号に重畳される期間は、第1の通信方式による第1の音声信号の受信が終了した時点から、1〜5秒間とすることができる。この場合、疑似騒音生成部14は、第1の通信方式による第1の音声信号の受信が終了した時点からの経過時間が長くなるほど、疑似騒音を弱くしてもよい。
この変形例によれば、類似度算出部13は省略されてもよい。そのため、処理部は、音声切替処理を簡単化できる。
さらに、上記の各実施形態または変形例による音声切替装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、
受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、
前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する重畳部と、
を有する音声切替装置。
(付記2)
前記第1の時点以後において、前記第2の音声信号の受信を開始していない無音区間を検出する無音区間検出部をさらに有し、
前記疑似騒音生成部は、前記無音区間において、前記疑似騒音を前記第1の周波数帯域全体にわたって生成し、
前記重畳部は、前記無音区間に前記第1の周波数帯域全体にわたって生成された前記疑似騒音を重畳する、付記1に記載の音声切替装置。
(付記3)
前記疑似騒音生成部は、前記第1の時点以降の前記無音区間に含まれない区間において、前記第2の周波数帯域の上限周波数より高く、かつ、前記第1の周波数帯域の上限周波数以下となる前記疑似騒音の上限周波数から前記第2の周波数帯域の上限周波数の間の周波数帯域において前記疑似騒音を生成する、付記1または2に記載の音声切替装置。
(付記4)
前記疑似騒音生成部は、前記疑似騒音の上限周波数を、前記第1の時点以降において前記無音区間を除いた経過時間が長くなるほど低下させる、付記3に記載の音声切替装置。
(付記5)
前記重畳部は、前記疑似騒音の前記上限周波数が前記第2の周波数帯域の前記上限周波数以下となると前記第2の音声信号へ前記疑似騒音の重畳を停止する、付記4に記載の音声切替装置。
(付記6)
前記第1の時点以降の前記無音区間以外の区間において、前記背景騒音モデルと前記第2の音声信号間の類似度合いを表す類似度を算出する類似度算出部をさらに有し、
前記疑似騒音生成部は、前記類似度が高いほど前記疑似騒音の前記上限周波数の低下を緩やかにする、付記4または5に記載の音声切替装置。
(付記7)
前記類似度算出部は、前記第2の音声信号を所定の時間長を持つフレーム単位に分割し、前記フレームごとに前記第2の音声信号を時間周波数変換して周波数ごとのパワースペクトルを算出し、前記フレームごとに、前記パワースペクトルの前記第2の周波数帯域にわたる平坦度合いを表す平坦度を算出し、前記平坦度が所定の閾値以上の場合には前記第2の周波数帯域全体にわたって各周波数の前記第2の音声信号と前記背景騒音モデル間のパワースペクトルの誤差を求めることで前記類似度を算出し、一方、前記平坦度が前記所定の閾値未満の場合には、前記パワースペクトルが極小値となる周波数を含む、前記第2の周波数帯域よりも狭いサブ周波数帯域に含まれる各周波数の前記第2の音声信号と前記背景騒音モデル間のパワースペクトルの誤差を求めることで前記類似度を算出する、付記6に記載の音声切替装置。
(付記8)
前記背景騒音モデルは、周波数ごとの振幅を含み、
前記疑似騒音生成部は、前記疑似騒音の各周波数の振幅を、前記背景騒音モデルの対応する周波数の振幅に応じて決定する、付記1〜7の何れかに記載の音声切替装置。
(付記9)
前記疑似騒音生成部は、前記第1の時点以降の所定期間にわたって前記疑似騒音を生成し、かつ、前記第1の時点からの経過時間が長くなるほど前記疑似騒音を弱くする、付記1に記載の音声切替装置。
(付記10)
第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する、
ことを含む音声切替方法。
(付記11)
第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する、
ことをコンピュータに実行させるための音声切替用コンピュータプログラム。
1 音声切替装置
2 集音部
3 アナログ/デジタル変換部
4 通信部
5 ユーザインターフェース部
6 記憶部
7、71 処理部
8 出力部
9 記憶媒体アクセス装置
9a 記憶媒体
11 学習部
12 無音区間検出部
13 類似度算出部
14 疑似騒音生成部
15 重畳部
16 帯域切替判定部

Claims (8)

  1. 第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習する学習部と、
    受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成する疑似騒音生成部と、
    前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する重畳部と、
    を有する音声切替装置。
  2. 前記第1の時点以後において、前記第2の音声信号の受信を開始していない無音区間を検出する無音区間検出部をさらに有し、
    前記疑似騒音生成部は、前記無音区間において、前記疑似騒音を前記第1の周波数帯域全体にわたって生成し、
    前記重畳部は、前記無音区間に前記第1の周波数帯域全体にわたって生成された前記疑似騒音を重畳する、請求項1に記載の音声切替装置。
  3. 前記疑似騒音生成部は、前記第1の時点以降の前記無音区間に含まれない区間において、前記第2の周波数帯域の上限周波数より高く、かつ、前記第1の周波数帯域の上限周波数以下となる前記疑似騒音の上限周波数から前記第2の周波数帯域の上限周波数の間の周波数帯域において前記疑似騒音を生成する、請求項1または2に記載の音声切替装置。
  4. 前記疑似騒音生成部は、前記疑似騒音の上限周波数を、前記第1の時点以降において前記無音区間を除いた経過時間が長くなるほど低下させる、請求項3に記載の音声切替装置。
  5. 前記重畳部は、前記疑似騒音の前記上限周波数が前記第2の周波数帯域の前記上限周波数以下となると前記第2の音声信号へ前記疑似騒音の重畳を停止する、請求項4に記載の音声切替装置。
  6. 前記背景騒音モデルは、周波数ごとの振幅を含み、
    前記疑似騒音生成部は、前記疑似騒音の各周波数の振幅を、前記背景騒音モデルの対応する周波数の振幅に応じて決定する、請求項1〜5の何れか一項に記載の音声切替装置。
  7. 第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
    受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
    前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する、
    ことを含む音声切替方法。
  8. 第1の周波数帯域を持つ第1の音声信号を受信している間に、前記第1の音声信号に基づいて当該第1の音声信号に含まれる背景騒音を表す背景騒音モデルを学習し、
    受信する音声信号が、前記第1の音声信号から前記第1の周波数帯域よりも狭い第2の周波数帯域を持つ第2の音声信号に切り替わる際に前記第1の音声信号が最後に受信された第1の時点以降において前記背景騒音モデルに基づいて疑似的に騒音を表す疑似騒音を生成し、
    前記第1の時点以降において前記疑似騒音を前記第2の音声信号に重畳する、
    ことをコンピュータに実行させるための音声切替用コンピュータプログラム。
JP2014163023A 2014-08-08 2014-08-08 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム Pending JP2016038513A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014163023A JP2016038513A (ja) 2014-08-08 2014-08-08 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
EP15175516.2A EP2993666B1 (en) 2014-08-08 2015-07-06 Voice switching device, voice switching method, and computer program for switching between voices
US14/800,107 US9679577B2 (en) 2014-08-08 2015-07-15 Voice switching device, voice switching method, and non-transitory computer-readable recording medium having stored therein a program for switching between voices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014163023A JP2016038513A (ja) 2014-08-08 2014-08-08 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2016038513A true JP2016038513A (ja) 2016-03-22

Family

ID=53540636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014163023A Pending JP2016038513A (ja) 2014-08-08 2014-08-08 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム

Country Status (3)

Country Link
US (1) US9679577B2 (ja)
EP (1) EP2993666B1 (ja)
JP (1) JP2016038513A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN110021305B (zh) * 2019-01-16 2021-08-20 上海惠芽信息技术有限公司 一种音频滤波方法、音频滤波装置及可穿戴设备
JP7635539B2 (ja) * 2020-12-09 2025-02-26 日本電気株式会社 送信装置照合装置、送信装置照合方法、及びプログラム
CN113223538B (zh) * 2021-04-01 2022-05-03 北京百度网讯科技有限公司 语音唤醒方法、装置、系统、设备和存储介质
CN114025223B (zh) * 2021-11-15 2023-10-13 海信电子科技(深圳)有限公司 一种录像状态下的频道切换方法及显示设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084094A1 (en) * 2003-10-21 2005-04-21 Alcatel Telephone terminal with control of voice reproduction quality in the receiver
JP2010276684A (ja) * 2009-05-26 2010-12-09 Nec Corp 音声復号装置及び方法
JP2011502287A (ja) * 2007-11-02 2011-01-20 華為技術有限公司 音声復号化方法及び装置
JP2011512564A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景雑音情報の復号化方法および背景雑音情報の復号化手段

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3418463B2 (ja) 1994-10-27 2003-06-23 富士通株式会社 ディジタル移動電話通信方法と通話チャネル切換方法及びそれらを実現するための移動局と基地局
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
DE19804581C2 (de) * 1998-02-05 2000-08-17 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
US6631139B2 (en) 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
JP3784365B2 (ja) 2002-11-11 2006-06-07 富士通株式会社 ディジタル移動電話通信方法と通話チャネル切換方法及びそれらを実現するための移動局と基地局
US20050228655A1 (en) * 2004-04-05 2005-10-13 Lucent Technologies, Inc. Real-time objective voice analyzer
JP5046654B2 (ja) * 2005-01-14 2012-10-10 パナソニック株式会社 スケーラブル復号装置及びスケーラブル復号方法
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084094A1 (en) * 2003-10-21 2005-04-21 Alcatel Telephone terminal with control of voice reproduction quality in the receiver
JP2011502287A (ja) * 2007-11-02 2011-01-20 華為技術有限公司 音声復号化方法及び装置
JP2011512564A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景雑音情報の復号化方法および背景雑音情報の復号化手段
JP2010276684A (ja) * 2009-05-26 2010-12-09 Nec Corp 音声復号装置及び方法

Also Published As

Publication number Publication date
EP2993666A1 (en) 2016-03-09
US20160042747A1 (en) 2016-02-11
US9679577B2 (en) 2017-06-13
EP2993666B1 (en) 2017-04-26

Similar Documents

Publication Publication Date Title
US8972251B2 (en) Generating a masking signal on an electronic device
US9294834B2 (en) Method and apparatus for reducing noise in voices of mobile terminal
CN103236263B (zh) 一种改善通话质量的方法、系统及移动终端
US9711162B2 (en) Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event
US20200296500A1 (en) Ambient Sound Processing Method And Device
US9601128B2 (en) Communication apparatus and voice processing method therefor
CN107564538A (zh) 一种实时语音通信的清晰度增强方法及系统
US9847094B2 (en) Voice processing device, voice processing method, and non-transitory computer readable recording medium having therein program for voice processing
JP2016038513A (ja) 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
JP2009246870A (ja) 通信端末、通信端末の音声出力調整方法
US12108226B2 (en) Echo suppression device, echo suppression method, and echo suppression program
US10504538B2 (en) Noise reduction by application of two thresholds in each frequency band in audio signals
JP4836720B2 (ja) ノイズサプレス装置
JP5626366B2 (ja) 音声制御装置、音声制御方法及び音声制御プログラム
WO2022193327A1 (zh) 信号处理系统、方法、装置及存储介质
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2008309955A (ja) ノイズサプレス装置
EP2407966A1 (en) Method and Apparatuses for bandwidth expansion for voice communication
CN116546126A (zh) 一种杂音抑制方法及电子设备
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
JP2012095047A (ja) 音声処理装置
EP2736043A2 (en) Signal processing device, method for processing signal
CN107153796B (zh) 一种信息处理方法及电子设备
JP6098038B2 (ja) 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム
JP2012203172A (ja) 音声出力装置、音声出力方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190122