JP2019032400A - 発話判定プログラム、発話判定方法、及び発話判定装置 - Google Patents
発話判定プログラム、発話判定方法、及び発話判定装置 Download PDFInfo
- Publication number
- JP2019032400A JP2019032400A JP2017152393A JP2017152393A JP2019032400A JP 2019032400 A JP2019032400 A JP 2019032400A JP 2017152393 A JP2017152393 A JP 2017152393A JP 2017152393 A JP2017152393 A JP 2017152393A JP 2019032400 A JP2019032400 A JP 2019032400A
- Authority
- JP
- Japan
- Prior art keywords
- section
- frame
- determination target
- utterance
- target frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
【課題】合成音声がスピーカから出力されている間、発話区間の検出を停止しても、発話区間の検出が再開された際に、ユーザの発話を適切に判定することを目的とする。【解決手段】所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する。信号対雑音比に基づいて判定対象フレームが有音区間に相当すると判定され、かつ、判定対象フレームが非合成音声区間の場合に、判定対象フレームが発話区間に相当するフレームであるか否かを判定する。判定は、判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて行う。背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する。【選択図】図8
Description
本発明は、発話判定プログラム、発話判定方法、及び発話判定装置に関する。
音響信号が有音区間に相当するか無音区間に相当するかを判定し、有音区間と判定された区間に相当する音響信号のピッチゲインが所定値を越える場合に、音響信号が発話区間に相当する、と判定する技術が存在する。この技術では、非発話区間以外の区間の無音区間に相当する音響信号に基づいて背景雑音を推定する。そして、推定した背景雑音に基づいて信号対雑音比を算出し、信号対雑音比が所定値を越えるか否か判定することで、音響信号が有音区間に相当するか無音区間に相当するかを判定する。
この技術を、発話の存在を検出して翻訳する音声翻訳システムに適用する場合、マイクロフォン(以下、マイクと呼ぶ。)から入力されたユーザの発話の翻訳結果を表す合成音声がスピーカから出力され、当該合成音声がマイクロフォンから入力される。そして、マイクロフォンから入力された合成音声の翻訳結果を表す合成音声がスピーカから出力され、当該合成音声がマイクロフォンから入力される。即ち、翻訳される必要がない合成音声の翻訳が繰り返される。この技術では、翻訳結果を表す合成音声も発話であると判定されるためである。
この問題を解決するために、音声翻訳システムが合成音声を出力している間、発話区間の検出を停止する技術が存在する。
上村幸男、「呼気流・呼気圧と調音音声学」、人文6、2007年、pp.247〜291、
しかしながら、音声翻訳システムが合成音声を出力している間、発話区間の検出を停止する場合、合成音声の出力が終了した後、発話区間の検出を再開しても、ユーザの発話が適切に判定されない場合がある。それは、発話区間の検出を停止している間、背景雑音の推定を行わないため、発話区間の検出を再開した時点で、実際の背景雑音と推定される背景雑音との間の誤差が存在する可能性が高いからである。
本発明は、1つの側面として、合成音声がスピーカから出力されている間、発話区間の検出を停止しても、発話区間の検出が再開された際に、ユーザの発話を適切に判定することを目的とする。
1つの実施形態では、音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する。算出した信号対雑音比に基づいて判定対象フレームが有音区間に相当すると判定され、かつ、判定対象フレームが非合成音声区間の場合に、判定対象フレームが発話区間に相当するフレームであるか否かを判定する。判定は、判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて行う。背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する。
1つの側面として、合成音声がスピーカから出力されている間、発話区間の検出を停止しても、発話区間の検出が再開された際に、ユーザの発話を適切に判定することを可能とする。
以下、図面を参照して実施形態の一例を詳細に説明する。
図1に、発話判定装置10の要部機能を例示する。
発話判定装置10は、信号対雑音比算出部11(以下、「SN比算出部」11と呼ぶ。)、発話判定部12及び記憶部13を含む。SN比算出部11は、音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、信号対雑音比(以下、「SN比」と呼ぶ。)を算出する。判定対象フレームのSN比は、判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音、及び判定対象フレームのパワーを使用して算出される。1フレームの時間長は、例えば、10msec〜20msecであってよい。
発話判定部12は、算出したSN比の大きさに基づいて判定対象フレームが有音区間に相当すると判定され、かつ、判定対象フレームが非合成音声区間に相当する場合に、この判定対象フレームが発話区間に相当するフレームであるか否かを判定する。判定対象フレームが発話区間に相当するか否かは、判定対象フレームの分割信号の周期性の強さを示すピッチゲインの大きさに基づいて、行われる。発話区間とは、ユーザが発話している区間である。
発話判定装置10は、背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する。即ち、本実施形態では、非合成音声区間の無音区間に相当する場合、このフレームの分割信号に基づいて背景雑音を推定する。さらに、本実施形態では、合成音声区間に相当するフレームを非発話区間に相当するフレームであると判定するが、フレームが合成音声区間の無音区間に相当する場合も、このフレームの分割信号に基づいて背景雑音を推定する。合成音声とは、例えば、後述する音声翻訳装置で合成される音声であり、非合成音声とは、例えば、ユーザの発話による音声などの合成音声以外の音声である。
図2に、音声翻訳システム1の要部機能を例示する。音声翻訳システム1は、発話判定装置10及び音声翻訳装置20を含む。音声翻訳装置20は、発話判定装置10が発話区間に相当すると判定したフレームの分割信号を受信し、分割信号を使用して発話内容を認識し、元の言語とは異なる言語に翻訳し、翻訳結果を音声で出力する。
なお、発話判定装置10は、音声翻訳システム1に実装することに限定されない。発話判定装置10は、音声認識を利用するユーザインターフェイスを採用する様々な装置、例えば、ナビゲーションシステム、携帯電話機またはコンピュータなどに実装することができる。
図3に、SN比算出部11の要部機能を例示する。SN比算出部11は、パワー算出部21と、背景雑音推定部22と、信号対雑音比演算部23(以下、「SN比演算部」23と呼ぶ。)と、を含む。図4に、発話判定部12の要部機能を例示する。発話判定部12は、有音区間判定部24と、ピッチゲイン算出部25と、発話区間判定部26と、を含む。
パワー算出部21は、判定対象フレームの分割信号(以下、「音響信号」と呼ぶ。)のパワーを算出する。k(kは自然数)番目のフレームである判定対象フレームの音響信号のパワーSpow(k)は、例えば、(1)式で算出される。
sk(n)は、k番目のフレームのn番目のサンプリング点の音響信号の振幅値である。Nは1つのフレームに含まれるサンプリング点の数である。
sk(n)は、k番目のフレームのn番目のサンプリング点の音響信号の振幅値である。Nは1つのフレームに含まれるサンプリング点の数である。
なお、パワー算出部21は、周波数帯域毎にパワーを算出してもよい。この場合、パワー算出部21は、時間周波数変換を使用して時間領域の音響信号を周波数領域のスペクトル信号に変換する。時間周波数変換は、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)であってよい。パワー算出部21は、周波数帯域毎に、周波数帯域に含まれるスペクトル信号の二乗和を、その周波数帯域のパワーとして算出する。
背景雑音推定部22は、判定対象フレームが無音区間に相当する場合、判定対象フレームの音響信号における背景雑音を推定する。判定対象フレームが、無音区間であるか否かの判定については後述する。判定対象フレームが合成音声区間に相当する場合、後述するように、判定対象フレームは非発話区間に相当すると判定される。しかしながら、本実施形態では、判定対象フレームが合成音声であっても、判定対象フレームが無音区間に相当する場合、判定対象フレームにおける音響信号の背景雑音を推定する。
合成音声区間であっても、無音区間であれば、背景雑音を推定することで、時間と共に変化する実際の背景雑音との誤差を小さくする。一方、合成音声区間の有音区間で背景雑音を推定すると、却って実際の背景雑音との誤差が大きくなるため、合成音声区間の有音区間では背景雑音を推定しない。
背景雑音Noise(k)は、例えば、k−1番目のフレーム、即ち判定対象フレームの直前のフレームで推定された背景雑音Noise(k−1)、及び、k番目のフレーム、すなわち判定対象フレームのパワーSpow(k)を使用して、(2)式で算出される。背景雑音は、判定対象フレームが有音であるか否か判定するSN比を算出するために使用される。
βは、忘却係数であり、例えば、0.9であってよい。即ち、背景雑音は、判定対象フレームの直前のフレームで推定された背景雑音及び判定対象フレームのパワーを使用して算出されるが、その直前のフレームの背景雑音はさらにその直前のフレームの背景雑音を使用して算出される。したがって、判定対象フレームの背景雑音は、判定対象フレームより前に位置するフレームの音響信号を使用して推定される。
βは、忘却係数であり、例えば、0.9であってよい。即ち、背景雑音は、判定対象フレームの直前のフレームで推定された背景雑音及び判定対象フレームのパワーを使用して算出されるが、その直前のフレームの背景雑音はさらにその直前のフレームの背景雑音を使用して算出される。したがって、判定対象フレームの背景雑音は、判定対象フレームより前に位置するフレームの音響信号を使用して推定される。
判定対象フレームが有音区間に相当する場合、背景雑音推定部22は、判定対象フレームの背景雑音を推定しない。この場合、判定対象フレームの背景雑音として直前のフレームと同じ背景雑音を設定する。
SN比演算部23は、判定対象フレームのSN比を算出する。SN比演算部23は、例えば、(3)式によって、判定対象フレームのSN比SNR(k)を算出する。
即ち、判定対象フレームのSN比は、判定対象フレームの直前のフレームで推定された背景雑音を使用して算出される。背景雑音の推定が十分に行われるまで、即ち、十分な数のフレームを使用して背景雑音が推定されるまで、所定値を背景雑音として使用してもよい。
即ち、判定対象フレームのSN比は、判定対象フレームの直前のフレームで推定された背景雑音を使用して算出される。背景雑音の推定が十分に行われるまで、即ち、十分な数のフレームを使用して背景雑音が推定されるまで、所定値を背景雑音として使用してもよい。
有音区間判定部24は、判定対象フレームのSN比に基づいて、判定対象フレームが有音区間に相当するか否かを判定する。なお、有音区間は、その区間中の音響信号に背景雑音以外の音響信号が含まれると推定される区間である。発話区間は有音区間に含まれるので、有音区間で発話区間の検出を行うことで、発話区間の検出精度を向上させることができる。
判定対象フレームが有音区間に相当するか否か判定するために、判定対象フレームのSN比を有音判定閾値Thsnrと比較する。有音判定閾値Thsnrは、例えば、2〜3であってよい。有音区間判定部24は、SN比が有音判定閾値Thsnr以上である場合、判定対象フレームが有音区間に相当すると判定し、SN比が有音判定閾値Thsnr未満である場合、判定対象フレームが無音区間に相当すると判定する。
なお、有音区間判定部24は、SN比が有音判定閾値Thsnr以上となるフレームが一定期間(例えば、1秒間)連続した後の判定対象フレームが有音区間に相当すると判定してもよい。また、有音区間判定部24は、SN比が有音判定閾値Thsnr以上となるフレームが存在した後、SN比が有音判定閾値Thsnr未満となるフレームが一定期間連続した後の判定対象フレームが無音区間に相当すると判定してもよい。
有音区間判定部24は、判定対象フレームのパワーに基づいて、判定対象フレームが有音区間に相当するか否かを判定してもよい。この場合には、有音区間判定部24は、判定対象フレームのパワーが所定の閾値以上であれば、判定対象フレームは有音区間に相当し、判定対象フレームのパワーが所定の閾値未満であれば、判定対象フレームは無音区間に相当する、と判定してもよい。所定の閾値は、判定対象フレームで推定された背景雑音が大きくなるほど、高くなるように設定されてもよい。
有音区間判定部24は、判定対象フレームが有音区間に相当するか否かの判定結果を表す情報を背景雑音推定部22及びピッチゲイン算出部25に送信する。なお、有音区間に相当するか否かの判定結果を表す情報は、例えば、有音区間に相当する場合「1」であり、無音区間に相当する場合「0」である有音フラグであってよい。
背景雑音推定部22及びピッチゲイン算出部25は、有音フラグに基づいて判定対象フレームが有音区間に相当するか否か判定する。有音フラグは、例えば、記憶部13に記憶される。
なお、発話区間判定部26が発話区間に相当するフレームを検出した後、非発話区間に相当するフレームを検出する前に、判定対象フレームが無音区間に相当すると、有音区間判定部24が判定した場合、判定対象フレームを非発話区間であると判定してもよい。
ピッチゲイン算出部25は、判定対象フレームが有音区間に相当する場合、音の周期性の強さを表すピッチゲインを算出する。なお、ピッチゲインは、ピッチ予測利得とも呼ばれる。
発話区間では、人間の音声の特性上、音響信号に所定程度の周期性が認められる。従って、音響信号の周期性の強さを表すピッチゲインに基づいて発話区間を検出する。ピッチゲインを使用することで、発話判定装置10は、人間の音声以外で大きな値をとり得るパワーまたはSN比を利用するよりも、発話区間をより正確に検出することができる。
ピッチゲイン算出部25は、(4)式を使用して、音響信号の長期自己相関C(d)を、遅延量d∈{dlow,…,dhigh}について算出する。
遅延量dの下限値dlow及び上限値dhighは、人間の音声の基本周波数である55〜400Hzに相当する遅延量が含まれるように設定される。例えば、サンプリングレートが16kHzである場合、dlow=40、dhigh=288であってよい。
遅延量dの下限値dlow及び上限値dhighは、人間の音声の基本周波数である55〜400Hzに相当する遅延量が含まれるように設定される。例えば、サンプリングレートが16kHzである場合、dlow=40、dhigh=288であってよい。
即ち、55Hzの基本周期は18ms(=1/55Hz)であり、400Hzの基本周期は2.5ms(=1/400Hz)である。サンプリングレートが16kHzの場合、1サンプルの遅れは62.5μs(=1/16000)であるから、dlow=40(=2.5ms/62.5μs)、dhigh=288(=18ms/62.5μs)となる。
ピッチゲイン算出部25は、遅延量dlow〜dhighの範囲に含まれる遅延量dの各々について、長期自己相関C(d)を算出し、長期自己相関C(d)のうちの最大値C(dmax)を求める。なお、dmaxは、長期自己相関C(d)の内の最大値C(dmax)に対応する遅延量であり、この遅延量はピッチ周期に相当する。そしてピッチゲイン算出部25は、(5)式によってピッチゲインgpitchを算出する。
発話区間判定部26は、判定対象フレームが有音区間に相当する場合、ピッチゲインgpitchを発話区間検出閾値と比較することで、判定対象フレームが発話区間に相当するか否か判定する。即ち、発話区間判定部26は、ユーザが発話していない非発話区間が継続している場合に、ピッチゲインgpitchが第1の閾値Th1以上であるとユーザが発話している発話区間が開始された、即ち、発話区間であると判定する。一方、発話区間判定部26は、発話区間が継続している場合に、ピッチゲインが第1の閾値Th1よりも小さい第2の閾値Th2未満であると発話区間が終了した、即ち、非発話区間であると判定する。
人間が連続して発声すると、語尾にかけて呼気圧が低下し、声門閉鎖の周期性は弱くなる。したがって、発話区間では、語尾にかけてピッチゲインが減衰するので、発話区間の開始を検出する際に用いられるピッチゲインに対する第1の閾値よりも、発話区間の終了を検出する際に用いられる、ピッチゲインに対する第2の閾値を低く設定する。
本実施形態では、発話区間判定部26は、判定対象フレームの直前のフレームが発話区間に相当するフレームでない場合、第1の閾値とピッチゲインとを比較する。直前のフレームが発話区間に含まれるか否かは、例えば、記憶部13に記憶されている、直前のフレームが発話区間か否かを表す発話区間フラグを参照することで判定される。ピッチゲインが第1の閾値以上である場合、発話区間判定部26は、判定対象フレームが発話区間であると判定する。発話区間判定部26は、発話区間フラグを発話区間であることを表す値(例えば、「1」)に設定する。
判定対象フレームの直前のフレームが発話区間に相当する場合、発話区間判定部26は、第1の閾値より小さい第2の閾値と判定対象フレームのピッチゲインとを比較する。発話区間判定部26は、ピッチゲインが第2の閾値未満である場合、直前のフレームまでで発話区間は終了したと判定する。発話区間判定部26は、発話区間フラグを、非発話区間であることを表す値(例えば、「0」)に設定する。
図5は、本実施形態による、発話判定処理の概要を説明する図である。図5の各グラフにおいて、横軸は時間を表す。1番上のグラフでは、縦軸はSN比を表す。上から2番目のグラフでは、縦軸は有音区間か無音区間かの判定結果を表す。上から3番目のグラフでは、縦軸はピッチゲインを表す。1番下のグラフでは、縦軸は発話区間か否かの判定結果を表す。
1番上のグラフで、線301はSN比の時間変化を表す。上から2番目のグラフで、線302は、有音区間か無音区間かの判定結果を表す。図5の例では、線301で示されるように、時刻t1で、SN比が有音判定閾値Thsnr以上となり、時刻t4で、SN比が有音判定閾値Thsnr未満となる。その結果、線302で示されるように、時刻t1から時刻t4までの区間は有音区間(「1」)であると判定され、時刻t1より前、及び、時刻t4より後は、無音区間(「0」)であると判定される。
上から3番目のグラフで、線303の縦軸は、ピッチゲインを表す。時刻t2で、ピッチゲインは第1の閾値Th1以上となり、時刻t3で、ピッチゲインは第2の閾値Th2未満となる。したがって、1番下のグラフの線304で示されるように、時刻t2から時刻t3までが発話区間(「1」)であると判定される。
線303で示されるように、ピッチゲインは、発話開始後ピークに達すると徐々に減衰する。したがって、第1の閾値Th1未満となる時刻t2’で発話区間が終了したと判定すると、本来の発話区間よりも短い区間が発話区間として検出される。本実施形態では、図6に例示するように、発話区間の開始を第1の閾値Th1で判定し、発話区間の終了を第1の閾値Th1より小さい第2の閾値Th2で判定する。即ち、閾値を変化させ、第1の閾値Th1より小さい第2の閾値Th2未満となる時刻t3で発話区間が終了したと判定することで、発話区間を適切に検出することができる。
なお、本実施形態は、第1の閾値及び第1の閾値より小さい第2の閾値を使用することに限定されない。例えば、単一の閾値を使用してもよい。
音声翻訳装置20は、発話判定装置10から発話区間の検出結果を受け取り、既存の方法で、発話区間の音響信号を使用して発話内容を認識し、元の言語とは異なる言語に翻訳し、翻訳結果を音声で出力する。
図7に、音声翻訳システム1のハードウェア構成を例示する。音声翻訳システム1は、ハードウェアであるプロセッサの一例であるCPU(Central Processing Unit)41、一次記憶部42、二次記憶部43、及び外部インターフェイス44を含む。音声翻訳システム1は、また、マイクロフォン31(以下、「マイク」31と呼ぶ。)及び音声出力部の一例であるスピーカ32を含む。
CPU41、一次記憶部42、二次記憶部43、外部インターフェイス44、マイク31及びスピーカ32は、バス49を介して相互に接続されている。
一次記憶部42は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部43は、例えば、HDD(Hard Disk Drive)、又はSDD(Solid State Drive)などの不揮発性のメモリと、RAMなどの揮発性のメモリと、を含む。二次記憶部43は、図1の記憶部13の一例である。
二次記憶部43は、プログラム格納領域43A及びデータ格納領域43Bを含む。プログラム格納領域43Aは、一例として、発話判定プログラム、及び音声翻訳プログラムなどのプログラムを記憶している。データ格納領域43Bは、一例として、マイク31から取得した音の音響信号、当該音響信号を使用して翻訳された元の言語とは異なる言語の音響信号、及び、発話区間であるか否かを示すフラグなどの中間データを記憶する。
CPU41は、プログラム格納領域43Aから発話判定プログラムを読み出して一次記憶部42に展開する。CPU41は、発話判定プログラムを実行することで、図2の発話判定装置10、即ち、図1のSN比算出部11及び発話判定部12として動作する。
CPU41は、プログラム格納領域43Aから音声翻訳プログラムを読み出して一次記憶部42に展開する。CPU41は、音声翻訳プログラムを実行することで、図2の音声翻訳装置20として動作する。なお、発話判定プログラム及び音声翻訳プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部42に展開されてもよい。
外部インターフェイス44には、外部装置が接続され、外部インターフェイス44は、外部装置とCPU41との間の各種情報の送受信を司る。なお、マイク31及びスピーカ32は、外部インターフェイス44を介して、外部装置として接続されていてもよい。
次に、発話判定装置10の作用の概略について説明する。発話判定装置10の作用の概略を図8に例示する。上述した処理については、記載を簡略にするため説明を省略する。例えば、ユーザが音声翻訳システム1の電源を投入すると、CPU41は、ステップ101で、マイク31によって取得された音に対応する音響信号の1フレーム分を判定対象フレームとして読み込む。
CPU41は、ステップ102で、1フレーム分の音響信号を使用して、パワーを算出する。CPU41は、ステップ103で、上記(3)式に基づいて、算出したパワーを使用してSN比を算出する。
CPU41は、ステップ104で、算出したSN比と有音判定閾値Thsnrとを比較して、判定対象フレームが有音区間に相当するか否かを判定する。SN比が有音判定閾値Thsnr未満で、ステップ104の判定が否定された場合、CPU41は、ステップ105で、判定対象フレームの音響信号を使用して背景雑音を推定した後ステップ106に進む。ステップ104の判定が肯定された場合、CPU41はステップ106に進む。
即ち、本実施形態では、後述するように、合成音声区間に相当する判定対象フレームは非発話区間であると判定するが、合成音声区間に相当する判定対象フレームであっても、無音区間に相当する場合、背景雑音を推定する。
CPU41は、ステップ106で、判定対象フレームが合成音声区間に相当するか否か判定する。本実施形態では、合成音声をスピーカ32によって出力している場合、音声翻訳システム1は、合成音声フラグを「1」に設定し、合成音声をスピーカ32によって出力していない場合、音声翻訳システム1は、合成音声フラグを「0」に設定している。
合成音声フラグは、例えば、二次記憶部43のデータ格納領域43Bに記憶されている。したがって、CPU41は、合成音声フラグが「1」である場合、判定対象フレームが合成音声区間に相当すると判定し、合成音声フラグが「0」である場合、判定対象フレームが合成音声区間に相当しないと判定する。
合成音声フラグが「0」で、ステップ106の判定が否定された場合、CPU41は、ステップ107で、判定対象フレームが有音区間に相当するか否かを判定する。CPU41は、例えば、ステップ104の判定結果を利用してもよいし、ステップ104と同様に判定対象フレームが有音区間に相当するか否かを判定してもよい。
ステップ107の判定が肯定された場合、即ち、有音区間である場合、CPU41は、ステップ108で、判定対象フレームのピッチゲインを算出する。CPU41は、ステップ109で、判定対象フレームの直前のフレームが発話区間に相当するフレームであったか否かを判定する。
本実施形態では、発話区間に相当する場合、当該フレームに対応する発話フラグに「1」を設定し、非発話区間に相当する場合、当該フレームに対応する発話フラグに「0」を設定するものとする。発話フラグは、例えば、二次記憶部43のデータ格納領域43Bに保存されている。したがって、CPU41は、判定対象フレームの直前のフレームの発話フラグが「1」である場合、直前のフレームが発話区間に相当するフレームであると判定する。また、直前のフレームの発話フラグが「0」である場合、直前のフレームが非発話区間に相当するフレームであると判定する。
ステップ109の判定が肯定された場合、即ち、発話フラグが「0」で、直前のフレームが非発話区間に相当する場合、CPU41は、ステップ110で、ピッチゲインが第1の閾値Th1以上であるか否かを判定する。ステップ110の判定が肯定された場合、即ち、ピッチゲインが第1の閾値Th1以上である場合、CPU41は、ステップ111で発話フラグに「1」を設定し、ステップ114に進む。ステップ110の判定が否定された場合、即ち、ピッチゲインが第1の閾値Th1未満である場合、CPU41は、発話フラグを変更せず、即ち、発話フラグを「0」に設定し、ステップ114に進む。
ステップ109の判定が否定された場合、即ち、発話フラグが「1」で、直前のフレームが発話区間に相当すると判定された場合、CPU41は、ステップ112で、ピッチゲインが第1の閾値Th1より小さい第2の閾値Th2未満であるか否かを判定する。ステップ112の判定が否定された場合、発話区間が継続していると判断してCPU41は、発話フラグを変更しない。即ち、CPU41は、発話フラグに「1」を設定し、ステップ114に進む。
ステップ112の判定が肯定された場合、即ち、発話区間が終了したと判断した場合、CPU41は、ステップ113で、発話フラグに「0」を設定し、ステップ114に進む。
一方、ステップ106の判定が肯定された場合、即ち合成音声区間の場合も、CPU41は、ステップ113で、発話フラグに「0」を設定し、ステップ114に進む。即ち、本実施形態では、判定対象フレームが合成音声区間に相当する場合であっても、ステップ104及びステップ105で、背景雑音の推定は行う。一方、判定対象フレームが合成音声区間に相当する場合、ステップ107〜ステップ112の処理は行わず、ステップ113で、発話フラグを「0」に設定し、判定対象フレームは非発話区間であるとする。
CPU41は、ステップ114で、音響信号が終了したか否か判定する。ステップ114の判定が肯定された場合、例えば、マイク31の電源がオフされたことにより、音響信号が終了した場合、CPU41は、発話判定処理を終了する。ステップ114の判定が否定された場合、次のフレームを判定対象フレームとするためにkをインクリメントし、CPU41は、ステップ101に戻る。
なお、ステップ106で、判定対象フレームが合成音声区間であるか否か判定する際に、合成音声フラグを使用する例について説明したが、本実施形態はこれに限定されない。例えば、スピーカ32が音を出力しているか否かを検知し、スピーカ32が音を出力している場合に、出力されている音に対応する判定対象フレームが合成音声区間であると判定してもよい。
なお、図8のフローチャートは例示であり、各ステップの順序は変更されてもよい。
[関連技術の概要]
図9に例示するように、関連技術の音声翻訳システムは、ユーザの音声である非合成音声NSVを含む音をマイク31’で取得して、ブロック201で、取得された音の音響信号を使用して発話区間の検出を行う。音声翻訳システムは、ブロック202で、検出された発話区間の音響信号を使用して音声認識を行い、ブロック203で、音声認識された第1言語を第2言語に翻訳する。音声翻訳システムは、ブロック204で、翻訳された第2言語を表す合成音声を生成し、生成した合成音声SVをスピーカ32’で出力する。
図9に例示するように、関連技術の音声翻訳システムは、ユーザの音声である非合成音声NSVを含む音をマイク31’で取得して、ブロック201で、取得された音の音響信号を使用して発話区間の検出を行う。音声翻訳システムは、ブロック202で、検出された発話区間の音響信号を使用して音声認識を行い、ブロック203で、音声認識された第1言語を第2言語に翻訳する。音声翻訳システムは、ブロック204で、翻訳された第2言語を表す合成音声を生成し、生成した合成音声SVをスピーカ32’で出力する。
音声翻訳システムが、出力された合成音声SVをマイク31’で取得すると、合成音声SVの音響特徴とユーザの音声である非合成音声NSVの音響特徴とは類似しているため、ブロック201で、取得された音声の音響信号を使用して発話区間の検出を行う。音声翻訳システムは、ブロック202で、検出された発話区間の音響信号を使用して音声認識を行い、ブロック203で、音声認識された第2言語を第1言語に翻訳する。音声翻訳システムは、ブロック204で、翻訳された第1言語を表す合成音声を生成し、生成した合成音声SVをスピーカ32’で出力する。
即ち、マイク31’で取得された音の音響信号が有音区間に相当すると判定された場合に発話を検出し、翻訳を行う音声翻訳システムでは、第1言語から第2言語への翻訳と第2言語から第1言語への翻訳が無限に繰り返される。
[関連技術の発話検出]
図10の1番上の図に非合成音声NSVの音響信号の振幅を例示する。図10の上から2番目の図に非合成音声NSVを使用して取得したSN比を例示する。上記したように、SN比が閾値Thsnr以上である区間が有音区間であると判定する。図10の1番下の図に、SN比が閾値Thsnr以上である区間を「1」とし、SN比が閾値Thsnr未満である区間を「0」とした判定結果を例示する。即ち、音声翻訳システムは、判定結果が「1」である区間UTが有音区間であると判定し、区間UTの音響信号で、ピッチゲインを使用して発話検出を行う。
図10の1番上の図に非合成音声NSVの音響信号の振幅を例示する。図10の上から2番目の図に非合成音声NSVを使用して取得したSN比を例示する。上記したように、SN比が閾値Thsnr以上である区間が有音区間であると判定する。図10の1番下の図に、SN比が閾値Thsnr以上である区間を「1」とし、SN比が閾値Thsnr未満である区間を「0」とした判定結果を例示する。即ち、音声翻訳システムは、判定結果が「1」である区間UTが有音区間であると判定し、区間UTの音響信号で、ピッチゲインを使用して発話検出を行う。
図11の1番上の図に非合成音声NSV及び合成音声SVの音響信号の振幅を例示する。即ち、ユーザが発話し、音声翻訳システムがユーザの発話に対応する翻訳結果を合成音声で出力した場合である。図11の上から2番目の図に非合成音声NSV及び合成音声SVを使用して取得したSN比を例示する。上記したように、SN比が閾値Thsnr以上である区間が有音区間であると判定する。
図11の1番下の図に、SN比が閾値Thsnr以上である区間を「1」とし、SN比が閾値Thsnr未満である区間を「0」とした判定結果を例示する。即ち、音声翻訳システムは、判定結果が「1」である区間UTが有音区間であると判定し、区間UTの音響信号で、ピッチゲインを使用して発話検出を行う。即ち、非合成音声NSVだけでなく、合成音声SVに対しても発話検出が行われる。非合成音声NSVのピッチゲインと合成音声NSVのピッチゲインとは類似しているため、非合成音声NSVだけでなく、合成音声SVも発話として検出される。
[関連技術の背景雑音]
合成音声SVが発話であると判定されないように、音声翻訳システムが合成音声SVを出力している間、発話検出を停止する関連技術で推定される背景雑音について説明する。図12Aに、合成音声SV及び非合成音声NSVのパワーを例示する。合成音声SVは、音声翻訳システムのマイクに近いスピーカによって出力されるため、ユーザの発話である非合成音声NSVよりもパワーが大きい。
合成音声SVが発話であると判定されないように、音声翻訳システムが合成音声SVを出力している間、発話検出を停止する関連技術で推定される背景雑音について説明する。図12Aに、合成音声SV及び非合成音声NSVのパワーを例示する。合成音声SVは、音声翻訳システムのマイクに近いスピーカによって出力されるため、ユーザの発話である非合成音声NSVよりもパワーが大きい。
図12Aに、線EBNで、関連技術で推定される背景雑音を例示する。図12Bに線RBNで実際の背景雑音を例示する。図12Aの合成音声SVの再生が開始される前の背景雑音EBNは、図12Bの同じ時刻の実際の背景雑音RBNと略同じ値であるとする。合成音声SVが再生されている間、即ち、発話検出を停止している間、関連技術では、背景雑音の推定を行わないため、実際の背景雑音RBNが変化しても推定される背景雑音EBNの値は変化しない。
したがって、実際の背景雑音RBNと推定される背景雑音EBNとの間に誤差が生じる。合成音声SVの再生が終了されると、無音区間で背景雑音の推定が行われる。ここで、例えば、図12Aに例示する区間ERRでは、実際の背景雑音RBNと推定される背景雑音EBNとの間に生じた誤差で、非合成音声SVの音響信号が有音区間に相当すると適切に判定されない。
背景雑音の推定は、(2)式に例示するように、判定対象のフレームより前に位置するフレームで推定された背景雑音に影響され、合成音声SVが再生されている間に生じた実際の背景雑音との誤差が迅速には低減しないためである。
[本実施形態と関連技術との比較]
本実施形態では、合成音声SVが再生されている間発話検出を停止することで合成音声SVを発話として検出しないようにする。一方で、合成音声SVが再生されていない間だけでなく、合成音声SVが再生されている間も無音区間で背景雑音の推定を行う。図13は、本実施形態で推定される背景雑音のパワーEBN1と、関連技術で推定される背景雑音のパワーEBN2と、を例示する。
本実施形態では、合成音声SVが再生されている間発話検出を停止することで合成音声SVを発話として検出しないようにする。一方で、合成音声SVが再生されていない間だけでなく、合成音声SVが再生されている間も無音区間で背景雑音の推定を行う。図13は、本実施形態で推定される背景雑音のパワーEBN1と、関連技術で推定される背景雑音のパワーEBN2と、を例示する。
線ISは、無音区間NS、非合成音声区間NSV、及び合成音声区間SVにわたる入力音のパワーを表し、線RBNは実際の背景雑音を表す。合成音声SVの再生が終了した直後の区間OTに着目すると、合成音声SVが再生されている間であっても、無音区間NSであれば背景雑音を推定する本実施形態の背景雑音EBN1は、関連技術の背景雑音EBN2よりも実際の背景雑音RBNに近い。即ち、本実施形態では、合成音声SVの再生が終了した直後の区間OTでも、音響信号が有音区間に相当するか否かが適切に判定されるため、音響信号が発話区間に相当するか否かも適切に判定される。
詳細には、例えば、実際の背景雑音が50dBAから65dBAに変化した場合、合成音声再生直後の0.1秒間の実際の背景雑音と本実施形態で推定された背景雑音との誤差が約2dBであるのに対し、関連技術では約10dBとなる。即ち、本実施形態では、関連技術よりも、雑音の推定誤差を約8dB低減することができる。これは、本実施形態では、雑音の推定誤差を、関連技術の約1/6.3(=1/108/10)とすることができる、ということである。
本実施形態では、音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する。算出した信号対雑音比に基づいて判定対象フレームが有音区間に相当すると判定され、かつ、判定対象フレームが非合成音声区間の場合に、判定対象フレームが発話区間に相当するフレームであるか否かを判定する。判定対象フレームが発話区間に相当するフレームであるか否かは、判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて判定される。背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する。
これにより、本実施形態では、合成音声がスピーカから出力されている間、発話区間の検出を停止しても、発話区間の検出が再開された際に、ユーザの発話を適切に判定することを可能とする。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定処理であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定処理をコンピュータに実行させるためのプログラム。
(付記2)
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記1のプログラム。
(付記3)
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記1または付記2のプログラム。
(付記4)
コンピュータが、
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する、
発話判定方法であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定方法。
(付記5)
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記4の発話判定方法。
(付記6)
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記4または付記5の発話判定方法。
(付記7)
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する信号対雑音比算出部と、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定部と、
を含む発話判定装置であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定装置。
(付記8)
前記発話判定部は、
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記7の発話判定装置。
(付記9)
音を出力する音声出力部をさらに含み、
前記発話判定部は、
前記音声出力部が音を出力している場合に、出力されている前記音に対応する前記判定対象フレームが合成音声区間に相当するフレームであると判定する、
付記8の発話判定装置。
(付記10)
前記発話判定部は、
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記7〜付記9の何れかの発話判定装置。
(付記1)
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定処理であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定処理をコンピュータに実行させるためのプログラム。
(付記2)
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記1のプログラム。
(付記3)
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記1または付記2のプログラム。
(付記4)
コンピュータが、
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する、
発話判定方法であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定方法。
(付記5)
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記4の発話判定方法。
(付記6)
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記4または付記5の発話判定方法。
(付記7)
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する信号対雑音比算出部と、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定部と、
を含む発話判定装置であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定装置。
(付記8)
前記発話判定部は、
前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
付記7の発話判定装置。
(付記9)
音を出力する音声出力部をさらに含み、
前記発話判定部は、
前記音声出力部が音を出力している場合に、出力されている前記音に対応する前記判定対象フレームが合成音声区間に相当するフレームであると判定する、
付記8の発話判定装置。
(付記10)
前記発話判定部は、
前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
付記7〜付記9の何れかの発話判定装置。
Claims (5)
- 音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定処理であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定処理をコンピュータに実行させるためのプログラム。 - 前記判定対象フレームが合成音声区間に相当するフレームである場合、前記判定対象フレームが非発話区間に相当するフレームであると判定する、
請求項1に記載のプログラム。 - 前記判定対象フレームの直前のフレームが非発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが第1の閾値以上である場合、前記判定対象フレームが発話開始を含む発話区間に相当するフレームであると判定し、
前記判定対象フレームの直前のフレームが発話区間に相当するフレームであって、かつ、前記判定対象フレームのピッチゲインが前記第1の閾値より小さい第2の閾値未満である場合、前記判定対象フレームが発話終了を含む発話区間に相当するフレームであると判定する、
請求項1または請求項2に記載のプログラム。 - コンピュータが、
音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出し、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する、
発話判定方法であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定方法。 - 音響信号を複数個に分割した所定長の分割信号を各々含む複数のフレームの中の判定対象フレームについて、前記判定対象フレームより前に位置するフレームの分割信号を使用して推定された背景雑音を使用して信号対雑音比を算出する信号対雑音比算出部と、
算出した前記信号対雑音比に基づいて前記判定対象フレームが有音区間に相当すると判定され、かつ、前記判定対象フレームが非合成音声区間の場合に、前記判定対象フレームの分割信号の周期性の強さを示すピッチゲインに基づいて、前記判定対象フレームが発話区間に相当するフレームであるか否かを判定する発話判定部と、
を含む発話判定装置であって、
前記背景雑音を、合成音声区間の無音区間に相当するフレームの分割信号、及び、非合成音声区間の無音区間に相当するフレームの分割信号に基づいて推定する、
発話判定装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017152393A JP2019032400A (ja) | 2017-08-07 | 2017-08-07 | 発話判定プログラム、発話判定方法、及び発話判定装置 |
| US16/055,312 US20190043530A1 (en) | 2017-08-07 | 2018-08-06 | Non-transitory computer-readable storage medium, voice section determination method, and voice section determination apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017152393A JP2019032400A (ja) | 2017-08-07 | 2017-08-07 | 発話判定プログラム、発話判定方法、及び発話判定装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2019032400A true JP2019032400A (ja) | 2019-02-28 |
Family
ID=65231770
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017152393A Ceased JP2019032400A (ja) | 2017-08-07 | 2017-08-07 | 発話判定プログラム、発話判定方法、及び発話判定装置 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20190043530A1 (ja) |
| JP (1) | JP2019032400A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111223497A (zh) * | 2020-01-06 | 2020-06-02 | 苏州思必驰信息科技有限公司 | 一种终端的就近唤醒方法、装置、计算设备及存储介质 |
| WO2025057726A1 (ja) * | 2023-09-13 | 2025-03-20 | 清美 瀧澤 | 翻訳サーバ、翻訳システム及び翻訳方法 |
| WO2025057725A1 (ja) * | 2023-09-13 | 2025-03-20 | 清美 瀧澤 | 第1の利用者側装置、翻訳システム及び翻訳方法 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
| US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
| US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
| US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
| US8751220B2 (en) * | 2011-11-07 | 2014-06-10 | Broadcom Corporation | Multiple microphone based low complexity pitch detector |
| US9318092B2 (en) * | 2013-01-29 | 2016-04-19 | 2236008 Ontario Inc. | Noise estimation control system |
| US9318112B2 (en) * | 2014-02-14 | 2016-04-19 | Google Inc. | Recognizing speech in the presence of additional audio |
| JP6670224B2 (ja) * | 2016-11-14 | 2020-03-18 | 株式会社日立製作所 | 音声信号処理システム |
-
2017
- 2017-08-07 JP JP2017152393A patent/JP2019032400A/ja not_active Ceased
-
2018
- 2018-08-06 US US16/055,312 patent/US20190043530A1/en not_active Abandoned
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111223497A (zh) * | 2020-01-06 | 2020-06-02 | 苏州思必驰信息科技有限公司 | 一种终端的就近唤醒方法、装置、计算设备及存储介质 |
| CN111223497B (zh) * | 2020-01-06 | 2022-04-19 | 思必驰科技股份有限公司 | 一种终端的就近唤醒方法、装置、计算设备及存储介质 |
| WO2025057726A1 (ja) * | 2023-09-13 | 2025-03-20 | 清美 瀧澤 | 翻訳サーバ、翻訳システム及び翻訳方法 |
| WO2025057725A1 (ja) * | 2023-09-13 | 2025-03-20 | 清美 瀧澤 | 第1の利用者側装置、翻訳システム及び翻訳方法 |
| JP2025041371A (ja) * | 2023-09-13 | 2025-03-26 | 瀧沢 清美 | 第1の利用者側装置、翻訳システム及び翻訳方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20190043530A1 (en) | 2019-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9196247B2 (en) | Voice recognition method and voice recognition apparatus | |
| US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
| JP4264841B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム | |
| JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
| US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
| US20080044048A1 (en) | Modification of voice waveforms to change social signaling | |
| JP5593244B2 (ja) | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 | |
| EP4196978B1 (en) | Automatic detection and attenuation of speech-articulation noise events | |
| US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
| US20140019125A1 (en) | Low band bandwidth extended | |
| JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
| EP4128225B1 (en) | Noise supression for speech enhancement | |
| JP2011248025A (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
| US10446173B2 (en) | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program | |
| JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
| US7627468B2 (en) | Apparatus and method for extracting syllabic nuclei | |
| JP2019032400A (ja) | 発話判定プログラム、発話判定方法、及び発話判定装置 | |
| US20150255087A1 (en) | Voice processing device, voice processing method, and computer-readable recording medium storing voice processing program | |
| JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
| WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
| JP2015087557A (ja) | 発話様式検出装置および発話様式検出方法 | |
| Lipeika | Optimization of formant feature based speech recognition | |
| JPH07295588A (ja) | 発話速度推定方法 | |
| JP2019028300A (ja) | 音響信号処理装置、方法及びプログラム | |
| JPWO2009025142A1 (ja) | 話者速度変換システムおよびその方法ならびに速度変換装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200514 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210326 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210406 |
|
| A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20210831 |