JP2018081277A

JP2018081277A - 音声区間検出方法、音声区間検出装置および音声区間検出プログラム

Info

Publication number: JP2018081277A
Application number: JP2016225248A
Authority: JP
Inventors: 千里塩田; Chisato Shioda; 鷲尾　信之; Nobuyuki Washio; 信之鷲尾; 鈴木　政直; Masanao Suzuki; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2018-05-24
Anticipated expiration: 2036-11-18
Also published as: JP6750469B2

Abstract

【課題】発話の音声区間を正確に検出すること。【解決手段】音声区間検出装置１００は、入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定する。音声区間検出装置１００は、継続長が基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、入力音の特徴量を平滑化することで特徴量の平滑化値を算出する。音声区間検出装置１００は、継続長が基準長未満である場合には、第１平滑化量よりも弱い第２平滑化量に基づいて、入力音の特徴量を平滑化することで特徴量の平滑化値を算出する。音声区間検出装置１００は、平滑化値を基にして、入力音の音声区間を検出する。【選択図】図１

Description

本発明は、音声区間検出方法等に関する。

発話を含む音響信号から音声区間を検出し、検出した音声区間に対して機械翻訳等を実行する音声翻訳技術がある。ここで、音声区間が適切でない場合には、正しい翻訳結果を得ることができないので、音声区間を正しく検出することが求められている。

音声区間を検出する従来技術の一例について説明する。図１７は、従来技術の一例を説明するための図である。従来技術は、音響信号からＳＮＲ（Signal-to-Noise Ratio）等の特徴量を抽出し、特徴量に基づいて、音声区間を検出する。一般的に、特徴量の瞬時値を用いると、雑音の影響を受けやすく、音声区間を誤検出する場合がある。

このため、従来技術は、特徴量の瞬時値に対する平滑化を行うことで平滑化値を算出し、平滑化値と閾値との比較を行い、平滑化値が閾値を超える区間を音声区間として検出する。図１７に示す例では、横軸が時間に対応する軸であり、縦軸が特徴量に対応する軸である。線１０ａは、特徴点の瞬時値と時間との関係を示すものである。線１０ｂは、特徴点の平滑化値と時間との関係を示すものである。平滑化値が、時刻ｔ_１１〜ｔ_１２の間で閾値Ｔ以上となるため、従来技術は、時刻ｔ_１１〜ｔ_１２の区間を、音声区間と判定する。

特開平１１−１３３９９７号公報

しかしながら、上述した従来技術では、音声区間を正確に検出できないという問題がある。

従来技術は、平滑化量を一定にして、特徴量の平滑化を行っている。このため、従来技術では、短い発話の場合には、平滑化値が十分大きくなる前に、発話が終わってしまい、平滑化値が閾値を超えないため、音声区間を検出することができない。

図１８は、従来技術の問題を説明するための図である。図１８に示す例では、横軸が時間に対応する軸であり、縦軸が特徴量に対応する軸である。線１１ａは、特徴点の瞬時値と時間との関係を示すものである。線１１ｂは、特徴点の平滑化値と時間との関係を示すものである。図１７のものと比較すると、発話が短いため、平滑化値１１ｂが閾値Ｔを超えず、音声区間を検出できない。

なお、単純に、平滑化量を弱くして、特徴量の平滑化を行うと、発話だけでなく雑音を音声区間と誤判定してしまう場合がある。

１つの側面では、本発明は、音声区間を正確に検出できる音声区間検出方法、音声区間検出装置および音声区間検出プログラムを提供することを目的とする。

第１の案では、コンピュータが下記の処理を実行する。コンピュータは、入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定する。コンピュータは、継続長が基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、入力音の特徴量を平滑化することで特徴量の平滑化値を算出する。コンピュータは、継続長が基準長未満である場合には、第１平滑化量よりも弱い第２平滑化量に基づいて、入力音の特徴量を平滑化することで特徴量の平滑化値を算出する。コンピュータは、平滑化値を基にして、入力音の音声区間を検出する。

発話の継続長によらず、発話の音声区間を正確に検出することができる。

図１は、本実施例１に係る翻訳システムの一例を示す図である。図２は、本実施例１に係る音声区間検出装置の構成を示す機能ブロック図である。図３は、本実施例１に係る平滑化値テーブルのデータ構造の一例を示す図である。図４は、本実施例１に係る音声区間検出装置の処理手順を示すフローチャート（１）である。図５は、本実施例１に係る音声区間検出装置の処理手順を示すフローチャート（２）である。図６は、本実施例１に係る音声区間検出装置の処理手順を示すフローチャート（３）である。図７は、本実施例２に係る音声検出装置の構成を示す機能ブロック図である。図８は、平滑化値テーブルのデータ構造の一例を示す図である。図９は、学習係数特定テーブルのデータ構造の一例を示す図である。図１０は、閾値特定テーブルのデータ構造の一例を示す図である。図１１は、本実施例２に係る音声区間検出装置の処理手順を示すフローチャート（１）である。図１２は、本実施例２に係る音声区間検出装置の処理手順を示すフローチャート（２）である。図１３は、本実施例２に係る音声区間検出装置の処理手順を示すフローチャート（３）である。図１４は、音の内容と特徴量との関係を示す図である。図１５は、検出部のその他の処理を説明するための図である。図１６は、音声区間検出装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１７は、従来技術の一例を説明するための図である。図１８は、従来技術の問題を説明するための図である。

以下に、本願の開示する音声区間検出方法、音声区間検出装置および音声区間検出プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係る翻訳システムの一例を示す図である。図１に示すように、この翻訳システムは、マイク５０と、音声区間検出装置１００と、音声翻訳サーバ６０とを有する。マイク５０は、音声区間検出装置１００に接続される。音声区間検出装置１００は、音声翻訳サーバ６０に接続される。

マイク５０は、音を集音し、集音した音の情報を、音声区間検出装置１００に入力する装置である。以下の説明では、マイク５０が集音した音の情報を「音情報」と表記する。

音声区間検出装置１００は、音情報の特徴量を基にして、音情報に含まれる音声区間を検出する装置である。音声区間検出装置１００は、音声区間の情報を、音声翻訳サーバ６０に送信することで、翻訳を依頼する。音声区間検出装置１００は、音声翻訳サーバ６０から翻訳結果を受信すると、翻訳結果を図示しないスピーカ等から出力する。

音声翻訳サーバ６０は、音声区間検出装置１００から受信する音声区間の情報に対して音声認識を行い、音声認識の結果を基にして、機械翻訳を実行する装置である。音声翻訳サーバ６０は、機械翻訳の結果を、音声区間検出装置１００に送信する。

図１に示した音声区間検出装置１００の構成の一例について説明する。図２は、本実施例１に係る音声区間検出装置の構成を示す機能ブロック図である。図２に示すように、この音声区間検出装置１００は、通信部１１０ａと、インタフェース部１１０ｂと、記憶部１２０と、制御部１３０とを有する。

通信部１１０ａは、音声翻訳サーバ６０とデータ通信を行う処理部である。通信部１１０ａは、ＮＩＣ（Network Interface Card）等の通信装置に対応する。後述する制御部１３０は、通信部１１０ａを介して、音声翻訳サーバ６０とデータをやり取りする。

インタフェース部１１０ｂは、マイク５０に接続され、マイク５０から音情報を取得する装置である。後述する制御部１３０は、インタフェース部１１０ｂを介して、音情報を取得する。

記憶部１２０は、バッファ１２１と、平滑化値テーブル１２２とを有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

バッファ１２１は、マイク５０から取得する音情報を格納するバッファである。

平滑化値テーブル１２２は、音情報の特徴量を異なる学習計数αによって平滑化した平滑化値を保持するテーブルである。例えば、学習係数α_１によって特徴量を平滑化した平滑値を「第１平滑化値」と表記する。学習係数α_２によって特徴量を平滑化した平滑値を「第２平滑値」と表記する。

図３は、本実施例１に係る平滑化値テーブルのデータ構造の一例を示す図である。図３に示すように、この平滑化値テーブル１２２は、フレーム番号と、第１平滑化値と、第２平滑化値とを対応付ける。フレーム番号は、時系列の各フレームを一意に識別する情報である。後述するように、フレームは、音情報を所定の時間幅で分割した情報である。例えば、フレーム長を「２０ｍｓ」とする。

制御部１３０は、受付部１３１と、特徴量算出部１３２と、判定部１３３と、算出部１３４と、検出部１３５と、出力部１３６とを有する。制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１３０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

受付部１３１は、マイク５０から音情報を受け付け、受け付けた音情報をバッファ１２１に格納する処理部である。受付部１３１は、マイク５０から音情報を受け付ける度に、受け付けた音情報をバッファ１２１に格納する。

特徴量算出部１３２は、バッファ１２１から音情報を取得し、フレーム毎に音情報の特徴量を算出する処理部である。特徴量算出部１３２は、特徴量の情報を、判定部１３３および算出部１３４に出力する。例えば、特徴量算出部１３２は、音情報のＳＮＲ（Signal-to-Noise Ratio）を特徴量として算出する。

特徴量算出部１３２は、音情報を所定の時間幅で分割した各フレームに対して処理を行う。特徴量算出部１３２は、入力電力を算出する処理、背景雑音レベルを推定する処理、ＳＮＲを推定する処理を順に実行する。

特徴量算出部１３２が入力電力を算出する処理について説明する。特徴量算出部１３２は、ｋ番目のフレームの音声の電力（値）Ｓｐｏｗ（ｋ）を、式（１）に基づいて算出する。式（１）において、Ｓ_ｋ（ｎ）は、ｋ番目のフレームに含まれる各サンプル点の入力音の電力のうち、ｎ番目の入力音の電力を示す。なお、特徴点算出部１３２は、音情報を帯域分割し、帯域毎の電力を算出しても良い。以下では、帯域分割数１の場合について説明する。

特徴量算出部１３２が背景雑音レベルを推定する処理について説明する。特徴点算出部１３２は、音情報の各フレームを用いて背景雑音レベルを推定する。ただし、特徴量算出部１３２は、非音声区間となるフレームを用いて、背景雑音推定を行う。

例えば、特徴量算出部１３２は、式（２）に基づいて、ｋ番目のフレームの背景雑音レベルＮｏｉｓｅ（ｋ）を算出する。式（２）において、Ｓｐｏｗ（ｋ）は、非音声区間となるフレームについて、式（１）により算出される値である。Ｎｏｉｓｅ（ｋ−１）は、ｋ−１番目のフレームの背景雑音レベルを示す。なお、Ｎｏｉｓｅ（０）は、予め管理者に設定された値となる。βは、０以上１未満の定数となる。

特徴量算出部１３２がＳＮＲを推定する処理について説明する。特徴量算出部１３２は、ｋ番目のフレームのＳＮＲを、式（３）に基づいて算出する。式（３）において、Ｓｐｏｗ（ｋ）は、式（１）により算出される値である。Ｎｏｉｓｅ（ｋ）は、式（２）により算出される値である。

判定部１３３は、音情報の特徴量が連続して閾値Ｔｈ_ｓｎｒ以上となる区間を示す継続長が基準値以上であるか否かを判定する処理部である。判定部１３３は、判定結果を、検出部１３５に出力する。具体的に、判定部１３３は、有音無音を判定する処理と、継続長をカウントする処理、継続長と基準値とを比較する処理を実行する。

判定部１３３が、有音無音を判定する処理について説明する。判定部１３３は、特徴量と閾値Ｔｈ_ｓｎｒとを比較して、現フレームが有音か無音かを判定する。例えば、判定部１３３は、ｋ番目のフレームの特徴量が、閾値Ｔｈ_ｓｎｒ以上である場合には、ｋ番目のフレームに対する有音判定結果を「１」に設定する。一方、判定部１３３は、ｋ番目のフレームの特徴量が、閾値Ｔｈ_ｓｎｒ未満である場合には、ｋ番目のフレームに対する有音判定結果を「０」に設定する。

判定部１３３が継続長をカウントする処理について説明する。判定部１３３は、ｋ−１番目のフレームの有音判定結果が「０」の場合には、ｋ番目のフレームにおける継続長を「０」に設定する。判定部１３３は、ｋ−１番目のフレームの有音判定結果が「１」の場合には、ｋ−１番目のフレームにおける継続長に１を加算したものを、ｋ番目のフレームにおける継続長に設定する。

判定部１３３が継続長と基準値とを比較する処理について説明する。判定部１３３は、基準値ＴＴＬ、基準値ＴＴＭを用いる。基準値ＴＴＬおよび基準値ＴＴＭの大小関係を「基準値ＴＴＬ＞基準値ＴＴＭ」とし、例えば基準値ＴＴＬを４００ｍｓ、基準値ＴＴＭを２００ｍｓとする。判定部１３３は、ｋ番目のフレームの継続長が、基準値ＴＴＬ以上であるか、基準値ＴＴＬ未満かつ基準値ＴＴＭ以上であるか、基準値ＴＴＭ未満であるかの判定結果を、検出部１３５に出力する。

なお、判定部１３３は、ｋ番目のフレームに対する有音判定結果を「０」に設定する度に、有音判定結果を「０」に設定した旨を検出部１３５に出力する。

算出部１３４は、学習係数αを用いて、フレーム毎の特徴量を平滑化することで、フレーム毎の平滑化値を算出する処理部である。例えば、算出部１３４は、式（４）に基づいて、ｋ番目のフレームの平滑化値を算出する。学習係数αが小さいほど、ｋ番目のフレームの重みが小さくなるため、平滑化量が強いと言える。

ｋ番目のフレームの平滑化値＝ｋ−１番目のフレームの特徴量×（１−α）＋ｋ番目のフレームの特徴量×α・・・（４）

ここで、算出部１３４は、異なる学習係数α_１，α_２を用いて、平滑化値を算出する。学習係数α_１および学習係数α_２の大小関係を「学習係数α_１＜学習係数α_２」とし、例えばα_１を０．１、α_２を０．２とする。学習係数α_１による平滑化量の方が、学習係数α_２による平滑化量よりも強いといえる。算出部１３４が、学習係数α_１を用いて算出した平滑化値を、「第１平滑化値」と表記する。算出部１３４が、学習係数α_２を用いて算出した平滑化値を、「第２平滑化値」と表記する。

算出部１３４は、フレーム毎に第１平滑化値および第２平滑化値を算出し、算出結果を平滑化値テーブル１２２に格納する。

検出部１３５は、平滑化値を基にして、音声区間を検出する処理部である。検出部１３５は、判定部１３３の判定結果を基にして、閾値および平滑化値を切り替えて、音声区間の開始フレームを検出する。検出部１３５は、閾値ＴＶＬまたは閾値ＴＶＭを用いる。閾値ＴＶＬまたは閾値ＴＶＭの大小関係を「閾値ＴＶＬ＜閾値ＴＶＭ」とする。

判定部１３３の判定結果が「ｋ番目のフレームの継続長が基準値ＴＴＬ以上である」場合の検出部１３５の処理について説明する。検出部１３５は、ｋ番目のフレームの第１平滑化値を、平滑化値テーブル１２２から取得する。検出部１３５は、取得した第１平滑化値と、閾値ＴＶＬとを比較し、第１平滑化値が閾値ＴＶＬ以上の場合に、ｋ番目のフレームが、音声区間の開始フレームであると判定する。一方、検出部１３５は、第１平滑化値が閾値ＴＶＬ未満の場合に、ｋ番目のフレームは、開始フレームでないと判定する。

判定部１３３の判定結果が「基準値ＴＴＬ未満かつ基準値ＴＴＭ以上である」場合の検出部１３５の処理について説明する。検出部１３５は、ｋ番目のフレームの第２平滑化値を、平滑化値テーブル１２２から取得する。検出部１３５は、取得した第２平滑化値と、閾値ＴＶＭとを比較し、第２平滑化値が閾値ＴＶＭ以上の場合に、ｋ番目のフレームが、音声区間の開始フレームであると判定する。一方、検出部１３５は、第２平滑化値が閾値ＴＶＭ未満の場合に、ｋ番目のフレームは、開始フレームでないと判定する。

判定部１３３の判定結果が「基準値ＴＴＭ未満である」場合の検出部１３５の処理について説明する。この場合には、検出部１３５は、ｋ番目のフレームは、開始フレームでないと判定する。

続いて、検出部１３５は、開始フレームを検出した後に、終了フレームの検出を行う。例えば、検出部１３５は、開始フレームを検出した後に、判定部１３３から、有音判定結果を「０」に設定した旨の通知を受ける回数をカウントし、カウントした回数が、閾値以上となった時点のフレームを、終了フレームとして検出する。検出部１３５は、開始フレームから終了フレームまでの音情報を、バッファ１２１から取得し、取得した音情報を、音声翻訳サーバ６０に送信することで、翻訳を依頼する。

出力部１３６は、音声翻訳サーバ６０から翻訳結果を受信した場合に、翻訳結果を音声に変換して、出力する処理部である。

次に、本実施例１に係る音声区間検出装置１００の処理手順について説明する。図４、図５および図６は、本実施例１に係る音声区間検出装置の処理手順を示すフローチャートである。図４に示すように、音声区間検出装置１００の特徴量算出部１３２は、バッファ１２１からフレームを取得する（ステップＳ１０１）。

特徴量算出部１３２は、特徴量を算出する（ステップＳ１０２）。音声区間検出装置１００の算出部１３４は、平滑化値を算出する（ステップＳ１０３）。ステップＳ１０３において、算出部１３４は、学習係数α_１を用いて第１平滑化値を算出し、学習係数α_２を用いて第２平滑化値を算出する。

音声区間検出装置１００の判定部１３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上であるか否かを判定する（ステップＳ１０４）。特徴量の瞬時値は、平滑化する前の特徴量を示すものである。

判定部１３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上でない場合には（ステップＳ１０４，Ｎｏ）、有音判定結果を「０」に設定する（ステップＳ１０５）。判定部１３３は、継続長を「０」に設定し（ステップＳ１０６）、ステップＳ１０８に移行する。

判定部１３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上の場合には（ステップＳ１０４，Ｙｅｓ）、有音判定結果を「１」に設定する（ステップＳ１０７）。音声区間検出装置１００は、音声区間の検出状態が「０」である場合には（ステップＳ１０８，Ｙｅｓ）、図５のステップＳ１０９に移行する。音声区間検出装置１００は、音声区間の検出状態が「０」でない場合には（ステップＳ１０８，Ｎｏ）、図６のステップＳ１１８に移行する。

図５の説明に移行する。音声区間検出装置１００の検出部１３５は、有音判定結果が「１」でない場合には（ステップＳ１０９，Ｎｏ）、ステップＳ１１６に移行する。一方、検出部１３５は、有音判定結果が「１」である場合には（ステップＳ１０９，Ｙｅｓ）、継続長に１を加算する（ステップＳ１１０）。検出部１３５は、継続長が閾値ＴＴＬ以上であるか否かを判定する（ステップＳ１１１）。

検出部１３５は、継続長が基準値ＴＴＬ以上でない場合には（ステップＳ１１１，Ｎｏ）、ステップＳ１１２に移行する。検出部１３５は、継続長が基準値ＴＴＬ以上である場合には（ステップＳ１１１，Ｙｅｓ）、ステップＳ１１４に移行する。

検出部１３５は、継続長が基準値ＴＴＭ以上であるか否かを判定する（ステップＳ１１２）。検出部１３５は、継続長が基準値ＴＴＭ以上でない場合には（ステップＳ１１２，Ｎｏ）、ステップＳ１１６に移行する。検出部１３５は、継続長が基準値ＴＴＭ以上である場合には（ステップＳ１１２，Ｙｅｓ）、ステップＳ１１３に移行する。

検出部１３５は、学習係数α_２で平滑化した第２平滑化値が閾値ＴＶＭ以上であるか否かを判定する（ステップＳ１１３）。検出部１３５は、学習係数α_２で平滑化した第２平滑化値が閾値ＴＶＭ以上でない場合には（ステップＳ１１３，Ｎｏ）、ステップＳ１１６に移行する。検出部１３５は、学習係数α_２で平滑化した第２平滑化値が閾値ＴＶＭ以上である場合には（ステップＳ１１３，Ｙｅｓ）、ステップＳ１１５に移行する。

検出部１３５は、学習係数α_１で平滑化した第１平滑化値が閾値ＴＶＬ以上であるか否かを判定する（ステップＳ１１４）。検出部１３５は、学習係数α_１で平滑化した第１平滑化値が閾値ＴＶＬ以上でない場合には（ステップＳ１１４，Ｎｏ）、ステップＳ１１６に移行する。検出部１３５は、学習係数α_１で平滑化した第１平滑化値が閾値ＴＶＬ以上である場合には（ステップＳ１１４，Ｙｅｓ）、音声区間の検出状態を「１」に設定する（ステップＳ１１５）。音声区間の検出状態が「１」となる先頭のフレームが、開始フレームとなる。

検出部１３５は、フレーム処理を継続しない場合には（ステップＳ１１６，Ｎｏ）、処理を終了する。検出部１３５は、フレーム処理を継続する場合には（ステップＳ１１６，Ｙｅｓ）、次のフレーム処理に移行し（ステップＳ１１７）、図４のステップＳ１０２に移行する。

図６の説明に移行する。検出部１３５は、有音判定結果が「０」であるか否かを判定する（ステップＳ１１８）。検出部１３５は、有音判定結果が「０」でない場合には（ステップＳ１１８，Ｎｏ）、図５のステップＳ１１６に移行する。

検出部１３５は、有音判定結果が「０」である場合には（ステップＳ１１８，Ｙｅｓ）、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満であるか否かを判定する（ステップＳ１１９）。検出部１３５は、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満である場合には（ステップＳ１１９，Ｙｅｓ）、ステップＳ１２０に移行する。検出部１３５は、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満でない場合には（ステップＳ１１９，Ｎｏ）、ステップＳ１２２に移行する。

検出部１３５は、継続フレーム数に１を加算する（ステップＳ１２０）。検出部１３５は、音声区間の検出状態を「１」に設定し（ステップＳ１２１）、図５のステップＳ１１６に移行する。

検出部１３５は、継続フレーム数を「０」に設定する（ステップＳ１２２）。検出部１３５は、音声区間の検出状態を「０」に設定し（ステップＳ１２３）、図５のステップＳ１１６に移行する。

次に、本実施例１に係る音声区間検出装置１００の効果について説明する。音声区間検出装置１００は、音情報の継続長が基準値ＴＴＬ以上である場合に、基準の平滑化量よりも強い平滑化量で平滑化された第１平滑化値と閾値ＴＶＬとを基にして音声区間を検出する。一方、音声区間検出装置１００は、音情報の継続長が基準値ＴＴＬ未満かつ基準値ＴＴＭ以上である場合に、基準の平滑化量よりも弱い平滑化量で平滑化された第２平滑化値と閾値ＴＶＭとを基にして音声区間を検出する。このように、発話の長さを示す継続長に応じて、平滑化量を調整して平滑化を行い音声区間の検出を試みるため、継続長によらず、音声区間を正しく検出することができる。

また、音声区間検出装置１００は、音情報の継続長に応じて、閾値ＴＶＬまたは閾値ＴＶＭを選択して利用する。例えば、閾値ＴＶＬまたは閾値ＴＶＭの大小関係を「閾値ＴＶＬ＜閾値ＴＶＭ」とする。音情報の継続長が基準値ＴＴＬ以上である場合には、平滑化量が強くなるため、音声区間の取りこぼしを抑止するため、基準より小さい閾値ＴＶＬを用いる。一方、音情報の継続長が基準値ＴＴＬ以上である場合には、平滑化量が弱くなるため、雑音の誤検出を抑止するため、基準より大きい閾値ＴＶＭを用いる。これにより、音声区間を正しく検出することができる。

次に、本実施例２に係る音声区間検出装置について説明する。図示を省略するが、本実施例２に係る音声区間検出装置は、図１の音声区間検出装置１００と同様にして、マイク５０および音声翻訳サーバ６０に接続されるものとする。マイク５０および音声翻訳サーバ６０に関する説明は、実施例１で説明した内容と同様である。

図７は、本実施例２に係る音声検出装置の構成を示す機能ブロック図である。図７に示すように、この音声検出装置２００は、通信部２１０ａと、インタフェース部２１０ｂと、記憶部２２０と、制御部２３０とを有する。通信部２１０ａおよびインタフェース部２１０ｂに関する説明は、図２の通信部１１０ａおよびインタフェース部１１０ｂに関する説明と同様である。

記憶部２２０は、バッファ２２１と平滑化値テーブル２２２とを有する。記憶部２２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

バッファ２２１は、マイク５０から取得する音情報を格納するバッファである。

平滑化値テーブル２２２は、音情報の特徴量を学習係数αによって平滑化した平滑化値を保持するテーブルである。後述するように、本実施例２に係る学習係数αは、継続長に応じて変化する。図８は、平滑化値テーブルのデータ構造の一例を示す図である。図８に示すように、この平滑化値テーブルは、フレーム番号と、平滑化値とを対応付ける。フレーム番号は、時系列の各フレームを一意に識別する情報である。平滑化値は、各フレームの平滑化値である。

制御部２３０は、受付部２３１と、特徴量算出部２３２と、判定部２３３と、算出部２３４と、検出部２３５と、出力部２３６とを有する。制御部２３０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２３０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部２３１は、マイク５０から音情報を受け付け、受け付けた音情報をバッファ２２１に格納する処理部である。受付部２３１は、マイク５０から音情報を受け付ける度に、受け付けた音情報をバッファ２２１に格納する。

特徴量算出部２３２は、バッファ２２１から音情報を取得し、フレーム毎に音情報の特徴量を算出する処理部である。特徴量算出部２３２は、特徴量の情報を、判定部２３３および算出部２３４に出力する。例えば、特徴量算出部２３２は、音情報のＳＮＲ（Signal-to-Noise Ratio）を特徴量として算出する。特徴量算出部２３２が、音情報のＳＮＲを算出する処理は、特徴量算出部１３２が音情報のＳＮＲを算出する処理と同様である。

判定部２３３は、音情報の特徴量が連続して閾値Ｔｈ_ｓｎｒ以上となる区間を示す継続長が基準値以上であるか否かを判定する処理部である。判定部２３３は、判定結果を、算出部２３４に出力する。具体的に、判定部２３３は、有音無音を判定する処理と、継続長をカウントする処理、継続長と基準値とを比較する処理を実行する。このうち、判定部２３３が、有音無音を判定する処理および継続長をカウントする処理は、判定部１３３の処理と同様である。

判定部２３３が継続長と基準値とを比較する処理について説明する。判定部２３３は、基準値ＴＴＬ、基準値ＴＴＭを用いる。基準値ＴＴＬおよび基準値ＴＴＭの大小関係を「基準値ＴＴＬ＞基準値ＴＴＭ」とし、例えば基準値ＴＴＬを４００ｍｓ、基準値ＴＴＭを２００ｍｓとする。判定部２３３は、ｋ番目のフレームの継続長が、基準値ＴＴＬ以上であるか、基準値ＴＴＬ未満かつ基準値ＴＴＭ以上であるか、基準値ＴＴＭ未満であるかの判定結果を、算出部２３４に出力する。

算出部２３４は、学習係数αを用いて、フレーム毎の特徴量を平滑化することで、フレーム毎の平滑化値を算出する処理部である。算出部２３４は、算出した平滑化値を平滑化値テーブル２２２に格納する。

算出部２３４は、学習係数特定テーブルと、継続長との関係から、学習係数αを特定する。図９は、学習係数特定テーブルのデータ構造の一例を示す図である。図９の横軸は、継続長に対応する軸であり、縦軸は学習係数αに対応する軸である。図９に示すように、継続長に応じて、学習係数αの値が定まる。例えば、継続長が基準値ＴＴＬ以上である場合には、学習係数αの値は、α_２となる。継続長が基準値ＴＴＬ未満かつ基準値ＴＴＭ以上である場合には、学習係数αの値は、継続長に応じたα_１〜α_２の値となる。継続長が基準値ＴＴＭ未満である場合には、学習係数αの値は、α_１となる。

算出部２３４は、学習係数特定テーブルと継続長との関係から学習係数αを特定し、特定した学習係数αと、式（４）とを基にして、フレームの平滑化値を算出する。また、算出部２３４は、学習係数αの情報を、検出部２３５に出力する。

検出部２３５は、平滑化値テーブル２２２の平滑化値を基にして、音声区間を検出する処理部である。検出部２３５は、算出部２３４の学習係数αの算出結果を基にして閾値を特定する。検出部２３５は、特定した閾値と平滑化値とを比較して、音声区間の開始フレームを検出する。

例えば、検出部２３５は、閾値特定テーブルと学習係数との関係から閾値を特定する。図１０は、閾値特定テーブルのデータ構造の一例を示す図である。図１０の横軸は、学習係数αに対応する軸であり、縦軸は、閾値に対応する軸である。図１０に示すように、学習係数αに応じて、閾値が定まる。例えば、学習係数αがα_２以上である場合には、閾値は閾値ＴＶＭとなる。学習係数αがα_１〜α_２の場合には、学習係数αに応じた閾値ＴＶＬ〜閾値ＴＶＭの値となる。学習係数αがα_１未満である場合には、閾値は閾値ＴＶＬとなる。検出部２３５は、フレーム毎に、閾値を特定する処理を実行する。閾値ＴＶＬおよび閾値ＴＶＭの大小関係を「閾値ＴＶＬ＞閾値ＴＶＭ」とし、例えば、閾値ＴＶＭの値を「１５ｄＢ」、閾値ＴＶＬの値を「１０ｄＢ」とする。

検出部２３５は、ｋ番目のフレームについて特定した閾値と、ｋ番目のフレームの平滑化値とを比較し、平滑化値が閾値以上である場合に、ｋ番目のフレームが音声区間の開始フレームであると判定する。一方、検出部２３５は、平滑化値が閾値未満の場合には、ｋ番目のフレームは、開始フレームでないと判定する。

続いて、検出部２３５は、開始フレームを検出した後に、終了フレームの検出を行う。例えば、検出部２３５は、開始フレームを検出した後に、判定部２３３から、有音判定結果を「０」に設定した旨の通知を受ける回数をカウントし、カウントした回数が、閾値以上となった時点のフレームを、終了フレームとして検出する。検出部２３５は、開始フレームから終了フレームまでの音情報を、バッファ２２１から取得し、取得した音情報を、音声翻訳サーバ６０に送信することで、翻訳を依頼する。

出力部２３６は、音声翻訳サーバ６０から翻訳結果を受信した場合に、翻訳結果を音声に変換して、出力する処理部である。

次に、本実施例２に係る音声区間検出装置２００の処理手順について説明する。図１１、図１２および図１３は、本実施例２に係る音声区間検出装置の処理手順を示すフローチャートである。図１１に示すように、音声区間検出装置２００の特徴量算出部２３２は、バッファ２２１からフレームを取得する（ステップＳ２０１）。

特徴量算出部２３２は、特徴量を算出する（ステップＳ２０２）。音声区間検出装置２００の判定部２３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上であるか否かを判定する（ステップＳ２０３）。特徴量の瞬時値は、平滑化する前の特徴量を示すものである。

判定部２３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上でない場合には（ステップＳ２０３，Ｎｏ）、有音判定結果を「０」に設定する（ステップＳ２０４）。判定部２３３は、継続長を「０」に設定し（ステップＳ２０５）、ステップＳ２０７に移行する。

判定部２３３は、特徴量の瞬時値が閾値Ｔｈ_ｓｎｒ以上の場合には（ステップＳ２０３，Ｙｅｓ）、有音判定結果を「１」に設定する（ステップＳ２０６）。音声区間検出装置２００は、音声区間の検出状態が「０」である場合には（ステップＳ２０７，Ｙｅｓ）、図１２のステップＳ２０８に移行する。音声区間検出装置２００は、音声区間の検出状態が「１」である場合には（ステップＳ２０７，Ｎｏ）、図１３のステップＳ２１６に移行する。

図１２の説明に移行する。音声区間検出装置２００の算出部２３４は、有音判定結果が「１」でない場合には（ステップＳ２０８，Ｎｏ）、ステップＳ２１４に移行する。一方、算出部２３４は、有音判定結果が「１」である場合には（ステップＳ２０８，Ｙｅｓ）、継続長に１を加算する（ステップＳ２０９）。算出部２３４は、継続長に応じた学習係数αに基づき平滑化値を算出する（ステップＳ２１０）。

音声区間検出装置２００の検出部２３５は、学習係数αに応じた閾値を特定する（ステップＳ２１１）。検出部２３５は、平滑化値が閾値以上であるか否かを判定する（ステップＳ２１２）。検出部２３５は、平滑化値が閾値以上でない場合には（ステップＳ２１２，Ｎｏ）、ステップＳ２１４に移行する。

検出部２３５は、平滑化値が閾値以上の場合には（ステップＳ２１２，Ｙｅｓ）、音声区間の検出状態を「１」に設定する（ステップＳ２１３）。

検出部２３５は、フレーム処理を継続しない場合には（ステップＳ２１４，Ｎｏ）、処理を終了する。検出部２３５は、フレーム処理を継続する場合には（ステップＳ２１４，Ｙｅｓ）、次のフレーム処理に移行し（ステップＳ２１５）、図１１のステップＳ２０２に移行する。

図１３の説明に移行する。検出部２３５は、有音判定結果が「０」であるか否かを判定する（ステップＳ２１６）。検出部２３５は、有音判定結果が「０」でない場合には（ステップＳ２１６，Ｎｏ）、図１２のステップＳ２１４に移行する。

検出部２３５は、有音判定結果が「０」である場合には（ステップＳ２１６，Ｙｅｓ）、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満であるか否かを判定する（ステップＳ２１７）。検出部２３５は、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満である場合には（ステップＳ２１７，Ｙｅｓ）、ステップＳ２１８に移行する。検出部２３５は、保護区間の継続フレーム数が保護区間の最大継続フレーム数未満でない場合には（ステップＳ２１７，Ｎｏ）、ステップＳ２２０に移行する。

検出部２３５は、継続フレーム数に１を加算する（ステップＳ２１８）。検出部２３５は、音声区間の検出状態を「１」に設定し（ステップＳ２１９）、図１２のステップＳ２１４に移行する。

検出部２３５は、継続フレーム数を「０」に設定する（ステップＳ２２０）。検出部２３５は、音声区間の検出状態を「０」に設定し（ステップＳ２２１）、図１２のステップＳ２１４に移行する。

次に、本実施例２に係る音声区間検出装置２００の効果について説明する。音声区間検出装置２００は、音情報の継続長に応じて、平滑化量の強さを調整する。具体的には、音声区間検出装置２００は、音情報の継続長が長いほど平滑化量を強め、継続長が短いほど、平滑化量を弱めて平滑化値を算出する。これにより、継続長によらず、音声区間を正しく検出することができる。

また、音声区間検出装置２００は、音情報の平滑化量の強さを決める学習係数αに応じて、閾値の大きさを調整する。具体的に、音声区間検出装置２００は、学習係数αが大きいほど閾値の値を大きくし、学習係数αが小さいほど閾値の値を小さくする。学習係数αが大きいほど平滑化量が弱くなり、学習係数αが小さいほど平滑化量が強くなる。このため、雑音の誤検出を抑止しつつ、音声区間を正しく検出することができる。

次に、実施例１および実施例２で説明した音声区間検出装置１００，２００のその他の処理（１）〜（５）を実施例３として説明を行う。また、ここでは、図２の音声区間検出装置１００の処理部を用いて説明を行う。

その他の処理（１）について説明する。特徴量算出部１３２は、音情報の特徴量として、ＳＮＲを用いていたがこれに限定されるものではない。特徴量算出部１３２は、音情報を基にしてピッチゲインを算出し、ピッチゲインを音情報の特徴量としても良い。特徴量算出部１３２は、式（５）を基にして、ピッチゲインを算出する。ピッチゲインは、音の周期性の強さを表す値である。式（５）において、ｓ（ｎ）は、ｋ番目のフレームに含まれる各サンプル点の入力音の電力のうち、ｎ番目の入力音の電力を示す。

式（５）に含まれるＣ（ｄ）は、音情報の長期自己相関を示し、式（６）により定義される。式（６）において、遅延ｄは、ｄ_ｌｏｗからｄ_ｈｉｇｈまでの値をとる。ｄ_ｌｏｗは、遅延ｄの範囲の最小値を示す。ｄ_ｈｉｇｈは、遅延ｄの最大値を示す。ｄ_ｌｏｗおよびｄ_ｈｉｇｈの値は、基本周波数（１００〜３００Ｈｚ程度）を含むように設定される。例えば、サンプリング周波数が１６ｋＨｚの場合には、ｄ_ｌｏｗ＝４０、ｄ_ｈｉｇｈ＝２８６となる。特徴量算出部１３２は、各フレームにおいて、全ての遅延ｄについて、長期自己相関Ｃ（ｄ）を算出し、Ｃ（ｄ）が最大となるピッチ周期をｄ_ｍａｘとして、ピッチゲインを算出する。

例えば、特徴量としてピッチゲインを用いる場合には、閾値ＴＶＭの値を「０．８」とし、閾値ＴＶＭの値を「０．６」の値とする。単一の閾値を用いる場合には「０．６〜０．８」とする。

その他の処理（２）について説明する。判定部１３３は、音情報の特徴量をＳＮＲとし、ＳＮＲが連続して閾値Ｔｈ_ｓｎｒ以上となる区間を示す継続長が基準値以上であるか否かを判定することで、有音判定結果を「１」または「０」に設定していたが、これに限定されるものではない。例えば、特徴量算出部１３２が、特徴量として、ＳＮＲおよびピッチゲインを算出し、判定部１３３は、ＳＮＲおよびピッチゲインと閾値とを比較し、比較結果に基づいて、有音判定結果を「１」または「０」に設定しても良い。

図１４は、音の内容と特徴量との関係を示す図である。図１４に示すように、音の内容が「足音や打撃音等の突発音」である場合には、ＳＮＲの値は「中〜高」となり、ピッチゲインの値は「低」となる。音の内容が「人混みでの騒音」である場合には、ＳＮＲの値は「低」となり、ピッチゲインの値は「中〜高」となる。音の内容が「音声」である場合には、ＳＮＲの値およびピッチゲインの値は「高」となる。

このため、判定部１３３は、ＳＮＲが閾値Ｔｈ_ｓｎｒ１以上となり、かつ、ピッチゲインの閾値が閾値Ｔｈ_ｓｎｒ２以上となる区間を示す継続長が基準値以上である場合に、有音判定結果を「１」と設定する。一方、判定部１３３は、ＳＮＲが閾値Ｔｈ_ｓｎｒ１未満となる場合や、ピッチゲインが閾値Ｔｈ_ｓｎｒ２未満となる場合には、有音判定結果を「０」に設定する。例えば、閾値Ｔｈ_ｓｎｒ１を「１０ｄＢ〜１５ｄＢ」の値とし、閾値Ｔｈ_ｓｎｒ２を「０．６〜０．８」の値とする。

このように、特徴量算出部１３２が、ＳＮＲおよびピッチゲインを算出し、判定部１３３が、ＳＮＲおよびピッチゲインを用いて、音声の区間を判定することで、突発音がある条件でも、人混みの条件でも、音声区間を正しく検出することができる。

その他の処理（３）について説明する。検出部１３５は、過去フレームの特徴量と、継続長に基づいて、閾値を算出しても良い。例えば、検出部１３５は、式（７）に基づいて、閾値を算出しても良い。式（７）において、基本閾値は、現フレームから所定フレーム前までの特徴量の平均値である。もしくは、この平均値を求める際、有音判定結果が０と判定された区間のみから求め、定数を加えた値を基本閾値としても良い。補正量は、継続長に基づいて変化する値である。継続長が所定継続長以上の場合には、補正量は、第１補正量となり、継続長が所定継続長未満である場合には、補正量は、第２補正量となる。

閾値＝基本閾値＋補正量・・・（７）

第１補正量および第２補正量の大小関係を「第１補正量＜第２補正量」とし、特徴量がＳＮＲである場合には、例えば、第１補正量は「０ｄＢ」、第２補正量は「５ｄＢ」とし、特徴量がピッチゲインである場合には、例えば、第１補正量は「０．０」、第２補正量は「０．２」とする。

その他の処理（４）について説明する。算出部１３４は、学習係数αを変えることで、第１平滑化値および第２平滑化値を算出していたが、これに限定されるものではない。算出部１３４は、平滑化フィルタ長を調整することで、第１平滑化値および第２平滑化値を算出しても良い。平滑化フィルタ長が長いほど、平滑化対象のフレームの値がより平滑化されるため、平滑化量が強いと言える。

例えば、算出部１３４は、平滑化フィルタ長ＦＬｌ（４００ｍｓ）によって、第１平滑化値を算出する。例えば、算出部１３４は、ｋ番目のフレームの特徴量を平滑化する場合には、ｋ番目のフレームを含む範囲４００ｍｓのフレームの特徴量を平均化することで、第１平滑化値を算出する。

例えば、算出部１３４は、平滑化フィルタ長ＦＬｍ（２００ｍｓ）によって、第２平滑化値を算出する。例えば、算出部１３４は、ｋ番目のフレームの特徴量を平滑化する場合には、ｋ番目のフレームを含む範囲２００ｍｓのフレームの特徴量を平均化することで、第２平滑化値を算出する。

なお、検出部１３５は、平滑化フィルタ長ＦＬに応じて、動的に閾値を切り替えて、開始フレーム長を検出しても良い。

その他の処理（５）について説明する。検出部１３５は、音声区間を検出する場合に、音情報の特徴量の瞬時値が閾値以上となる時刻から、開始フレームの時刻までの情報を、遅延量として、音声翻訳サーバ６０に通知しても良い。

図１５は、検出部のその他の処理を説明するための図である。図１５において、横軸は時間に対応する軸であり、縦軸は特徴量に対応する軸である。線４０ａは、特徴量の瞬時値を示す。線４０ｂは、特徴量の平滑化値を示す。時刻ｔ_１は、特徴量の瞬時値が最初に閾値以上となる時刻である。時刻ｔ_２は、開始フレームの時刻である。時刻ｔ_３は、終了フレームの時刻である。

この場合には、検出部１３５は、時刻ｔ_１〜時刻ｔ_２の情報を、遅延量Ｄとして、音声翻訳サーバ６０に通知する。音声翻訳サーバ６０は、時刻ｔ_１〜時刻ｔ_３までの音情報を、音声認識する区間として、機械翻訳を実行する。このように、検出部１３５が、遅延量Ｄを、音声翻訳サーバ６０に通知することで、語頭の翻訳が漏れることを抑止することができる。

続いて、雑音入り音情報に対する音声区間の検出率と誤検出率の評価結果について説明する。この評価では、評価対象とする６０の発話を、音情報に含めて検出を行った。６０の発話のうち、４０の発話を継続長の長い発話、２０の発話を継続長の短い発話とする。

次に、上記実施例に示した音声区間検出装置１００，２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１６は、音声区間検出装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１６に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１〜３０７は、バス３０８に接続される。

ハードディスク装置３０７は、受付プログラム３０７ａ、特徴量算出プログラム３０７ｂ、判定プログラム３０７ｃ、算出プログラム３０７ｄ、検出プログラム３０７ｅ、出力プログラム３０７ｆを有する。ＣＰＵ３０１は、受付プログラム３０７ａ、特徴量算出プログラム３０７ｂ、判定プログラム３０７ｃ、算出プログラム３０７ｄ、検出プログラム３０７ｅ、出力プログラム３０７ｆを読み出してＲＡＭ３０６に展開する。

受付プログラム３０７ａは、受付プロセス３０６ａとして機能する。特徴量算出プログラム３０７ｂは、特徴量算出プロセス３０６ｂとして機能する。判定プログラム３０７ｃは、判定プロセス３０６ｃとして機能する。算出プログラム３０７ｄは、算出プロセス３０６ｄとして機能する。検出プログラム３０７ｅは、検出プロセス３０６ｅとして機能する。出力プログラム３０７ｆは、出力プロセス３０６ｆとして機能する。

受付プロセス３０６ａの処理は、受付部１３１、２３１の処理に対応する。特徴量算出プロセス３０６ｂの処理は、特徴量算出部１３２，２３２の処理に対応する。判定プロセス３０６ｃの処理は、判定部１３３，２３３の処理に対応する。算出プロセス３０６ｄの処理は、算出部１３４，２３４の処理に対応する。検出プロセス３０６ｅの処理は、検出部１３５，２３５の処理に対応する。出力プロセス３０６ｆの処理は、出力部１３６，２３６の処理に対応する。

なお、各プログラム３０７ａ〜３０７ｆについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ〜３０７ｆを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータが実行する音声区間検出方法であって、
入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定し、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記平滑化値を基にして、前記入力音の音声区間を検出する
処理を実行することを特徴とする音声区間検出方法。

（付記２）前記音声区間を検出する処理は、前記継続長が前記基準長以上である場合には、基準の閾値よりも値を小さくした第１閾値と前記平滑化値とを比較して音声区間を検出し、前記継続長が前記基準長未満である場合には、基準の閾値よりも値を大きくした第２閾値と前記平滑化値とを比較して音声区間を検出することを特徴とする付記１に記載の音声区間検出方法。

（付記３）前記音声区間を検出する処理は、過去の入力音の特徴量の平均値と、前記継続長に基づく補正値とを基にして閾値を算出し、算出した閾値と前記平滑化値とを比較して音声区間を検出すること特徴とする付記１に記載の音声区間検出方法。

（付記４）前記音声区間を検出する処理は、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第１閾値以上となる時刻までの区間の情報または、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第２閾値以上となる時刻の情報を更に検出することを特徴とする付記１、２または３に記載の音声区間検出方法。

（付記５）前記入力音の特徴量は、前記入力音のＳＮＲ（Signal-to-Noise Ratio）または前記入力音のピッチゲインであることを特徴とする付記１〜４のいずれか一つに記載の音声区間検出方法。

（付記６）入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定する判定部と、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出する算出部と、
前記平滑化値を基にして、前記入力音の音声区間を検出する検出部と
を有することを特徴とする音声区間検出装置。

（付記７）前記検出部は、前記継続長が前記基準長以上である場合には、基準の閾値よりも値を小さくした第１閾値と前記平滑化値とを比較して音声区間を検出し、前記継続長が前記基準長未満である場合には、基準の閾値よりも値を大きくした第２閾値と前記平滑化値とを比較して音声区間を検出することを特徴とする付記６に記載の音声区間検出装置。

（付記８）前記検出部は、過去の入力音の特徴量の平均値と、前記継続長に基づく補正値とを基にして閾値を算出し、算出した閾値と前記平滑化値とを比較して音声区間を検出すること特徴とする付記６に記載の音声区間検出装置。

（付記９）前記検出部は、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第１閾値以上となる時刻までの区間の情報または、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第２閾値以上となる時刻の情報を更に検出することを特徴とする付記６、７または８に記載の音声区間検出装置。

（付記１０）前記入力音の特徴量は、前記入力音のＳＮＲ（Signal-to-Noise Ratio）または前記入力音のピッチゲインであることを特徴とする付記６〜９のいずれか一つに記載の音声区間検出装置。

（付記１１）コンピュータに、
入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定し、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記平滑化値を基にして、前記入力音の音声区間を検出する
処理を実行させることを特徴とする音声区間検出プログラム。

（付記１２）前記音声区間を検出する処理は、前記継続長が前記基準長以上である場合には、基準の閾値よりも値を小さくした第１閾値と前記平滑化値とを比較して音声区間を検出し、前記継続長が前記基準長未満である場合には、基準の閾値よりも値を大きくした第２閾値と前記平滑化値とを比較して音声区間を検出することを特徴とする付記１１に記載の音声区間検出プログラム。

（付記１３）前記音声区間を検出する処理は、過去の入力音の特徴量の平均値と、前記継続長に基づく補正値とを基にして閾値を算出し、算出した閾値と前記平滑化値とを比較して音声区間を検出すること特徴とする付記１１に記載の音声区間検出プログラム。

（付記１４）前記音声区間を検出する処理は、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第１閾値以上となる時刻までの区間の情報または、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第２閾値以上となる時刻の情報を更に検出することを特徴とする付記１１、１２または１３に記載の音声区間検出プログラム。

（付記１５）前記入力音の特徴量は、前記入力音のＳＮＲ（Signal-to-Noise Ratio）または前記入力音のピッチゲインであることを特徴とする付記１１〜１４のいずれか一つに記載の音声区間検出プログラム。

５０マイク
６０音声翻訳サーバ
１００，２００音声区間検出装置
１１０ａ，２１０ａ通信部
１１０ｂ，２１０ｂインタフェース部
１２０，２２０記憶部
１２１，２２１バッファ
１２２，２２２平滑化値テーブル
１３０，２３０制御部
１３１，２３１受付部
１３２，２３２特徴量算出部
１３３，２３３判定部
１３４，２３４算出部
１３５，２３５検出部
１３６，２３６出力部

Claims

コンピュータが実行する音声区間検出方法であって、
入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定し、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記平滑化値を基にして、前記入力音の音声区間を検出する
処理を実行することを特徴とする音声区間検出方法。
前記音声区間を検出する処理は、前記継続長が前記基準長以上である場合には、基準の閾値よりも値を小さくした第１閾値と前記平滑化値とを比較して音声区間を検出し、前記継続長が前記基準長未満である場合には、基準の閾値よりも値を大きくした第２閾値と前記平滑化値とを比較して音声区間を検出することを特徴とする請求項１に記載の音声区間検出方法。
前記音声区間を検出する処理は、過去の入力音の特徴量の平均値と、前記継続長に基づく補正値とを基にして閾値を算出し、算出した閾値と前記平滑化値とを比較して音声区間を検出すること特徴とする請求項１に記載の音声区間検出方法。
前記音声区間を検出する処理は、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第１閾値以上となる時刻までの区間の情報または、前記入力音の特徴量が閾値以上となる時刻から前記平滑化値が第２閾値以上となる時刻の情報を更に検出することを特徴とする請求項１、２または３に記載の音声区間検出方法。
前記入力音の特徴量は、前記入力音のＳＮＲ（Signal-to-Noise Ratio）または前記入力音のピッチゲインであることを特徴とする請求項１〜４のいずれか一つに記載の音声区間検出方法。
入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定する判定部と、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出する算出部と、
前記平滑化値を基にして、前記入力音の音声区間を検出する検出部と
を有することを特徴とする音声区間検出装置。
コンピュータに、
入力音の特徴量が連続して閾値以上となる区間を示す継続長が基準長以上であるか否かを判定し、
前記継続長が前記基準長以上である場合には、基準の平滑化量よりも強い第１平滑化量により、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記継続長が前記基準長未満である場合には、前記第１平滑化量よりも弱い第２平滑化量に基づいて、前記入力音の特徴量を平滑化することで前記特徴量の平滑化値を算出し、
前記平滑化値を基にして、前記入力音の音声区間を検出する
処理を実行させることを特徴とする音声区間検出プログラム。