JP2008158315A

JP2008158315A - 音信号処理装置およびプログラム

Info

Publication number: JP2008158315A
Application number: JP2006347788A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-12-25
Filing date: 2006-12-25
Publication date: 2008-07-10

Abstract

【課題】発音区間の特定の精度を向上する。
【解決手段】特徴量算定部５４は、音解析装置８０が音信号Ｓの解析に使用する特徴量Ｃを音信号Ｓの各フレームＦについて順次に算定する。フレーム情報生成部５６は、音信号Ｓの各フレームＦについてフレーム情報Ｆ_HISTを生成して記憶部６４に格納する。第１区間特定部３０は、音信号Ｓについて発音区間Ｐ1を特定する。出力制御部６２は、発音区間Ｐ1の各フレームＦの特徴量Ｃを順次に音解析装置８０に出力する。第２区間特定部４０は、発音区間Ｐ1を短縮した発音区間Ｐ2を、記憶部６４に格納されたフレーム情報Ｆ_HISTに基づいて特定して音解析装置８０に通知する。
【選択図】図１

Description

本発明は、音声や楽音といった各種の音を示す信号（以下「音信号」という）を処理する技術に関し、特に、音信号のうち実際に所期の音が発音されている区間（以下「発音区間」という）を特定する技術に関する。

音声認識や音声認証（話者認証）などの音声解析においては音信号を発音区間と非発音区間（環境に応じた雑音のみが存在する区間）とに区分する技術が利用される。例えば、音信号のＳ/Ｎ比が所定の閾値を上回る区間が発音区間として特定される。また、特許文献１には、音信号を区分した各区間のＳ/Ｎ比と過去に非発音区間と判定された区間のＳ/Ｎ比とを比較することで各区間が発音区間および非発音区間の何れに該当するかを判別する技術が開示されている。
特開２００１−２６５３６７号公報

しかし、特許文献１の技術においては、音信号の各区間のＳ/Ｎ比と過去の非発音区間におけるＳ/Ｎ比との比較のみによって発音区間と非発音区間との区別が確定されるから、例えば発声者の咳の音やリップノイズや口中音など瞬間的な雑音が発生した区間（本来ならば非発音区間と判定されるべき区間）が発音区間として誤検出される可能性がある。以上の事情を背景として、本発明は、発音区間の特定の精度を向上するという課題の解決を目的としている。

以上の課題を解決するために、本発明のひとつの形態に係る音信号処理装置は、音解析装置が音信号の解析に使用する特徴量を音信号の各フレームについて順次に算定する特徴量算定手段と、音信号の各フレームについてフレーム情報を生成するフレーム情報生成手段と、フレーム情報生成手段が生成したフレーム情報を記憶する記憶手段と、音信号の第１発音区間（例えば図２の発音区間Ｐ1）を特定する第１区間特定手段と、第１区間特定手段が特定した第１発音区間に対応する各フレームの特徴量を、特徴量算定手段が算定した特徴量から順次に音解析装置に出力する出力制御手段と、第１発音区間を短縮した第２発音区間（例えば図２の発音区間Ｐ2）を、記憶手段が記憶するフレーム情報に基づいて特定して音解析装置に通知する第２区間特定手段とを具備する。

以上の構成によれば、各フレームのフレーム情報に基づいて第１発音区間を短縮することで第２発音区間が特定される。したがって、ひとつの段階の処理で発音区間が確定される構成（例えば第１発音区間のみが特定される構成）と比較して、発音区間の特定の精度を向上することが可能である。

また、特徴量算定手段が算定した特徴量は順次に音解析装置に出力されるから、第１発音区間に属する総てのフレームの特徴量を音信号処理装置に保持しておく必要はない。したがって、音信号処理装置の回路の規模や処理の負荷が軽減されるという効果がある。以上の効果は、各フレームのフレーム情報のデータ量が各フレームの特徴量のデータ量と比較して少ない場合に特に顕著となる。また、第２区間特定手段が特定した第２発音区間が音解析装置に通知されるから、音解析装置においては、出力制御装置から取得した特徴量のうち第２発音区間に属するフレームの特徴量を選択的に音信号の解析に利用することが可能となる。したがって、音解析装置による音信号の解析の精度が向上するという利点もある。

本発明の好適な態様において、記憶手段は、第１区間特定手段が特定した第１発音区間に対応した各フレームのフレーム情報を記憶する。本態様によれば、音信号の総てのフレームについて記憶手段がフレーム情報を記憶する構成と比較して、記憶手段に必要となる容量を削減することができる。もっとも、音信号の総てのフレームのフレーム情報が記憶手段に格納される構成を本発明の範囲から除外する趣旨ではない。

本発明の好適な態様において、出力制御手段は、第１区間特定手段が特定する第１発音区間に対応する各フレームの特徴量を音解析装置に出力する。さらに詳述すると、第１区間特定手段は、第１発音区間の始点を特定する始点特定手段と、第１発音区間の終点を特定する終点特定手段とを含み、出力制御手段は、音解析装置に対する特徴量の出力を、第１始点特定手段による始点の特定を契機として開始し、第１終点特定手段による終点の特定を契機として終了する。以上の態様によれば、特徴量算定手段が算定した特徴量のうち第１発音区間に対応した各フレームの特徴量のみが選択的に音解析装置に出力されるから、音解析装置において特徴量を保持するための容量を削減することができる。

本発明の好適な態様に係る音信号処理装置は、開始指示を取得する取得手段（例えば図３の切換部５８３）と、音信号のうち取得手段による開始指示の取得前のフレームの雑音レベルを算定する雑音レベル算定手段と、音信号のうち取得手段による開始指示の取得後の各フレームの信号レベルと雑音レベル算定手段が算定した雑音レベルとに基づいてＳ/Ｎ比を算定するＳ/Ｎ比算定手段とを具備し、第１区間特定手段は、Ｓ/Ｎ比算定手段が各フレームについて算定したＳ/Ｎ比に基づいて第１発音区間を特定する。以上の態様によれば、開始指示の取得前の各フレームを雑音として開始指示の取得後の各フレームのＳ/Ｎ比が算定されるから、第１発音区間を高精度に特定することが可能である。

フレーム情報の具体的な内容やフレーム情報に基づいて第２発音区間を特定する具体的な方法は本発明において任意であるが、例えば以下の各態様が採用される。

第１の態様において、フレーム情報は、各フレームにおける音信号の信号レベルに応じた信号指標値（例えば実施形態における信号レベルHIST_LEVELやＳ/Ｎ比Ｒ）を含む。第２区間特定手段は、第１発音区間の始点から連続する１以上のフレームおよび第１発音区間の終点から手前側に連続する１以上のフレームの少なくとも一方であって、フレーム情報に含まれる信号指標値が第１発音区間内の信号指標値の最大値に応じた閾値（例えば図６の閾値ＴＨ1）を下回るフレームを、第１発音区間内の複数のフレームから除外することで第２発音区間を特定する。

また、第１の態様において、第２区間特定手段は、第１発音区間の始点から連続する所定個のフレームにわたる信号指標値の加算値が、第１発音区間内の信号指標値の最大値に応じた閾値（例えば図６の閾値ＴＨ2）を下回る場合に、当該所定個のフレームのうち始点側の１以上のフレームを除外することで第２発音区間を特定する。同様に、第２区間特定手段は、第１発音区間の終点から手前側に連続する所定個のフレームにわたる信号指標値の加算値が、第１発音区間内の信号指標値の最大値に応じた閾値を下回る場合に、当該所定個のフレームのうち終点側の１以上のフレームを除外することで第２発音区間を特定する。

以上のように第１発音区間内の信号指標値の最大値に応じて第２発音区間を特定する構成によれば、実際の発声の区間の前後に発生する雑音（例えば発声者の咳払いやリップノイズなど）を有効に排除することが可能である。なお、第１の態様の具体例は第１実施形態として後述される。

第２の態様において、フレーム情報は、各フレームの音信号のピッチを検出した結果を示すピッチデータを含む。第２区間特定手段は、第１発音区間の始点から連続する１以上のフレームおよび第１発音区間の終点から手前側に連続する１以上のフレームの少なくとも一方であって、フレーム情報に含まれるピッチデータが非検出を示すフレームを、第１発音区間から除外することで第２発音区間を特定する。以上の態様によれば、風切音のようにピッチが明確に特定されない雑音を有効に排除することが可能である。なお、第２の態様の具体例は第２実施形態として後述される。

第３の態様において、フレーム情報は、各フレームにおける音信号のゼロクロス数を含む。第２区間特定手段は、フレーム情報に含まれるゼロクロス数が閾値を上回るフレームが第１発音区間の終点から手前側に複数のフレームにわたって連続する場合に、複数のフレームのうち始点側の所定個のフレーム以外のフレームを除外することで第２発音区間を特定する。以上の態様によれば、第１発音区間の終点から手前側の複数のフレームであってゼロクロス数が閾値を上回るフレーム（無声子音）が所定個を残して除外されるから、発声の末尾（無声子音）を所定の時間長に調整することが可能である。

本発明は、以上の各態様に係る音信号処理装置の動作方法（音信号処理方法）としても特定される。本発明のひとつの態様に係る音信号処理方法は、音解析装置が音信号の解析に使用する特徴量を音信号の各フレームについて順次に算定して順次に音解析装置に出力する一方、音信号の第１発音区間を特定し、音信号の各フレームについてフレーム情報を生成して記憶手段に記憶し、第１発音区間を短縮した第２発音区間を、記憶手段が記憶するフレーム情報に基づいて特定して音解析装置に通知する。以上の方法によれば、本発明に係る音信号処理装置と同様の作用および効果が奏される。

以上の各態様に係る音信号処理装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音解析装置が音信号の解析に使用する特徴量を音信号の各フレームについて順次に算定する特徴量算定処理と、音信号の各フレームについてフレーム情報を生成して記憶手段に記憶させるフレーム情報生成処理と、音信号の第１発音区間を特定する第１区間特定処理と、特徴量算定処理で算定した特徴量を順次に音解析装置に出力する出力制御処理と、第１発音区間を短縮した第２発音区間を、記憶手段が記憶するフレーム情報に基づいて特定して音解析装置に通知する第２区間特定処理とをコンピュータに実行させる内容である。以上のプログラムによっても、本発明に係る音信号処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
＜Ａ−１：構成＞
図１は、本発明のひとつの形態に係る音信号処理システムの構成を示すブロック図である。同図に示すように、音信号処理システムは、収音装置（マイクロホン）１０と音信号処理装置２０と入力装置７０と音解析装置８０とを具備する。本形態においては収音装置１０と入力装置７０と音解析装置８０とが音信号処理装置２０と別体に設置された構成を例示するが、以上の要素の一部または全部が単一の装置を構成してもよい。

収音装置１０は、周囲の音響（音声および雑音）の波形を示す音信号Ｓを生成する。図２には、音信号Ｓの波形が例示されている。音信号処理装置２０は、収音装置１０が生成した音信号Ｓのうち発声者が実際に発声した発音区間を特定する。入力装置７０は、利用者による操作に応じた信号を出力する機器（例えばキーボードやマウス）である。利用者は、入力装置７０を適宜に操作することで、音信号処理装置２０が発音区間の特定を開始する契機となる指示（以下「開始指示」という）ＴＲを入力する。音解析装置８０は、音信号Ｓの解析に使用される。本形態の音解析装置８０は、音信号Ｓから抽出された特徴量と予め登録された特徴量とを対比することで発声者の正当性を認証する音声認証装置である。

音信号処理装置２０は、第１区間特定部３０と第２区間特定部４０とフレーム分析部５０と出力制御部６２と記憶部６４とを含む。第１区間特定部３０と第２区間特定部４０とフレーム分析部５０と出力制御部６２とは、例えばＣＰＵなどの演算処理装置がプログラムを実行することで実現されてもよいし、ＤＳＰなどのハードウェア回路によって実現されてもよい。

第１区間特定部３０は、図２に図示された発音区間Ｐ1を音信号Ｓに基づいて特定する手段である。一方、第２区間特定部４０は図２の発音区間Ｐ2を特定する手段である。第１区間特定部３０が発音区間Ｐ1を特定する方法と第２区間特定部４０が発音区間Ｐ2を特定する方法とは相違する。本形態の第２区間特定部４０は、第１区間特定部３０による発音区間Ｐ1の特定よりも高精度な方法で発音区間Ｐ2を特定する。したがって、図２に示すように発音区間Ｐ2は発音区間Ｐ1よりも短い。

図１のフレーム分析部５０は、分割部５２と特徴量算定部５４とフレーム情報生成部５６とを含む。分割部５２は、図２に示すように、収音装置１０から供給される音信号Ｓを所定の時間長（例えば数十ミリ秒）のフレームに区分して順次に出力する。各フレームは時間軸上で相互に重なり合うように設定される。

特徴量算定部５４は、音信号Ｓの各フレームＦについて特徴量Ｃを算定する。特徴量Ｃは、音解析装置８０が音信号Ｓの解析に使用するパラメータである。本形態の特徴量算定部５４は、ＦＦＴ（Fast Fourier Transform）処理を含む周波数分析によってメルケプストラム係数（MFCC：Mel Frequency Cepstrum Coefficient）を特徴量Ｃとして算定する。特徴量Ｃは、各フレームＦの音信号Ｓの供給に同期して実時間的に算定される（すなわち音信号Ｓの各フレームが供給されるたびに順次に算定される）。

フレーム情報生成部５６は、分割部５２が出力する音信号Ｓの各フレームＦについてフレーム情報Ｆ_HISTを生成する。また、本形態のフレーム情報生成部５６は、各フレームＦについてＳ/Ｎ比Ｒを算定する演算部５８を含む。Ｓ/Ｎ比Ｒは、第１区間特定部３０が発音区間Ｐ1を特定するために使用する情報である。一方、フレーム情報Ｆ_HISTは、第２区間特定部４０が発音区間Ｐ1を発音区間Ｐ2に短縮するために使用する情報である。フレーム情報Ｆ_HISTおよびＳ/Ｎ比Ｒは、各フレームＦの音信号Ｓの供給に同期して実時間的に算定される。

図３は、演算部５８の具体的な構成を示すブロック図である。同図に示すように、演算部５８は、レベル算定部５８１と切換部５８３と雑音レベル算定部５８５と記憶部５８７とＳ/Ｎ比算定部５８９とを含む。レベル算定部５８１は、分割部５２から供給される音信号Ｓの各フレームＦについて順次にレベル（強度）を算定する手段である。本形態のレベル算定部５８１は、ひとつのフレームＦの音信号Ｓをｎ個（ｎは２以上の自然数）の周波数帯域に区分したときの各成分のレベルである帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]を算定する。したがって、レベル算定部５８１は、例えば各々の通過帯域が相違する複数のバンドパスフィルタ（フィルタバンク）によって実現される。ただし、ＦＦＴ処理などの周波数分析によってレベル算定部５８１が帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]を算定する構成も採用される。

図１のフレーム情報生成部５６は、音信号Ｓの各フレームＦについて信号レベルHIST_LEVELを算定する。ひとつのフレームＦのフレーム情報F_HISTは、当該フレームＦについて算定された信号レベルHIST_LEVELを含む。信号レベルHIST_LEVELは、以下の式（1）で表現されるように、帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]の合計値である。ひとつのフレームＦのフレーム情報Ｆ_HISTは、ひとつのフレームＦの特徴量Ｃ（例えばＭＦＣＣ）と比較してデータ量が少ない。

図３の切換部５８３は、レベル算定部５８１が算定した帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]の供給先を、入力装置７０から入力される開始指示ＴＲに応じて選択的に切り換える手段である。さらに詳述すると、切換部５８３は、帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]を、開始指示ＴＲの取得前には雑音レベル算定部５８５に出力し、開始指示ＴＲの取得後にはＳ/Ｎ比算定部５８９に出力する。

雑音レベル算定部５８５は、図２に示すように、切換部５８３が開始指示ＴＲを取得する直前の期間Ｐ0の雑音レベルNOISE_LEVEL[1]〜NOISE_LEVEL[n]を算定する手段である。期間Ｐ0は開始指示ＴＲの時点を終点とする期間であって複数（図２の例示では６個）のフレームＦで構成される。第ｉ番目の周波数帯域に対応した雑音レベルNOISE_LEVEL[i]は、期間Ｐ0内の所定個のフレームＦにわたる帯域別レベルFRAME_LEVEL[i]の平均値である。雑音レベル算定部５８５が算定した雑音レベルNOISE_LEVEL[1]〜NOISE_LEVEL[n]は記憶部５８７に順次に格納される。

図３のＳ/Ｎ比算定部５８９は、音信号Ｓの各フレームＦについてＳ/Ｎ比Ｒを算定して第１区間特定部３０に出力する。Ｓ/Ｎ比Ｒは、開始指示ＴＲ後の各フレームＦの強度と期間Ｐ0内の雑音の強度との相対比に相当する数値である。本形態のＳ/Ｎ比算定部５８９は、開始指示ＴＲ後に切換部５８３から供給される各フレームＦの帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]と記憶部５８７に格納された雑音レベルNOISE_LEVEL[1]〜NOISE_LEVEL[n]とから以下の式(2)に基づいてＳ/Ｎ比Ｒを算定する。

以上の式(2)で算定されるＳ/Ｎ比Ｒは、収音装置１０の周囲に存在する雑音のレベルに対する現時点の音声のレベルの大小を示す指標である。すなわち、利用者が発声していない場合にＳ/Ｎ比Ｒは「１」に近い数値となり、利用者による発声の音量が増加するほどにＳ/Ｎ比Ｒは「１」から増大する。そこで、第１区間特定部３０は、各フレームＦのＳ/Ｎ比Ｒに基づいて図２の発音区間Ｐ1を特定する。すなわち、概略的にはＳ/Ｎ比Ｒが所定値を上回るフレームＦの集合が発音区間Ｐ1として特定される。本形態においては、開始指示ＴＲの直前（すなわち発声者による発声の直前）における所定個のフレームＦの雑音レベルに基づいてＳ/Ｎ比Ｒが算定されるから、発音区間Ｐ1の特定にあたって周囲の雑音の影響を低減することが可能である。

図１に示すように第１区間特定部３０は始点特定部３２と終点特定部３４とを含む。始点特定部３２は、発音区間Ｐ1の始点Ｐ1_START（図２）を特定するとともに当該始点Ｐ1_STARTを識別するための始点データＤ1_STARTを生成する。終点特定部３４は、発音区間Ｐ1の終点Ｐ1_STOP（図２）を特定するとともに当該終点Ｐ1_STOPを識別するための終点データＤ1_STOPを生成する。始点データＤ1_STARTは、発音区間Ｐ1の先頭のフレームＦに付与された番号であり、終点データＤ1_STOPは、発音区間Ｐ1の最後のフレームＦに付与された番号である。図２に示すように、発音区間Ｐ1はＭ1個（Ｍ1は自然数）のフレームＦを含む。なお、第１区間特定部３０の動作の具体例は後述する。

記憶部６４は、フレーム情報生成部５６が生成したフレーム情報Ｆ_HISTを記憶する手段である。半導体記憶装置や磁気記憶装置や光ディスク記憶装置など様々な記憶装置が記憶部６４として好適に採用される。なお、記憶部６４と記憶部５８７とは、ひとつの記憶装置に画定された別個の記憶領域であってもよいし、各々が別個の記憶装置であってもよい。

本形態の記憶部６４は、フレーム情報生成部５６が順次に算定する多数のフレーム情報Ｆ_HISTのうち発音区間Ｐ1に属するＭ1個のフレームＦのフレーム情報Ｆ_HISTのみを選択的に記憶する。すなわち、記憶部６４は、始点特定部３２が始点Ｐ1_STARTを特定した時点で、当該始点Ｐ1_STARTに対応するフレームＦからフレーム情報Ｆ_HISTの記憶を開始し、終点特定部３４が終点Ｐ1_STOPを特定した時点で、当該終点Ｐ1_STOPに対応するフレームＦをもってフレーム情報Ｆ_HISTの記憶を終了する。

第２区間特定部４０は、記憶部６４に格納されたＭ1個のフレーム情報Ｆ_HIST（信号レベルHIST_LEVEL）に基づいて図２の発音区間Ｐ2を特定する。図１に示すように第２区間特定部４０は始点特定部４２と終点特定部４４とを含む。図２に示すように、始点特定部４２は、発音区間Ｐ1の始点Ｐ1_STARTからフレーム情報Ｆ_HISTに応じた時間長（フレーム数）だけ経過した時点を発音区間Ｐ2の始点Ｐ2_STARTとして特定し、当該始点Ｐ2_STARTを識別するための始点データＤ2_STARTを生成する。終点特定部４４は、発音区間Ｐ1の終点Ｐ1_STOPからフレーム情報Ｆ_HISTに応じた時間長（フレーム数）だけ手前の時点を発音区間Ｐ2の終点Ｐ2_STOPとして特定し、当該終点Ｐ2_STOPを識別するための終点データＤ2_STOPを生成する。始点データＤ2_STARTは発音区間Ｐ2の先頭のフレームＦの番号であり、終点データＤ2_STOPは発音区間Ｐ2の最後のフレームＦの番号である。始点データＤ2_STARTと終点データＤ2_STOPとは音解析装置８０に出力される。図２に示すように、発音区間Ｐ2はＭ2個（Ｍ2は自然数）のフレームＦを含む（Ｍ2＜Ｍ1）。なお、第２区間特定部４０の動作の具体例は後述する。

図１の出力制御部６２は、特徴量算定部５４が各フレームＦについて順次に算定する特徴量Ｃを選択的に音解析装置８０に出力する手段である。本形態の出力制御部６２は、発音区間Ｐ1に属する各フレームＦの特徴量Ｃを音解析装置８０に出力する一方、発音区間Ｐ1以外の各フレームＦの特徴量Ｃを破棄する（音解析装置８０に出力しない）。すなわち、出力制御部６２は、始点特定部３２が始点Ｐ1_STARTを特定した時点で、当該始点Ｐ1_STARTに対応したフレームＦから特徴量Ｃの出力を開始し、以後の各フレームＦについては特徴量算定部５４による算定に同期して実時間的に特徴量Ｃを出力する（すなわち各フレームＦの特徴量Ｃが特徴量算定部５４から供給されるたびに音解析装置８０に出力する）。そして、出力制御部６２は、終点特定部３４が終点Ｐ1_STOPを特定した時点で、当該終点Ｐ1_STOPに対応するフレームＦをもって特徴量Ｃの出力を終了する。

図１に示すように、音解析装置８０は記憶部８２と制御部８４とを具備する。記憶部８２は、特定の発声者の音声から抽出された特徴量（以下「登録特徴量」という）の集合を予め記憶する。さらに、記憶部８２は、出力制御部６２から出力された特徴量Ｃを記憶する。すなわち、発音区間Ｐ1に属するＭ1個のフレームＦの各々の特徴量Ｃが記憶部８２に格納される。

第２区間特定部４０が生成した始点データＤ2_STARTおよび終点データＤ2_STOPは制御部８４に供給される。制御部８４は、記憶部８２に格納されたＭ1個の特徴量Ｃのうち始点データＤ2_STARTと終点データＤ2_STOPとで画定される発音区間Ｐ2内のＭ2個の特徴量Ｃを使用して音信号Ｓを解析する。例えば、制御部８４は、ＤＰマッチングなど各種のパターンマッチング技術を利用して発音区間Ｐ2内の各特徴量Ｃと各登録特徴量との距離を算定し、この算定した距離に基づいて今回の発声者の正当性（発声者が予め登録された正規の利用者であるか否か）を判定する。

以上に説明したように、本形態においては、発音区間Ｐ1の特定に並行して各フレームＦの特徴量Ｃが実時間的に音解析装置８０に出力されるから、発音区間Ｐ1内の総てのフレームＦの特徴量Ｃを発音区間Ｐ1の確定（終点Ｐ1_STOPの確定）まで音信号処理装置２０が保持しておく必要はない。したがって、音信号処理装置２０の規模を縮小することが可能である。また、音解析装置８０においては発音区間Ｐ1をさらに絞り込んだ発音区間Ｐ2内の各特徴量Ｃが音信号Ｓの解析に使用されるから、発音区間Ｐ1内の総ての特徴量Ｃを対象として音信号Ｓの解析が実行される構成と比較して、制御部８４による処理の負荷が軽減されるとともに解析の精度（例えば発声者の正当性を認証する精度）が向上するという利点もある。

＜Ａ−２：動作＞
次に、発音区間Ｐ1および発音区間Ｐ2を特定する処理を中心として音信号処理装置２０の具体的な動作を説明する。

音信号処理装置２０が起動すると、図３のレベル算定部５８１は、音信号Ｓの各フレームＦについて帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]を継続的に算定する。利用者が自身の発声に先立って入力装置７０から開始指示ＴＲを入力すると、雑音レベル算定部５８５は、開始指示ＴＲの直前の所定個のフレームＦの帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]から雑音レベルNOISE_LEVEL[1]〜NOISE_LEVEL[n]を算定して記憶部５８７に格納する。一方、Ｓ/Ｎ比算定部５８９は、開始指示ＴＲ後の各フレームＦの帯域別レベルFRAME_LEVEL[1]〜FRAME_LEVEL[n]と記憶部５８７の雑音レベルNOISE_LEVEL[1]〜NOISE_LEVEL[n]とに応じたＳ/Ｎ比Ｒを算定する。

（ａ）第１区間特定部３０の動作
第１区間特定部３０は、開始指示ＴＲを契機として、発音区間Ｐ1を特定するための処理を開始する。すなわち、始点特定部３２が始点Ｐ1_STARTを特定する処理（図４）と、終点特定部３４が終点Ｐ1_STOPを特定する処理（図５）とが実行される。各処理について詳述すると以下の通りである。

図４に示すように、始点特定部３２は、始点データＤ1_STARTをクリアするとともに変数CNT_START1と変数CNT_START2とをゼロに初期化する（ステップＳA1）。次いで、始点特定部３２は、Ｓ/Ｎ比算定部５８９からひとつのフレームＦのＳ/Ｎ比Ｒを取得し（ステップＳA2）、変数CNT_START2に「１」を加算する（ステップＳA3）。

次に、始点特定部３２は、ステップＳA2で取得したＳ/Ｎ比Ｒが所定の閾値SNR_TH1を上回るか否かを判定する（ステップＳA4）。Ｓ/Ｎ比Ｒが閾値SNR_TH1を上回るフレームＦは発音区間Ｐ1内のフレームＦである可能性が高いが、周囲の雑音や電気的なノイズに起因してＳ/Ｎ比Ｒが突発的に閾値SNR_TH1を上回る場合もある。そこで、本形態においては以下に説明するように、Ｓ/Ｎ比Ｒが最初に閾値SNR_TH1を上回ったフレームＦを始点とした所定個のフレームＦ（以下「候補フレーム群」という）のうちＳ/Ｎ比Ｒが閾値SNR_TH1を超えるフレームＦがＮ1個を上回る場合に、最初のフレームＦを発音区間Ｐ1の始点Ｐ1_STARTとして特定する。

ステップＳA4の結果が肯定である場合、始点特定部３２は、変数CNT_START1がゼロであるか否かを判定する（ステップＳA5）。変数CNT_START1がゼロであるということは今回のフレームＦが候補フレーム群の最初のフレームＦであることを意味している。したがって、ステップＳA5の結果が肯定である場合、始点特定部３２は、始点データＤ1_STARTを今回のフレームＦの番号に仮設定する（ステップＳA6）とともに変数CNT_START2をゼロに初期化する（ステップＳA7）。すなわち、今回のフレームＦが発音区間Ｐ1の始点Ｐ1_STARTとして仮定される。一方、ステップＳA5の結果が否定である場合、始点特定部３２は、ステップＳA6およびステップＳA7を経ることなく処理をステップＳA8に移行する。

始点特定部３２は、変数CNT_START1に「１」を加算した（ステップＳA8）うえで、加算後の変数CNT_START1が所定値Ｎ1を上回るか否かを判定する（ステップＳA9）。ステップＳA9の結果が肯定である場合、始点特定部３２は、直前のステップＳA6で仮設定したフレームＦの番号を正式な始点データＤ1_STARTとして確定する（ステップＳA10）。すなわち、発音区間Ｐ1の始点Ｐ1_STARTが特定される。ステップＳA10において、始点特定部３２は、始点データＤ1_STARTを第２区間特定部４０に出力するとともに、始点Ｐ1_STARTの確定を出力制御部６２および記憶部６４に通知する。第１区間特定部３０からの通知を契機として、出力制御部６２による特徴量Ｃの出力と記憶部６４によるフレーム情報Ｆ_HISTの記憶とが開始される。

ステップＳA9の結果が否定である場合（すなわち候補フレーム群のうちＳ/Ｎ比Ｒが閾値SNR_TH1を上回るフレームＦが未だＮ1個以下である場合）、始点特定部３２は、次のフレームＦについてＳ/Ｎ比Ｒを取得した（ステップＳA2）うえでステップＳA3以後の処理を実行する。以上のようにひとつのフレームＦのＳ/Ｎ比Ｒが閾値SNR_TH1を上回るだけでは始点Ｐ1_STARTが確定されないから、例えば周囲の雑音や電気的なノイズに起因したＳ/Ｎ比Ｒの上昇を発音区間Ｐ1の始点Ｐ1_STARTと誤認する可能性は低減される。

一方、ステップＳA4の結果が否定である場合（すなわちＳ/Ｎ比Ｒが閾値SNR_TH1以下である場合）、始点特定部３２は、変数CNT_START2が所定値Ｎ2を上回るか否かを判定する（ステップＳA11）。変数CNT_START2が所定値Ｎ2を上回るということは、候補フレーム群のＮ2個のフレームＦのうちＳ/Ｎ比Ｒが閾値SNR_TH1を上回るフレームＦがＮ1個以下であったことを意味している。そこで、ステップＳA11の結果が肯定である場合、始点特定部３２は、変数CNT_START1をゼロに初期化した（ステップＳA12）うえで処理をステップＳA2に移行する。ステップＳA12の直後にＳ/Ｎ比Ｒが閾値SNR_TH1を上回ると（ステップＳA4：YES）、ステップＳA5の結果が肯定となってステップＳA6およびステップＳA7が実行される。すなわち、新たにＳ/Ｎ比Ｒが閾値SNR_TH1を超えたフレームＦが始点となるように候補データ群が更新される。一方、ステップＳA11の結果が否定である場合、始点特定部３２は、ステップＳA12を経ることなく処理をステップＳA2に移行する。

図４の処理で始点Ｐ1_STARTが特定されると、今度は発音区間Ｐ1の終点Ｐ1_STOPを特定する処理（図５）が終点特定部３４によって実行される。終点特定部３４は、Ｓ/Ｎ比Ｒが閾値SNR_TH2を下回るフレームＦがＮ3個を超えた場合に、Ｓ/Ｎ比Ｒが最初に閾値SNR_TH2を下回ったフレームＦを終点Ｐ1_STOPとして特定する。

図５に示すように、終点特定部３４は、終点データＤ1_STOPをクリアするとともに変数CNT_STOPをゼロに初期化した（ステップＳB1）うえで、Ｓ/Ｎ比算定部５８９からＳ/Ｎ比Ｒを取得する（ステップＳB2）。次いで、終点特定部３４は、ステップＳB2で取得したＳ/Ｎ比Ｒが所定の閾値SNR_TH2を下回るか否かを判定する（ステップＳB3）。

ステップＳB3の結果が肯定である場合、終点特定部３４は、変数CNT_STOPがゼロであるか否かを判定する（ステップＳB4）。ステップＳB4の結果が肯定である場合、終点特定部３４は、終点データＤ1_STOPを今回のフレームＦの番号に仮設定する（ステップＳB5）。一方、ステップＳB4の結果が否定である場合、終点特定部３４は、ステップＳB5を経ることなく処理をステップＳB6に移行する。

次いで、終点特定部３４は、変数CNT_STOPに「１」を加算した（ステップＳB6）うえで、加算後の変数CNT_STOPが所定値Ｎ3を上回るか否かを判定する（ステップＳB7）。ステップＳB7の結果が肯定である場合、終点特定部３４は、直前のステップＳB5で仮設定したフレームＦの番号を正式な終点データＤ1_STOPとして確定する（ステップＳB8）。すなわち、発音区間Ｐ1の終点Ｐ1_STOPが特定される。ステップＳB8において、終点特定部３４は、終点データＤ1_STOPを第２区間特定部４０に出力するとともに、終点Ｐ1_STOPの確定を出力制御部６２および記憶部６４に通知する。第１区間特定部３０からの通知を契機として、出力制御部６２による特徴量Ｃの出力と記憶部６４によるフレーム情報Ｆ_HISTの記憶とが終了する。したがって、図５の処理が完了した段階では、発音区間Ｐ1に属するＭ1個のフレームＦの各々について、記憶部６４にフレーム情報Ｆ_HIST（信号レベルHIST_LEVEL）が格納されるとともに音解析装置８０の記憶部６４に特徴量Ｃが格納されることになる。

ステップＳB7の結果が否定である場合（すなわちＳ/Ｎ比Ｒが閾値SNR_TH2を下回るフレームＦがＮ3個以下である場合）、終点特定部３４は、次のフレームＦについてＳ/Ｎ比Ｒを取得した（ステップＳB2）うえでステップＳB3以後の処理を実行する。以上のようにひとつのフレームＦのＳ/Ｎ比Ｒが閾値SNR_TH2を下回るだけでは終点Ｐ1_STOPは確定されないから、突発的にＳ/Ｎ比Ｒが低下した時点を終点Ｐ1_STOPと誤認する可能性が低減される。

一方、ステップＳB3の結果が否定である場合、終点特定部３４は、始点Ｐ1_STARTの特定に使用した閾値SNR_TH1を今回のＳ/Ｎ比Ｒが上回るか否かを判定する（ステップＳB9）。ステップＳB9の結果が否定である場合、終点特定部３４は、ステップＳB2に処理を移行して新たなＳ/Ｎ比Ｒを取得する。

ところで、利用者の発声時のＳ/Ｎ比Ｒは基本的には閾値SNR_TH1を上回る。したがって、図５の処理を開始してからＳ/Ｎ比Ｒが閾値SNR_TH1を上回った場合（ステップＳB9：YES）には、利用者が発声中である可能性が高い。そこで、ステップＳB9の結果が肯定である場合、終点特定部３４は、変数CNT_STOPをゼロに初期化した（ステップＳB10）うえでステップＳB2以後の処理を実行する。ステップＳB10の実行後にＳ/Ｎ比Ｒが閾値SNR_TH2を下回ると（ステップＳB3：YES）、ステップＳB4の結果が肯定となってステップＳB5が実行される。すなわち、Ｓ/Ｎ比Ｒが閾値SNR_TH2を下回ることで終点データＤ1_STOPが仮設定された場合であっても、Ｓ/Ｎ比Ｒが閾値SNR_TH2を下回るフレームＦの個数が所定値Ｎ3以下の段階でひとつのフレームＦのＳ/Ｎ比Ｒが閾値SNR_TH1を上回った場合（すなわち利用者が発声中である可能性が高い場合）には、終点データＤ1_STOPの仮設定が解除される。

（ｂ）第２区間特定部４０の動作
発声者が実際に発声した区間を確実に検出する（すなわち検出の漏れを確実に防止する）ためには、例えば図４における閾値SNR_TH1を比較的に小さい数値に設定するとともに図５の閾値SNR_TH2を比較的に大きい数値に設定せざるを得ない。したがって、例えば実際の発声に先立って発声者の咳の音やリップノイズや口中音などの雑音が発生すると、当該雑音の発生した時点が発音区間Ｐ1の始点Ｐ1_STARTと認定される場合がある。そこで、第２区間特定部４０は、第１区間特定部３０による発音区間Ｐ1の特定後に、雑音に該当する可能性が高いフレームＦを、発音区間Ｐ1の先頭および最後尾のフレームＦから順次に除外する（すなわち発音区間Ｐ1を短縮する）ことで発音区間Ｐ2を特定する。

図６は、第２区間特定部４０の始点特定部４２が実行する処理の内容を示すフローチャートである。第２区間特定部４０の始点特定部４２は、記憶部６４に格納されたＭ1個のフレーム情報Ｆ_HISTのなかから信号レベルHIST_LEVELの最大値MAX_LEVELを特定する（ステップＳC1）。次いで、始点特定部４２は、変数CNT_FRAMEをゼロに初期化するとともに最大値MAX_LEVELに応じた閾値ＴＨ1を設定する（ステップＳC2）。本形態における閾値ＴＨ1は、ステップＳC1で特定した最大値MAX_LEVELと係数αとの乗算値である。係数αは、予め設定された「１」未満の数値である。

次いで、始点特定部４２は、発音区間Ｐ1のＭ1個のフレームＦのなかからひとつのフレームＦを選択する（ステップＳC3）。本形態の始点特定部４２は、発音区間Ｐ1内の各フレームＦを先頭から最後尾に向けてステップＳC3ごとに順番に選択する。すなわち、図６の処理を開始してから最初のステップＳC3においては発音区間Ｐ1の先頭のフレームＦが選択され、次回以降のステップＳC3においては前回のステップＳC3で選択されたフレームＦの直後のフレームＦが選択される。

次に、始点特定部４２は、ステップＳC3で選択したフレームＦに対応するフレーム情報Ｆ_HISTの信号レベルHIST_LEVELが閾値ＴＨ1を下回るか否かを判定する（ステップＳC4）。最大値間MAX_LEVELと比較すると雑音のレベルは小さいから、信号レベルHIST_LEVELが閾値ＴＨ1を下回るフレームＦは、本来の発声の直前に発生した雑音である可能性が高い。そこで、ステップＳC4の結果が肯定である場合、始点特定部４２は、ステップＳC3で選択したフレームＦを発音区間Ｐ1から除外する（ステップＳC5）。さらに詳述すると、始点特定部４２は、ステップＳC3で選択したフレームＦの直後のフレームＦを暫定的な始点ｐ_STARTとして選定する。次いで、始点特定部４２は、変数CNT_FRAMEをゼロに初期化した（ステップＳC6）うえでステップＳC3に処理を移行する。ステップＳC3においては、現時点で選択しているフレームＦの直後のフレームＦを新たに選択する。

ステップＳC4の結果が否定である場合（すなわち信号レベルHIST_LEVELが閾値ＴＨ1以上である場合）、始点特定部４２は、変数CNT_FRAMEに「１」を加算した（ステップＳC7）うえで、加算後の変数CNT_FRAMEが所定値Ｎ4を上回るか否かを判定する（ステップＳC8）。ステップＳC8の結果が否定である場合、始点特定部４２はステップＳC3に処理を移行して新たなフレームＦを選択する。一方、ステップＳC8の結果が肯定である場合、始点特定部４２はステップＳC9に処理を移行する。すなわち、Ｎ4個を上回る個数のフレームＦにわたって連続してステップＳC4の判定（HIST_LEVEL＜ＴＨ1）が否定された場合に処理がステップＳC9に移行する。

ステップＳC9において、始点特定部４２は、ステップＳC1で特定した最大値MAX_LEVELに応じて閾値ＴＨ2を設定する。本形態の閾値ＴＨ2は、最大値MAX_LEVELと予め定められた係数βとの乗算値である。

次に、始点特定部４２は、発音区間Ｐ1のうち現段階の暫定的な始点ｐ_START以降の複数のフレームＦ（すなわちステップＳC5を経た場合には先頭側の幾つかのフレームＦの除外後の発音区間Ｐ1）のなかから相連続する所定個のフレームＦを選択する（ステップＳC10）。図７は、ステップＳC10で選択されるフレームＦの集合Ｇ（Ｇ1，Ｇ2，Ｇ3，……）を示す概念図である。同図に示すように、図６の処理を開始してから最初のステップＳC10においては、先頭から所定個のフレームＦの集合Ｇ1がが選択される。

次いで、始点特定部４２は、ステップＳC10で選択した所定個のフレームＦの信号レベルHIST_LEVELについて加算値SUM_LEVELを算定する（ステップＳC11）。さらに、始点特定部４２は、ステップＳC11で算定した加算値SUM_LEVELがステップＳC9で算定した閾値ＴＨ2を下回るか否かを判定する（ステップＳC12）。

図４を参照して説明したように、本形態においては候補フレーム群のうちＳ/Ｎ比Ｒが閾値SNR_TH1を超えるフレームＦがＮ1個を上回る場合に最初のフレームＦが発音区間Ｐ1の始点Ｐ1_STARTとして特定される。したがって、候補フレーム群のなかの複数のフレームＦにわたって雑音が発生した場合には当該候補フレーム群の先頭が始点Ｐ1_STARTと認定され得る。一方、最大値MAX_LEVELと比較すると雑音のレベルは充分に小さいから、所定個のフレームＦにわたる信号レベルHIST_LEVELの加算値SUM_LEVELが閾値ＴＨ2を下回るフレームＦは、本来の発音の直前に発生した雑音である可能性が高い。

そこで、ステップＳC12の結果が肯定である場合、始点特定部４２は、図７に示すように、ステップＳC10で選択した集合Ｇのうち先頭側の半数のフレームＦを除外する（ステップＳC13）。すなわち、集合Ｇを分割した後半の部分のなかの先頭のフレームＦが暫定的な始点ｐ_STARTとして選定される。次いで、始点特定部４２は、ステップＳC10に処理を移行し、図７に示すように、現段階における先頭から所定個のフレームＦの集合Ｇ2を選択してステップＳC11以後の処理を実行する。

一方、ステップＳC12の結果が否定である場合、始点特定部４２は、現段階で設定されている始点ｐ_STARTを始点Ｐ2_STARTとして確定し、当該始点Ｐ2_START（フレーム番号）を指定する始点データＤ2_STARTを音解析装置８０に出力する（ステップＳC14）。例えば、図７に示すように集合Ｇ3が選択された段階でステップＳC12の結果が否定となった場合、集合Ｇ3の先頭（集合Ｇ2のうち後半の部分における先頭）が始点Ｐ2_STARTとして特定される。

第２区間特定部４０の終点特定部４４は、図６と同様の処理によって発音区間Ｐ1の各フレームＦを最後尾から順次に除外することで終点Ｐ2_STOPを特定する。すなわち、終点特定部４４は、発音区間Ｐ1の各フレームＦを最後尾から先頭に向けてステップＳC3ごとに順番に選択し、信号レベルHIST_LEVELが閾値ＴＨ1を下回る場合には当該フレームＦを除外する（ステップＳC5）。また、終点特定部４４は、最後尾から手前側に連続する所定個のフレームＦの集合Ｇを選択する（ステップＳC10）とともに信号レベルHIST_LEVELの加算値SUM_LEVELを算定する（ステップＳC11）。そして、終点特定部４４は、加算値SUM_LEVELが閾値ＴＨ2を下回る場合には集合Ｇの後半のフレームＦを除外し（ステップＳC13）、加算値SUM_LEVELが閾値ＴＨ2以上である場合には、当該時点における最後尾のフレームＦを発音区間Ｐ2の終点Ｐ2_STOPとして指定する終点データＤ2_STOPを音解析装置８０に出力する（ステップＳC14）。

以上に説明したように、第２区間特定部４０が発音区間Ｐ2を特定する段階では発音区間Ｐ1における信号レベルHIST_LEVELの最大値MAX_LEVELが確定している。したがって、以上に例示したように最大値MAX_LEVELを利用することで、第２区間特定部４０は、最大値MAX_LEVELが未確定の段階で発音区間Ｐ1を特定せざるを得ない第１区間特定部３０と比較して高精度に発音区間Ｐ2を特定することが可能である。すなわち、発声者の咳払いやリップノイズなどの雑音に起因して発音区間Ｐ1に含められたフレームＦが第２区間特定部４０によって除外される。したがって、音解析装置８０においては、雑音の影響を排除した発音区間Ｐ2の各フレームＦを利用して高精度に音信号Ｓが解析される。

なお、以上の形態においては信号レベルHIST_LEVELがフレーム情報Ｆ_HISTとして使用される構成を例示したが、フレーム情報Ｆ_HISTの内容は適宜に変更される。例えば、以上の動作における信号レベルHIST_LEVELを、Ｓ/Ｎ比算定部５８９が各フレームＦについて算定したＳ/Ｎ比Ｒに置換してもよい。すなわち、第２区間特定部４０が発音区間Ｐ2の特定に使用するフレーム情報Ｆ_HISTは、音信号Ｓの信号のレベルに応じた数値（信号指標値）であれば足り、その具体的な内容の如何は不問である。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態を説明する。なお、本形態において作用や機能が第１実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

屋外で発生した風や発声者の鼻息が収音装置１０に吹付けられたとき（すなわち風切音が収音されたとき）の音信号Ｓは長時間にわたって高いレベルを維持する。したがって、第１区間特定部３０は、実際には発声者が発声していない区間であるにも拘わらず、風切音が発生した区間を発音区間Ｐ1と認定する場合がある。そこで、本形態の第２区間特定部４０は、発音区間Ｐ1のうち風切音の可能性が高いフレームを除外することで発音区間Ｐ2を特定する。

本形態のフレーム情報生成部５６は、音信号Ｓの各フレームＦについてピッチを検出し、この検出の結果を示すピッチデータHIST_PITCHを生成する。記憶部６４に格納されるフレーム情報Ｆ_HISTには、第１実施形態と同様の信号レベルHIST_LEVELとともにピッチデータHIST_PITCHが含められる。ピッチデータHIST_PITCHは、音信号ＳのフレームＦについて明確なピッチが検出された場合には当該ピッチを示し、音信号Ｓについて明確なピッチが検出されなかった場合にはピッチの非検出を示す（例えばゼロに設定される）。人間の音声は、レベルが高ければ基本的にピッチの検出が可能であるから、当該ピッチを含むピッチデータHIST_PITCHが生成される。これに対し、規則的な倍音の構造を持たない風切音は明確なピッチが検出されないから、風切音が収音された場合にはピッチの非検出を示すピッチデータHIST_PITCHが生成される。

次に、図８は、第２区間特定部４０のうち始点特定部４２の動作を示すフローチャートである。始点特定部４２は、変数CNT_FRAMEをゼロに初期化した（ステップＳD1）うえで発音区間Ｐ1のなかからひとつのフレームＦを選択する（ステップＳD2）。各フレームＦは、発音区間Ｐ1の先頭から最後尾に向けてステップＳD2ごとに順番に選択される。次いで、始点特定部４２は、ステップＳD2で選択したフレームＦのフレーム情報Ｆ_HISTに含まれる信号レベルHIST_LEVELが所定の閾値L_THを上回るか否かを判定する（ステップＳD3）。

ステップＳD3の結果が肯定である場合、始点特定部４２は、ステップＳD2で選択したフレームＦのフレーム情報Ｆ_HISTに含まれるピッチデータHIST_PITCHがピッチの非検出を示すか否かを判定する（ステップＳD4）。ステップＳD4の結果が肯定である場合、始点特定部４２は、変数CNT_FRAMEに「１」を加算した（ステップＳD5）うえで、加算後の変数CNT_FRAMEが所定値Ｎ5を上回るか否かを判定する（ステップＳD6）。風切音のみが収音された場合の音信号Ｓは複数のフレームＦにわたって連続して高いレベルを維持するとともにピッチが非検出となる。そこで、ステップＳD6の結果が肯定である場合（すなわちＮ5個を上回るフレームＦにわたってステップＳD3およびステップＳD4の判定が連続して肯定された場合）、始点特定部４２は、現段階で選択しているフレームＦまでの所定個（(Ｎ5＋１)個）のフレームＦを除外して（ステップＳD7）、ステップＳD1に処理を移行する。すなわち、始点特定部４２は、直前のステップＳD2で選択したフレームＦの直後のフレームＦを暫定的な始点ｐ_STARTとして選定する。一方、ステップＳD6の結果が否定である場合（ステップＳD3およびステップＳD4の条件を充足するフレームＦの連続数がＮ5個以下である場合）、始点特定部４２は、ステップＳD2に処理を移行して新たなフレームＦを選択したうえでステップＳD3以後の処理を実行する。

一方、ステップＳD3およびステップＳD4の何れかの結果が否定である場合（すなわちフレームＦの音声が風切音のみである可能性が低い場合）、現段階における先頭のフレームＦが始点Ｐ2_STARTとして選定される。すなわち、始点特定部４２は、暫定的な始点ｐ_STARTを始点Ｐ2_STARTとして確定し、当該始点Ｐ2_STARTを指定する始点データＤ2_STARTを音解析装置８０に出力する（ステップＳD8）。

第２区間特定部４０の終点特定部４４は、図８と同様の処理によって発音区間Ｐ1の各フレームＦを最後尾から順次に除外することで終点Ｐ2_STOPを特定する。すなわち、終点特定部４４は、発音区間Ｐ1の各フレームＦを最後尾から先頭に向けてステップＳD2ごとに順番に選択する一方、ステップＳD7においては、ステップＳD3およびステップＳD4の判定が連続して肯定された所定個のフレームＦを除外する。そして、ステップＳD8においては当該時点における最後尾のフレームＦを終点Ｐ2_STOPとして指定する終点データＤ2_STOPが生成される。以上の形態によれば、風切音の影響で発音区間Ｐ1と認定されたフレームＦが除外される。したがって、音解析装置８０による音信号Ｓの解析の精度を向上することができる。

＜Ｃ：第３実施形態＞
次に、本発明の第３実施形態について説明する。なお、本形態において作用や機能が第１実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

音解析装置８０は、正規の利用者が特定の言葉（パスワード）を発声したときに抽出された登録特徴量と音信号Ｓから抽出された特徴量Ｃとを対比することで発声者を認証する。認証の精度を維持するためには、認証時と登録時とでパスワードの末尾の音韻の時間長が同等であることが望ましいが、実際には、パスワードの末尾に相当する無声子音の時間長は認証のたびに変動する。そこで、本形態においては、認証時におけるパスワードの末尾の無声子音が所定の時間長に統一されるように、発音区間Ｐ1の終点Ｐ1_STOPから手前側に連続する複数のフレームＦが除外される。

本形態のフレーム情報生成部５６は、各フレームＦの音信号Ｓのゼロクロス数HIST_ZXCNTをフレーム情報Ｆ_HISTとして生成する。ゼロクロス数HIST_ZXCNTは、ひとつのフレームＦ内の音信号Ｓのレベルが基準値（ゼロ）を跨いで変動した回数である。収音装置１０の収音した音声が無声子音である場合には、各フレームＦのゼロクロス数HIST_ZXCNTが大きい数値となる。

図９は、第２区間特定部４０における終点特定部４４の動作を示すフローチャートであり、図１０は、終点特定部４４の処理を説明するための概念図である。終点特定部４４は、変数CNT_FRAMEをゼロに初期化した（ステップＳE1）うえで発音区間Ｐ1のひとつのフレームＦを選択する（ステップＳE2）。各フレームＦは、発音区間Ｐ1の最後尾から先頭に向けてステップＳE2ごとに順番に選択される。次いで、終点特定部４４は、ステップＳE2で選択したフレームＦのフレーム情報Ｆ_HISTに含まれるゼロクロス数HIST_ZXCNTが所定の閾値Z_THを上回るか否かを判定する（ステップＳE3）。閾値Z_THは、フレームＦの音信号Ｓが無声子音である場合にステップＳE3の判定が肯定されるように実験的または統計的に設定される。

ステップＳE3の結果が肯定である場合、終点特定部４４は、ステップＳE2にて選択したフレームＦを発音区間Ｐ1から除外する（ステップＳE4）。すなわち、終点特定部４４は、ステップＳE2にて選択したフレームＦの直前のフレームＦを暫定的な終点ｐ_STOPとして選定する。さらに、終点特定部４４は、ステップＳE1に処理を移行して変数CNT_FRAMEをゼロに初期化したうえでステップＳE2以後の処理を実行する。

一方、ステップＳE3の結果が否定である場合、終点特定部４４は、変数CNT_FRAMEに「１」を加算し（ステップＳE5）、加算後の変数CNT_FRAMEが所定値Ｎ6を上回るか否かを判定する（ステップＳE6）。ステップＳE6の結果が否定である場合、終点特定部４４は、ステップＳE2に処理を移行する。

ゼロクロス数HIST_ZXCNTが閾値Z_THを上回る場合に変数CNT_FRAMEはゼロに初期化される（ステップＳE1）から、ステップＳE6の判定は、Ｎ6個を超えるフレームＦにわたって連続してゼロクロス数HIST_ZXCNTが閾値Z_TH以下となる場合に肯定される。ステップＳE6の結果が肯定である場合、終点特定部４４は、現段階の最後尾のフレームＦ（暫定的な終点ｐ_STOP）から所定の時間長Ｔだけ経過した時点を発音区間Ｐ2の終点Ｐ2_STOPとして確定したうえで終点データＤ2_STOPを出力する（ステップＳE7）。例えば、ステップＳE4の反復によって図１０のように発音区間Ｐ1の終点から複数（１２個）のフレームＦが除去されると、除去後の最後尾のフレームＦから時間長Ｔだけ経過した時点が終点Ｐ2_STOPとして確定する。

以上に説明したように、本形態においては、発声者の実際の発声に拘わらず、認証時におけるパスワードの末尾の音声（無声子音）が所定の時間長Ｔに調整されるから、発音区間Ｐ1の総てのフレームＦの特徴量Ｃが使用される場合と比較して、音解析装置８０による認証の精度を向上することが可能である。

＜Ｄ：変形例＞
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）第１区間特定部３０による発音区間Ｐ1の特定には公知の各種の技術を採用することが可能である。例えば、音信号Ｓのうち音量（エネルギ）が所定の閾値を上回る複数のフレームＦの集合を発音区間Ｐ1として特定する構成も採用される。また、発音の開始と終了とが利用者によって入力装置７０から指示される構成においては、開始の指示から終了の指示までの区間を発音区間Ｐ1として特定してもよい。

同様に、第２区間特定部４０が発音区間Ｐ2を特定する方法も適宜に変更される。例えば、第２区間特定部４０が始点特定部４２および終点特定部４４の何れかひとつのみを含む構成も採用される。第２区間特定部４０が始点特定部４２のみを含む構成においては、発音区間Ｐ1の始点Ｐ1_STARTを後退させた始点Ｐ2_STARTから終点Ｐ1_STOPまでの区間が発音区間Ｐ2として特定される。同様に、第２区間特定部４０が終点特定部４４のみを含む構成においては、発音区間Ｐ1の始点Ｐ1_STARTから終点Ｐ2_STOPまでの区間が発音区間Ｐ2として特定される。

第２区間特定部４０（始点特定部４２または終点特定部４４）が、図６におけるステップＳC8までの処理とステップＳC9以後の処理との何れか一方のみを実行する構成も採用される。さらに、各形態における第２区間特定部４０の動作を適宜に組み合わせてもよい。例えば、信号レベルHIST_LEVEL（第１実施形態）とゼロクロス数HIST_ZXCNT（第３実施形態）との双方に基づいて第２区間特定部４０が始点Ｐ2_STARTまたは終点Ｐ2_STOPを特定する構成が採用される。

また、第２実施形態においては信号レベルHIST_LEVELが閾値L_THを上回るという条件（ステップＳD3）とピッチデータHIST_PITCHが非検出を示すという条件（ステップＳD4）との双方を充足した場合にフレームＦが除外される構成を例示したが、ステップＳD4の条件のみが判定される構成としてもよい。以上の例示から理解されるように、第２区間特定部４０は、各フレームＦについて生成されたフレーム情報Ｆ_HISTに基づいて発音区間Ｐ1よりも短い発音区間Ｐ2を特定する手段であればよい。

（２）以上の各形態においては、始点Ｐ1_STARTや終点Ｐ1_STOPの確定を契機として記憶部６４がフレーム情報Ｆ_HISTの記憶を開始または終了する構成を例示したが、フレーム情報生成部５６が、始点Ｐ1_STARTの確定を契機としてフレーム情報Ｆ_HISTの生成を開始するとともに終点Ｐ1_STOPの確定を契機としてフレーム情報Ｆ_HISTの生成を終了する構成においても同様の効果が奏される。

もっとも、記憶部６４が記憶する対象は発音区間Ｐ1内のフレーム情報Ｆ_HISTに限定されない。すなわち、音信号Ｓの総てのフレームＦについて生成されるフレーム情報Ｆ_HISTが記憶部６４に格納される構成としてもよい。ただし、以上の各形態のように発音区間Ｐ1内のフレーム情報Ｆ_HISTのみが記憶部６４に格納される構成によれば、記憶部６４に必要となる容量が低減されるという利点がある。

（３）始点（Ｐ1_START，Ｐ2_START）や終点（Ｐ1_STOP，Ｐ2_STOP）を指定するための情報はフレームＦの番号に限定されない。例えば、始点データ（Ｄ1_START，Ｄ2_START）や終点データ（Ｄ1_STOP，Ｄ2_STOP）は、所定の時点（例えば開始指示ＴＲの発生時）を基準とした時刻で始点や終点を指定するデータであってもよい。

（４）開始指示ＴＲの発生の契機は入力装置７０に対する操作に限定されない。例えば、音信号処理システムから利用者に対して発音の開始を促す通知（画像や音声による報知）が実行される場合には、当該通知を契機として開始指示ＴＲを生成する構成も採用される。

（５）音解析装置８０による音解析の内容は任意である。例えば、複数の利用者について抽出された登録特徴量と発声者の特徴量Ｃとを対比することで発声者を特定する話者認識や、発声者が発話した音韻（文字データ）を音信号Ｓから特定する音声認識を音解析装置８０が実行してもよい。以上の各形態のように発音区間Ｐ2を特定（音信号Ｓから雑音のみの区間を除外）する技術は、何れの音解析に際しても精度の向上のために好適に採用される。また、特徴量Ｃの内容は音解析装置８０による処理の内容に応じて適宜に選定されるのであって、以上の各形態におけるメルケプストラム係数は特徴量Ｃの例示に過ぎない。例えば、各フレームＦに区分された音信号Ｓが特徴量Ｃとして音解析装置８０に出力される構成としてもよい。

本発明の第１実施形態に係る音信号処理システムの構成を示すブロック図である。音信号Ｓと発音区間（Ｐ1，Ｐ2）との関係を示す概念図である。演算部の具体的な構成を示すブロック図である。発音区間Ｐ1の始点を特定する処理を示すフローチャートである。発音区間Ｐ1の終点を特定する処理を示すフローチャートである。発音区間Ｐ2を特定する処理を示すフローチャートである。発音区間Ｐ2を特定する処理を説明するための概念図である。第２実施形態において発音区間Ｐ2を特定する処理を示すフローチャートである。第３実施形態において発音区間Ｐ2を特定する処理を示すフローチャートである。第３実施形態において発音区間Ｐ2を特定する処理を説明するための概念図である。

符号の説明

１０……収音装置、２０……音信号処理装置、３０……第１区間特定部、４０……第２区間特定部、３２，４２……始点特定部、３４，４４……終点特定部、５０……フレーム分析部、５２……分割部、５４……特徴量算定部、５６……フレーム情報生成部、５８……演算部、５８１……レベル算定部、５８３……切換部、５８５……雑音レベル算定部、５８７，６４……記憶部、５８９……Ｓ/Ｎ比算定部、６２……出力制御部、７０……入力装置、８０……音解析装置、８２……記憶部、８４……制御部、Ｓ……音信号、Ｆ……フレーム、ＴＲ……開始指示、Ｆ_HIST……フレーム情報、Ｒ……Ｓ/Ｎ比、Ｃ……特徴量、Ｐ1，Ｐ2……発音区間。

Claims

音解析装置が音信号の解析に使用する特徴量を前記音信号の各フレームについて順次に算定する特徴量算定手段と、
前記音信号の各フレームについてフレーム情報を生成するフレーム情報生成手段と、
前記フレーム情報生成手段が生成したフレーム情報を記憶する記憶手段と、
前記音信号の第１発音区間を特定する第１区間特定手段と、
前記特徴量算定手段が算定した特徴量を順次に前記音解析装置に出力する出力制御手段と、
前記第１発音区間を短縮した第２発音区間を、前記記憶手段が記憶するフレーム情報に基づいて特定して前記音解析装置に通知する第２区間特定手段と
を具備する音信号処理装置。
前記記憶手段は、前記第１区間特定手段が特定した第１発音区間に対応した各フレームのフレーム情報を記憶する
請求項１に記載の音信号処理装置。
前記各フレームのフレーム情報は、前記各フレームの特徴量よりもデータ量が少ない
請求項１または請求項２に記載の音信号処理装置。
前記第１区間特定手段は、前記第１発音区間の始点を特定する始点特定手段と、前記第１発音区間の終点を特定する終点特定手段とを含み、
前記出力制御手段は、前記音解析装置に対する特徴量の出力を、前記第１始点特定手段による始点の特定を契機として開始し、前記第１終点特定手段による終点の特定を契機として終了する
請求項１から請求項３の何れかに記載の音信号処理装置。
開始指示を取得する取得手段と、
前記音信号のうち前記取得手段による開始指示の取得前のフレームの雑音レベルを算定する雑音レベル算定手段と、
前記音信号のうち前記取得手段による開始指示の取得後の各フレームの信号レベルと前記雑音レベル算定手段が算定した雑音レベルとに基づいてＳ/Ｎ比を算定するＳ/Ｎ比算定手段と
を具備し、
前記第１区間特定手段は、前記Ｓ/Ｎ比算定手段が各フレームについて算定したＳ/Ｎ比に基づいて前記第１発音区間を特定する
請求項１から請求項４の何れかに記載の音信号処理装置。
コンピュータに、
音解析装置が音信号の解析に使用する特徴量を前記音信号の各フレームについて順次に算定する特徴量算定処理と、
前記音信号の各フレームについてフレーム情報を生成して記憶手段に記憶させるフレーム情報生成処理と、
前記音信号の第１発音区間を特定する第１区間特定処理と、
前記特徴量算定処理で算定した特徴量を順次に前記音解析装置に出力する出力制御処理と、
前記第１発音区間を短縮した第２発音区間を、前記記憶手段が記憶するフレーム情報に基づいて特定して前記音解析装置に通知する第２区間特定処理と
を実行させるためのプログラム。