JP2017068153A

JP2017068153A - 半導体装置、システム、電子機器、及び、音声認識方法

Info

Publication number: JP2017068153A
Application number: JP2015195651A
Authority: JP
Inventors: 文仁倍賞; Fumihito Baisho
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2015-10-01
Filing date: 2015-10-01
Publication date: 2017-04-06

Abstract

【課題】複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる半導体装置を提供する。
【解決手段】この半導体装置は、入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化する第１の音声区間検出部と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第２の音声区間検出部とを備える。
【選択図】図１

Description

本発明は、音声検出機能を有する半導体装置、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器に関する。さらに、本発明は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、音声認識結果を得る技術である。一般に、音声認識装置には、パターンマッチングによる音声認識処理部の前段に、入力音声信号について音声（発話音声）と非音声（雑音）とを識別する音声区間検出部が挿入されている。

音声波形の振幅と零交差とに基づく従来の音声区間検出手法によれば、定常雑音については、発話音声と雑音との識別が良好であるが、非定常雑音については、発話音声と雑音との識別の精度が低い。特に、突発性の非定常雑音は、音声の子音成分と信号特性が似ているので、識別の精度が著しく低いという問題がある。

関連する従来技術として、特許文献１には、音声中の母音や子音の識別に基づいた音韻性検出により、会話中の音声を検出する音声検出方法が開示されている。この音声検出方法は、入力信号から一定時間毎に、音声中の音韻性を特徴付ける特徴量を抽出し、この特徴量により音声中の音韻性を検出し、その存在比率により音声とそれ以外とを判別して音声のみを検出する。

特開平６−１１０４８８号公報（請求項１−４、図１）

しかしながら、特許文献１によれば、あらかじめ多数の学習用音声データから抽出した特徴量を用いて音韻毎の平均値と共分散行列を算出して音韻毎の標準モデルを作成し、入力信号からフレーム単位に抽出した特徴量と各音韻の標準モデルとの統計的距離を計算する必要があるので、複雑な処理が必要になる。

そこで、本発明の第１の目的は、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる半導体装置を提供することである。また、本発明の第２の目的は、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減できる半導体装置及び音声認識方法を提供することである。さらに、本発明の第３の目的は、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器を提供することである。

以上の課題の少なくとも一部を解決するために、本発明の第１の観点に係る半導体装置は、入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化する第１の音声区間検出部と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第２の音声区間検出部とを備える。

本発明の第１の観点によれば、入力音声信号の音圧又はＳ／Ｎ比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、発話音声と雑音とを高精度で識別することができる。

ここで、第２の音声区間検出部が、低域及び高域のそれぞれにおける重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求め、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定するようにしても良い。それにより、音声認識処理において用いられる複数のメルバンド係数を利用して、非音声検出信号を生成することができる。

また、半導体装置が、入力音声信号をフレーム毎にフーリエ変換して複数の周波数成分を抽出し、それらの周波数成分に基づいて複数のメルバンド係数を求める時間／周波数変換部と、複数のメルバンド係数に基づいて、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンを抽出する特徴パターン抽出部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、音声認識選択肢データに対応する標準パターンを抽出する標準パターン抽出部と、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、特徴パターンと標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する一致検出部とをさらに備えるようにしても良い。それにより、音声認識における誤検出を低減させると共に、消費電力を削減することができる。

さらに、一致検出部が、音声認識処理を行っている間に非音声検出信号が活性化されたときに、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄するようにしても良い。それにより、ユーザーの回答が雑音の発生で中断された場合における誤検出を低減させることができる。

本発明の第２の観点に係るシステムは、上記いずれかの半導体装置と、半導体装置を制御する制御部とを備える。また、本発明の第３の観点に係る電子機器は、上記システムを備える。それにより、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できるシステム又は電子機器を提供することが可能となる。

また、本発明の第４の観点に係る音声認識方法は、入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化するステップ（ａ）と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化するステップ（ｂ）と、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力するステップ（ｃ）とを備える。

本発明の第３の観点によれば、入力音声信号の音圧又はＳ／Ｎ比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減することができる。

本発明の一実施形態に係る半導体装置を用いたシステムの図。図１に示す時間／周波数変換部における処理の例を説明するための図。図１に示す第１の音声区間検出部における処理の例を説明するための図。図１に示す第２の音声区間検出部等における処理の例を説明するための図。グループ化された複数の帯域におけるカウント値の例を示す図。メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。本発明の一実施形態に係る音声認識方法を示すフローチャート。本発明の一実施形態に係る電子機器の構成例を示すブロック図。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
＜システムの構成＞
図１は、本発明の一実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。図１に示すように、このシステムは、ヒューマンインターフェース部１１０及び制御部１２０で構成される。

ヒューマンインターフェース部１１０は、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果に対応する応答や処理を行う。ヒューマンインターフェース部１１０は、音声入力部１０と、Ａ／Ｄ変換器２０と、Ｄ／Ａ変換器３０と、音声出力部４０と、半導体装置１００とを含んでいる。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器３０、及び、音声出力部４０の少なくとも一部を、半導体装置１００に内蔵しても良い。

半導体装置１００は、コマンド制御部６０と、音声信号生成部６１と、標準パターン抽出部６２と、信号処理部６３と、一致検出部６４とを含んでいる。また、半導体装置１００は、音声再生データ格納部７１と、選択肢データ格納部７２と、パラメーター格納部７３と、音声信号データベース（ＤＢ）格納部８１と、音声認識データベース（ＤＢ）格納部８２とを含んでいる。

制御部１２０は、ホストＣＰＵ（中央演算装置）１２１と、格納部１２２とを含んでいる。ホストＣＰＵ１２１は、格納部１２２の記録媒体に記録されているソフトウェア（音声認識制御プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、各種のメモリー、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。

さらに、格納部１２２は、ヒューマンインターフェース部１１０において用いられる音声再生データ、音声認識選択肢データ、及び、音声検出パラメーターを格納している。音声再生データは、音声出力部４０からユーザーに発する質問又はメッセージの音声波形を表す出力音声信号を生成するために用いられるデータ（例えば、テキストデータ等）を含んでいる。

音声認識選択肢データは、質問又はメッセージの音声に対して回答するユーザーの音声を認識する音声認識処理において複数の選択肢を構成する単語又は文章を表すデータ（例えば、テキストデータ等）を含んでいる。質問又はメッセージの音声をユーザーに発することにより、それに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況になる。

ホストＣＰＵ１２１は、ヒューマンインターフェース部１１０に制御信号を出力することにより、ヒューマンインターフェース部１１０の各種の動作を制御する。また、ホストＣＰＵ１２１は、格納部１２２に格納されている音声再生データ及び音声認識選択肢データを、データ転送コマンドに添付してコマンド制御部６０に送信する。さらに、ホストＣＰＵ１２１は、格納部１２２に格納されている音声検出パラメーターを、パラメーター設定コマンドに添付してコマンド制御部６０に送信する。

ヒューマンインターフェース動作を開始する際に、ホストＣＰＵ１２１は、シナリオ開始コマンドをコマンド制御部６０に送信することにより、予め設定されたシナリオに沿って処理を行うようにヒューマンインターフェース部１１０を制御しても良い。その場合に、シナリオ開始コマンドは、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含んでも良い。

音声入力部１０は、例えば、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、デジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体装置１００において、コマンド制御部６０、音声信号生成部６１、標準パターン抽出部６２、信号処理部６３、及び、一致検出部６４は、例えば、組み合わせ回路及び順序回路を含む論理回路等で構成される。音声再生データ格納部７１〜パラメーター格納部７３は、例えば、メモリー又はレジスター等で構成される。また、音声信号データベース格納部８１〜音声認識データベース格納部８２は、例えば、不揮発性メモリー等のメモリーで構成される。

コマンド制御部６０は、制御部１２０のホストＣＰＵ１２１から音声再生データ、音声認識選択肢データ、及び、音声検出パラメーターを受信して、音声再生データを音声再生データ格納部７１に格納し、音声認識選択肢データを選択肢データ格納部７２に格納し、音声検出パラメーターをパラメーター格納部７３に格納する。また、コマンド制御部６０は、ホストＣＰＵ１２１からシナリオ開始コマンドを受信すると、予め設定されたシナリオフローに従って音声認識動作を実施するように音声信号生成部６１及び標準パターン抽出部６２を制御する。

音声信号生成部６１は、音声再生データ格納部７１から音声再生データを読み出し、読み出された音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。音声再生データがテキストデータである場合には、出力音声信号を生成するために、音声信号データベース格納部８１に格納されている音声信号データベースが用いられる。

例えば、音声信号データベースには、各種の音素に対応する音声波形を表す音声信号が蓄積されている。音声信号生成部６１は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声信号を繋ぎ合わせることにより、出力音声信号を合成する。あるいは、音声信号データベースに、各種のテキストデータに対応する音声波形を表す複数の出力音声信号が蓄積されていても良い。その場合に、音声信号生成部６１は、読み出されたテキストデータに対応する出力音声信号を選択する。

Ｄ／Ａ変換器３０は、音声信号生成部６１から出力されるデジタルの音声信号を、アナログの音声信号に変換する。音声出力部４０は、例えば、Ｄ／Ａ変換器３０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、音声信号によって表される質問又はメッセージの音声を出力する。それにより、ユーザーに対する質問又はメッセージの音声が、音声出力部４０から発せられる。

一方、標準パターン抽出部６２は、選択肢データ格納部７２から音声認識選択肢データを読み出す。標準パターン抽出部６２〜一致検出部６４は、読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行う。そのために、標準パターン抽出部６２は、音声認識データベース格納部８２に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

信号処理部６３は、時間／周波数変換部６３ａと、第１の音声区間検出部６３ｂと、第２の音声区間検出部６３ｃと、特徴パターン抽出部６３ｄとを含んでいる。時間／周波数変換部６３ａは、Ａ／Ｄ変換器２０から入力される音声信号にフーリエ変換等を施すことにより、入力音声信号の周波数成分を抽出する。

第１の音声区間検出部６３ｂは、入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化する。しかしながら、入力音声信号には、発話音声以外に雑音も含まれており、特に、突発性の非定常雑音は、発話音声の子音成分と信号特性が似ているので、識別の精度が著しく低い。一方、雑音には母音成分があまり含まれていないので、入力音声信号に含まれている子音成分又は母音成分の割合に基づいて、発話音声と雑音（特に、非定常雑音）との識別の精度を向上させることができる。

そこで、本実施形態においては、第２の音声区間検出部６３ｃが、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する。

第１の音声区間検出部６３ｂ及び第２の音声区間検出部６３ｃは、音声検出信号及び非音声検出信号を一致検出部６４及びホストＣＰＵ１２１に出力する。それにより、ユーザーからの要求又は回答の有無を判定することができる。あるいは、音声検出信号と非音声検出信号とに基づいて論理演算を行う論理回路を信号処理部６３等に設けても良い。その場合には、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、論理回路から出力される第２の音声検出信号が活性化される。論理回路から出力される第２の音声検出信号は、一致検出部６４及びホストＣＰＵ１２１に供給される。

特徴パターン抽出部６３ｄは、入力音声信号の周波数成分の分布状態を表す特徴パターンを生成して一致検出部６４に出力する。一致検出部６４は、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出して音声認識処理を行う。

一致検出部６４は、複数の選択肢を構成する単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果としてホストＣＰＵ１２１に出力する。それにより、ホストＣＰＵ１２１は、半導体装置１００に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

本実施形態によれば、入力音声信号の音圧又はＳ／Ｎ比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、発話音声と雑音とを高精度で識別することができる。

次に、信号処理部６３に含まれている時間／周波数変換部６３ａ、第１の音声区間検出部６３ｂ、第２の音声区間検出部６３ｃ、及び、一致検出部６４における処理について詳しく説明する。

＜時間／周波数変換部＞
図２は、図１に示す時間／周波数変換部における処理の例を説明するためのフローチャートである。図２のステップＳ１１において、時間／周波数変換部６３ａが、入力音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する（ハミング窓処理）。

ステップＳ１２において、時間／周波数変換部６３ａが、フレーム毎に音声信号をフーリエ変換（ＦＦＴ）することにより、複数の周波数成分を抽出する。それにより、例えば、各フレームについて５１２個の周波数成分が抽出される。

ステップＳ１３において、時間／周波数変換部６３ａが、ステップＳ１２において抽出された複数の周波数成分のパワー（例えば、５１２個の周波数成分の総和）を算出する。ステップＳ１４において、時間／周波数変換部６３ａが、ステップＳ１３において算出されたパワーを対数変換することにより、パワーの対数値を表すパワー信号を求める。

ステップＳ１５において、時間／周波数変換部６３ａが、ステップＳ１２において抽出された複数の周波数成分の絶対値に、メル尺度に基づいて定められた周波数領域の窓（メルフィルタバンク係数）をかけて積分することにより、窓の数に対応する数の数値を求める（メルフィルタバンク処理）。ステップＳ１６において、時間／周波数変換部６３ａが、それらの数値を対数変換する。それにより、周波数領域の窓が２６個であれば、２６個の数値（メルバンド係数）が得られる。

このようにして得られたメルバンド係数の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。特徴パターン抽出部６３ｄは、ＨＭＭ（隠れマルコフモデル）に従って、フレーム毎に算出されたＭＦＣＣを連結することにより、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

＜第１の音声区間検出部＞
図３は、図１に示す第１の音声区間検出部における処理の例を説明するためのフローチャートである。図３のステップＳ２１において、第１の音声区間検出部６３ｂが、時間／周波数変換部６３ａによって生成されたパワー信号又は２６個のメルバンド係数に基づいて、入力音声信号の音圧又はＳ／Ｎ比を計算する。第１の音声区間検出部６３ｂは、入力音声信号の音圧とＳ／Ｎ比との両方を計算しても良い。

ステップＳ２２において、第１の音声区間検出部６３ｂが、音圧が第１の閾値よりも大きいか、又は、Ｓ／Ｎ比が第２の閾値よりも大きい場合に、音声検出信号を活性化し、それ以外の場合に音声検出信号を非活性化する。例えば、図３に示すように、第１の音声区間検出部６３ｂは、音圧が第１の閾値よりも大きく、かつ、Ｓ／Ｎ比が第２の閾値よりも大きい場合に、音声検出信号を活性化しても良い。

＜第２の音声区間検出部＞
図４は、図１に示す第２の音声区間検出部等における処理の例を説明するためのフローチャートである。図４のステップＳ３１において、第２の音声区間検出部６３ｃが、第１の音声区間検出部６３ｂから出力される音声検出信号が活性化されているか否かを判定する。音声検出信号が活性化されていない場合には、ステップＳ３１が繰り返される。一方、音声検出信号が活性化されている場合には、処理がステップＳ３２に移行する。

ステップＳ３２において、第２の音声区間検出部６３ｃが、処理中のフレームにおいて得られた２６個のメルバンド係数を複数（例えば、４つ）の帯域にグループ化する。また、第２の音声区間検出部６３ｃが、２６個のメルバンド係数の重み付け平均値を算出する。重み付け平均値を算出する際には、全てのメルバンド係数毎に同じ重み付け係数を掛けても良いし、メルバンド係数毎に異なる重み付け係数を掛けても良いし、グループ毎に異なる重み付け係数を掛けても良い。なお、重み付け係数を「１」とした場合には、重み付け平均値は、２６個のメルバンド係数の平均値そのものとなる。重み付け係数は、音声検出パラメーターの一部として、パラメーター格納部７３に格納されている。

ステップＳ３３において、第２の音声区間検出部６３ｃが、グループ化された複数の帯域毎に、重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求める。ステップＳ３４において、第２の音声区間検出部６３ｃが、グループ化された複数の帯域におけるカウント値を比較する。

図５は、グループ化された複数の帯域におけるカウント値の例を示す図である。図５（Ａ）は、入力音声信号が母音成分を表している場合のカウント値の例を示しており、図５（Ｂ）は、入力音声信号が子音成分を表している場合のカウント値の例を示している。図５（Ａ）及び図５（Ｂ）において、横軸は、例えば、約０Ｈｚ〜約８ｋＨｚの周波数に対応するメルバンド係数の番号（mel）を示しており、縦軸は、メルバンド係数の大きさを示している。

図５に示す例においては、２６個のメルバンド係数が、第１〜第４の帯域にグループ化されている。本願においては、最も低い周波数のメルバンド係数を含むＮ個（Ｎは自然数）の帯域を低域と定義し、最も高い周波数のメルバンド係数を含むＮ個の帯域を高域と定義する。従って、第１の帯域が低域で、第４の帯域が高域であっても良いし、第１の帯域及び第２の帯域が低域で、第３の帯域及び第４の帯域が高域であっても良い。

図５（Ａ）に示すように、入力音声信号が母音成分を表している場合には、第１〜第４の帯域における平均値以上のメルバンド係数のカウント値が、それぞれ５、４、３、０となっている。一方、図５（Ｂ）に示すように、入力音声信号が子音成分を表している場合には、第１〜第４の帯域における平均値以上のメルバンド係数のカウント値が、それぞれ０、０、５、６となっている。

そこで、図４のステップＳ３４において、第２の音声区間検出部６３ｃは、例えば、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定する。それにより、音声認識処理において用いられる複数のメルバンド係数を利用して、非音声検出信号を生成することができる。

ステップＳ３５において、第２の音声区間検出部６３ｃが、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間（以下においては、「子音成分継続期間」ともいう）を計測して第１の計測値を求める。あるいは、第２の音声区間検出部６３ｃは、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間（以下においては、「母音成分継続期間」ともいう）を計測して第２の計測値を求めても良い。第１又は第２の計測値は、例えば、フレーム数によって表される。第２の音声区間検出部６３ｃは、第１又は第２の計測値をレジスター等の記憶領域に格納して、次のフレームを処理するまで保持する。

ステップＳ３６において、第２の音声区間検出部６３ｃが、子音成分継続期間Ｔｃを閾値（所定の期間）Ｔｃｔｈと比較し、又は、母音成分継続期間Ｔｖを閾値（所定の期間）Ｔｖｔｈと比較する。ここで、所定の期間Ｔｃｔｈ及びＴｖｔｈは、例えば、フレーム数によって定義され、パラメーターの一部として、パラメーター格納部７３に格納されている。

ステップＳ３７において、第２の音声区間検出部６３ｃが、子音成分継続期間Ｔｃが所定の期間Ｔｃｔｈよりも長いか否か、又は、母音成分継続期間Ｔｖが所定の期間Ｔｖｔｈよりも短いか否かを判定する。子音成分継続期間Ｔｃが所定の期間Ｔｃｔｈよりも長いか、又は、母音成分継続期間Ｔｖが所定の期間Ｔｖｔｈよりも短いと判定された場合には、処理がステップＳ３８に移行する。一方、子音成分継続期間Ｔｃが所定の期間Ｔｃｔｈ以下であり、かつ、母音成分継続期間Ｔｖが所定の期間Ｔｖｔｈ以上であると判定された場合には、処理がステップＳ４１に移行する。

ステップＳ３８において、第２の音声区間検出部６３ｃが、非音声検出信号を活性化する。それにより、一致検出部６４が、それまで行っていた音声認識処理を強制終了する。さらに、ステップＳ３９において、一致検出部６４が、処理中のフレームにおいてそれまで行っていた音声認識処理によって得られた音声認識結果を破棄する。また、一致検出部６４は、非音声検出信号を非活性化するように第２の音声区間検出部６３ｃを制御する。それにより、ステップＳ４０において、第２の音声区間検出部６３ｃが、非音声検出信号を非活性化する。その後、処理が、ステップＳ４１に移行する。

ステップＳ４１において、第２の音声区間検出部６３ｃが、音声検出信号が活性化されているか否かを判定する。音声検出信号が活性化されている場合には、処理がステップＳ３２に戻る。一方、音声検出信号が非活性化されている場合には、処理がステップＳ４２に移行する。

ステップＳ４２において、第２の音声区間検出部６３ｃが、音声検出信号が活性化されていた間に母音成分継続期間が検出されたか否かを判定する。音声検出信号が活性化されていた間に母音成分継続期間が検出された場合には、処理がステップＳ４３に移行する。ステップＳ４３において、一致検出部６４が、音声認識結果をホストＣＰＵ１２１に通知して、音声認識動作が終了する。

一方、音声検出信号が活性化されていた間に母音成分継続期間が検出されなかった場合には、処理がステップＳ４４に移行する。ステップＳ４４において、第２の音声区間検出部６３ｃが、非音声検出信号を活性化する。ステップＳ４５において、一致検出部６４が、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄する。また、一致検出部６４は、非音声検出信号を非活性化するように第２の音声区間検出部６３ｃを制御する。それにより、ステップＳ４６において、第２の音声区間検出部６３ｃが、非音声検出信号を非活性化する。その後、音声認識動作が終了する。

図６〜図９は、メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図である。図６〜図９の上部は、メルバンド係数の時間的な変化をグレースケールで示しており、横軸は時間軸であり、縦軸は周波数軸（約０Ｈｚ〜約８ｋＨｚ）である。また、グレースケールの濃さは、メルバンド係数の大きさを示している。図６〜図９の下部は、それに伴う音声検出信号及び非音声検出信号のレベル変化を示している。なお、図６〜図９においては、非音声検出信号を非活性化する動作は省略されている。

図６〜図９において、非音声（雑音）の場合には、メルバンド係数の低域成分が小さく、高域成分が大きくなる。発話音声の子音成分の場合にも同様となる。しかしながら、発話音声には、子音成分のみならず母音成分も含まれている。母音成分の場合には、メルバンド係数の低域成分が大きくなる。音声検出信号は、入力音声信号の音圧又はＳ／Ｎ比に基づいて生成されるので、雑音にも反応してハイレベルに活性化される。一方、非音声検出信号は、入力音声信号の周波数分布に基づいて生成されるので、雑音（特に、突発性の非定常雑音）に反応してハイレベルに活性化される。

図６においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Ｔｃ１〜Ｔｃ４と、母音成分継続期間Ｔｖ１〜Ｔｖ３とが検出されている。ここで、子音成分継続期間Ｔｃ１〜Ｔｃ４のいずれも所定の期間Ｔｃｔｈ以下であり、かつ、母音成分継続期間Ｔｖ１〜Ｔｖ３のいずれも所定の期間Ｔｖｔｈ以上であるので、非音声検出信号はローレベルに非活性化されたままとなる。

図７においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Ｔｃ１〜Ｔｃ４と、母音成分継続期間Ｔｖ１〜Ｔｖ３とが検出されている。ここで、子音成分継続期間Ｔｃ２が所定の期間Ｔｃｔｈよりも長いので、子音成分継続期間Ｔｃ２が所定の期間Ｔｃｔｈを超えたときに、非音声検出信号がハイレベルに活性化される。

図８においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Ｔｃ１〜Ｔｃ５と、母音成分継続期間Ｔｖ１〜Ｔｖ４とが検出されている。ここで、母音成分継続期間Ｔｖ１が所定の期間Ｔｖｔｈよりも短いので、母音成分継続期間Ｔｖ１が終了したときに、非音声検出信号がハイレベルに活性化される。

図９においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Ｔｃ１が検出されているが、一方、母音成分継続期間は検出されていない。従って、音声検出信号がローレベルに非活性化されたときに、非音声検出信号がハイレベルに活性化される。

＜一致検出部＞
再び図１を参照すると、一致検出部６４は、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに音声認識処理を行う。それにより、音声認識における誤検出を低減させると共に、消費電力を削減することができる。また、一致検出部６４は、音声認識処理を行っている間に非音声検出信号が活性化されると、それまで行っていた音声認識処理を強制終了すると共に、非音声検出信号を非活性化するように第２の音声区間検出部６３ｃを制御する。

さらに、一致検出部６４は、音声認識処理を行っている間に非音声検出信号が活性化されたときに、処理中のフレームにおいてそれまで行っていた音声認識処理によって得られた音声認識結果を破棄したり、又は、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄しても良い。それにより、ユーザーの回答が雑音の発生で中断された場合における誤検出を低減させることができる。

一致検出部６４は、例えば、入力音声信号の先頭の音節から生成された特徴パターンを、音声認識選択肢データに含まれている複数の選択肢のテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。複数の選択肢の内に、一致が検出された音節を先頭に有する選択肢が１つだけ存在する場合には、一致検出部６４は、その選択肢が変換後の単語又は文章であると判定しても良い。一方、複数の選択肢の内に、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部６４は、選択肢が１つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

１つの音節は、１つ又は複数の音素によって構成される。「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」（母音）を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」（子音）を表す標準パターンと、音節「か」を構成する第２番目の音素「ａ」（母音）を表す標準パターンとの組み合わせのことである。

入力音声信号の１つの音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力音声信号の１つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

音声認識データベース格納部８２は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられて蓄積されている。

標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。

従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部６３に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。

特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部６４は、複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。それにより、ホストＣＰＵ１２１は、半導体装置１００に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

次に、図１に示すシステムを用いて実施される音声認識方法の一例について説明する。
図１０は、本発明の一実施形態に係る音声認識方法を示すフローチャートである。例えば、ホストＣＰＵ１２１は、人感センサー等の出力信号に応答して、ヒューマンインターフェース部１１０を起動する。

図１０に示すステップＳ５１において、第１の音声区間検出部６３ｂが、入力音声信号の音圧又はＳ／Ｎ比に基づいて、音声検出信号を活性化する。ステップＳ５２において、第２の音声区間検出部６３ｃが、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する。

ステップＳ５３において、一致検出部６４等が、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する。

本実施形態によれば、入力音声信号の音圧又はＳ／Ｎ比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減することができる。

＜電子機器＞
次に、本発明の一実施形態に係る電子機器について説明する。
図１１は、本発明の一実施形態に係る電子機器の構成例を示すブロック図である。この電子機器は、図１に示すシステムを用いている。図１１に示すように、この電子機器は、ヒューマンインターフェース部１１０と、制御部１２０と、操作部１３０と、ＲＯＭ（リードオンリー・メモリー）１４０と、ＲＡＭ（ランダムアクセス・メモリー）１５０と、通信部１６０と、表示部１７０とを含んでいる。なお、図１１に示す構成要素の一部を省略又は変更しても良いし、あるいは、図１１に示す構成要素に他の構成要素を付加しても良い。

ヒューマンインターフェース部１１０は、制御部１２０の制御の下で、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果を制御部１２０に送信する。制御部１２０は、ホストＣＰＵ１２１と、格納部１２２とを含んでいる。ホストＣＰＵ１２１は、格納部１２２等に格納されているプログラムに従い、ヒューマンインターフェース部１１０から送信される音声認識結果に基づいて各種の制御処理や信号処理を行う。

例えば、ホストＣＰＵ１２１は、ヒューマンインターフェース部１１０から送信される音声認識結果に基づいて、照明の明るさや、エアコン又は電子レンジの設定温度や、テレビの音量等を調節したり、ユーザーとの会話を行う。その際に、ホストＣＰＵ１２１は、音声出力部４０に各種の音声を出力させるための音声再生データを生成したり、表示部１７０に各種の画像を表示させるための画像再生データを生成したり、外部との間でデータ通信を行うために通信部１６０を制御する。

操作部１３０は、例えば、操作キーやボタンスイッチ等を含む入力装置であり、ユーザーによる操作に応じた操作信号をホストＣＰＵ１２１に出力する。ＲＯＭ１４０は、ホストＣＰＵ１２１が各種の信号処理や制御処理を行うためのデータ等を記憶している。また、ＲＡＭ１５０は、ホストＣＰＵ１２１の作業領域として用いられ、操作部１３０を用いて入力されたデータ、ＲＯＭ１４０から読み出されたデータ、又は、がプログラムに従って実行した演算結果等を一時的に記憶する。通信部１６０は、例えば、アナログ回路及びデジタル回路で構成され、制御部１２０と外部装置との間のデータ通信を行う。表示部１７０は、例えば、ＬＣＤ（液晶表示装置）等を含み、ホストＣＰＵ１２１から供給される画像再生データに基づいて各種の情報を表示する。

電子機器としては、例えば、照明器具やエアコンや電子レンジ等の家電製品又は住宅設備、掃除用や介護用のロボット、自動販売機、車載装置（ナビゲーション装置等）、携帯電話機等の移動端末、スマートカード、電卓、電子辞書、電子ゲーム機器、デジタルスチルカメラ、デジタルムービー、テレビ、テレビ電話、防犯用テレビモニター、ヘッドマウント・ディスプレイ、パーソナルコンピューター、プリンター、測定機器、及び、医療機器等が該当する。

本実施形態によれば、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる電子機器を提供することが可能となる。本発明は、以上説明した実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…Ｄ／Ａ変換器、４０…音声出力部、６０…コマンド制御部、６１…音声信号生成部、６２…標準パターン抽出部、６３…信号処理部、６３ａ…時間／周波数変換部、６３ｂ…第１の音声区間検出部、６３ｃ…第２の音声区間検出部、６３ｄ…特徴パターン抽出部、６４…一致検出部、７１…音声再生データ格納部、７２…選択肢データ格納部、７３…パラメーター格納部、８１…音声信号データベース格納部、８２…音声認識データベース格納部、１００…半導体装置、１１０…ヒューマンインターフェース部、１２０…制御部、１２１…ホストＣＰＵ、１２２…格納部、１３０…操作部、１４０…ＲＯＭ、１５０…ＲＡＭ、１６０…通信部、１７０…表示部

Claims

入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化する第１の音声区間検出部と、
前記音声検出信号が活性化されているときに、前記入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、前記入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第２の音声区間検出部と、
を備える半導体装置。
前記第２の音声区間検出部が、低域及び高域のそれぞれにおける重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求め、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、前記入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、前記入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定する、請求項１記載の半導体装置。
前記入力音声信号をフレーム毎にフーリエ変換して複数の周波数成分を抽出し、それらの周波数成分に基づいて複数のメルバンド係数を求める時間／周波数変換部と、
前記複数のメルバンド係数に基づいて、前記入力音声信号の複数の周波数成分の分布状態を表す特徴パターンを抽出する特徴パターン抽出部と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、音声認識選択肢データに対応する標準パターンを抽出する標準パターン抽出部と、
前記音声検出信号が活性化されていて、かつ、前記非音声検出信号が活性化されていないときに、前記特徴パターンと前記標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する一致検出部と、
をさらに備える、請求項１又は２記載の半導体装置。
前記一致検出部が、音声認識処理を行っている間に前記非音声検出信号が活性化されたときに、前記音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄する、請求項３記載の半導体装置。
請求項１〜４のいずれか１項記載の半導体装置と、
前記半導体装置を制御する制御部と、
を備えるシステム。
請求項５記載のシステムを備える電子機器。
入力音声信号の音圧又はＳ／Ｎ比に基づいて音声検出信号を活性化するステップ（ａ）と、
前記音声検出信号が活性化されているときに、前記入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、前記入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化するステップ（ｂ）と、
前記音声検出信号が活性化されていて、かつ、前記非音声検出信号が活性化されていないときに、前記入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力するステップ（ｃ）と、
を備える音声認識方法。