[go: up one dir, main page]

JP2017068153A - 半導体装置、システム、電子機器、及び、音声認識方法 - Google Patents

半導体装置、システム、電子機器、及び、音声認識方法 Download PDF

Info

Publication number
JP2017068153A
JP2017068153A JP2015195651A JP2015195651A JP2017068153A JP 2017068153 A JP2017068153 A JP 2017068153A JP 2015195651 A JP2015195651 A JP 2015195651A JP 2015195651 A JP2015195651 A JP 2015195651A JP 2017068153 A JP2017068153 A JP 2017068153A
Authority
JP
Japan
Prior art keywords
voice
speech
signal
detection signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015195651A
Other languages
English (en)
Inventor
文仁 倍賞
Fumihito Baisho
文仁 倍賞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2015195651A priority Critical patent/JP2017068153A/ja
Publication of JP2017068153A publication Critical patent/JP2017068153A/ja
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる半導体装置を提供する。
【解決手段】この半導体装置は、入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化する第1の音声区間検出部と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第2の音声区間検出部とを備える。
【選択図】図1

Description

本発明は、音声検出機能を有する半導体装置、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器に関する。さらに、本発明は、そのような半導体装置、システム、又は、電子機器において用いられる音声認識方法等に関する。
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、音声認識結果を得る技術である。一般に、音声認識装置には、パターンマッチングによる音声認識処理部の前段に、入力音声信号について音声(発話音声)と非音声(雑音)とを識別する音声区間検出部が挿入されている。
音声波形の振幅と零交差とに基づく従来の音声区間検出手法によれば、定常雑音については、発話音声と雑音との識別が良好であるが、非定常雑音については、発話音声と雑音との識別の精度が低い。特に、突発性の非定常雑音は、音声の子音成分と信号特性が似ているので、識別の精度が著しく低いという問題がある。
関連する従来技術として、特許文献1には、音声中の母音や子音の識別に基づいた音韻性検出により、会話中の音声を検出する音声検出方法が開示されている。この音声検出方法は、入力信号から一定時間毎に、音声中の音韻性を特徴付ける特徴量を抽出し、この特徴量により音声中の音韻性を検出し、その存在比率により音声とそれ以外とを判別して音声のみを検出する。
特開平6−110488号公報(請求項1−4、図1)
しかしながら、特許文献1によれば、あらかじめ多数の学習用音声データから抽出した特徴量を用いて音韻毎の平均値と共分散行列を算出して音韻毎の標準モデルを作成し、入力信号からフレーム単位に抽出した特徴量と各音韻の標準モデルとの統計的距離を計算する必要があるので、複雑な処理が必要になる。
そこで、本発明の第1の目的は、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる半導体装置を提供することである。また、本発明の第2の目的は、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減できる半導体装置及び音声認識方法を提供することである。さらに、本発明の第3の目的は、そのような半導体装置を用いたシステム、及び、そのようなシステムを用いた電子機器を提供することである。
以上の課題の少なくとも一部を解決するために、本発明の第1の観点に係る半導体装置は、入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化する第1の音声区間検出部と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第2の音声区間検出部とを備える。
本発明の第1の観点によれば、入力音声信号の音圧又はS/N比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、発話音声と雑音とを高精度で識別することができる。
ここで、第2の音声区間検出部が、低域及び高域のそれぞれにおける重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求め、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定するようにしても良い。それにより、音声認識処理において用いられる複数のメルバンド係数を利用して、非音声検出信号を生成することができる。
また、半導体装置が、入力音声信号をフレーム毎にフーリエ変換して複数の周波数成分を抽出し、それらの周波数成分に基づいて複数のメルバンド係数を求める時間/周波数変換部と、複数のメルバンド係数に基づいて、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンを抽出する特徴パターン抽出部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、音声認識選択肢データに対応する標準パターンを抽出する標準パターン抽出部と、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、特徴パターンと標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する一致検出部とをさらに備えるようにしても良い。それにより、音声認識における誤検出を低減させると共に、消費電力を削減することができる。
さらに、一致検出部が、音声認識処理を行っている間に非音声検出信号が活性化されたときに、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄するようにしても良い。それにより、ユーザーの回答が雑音の発生で中断された場合における誤検出を低減させることができる。
本発明の第2の観点に係るシステムは、上記いずれかの半導体装置と、半導体装置を制御する制御部とを備える。また、本発明の第3の観点に係る電子機器は、上記システムを備える。それにより、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できるシステム又は電子機器を提供することが可能となる。
また、本発明の第4の観点に係る音声認識方法は、入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化するステップ(a)と、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化するステップ(b)と、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力するステップ(c)とを備える。
本発明の第3の観点によれば、入力音声信号の音圧又はS/N比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減することができる。
本発明の一実施形態に係る半導体装置を用いたシステムの図。 図1に示す時間/周波数変換部における処理の例を説明するための図。 図1に示す第1の音声区間検出部における処理の例を説明するための図。 図1に示す第2の音声区間検出部等における処理の例を説明するための図。 グループ化された複数の帯域におけるカウント値の例を示す図。 メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。 メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。 メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。 メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図。 本発明の一実施形態に係る音声認識方法を示すフローチャート。 本発明の一実施形態に係る電子機器の構成例を示すブロック図。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
<システムの構成>
図1は、本発明の一実施形態に係る半導体装置を用いたシステムの構成例を示すブロック図である。図1に示すように、このシステムは、ヒューマンインターフェース部110及び制御部120で構成される。
ヒューマンインターフェース部110は、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果に対応する応答や処理を行う。ヒューマンインターフェース部110は、音声入力部10と、A/D変換器20と、D/A変換器30と、音声出力部40と、半導体装置100とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器30、及び、音声出力部40の少なくとも一部を、半導体装置100に内蔵しても良い。
半導体装置100は、コマンド制御部60と、音声信号生成部61と、標準パターン抽出部62と、信号処理部63と、一致検出部64とを含んでいる。また、半導体装置100は、音声再生データ格納部71と、選択肢データ格納部72と、パラメーター格納部73と、音声信号データベース(DB)格納部81と、音声認識データベース(DB)格納部82とを含んでいる。
制御部120は、ホストCPU(中央演算装置)121と、格納部122とを含んでいる。ホストCPU121は、格納部122の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、各種のメモリー、CD−ROM、又は、DVD−ROM等を用いることができる。
さらに、格納部122は、ヒューマンインターフェース部110において用いられる音声再生データ、音声認識選択肢データ、及び、音声検出パラメーターを格納している。音声再生データは、音声出力部40からユーザーに発する質問又はメッセージの音声波形を表す出力音声信号を生成するために用いられるデータ(例えば、テキストデータ等)を含んでいる。
音声認識選択肢データは、質問又はメッセージの音声に対して回答するユーザーの音声を認識する音声認識処理において複数の選択肢を構成する単語又は文章を表すデータ(例えば、テキストデータ等)を含んでいる。質問又はメッセージの音声をユーザーに発することにより、それに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況になる。
ホストCPU121は、ヒューマンインターフェース部110に制御信号を出力することにより、ヒューマンインターフェース部110の各種の動作を制御する。また、ホストCPU121は、格納部122に格納されている音声再生データ及び音声認識選択肢データを、データ転送コマンドに添付してコマンド制御部60に送信する。さらに、ホストCPU121は、格納部122に格納されている音声検出パラメーターを、パラメーター設定コマンドに添付してコマンド制御部60に送信する。
ヒューマンインターフェース動作を開始する際に、ホストCPU121は、シナリオ開始コマンドをコマンド制御部60に送信することにより、予め設定されたシナリオに沿って処理を行うようにヒューマンインターフェース部110を制御しても良い。その場合に、シナリオ開始コマンドは、シナリオフローにおいて最初に実行される処理に用いられるデータを指定する情報を含んでも良い。
音声入力部10は、例えば、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、デジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
半導体装置100において、コマンド制御部60、音声信号生成部61、標準パターン抽出部62、信号処理部63、及び、一致検出部64は、例えば、組み合わせ回路及び順序回路を含む論理回路等で構成される。音声再生データ格納部71〜パラメーター格納部73は、例えば、メモリー又はレジスター等で構成される。また、音声信号データベース格納部81〜音声認識データベース格納部82は、例えば、不揮発性メモリー等のメモリーで構成される。
コマンド制御部60は、制御部120のホストCPU121から音声再生データ、音声認識選択肢データ、及び、音声検出パラメーターを受信して、音声再生データを音声再生データ格納部71に格納し、音声認識選択肢データを選択肢データ格納部72に格納し、音声検出パラメーターをパラメーター格納部73に格納する。また、コマンド制御部60は、ホストCPU121からシナリオ開始コマンドを受信すると、予め設定されたシナリオフローに従って音声認識動作を実施するように音声信号生成部61及び標準パターン抽出部62を制御する。
音声信号生成部61は、音声再生データ格納部71から音声再生データを読み出し、読み出された音声再生データを用いて、ユーザーに対する質問又はメッセージの音声を表す出力音声信号を生成する処理を行う。音声再生データがテキストデータである場合には、出力音声信号を生成するために、音声信号データベース格納部81に格納されている音声信号データベースが用いられる。
例えば、音声信号データベースには、各種の音素に対応する音声波形を表す音声信号が蓄積されている。音声信号生成部61は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声信号を繋ぎ合わせることにより、出力音声信号を合成する。あるいは、音声信号データベースに、各種のテキストデータに対応する音声波形を表す複数の出力音声信号が蓄積されていても良い。その場合に、音声信号生成部61は、読み出されたテキストデータに対応する出力音声信号を選択する。
D/A変換器30は、音声信号生成部61から出力されるデジタルの音声信号を、アナログの音声信号に変換する。音声出力部40は、例えば、D/A変換器30から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、音声信号によって表される質問又はメッセージの音声を出力する。それにより、ユーザーに対する質問又はメッセージの音声が、音声出力部40から発せられる。
一方、標準パターン抽出部62は、選択肢データ格納部72から音声認識選択肢データを読み出す。標準パターン抽出部62〜一致検出部64は、読み出された音声認識選択肢データを用いて入力音声信号に対する音声認識処理を行う。そのために、標準パターン抽出部62は、音声認識データベース格納部82に格納されている音声認識データベースから、音声認識選択肢データによって表される複数の選択肢を構成する各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
信号処理部63は、時間/周波数変換部63aと、第1の音声区間検出部63bと、第2の音声区間検出部63cと、特徴パターン抽出部63dとを含んでいる。時間/周波数変換部63aは、A/D変換器20から入力される音声信号にフーリエ変換等を施すことにより、入力音声信号の周波数成分を抽出する。
第1の音声区間検出部63bは、入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化する。しかしながら、入力音声信号には、発話音声以外に雑音も含まれており、特に、突発性の非定常雑音は、発話音声の子音成分と信号特性が似ているので、識別の精度が著しく低い。一方、雑音には母音成分があまり含まれていないので、入力音声信号に含まれている子音成分又は母音成分の割合に基づいて、発話音声と雑音(特に、非定常雑音)との識別の精度を向上させることができる。
そこで、本実施形態においては、第2の音声区間検出部63cが、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する。
第1の音声区間検出部63b及び第2の音声区間検出部63cは、音声検出信号及び非音声検出信号を一致検出部64及びホストCPU121に出力する。それにより、ユーザーからの要求又は回答の有無を判定することができる。あるいは、音声検出信号と非音声検出信号とに基づいて論理演算を行う論理回路を信号処理部63等に設けても良い。その場合には、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、論理回路から出力される第2の音声検出信号が活性化される。論理回路から出力される第2の音声検出信号は、一致検出部64及びホストCPU121に供給される。
特徴パターン抽出部63dは、入力音声信号の周波数成分の分布状態を表す特徴パターンを生成して一致検出部64に出力する。一致検出部64は、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出して音声認識処理を行う。
一致検出部64は、複数の選択肢を構成する単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果としてホストCPU121に出力する。それにより、ホストCPU121は、半導体装置100に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
本実施形態によれば、入力音声信号の音圧又はS/N比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、発話音声と雑音とを高精度で識別することができる。
次に、信号処理部63に含まれている時間/周波数変換部63a、第1の音声区間検出部63b、第2の音声区間検出部63c、及び、一致検出部64における処理について詳しく説明する。
<時間/周波数変換部>
図2は、図1に示す時間/周波数変換部における処理の例を説明するためのフローチャートである。図2のステップS11において、時間/周波数変換部63aが、入力音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する(ハミング窓処理)。
ステップS12において、時間/周波数変換部63aが、フレーム毎に音声信号をフーリエ変換(FFT)することにより、複数の周波数成分を抽出する。それにより、例えば、各フレームについて512個の周波数成分が抽出される。
ステップS13において、時間/周波数変換部63aが、ステップS12において抽出された複数の周波数成分のパワー(例えば、512個の周波数成分の総和)を算出する。ステップS14において、時間/周波数変換部63aが、ステップS13において算出されたパワーを対数変換することにより、パワーの対数値を表すパワー信号を求める。
ステップS15において、時間/周波数変換部63aが、ステップS12において抽出された複数の周波数成分の絶対値に、メル尺度に基づいて定められた周波数領域の窓(メルフィルタバンク係数)をかけて積分することにより、窓の数に対応する数の数値を求める(メルフィルタバンク処理)。ステップS16において、時間/周波数変換部63aが、それらの数値を対数変換する。それにより、周波数領域の窓が26個であれば、26個の数値(メルバンド係数)が得られる。
このようにして得られたメルバンド係数の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。特徴パターン抽出部63dは、HMM(隠れマルコフモデル)に従って、フレーム毎に算出されたMFCCを連結することにより、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
<第1の音声区間検出部>
図3は、図1に示す第1の音声区間検出部における処理の例を説明するためのフローチャートである。図3のステップS21において、第1の音声区間検出部63bが、時間/周波数変換部63aによって生成されたパワー信号又は26個のメルバンド係数に基づいて、入力音声信号の音圧又はS/N比を計算する。第1の音声区間検出部63bは、入力音声信号の音圧とS/N比との両方を計算しても良い。
ステップS22において、第1の音声区間検出部63bが、音圧が第1の閾値よりも大きいか、又は、S/N比が第2の閾値よりも大きい場合に、音声検出信号を活性化し、それ以外の場合に音声検出信号を非活性化する。例えば、図3に示すように、第1の音声区間検出部63bは、音圧が第1の閾値よりも大きく、かつ、S/N比が第2の閾値よりも大きい場合に、音声検出信号を活性化しても良い。
<第2の音声区間検出部>
図4は、図1に示す第2の音声区間検出部等における処理の例を説明するためのフローチャートである。図4のステップS31において、第2の音声区間検出部63cが、第1の音声区間検出部63bから出力される音声検出信号が活性化されているか否かを判定する。音声検出信号が活性化されていない場合には、ステップS31が繰り返される。一方、音声検出信号が活性化されている場合には、処理がステップS32に移行する。
ステップS32において、第2の音声区間検出部63cが、処理中のフレームにおいて得られた26個のメルバンド係数を複数(例えば、4つ)の帯域にグループ化する。また、第2の音声区間検出部63cが、26個のメルバンド係数の重み付け平均値を算出する。重み付け平均値を算出する際には、全てのメルバンド係数毎に同じ重み付け係数を掛けても良いし、メルバンド係数毎に異なる重み付け係数を掛けても良いし、グループ毎に異なる重み付け係数を掛けても良い。なお、重み付け係数を「1」とした場合には、重み付け平均値は、26個のメルバンド係数の平均値そのものとなる。重み付け係数は、音声検出パラメーターの一部として、パラメーター格納部73に格納されている。
ステップS33において、第2の音声区間検出部63cが、グループ化された複数の帯域毎に、重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求める。ステップS34において、第2の音声区間検出部63cが、グループ化された複数の帯域におけるカウント値を比較する。
図5は、グループ化された複数の帯域におけるカウント値の例を示す図である。図5(A)は、入力音声信号が母音成分を表している場合のカウント値の例を示しており、図5(B)は、入力音声信号が子音成分を表している場合のカウント値の例を示している。図5(A)及び図5(B)において、横軸は、例えば、約0Hz〜約8kHzの周波数に対応するメルバンド係数の番号(mel)を示しており、縦軸は、メルバンド係数の大きさを示している。
図5に示す例においては、26個のメルバンド係数が、第1〜第4の帯域にグループ化されている。本願においては、最も低い周波数のメルバンド係数を含むN個(Nは自然数)の帯域を低域と定義し、最も高い周波数のメルバンド係数を含むN個の帯域を高域と定義する。従って、第1の帯域が低域で、第4の帯域が高域であっても良いし、第1の帯域及び第2の帯域が低域で、第3の帯域及び第4の帯域が高域であっても良い。
図5(A)に示すように、入力音声信号が母音成分を表している場合には、第1〜第4の帯域における平均値以上のメルバンド係数のカウント値が、それぞれ5、4、3、0となっている。一方、図5(B)に示すように、入力音声信号が子音成分を表している場合には、第1〜第4の帯域における平均値以上のメルバンド係数のカウント値が、それぞれ0、0、5、6となっている。
そこで、図4のステップS34において、第2の音声区間検出部63cは、例えば、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定する。それにより、音声認識処理において用いられる複数のメルバンド係数を利用して、非音声検出信号を生成することができる。
ステップS35において、第2の音声区間検出部63cが、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間(以下においては、「子音成分継続期間」ともいう)を計測して第1の計測値を求める。あるいは、第2の音声区間検出部63cは、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間(以下においては、「母音成分継続期間」ともいう)を計測して第2の計測値を求めても良い。第1又は第2の計測値は、例えば、フレーム数によって表される。第2の音声区間検出部63cは、第1又は第2の計測値をレジスター等の記憶領域に格納して、次のフレームを処理するまで保持する。
ステップS36において、第2の音声区間検出部63cが、子音成分継続期間Tcを閾値(所定の期間)Tcthと比較し、又は、母音成分継続期間Tvを閾値(所定の期間)Tvthと比較する。ここで、所定の期間Tcth及びTvthは、例えば、フレーム数によって定義され、パラメーターの一部として、パラメーター格納部73に格納されている。
ステップS37において、第2の音声区間検出部63cが、子音成分継続期間Tcが所定の期間Tcthよりも長いか否か、又は、母音成分継続期間Tvが所定の期間Tvthよりも短いか否かを判定する。子音成分継続期間Tcが所定の期間Tcthよりも長いか、又は、母音成分継続期間Tvが所定の期間Tvthよりも短いと判定された場合には、処理がステップS38に移行する。一方、子音成分継続期間Tcが所定の期間Tcth以下であり、かつ、母音成分継続期間Tvが所定の期間Tvth以上であると判定された場合には、処理がステップS41に移行する。
ステップS38において、第2の音声区間検出部63cが、非音声検出信号を活性化する。それにより、一致検出部64が、それまで行っていた音声認識処理を強制終了する。さらに、ステップS39において、一致検出部64が、処理中のフレームにおいてそれまで行っていた音声認識処理によって得られた音声認識結果を破棄する。また、一致検出部64は、非音声検出信号を非活性化するように第2の音声区間検出部63cを制御する。それにより、ステップS40において、第2の音声区間検出部63cが、非音声検出信号を非活性化する。その後、処理が、ステップS41に移行する。
ステップS41において、第2の音声区間検出部63cが、音声検出信号が活性化されているか否かを判定する。音声検出信号が活性化されている場合には、処理がステップS32に戻る。一方、音声検出信号が非活性化されている場合には、処理がステップS42に移行する。
ステップS42において、第2の音声区間検出部63cが、音声検出信号が活性化されていた間に母音成分継続期間が検出されたか否かを判定する。音声検出信号が活性化されていた間に母音成分継続期間が検出された場合には、処理がステップS43に移行する。ステップS43において、一致検出部64が、音声認識結果をホストCPU121に通知して、音声認識動作が終了する。
一方、音声検出信号が活性化されていた間に母音成分継続期間が検出されなかった場合には、処理がステップS44に移行する。ステップS44において、第2の音声区間検出部63cが、非音声検出信号を活性化する。ステップS45において、一致検出部64が、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄する。また、一致検出部64は、非音声検出信号を非活性化するように第2の音声区間検出部63cを制御する。それにより、ステップS46において、第2の音声区間検出部63cが、非音声検出信号を非活性化する。その後、音声認識動作が終了する。
図6〜図9は、メルバンド係数と音声検出信号及び非音声検出信号との対応関係を示す図である。図6〜図9の上部は、メルバンド係数の時間的な変化をグレースケールで示しており、横軸は時間軸であり、縦軸は周波数軸(約0Hz〜約8kHz)である。また、グレースケールの濃さは、メルバンド係数の大きさを示している。図6〜図9の下部は、それに伴う音声検出信号及び非音声検出信号のレベル変化を示している。なお、図6〜図9においては、非音声検出信号を非活性化する動作は省略されている。
図6〜図9において、非音声(雑音)の場合には、メルバンド係数の低域成分が小さく、高域成分が大きくなる。発話音声の子音成分の場合にも同様となる。しかしながら、発話音声には、子音成分のみならず母音成分も含まれている。母音成分の場合には、メルバンド係数の低域成分が大きくなる。音声検出信号は、入力音声信号の音圧又はS/N比に基づいて生成されるので、雑音にも反応してハイレベルに活性化される。一方、非音声検出信号は、入力音声信号の周波数分布に基づいて生成されるので、雑音(特に、突発性の非定常雑音)に反応してハイレベルに活性化される。
図6においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Tc1〜Tc4と、母音成分継続期間Tv1〜Tv3とが検出されている。ここで、子音成分継続期間Tc1〜Tc4のいずれも所定の期間Tcth以下であり、かつ、母音成分継続期間Tv1〜Tv3のいずれも所定の期間Tvth以上であるので、非音声検出信号はローレベルに非活性化されたままとなる。
図7においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Tc1〜Tc4と、母音成分継続期間Tv1〜Tv3とが検出されている。ここで、子音成分継続期間Tc2が所定の期間Tcthよりも長いので、子音成分継続期間Tc2が所定の期間Tcthを超えたときに、非音声検出信号がハイレベルに活性化される。
図8においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Tc1〜Tc5と、母音成分継続期間Tv1〜Tv4とが検出されている。ここで、母音成分継続期間Tv1が所定の期間Tvthよりも短いので、母音成分継続期間Tv1が終了したときに、非音声検出信号がハイレベルに活性化される。
図9においては、音声検出信号がハイレベルに活性化されている間に、子音成分継続期間Tc1が検出されているが、一方、母音成分継続期間は検出されていない。従って、音声検出信号がローレベルに非活性化されたときに、非音声検出信号がハイレベルに活性化される。
<一致検出部>
再び図1を参照すると、一致検出部64は、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに音声認識処理を行う。それにより、音声認識における誤検出を低減させると共に、消費電力を削減することができる。また、一致検出部64は、音声認識処理を行っている間に非音声検出信号が活性化されると、それまで行っていた音声認識処理を強制終了すると共に、非音声検出信号を非活性化するように第2の音声区間検出部63cを制御する。
さらに、一致検出部64は、音声認識処理を行っている間に非音声検出信号が活性化されたときに、処理中のフレームにおいてそれまで行っていた音声認識処理によって得られた音声認識結果を破棄したり、又は、音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄しても良い。それにより、ユーザーの回答が雑音の発生で中断された場合における誤検出を低減させることができる。
一致検出部64は、例えば、入力音声信号の先頭の音節から生成された特徴パターンを、音声認識選択肢データに含まれている複数の選択肢のテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。複数の選択肢の内に、一致が検出された音節を先頭に有する選択肢が1つだけ存在する場合には、一致検出部64は、その選択肢が変換後の単語又は文章であると判定しても良い。一方、複数の選択肢の内に、一致が検出された音節を先頭に有する複数の選択肢が存在する場合には、一致検出部64は、選択肢が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
1つの音節は、1つ又は複数の音素によって構成される。「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」(母音)を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」(子音)を表す標準パターンと、音節「か」を構成する第2番目の音素「a」(母音)を表す標準パターンとの組み合わせのことである。
入力音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
音声認識データベース格納部82は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられて蓄積されている。
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部63に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部64は、複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。それにより、ホストCPU121は、半導体装置100に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
次に、図1に示すシステムを用いて実施される音声認識方法の一例について説明する。
図10は、本発明の一実施形態に係る音声認識方法を示すフローチャートである。例えば、ホストCPU121は、人感センサー等の出力信号に応答して、ヒューマンインターフェース部110を起動する。
図10に示すステップS51において、第1の音声区間検出部63bが、入力音声信号の音圧又はS/N比に基づいて、音声検出信号を活性化する。ステップS52において、第2の音声区間検出部63cが、音声検出信号が活性化されているときに、入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する。
ステップS53において、一致検出部64等が、音声検出信号が活性化されていて、かつ、非音声検出信号が活性化されていないときに、入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する。
本実施形態によれば、入力音声信号の音圧又はS/N比に基づいて、発話音声を含む区間を検出した後に、入力音声信号に含まれている子音成分又は母音成分の出現分布に基づいて、主に雑音を含む区間を検出するので、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別して、音声認識処理における誤認識を低減することができる。
<電子機器>
次に、本発明の一実施形態に係る電子機器について説明する。
図11は、本発明の一実施形態に係る電子機器の構成例を示すブロック図である。この電子機器は、図1に示すシステムを用いている。図11に示すように、この電子機器は、ヒューマンインターフェース部110と、制御部120と、操作部130と、ROM(リードオンリー・メモリー)140と、RAM(ランダムアクセス・メモリー)150と、通信部160と、表示部170とを含んでいる。なお、図11に示す構成要素の一部を省略又は変更しても良いし、あるいは、図11に示す構成要素に他の構成要素を付加しても良い。
ヒューマンインターフェース部110は、制御部120の制御の下で、質問又はメッセージの音声をユーザーに発すると共に、それに対して回答するユーザーの音声を認識し、その音声認識結果を制御部120に送信する。制御部120は、ホストCPU121と、格納部122とを含んでいる。ホストCPU121は、格納部122等に格納されているプログラムに従い、ヒューマンインターフェース部110から送信される音声認識結果に基づいて各種の制御処理や信号処理を行う。
例えば、ホストCPU121は、ヒューマンインターフェース部110から送信される音声認識結果に基づいて、照明の明るさや、エアコン又は電子レンジの設定温度や、テレビの音量等を調節したり、ユーザーとの会話を行う。その際に、ホストCPU121は、音声出力部40に各種の音声を出力させるための音声再生データを生成したり、表示部170に各種の画像を表示させるための画像再生データを生成したり、外部との間でデータ通信を行うために通信部160を制御する。
操作部130は、例えば、操作キーやボタンスイッチ等を含む入力装置であり、ユーザーによる操作に応じた操作信号をホストCPU121に出力する。ROM140は、ホストCPU121が各種の信号処理や制御処理を行うためのデータ等を記憶している。また、RAM150は、ホストCPU121の作業領域として用いられ、操作部130を用いて入力されたデータ、ROM140から読み出されたデータ、又は、がプログラムに従って実行した演算結果等を一時的に記憶する。通信部160は、例えば、アナログ回路及びデジタル回路で構成され、制御部120と外部装置との間のデータ通信を行う。表示部170は、例えば、LCD(液晶表示装置)等を含み、ホストCPU121から供給される画像再生データに基づいて各種の情報を表示する。
電子機器としては、例えば、照明器具やエアコンや電子レンジ等の家電製品又は住宅設備、掃除用や介護用のロボット、自動販売機、車載装置(ナビゲーション装置等)、携帯電話機等の移動端末、スマートカード、電卓、電子辞書、電子ゲーム機器、デジタルスチルカメラ、デジタルムービー、テレビ、テレビ電話、防犯用テレビモニター、ヘッドマウント・ディスプレイ、パーソナルコンピューター、プリンター、測定機器、及び、医療機器等が該当する。
本実施形態によれば、複雑な処理を必要とすることなく、入力音声信号について発話音声と雑音とを高精度で識別できる電子機器を提供することが可能となる。本発明は、以上説明した実施形態に限定されるものではなく、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
10…音声入力部、20…A/D変換器、30…D/A変換器、40…音声出力部、60…コマンド制御部、61…音声信号生成部、62…標準パターン抽出部、63…信号処理部、63a…時間/周波数変換部、63b…第1の音声区間検出部、63c…第2の音声区間検出部、63d…特徴パターン抽出部、64…一致検出部、71…音声再生データ格納部、72…選択肢データ格納部、73…パラメーター格納部、81…音声信号データベース格納部、82…音声認識データベース格納部、100…半導体装置、110…ヒューマンインターフェース部、120…制御部、121…ホストCPU、122…格納部、130…操作部、140…ROM、150…RAM、160…通信部、170…表示部

Claims (7)

  1. 入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化する第1の音声区間検出部と、
    前記音声検出信号が活性化されているときに、前記入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、前記入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化する第2の音声区間検出部と、
    を備える半導体装置。
  2. 前記第2の音声区間検出部が、低域及び高域のそれぞれにおける重み付け平均値以上のメルバンド係数の個数をカウントしてカウント値を求め、高域におけるカウント値が低域におけるカウント値よりも大きい場合に、前記入力音声信号に含まれている子音成分の割合が所定の割合よりも大きいと判定し、又は、低域におけるカウント値が高域におけるカウント値よりも大きい場合に、前記入力音声信号に含まれている母音成分の割合が所定の割合よりも大きいと判定する、請求項1記載の半導体装置。
  3. 前記入力音声信号をフレーム毎にフーリエ変換して複数の周波数成分を抽出し、それらの周波数成分に基づいて複数のメルバンド係数を求める時間/周波数変換部と、
    前記複数のメルバンド係数に基づいて、前記入力音声信号の複数の周波数成分の分布状態を表す特徴パターンを抽出する特徴パターン抽出部と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、音声認識選択肢データに対応する標準パターンを抽出する標準パターン抽出部と、
    前記音声検出信号が活性化されていて、かつ、前記非音声検出信号が活性化されていないときに、前記特徴パターンと前記標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力する一致検出部と、
    をさらに備える、請求項1又は2記載の半導体装置。
  4. 前記一致検出部が、音声認識処理を行っている間に前記非音声検出信号が活性化されたときに、前記音声検出信号が活性化されてから行っていた音声認識処理によって得られた音声認識結果を破棄する、請求項3記載の半導体装置。
  5. 請求項1〜4のいずれか1項記載の半導体装置と、
    前記半導体装置を制御する制御部と、
    を備えるシステム。
  6. 請求項5記載のシステムを備える電子機器。
  7. 入力音声信号の音圧又はS/N比に基づいて音声検出信号を活性化するステップ(a)と、
    前記音声検出信号が活性化されているときに、前記入力音声信号に含まれている子音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも長いか、又は、前記入力音声信号に含まれている母音成分の割合が所定の割合を超えて継続した期間が所定の期間よりも短い場合に非音声検出信号を活性化するステップ(b)と、
    前記音声検出信号が活性化されていて、かつ、前記非音声検出信号が活性化されていないときに、前記入力音声信号の複数の周波数成分の分布状態を表す特徴パターンと音声認識選択肢データに対応する標準パターンとの一致を検出して音声認識処理を行うことにより、音声認識結果を出力するステップ(c)と、
    を備える音声認識方法。
JP2015195651A 2015-10-01 2015-10-01 半導体装置、システム、電子機器、及び、音声認識方法 Pending JP2017068153A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015195651A JP2017068153A (ja) 2015-10-01 2015-10-01 半導体装置、システム、電子機器、及び、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015195651A JP2017068153A (ja) 2015-10-01 2015-10-01 半導体装置、システム、電子機器、及び、音声認識方法

Publications (1)

Publication Number Publication Date
JP2017068153A true JP2017068153A (ja) 2017-04-06

Family

ID=58494821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015195651A Pending JP2017068153A (ja) 2015-10-01 2015-10-01 半導体装置、システム、電子機器、及び、音声認識方法

Country Status (1)

Country Link
JP (1) JP2017068153A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053837A (zh) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 一种汽车转向灯声音信号识别的方法和系统
JP7716059B1 (ja) * 2024-06-21 2025-07-31 日本キャステム株式会社 音声検出装置および音声検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053837A (zh) * 2017-12-28 2018-05-18 深圳市保千里电子有限公司 一种汽车转向灯声音信号识别的方法和系统
JP7716059B1 (ja) * 2024-06-21 2025-07-31 日本キャステム株式会社 音声検出装置および音声検出方法

Similar Documents

Publication Publication Date Title
US8762144B2 (en) Method and apparatus for voice activity detection
JP4264841B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム
Lu et al. I sense you by breath: Speaker recognition via breath biometrics
JP4882899B2 (ja) 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US10311865B2 (en) System and method for automated speech recognition
JPS6184694A (ja) 認識用辞書学習方法
JP2008309856A (ja) 音声認識装置及び会議システム
JP2018159788A (ja) 情報処理装置、方法及びプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP2017187676A (ja) 音声判別装置、音声判別方法、コンピュータプログラム
JP2017068153A (ja) 半導体装置、システム、電子機器、及び、音声認識方法
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
KR101737083B1 (ko) 음성 활동 감지 방법 및 장치
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JPS6367197B2 (ja)
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
US20150364146A1 (en) Method for Providing Visual Feedback for Vowel Quality
KR101250051B1 (ko) 발음 교정을 위한 음성 신호 분석 방법 및 장치
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2011158515A (ja) 音声認識装置および音声認識方法
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
US11250848B2 (en) Controlling navigation