JP2011248025A

JP2011248025A - チャネル統合方法、チャネル統合装置、プログラム

Info

Publication number: JP2011248025A
Application number: JP2010119853A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Sumitaka Sakauchi; 澄宇阪内; Yoshikazu Yamaguchi; 義和山口; Hirokazu Masataki; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2010-05-25
Filing date: 2010-05-25
Publication date: 2011-12-08
Anticipated expiration: 2030-05-25
Also published as: JP5411807B2

Abstract

【課題】複数のチャネルから音声認識に適した１のチャネルを選択し、選択されたチャネルの音声認識を行うチャネル統合方法、チャネル統合装置、プログラムを提供する。
【解決手段】チャネルごとに音声信号を入力とし、音声ディジタル信号を出力する音声入力部１２と、チャネルごとに音声ディジタル信号を入力とし、パワー値を出力するパワー計算部２１と、チャネルごとに音声ディジタル信号、パワー値を入力とし、パワー値が最大となるチャネルの音声ディジタル信号を出力音声ディジタル信号として出力するチャネル選択部２２と、出力音声ディジタル信号、音響モデル、言語モデルを入力とし、認識結果テキストを出力する音声認識部２３と、出力音声ディジタル信号を入力とし、保存音声信号ファイル情報を出力する音声信号保存部２５と、保存音声信号ファイル情報と認識結果テキストとを対応付けて保存する音声／テキスト保存部２６とを備える。
【選択図】図２

Description

本発明は、複数のチャネルから音声認識に適した１のチャネルを選択して、選択されたチャネルの音声ディジタル信号の音声認識を行うチャネル統合方法、チャネル統合装置、プログラムに関する。

複数チャネルにおける通話（音声）区間検出装置として、例えば特許文献１、２が知られている。特許文献１の通話区間検出装置は、複数の通話端末装置間で行われる通話の通話区間を正確に推定することを目的とする。詳細には、特許文献１の通話区間検出装置は、送話側チャネルの音声信号と受話側チャネルの音声信号とを入力とし、当該入力された２チャネルについて音声区間と、非音声区間とを検出する。当該検出された２チャネルの音声区間と、非音声区間との情報を用いて、通話区間を検出する。また、特許文献２の音声区間検出装置も複数チャネルの入力信号について、音声区間を推定することを目的としており、引用文献１と同様である。詳細には、特許文献２の音声区間検出装置は、各チャネルの入力信号をフレーム化して、フレーム単位でメモリに記憶する。各チャネルについてメモリに記憶された入力信号サンプルについて、この信号サンプルが音声区間のものであるか、非音声区間のものであるかを判定した結果（ＶＡＤフラグ）を出力する。各ＶＡＤフラグについて、一つでも音声区間であることを示すものが存在すれば統合検出結果を音声区間であることを示すものとし、全て非音声区間であることを示すものであれば統合検出結果を非音声区間であることを示すものとして、統合検出結果と音声区間の始端時刻を出力する。

特開２００８−２１６２７３号公報特開２００９−０３１６０４号公報

前述のように、従来技術では複数のチャネルの通話（音声）区間のみを抽出し、単一チャネルへの統合処理を行っていなかった（図１参照）。前述の従来技術では、各チャネルに通話音声のように全く異なる音声信号が入力されている場合には問題とはならない。しかしながら、例えば会議における質疑応答などにおいて同一の室内に複数のチャネルが存在しており、議論が行われるなどして複数の話者が同時に発話しているような状況では、主たる話者のチャネルとは別のチャネルに、主たる話者とは別の話者の発声や雑音などが混入したり、スピーカからの回り込み音声が混入したりすることにより、音声認識精度が劣化するという課題がある。また、従来技術では、単一チャネルへの統合処理を行わないため、複数チャネルのそれぞれについて音声認識を行う必要があり、音声認識に要する計算量が大きく、音声認識に要する時間も長くなるという課題がある。また、主たる話者の同一発声内容について回り込みが発生し別のチャネルに入力される場合、音声認識処理後に音声認識結果を統合する処理がさらに必要となり、処理量が増大するという課題がある。加えて、前記複数のチャネルからの入力音声信号を、音声認識用の音響モデル学習に用いる場合、予めどのチャネルの入力音声信号を音響モデル学習に用いるかを人手でラベル付けをする必要があり、ラベル付けの手間が大きくなるという課題がある。

本発明では、複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うことができるチャネル統合装置が提供される。本発明のチャネル統合装置は、音声入力部と、パワー計算部と、チャネル選択部と、音声認識部と、音声信号保存部と、音声／テキスト保存部とを備える。

音声入力部は、チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する。前記パワー計算部は、前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する。前記チャネル選択部は、前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。前記音声認識部は、前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する。前記音声信号保存部は、前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する。前記音声／テキスト保存部は、前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する。

以上のように本発明のチャネル統合装置は、音声認識に適した単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した１のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。

従来例を説明する図。実施例１にかかるチャネル統合装置の構成を示すブロック図。実施例１にかかるチャネル統合装置の動作を示すフローチャート。実施例２にかかるチャネル統合装置の構成を示すブロック図。実施例２にかかるチャネル統合装置の動作を示すフローチャート。実施例３にかかるチャネル統合装置の構成を示すブロック図。実施例３にかかるチャネル統合装置の動作を示すフローチャート。実施例４にかかるチャネル統合装置の構成を示すブロック図。実施例４にかかるチャネル統合装置の動作を示すフローチャート。実施例５にかかるチャネル統合装置の構成を示すブロック図。実施例５にかかるチャネル統合装置の動作を示すフローチャート。実施例６にかかるチャネル統合装置の構成を示すブロック図。実施例６にかかるチャネル統合装置の動作を示すフローチャート。実施例６にかかるチャネル統合装置のマージン処理手段の処理例を示す図。実施例７にかかるチャネル統合装置の構成を示すブロック図。実施例７にかかるチャネル統合装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図２、３を参照して本発明の実施例１にかかるチャネル統合装置および、チャネル統合方法を説明する。図２に示す本発明の実施例１にかかるチャネル統合装置２０は、音声入力部１２と、パワー計算部２１と、チャネル選択部２２と、音声認識部２３と、音響／言語モデルデータベース２４と、音声信号保存部２５と、音声／テキスト保存部２６とを備える。

音声入力部１２は、マイクロフォン１１−１〜Ｊから、チャネルごとに音声信号を入力し、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する（Ｓ１２）。以後、音声の入力時刻t、チャネル番号ｉの音声ディジタル信号をＳ_ｉ（ｔ）と表現する。パワー計算部２１は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する（Ｓ２１）。パワー値はフレーム毎に計算されるものとし、音響分析条件は、例えば窓長２０ｍｓｅｃ、シフト長１０ｍｓｅｃなどでよい。また、例えば３００Ｈｚから３．４ｋＨｚなどに帯域を制限してパワー値計算をすることとしてもよい。また、パワー値を対数化した値を以後の処理に用いることとしてもよいし、予め定めた幅で分割した周波数帯域（周波数ｂｉｎ）ごとにパワー値を比較して、パワー値が最大となる周波数ｂｉｎの数をパワー値の代わりに用いても良い。以後、フレーム番号ｎ、チャネル番号ｉのパワー値をＰ_ｉ（ｎ）と表現することとする。ｎ番目のフレーム開始時刻をｔ_ｓ、窓長をＴとした場合のフレーム番号ｎ、チャネル番号ｉにおけるパワー値Ｐ_ｉ（ｎ）は例えば、下式により計算される。

チャネル選択部２２は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、チャネルごとのパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）とを入力とし、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する（Ｓ２２）。例えば、チャネル番号ｊのパワー値Ｐ_ｊ（ｎ）が最大となる場合、つまり

である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は０とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して３ｄＢを加算したパワー値等を用いる。

音声認識部２３は、出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する（Ｓ２３）。音響モデル、言語モデルについては、予め音響／言語モデルデータベース２４に記憶されているものとし、音声認識部２３は、音響／言語モデルデータベース２４から、音響モデル、言語モデルを取得して用いるものとする。音声認識処理には従来方法を用いることとすれば良く、従来方法であるため説明を略す。音声信号保存部２５は、出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する（Ｓ２５）。音声／テキスト保存部２６は、保存音声信号ファイル情報と、認識結果テキストと、時間情報とを入力とし、時間情報を用いて、保存音声信号ファイル情報と認識結果テキストとを対応付けて保存する（Ｓ２６）。

本発明の実施例１にかかるチャネル統合装置によれば、単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した１のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。

図４、５を参照して本発明の実施例２にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例１の変形例である。図４に示す本発明の実施例２にかかるチャネル統合装置４０は、パワー正規化部４１をさらに備える。この点のみが実施例１との相違点であるため、以下、実施例１との相違点のみを説明する。

パワー正規化部４１は、パワー計算部２１から出力されたチャネルごとのパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して、チャネル選択部２２に出力する（Ｓ４１）。以後、チャネルごとの正規化パワー値をＰ'_ｉ（ｎ）（ｉ＝１〜Ｊ）と表現するものとし、総チャネル数Ｊを用いて、正規化パワー値Ｐ'_ｉ（ｎ）は以下の式にて計算することができる。なお、ｋは任意のチャネルを表すものとする。

なお、α_ｉはチャネルｉにおける正規化係数を意味しており、このα_ｉを求める際には、全フレームのパワー値Ｐ_ｉ（ｎ）を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。実施例２にかかるチャネル選択部４２は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、前記チャネルごとの正規化パワー値Ｐ'_ｉ（ｎ）（ｉ＝１〜Ｊ）とを入力とし、当該正規化パワー値Ｐ'_ｉ（ｎ）（ｉ＝１〜Ｊ）が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する（Ｓ４２）。図４の例では、出力音声ディジタル信号としてｊ番目のチャネルの音声ディジタル信号Ｓ_ｊ（ｔ）が選択されて出力されている。

これらにより、実施例１における効果に加えて、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。

図６、７を参照して本発明の実施例３にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例１の変形例である。図６に示す本発明の実施例３にかかるチャネル統合装置６０は、実施例１におけるパワー計算部２１に代えて尤度差計算部６１を備える。この点のみが実施例１との相違点であるため、以下、実施例１との相違点のみを説明する。

尤度差計算部６１は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声／ポーズモデル最尤スコアの差分を尤度差として出力する（Ｓ６１）。このときモノフォン、モノフォンから構築した音声モデル、ポーズモデルは何れも音響／言語モデルデータベース２４に予め記憶されているものとし、尤度差計算部６１は、音響／言語モデルデータベース２４から、モノフォン、音声モデル、ポーズモデルを取得して用いるものとする。モノフォンの尤度については、音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声ＧＭＭ(Gaussian Mixture Model: 混合正規分布)、無音（ポーズ）ＨＭＭ(Hidden Markov Model: 隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声ＧＭＭや無音ＨＭＭとの照合については、特願２００９−１５８７８３（参考特許文献１）に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声／ポーズモデル最尤スコアとして用いる。

以後、チャネルｉ、フレームｎにおけるモノフォン最尤スコアをＬ_ｉ ^ｍ（ｎ）、音声／ポーズモデル最尤スコアをＬ_ｉ ^Ｓ／Ｐ（ｎ）、尤度差をΔＬ_ｉ（ｎ）と表現するものとする。従って尤度差ΔＬ_ｉ（ｎ）＝Ｌ_ｉ ^ｍ（ｎ）−Ｌ_ｉ ^Ｓ／Ｐ（ｎ）となる。

なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔＬ_ｉ（ｎ）は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔＬ_ｉ（ｎ）は小さくなる。従って尤度差ΔＬ_ｉ（ｎ）の値は、チャネルｉが雑音が少なく明瞭であることを示す指標となる。なお、本実施例で用いられている尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。

実施例３にかかるチャネル選択部６２は、前記チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、前記チャネルごとの尤度差ΔＬ_ｉ（ｎ）（ｉ＝１〜Ｊ）とを入力とし、尤度差ΔＬ_ｉ（ｎ）が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する（Ｓ６２）。例えば、チャネル番号ｊの尤度差ΔＬ_ｊ（ｎ）が最大となる場合、つまり

である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。

これらにより、実施例１における効果に加えて、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアＬ_ｉ ^ｍ（ｎ）が高くなり、その結果として尤度差ΔＬ_ｉ（ｎ）が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。

図８、９を参照して本発明の実施例４にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例３の変形例である。図８に示す本発明の実施例４にかかるチャネル統合装置８０は、実施例３におけるチャネル選択部６２に代えてチャネル統合部８１を備える。この点のみが実施例３との相違点であるため、以下、実施例３との相違点のみを説明する。

チャネル統合部８１は、チャネルごとの音声ディジタル信号と、チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力する（Ｓ８１）。以後、全てのチャネルの音声ディジタル信号を合成した出力音声ディジタル信号をＳ（ｔ）と表現する。合成後の出力音声ディジタル信号Ｓ（ｔ）は以下の式で計算することができる。なお、ｋは任意のチャネルを表すものとする。

本実施例では、実施例３の変形例として、尤度差ΔＬ_ｉ（ｎ）に基づいて、全てのチャネルの音声ディジタル信号を合成することとしたが、これに限られない。例えば、実施例１の変形例として、パワー値Ｐ_ｉ（ｎ）に基づいて、全てのチャネルの音声ディジタル信号を合成することとしてもよい。この場合、合成後の出力音声ディジタル信号Ｓ（ｔ）は以下の式で計算することができる。なお、ｋは任意のチャネルを表すものとする。

これにより、実施例１における効果に加えて、尤度差に基づいて音声ディジタル信号を合成する場合には、尤度差が最大となるチャネルの音声ディジタル信号が重みづけにより他のチャネルよりも大きい割合で単一のチャネルに統合されるため、実施例３と同様の効果が生まれる。さらに、尤度差（パワー値）が最大とならなかった他のチャネルの音声ディジタル信号についても、適切に重みづけされて単一のチャネルに統合されるため、最大ではないが十分に大きな尤度差（パワー値）を持つチャネルについては、音声認識に使用され、音声認識の精度を高めることができる。

図１０、１１を参照して本発明の実施例５にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例１、２、３の変形例である。図１０に示す本発明の実施例５にかかるチャネル統合装置１００は、実施例３の変形例を代表例として図示したものである。図１０に示すチャネル統合装置１００は、実施例３におけるチャネル選択部６２に代えて、重みづけ手段１０１をさらに備えるチャネル選択部１０２を備える。この点のみが実施例１、２、３との相違点であるため、以下、実施例１、２、３との相違点のみを説明する。

重みづけ手段１０１は、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差を用いて当該重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する（Ｓ１０１、Ｓ１０２）。連続選択時間長に応じた重みづけは以下のように行われる。予めチャネル変更負荷時間Ｔｃを設定しておく。これは例えば１ｓｅｃなどでよい。さらに、例えばチャネルｊが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をｔｃ_ｊと表現し、チャネルごとに重み係数ｗ_ｉを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルｊについての重み係数ｗ_ｊ＝１とする。従って、過去から現在まで連続して選択され続けているチャネルについては、１よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルｊ以外の任意のチャネルｋ（ｋ≠ｊ）の重み係数をｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃとする。ただし、ｔｃ_ｊ＞Ｔｃとなる場合には、ｔｃ_ｊ＝Ｔｃとし、重み係数ｗ_ｉが１を超えて大きくならないようにする。従って、チャネルｊが任意の時刻に設定されてから現在に至るまでの経過時間が短い（ｔｃ_ｊが小さい）場合には、ｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルｊが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い（ｔｃ_ｊが大きい）場合には、ｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。

パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数ｗ_ｉをパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）に重みづけし、当該重みづけされたパワー値ｗ_ｉ×Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号ｊの重みづけされたパワー値ｗ_ｊ×Ｐ_ｊ（ｎ）が最大となる場合、つまり

である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。このように重み係数ｗ_ｉを設定して用いることにより、予め定めた一定時間（チャネル変更負荷時間Ｔｃ）よりも短い時間でのチャネル遷移に対して１よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間（チャネル変更負荷時間Ｔｃ）よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数ｗ_ｉが等しく１となるため、以後の遷移については１よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、

を満たすチャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）が選択される。

これにより、実施例１、２、３における効果に加えて、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。

図１２、１３、１４を参照して本発明の実施例６にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例１、２、３の変形例である。図１２に示す本発明の実施例６にかかるチャネル統合装置１２０は、実施例３の変形例を代表例として図示したものである。図１２に示すチャネル統合装置１２０は、実施例３におけるチャネル選択部６２に代えて、マージン処理手段１２２をさらに備えるチャネル選択部１２１を備える。この点のみが実施例１、２、３との相違点であるため、以下、実施例１、２、３との相違点のみを説明する。

マージン処理手段１２２は、全ての音声ディジタル信号のパワー値が一定の値を越えないために、何れのチャネルも選択されない時間区間（以下、無音区間という）が発生した場合に、無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて無音区間を補てんして、無音区間における出力音声ディジタル信号として出力する（Ｓ１２２）。詳細には図１４に示すように、マージン処理手段１２２は、無音区間の直後に選択されたチャネルＹの音声ディジタル信号の補てん時間長が、無音区間の直前に選択されたチャネルＸの音声ディジタル信号の補てん時間長よりも長くなるように無音区間を補てんする。

これにより、実施例１、２、３における効果に加えて、発話区間の始端において、何れのチャネルも選択されていないことにより、この発話区間の始端が欠損することを避けることができ、音声認識の精度を高めることができる。また、子音は母音に比べてパワーが小さく、音声認識の前処理の音声区間検出における始端検出に失敗しやすく、始端検出の失敗により、発話区間の始端が欠損し、音声認識の精度が劣化する。さらに、現状の音声認識で用いられる手法（Ｎ−ｇｒａｍ、探索中の枝刈など）は直前の認識仮説の影響を受けるため、始端検出誤りが発生すれば、始端よりも後の発話区間でも連鎖して誤認識を引き起こす。実施例６にかかるマージン処理手段によれば、これらの認識精度の劣化を回避することができる。

図１５、１６を参照して本発明の実施例７にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例１、２、３の変形例である。図１５に示す本発明の実施例７にかかるチャネル統合装置１５０は、実施例３の変形例を代表例として図示したものである。図１５に示すチャネル統合装置１５０は、実施例３における音声信号保存部２５に代えて、すべてのチャネルの音声ディジタル信号を保存しておく音声信号保存部１５１を備える。この点のみが実施例１、２、３との相違点であるため、以下、実施例１、２、３との相違点のみを説明する。

音声信号保存部１５１は、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき（Ｓ１５１）、音声ディジタル信号に欠損が生じた場合に、保存した音声ディジタル信号を用いて欠損を補てんする。この点のみが実施例１、２、３との相違点である。詳細には、音声信号保存部１５１は、入力されたチャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）を加算平均し、モノラル化して保存する。複数チャンネルのモノラル化する事で保存する音声ファイルのファイルサイズを小さくする事ができる。モノラル化され保存される音声信号をＳ_ｏｒｇ（ｔ）とすると上記処理は例えば以下の数式にて実現される。チャネル数で除算されるため、振幅レベルが小さくなるため、1以上の一定の係数をかけて音量レベルを向上させても構わない。

これにより、実施例１、２、３における効果に加えて、チャネル選択の誤りにより、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんすることができるため、欠損により音声認識精度が劣化した区間でも、音声信号の情報としては保存されているため、人手により音声認識結果の修正が可能である。

以上のように、本発明の実施例１にかかるチャネル統合装置によれば、音声認識に適した単一チャネルのみを音声認識に用いるため、音声認識の精度を高めることができ、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減でき、音声認識結果を統合する処理も削減できる。加えて、音声認識に適した１のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に要するラベル付けのコストを削減できる。また本発明の実施例２にかかるチャネル統合装置によれば、パワー値を正規化するため、マイクロフォンの感度の違いなどを考慮した最適なチャネル選択を行うことができる。また本発明の実施例３にかかるチャネル統合装置によれば、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。また本発明の実施例４にかかるチャネル統合装置によれば、複数チャネルからの音声信号が適切に重みづけされて統合されるため、音声認識の精度を高めることができる。また本発明の実施例５にかかるチャネル統合装置によれば、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。また本発明の実施例６にかかるチャネル統合装置によれば、発話区間の始端が欠損することによる音声情報の欠落を回避することができる。また本発明の実施例７にかかるチャネル統合装置によれば、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんして音声認識精度の劣化を避けることができる。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声／ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合方法であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声／ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力するチャネル統合ステップと、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存ステップと、
を備えることを特徴とするチャネル統合方法。
請求項１から３の何れかに記載のチャネル統合方法であって、
前記チャネル選択ステップが、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差を用いて当該重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する重みづけサブステップを、
さらに備えることを特徴とするチャネル統合方法。
請求項１から３の何れかに記載のチャネル統合方法であって、
何れのチャネルも選択されない時間区間（以下、無音区間という）が発生した場合に、
前記チャネル選択ステップが、前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理サブステップをさらに備え、
前記マージン処理サブステップは、前記無音区間の直後に選択されたチャネルの音声ディジタル信号の補てん時間長が、前記無音区間の直前に選択されたチャネルの音声ディジタル信号の補てん時間長よりも長くなるように前記無音区間を補てんすること
を特徴とするチャネル統合方法。
請求項１から３の何れかに記載のチャネル統合方法であって、
前記音声信号保存部が、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき、音声ディジタル信号に欠損が生じた場合に、前記保存した音声ディジタル信号を用いて前記欠損を補てんすること
を特徴とするチャネル統合方法。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声／ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
複数のチャネルから音声認識に適した１のチャネルを選択して、音声認識を行うチャネル統合装置であって、
チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声／ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算部と、
前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力するチャネル統合部と、
前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声／テキスト保存部と、
を備えることを特徴とするチャネル統合装置。
請求項１から７の何れかに記載されるチャネル統合方法を実行すべき指令をコンピュータに対してするプログラム。