JP4689032B2

JP4689032B2 - シンタックス上の置換規則を実行する音声認識装置

Info

Publication number: JP4689032B2
Application number: JP2000365147A
Authority: JP
Inventors: デロネイクリストフ; スフレフレデリック
Original assignee: Thomson Multimedia SA
Current assignee: Vantiva SA
Priority date: 1999-11-30
Filing date: 2000-11-30
Publication date: 2011-05-25
Anticipated expiration: 2020-11-30
Also published as: CN1159701C; CN1298171A; EP1111587A1; DE60025687T2; EP1111587B1; ES2254118T3; DE60025687D1; JP2001188560A; FR2801716A1; FR2801716B1; US20010002465A1

Description

【０００１】
【発明の属する技術分野】
本発明は、シンタックス上の入れ替え規則を実行する音声認識装置に関する。
【０００２】
【従来の技術】
情報システム又は、制御システムは速く直感的にユーザと相互に作用するために、音声インターフェースの使用を常に増加している。これらのシステムは、更に複雑となリ、ダイアログシステムは更に豊かになリ、そして、非常に大きい語彙の連続音声認識のフィールドに入りつつある。
【０００３】
大きい語彙の連続音声認識システムの設計は、アプリケーションから与えられる語彙からの所定のワードが、センテンスの時間順で、他のワード又は、ワードのグループの後に来る確率を定義する、言語モデルの生成を要することが知られている。
【０００４】
この言語モデルは、システムのユーザにより元来採用されている話す形式を再生しなければならない。
【０００５】
言語モデルの品質は、音声認識の信頼性に大きく影響を与える。この品質は、しばしば、言語モデルの難問（ｐｅｒｐｌｅｘｉｔｙ）と呼ばれるインデックスにより測定され、そして、それは概略、システムが各デコードされたワードに対してなすべき選択の数を表す。この難問が低ければ低いほど、品質が良い。
【０００６】
言語モデルは音声信号をテキスト文字列に翻訳するのに必要であり、ダイアログシステムにしばしば使用されるステップである。質問に応答するために理解が可能な理解論理を構成することが必要である。
【０００７】
大きな語彙言語モデルを生成するための２つの標準的な方法がある。
（１）いわゆるＮ−グラム統計的モデルは、最も多く採用されるのはバイグラム、又は、トリグラムであり、センテンス中のワードの発生確率は単にその前のＮワードに依存し、センテンスの文脈には独立である。
【０００８】
もし、１０００ワードの語彙に関するトリグラムを考えると、言語モデルを定義するために１０００^３の可能性を定義する必要があり、これは実際的ではない。この問題を解決するために、ワードは、モデル設計者により明確に定義されるか又は、自己組織法により推論されるセットにグループ化される。
【０００９】
この言語モデルは、自動的にテキストコーパスから構成される。
【００１０】
（２）第２の方法は、典型的には、いわゆるＢａｃｋｕｓＮａｕｒ形式又は、ＢＮＦ形式で記述される規則の組により定義されるコンテクスト−フリー文法である、確率文法によりシンタックスを記述することからなる。
【００１１】
文法を記述する規則は、しばしば手で書かれるがしかし、自動的にも推論される。これに関して、以下の文書を参照する。
【００１２】
１９９２年ＮＡＴＯＡＳＩシリーズ第７５巻のＦ．Ｊｅｌｉｎｅｋ，Ｊ．Ｄ．Ｌａｆｆｅｒｔｙ及び、Ｒ．Ｌ．Ｍｅｒｃｅｒによる”確率的コンテキスト−フリー文法の基本的方法”、３４５頁から３５９頁。
【００１３】
上述のモデルは、自然言語システムのインターフェースに適用される特定の問題を挙げる。
【００１４】
Ｎ−グラム形式言語モデル（１）は、センテンス内の幾つかの離れた文法的副構造を正しくモデル化しない。シンタックス的に正しく述べられたセンテンスについては、これら副構造が認識に向かってコンパイルされる保証はなく、且つ、それゆえ、１つ又はそれ以上の特定のシンタックス的な構造により習慣的に作られたそのようなセンテンスがセンテンスにより担われるかを決定することは困難である。
【００１５】
これらのモデルは連続的な口述には適するが、しかし、上述の欠点からダイアログシステムでのアプリケーションには向かない。
【００１６】
文法に基づくモデル（２）は、センテンスの遠隔の依存性を正しくモデル化するのが可能であり、特定のシンタックス的副構造にも従う。Ｎ−グラム形式モデルよりも所定のアプリケーションに対して、得られる言語の難問は低い。
【００１７】
一方、フランス語やイタリア語のような高く変化した言語に関しては、センテンスないのシンタックス的グループの位置はかなり自由であり、ＢＮＦ形式の文法は問題のシンタックス的グループの入れ替えを定義する問題がある。
【００１８】
英語のようなあまり変化しない言語に関しては、これらの入れ替えは躊躇や通常の話しことばの誤った開始を記述するのにも必要であり、ＢＮＦに基づく言語モデルをむしろ適さなくする。
【００１９】
【発明が解決しようとする課題】
本発明の目的は、上述の欠点を解決するシンタックス上の入れ替え規則を実行する音声認識装置を提供することである。
【００２０】
【課題を解決するための手段】
本発明の主題は、オーディオ信号を取得するオーディオプロセッサと、オーディオ信号に対応するワードのシーケンスを決定する言語デコーダとを有する音声認識装置であって、
言語デコーダは、シンボルの繰返しのない入れ替えについてのシンタックス上の規則を有する文法の援助で定義される言語モデルを有することを特徴とする音声認識装置である。
【００２１】
発明者により提案される言語モデルは、通常の言語のシンタックス的入れ替えと、高く変化した言語をサポートするために、ＢＮＦ文法の形式主義を拡張する。音声認識処理に要するメモリを減少することが可能であり、特に、量産品の使用に好適である。
【００２２】
好適な実施例によれば、シンボルの入れ替えに関するシンタックス上の規則は、シンボルの順序に関する制約の適切な表現として、シンボルのリストを有する。
【００２３】
好適な実施例によれば、言語デコーダは、入れ替えのシンボルをセンテンスの項の列へ割り当てるのに際し、所定の項に割り当てられるべきシンボルを、前に割り当てられていない入れ替えのシンボルの中から単に選択する、認識エンジンを有する。
【００２４】
特定の実施例によれば、認識エンジンは”ビームサーチ”又は、”ｎ−ベスト”形式のアルゴリズムを実行する。
【００２５】
他のアルゴリズムも実行できる。
【００２６】
他の特徴と優位点は、図を参照して、非制限的な実施例を読めば明らかとなろう。
【００２７】
【発明の実施の形態】
図１は音声認識の例示の装置１のブロック図を示す。この装置は、信号取得回路４によりマイクロフォン３から発生するオーディオ信号のディジタル化を行うオーディオ信号プロセッサ２を含む。プロセッサはディジタルサンプルを、所定のアルファベットから選択された音響シンボルへも変換する。この目的のために、音響音声学的デコーダ５を有する。言語的デコーダ６は、シンボルのシーケンスＡに関して、所定のシーケンスＡの最も可能性のあるワードのシーケンスＷを決定するために、これらのシンボルを処理する。
【００２８】
言語的デコーダは音響モデル７と、仮定に基づくサーチアルゴリズム９により実行される、言語モデル８を使用する。音響モデルは、例えば、いわゆる”隠れたマルコフ（Ｍａｒｋｏｖ）”モデル（又は、ＨＭＭ）である。本実施例で実行される言語モデルは、ＢａｃｋｕｓＮａｕｒ形式のシンタックス規則の援助の基に記述される文法に基づいている。言語モデルは、サーチアルゴリズムに仮定を提出するのに使用される。認識エンジンそのものである後者は、本例に関して、ビタビ形式アルゴリズムに基づく形式の”ｎ−ベスト”と呼ばれるアルゴリズムである。ｎ−ベスト形式のアルゴリズムは、センテンスの分析の各ステップで、ワードのｎの最も可能性のあるシーケンスを決定する。センテンスの最後で，ｎの候補から最も可能性のある解が選択される。
【００２９】
上述のパラグラフの概念は、それ自身当業者には既知であるがしかし、特にｎ−ベストアルゴリズムに関する情報は以下で与えられる。
【００３０】
１９９９年のＭＩＴプレスＩＳＢＮ０−２６２−１００６６−５の、Ｆ．Ｊｅｌｉｎｅｋによる”音声認識についての統計的方法”の第７９−８４頁。他のアルゴリズムも使用できる。特に、”ビームサーチ”形式の他のアルゴリズムは、” ｎ−ベスト”アルゴリズムが一例である。
【００３１】
音響音声学デコーダと言語デコーダは認識エンジンアルゴリズムと音響及び言語モデルを含むメモリにアクセスできるマイクロプロセッサにより実行される適切なソフトウェアにより実現できる。
【００３２】
本発明は、言語モデルと認識エンジンによるその使用にも関する。
【００３３】
以下の４つのシンタックス規則は習慣的に、言語モデル確率文法を定義するのに使用される。
【００３４】
これらの４つの規則は、
（ａ）”Ｏｒ”シンボル
＜シンボルＡ＞＝＜シンボルＢ＞｜＜シンボルＣ＞
（ｂ）”Ａｎｄ”シンボル（連結）
＜シンボルＡ＞＝＜シンボルＢ＞＜シンボルＣ＞
（ｃ）選択要素
＜シンボルＡ＞＝＜シンボルＢ＞？（選択インデックス）
（ｄ）語彙の割り当て
＜シンボルＡ＞＝”語彙ワード”
規則（ａ）、（ｂ）と（ｄ）のみが実際に必須であることに注意すべきである。規則（ｃ）は、他の３つの援助で再生できるが、言語モデルのコンパクトさを損なう。
【００３５】
本実施例に従った言語モデルは、言語モデルの確率的文法を定義するさらなるシンタックス規則を使用する。
（ｅ）入れ替えシンボル
＜シンボルＡ＞＝入れ替え｛＜シンボルＡ１＞，＜シンボルＡ２＞，．．＜シンボルＡｎ＞｝
（＜シンボルＡｉ＞＞＜シンボルＡｊ＞
，．．．，
＜シンボルＡｋ＞＞＜シンボルＡｌ＞）
これは、シンボルＡは、ｎシンボルＡ１，．．，Ａｎは繰返しのない入れ替えであることを意味し、これらのシンボルは、各入れ替えに関して”ａｎｄ”規則により隣接される。
【００３６】
更に、本実施例によれば、括弧間で表現される制約を満たし且つ”シンボルＡｉはシンボルＡｊの入れ替えの前に現れ、シンボルＡｋはシンボルＡｌの入れ替えの前に現れる”と読まれる入れ替えはシンタックス的に有効である。
【００３７】
規則（ｃ）の定義内にある選択インデックスは、以下のように動作する。
【００３８】
選択インデックスは整数とブーリアンで構成された対であり、真又は、偽である。
【００３９】
規則の形式を再度書くと、：
＜シンボルＡ＞＝＜シンボルＢ＞？（選択インデックス）
が出てきたときには、
−現在調査中の仮定に関して、言語モデルの文法の現在の状態を生じた他の規則の選択インデックス内で、現在の選択インデックスと同じ整数に出会わないときは、そのときはシンボルＡは、
−シンボルＢについてスワップされ且つ選択インデックスが活性化される、
−空の規則へスワップされ且つ選択インデックスが活性化されない。
−上述のプロトコルに従って同じ形式の規則を適用することにより同じインデックスが活性化されたなら、そのときは、規則の有効な表現は、
−ブーリアンインデックスが真ならば、シンボルＢについてシンボルＡをスワップし、
−ブーリアンインデックスが偽ならば、空のシンボルについてシンボルＡをスワップする。
【００４０】
入れ替えは、第５規則で表現されたシンタックス的ツリーを単純に拡張することにより、文脈に依存しないＢＮＦ形式言語で表現される。この拡張は最初の４つを採用することにより単に達成される。組合せの理由に関して、得られるシンタックス的ツリーは、入れ替えられたシンボルの数が増加するとすぐに、大きなサイズであろう。
【００４１】
入れ替え処理は、スタックに基づくオートマトンにより達成される。これゆえ、文脈に依存し、シンタックスサーチ中に、入れ替えに関係するグループがすでに発生したか否かを、順序の制約に関して正しくマークする。
【００４２】
ＢＮＦ文法の標準処理は図２に示されたオブジェクトにより達成される。
【００４３】
実施例は一方、図３に示される新たなオブジェクトを使用するスタックに基づくオートマトンに依存する。
【００４４】
シンタックス規則（ｅ）の実行を説明するために、３つのシンタックス的な項の単一の入れ替えよりなり、制約のない単純な文の例を使用する。
＜センテンス＞＝入れ替え｛＜Ａ＞、＜Ｂ＞，＜Ｃ＞｝
項Ａ，Ｂ，Ｃ又は、それ自身が１つ又はそれ以上の入れ替えシンボル及び／又は他のシンボルで定義される複雑な項でも良い。
【００４５】
文法の記述の従来の原理に基づく即ち、単純なＢＮＦシンタックスを使用する、音声認識システムは、センテンスのこの形式を以下のように翻訳する。
＜センテンス＞＝
＜Ａ＞＜Ｂ＞＜Ｃ＞｜
＜Ａ＞＜Ｃ＞＜Ｂ＞｜
＜Ｂ＞＜Ａ＞＜Ｃ＞｜
＜Ｃ＞＜Ａ＞＜Ｂ＞｜
＜Ｂ＞＜Ｃ＞＜Ａ＞｜
＜Ｃ＞＜Ｂ＞＜Ａ＞
”ｏｒ”シンボル（｜）で接続された３！の組合せがある。シンタックス的ツリーは、完全に展開され、且つこのツリーは実際に入れ替えの表現であるという情報が失われる。音声認識に要する言語モデルを表す記述されたツリーは、全体がメモリに蓄積される。
【００４６】
この構造は、認識エンジンの”ｎ−ベストサーチ”中に分析されるべき候補の項を提案するのに使用され、その項は、シンタックスに準拠するセンテンスを構成するために連結され、それからエンジンがｎベストを保持する、即ち、記録される音声信号に与えられる最も高くありそうなスコアを示す。
【００４７】
”ｎ−ベストサーチ”アルゴリズムは、シンタックス的ツリーの枝を剪定するための戦略と結合され、センテンスの左から右への分析中に、現在の分析点までのｎベスト候補セグメントのみを保持する。
【００４８】
問題のセンテンスの調査中に、分析の開始に際し、３つの項＜Ａ＞、＜Ｂ＞及び、＜Ｃ＞の各々の組合せの６つの選択肢が音響符号化エンジンに提示されると見られ得る。左から右へ、２つの組合せのうちの３つのサブグループ（１つは＜Ａ＞で始まり、２つ目は＜Ｂ＞で始まり、そして、最後は＜Ｃ＞で始まる）を区別することが可能であるということが失われそして、エンジンは画一的な方法で６つの構造の各々を分析する。シンタックス的構造＜Ａ＞、＜Ｂ＞及び、＜Ｃ＞が、これらの構造の分析中に剪定することを起こすのに十分に複雑であると分かった場合には、分析されるｎベストセグメントは実際に完全に同一の構造の対からなリ、そして、これゆえｎ−ベスト／２の選択肢が実際に考慮される。
【００４９】
本発明により提案された新しい処理は、サーチ空間のこの減少から悪影響を受けず、文法に入れ替えの存在する情報は明確に示され、且つ入れ替えは、そのように処理される。
【００５０】
次に、最初に入れ替えを記述する規則（ｅ）の実行の場合の認識エンジンの動作を説明し、そして、入れ替えが規則（ａ）から（ｄ）の援助の下に表現される場合の認識エンジンの動作を説明する。上述の本発明による優位点は、２つの振舞いを比較することから現れる。
【００５１】
図４から５は本発明に従って入れ替えが提示されるときの認識エンジンの動作を示す。
【００５２】
入れ替えの分析の開始に際し、図３に示されるステップでは、センテンスの最初の項の３つの可能性の、シンボル＜Ａ＞、シンボル＜Ｂ＞及び、シンボル＜Ｃ＞が認識エンジンに提示される。剪定を伴なう”ｎ−ベスト”分析が、これらの構造に与えられる。エンジンは、最初に、シンボル＜Ａ＞について考える。パス＜Ａ＞を探査する経路は左／右分析で以下のように処理される。
【００５３】
分析される＜Ａ＞で始まる経路であるので、メモリ内の論理シンボルは問題の入れ替えと現在調査されている選択肢へに割り当てられた変数を設定することにより、この情報を保存する。エンジンにより管理されるこの変数は、現在の経路の残りの分析に対してもはや活性化されていないことを規定する。即ち、同じ経路に沿って更に位置している項に関して候補シンボルとしてもはや有効でない。
【００５４】
更に詳しくは、分析の開始での状況は図４により示され、３つのシンボル＜Ａ＞，＜Ｂ＞、＜Ｃ＞は活性化されそして、ｎ−ベスト認識アルゴリズムに関する候補である。
【００５５】
サーチ中は、各々の選択肢が探査される。例えば、最初に、シンボル＜Ａ＞が認識される。この探査中には、＜Ａ＞で始まる可能なシンボル文字列を探査することが必要である。センテンスの第２項の分析の観点からは、図５に示される状況が得られる。シンボル＜Ａ＞はもはやセンテンスの残りの分析には有効ではなく、記録された信号フローの左／右分析で前に使用されたので、現在認識されている代わりに対して得られる。
【００５６】
これゆえ、２つの候補シンボル＜Ｂ＞，＜Ｃ＞が残る。同様な方法で、分析するサーチルーＴは例えば、シンボル＜Ｂ＞を不活性とマークし、残りの復号に関してシンボル＜Ｃ＞のみが有効として残る。
【００５７】
その他で述べたように、本発明に従った認識エンジンは、図７ａで示される方法で規則（ｅ）により、入れ替えを処理する。エンジンは、分析されるべきセンテンスのランクｉの項を考慮する。エンジンは可能な代わりのシンボルの組を決定する。３つのシンボルを有する例示の入れ替えの場合には、レベルｉで３つの可能な入れ替え＜Ａ＞，＜Ｂ＞，＜Ｃ＞がある。ランクｉ＋１では、２つの選択肢があり、ランクｉで選択された前のシンボルはもはやエンジンに考慮されない。ランクｉ＋２では、選択はできない。
【００５８】
ｎ−ベスト経路の考慮の観点から、図７ａの３つの特定のノードのレベルで可能な選択肢の数の減少は部分的に冗長な経路の考慮を避ける。
【００５９】
従来の音声認識アルゴリズムの動作は、本発明の機構は使用しないが、同様に表すことができる。
【００６０】
復号の開始に際し、状況は図６の状況であり、センテンスの分析の開始で、認識エンジンは６つの可能性に面していると考えると見られ得る。最初の２つの両方は、シンボル＜Ａ＞で始まり、そして、第２の項に関連する時再の選択肢が現れるまで、それらの処理は、全く同一である。
【００６１】
このように、この点まで、最も可能性のある追跡を保存するｎ−ベストアルゴリズムで使用される蓄積空間は、各サーチ仮定を２回含む。
【００６２】
さらに、グループ＜Ａ＞が非常に複雑であり且つ＜Ａ＞に続く区別する項の出現前に剪定が発生するなら、”ｎ−ベスト−サーチ”アルゴリズムは実際に、”ｎ／２ベスト−サーチ”のみが行われ、分析された各ルートが複製される。
【００６３】
与えられた例は３つの項の入れ替えに関連する。４つ又は、それ以上の項の入れ替えに関しては、同じ注目は、更にそれ以上の有害な効果を認識システムに与える。認識エンジンにより見られる難問は、言語モデルの実際の難問よりも非常に大きい。
【００６４】
図７ｂは、従来技術の処理を示す。３つの代わりに、６つの選択肢がランクｉで存在する。
【００６５】
この例は、本発明が、言語モデルの表現を増加せずに、従来技術と比較して２つの主な優位点を有することを示す。
【００６６】
多くのメモリを使用する入れ替えを記述するシンタックス的ツリーを蓄積する代わりに、入れ替えに現れる項に加えて、認識エンジンのｎ−ベスト分析中のシンタックス的グループの可能な活性化をマークする単純な形式の変数のみを蓄積する。
【００６７】
ＢＮＦ文法に基づく入れ替えのシンタックス的処理は、音声認識処理の音響部分によりなされるｎ−ベストサーチアルゴリズムに位置していない。１つ且つ同じ分析仮定は、何回か考慮され、そして、ｎ−ベストは非常に頻繁に単にｎ／ｍベストである。ｍは入れ替えに関係する項の数に依存する。
【００６８】
提案された新しい言語モデルは大きな語彙のマンマシン音声ダイアログアプリケーション、高く変化した言語又は、自発的な音声認識に関して意図されている。
【００６９】
上述の規則に基づく言語は、文法的センテンスの組が有限である場合には、あまり表現が豊かでないか又は、従来の規則で表現されたＢＮＦ形式言語より更に力がない。本発明の利益は、それゆえ、言語の表現度には関係しないが、しかし、シンタックス的規則の、音声認識エンジンのアルゴリズムによる、処理のレベルの優位点に関係する。処理は少ないメモリですむ。
【００７０】
更に、新たなシンタックス的規則は、文法を書くのが非常に容易である。
【００７１】
処理はスタックに基づくオートマトンに依存しているので、現在の解決策と異なり、量販電子装置に取り付けるアプリケーションのような低コスト、組み込みアプリケーションに特に好適である。
【００７２】
【発明の効果】
本発明により、シンタックス上の入れ替え規則を実行する音声認識装置を提供できる。
【図面の簡単な説明】
【図１】音声認識システムを示す図である。
【図２】従来技術のスタックに基づくオートマトンを示す図である。
【図３】本発明に従ったスタックに基づくオートマトンを示す図である。
【図４】本発明に従った、例示の入れ替えの分析の開始で、代わりのシンボルを示す図である。
【図５】本発明に従った、後のステップで、図４の例の代わりのシンボルを示す図である。
【図６】従来技術の規則の援助を伴なう入れ替えの表現の場合の、代わりのシンボルを示す図である。
【図７ａ】本発明に従った、例示の入れ替えからの結果のノードで代替の組を示すツリー示す図である。
【図７ｂ】従来技術に従った、例示の入れ替えからの結果のノードで代替の組を示すツリー示す図である。
【符号の説明】
１装置
２オーディオ信号プロセッサ
３マイクロフォン
４信号取得回路
５音響音声学的デコーダ
６言語的デコーダ
７音響モデル
８言語モデル
９サーチアルゴリズム

Claims

オーディオ信号を取得して音響シンボルを出力するオーディオプロセッサと、言語モデルを使って前記音響シンボルに対応するワードのシーケンスの仮説を形成し、ｎ個の最良の結果を与える“ビームサーチ”又は“ｎ−ベスト”形式のアルゴリズムを実行することによって、それらの最良の結果のうちから最も可能性のある解を選ぶ認識エンジンを含む言語デコーダとを有する音声認識装置であって、
前記言語モデルは、シンボルの繰返しのない入れ替えについてのシンタックス上の規則を有する文法の援助で定義され、
前記認識エンジンは、前記入れ替えの各シンボルに関連付けられた情報を管理して、前記仮説の形成において各シンボルを使うのを一回のみとすることを特徴とする音声認識装置。
シンボルの入れ替えに関するシンタックス上の規則は、シンボルのリストと、シンボルの順序に関する制約のゼロ個以上の表現とを有することを特徴とする請求項１記載の音声認識装置。
入れ替えのシンボルを項のシーケンスの仮説に割り当てるのに際し、前記認識エンジンは所定の項に割り当てられるべきシンボルを、前記シーケンスの仮説において前に割り当てられていない入れ替えのシンボルの中だけから選択することを特徴とする請求項１または２記載の音声認識装置。
前記言語モデルによってシーケンスの各項が確率値に関連付けられており、前記言語デコーダは前記シーケンスのｎベスト仮説のみを保持する剪定戦略をもって実行される、請求項１ないし３のうちいずれか一項記載の装置。