[go: up one dir, main page]

JP4689032B2 - シンタックス上の置換規則を実行する音声認識装置 - Google Patents

シンタックス上の置換規則を実行する音声認識装置 Download PDF

Info

Publication number
JP4689032B2
JP4689032B2 JP2000365147A JP2000365147A JP4689032B2 JP 4689032 B2 JP4689032 B2 JP 4689032B2 JP 2000365147 A JP2000365147 A JP 2000365147A JP 2000365147 A JP2000365147 A JP 2000365147A JP 4689032 B2 JP4689032 B2 JP 4689032B2
Authority
JP
Japan
Prior art keywords
symbol
symbols
syntax
replacement
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000365147A
Other languages
English (en)
Other versions
JP2001188560A (ja
Inventor
デロネイ クリストフ
スフレ フレデリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vantiva SA
Original Assignee
Thomson Multimedia SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Multimedia SA filed Critical Thomson Multimedia SA
Publication of JP2001188560A publication Critical patent/JP2001188560A/ja
Application granted granted Critical
Publication of JP4689032B2 publication Critical patent/JP4689032B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、シンタックス上の入れ替え規則を実行する音声認識装置に関する。
【0002】
【従来の技術】
情報システム又は、制御システムは速く直感的にユーザと相互に作用するために、音声インターフェースの使用を常に増加している。これらのシステムは、更に複雑となリ、ダイアログシステムは更に豊かになリ、そして、非常に大きい語彙の連続音声認識のフィールドに入りつつある。
【0003】
大きい語彙の連続音声認識システムの設計は、アプリケーションから与えられる語彙からの所定のワードが、センテンスの時間順で、他のワード又は、ワードのグループの後に来る確率を定義する、言語モデルの生成を要することが知られている。
【0004】
この言語モデルは、システムのユーザにより元来採用されている話す形式を再生しなければならない。
【0005】
言語モデルの品質は、音声認識の信頼性に大きく影響を与える。この品質は、しばしば、言語モデルの難問(perplexity)と呼ばれるインデックスにより測定され、そして、それは概略、システムが各デコードされたワードに対してなすべき選択の数を表す。この難問が低ければ低いほど、品質が良い。
【0006】
言語モデルは音声信号をテキスト文字列に翻訳するのに必要であり、ダイアログシステムにしばしば使用されるステップである。質問に応答するために理解が可能な理解論理を構成することが必要である。
【0007】
大きな語彙言語モデルを生成するための2つの標準的な方法がある。
(1)いわゆるN−グラム統計的モデルは、最も多く採用されるのはバイグラム、又は、トリグラムであり、センテンス中のワードの発生確率は単にその前のNワードに依存し、センテンスの文脈には独立である。
【0008】
もし、1000ワードの語彙に関するトリグラムを考えると、言語モデルを定義するために1000の可能性を定義する必要があり、これは実際的ではない。この問題を解決するために、ワードは、モデル設計者により明確に定義されるか又は、自己組織法により推論されるセットにグループ化される。
【0009】
この言語モデルは、自動的にテキストコーパスから構成される。
【0010】
(2)第2の方法は、典型的には、いわゆるBackus Naur形式又は、BNF形式で記述される規則の組により定義されるコンテクスト−フリー文法である、確率文法によりシンタックスを記述することからなる。
【0011】
文法を記述する規則は、しばしば手で書かれるがしかし、自動的にも推論される。これに関して、以下の文書を参照する。
【0012】
1992年NATOASIシリーズ第75巻のF.Jelinek,J.D.Lafferty及び、R.L.Mercerによる”確率的コンテキスト−フリー文法の基本的方法”、345頁から359頁。
【0013】
上述のモデルは、自然言語システムのインターフェースに適用される特定の問題を挙げる。
【0014】
N−グラム形式言語モデル(1)は、センテンス内の幾つかの離れた文法的副構造を正しくモデル化しない。シンタックス的に正しく述べられたセンテンスについては、これら副構造が認識に向かってコンパイルされる保証はなく、且つ、それゆえ、1つ又はそれ以上の特定のシンタックス的な構造により習慣的に作られたそのようなセンテンスがセンテンスにより担われるかを決定することは困難である。
【0015】
これらのモデルは連続的な口述には適するが、しかし、上述の欠点からダイアログシステムでのアプリケーションには向かない。
【0016】
文法に基づくモデル(2)は、センテンスの遠隔の依存性を正しくモデル化するのが可能であり、特定のシンタックス的副構造にも従う。N−グラム形式モデルよりも所定のアプリケーションに対して、得られる言語の難問は低い。
【0017】
一方、フランス語やイタリア語のような高く変化した言語に関しては、センテンスないのシンタックス的グループの位置はかなり自由であり、BNF形式の文法は問題のシンタックス的グループの入れ替えを定義する問題がある。
【0018】
英語のようなあまり変化しない言語に関しては、これらの入れ替えは躊躇や通常の話しことばの誤った開始を記述するのにも必要であり、BNFに基づく言語モデルをむしろ適さなくする。
【0019】
【発明が解決しようとする課題】
本発明の目的は、上述の欠点を解決するシンタックス上の入れ替え規則を実行する音声認識装置を提供することである。
【0020】
【課題を解決するための手段】
本発明の主題は、オーディオ信号を取得するオーディオプロセッサと、オーディオ信号に対応するワードのシーケンスを決定する言語デコーダとを有する音声認識装置であって、
言語デコーダは、シンボルの繰返しのない入れ替えについてのシンタックス上の規則を有する文法の援助で定義される言語モデルを有することを特徴とする音声認識装置である。
【0021】
発明者により提案される言語モデルは、通常の言語のシンタックス的入れ替えと、高く変化した言語をサポートするために、BNF文法の形式主義を拡張する。音声認識処理に要するメモリを減少することが可能であり、特に、量産品の使用に好適である。
【0022】
好適な実施例によれば、シンボルの入れ替えに関するシンタックス上の規則は、シンボルの順序に関する制約の適切な表現として、シンボルのリストを有する。
【0023】
好適な実施例によれば、言語デコーダは、入れ替えのシンボルをセンテンスの項の列へ割り当てるのに際し、所定の項に割り当てられるべきシンボルを、前に割り当てられていない入れ替えのシンボルの中から単に選択する、認識エンジンを有する。
【0024】
特定の実施例によれば、認識エンジンは”ビームサーチ”又は、”n−ベスト”形式のアルゴリズムを実行する。
【0025】
他のアルゴリズムも実行できる。
【0026】
他の特徴と優位点は、図を参照して、非制限的な実施例を読めば明らかとなろう。
【0027】
【発明の実施の形態】
図1は音声認識の例示の装置1のブロック図を示す。この装置は、信号取得回路4によりマイクロフォン3から発生するオーディオ信号のディジタル化を行うオーディオ信号プロセッサ2を含む。プロセッサはディジタルサンプルを、所定のアルファベットから選択された音響シンボルへも変換する。この目的のために、音響音声学的デコーダ5を有する。言語的デコーダ6は、シンボルのシーケンスAに関して、所定のシーケンスAの最も可能性のあるワードのシーケンスWを決定するために、これらのシンボルを処理する。
【0028】
言語的デコーダは音響モデル7と、仮定に基づくサーチアルゴリズム9により実行される、言語モデル8を使用する。音響モデルは、例えば、いわゆる”隠れたマルコフ(Markov)”モデル(又は、HMM)である。本実施例で実行される言語モデルは、Backus Naur形式のシンタックス規則の援助の基に記述される文法に基づいている。言語モデルは、サーチアルゴリズムに仮定を提出するのに使用される。認識エンジンそのものである後者は、本例に関して、ビタビ形式アルゴリズムに基づく形式の”n−ベスト”と呼ばれるアルゴリズムである。n−ベスト形式のアルゴリズムは、センテンスの分析の各ステップで、ワードのnのも可能性のあるシーケンスを決定する。センテンスの最後で,nの候補から最も可能性のある解が選択される。
【0029】
上述のパラグラフの概念は、それ自身当業者には既知であるがしかし、特にn−ベストアルゴリズムに関する情報は以下で与えられる。
【0030】
1999年のMITプレスISBN0−262−10066−5の、F.Jelinekによる”音声認識についての統計的方法”の第79−84頁。他のアルゴリズムも使用できる。特に、”ビームサーチ”形式の他のアルゴリズムは、” n−ベスト”アルゴリズムが一例である。
【0031】
音響音声学デコーダと言語デコーダは認識エンジンアルゴリズムと音響及び言語モデルを含むメモリにアクセスできるマイクロプロセッサにより実行される適切なソフトウェアにより実現できる。
【0032】
本発明は、言語モデルと認識エンジンによるその使用にも関する。
【0033】
以下の4つのシンタックス規則は習慣的に、言語モデル確率文法を定義するのに使用される。
【0034】
これらの4つの規則は、
(a)”Or”シンボル
<シンボルA>=<シンボルB>|<シンボルC>
(b)”And”シンボル(連結)
<シンボルA>=<シンボルB><シンボルC>
(c)選択要素
<シンボルA>=<シンボルB>?(選択インデックス)
(d)語彙の割り当て
<シンボルA>=”語彙ワード”
規則(a)、(b)と(d)のみが実際に必須であることに注意すべきである。規則(c)は、他の3つの援助で再生できるが、言語モデルのコンパクトさを損なう。
【0035】
本実施例に従った言語モデルは、言語モデルの確率的文法を定義するさらなるシンタックス規則を使用する。
(e)入れ替えシンボル
<シンボルA>=入れ替え{<シンボルA1>,<シンボルA2>,..<シンボルAn>}
(<シンボルAi>><シンボルAj>
,...,
<シンボルAk>><シンボルAl>)
これは、シンボルAは、nシンボルA1,..,Anは繰返しのない入れ替えであることを意味し、これらのシンボルは、各入れ替えに関して”and”規則により隣接される。
【0036】
更に、本実施例によれば、括弧間で表現される制約を満たし且つ”シンボルAiはシンボルAjの入れ替えの前に現れ、シンボルAkはシンボルAlの入れ替えの前に現れる”と読まれる入れ替えはシンタックス的に有効である。
【0037】
規則(c)の定義内にある選択インデックスは、以下のように動作する。
【0038】
選択インデックスは整数とブーリアンで構成された対であり、真又は、偽である。
【0039】
規則の形式を再度書くと、:
<シンボルA>=<シンボルB>?(選択インデックス)
が出てきたときには、
−現在調査中の仮定に関して、言語モデルの文法の現在の状態を生じた他の規則の選択インデックス内で、現在の選択インデックスと同じ整数に出会わないときは、そのときはシンボルAは、
−シンボルBについてスワップされ且つ選択インデックスが活性化される、
−空の規則へスワップされ且つ選択インデックスが活性化されない。
−上述のプロトコルに従って同じ形式の規則を適用することにより同じインデックスが活性化されたなら、そのときは、規則の有効な表現は、
−ブーリアンインデックスが真ならば、シンボルBについてシンボルAをスワップし、
−ブーリアンインデックスが偽ならば、空のシンボルについてシンボルAをスワップする。
【0040】
入れ替えは、第5規則で表現されたシンタックス的ツリーを単純に拡張することにより、文脈に依存しないBNF形式言語で表現される。この拡張は最初の4つを採用することにより単に達成される。組合せの理由に関して、得られるシンタックス的ツリーは、入れ替えられたシンボルの数が増加するとすぐに、大きなサイズであろう。
【0041】
入れ替え処理は、スタックに基づくオートマトンにより達成される。これゆえ、文脈に依存し、シンタックスサーチ中に、入れ替えに関係するグループがすでに発生したか否かを、順序の制約に関して正しくマークする。
【0042】
BNF文法の標準処理は図2に示されたオブジェクトにより達成される。
【0043】
実施例は一方、図3に示される新たなオブジェクトを使用するスタックに基づくオートマトンに依存する。
【0044】
シンタックス規則(e)の実行を説明するために、3つのシンタックス的な項の単一の入れ替えよりなり、制約のない単純な文の例を使用する。
<センテンス>=入れ替え{<A>、<B>,<C>}
項A,B,C又は、それ自身が1つ又はそれ以上の入れ替えシンボル及び/又は他のシンボルで定義される複雑な項でも良い。
【0045】
文法の記述の従来の原理に基づく即ち、単純なBNFシンタックスを使用する、音声認識システムは、センテンスのこの形式を以下のように翻訳する。
<センテンス>=
<A><B><C>|
<A><C><B>|
<B><A><C>|
<C><A><B>|
<B><C><A>|
<C><B><A>
”or”シンボル(|)で接続された3!の組合せがある。シンタックス的ツリーは、完全に展開され、且つこのツリーは実際に入れ替えの表現であるという情報が失われる。音声認識に要する言語モデルを表す記述されたツリーは、全体がメモリに蓄積される。
【0046】
この構造は、認識エンジンの”n−ベストサーチ”中に分析されるべき候補の項を提案するのに使用され、その項は、シンタックスに準拠するセンテンスを構成するために連結され、それからエンジンがnベストを保持する、即ち、記録される音声信号に与えられる最も高くありそうなスコアを示す。
【0047】
”n−ベストサーチ”アルゴリズムは、シンタックス的ツリーの枝を剪定するための戦略と結合され、センテンスの左から右への分析中に、現在の分析点までのnベスト候補セグメントのみを保持する。
【0048】
問題のセンテンスの調査中に、分析の開始に際し、3つの項<A>、<B>及び、<C>の各々の組合せの6つの選択肢が音響符号化エンジンに提示されると見られ得る。左から右へ、2つの組合せのうちの3つのサブグループ(1つは<A>で始まり、2つ目は<B>で始まり、そして、最後は<C>で始まる)を区別することが可能であるということが失われそして、エンジンは画一的な方法で6つの構造の各々を分析する。シンタックス的構造<A>、<B>及び、<C>が、これらの構造の分析中に剪定することを起こすのに十分に複雑であると分かった場合には、分析されるnベストセグメントは実際に完全に同一の構造の対からなリ、そして、これゆえn−ベスト/2の選択肢が実際に考慮される。
【0049】
本発明により提案された新しい処理は、サーチ空間のこの減少から悪影響を受けず、文法に入れ替えの存在する情報は明確に示され、且つ入れ替えは、そのように処理される。
【0050】
次に、最初に入れ替えを記述する規則(e)の実行の場合の認識エンジンの動作を説明し、そして、入れ替えが規則(a)から(d)の援助の下に表現される場合の認識エンジンの動作を説明する。上述の本発明による優位点は、2つの振舞いを比較することから現れる。
【0051】
図4から5は本発明に従って入れ替えが提示されるときの認識エンジンの動作を示す。
【0052】
入れ替えの分析の開始に際し、図3に示されるステップでは、センテンスの最初の項の3つの可能性の、シンボル<A>、シンボル<B>及び、シンボル<C>が認識エンジンに提示される。剪定を伴なう”n−ベスト”分析が、これらの構造に与えられる。エンジンは、最初に、シンボル<A>について考える。パス<A>を探査する経路は左/右分析で以下のように処理される。
【0053】
分析される<A>で始まる経路であるので、メモリ内の論理シンボルは問題の入れ替えと現在調査されている選択肢へに割り当てられた変数を設定することにより、この情報を保存する。エンジンにより管理されるこの変数は、現在の経路の残りの分析に対してもはや活性化されていないことを規定する。即ち、同じ経路に沿って更に位置している項に関して候補シンボルとしてもはや有効でない。
【0054】
更に詳しくは、分析の開始での状況は図4により示され、3つのシンボル<A>,<B>、<C>は活性化されそして、n−ベスト認識アルゴリズムに関する候補である。
【0055】
サーチ中は、各々の選択肢が探査される。例えば、最初に、シンボル<A>が認識される。この探査中には、<A>で始まる可能なシンボル文字列を探査することが必要である。センテンスの第2項の分析の観点からは、図5に示される状況が得られる。シンボル<A>はもはやセンテンスの残りの分析には有効ではなく、記録された信号フローの左/右分析で前に使用されたので、現在認識されている代わりに対して得られる。
【0056】
これゆえ、2つの候補シンボル<B>,<C>が残る。同様な方法で、分析するサーチルーTは例えば、シンボル<B>を不活性とマークし、残りの復号に関してシンボル<C>のみが有効として残る。
【0057】
その他で述べたように、本発明に従った認識エンジンは、図7aで示される方法で規則(e)により、入れ替えを処理する。エンジンは、分析されるべきセンテンスのランクiの項を考慮する。エンジンは可能な代わりのシンボルの組を決定する。3つのシンボルを有する例示の入れ替えの場合には、レベルiで3つの可能な入れ替え<A>,<B>,<C>がある。ランクi+1では、2つの選択肢があり、ランクiで選択された前のシンボルはもはやエンジンに考慮されない。ランクi+2では、選択はできない。
【0058】
n−ベスト経路の考慮の観点から、図7aの3つの特定のノードのレベルで可能な選択肢の数の減少は部分的に冗長な経路の考慮を避ける。
【0059】
従来の音声認識アルゴリズムの動作は、本発明の機構は使用しないが、同様に表すことができる。
【0060】
復号の開始に際し、状況は図6の状況であり、センテンスの分析の開始で、認識エンジンは6つの可能性に面していると考えると見られ得る。最初の2つの両方は、シンボル<A>で始まり、そして、第2の項に関連する時再の選択肢が現れるまで、それらの処理は、全く同一である。
【0061】
このように、この点まで、最も可能性のある追跡を保存するn−ベストアルゴリズムで使用される蓄積空間は、各サーチ仮定を2回含む。
【0062】
さらに、グループ<A>が非常に複雑であり且つ<A>に続く区別する項の出現前に剪定が発生するなら、”n−ベスト−サーチ”アルゴリズムは実際に、”n/2ベスト−サーチ”のみが行われ、分析された各ルートが複製される。
【0063】
与えられた例は3つの項の入れ替えに関連する。4つ又は、それ以上の項の入れ替えに関しては、同じ注目は、更にそれ以上の有害な効果を認識システムに与える。認識エンジンにより見られる難問は、言語モデルの実際の難問よりも非常に大きい。
【0064】
図7bは、従来技術の処理を示す。3つの代わりに、6つの選択肢がランクiで存在する。
【0065】
この例は、本発明が、言語モデルの表現を増加せずに、従来技術と比較して2つの主な優位点を有することを示す。
【0066】
多くのメモリを使用する入れ替えを記述するシンタックス的ツリーを蓄積する代わりに、入れ替えに現れる項に加えて、認識エンジンのn−ベスト分析中のシンタックス的グループの可能な活性化をマークする単純な形式の変数のみを蓄積する。
【0067】
BNF文法に基づく入れ替えのシンタックス的処理は、音声認識処理の音響部分によりなされるn−ベストサーチアルゴリズムに位置していない。1つ且つ同じ分析仮定は、何回か考慮され、そして、n−ベストは非常に頻繁に単にn/mベストである。mは入れ替えに関係する項の数に依存する。
【0068】
提案された新しい言語モデルは大きな語彙のマンマシン音声ダイアログアプリケーション、高く変化した言語又は、自発的な音声認識に関して意図されている。
【0069】
上述の規則に基づく言語は、文法的センテンスの組が有限である場合には、あまり表現が豊かでないか又は、従来の規則で表現されたBNF形式言語より更に力がない。本発明の利益は、それゆえ、言語の表現度には関係しないが、しかし、シンタックス的規則の、音声認識エンジンのアルゴリズムによる、処理のレベルの優位点に関係する。処理は少ないメモリですむ。
【0070】
更に、新たなシンタックス的規則は、文法を書くのが非常に容易である。
【0071】
処理はスタックに基づくオートマトンに依存しているので、現在の解決策と異なり、量販電子装置に取り付けるアプリケーションのような低コスト、組み込みアプリケーションに特に好適である。
【0072】
【発明の効果】
本発明により、シンタックス上の入れ替え規則を実行する音声認識装置を提供できる。
【図面の簡単な説明】
【図1】音声認識システムを示す図である。
【図2】従来技術のスタックに基づくオートマトンを示す図である。
【図3】本発明に従ったスタックに基づくオートマトンを示す図である。
【図4】本発明に従った、例示の入れ替えの分析の開始で、代わりのシンボルを示す図である。
【図5】本発明に従った、後のステップで、図4の例の代わりのシンボルを示す図である。
【図6】従来技術の規則の援助を伴なう入れ替えの表現の場合の、代わりのシンボルを示す図である。
【図7a】本発明に従った、例示の入れ替えからの結果のノードで代替の組を示すツリー示す図である。
【図7b】従来技術に従った、例示の入れ替えからの結果のノードで代替の組を示すツリー示す図である。
【符号の説明】
1 装置
2 オーディオ信号プロセッサ
3 マイクロフォン
4 信号取得回路
5 音響音声学的デコーダ
6 言語的デコーダ
7 音響モデル
8 言語モデル
9 サーチアルゴリズム

Claims (4)

  1. オーディオ信号を取得して音響シンボルを出力するオーディオプロセッサと、言語モデルを使って前記音響シンボルに対応するワードのシーケンスの仮説を形成し、n個の最良の結果を与える“ビームサーチ”又は“n−ベスト”形式のアルゴリズムを実行することによって、それらの最良の結果のうちから最も可能性のある解を選ぶ認識エンジンを含む言語デコーダとを有する音声認識装置であって、
    前記言語モデルは、シンボルの繰返しのない入れ替えについてのシンタックス上の規則を有する文法の援助で定義され、
    前記認識エンジンは、前記入れ替えの各シンボルに関連付けられた情報を管理し前記仮説の形成において各シンボルを使うのを一回のみとすることを特徴とする音声認識装置。
  2. シンボルの入れ替えに関するシンタックス上の規則は、シンボルのリストと、シンボルの順序に関する制約のゼロ個以上の表現を有することを特徴とする請求項1記載の音声認識装置。
  3. 入れ替えのシンボルを項のシーケンスの仮説に割り当てるのに際し、前記認識エンジンは所定の項に割り当てられるべきシンボルを、前記シーケンスの仮説において前に割り当てられていない入れ替えのシンボルの中だけから選択することを特徴とする請求項1または2記載の音声認識装置。
  4. 前記言語モデルによってシーケンスの各項が確率値に関連付けられており、前記言語デコーダは前記シーケンスのnベスト仮説のみを保持する剪定戦略をもって実行される、請求項1ないし3のうちいずれか一項記載の装置。
JP2000365147A 1999-11-30 2000-11-30 シンタックス上の置換規則を実行する音声認識装置 Expired - Fee Related JP4689032B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9915083A FR2801716B1 (fr) 1999-11-30 1999-11-30 Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
FR9915083 1999-11-30

Publications (2)

Publication Number Publication Date
JP2001188560A JP2001188560A (ja) 2001-07-10
JP4689032B2 true JP4689032B2 (ja) 2011-05-25

Family

ID=9552723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000365147A Expired - Fee Related JP4689032B2 (ja) 1999-11-30 2000-11-30 シンタックス上の置換規則を実行する音声認識装置

Country Status (7)

Country Link
US (1) US20010002465A1 (ja)
EP (1) EP1111587B1 (ja)
JP (1) JP4689032B2 (ja)
CN (1) CN1159701C (ja)
DE (1) DE60025687T2 (ja)
ES (1) ES2254118T3 (ja)
FR (1) FR2801716B1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1236198B1 (fr) * 1999-12-02 2006-03-01 Thomson Licensing Reconnaissance de parole avec un modele de langage complementaire pour les erreurs types du dialogue parle
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
JP3908965B2 (ja) 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
JP4579595B2 (ja) 2004-06-29 2010-11-10 キヤノン株式会社 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
FR2886445A1 (fr) * 2005-05-30 2006-12-01 France Telecom Procede, dispositif et programme d'ordinateur pour la reconnaissance de la parole
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
WO2018009231A1 (en) * 2016-07-08 2018-01-11 Asapp, Inc. Automatically responding to a request of a user
CN112562679B (zh) * 2020-11-26 2024-06-14 浪潮金融信息技术有限公司 一种离线语音交互方法、装置及介质
CN119886121B (zh) * 2025-03-27 2025-06-06 上海甄零科技有限公司 一种法律词典智能生成方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems

Also Published As

Publication number Publication date
CN1159701C (zh) 2004-07-28
CN1298171A (zh) 2001-06-06
EP1111587A1 (en) 2001-06-27
DE60025687T2 (de) 2006-07-27
EP1111587B1 (en) 2006-01-25
ES2254118T3 (es) 2006-06-16
DE60025687D1 (de) 2006-04-13
JP2001188560A (ja) 2001-07-10
FR2801716A1 (fr) 2001-06-01
FR2801716B1 (fr) 2002-01-04
US20010002465A1 (en) 2001-05-31

Similar Documents

Publication Publication Date Title
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
KR100908358B1 (ko) 음성 인식을 위한 방법, 모듈, 디바이스 및 서버
US6983239B1 (en) Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US20060074631A1 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
US20030009335A1 (en) Speech recognition with dynamic grammars
CN101326572A (zh) 具有巨大词汇量的语音识别系统
JP4689032B2 (ja) シンタックス上の置換規則を実行する音声認識装置
US20030009331A1 (en) Grammars for speech recognition
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
ES2283414T3 (es) Analisis sintactico y semantico de comandos vocales.
Tanigaki et al. A hierarchical language model incorporating class-dependent word models for OOV words recognition.
JP4392581B2 (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Chung Towards multi-domain speech understanding with flexible and dynamic vocabulary
Acero et al. A semantically structured language model
Bonafonte et al. Sethos: the UPC speech understanding system
Ringger Correcting speech recognition errors
Çömez Large vocabulary continuous speech recognition for Turkish using HTK
KR100306205B1 (ko) 발음 접속 그래프를 이용한 tts 처리 방법 및 연속 음성 인식 방법
JP2005221752A (ja) 音声認識装置、音声認識方法及びプログラム
Seneff The use of subword linguistic modeling for multiple tasks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100809

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees