[go: up one dir, main page]

JP2002304190A - 発音変化形生成方法及び音声認識方法 - Google Patents

発音変化形生成方法及び音声認識方法

Info

Publication number
JP2002304190A
JP2002304190A JP2002037218A JP2002037218A JP2002304190A JP 2002304190 A JP2002304190 A JP 2002304190A JP 2002037218 A JP2002037218 A JP 2002037218A JP 2002037218 A JP2002037218 A JP 2002037218A JP 2002304190 A JP2002304190 A JP 2002304190A
Authority
JP
Japan
Prior art keywords
pronunciation
language
target language
native
variants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002037218A
Other languages
English (en)
Inventor
Silke Goronzy
ゴロンジー、シルケ
Ralf Kompe
コンペ、ラルフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2002304190A publication Critical patent/JP2002304190A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 非ネイティブスピーカによるアクセントのあ
る発音を収集することなく、非ネイティブスピーカによ
り発声される所定のターゲット言語の発音変化形を得
る。 【解決手段】 認識システムにより少なくとも1つの所
定のターゲット言語及び/又は方言のネイティブスピー
カによる音声を分析し、特定のアクセントを有するター
ゲット言語及び/又は方言の発音変化形及び/又は発音
規則を導出するステップを有し、認識システムは、少な
くとも1つの所定のソース言語用に設計され及び/又は
学習されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識処理のた
めの発音変化形(pronunciation variants)を生成する
ための発音変化形生成方法及び音声認識方法に関する。
【0002】
【従来の技術】所定のターゲット言語を認識するための
音声認識装置は、ターゲット言語を母語すなわちネイテ
ィブ言語とする話者から発せられる音声により学習され
る。
【0003】従来の音声認識装置及び音声認識方法で
は、ターゲット言語のネイティブスピーカではなく、他
のソース言語を母語又はネイティブ言語とする話者がタ
ーゲット言語を発声した場合、認識率は著しく低下す
る。
【0004】これは、従来の音声認識装置及び音声認識
方法における判断基準が、非ネイティブスピーカの発音
から大きく乖離しているからである。
【0005】
【発明が解決しようとする課題】非ネイティブスピーカ
の発音によってターゲット言語の認識率が低下する問題
を解決するために、音声認識装置に含まれる辞書又は用
語集に非ネイティブスピーカによる発音の変化(pronun
ciation variants:以下、発音変化形という。)又は代
替的発音(alternatives)を追加することにより、辞書
又は用語集を拡張する手法が知られている。このよう
な、非ネイティブスピーカによる発音変化形又は代替的
発音を得るために、様々な手法が提案されている。これ
らの手法の多くは、ターゲット言語とは異なるソース言
語を母語又はネイティブ言語とする非ネイティブスピー
カにより発声されたターゲット言語の発声音を収集する
ものであり、非常に困難でコストがかかる手法である。
あるいは、ソース言語が既知の場合、ターゲット言語の
発声音を予測する規則を独自に作成する手法もある。
【0006】したがって、本発明の目的は、非ネイティ
ブスピーカによるアクセント(独特の癖)のある発音を
収集することなく、非ネイティブスピーカにより発声さ
れる所定のターゲット言語の発音変化形を容易に得るこ
とができる発音変化形生成方法及び音声認識方法を提供
することである。特に、本発明は、2つのネイティブ言
語、すなわちソース言語とターゲット言語のみから非ネ
イティブスピーカによる発音変化形を容易に得ることが
できる発音変化形生成方法、音声認識方法、発音変化形
生成/音声認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る発音変化形生成方法は、少なくとも
1つの所定のターゲット言語及び/又は方言を認識する
音声認識用の発音変化形を生成する発音変化形生成方法
において、認識システムにより、少なくとも1つの所定
のターゲット言語及び/又は方言のネイティブスピーカ
による音声を分析し、特定のアクセントを有するターゲ
ット言語及び/又は方言の発音変化形及び/又は発音規
則を導出するステップを有し、認識システムは、少なく
とも1つの所定のソース言語用に設計され及び/又は学
習されていることを特徴とする。また、この認識システ
ムは、少なくとも前処理において、所定のソース言語及
び/又は方言により学習されていてもよい。
【0008】このように、本発明では、ソース言語によ
り学習された認識システムにより、ネイティブスピーカ
による音声のみを用いて、少なくとも1つの所定のター
ゲット言語用の発音変化形及び/又は発音規則を抽出及
び生成する。すなわち、本発明では、ソース言語を母語
又はネイティブ言語とする話者により発声された異なる
ソース言語の音声データベースを用いるが、このような
データベースは、従来の手法における、ソース言語を母
語又はネイティブ言語とする非ネイティブスピーカによ
り発声されたターゲット言語の音声データベースを構築
するより簡単であり、したがって、本発明に基づく変化
音生成方法は、従来の手法より手間がかからず、低コス
トである。
【0009】本発明では、認識すべきターゲット言語と
は異なるソース言語の認識システムを設計及び/又は学
習する。発音変化形及び/又は発音規則を導出するステ
ップは、学習セッションの後に、ソース言語用に設計さ
れた認識システムにターゲット言語のネイティブ音声を
適用することにより実行される。ここで、選択されたソ
ース言語は、ターゲット言語の発音変化形及び/又は発
音規則としてある種のアクセント(訛り)を認識システ
ムに与え、本発明は、アクセントの影響を受けた認識シ
ステムを使用する。
【0010】なお、本発明の説明においては、「言語」
及び「方言」という用語は、特にそれぞれを明記してい
ない場合、単独で両方の意味を含むものとする。
【0011】本発明の好ましい具体例においては、認識
システムは、少なくとも前処理において、所定のソース
言語及び/又は方言により学習されている。
【0012】さらに、本発明に係る変化音生成方法は、
ソース言語及び/又は方言のネイティブスピーカによる
ソース言語及び/又は方言の音声を用いて学習を行うス
テップを有していてもよい。
【0013】さらに、発音変化形及び/又は発音規則の
組は、ソース言語を母語又はネイティブ言語とし、ター
ゲット言語を外国語として発声する話者による発音変化
形及び/又は発音規則のそれぞれを分析することにより
導出してもよい。これにより得られる発音変化形及び/
又は発音規則は、非ネイティブスピーカによるアクセン
トを有するターゲット言語を記述する。
【0014】新たな発音変化形は、導出された発音規則
をターゲット言語の開始辞書(starting lexicon)に適
用し、ターゲット言語の認識処理用に開始辞書を拡張し
て変更された辞書を生成することにより生成してもよ
い。この処理は、ターゲット言語の認識処理にとって重
要であり、及び/又は非ネイティブスピーカのソース言
語又はネイティブ言語に特有のアクセントを有する発音
を記述する発音変化形を含ませることにより達成され
る。
【0015】最も単純な開始辞書として、ターゲット言
語のネイティブスピーカによる発音変化形及び/又は発
音規則のみが含まれる基礎的辞書(canonical lexico
n)を初期的に使用してもよい。
【0016】新たな発音規則及び/又は発音変化形を生
成するためには、ターゲット言語とは異なるソース言語
に固有の認識処理又は認識システムを採用することが好
ましい。
【0017】さらに、この発音規則及び/又は発音変化
形を生成する認識処理又は認識システムは、ソース言語
により学習された少なくとも1つの言語モデル及び1組
の隠れマルコフモデルを含み、又は基づいていてもよ
い。
【0018】さらに、本発明の好ましい具体例において
は、発音変化形及び/又は発音規則の生成に使用される
認識処理又は認識システムは、少なくとも1つの音、音
素及び/又は他の言語的サブユニットのシーケンスを認
識するための音ループ構造を含み、又は基づいている。
【0019】発音変化形及び/又は発音規則を生成する
認識処理又は認識システムにおいては、例えば、言語モ
デルを使用せず、したがって制約を設けなくてもよい。
しかしながら、発音変化形及び/又は発音規則を生成す
る認識処理又は認識システムにおいて、ソース言語に実
際に含まれる音、音素及び/又は他の言語要素のシーケ
ンスに関する制約を設けるとなおよい。さらに、ソース
言語におけるnグラム構造(n-gram structure)、特に
バイグラム構造(bi-gram structure)に関する制約を
設けるとよい。
【0020】発音変化形及び/又は発音規則の数を増加
させるために、ターゲット言語を母語又はネイティブ言
語とする複数の様々な話者による音声を分析し、ターゲ
ット言語用の発音変化形及び/又は発音規則の組を増加
させてもよい。
【0021】特に、単純な具体例においては、発音変化
形及び/又は発音規則を生成する認識処理又は認識シス
テムは、ターゲット言語又は方言の音声データベースを
評価することにより学習を行った後に、学習データに基
づく音声認識処理を行う。
【0022】一方、ターゲット言語を母語又はネイティ
ブ言語とする話者によるターゲット言語の音声認識処理
の適用中に学習を行うことが必要である、あるいは望ま
しいアプリケーションもある。
【0023】さらに、本発明の好ましい具体例において
は、制約のための言語モデル及び/又はnグラム構造
は、認識処理又は認識結果を評価し、人間の聞き手によ
る記憶をシミュレートすることにより変更される。
【0024】上述した、本発明に基づく発音変化形生成
方法は、少なくとも1つのターゲット言語の音声を認識
する音声認識方法に適用し、又は含ませることができ
る。すなわち、上述の課題を解決するために、本発明に
係る音声認識方法は、少なくとも1つのターゲット言語
の音声を認識する音声認識方法において、上述した発音
変化形生成方法に基づく処理ステップを含む。
【0025】本発明に係る音声認識方法の好ましい具体
例においては、発音変化形生成方法に基づく処理ステッ
プは、ターゲット言語の音声認識処理に先行する前処理
の少なくとも一部として実行される。
【0026】また、発音変化形生成方法に基づく処理ス
テップは、ターゲット言語の音声認識処理の少なくとも
一部として実行してもよく、これにより可能な発音変化
形及び/又は発音規則の数を増加させ、音声認識処理の
認識率を高めることができる。
【0027】本発明に基づく音声認識方法の柔軟性を高
めるために、上述の手法に様々な異なるソース言語及び
/又は様々な異なるターゲット言語を含ませてもよい。
これにより、異なるソース言語のアクセントを有する様
々なターゲット言語の音声を認識するように音声認識シ
ステムを構築及び学習することができる。このような音
声認識システムは、選択された又は所望のターゲット言
語による情報を得るために、どのようなネイティブ言語
を有する話者が発声するかが未知である、例えば旅行者
用の情報システムに適用することができる。
【0028】以下、本発明のさらなる特徴を説明する。
【0029】通常、ネイティブ音声データにより学習さ
れる従来の音声認識システムにとって、非ネイティブス
ピーカの音声を認識することは困難である。
【0030】ターゲット言語が非ネイティブスピーカに
より発声された場合、通常、認識率は著しく低下する。
これは、非ネイティブスピーカによる発音が期待される
発音から大きくかけ離れているためである。この問題を
解決する手法として、非ネイティブによる代替的発音又
は発音変化形により認識システムの辞書を拡張する手法
がある。これらの代替的発音を得る手法は幾つかある
が、これらは非常にコストがかかる。
【0031】そこで、非ネイティブスピーカによる代替
発音又は発音変化形を生成する本発明に基づく発音変化
形生成方法は、ネイティブ音声により学習されたモデル
を使用し、すなわち、モデルは、話者にとって母語又は
ネイティブ言語である外国のソース言語により学習さ
れ、これによりターゲット言語用の発音変化形及び/又
は発音規則を導き出す。
【0032】これにより、ソース言語のアクセントを有
するターゲット言語の発音変化形及び/又は発音規則を
得ることができる。例えば、ソース言語が英語であり、
ターゲット言語が独語であるとすると、英語アクセント
を有する(英語訛りの)独語の発音変化形及び/又は発
音規則を得ることができる。
【0033】この処理は、既存のネイティブ音声データ
ベースを採用し、評価することにより実現できるので、
非常に処理を効率化することができる。
【0034】本発明の説明において、ソース言語とは、
話者の母語又はネイティブ言語である。また、ターゲッ
ト言語とは、その話者が話そうとしている言語である。
例えば、英語のネイティブスピーカが独語を話そうとし
ている場合、ソース言語は英語であり、ターゲット言語
は独語である。
【0035】上述の問題に対し、従来は以下のような手
法を用いていた。
【0036】例えば、非ネイティブ音声又はアクセント
を有する音声を用いて、隠れマルコフモデル等の音響モ
デルを学習する手法が知られている。これにより、認識
結果は向上するが、この手法は、ソース言語が1つのみ
の場合しか適用することができない。モデルを2以上の
ソース言語、すなわち複数の異なるアクセントを有する
音声で学習した場合、生成されるモデルは、散漫にな
り、ネイティブ音声の性能が低下するため、望ましくな
い。さらに、この手法では、音素は、コンテキストに依
存する音素の異なる発音を許容する様々なコンテキスト
でモデル化されるため、この手法は、トライフォン(tr
iphone)、すなわち前後の音素コンテキストを考慮した
音素が使用されている場合のみしか機能しない。しかし
ながら、アプリケーションのメモリ容量及び時間的要求
から、多くのアプリケーションではモノフォン又は非常
に制約が強いトライフォンを使用している。
【0037】導出された発音変化形及び/又は発音規則
は、以下のように認識処理に適用される。発音規則は、
ターゲット言語の辞書に適用される。すなわち、基礎的
辞書に生成された規則を適用し、これにより話者のアク
セントに固有の新たな発音変化形が生成される。このよ
うに生成された新たな発音変化形は、辞書に追加され、
これにより、1つの単語に対して複数の発音を含む拡張
及び変更された辞書が生成される。
【0038】上述のように、ソース言語の話者又は聞き
手がターゲット言語をどのように聞くかを考慮してもよ
い。すなわち、ターゲット言語をネイティブ言語とする
複数の異なる話者により発声されたターゲット言語の複
数の同じ発声音を評価してもよい。
【0039】上述した、従来の音素認識処理による各発
声音の認識では、発声音は、先行する発声音を記憶する
ことなくデコードされる。しかしながら、人間である聞
き手は、過去に聞いた異なる発声音を記憶している。聞
き手がターゲット言語を以前に聞いたことがない場合で
あっても、その聞き手は、所定の発声音を複数回聞い
て、発声音の発話を試みる際、その同じ発声音の異なる
形式を評価することができる。
【0040】したがって、本発明に基づいて発音変化形
及び/又は規則を生成し、及び音声を認識する処理にお
いて、このような記憶作用をシミュレートするとよい。
【0041】これは、先に認識された全ての発声音を用
いて、音声認識器(recognizer)に採用されている言語
モデルの音素nグラムを変更することにより実現でき
る。これにより、先行する発声音は、同じ発声音につい
て認識された音素シーケンスが互いに類似するものとな
るように、認識器を変更する。
【0042】上述の音声認識器は、いわゆるループ認識
器(loop recognizer)の構造を有していてもよい。ル
ープ認識器は、通常の辞書及び/底の言語モデルから独
立した音声認識システムである。音ループ認識器(phon
e loop recognizer)の辞書とは、通常の構造と異な
り、単語を含んでいない。これに代えて、音ループ認識
器の辞書は、検討中のソース言語に基づく音素及び音素
のシーケンスのみが含まれている。したがって、音ルー
プ認識器は、認識処理の間のみ、音素シーケンスを認識
する。不確実な(arbitrary)音素シーケンスを回避す
るために、音素nグラムを構築及び含ませることによ
り、制約を設けてもよい。これにより、検討中のソース
言語において実際に出現するシーケンスによる制約を設
けることができる。
【0043】また、上述の目的を達成するために、本発
明に係る発音変化形生成/音声認識装置は、上述の発音
変化形生成方法及び/又は音声認識方法を実行して、発
音変化形及び/又は発音規則を生成し、及び/又は音声
認識を行う。
【0044】また、上述の目的を達成するために、本発
明に係るコンピュータプログラム製品は、コンピュータ
又はデジタル信号処理装置により実行されて、上述の発
音変化形生成方法及び/又は音声認識方法を実現するコ
ンピュータプログラムを有する。
【0045】
【発明の実施の形態】以下、本発明に係る発音変化形生
成方法及び音声認識方法について、図面を参照して詳細
に説明する。
【0046】図1に示すステップS1において、言語モ
デル及び1組の隠れマルコフモデル(hidden Markov mo
dels:以下、HMMという。)を構築し、これらを所定
のソース言語SLについて学習する。この学習は、ソー
ス言語の音声データベースを評価することによって実行
される。一方、ステップS2においては、ターゲット言
語TLのデータベースが構築される。
【0047】図1に示すステップS3においては、ター
ゲット言語TLの音声データベースに対し、ステップS
1において構築された言語モデルに基づく認識処理が適
用され、このステップS3における音ループ認識器(ph
one loop recognizer)の結果について、ステップS4
において、ターゲット言語参照記述(target language
reference description)、すなわち独語参照トランス
クリプション(Germanreference transcription)と、
ソース言語に基づいて認識されたターゲット言語トラン
スクリプションとが比較される。
【0048】この比較に基づき、ステップS5におい
て、これらのトランスクリプション間の割当を行い、ソ
ース言語SLに基づくターゲット言語TLの発音に関す
る発音規則の組が作成される。この割当は、例えば「決
定木(decision trees)」により行うことができる。
【0049】図2は、本発明に基づく学習セッション
と、発音変化形及び発音規則を生成する処理を説明する
図である。
【0050】学習セッションAは、ステップS21にお
いて、所定のソース言語SLのネイティブスピーカによ
る音声の音声データベースから開始される。ステップS
22においては、ネイティブのソース言語SLの音声デ
ータベースを用いて、HMMの組を学習し、SLモデル
の組を生成する。この学習は、ステップS23におい
て、音ループ認識器を生成し、ステップS24におい
て、ソース言語SLのnグラム又はバイグラム構造が生
成される。これにより、ソース言語SL用に設計された
認識システムが完成する。
【0051】認識セクションBは、ステップS25にお
いて、ターゲット言語のネイティブ音声の音声データベ
ースをステップS23において学習された音ループ認識
器に適用することにより実行される。この結果、ステッ
プS26において、発音変化形の組及び/又はソース言
語SLによるアクセントがあるターゲット言語の発音規
則が得られる。
【0052】図3は、本発明に基づいて、特に所定のタ
ーゲット言語TLを認識する音声認識方法の手順を示す
図である。
【0053】ステップ31において、ソース言語のアク
セントを有するターゲット言語TLの入力音声が発せら
れ、この入力音声は、ステップS32において、示すタ
ーゲット言語TL用に設計された音声認識システムSR
に入力される。音声認識システムSRには、ステップS
34において構築されたターゲット言語TL用に設計さ
れた一組のHMMと、ステップS35において生成され
たターゲット言語TLの言語モデルLMが含まれる。ス
テップS36においては、図2のステップS26におい
て生成されたアクセントを有する発音変化形及び/又は
発音規則を含む辞書が作成され、ステップS32におい
て、音声認識システムSRは、この辞書を用いて認識処
理を行う。このように、ステップS36において拡張さ
れた辞書を用いることにより、音声認識システムSR
は、ソース言語のアクセントを有するターゲット言語を
認識することができ、ステップS33において、この認
識結果を出力する。
【0054】図4は、アクセントを有する発音変化形及
び/又は発音規則を導き出すための、従来の学習セッシ
ョンを示す図である。このセッションは、ステップS4
1において開始され、このステップS41においては、
ソース言語SLのアクセントを有する音声を含むターゲ
ット言語のデータベースが準備される。このようなデー
タベースを構築することは容易ではなく、高いコストを
必要とする。
【0055】ステップS41において構築されたソース
言語SLのアクセントを有する音声を含むターゲット言
語のデータベースは、ステップS42〜ステップS42
において、ターゲット言語により学習されたHMM及び
ターゲット言語のバイグラムを含むように設計された音
ループ認識器に入力される。この結果、ステップS46
において、発音変化形又は発音規則が生成され、これら
を用いて辞書等を拡張することができる。
【0056】
【発明の効果】以上のように、本発明に係る発音変化形
生成方法は、認識システムにより、少なくとも1つの所
定のターゲット言語及び/又は方言のネイティブスピー
カによる音声を分析し、特定のアクセントを有するター
ゲット言語及び/又は方言の発音変化形及び/又は発音
規則を導出するステップを有し、認識システムは、少な
くとも1つの所定のソース言語用に設計され及び/又は
学習されている。これにより、非ネイティブスピーカに
よるアクセントのある発音を収集することなく、非ネイ
ティブスピーカにより発声される所定のターゲット言語
の発音変化形を得ることができる。
【図面の簡単な説明】
【図1】本発明に基づき発音変化形及び/又は発音規則
を生成する処理を説明する図である。
【図2】本発明に基づく学習セッションを説明する図で
ある。
【図3】本発明に基づく音声認識処理を説明する図であ
る。
【図4】従来の学習セッションを示す図である。
フロントページの続き (72)発明者 ゴロンジー、シルケ ドイツ連邦共和国、70327 シュトゥット ゥガルト ハインリッヒ−ヘルツ−ストラ ーセ 1 ソニー インターナショナル (ヨーロッパ)ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバン スド テクノロジー センター シュトゥ ットゥガルト内 (72)発明者 コンペ、ラルフ ドイツ連邦共和国、70327 シュトゥット ゥガルト ハインリッヒ−ヘルツ−ストラ ーセ 1 ソニー インターナショナル (ヨーロッパ)ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバン スド テクノロジー センター シュトゥ ットゥガルト内 Fターム(参考) 5D015 AA03 GG01 HH00

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1つの所定のターゲット言語
    及び/又は方言を認識する音声認識用の発音変化形を生
    成する発音変化形生成方法において、 認識システムにより、上記少なくとも1つの所定のター
    ゲット言語及び/又は方言のネイティブスピーカによる
    音声を分析し、特定のアクセントを有する上記ターゲッ
    ト言語及び/又は方言の発音変化形及び/又は発音規則
    を導出するステップを有し、 上記認識システムは、少なくとも1つの所定のソース言
    語用に設計され及び/又は学習されていることを特徴と
    する発音変化形生成方法。
  2. 【請求項2】 上記認識システムは、少なくとも前処理
    において、上記所定のソース言語及び/又は方言により
    学習されていることを特徴とする請求項1記載の発音変
    化形生成方法。
  3. 【請求項3】 上記ソース言語及び/又は方言のネイテ
    ィブスピーカによる該ソース言語及び/又は方言の音声
    を用いて学習を行うステップを有する請求項1又は2記
    載の発音変化形生成方法。
  4. 【請求項4】 上記発音変化形及び/又は発音規則の組
    は、上記ソース言語を母語又はネイティブ言語とし、上
    記ターゲット言語を外国語として発声する話者による発
    音変化形及び/又は発音規則のそれぞれを分析すること
    により導出されることを特徴とする請求項1乃至3いず
    れか1項記載の発音変化形生成方法。
  5. 【請求項5】 上記発音変化形は、上記導出された発音
    規則を上記ターゲット言語の開始辞書に適用し、上記タ
    ーゲット言語の認識処理用に該開始辞書を拡張して変更
    された辞書を生成することにより、生成されることを特
    徴とする請求項1乃至4いずれか1項記載の発音変化形
    生成方法。
  6. 【請求項6】 上記開始辞書として、初期的には、上記
    ターゲット言語のネイティブスピーカによる発音変化形
    及び/又は発音規則のみが含まれる基礎的辞書が使用さ
    れることを特徴とする請求項5記載の発音変化形生成方
    法。
  7. 【請求項7】 上記発音変化形及び/又は発音規則の生
    成には、上記ソース言語に固有の認識処理又は認識シス
    テムが使用されることを特徴とする請求項1乃至6いず
    れか1項記載の発音変化形生成方法。
  8. 【請求項8】 上記発音変化形及び/又は発音規則の生
    成に使用される認識処理又は認識システムは、ネイティ
    ブスピーカの音声を用いて上記ソース言語により学習さ
    れた少なくとも1つの言語モデル及び隠れマルコフモデ
    ルを含み、又は基づいていることを特徴とする請求項7
    記載の発音変化形生成方法。
  9. 【請求項9】 上記発音変化形及び/又は発音規則の生
    成に使用される認識処理又は認識システムは、少なくと
    も1つの音、音素及び/又は他の言語的サブユニットの
    シーケンスを認識するための音ループ構造を含み、又は
    基づいていることを特徴とする請求項7又は8記載の発
    音変化形生成方法。
  10. 【請求項10】 上記発音変化形及び/又は発音規則の
    生成に使用される認識処理又は認識システムは、上記ソ
    ース言語により学習されたnグラム構造又はバイグラム
    構造により制約されていることを特徴とする請求項7乃
    至9いずれか1項記載の発音変化形生成方法。
  11. 【請求項11】 上記ターゲット言語及び/又は方言を
    母語又はネイティブ言語とする複数の話者の音声を分析
    し、上記ターゲット言語の発音変化形及び/又は発音規
    則の組を増加させるステップを有する請求項1乃至10
    いずれか1項記載の発音変化形生成方法。
  12. 【請求項12】 上記ターゲット言語又は方言の音声デ
    ータベースを評価することにより学習を行った後に、学
    習データに基づく音声認識処理を行うことを特徴とする
    請求項1乃至11いずれか1項記載の発音変化形生成方
    法。
  13. 【請求項13】 上記ターゲット言語を母語又はネイテ
    ィブ言語とする話者による該ターゲット言語の音声認識
    処理の適用中に学習を行うことを特徴とする請求項1乃
    至12いずれか1項記載の発音変化形生成方法。
  14. 【請求項14】 上記制約のための言語モデル及び/又
    はnグラム構造は、上記認識処理又は認識結果を評価
    し、人間の聞き手による記憶をシミュレートすることに
    より変更されることを特徴とする請求項13記載の発音
    変化形生成方法。
  15. 【請求項15】 少なくとも1つのターゲット言語の音
    声を認識する音声認識方法において、 請求項1乃至14いずれか1項記載の発音変化形生成方
    法に基づく処理ステップを含むことを特徴とする音声認
    識方法。
  16. 【請求項16】 上記発音変化形生成方法に基づく処理
    ステップは、上記ターゲット言語の音声認識処理に先行
    する前処理の少なくとも一部として実行されることを特
    徴とする請求項15記載の音声認識方法。
  17. 【請求項17】 上記発音変化形生成方法に基づく処理
    ステップは、上記ターゲット言語の音声認識処理の少な
    くとも一部として実行されることを特徴とする請求項1
    5又は16記載の音声認識方法。
  18. 【請求項18】 複数の異なるソース言語及び/又はタ
    ーゲット言語が含まれることを特徴とする請求項15乃
    至17いずれか1項記載の音声認識方法。
  19. 【請求項19】 請求項1乃至14いずれか1項記載の
    発音変化形生成方法及び/又は請求項15乃至18いず
    れか1項記載の音声認識方法を実行して、発音変化形及
    び/又は発音規則を生成し、及び/又は音声認識を行う
    発音変化形生成/音声認識装置。
  20. 【請求項20】 コンピュータ又はデジタル信号処理装
    置により実行されて、請求項1乃至14いずれか1項記
    載の発音変化形生成方法及び/又は請求項15乃至18
    いずれか1項記載の音声認識方法を実現するコンピュー
    タプログラムを有するコンピュータプログラム製品。
JP2002037218A 2001-02-14 2002-02-14 発音変化形生成方法及び音声認識方法 Pending JP2002304190A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01103464A EP1233406A1 (en) 2001-02-14 2001-02-14 Speech recognition adapted for non-native speakers
EP01103464.2 2001-02-14

Publications (1)

Publication Number Publication Date
JP2002304190A true JP2002304190A (ja) 2002-10-18

Family

ID=8176495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002037218A Pending JP2002304190A (ja) 2001-02-14 2002-02-14 発音変化形生成方法及び音声認識方法

Country Status (3)

Country Link
US (1) US20020111805A1 (ja)
EP (1) EP1233406A1 (ja)
JP (1) JP2002304190A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
WO2010086928A1 (ja) * 2009-01-28 2010-08-05 三菱電機株式会社 音声認識装置
JP2012073396A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 会議支援装置、方法およびプログラム
JP2012518207A (ja) * 2009-02-17 2012-08-09 株式会社ソニー・コンピュータエンタテインメント 複数言語音声認識

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7302389B2 (en) * 2003-05-14 2007-11-27 Lucent Technologies Inc. Automatic assessment of phonological processes
US20040230431A1 (en) * 2003-05-14 2004-11-18 Gupta Sunil K. Automatic assessment of phonological processes for speech therapy and language instruction
US7373294B2 (en) 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US20070294082A1 (en) * 2004-07-22 2007-12-20 France Telecom Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US20100105015A1 (en) * 2008-10-23 2010-04-29 Judy Ravin System and method for facilitating the decoding or deciphering of foreign accents
US9484019B2 (en) 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8296141B2 (en) * 2008-11-19 2012-10-23 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
US20110046941A1 (en) * 2009-08-18 2011-02-24 Manuel-Devados Johnson Smith Johnson Advanced Natural Language Translation System
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
US9053703B2 (en) * 2010-11-08 2015-06-09 Google Inc. Generating acoustic models
US20140038160A1 (en) * 2011-04-07 2014-02-06 Mordechai Shani Providing computer aided speech and language therapy
US8825481B2 (en) 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
DE102013213337A1 (de) * 2013-07-08 2015-01-08 Continental Automotive Gmbh Verfahren und Einrichtung zur Identifizierung und Ausgabe des Inhalts eines Hinweistextes
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9472184B2 (en) 2013-11-06 2016-10-18 Microsoft Technology Licensing, Llc Cross-language speech recognition
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN108174030B (zh) * 2017-12-26 2020-11-17 努比亚技术有限公司 定制化语音控制的实现方法、移动终端及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
IT1310154B1 (it) * 1999-09-02 2002-02-11 Cselt Centro Studi Lab Telecom Procedimento per realizzare un riconoscitore vocale, relativoriconoscitore e procedimento per il riconoscimento della voce

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
WO2010086928A1 (ja) * 2009-01-28 2010-08-05 三菱電機株式会社 音声認識装置
CN102239517A (zh) * 2009-01-28 2011-11-09 三菱电机株式会社 声音识别装置
US8099290B2 (en) 2009-01-28 2012-01-17 Mitsubishi Electric Corporation Voice recognition device
CN102239517B (zh) * 2009-01-28 2013-05-08 三菱电机株式会社 声音识别装置
JP2012518207A (ja) * 2009-02-17 2012-08-09 株式会社ソニー・コンピュータエンタテインメント 複数言語音声認識
JP2012073396A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 会議支援装置、方法およびプログラム
US8676578B2 (en) 2010-09-28 2014-03-18 Kabushiki Kaisha Toshiba Meeting support apparatus, method and program

Also Published As

Publication number Publication date
EP1233406A1 (en) 2002-08-21
US20020111805A1 (en) 2002-08-15

Similar Documents

Publication Publication Date Title
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US20230012984A1 (en) Generation of automated message responses
US10163436B1 (en) Training a speech processing system using spoken utterances
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US6085160A (en) Language independent speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
KR102850999B1 (ko) 대화 동안 텍스트 음성 변환에서의 즉각적인 학습
JP2003022087A (ja) 音声認識方法
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US11715472B2 (en) Speech-processing system
WO2007117814A2 (en) Voice signal perturbation for speech recognition
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2010197644A (ja) 音声認識システム
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
Batlouni et al. Mathifier—Speech recognition of math equations
JP3277579B2 (ja) 音声認識方法および装置
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
JP2000242295A (ja) 音声認識装置および音声対話装置
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
JP2001188556A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070130