JP2002304190A

JP2002304190A - 発音変化形生成方法及び音声認識方法

Info

Publication number: JP2002304190A
Application number: JP2002037218A
Authority: JP
Inventors: Silke Goronzy; ゴロンジー、シルケ; Ralf Kompe; コンペ、ラルフ
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2001-02-14
Filing date: 2002-02-14
Publication date: 2002-10-18
Also published as: EP1233406A1; US20020111805A1

Abstract

(57)【要約】【課題】非ネイティブスピーカによるアクセントのあ
る発音を収集することなく、非ネイティブスピーカによ
り発声される所定のターゲット言語の発音変化形を得
る。【解決手段】認識システムにより少なくとも１つの所
定のターゲット言語及び／又は方言のネイティブスピー
カによる音声を分析し、特定のアクセントを有するター
ゲット言語及び／又は方言の発音変化形及び／又は発音
規則を導出するステップを有し、認識システムは、少な
くとも１つの所定のソース言語用に設計され及び／又は
学習されている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識処理のた
めの発音変化形（pronunciation variants）を生成する
ための発音変化形生成方法及び音声認識方法に関する。

【０００２】

【従来の技術】所定のターゲット言語を認識するための
音声認識装置は、ターゲット言語を母語すなわちネイテ
ィブ言語とする話者から発せられる音声により学習され
る。

【０００３】従来の音声認識装置及び音声認識方法で
は、ターゲット言語のネイティブスピーカではなく、他
のソース言語を母語又はネイティブ言語とする話者がタ
ーゲット言語を発声した場合、認識率は著しく低下す
る。

【０００４】これは、従来の音声認識装置及び音声認識
方法における判断基準が、非ネイティブスピーカの発音
から大きく乖離しているからである。

【０００５】

【発明が解決しようとする課題】非ネイティブスピーカ
の発音によってターゲット言語の認識率が低下する問題
を解決するために、音声認識装置に含まれる辞書又は用
語集に非ネイティブスピーカによる発音の変化（pronun
ciation variants：以下、発音変化形という。）又は代
替的発音（alternatives）を追加することにより、辞書
又は用語集を拡張する手法が知られている。このよう
な、非ネイティブスピーカによる発音変化形又は代替的
発音を得るために、様々な手法が提案されている。これ
らの手法の多くは、ターゲット言語とは異なるソース言
語を母語又はネイティブ言語とする非ネイティブスピー
カにより発声されたターゲット言語の発声音を収集する
ものであり、非常に困難でコストがかかる手法である。
あるいは、ソース言語が既知の場合、ターゲット言語の
発声音を予測する規則を独自に作成する手法もある。

【０００６】したがって、本発明の目的は、非ネイティ
ブスピーカによるアクセント（独特の癖）のある発音を
収集することなく、非ネイティブスピーカにより発声さ
れる所定のターゲット言語の発音変化形を容易に得るこ
とができる発音変化形生成方法及び音声認識方法を提供
することである。特に、本発明は、２つのネイティブ言
語、すなわちソース言語とターゲット言語のみから非ネ
イティブスピーカによる発音変化形を容易に得ることが
できる発音変化形生成方法、音声認識方法、発音変化形
生成／音声認識装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係る発音変化形生成方法は、少なくとも
１つの所定のターゲット言語及び／又は方言を認識する
音声認識用の発音変化形を生成する発音変化形生成方法
において、認識システムにより、少なくとも１つの所定
のターゲット言語及び／又は方言のネイティブスピーカ
による音声を分析し、特定のアクセントを有するターゲ
ット言語及び／又は方言の発音変化形及び／又は発音規
則を導出するステップを有し、認識システムは、少なく
とも１つの所定のソース言語用に設計され及び／又は学
習されていることを特徴とする。また、この認識システ
ムは、少なくとも前処理において、所定のソース言語及
び／又は方言により学習されていてもよい。

【０００８】このように、本発明では、ソース言語によ
り学習された認識システムにより、ネイティブスピーカ
による音声のみを用いて、少なくとも１つの所定のター
ゲット言語用の発音変化形及び／又は発音規則を抽出及
び生成する。すなわち、本発明では、ソース言語を母語
又はネイティブ言語とする話者により発声された異なる
ソース言語の音声データベースを用いるが、このような
データベースは、従来の手法における、ソース言語を母
語又はネイティブ言語とする非ネイティブスピーカによ
り発声されたターゲット言語の音声データベースを構築
するより簡単であり、したがって、本発明に基づく変化
音生成方法は、従来の手法より手間がかからず、低コス
トである。

【０００９】本発明では、認識すべきターゲット言語と
は異なるソース言語の認識システムを設計及び／又は学
習する。発音変化形及び／又は発音規則を導出するステ
ップは、学習セッションの後に、ソース言語用に設計さ
れた認識システムにターゲット言語のネイティブ音声を
適用することにより実行される。ここで、選択されたソ
ース言語は、ターゲット言語の発音変化形及び／又は発
音規則としてある種のアクセント（訛り）を認識システ
ムに与え、本発明は、アクセントの影響を受けた認識シ
ステムを使用する。

【００１０】なお、本発明の説明においては、「言語」
及び「方言」という用語は、特にそれぞれを明記してい
ない場合、単独で両方の意味を含むものとする。

【００１１】本発明の好ましい具体例においては、認識
システムは、少なくとも前処理において、所定のソース
言語及び／又は方言により学習されている。

【００１２】さらに、本発明に係る変化音生成方法は、
ソース言語及び／又は方言のネイティブスピーカによる
ソース言語及び／又は方言の音声を用いて学習を行うス
テップを有していてもよい。

【００１３】さらに、発音変化形及び／又は発音規則の
組は、ソース言語を母語又はネイティブ言語とし、ター
ゲット言語を外国語として発声する話者による発音変化
形及び／又は発音規則のそれぞれを分析することにより
導出してもよい。これにより得られる発音変化形及び／
又は発音規則は、非ネイティブスピーカによるアクセン
トを有するターゲット言語を記述する。

【００１４】新たな発音変化形は、導出された発音規則
をターゲット言語の開始辞書（starting lexicon）に適
用し、ターゲット言語の認識処理用に開始辞書を拡張し
て変更された辞書を生成することにより生成してもよ
い。この処理は、ターゲット言語の認識処理にとって重
要であり、及び／又は非ネイティブスピーカのソース言
語又はネイティブ言語に特有のアクセントを有する発音
を記述する発音変化形を含ませることにより達成され
る。

【００１５】最も単純な開始辞書として、ターゲット言
語のネイティブスピーカによる発音変化形及び／又は発
音規則のみが含まれる基礎的辞書（canonical lexico
n）を初期的に使用してもよい。

【００１６】新たな発音規則及び／又は発音変化形を生
成するためには、ターゲット言語とは異なるソース言語
に固有の認識処理又は認識システムを採用することが好
ましい。

【００１７】さらに、この発音規則及び／又は発音変化
形を生成する認識処理又は認識システムは、ソース言語
により学習された少なくとも１つの言語モデル及び１組
の隠れマルコフモデルを含み、又は基づいていてもよ
い。

【００１８】さらに、本発明の好ましい具体例において
は、発音変化形及び／又は発音規則の生成に使用される
認識処理又は認識システムは、少なくとも１つの音、音
素及び／又は他の言語的サブユニットのシーケンスを認
識するための音ループ構造を含み、又は基づいている。

【００１９】発音変化形及び／又は発音規則を生成する
認識処理又は認識システムにおいては、例えば、言語モ
デルを使用せず、したがって制約を設けなくてもよい。
しかしながら、発音変化形及び／又は発音規則を生成す
る認識処理又は認識システムにおいて、ソース言語に実
際に含まれる音、音素及び／又は他の言語要素のシーケ
ンスに関する制約を設けるとなおよい。さらに、ソース
言語におけるｎグラム構造（n-gram structure）、特に
バイグラム構造（bi-gram structure）に関する制約を
設けるとよい。

【００２０】発音変化形及び／又は発音規則の数を増加
させるために、ターゲット言語を母語又はネイティブ言
語とする複数の様々な話者による音声を分析し、ターゲ
ット言語用の発音変化形及び／又は発音規則の組を増加
させてもよい。

【００２１】特に、単純な具体例においては、発音変化
形及び／又は発音規則を生成する認識処理又は認識シス
テムは、ターゲット言語又は方言の音声データベースを
評価することにより学習を行った後に、学習データに基
づく音声認識処理を行う。

【００２２】一方、ターゲット言語を母語又はネイティ
ブ言語とする話者によるターゲット言語の音声認識処理
の適用中に学習を行うことが必要である、あるいは望ま
しいアプリケーションもある。

【００２３】さらに、本発明の好ましい具体例において
は、制約のための言語モデル及び／又はｎグラム構造
は、認識処理又は認識結果を評価し、人間の聞き手によ
る記憶をシミュレートすることにより変更される。

【００２４】上述した、本発明に基づく発音変化形生成
方法は、少なくとも１つのターゲット言語の音声を認識
する音声認識方法に適用し、又は含ませることができ
る。すなわち、上述の課題を解決するために、本発明に
係る音声認識方法は、少なくとも１つのターゲット言語
の音声を認識する音声認識方法において、上述した発音
変化形生成方法に基づく処理ステップを含む。

【００２５】本発明に係る音声認識方法の好ましい具体
例においては、発音変化形生成方法に基づく処理ステッ
プは、ターゲット言語の音声認識処理に先行する前処理
の少なくとも一部として実行される。

【００２６】また、発音変化形生成方法に基づく処理ス
テップは、ターゲット言語の音声認識処理の少なくとも
一部として実行してもよく、これにより可能な発音変化
形及び／又は発音規則の数を増加させ、音声認識処理の
認識率を高めることができる。

【００２７】本発明に基づく音声認識方法の柔軟性を高
めるために、上述の手法に様々な異なるソース言語及び
／又は様々な異なるターゲット言語を含ませてもよい。
これにより、異なるソース言語のアクセントを有する様
々なターゲット言語の音声を認識するように音声認識シ
ステムを構築及び学習することができる。このような音
声認識システムは、選択された又は所望のターゲット言
語による情報を得るために、どのようなネイティブ言語
を有する話者が発声するかが未知である、例えば旅行者
用の情報システムに適用することができる。

【００２８】以下、本発明のさらなる特徴を説明する。

【００２９】通常、ネイティブ音声データにより学習さ
れる従来の音声認識システムにとって、非ネイティブス
ピーカの音声を認識することは困難である。

【００３０】ターゲット言語が非ネイティブスピーカに
より発声された場合、通常、認識率は著しく低下する。
これは、非ネイティブスピーカによる発音が期待される
発音から大きくかけ離れているためである。この問題を
解決する手法として、非ネイティブによる代替的発音又
は発音変化形により認識システムの辞書を拡張する手法
がある。これらの代替的発音を得る手法は幾つかある
が、これらは非常にコストがかかる。

【００３１】そこで、非ネイティブスピーカによる代替
発音又は発音変化形を生成する本発明に基づく発音変化
形生成方法は、ネイティブ音声により学習されたモデル
を使用し、すなわち、モデルは、話者にとって母語又は
ネイティブ言語である外国のソース言語により学習さ
れ、これによりターゲット言語用の発音変化形及び／又
は発音規則を導き出す。

【００３２】これにより、ソース言語のアクセントを有
するターゲット言語の発音変化形及び／又は発音規則を
得ることができる。例えば、ソース言語が英語であり、
ターゲット言語が独語であるとすると、英語アクセント
を有する（英語訛りの）独語の発音変化形及び／又は発
音規則を得ることができる。

【００３３】この処理は、既存のネイティブ音声データ
ベースを採用し、評価することにより実現できるので、
非常に処理を効率化することができる。

【００３４】本発明の説明において、ソース言語とは、
話者の母語又はネイティブ言語である。また、ターゲッ
ト言語とは、その話者が話そうとしている言語である。
例えば、英語のネイティブスピーカが独語を話そうとし
ている場合、ソース言語は英語であり、ターゲット言語
は独語である。

【００３５】上述の問題に対し、従来は以下のような手
法を用いていた。

【００３６】例えば、非ネイティブ音声又はアクセント
を有する音声を用いて、隠れマルコフモデル等の音響モ
デルを学習する手法が知られている。これにより、認識
結果は向上するが、この手法は、ソース言語が１つのみ
の場合しか適用することができない。モデルを２以上の
ソース言語、すなわち複数の異なるアクセントを有する
音声で学習した場合、生成されるモデルは、散漫にな
り、ネイティブ音声の性能が低下するため、望ましくな
い。さらに、この手法では、音素は、コンテキストに依
存する音素の異なる発音を許容する様々なコンテキスト
でモデル化されるため、この手法は、トライフォン（tr
iphone）、すなわち前後の音素コンテキストを考慮した
音素が使用されている場合のみしか機能しない。しかし
ながら、アプリケーションのメモリ容量及び時間的要求
から、多くのアプリケーションではモノフォン又は非常
に制約が強いトライフォンを使用している。

【００３７】導出された発音変化形及び／又は発音規則
は、以下のように認識処理に適用される。発音規則は、
ターゲット言語の辞書に適用される。すなわち、基礎的
辞書に生成された規則を適用し、これにより話者のアク
セントに固有の新たな発音変化形が生成される。このよ
うに生成された新たな発音変化形は、辞書に追加され、
これにより、１つの単語に対して複数の発音を含む拡張
及び変更された辞書が生成される。

【００３８】上述のように、ソース言語の話者又は聞き
手がターゲット言語をどのように聞くかを考慮してもよ
い。すなわち、ターゲット言語をネイティブ言語とする
複数の異なる話者により発声されたターゲット言語の複
数の同じ発声音を評価してもよい。

【００３９】上述した、従来の音素認識処理による各発
声音の認識では、発声音は、先行する発声音を記憶する
ことなくデコードされる。しかしながら、人間である聞
き手は、過去に聞いた異なる発声音を記憶している。聞
き手がターゲット言語を以前に聞いたことがない場合で
あっても、その聞き手は、所定の発声音を複数回聞い
て、発声音の発話を試みる際、その同じ発声音の異なる
形式を評価することができる。

【００４０】したがって、本発明に基づいて発音変化形
及び／又は規則を生成し、及び音声を認識する処理にお
いて、このような記憶作用をシミュレートするとよい。

【００４１】これは、先に認識された全ての発声音を用
いて、音声認識器（recognizer）に採用されている言語
モデルの音素ｎグラムを変更することにより実現でき
る。これにより、先行する発声音は、同じ発声音につい
て認識された音素シーケンスが互いに類似するものとな
るように、認識器を変更する。

【００４２】上述の音声認識器は、いわゆるループ認識
器（loop recognizer）の構造を有していてもよい。ル
ープ認識器は、通常の辞書及び／底の言語モデルから独
立した音声認識システムである。音ループ認識器（phon
e loop recognizer）の辞書とは、通常の構造と異な
り、単語を含んでいない。これに代えて、音ループ認識
器の辞書は、検討中のソース言語に基づく音素及び音素
のシーケンスのみが含まれている。したがって、音ルー
プ認識器は、認識処理の間のみ、音素シーケンスを認識
する。不確実な（arbitrary）音素シーケンスを回避す
るために、音素ｎグラムを構築及び含ませることによ
り、制約を設けてもよい。これにより、検討中のソース
言語において実際に出現するシーケンスによる制約を設
けることができる。

【００４３】また、上述の目的を達成するために、本発
明に係る発音変化形生成／音声認識装置は、上述の発音
変化形生成方法及び／又は音声認識方法を実行して、発
音変化形及び／又は発音規則を生成し、及び／又は音声
認識を行う。

【００４４】また、上述の目的を達成するために、本発
明に係るコンピュータプログラム製品は、コンピュータ
又はデジタル信号処理装置により実行されて、上述の発
音変化形生成方法及び／又は音声認識方法を実現するコ
ンピュータプログラムを有する。

【００４５】

【発明の実施の形態】以下、本発明に係る発音変化形生
成方法及び音声認識方法について、図面を参照して詳細
に説明する。

【００４６】図１に示すステップＳ１において、言語モ
デル及び１組の隠れマルコフモデル（hidden Markov mo
dels：以下、ＨＭＭという。）を構築し、これらを所定
のソース言語ＳＬについて学習する。この学習は、ソー
ス言語の音声データベースを評価することによって実行
される。一方、ステップＳ２においては、ターゲット言
語ＴＬのデータベースが構築される。

【００４７】図１に示すステップＳ３においては、ター
ゲット言語ＴＬの音声データベースに対し、ステップＳ
１において構築された言語モデルに基づく認識処理が適
用され、このステップＳ３における音ループ認識器（ph
one loop recognizer）の結果について、ステップＳ４
において、ターゲット言語参照記述（target language
reference description）、すなわち独語参照トランス
クリプション（Germanreference transcription）と、
ソース言語に基づいて認識されたターゲット言語トラン
スクリプションとが比較される。

【００４８】この比較に基づき、ステップＳ５におい
て、これらのトランスクリプション間の割当を行い、ソ
ース言語ＳＬに基づくターゲット言語ＴＬの発音に関す
る発音規則の組が作成される。この割当は、例えば「決
定木（decision trees）」により行うことができる。

【００４９】図２は、本発明に基づく学習セッション
と、発音変化形及び発音規則を生成する処理を説明する
図である。

【００５０】学習セッションＡは、ステップＳ２１にお
いて、所定のソース言語ＳＬのネイティブスピーカによ
る音声の音声データベースから開始される。ステップＳ
２２においては、ネイティブのソース言語ＳＬの音声デ
ータベースを用いて、ＨＭＭの組を学習し、ＳＬモデル
の組を生成する。この学習は、ステップＳ２３におい
て、音ループ認識器を生成し、ステップＳ２４におい
て、ソース言語ＳＬのｎグラム又はバイグラム構造が生
成される。これにより、ソース言語ＳＬ用に設計された
認識システムが完成する。

【００５１】認識セクションＢは、ステップＳ２５にお
いて、ターゲット言語のネイティブ音声の音声データベ
ースをステップＳ２３において学習された音ループ認識
器に適用することにより実行される。この結果、ステッ
プＳ２６において、発音変化形の組及び／又はソース言
語ＳＬによるアクセントがあるターゲット言語の発音規
則が得られる。

【００５２】図３は、本発明に基づいて、特に所定のタ
ーゲット言語ＴＬを認識する音声認識方法の手順を示す
図である。

【００５３】ステップ３１において、ソース言語のアク
セントを有するターゲット言語ＴＬの入力音声が発せら
れ、この入力音声は、ステップＳ３２において、示すタ
ーゲット言語ＴＬ用に設計された音声認識システムＳＲ
に入力される。音声認識システムＳＲには、ステップＳ
３４において構築されたターゲット言語ＴＬ用に設計さ
れた一組のＨＭＭと、ステップＳ３５において生成され
たターゲット言語ＴＬの言語モデルＬＭが含まれる。ス
テップＳ３６においては、図２のステップＳ２６におい
て生成されたアクセントを有する発音変化形及び／又は
発音規則を含む辞書が作成され、ステップＳ３２におい
て、音声認識システムＳＲは、この辞書を用いて認識処
理を行う。このように、ステップＳ３６において拡張さ
れた辞書を用いることにより、音声認識システムＳＲ
は、ソース言語のアクセントを有するターゲット言語を
認識することができ、ステップＳ３３において、この認
識結果を出力する。

【００５４】図４は、アクセントを有する発音変化形及
び／又は発音規則を導き出すための、従来の学習セッシ
ョンを示す図である。このセッションは、ステップＳ４
１において開始され、このステップＳ４１においては、
ソース言語ＳＬのアクセントを有する音声を含むターゲ
ット言語のデータベースが準備される。このようなデー
タベースを構築することは容易ではなく、高いコストを
必要とする。

【００５５】ステップＳ４１において構築されたソース
言語ＳＬのアクセントを有する音声を含むターゲット言
語のデータベースは、ステップＳ４２〜ステップＳ４２
において、ターゲット言語により学習されたＨＭＭ及び
ターゲット言語のバイグラムを含むように設計された音
ループ認識器に入力される。この結果、ステップＳ４６
において、発音変化形又は発音規則が生成され、これら
を用いて辞書等を拡張することができる。

【００５６】

【発明の効果】以上のように、本発明に係る発音変化形
生成方法は、認識システムにより、少なくとも１つの所
定のターゲット言語及び／又は方言のネイティブスピー
カによる音声を分析し、特定のアクセントを有するター
ゲット言語及び／又は方言の発音変化形及び／又は発音
規則を導出するステップを有し、認識システムは、少な
くとも１つの所定のソース言語用に設計され及び／又は
学習されている。これにより、非ネイティブスピーカに
よるアクセントのある発音を収集することなく、非ネイ
ティブスピーカにより発声される所定のターゲット言語
の発音変化形を得ることができる。

【図面の簡単な説明】

【図１】本発明に基づき発音変化形及び／又は発音規則
を生成する処理を説明する図である。

【図２】本発明に基づく学習セッションを説明する図で
ある。

【図３】本発明に基づく音声認識処理を説明する図であ
る。

【図４】従来の学習セッションを示す図である。

フロントページの続き (72)発明者ゴロンジー、シルケドイツ連邦共和国、70327 シュトゥットゥガルトハインリッヒ−ヘルツ−ストラーセ１ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内 (72)発明者コンペ、ラルフドイツ連邦共和国、70327 シュトゥットゥガルトハインリッヒ−ヘルツ−ストラーセ１ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツングアドバンスドテクノロジーセンターシュトゥットゥガルト内Ｆターム(参考） 5D015 AA03 GG01 HH00

Claims

【特許請求の範囲】

【請求項１】少なくとも１つの所定のターゲット言語
及び／又は方言を認識する音声認識用の発音変化形を生
成する発音変化形生成方法において、認識システムにより、上記少なくとも１つの所定のター
ゲット言語及び／又は方言のネイティブスピーカによる
音声を分析し、特定のアクセントを有する上記ターゲッ
ト言語及び／又は方言の発音変化形及び／又は発音規則
を導出するステップを有し、上記認識システムは、少なくとも１つの所定のソース言
語用に設計され及び／又は学習されていることを特徴と
する発音変化形生成方法。
【請求項２】上記認識システムは、少なくとも前処理
において、上記所定のソース言語及び／又は方言により
学習されていることを特徴とする請求項１記載の発音変
化形生成方法。
【請求項３】上記ソース言語及び／又は方言のネイテ
ィブスピーカによる該ソース言語及び／又は方言の音声
を用いて学習を行うステップを有する請求項１又は２記
載の発音変化形生成方法。
【請求項４】上記発音変化形及び／又は発音規則の組
は、上記ソース言語を母語又はネイティブ言語とし、上
記ターゲット言語を外国語として発声する話者による発
音変化形及び／又は発音規則のそれぞれを分析すること
により導出されることを特徴とする請求項１乃至３いず
れか１項記載の発音変化形生成方法。
【請求項５】上記発音変化形は、上記導出された発音
規則を上記ターゲット言語の開始辞書に適用し、上記タ
ーゲット言語の認識処理用に該開始辞書を拡張して変更
された辞書を生成することにより、生成されることを特
徴とする請求項１乃至４いずれか１項記載の発音変化形
生成方法。
【請求項６】上記開始辞書として、初期的には、上記
ターゲット言語のネイティブスピーカによる発音変化形
及び／又は発音規則のみが含まれる基礎的辞書が使用さ
れることを特徴とする請求項５記載の発音変化形生成方
法。
【請求項７】上記発音変化形及び／又は発音規則の生
成には、上記ソース言語に固有の認識処理又は認識シス
テムが使用されることを特徴とする請求項１乃至６いず
れか１項記載の発音変化形生成方法。
【請求項８】上記発音変化形及び／又は発音規則の生
成に使用される認識処理又は認識システムは、ネイティ
ブスピーカの音声を用いて上記ソース言語により学習さ
れた少なくとも１つの言語モデル及び隠れマルコフモデ
ルを含み、又は基づいていることを特徴とする請求項７
記載の発音変化形生成方法。
【請求項９】上記発音変化形及び／又は発音規則の生
成に使用される認識処理又は認識システムは、少なくと
も１つの音、音素及び／又は他の言語的サブユニットの
シーケンスを認識するための音ループ構造を含み、又は
基づいていることを特徴とする請求項７又は８記載の発
音変化形生成方法。
【請求項１０】上記発音変化形及び／又は発音規則の
生成に使用される認識処理又は認識システムは、上記ソ
ース言語により学習されたｎグラム構造又はバイグラム
構造により制約されていることを特徴とする請求項７乃
至９いずれか１項記載の発音変化形生成方法。
【請求項１１】上記ターゲット言語及び／又は方言を
母語又はネイティブ言語とする複数の話者の音声を分析
し、上記ターゲット言語の発音変化形及び／又は発音規
則の組を増加させるステップを有する請求項１乃至１０
いずれか１項記載の発音変化形生成方法。
【請求項１２】上記ターゲット言語又は方言の音声デ
ータベースを評価することにより学習を行った後に、学
習データに基づく音声認識処理を行うことを特徴とする
請求項１乃至１１いずれか１項記載の発音変化形生成方
法。
【請求項１３】上記ターゲット言語を母語又はネイテ
ィブ言語とする話者による該ターゲット言語の音声認識
処理の適用中に学習を行うことを特徴とする請求項１乃
至１２いずれか１項記載の発音変化形生成方法。
【請求項１４】上記制約のための言語モデル及び／又
はｎグラム構造は、上記認識処理又は認識結果を評価
し、人間の聞き手による記憶をシミュレートすることに
より変更されることを特徴とする請求項１３記載の発音
変化形生成方法。
【請求項１５】少なくとも１つのターゲット言語の音
声を認識する音声認識方法において、請求項１乃至１４いずれか１項記載の発音変化形生成方
法に基づく処理ステップを含むことを特徴とする音声認
識方法。
【請求項１６】上記発音変化形生成方法に基づく処理
ステップは、上記ターゲット言語の音声認識処理に先行
する前処理の少なくとも一部として実行されることを特
徴とする請求項１５記載の音声認識方法。
【請求項１７】上記発音変化形生成方法に基づく処理
ステップは、上記ターゲット言語の音声認識処理の少な
くとも一部として実行されることを特徴とする請求項１
５又は１６記載の音声認識方法。
【請求項１８】複数の異なるソース言語及び／又はタ
ーゲット言語が含まれることを特徴とする請求項１５乃
至１７いずれか１項記載の音声認識方法。
【請求項１９】請求項１乃至１４いずれか１項記載の
発音変化形生成方法及び／又は請求項１５乃至１８いず
れか１項記載の音声認識方法を実行して、発音変化形及
び／又は発音規則を生成し、及び／又は音声認識を行う
発音変化形生成／音声認識装置。
【請求項２０】コンピュータ又はデジタル信号処理装
置により実行されて、請求項１乃至１４いずれか１項記
載の発音変化形生成方法及び／又は請求項１５乃至１８
いずれか１項記載の音声認識方法を実現するコンピュー
タプログラムを有するコンピュータプログラム製品。