JP2001296880A

JP2001296880A - 固有名の複数のもっともらしい発音を生成する方法および装置

Info

Publication number: JP2001296880A
Application number: JP2001084632A
Authority: JP
Inventors: George A Kiraz; エーキラツジョージ; Joseph Philip Olive; フィリップオリーブジョセフ; Chi-Lin Shih; リンシチ
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2000-03-27
Filing date: 2001-03-23
Publication date: 2001-10-26
Also published as: EP1143415B1; CA2336459A1; EP1143415A1; US6272464B1; DE60000138T2; DE60000138D1

Abstract

(57)【要約】【課題】与えられた人名の複数のもっともらしい発音
を識別することが可能であり、さらに、このような「許
容される」発音のセットを特定の話者集団に適応させる
ことを可能にする。【解決手段】本発明は、固有名の複数のもっともらし
い発音を生成する方法に関する。この方法は、与えられ
た話者集団内の個人による固有名を含む発話の音声認識
を実行する際に用いられ、（ａ）固有名の可能性のある
起源として複数の言語のうちから１つ以上の言語を識別
するステップと、（ｂ）与えられた固有名に対して、識
別された言語に基づいて、および、与えられた話者集団
に関連する１つ以上の特性に基づいて、複数のもっとも
らしい発音を生成するステップとを有する。話者集団の
特性は、例えば、話者集団の国起源（固有名の起源言語
の母語話者は、母語の文字−音変換規則を用いる可能性
が高い）である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の分野に
関し、特に、名前のような固有名を含む音声を認識する
際に用いるための、固有名詞の可能な発音の有意味集合
を決定する方法および装置に関する。

【０００２】

【従来の技術】音声認識の作業には、通常、個人が話し
た単語に応答して自動システムが何らかの（自動的な）
アクションを起こす（すなわち、音声入力によりシステ
ムを制御する）ことができるように、その単語の自動識
別が含まれる。具体的には、（話者依存ではなく）話者
独立音声認識の問題は、多数の可能な話者（好ましく
は、自動システムによってサポートされる言語で話すす
べての話者）のうちの任意の話者の音声を認識すること
によりシステムの作用をシステムのすべての可能なユー
ザが制御できることを要求する。音声認識のいくつかの
アプリケーションでは、個人名や、（例えば、国、市、
町および通りの名前のような）地名、商用名などを含む
個人名の派生語のような固有名詞にしばしば遭遇し、実
際には、これが認識する必要のある音声の本質的部分を
なすことがある。例えば、このようなアプリケーション
の１つとして、さまざまな形で広く宣伝され実装されて
いるものであるが、自動電話名前ダイヤル機能がある。
これは、話者が通信ネットワークに対してある人への電
話呼の接続を確立するよう要求する際に、電話番号をダ
イヤルすることによってではなく、その人の名前を発声
することによるというものである。

【０００３】残念ながら、固有名の発音は、（音声認識
のような）言語および音声アプリケーションの開発にお
ける最も困難な問題の１つである。与えられた言語のほ
とんどの通常単語（すなわち、「自然言語」単語あるい
は「辞書」単語）は、音韻論的に異なる可能な発音のか
なり限定された集合（実際には、１つか２つの発音だけ
であることが多い）を有するが、固有名詞は、かなりの
数の「許容」される（音韻論的に異なる）発音を有する
ことがある。（当業者には周知のように、音韻論的に異
なる発音は、例えば音声学的に異なる発音とは違って、
根本的に異なる発音である。音声学的に異なる発音に
は、一人の人が同じ単語を繰返し発声した場合に生じる
通常のわずかな変化例も、異なる発音として含まれ
る。）さらに、これらの許容される発音は、話される言
語（例えば、英語）の発音「規則」とは全く両立しない
ことがある。これは、しばしば、「外国」起源（すなわ
ち、話されている言語以外の言語起源）の名前の結果で
ある。さらに、これらのさまざまな発音の一部の「許容
可能性」は、その名前が話される個々のコンテクスト
（文脈）に依存する（例えば、与えられた話者集団や与
えられた環境に基づくというように）ことがある。例え
ば、外国（例えば、非英語）起源の人名の場合、このよ
うな許容される発音の範囲は、話者集団に基づいて変わ
りうる。その範囲の一端には、その名前の（持ち主によ
って使用される）「正しい」発音をよく知っている可能
性が高い、親しい友人のような、その個人に近い結びつ
きのある人々による音声認識があり、その範囲の他端に
は、例えば米国人の電話セールス提供者がその人に頼み
もしない電話をかける場合のような、その個人とは遠い
結びつきしかない人々による音声認識がある。

【０００４】換言すれば、しばしば、異なる人が同じ名
前を異なる方法で発音することがあり、頑健（ロバス
ト）な音声認識システムは、このような「合理的な」発
音を認識することができなければならない。注意すべき
点であるが、このような発音の変化例の一部は、話者間
の地域差のような現象によることがあるが、ほとんど
は、名前がどの国起源であるかについて話者が習熟して
いることと、関連する言語の集合に関する文字から音へ
の規則との組合せ、すなわち、名前の起源の言語と、話
者が習熟している言語との両方の結果である。例えば、
中国人は通常、中国人の名前を、ピンイン規則（当業者
に周知）に従って、または、別の許容されるローマ字化
方法に従って発音するが、米国人は、その名前が中国系
であるにもかかわらず、米語規則を用いる可能性が高
い。したがって、中国人名Qiruは、中国人の友人には

【数１】と発音される可能性が高いが、用いられるローマ字化方
式を知らない米国人は、代わりにその名前を

【数２】または[ki-ru]と発音する可能性がある。

【０００５】さらに、名前の民族起源以外にも、発音に
影響を与える要因がある。すなわち、異なる民族的背景
をもつユーザは、「同一の」名前を異なって発音するこ
とがしばしばある。例えば、「Marcia」という名前は通
常、英語では

【数３】と発音されるが、スペイン語では

【数４】と発音される。さらに、外国の名前は、同じ民族的背景
の人々によっても、しばしば異なって英語化される。例
えば、中国名「Hsueh」に対して、［∫’ｗｅ］または
［∫’ｕ］が用いられることがある。（原語発音（母語
話者による発音）は実際には

【数５】である。）さらに、さまざまな文化で用いられた古い名
前にも、しばしば、異なって発音されるようになったも
のがある。例えば、「Epstein」という名前は、１４世
紀のバヴァリア起源であるが、ユダヤ名およびドイツ名
として広まった結果、それぞれ['epstin]および

【数６】という発音が生じた。最後に、いくつかの誤発音（すな
わち、「正当な」根拠のない発音）が実際に広まってい
るために、それらを認識する必要もある。（例えば、次
の中国名「Quan」についての記述参照。）

【０００６】中国系の名前の場合、さまざまなローマ字
化方式のために、さらに複雑さが加わる。例えば、標準
中国語（官話）の原語発音で

【数７】という名前は、「Quan」とローマ字化されることもあり
（これにより、誤発音[kwan]が広まる）、あるいは、
「Chuan」とローマ字化されることもある（これは、

【数８】という発音につながる）。さらに、同じ名前の広東語方
言は「Chen」で、原語発音は

【数９】である。実際、この名前は、その持ち主によって、なか
でも、

【数１０】、および

【数１１】とされることがある（これは極端な場合ではない）。

【０００７】固有名を含む音声を認識しようとしてさま
ざまなアプローチが従来用いられている。音声認識で用
いるための従来の名前発音方式には、例えば、注釈付き
名前データベースに基づくテーブルルックアップ法を用
いるものがある（例えば、米国特許第５，７５２，２３
０号参照）。しかし、このようなアプローチは、比較的
まれな名前の発音を生成することができない。そのよう
な名前は、データベースに含まれている可能性が低いか
らである。また、残念ながら、現実に遭遇する名前の大
多数は、実際には比較的まれであるため、このような
「辞書」に基づく解決法は実現不可能である。（なお、
名前の分布は、当業者に周知のZiphの法則に従う。実際
には、高頻度の名前は人口のかなりの割合を占めるが、
その割合は急速に減少する。例えば、最も多い米国人名
は「Smith」であり、これは、１９９０年国勢調査に基
づくデータの１％を占めるが、３０番目に多い名前の
「King」は、データの０．１９％を占めるだけである。
まれな名前は、実際には、普通にあるため、辞書に基づ
くアプローチで代替発音を十分にカバーすることはきわ
めて困難である。）

【０００８】別の従来の方式では、名前の基底形(basef
orm)から、与えられた表層実現形を求めようとしている
（例えば、米国特許第５，２１２，７３０号参照）。こ
のアプローチは、変異発音が異音素効果(allophonemic
effect)により生じる「自然言語」単語ではうまく作用
するかもしれないが、固有名の頑健な認識に要求される
ような、１つの正書表現からのさまざまな基底形を認識
する問題を十分に解決するものではない。

【０００９】固有名発音の問題は、テキスト−音声変換
アプリケーションの場合にも扱われている。この場合、
目標は、音声を認識することではなく、生成することで
ある。しかし、このようなアプリケーションでは通常、
与えられた名前の最も可能性の高い（または最も正確
な）発音を１つだけ生成すれば十分である。場合によっ
ては、このような方式は、正しいものである可能性が高
い発音を選択するために、名前が何語かを決定するサブ
プロセスに組み込むと有効である（例えば、米国特許第
４，８２９，５８０号、および、第５，０４０，２１８
号参照）。しかし、このようなテキスト−音声変換シス
テムは、それらの性質上、与えられた名前の複数の「も
っともらしい」発音を生成することができない。これ
は、すでに指摘したように、頑健な音声認識システムの
実装に明らかに必要な条件である。

【００１０】

【発明が解決しようとする課題】したがって、従来技術
のアプローチは、人名や（地名のような）人名の派生語
に頻繁に遭遇するアプリケーションのための、話者独立
音声認識問題を十分に解決することができない。与えら
れた人名の複数のもっともらしい発音を識別することが
可能であり、さらに、このような「許容される」発音の
セットを特定の話者集団に適応させることが可能な、別
のアプローチが必要とされている。

【００１１】

【課題を解決するための手段】本発明の原理によれば、
固有名の複数のもっともらしい発音が、名前の１つ以上
の可能性のある言語起源に基づいて、および、名前が話
されているコンテクスト（すなわち、可能性のある話者
集団の１つ以上の特性）に基づいて生成される。従来技
術（例えば、米国特許第４，８２９，５８０号に記載さ
れているような）は、名前の言語起源の可能性の高い候
補を識別するために用いると有効なことがあり、生成さ
れる発音のセットがさらに基礎とする話者集団の特性
は、例えば、そのような話者集団がさまざまな言語に習
熟しているレベルによって決定される。

【００１２】具体的には、本発明は、固有名の複数のも
っともらしい発音を生成する方法および装置に関する。
この方法あるいは装置は、与えられた話者集団内の個人
による固有名を含む発話の音声認識を実行する際に用い
られる。本発明の方法あるいは装置は、（ａ）固有名の
可能性のある起源として複数の言語のうちから１つ以上
の言語を識別するステップあるいは手段と、（ｂ）与え
られた固有名に対して、識別された言語に基づいて、お
よび、与えられた話者集団に関連する１つ以上の特性に
基づいて、複数のもっともらしい発音を生成するステッ
プあるいは手段とを有する。

【００１３】本発明のさまざまな実施例によれば、発音
の生成がさらに基礎とする話者集団の特性は、例えば、
話者集団の国起源（例えば、固有名の起源言語の母語話
者は、母語の文字−音変換規則を用いる可能性が高
い）、発話の目的（例えば、米国内の頼みもしないセー
ルス電話は、英語の文字−音変換規則を用いる可能性が
高い）、話者集団の地理的位置（テキサス州出身の話者
は、英語またはスペイン語の文字−音変換規則を用いる
可能性が高い）、あるいは、与えられた話者集団の一般
的な教養レベル（例えば、「ハイテク」会社の内線電話
システムを用いる高い教育を受けた話者は、さまざまな
「外国」語に対するさまざまな文字−音変換規則に習熟
している可能性が高い）を含む。

【００１４】

【発明の実施の形態】本発明の実施例によれば、図１の
システムは、与えられた名前の可能性のある言語起源の
分析と、与えられた話者集団の１つ以上の特性との両方
に基づいて、固有名に対する複数のもっともらしい発音
を生成する。図１のシステムは、例えば、図２の流れ図
に従って動作する。具体的には、ここで特に説明する実
施例は、与えられた名前の起源である可能性のある言語
と、与えられた話者集団内の少なくとも一部の人が習熟
している可能性が高い文字−音変換規則を有する言語と
の両方を識別する。その結果、与えられた名前に対する
もっともらしい発音の妥当なセットが生成される。この
発音のセットは、発話された名前の認識を行う例示的な
音声認識システムで有効に用いられる。

【００１５】具体的には、図１に示すように、固有名
は、名前言語起源識別器１１と、話者集団言語習熟性識
別器１２との両方に送られる。まず、特に図２の流れ図
ボックス２１からわかるように、名前言語起源識別器１
１は、与えられた名前に含まれる連続する文字列（例え
ば、バイグラムやトリグラムのような）の統計的分析を
実行する。この分析は、名前の１つ以上の可能性のある
言語起源を識別するために用いられる。この統計的分析
およびそれに続く言語識別は、例えば、米国特許第４，
８２９，５８０号に記載されたような従来技術により実
行可能である。

【００１６】さらに具体的には、考慮すべきさまざまな
言語に対するトレーニングデータが与えられると、与え
られた固有名は、２文字（バイグラム）および３文字
（トリグラム）に分割される。両端（名前のはじめと終
わり）を扱うために、両端をパディングするための特別
の記号が用いられる。各言語について、このようなそれ
ぞれのバイグラムあるいはトリグラムに対して、トリグ
ラム確率およびバイグラム確率のテーブルを計算する。
特定の（例えば）トリグラムが見つからない場合、その
確率は、Hapex legomenon頻度（これは、当業者に周知
の概念である）を用いて推定される。その後、これらの
確率のセットに基づいて、各言語について、計算された
確率を組み合わせることにより、起源の尤度を求める。
その後、これらの尤度に基づいて、可能性のある言語起
源の選択を行う。なお、ラテン文字では「自然」ではな
い外国名はラテン文字に翻字(transcribe)されていると
仮定する。場合によっては（例えば、中国語）、このよ
うな翻字を行うために、１つまたは複数のローマ字化方
式が同時に用いられることがある。

【００１７】さらに、本発明の原理によれば、図１に示
すように、１つ以上の言語が、話者集団言語習熟性識別
器１２によって（上記の言語起源識別とは独立に）識別
される。この言語識別は、与えられた話者集団の１つ以
上の所定の特性に基づいて実行される。具体的には、図
２の流れ図ボックス２２に示すように、この特性は、与
えられた話者集団内の人が習熟している可能性が高い１
つ以上の言語を識別するために用いられる。このように
して、関連する話者のセットによって（正しくまたは誤
って）用いられる可能性が高い文字−音変換規則に基づ
く発音が考慮に入れられる。すでに指摘したように、特
性の例としては、話者集団がどの国起源であるか、発話
の目的、話者集団の地理的位置、および、与えられた話
者集団の一般的な教養レベルがある。

【００１８】名前言語起源識別器１１または話者集団言
語習熟性識別器１２のいずれかによって識別された言語
のセットに基づいて、それぞれの識別された言語に対す
る文字−音変換規則の１つ以上のセット（これらの規則
はあらかじめ決められており、複数の文字−音変換規則
モジュール１３−１〜１３−ｎに記憶されている）が、
与えられた名前に対する発音の生成に用いるために選択
される（図２の流れ図ボックス２３参照）。本発明の一
実施例によれば、文字−音変換規則は、例えば、タグ付
けされた注釈付きコーパスデータから得られるさらに大
きい規則セットに基づいて、手作業で作成された規則を
含む。（このような注釈付きデータを生成する１つの例
示的な技術は、従来のテキスト−音声変換システムによ
りデータベース内のそれぞれの名前を「再生」し、何人
かの注釈者に、強勢情報を含めて翻字を調整するよう要
求し、それが「正しく」聞こえるまで名前の「再生」を
繰り返すというものである。注釈者には、それぞれの名
前に対して複数の可能な翻字を与えることを奨励すると
有効である。）最後に、例えば従来の動的計画法に基づ
く整合プロセスを用いて、注釈に基づいて文字−音変換
規則を生成する。（上記の手続きは完全に従来技術のも
のであり、当業者には周知である。）

【００１９】文字−音変換規則は、例えば、当業者に周
知の有限状態文法を含む。この文法は、同じく当業者に
周知の有限状態トランスデューサ（ＦＳＴ：finite-sta
te transducer）にコンパイルされることが可能であ
る。具体的には、文字−音変換規則は、次の形で表され
る。 φ→ψ／λ＿ρ ただし、φ、ψ、λおよびρは正規表現であり、φは入
力を表し、ψは出力を表し、λおよびρはそれぞれ、オ
プションの左および右コンテクストを表す（例えば、R.
Kaplan and M. Kay, "Regular Models of Phonologica
l Rule Systems",Computational Linguistics, 20(3),
pp.331-78, 1994、参照）。特に断らなければ、通常、
このような規則を左から右へ適用する。すでに指摘した
ように、このような規則は、（M. Mohri et al., "An E
fficient Compiler For Weighted Rewrite Rules", Pro
ceedings of the 34th Annual Meeting of the Associa
tionfor Computational Linguistics, pp.231-8, 199
6、に記載されているような）従来技術を用いてＦＳＴ
にコンパイルされる。なお、場合によっては（例えば、
中国語の場合）、与えられた言語のさまざまな方言を含
めるとともに、さまざまなローマ字化方式を含めるた
め、同じ言語に対して、文字−音変換規則の複数のセッ
トを含めることもある。

【００２０】なお、本明細書の記載においては、名前発
音とは独立の発音変異は明示的には扱わない。例えば、
「Marcia」の

【数１２】に対して、

【数１３】（母音弱化なし）やｒ消去の

【数１４】は扱わない。このような変異は、与えられた言語自体の
一般的な発音モデルの一部として扱われる（例えば、以
下の文献参照：・M. D. Riley, "A Statistical Model for Generating
Pronunciation Networks", ICCASP 91, pp.737-40, 19
91 ・N. Cremelie et al., "On the Use of Pronunciation
Rules for ImprovedWord Recognition", EUROSPEECH 9
5, Madrid, 1995 ・C. Wooters et al., "Multiple-Pronunciation Lexic
al Modeling in a Speaker Independent Speech Unders
tanding System", International Conferenceon Spoken
Language Processing, vol.3, pp.1363-66, 1994 ・L. F. Lamel et al., "On Designing Pronunciation
Lexicons for Large Vocabulary, Continuous Speech R
ecognition", Proceedings of ICSLP '96, pp.6-9, Phi
ladelphia, 1996 ・H. Strik et al., "Modeling Pronunciation for AS
R: A Survey of the Literature", Speech Communicati
on, 29(2-4), pp.225-46, 1999）。実際、ここで注目す
るのは、例えば２つの別個の発音

【数１５】と

【数１６】を捕捉しようとして、本質的に異なる発音変異を提供す
ることである。

【００２１】以下では、例として、いくつかの選択され
た言語（中国語、インド語およびスペイン語）に対する
母語の文字−音変換規則の性質を与える。具体的には、
以下では、これらの言語のそれぞれについて、手作業で
作成し調整した規則を開発するプロセスで用いられるい
くつかの考慮点について説明する。（なお、中国語につ
いては、すでに指摘したように、さまざまなローマ字化
方式および方言を考慮に入れるために、母語規則の複数
のセットが用いられる。）英語式の文字−音変換規則に
ついては他の文献に多く記載されており、当業者には周
知である（例えば、D. H. Klatt, "Review of Text-To-
Speech Conversion for English", Journal of the Aco
ustical Society of America, 80(3), pp.737-93, 198
7、参照）。

【００２２】［中国語の文字−音変換規則］中国人の姓
はかなり厳格な名前付け規約による有限個の音節に制限
されるため、名前の発音は単純であるように思われる。
結局、可能性のある姓は数百しかなく、ほとんどは単音
節であり、ごく一部が二音節である。また、名は、単音
節であることも二音節であることもあるが、二音節の場
合、言語からの２個のランダムな音節が有効である。し
かし、複数のローマ字化方式による問題が生じる。２つ
の最も広く用いられている方式は、ピンインとWade-Gil
es式である（Yale式もときに用いられる）。（これらの
すべてのローマ字化方式は当業者に周知である。）さら
に問題を複雑にしているのは、多くの名前、特に、初期
の移民のものは、標準的なローマ字化法に従わず、独自
のものを「作り出して」いる傾向があることである。そ
の結果、英語で異なって書かれる名前が等価な発音を有
することもある。

【００２３】例として、中国の姓のセット（それらの発
音で指定する）と、それらのさまざまなローマ字化とを
与える次の表を考える。（例えば、ピンインで「Zhan
g」という中国名は、Wade-Giles式では「Chang」であ
り、Yale式では「Jang」であり、すべて、標準中国語で
は母語発音

【数１７】を有する。）

【表１】

【００２４】母語に近いすべてのもっともらしい発音を
実現するため、ローマ字化方式および方言のそれぞれに
ついて、文字−音変換規則を提供することが可能であ
る。さらに重要な点であるが、非母語発音を扱うため
に、英語式文字−音変換規則のセットを含めると有効と
なることがある。これにより、「Zhang」および「Chan
g」はそれぞれ、「非母語」では、

【数１８】および

【数１９】と発音されることが可能となる。

【００２５】ほとんどの中国語の文字−音変換規則は、
例えばｃ→ｔｓ（ピンインの場合）のような簡単なマッ
ピングとして実現されるが、例えばｔｓ→ｄｚまたはｔ
ｓ（Wade-Giles式の場合）のように、多少の曖昧さが生
じる場合がある。ピンインとWade-Giles式に共通の規則
は、ほとんどが例えば

【数２０】のような二重母音であるが、いったんＦＳＴにコンパイ
ルされた後、正規演算（この場合は合併(union)演算）
によって両方のローマ字化方式に組み込まれる。

【００２６】ほとんどのローマ字化方式が性質上音韻論
的であり、音声学的実現形を無視しているということに
より、一部の母音マッピングはコンテクスト依存性があ
る。例えば、ピンインにおける記号「ａ」は、次の３つ
の表層実現形がある。（１）高い前方半母音と［ｎ］の間で［ｅ］へと前舌音
に転化し高い位置で発音されたもの。（２）［ｎ］の前で、［ａ］へと前舌音に転化した、英
語名「Ann」における「ａ」と類似しているがそれより
わずかに低い音。（３）最後、または、末尾の軟口蓋鼻音

【数２１】の前の、低い後方の母音音節。相互作用は、次の規則を
順序づける際に捕捉される。

【数２２】

【００２７】各規則は、個別にＦＳＴにコンパイルする
ことが可能であり、その後、３つの規則は、上記の順序
で合成される（例えば、L. Karttunen et al., "Two-Le
velMorphology With Composition", COLING-92: Papers
Presented to the 15th International Conference on
Computational Linguistics, vol.1, pp.141-8, 199
2、参照）。

【００２８】［インド語の文字−音変換規則］インド諸
語は、多数の閉鎖音を有し、有声および無声の両方の閉
鎖音系列における有気音（帯気音）と無気音の対比を含
む。これらの音の多くは、英語には相当するものがな
く、有気音は、例えば次のように、英語にマッピングさ
れるときは単に落とされる。ｈ → ｛Ｅｐｓ｝／（ｐ｜ｋ｜ｂ｜ｄ｜ｇ）＿ただし、｛Ｅｐｓ｝は空ストリングεを表す。ヒンディ
語のような一部のインド語は、歯裏閉鎖音(dental sto
p)と歯茎閉鎖音(alveolar stop)とを区別するため、有
声音・無声音の２つの区別および有気音・無気音の２つ
の区別と組み合わせると、８つの実現形が得られる。こ
の８種の区別は、英語の正字法では［ｔ］、［ｄ］、
［ｔｈ］、および［ｄｈ］の４つに縮小される。これら
のうち、［ｔｈ］は、インド語および英語の両方の注釈
者によって［θ］（「think」にある音）と翻字され
た。他の場合において、名前が母語で歯裏閉鎖音を有す
る場合には、インド語の注釈者は一貫して、無声音のも
のを英語の歯間摩擦音［θ］と翻字し、有声音のものを

【数２３】と翻字する。これは、インドの聞き手にとって、これら
の音が英語に移植されるときには、調音方法を維持する
ことを犠牲にしても、調音位置を維持することが重要で
あることを示唆している。

【００２９】文字「ｓ」は、［ｓ］または［∫］のいず
れかを表す２つのソースに由来する可能性がある。一部
のインド語の注釈者は、もともとの語彙的区別を維持す
る傾向がある一方、他の注釈者は、これを「Srinu」
［∫ｒ’ｉｎｕ］、「Baskar」

【数２４】および「Viswa」

【数２５】という名前の場合のように、後続音が子音であるときに
のみ［∫］と翻字する。

【００３０】母音のマッピングは曖昧になる可能性があ
るが、コンテクストおよび規則順序が曖昧さを解決す
る。例えば、次の通り。

【数２６】

【００３１】［スペイン語の文字−音変換規則］スペイ
ン語の文字−音変換規則は、いくつかの語彙的例外を除
いては規則的である。強勢標識も単純であり、語彙的例
外は正字法で標識される。伝統的な強勢規則によれば、
強勢は、最後の音節が母音、「ｎ」、または「ｓ」で終
わる場合には語尾から２番目の音節にあり、それ以外の
場合は最後の音節にある。この強勢規則に対する例外
は、正字法で規則的に示され、強勢のある母音が鋭符号
で標識される。この注釈は、名前の英語スペリングから
は失われるが、スペイン名の米語発音は、「Jose」を

【数２７】と発音するというように、強勢位置を保持する傾向があ
る。

【００３２】伝統的な強勢規則は、他の２つの規則的強
勢パターン、すなわち、「ｚ」で終わる単語は、最後が
「ｓ」の単語の強勢パターンとともに、語尾から２番目
の音節に強勢を有する傾向があるというパターンを追加
することによっても実現される。これは驚くべきことで
はない。その理由は、最後の「ｚ」はスペイン語では実
際には［ｓ］と発音されるからである。なお、スペイン
語の書字方式は、「ｚ」の単語を例外とすることによっ
て、２つの場合で異なる扱いをする。追加すると有効な
もう１つの強勢規則は、「cion」で終わる単語の強勢が
最後にあることであり、この場合、最後の母音「ｏ」に
強勢がある。

【００３３】分音符号（これは、強勢規則に対する語彙
的例外を標識する）が失われることを補償するため、そ
れらの単語の強勢の位置を含む辞書を編集することが可
能である。当然、「cion」や「ｚ」で終わる単語は、そ
れらの強勢パターンが拡張された強勢規則の予測と一致
する場合には、もはや含める必要がない。

【００３４】分節の文字−音変換規則は、次のものを含
む。文字［ｕ］は、「que」、「qui」、「gui」、およ
び「gue」という文字列中では無音である。その他の場
合、母音［「ａ」，「ｅ」，「ｉ」，「ｏ」，「ｕ」］
はそれぞれ、

【数２８】をとる。一部の注釈者は、単語の最後のｅを

【数２９】と翻字することを強く好むため、このような場合の代替
展開を提供すると有効である。

【００３５】スペイン語の母音規則は以下の通りであ
る。

【数３０】ただし、｛ＥＯＳ｝は、文字列の末尾を表す。

【００３６】スペイン語に固有の子音規則には、ｈの消
去、母音間にあるｌｌから［ｊ］へのマッピング、およ
び、文字ｊから［ｈ］へのマッピングがある。しかし、
「Jessica」のような英語名を用いる最近の流行では、
文字ｊは英語からの

【数３１】を保持する。文字ｃは、前舌母音の前では［ｓ］と軟音
化し、その他の場合には［ｋ］にマッピングされる。文
字ｚは通常［ｓ］と発音される。さらに、いくつかの有
音化および鼻音呼応規則がある。次に列挙されるスペイ
ン語子音規則に含まれていないのは、子音短縮(consona
nt de-germination)規則およびきわめてまれな子音結合
である。

【数３２】

【００３７】［発音のセットの生成］図１の例示的な固
有名発音生成システムの動作における最後のステップ
は、名前発音生成器モジュール１４によって、与えられ
た名前に対するもっともらしい発音のセットを最終的に
生成することからなる。具体的には、図２の流れ図ボッ
クス２４に示すように、（識別されたさまざまな言語に
対する）文字−音変換規則の選択されたセットを用い
て、許容されると考えられる実際の発音を生成する。こ
れは、例えば、後で、発話された名前の認識を行う例示
的な音声認識システムで用いられることが可能である。
文字−音変換規則に基づいて実際の発音を生成する技術
は、すでに説明したように、従来技術のものであり、当
業者に周知である。

【００３８】［詳細な説明への補遺］以上、本発明の実
施例について説明したが、これは単なる例示であり、当
業者であれば、本発明の技術的範囲を離れることなく、
以上の記載に基づいて、さまざまな変形例を考えること
が可能であり、それらの変形例もまた、本発明の技術的
範囲内にあると考えるべきである。例えば、当業者には
認識されるように、図面におけるブロック図は、本発明
の原理を実現する例示的な回路の概念図を表す。同様
に、認識されるように、流れ図（フローチャート）、状
態遷移図、擬似コードなどは、実質的にコンピュータ可
読媒体において表現可能な、また従って、コンピュータ
やプロセッサにより実行可能な、さまざまなプロセスを
表し、このようなコンピュータやプロセッサが明示され
ているかどうかにかかわらない。

【００３９】「プロセッサ」や「モジュール」の機能ブ
ロックを含むさまざまな要素の機能は、専用ハードウェ
ア、あるいは、適当なソフトウェアを実行可能なハード
ウェアを用いて提供可能である。プロセッサによって提
供される場合、これらの機能は、単一の専用プロセッ
サ、単一の共有プロセッサ、あるいは、一部共有可能な
複数のプロセッサのいずれにより提供することも可能で
ある。さらに、「プロセッサ」あるいは「コントロー
ラ」という用語の明示的使用は、ソフトウェアを実行す
るハードウェアのみを指すものと解釈すべきではなく、
暗黙的に、ディジタル信号プロセッサ（ＤＳＰ）ハード
ウェア、ソフトウェアを記憶するための読み出し専用メ
モリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、
および不揮発性記憶装置を含み、しかもこれらに限定さ
れない。他のハードウェアも、通常のものであれカスタ
ム化されたものであれ、含まれる。同様に、図中のスイ
ッチは概念的なものに過ぎない。それらの機能は、プロ
グラム論理回路の動作、専用論理回路、プログラム制御
論理回路と専用論理回路の相互作用により、あるいは、
手動でも、実行可能であり、その方式は、文脈から具体
的に理解されるようにして、実装者により選択可能であ
る。

【００４０】特許請求の範囲においては、特定の機能を
実行する手段として表現された要素は、例えば、（ａ）
その機能を実行する回路要素の組合せ、あるいは、
（ｂ）その機能を実行するソフトウェアを動作させるた
めの適当な回路と組み合わされた、ファームウェア、マ
イクロコードなどを含む任意の形式のソフトウェア、を
含む任意の態様を含む。

【００４１】

【発明の効果】以上述べたごとく、本発明によれば、固
有名の複数のもっともらしい発音が、名前の１つ以上の
可能性のある言語起源に基づいて、および、名前が話さ
れているコンテクスト（すなわち、可能性のある話者集
団の１つ以上の特性）に基づいて生成される。

【図面の簡単な説明】

【図１】発話された名前の認識を行う例示的な音声認識
システムで用いられる、本発明の実施例による固有名発
音生成システムを示す図である。

【図２】図１の例示的な固有名発音生成システムの動作
を説明する流れ図である。

【符号の説明】

１１名前言語起源識別器１２話者集団言語習熟性識別器１３文字−音変換規則モジュール１４名前発音生成器モジュール

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者ジョージエーキラツアメリカ合衆国、08854 ニュージャージー州、ピスカタウェイ、オリスアベニュー 46 (72)発明者ジョセフフィリップオリーブアメリカ合衆国、07060 ニュージャージー州、ウォチャング、バレードライブ 101 (72)発明者チリンシアメリカ合衆国、07922 ニュージャージー州、バークレーハイツ、マクマーンアベニュー 150

Claims

【特許請求の範囲】

【請求項１】与えられた話者集団内の個人による固有
名を含む発話の音声認識を実行する際に用いられる、固
有名の複数のもっともらしい発音を生成する方法におい
て、固有名の可能性のある起源として複数の言語のうちから
１つ以上の言語を識別するステップと、与えられた固有名に対して、１つ以上の識別された言語
に基づいて複数のもっともらしい発音を生成するステッ
プとを有し前記複数のもっともらしい発音は、さらに、
前記与えられた話者集団に関連する１つ以上の特性に基
づくことを特徴とする、固有名の複数のもっともらしい
発音を生成する方法。
【請求項２】与えられた固有名に対する前記複数のも
っともらしい発音のうちの１つに基づいて、与えられた
固有名を含むものとして発話を認識するステップをさら
に有することを特徴とする請求項１記載の方法。
【請求項３】前記与えられた話者集団の指定された母
語に基づいて、与えられた固有名に対する１つ以上の追
加のもっともらしい発音を生成するステップをさらに有
することを特徴とする請求項１記載の方法。
【請求項４】前記指定された母語は英語であることを
特徴とする請求項３記載の方法。
【請求項５】与えられた固有名に対する前記追加のも
っともらしい発音のうちの１つに基づいて、与えられた
固有名を含むものとして発話を認識するステップをさら
に有することを特徴とする請求項３記載の方法。
【請求項６】前記固有名の可能性のある起源として複
数の言語のうちから１つ以上の言語を識別するステップ
は、前記固有名の正字法表現に含まれる１つ以上の連続文字
列を決定するステップと、それぞれの連続文字列について、前記複数の言語に対応
して、該連続文字列が対応する言語に現れる尤度をそれ
ぞれ表す複数の第１確率を計算するステップと、前記複数の言語のそれぞれに対応して、前記第１確率の
対応するセットに基づいて、前記対応する言語が前記固
有名の起源である尤度をそれぞれ表す複数の第２確率を
計算するステップとを有することを特徴とする請求項１
記載の方法。
【請求項７】前記１つ以上の連続文字列は、少なくと
も、２文字のバイグラム文字列および３文字のトリグラ
ム文字列を含むことを特徴とする請求項６記載の方法。
【請求項８】与えられた言語に対応する前記第１確率
のうちの１つ以上は、該与えられた言語からのトレーニ
ングデータのコーパスに基づいて計算されることを特徴
とする請求項６記載の方法。
【請求項９】前記与えられた言語からのトレーニング
データのコーパスが、少なくとも１つの第１確率を計算
するのに十分な情報を含まない場合に、前記与えられた
言語に対応する前記少なくとも１つの第１確率を推定す
るステップをさらに有することを特徴とする請求項８記
載の方法。
【請求項１０】前記複数のもっともらしい発音を生成
するステップは、前記識別された言語のそれぞれに対す
る文字−音変換規則の１つ以上の対応するセットを前記
固有名の正字法表現に適用して１つ以上のもっともらし
い発音を生成するステップを含むことを特徴とする請求
項１記載の方法。
【請求項１１】前記文字−音変換規則のセットは、有
限状態機械としてコンパイルされたものであることを特
徴とする請求項１０記載の方法。
【請求項１２】前記文字−音変換規則のセットのうち
の１つ以上のセットは、前記対応する識別された言語か
らのトレーニングデータの注釈付きコーパスに基づいて
手作業で作成されたものであることを特徴とする請求項
１０記載の方法。
【請求項１３】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記固有名により識別される人とどのくらい近い結
びつきを有するかの程度を含むことを特徴とする請求項
１記載の方法。
【請求項１４】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記言語のうち、前記固有名の可能な起源として識
別された言語にどのくらい習熟しているかの程度を含む
ことを特徴とする請求項１記載の方法。
【請求項１５】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人に
よって意図された可能性の高い発話の所定の目的を含む
ことを特徴とする請求項１記載の方法。
【請求項１６】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人が
位置している可能性が高い地理的位置を含むことを特徴
とする請求項１記載の方法。
【請求項１７】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記固有名の可能な起源として識別された１つ以上
の言語以外の１つ以上の言語にどのくらい習熟している
かの程度を含むことを特徴とする請求項１記載の方法。
【請求項１８】前記固有名は、人の識別を含むことを
特徴とする請求項１記載の方法。
【請求項１９】前記固有名は、地理的位置の識別を含
むことを特徴とする請求項１記載の方法。
【請求項２０】与えられた話者集団内の個人による固
有名を含む発話の音声認識を実行する際に用いられる、
固有名の複数のもっともらしい発音を生成する装置にお
いて、固有名の可能性のある起源として複数の言語のうちから
１つ以上の言語を識別する手段と、与えられた固有名に対して、１つ以上の識別された言語
に基づいて複数のもっともらしい発音を生成する手段と
を有し前記複数のもっともらしい発音は、さらに、前記
与えられた話者集団に関連する１つ以上の特性に基づく
ことを特徴とする、固有名の複数のもっともらしい発音
を生成する装置。
【請求項２１】与えられた固有名に対する前記複数の
もっともらしい発音のうちの１つに基づいて、与えられ
た固有名を含むものとして発話を認識する手段をさらに
有することを特徴とする請求項２０記載の装置。
【請求項２２】前記与えられた話者集団の指定された
母語に基づいて、与えられた固有名に対する１つ以上の
追加のもっともらしい発音を生成する手段をさらに有す
ることを特徴とする請求項２０記載の装置。
【請求項２３】前記指定された母語は英語であること
を特徴とする請求項２２記載の装置。
【請求項２４】与えられた固有名に対する前記追加の
もっともらしい発音のうちの１つに基づいて、与えられ
た固有名を含むものとして発話を認識する手段をさらに
有することを特徴とする請求項２２記載の装置。
【請求項２５】前記固有名の可能性のある起源として
複数の言語のうちから１つ以上の言語を識別する手段
は、前記固有名の正字法表現に含まれる１つ以上の連続文字
列を決定する手段と、それぞれの連続文字列について、前記複数の言語に対応
して、該連続文字列が対応する言語に現れる尤度をそれ
ぞれ表す複数の第１確率を計算する手段と、前記複数の言語のそれぞれに対応して、前記第１確率の
対応するセットに基づいて、前記対応する言語が前記固
有名の起源である尤度をそれぞれ表す複数の第２確率を
計算する手段とを有することを特徴とする請求項２０記
載の装置。
【請求項２６】前記１つ以上の連続文字列は、少なく
とも、２文字のバイグラム文字列および３文字のトリグ
ラム文字列を含むことを特徴とする請求項２５記載の装
置。
【請求項２７】与えられた言語に対応する前記第１確
率のうちの１つ以上は、該与えられた言語からのトレー
ニングデータのコーパスに基づいて計算されることを特
徴とする請求項２５記載の装置。
【請求項２８】前記与えられた言語からのトレーニン
グデータのコーパスが、少なくとも１つの第１確率を計
算するのに十分な情報を含まない場合に、前記与えられ
た言語に対応する前記少なくとも１つの第１確率を推定
する手段をさらに有することを特徴とする請求項２７記
載の装置。
【請求項２９】前記複数のもっともらしい発音を生成
する手段は、前記識別された言語のそれぞれに対する文
字−音変換規則の１つ以上の対応するセットを前記固有
名の正字法表現に適用して１つ以上のもっともらしい発
音を生成する手段を含むことを特徴とする請求項２０記
載の装置。
【請求項３０】前記文字−音変換規則のセットは、有
限状態機械としてコンパイルされたものであることを特
徴とする請求項２９記載の装置。
【請求項３１】前記文字−音変換規則のセットのうち
の１つ以上のセットは、前記対応する識別された言語か
らのトレーニングデータの注釈付きコーパスに基づいて
手作業で作成されたものであることを特徴とする請求項
２９記載の装置。
【請求項３２】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記固有名により識別される人とどのくらい近い結
びつきを有するかの程度を含むことを特徴とする請求項
２０記載の装置。
【請求項３３】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記言語のうち、前記固有名の可能な起源として識
別された言語にどのくらい習熟しているかの程度を含む
ことを特徴とする請求項２０記載の装置。
【請求項３４】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人に
よって意図された可能性の高い発話の所定の目的を含む
ことを特徴とする請求項２０記載の装置。
【請求項３５】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人が
位置している可能性が高い地理的位置を含むことを特徴
とする請求項２０記載の装置。
【請求項３６】前記与えられた話者集団に関連する特
性のうちの１つは、前記与えられた話者集団内の個人
が、前記固有名の可能な起源として識別された１つ以上
の言語以外の１つ以上の言語にどのくらい習熟している
かの程度を含むことを特徴とする請求項２０記載の装
置。
【請求項３７】前記固有名は、人の識別を含むことを
特徴とする請求項２０記載の装置。
【請求項３８】前記固有名は、地理的位置の識別を含
むことを特徴とする請求項２０記載の装置。