JP2001296880A - 固有名の複数のもっともらしい発音を生成する方法および装置 - Google Patents
固有名の複数のもっともらしい発音を生成する方法および装置Info
- Publication number
- JP2001296880A JP2001296880A JP2001084632A JP2001084632A JP2001296880A JP 2001296880 A JP2001296880 A JP 2001296880A JP 2001084632 A JP2001084632 A JP 2001084632A JP 2001084632 A JP2001084632 A JP 2001084632A JP 2001296880 A JP2001296880 A JP 2001296880A
- Authority
- JP
- Japan
- Prior art keywords
- given
- language
- speakers
- name
- proper name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 241001502883 Marcia Species 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 229940037201 oris Drugs 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
を識別することが可能であり、さらに、このような「許
容される」発音のセットを特定の話者集団に適応させる
ことを可能にする。 【解決手段】 本発明は、固有名の複数のもっともらし
い発音を生成する方法に関する。この方法は、与えられ
た話者集団内の個人による固有名を含む発話の音声認識
を実行する際に用いられ、(a)固有名の可能性のある
起源として複数の言語のうちから1つ以上の言語を識別
するステップと、(b)与えられた固有名に対して、識
別された言語に基づいて、および、与えられた話者集団
に関連する1つ以上の特性に基づいて、複数のもっとも
らしい発音を生成するステップとを有する。話者集団の
特性は、例えば、話者集団の国起源(固有名の起源言語
の母語話者は、母語の文字−音変換規則を用いる可能性
が高い)である。
Description
関し、特に、名前のような固有名を含む音声を認識する
際に用いるための、固有名詞の可能な発音の有意味集合
を決定する方法および装置に関する。
た単語に応答して自動システムが何らかの(自動的な)
アクションを起こす(すなわち、音声入力によりシステ
ムを制御する)ことができるように、その単語の自動識
別が含まれる。具体的には、(話者依存ではなく)話者
独立音声認識の問題は、多数の可能な話者(好ましく
は、自動システムによってサポートされる言語で話すす
べての話者)のうちの任意の話者の音声を認識すること
によりシステムの作用をシステムのすべての可能なユー
ザが制御できることを要求する。音声認識のいくつかの
アプリケーションでは、個人名や、(例えば、国、市、
町および通りの名前のような)地名、商用名などを含む
個人名の派生語のような固有名詞にしばしば遭遇し、実
際には、これが認識する必要のある音声の本質的部分を
なすことがある。例えば、このようなアプリケーション
の1つとして、さまざまな形で広く宣伝され実装されて
いるものであるが、自動電話名前ダイヤル機能がある。
これは、話者が通信ネットワークに対してある人への電
話呼の接続を確立するよう要求する際に、電話番号をダ
イヤルすることによってではなく、その人の名前を発声
することによるというものである。
のような)言語および音声アプリケーションの開発にお
ける最も困難な問題の1つである。与えられた言語のほ
とんどの通常単語(すなわち、「自然言語」単語あるい
は「辞書」単語)は、音韻論的に異なる可能な発音のか
なり限定された集合(実際には、1つか2つの発音だけ
であることが多い)を有するが、固有名詞は、かなりの
数の「許容」される(音韻論的に異なる)発音を有する
ことがある。(当業者には周知のように、音韻論的に異
なる発音は、例えば音声学的に異なる発音とは違って、
根本的に異なる発音である。音声学的に異なる発音に
は、一人の人が同じ単語を繰返し発声した場合に生じる
通常のわずかな変化例も、異なる発音として含まれ
る。)さらに、これらの許容される発音は、話される言
語(例えば、英語)の発音「規則」とは全く両立しない
ことがある。これは、しばしば、「外国」起源(すなわ
ち、話されている言語以外の言語起源)の名前の結果で
ある。さらに、これらのさまざまな発音の一部の「許容
可能性」は、その名前が話される個々のコンテクスト
(文脈)に依存する(例えば、与えられた話者集団や与
えられた環境に基づくというように)ことがある。例え
ば、外国(例えば、非英語)起源の人名の場合、このよ
うな許容される発音の範囲は、話者集団に基づいて変わ
りうる。その範囲の一端には、その名前の(持ち主によ
って使用される)「正しい」発音をよく知っている可能
性が高い、親しい友人のような、その個人に近い結びつ
きのある人々による音声認識があり、その範囲の他端に
は、例えば米国人の電話セールス提供者がその人に頼み
もしない電話をかける場合のような、その個人とは遠い
結びつきしかない人々による音声認識がある。
前を異なる方法で発音することがあり、頑健(ロバス
ト)な音声認識システムは、このような「合理的な」発
音を認識することができなければならない。注意すべき
点であるが、このような発音の変化例の一部は、話者間
の地域差のような現象によることがあるが、ほとんど
は、名前がどの国起源であるかについて話者が習熟して
いることと、関連する言語の集合に関する文字から音へ
の規則との組合せ、すなわち、名前の起源の言語と、話
者が習熟している言語との両方の結果である。例えば、
中国人は通常、中国人の名前を、ピンイン規則(当業者
に周知)に従って、または、別の許容されるローマ字化
方法に従って発音するが、米国人は、その名前が中国系
であるにもかかわらず、米語規則を用いる可能性が高
い。したがって、中国人名Qiruは、中国人の友人には
式を知らない米国人は、代わりにその名前を
影響を与える要因がある。すなわち、異なる民族的背景
をもつユーザは、「同一の」名前を異なって発音するこ
とがしばしばある。例えば、「Marcia」という名前は通
常、英語では
の人々によっても、しばしば異なって英語化される。例
えば、中国名「Hsueh」に対して、[∫’we]または
[∫’u]が用いられることがある。(原語発音(母語
話者による発音)は実際には
前にも、しばしば、異なって発音されるようになったも
のがある。例えば、「Epstein」という名前は、14世
紀のバヴァリア起源であるが、ユダヤ名およびドイツ名
として広まった結果、それぞれ['epstin]および
わち、「正当な」根拠のない発音)が実際に広まってい
るために、それらを認識する必要もある。(例えば、次
の中国名「Quan」についての記述参照。)
化方式のために、さらに複雑さが加わる。例えば、標準
中国語(官話)の原語発音で
(これにより、誤発音[kwan]が広まる)、あるいは、
「Chuan」とローマ字化されることもある(これは、
言は「Chen」で、原語発音は
でも、
ざまなアプローチが従来用いられている。音声認識で用
いるための従来の名前発音方式には、例えば、注釈付き
名前データベースに基づくテーブルルックアップ法を用
いるものがある(例えば、米国特許第5,752,23
0号参照)。しかし、このようなアプローチは、比較的
まれな名前の発音を生成することができない。そのよう
な名前は、データベースに含まれている可能性が低いか
らである。また、残念ながら、現実に遭遇する名前の大
多数は、実際には比較的まれであるため、このような
「辞書」に基づく解決法は実現不可能である。(なお、
名前の分布は、当業者に周知のZiphの法則に従う。実際
には、高頻度の名前は人口のかなりの割合を占めるが、
その割合は急速に減少する。例えば、最も多い米国人名
は「Smith」であり、これは、1990年国勢調査に基
づくデータの1%を占めるが、30番目に多い名前の
「King」は、データの0.19%を占めるだけである。
まれな名前は、実際には、普通にあるため、辞書に基づ
くアプローチで代替発音を十分にカバーすることはきわ
めて困難である。)
orm)から、与えられた表層実現形を求めようとしている
(例えば、米国特許第5,212,730号参照)。こ
のアプローチは、変異発音が異音素効果(allophonemic
effect)により生じる「自然言語」単語ではうまく作用
するかもしれないが、固有名の頑健な認識に要求される
ような、1つの正書表現からのさまざまな基底形を認識
する問題を十分に解決するものではない。
アプリケーションの場合にも扱われている。この場合、
目標は、音声を認識することではなく、生成することで
ある。しかし、このようなアプリケーションでは通常、
与えられた名前の最も可能性の高い(または最も正確
な)発音を1つだけ生成すれば十分である。場合によっ
ては、このような方式は、正しいものである可能性が高
い発音を選択するために、名前が何語かを決定するサブ
プロセスに組み込むと有効である(例えば、米国特許第
4,829,580号、および、第5,040,218
号参照)。しかし、このようなテキスト−音声変換シス
テムは、それらの性質上、与えられた名前の複数の「も
っともらしい」発音を生成することができない。これ
は、すでに指摘したように、頑健な音声認識システムの
実装に明らかに必要な条件である。
のアプローチは、人名や(地名のような)人名の派生語
に頻繁に遭遇するアプリケーションのための、話者独立
音声認識問題を十分に解決することができない。与えら
れた人名の複数のもっともらしい発音を識別することが
可能であり、さらに、このような「許容される」発音の
セットを特定の話者集団に適応させることが可能な、別
のアプローチが必要とされている。
固有名の複数のもっともらしい発音が、名前の1つ以上
の可能性のある言語起源に基づいて、および、名前が話
されているコンテクスト(すなわち、可能性のある話者
集団の1つ以上の特性)に基づいて生成される。従来技
術(例えば、米国特許第4,829,580号に記載さ
れているような)は、名前の言語起源の可能性の高い候
補を識別するために用いると有効なことがあり、生成さ
れる発音のセットがさらに基礎とする話者集団の特性
は、例えば、そのような話者集団がさまざまな言語に習
熟しているレベルによって決定される。
っともらしい発音を生成する方法および装置に関する。
この方法あるいは装置は、与えられた話者集団内の個人
による固有名を含む発話の音声認識を実行する際に用い
られる。本発明の方法あるいは装置は、(a)固有名の
可能性のある起源として複数の言語のうちから1つ以上
の言語を識別するステップあるいは手段と、(b)与え
られた固有名に対して、識別された言語に基づいて、お
よび、与えられた話者集団に関連する1つ以上の特性に
基づいて、複数のもっともらしい発音を生成するステッ
プあるいは手段とを有する。
の生成がさらに基礎とする話者集団の特性は、例えば、
話者集団の国起源(例えば、固有名の起源言語の母語話
者は、母語の文字−音変換規則を用いる可能性が高
い)、発話の目的(例えば、米国内の頼みもしないセー
ルス電話は、英語の文字−音変換規則を用いる可能性が
高い)、話者集団の地理的位置(テキサス州出身の話者
は、英語またはスペイン語の文字−音変換規則を用いる
可能性が高い)、あるいは、与えられた話者集団の一般
的な教養レベル(例えば、「ハイテク」会社の内線電話
システムを用いる高い教育を受けた話者は、さまざまな
「外国」語に対するさまざまな文字−音変換規則に習熟
している可能性が高い)を含む。
システムは、与えられた名前の可能性のある言語起源の
分析と、与えられた話者集団の1つ以上の特性との両方
に基づいて、固有名に対する複数のもっともらしい発音
を生成する。図1のシステムは、例えば、図2の流れ図
に従って動作する。具体的には、ここで特に説明する実
施例は、与えられた名前の起源である可能性のある言語
と、与えられた話者集団内の少なくとも一部の人が習熟
している可能性が高い文字−音変換規則を有する言語と
の両方を識別する。その結果、与えられた名前に対する
もっともらしい発音の妥当なセットが生成される。この
発音のセットは、発話された名前の認識を行う例示的な
音声認識システムで有効に用いられる。
は、名前言語起源識別器11と、話者集団言語習熟性識
別器12との両方に送られる。まず、特に図2の流れ図
ボックス21からわかるように、名前言語起源識別器1
1は、与えられた名前に含まれる連続する文字列(例え
ば、バイグラムやトリグラムのような)の統計的分析を
実行する。この分析は、名前の1つ以上の可能性のある
言語起源を識別するために用いられる。この統計的分析
およびそれに続く言語識別は、例えば、米国特許第4,
829,580号に記載されたような従来技術により実
行可能である。
言語に対するトレーニングデータが与えられると、与え
られた固有名は、2文字(バイグラム)および3文字
(トリグラム)に分割される。両端(名前のはじめと終
わり)を扱うために、両端をパディングするための特別
の記号が用いられる。各言語について、このようなそれ
ぞれのバイグラムあるいはトリグラムに対して、トリグ
ラム確率およびバイグラム確率のテーブルを計算する。
特定の(例えば)トリグラムが見つからない場合、その
確率は、Hapex legomenon頻度(これは、当業者に周知
の概念である)を用いて推定される。その後、これらの
確率のセットに基づいて、各言語について、計算された
確率を組み合わせることにより、起源の尤度を求める。
その後、これらの尤度に基づいて、可能性のある言語起
源の選択を行う。なお、ラテン文字では「自然」ではな
い外国名はラテン文字に翻字(transcribe)されていると
仮定する。場合によっては(例えば、中国語)、このよ
うな翻字を行うために、1つまたは複数のローマ字化方
式が同時に用いられることがある。
すように、1つ以上の言語が、話者集団言語習熟性識別
器12によって(上記の言語起源識別とは独立に)識別
される。この言語識別は、与えられた話者集団の1つ以
上の所定の特性に基づいて実行される。具体的には、図
2の流れ図ボックス22に示すように、この特性は、与
えられた話者集団内の人が習熟している可能性が高い1
つ以上の言語を識別するために用いられる。このように
して、関連する話者のセットによって(正しくまたは誤
って)用いられる可能性が高い文字−音変換規則に基づ
く発音が考慮に入れられる。すでに指摘したように、特
性の例としては、話者集団がどの国起源であるか、発話
の目的、話者集団の地理的位置、および、与えられた話
者集団の一般的な教養レベルがある。
語習熟性識別器12のいずれかによって識別された言語
のセットに基づいて、それぞれの識別された言語に対す
る文字−音変換規則の1つ以上のセット(これらの規則
はあらかじめ決められており、複数の文字−音変換規則
モジュール13−1〜13−nに記憶されている)が、
与えられた名前に対する発音の生成に用いるために選択
される(図2の流れ図ボックス23参照)。本発明の一
実施例によれば、文字−音変換規則は、例えば、タグ付
けされた注釈付きコーパスデータから得られるさらに大
きい規則セットに基づいて、手作業で作成された規則を
含む。(このような注釈付きデータを生成する1つの例
示的な技術は、従来のテキスト−音声変換システムによ
りデータベース内のそれぞれの名前を「再生」し、何人
かの注釈者に、強勢情報を含めて翻字を調整するよう要
求し、それが「正しく」聞こえるまで名前の「再生」を
繰り返すというものである。注釈者には、それぞれの名
前に対して複数の可能な翻字を与えることを奨励すると
有効である。)最後に、例えば従来の動的計画法に基づ
く整合プロセスを用いて、注釈に基づいて文字−音変換
規則を生成する。(上記の手続きは完全に従来技術のも
のであり、当業者には周知である。)
知の有限状態文法を含む。この文法は、同じく当業者に
周知の有限状態トランスデューサ(FST:finite-sta
te transducer)にコンパイルされることが可能であ
る。具体的には、文字−音変換規則は、次の形で表され
る。 φ→ψ/λ_ρ ただし、φ、ψ、λおよびρは正規表現であり、φは入
力を表し、ψは出力を表し、λおよびρはそれぞれ、オ
プションの左および右コンテクストを表す(例えば、R.
Kaplan and M. Kay, "Regular Models of Phonologica
l Rule Systems",Computational Linguistics, 20(3),
pp.331-78, 1994、参照)。特に断らなければ、通常、
このような規則を左から右へ適用する。すでに指摘した
ように、このような規則は、(M. Mohri et al., "An E
fficient Compiler For Weighted Rewrite Rules", Pro
ceedings of the 34th Annual Meeting of the Associa
tionfor Computational Linguistics, pp.231-8, 199
6、に記載されているような)従来技術を用いてFST
にコンパイルされる。なお、場合によっては(例えば、
中国語の場合)、与えられた言語のさまざまな方言を含
めるとともに、さまざまなローマ字化方式を含めるた
め、同じ言語に対して、文字−音変換規則の複数のセッ
トを含めることもある。
音とは独立の発音変異は明示的には扱わない。例えば、
「Marcia」の
一般的な発音モデルの一部として扱われる(例えば、以
下の文献参照: ・M. D. Riley, "A Statistical Model for Generating
Pronunciation Networks", ICCASP 91, pp.737-40, 19
91 ・N. Cremelie et al., "On the Use of Pronunciation
Rules for ImprovedWord Recognition", EUROSPEECH 9
5, Madrid, 1995 ・C. Wooters et al., "Multiple-Pronunciation Lexic
al Modeling in a Speaker Independent Speech Unders
tanding System", International Conferenceon Spoken
Language Processing, vol.3, pp.1363-66, 1994 ・L. F. Lamel et al., "On Designing Pronunciation
Lexicons for Large Vocabulary, Continuous Speech R
ecognition", Proceedings of ICSLP '96, pp.6-9, Phi
ladelphia, 1996 ・H. Strik et al., "Modeling Pronunciation for AS
R: A Survey of the Literature", Speech Communicati
on, 29(2-4), pp.225-46, 1999)。実際、ここで注目す
るのは、例えば2つの別個の発音
ることである。
た言語(中国語、インド語およびスペイン語)に対する
母語の文字−音変換規則の性質を与える。具体的には、
以下では、これらの言語のそれぞれについて、手作業で
作成し調整した規則を開発するプロセスで用いられるい
くつかの考慮点について説明する。(なお、中国語につ
いては、すでに指摘したように、さまざまなローマ字化
方式および方言を考慮に入れるために、母語規則の複数
のセットが用いられる。)英語式の文字−音変換規則に
ついては他の文献に多く記載されており、当業者には周
知である(例えば、D. H. Klatt, "Review of Text-To-
Speech Conversion for English", Journal of the Aco
ustical Society of America, 80(3), pp.737-93, 198
7、参照)。
はかなり厳格な名前付け規約による有限個の音節に制限
されるため、名前の発音は単純であるように思われる。
結局、可能性のある姓は数百しかなく、ほとんどは単音
節であり、ごく一部が二音節である。また、名は、単音
節であることも二音節であることもあるが、二音節の場
合、言語からの2個のランダムな音節が有効である。し
かし、複数のローマ字化方式による問題が生じる。2つ
の最も広く用いられている方式は、ピンインとWade-Gil
es式である(Yale式もときに用いられる)。(これらの
すべてのローマ字化方式は当業者に周知である。)さら
に問題を複雑にしているのは、多くの名前、特に、初期
の移民のものは、標準的なローマ字化法に従わず、独自
のものを「作り出して」いる傾向があることである。そ
の結果、英語で異なって書かれる名前が等価な発音を有
することもある。
音で指定する)と、それらのさまざまなローマ字化とを
与える次の表を考える。(例えば、ピンインで「Zhan
g」という中国名は、Wade-Giles式では「Chang」であ
り、Yale式では「Jang」であり、すべて、標準中国語で
は母語発音
実現するため、ローマ字化方式および方言のそれぞれに
ついて、文字−音変換規則を提供することが可能であ
る。さらに重要な点であるが、非母語発音を扱うため
に、英語式文字−音変換規則のセットを含めると有効と
なることがある。これにより、「Zhang」および「Chan
g」はそれぞれ、「非母語」では、
例えばc→ts(ピンインの場合)のような簡単なマッ
ピングとして実現されるが、例えばts→dzまたはt
s(Wade-Giles式の場合)のように、多少の曖昧さが生
じる場合がある。ピンインとWade-Giles式に共通の規則
は、ほとんどが例えば
ルされた後、正規演算(この場合は合併(union)演算)
によって両方のローマ字化方式に組み込まれる。
的であり、音声学的実現形を無視しているということに
より、一部の母音マッピングはコンテクスト依存性があ
る。例えば、ピンインにおける記号「a」は、次の3つ
の表層実現形がある。 (1)高い前方半母音と[n]の間で[e]へと前舌音
に転化し高い位置で発音されたもの。 (2)[n]の前で、[a]へと前舌音に転化した、英
語名「Ann」における「a」と類似しているがそれより
わずかに低い音。 (3)最後、または、末尾の軟口蓋鼻音
順序づける際に捕捉される。
ことが可能であり、その後、3つの規則は、上記の順序
で合成される(例えば、L. Karttunen et al., "Two-Le
velMorphology With Composition", COLING-92: Papers
Presented to the 15th International Conference on
Computational Linguistics, vol.1, pp.141-8, 199
2、参照)。
語は、多数の閉鎖音を有し、有声および無声の両方の閉
鎖音系列における有気音(帯気音)と無気音の対比を含
む。これらの音の多くは、英語には相当するものがな
く、有気音は、例えば次のように、英語にマッピングさ
れるときは単に落とされる。 h → {Eps} / (p|k|b|d|g)_ ただし、{Eps}は空ストリングεを表す。ヒンディ
語のような一部のインド語は、歯裏閉鎖音(dental sto
p)と歯茎閉鎖音(alveolar stop)とを区別するため、有
声音・無声音の2つの区別および有気音・無気音の2つ
の区別と組み合わせると、8つの実現形が得られる。こ
の8種の区別は、英語の正字法では[t]、[d]、
[th]、および[dh]の4つに縮小される。これら
のうち、[th]は、インド語および英語の両方の注釈
者によって[θ](「think」にある音)と翻字され
た。他の場合において、名前が母語で歯裏閉鎖音を有す
る場合には、インド語の注釈者は一貫して、無声音のも
のを英語の歯間摩擦音[θ]と翻字し、有声音のものを
の音が英語に移植されるときには、調音方法を維持する
ことを犠牲にしても、調音位置を維持することが重要で
あることを示唆している。
れかを表す2つのソースに由来する可能性がある。一部
のインド語の注釈者は、もともとの語彙的区別を維持す
る傾向がある一方、他の注釈者は、これを「Srinu」
[∫r’inu]、「Baskar」
のみ[∫]と翻字する。
るが、コンテクストおよび規則順序が曖昧さを解決す
る。例えば、次の通り。
ン語の文字−音変換規則は、いくつかの語彙的例外を除
いては規則的である。強勢標識も単純であり、語彙的例
外は正字法で標識される。伝統的な強勢規則によれば、
強勢は、最後の音節が母音、「n」、または「s」で終
わる場合には語尾から2番目の音節にあり、それ以外の
場合は最後の音節にある。この強勢規則に対する例外
は、正字法で規則的に示され、強勢のある母音が鋭符号
で標識される。この注釈は、名前の英語スペリングから
は失われるが、スペイン名の米語発音は、「Jose」を
る。
勢パターン、すなわち、「z」で終わる単語は、最後が
「s」の単語の強勢パターンとともに、語尾から2番目
の音節に強勢を有する傾向があるというパターンを追加
することによっても実現される。これは驚くべきことで
はない。その理由は、最後の「z」はスペイン語では実
際には[s]と発音されるからである。なお、スペイン
語の書字方式は、「z」の単語を例外とすることによっ
て、2つの場合で異なる扱いをする。追加すると有効な
もう1つの強勢規則は、「cion」で終わる単語の強勢が
最後にあることであり、この場合、最後の母音「o」に
強勢がある。
的例外を標識する)が失われることを補償するため、そ
れらの単語の強勢の位置を含む辞書を編集することが可
能である。当然、「cion」や「z」で終わる単語は、そ
れらの強勢パターンが拡張された強勢規則の予測と一致
する場合には、もはや含める必要がない。
む。文字[u]は、「que」、「qui」、「gui」、およ
び「gue」という文字列中では無音である。その他の場
合、母音[「a」,「e」,「i」,「o」,「u」]
はそれぞれ、
展開を提供すると有効である。
る。
去、母音間にあるllから[j]へのマッピング、およ
び、文字jから[h]へのマッピングがある。しかし、
「Jessica」のような英語名を用いる最近の流行では、
文字jは英語からの
化し、その他の場合には[k]にマッピングされる。文
字zは通常[s]と発音される。さらに、いくつかの有
音化および鼻音呼応規則がある。次に列挙されるスペイ
ン語子音規則に含まれていないのは、子音短縮(consona
nt de-germination)規則およびきわめてまれな子音結合
である。
有名発音生成システムの動作における最後のステップ
は、名前発音生成器モジュール14によって、与えられ
た名前に対するもっともらしい発音のセットを最終的に
生成することからなる。具体的には、図2の流れ図ボッ
クス24に示すように、(識別されたさまざまな言語に
対する)文字−音変換規則の選択されたセットを用い
て、許容されると考えられる実際の発音を生成する。こ
れは、例えば、後で、発話された名前の認識を行う例示
的な音声認識システムで用いられることが可能である。
文字−音変換規則に基づいて実際の発音を生成する技術
は、すでに説明したように、従来技術のものであり、当
業者に周知である。
施例について説明したが、これは単なる例示であり、当
業者であれば、本発明の技術的範囲を離れることなく、
以上の記載に基づいて、さまざまな変形例を考えること
が可能であり、それらの変形例もまた、本発明の技術的
範囲内にあると考えるべきである。例えば、当業者には
認識されるように、図面におけるブロック図は、本発明
の原理を実現する例示的な回路の概念図を表す。同様
に、認識されるように、流れ図(フローチャート)、状
態遷移図、擬似コードなどは、実質的にコンピュータ可
読媒体において表現可能な、また従って、コンピュータ
やプロセッサにより実行可能な、さまざまなプロセスを
表し、このようなコンピュータやプロセッサが明示され
ているかどうかにかかわらない。
ロックを含むさまざまな要素の機能は、専用ハードウェ
ア、あるいは、適当なソフトウェアを実行可能なハード
ウェアを用いて提供可能である。プロセッサによって提
供される場合、これらの機能は、単一の専用プロセッ
サ、単一の共有プロセッサ、あるいは、一部共有可能な
複数のプロセッサのいずれにより提供することも可能で
ある。さらに、「プロセッサ」あるいは「コントロー
ラ」という用語の明示的使用は、ソフトウェアを実行す
るハードウェアのみを指すものと解釈すべきではなく、
暗黙的に、ディジタル信号プロセッサ(DSP)ハード
ウェア、ソフトウェアを記憶するための読み出し専用メ
モリ(ROM)、ランダムアクセスメモリ(RAM)、
および不揮発性記憶装置を含み、しかもこれらに限定さ
れない。他のハードウェアも、通常のものであれカスタ
ム化されたものであれ、含まれる。同様に、図中のスイ
ッチは概念的なものに過ぎない。それらの機能は、プロ
グラム論理回路の動作、専用論理回路、プログラム制御
論理回路と専用論理回路の相互作用により、あるいは、
手動でも、実行可能であり、その方式は、文脈から具体
的に理解されるようにして、実装者により選択可能であ
る。
実行する手段として表現された要素は、例えば、(a)
その機能を実行する回路要素の組合せ、あるいは、
(b)その機能を実行するソフトウェアを動作させるた
めの適当な回路と組み合わされた、ファームウェア、マ
イクロコードなどを含む任意の形式のソフトウェア、を
含む任意の態様を含む。
有名の複数のもっともらしい発音が、名前の1つ以上の
可能性のある言語起源に基づいて、および、名前が話さ
れているコンテクスト(すなわち、可能性のある話者集
団の1つ以上の特性)に基づいて生成される。
システムで用いられる、本発明の実施例による固有名発
音生成システムを示す図である。
を説明する流れ図である。
Claims (38)
- 【請求項1】 与えられた話者集団内の個人による固有
名を含む発話の音声認識を実行する際に用いられる、固
有名の複数のもっともらしい発音を生成する方法におい
て、 固有名の可能性のある起源として複数の言語のうちから
1つ以上の言語を識別するステップと、 与えられた固有名に対して、1つ以上の識別された言語
に基づいて複数のもっともらしい発音を生成するステッ
プとを有し前記複数のもっともらしい発音は、さらに、
前記与えられた話者集団に関連する1つ以上の特性に基
づくことを特徴とする、固有名の複数のもっともらしい
発音を生成する方法。 - 【請求項2】 与えられた固有名に対する前記複数のも
っともらしい発音のうちの1つに基づいて、与えられた
固有名を含むものとして発話を認識するステップをさら
に有することを特徴とする請求項1記載の方法。 - 【請求項3】 前記与えられた話者集団の指定された母
語に基づいて、与えられた固有名に対する1つ以上の追
加のもっともらしい発音を生成するステップをさらに有
することを特徴とする請求項1記載の方法。 - 【請求項4】 前記指定された母語は英語であることを
特徴とする請求項3記載の方法。 - 【請求項5】 与えられた固有名に対する前記追加のも
っともらしい発音のうちの1つに基づいて、与えられた
固有名を含むものとして発話を認識するステップをさら
に有することを特徴とする請求項3記載の方法。 - 【請求項6】 前記固有名の可能性のある起源として複
数の言語のうちから1つ以上の言語を識別するステップ
は、 前記固有名の正字法表現に含まれる1つ以上の連続文字
列を決定するステップと、 それぞれの連続文字列について、前記複数の言語に対応
して、該連続文字列が対応する言語に現れる尤度をそれ
ぞれ表す複数の第1確率を計算するステップと、 前記複数の言語のそれぞれに対応して、前記第1確率の
対応するセットに基づいて、前記対応する言語が前記固
有名の起源である尤度をそれぞれ表す複数の第2確率を
計算するステップとを有することを特徴とする請求項1
記載の方法。 - 【請求項7】 前記1つ以上の連続文字列は、少なくと
も、2文字のバイグラム文字列および3文字のトリグラ
ム文字列を含むことを特徴とする請求項6記載の方法。 - 【請求項8】 与えられた言語に対応する前記第1確率
のうちの1つ以上は、該与えられた言語からのトレーニ
ングデータのコーパスに基づいて計算されることを特徴
とする請求項6記載の方法。 - 【請求項9】 前記与えられた言語からのトレーニング
データのコーパスが、少なくとも1つの第1確率を計算
するのに十分な情報を含まない場合に、前記与えられた
言語に対応する前記少なくとも1つの第1確率を推定す
るステップをさらに有することを特徴とする請求項8記
載の方法。 - 【請求項10】 前記複数のもっともらしい発音を生成
するステップは、前記識別された言語のそれぞれに対す
る文字−音変換規則の1つ以上の対応するセットを前記
固有名の正字法表現に適用して1つ以上のもっともらし
い発音を生成するステップを含むことを特徴とする請求
項1記載の方法。 - 【請求項11】 前記文字−音変換規則のセットは、有
限状態機械としてコンパイルされたものであることを特
徴とする請求項10記載の方法。 - 【請求項12】 前記文字−音変換規則のセットのうち
の1つ以上のセットは、前記対応する識別された言語か
らのトレーニングデータの注釈付きコーパスに基づいて
手作業で作成されたものであることを特徴とする請求項
10記載の方法。 - 【請求項13】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記固有名により識別される人とどのくらい近い結
びつきを有するかの程度を含むことを特徴とする請求項
1記載の方法。 - 【請求項14】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記言語のうち、前記固有名の可能な起源として識
別された言語にどのくらい習熟しているかの程度を含む
ことを特徴とする請求項1記載の方法。 - 【請求項15】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人に
よって意図された可能性の高い発話の所定の目的を含む
ことを特徴とする請求項1記載の方法。 - 【請求項16】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人が
位置している可能性が高い地理的位置を含むことを特徴
とする請求項1記載の方法。 - 【請求項17】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記固有名の可能な起源として識別された1つ以上
の言語以外の1つ以上の言語にどのくらい習熟している
かの程度を含むことを特徴とする請求項1記載の方法。 - 【請求項18】 前記固有名は、人の識別を含むことを
特徴とする請求項1記載の方法。 - 【請求項19】 前記固有名は、地理的位置の識別を含
むことを特徴とする請求項1記載の方法。 - 【請求項20】 与えられた話者集団内の個人による固
有名を含む発話の音声認識を実行する際に用いられる、
固有名の複数のもっともらしい発音を生成する装置にお
いて、 固有名の可能性のある起源として複数の言語のうちから
1つ以上の言語を識別する手段と、 与えられた固有名に対して、1つ以上の識別された言語
に基づいて複数のもっともらしい発音を生成する手段と
を有し前記複数のもっともらしい発音は、さらに、前記
与えられた話者集団に関連する1つ以上の特性に基づく
ことを特徴とする、固有名の複数のもっともらしい発音
を生成する装置。 - 【請求項21】 与えられた固有名に対する前記複数の
もっともらしい発音のうちの1つに基づいて、与えられ
た固有名を含むものとして発話を認識する手段をさらに
有することを特徴とする請求項20記載の装置。 - 【請求項22】 前記与えられた話者集団の指定された
母語に基づいて、与えられた固有名に対する1つ以上の
追加のもっともらしい発音を生成する手段をさらに有す
ることを特徴とする請求項20記載の装置。 - 【請求項23】 前記指定された母語は英語であること
を特徴とする請求項22記載の装置。 - 【請求項24】 与えられた固有名に対する前記追加の
もっともらしい発音のうちの1つに基づいて、与えられ
た固有名を含むものとして発話を認識する手段をさらに
有することを特徴とする請求項22記載の装置。 - 【請求項25】 前記固有名の可能性のある起源として
複数の言語のうちから1つ以上の言語を識別する手段
は、 前記固有名の正字法表現に含まれる1つ以上の連続文字
列を決定する手段と、 それぞれの連続文字列について、前記複数の言語に対応
して、該連続文字列が対応する言語に現れる尤度をそれ
ぞれ表す複数の第1確率を計算する手段と、 前記複数の言語のそれぞれに対応して、前記第1確率の
対応するセットに基づいて、前記対応する言語が前記固
有名の起源である尤度をそれぞれ表す複数の第2確率を
計算する手段とを有することを特徴とする請求項20記
載の装置。 - 【請求項26】 前記1つ以上の連続文字列は、少なく
とも、2文字のバイグラム文字列および3文字のトリグ
ラム文字列を含むことを特徴とする請求項25記載の装
置。 - 【請求項27】 与えられた言語に対応する前記第1確
率のうちの1つ以上は、該与えられた言語からのトレー
ニングデータのコーパスに基づいて計算されることを特
徴とする請求項25記載の装置。 - 【請求項28】 前記与えられた言語からのトレーニン
グデータのコーパスが、少なくとも1つの第1確率を計
算するのに十分な情報を含まない場合に、前記与えられ
た言語に対応する前記少なくとも1つの第1確率を推定
する手段をさらに有することを特徴とする請求項27記
載の装置。 - 【請求項29】 前記複数のもっともらしい発音を生成
する手段は、前記識別された言語のそれぞれに対する文
字−音変換規則の1つ以上の対応するセットを前記固有
名の正字法表現に適用して1つ以上のもっともらしい発
音を生成する手段を含むことを特徴とする請求項20記
載の装置。 - 【請求項30】 前記文字−音変換規則のセットは、有
限状態機械としてコンパイルされたものであることを特
徴とする請求項29記載の装置。 - 【請求項31】 前記文字−音変換規則のセットのうち
の1つ以上のセットは、前記対応する識別された言語か
らのトレーニングデータの注釈付きコーパスに基づいて
手作業で作成されたものであることを特徴とする請求項
29記載の装置。 - 【請求項32】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記固有名により識別される人とどのくらい近い結
びつきを有するかの程度を含むことを特徴とする請求項
20記載の装置。 - 【請求項33】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記言語のうち、前記固有名の可能な起源として識
別された言語にどのくらい習熟しているかの程度を含む
ことを特徴とする請求項20記載の装置。 - 【請求項34】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人に
よって意図された可能性の高い発話の所定の目的を含む
ことを特徴とする請求項20記載の装置。 - 【請求項35】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人が
位置している可能性が高い地理的位置を含むことを特徴
とする請求項20記載の装置。 - 【請求項36】 前記与えられた話者集団に関連する特
性のうちの1つは、前記与えられた話者集団内の個人
が、前記固有名の可能な起源として識別された1つ以上
の言語以外の1つ以上の言語にどのくらい習熟している
かの程度を含むことを特徴とする請求項20記載の装
置。 - 【請求項37】 前記固有名は、人の識別を含むことを
特徴とする請求項20記載の装置。 - 【請求項38】 前記固有名は、地理的位置の識別を含
むことを特徴とする請求項20記載の装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/534,150 US6272464B1 (en) | 2000-03-27 | 2000-03-27 | Method and apparatus for assembling a prediction list of name pronunciation variations for use during speech recognition |
| US09/534150 | 2000-03-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001296880A true JP2001296880A (ja) | 2001-10-26 |
| JP2001296880A5 JP2001296880A5 (ja) | 2004-10-07 |
Family
ID=24128879
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001084632A Abandoned JP2001296880A (ja) | 2000-03-27 | 2001-03-23 | 固有名の複数のもっともらしい発音を生成する方法および装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US6272464B1 (ja) |
| EP (1) | EP1143415B1 (ja) |
| JP (1) | JP2001296880A (ja) |
| CA (1) | CA2336459A1 (ja) |
| DE (1) | DE60000138T2 (ja) |
Cited By (48)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010155184A (ja) * | 2008-12-26 | 2010-07-15 | Nishihara Environment Technology Inc | 担体投入型生物反応装置 |
| WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
| JP2012185679A (ja) * | 2011-03-04 | 2012-09-27 | Rakuten Inc | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
| JP2015512062A (ja) * | 2012-03-02 | 2015-04-23 | アップル インコーポレイテッド | 名前発音システム及び方法 |
| US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
| US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
| US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
| US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
| US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
| US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
| US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
| US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
| US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
| US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
| US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
Families Citing this family (112)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7251314B2 (en) * | 1994-10-18 | 2007-07-31 | Lucent Technologies | Voice message transfer between a sender and a receiver |
| US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
| US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
| US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
| US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US7277732B2 (en) * | 2000-10-13 | 2007-10-02 | Microsoft Corporation | Language input system for mobile devices |
| EP1217610A1 (de) * | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Verfahren und System zur multilingualen Spracherkennung |
| US20020087317A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented dynamic pronunciation method and system |
| US20040002850A1 (en) * | 2002-03-14 | 2004-01-01 | Shaefer Leonard Arthur | System and method for formulating reasonable spelling variations of a proper name |
| US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
| US7752045B2 (en) * | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
| DE10304229A1 (de) * | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
| US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
| US7302389B2 (en) * | 2003-05-14 | 2007-11-27 | Lucent Technologies Inc. | Automatic assessment of phonological processes |
| US20040230431A1 (en) * | 2003-05-14 | 2004-11-18 | Gupta Sunil K. | Automatic assessment of phonological processes for speech therapy and language instruction |
| US7373294B2 (en) * | 2003-05-15 | 2008-05-13 | Lucent Technologies Inc. | Intonation transformation for speech therapy and the like |
| US20040243412A1 (en) * | 2003-05-29 | 2004-12-02 | Gupta Sunil K. | Adaptation of speech models in speech recognition |
| US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
| US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
| US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
| US7533018B2 (en) * | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
| US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
| CN1835077B (zh) * | 2005-03-14 | 2011-05-11 | 台达电子工业股份有限公司 | 中文人名自动语音辨识输入方法及系统 |
| US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
| US20070233490A1 (en) * | 2006-04-03 | 2007-10-04 | Texas Instruments, Incorporated | System and method for text-to-phoneme mapping with prior knowledge |
| US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
| US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
| US7873517B2 (en) * | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
| JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
| US8719027B2 (en) * | 2007-02-28 | 2014-05-06 | Microsoft Corporation | Name synthesis |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8401157B2 (en) * | 2008-01-24 | 2013-03-19 | Alcatel Lucent | System and method for providing audible spoken name pronunciations |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8296141B2 (en) * | 2008-11-19 | 2012-10-23 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
| US9484019B2 (en) | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| JP5334178B2 (ja) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | 音声認識装置およびデータ更新方法 |
| US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
| US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US9183834B2 (en) * | 2009-07-22 | 2015-11-10 | Cisco Technology, Inc. | Speech recognition tuning tool |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US8489398B1 (en) | 2011-01-14 | 2013-07-16 | Google Inc. | Disambiguation of spoken proper names |
| CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US9286894B1 (en) | 2012-01-31 | 2016-03-15 | Google Inc. | Parallel recognition |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| WO2013167934A1 (en) * | 2012-05-07 | 2013-11-14 | Mls Multimedia S.A. | Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| JP2016508007A (ja) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | デジタルアシスタントのためのボイストリガ |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US9076347B2 (en) * | 2013-03-14 | 2015-07-07 | Better Accent, LLC | System and methods for improving language pronunciation |
| AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1223708A1 (zh) | 2013-06-09 | 2017-08-04 | Apple Inc. | 用於实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
| WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
| US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US9747891B1 (en) * | 2016-05-18 | 2017-08-29 | International Business Machines Corporation | Name pronunciation recommendation |
| US20250217589A1 (en) * | 2023-12-27 | 2025-07-03 | Ringcentral, Inc. | Systems and methods for dynamically providing a correct pronunciation for a user name based on user location |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4829580A (en) | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
| ATE102731T1 (de) * | 1988-11-23 | 1994-03-15 | Digital Equipment Corp | Namenaussprache durch einen synthetisator. |
| US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
| US5293452A (en) * | 1991-07-01 | 1994-03-08 | Texas Instruments Incorporated | Voice log-in using spoken name input |
| CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
| US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
| US5949961A (en) * | 1995-07-19 | 1999-09-07 | International Business Machines Corporation | Word syllabification in speech synthesis system |
| CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
| US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
-
2000
- 2000-03-27 US US09/534,150 patent/US6272464B1/en not_active Expired - Lifetime
- 2000-10-23 DE DE60000138T patent/DE60000138T2/de not_active Expired - Lifetime
- 2000-10-23 EP EP00309339A patent/EP1143415B1/en not_active Expired - Lifetime
-
2001
- 2001-02-14 CA CA002336459A patent/CA2336459A1/en not_active Abandoned
- 2001-03-23 JP JP2001084632A patent/JP2001296880A/ja not_active Abandoned
Cited By (66)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
| JP2010155184A (ja) * | 2008-12-26 | 2010-07-15 | Nishihara Environment Technology Inc | 担体投入型生物反応装置 |
| US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
| US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
| US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
| US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
| US9177545B2 (en) | 2010-01-22 | 2015-11-03 | Mitsubishi Electric Corporation | Recognition dictionary creating device, voice recognition device, and voice synthesizer |
| CN102687197B (zh) * | 2010-01-22 | 2014-07-23 | 三菱电机株式会社 | 声音识别用词典制作装置、声音识别装置及声音合成装置 |
| CN102687197A (zh) * | 2010-01-22 | 2012-09-19 | 三菱电机株式会社 | 识别词典制作装置、声音识别装置及声音合成装置 |
| JP4942860B2 (ja) * | 2010-01-22 | 2012-05-30 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
| WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
| US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
| US9323744B2 (en) | 2011-03-04 | 2016-04-26 | Rakuten, Inc. | Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration |
| KR101326354B1 (ko) * | 2011-03-04 | 2013-11-11 | 라쿠텐 인코포레이티드 | 문자 변환 처리 장치, 기록 매체 및 방법 |
| JP2012185679A (ja) * | 2011-03-04 | 2012-09-27 | Rakuten Inc | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
| JP2015512062A (ja) * | 2012-03-02 | 2015-04-23 | アップル インコーポレイテッド | 名前発音システム及び方法 |
| US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| JP2017062475A (ja) * | 2012-03-02 | 2017-03-30 | アップル インコーポレイテッド | 名前発音システム及び方法 |
| US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
| US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
| US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
| US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
| US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
| US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
| US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
| US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
| US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
| US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
| US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
| US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
| US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
| US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
| US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
| US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
Also Published As
| Publication number | Publication date |
|---|---|
| EP1143415B1 (en) | 2002-04-24 |
| CA2336459A1 (en) | 2001-09-27 |
| EP1143415A1 (en) | 2001-10-10 |
| US6272464B1 (en) | 2001-08-07 |
| DE60000138T2 (de) | 2002-10-31 |
| DE60000138D1 (de) | 2002-05-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2001296880A (ja) | 固有名の複数のもっともらしい発音を生成する方法および装置 | |
| TWI539441B (zh) | 語音辨識方法及電子裝置 | |
| CN103578467B (zh) | 声学模型的建立方法、语音辨识方法及其电子装置 | |
| CN103578464B (zh) | 语言模型的建立方法、语音辨识方法及电子装置 | |
| US12437756B2 (en) | Cross-lingual speech recognition | |
| US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
| US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
| Lee et al. | Spoken language resources for Cantonese speech processing | |
| US8285537B2 (en) | Recognition of proper nouns using native-language pronunciation | |
| US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
| US8024179B2 (en) | System and method for improving interaction with a user through a dynamically alterable spoken dialog system | |
| EP1251490A1 (en) | Compact phonetic model for arabic languages recognition | |
| Kirchhoff et al. | Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition | |
| US10930274B2 (en) | Personalized pronunciation hints based on user speech | |
| JP2001296880A5 (ja) | ||
| Chotimongkol et al. | Statistically trained orthographic to sound models for Thai. | |
| Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
| US6963832B2 (en) | Meaning token dictionary for automatic speech recognition | |
| JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
| JP2007155833A (ja) | 音響モデル開発装置及びコンピュータプログラム | |
| JP7165439B2 (ja) | ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法 | |
| Levow | Adaptations in spoken corrections: Implications for models of conversational speech | |
| JP2003162524A (ja) | 言語処理装置 | |
| CN104756183B (zh) | 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符 | |
| Win et al. | Review and perspectives of natural language processing for speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060519 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060529 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060829 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060901 |
|
| A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20061129 |