JP2010522938A - 機械翻訳における大規模言語モデル - Google Patents
機械翻訳における大規模言語モデル Download PDFInfo
- Publication number
- JP2010522938A JP2010522938A JP2010501157A JP2010501157A JP2010522938A JP 2010522938 A JP2010522938 A JP 2010522938A JP 2010501157 A JP2010501157 A JP 2010501157A JP 2010501157 A JP2010501157 A JP 2010501157A JP 2010522938 A JP2010522938 A JP 2010522938A
- Authority
- JP
- Japan
- Prior art keywords
- gram
- backoff
- grams
- order
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
P(The|<start>)P(red|The)P(wheelbarrow|red)
を計算する。式中、<start>は文の開始を表しており、したがって、P(The|<start>)は、文が「The」で始まる確率を表す。
(<s>,1)
(a,1)
(rose,1)
(</s>,1)。
(<s>,1)
(is,1)
(a,1)
(rose,1)
(</s>,1)。
(<s>,1)
(a,1)
(rose,1)
(is,1)
(a,1)
(rose,1)
(</s>,1)。
(<s>,1)
(a,2)
(rose,2)
(is,1)
(</s>,1)。
(<s>,3)
(a,4)
(is,2)
(rose,4)
(</s>,3)。
Map(string key,string value){
//key=docid,ignored;value=document
array words=Tokenize(value);
for i=1..#words Emit(words[i],"1");}
int ShardForKey(string key,int nshards){return Hash(key)% nshards;
}
Reduce(string key,iterator values){
//key=term;values=counts
int sum=0;
for each v in values
sum+=Parselnt(v);
Emit(AsString(sum));
}
(<s>a,1)
(a rose,1)
(rose<UNK>,1)
(<UNK><is>,1)。
(<s>is,1)
(is a,1)
(a rose,1)
(rose<UNK>,1)
(<UNK></s>,1)。
(<s>a,1)
(a rose,1)
(rose is,1)
(is a,1)
(a rose,1)
(rose</s>,1)。
(<s>a,2)
(<s>is,1)
(a rose,3)
(is a,2)
(rose is,1)
(rose<UNK>,2)
(rose</s>,1)
(<UNK></s>,2)。
したがって、Reduceフェーズの結果は、コーパス中のその頻度と共に2グラムを提供する。
Map(string key,string value){
//key=docid,ignored;value=document
array ids=Tolds(Tokenize(value));
for i=1..#ids
for j=0..maxorder-1
Emit(ids[i-j..i],"1");
}
Int ShardForKey(string key,int nshards){
String prefix=FirstTwoWords(key);
Return Hash(prefix)% nshards;
}
αk=1-Ck k=n(最高次数)の場合、また
αk=1-Ck k=n(最高の次数)の場合、および
α5=0.7012、α4=0.6090、α3=0.3632、およびα2=0.1728となる。
αk=(Ck-1-Ck)/Ck k=n(最高の次数)の場合、
αk=Mk-1/Mk k=2...nの場合、および
αk=0 k=1の場合。
102 ターゲットコーパス
104 言語モデル
106 並列コーパス
108 翻訳モデル
110 デコーダ
112 入力テキスト
114 翻訳されたテキスト
200 言語モデル
202 nグラム
204 nグラム確率
206 バックオフスコア
400 システム
410 データ処理装置
420 翻訳プログラム
430 プロセッサ(複数可)
440 コンピュータ可読媒体
450 通信インターフェース
460 ユーザインターフェース装置(複数可)
470 付加的装置(複数可)
480 ネットワーク
490 プロセッサ(複数可)
Claims (22)
- コーパスからのnグラムの集合体であって、各nグラムは、前記コーパスにおける対応する相対頻度、および前記nグラムのトークン数に対応する次数nを有し、各nグラムは、次数n-1を有するバックオフnグラムに対応しているnグラムの集合体と、
バックオフスコアの集合体であって、各バックオフスコアがnグラムと関連しており、前記バックオフスコアが、バックオフ係数、および前記コーパスにおける対応するバックオフnグラムの相対頻度の関数として決定されるバックオフスコアの集合体と
を含む言語モデルを備えるシステム。 - 前記バックオフ係数は、一定のペナルティ値を含む、請求項1に記載のシステム。
- 前記バックオフ係数は、前記nグラムの次数に依存する、請求項1に記載のシステム。
- 前記バックオフ係数は、サンプルデータ内で生ずる各次数のnグラムの数を用いて導出される、請求項3に記載のシステム。
- 前記バックオフ係数は、翻訳モデルの識別的訓練を用いて導出される、請求項1に記載のシステム。
- 指示特徴関数は、前記バックオフ係数を識別するために使用される、請求項5に記載のシステム。
- 訓練データのコーパスからのnグラムの集合体を識別するステップであって、前記集合体の各nグラムは、前記コーパス中で生ずる対応する相対頻度、および前記nグラムのトークン数に対応する次数nを有し、各nグラムは、次数n-1を有するバックオフnグラムに対応しているステップと、
1つまたは複数のバックオフ係数を識別するステップであって、前記バックオフ係数は、バックオフnグラムの相対頻度の関数として、1つまたは複数のnグラムに対するバックオフスコアを識別するために使用されるステップと
を含む言語モデルを生成するステップを含む方法。 - 前記1つまたは複数のバックオフ係数を識別する前記ステップは、
翻訳品質の尺度を最大化する、前記1つまたは複数のバックオフ係数に対する値を識別する識別的訓練を1組のサンプルデータに対して実施するステップを含む、請求項7に記載の方法。 - 指示特徴関数は、前記1つまたは複数のバックオフ係数を識別するために使用される、請求項8に記載の方法。
- 前記1つまたは複数のバックオフ係数を識別する前記ステップは、
サンプルデータセット中で、各次数における前記nグラムの発生数から導出されるバックオフ係数を、各nグラムの次数に対して決定するステップを含む、請求項7に記載の方法。 - 前記1つまたは複数のバックオフ係数を用いてnグラムに対するバックオフスコアを計算し、かつ前記バックオフスコアを記憶するステップをさらに含む、請求項7に記載の方法。
- 有形なプログラム担持体上で符号化され、データ処理装置にオペレーションを実施させるように動作可能なコンピュータプログラム製品であって、
訓練データのコーパスからのnグラムの集合体を識別するステップであり、前記集合体の各nグラムは、前記コーパス中で生ずる対応する相対頻度、および前記nグラムにおけるトークン数に対応する次数nを有し、各nグラムは、次数n-1を有するバックオフnグラムに対応しているステップと、
1つまたは複数のバックオフ係数を識別するステップであり、前記バックオフ係数は、バックオフnグラムの相対頻度の関数として、1つまたは複数のnグラムに対するバックオフスコアを識別するために使用されるステップと
を含む言語モデルを生成するステップを含むコンピュータプログラム製品。 - 前記1つまたは複数のバックオフ係数を識別する前記ステップは、
翻訳品質の尺度を最大化する、前記1つまたは複数のバックオフ係数に対する値を識別する識別的訓練を1組のサンプルデータに対して実施するステップを含む、請求項12に記載のコンピュータプログラム製品。 - 指示特徴関数は、前記1つまたは複数のバックオフ係数を識別するために使用される、請求項13に記載のコンピュータプログラム製品。
- 前記1つまたは複数のバックオフ係数を識別する前記ステップは、
サンプルデータセット中で、各次数における前記nグラムの発生数から導出されるバックオフ係数を、各nグラムの次数に対して決定するステップを含む、請求項12に記載のコンピュータプログラム製品。 - 前記1つまたは複数のバックオフ係数を用いてnグラムに対するバックオフスコアを計算し、かつ前記バックオフスコアを記憶するステップを含むオペレーションをさらに含む、請求項12に記載のコンピュータプログラム製品。
- 1つまたは複数のnグラムへと分割される、複数のトークンを有する入力文字列を受信するステップであって、各nグラムは、前記nグラムのトークン数を識別する次数を有するステップと、
前記入力文字列中の各nグラムに対する確率を識別するために言語モデルを用いるステップとを含み、
入力文字列中の第1のnグラムが前記言語モデル中で見つからない場合には、
前記第1のnグラムの前記次数よりも1つ少ない次数を有するバックオフnグラムを識別するステップを含み、
また前記バックオフnグラムが前記言語モデル中で見つかった場合には、
バックオフ係数と、前記言語モデルにおける前記バックオフnグラムの相対頻度との関数である、前記第1のnグラムに対するバックオフスコアを識別するステップを含む方法。 - バックオフスコアを識別する前記ステップは、前記nグラムに対する計算されたバックオフスコアを参照するステップを含む、請求項17に記載の方法。
- バックオフスコアを識別する前記ステップは、前記nグラムに対する前記バックオフ係数と、前記バックオフnグラムの前記相対頻度とを用いて前記バックオフスコアを計算するステップを含む、請求項17に記載の方法。
- 有形なプログラム担持体上で符号化され、データ処理装置にオペレーションを実施させるように動作可能なコンピュータプログラム製品であって、
1つまたは複数のnグラムへと分割される、複数のトークンを有する入力文字列を受信するステップであり、各nグラムが、前記nグラムのトークン数を識別する次数を有するステップと、
前記入力文字列中の各nグラムに対する確率を識別するために言語モデルを用いるステップとを含み、
入力文字列の第1のnグラムが前記言語モデル中で見つからない場合には、
前記第1のnグラムの前記次数よりも1つ少ない次数を有するバックオフnグラムを識別するステップを含み、
また前記バックオフnグラムが前記言語モデル中で見つかった場合には、
前記バックオフ係数と、前記言語モデル中の前記バックオフnグラムの相対頻度との関数である、前記第1のnグラムに対するバックオフスコアを識別するステップを含むコンピュータプログラム製品。 - バックオフスコアを識別する前記ステップは、前記nグラムに対する計算されたバックオフスコアを参照するステップを含む、請求項20に記載のコンピュータプログラム製品。
- バックオフスコアを識別する前記ステップは、前記nグラムに対する前記バックオフ係数と、前記バックオフnグラムの相対頻度とを用いて前記バックオフスコアを計算するステップを含む、請求項20に記載のコンピュータプログラム製品。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US92028307P | 2007-03-26 | 2007-03-26 | |
| US60/920,283 | 2007-03-26 | ||
| US11/767,436 US8332207B2 (en) | 2007-03-26 | 2007-06-22 | Large language models in machine translation |
| US11/767,436 | 2007-06-22 | ||
| PCT/US2008/058116 WO2008118905A2 (en) | 2007-03-26 | 2008-03-25 | Large language models in machine translation |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010522938A true JP2010522938A (ja) | 2010-07-08 |
| JP5484317B2 JP5484317B2 (ja) | 2014-05-07 |
Family
ID=39789254
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010501157A Active JP5484317B2 (ja) | 2007-03-26 | 2008-03-25 | 機械翻訳における大規模言語モデル |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US8332207B2 (ja) |
| EP (1) | EP2137639B1 (ja) |
| JP (1) | JP5484317B2 (ja) |
| KR (1) | KR20100015518A (ja) |
| CN (1) | CN101707873B (ja) |
| WO (1) | WO2008118905A2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011028703A (ja) * | 2009-07-23 | 2011-02-10 | Toyo Networks & System Integration Co Ltd | 検索システムに組み込んだセキュリティシステム |
| JP2011150503A (ja) * | 2010-01-21 | 2011-08-04 | Hitachi Ltd | 並列分散処理方法、及び、計算機システム |
Families Citing this family (62)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008083503A1 (en) * | 2007-01-10 | 2008-07-17 | National Research Council Of Canada | Means and method for automatic post-editing of translations |
| US8332207B2 (en) | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
| US9002869B2 (en) * | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
| US8060360B2 (en) * | 2007-10-30 | 2011-11-15 | Microsoft Corporation | Word-dependent transition models in HMM based word alignment for statistical machine translation |
| US8849665B2 (en) * | 2008-01-30 | 2014-09-30 | At&T Intellectual Property I, L.P. | System and method of providing machine translation from a source language to a target language |
| US8844033B2 (en) * | 2008-05-27 | 2014-09-23 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for detecting network anomalies using a trained probabilistic model |
| US20100023315A1 (en) * | 2008-07-25 | 2010-01-28 | Microsoft Corporation | Random walk restarts in minimum error rate training |
| US8301619B2 (en) * | 2009-02-18 | 2012-10-30 | Avaya Inc. | System and method for generating queries |
| US20100299132A1 (en) * | 2009-05-22 | 2010-11-25 | Microsoft Corporation | Mining phrase pairs from an unstructured resource |
| US20110035211A1 (en) * | 2009-08-07 | 2011-02-10 | Tal Eden | Systems, methods and apparatus for relative frequency based phrase mining |
| WO2011050494A1 (en) * | 2009-10-29 | 2011-05-05 | Google Inc. | Generating input suggestions |
| US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
| CN101882226B (zh) * | 2010-06-24 | 2013-07-24 | 汉王科技股份有限公司 | 提高字符间语言区分度的方法及装置 |
| TWI434187B (zh) | 2010-11-03 | 2014-04-11 | Inst Information Industry | 文字轉換方法與系統 |
| CN102486770B (zh) * | 2010-12-02 | 2014-09-17 | 财团法人资讯工业策进会 | 文字转换方法与系统 |
| US8660836B2 (en) | 2011-03-28 | 2014-02-25 | International Business Machines Corporation | Optimization of natural language processing system based on conditional output quality at risk |
| US9367526B1 (en) * | 2011-07-26 | 2016-06-14 | Nuance Communications, Inc. | Word classing for language modeling |
| US8953885B1 (en) * | 2011-09-16 | 2015-02-10 | Google Inc. | Optical character recognition |
| CN102509549B (zh) * | 2011-09-28 | 2013-08-14 | 盛乐信息技术(上海)有限公司 | 语言模型训练方法及系统 |
| CN102663083A (zh) * | 2012-04-01 | 2012-09-12 | 南通大学 | 基于分布式计算的大规模社交网络信息抽取方法 |
| US8983211B2 (en) * | 2012-05-14 | 2015-03-17 | Xerox Corporation | Method for processing optical character recognizer output |
| US20130325436A1 (en) * | 2012-05-29 | 2013-12-05 | Wright State University | Large Scale Distributed Syntactic, Semantic and Lexical Language Models |
| CN103631771A (zh) * | 2012-08-28 | 2014-03-12 | 株式会社东芝 | 改进语言模型的方法及装置 |
| US10095692B2 (en) * | 2012-11-29 | 2018-10-09 | Thornson Reuters Global Resources Unlimited Company | Template bootstrapping for domain-adaptable natural language generation |
| US9484023B2 (en) | 2013-02-22 | 2016-11-01 | International Business Machines Corporation | Conversion of non-back-off language models for efficient speech decoding |
| IN2013MU02217A (ja) * | 2013-07-01 | 2015-06-12 | Tata Consultancy Services Ltd | |
| US20150051896A1 (en) * | 2013-08-14 | 2015-02-19 | National Research Council Of Canada | Method and apparatus to construct program for assisting in reviewing |
| KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
| US10346381B2 (en) * | 2013-11-14 | 2019-07-09 | Facebook, Inc. | Atomic update operations in a data storage system |
| US10176256B1 (en) * | 2013-12-23 | 2019-01-08 | BroadbandTV, Corp | Title rating and improvement process and system |
| US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
| US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
| US20150317314A1 (en) * | 2014-04-30 | 2015-11-05 | Linkedln Corporation | Content search vertical |
| WO2016065327A1 (en) * | 2014-10-24 | 2016-04-28 | Google Inc. | Neural machine translation systems with rare word processing |
| US10134394B2 (en) * | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
| US10185713B1 (en) | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
| US10268684B1 (en) * | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
| US9959271B1 (en) | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
| US10496614B2 (en) | 2015-10-07 | 2019-12-03 | Oracle International Corporation | DDL processing in shared databases |
| US9690777B1 (en) * | 2015-12-10 | 2017-06-27 | Webinterpret | Translating website listings and propagating the translated listings to listing websites in other regions |
| US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
| CN107885716B (zh) * | 2016-09-29 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
| US9916305B1 (en) * | 2016-12-28 | 2018-03-13 | Facebook, Inc. | Translating terms within a digital communication |
| JP7077487B2 (ja) * | 2018-11-30 | 2022-05-30 | グーグル エルエルシー | 音声処理 |
| CN110472257A (zh) * | 2019-08-20 | 2019-11-19 | 南京题麦壳斯信息科技有限公司 | 一种基于句对的机器翻译引擎测评优选方法及系统 |
| US11194773B2 (en) | 2019-09-12 | 2021-12-07 | Oracle International Corporation | Integration of existing databases into a sharding environment |
| US11735169B2 (en) * | 2020-03-20 | 2023-08-22 | International Business Machines Corporation | Speech recognition and training for data inputs |
| US11704497B2 (en) * | 2020-09-09 | 2023-07-18 | International Business Machines Corporation | Generating and using a sentence model for answer generation |
| CN112466292B (zh) | 2020-10-27 | 2023-08-04 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置和电子设备 |
| US12159119B2 (en) | 2023-02-15 | 2024-12-03 | Casetext, Inc. | Text generation interface system |
| US12067366B1 (en) | 2023-02-15 | 2024-08-20 | Casetext, Inc. | Generative text model query system |
| US11861320B1 (en) | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Text reduction and analysis interface to a text generation modeling system |
| US11860914B1 (en) | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Natural language database generation and query system |
| US11995411B1 (en) | 2023-02-28 | 2024-05-28 | Casetext, Inc. | Large language model artificial intelligence text evaluation system |
| US20240296295A1 (en) * | 2023-03-03 | 2024-09-05 | Microsoft Technology Licensing, Llc | Attribution verification for answers and summaries generated from large language models (llms) |
| US11861321B1 (en) | 2023-06-29 | 2024-01-02 | Casetext, Inc. | Systems and methods for structure discovery and structure-based analysis in natural language processing models |
| US11972223B1 (en) | 2023-06-30 | 2024-04-30 | Casetext, Inc. | Query evaluation in natural language processing systems |
| US12505299B2 (en) | 2023-08-16 | 2025-12-23 | Casetext, Inc. | Hallucination detection and remediation in text generation interface systems |
| CN116797322B (zh) * | 2023-08-16 | 2024-02-09 | 杭州阿里巴巴海外网络科技有限公司 | 提供商品对象信息的方法及电子设备 |
| JP7441391B1 (ja) | 2023-08-21 | 2024-03-01 | 株式会社医療情報技術研究所 | 大規模言語モデルを用いた電子カルテシステム |
| JP7592232B1 (ja) | 2023-10-04 | 2024-12-02 | 株式会社医療情報技術研究所 | 大規模言語モデルを用いた診断、処方支援システム |
| US12530542B2 (en) | 2023-11-13 | 2026-01-20 | International Business Machines Corporation | Clarification recommendations for a large language model answer with various understandings or multiple subtopics |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003271188A (ja) * | 2002-03-15 | 2003-09-25 | National Institute Of Advanced Industrial & Technology | 言語処理装置および方法 |
| JP2005293580A (ja) * | 2004-03-26 | 2005-10-20 | Microsoft Corp | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 |
Family Cites Families (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
| US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
| JP3004254B2 (ja) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
| US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
| US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
| US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
| US20020077823A1 (en) * | 2000-10-13 | 2002-06-20 | Andrew Fox | Software development systems and methods |
| US7171358B2 (en) * | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
| US7197457B2 (en) * | 2003-04-30 | 2007-03-27 | Robert Bosch Gmbh | Method for statistical language modeling in speech recognition |
| US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
| US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
| JP2005100335A (ja) * | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
| CA2486128C (en) * | 2003-10-30 | 2011-08-23 | At&T Corp. | System and method for using meta-data dependent language modeling for automatic speech recognition |
| US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
| US7260568B2 (en) * | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
| US7701886B2 (en) * | 2004-05-28 | 2010-04-20 | Alcatel-Lucent Usa Inc. | Packet loss concealment based on statistical n-gram predictive models for use in voice-over-IP speech transmission |
| US7584098B2 (en) * | 2004-11-29 | 2009-09-01 | Microsoft Corporation | Vocabulary-independent search of spontaneous speech |
| US7565372B2 (en) * | 2005-09-13 | 2009-07-21 | Microsoft Corporation | Evaluating and generating summaries using normalized probabilities |
| US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
| CA2641853C (en) * | 2006-02-10 | 2016-02-02 | Spinvox Limited | A mass-scale, user-independent, device-independent, voice messaging system |
| US7856350B2 (en) * | 2006-08-11 | 2010-12-21 | Microsoft Corporation | Reranking QA answers using language modeling |
| US8401841B2 (en) * | 2006-08-31 | 2013-03-19 | Orcatec Llc | Retrieval of documents using language models |
| US7783636B2 (en) * | 2006-09-28 | 2010-08-24 | Microsoft Corporation | Personalized information retrieval search with backoff |
| US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
| US20080162117A1 (en) * | 2006-12-28 | 2008-07-03 | Srinivas Bangalore | Discriminative training of models for sequence classification |
| US8332207B2 (en) | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
| US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
| US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
-
2007
- 2007-06-22 US US11/767,436 patent/US8332207B2/en not_active Expired - Fee Related
-
2008
- 2008-03-25 EP EP08744308.1A patent/EP2137639B1/en not_active Not-in-force
- 2008-03-25 WO PCT/US2008/058116 patent/WO2008118905A2/en not_active Ceased
- 2008-03-25 CN CN2008800168306A patent/CN101707873B/zh active Active
- 2008-03-25 KR KR1020097021287A patent/KR20100015518A/ko not_active Withdrawn
- 2008-03-25 JP JP2010501157A patent/JP5484317B2/ja active Active
-
2012
- 2012-12-10 US US13/709,125 patent/US8812291B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003271188A (ja) * | 2002-03-15 | 2003-09-25 | National Institute Of Advanced Industrial & Technology | 言語処理装置および方法 |
| JP2005293580A (ja) * | 2004-03-26 | 2005-10-20 | Microsoft Corp | Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 |
Non-Patent Citations (3)
| Title |
|---|
| CSNG200600972028; 高橋 力矢 他: 'N-gramカウントの信頼性を考慮したバックオフスムージング' 日本音響学会2004年春季研究発表会講演論文集-I- 音声A 音声B 聴覚・音声 聴覚 電気音響 音 , 20040317, pp.63-64, 社団法人日本音響学会 * |
| JPN6012065047; Katz, S.: 'Estimation of probabilities from sparse data for the language model component of a speech recognizer' [online] , 20030129, pp.400-401 * |
| JPN6012065050; 高橋 力矢 他: 'N-gramカウントの信頼性を考慮したバックオフスムージング' 日本音響学会2004年春季研究発表会講演論文集-I- 音声A 音声B 聴覚・音声 聴覚 電気音響 音 , 20040317, pp.63-64, 社団法人日本音響学会 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011028703A (ja) * | 2009-07-23 | 2011-02-10 | Toyo Networks & System Integration Co Ltd | 検索システムに組み込んだセキュリティシステム |
| JP2011150503A (ja) * | 2010-01-21 | 2011-08-04 | Hitachi Ltd | 並列分散処理方法、及び、計算機システム |
| US8954497B2 (en) | 2010-01-21 | 2015-02-10 | Hitachi, Ltd. | Parallel distributed processing method and computer system |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5484317B2 (ja) | 2014-05-07 |
| EP2137639A2 (en) | 2009-12-30 |
| US8812291B2 (en) | 2014-08-19 |
| WO2008118905A3 (en) | 2009-02-12 |
| EP2137639B1 (en) | 2019-01-16 |
| US20130346059A1 (en) | 2013-12-26 |
| WO2008118905A2 (en) | 2008-10-02 |
| KR20100015518A (ko) | 2010-02-12 |
| US8332207B2 (en) | 2012-12-11 |
| CN101707873A (zh) | 2010-05-12 |
| CN101707873B (zh) | 2013-07-03 |
| US20080243481A1 (en) | 2008-10-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5484317B2 (ja) | 機械翻訳における大規模言語モデル | |
| US8626488B1 (en) | Word alignment with bridge languages | |
| US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
| JP5697202B2 (ja) | 用語の対応を見出す方法、プログラム及びシステム | |
| US8849665B2 (en) | System and method of providing machine translation from a source language to a target language | |
| US10346548B1 (en) | Apparatus and method for prefix-constrained decoding in a neural machine translation system | |
| US20040210434A1 (en) | System and iterative method for lexicon, segmentation and language model joint optimization | |
| US20080306725A1 (en) | Generating a phrase translation model by iteratively estimating phrase translation probabilities | |
| WO2016125031A1 (en) | Modifying a tokenizer based on pseudo data for natural language processing | |
| JP2005521952A (ja) | 統計的機械翻訳用の句間結合確率モデル | |
| Le et al. | Measuring the influence of long range dependencies with neural network language models | |
| US8175864B1 (en) | Identifying nearest neighbors for machine translation | |
| US20130054224A1 (en) | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation | |
| CN110352423A (zh) | 序列转换神经网络 | |
| JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
| CN101371252B (zh) | 字符处理装置、方法、程序以及存储介质 | |
| CN103914447A (zh) | 信息处理设备和信息处理方法 | |
| Haltiuk et al. | On the Path to Make Ukrainian a High-Resource Language | |
| Habeeb et al. | Three n-grams based language model for auto-correction of speech recognition errors | |
| JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
| JP2004280467A (ja) | 翻訳装置、翻訳方法、及びそのプログラム | |
| JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
| Huang et al. | BBN's Systems for the Chinese-English Sub-task of the NTCIR-10 PatentMT Evaluation. | |
| Nalluri et al. | Statistical Machine Translation using Joshua: An approach to build “enTel” system | |
| US20250094687A1 (en) | Generating semantically repetition-free llm text |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110323 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130318 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130827 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131127 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140218 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5484317 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |