JP3121568B2

JP3121568B2 - 言語を特定する方法およびシステム

Info

Publication number: JP3121568B2
Application number: JP09259483A
Authority: JP
Inventors: マイケル・ジョン・マルチノ; ロバート・チャールズ・ポールセン・ジュニア
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-09-30
Filing date: 1997-09-25
Publication date: 2001-01-09
Anticipated expiration: 2017-09-25
Also published as: US6009382A; JPH10124513A; GB2318659A; GB9719454D0

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本願は参照することによって
本明細書の一部となる本願と同一の発明者による本願と
同一譲受人に譲渡された１９９６年９月１９日出願の
「Word Counting for Natural Language Determinatio
n」なる名称の係属米国特許願第０８／６９９４１２号
の一部継続出願である。

【０００２】本発明は総括的に、人間言語認識技術に関
する。詳細にいえば、本発明はコンピュータ化された文
書に使用される言語を識別する技法に関する。

【０００３】

【従来の技術】コンピュータおよびコンピュータ・ネッ
トワークは異なる自然言語を話したり、書いたりする人
々の間での符号化された文書の伝送を激しいものとして
いる。インターネットが最近ではこのプロセスを加速し
ている。これによっていくつかの問題が生じている。従
来の技術においては、たとえば、電子文書を国境を越え
て送信した場合、コンピュータ・システムの動作に割込
みが行われるので、所与の言語の特性によって決まる選
択、表示、印刷などの所与の操作の前に、人間が受信し
た文書の自然言語を判断することができた。インターネ
ット検索に関し、ユーザが多国語に堪能でない限り、ユ
ーザが関心を寄せるのはユーザの国語で検索された文書
だけになるであろう。いずれにせよ、ユーザに読める言
語のものだけとなるであろう。

【０００４】本明細書記載の発明はコンピュータが記録
した文書の適正な自然言語を自動的に判定することによ
り、このような人間の介入の必要性をなくすものであ
る。

【０００５】本出願人が当分野に貢献する以前から、一
般的な問題が従来の技術において認識されていた。符号
化テキストの自動言語識別の分野において、従来の技術
はｎ−グラムのキャラクタ・ベースのシステムを使用し
ていたが、これは各文字を複数回処理するものであり、
以下で説明する本出願人のワード・ベースの技法に比較
して、大量のシステム・リソースを消費する方法であっ
た。音声認識システムにおいて、言語認識は言語と音声
の特性、たとえば大量のテキストの解析および測定と、
きわめて長い処理時間を必要とするトリグラムないし語
勢を使用している。これらの技法は言語学上の関係では
有意なものではない言語の統計に基づく、ある種の形式
のマッチング・アルゴリズムに基づくものである。

【０００６】コンピュータ化された文書においてトリグ
ラム、ｎ−グラム、およびその他の人工的な分割を使用
する従来のシステムは、信頼性があるものとは見なされ
ず、各文字を１つの文書について複数回処理する、たと
えば、各文書の文字が３種類のトリグラムに現れるもの
であるため、きわめて遅く、またかなりのコンピュータ
時間を費やすものである。測定ないし導かれたものでは
あるが、トリグラムや文字列などの文書とされた言語の
実際の構成要素ではない特性は適正な言語の識別におい
て限定された成功を収めているが、大量のテキストを解
析し、測定する必要がある。同様に、個々の文字および
その局所的なコンテキストという属性に依存する従来の
システムも、言語の識別という問題に適用した場合、限
定されたものである。

【０００７】本明細書記載の発明においては、従来技術
の技法、たとえば信号波形特性、トリグラム、ｎ−グラ
ム、あるいは文書となった言語の人工的な分割による言
語の分類はいずれも使用されない。本願発明において
は、語をコンピュータ文書から読み取り、関心の的とな
っている複数の言語から選択した語の所定のリストと比
較する。語リストは比較的少数の各言語でもっとも一般
的に使用される語を含んでいる。統計的にいうと、任意
の文書におけるすべての語のかなりの割合が、その言語
で使用されるもっとも一般的な語である。文書の言語ま
たはジャンルが、どの言語の語リストがその文書の語と
もっとも近い一致を示すかを判定するプロセスによって
特定される。

【０００８】親出願において、出願人等は一致の近さを
関心の的である言語またはジャンルにおけるリスト語の
出現の正規化した頻度の合計によって判定できることを
教示した。各言語の語リストおよびこれに関連づけられ
たリスト内での各語の出現頻度は、ワード・テーブルに
保管される。ワード・テーブルはそれぞれのアキュミュ
レータとリンクされており、アキュミュレータの値は入
力文書からの語がワード・テーブルの１つに収められて
いる共通語と一致するたびに増加する。このプロセスは
語の正規化された出現頻度を、ワード・テーブルで発見
された場合に、それぞれの言語に関連づけられたアキュ
ミュレータ内の現行の合計値に追加する。処理が停止し
た場合、特定された言語はもっとも値が大きいアキュミ
ュレータと関連づけられた言語となる。処理を停止でき
るのは、文書の末尾に到達した場合、あるいは蓄積され
た識別において所定の信頼度を達成した場合のいずれか
である。

【０００９】ただし、蓄積プロセスにおける重み付けが
あまり好ましくないこと、および候補となる自然言語の
各々における実際の出現頻度を確立することができ、し
かもワード・テーブルがアセンブルされたそれぞれの候
補言語の実質的に等しい適用範囲を有しているのであれ
ば、これを排除できることを本出願人は教示している。

【００１０】本願は自然言語判定のために語をカウント
するという基本発明を改良して、もっとも効率がよく、
迅速な態様で言語を特定できるようにするものである。

【００１１】

【発明が解決しようとする課題】したがって、本発明の
目的は、コンピュータに記憶された文書が書かれている
自然言語を、複数の候補言語からもっとも効率のよい態
様で特定することである。

【００１２】本発明の他の目的は、数種類の事前定義さ
れた自然言語のうちのどれで、所与のテキストの本文が
書かれているかを特定することである。

【００１３】本発明の他の目的は、きわめて迅速な機構
を提供することである。

【００１４】本発明の他の目的は、必要なメモリを最小
限とすることである。

【００１５】本発明の他の目的は、記憶されている語の
数にかかわりなく、必要なメモリが固定されることであ
る。

【００１６】

【課題を解決するための手段】これらおよびその他の目
的は、複数の候補言語の各々においてもっとも頻繁に使
用される語のセットを使用することにより、文書が書か
れている言語を特定することによって達成される。もっ
とも頻繁に使用される語の各セットは、もっとも頻繁に
使用される語の各セットにおける文字対にしたがって、
それぞれの候補言語に対するワード・テーブルのそれぞ
れのセットに記憶される。好ましい実施の形態におい
て、各ワード・テーブルはＮ×Ｎビットのテーブルであ
り、各ビットは候補言語の１つにおけるもっとも頻繁に
使用される語の１つの特定の場所での所与の文字対を表
している。文書からの語はワード・テーブルに記憶され
ているもっとも頻繁に使用される語と比較される。文書
からの語と、ワード・テーブルの各個別のセットに記憶
されている語との間のマッチ数のカウントが、各個別の
言語に対して維持される。文書の言語はマッチ数がもっ
とも大きいそれぞれの候補言語である。

【００１７】本発明による言語決定速度は、文書の言語
ないしジャンルを高い信頼性で判定するために読みとる
必要のある語が比較的少ないため、きわめて高速であ
る。すべての言語はソフトウェアの速度とは対照的に、
比例したハードウェア速度でハードウェアにおいて並列
に処理することができる。ハードウェア内で必要とされ
る基本動作ははるかに単純であり、それ故、ソフトウェ
アの同等物よりも本質的に高速である。

【００１８】さらに、本発明の利点は、対象となる各候
補言語用のワード・テーブルに収める必要がある語の数
がわずか、たとえば、２５−２００語だけであり、した
がって、実施時に各語を比較的少数の語に対してテスト
するだけで、信頼性の高い認識ができることである。ハ
ードウェアによる実施の形態においては、語間の比較は
行われない。各語はビット・テーブル（テーブルのセッ
ト）に対するアドレスとして使用され、アドレスは
「１」ビットを含んでいるか、含んでいないかのいずれ
かである。比較操作は存在しない。以下で検討するよう
に、各言語に対するワード頻度テーブルに選択される語
が、それぞれの言語における発生頻度の比例する割合を
カバーしていることが重要である。

【００１９】

【発明の実施の形態】本明細書において、「言語」とい
う用語は人間の意志疎通に使用される自然言語、すなわ
ち人間の言語、たとえば、英語、フランス語、スペイン
語、ドイツ語などを意味する。特許請求の範囲で使用さ
れる「言語」という用語は自然言語内の「ジャンル」に
も適用される。ジャンルは本明細書において、特定のコ
ンテキストにおける言語の使い方の特有なスタイルと定
義される。たとえば、英語におけるジャンルは技術文
献、商用文献、法律文献、医療文献、フィクション、そ
の他多くのものがある。それ故、ジャンルは符号化され
た文書に反映される、自然言語内でのさまざまなスタイ
ルおよび語の使い方の態様を含む同じ言語のさまざまな
変形に適用されるものであり、言語における標準的な語
の特有な使い方を含むことができ、また新しい語を言語
に追加することができる。ジャンルは特定な専門用語、
高地ドイツ語、低地ドイツ語、およびスイスドイツ語、
あるいはロンドン英語やニューヨーク英語などの言語の
方言を反映することができる。

【００２０】日本語、中国語および韓国語などの表意言
語は、コンピュータにおいて今日このような言語に使用
されている２バイト・コードなどの適切な内部コード化
表示を選択することにより、コンピュータ機構において
本発明によって処理することができる。それ故、本発明
の機構を、それぞれの言語に使用される人間に可読な印
刷記号に必要なアルファベットまたは語形式に関わりな
く、符号化された語を有している任意の言語に適用する
ことができる。

【００２１】ワード・テーブルの生成好ましい実施の形態の１つにおいて、ワード・テーブル
はそれぞれの候補言語からの語の大量のサンプルがカウ
ントされている学術的な著作を参照した結果である。ワ
ード・テーブルが構築されると、着信コンピュータ文書
の言語についての実際の判定を開始できる。語を記憶す
る特に好ましい方法の１つを、以下で開示する。

【００２２】参照することによって本明細書の一部とな
る米国特許願第０８／６９９４１２号はワード・テーブ
ルを導くことのできる多くの学術参考文献を記載してい
る。以下の表１はワード・テーブルに必要な語数が比較
的少ないものである理由を立証している。表１のデータ
はH. KuceraおよびW. N. Francisの「ComputationalAna
lysis of Present-day American English」、Brown Uni
versity Press（ロード・アイランド州プロビデンス）
１９６７年刊から取ったものである。この表は英語の文
書においてもっとも一般的な１２の語を「測定頻度」の
順で上から下へ並べたものである。「測定頻度」はきわ
めて多数の英文文書における総語数に対して決定した、
英語（の文書）で使用されている１００語あたりの各共
通語の平均カウントである。したがって、英文文書のテ
キストのそれぞれのサンプルからランダムに選択した語
がその特定の語である事例のパーセントである。「測定
頻度」は、本明細書で以前に使用した発生頻度と透過で
ある。表１の各「累積頻度」はその点から上の表内のす
べての語に対する「測定頻度」の合計である。たとえ
ば、２０．３０７という「累積頻度」が表１の「ｉｎ」
という語に示されており、英語でのもっとも頻繁に使用
される語（すなわち、表１の最初の６つの語：「ｔｈ
ｅ」、「ｏｆ」、「ａｎｄ」、「ｔｏ」、「ａ」、およ
び「ｉｎ」）を含んでいる複数の一般的な語を表してい
る。２０．３０７という「累積頻度」はしたがって、こ
れら６つの語に対する「測定頻度」を加算することによ
って導かれる。それ故、英文文書のテキストのそれぞれ
のサンプルにおいて、テキスト中のその後の約２０％
が、表１の最初の６語のうちの１つになる。少なくとも
２６％が表の１２語のうちの１つになる。それ故、比較
的少数の語がそれぞれのテキストの実質的な部分を表し
ている。同じような統計値を示している同様な表を他の
言語に対して構築することができる。

【００２３】

【００２４】上記の表１に示した言語の統計値は、ある
言語でもっとも一般的なものである語が言語の特定を行
うに当たりもっとも有用なものであることを示してい
る。ある言語における一般的な語とは、その言語で頻繁
に使用される語であると定義される。その結果、ある言
語からの一般的な語は本質的に文書による通信でみられ
るものであり、それ故、本発明のプロセスがこれらを見
いだすこととなる。

【００２５】ワード・テーブルにおける頻度を同等なも
のとする正規化その他の作業が必要であるが、これはサ
ンプル・サイズが言語の参考文献ごとに異なっていた
り、サンプル・サイズが未知であったり、あるいはサン
プルから取ったもっとも一般的な語のリストが異なる言
語の異なる累積量であったりするからである。各言語に
対して同じタイプの同じ量の情報がない場合、正規化が
よい考えである。候補言語のすべてに対して同等な情報
が利用できる場合には、正規化は必要ない。参照するこ
とにより本発明の一部となる上述の米国特許願第０８／
６９９４１２号は、ワード・テーブルを構築するのに使
用できる正規化技法を論じている。本発明は主としてワ
ード・テーブルが構築されてから、これを記憶し、使用
する改善された方法に関する。

【００２６】以下で詳述する好ましい記憶方法におい
て、親出願で使用されている「単純カウンティング」
は、候補言語を特定するために使用される。実際には、
この記憶方法においては、重み付けをここに記憶された
語と関連づけるのが困難である。

【００２７】言語内の語の実際の頻度がわかっている場
合に、所与の言語ないしジャンルにおいてもっとも頻繁
に生じるｎ個の語についてワード・テーブルを計算する
には、以下の方法を使用することができる。

【００２８】ステップ１：検討中の言語の各々における
もっとも一般的なｎ個の語の各々の総発生数を計算す
る。

【００２９】ステップ２：ワード頻度テーブルにおける
言語の各々に、もっとも頻繁に発生する語の各々を入
れ、語の各々に対して重み付けを１に設定する。

【００３０】それ故、単純カウンティング法における発
生頻度はワード・テーブルにワード・リストを設定し
て、各々における語が候補言語の各々のほぼ同等な有効
範囲を有しているようにするためだけに使用される。図
３は英語、イタリア語およびデンマーク語のワード・テ
ーブルの一部を示す。重み付け係数がテーブルに含まれ
ていないことに留意されたい。たとえば、英語において
は、約４０％の有効範囲を得るには４６語が適切であ
り、イタリア語においては、１４８語が必要である。

【００３１】上述した学術的な資料源の代替策として、
対象となる各言語またはジャンルにおける語に対する語
頻度を、本発明が使用される環境における大量の文書の
語をデータ処理システムにカウントさせることによっ
て、決定することができる。この手法は、しばしば生じ
ることのある、特定の環境が対象となる１つまたは複数
の言語における専門用語、または話し言葉を混ぜ合わせ
ている場合、あるいは同一言語における異なるジャンル
を区別しようとする場合に、リストされている資料源を
使用するよりも有用である。

【００３２】本発明の変形として、ワード・テーブルの
いずれかが、それぞれのテーブルの言語における使用頻
度が比較的低い同一言語に固有な語のサンプリングも含
んでいることができる。固有の語を使用することはジャ
ンルを区別するにあたり特に有用である。

【００３３】これらの言語統計値の全体的な効果は、候
補言語の各々におけるもっとも一般的な２５−２００語
を使用して、未知の言語の文書からの約１００−２００
語を検証することが、文書の言語を正確に判定するのに
通常十分なものであることである。一般的な場合に、本
出願人らはそれぞれのワード・テーブルにおける言語の
約４０％の有効範囲を達成することを試みた。これは通
常、２００語未満の選択した一般的な語によって達成で
きた。

【００３４】言語の特定本発明の好ましい実施の形態
は、周知のデータ処理システムで実行される新規なコン
ピュータ・プログラムの組合せである。あるいは、本発
明を特別な記憶ハードウェアで具体化されたテーブルを
操作する独立した比較器制御部を有する、特殊データ処
理ハードウェア（図示せず）で具体化することができ
る。本出願人らが単純なワード・カウンティング実施形
態と呼ぶ好ましい実施の形態においては、発生測定ない
しカウント頻度はテーブルを組み立てるのに使用される
が、累積のための重み付けとしては使用されない。以下
で説明するように、単純カウンティングの効果は、本出
願人らが当初提案した重み付け累積プロセスを、異なる
言語のアキュミュレータにおける処理によって構築され
た値が実際に、候補言語の各々のワード・テーブルでの
一般的なワードの発生数のカウントであるカウンティン
グ方法と置き換えることである。

【００３５】単純カウンティング法に関連した利点の中
には、比較的少量のテキストの単純なカウンティングに
よって必要とされるワード・リストが与えられるデータ
収集の単純化、ハードウェアおよびソフトウェアで方法
を実施するのが容易であること、ならびに正規化が必要
なくなることがある。ハードウェアにおけるカウンティ
ング、すなわち１つまたは複数の既定の条件の下での１
ずつの増分はコンピューティング・マシーンの基礎とな
るものである。

【００３６】図１は本発明の実施の形態をサポートする
一般的なシステム構成の全体的なブロック図である。こ
の図はシステム内のハードウェアまたはソフトウェア、
あるいはこれら両方で形成することのできる構成要素を
含んでいる。本発明はさまざまなオペレーティング・シ
ステムのもとで各種のコンピュータまたはコンピュータ
の集合体で動作できる。コンピュータは、たとえば、パ
ーソナル・コンピュータ、ミニ・コンピュータ、メイン
フレーム・コンピュータ、または他のコンピュータの分
散ネットワークで作動するコンピュータでよい。ＯＳ／
２Ｗａｒｐ３．０オペレーティング・システム上で動
作するＩＢＭＰＣシリーズのコンピュータを、本発明
において使用することができる。この場合も、ハードウ
ェア要件はきわめて控えめなものである。ハードウェア
による実施の形態は１６ＫＢ、おそらくはもっと少ない
メモリを備えたＩｎｔｅｌ８０８６プロセッサで実現
することができる。

【００３７】図１において、システム・ユニット１１
と、キーボード１２と、マウス１３と、表示装置１４を
備えているコンピュータ１０が、ブロック図の形式で示
されている。システム・ユニット１１はシステム・バス
または複数のシステム・バス２１を含んでおり、このバ
スには各種の構成要素が結合されており、かつこのバス
によって各種の構成要素の間の通信が達成される。マイ
クロプロセッサ２２がシステム・バス２１に接続されて
おり、かつ読取り専用メモリ（ＲＯＭ）２３によってサ
ポートされており、またランダム・アクセス・メモリ
（ＲＡＭ）２４もシステム・バス２１に接続されてい
る。ＲＯＭ２３は他のコードとともに、基本入出力シス
テム（ＢＩＯＳ）を含んでおり、これは対話などの基本
ハードウェア動作、ディスク装置およびキーボードを制
御する。ＲＡＭ２４はメイン・メモリであり、これにオ
ペレーティング・システムおよびアプリケーション・プ
ログラムがロードされる。メモリ管理チップ２５がシス
テム・バス２１に接続されており、ＲＡＭ２４とハード
・ディスク装置２６およびフロッピィ・ディスク装置２
７との間のデータの受け渡しを含む直接メモリ・アクセ
ス動作を制御する。システム・バス２１にも結合された
ＣＤＲＯＭ３２は、大量のデータ、たとえば、マルチ
メディア・プログラムまたはプレゼンテーションを記憶
するために使用される。

【００３８】このシステム・バス２１には、各種の入出
力コントローラ、すなわちキーボード・コントローラ２
８、マウス・コントローラ２９、ビデオ・コントローラ
３０、およびオーディオ・コントローラ３１も接続され
ている。考えられるとおり、キーボード・コントローラ
２８はキーボード１２用のハードウェア・インタフェー
スを備えており、マウス・コントローラ２９はマウス１
３用のハードウェア・インタフェースを備えており、ビ
デオ・コントローラ３０は表示装置１４用のハードウェ
ア・インタフェースであり、オーディオ・コントローラ
３１はスピーカ１５用のハードウェア・インタフェース
である。トークン・リング・アダプタなどの入出力コン
トローラ４０は他の同様な構成のデータ処理システムと
のネットワーク４６での通信を可能とする。

【００３９】本発明の好ましい実施の形態の１つは、ほ
ぼ上述のように構成された１つまたは複数のコンピュー
タ・システムのランダム・アクセス・メモリ２４に常駐
している命令のセット１０１−１０６である。コンピュ
ータ・システムが必要とするまで、命令のセットを他の
コンピュータ・メモリ、たとえばハード・ディスク装置
２６に、あるいはＣＤ−ＲＯＭ３２で最終的に使用する
ため光ディスクなどの取外し可能メモリに、あるいはフ
ロッピィ・ディスク装置２７で最終的に使用するために
フロッピィ・ディスクに記憶しておくことができる。プ
ログラムを他のコンピュータ・システムのメモリに記憶
して、希望する場合に、ネットワークで、あるいはイン
ターネットなどの外部ネットワークで送ることもでき
る。当分野の技術者には、命令セットの物理的記憶が、
これを記憶したり、電気的、磁気的、あるいは化学的に
伝送する媒体を物理的に変化させて、媒体がコンピュー
タ読取り可能情報を坦持するようにすることが理解でき
よう。

【００４０】本発明を命令、記号、文字などによって説
明するのが好適であるが、これらおよび類似の項目をす
べて、適切な物理的要素に関連づけなければならないこ
とを想起すべきである。さらに、本発明を人間の操作員
に関連づけられる比較、特定などの用語によって説明す
ることがしばしばある。人間の操作員による活動は、本
発明の一部を形成する、本明細書に記載する操作のいず
れにも望ましいものではなく、操作は他の電気信号を生
成する電気信号を処理する機械操作である。

【００４１】本明細書に記載するように、本発明はその
言語に使用される印刷記号に関係なく、アルファベット
を使用する任意の言語またはジャンルに適用される。コ
ンピュータ文書として、このような記号はすべて人間が
読み取ることのできる記号ではなく、２進コードとして
コンピュータ装置で処理される。

【００４２】ＲＡＭ２４内のデータおよび論理ブロック
を、ここで詳細に検討する。符号化データ入力が文書ソ
ース１０１から与えられる。この文書ソース１０１は人
間の言語を使用して生成される文書のテキストを著す符
号化文字を提供する。ＲＡＭに常駐する前に、文書ソー
ス１０１は文書のハード・コピーから符号化文字を読み
取る光学式文字読取り装置によって与えられる。あるい
は、文書ソース１０１は内部記憶装置、たとえば、シス
テムのフロッピィ・ディスク、磁気テープまたはコンパ
クト・ディスクに記憶された文書のソフト・コピーから
読み取られた符号化文字であってもよい。または、文書
ソース１０１はデータ処理システムへ、端末装置または
周辺装置の１つから文書を読み取る同様なシステムを使
用して遠隔ロケーションからネットワーク上を伝送され
る符号化文字として作成することもできる。

【００４３】ワード・テーブル１０２の各々は、ソース
文書１０１の言語として検出することのできるそれぞれ
の言語と関連づけられる。ワード・テーブルの構成は上
述したとおりである。純粋なカウンティング方法におい
ては、実際の発生頻度または正規化された発生頻度など
の重み付けはワード・テーブルには必要ない。テーブル
１０２によって表される特定の言語のセットを、本明細
書では対象言語または候補言語と呼ぶ。テーブル１０２
に表されていない言語は着信文書ソース１０１の言語と
して検出することはできない。

【００４４】ソース１０１からのテキストは可変長ワー
ド単位で比較器１０３に与えられる。ハードウェアによ
る実施の形態において、比較器はプロセッサの一部であ
る。比較器制御部１０３はソース１０１から受け取った
各可変長ワードを複数の言語ワード・テーブル１０２内
の語と比較する。以下の好ましい実施の形態で検討する
ように、異なる長さの語は異なるワード・テーブルに記
憶される。それ故、これらの実施の形態においては、同
じ長さの語だけを適切なワード・テーブル内の語と比較
するのが道理にかなっている。

【００４５】文書ソース１０１から受け取った各語は比
較器１０３によって、テーブル１０２の語と比較され
る。比較器１０３は入力文書ソースの各語と、ワード・
テーブル１０２から読み取ったテーブルの各語との間の
等しいまたは等しくない条件を判定する。すべてのテー
ブル１０２のすべての語が比較器１０３によって比較さ
れるまで、複数のワード・テーブル１０２の各々におけ
る語が走査される。

【００４６】単純カウンティングにおいては、文書から
の語がハード・テーブル内の語と一致した場合に、それ
ぞれの候補言語と関連づけられたアキュミュレータは、
１ずつ増分される。

【００４７】ソースの語の入力が停止された場合、比較
処理は停止する。これが生じるのは、文書ソース１０１
が現行文書の終わりに達するか、あるいは所定数の語に
達した場合、すなわち、最小数の語が文書ソース１０１
によって供給された場合、あるいはもっとも値が高いア
キュミュレータ１０４が所定量の係数だけ次のもっとも
値が高いアキュミュレータ１０４を越えた場合である。
これについては、ステップ２０５に関連して、以下で詳
細に検討する。

【００４８】比較処理が文書ソース１０１に対して停止
した場合、言語選択プロセス１０６がプロセッサ１０５
による照会を受ける。言語選択プロセス１０６はすべて
のアキュミュレータ１０４内のすべての蓄積値にアクセ
スし、もっとも高い値を含んでいるアキュミュレータが
どれであるかを判定する。

【００４９】もっとも高い値を含んでいるアキュミュレ
ータに関連づけられた言語が、言語セレクタ１０６によ
って、特定された言語として出力される。

【００５０】複数のアキュミュレータ１０４はそれぞ
れ、各言語のワード・テーブルと関連づけられている。
すなわち、各言語は関連するワード・テーブルと、少な
くとも１つの関連するアキュミュレータを有している。
それ故、これによって、アキュミュレータには各対象言
語が与えられる。関連づけられている言語は各アキュミ
ュレータと各ワード・テーブルとともに記録されてい
る。アキュミュレータはすべて初期化ステップ２０２に
よってゼロ値にリセットされてから、語が文書ソース１
０１から図１または図２のプロセスへ入力される。

【００５１】処理中に、各アキュミュレータは文書で見
いだされる各言語における共通語にしたがって増分され
る。単純カウンティング法において、アキュミュレータ
は共通語の純粋なカウントを含んでいる。

【００５２】重み付け環境および混合環境において、各
アキュミュレータは同一の言語に対する関連ワード・テ
ーブル内の共通語にマッチする、ソース文書内の共通語
の重み付けの合計を含んでいる。ソース文書内の語の、
いずれかのワード・テーブル内の語との各マッチについ
て、その語に対する、たとえば重み付け１が関連するア
キュミュレータ内のその言語に対する合計に加えられ
る。

【００５３】それ故、各アキュミュレータは関連するワ
ード・テーブル内でマッチを有している入力語に対する
マッチないし重み付けを総計する。マッチが生じるの
は、入力文書からのソース・ワードが、関連するワード
・テーブル内のワードと等しいと判断される場合であ
る。入力文書に対する読取りが終了した後、すべてのア
キュミュレータのうちもっとも高い値を有しているアキ
ュミュレータに割り当てられた言語は、プロセスによっ
て、文書の特定された言語として宣言される。

【００５４】図２の流れ図におけるプロセスは文書を処
理し、その言語を判定するステップの一般的な順序を示
している。このプロセスを独自の語の使い方を参照する
ことなく説明する。

【００５５】ステップ２０２、２０３、２０４、および
２０６の各々はデータ処理システム内のプロセッサの制
御のもとで動作する。ステップ２０２はデータ処理シス
テムの初期化を行い、対象言語に対してワード・テーブ
ルおよびアキュミュレータを使用して本発明を実行す
る。ステップ２０２はワード・テーブルとアキュミュレ
ータを、記憶媒体からシステム・メイン・メモリにロー
ドする。この記憶媒体上には、ワード・テーブルとアキ
ュミュレータがあらかじめ作成された後に記憶されてお
り、メイン・メモリ内のこれらのアドレスは、その実行
に使用するために図２のプロセスに渡される。このステ
ップはアキュミュレータをゼロ状態にセットすることも
行う。ステップ２０３は文書をその構成語、すなわち最
初の語および一連の後続の語に分解する。その言語が判
定されるソース文書からの各語は、ステップ２０４の比
較プロセスに転送される。最初の語は文書内の実際の最
初の語である必要はなく、ソース文書内のどこにあって
もよく、一般に、ソース文書内の非テキスト・データ語
の最初のテキスト・ワードである。非テキスト・データ
は一般に、図２のプロセスに与えられる一連のデータで
はスキップされる。

【００５６】ステップ２０４は各ソース・ワードをワー
ド・テーブル内の共通語と比較する。ステップ２０４は
単純カウンティング法の場合に１を、ワード・テーブル
に関連づけられたアキュミュレータの現行の合計に付け
加える。

【００５７】ステップ２０５は文書の処理を停止する時
期を決定する。これは以下の条件のいずれかが検出され
たときでよい。

【００５８】１．文書全体が読み取られ、すべての語が
ワード・テーブルと比較される。これは文書の終わり信
号を認識することにより、文書の大きさを知り、処理さ
れたテキストの量を追跡することにより、文書の終わり
を示すものとしての入力を受け取らない時間が経過した
ことを感知することにより、あるいはファイルの終わり
を報告するデータ処理システムのファイル処理サブシス
テムに依存することによって決定できる。

【００５９】２．文書からの所定数の語が処理される。
言語を判定するのには、１００語程度が必要なだけであ
ることが判明した。それ故、大きい文書のすべての語を
本発明によって読み取り、処理する必要がない。

【００６０】３．ある最小数の語が処理された後、最高
値のアキュミュレータと次の最高値のアキュミュレータ
の間の所定のファクタ、あるいは差が達成される。アキ
ュミュレータが分岐すると、文書全体が処理されたとき
に、付加的な処理によって次の最高値のアキュミュレー
タを他のアキュミュレータが超えることがきわめて起こ
りにくくなることが判明している。

【００６１】文書の終わりがステップ２０５によって感
知された後、ステップ２０６に入る。ステップ２０６は
すべてのアキュミュレータの値を比較し、もっとも大き
い値を有しているアキュミュレータを見つけだす。ステ
ップ２０６はもっとも大きい値を有しているアキュミュ
レータと関連づけられた言語フィールドの言語名コンテ
ンツを出力して、特定された言語を判定する。このプロ
セスの詳細は参照することによって本明細書の一部とな
る上記の米国特許第０８／６９９４１２号に記載されて
いる。

【００６２】自然言語判定のためのワード記憶テーブル上述のように、本発明は所与の単位のテキストが書かれ
ている自然言語、たとえば英語、フランス語、オランダ
語を特定することを目的として開示されている数種類の
手段に関する。詳細にいえば、認識すべき個々の文書の
各々における頻繁に生じる語の辞書を記憶するために使
用することのできる方法を開示する。

【００６３】この記憶方法の利点は、比較的小さく、一
定量のメモリに辞書の語を記憶できるところにある。記
憶サイズは辞書に追加される語数の関数として成長する
ことはない。すなわち、必要とされる記憶域を大きくす
ることなく、語をある程度辞書に追加することができ
る。ハードウェアによる実施形態の場合、本発明は語が
テーブルに記憶されているかどうかを判定するために、
単一サイクルのアクセスを提供する。記憶域要件のサイ
ズ不変性は、ハードウェアを付随的に増加させることな
く、辞書をある程度成長させることができるため、ハー
ドウェアによる実施形態にとって特に重要なものであ
る。これらの利点は本明細書で検討する特定のもの以外
の広い範囲の用途に、本記憶方法を有用なものとするも
のと考えられる。これらの用途のいくつかを以下で検討
する。

【００６４】本発明の重要な特徴の１つは、上記の利点
が達成される態様で語頻度テーブルが内部で表示される
ことである。

【００６５】語頻度テーブルを記憶する方法は、言語内
でもっとも一般的な語が使用されているものとして、十
分な識別を与えるものである。このような場合、検討対
象の言語の各々に関連づけられたワード・テーブルの各
々における各語に対して、「重み付け」を１．０という
一定値に設定されたものとして見なすことができ、ワー
ド・テーブルのアクセスは異なっている。実際には、ワ
ード・テーブルが本方法にしたがって記憶された場合
に、重み付けを使用することができる。異なる言語のア
キュミュレータにおける処理によって蓄積された値が、
検討対象の言語の各々に記憶された一般的な語の「マッ
チ」のカウントであるカウンティング方法を使用するこ
とができる。以下で検討するように、マッチの中には実
際にはエイリアス、すなわち検討対象の言語で生じる、
共通語以外の語であるものがある。

【００６６】本発明によれば、語記憶の基本単位はｎ×
ｎビットのテーブルであり、各ビットは検討対象の言語
の１つにおける語内の特定の位置にある所与の文字対を
表している。初期化以前の英語の基本テーブルは次のよ
うになる。

【００６７】好ましい実施の形態において、ブランク、
アポストロフィ、またはハイフンは文字とは見なされな
い。他の実施の形態において、状況によっては、これを
行うのが有用である。たとえば、外国語は特殊文字を大
幅に使用している。フランス語やイタリア語は英語に比
較してアポストロフィを多く使用する。ワード・テーブ
ルを使用して、異なる長さの語を記憶する場合、短い語
を記憶するには、ブランク文字が必要である。たとえ
ば、「ｉｎ」という語を３文字語のテーブルに記憶しよ
うという場合、ブランク文字が「ｉｎ」の後ろに挿入さ
れることになる。

【００６８】本記憶方法はハードウェアだけではなく、
ソフトウェアおよびファームウェアで実施することがで
きる。しかしながら、ほとんどバイト・ベースであっ
て、ビット・ベースではないため、ソフトウェアによる
実施の形態がハードウェアで可能な速度に近づくことは
疑問である。しかしながら、マイクロプロセッサ・シス
テムを使用した賢明な再使用可能なスレッドによれば、
可能であろう。

【００６９】ｎ文字の語を記憶するためには、このよう
なテーブルに次のものを使用する必要がある。（ｉ＝１ｔｏ（ｎ−１））ＳＩＧＭＡｉ、ｆｏｒ
ｎ＞＝２２文字の語を記憶するには、テーブルが１つ必要であ
る。３文字の語の記憶には、１＋２すなわち３つのテー
ブルが必要である。５文字の語を記憶するには、１０
（１＋２＋３＋４）のこのようなテーブルが必要であ
る。本出願人らは言語におけるもっとも一般的な語がも
っとも短いものであり、それ故、７文字以上の多くの共
通語がある言語がほとんどないことを認めた。

【００７０】しかしながら、共通語が長くなりがちな言
語、たとえばハワイ語がある。他の実施の形態において
は、語全体を記憶するのではなく、語の略語のみを記憶
する。略語はすべての語に対して一定、たとえば最初の
４ないし５文字であることが好ましい。たとえば、英語
においては、最初の９６語のもっとも一般的な語のう
ち、６文字以上の長さのものは「ｂｅｆｏｒｅ」と「ｔ
ｈｒｏｕｇｈ」の２つだけである。イタリア語の場合、
イタリア語の文書のほぼ４０％を表している１４８語の
もっとも一般的に生じる語のうち、１６語だけが６文字
であり、１語が７文字である。これらの語は次の通りで
ある。「ａｌｌｏｒａ」、「ａｎｃｏｒａ」、「ｅｓｓｅｒ
ｅ」、「ｇｉｏｒｎｏ」、「ｇｒａｎｄｅ」、「ｐｅｒ
ｃｈｅ＊」、「ｑｕａｎｄｏ」、「ｑｕａｎｔｏ」、
「ｑｕｅｌｌａ」、「ｑｕｅｌｌｅ」、「ｑｕｅｌｌ
ｏ」、「ｑｕｅｓｔａ」、「ｑｕｅｓｔｉ」、「ｑｕｅ
ｓｔｏ」、「ｓｅｍｐｒｅ」、「ｓｔｅｓｓｏ」、およ
び「ｑｕａｌｃｈｅ」＊は「ｐｅｒｃｈｅ」の最後の「ｅ」の上にアクセント
があり、端末で適正に表示されないことを意味する。

【００７１】最初の５文字だけを取り出すと、「ｑｕｅ
ｌｌａ」、「ｑｕｅｌｌｅ」および「ｑｕｅｌｌｏ」が
１語としてカウントされ、「ｑｕｅｓｔａ」、「ｑｕｅ
ｓｔｉ」および「ｑｕｅｓｔｏ」も同様となる。この形
態のエイリアシング（aliasing）は本発明では「弱いエ
イリアシング」と呼ばれるものであり、１つまたは複数
の語がワード記憶テーブル内で、同じ言語からの他の語
として見なされる場合である。弱いエイリアシングは本
発明では問題ではない。長い語は切りつめられ、システ
ムがある長さの語だけを取り入れるようにプログラムさ
れていない限り、同じ５文字を有するものとしてカウン
トされる。それ故、もっとも一般的な語ではない他の語
もカウントされる。「ｑｕｅｌｌａ」を「ｑｕｅｌｌ
ｅ」とカウントすることは、これが同じ言語に対してカ
ウントされている限り問題ではない。第２の種類のエイ
リアシングは強いエイリアシングと呼ばれるものであ
り、ある言語の語またはその略語がワード記憶テーブル
において、他の言語からの語と見なされると問題とな
る。たとえば、高い頻度の語「ｄａｓ」が候補言語１
（ドイツ語）で生じ、候補言語２（フランス語）のもの
と見なされた場合、候補言語２に対するワード・カウン
トは、「ｄａｓ」の強いエイリアシングにより、実際よ
りも大きく、間違ってバイアスがかけられる。

【００７２】辞書の語に対する強弱両方のエイリアシン
グは、ワード・テーブルを互いに対して処理し、正しく
ない合計について出力を検証することによって簡単に検
出される。候補言語１および２でｍ個の語、たとえば、
多くのインドヨーロッパ語にでてくる「ｉｎ」を共通と
しているのであれば、１の辞書を２用のリコグナイザ
（recognizer）によって処理した場合、ｍ個の語のカウ
ント、両方の言語に共通なものそのものが認識されるは
ずである。言語１用のリコグナイザによって処理した言
語２に対しても同じ結果が得られるはずである。結果が
ｍよりも大きい場合には、強いエイリアシングが生じて
いる。強いエイリアシングは、必要であれば、候補言語
に対する１つまたは複数のワード・テーブルからの１つ
また複数の語を除去することにより、排除することがで
きる。

【００７３】本発明のこの説明のための実施の形態は、
認識には５文字で十分であると想定している。長い語に
拡張できることは明らかである。５文字の語に必要な１
０のテーブルは、次のような表に配列されたものと見な
すことができる。Ｔ（１，２）Ｔ（２，３）Ｔ（３，４）Ｔ（４，５）Ｔ（１，３）Ｔ（２，４）Ｔ（３，５）Ｔ（１，４）Ｔ（２，５）Ｔ（１，５）

【００７４】英語用のワード・テーブルを初期化するた
めに、図４は異なる言語を識別するために使用される高
頻度の語の１つとして「ｔｈｅｒｅ」を使用した本発明
を示す。この場合、テーブルＴ（１，２）において、
「ｔ」と「ｈ」の交差部におけるビットを１にセットす
る。テーブルＴ（２，３）において、「ｈ」と「ｅ」の
交差部におけるビットを１にセットする。テーブルＴ
（３，４）において、「ｅ」と「ｒ」の交差部における
ビットが１に等しくなり、テーブルＴ（４，５）におい
て、「ｒ」と「ｅ」の交差部におけるビットが１に等し
くなるように、処理を続ける。これによって、５行のテ
ーブルの初期化が完了する。Ｔ（１，３）の「ｔ」と
「ｅ」の交差部におけるビットを１に、テーブルＴ
（２，４）の「ｈ」と「ｒ」の交差部におけるビットを
１にセットすることによって、処理を続ける。テーブル
Ｔ（３，５）の「ｅ」におけるビットを１にセットする
ことによって、処理を続ける。Ｔ（１，４）の「ｔ」と
「ｒ」の交差部におけるビットを１に、Ｔ（２，５）の
「ｈ」、「ｅ」におけるビットを１にセットすることに
よって、処理を続ける。最後に、テーブルＴ（１，５）
の「ｔ」、「ｅ」におけるビットを１にセットする。一
般に、語が順次１（１）なし１（５）の文字からなって
いる場合、文字対１（１）１（２）はＴ（１，２）に記
憶され、以下同様となる。

【００７５】この時点で、「ｔｈｅｒｅ］という語は、
設定のために選択されたビットがその語の配列されたす
べての「文字対」を表している１ビットのセットとして
５文字語のワード・テーブルに記憶されている。すなわ
ち、最初の行のテーブルは「ｔｈ」、「ｈｅ」、「ｅ
ｒ」、および「ｒｅ］を収めており、第２の行のテーブ
ルは「ｔｅ」、「ｈｒ」、および「ｅｅ」を収めてい
る。第３行のテーブルは「ｔｒ」および「ｈｅ」を収め
ており、最後の行のテーブルは「ｔｅ」を収めている。

【００７６】語を記憶するこの方法は語の文字の間の十
分な関係をもたらすため、テーブルに記憶されている語
だけが検証される。テーブルが過疎化されており、かつ
これらが開示した方法を使用している限り、テーブルで
適正に検証される５文字語だけが、所与の言語に入力さ
れているものとなる。ワード・テーブルを過疎化する指
針を以下で検討する。

【００７７】「ｔｈｅｎ」、「ｓｔｅｍ」および「ｓｈ
ｉｎ」が４文字語のワード・テーブルに記憶されている
場合、「ｓｈｅｎ」という英語の文書におけるミススペ
ルも検証され、弱いエイリアシングの一例となる。ミス
スペルによって生じる誤りは問題となるほど頻繁には生
じない。実際には、本方法は文書が書かれているし自然
語を判定するのに必要な語が比較的少ないものであると
して動作する。したがって、ミススペルの出現は言語内
の小さいセットの語に対するものとなる。テーブルの配
列が過密であった場合には、すなわち、ワード・テーブ
ル内に多くの語がある場合には、識別精度は下がること
となる。判定を希望する各候補言語に対してワード・テ
ーブルが作成された後、語のシーケンスが特定される言
語ないしジャンルを有する入力文書から１つずつ読み取
られる上述の方法が実行される。読み取られた各語はさ
まざまな語長に対するテーブルによって定義された適切
な文字対に分離され、各テーブルからの文字の対の各々
の交差部に記憶されたビットが、テーブルから読み出さ
れる。これは候補言語の各々に対して行われる。文書内
の５文字語の場合、これによって検討対象の言語のすべ
てに対して何者でもない語を表す１０ビットのセットが
もたらされる。この１０ビットはまとめてＡＮＤされ、
結果が所与の言語に対して１である場合には、その語は
その言語に対するテーブルに記憶される。同様に、１０
ビットをＡＮＤしたことによって、０となった場合に
は、入力語はその言語に対するテーブルには記憶されな
い。

【００７８】代替の実施の形態において、プロセスはす
べてのビットをまとめてＡＮＤするのではなく、文書の
語からの文字対がワード・テーブルに記憶されているビ
ット数をカウントするだけである。代替の実施の形態は
ビットをまとめてＡＮＤする場合ほど高い識別を与える
ものではないが、いくつかの文字対が異なる言語では高
い頻度で生じるものであるため、文書の言語の特定に成
功することができる。たとえば、「ｉｊ」はオランダ語
においては、多くのさまざまな語で生じるきわめて一般
的な文字対である。

【００７９】問題の言語の文書から語を取り出すプロセ
スはテーブルからの値を所与の候補言語に対して判定
し、これを合計に加えるものであって、次の停止条件の
１つが達成されるまで繰り返される。まず、文書内のす
べての語が調べられた場合、プロセスは停止する。第２
に、文書内の十分な語、すなわち１００語程度が調べら
れた場合に停止する。第３に、プロセスはアキュミュレ
ータ内の合計の１つの値が所定の閾値を超えた場合に、
カウンティングを停止することができる。第４に、プロ
セスはカウンタが十分に発散した場合、たとえばもっと
も大きい合計と次に大きい合計との差が所定の閾値を超
えた場合に、停止することができる。停止規則のどれが
満たされたかに関わりなく、もっとも大きい言語の合計
を選択して、その文書に対してもっとも可能性が高い言
語を示す。特定が成功するかどうかは、１つまたは複数
のワード・テーブルとのある数のマッチに達したかどう
かによって決定される。換言すると、特定プロセスはあ
る数のヒットが登録されない限り、不定であると見なさ
れる。候補言語に対する語がビットのセットとしてまと
めて記憶できることは驚くべきものと思われるかもしれ
ないが、文字の異なる順列とのエイリアシングの可能性
がある場合、本出願人らは過疎化の要件が満たされる限
り、本発明の記憶方法が適正に動作すると判断した。

【００８０】本発明において、必要な記憶域が一定とな
り、特にハードウェアによる実施形態において、アクセ
ス時間をきわめて短くすることができるように、ワード
・テーブルが記憶される。本記憶方法はこの特定の用途
以外のものに広く適用できるものと考えられる。

【００８１】エイリアシングアメリカ英語のもっとも頻度の高い４０％のものに対す
るすべてのテーブルを、４文字語のテーブルに記憶され
ているすべての語を使用して構築した。本出願人らは、
代替の実施の形態が異なる長さの語を記憶するために別
の表を使用し、テーブルの母集団がより疎となるように
しているため、これが最悪の場合であることに注目し
た。表２および表３を以下に示す。表２の列はビットを
関連するテーブルにセットすることになる文字対を含ん
でおり、Ｔ１２は最初と２番目の文字のテーブルであ
り、Ｔ２３は２番目と３番目の文字のテーブルであり、
以下同様である。「＊」はブランク文字を示すために使
用する。

【００８２】１ないし５文字のすべての語がテーブルに
入れられている。部分的な語または切りつめられた語を
６文字以上の共通語に使用する。各語長に対する複数の
テーブルのセットではなく、単一のテーブル・セットを
使用する。これは好ましい実施の形態について上記で説
明したものよりも単純なシステムであるが、当初開示し
た方法ははるかに良好な挙動を示すものである。すなわ
ち、エイリアスが少ない。

【００８３】

【００８４】表２のこのデータ・セットは４文字語に対
する６つのテーブルに、アメリカ英語の語の上位４０％
をロードすることによって得られたものである。このよ
うな語は４７語ある。ロードに引き続き、合計６３の
「語」、すなわち文字ストリングが検証される。語の検
証は入力されている４７語に加えて、下記の表３におい
てＡＬＩＡＳという見出しの下に列挙されている以下の
語に対するものを含んでいる。他の列の先頭に列挙され
ている３つの語が入力から抜けている場合には、エイリ
アスの数は表３に示すように少なくなる。

【００８５】この語が抜けると、次のものが残るＡＬＩＡＳＢＥＥＮＷＯＵＬＤＡＲＥ −−−−− −−−− −−−−− −−− ａｎｅａｎｅａｎｅａｒａｒａｒｂｅｅｆｒｏｆｒｏｆｒｏｆｒｏｏｒｅｏｒｅｏｒｅｗｅｅｗｅｅｎｗｅｒｗｅｒｗｅｒｗｅｒｗｈｅｗｈｅｗｈｅｗｈｅｗｉｌｗｉｌｗｉｌｗｉｌｗｉｓｗｉｓｗｉｓｗｉｓｗｉｔｗｉｔｗｉｔｗｉｔｗｏｗｏｗｏｒｗｏｒｗｏｔｗｏｔｗｏｕｗｏｕ

【００８６】この表はワード・テーブルに記憶されてい
る語の単純な調整によって、ほとんどの弱いエイリアス
を排除でき、部分語またはテーブルの単一のセットを使
用することを放棄する必要がないことを示している。強
い条件、すなわち語全体を使用することは保持されたま
まであり、大きいテーブル・セットの方がよい。理由は
以下の通りである。

【００８７】５文字語のテーブルの独立したセットを有
している好ましい実施の形態において、５文字語「ｗｏ
ｕｌｄ」は４文字のテーブルにロードされない。したが
って、「ｗｏ」から始まるエイリアスが生じることはな
い。３文字語「ａｒｅ」は「ａｎｅ」、「ａｒ」および
「ｏｒｅ」というエイリアスを生じる語である。この場
合も、テーブルのフル・セットのもとでは、３文字語
「ａｒｅ」が２文字語および４文字語と混同されること
がないため、この状況が生じることはない。最後に、語
「ｂｅｅｎ」は「ｂｅｅ」、「ｗｅｅ」および「ｗｅｅ
ｎ」というエイリアスを生じる。これらの語の各々は実
際に英語の語であり、したがって弱いエイリアスである
が、これらは「ｂｅｅｎ」を抜くことによって排除でき
る。これは生成された弱いエイリアスがしばしば語その
ものであることを実証している。本出願人らは言語の共
通語がその言語における共通した文字パターンによって
構成されていることを認めた。これらの共通文字パター
ンは組み合わさって、その言語の他の語を作り上げる傾
向がある。

【００８８】言語の上位４０％の語のうちの若干が抜け
ることは重要なことではない。上記のデータから、「ｂ
ｅｅｎ」を抜くと、有効範囲が３９．８％（０．２％の
低下）となり、「ｗｏｕｌｄ」を抜くと、有効範囲がさ
らに０．３％低下し、「ａｒｅ」を抜くと、有効範囲が
３９．１％になる。希望する場合には、残っている４４
の語にわずかに語を追加することによって、有効範囲を
あげることもできる。

【００８９】他のエイリアス「ｆｒｏ」、「ｗｅｒ」、
「ｗｈｅ」、「ｗｉｌ」。「ｗｉｓ」および「ｗｉｔ」
は、単一セットのテーブルを使用することによって得ら
れるものであり、頻繁に生じる語、たとえば「ｆｒｏ
ｍ」あるいは２つの語、たとえば「ｗｉｔｈ」および
「ｗｉｌｌ」を除去せずに排除することはできない。こ
の分析からいくつかの結論が導かれる。

【００９０】まず、４文字の場合の部分語と単一セット
のテーブルは機能することができる。「ｗｏ」を除き、
弱いエイリアスはいずれもどのゲルマン系言語、すなわ
ちドイツ語、デンマーク語またはオランダ語における共
通の強いエイリアスではない。本出願人らがエイリアス
がどれも他の言語で生じることがないと結論しているの
ではなく、候補言語の特定のセットの上位４０％に生じ
るとだけ結論していることに留意されたい。それ故、英
語へのゲルマン系言語の強いエイリアシングの危険はほ
とんどない。候補言語の他のセットは、他の共通語をワ
ード・テーブルから抜いて、強いエイリアシングを最小
限のものとすることを必要とすることがある。すべての
語長に対してテーブル・セット全体を使用すると、多く
のエイリアスが排除される。さらに、強いエイリアシン
グが比較的頻度が低いものである限り、何らかの強いエ
イリアシングが生じたとしても、本発明は文書の言語を
適切に特定する。

【００９１】第２に、このデータによって、２７×２７
ビットのテーブルを使用した場合、すなわち２６文字と
ともにブランクを使えるようにした場合、テーブルあた
り５４の１ビットは十分疎いものとなる。もっとも密度
の高いテーブル（Ｔ１３）は５４の文字対を有してお
り、パフォーマンスは受け入れられるものとなる。２７
×２７すなわち７２９からの５４の１ビットにより７．
４％のパーセント・セットが得られる。特定のテーブル
内のビットの７．５％以下がセットされている場合、シ
ステムの動作が満足のいくものとなるといってもよい。
実際には、安全な動作限度は数パーセント高いものとな
ろう。

【００９２】第３に、ゲルマン系言語によるこれらの結
果に基づくと、テーブルが疎のままであることを条件と
して、強いエイリアシングが問題となる可能性は低い。
弱いエイリアスからわかるように、発生するあらゆるエ
イリアシングが、特性が異なる言語よりも所与の言語の
ものとほとんどマッチしない「語」を生じる可能性があ
る。振り返ってみると、単一文字および連字の頻度が言
語ごとに変化することがわかっているため、この結果は
予想されるものである。非隣接文字で構成された文字グ
ループへの拡張も、基礎となる単一文字および連字の頻
度によって左右される。簡単にいえば、高頻度の語がワ
ード・テーブルに使用されている場合、強いエイリアシ
ングの可能性は低くなる。

【００９３】以下で説明するように、同等のワード・テ
ーブルと検証リストを使用した第２の研究をフランス語
に関して行った。主として上位４０％のフランス語の語
における文字および文字の組合せの使われ方が、英語に
比較して限定されていることにより、この結果は英語の
場合よりもよいものである。英語、特にアメリカ英語
は、歴史的にフランス語よりも多くの語源から取られて
いる。このように広範囲に取られていることにより、多
くの他の言語よりも文字の組合せにおける発散が大きく
なっている。

【００９４】エイリアシングが少ない第２の若干重要で
はない理由は、フランス語のアルファベットが多いこと
である。２６文字しか使われていないが（「ｋ」および
「ｚ」の語は本質的に、すべて他の言語から借りてきた
ものである）、４つのアクセント記号が異なる文字とと
もに使用されており、有効記号セットは３３文字になっ
ている。

【００９５】いずれにせよ、下記の表４に示すように、
エイリアスの数は４つにすぎずないが、これらのうち２
つはドイツ語の「ｄａｓ」とスペイン語およびポルトガ
ル語の「ｅｌ」という強いエイリアスである。「Ｄａ」
もロシア語との対エイリアスになる可能性がある。これ
らは表５に示した語を抜くことによって、簡単に排除さ
れる。

【００９６】表４ＷＯＲＤＳＴ１２Ｔ２３Ｔ３４Ｔ１３Ｔ２４Ｔ１４ −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− ａ＄＊＊＊＊＊＄＊＊＊＄＊ａ＊ａ＊ ’＊ ’＊ａ＊ ’＊ｃ＊ａｕａｕａ＊ｅ＊ｃ＊ａ＊ｄ＊ｃ’ ｃ’ ａｎｉ＊ｄ＊ａｓｄｓｃｅｃｅａｓｌｅｄｎｅ＊ｅ＊ｄ’ ｄ’ ｅ＊ｎｓｄｓｌ＊ｅｅｄａｎｓｄａｅｓｓ＊ｅ＊ｌｅｉ＊ｄｅｄｅｌ＊ｔ＊ｅｌｌｓｊ＊ｄｅｓｄｕｌｌｕｒｅｔｎ＊ｌ＊ｄｕｅｌｌｕｕｓｉ＊ｏｒｎ＊ｅｌｌｅｅｎｎ＊ｊ＊ｏｓｎｓｅｎｅｓｎｅｌ＊ｓ＊ｏ＊ｅｓｔｅｔｏｕｌｓｔ＊ｐ＊ｅｔｉｌｓｔｎ＊ｕ＊ｐｒｉｌｊｅｔ＊ｎｕｐｓｊｅｌ’ ｕ＊ｏ＊ｑ＊ｌ’ ｌａｕ’ ｐｓｓ＊ｌａｌｅｕｅｐｕｕ＊ｌｅｎ’ ｕｉｑ’ ｖｓｌｅｓｎｅｑｅｎ’ ｎｏｑｉｎｅｏｎｓ＊ｎｏｕｓｐａｕ＊ｏｎｐｌｕｅｐａｓｐｏｖｕｐｌｕｓｑｕｐｏｕｒｓｅｑｕ’ ｕｎｑｕｅｖｏｑｕｉフランス語の上位４０％の語ｓｅ＊＝ブランクｕｎ＄＝アクセント付きｕｎｅｖｏｕｓ

【００９７】下記の表５に示されている語を抜くと、フ
ランス語の有効範囲が約４．９％下がり、３６．１％に
なる。これは他の共通語を選択して、言語の有効範囲を
ワード・テーブルと等しいものにするのに十分大きな割
合である。総使用カウントが８５８９である語を追加す
れば、正確に４０％の有効範囲が達成される。このよう
な追加の候補は「ｐａｒ」（カウント−２４９１）、
「ｍｅ」（２３２５）、「ｍａｉｓ」（２２５１）、
「ｓｕｒ」（２１１２）、「ｔｏｕｔ」（１７７２）な
どである。しかしながら、カウントが１７８２の「ｓ
ｉ」という語はスペイン語からの強いエイリアスである
から、選択肢としては貧弱なものである。簡単にチェッ
クしたところ、「ｐａｒ」と「ｍｅ」を追加すると、付
加的なエイリアスが生じることがなく、有効範囲が３８
％まであがることが判明した。この場合も、本出願人ら
はエイリアシングがフランス語では問題とならないとの
結論を下した。さらに、エイリアシングが問題となる言
語が存在している場合に、共通語を選択することによ
り、エイリアシングを少なくしたり、排除したりするこ
とができる。

【００９８】表５この語が抜けると、次のものが残る。ＡＬＩＡＳＤＡＮＳＥＬＬＥＰＯＵＲ −−−−−− −−−− −−−− −−−− ｄａｄａｓｅｌｅｌｐｏｕｓｐｏｕｓｐｏｕｓ

【００９９】上述したような語記憶方法を、言語の特定
以外の他の用途に使用することができる。たとえば、テ
ーブルに上述のようにして、保証が付いているナンバー
・プレートをロードすることができる。警察用の手持ち
電卓により、警官はナンバー・プレート、たとえば「Ｔ
ＲＣ−０４Ｂ」を入力することができるようになり、マ
ッチが得られれば、その車はそのナンバー・プレートに
対して保証されていることとなる。パスポート検査を同
様にして、税関で行うことができる。

【０１００】本発明を次のような状況でも使用すること
ができる。２５人の人がプリンタ室などの共有リソース
にアクセスしたが、セキュリティ上の理由で、同じパス
ワード、すなわち暗号キーを共有できないものとする。
それぞれの人に独自の６文字（または、それ以上の文字
数）のアルファベット／数字キーが与えられ、各々がテ
ーブルに記憶されているものとする。有効なキーが検証
され、リソースへのアクセスが認められる。カウントを
簡単に行い、誰がリソースを使用しているのかを追跡す
ることができる。ユーザはキーを決して共有してはなら
ない。それぞれの人に独自のキーを与えるが、必要な記
憶域が一定量である「バッジ・アクセス」用の磁気スト
リップに、キーを符号化することもできる。

【０１０１】最後に、本発明は暴力的な攻撃の出力を選
別する暗号用途に使用することができる。５００字の暗
号を試行キーによって繰り返し「解読」したものとす
る。「海事」ジャンル、たとえば「ｓｈｉｐ」、「ｏｃ
ｅａｎ」などがロードされた本装置に、この結果を通し
たとする。カウントが高い場合、試行した解読を人に渡
して、検討させる。キーすなわち密接なマッチを見つけ
だすことができる。それ以外の場合には、放棄して、次
のキーを試みる。

【０１０２】専用ハードウェア本節では処理時間を最短化することのできるような、ハ
ードウェアにおけるコンピュータ文書の言語を特定する
手段について説明する。すなわち、プロセスの主要部分
をハードウェアにおいて真の並列処理によって実行する
か、十分並列化されたプロセッサ・インプリメンテーシ
ョンで実行するかするようにする。上述のワード・テー
ブル記憶方法の妥当なファームウェアまたはソフトウェ
アによる実施態様もきわめて高速であり、必要なデータ
記憶域の量が少ない。

【０１０３】本発明は上述のようなワード・テーブルの
内部表示を提供して、所与の入力語がワード・テーブル
の１つに含まれているか、いないかの判定を１語あたり
１機械サイクルで行えるようにする。ワード・テーブル
の表示は、他の方法では得られない速度を可能とする。
さらに、本発明を「パイプライン化」して、入力語が複
数の言語に関して並列に処理されるだけでなく、任意の
時点で、複数の語が処理の異なる段階にあるようにする
ことができる。

【０１０４】要約すると、本発明は候補言語のあらかじ
め選択されたセットから、所与の本文が書かれている自
然言語を判定する。検討対象の言語の各々に対する語統
計値のセットを取得して、ワード・テーブルを作成しな
ければならない。上記で検討したように、本質的にすべ
ての対象事例に対して、統計値がすでに存在している。
この場合、本方法は文書から１度に１つずつ語を取得
し、これらの語がどの言語に属しているかを判定し、か
つ、文書全体について、結果として、マッチがもっとも
多い言語を選択することからなっている。このハードウ
ェアによる実施の形態の価値は、ソフトウェアまたはフ
ァームウェアの実施態様に比べてパフォーマンスが改善
され、特定プロセスが単純化されることである。この改
善はワード記憶テーブルの内部表示、およびプロセスを
並列に実行し、パイプライン化できるサポート・ハード
ウェアによるものである。

【０１０５】本発明は少なくとも２つの重要な態様にお
いて、従来の技術とは異なっている。まず、本発明はあ
る語が同時に数種類の言語の一部であるか、否かのきわ
めて高速で、並列な検証を可能とする、上述の新規なデ
ータ表示手法を使用する。第２に、基礎となるプロセス
が単純化されて、値の蓄積が辞書の語の実際の発生に基
づいている（あるいは、基づいていない）ようにする。
これに関して、プロセスとハードウェアによる実施態様
はワード・テーブル内の語に対して、正規化され、重み
の付けられた値ではなく、単純なカウンティングを使用
する。

【０１０６】この例示のための実施の形態において、完
全並列ハードウェア実施形態を説明する。並列の実施態
様とシリアルの実施態様の違いを、以下で検討する。８
つの言語を想定した完全に並列な実施態様を説明する。
言語数がより少なくより小規模な実施形態と同様、より
多くの言語への拡張は自明であろう。最良なパフォーマ
ンスを得るために、各言語に対して１セットのハードウ
ェアがある。これによって、対象テキストを１回通し、
その単一のパスの間にすべての言語に対する判定を行う
ことができる。言語の数が利用可能なハードウェアの数
を超えた場合には、文書をさらに通すとともに、ハード
ウェアを初期化することが必要となる。

【０１０７】基本的なハードウェアは０列に検証される
言語の各々に１つの、一連のテーブル・アクセス・レジ
スタ（ＴＡＲ）２００と、各言語のための１連のワード
・テーブル２０／（ＷＳＴ）と、各言語のためのワード
・カウント・レジスタ（ＷＣＲ）２０３とからなってい
る。サポート・ハードウェアはＡＮＤ２０５と、加算器
２０７を含んでいる。単一の言語に対する基本構成を図
５に示す。

【０１０８】図示のハードウェアは単一の言語のための
ものであり、ワード・テーブルは４文字という語長に対
するものである。好ましい実施の形態における上述のよ
うな他の語長の場合、２文字、３文字、５文字および６
文字の語には、もっと小さかったり、もっと大きかった
りするワード・テーブル表が必要である。８つの候補言
語に対して、異なる長さの語に対する５語の表の各々が
複写されることとなる。以下の表６は言語および語長ご
とに必要とされるハードウェアを示す。図６はテーブル
の表が図において単純化されている単一言語に必要なハ
ードウェアの他のハードウェアブロック図を示す。

【０１０９】

【表１】

【０１１０】図７に示した１セットのハードウェアが最
終的な言語の選択に必要である。これはどのワード・カ
ウント・レジスタ２０３（ＷＣＲ）がもっとも大きい値
を有しているかを判定するために使用される比較器２１
３である。各種のレジスタの値を比較するための比較
器、文書の語の長さを判定するための長さ判定器、およ
び部分語実施形態において文書の語を切りつめるトラン
ケータはすべて、ほとんどのハードウェア設計言語の標
準マクロとして利用できるものである。特定の数のＡＮ
Ｄゲートやゲートなどはハードウェア設計言語によって
変動するものであり、また特定の実施の形態の入出力の
数によって変動するものである。

【０１１１】語は上述のハードウェアによる実施の形態
においては、ワード記憶テーブル部に記憶するのが好ま
しい。ワード・テーブルはコンテンツ・アクセス可能メ
モリを使用することもできる。しかしながら、これは比
較的高価なものであり、コンテンツ・アクセス可能メモ
リをより多くの語を付け加えるために大きくする必要が
あるのが普通である。

【０１１２】ワード記憶域の基本単位はｎ×ｎビットの
テーブルであり、各ビットは検討対象の言語の１つにお
ける所与の文字対を表している。上記で検討したよう
に、５文字の語を記憶するには、このようなテーブルを
１０個使用する必要がある。テーブルは２文字から５文
字までの長さのすべての語に使用することができるが、
速度を上げるために、所与の各語長がテーブルのそれ自
身のセットに割り当てられる。

【０１１３】装置およびアルゴリズムの観点から、記憶
される語と文書から取り出される語の両方を、同じ長さ
の語に切りつめることができる。切りつめがプロセスに
影響を及ぼすことはない。「部分語」の検討において、
以下で説明するように、語の切りつめは実際には識別を
改善する。

【０１１４】語の配列された「文字対」を表すビットの
セットとして語を記憶することは語の文字の間の十分な
関係を与えるものであり、語の検証中のエイリアシング
を最小のものとする。上述のように、すべての実用上の
目的で、テーブルが過疎化されている限り、テーブル内
で適正に検証される５文字の語だけが所与の言語に対し
て入力されているものとなる。テーブルの配列を過剰な
ものとできるのであれば、識別精度は低下する。

【０１１５】判定を希望する各言語に対してテーブルを
作成した後、検討対象の文書からの、適切に区切られた
文字ストリングを読み取ることによって、プロセスは継
続する。装置およびアルゴリズムの観点から、記憶する
語および文書から取り出される語の両方を同じ長さに単
純に切りつめることが行われる。切りつめは識別を実際
に改善する「部分語」に関する検討以外には、何の関係
もない。語長がテーブルを構築した長さの１つとマッチ
している場合には、すなわち、通常は２ないし６文字で
あるが、変更することもできる場合には、語すなわち文
字ストリングがワード・テーブルにアクセスするため適
切な長さの専用レジスタ、たとえばテーブル・アクセス
・レジスタ（ＴＡＲ）２００にロードされる。レジスタ
の各バイトが関連する表２０１内のテーブルのいくつか
に対するアドレス指定を行うように、ＴＡＲは構成され
る。たとえば、４文字ＴＡＲすなわち４バイト／文字ワ
ードのＴＡＲの最初のバイトは、表形式のテーブルＴ
（１，２）、Ｔ（１，３）およびＴ（１，４）に行アド
レスを与える。これに対応して、４文字語用のＴＡＲの
第２のバイトはＴ（２，３）およびＴ（２，４）の行ア
ドレス、ならびにＴ（１，２）の列アドレスを与える。

【０１１６】ＴＡＲの他のバイトは必要とされる他のア
ドレス指定を行う。下記の表７はＴＡＲバイトごとの４
バイトＴＡＲ全体に対するアドレス指定を示す。

【０１１７】

【表２】

【０１１８】他の実施の形態においては、言語あたり単
一のＴＡＲで十分である。未使用のアドレス指定線は問
題ではなく、したがって６バイトＴＡＲ内の４バイト語
は論理的に申し分のないものである。しかしながら、こ
れはアドレス線のファン・アウトを大きくすることを必
要とし、そのため、好ましい実施の形態では、さまざま
な長さレジスタが開示されている。技術上大きなファン
・アウトを行える場合には、ＴＡＲの数を減らすことが
できる。

【０１１９】４バイトに対するＴＡＲアドレスを使用す
ると、結果Ｒに対する下記の論理式が計算される（ただ
し、ＡＮＤは論理ＡＮＤ演算である）。Ｒ＝Ｔ（１、２）ＡＮＤＴ（２、３）ＡＮＤＴ
（３、４）ＡＮＤＴ（１、３）ＡＮＤＴ（２、４）
ＡＮＤＴ（１、４）結果Ｒが１である場合には、４バイトＴＡＲに現在保持
されている４文字が所与の言語における語として認識さ
れる。結果Ｒがゼロである場合には、文字はこの言語に
おける語として認識されない。所与の言語において認識
された語数の合計を維持するためには、Ｒをその言語の
現行の合計に加えるだけでよい。ＴＡＲの内容が言語の
語として認識されなかった場合には、Ｒはゼロであり、
これを言語の合計に加えることはその言語の合計を増加
させない。

【０１２０】上述したように、問題の文書から語を取り
出し、その値を判定し、合計に加えるこのプロセスは、
停止条件の１つが達成されるまで繰り返される。第１
に、文書内のすべての語が調べられた。第２に、文書内
の十分な語が調べられた。第３に、合計の１つの値が所
定の閾値を超えた。第４に、もっとも大きい合計と次に
大きい合計の差または比率が所定の閾値を超えた。停止
規則のどれが満たされたかに関わりなく、もっとも大き
い言語の合計が、その言語に対してもっとも可能性の高
い言語を示すために選択される。２つ以上の合計が同一
である場合には、この文書に対して正確な判定を行えな
いことがある。回復活動を行うことができる。これらに
ついては以前の研究で説明されており、個々では繰り返
さない。

【０１２１】「ワード・カウント」と呼ばれ、候補言語
の各々について個別に計算される合計を正確に定義する
と、それぞれのＲ値の取り出されたすべての語に対する
合計である。すなわち、以下の通りとなる。ＷＯＲＤＣＯＵＮＴ＝（ｉ＝１）ＳＩＧＭＡ（ｉ＝ｎ）
Ｒ（ｉ）各言語に対するワード・カウントは完全に並列な実施形
態においてその言語に対する個別のレジスタに蓄積され
る。すべての語が調べられると、どの言語のカウントが
もっとも大きいかを判断するために、比較器が使用さ
れ、その言語が文書のもっとも可能性の高い自然言語と
して選択される。

【０１２２】本文の言語の判定についての処理には、次
のステップがある。

【０１２３】ステップ１。長さがＴＡＲに適合するもっ
とも大きいもの以下である、検討対象の文書からの語を
選択し、適切な長さのＴＡＲにロードする。部分語の実
施態様においては、語を使用する長さに切りつめる。

【０１２４】ステップ２。ＴＡＲ内の語の文字を、上述
の組合せで使用して、検討対象のすべての言語に対する
適切なワード・テーブルの各々における単一のビットに
アクセスする。

【０１２５】ステップ３。アクセスされたワード・テー
ブルのビット出力をまとめてＡＮＤし、言語の各々に対
する結果ビットＲを作成する。

【０１２６】ステップ４。該当する言語のＷＣＲの合計
をその言語に対する結果ビットに加え、ＷＣＲに記憶す
る。

【０１２７】ステップ５。すべての語が処理されたか、
あるいは他の停止条件に達した場合には、ＷＣＲの内容
を比較器に提示する。比較器はもっとも大きい値を判定
し、対応する言語をその文書のもっとも可能性の高い言
語として通知する。

【０１２８】このプロセスを終了し、どの言語を通知す
べきかを判定するのには、いくつかの異なる方法があ
る。これらについては、上記の停止条件のところで検討
した。閾条件を検出するには若干異なるハードウェアが
必要であるが、その相違は自明のものであり、詳細に検
討しないことに留意されたい。たとえば、アキュミュレ
ータの１つにおける最大値は、一連の比較と比較ハード
ウェアを必要とする。閾値を使用して、ある値が他のも
のすべてを一定量超えた場合、継続した監視が必要であ
り、これはレジスタの特定の位置において「１」ビット
をトリガすることによって簡単に提供される。

【０１２９】一般に、多くの言語の文字数が２６文字を
超えているから、テーブルが２６×２６よりも大きい必
要があることに留意されたい。日本語のように「アルフ
ァベット」がきわめて多い言語の処理は、各言語が２５
６×２５６ビット未満の単一のテーブルを有しており、
各表意文字やカタカナなどの他の言語記号が個別に割り
当てられている異なるパターンのワード・テーブルを使
用するともっともよいものとなる。

【０１３０】この場合、言語は２「文字」語だけで構成
されており、ＤＢＣＳ表示の最初のバイトが最初の「文
字」であり、第２のバイトが「第２」の文字であると見
なすことができる。この場合、すべての語が２文字であ
るため単一のテーブルの「表」が使用され、ハードウェ
アは大幅に少なくなる。現時点で、この代替策を必要と
する言語は４つしかないが、すべてがきわめて重要なも
のである。これらは日本語と韓国語、および中国語の２
種類の異形、すなわちＰＲＣ異形（簡体）とＲＯＣ異形
（繁体）である。すべての言語にわたってビットの必要
量を６５５３６に保持すると、テーブル・サイズがアル
ファベット言語では４３文字になり、これはアルファベ
ット言語および表意言語に対して十分なものである。

【０１３１】本発明はある種の暗号問題に一般的に適用
される。簡単にいえば、本発明を使用して、キー生成攻
撃の出力を選別し、トラフィック分析でのメッセージ・
ソーティングを行ったり、音声テキスト・フロント・エ
ンドがもうけられている場合に、電話で、特定のコンテ
ンツおよび類似物の発生を検出するためにＥメールを
「監視」したりすることができる。

【０１３２】本節で説明したハードウェアには、多くの
代替の実施の形態がある。これらの中には、エイリアシ
ングを少なくするために、異なる候補言語のワード・テ
ーブルから共通語を排除するなど、上述のものと同一の
ものもある。このハードウェアによる実施の形態に特有
なものについてのその他の改変形については、以下で検
討する。

【０１３３】文書に対して複数回のパスを行い、単一セ
ットのハードウェアを使用することによって、コストダ
ウンしたハードウェアによる実施態様が可能である。各
パスによって、ハードウェアＷＣＲはワード記憶テーブ
ルのロードされた言語の値を表す単一数を生成する。ワ
ード・テーブルがクリアされてから、新しい候補言語が
再ロードされるようにするには、リセットが必要であ
る。ハードウェアに比較器は必要ない。この手法はハー
ドウェアのコストのために速度を犠牲にしたものであ
り、より複雑なソフトウェア、すなわち再初期化および
比較ソフトウェアを必要とする。

【０１３４】異なる語長に対して表形式ではなく、単一
セットのワード・テーブルだけを使用したコストダウン
・ハードウェア実施形態も可能である。この場合も、こ
れは文書に対する複数回のパスを行うものであり、コス
トのために速度を犠牲にしたものである。各言語に対す
るワード・テーブルをロードすることに加えて、ワード
・テーブルを各言語内の異なる語長の各々に対してワー
ド・テーブルをロードすることができる。あるいは、単
一の表が過疎化されている場合には、これをすべての語
長に使用することができる。

【０１３５】ワード・テーブルを、語がメモリ・ロケー
ションの１つにある場合に１を、語がいずれのロケーシ
ョンのコンテンツともマッチしない場合にゼロ（０）を
返すコンテンツ・アドレス可能メモリと置き換えること
ができる。この実施の形態はＴＡＲを使用せず、その代
わりに論理的に同等な被比較数レジスタを使用する。こ
れは論理的に同等な実施形態ではあるが、比較結果を取
得するＣＡＭサイクル時間が長いため、遅いものとな
る。コンテンツ・アドレス可能メモリも開示した装置に
必要なものよりもはるかに高価である。しかしながら、
ＴＡＲファン・アウトはコンテンツ・アドレス可能メモ
リを使用することによって回避することができ、すべて
の言語を同時にメモリにロードすることが可能となる。
これはシリアル実施態様よりも高速であるが、並列のも
のほど高速ではない。

【０１３６】部分語実施形態本出願人らは自然言語のもっとも頻繁に使用される語か
らなるきわめて短いワード・リストを使用して、本文の
自然言語を判定することのできるいくつかの方法を示し
た。好ましい実施の形態の１つにおいて、語全体を使用
する必要はないが、語源ないし語幹に類似している語の
断片が同等に適正に動作する。このような部分的な語な
いし切りつめられた語が有用なのは、ほとんどのプログ
ラム内蔵式ディジタル処理システムで特に適正に処理さ
れる３２ビットという自然長の、固定長で４文字以下の
フィールドを使えるようにすることによって、可変長ス
トリングの処理に付随することがしばしばあるプログラ
ミング上の問題が、これらによって排除されるからであ
る。

【０１３７】他の利点が、語の断片を完全に収めて、こ
れらを通常単一のレジスタ簡またはレジスタ記憶域簡サ
イクルで処理できるようにするレジスタを使用すること
によって導かれる。これらの利点には、プログラムの高
速な実行、機械のメモリおよびキャッシュ内でのデータ
・エリアの良好な整合、およびバス幅を超えるデータ・
オペランドによるバス・トラフィックの現象などが含ま
れる。

【０１３８】同様に、より多くの語が短い部分語リスト
にマッチすることが判明するため、基礎となるアルゴリ
ズムに関連する実際の特定統計値も改善できる。多くの
場合に、言語内の多くの語が認識されるため、使用され
るカウンティングまたは重み付けに関わりなく、言語の
分離が増加することが判明した。

【０１３９】例を１つ挙げるため、７５語のもっとも頻
繁に使用される語の中に「ｓｏｍｅ」という語が入って
いるアメリカ英語の語のリストを考えてみる。「ｓｏｍ
ｅ」はアメリカ英語に、０．１５９４３％すなわち１０
００００語ごとに約１５９回の発生頻度で生じる。しか
しながら、１文字ないし４文字の語だけが処理され、す
べてのもっと長い語の最初の４文字が処理される場合に
は、「ｓｏｍｅｏｎｅ」、「ｓｏｍｅｔｉｍｅ」、「ｓ
ｏｍｅｔｈｉｎｇ」、「ｓｏｍｅｗｈｅｒｅ」、「ｓｏ
ｍｅｗｈａｔ」および「ｓｏｍｅｈｏｗ」という語も、
「ｓｏｍｅ」としてカウントされる。これは英語で書か
れた文書に対するアメリカ英語のカウントおよび重み付
け方法を改善し、かつワード・リストに入れる必要のあ
る語数を増加させることなくこれを行う。この挙動を示
す同様な高頻度のアメリカ英語としては、「ｗｉｔ
ｈ」、「ｈａｖｅ」、「ｗｅｒｅ」、「ｗｈｅｎ」、
「ｗｉｌｌ」、「ｍｏｒｅ」、「ｗｈａｔ」などがあ
る。フランス語やイタリア語などの語形変化の多い言語
の場合には、この効果はより顕著なものとなる。ヘブラ
イ語とアラビア語を含んでおり、語根と語幹をより広範
囲に使用するセム系（Semitic）言語では、さらに良好
に動作すると思われる。

【０１４０】４文字語を使用することに何も特別なとこ
ろはないが、現時点では、この長さがもっとも自然に思
われる。

【０１４１】実験によって、約１００ないし２００語を
検討対象の文書から読み取って、自然言語を判断した
後、適正な言語の特定が候補言語用のアキュミュレータ
におけるもっとも大きい合計によって与えられることが
示された。きわめて短い文書でない限り、言語の特定が
高い信頼性によって行われると結論づけるのが好まし
い。短い文書の場合、言語の確認は低下するが、一般に
十分なものである。

【０１４２】なお、暗号作成者は共通語がコードや暗号
への入り口を敵対者に与えるものであることを、長年に
わたって知っていた。状況によっては、メッセージを符
号化または暗号化して、共通語を回避する。このことは
文書の言語の判定における共通語の有用性に関する独立
した確認を与えるものである。

【０１４３】非共通語が実際には言語間の良好な識別手
段であるということができ、その通りであるが、特に有
利な所見ではない。たとえば、「ｕｎｄｏｕｂｔｅｄｌ
ｙ」は英語だけで生じるものであり（本発明者らが知る
限りでは）、それ故、これを含んでいる文書が英語で書
かれていることを絶対的に示すものであるということが
できる。しかしながら、「ｕｎｄｏｕｂｔｅｄｌｙ」と
いう語はまれにしか生じないものであるから、言語を識
別するのに何の価値もないものである。非共通語の大き
いテーブルを使用すると（単独で、あるいは共通語と組
み合わせて）、識別は改善される。対象言語に対する非
共通語のテーブルは、本発明の概念に含められるもので
あるから、所与の文書のすべての語がある言語の非共通
語のテーブルＬに見つかった場合には、文書が言語Ｌで
書かれていることがわかる。

【０１４４】本発明をその特定の実施の形態を参照して
図示説明したが、当分野の技術者には形態および細部に
おける上記その他の変更を、本発明の精神および範囲か
ら逸脱することなく行えることが理解されよう。

【０１４５】まとめとして、本発明の構成に関して以下
の事項を開示する。

【０１４６】（１）複数の候補言語の各々においてもっ
とも頻繁に使用される語のセットを選択するステップ
と、もっとも頻繁に使用される語の各セットをもっとも
頻繁に使用される語の各セットにおける文字対にしたが
って、それぞれの候補言語に対するワード・テーブルの
それぞれのセットに記憶するステップと、文書からの語
を前記ワード・テーブルに記憶されているもっとも頻繁
に使用される語と比較するステップと、文書からの語と
前記ワード・テーブルの各個別のセットに記憶されてい
る語との間のマッチの数をカウントするステップと、文
書の言語をマッチ数がもっとも大きいそれぞれの候補言
語として特定するステップとを備えている文書が書かれ
ている言語を特定する方法。（２）各前記ワード・テーブルがＮ×Ｎビットのテーブ
ルであり、各ビットが候補言語の１つにおけるもっとも
頻繁に使用される語の１つの特定の場所での所与の文字
対を表していることを特徴とする、上記（１）に記載の
方法。（３）特殊文字も前記ワード・テーブルで表示されてい
ることを特徴とする、上記（２）に記載の方法。（４）特殊文字の１つがブランク文字であるため、異な
る長さのもっとも頻繁に使用される語を同じセットの前
記ワード・テーブルに記憶できることを特徴とする、上
記（３）に記載の方法。（５）テーブルの各個別のセットがそれぞれの長さの語
に対する表形式のテーブルを含んでいるため、所与の前
記表形式のテーブルにおけるすべての語が所与の長さの
ものであることを特徴とする、上記（１）に記載の方
法。（６）少なくとも１つの候補言語においてもっとも頻繁
に使用される語の中には切りつめられるものもあること
を特徴とする、上記（５）に記載の方法。（７）文字ストリングのセットを選択するステップと、
各ワード・テーブルがＮ×Ｎビットのテーブルであり、
各ビットが候補言語の１つにおけるもっとも頻繁に使用
される語の１つの特定の場所での所与の文字対を表して
いる前記ワード・テーブルに、文字ストリングのセット
を配列された文字対のセットとして記憶するステップ
と、新しい文字ストリングを前記ワード・テーブルに記
憶されている文字ストリングと比較するステップと、新
しい文字ストリングと前記ワード・テーブル内の文字ス
トリングとの間のマッチの数をカウントするステップ
と、十分な数のマッチがある場合には、新しい文字スト
リングを前記ワード・テーブル内の文字ストリングに関
連したものとして特定するステップとを備えている複数
の文字ストリングを特定する方法。（８）文字ストリングが語であり、前記ワード・テーブ
ル内の文字ストリングのセットが自然言語からの語であ
り、新しい文字ストリングが文書からの語であり、十分
な数のマッチがある場合には、新しい文字ストリングを
前記ワード・テーブルの自然言語のものであると特定す
ることを特徴とする、上記（７）に記載の方法。（９）各々がそれぞれの候補言語に対するものであり、
もっとも頻繁に使用される語のセットがもっとも頻繁に
使用される語の各々における文字対にしたがって記憶さ
れている複数のワード・テーブルと、文書からの語を前
記ワード・テーブルの記憶されているもっとも頻繁に使
用される語と比較する比較器と、文書からの語と各個別
の前記ワード・テーブルに記憶されている語との間のマ
ッチの数をカウントするアキュミュレータと、マッチの
数がもっとも大きいそれぞれの候補言語として文書の言
語を特定する手段とを備えている、プロセッサとメモリ
を含んでいる、文書が書かれている言語を特定するシス
テム。（１０）各前記ワード・テーブルがＮ×Ｎビットのテー
ブルであり、各ビットが候補言語の１つにおけるもっと
も頻繁に使用される語の１つの特定の場所での所与の文
字対を表していることを特徴とする、上記（９）に記載
のシステム。（１１）複数の前記ワード・テーブルが、各個別の候補
言語に対する、各々がそれぞれの長さの語を記憶する複
数の表形式のワード・テーブルをさらに含んでいること
を特徴とする、上記（１０）に記載のシステム。（１２）文書内の語の長さを判定する長さ判定手段と、
文書内の各語を語の判定された長さにしたがって表に送
る語経路指定手段とをさらに備えていることを特徴とす
る、上記（１１）に記載のシステム。（１３）もっとも長いそれぞれの長さの語を記憶する表
に記憶された語の長さを超える、文書からの語を切りつ
める手段とさらに備えており、前記語経路指定手段が切
りつめられた語を、もっとも長いそれぞれの長さの語を
記憶する表へ送ることを特徴とする、上記（１２）に記
載のシステム。（１４）前記ワード・テーブルの語がそれぞれの候補言
語の間の強いエイリアシングをさけるように選択されて
いることを特徴とする、上記（１０）に記載のシステ
ム。（１５）各個別の候補言語のための前記ワード・テーブ
ル内の各語が各候補言語のほぼ同等の部分を対象として
いることを特徴とする、上記（１０）に記載のシステ
ム。（１６）各々がそれぞれの長さの語を記憶する表形式
で、かつ記憶された語の各々における文字対にしたがっ
てそれぞれの候補言語に配列されている、複数のワード
・テーブルを提供する手段と、文書からの語を前記ワー
ド・テーブルに記憶されている語と比較する手段と、文
書からの語と各個別のセットの前記ワード・テーブルに
記憶されている語との間のマッチの数をカウントする手
段と、文書の言語をマッチがもっとも大きい各個別言語
として特定する手段とを備えている文書が書かれた言語
を特定する、コンピュータ可読媒体上のコンピュータ・
プログラム・プロダクト。（１７）前記ワード・テーブルに記憶されている語がそ
れぞれの候補言語におけるもっとも頻繁に使用される語
のセットであることを特徴とする、上記（１６）に記載
のコンピユータ・プログラム・プロダクト。（１８）各前記ワード・テーブルがＮ×Ｎビットのテー
ブルであり、各ビットが候補言語の１つにおけるもっと
も頻繁に使用される語の１つの特定の場所での所与の文
字対を表していることを特徴とする、上記（１６）に記
載のコンピュータ・プログラム・プロダクト。（１９）それぞれの候補言語の間のマッチの数が所定の
発散度に達したときに比較およびカウンティング手段を
停止する手段をさらに備えていることを特徴とする、上
記（１６）に記載のコンピュータ・プログラム・プロダ
クト。（２０）プロダクトをネットワーク上でコンピュータ・
システムに伝送する手段をさらに備えていることを特徴
とする、上記（１６）に記載のコンピュータ・プログラ
ム・プロダクト。

【図面の簡単な説明】

【図１】汎用データ処理システムが文書の言語を判定す
るためのデータおよび制御部を含んでいる、本発明の機
能ブロック図である。

【図２】図１に示すシステムによって実行されるプロセ
スを行う一般的なステップの順序の流れ図である。

【図３】複数の候補言語における共通語のセットを含ん
でいるワード・テーブルの例を示す図である。

【図４】５文字の語を記憶するためのワード・テーブル
の配列の図である。

【図５】完全な並列実施形のハードウェア・ブロック図
である。

【図６】異なる長さの語を記憶するための複数の配列の
ハードウェア・ブロック図である。

【図７】文書の言語を特定するための比較器のハードウ
ェア・ブロック図である。

【符号の説明】

１０コンピュータ１１システム・ユニット１２キーボード１３マウス１４表示装置１５スピーカ２１システム・バス２２マイクロプロセッサ２３読取り専用メモリ（ＲＯＭ）２４ランダム・アクセス・メモリ（ＲＡＭ）２５メモリ管理チップ２６ハード・ディスク装置２７フロッピィ・ディスク装置２８キーボード・コントローラ２９マウス・コントローラ３０ビデオ・コントローラ３１オーディオ・コントローラ３２ＣＤＲＯＭ４０入出力コントローラ４６ネットワーク１０１文書ソース１０２ワード・テーブル１０３比較器１０４アキュミュレータ１０５プロセッサ１０６言語セレクタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロバート・チャールズ・ポールセン・ジュニアアメリカ合衆国78717 テキサス州オースチンスクウォー・バレー・レーン 16836 (56)参考文献米国特許5548507（ＵＳ，Ａ) 欧州特許出願公開726534（ＥＰ，Ａ１) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/27 G06F 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の候補言語の各々においてもっとも頻
繁に使用される語のセットを選択するステップと、各候補言語においてもっとも頻繁に使用される語の各々
に含まれる文字対を、それぞれの候補言語に対して用意
されたワード・テーブルのそれぞれに記憶するステップ
と、文書からの語に含まれる文字対を前記ワード・テーブル
のそれぞれに記憶されている文字対と比較するステップ
と、文書からの語に含まれる文字対と前記複数のワード・テ
ーブルの各個別のテーブルに記憶されている文字対との
間のマッチの数を各ワード・テーブル毎にカウントする
ステップと、カウントされたマッチ数がもっとも大きいワード・テー
ブルに対する候補言語を文書が書かれている言語として
特定するステップとを備えている文書が書かれている言
語を特定する方法。
【請求項２】各前記ワード・テーブルがＮ×Ｎビットの
テーブルであり、各ビットが候補言語の１つにおけるも
っとも頻繁に使用される語の１つの特定の場所での所与
の文字対を表していることを特徴とする、請求項１に記
載の方法。
【請求項３】特殊文字も前記ワード・テーブルで表示さ
れていることを特徴とする、請求項２に記載の方法。
【請求項４】特殊文字の１つがブランク文字であるた
め、異なる長さのもっとも頻繁に使用される語を同じセ
ットの前記ワード・テーブルに記憶できることを特徴と
する、請求項３に記載の方法。
【請求項５】各個別のテーブルがそれぞれの長さの語に
対する表形式のテーブルを含んでいるため、所与の前記
表形式のテーブルにおけるすべての語が所与の長さのも
のであることを特徴とする、請求項１に記載の方法。
【請求項６】少なくとも１つの候補言語においてもっと
も頻繁に使用される語の中には切りつめられるものもあ
ることを特徴とする、請求項５に記載の方法。
【請求項７】文書が複数の候補言語の何れによって書か
れたかを特定するシステムにおいて、それぞれの候補言語に対して設けられた複数のワード・
テーブルであって、各候補言語においてもっとも頻繁に
使用される語の各々に含まれる文字対をそれぞれ記憶す
るワード・テーブルと、文書からの語に含まれる文字対を前記ワード・テーブル
のそれぞれに記憶されている文字対と比較する比較器
と、文書からの語に含まれる文字対と前記複数のワード・テ
ーブルの各個別のテーブルに記憶されている文字対との
間のマッチの数を各ワード・テーブル毎にカウントする
アキュミュレータと、カウントされたマッチ数がもっとも大きいワード・テー
ブルに対する候補言語を文書が書かれている言語として
特定する手段とを備えている文書が書かれている言語を
特定するシステム。
【請求項８】各前記ワード・テーブルがＮ×Ｎビットの
テーブルであり、各ビットが候補言語の１つにおけるも
っとも頻繁に使用される語の１つの特定の場所での所与
の文字対を表していることを特徴とする、請求項７に記
載のシステム。
【請求項９】複数の前記ワード・テーブルが、各個別の
候補言語に対する、各々がそれぞれの長さの語を記憶す
る複数の表形式のワード・テーブルをさらに含んでいる
ことを特徴とする、請求項８に記載のシステム。
【請求項１０】文書内の語の長さを判定する長さ判定手
段と、文書内の各語を語の判定された長さにしたがって表に送
る語経路指定手段とをさらに備えていることを特徴とす
る、請求項９に記載のシステム。
【請求項１１】もっとも長いそれぞれの長さの語を記憶
する表に記憶された語の長さを超える、文書からの語を
切りつめる手段とさらに備えており、前記語経路指定手段が切りつめられた語を、もっとも長
いそれぞれの長さの語を記憶する表へ送ることを特徴と
する、請求項１０に記載のシステム。
【請求項１２】前記ワード・テーブルの語がそれぞれの
候補言語の間の強いエイリアシングをさけるように選択
されていることを特徴とする、請求項８に記載のシステ
ム。