JP2004326461A - Apparatus and method for recognizing proper name - Google Patents
Apparatus and method for recognizing proper name Download PDFInfo
- Publication number
- JP2004326461A JP2004326461A JP2003120579A JP2003120579A JP2004326461A JP 2004326461 A JP2004326461 A JP 2004326461A JP 2003120579 A JP2003120579 A JP 2003120579A JP 2003120579 A JP2003120579 A JP 2003120579A JP 2004326461 A JP2004326461 A JP 2004326461A
- Authority
- JP
- Japan
- Prior art keywords
- name
- proper
- proper name
- unique name
- unique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 71
- 230000000877 morphologic effect Effects 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000008520 organization Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、人名、地名、組織名、日時、価格等、特定の事物を表す表現(固有名、固有表現ともいう)を抽出する技術に関する。
【0002】
【従来の技術】
膨大な量の文書に含まれる情報についての質問に答えたり、文書を要約したり、データべース化したり、視覚化したりするためには、その文書から、人名や地名や組織名や日時などの固有名を抽出する必要がある。この場合、コンピュータを利用して、予め各固有名を登録した辞書を用意しておき、この辞書を検索することにより、文書からの固有名の抽出を行うことができる。ところで、実際の文書には、予め用意した辞書に含まれない新しい言葉が必ず存在するので、辞書の検索だけでは、正確な抽出結果は得られない。このような問題に対処するために、固有名そのものと、その前後に含まれる単語の並びの出現パターンを規則化して得た多数の規則を予め人手により作成し、その規則に基づきコンピュータ処理して、対象の文書から、固有名を抽出するという技術がある。
【0003】
しかし、この技術では、規則同士が競合したり相互作用したりするため、それぞれの規則が意図したとおりに動くとは限らないので、作成された規則を、予め用意された訓練データに適用して、その結果に基づき、間違ったところを見つけ出して、規則を修正するという作業を何度も繰り返さなければならない。
【0004】
また、ある規則を修正した結果、それまで正常に動いていた規則が影響を受けて、間違った答を出すようになることが少なくない。そのため、多数の規則の全てを意図したとおりに動くようにするためには、膨大な時間と労力を要する。
【0005】
このような固有名を抽出する規則をコンピュータを用いて自動的に生成する技術においても、規則の間の競合や相互作用のため、自動生成された規則同士をどのように組み合わせれば良い成績が得られるかは、組み合わせた規則(ルール)を再度、実際の文書に適用して、その結果を正解と比較して採点し、その結果に基づき、より良い成績が得られるように規則を追加したり削除したりする試行錯誤を繰り返すしかなく、多大な計算時間が必要である。
【0006】
なお、上記のような規則の良否を訓練用文書を用いて選別することや(特許文献1)、最大エントロピモデルを用いた文章解析において係り受けの確率等を学習させることが提案されている。
【特許文献1】
特開2001−318792公報
【特許文献2】
特開2002−334076公報
【0007】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、高精度に固有名表現を認識することができる固有名認識技術を提供することを目的としている。
【0008】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。
【0009】
まず、この発明の概要を図1に示す例を参照して模式的に説明しておく。この例においては、例えば、既知の固有名を収集した固有名リストを用い、これに形態素解析を適用して、固有名構成要素候補である左端形態素リスト、中間形態素リスト、右端形態素リストおよび単語自体の形態素のリスト(固有名が単一の形態素からなる場合)を予め取得しておく。固有名は、原則として、その左端(前端)の形態素、右端(後端)の形態素および0個または1つ以上の中間の形態素から構成されている。例外として、固有名が単一の形態素からなる場合もある(形態素が固有名の単語自体の場合)。この後、処理対象のテキストを入力し、形態素解析を行い、形態素解析結果を取得し、さらに形態素に対して、左端形態素リスト、中間形態素リスト、右端形態素リストおよび単語自体の形態素のリストを参照して素性(固有名構成要素候補に関する属性。例えば図6に示す)を付与する。素性が付与された改訂版の形態素解析結果に対して固有名特定規則を適用して固有名を抽出する。抽出された固有名に対しては例えば強調処理、隠蔽処理を行ったのち表示等を行う。なお、図1の例はあくまでも説明目的の事例であり、この発明は図1の例に限定されない。
【0010】
さらに、この発明を説明する。
【0011】
この発明の一側面によれば、上述の目的を達成するために、固有名認識装置に:固有名構成要素候補を記憶する固有名構成要素候補記憶手段と;上記固有名構成要素候補との関連で規定された固有名特定規則を記憶する固有名特定規則記憶手段と;文章を形態素解析する形態素解析手段と;上記形態素解析手段から出力される形態素を上記固有名構成要素候補を用いて解析する固有名情報解析手段と;上記構文解析手段の解析結果に、上記固有名構成要素項を用いて解析した結果を反映させて得た文章解析結果に、上記固有名特定規則を適用して上記文章に含まれる固有名を特定する固有名特定手段とを設けるようにしている。
【0012】
この構成においては、固有名構成要素候補を用いて得た情報を、文法情報等の他の情報とともに用いて、形態素または形態素列を、高精度に固有名表現として認識することができる。
【0013】
この構成において、上記固有名構成要素候補は、固有名の前端、後端、および、中央部のうちの少なくとも1つであることが好ましいが、これに限定されない。固有名の前端、後端はとくに有効であることが判明したが、これに限定されない。
【0014】
上記固有名構成要素候補は、固有名それ自体を含んでもよい。
【0015】
また、上記固有名情報解析手段は、例えば、上記形態素解析手段から出力される形態素が固有名構成要素候補に該当するときに、当該固有名構成要素候補の種類により特定される属性(素性)を当該形態素に割り当てる。
【0016】
また、上記固有名情報解析手段は、例えば、上記形態素解析手段から出力される形態素の一部が固有名構成要素候補に該当するときに、当該固有名構成要素候補の種類により特定される属性(素性)を当該形態素または当該形態素の一部に割り当てる。
【0017】
また、上記固有名特定規則は、抽出して固有名の属性も決定することが好ましい。固有名の属性は、人名(姓、名)、組織名、場所、金額、日時、製品名、商品名等であるが、これに限定されない。
【0018】
また、この発明は例えば日本語の固有名認識に適用されて最適であるが、固有名構成要素候補の形態素に着目して固有名を認識する範囲で他の言語にも、適用可能である。
【0019】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。回路要素等をディスクリートに結合して装置を構成することを妨げない。
【0020】
また、この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下、実施例を用いて詳細に説明される。
【0021】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0022】
図2は、この発明の実施例の固有名認識装置100を全体として示しており、この図において、固有名認識装置100はテキスト入力部10、形態素解析部11、形態素解析辞書記憶部12、固有名情報解析部13、固有名構成要素候補辞書記憶部14、固有名特定部15、固有名特定規則記憶部16および出力部17等を含んで構成されている。
【0023】
この固有名認識装置100の主たる部分は、例えば、計算機200上で実行されるコンピュータソフトウェアとして実現できる。コンピュータソフトウェアは例えば記録媒体201を用いて計算機200にインストールされる。計算機200は、通常どおり、CPU、主メモリ、ハードディスク等からなり、例えばパーソナルコンピュータやワークステーションであるが、これに限定されない。
【0024】
図3は、図2の固有名認識装置100で行われる処理(ステップS10〜S14)を説明している。
【0025】
図2および図3において、テキスト入力部10は、日本語テキストを入力する(S10)。形態素解析部11は、形態素解析辞書記憶部12を参照してテキストを形態素解析する(S11)。形態素解析結果は例えば図5に示すようなものである。この例では「米カリフォルニアのオレンジ郡が・・・」を形態素解析している。固有名情報解析部13は、固有名構成要素候補辞書記憶部14を参照して形態素解析結果に対して素性(固有名構成要素候補に関する属性)を付与する(S12)。固有名構成要素候補辞書記憶部14は、例えば図4に示すような、形態素と、それが構成する固有名における位置とを関連づけた情報からなる固有名構成要素候補辞書を記憶している。固有名が「日本国」であれば、「日本国」は左端形態素であり、「国」は右端形態素である。「日本国憲法」であれば、「日本国」は左端形態素、「国」は中間形態素、「憲法」は右端形態素である。この場合、「国」は左端形態素でもあるし、中間形態素でもある。
【0026】
固有名情報解析部13が形態素に付与する素性は例えば図6に示すようなものである。この例では、固有名自体の属性と、固有名を構成する形態素の位置に関する属性とから素性が決定される。
【0027】
形態素解析結果の形態素が、図6中に矢印Aで示した、固有名の「単語」自体、「左端」形態素自体、「中間」形態素自体、「右端」形態素自体である場合には、その形態素にそろぞれの素性を付与する。例えば、「場所」の「右端」形態素であれば(例えば「日本国」の「国」)、「prb」を付与する。
【0028】
また形態素解析結果の形態素の一部が、固有名の「単語」、「左端」形態素、「中間」形態素、「右端」形態素と一致する場合には、図6中矢印Bで示すような素性を付与する。例えば、「・・・韓国軍人・・」を形態素解析して「韓国」、「軍人」の形態素列を得た場合には、形態素「軍人」中の「軍」は「組織」の「右端」形態素でもあり得るから、「左に右端を含む」という位置情報を有し、「orbl」の素性が「軍人」に割り当てられる。「軍人」中の「軍」のような形態素の一部に個別に素性を割りあてられる記述手法を採用した場合には、形態素の一部にかかる素性を割り当ててもよい。
【0029】
このようにして、形態素解析結果の形態素またはその一部に関して固有名構成要素候補辞書を参照して解析を行い形態素に素性を割り当てる。
【0030】
図7は、図4の形態素解析結果に素性を割り当てた例を示す。この例では下線を付した部分が素性として新たに割り当てられている。
【0031】
固有名特定部15は、固有名特定規則記憶部16を参照して規則に合致する形態素列を一まとめにして固有名として特定する(S13)。
【0032】
固有名特定規則記憶部16の固有特定規則(チャンキングルールともいう)は例えば図8に示すようなものであり、最終的には固有名の属性(姓、名、組織、場所等)が付与される。そして図9に示すように固有名の属性を有する形態素列が固有名として抽出される。図8の例では、「場所」の属性を有するものが、「location()」として抽出される。図9中、「*」はその直前の形態素が0回以上繰り返すことを表し、「+」はその直前の形態素が0回以上繰り返すことを表す。「?」は任意の形態素を表す。
【0033】
図10は、先の「米カリフォルニア州のオレンジ郡が・・・」の形態素解析結果に固有名特定規則を適用して固有名およびその属性を特定した例を示し、図11はこの結果から固有名を抽出した例を示す。この例では、形態素解析結果の形態素は固有名構成要素候補(左端、中間、右端、単語)自体である。
【0034】
図12は、形態素解析結果の形態素の一部が固有名構成要素候補をなす例を示している。この例では、先に述べたように、「・・韓国軍人・・」の形態素解析結果に含まれる「韓国」、「軍人」の形態素列中の「軍人」の左部分が右端形態素になり得るので「軍人」に「組織」の「左に右端を含む」素性である「orbl」を付与している。
【0035】
抽出された固有名はテキストにおいて強調や隠蔽されて出力部17から出力される。出力は、表示、印刷、メール送出、音声出力等種々の形態を用いることができる。後段の各種処理装置へ、固有名情報を付加したテキスト等として出力することもできる。
【0036】
この実施例の固有名認識装置によれば、既知の固有名から取得した固有名構成要素候補の情報を用い、その候補間の関連に基づいて固有名をチャンキング(構成要素を一塊にして固有名にすること)して認識を行うのできめ細かな高精度の固有名認識が可能になる。
【0037】
とくに「左端」、「右端」の固有名構成要素候補に着目すると極めて高精度な認識が行えた。
【0038】
つぎに、固有名構成要素候補辞書を作成する手法について説明する。
【0039】
図13は、固有名候補抽出装置110を示しており、図14はその動作例(ステップS20〜S21)を示している。これらの図において、固有名候補抽出装置110は、固有名入力部20、形態素解析部21、形態素解析辞書記憶部22、固有名構成要素候補記憶部23を含んで構成され、固有名構成要素候補記憶部23に記憶された固有名構成要素候補が固有名認識装置100の固有名構成要素候補辞書記憶部14(図1)に記憶保持される。
【0040】
固有名入力部20により入力される既知の固有名のサンプル郡に対して形態素解析が実行され、左端形態素、中間形態素、右端形態素、単語自体の形態素が取り出され、固有名構成要素候補辞書が作成される。なお、図14に示される動作は図14の記載内容から自明であるのでとくに説明は行わない。
【0041】
この固有名候補抽出装置110の主たる部分も、例えば、計算機200上で実行されるコンピュータソフトウェアとして実現できる。コンピュータソフトウェアは例えば記録媒体201を用いて計算機200にインストールされる。計算機200は、通常どおり、CPU、主メモリ、ハードディスク等からなり、例えばパーソナルコンピュータやワークステーションであるが、これに限定されない。
【0042】
図15はこの発明の固有名認識装置を用いたテキスト処理装置の例を示している。この例では、テキスト中の固有名を適宜強調したり隠蔽したりする。
【0043】
図15において、テキスト処理装置130は、固有名認識装置100、対象固有名特定部30、テキスト部分指定部31、特定固有名処理部32、出力部33を含んで構成されている。
【0044】
このテキスト処理装置130の主たる部分も、例えば、計算機200上で実行されるコンピュータソフトウェアとして実現できる。コンピュータソフトウェアは例えば記録媒体201を用いて計算機200にインストールされる。計算機200は、通常どおり、CPU、主メモリ、ハードディスク等からなり、例えばパーソナルコンピュータやワークステーションであるが、これに限定されない。
【0045】
テキスト部分指定部31は、例えば表示されているテキストに対して利用者がポインティングしたときにそのポインティング情報を対象固有名特定部30に送る。対象固有名特定部30は、例えば、ポインティングされた部分の文章を判別し、その文章に含まれる固有名を強調したり、隠蔽したりする。シフトキー等の補助キーを操作しながらポインティングしたときに強調が行われ、そうでないときには隠蔽が行われるようにすることもできる。もちろんそれに限定されず種々の対象で強調や隠蔽を指示できる。特定固有名処理部32は強調や隠蔽に必要な表示属性や文字の置き換えを行い、出力部33に送出する。出力部33は表示出力や印刷出力、所定のメールアドレスへの送付等を行う。
【0046】
図16は、テキスト処理装置の他の例を示す。図14のテキスト処理装置130は、図13のテキスト処理装置の構成要素に加えて処理規則記憶部34を含んでいる。処理規則記憶部34は、図17に示すような処理条件、処理内容を特定するユーザインタフェースを用いて入力された処理規則を記憶する。もちろんデフォルトの処理条件や処理規則を用いることもできる。この例では、処理内容(強調、隠蔽、そのまま)や条件をプルダウンメニュー等で指定できる。この例によればテキスト処理を細かに設定できる。図17の例では、文章を指定することもできるが、文章を指定せずに、テキスト全体を一括で処理するモードしかない場合もあり得る。
【0047】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では種々の固有名構成要素候補を用いたが、「左端」、「右端」あるいはその一方のみを用いるなど、種々の変更が可能である。また固有名構成要素候補辞書を複数用意して適用場面やテキストの内容に合わせて適合的に辞書選別・統合を行うようにしてもよい。
【0048】
【発明の効果】
以上説明したように、この発明によれば、固有名構成要素候補に着目して高精度に固有名を認識することができる。
【図面の簡単な説明】
【図1】この発明の原理的な構成例を模式的に説明する図である。
【図2】この発明の実施例の固有名認識装置の構成を示すブロック図である。
【図3】図2の実施例の動作を説明するフローチャートである。
【図4】図2の実施例の固有名構成要素候補辞書を説明する図である。
【図5】図2の実施例の形態素解析結果を説明する図である。
【図6】図2の実施例で用いる素性を説明する図である。
【図7】図2の実施例で形態素解析結果に素性を反映させた結果を説明する図である。
【図8】図2の実施例の固有名特定部におけるチャンキング規則を説明する図である。
【図9】図2の実施例の固有名特定部における抽出規則を説明する図である
【図10】図2の実施例のチャンキング規則適用後の解析結果の例を示す図である。
【図11】図10の解析結果に図9の抽出規則を適用した抽出結果の例を示す図である。
【図12】図2の実施例のチャンキング規則適用後の解析結果の他の例を示す図である。
【図13】この発明の実施例の固有名候補抽出装置を全体として示すブロック図である。
【図14】図13の実施例の動作を説明するフローチャートである。
【図15】この発明の実施例のテキスト処理装置を全体として示すブロック図である。
【図16】図15のテキスト処理装置の変形例を説明するブロック図である。
【図17】図16の変形例の動作を説明する図である。
【符号の説明】
10 テキスト入力部
11 形態素解析部
12 形態素解析辞書記憶部
13 固有名情報解析部
14 固有名構成要素候補辞書記憶部
15 固有名特定部
16 固有名特定規則記憶部
17 出力部
20 固有名入力部
21 形態素解析部
22 形態素解析辞書記憶部
23 固有名構成要素候補記憶部
30 対象固有名特定部
31 テキスト部分指定部
32 特定固有名処理部
33 出力部
34 処理規則記憶部
100 固有名認識装置
110 固有名候補抽出装置
130 テキスト処理装置
200 計算機
201 記録媒体[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for extracting an expression (also referred to as a unique name or a unique expression) representing a specific thing such as a person name, a place name, an organization name, a date and time, a price, and the like.
[0002]
[Prior art]
In order to answer questions about the information contained in a vast amount of documents, summarize, database, and visualize the documents, the documents are used to identify people, places, organizations, dates and times, etc. Need to extract the unique name of In this case, using a computer, a dictionary in which each unique name is registered is prepared in advance, and the unique name can be extracted from the document by searching this dictionary. By the way, since an actual document always includes a new word which is not included in the dictionary prepared in advance, an accurate extraction result cannot be obtained only by searching the dictionary. In order to deal with such a problem, a number of rules obtained by regularizing the proper name itself and the appearance pattern of the word sequence before and after the proper name are manually created in advance, and computer processing is performed based on the rules. There is a technique of extracting a unique name from a target document.
[0003]
However, in this technology, since rules compete or interact with each other, each rule does not always work as intended, so the created rules are applied to training data prepared in advance. Based on the results, you have to repeat the process of finding the wrong place and correcting the rules.
[0004]
Also, as a result of modifying a certain rule, the rule that worked normally until then is often affected and gives an incorrect answer. Therefore, it takes a great deal of time and effort to make all of the many rules work as intended.
[0005]
Even in the technology that automatically generates a rule for extracting such a unique name using a computer, due to competition and interaction between rules, how to combine automatically generated rules with good results is good. To determine whether it is possible, apply the combined rules again to the actual document, compare the result with the correct answer, score it, and add rules based on the result so that you can get better results. It has no choice but to repeat the trial and error of deleting or deleting, and it takes a lot of calculation time.
[0006]
In addition, it has been proposed to use a training document to determine whether the above rules are good or not (Patent Document 1), and to learn the dependency probability and the like in a sentence analysis using a maximum entropy model.
[Patent Document 1]
JP 2001-318792 A [Patent Document 2]
JP 2002-334076 A
[Problems to be solved by the invention]
The present invention has been made in view of the above circumstances, and has as its object to provide a proper name recognition technique capable of recognizing a proper name expression with high accuracy.
[0008]
[Means for Solving the Problems]
According to the present invention, in order to achieve the above object, a configuration as described in the claims is adopted.
[0009]
First, an outline of the present invention will be schematically described with reference to an example shown in FIG. In this example, for example, a proper name list obtained by collecting known proper names is used, and a morphological analysis is applied to the proper name list, and the leftmost morpheme list, the intermediate morpheme list, the rightmost morpheme list, and the word itself, which are proper name component candidates, are used. (In the case where the proper name is a single morpheme) is obtained in advance. The proper name is composed of a morpheme at the left end (front end), a morpheme at the right end (rear end), and zero or more intermediate morphemes in principle. As an exception, the proper name may consist of a single morpheme (when the morpheme is the proper name word itself). After that, input the text to be processed, perform morphological analysis, obtain the morphological analysis result, and refer to the leftmost morpheme list, intermediate morpheme list, rightmost morpheme list and the morpheme list of the word itself for morphemes. And an attribute (an attribute related to a unique name component candidate, for example, shown in FIG. 6). The unique name is extracted by applying the unique name specifying rule to the morphological analysis result of the revised version to which the feature is added. For example, the extracted unique name is displayed after emphasis processing and concealment processing are performed. Note that the example in FIG. 1 is merely an example for the purpose of explanation, and the present invention is not limited to the example in FIG.
[0010]
Further, the present invention will be described.
[0011]
According to one aspect of the present invention, in order to achieve the above object, in the unique name recognizing device: unique name component candidate storage means for storing unique name component candidates; A specific name specifying rule storing means for storing the specific name specifying rule specified in the above; a morphological analysis means for morphologically analyzing a sentence; and a morpheme output from the morphological analysis means is analyzed using the proper name component candidate. A proper name information analyzing means; and a sentence analysis result obtained by reflecting a result of the analysis using the proper name component item in the analysis result of the syntax analyzing means, and applying the proper name specification rule to the above sentence. And a unique name specifying means for specifying a unique name included in the URL.
[0012]
In this configuration, a morpheme or a morpheme string can be recognized as a proper name expression with high accuracy by using information obtained using the proper name component candidate together with other information such as grammar information.
[0013]
In this configuration, the proper name component candidate is preferably at least one of a front end, a rear end, and a central portion of the proper name, but is not limited thereto. The leading and trailing ends of the proper name have been found to be particularly useful, but are not limited thereto.
[0014]
The unique name component candidate may include the unique name itself.
[0015]
In addition, for example, when the morpheme output from the morphological analysis unit corresponds to the proper name component candidate, the proper name information analyzing unit may convert the attribute (feature) specified by the type of the proper name component candidate. Assign to the morpheme.
[0016]
In addition, for example, when a part of the morpheme output from the morphological analysis unit corresponds to the candidate for the unique name component, the unique name information analyzing unit may set the attribute ( Is assigned to the morpheme or a part of the morpheme.
[0017]
Further, it is preferable that the unique name specifying rule is extracted to determine the attribute of the unique name. The attributes of the unique name include a personal name (first name, last name), an organization name, a place, an amount, date and time, a product name, a product name, and the like, but are not limited thereto.
[0018]
The present invention is optimally applied to, for example, Japanese proper name recognition, but can be applied to other languages as long as proper names are recognized by focusing on morphemes of proper name component candidates.
[0019]
The present invention can be realized not only as a device or a system but also as a method. In addition, it goes without saying that a part of such an invention can be configured as software. Also, it goes without saying that a software product used for causing a computer to execute such software is also included in the technical scope of the present invention. It does not hinder that a device is constituted by connecting circuit elements and the like discretely.
[0020]
Further, the above-described aspects of the present invention and other aspects of the present invention are described in the claims, and will be described in detail below with reference to examples.
[0021]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described.
[0022]
FIG. 2 shows an entirety of the proper
[0023]
The main part of the unique
[0024]
FIG. 3 illustrates processing (steps S10 to S14) performed by the unique
[0025]
2 and 3, the
[0026]
The features assigned to the morpheme by the unique name
[0027]
If the morpheme of the morphological analysis result is the proper word “word” itself, the “leftmost” morpheme itself, the “intermediate” morpheme itself, or the “rightmost” morpheme indicated by arrow A in FIG. To each element. For example, if the “right end” morpheme of “place” (for example, “country” of “Japan”), “prb” is assigned.
[0028]
When a part of the morphemes of the morphological analysis result matches the “word”, “leftmost” morpheme, “intermediate” morpheme, and “rightmost” morpheme of the proper name, the feature as indicated by arrow B in FIG. Give. For example, when morphological analysis is performed on "... Korean soldier ..." to obtain a morpheme sequence of "Korea" and "military", "military" in the morpheme "military" is the "right end" of "organization". Since it may be a morpheme, it has position information of “including the right end on the left ”, and the feature of “orbl” is assigned to “military”. When a description method in which features are individually assigned to some morphemes, such as "military" in "military personnel", is employed, features associated with some morphemes may be assigned.
[0029]
In this way, the morpheme or a part of the morpheme analysis result is analyzed with reference to the unique name component candidate dictionary, and a feature is assigned to the morpheme.
[0030]
FIG. 7 shows an example in which features are assigned to the morphological analysis results of FIG. In this example, the underlined portion is newly assigned as a feature.
[0031]
The unique
[0032]
The unique identification rule (also referred to as a chunking rule) in the unique name identification
[0033]
FIG. 10 shows an example in which the unique name and its attributes are specified by applying the unique name specification rule to the result of the morphological analysis of “Orange County, California, U.S.A.”, and FIG. An example of extracting names is shown. In this example, the morpheme of the morphological analysis result is the proper name component candidate (left end, middle, right end, word) itself.
[0034]
FIG. 12 shows an example in which some of the morphemes of the morphological analysis result form unique name component candidates. In this example, as described above, the left part of “military” in the morpheme sequence of “korean” and “military” included in the morphological analysis result of “... Korean military personnel ...” can be the rightmost morpheme Therefore, "orbl" which is a feature of "organization""including the right end on the left " is given to "military".
[0035]
The extracted unique name is emphasized or hidden in the text and output from the output unit 17. Various forms of output, such as display, printing, mail transmission, and voice output, can be used. It can also be output as text or the like to which unique name information has been added to various subsequent processing devices.
[0036]
According to the unique name recognizing apparatus of this embodiment, the unique name is chunked based on the association between the candidate using the information on the candidate for the unique name component obtained from the known unique name. The name can be recognized as a unique name.
[0037]
In particular, focusing on the "left end" and "right end" unique name component element candidates, highly accurate recognition could be performed.
[0038]
Next, a method of creating a unique name component candidate dictionary will be described.
[0039]
FIG. 13 shows the unique name candidate extracting device 110, and FIG. 14 shows an operation example (steps S20 to S21). In these figures, the proper name candidate extracting device 110 includes a proper
[0040]
A morphological analysis is performed on a sample group of a known proper name input by the proper
[0041]
The main part of the unique name candidate extracting device 110 can also be realized, for example, as computer software executed on the
[0042]
FIG. 15 shows an example of a text processing device using the proper name recognition device of the present invention. In this example, the unique name in the text is emphasized or hidden as appropriate.
[0043]
In FIG. 15, the text processing device 130 includes a unique
[0044]
The main part of the text processing device 130 can also be realized, for example, as computer software executed on the
[0045]
For example, when the user points to the displayed text, the text
[0046]
FIG. 16 shows another example of the text processing apparatus. The text processing device 130 in FIG. 14 includes a processing
[0047]
It should be noted that the present invention is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present invention. For example, in the above example, various unique name component candidates are used, but various changes are possible, such as using “left end”, “right end” or only one of them. Alternatively, a plurality of unique name component candidate dictionaries may be prepared, and dictionary selection and integration may be performed adaptively in accordance with the application scene and the contents of the text.
[0048]
【The invention's effect】
As described above, according to the present invention, a unique name can be recognized with high accuracy by focusing on a unique name component candidate.
[Brief description of the drawings]
FIG. 1 is a diagram schematically illustrating an example of the basic configuration of the present invention.
FIG. 2 is a block diagram showing a configuration of a unique name recognition device according to the embodiment of the present invention.
FIG. 3 is a flowchart illustrating the operation of the embodiment in FIG. 2;
FIG. 4 is a diagram illustrating a unique name component candidate dictionary of the embodiment in FIG. 2;
FIG. 5 is a diagram illustrating a morphological analysis result of the embodiment in FIG. 2;
FIG. 6 is a diagram for explaining features used in the embodiment of FIG. 2;
FIG. 7 is a diagram illustrating a result of reflecting a feature on a morphological analysis result in the embodiment of FIG. 2;
FIG. 8 is a diagram illustrating a chunking rule in a unique name specifying unit of the embodiment in FIG. 2;
9 is a diagram illustrating an extraction rule in a unique name specifying unit of the embodiment in FIG. 2; FIG. 10 is a diagram illustrating an example of an analysis result after applying a chunking rule in the embodiment in FIG. 2;
11 is a diagram illustrating an example of an extraction result obtained by applying the extraction rule of FIG. 9 to the analysis result of FIG. 10;
FIG. 12 is a diagram illustrating another example of the analysis result after the chunking rule of the embodiment in FIG. 2 is applied.
FIG. 13 is a block diagram showing the entirety of the unique name candidate extracting device according to the embodiment of the present invention.
FIG. 14 is a flowchart illustrating the operation of the embodiment in FIG.
FIG. 15 is a block diagram showing an entire text processing apparatus according to an embodiment of the present invention.
FIG. 16 is a block diagram illustrating a modification of the text processing apparatus of FIG.
FIG. 17 is a diagram illustrating the operation of the modification of FIG. 16;
[Explanation of symbols]
Claims (13)
上記固有名構成要素候補との関連で規定された固有名特定規則を記憶する固有名特定規則記憶手段と、
文章を形態素解析する形態素解析手段と、
上記形態素解析手段から出力される形態素を上記固有名構成要素候補を用いて解析する固有名情報解析手段と、
上記構文解析手段の解析結果に、上記固有名構成要素項を用いて解析した結果を反映させて得た文章解析結果に、上記固有名特定規則を適用して上記文章に含まれる固有名を特定する固有名特定手段とを有することを特徴とする固有名認識装置。Unique name component candidate storage means for storing a unique name component candidate,
A proper name specifying rule storing means for storing a proper name specifying rule defined in relation to the proper name component candidate,
Morphological analysis means for morphologically analyzing a sentence,
A proper name information analyzing means for analyzing the morpheme output from the morphological analyzing means using the proper name component candidate,
Identify the proper name included in the text by applying the proper name specification rule to the sentence analysis result obtained by reflecting the result of analysis using the proper name component item item in the analysis result of the parsing means. And a unique name identifying means.
文書中の文章またはその一部を指定する手段と、
指定された文書またはその一部に関連する固有名を特定する手段と、
上記特定された固有名の部分を強調または隠蔽する手段とを有することを特徴とする文書処理装置。A document processing device that recognizes a unique name in a document using the unique name recognition device according to any one of claims 1 to 6,
Means for designating text or parts thereof in the document;
Means for identifying a unique name associated with the specified document or portion thereof;
Means for emphasizing or hiding the part of the specified unique name.
固有名に関連して当該固有名に該当する部分に対する処理を決定する規則を記憶する手段と、
上記文書において上記固有名認識装置を用いて認識された固有名に上記規則を適用して当該固有名に該当する部分に対して当該固有名の属性に対応した処理を実行する手段とを有することを特徴とする文書処理装置。A document processing device for recognizing a unique name in a document using the unique name recognition device according to claim 6,
Means for storing, in association with the proper name, a rule for determining a process for a portion corresponding to the proper name;
Means for applying the rule to the unique name recognized by the unique name recognition device in the document and executing a process corresponding to the attribute of the unique name on a portion corresponding to the unique name. A document processing device characterized by the above-mentioned.
上記入力された既知の固有名を形態素解析する手段と、
上記形態素解析の結果に基づいて固有名構成要素候補を当該既知の固有名中の位置に関連づけて記憶する手段とを有することを特徴とする固有名構成要素候補抽出装置。Means for entering a known unique name;
Means for morphologically analyzing the input known proper name,
Means for storing candidate proper name components in association with the position in the known proper name based on the result of the morphological analysis.
上記固有名構成要素候補記憶手段により固有名構成要素候補を記憶するステップと、
上記固有名特定規則記憶手段により上記固有名構成要素候補との関連で規定された固有名特定規則を記憶するステップと、
上記形態素解析手段により文章を形態素解析するステップと、
上記形態素解析手段から出力される形態素を、上記固有名情報解析手段により上記固有名構成要素候補を用いて解析するステップと、
上記構文解析手段の解析結果に、上記固有名構成要素項を用いて解析した結果を反映させて得た文章解析結果に、上記固有名特定手段により上記固有名特定規則を適用して上記文章に含まれる固有名を特定するステップとを有することを特徴とする固有名認識方法。In a proper name recognition method for recognizing a proper name using a proper name component candidate storage means, a proper name specifying rule storing means, a morphological analysis means, a proper name information analyzing means, and a proper name specifying means,
Storing the unique name component candidate by the unique name component candidate storage means;
Storing the unique name specifying rule defined in relation to the unique name component candidate by the unique name specifying rule storing means,
Morphologically analyzing the sentence by the morphological analysis means,
Analyzing the morpheme output from the morphological analysis means using the proper name component candidate by the proper name information analyzing means;
The analysis result of the parsing means is applied to the sentence analysis result obtained by reflecting the result of the analysis using the unique name component item term, and the unique name specifying rule is applied by the unique name specifying means to the sentence. Identifying the included unique name.
上記固有名入力手段により既知の固有名を入力するステップと、
上記入力された既知の固有名を、上記形態素解析手段により形態素解析するステップと、
上記固有名構成要素記憶手段により、上記形態素解析の結果に基づいて固有名構成要素候補を当該既知の固有名中の位置に関連づけて記憶するステップとを有することを特徴とする固有名構成要素候補抽出方法。A proper name component candidate extracting method for extracting a proper name component candidate using a proper name input unit, a morphological analysis unit, and a proper name component candidate storage unit,
Inputting a known unique name by the unique name input means;
Morphologically analyzing the input known unique name by the morphological analysis means;
Storing said unique name component candidate in association with a position in said known proper name based on the result of said morphological analysis by said unique name component storage means. Extraction method.
上記固有名構成要素候補記憶手段により固有名構成要素候補を記憶するステップと、
上記固有名特定規則記憶手段により上記固有名構成要素候補との関連で規定された固有名特定規則を記憶するステップと、
上記形態素解析手段により文章を形態素解析するステップと、
上記形態素解析手段から出力される形態素を、上記固有名情報解析手段により上記固有名構成要素候補を用いて解析するステップと、
上記構文解析手段の解析結果に、上記固有名構成要素項を用いて解析した結果を反映させて得た文章解析結果に、上記固有名特定手段により上記固有名特定規則を適用して上記文章に含まれる固有名を特定するステップとをコンピュータに実行させるために用いられることを特徴とする固有名認識用コンピュータプログラム。In a proper name recognizing computer program for recognizing a proper name using the proper name component candidate storing means, the proper name specifying rule storing means, the morphological analyzing means, the proper name information analyzing means, and the proper name specifying means,
Storing the unique name component candidate by the unique name component candidate storage means;
Storing the unique name specifying rule defined in relation to the unique name component candidate by the unique name specifying rule storing means,
Morphologically analyzing the sentence by the morphological analysis means,
Analyzing the morpheme output from the morphological analysis means using the proper name component candidate by the proper name information analyzing means;
The analysis result of the parsing means is applied to the sentence analysis result obtained by reflecting the result of the analysis using the unique name component item term, and the unique name specifying rule is applied by the unique name specifying means to the sentence. A computer program for recognizing a unique name, wherein the step of specifying a unique name included in the program is performed by a computer.
上記固有名入力手段により既知の固有名を入力するステップと、
上記入力された既知の固有名を、上記形態素解析手段により形態素解析するステップと、
上記固有名構成要素記憶手段により、上記形態素解析の結果に基づいて固有名構成要素候補を当該既知の固有名中の位置に関連づけて記憶するステップとをコンピュータに実行させるために用いられることを特徴とする固有名構成要素候補抽出用コンピュータプログラム。A proper name component candidate extracting computer program for extracting proper name component candidates using the proper name input means, morphological analysis means, and proper name component candidate storage means,
Inputting a known unique name by the unique name input means;
Morphologically analyzing the input known unique name by the morphological analysis means;
Storing the candidate proper name component in association with the position in the known proper name based on the result of the morphological analysis by the proper name component storage means. Computer program for extracting a unique name component candidate.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003120579A JP4023371B2 (en) | 2003-04-24 | 2003-04-24 | Device and method for recognizing proper name |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003120579A JP4023371B2 (en) | 2003-04-24 | 2003-04-24 | Device and method for recognizing proper name |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004326461A true JP2004326461A (en) | 2004-11-18 |
| JP4023371B2 JP4023371B2 (en) | 2007-12-19 |
Family
ID=33499443
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003120579A Expired - Fee Related JP4023371B2 (en) | 2003-04-24 | 2003-04-24 | Device and method for recognizing proper name |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4023371B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010198189A (en) * | 2009-02-24 | 2010-09-09 | Yahoo Japan Corp | Device and method for machine learning |
| KR20210007776A (en) * | 2019-07-12 | 2021-01-20 | 주식회사 테크온힐 | A METHOD AND APPARATUS FOR grouping A PRODUCT NAME based on AN artificial intelligence |
| WO2024078105A1 (en) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | Method for extracting technical problem in patent literature and related device |
-
2003
- 2003-04-24 JP JP2003120579A patent/JP4023371B2/en not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010198189A (en) * | 2009-02-24 | 2010-09-09 | Yahoo Japan Corp | Device and method for machine learning |
| KR20210007776A (en) * | 2019-07-12 | 2021-01-20 | 주식회사 테크온힐 | A METHOD AND APPARATUS FOR grouping A PRODUCT NAME based on AN artificial intelligence |
| KR102341822B1 (en) | 2019-07-12 | 2021-12-22 | 주식회사 테크온힐 | A METHOD AND APPARATUS FOR grouping A PRODUCT NAME based on AN artificial intelligence |
| WO2024078105A1 (en) * | 2022-10-11 | 2024-04-18 | 智慧芽信息科技(苏州)有限公司 | Method for extracting technical problem in patent literature and related device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4023371B2 (en) | 2007-12-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
| CN1618064B (en) | Translation method and computer equipment | |
| CN104503998B (en) | For the kind identification method and device of user query sentence | |
| CN111488466B (en) | Chinese tagged error corpus generation method, computing device and storage medium | |
| JP6505421B2 (en) | Information extraction support device, method and program | |
| KR102188739B1 (en) | System and Method for Automated Emoticon Recommendation based on Emotion Ontology | |
| JP3372532B2 (en) | Computer-readable recording medium for emotion information extraction method and emotion information extraction program | |
| CN113934834A (en) | A method, device, device and storage medium for question matching | |
| JP2019179470A (en) | Information processing program, information processing method, and information processing device | |
| CN114780577B (en) | SQL statement generation method, device, equipment and storage medium | |
| JP5911931B2 (en) | Predicate term structure extraction device, method, program, and computer-readable recording medium | |
| JP4023371B2 (en) | Device and method for recognizing proper name | |
| JP3744676B2 (en) | Information extraction apparatus and method | |
| JP4965766B2 (en) | Relation information extracting device and attribute information extracting device | |
| Charoenpornsawat et al. | Feature-based proper name identification in Thai | |
| JP2004318809A (en) | Information extraction rule generating apparatus and method | |
| KR102118322B1 (en) | Document translation server and translation method for generating original and translation files individually | |
| JPH0748217B2 (en) | Document summarization device | |
| JPH09179868A (en) | Bilingual text matching support system | |
| JP5915841B2 (en) | Consistency determination system, method and program | |
| JP3892806B2 (en) | Natural language processing dictionary registration device, natural language processing dictionary registration method and program | |
| Thakare et al. | Application for grammar checking and correction | |
| RU2003104608A (en) | METHOD FOR AUTOMATED PROCESSING OF INFORMATION TEXT MATERIALS | |
| JP2001067356A (en) | Vocabulary acquisition method, vocabulary acquisition device, and computer-readable storage medium recording vocabulary acquisition program | |
| JP2007058415A (en) | Text mining device, text mining method, and program for text mining |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060320 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070613 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070911 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070924 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |