[go: up one dir, main page]

JP2004341791A - Dictionary registration support device and method, and program - Google Patents

Dictionary registration support device and method, and program Download PDF

Info

Publication number
JP2004341791A
JP2004341791A JP2003137093A JP2003137093A JP2004341791A JP 2004341791 A JP2004341791 A JP 2004341791A JP 2003137093 A JP2003137093 A JP 2003137093A JP 2003137093 A JP2003137093 A JP 2003137093A JP 2004341791 A JP2004341791 A JP 2004341791A
Authority
JP
Japan
Prior art keywords
dictionary registration
character string
registration candidate
dictionary
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003137093A
Other languages
Japanese (ja)
Inventor
Satoshi Nakazawa
聡 中澤
Seiya Osada
誠也 長田
Kunihiko Sadamasa
邦彦 定政
Kenji Sato
研治 佐藤
Takahiro Ikeda
崇博 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003137093A priority Critical patent/JP2004341791A/en
Publication of JP2004341791A publication Critical patent/JP2004341791A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To edit a character string section of a dictionary registration candidate by moving boundaries between a character string of the dictionary registration candidate and its back-and-forth character strings. <P>SOLUTION: A morpheme analyzer 2 extracts the dictionary registration candidate to be additionally registered into a dictionary 3 from text data inputted by a text input device 1, and records a set of the character string of the dictionary registration candidate and its back-and-forth character strings into a dictionary registration candidate management part 4. When a dictionary registration section editing part 8 edits the dictionary registration candidate managed by the dictionary registration candidate management part 4, the dictionary registration section editing part 8 moves the boundaries between the character string of the dictionary registration candidate and its back-and-forth character strings to edit the character string section of the dictionary registration candidate. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は辞書登録支援装置および方法ならびにプログラムに関し、特にワープロ,機械翻訳,テキスト検索,テキスト分類などの自然言語処理において、そこで用いられる辞書に記載されていない単語,熟語,フレーズなどを、入力されたテキストデータから抽出し、それに対してユーザが行う編集作業や辞書登録作業を支援する辞書登録支援装置および方法ならびにプログラムに関する。
【0002】
【従来の技術】
ワープロ,機械翻訳,テキスト検索,テキスト分類などの自然言語処理においては、一般に、多くの単語,熟語,フレーズなどが登録された辞書が使用される。
【0003】
こうした辞書には、登録されている単語(以後、熟語やフレーズなども含めて辞書中1つの項目として取り扱われる単位を単語と記す)の表記,意味,品詞,活用形等や、辞書の用途,種類,目的に応じて様々な情報が記載されている。
【0004】
しかし、必要となる全ての単語をあらかじめ辞書に登録しておくことは困難である。また、自然言語の性質上、新たな語彙が増えることもある。よって、辞書には、適宜、それまで登録されていなかった単語を登録する必要が生じる。
【0005】
従来技術では、辞書を拡充する技術として、単語辞書登録装置が公知である(例えば、特許文献1参照)。この技術では、まず入力されたテキストデータに形態素解析処理が行われ、辞書に登録されていない単語が未知語として抽出される。さらに、抽出された未知語の表記が不適切だった場合、ユーザが辞書登録する単語表記を修正する単語表記入力手段が提供されている。これにより、抽出された未知語の表記が間違っていた場合でも、ユーザが正しい登録単語を入力することで、適切な単語が辞書に登録される。しかし、ユーザは抽出された各未知語が適切かどうかを確認し、不適切であった場合には、キー入力を行って修正するなど、多くの編集操作が必要となる(以下、従来例1という)。
【0006】
また、従来技術では、辞書登録を行うユーザの作業効率向上を目的とした、ユーザ辞書登録装置が公知である(例えば、特許文献2参照)。この技術では、翻訳辞書を想定して、入力されたテキストデータから抽出した未知語の前後の文字列を、辞書管理者に提示することで、未知語の品詞や訳語など、未知語を辞書に登録する際に付与する情報をユーザが判断しやすいように図っている。しかし、ユーザが抽出された各未知語を確認し、未知語として抽出された表記が間違っている場合には、修正のためにキー入力などの多くの編集操作が必要となる点は、従来例1と同様である(以下、従来例2という)。
【0007】
【特許文献1】
特許第2815096号(第2−3頁、図1)
【特許文献2】
特開平6−266751号公報(第6−7頁、図8)
【0008】
【発明が解決しようとする課題】
前述のように、入力されたテキストデータから、辞書に新たに登録すべき単語(辞書登録候補)が自動的に抽出されても、ユーザがそれらの辞書登録候補を確認・修正するには多くの労力を必要とする。特に、辞書登録候補の表記を修正するには、追加する文字列をキー入力するなどのたくさんの編集操作を行わなければならない。たとえば、「この前、スズキ無線で買ったテレビが壊れた」という文から、辞書にない単語として「スズキ」が抽出されたとする。しかし、ユーザがこの辞書登録候補を見て、登録する表記は「スズキ無線」が適切であると判断して修正する場合、従来例1および2では、少なくとも新たに「無線」という文字列をキー入力などの手法で追加入力しなければならない。入力テキストデータから抽出された辞書登録候補が多くなると、こうした編集コストも膨大となる。できれば、最小限の編集操作でこうした辞書登録作業が完了することが望ましい。
【0009】
本発明は、このような問題点を解消するためになされたものであり、入力テキストデータから抽出された辞書登録候補をユーザに提示するときに、辞書登録候補の文字列とその前後文字列との組を出力し、さらに辞書登録候補の文字列とその前後文字列との境界を自由に変更することで、ユーザの編集操作を軽減する辞書登録支援装置および方法ならびにプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の辞書登録支援装置は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出手段と、前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理手段と、前記辞書登録候補管理手段により管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集手段とを含むことを特徴とする。
【0011】
また、本発明の辞書登録支援装置は、前記辞書登録区間編集手段において、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0012】
さらに、本発明の辞書登録支援装置は、前記辞書登録区間編集手段において、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0013】
さらにまた、本発明の辞書登録支援装置は、前記辞書登録区間編集手段において、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0014】
また、本発明の辞書登録支援装置は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御手段を、さらに含むことを特徴とする。
【0015】
さらに、本発明の辞書登録支援装置は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御手段を、さらに含むことを特徴とする。
【0016】
さらにまた、本発明の辞書登録支援装置は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御手段を、さらに含むことを特徴とする。
【0017】
また、本発明の辞書登録支援装置は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出手段と、抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能な出力情報制御手段と、前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列を編集する辞書登録候補編集手段とを含むことを特徴とする。
【0018】
さらに、本発明の辞書登録支援装置は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出手段と、前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理手段と、抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能な出力情報制御手段と、前記辞書登録候補管理手段により管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集手段とを含むことを特徴とする。
【0019】
一方、本発明の辞書登録支援方法は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを特徴とする。
【0020】
また、本発明の辞書登録支援方法は、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0021】
さらに、本発明の辞書登録支援方法は、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0022】
さらにまた、本発明の辞書登録支援方法は、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0023】
また、本発明の辞書登録支援方法は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御ステップを、さらに含むことを特徴とする。
【0024】
さらに、本発明の辞書登録支援方法は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御ステップを、さらに含むことを特徴とする。
【0025】
さらにまた、本発明の辞書登録支援方法は、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御ステップを、さらに含むことを特徴とする。
【0026】
また、本発明の辞書登録支援方法は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補を編集する辞書登録候補編集ステップとを含むことを特徴とする。
【0027】
さらに、本発明の辞書登録支援方法は、入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを含むことを特徴とする。
【0028】
他方、本発明のプログラムは、コンピュータに、入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを含むことを特徴とする。
【0029】
また、本発明のプログラムは、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0030】
さらに、本発明のプログラムは、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0031】
さらにまた、本発明のプログラムは、前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする。
【0032】
また、本発明のプログラムは、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御ステップを、さらに含むことを特徴とする。
【0033】
さらに、本発明のプログラムは、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御ステップを、さらに含むことを特徴とする。
【0034】
さらにまた、本発明のプログラムは、前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御ステップを、さらに含むことを特徴とする。
【0035】
また、本発明のプログラムは、入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補を編集する辞書登録候補編集ステップとを含むことを特徴とする。
【0036】
さらに、本発明のプログラムは、入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを含むことを特徴とする。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
【0038】
[第1実施の形態]
図1は、本発明の第1の実施の形態に係る辞書登録支援装置の構成を示すブロック図である。
【0039】
図1を参照すると、本発明の第1の実施の形態に係る辞書登録支援装置は、登録したい単語を含むテキストデータを受け付けるテキスト入力装置1と、入力されたテキストデータを辞書3を引いて形態素に区切り、新たに辞書登録すべき単語(熟語やフレーズ等も含む)の候補(辞書登録候補)を抽出する形態素解析装置2と、形態素解析装置2で参照される辞書3と、抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理部4と、抽出された辞書登録候補の出力形式や条件を制御する出力情報制御部5と、出力情報制御部5で設定された出力形式や条件の辞書登録候補の情報をユーザに出力する出力装置6と、ユーザの編集操作を入力するユーザ操作入力装置7と、入力された編集操作に従って辞書登録候補の文字列区間を編集する辞書登録区間編集部8と、編集済みの辞書登録候補を新たに辞書3に登録する辞書登録装置9とから構成されている。
【0040】
テキスト入力装置1は、ハードディスクに記録されているテキストファイルや、ネットワークを介して配信されるテキストデータなど、ユーザが選択した媒体・形式のテキストデータを受け取り、入力とする。一度に複数のテキストデータが入力されてもよいし、一度に1つずつのテキストデータが入力されてもよい。
【0041】
形態素解析装置2は、テキスト入力装置1により入力されたテキストデータに対して、辞書3を参照しながら形態素解析を行い、新たに辞書登録候補の文字列を抽出する。辞書登録候補の文字列を抽出する手法としては、入力テキストデータを形態素に分けたときに、既存の辞書3に登録されていない形態素を文字列区間が最小になるように区切り、残った、辞書に登録されていない文字列区間を辞書登録候補の文字列とする手法や、既存の辞書3に登録されていない文字列の周囲で、同じ文字種で記述されている文字列全体をまとめて、辞書登録候補とする手法などがある。また、例えば、辞書3に「特許」および「庁」という単語が既に登録されていても「特許庁」を1語として新たに辞書3に登録する場合など、辞書3に登録されていない文字列区間がなくとも、よく組になって使用される文字列をまとめて新たに辞書登録候補の文字列として抽出する場合もある。さらに、辞書登録支援装置の用途や目的に応じて、辞書登録候補の文字列や文字列区間だけでなく、品詞,活用形などの言語情報を推定してもよい。各辞書登録候補の言語情報を推定する手法としては、辞書登録候補を構成する文字列から判断する手法,辞書登録候補の文字列の後に出現する単語の言語情報から判断する手法などがある。入力されたテキストデータから辞書登録候補を抽出し、その言語情報を推定する技術自体は、本発明の対象とするところではないので、これ以上の詳細な説明は行わない。
【0042】
辞書3は、自然言語処理に用いる辞書のデータが機械読み取り可能な形式で管理されたものである。システム辞書,ユーザ辞書など、辞書3の目的や用途に応じて、辞書3の実体は複数の辞書から構成されていてもよい。その場合、どの辞書を優先して使用するか、といった使用条件は、形態素解析装置2または辞書3内であらかじめ設定されているものとする。単語表記,品詞,活用形,意味,訳語など、辞書の各項目にどのような種類の情報が記載されているのかも、辞書3の目的や用途による。
【0043】
辞書登録候補管理部4は、形態素解析装置2で抽出された辞書登録候補の文字列と、各辞書登録候補が入力テキストデータ中に出現した箇所の前後文字列とを組にして管理する。形態素解析装置2において、辞書登録候補の言語情報も推定された場合には、その言語情報もまとめて管理する。さらに、辞書登録支援装置の目的や用途に応じては、各辞書登録候補が入力テキストデータ中のどこに出現したのかをリンク情報として管理し、必要に応じて辞書登録候補から入力ファイル中の出現箇所を辿れるようにしてもよい。各辞書登録候補の出現箇所の前後文字列をどれだけの分量、管理するかは、あらかじめ設定された条件による。各辞書登録候補に対して、前後15文字ずつ管理する、という条件でもよいし、前方3単語,後方4単語などのように単語を単位として設定してもよい。もちろん、辞書登録候補が入力テキストデータの先頭にあった場合など、出現箇所の前方や後方に文字列がない場合があり得るが、そのときには、空記号など該当文字列なしということを示す特別なマークを代わりに記録する。
【0044】
出力情報制御部5は、辞書登録候補管理部4が管理する辞書登録候補の情報を、どのような出力形式や条件で出力装置6からユーザに出力するのかを制御する。この出力形式や条件は、あらかじめ設定されていてもよいし、ユーザ操作入力装置7を通して適宜、ユーザが再設定してもよい。
【0045】
まず、出力形式の設定について説明する。出力形式の設定とは、辞書登録候補管理部4が管理する各辞書登録候補の情報のうち、どのような情報をどのような書式で出力するかを定めるものである。この出力形式は、基本的に自由に設定されるが、辞書登録候補の文字列を出力するときに、文字列が共通な辞書登録候補の中から、少なくとも1組の前後文字列は、辞書登録候補の文字列にあわせて出力するものとする。各辞書登録候補に対するその他の情報に関しては、すべて同時に出力するように設定してもよいし、形態素解析装置2で推定された品詞情報のみ辞書登録候補にあわせて出力する、といったように一部の情報を選んで付属情報として出力してもよい。さらに、最初は各辞書登録候補の文字列とその前後文字列だけをリストにして出力しておき、ユーザがユーザ操作入力装置7を通して、特定の辞書登録候補を指定すれば、指定された辞書登録候補の他の情報を詳細に出力する、などのように多段階で、出力する情報や形式の制御を行うことも可能である。
【0046】
辞書登録候補を出力する順番もいくつかの手法があり得る。入力テキストデータに出現した順に基づいて出力する順番を定めてもよいし、アルファベット順など表記の文字列に基づいて順番を定めてもよい。推定された品詞などの付随する言語情報がある場合には、その種類ごとに出力する手法もある。さらには、同じ辞書登録候補の文字列が、入力テキストデータに出現した頻度で出力順を定めることもできる。たとえば、「スズキ」という文字列の辞書登録候補が8回、「ヤマダ」という文字列の辞書登録候補が4回、入力テキストデータ中に出現した場合、「スズキ」という文字列の辞書登録候補を「ヤマダ」という文字列の辞書登録候補よりも先に出力するという手法である。
【0047】
出力の際、辞書登録候補をまとめてユーザに提示することも可能である。たとえば、入力テキストデータに文字列が「ヤマダ」で共通する辞書登録候補が、次にあげるような前後文字列を伴って現れたとする。「担当には|ヤマダ|さんという方」,「神田3−28−24|ヤマダ|商会(電話」,「この際、|ヤマダ|には目を」,「神田3−28−24|ヤマダ|商会(電話」。ここで記号「|」は、元の入力テキストデータに含まれていた文字ではなく、辞書登録候補の文字列とその前後文字列との境界を便宜的に示している。また、2回同じ前後文字列があるのは、その文字列が入力テキストデータに2回現れたことを示す。これらを全てまとめて、図2の3行目のように1つの辞書登録候補の文字列として出力することができる。文字列が同一の辞書登録候補をまとめた場合、前後文字列の組を全て同時に出力することはできないので、どれか1組の前後文字列を代表の前後文字列の組として選んで、出力することになる。図2の3行目の例では、前方文字列「神田3−28−24」と後方文字列「商会(電話」との組を代表の前後文字列の組として選んでいる。この代表の前後文字列の組は、ユーザ操作入力装置7を通して入力される操作によって適宜切り替わるようにすることもできる。たとえば、図2の3行目の例で、行の後ろに表示されている「←→」ボタンを押すなどの操作により、前方文字列「担当には」と後方文字列「さんという方」との組に切り替えられる。複数の異なる前後文字列の組のうち、どの組を最初の代表の前後文字列の組として選ぶかの基準にもいくつかの手法があり得る。入力テキストデータにその前後文字列の組が現れた順で、代表の前後文字列の組を選ぶこともできる。また、図2の3行目の例のように、最も出現頻度の高い前後文字列の組を最初の代表の前後文字列の組としてもよい。そうすることで、辞書登録候補の文字列が共通のものをまとめて出力するときに、最も典型的な前後文字列の組を最初にユーザに提示することになり、ユーザの編集操作の効率化が図られる。ユーザの操作により、文字列が共通の辞書登録候補をまとめて出力する形式と、各辞書登録候補を個別に出力する形式とを切り替えることも可能である。
【0048】
出力情報制御部5は、出力の形式の他に、出力の条件も設定によって制御する。設定された条件を満たさない辞書登録候補は、出力装置6を通してユーザに出力しない。条件としては、辞書登録候補管理部4で管理されている辞書登録候補の情報の種類や内容に関するものや、辞書登録候補の統計的な出現傾向に関するものがある。たとえば、形態素解析装置2で抽出する辞書登録候補を決定する手法として、辞書3に登録されていない文字列区間を抽出する手法と、辞書3に登録されている単語からなる文字列であっても一定以上の頻度で入力テキストデータに現れる文字列を抽出する、という2つの手法を併用していたとする。このとき、一方の手法で抽出された辞書登録候補のみを出力するという条件があり得る。また、文字列が共通の辞書登録候補の出現頻度が一定以下のものは出力しない、という条件があり得る。
【0049】
出力装置6は、ディスプレイ,プリンタ,ネットワークなど、辞書登録支援装置の用途や目的に応じて選択された装置・媒体を用いて、出力情報制御部5から出力すべき情報を受け取り、ユーザに出力する。
【0050】
ユーザ操作入力装置7は、キーボード,マウス,トラックボール,タブレットなどの手段を用いて、編集操作や出力情報の形式や条件を設定する操作など、ユーザが辞書登録作業を進めるための操作を入力する。
【0051】
辞書登録区間編集部8は、ユーザ操作入力装置7に入力された編集操作に従って、辞書登録候補管理部4に記録されている辞書登録候補の情報を編集する。特に、辞書登録候補の文字列区間を編集する場合には、辞書登録候補の文字列と、その辞書登録候補の文字列と組になって記録されている前方文字列および後方文字列との境界を移動させることで、新たに文字列を入力することなしに、辞書登録候補の文字列区間を適切な範囲に修正する機能を提供する。例えば、前方文字列「神田3−28−24」、辞書登録候補「ヤマダ」、後方文字列「商会(電話」に対して、辞書登録候補を「ヤマダ商会」に修正したいとき、辞書登録候補と後方文字列との境界を「ヤマダ」と「商会(電話」との間から、「ヤマダ商会」と「(電話」との間に移動させる。
【0052】
境界の移動操作は、マウスなどのポインタデバイスを用いて境界を示すマーカを移動させるのでもよいし、特定のキー入力やボタン操作で境界マーカを移動させるのでもよい。境界を移動させることで、辞書登録候補の文字列区間を延ばすだけでなく、狭めることもできる。また、境界を移動させるのではなく、前方文字列,辞書登録候補の文字列,後方文字列に含まれている文字列の一部を移動させることでも、同様の編集作業が可能となる。
【0053】
図3は、そうした辞書登録候補編集インターフェースの例である。「前方文字列」と書かれたボックスの中には、前方文字列が、「後方文字列」と書かれたボックスの中には後方文字列が表示されている。ここでボックスの中の記号「/」は、前方文字列や後方文字列中の単語の区切りを示している。このように、ユーザの理解を助けるために前方文字列や後方文字列を単語に区切って表示してもよい。辞書登録候補の文字列(候補文字列)の区間の編集は、「<<」ボタンや「>>」ボタンを押す、または特定のキー入力を行うことでできる。「候補文字列」の間にある「<<」ボタンを押すと、候補文字列の先頭の文字列が前方文字列の後に移動する。逆に、「>>」ボタンを押すと、前方文字列の末尾の文字列が候補文字列の先頭に付け加えられる。「候補文字列」と「後方文字列」との間にある「<<」「>>」ボタンも同様である。一度の文字列移動操作で移動させる文字列の単位には、4通りの設定手法がある。1つ目は、一度に1文字ずつ移動させる手法である。2つ目は、一度に1単語ずつ移動させる手法である。3つ目は、同じ文字種が続く範囲を一度に移動させる手法である。4つ目は、一度に1文節ずつ移動させる方法である。2つ目の手法や、3つ目の手法を採用していた場合、図3の例で「ヤマダ」を「ヤマダ商会」に直すには、「候補文字列」と「後方文字列」との間にある「<<」ボタンを一度操作すればよい。1文字ずつ移動させる手法では、3回操作する必要がある。どの手法を採用するかは、辞書登録支援装置を実施する際の用途や目的による。複数の移動手法を用意し、ユーザが適宜使い分けるようにしてもよい。ただし、一度に1単語ずつ移動させる手法や、一度に1文節ずつ移動させる手法を用いるには、移動対象となる文字列が単語や文節に区切られていなければならない。
【0054】
出力情報制御部5で、同じ文字列の辞書登録候補をまとめて取り扱っていた場合、辞書登録候補の文字列を編集することで、まとめていた辞書登録候補を分けたり、新たに文字列が同じになった辞書登録候補をまとめたりする必要が生じる。図2の例で、出現頻度4の辞書登録候補「ヤマダ」を「ヤマダ商会」に修正した結果、出現頻度2の「ヤマダ」と、出現頻度2の「ヤマダ商会」という辞書登録候補に分けられる。
【0055】
辞書登録区間編集部8では、辞書登録候補の文字列区間の編集以外に、必要に応じて他の情報の編集も行う。図3の例では、品詞情報もユーザが編集することができる。また、指定した辞書登録候補の編集操作を確定させたり、ある辞書登録候補を辞書登録候補のリストから除外したりすることも可能である。
【0056】
辞書登録装置9は、ユーザ操作入力装置7を通して与えられる操作によって、辞書登録候補を新たに辞書3に登録する。どの辞書登録候補を登録するかは、辞書登録支援装置の用途や目的、さらにユーザの設定による。辞書登録候補管理部4で管理している全ての辞書登録候補を登録してもよいし、編集操作が終了した辞書登録候補のみを登録してもよい。また、辞書3に複数の辞書が格納されている場合、どの辞書に登録するかも、辞書登録支援装置の用途や目的、ユーザ設定による。
【0057】
図4は、第1の実施の形態に係る辞書登録支援装置における辞書登録支援方法を示すフローチャートである。この辞書登録支援方法の手順は、辞書登録候補抽出ステップA1と、文字列組記録ステップA2と、出力設定変更入力判定ステップA3と、出力形式・条件再設定ステップA4と、文字列組出力ステップA5と、編集操作入力判定ステップA6と、文字列区間修正ステップA7と、編集操作終了判定ステップA8と、辞書登録ステップA9とからなる。
【0058】
次に、このように構成された第1の実施の形態に係る辞書登録支援装置における動作について、図4のフローチャートを参照しながら説明する。
【0059】
第1の実施の形態に係る辞書登録支援装置の動作では、テキスト入力装置1に入力されたテキストデータに対して、形態素解析装置2が辞書3を参照しながら形態素解析を行い、新たに辞書登録すべき単語の候補(辞書登録候補)を抽出する(ステップA1)。
【0060】
次に、辞書登録候補管理部4が、形態素解析装置2で抽出された辞書登録候補と、各辞書登録候補の文字列が入力テキストデータ中に出現した箇所の前後文字列とを組にして管理する(ステップA2)。
【0061】
出力情報制御部5は、ユーザ操作入力装置7に入力されるユーザの操作を常に監視し(ステップA3)、辞書登録候補管理部4が管理する辞書登録候補の情報を出力装置6から出力するための、出力形式や条件に対して変更要求があった場合には、その変更内容に従って、出力形式や条件を再設定する(ステップA4)。変更要求がなければ、あらかじめ設定された出力形式や条件を用いる。
【0062】
出力装置6は、ディスプレイ,プリンタ,ネットワークなど、辞書登録支援装置の用途や目的に応じて選択された装置・媒体を用いて、出力情報制御部5から出力すべき情報を受け取り、ユーザに出力する(ステップA5)。
【0063】
辞書登録区間編集部8は、ユーザ操作入力装置7に入力されるユーザの編集操作を監視し(ステップA6)、編集操作が入力された場合には、それに従って、辞書登録候補管理部4に記録されている辞書登録候補の情報を編集する(ステップA7)。
【0064】
さらに、辞書登録区間編集部8は、ユーザが編集操作を終了させたかどうかを監視する(ステップA8)。
【0065】
ユーザの編集操作が終了していない場合は、ステップA3に制御を戻し、以下、ステップA3〜ステップA8の動作を繰り返す。
【0066】
ユーザが編集操作の終了を示す入力を行った場合には、辞書登録装置9は、辞書登録管理部4が管理する辞書登録候補のうち、一部または全部を新たに辞書3で管理する辞書に登録する。どの辞書登録候補を登録するかは、ユーザのそれまでの編集操作や初期設定によって決定されている(ステップA9)。
【0067】
最終的に、辞書登録装置9が、ステップA9の辞書登録動作を終了した時点で、第1の実施の形態に係る辞書登録支援装置の動作が終了する。
【0068】
以下では、第1の実施の形態に係る辞書登録支援装置の動作について、具体的な例を用いて説明する。
【0069】
この具体例では、「担当にはヤマダさんという方」,「神田3−28−24ヤマダ商会(電話」,「この際、ヤマダには目を」,「神田3−28−24ヤマダ商会(電話」という文字列を含むテキストデータがテキスト入力装置1に入力されたとする。また、辞書3には、一般的な単語が既に登録された辞書が格納されているが、固有名詞のカタカナ文字列は含まれていないとする。
【0070】
形態素解析装置2は、辞書3を参照して入力テキストデータの形態素解析を行い、その結果、「スズキ」,「ヤマダ」等を含む辞書登録候補の文字列を抽出する(ステップA1)。
【0071】
辞書登録候補管理部4は、こうして抽出された辞書登録候補の文字列と、その前後文字列とを組にして記録する。今回の例では、前後文字列としてそれぞれ3単語ずつ記録する設定であったとする。その結果、例えば「ヤマダ」という辞書登録候補の文字列に対して、「担当/に/は|ヤマダ|さん/という/方」,「/神田/3−28−24|ヤマダ|商会/(/電話」,「この/際/、|ヤマダ|には/目/を」,「/神田/3−28−24|ヤマダ|商会/(/電話」という辞書登録候補の文字列とその前後文字列との組が記録される。ここで、記号「/」は、元の入力テキストデータにあった記号ではなく、形態素解析によって区切られた単語の区切りを示す。また、記号「|」は、辞書登録候補の文字列とその前後文字列との境界を示す。「/神田/3−28−24|ヤマダ|商会/(/電話」の例で、前方文字列が2単語しかないのは、文頭のため「ヤマダ」の前に3単語なかったことを示している。前後文字列を記録するときに、文頭や文末を超えて記録するか、それとも文頭や文末の先を記録しないかは設定による。今回の例では、たとえ3単語以内であっても文頭・文末を超えた先の単語は記録しない設定であったとする(ステップA2)。
【0072】
次に、ユーザ操作入力装置7には、出力設定の変更操作が入力されず、あらかじめ設定されていた出力形式や条件で、図2のように、辞書登録候補のリストが出力されたとする。この設定では、文字列が共通の辞書登録候補を1行にまとめて、それを出現頻度順のリスト形式で出力する(ステップA3〜A5)。
【0073】
この例では、辞書登録候補の文字列区間を編集するために、図2にあるようなリストからユーザが編集する辞書登録候補を1つ選択する操作を行い、ついで、実際の編集作業を行うものとする。たとえば、図2の3行目の辞書登録候補「ヤマダ」を選択した結果、新たに図3のような辞書登録候補編集インターフェースがユーザに提示される。ユーザは、この辞書登録候補編集インターフェース上で、辞書登録候補「ヤマダ」を「ヤマダ商会」に修正するため、「候補文字列」ボックスと「後方文字列」ボックスとの間にある「<<」ボタンを押す。この例では、2ボタンタイプのマウスを用いて操作し、マウスの左ボタンクリックで「<<」ボタンを押すと、1文字ずつ、後方文字列の先頭から候補文字列の末尾に移動し、右ボタンクリックで「<<」ボタンを押すと、1単語ずつ、後方文字列の先頭から候補文字列の末尾に移動する設定であるとする。ユーザは、右ボタンクリックによって1度だけ「<<」ボタンを押す。その結果、新たな文字列を入力することなしに、辞書登録候補が「ヤマダ」から「ヤマダ商会」に修正される。後方文字列は「(/電話/」となる。この例では、後方文字列を最大3単語までしか記録していないため、どんなに辞書登録候補の文字列区間を後方に延ばしても、最大で「ヤマダ商会(電話」までしか修正できない。編集可能な辞書登録候補の文字列区間を広くするには、あらかじめ辞書登録候補と組にして記録する前後文字列の範囲を大きくしておくか、入力テキストデータ中の辞書登録候補の出現位置をリンクしておき、入力テキストデータから前後文字列を適宜読み込む手法があるが、今回の例では、そうしていないものとする。
【0074】
さらに、ユーザは、図3の辞書登録候補編集インターフェースにおいて、辞書登録候補の品詞をラジオボタンで選択的に指定し、さらにOKボタンを押して、辞書登録候補に対する編集操作を確定させる。この編集操作により、辞書登録候補管理部4に記録されている「ヤマダ」の辞書登録候補を、出現頻度2の「ヤマダ」と、出現頻度2の「ヤマダ商会」に変更し、辞書登録候補「ヤマダ商会」の方を確定済みとマークする(ステップA6〜A7)。
【0075】
このような操作を必要な回数だけ繰り返すことで、編集操作は終了する(ステップA8)。
【0076】
編集操作が終了すると、辞書登録候補の一部または全部が辞書登録装置9によって辞書3に登録される。今回の例では、辞書登録候補のうち、編集操作によって確定済みとマークされた辞書登録候補のみを登録するという設定になっているため、「ヤマダ商会」を含む、編集操作を行ったいくつかの辞書登録候補が、図3の辞書登録候補編集インターフェースによってユーザに指定された品詞情報とあわせて、辞書3に登録される(ステップA9)。
【0077】
このようにして第1の実施の形態に係る辞書登録支援装置の動作が終了する。
【0078】
[第2の実施の形態]
ところで、第1の実施の形態では、テキスト入力装置1,形態素解析装置2,辞書3,辞書登録候補管理部4,出力情報制御部5,出力装置6,ユーザ操作入力装置7,辞書登録区間編集部8,および辞書登録装置9は、各部の機能を制御するプログラムとして、CD−ROM(Compact−Disk Read Only Memory)やフレキシブルディスクなどの機械読み取り可能な記録媒体に格納して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしてもよい。
【0079】
図5は、本発明の第2の実施の形態に係る辞書登録支援装置の構成を示すブロック図である。本実施の形態に係る辞書登録支援装置は、図1に示した第1の実施の形態に係る辞書登録支援装置であるコンピュータ100に対して辞書登録支援プログラム200を付加するようにした点だけが異なる。したがって、その他の特に言及しない部分には同一符号を付して、それらの詳しい説明を省略する。
【0080】
辞書登録支援プログラム200は、コンピュータ100に読み込まれ、コンピュータ100の動作を、テキスト入力装置1,形態素解析装置2,辞書3,辞書登録候補管理部4,出力情報制御部5,出力装置6,ユーザ操作入力装置7,辞書登録区間編集部8,および辞書登録装置9として制御する。辞書登録支援プログラム200の制御によるコンピュータ100の動作は、第1の実施の形態における辞書登録支援装置の動作と全く同様になるので、その詳しい説明を割愛する。
【0081】
【発明の効果】
本発明による第1の効果は、新規に辞書に登録すべき単語,熟語,フレーズなどの辞書登録候補を、ユーザが確認・編集する際に、辞書登録候補の文字列とその前後文字列との境界を移動させることで、追加の文字列を入力することなく、辞書登録候補の文字列区間を修正できるということである。
【0082】
本発明による第2の効果は、新規に辞書に登録すべき単語,熟語,フレーズなどの辞書登録候補を、ユーザが確認・編集する際に、辞書登録候補の出力形式や条件を設定することで、不要な情報や、編集の優先順位の低い辞書登録候補がユーザに提示されなくなるため、ユーザは、辞書登録候補の確認・編集作業を効率的に行うことができるということである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る辞書登録支援装置の構成を示すブロック図である。
【図2】第1の実施の形態に係る辞書登録支援装置における辞書登録候補の出力例を示す図である。
【図3】第1の実施の形態に係る辞書登録支援装置における辞書登録候補編集インターフェースの例を示す図である。
【図4】第1の実施の形態に係る辞書登録支援装置の動作を示すフローチャートである。
【図5】本発明の第2の実施の形態に係る辞書登録支援装置の構成を示すブロック図である。
【符号の説明】
1 テキスト入力装置
2 形態素解析装置
3 辞書
4 辞書登録候補管理部
5 出力情報制御部
6 出力装置
7 ユーザ操作入力装置
8 辞書登録区間編集部
9 辞書登録装置
100 コンピュータ
200 辞書登録支援プログラム
A1 辞書登録候補抽出ステップ
A2 文字列組記録ステップ
A3 出力設定変更入力判定ステップ
A4 出力形式・条件再設定ステップ
A5 文字列組出力ステップ
A6 編集操作入力判定ステップ
A7 文字列区間修正ステップ
A8 編集操作終了判定ステップ
A9 辞書登録ステップ
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a dictionary registration support apparatus, method, and program, and particularly to a word, idiom, phrase, etc., which are not described in a dictionary used in natural language processing such as word processing, machine translation, text search, and text classification. The present invention relates to a dictionary registration support device, a method, and a program that extract from text data and support editing and dictionary registration performed by a user with respect to the extracted text data.
[0002]
[Prior art]
In natural language processing such as word processing, machine translation, text search, and text classification, a dictionary in which many words, idioms, phrases, and the like are registered is generally used.
[0003]
In such a dictionary, the notation, meaning, part of speech, inflected form, etc. of registered words (hereinafter, a unit treated as one item in the dictionary including idioms and phrases, etc. are described as words) Various information is described according to the type and purpose.
[0004]
However, it is difficult to register all necessary words in a dictionary in advance. Also, due to the nature of natural language, new vocabulary may increase. Therefore, it is necessary to appropriately register words that have not been registered in the dictionary.
[0005]
In the prior art, a word dictionary registration device is known as a technique for expanding a dictionary (for example, see Patent Document 1). In this technique, first, morphological analysis processing is performed on input text data, and words that are not registered in a dictionary are extracted as unknown words. Further, a word notation input unit for correcting a word notation registered in a dictionary by a user when the notation of the extracted unknown word is inappropriate is provided. Thereby, even if the notation of the extracted unknown word is incorrect, the user inputs the correct registered word, and the appropriate word is registered in the dictionary. However, the user checks whether or not each of the extracted unknown words is appropriate. If not, the user needs to perform many editing operations such as correcting by performing key input (hereinafter referred to as Conventional Example 1). ).
[0006]
Further, in the related art, a user dictionary registration device for improving the work efficiency of a user who registers a dictionary is known (for example, see Patent Document 2). In this technology, a character string before and after an unknown word extracted from input text data is presented to a dictionary administrator, assuming a translation dictionary. The information to be given at the time of registration is intended to be easily determined by the user. However, if the user confirms each extracted unknown word and the notation extracted as an unknown word is incorrect, many editing operations such as key input are required for correction. 1 (hereinafter referred to as Conventional Example 2).
[0007]
[Patent Document 1]
Patent No. 2815096 (page 2-3, FIG. 1)
[Patent Document 2]
JP-A-6-266751 (page 6-7, FIG. 8)
[0008]
[Problems to be solved by the invention]
As described above, even if words to be newly registered in the dictionary (dictionary registration candidates) are automatically extracted from the input text data, there are many ways for the user to confirm and correct those dictionary registration candidates. Requires effort. In particular, in order to correct the notation of a dictionary registration candidate, it is necessary to perform many editing operations such as key input of a character string to be added. For example, suppose that "Suzuki" was extracted as a word not in the dictionary from the sentence "The TV that I bought before at Suzuki Radio was broken." However, when the user looks at this dictionary registration candidate and determines that the notation to be registered is “Suzuki Radio” is appropriate and corrects it, in the first and second conventional examples, at least a new character string “Wireless” is used as a key. You have to enter additional data by input method. As the number of dictionary registration candidates extracted from the input text data increases, the editing cost also increases. If possible, it is desirable that such dictionary registration work be completed with a minimum of editing operations.
[0009]
The present invention has been made in order to solve such a problem, and when presenting a dictionary registration candidate extracted from input text data to a user, a dictionary registration candidate character string and its surrounding character strings A dictionary registration support apparatus, method, and program for reducing the user's editing operation by outputting a set of words and freely changing the boundary between the character string of the dictionary registration candidate and the character strings before and after the set And
[0010]
[Means for Solving the Problems]
The dictionary registration support apparatus of the present invention includes: a dictionary registration candidate extraction unit that extracts a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data; and a dictionary registration candidate extracted by the dictionary registration candidate extraction unit. Dictionary registration candidate management means for managing a character string and a character string before and after it as a set, and a dictionary registration candidate character string and a character string before and after the dictionary registration candidate when the dictionary registration candidate managed by the dictionary registration candidate management means is edited. And a dictionary registration section editing means for editing a character string section of a dictionary registration candidate by moving a boundary between the character string section and the dictionary registration section.
[0011]
In the dictionary registration support apparatus of the present invention, the dictionary registration section editing means may edit a character string section of the dictionary registration candidate by moving a boundary between the character string of the dictionary registration candidate and a character string before and after the character string. The boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved in units of words.
[0012]
Further, the dictionary registration support device of the present invention may be arranged such that the dictionary registration section editing means edits a character string section of the dictionary registration candidate by moving a boundary between the character string of the dictionary registration candidate and a character string before and after the character string. The boundary between the character string of the dictionary registration candidate and the character string before and after the character string is moved in units of a character string section where the same character type continues.
[0013]
Further, in the dictionary registration support apparatus of the present invention, the dictionary registration section editing means may edit a character string section of the dictionary registration candidate by moving a boundary between the character string of the dictionary registration candidate and a character string before and after the character string. In addition, the boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved in units of a phrase.
[0014]
Further, the dictionary registration support device of the present invention manages a plurality of sets of dictionary registration candidate character strings extracted from the input text data and character strings before and after the set, and outputs a dictionary registration candidate output from them. Output information control means that allows the user to appropriately select a set of the character string and the character string before and after the character string.
[0015]
Further, the dictionary registration support apparatus of the present invention manages a plurality of sets of a dictionary registration candidate character string extracted from the input text data and character strings before and after the set, and outputs the dictionary registration when the dictionary registration candidate character string is output. Output information control that controls the set of the most frequently occurring preceding and succeeding character strings as the representative preceding and succeeding character string sets together with the dictionary registration candidate character strings among the common candidate character strings. The method further comprises means.
[0016]
Furthermore, the dictionary registration support device of the present invention manages a plurality of sets of a character string of a dictionary registration candidate extracted from the input text data and character strings before and after the set, and manages them when outputting them. Output information control means capable of switching between a case where a plurality of pairs of a character string of a dictionary registration candidate and a character string before and after the same are output, and a case where a dictionary registration candidate having the same character string is output collectively. Is further included.
[0017]
The dictionary registration support apparatus of the present invention further includes: a dictionary registration candidate extraction unit configured to extract a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data by a plurality of different methods; Output information control means capable of switching and outputting a character string for each extraction method, and dictionary registration candidate editing means for editing a character string of a dictionary registration candidate extracted by the dictionary registration candidate extraction means. I do.
[0018]
Further, the dictionary registration support device of the present invention includes: a dictionary registration candidate extraction unit that extracts a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data by a plurality of different methods; Dictionary registration candidate management means for managing the extracted dictionary registration candidate character strings and the character strings before and after them as a set, and output information that can switch and output the extracted dictionary registration candidate character strings for each extraction method Control means for editing a dictionary registration candidate managed by the dictionary registration candidate management means, and moving a boundary between the character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate to edit the character string section of the dictionary registration candidate And a dictionary registration section editing means.
[0019]
On the other hand, the dictionary registration support method of the present invention includes: a dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data; and a dictionary registration candidate extracted in the dictionary registration candidate extraction step. A dictionary registration candidate management step of managing a candidate character string and a character string before and after the candidate character string as a set, and a dictionary registration candidate character string and its surroundings when editing the dictionary registration candidate managed in the dictionary registration candidate management step. A dictionary registration section editing step of editing a character string section of a dictionary registration candidate by moving a boundary with a character string.
[0020]
Further, in the dictionary registration support method of the present invention, in the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving a boundary between the character string of the dictionary registration candidate and the character string before and after it. The boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved in units of words.
[0021]
Further, in the dictionary registration support method of the present invention, in the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving a boundary between the character string of the dictionary registration candidate and a character string before and after the character string. The boundary between the character string of the dictionary registration candidate and the character string before and after the character string is moved in units of a character string section where the same character type continues.
[0022]
Furthermore, in the dictionary registration support method of the present invention, in the dictionary registration section editing step, the character string section of the dictionary registration candidate is edited by moving a boundary between the character string of the dictionary registration candidate and the character string before and after the character string. In addition, the boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved in units of a phrase.
[0023]
Also, the dictionary registration support method of the present invention manages a plurality of pairs of a dictionary registration candidate character string extracted from the input text data and character strings before and after the pair, and outputs a dictionary registration candidate to be output from among them. And an output information control step in which the user can appropriately select a set of the character string and the character string before and after the character string.
[0024]
Further, the dictionary registration support method of the present invention manages a plurality of pairs of a character string of a dictionary registration candidate extracted from the input text data and character strings before and after the pair, and outputs the dictionary when registering them. Output information control that controls the set of the most frequently occurring preceding and succeeding character strings as the representative preceding and succeeding character string sets together with the dictionary registration candidate character strings among the common candidate character strings. The method further includes a step.
[0025]
Further, the dictionary registration support method of the present invention manages a plurality of sets of a dictionary registration candidate character string extracted from the input text data and character strings before and after the set, and manages the sets when outputting them. Output information control step capable of switching between a case where a plurality of pairs of a character string of a dictionary registration candidate and a preceding and succeeding character string are output, and a case where a dictionary registration candidate having the same character string is output collectively. Is further included.
[0026]
Further, the dictionary registration support method of the present invention includes a dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data by a plurality of different methods. An output information control step of switching a character string of the extracted dictionary registration candidate for each extraction method to enable output, and a dictionary registration candidate editing step of editing the dictionary registration candidate extracted in the dictionary registration candidate extraction step. It is characterized by including.
[0027]
Further, the dictionary registration support method of the present invention further comprises: a dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in a dictionary from input text data by a plurality of different methods; A dictionary registration candidate management step of managing the extracted dictionary registration candidate character strings and the character strings before and after the set as a set, and a dictionary registration candidate character string extracted in the dictionary registration candidate extraction step is extracted for each extraction method. An output information control step of switching and enabling output; and a dictionary by moving a boundary between a character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate when editing the dictionary registration candidate managed in the dictionary registration candidate management step. And a dictionary registration section editing step of editing a character string section of a registration candidate.
[0028]
On the other hand, a program of the present invention causes a computer to execute a dictionary registration support method for supporting the operation of newly registering a character string such as a word, an idiom, or a phrase included in input text data in a dictionary. A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in a dictionary from the input text data; and a dictionary registration candidate character string extracted in the dictionary registration candidate extraction step. A dictionary registration candidate managing step of managing the preceding and following character strings as a set, and a boundary between the dictionary registration candidate character string and the preceding and following character strings when editing the dictionary registration candidate managed in the dictionary registration candidate managing step. To edit the character string section of the dictionary registration candidate by moving the dictionary registration section.
[0029]
Further, the program according to the present invention, when editing the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character string before and after the character string in the dictionary registration section editing step, It is characterized in that the boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved as a unit.
[0030]
Further, the program according to the present invention, when editing the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character string before and after it in the dictionary registration section editing step, The boundary between the character string of the dictionary registration candidate and the character strings before and after the character string is moved in units of a character string section in which the character type continues.
[0031]
Still further, the program according to the present invention, when editing the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character string before and after the character string in the dictionary registration section editing step, The boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved in units of.
[0032]
Further, the program according to the present invention manages a plurality of sets of dictionary registration candidate character strings extracted from the input text data and character strings before and after the set, and outputs the dictionary registration candidate character strings output from them. And an output information control step in which the user can appropriately select a set of a character string before and after the character string.
[0033]
Further, the program according to the present invention manages a plurality of sets of a dictionary registration candidate character string extracted from the input text data and character strings before and after the set, and outputs them to output the dictionary registration candidate characters. An output information control step of controlling so that a set of preceding and succeeding character strings having the highest appearance frequency is output first together with a character string of each dictionary registration candidate as a set of representative preceding and succeeding character strings while the columns are common, It is further characterized by including.
[0034]
Furthermore, the program of the present invention manages a plurality of sets of a dictionary registration candidate character string extracted from the input text data and character strings before and after the set, and manages them when outputting them. An output information control step capable of switching between a case in which a plurality of pairs of the character string of the dictionary registration candidate and the character strings before and after the same is output and a case in which the dictionary registration candidates of the same character string are output collectively; It is characterized by including.
[0035]
Further, the program of the present invention is a program for causing a computer to execute a dictionary registration support method for supporting a work of newly registering character strings such as words, idioms, and phrases included in input text data in a dictionary. A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods; and a dictionary registration candidate character extracted in the dictionary registration candidate extraction step. It is characterized by including an output information control step of switching a column for each extraction method and enabling output, and a dictionary registration candidate editing step of editing the dictionary registration candidate extracted in the dictionary registration candidate extraction step.
[0036]
Further, the program of the present invention is a program for causing a computer to execute a dictionary registration support method for supporting a work of newly registering character strings such as words, idioms, and phrases included in input text data in a dictionary. A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods; and a dictionary registration candidate character extracted in the dictionary registration candidate extraction step. A dictionary registration candidate managing step of managing a set of strings and preceding and succeeding character strings as a set, and output information for switching the character strings of the dictionary registration candidates extracted in the dictionary registration candidate extracting step for each extraction method and enabling output. Controlling the dictionary registration candidate managed in the dictionary registration candidate management step; Characterized in that it comprises a dictionary registration section editing step of editing the text section of the dictionary registration candidate by moving the boundary between the strings.
[0037]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
[0038]
[First Embodiment]
FIG. 1 is a block diagram showing the configuration of the dictionary registration support device according to the first embodiment of the present invention.
[0039]
Referring to FIG. 1, a dictionary registration support device according to a first embodiment of the present invention includes a text input device 1 for receiving text data including a word to be registered, and a morpheme by inputting text data into a dictionary 3. And a morphological analyzer 2 for extracting candidates (dictionary registration candidates) for words (including idioms and phrases) to be newly registered in the dictionary, a dictionary 3 referred to by the morphological analyzer 2, and an extracted dictionary A dictionary registration candidate management unit 4 that manages a character string of a registration candidate and a character string before and after it as a set, an output information control unit 5 that controls an output format and conditions of the extracted dictionary registration candidate, and an output information control unit An output device 6 for outputting to the user information on dictionary registration candidates of the output format and conditions set in 5, a user operation input device 7 for inputting a user's editing operation, and a dictionary registration according to the input editing operation. A dictionary registration section editing unit 8 for editing the string section candidates, and a dictionary registration device 9 for registering the new dictionary 3 edited the dictionary registration candidate.
[0040]
The text input device 1 receives and inputs text data in a medium / format selected by a user, such as a text file recorded on a hard disk or text data distributed via a network. A plurality of text data may be input at a time, or one text data may be input at a time.
[0041]
The morphological analysis device 2 performs morphological analysis on the text data input by the text input device 1 while referring to the dictionary 3, and newly extracts a character string of a dictionary registration candidate. As a method of extracting a character string of a dictionary registration candidate, when the input text data is divided into morphemes, morphemes that are not registered in the existing dictionary 3 are separated so that the character string section is minimized, and the remaining dictionary is extracted. Or a method in which a character string section not registered in the dictionary is used as a dictionary registration candidate character string, or a whole character string described in the same character type around a character string not registered in the existing dictionary 3 There is a method of making it a registration candidate. Also, for example, even if the words “patent” and “office” are already registered in the dictionary 3, a character string that is not registered in the dictionary 3, such as newly registering “patent office” as one word in the dictionary 3. Even if there is no section, character strings that are frequently used in a group may be collectively extracted as a dictionary registration candidate character string. Further, linguistic information such as part of speech and inflected forms as well as character strings and character string sections of dictionary registration candidates may be estimated according to the use and purpose of the dictionary registration support device. As a method of estimating the language information of each dictionary registration candidate, there is a method of determining from the character string constituting the dictionary registration candidate, a method of determining from the language information of a word appearing after the character string of the dictionary registration candidate, and the like. The technology for extracting dictionary registration candidates from the input text data and estimating the linguistic information is not the subject of the present invention, and will not be described in further detail.
[0042]
The dictionary 3 manages dictionary data used for natural language processing in a machine-readable format. The entity of the dictionary 3 may be composed of a plurality of dictionaries, depending on the purpose and use of the dictionary 3, such as a system dictionary and a user dictionary. In this case, it is assumed that usage conditions such as which dictionary is to be used preferentially are set in the morphological analyzer 2 or the dictionary 3 in advance. What kind of information is described in each item of the dictionary, such as word notation, part of speech, inflected form, meaning, and translation, also depends on the purpose and use of the dictionary 3.
[0043]
The dictionary registration candidate management unit 4 manages the character strings of the dictionary registration candidates extracted by the morphological analysis device 2 and the character strings before and after the place where each dictionary registration candidate appears in the input text data. When the morphological analysis device 2 also estimates the language information of the dictionary registration candidate, the linguistic information is also managed collectively. Furthermore, depending on the purpose and use of the dictionary registration support apparatus, the management unit manages, as link information, where each dictionary registration candidate appears in the input text data, and, if necessary, determines the appearance location in the input file from the dictionary registration candidate. May be traced. The amount and the amount of character strings before and after the appearance location of each dictionary registration candidate depend on preset conditions. A condition that each dictionary registration candidate is managed by 15 characters before and after may be set, or a word may be set as a unit, such as three words before and four words after. Of course, there may be no character string before or after the occurrence, such as when the dictionary registration candidate is at the beginning of the input text data. Record the mark instead.
[0044]
The output information control unit 5 controls in what output format and under what conditions the dictionary registration candidate information managed by the dictionary registration candidate management unit 4 is output from the output device 6 to the user. These output formats and conditions may be set in advance, or may be reset by the user through the user operation input device 7 as appropriate.
[0045]
First, the setting of the output format will be described. The setting of the output format determines what information is output in what format among the information of each dictionary registration candidate managed by the dictionary registration candidate management unit 4. Although this output format is basically set freely, when a character string of a dictionary registration candidate is output, at least one set of preceding and succeeding character strings is selected from dictionary registration candidates having a common character string. It shall be output in accordance with the character string of the candidate. Other information for each dictionary registration candidate may be set to be output all at the same time, or only some part of speech information estimated by the morphological analyzer 2 may be output according to the dictionary registration candidate. Information may be selected and output as additional information. Further, at first, only the character strings of each dictionary registration candidate and the character strings before and after the list are output in a list, and if the user specifies a specific dictionary registration candidate through the user operation input device 7, the specified dictionary registration candidate is registered. It is also possible to control the output information and format in multiple stages, such as outputting other information of the candidate in detail.
[0046]
There are several methods for outputting the dictionary registration candidates. The order of output may be determined based on the order of appearance in the input text data, or the order may be determined based on a character string such as alphabetical order. When there is accompanying linguistic information such as the estimated part of speech, there is a method of outputting the information for each type. Furthermore, the output order can be determined by the frequency at which the same dictionary registration candidate character string appears in the input text data. For example, if the dictionary registration candidate of the character string "Suzuki" appears eight times in the input text data and the dictionary registration candidate of the character string "Yamada" appears four times, the dictionary registration candidate of the character string "Suzuki" This is a method in which the character string “Yamada” is output prior to the dictionary registration candidate.
[0047]
At the time of output, it is also possible to present the dictionary registration candidates collectively to the user. For example, it is assumed that a dictionary registration candidate having a character string common to the input text data with the character string “Yamada” appears with the following preceding and following character strings. "The person in charge is | Yamada | -san", "3-28-24 Kanda | Yamada | Shokai (telephone)", "At this time, take an eye on | Yamada |,""Kanda 3-28-24 | Yamada | Shokai (telephone), where the symbol "|" indicates not the character included in the original input text data but the boundary between the character string of the dictionary registration candidate and the character strings before and after it. The presence of the same character string twice before or after indicates that the character string appears twice in the input text data. When the dictionary registration candidates having the same character string are put together, all of the preceding and following character strings cannot be output at the same time, so any one of the preceding and following character strings is used as a representative preceding and succeeding character string. And output it. The third line in FIG. Selects a pair of a front character string "Kanda 3-28-24" and a rear character string "Shokai (telephone)" as a pair of representative front and rear character strings. It is also possible to switch as appropriate by an operation input through the input device 7. For example, in the example of the third line in FIG. It is switched to the set of the front character string “in charge” and the back character string “san-san.” Which of the plural different front-back character string sets is selected as the first representative front-back character string set There can be several methods for the standard. A representative pair of preceding and succeeding character strings can be selected in the order in which the pair of preceding and succeeding character strings appears in the input text data. As shown in the example, the most frequently occurring pair of strings before and after It is also possible to use the first representative before and after character set, so that when the common character strings of dictionary registration candidates are output collectively, the most typical front and rear character string set is first given to the user. The format for outputting the dictionary registration candidates having a common character string at once and the format for outputting each dictionary registration candidate individually by the user operation are presented. It is also possible to switch.
[0048]
The output information control unit 5 controls the output conditions in addition to the output format. Dictionary registration candidates that do not satisfy the set conditions are not output to the user through the output device 6. The conditions include those relating to the type and content of the information of the dictionary registration candidates managed by the dictionary registration candidate management unit 4 and those relating to the statistical appearance tendency of the dictionary registration candidates. For example, as a method of determining a dictionary registration candidate to be extracted by the morphological analysis device 2, a method of extracting a character string section not registered in the dictionary 3 and a method of extracting a character string composed of words registered in the dictionary 3 It is assumed that two methods of extracting a character string appearing in input text data at a certain frequency or more are used in combination. At this time, there may be a condition that only dictionary registration candidates extracted by one method are output. In addition, there may be a condition that a dictionary registration candidate having a common character string whose appearance frequency is lower than a certain value is not output.
[0049]
The output device 6 receives information to be output from the output information control unit 5 using a device / medium selected according to the use and purpose of the dictionary registration support device, such as a display, a printer, and a network, and outputs the information to the user. .
[0050]
The user operation input device 7 uses a keyboard, a mouse, a trackball, a tablet, or the like to input an operation for the user to proceed with dictionary registration work, such as an editing operation and an operation of setting the format and condition of output information. .
[0051]
The dictionary registration section editing unit 8 edits the dictionary registration candidate information recorded in the dictionary registration candidate management unit 4 according to the editing operation input to the user operation input device 7. In particular, when editing a character string section of a dictionary registration candidate, the boundary between the character string of the dictionary registration candidate and the front character string and the back character string recorded as a pair with the character string of the dictionary registration candidate. Is provided, a function of correcting the character string section of the dictionary registration candidate to an appropriate range without inputting a new character string is provided. For example, when it is desired to correct the dictionary registration candidate to “Yamada Shokai” for the front character string “Kanda 3-28-24”, the dictionary registration candidate “Yamada”, and the rear character string “Shokai (telephone)”, the dictionary registration candidate The boundary with the back character string is moved from “Yamada” and “Shokai (telephone)” to “Yamada Shokai” and “((telephone)”.
[0052]
The operation of moving the boundary may be to move the marker indicating the boundary using a pointer device such as a mouse, or to move the boundary marker by a specific key input or button operation. By moving the boundary, not only the character string section of the dictionary registration candidate can be extended but also narrowed. Similar editing work can be performed by moving a part of a character string included in a front character string, a character string of a dictionary registration candidate, or a rear character string, instead of moving a boundary.
[0053]
FIG. 3 is an example of such a dictionary registration candidate editing interface. A front character string is displayed in a box written “front character string”, and a rear character string is displayed in a box written “rear character string”. Here, the symbol “/” in the box indicates the delimiter of a word in the front character string or the rear character string. In this manner, the front character string and the rear character string may be displayed by dividing them into words in order to help the user understand. Editing of a section of a dictionary registration candidate character string (candidate character string) can be performed by pressing a “<<” button or a “>>” button, or by performing a specific key input. When the “<<” button is pressed between “candidate character strings”, the first character string of the candidate character string moves after the preceding character string. Conversely, when the ">>" button is pressed, the last character string of the preceding character string is added to the beginning of the candidate character string. The same applies to the “<<” and “>>” buttons between “candidate character string” and “backward character string”. There are four setting methods for the unit of the character string moved by one character string moving operation. The first method is to move one character at a time. The second method is to move one word at a time. The third method is to move a range in which the same character type continues at a time. The fourth method is to move one phrase at a time. If the second method or the third method is adopted, in order to change “Yamada” to “Yamada Shokai” in the example of FIG. 3, the “candidate character string” and the “rear character string” You only need to operate the "<<" button in between. The technique of moving one character at a time requires three operations. Which method to use depends on the application and purpose when implementing the dictionary registration support device. A plurality of movement methods may be prepared, and the user may appropriately use them. However, in order to use the method of moving one word at a time or the method of moving one phrase at a time, the character string to be moved must be divided into words and phrases.
[0054]
If the output information control unit 5 handles dictionary registration candidates of the same character string collectively, editing the character string of the dictionary registration candidate allows the grouped dictionary registration candidates to be divided or newly added to the same character string. It becomes necessary to put together the dictionary registration candidates that have become invalid. In the example of FIG. 2, the dictionary registration candidate “Yamada” having an appearance frequency of 4 is corrected to “Yamada Shokai”. As a result, the dictionary registration candidate “Yamada” having an appearance frequency of 2 and “Yamada Shokai” having an appearance frequency of 2 are divided. .
[0055]
The dictionary registration section editing unit 8 edits other information as necessary in addition to editing the character string section of the dictionary registration candidate. In the example of FIG. 3, the part of speech information can also be edited by the user. It is also possible to finalize the editing operation of the designated dictionary registration candidate or to exclude a certain dictionary registration candidate from the dictionary registration candidate list.
[0056]
The dictionary registration device 9 newly registers dictionary registration candidates in the dictionary 3 by an operation given through the user operation input device 7. Which dictionary registration candidate is to be registered depends on the use and purpose of the dictionary registration support device and the setting of the user. All dictionary registration candidates managed by the dictionary registration candidate management unit 4 may be registered, or only dictionary registration candidates for which the editing operation has been completed may be registered. Further, when a plurality of dictionaries are stored in the dictionary 3, which dictionary is to be registered also depends on the use, purpose, and user setting of the dictionary registration support device.
[0057]
FIG. 4 is a flowchart illustrating a dictionary registration support method in the dictionary registration support device according to the first embodiment. The dictionary registration support method includes a dictionary registration candidate extraction step A1, a character string set recording step A2, an output setting change input determination step A3, an output format / condition resetting step A4, and a character string set output step A5. , An edit operation input determination step A6, a character string section correction step A7, an edit operation end determination step A8, and a dictionary registration step A9.
[0058]
Next, the operation of the dictionary registration support apparatus according to the first embodiment thus configured will be described with reference to the flowchart of FIG.
[0059]
In the operation of the dictionary registration support device according to the first embodiment, the morphological analysis device 2 performs morphological analysis on the text data input to the text input device 1 while referring to the dictionary 3, and newly registers the dictionary. A word candidate (dictionary registration candidate) to be extracted is extracted (step A1).
[0060]
Next, the dictionary registration candidate management unit 4 manages the dictionary registration candidates extracted by the morphological analyzer 2 and the character strings before and after the place where the character string of each dictionary registration candidate appears in the input text data. (Step A2).
[0061]
The output information control unit 5 always monitors the user operation input to the user operation input device 7 (step A3), and outputs the dictionary registration candidate information managed by the dictionary registration candidate management unit 4 from the output device 6. If there is a request to change the output format or condition, the output format or condition is reset according to the change (step A4). If there is no change request, a preset output format and condition are used.
[0062]
The output device 6 receives information to be output from the output information control unit 5 using a device / medium selected according to the use and purpose of the dictionary registration support device, such as a display, a printer, and a network, and outputs the information to the user. (Step A5).
[0063]
The dictionary registration section editing unit 8 monitors the user's editing operation input to the user operation input device 7 (step A6), and when the editing operation is input, records it in the dictionary registration candidate management unit 4 according to the input. The information on the registered dictionary registration candidates is edited (step A7).
[0064]
Further, the dictionary registration section editing unit 8 monitors whether the user has finished the editing operation (step A8).
[0065]
If the user's editing operation has not been completed, control is returned to step A3, and thereafter, the operations of step A3 to step A8 are repeated.
[0066]
When the user performs an input indicating the end of the editing operation, the dictionary registration device 9 changes a part or all of the dictionary registration candidates managed by the dictionary registration management unit 4 to a dictionary newly managed by the dictionary 3. register. Which dictionary registration candidate is to be registered is determined by the user's editing operation and initial settings (step A9).
[0067]
Finally, when the dictionary registration device 9 ends the dictionary registration operation in step A9, the operation of the dictionary registration support device according to the first embodiment ends.
[0068]
Hereinafter, the operation of the dictionary registration support device according to the first embodiment will be described using a specific example.
[0069]
In this specific example, "person in charge is Mr. Yamada", "Kanda 3-28-24 Yamada Shokai (telephone)," In this case, eyes on Yamada "," Kanda 3-28-24 Yamada Shokai (telephone Is input to the text input device 1. In addition, the dictionary 3 stores a dictionary in which general words are already registered, but the katakana character string of a proper noun is It is not included.
[0070]
The morphological analysis device 2 performs a morphological analysis of the input text data with reference to the dictionary 3 and, as a result, extracts a character string of a dictionary registration candidate including “Suzuki”, “Yamada”, and the like (step A1).
[0071]
The dictionary registration candidate management unit 4 records the character string of the dictionary registration candidate extracted in this way and the character strings before and after it as a set. In this example, it is assumed that the setting is to record three words each as a character string before and after. As a result, for example, for the character string of the dictionary registration candidate “Yamada”, “charge / ni / was | Yamada | san / ha //”, “/ Kanda / 3-28-24 | Yamada | Shokai / (/ "Telephone", "This / edge /, | Yamada | to / eyes /", "/ Kanda / 3-28-24 | Yamada | Shokai / (/ telephone)" Here, the symbol “/” indicates not a symbol in the original input text data, but a word delimiter separated by morphological analysis. In the example of "/ Kanda / 3-28-24 | Yamada | Shokai / (/ telephone)", the character string in front of which has only two words is the beginning of the sentence. Indicates that there were no three words before "Yamada." Depending on the setting, whether to record beyond the beginning or end of the sentence or not to record at the beginning or end of the sentence is set.In this example, even if it is within 3 words, the word beyond the beginning and end of the sentence is recorded It is assumed that the setting is not performed (step A2).
[0072]
Next, it is assumed that a change operation of the output setting is not input to the user operation input device 7 and a list of dictionary registration candidates is output in a preset output format and condition as shown in FIG. In this setting, dictionary registration candidates having a common character string are grouped into one line, and output in a list format in order of appearance frequency (steps A3 to A5).
[0073]
In this example, in order to edit a character string section of a dictionary registration candidate, the user performs an operation of selecting one dictionary registration candidate to be edited from a list as shown in FIG. 2, and then performs an actual editing operation And For example, as a result of selecting the dictionary registration candidate “Yamada” on the third line in FIG. 2, a new dictionary registration candidate editing interface as shown in FIG. 3 is presented to the user. On this dictionary registration candidate editing interface, the user modifies the dictionary registration candidate “Yamada” to “Yamada Shokai” by clicking “<<” between the “candidate character string” box and the “backward character string” box. I press the button. In this example, when the operation is performed using a two-button type mouse and the “<<” button is pressed by clicking the left mouse button, the character is moved one character at a time from the beginning of the backward character string to the end of the candidate character string. When the "<<" button is clicked by clicking the button, it is assumed that the setting is to move from the beginning of the backward character string to the end of the candidate character string by one word. The user presses the “<<” button only once by right button click. As a result, the dictionary registration candidate is modified from "Yamada" to "Yamada Shokai" without inputting a new character string. The backward character string is “(/ phone /”. In this example, since the backward character string is recorded only up to three words at most, no matter how long the character string section of the dictionary registration candidate extends backward, the maximum is “ Only the Yamada Shokai (telephone) can be modified. To widen the character string section of the dictionary registration candidate that can be edited, increase the range of character strings before and after recording in combination with the dictionary registration candidate, or input text. There is a method in which the appearance positions of the dictionary registration candidates in the data are linked and the preceding and succeeding character strings are appropriately read from the input text data. In this example, however, it is assumed that this is not the case.
[0074]
Further, in the dictionary registration candidate editing interface of FIG. 3, the user selectively specifies the part of speech of the dictionary registration candidate with a radio button, and further presses an OK button to finalize the editing operation for the dictionary registration candidate. By this editing operation, the dictionary registration candidate of “Yamada” recorded in the dictionary registration candidate management unit 4 is changed to “Yamada” with an appearance frequency of 2 and “Yamada Shokai” with an appearance frequency of 2 and the dictionary registration candidate “ "Yamada Shokai" is marked as confirmed (steps A6 to A7).
[0075]
The editing operation is completed by repeating such an operation a required number of times (step A8).
[0076]
When the editing operation is completed, some or all of the dictionary registration candidates are registered in the dictionary 3 by the dictionary registration device 9. In this example, among the dictionary registration candidates, only the dictionary registration candidates marked as confirmed by the editing operation are registered, so some editing operations including "Yamada Shokai" were performed. The dictionary registration candidate is registered in the dictionary 3 together with the part of speech information designated by the user through the dictionary registration candidate editing interface of FIG. 3 (step A9).
[0077]
Thus, the operation of the dictionary registration support device according to the first embodiment ends.
[0078]
[Second embodiment]
By the way, in the first embodiment, a text input device 1, a morphological analysis device 2, a dictionary 3, a dictionary registration candidate management unit 4, an output information control unit 5, an output device 6, a user operation input device 7, a dictionary registration section edit The unit 8 and the dictionary registration device 9 are provided as programs for controlling the functions of the respective units, stored in a machine-readable recording medium such as a CD-ROM (Compact-Disk Read Only Memory) or a flexible disk, and provided with a computer ( (A computer) or the like.
[0079]
FIG. 5 is a block diagram showing the configuration of the dictionary registration support device according to the second embodiment of the present invention. The dictionary registration support apparatus according to the present embodiment is different from the dictionary registration support apparatus according to the first embodiment shown in FIG. 1 only in that a dictionary registration support program 200 is added to the computer 100. different. Therefore, other parts not specifically mentioned are denoted by the same reference numerals, and detailed description thereof is omitted.
[0080]
The dictionary registration support program 200 is read by the computer 100 and controls the operation of the computer 100 by using the text input device 1, morphological analysis device 2, dictionary 3, dictionary registration candidate management unit 4, output information control unit 5, output device 6, user Control is performed as the operation input device 7, the dictionary registration section editing unit 8, and the dictionary registration device 9. The operation of the computer 100 under the control of the dictionary registration support program 200 is exactly the same as the operation of the dictionary registration support device according to the first embodiment, and a detailed description thereof will be omitted.
[0081]
【The invention's effect】
A first effect of the present invention is that when a user checks and edits dictionary registration candidates such as words, idioms, and phrases to be newly registered in a dictionary, a character string of the dictionary registration candidate and a character string before and after the candidate are registered. By moving the boundary, the character string section of the dictionary registration candidate can be corrected without inputting an additional character string.
[0082]
A second effect of the present invention is that when the user checks and edits dictionary registration candidates such as words, idioms, and phrases to be newly registered in the dictionary, the output format and conditions of the dictionary registration candidates are set. Since unnecessary information and dictionary registration candidates with low editing priorities are not presented to the user, the user can efficiently check and edit dictionary registration candidates.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a dictionary registration support device according to a first embodiment of the present invention.
FIG. 2 is a diagram illustrating an output example of dictionary registration candidates in the dictionary registration support device according to the first embodiment.
FIG. 3 is a diagram illustrating an example of a dictionary registration candidate editing interface in the dictionary registration support device according to the first embodiment.
FIG. 4 is a flowchart showing an operation of the dictionary registration support device according to the first embodiment.
FIG. 5 is a block diagram illustrating a configuration of a dictionary registration support device according to a second embodiment of the present invention.
[Explanation of symbols]
1 Text input device
2 Morphological analyzer
3 dictionaries
4 Dictionary registration candidate management department
5 Output information control unit
6 Output device
7 User operation input device
8 Dictionary registration section editor
9 Dictionary registration device
100 computer
200 dictionary registration support program
A1 Dictionary registration candidate extraction step
A2 Character string group recording step
A3 Output setting change input judgment step
A4 Output format / condition resetting step
A5 String set output step
A6 Edit operation input judgment step
A7 Character string section correction step
A8 Editing operation end determination step
A9 Dictionary registration step

Claims (27)

入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出手段と、
前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理手段と、
前記辞書登録候補管理手段により管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集手段と
を含むことを特徴とする辞書登録支援装置。
Dictionary registration candidate extraction means for extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data;
Dictionary registration candidate management means for managing a set of a character string of the dictionary registration candidate extracted by the dictionary registration candidate extraction means and a character string before and after the dictionary registration candidate,
A dictionary registration section for editing a character string section of a dictionary registration candidate by moving a boundary between a character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate when editing the dictionary registration candidate managed by the dictionary registration candidate management unit. A dictionary registration support device comprising editing means.
前記辞書登録区間編集手段が、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項1記載の辞書登録支援装置。When the dictionary registration section editing means edits the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate, the character string of the dictionary registration candidate in word units 2. The dictionary registration support device according to claim 1, wherein a boundary between the character string and a character string before and after the character string is moved. 前記辞書登録区間編集手段が、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項1記載の辞書登録支援装置。When the dictionary registration section editing means edits the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate, the character string section in which the same character type continues is used as a unit. 2. The dictionary registration support device according to claim 1, wherein the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate is moved. 前記辞書登録区間編集手段が、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項1記載の辞書登録支援装置。When the dictionary registration section editing means edits the character string section of the dictionary registration candidate by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate, the character string of the dictionary registration candidate in units of phrases 2. The dictionary registration support device according to claim 1, wherein a boundary between the character string and a character string before and after the character string is moved. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御手段を、さらに含むことを特徴とする請求項1,請求項2,請求項3または請求項4の辞書登録支援装置。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after the pairs are managed, and a set of the dictionary registration candidate character strings output from them and the character strings before and after the pairs are managed. 5. The dictionary registration support device according to claim 1, further comprising an output information control unit that allows a user to appropriately select the dictionary registration information. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御手段を、さらに含むことを特徴とする請求項1,請求項2,請求項3または請求項4の辞書登録支援装置。The dictionary registration candidate character string extracted from the input text data and the preceding and following character strings are managed as a set and a plurality of sets are managed, and when outputting them, the most common dictionary registration candidate character strings are used. An output information control means for controlling so as to output a set of front and rear character strings having a high frequency of appearance as a representative front and rear character string set together with a character string of each dictionary registration candidate first. 5. The dictionary registration support device according to claim 1, 2, 3, or 4. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御手段を、さらに含むことを特徴とする請求項1,請求項2,請求項3または請求項4の辞書登録支援装置。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after them are managed as a set, and when they are output, the managed dictionary registration candidate character strings and the before and after the strings are managed. 2. The output information control means according to claim 1, further comprising an output information control means capable of switching between a case where all pairs of character strings are output and a case where dictionary registration candidates of the same character string are output collectively. 5. The dictionary registration support device according to claim 2, 3 or 4. 入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出手段と、
前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能な出力情報制御手段と、
前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列を編集する辞書登録候補編集手段と
を含むことを特徴とする辞書登録支援装置。
Dictionary registration candidate extraction means for extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods;
Output information control means capable of switching and outputting a character string of a dictionary registration candidate extracted by the dictionary registration candidate extraction means for each extraction method;
A dictionary registration candidate editing unit that edits a character string of the dictionary registration candidate extracted by the dictionary registration candidate extraction unit.
入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出手段と、
前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理手段と、
前記辞書登録候補抽出手段により抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能な出力情報制御手段と、
前記辞書登録候補管理手段により管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集手段と
を含むことを特徴とする辞書登録支援装置。
Dictionary registration candidate extraction means for extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods;
Dictionary registration candidate management means for managing a set of a character string of the dictionary registration candidate extracted by the dictionary registration candidate extraction means and a character string before and after the dictionary registration candidate,
Output information control means capable of switching and outputting a character string of a dictionary registration candidate extracted by the dictionary registration candidate extraction means for each extraction method;
A dictionary registration section for editing a character string section of a dictionary registration candidate by moving a boundary between a character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate when editing the dictionary registration candidate managed by the dictionary registration candidate management unit. A dictionary registration support device comprising editing means.
入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出ステップと、
前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、
前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップと
を含むことを特徴とする辞書登録支援方法。
A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data;
A dictionary registration candidate management step of managing the dictionary registration candidate character string extracted in the dictionary registration candidate extraction step and the character strings before and after the pair, and
A dictionary registration section for editing a character string section of a dictionary registration candidate by moving a boundary between a character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate when editing the dictionary registration candidate managed in the dictionary registration candidate management step. And an editing step.
前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項10記載の辞書登録支援方法。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character string before and after the character string, the character string of the dictionary registration candidate in units of words 11. The dictionary registration support method according to claim 10, wherein a boundary between the character string and a character string before and after the character string is moved. 前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項10記載の辞書登録支援方法。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after it, the character string section in which the same character type continues is used as a unit. 11. The dictionary registration support method according to claim 10, wherein the boundary between the character string of the dictionary registration candidate and the character strings before and after it is moved. 前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項10記載の辞書登録支援方法。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate, the character string of the dictionary registration candidate in units of phrases 11. The dictionary registration support method according to claim 10, wherein a boundary between the character string and a character string before and after the character string is moved. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御ステップを、さらに含むことを特徴とする請求項10,請求項11,請求項12または請求項13記載の辞書登録支援方法。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after the pairs are managed, and a set of the dictionary registration candidate character strings output from them and the character strings before and after the pairs are managed. 14. The dictionary registration support method according to claim 10, further comprising an output information control step in which a user can appropriately select the output information. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御ステップを、さらに含むことを特徴とする請求項10,請求項11,請求項12または請求項13記載の辞書登録支援方法。The dictionary registration candidate character string extracted from the input text data and the preceding and following character strings are managed as a set and a plurality of sets are managed, and when outputting them, the most common dictionary registration candidate character strings are used. An output information control step of controlling to output a set of character strings with a high frequency of appearance before and after as a representative set of character strings before and after together with the character strings of each dictionary registration candidate. 14. The dictionary registration support method according to claim 10, claim 11, 12, or 13. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御ステップを、さらに含むことを特徴とする請求項10,請求項11,請求項12または請求項13記載の辞書登録支援方法。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after them are managed as a set, and when they are output, the managed dictionary registration candidate character strings and the before and after the strings are managed. 11. An output information control step capable of switching between a case where all pairs of character strings are output and a case where dictionary registration candidates of the same character string are output collectively are output. 14. The dictionary registration support method according to claim 11, claim 12, or claim 13. 入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、
前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、
前記辞書登録候補抽出ステップで抽出された辞書登録候補を編集する辞書登録候補編集ステップと
を含むことを特徴とする辞書登録支援方法。
A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods;
An output information control step of switching a character string of the dictionary registration candidate extracted in the dictionary registration candidate extraction step for each extraction method and enabling output,
A dictionary registration candidate editing step of editing the dictionary registration candidate extracted in the dictionary registration candidate extraction step.
入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、
前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、
前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、
前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップと
を含むことを特徴とする辞書登録支援方法。
A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary from the input text data by a plurality of different methods;
A dictionary registration candidate management step of managing the dictionary registration candidate character string extracted in the dictionary registration candidate extraction step and the character strings before and after the pair, and
An output information control step of switching a character string of the dictionary registration candidate extracted in the dictionary registration candidate extraction step for each extraction method and enabling output,
A dictionary registration section for editing a character string section of a dictionary registration candidate by moving a boundary between a character string of the dictionary registration candidate and a character string before and after the dictionary registration candidate when editing the dictionary registration candidate managed in the dictionary registration candidate management step. And an editing step.
入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを含むことを特徴とするプログラム。A program for causing a computer to execute a dictionary registration support method for supporting a work of newly registering character strings such as words, idioms, and phrases included in input text data in a dictionary. A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary, and a set of the dictionary registration candidate character string extracted in the dictionary registration candidate extraction step and its preceding and succeeding character strings are managed. A dictionary registration candidate management step, and moving the boundary between the dictionary registration candidate character string and the character strings before and after the dictionary registration candidate character string when editing the dictionary registration candidate managed in the dictionary registration candidate management step. A dictionary registration section editing step of editing a section. 前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、単語を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項19記載のプログラム。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character string before and after the character string, the character string of the dictionary registration candidate in units of words 20. The program according to claim 19, wherein a boundary between the character string and the character string before and after the character string is moved. 前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、同一の文字種が続く文字列区間を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項19記載のプログラム。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after it, the character string section in which the same character type continues is used as a unit. 20. The program according to claim 19, wherein a boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate is moved. 前記辞書登録区間編集ステップにおいて、辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する際に、文節を単位として辞書登録候補の文字列とその前後文字列との境界を移動させることを特徴とする請求項19記載のプログラム。In the dictionary registration section editing step, when the character string section of the dictionary registration candidate is edited by moving the boundary between the character string of the dictionary registration candidate and the character strings before and after the dictionary registration candidate, the character string of the dictionary registration candidate in units of phrases 20. The program according to claim 19, wherein a boundary between the character string and the character string before and after the character string is moved. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらの中から出力する辞書登録候補の文字列とその前後文字列との組をユーザが適宜選択することが可能な出力情報制御ステップを、さらに含むことを特徴とする請求項19,請求項20,請求項21または請求項22記載のプログラム。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after the pairs are managed, and a set of the dictionary registration candidate character strings output from them and the character strings before and after the pairs are managed. 23. The program according to claim 19, further comprising an output information control step in which a user can appropriately select the output information. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、辞書登録候補の文字列が共通する中で、最も出現頻度の高い前後文字列の組を代表の前後文字列の組として各辞書登録候補の文字列とあわせて最初に出力するように制御する出力情報制御ステップを、さらに含むことを特徴とする請求項19,請求項20,請求項21または請求項22記載のプログラム。The dictionary registration candidate character string extracted from the input text data and the preceding and following character strings are managed as a set and a plurality of sets are managed, and when outputting them, the most common dictionary registration candidate character strings are used. An output information control step of controlling to output a set of character strings with a high frequency of appearance before and after as a representative set of character strings before and after together with the character strings of each dictionary registration candidate. 23. The program according to claim 19, claim 20, claim 21, or claim 22. 前記入力テキストデータから抽出された辞書登録候補の文字列とその前後の文字列とを組にして複数組管理し、それらを出力するときに、管理している辞書登録候補の文字列とその前後文字列との組を複数組全て出力する場合と、同じ文字列の辞書登録候補をまとめて出力する場合とを切り替えて出力可能な出力情報制御ステップを、さらに含むことを特徴とする請求項19,請求項20,請求項21または請求項22記載のプログラム。A plurality of sets of the dictionary registration candidate character strings extracted from the input text data and the character strings before and after them are managed as a set, and when they are output, the managed dictionary registration candidate character strings and the before and after the strings are managed. 20. The method according to claim 19, further comprising: an output information control step of switching between a case where all pairs of character strings are output and a case where dictionary registration candidates of the same character string are output collectively. 23. The program according to claim 20, claim 21, or claim 22. 入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補を編集する辞書登録候補編集ステップとを含むことを特徴とするプログラム。A program for causing a computer to execute a dictionary registration support method for supporting a work of newly registering character strings such as words, idioms, and phrases included in input text data in a dictionary. A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary by a plurality of different methods, and a character string of the dictionary registration candidate extracted in the dictionary registration candidate extraction step is switched for each extraction method. And a dictionary registration candidate editing step of editing the dictionary registration candidate extracted in the dictionary registration candidate extraction step. 入力テキストデータに含まれている単語,熟語,フレーズなどの文字列を新たに辞書に登録する作業を支援する辞書登録支援方法をコンピュータに実行させるためのプログラムであって、前記入力テキストデータから、辞書に追加登録すべき辞書登録候補の文字列を複数の異なる手法で抽出する辞書登録候補抽出ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列とその前後文字列とを組にして管理する辞書登録候補管理ステップと、前記辞書登録候補抽出ステップで抽出された辞書登録候補の文字列をその抽出手法毎に切り替えて出力可能にする出力情報制御ステップと、前記辞書登録候補管理ステップで管理された辞書登録候補を編集する際に辞書登録候補の文字列とその前後文字列との境界を移動させることで辞書登録候補の文字列区間を編集する辞書登録区間編集ステップとを含むことを特徴とするプログラム。A program for causing a computer to execute a dictionary registration support method for supporting a work of newly registering character strings such as words, idioms, and phrases included in input text data in a dictionary, comprising: A dictionary registration candidate extraction step of extracting a character string of a dictionary registration candidate to be additionally registered in the dictionary by a plurality of different methods; and a dictionary registration candidate character string extracted in the dictionary registration candidate extraction step and character strings before and after the dictionary registration candidate character string. A dictionary registration candidate management step of managing a set of dictionary registration candidates; an output information control step of switching a character string of the dictionary registration candidate extracted in the dictionary registration candidate extraction step for each extraction method to enable output; When editing the dictionary registration candidate managed in the management step, it is necessary to move the boundary between the character string of the dictionary registration candidate and the character strings before and after it. A program characterized by in that includes a dictionary registration section editing step of editing the text section of the dictionary registration candidate.
JP2003137093A 2003-05-15 2003-05-15 Dictionary registration support device and method, and program Pending JP2004341791A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003137093A JP2004341791A (en) 2003-05-15 2003-05-15 Dictionary registration support device and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003137093A JP2004341791A (en) 2003-05-15 2003-05-15 Dictionary registration support device and method, and program

Publications (1)

Publication Number Publication Date
JP2004341791A true JP2004341791A (en) 2004-12-02

Family

ID=33526841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003137093A Pending JP2004341791A (en) 2003-05-15 2003-05-15 Dictionary registration support device and method, and program

Country Status (1)

Country Link
JP (1) JP2004341791A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
JP2018010352A (en) * 2016-07-11 2018-01-18 富士ゼロックス株式会社 Translation device, dictionary correction support device, translation system, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
JP2018010352A (en) * 2016-07-11 2018-01-18 富士ゼロックス株式会社 Translation device, dictionary correction support device, translation system, and program

Similar Documents

Publication Publication Date Title
JP4463256B2 (en) System and method for providing automatically completed recommended words that link multiple languages
McEnery et al. The Lancaster Corpus of Mandarin Chinese: A corpus for monolingual and contrastive language study
US8726148B1 (en) Method and apparatus for processing text and character data
TWI470450B (en) All-in-one chinese character input method and electronic device thereof
JP5513898B2 (en) Shared language model
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US9286278B2 (en) Range-based text editing
JP5652824B2 (en) Text input device, translation device including the same, text input method, and computer program
JP2004341791A (en) Dictionary registration support device and method, and program
JP2017228307A (en) Subject verb matching error detection device and matching error detection program
JP5564932B2 (en) Document proofreading support apparatus, program and method
CN107423293A (en) The method and apparatus of data translation
JP5628485B2 (en) Translation support system and method and program thereof
JP5085975B2 (en) Japanese proper expression extraction device, Japanese proper expression extraction method, and program for causing computer to execute the method
EP4109435A1 (en) Braille editting method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
JP3999771B2 (en) Translation support program, translation support apparatus, and translation support method
CN102270047A (en) Initial-matching associated input method for Mongolian
JP3692711B2 (en) Machine translation device
JPS62203274A (en) Mechanical translation system
JP2001109740A (en) Chinese document creation device and Chinese document creation method
JP5742454B2 (en) Input support program, input support apparatus, and input support method
JP2634596B2 (en) Kana-Kanji conversion device
JP2025180752A (en) Information processing device, control method for information processing device, and program
JP2004152323A (en) Kana-kanji conversion apparatus and method
JPH10254877A (en) Style converter, word processor and style converting method

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070313