JP2006163941A - Duplicate record detection system and, duplicate record detection program - Google Patents
Duplicate record detection system and, duplicate record detection program Download PDFInfo
- Publication number
- JP2006163941A JP2006163941A JP2004355789A JP2004355789A JP2006163941A JP 2006163941 A JP2006163941 A JP 2006163941A JP 2004355789 A JP2004355789 A JP 2004355789A JP 2004355789 A JP2004355789 A JP 2004355789A JP 2006163941 A JP2006163941 A JP 2006163941A
- Authority
- JP
- Japan
- Prior art keywords
- record
- duplicate
- word
- candidates
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 217
- 238000000605 extraction Methods 0.000 claims abstract description 108
- 238000004364 calculation method Methods 0.000 claims abstract description 68
- 239000000284 extract Substances 0.000 claims abstract description 34
- 238000012217 deletion Methods 0.000 claims description 15
- 230000037430 deletion Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 19
- 230000000877 morphologic effect Effects 0.000 description 7
- 240000000220 Panda oleosa Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、店舗等の情報が登録されたデータベースに重複して登録されている情報を検出する重複レコード検出システム、および重複レコード検出プログラムに関する。 The present invention relates to a duplicate record detection system and a duplicate record detection program for detecting information that is duplicately registered in a database in which information such as stores is registered.
店舗や、人物、書物等の情報によって構成されるデータベースに、重複する情報が登録されている場合がある。 Duplicate information may be registered in a database composed of information on stores, people, books, and the like.
具体的には、例えば、同じ情報が異なる書式でデータベースに登録されていたり、同義であるが異なる語によってデータベースに登録されていたりする。同じ情報が重複してデータベースに登録されていると、データベースの容量が大きくなってしまったりするという問題がある。 Specifically, for example, the same information is registered in the database in different formats, or is registered in the database with synonymous but different words. If the same information is duplicated and registered in the database, there is a problem that the capacity of the database becomes large.
データベースの容量を削減するために、特許文献1には、多数の人物の情報が登録されているデータベースから、同一人物の情報の重複登録を検出するシステムが記載されている。
In order to reduce the capacity of the database,
また、特許文献2には、書物の情報が登録されているデータベースから一の書物を検索対象として抽出する際に、異なる書式によって同一の書物が複数重複してデータベースに登録されていても、検索対象となる書物をすべて抽出する装置が記載されている。
Further, in
特許文献1に記載されているシステムは、例えば、カナ氏名、漢字氏名、カナ住所、漢字住所、生年月日などの書式を、統一した表記法による書式に正規化することによって、同一人物の情報の重複登録を検出する。
For example, the system described in
しかし、特許文献1に記載されているシステムは、同義であるが異なる語によってデータベースに登録されている情報の重複登録を検出することができないという問題がある。具体的には、例えば、同一人物の生年月日が西暦と和暦とで重複して登録されていると、重複登録を検出することができない。また、同一人物の住所の情報が、「東京都千代田区・・」という表記と、「都内千代田区・・」という表記とで重複して登録されていると、重複登録を検出することができない。
However, the system described in
また、特許文献2に記載されている装置は、入力された検索対象の書物の情報と、データベースに登録されている書物の情報との類似度を算出して類似度の高い書物を検索結果として抽出するが、同義であるが異なる語によってデータベースに登録されている情報の類似度は低くなるため、そのような書物は抽出されにくいという問題がある。
In addition, the apparatus described in
具体的には、例えば、検索対象の書物の名称として「にほん」と入力された場合、「にっぽん」という名称の書物の類似度は低く算出されるため、「にっぽん」という名称の書物は抽出されにくくなってしまう。 Specifically, for example, when “Nihon” is entered as the name of the book to be searched, the similarity of the book with the name “Japan” is calculated to be low, so the book with the name “Japan” is extracted. It becomes difficult.
そこで、本発明は、同義語や省略可能語による表記の差異があっても、重複する情報をデータベースから検出する重複レコード検出システム、および重複レコード検出プログラムを提供することを目的とする。 Therefore, an object of the present invention is to provide a duplicate record detection system and a duplicate record detection program for detecting duplicate information from a database even if there is a difference in notation due to synonyms and abbreviations.
本発明による重複レコード検出システムは、語に対応する変換語を記憶する変換語記憶部と、複数の情報からなる複数のレコードを保持するデータベースに登録されている情報に用いられている語を、変換語記憶部が記憶している変換語に変換して、レコード間の類似度を計算する類似度計算部と、類似度計算部が計算した類似度が、所定の値以上であるレコードの組み合わせである重複レコード候補を抽出する重複候補抽出部とを備えたことを特徴とする。 The duplicate record detection system according to the present invention includes a conversion word storage unit that stores conversion words corresponding to words, and words used in information registered in a database that holds a plurality of records composed of a plurality of pieces of information. A combination of a record that is converted into a conversion word stored in the conversion word storage unit and calculates a similarity between records, and a record in which the similarity calculated by the similarity calculation unit is a predetermined value or more The duplication candidate extraction part which extracts the duplication record candidate which is is characterized by the above-mentioned.
変換語記憶部は、同義語を変換語として記憶してもよく、類似度計算部は、データベースに登録されている情報に用いられている語を、対応する同義語に変換してレコード間の類似度を計算してもよい。 The conversion word storage unit may store the synonym as the conversion word, and the similarity calculation unit converts the word used in the information registered in the database into a corresponding synonym and records between the records. Similarity may be calculated.
変換語記憶部は、省略可能な語である省略可能語を変換語として記憶してもよく、類似度計算部は、データベースに登録されている情報に用いられている語に、対応する省略可能語を追加してレコード間の類似度を計算してもよい。 The conversion word storage unit may store an optional word that is an optional word as a conversion word, and the similarity calculation unit can be omitted corresponding to the word used in the information registered in the database. Words may be added to calculate the similarity between records.
データベースのレコードを構成し、データベースのレコードに登録されている情報が区切られる単位であるフィールドの情報を入力するデータベース情報入力部を含んでもよく、類似度計算部は、データベース情報入力部に入力されたフィールドの情報にもとづいて、フィールド間の類似度を計算し、計算したフィールド間の類似度を用いて、レコード間の類似度を計算してもよい。そのような構成によれば、フィールド間の類似度を用いて、レコード間の類似度を計算することができる。 It may include a database information input unit that configures a database record and inputs field information that is a unit in which information registered in the database record is separated. The similarity calculation unit is input to the database information input unit. The similarity between the fields may be calculated based on the field information, and the similarity between the records may be calculated using the calculated similarity between the fields. According to such a configuration, the similarity between records can be calculated using the similarity between fields.
重複候補抽出部が抽出した重複レコード候補が、互いに同一の内容の情報のレコードの組み合わせである重複レコードであるか否かを判定するルールである重複判定ルールを記憶する重複判定ルール記憶部と、重複判定ルール記憶部が記憶している重複判定ルールにもとづいて、重複レコード候補が重複レコードであるか否かを判定する重複レコード判定部とを含んでもよい。そのような構成によれば、重複レコード候補が重複レコードであるか否かを、自動的に判定することができる。 A duplicate determination rule storage unit that stores a duplicate determination rule that is a rule for determining whether or not the duplicate record candidate extracted by the duplicate candidate extraction unit is a duplicate record that is a combination of records of the same content information; A duplicate record determination unit that determines whether or not a duplicate record candidate is a duplicate record based on the duplicate determination rule stored in the duplicate determination rule storage unit may be included. According to such a configuration, it is possible to automatically determine whether or not a duplicate record candidate is a duplicate record.
重複レコード判定部が重複レコードであると判定したレコードから、変換語の候補である変換語候補を抽出する変換語候補抽出部を含んでもよい。そのような構成によれば、重複レコードから、変換語候補を抽出することができる。 You may include the conversion word candidate extraction part which extracts the conversion word candidate which is a conversion word candidate from the record which the duplication record determination part determined to be a duplication record. According to such a configuration, conversion word candidates can be extracted from duplicate records.
変換語候補抽出部は、抽出した変換語候補のうち、重複レコードの各レコードの差異部分を、同義語の候補である同義語候補としてそれぞれ抽出してもよい。また、変換語候補抽出部は、重複レコードの一のレコードが、重複レコードの他のレコードに含まれる場合、一のレコードと他のレコードとの差異の部分、および一のレコードと他のレコードとが共通する部分を、省略可能な語である省略可能語の候補である省略可能語候補としてそれぞれ抽出してもよい。 A conversion word candidate extraction part may each extract the difference part of each record of a duplicate record among the extracted conversion word candidates as a synonym candidate which is a candidate of a synonym. In addition, when one record of the duplicate record is included in the other record of the duplicate record, the conversion word candidate extraction unit determines the difference between the one record and the other record, and the one record and the other record. May be extracted as omissible word candidates that are omissible word candidates that are omissible words.
変換語候補抽出部は、抽出した同義語候補が、いずれも他のレコードに含まれていると、同義語候補を省略可能語候補に変更してもよいし、変換語候補抽出部は、抽出した同義語候補のうち、他の同義語候補や、省略可能語候補の組み合わせで構成されている同義語候補を、同義語候補から除外してもよいし、変換語候補抽出部は、省略可能語候補のうち、同義語候補や、他の省略可能語候補に含まれている省略可能語候補を、省略可能語候補から除外してもよい。 The conversion word candidate extraction unit may change the synonym candidate to an omissible word candidate when all the extracted synonym candidates are included in other records, or the conversion word candidate extraction unit extracts Among the synonym candidates, other synonym candidates or synonym candidates composed of combinations of omissible word candidates may be excluded from the synonym candidates, and the conversion word candidate extraction unit may be omitted. Among word candidates, synonym candidates and omissible word candidates included in other omissible word candidates may be excluded from omissible word candidates.
変換語候補抽出部は、同義語候補を同義語として変換語記憶部に記憶させ、省略可能語候補を省略可能語として変換語記憶部に記憶させてもよい。そのような構成によれば、変換語記憶部に、同義語と省略可能語とを記憶させることができる。 The conversion word candidate extraction unit may store the synonym candidate as a synonym in the conversion word storage unit and store the omissible word candidate as an omissible word in the conversion word storage unit. According to such a configuration, synonyms and abbreviations can be stored in the conversion word storage unit.
重複レコード候補と変換語候補とを出力し、使用者が、重複レコード候補が重複レコードであるか否か、および変換語候補が変換語であるか否かの判定を入力する入出力部を含んでもよく、重複レコード判定部は、入出力部に出力する重複レコード候補の数が少なくなる順番で重複レコード候補を入出力部に出力してもよく、変換語候補抽出部は、入出力部に出力する変換語候補の数が少なくなる順番で変換語候補を入出力部に出力してもよい。そのような構成によれば、使用者が、入出力部を介して判定を入力する回数を減らすことができる。 Includes an input / output unit that outputs duplicate record candidates and conversion word candidates, and a user inputs whether or not the duplicate record candidate is a duplicate record and whether or not the conversion word candidate is a conversion word The duplicate record determination unit may output the duplicate record candidates to the input / output unit in the order in which the number of duplicate record candidates to be output to the input / output unit decreases, and the conversion word candidate extraction unit The conversion word candidates may be output to the input / output unit in the order in which the number of conversion word candidates to be output decreases. According to such a configuration, it is possible to reduce the number of times that the user inputs the determination through the input / output unit.
重複レコード判定部は、重複レコードであると判定しなかった重複レコード候補のうち、重複レコード候補を構成するレコードの数が多い順に、重複レコード候補を入出力部に出力してもよい。 The duplicate record determination unit may output the duplicate record candidates to the input / output unit in descending order of the number of records constituting the duplicate record candidate among the duplicate record candidates that have not been determined to be duplicate records.
重複レコード判定部は、重複レコードであると判定しなかった重複レコード候補を変換語候補抽出部に出力してもよく、変換語候補抽出部は、変換語候補を抽出した数が多い重複レコード候補から抽出した変換語候補から順に入出力部に出力してもよい。 The duplicate record determination unit may output a duplicate record candidate that has not been determined to be a duplicate record to the conversion word candidate extraction unit, and the conversion word candidate extraction unit has a large number of conversion record candidates extracted. May be output to the input / output unit in order from the conversion word candidates extracted from.
重複レコードであると重複レコード判定部、または入出力部を介して使用者に判定されたレコードの組み合わせを記憶する重複レコードデータベースと、重複レコードデータベースが記憶しているレコードの組み合わせを構成するレコードのうち、一のレコード以外のレコードをデータベースから削除する重複レコード削除部とを含んでもよい。そのような構成によれば、重複レコードをデータベースから削除することができる。 The duplicate record database that stores the combination of records determined by the user via the duplicate record determination unit or the input / output unit if it is a duplicate record, and the records that make up the combination of records stored in the duplicate record database Of these, a duplicate record deletion unit that deletes records other than one record from the database may be included. According to such a configuration, duplicate records can be deleted from the database.
データベースに登録すべく使用者が入力した情報の語を、変換語記憶部が記憶している変換語に変換して、変換した語、または入力された情報の語と合致する語からなる情報を含むレコードをデータベースから抽出するデータベース登録部と、データベース登録部が抽出したレコードを表示する表示部とを含んでもよい。そのような構成によれば、重複する情報のデータベースへの登録を防ぐことができる。 The information word input by the user to be registered in the database is converted into the conversion word stored in the conversion word storage unit, and the converted word or the information consisting of the word that matches the input information word You may include the database registration part which extracts the record to include from a database, and the display part which displays the record which the database registration part extracted. According to such a configuration, registration of duplicate information in the database can be prevented.
本発明による重複レコード検出プログラムは、コンピュータに、複数の情報からなる複数のレコードを保持するデータベースに登録されている情報に用いられている語を、語に対応する変換語を記憶する変換語記憶部が記憶している変換語に変換して、レコード間の類似度を計算させる類似度計算処理と、類似度計算処理で計算した類似度が、所定の値以上であるレコードの組み合わせである重複レコード候補を抽出させる重複候補抽出処理とを実行させることを特徴とする。 A duplicate record detection program according to the present invention stores a conversion word corresponding to a word, which is used in information registered in a database holding a plurality of records composed of a plurality of information in a computer. Is a combination of a combination of records in which the similarity calculated by converting to the conversion word stored in the section and calculating the similarity between the records and the similarity calculated by the similarity calculation is equal to or greater than a predetermined value A duplication candidate extraction process for extracting record candidates is executed.
本発明によれば、同義語や省略可能語による表記の差異があっても、重複する情報をデータベースから検出することができる。 According to the present invention, duplicate information can be detected from a database even if there is a difference in notation due to synonyms and abbreviations.
実施の形態1.
本発明の第1の実施の形態について、図面を参照して説明する。図1は、本発明の第1の実施の形態の一構成例を説明するブロック図である。
A first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration example of the first embodiment of the present invention.
本発明の第1の実施の形態による重複レコード検出システム20は、同義語が登録されている同義語辞書と、省略可能な語が登録されている省略可能語辞書とによって構成される変換語辞書(変換語記憶部)5、変換語辞書5を用いて、店舗の情報が登録されているデータベース2に登録されている複数のレコード間の類似度を計算する類似度計算部3、類似度計算部3が計算した類似度が所定の閾値以上であった情報を抽出する重複候補抽出部6、および各部の動作を制御するプログラムを記憶する記憶部1を含む。
The duplicate
重複レコード検出システム20は、プログラムによって処理を実行するサーバ等のコンピュータによって実現される。なお、重複レコード検出システム20は、外部の記憶媒体が記憶しているプログラムに従って処理を実行してもよい。また、変換語辞書5は、予め同義語および省略可能語が登録されているものとする。
The duplicate
図2は、データベース2に登録されている情報の例を示す説明図である。データベース2には、例えば、店舗の名称や住所、電話番号が登録されている。なお、データベース2には、各店舗の情報が、レコードに区切られて登録され、店舗の各情報は、登録されているレコードの各情報の属性に応じたフィールドに区切られて登録されているものとする。具体的には、図2に示す例では、レコードIDが「001」のレコードには「エヌイーシー奈良支店」の各情報が登録され、レコードIDが「002」のレコードには「日電奈良支店」の各情報が登録され、レコードIDが「003」のレコードには「NEC奈良支店」の各情報が登録されている。
FIG. 2 is an explanatory diagram showing an example of information registered in the
また、データベース2の各レコードの名称のフィールドには、「エヌイーシー奈良支店」、「日電奈良支店」、および「NEC奈良支店」が登録されており、住所のフィールドには、「○○○1の1」、「○○○1−1」、および「○○○1−1」が登録されており、電話番号のフィールドには、「000−111−1234」、「000−111−1235」、および「000−111−1234」が登録されているものとする。
In addition, “NC Nara branch”, “Nippen Nara branch”, and “NEC Nara branch” are registered in the name field of each record in the
なお、データベース2における各レコードのフィールドの数等の情報を入力し、入力されたデータベース2の情報を類似度計算部3に出力するデータベース情報入力部4を含んでもよい。データベース情報入力部4には、使用者がキーボード等の入力手段を用いてデータベース2の情報を入力してもよい。また、データベース情報入力部4は、記憶部1や外部の記憶媒体が記憶しているデータベース2の情報を読み込んでもよい。
The
データベース情報入力部4には、例えば、どのフィールドは何を表しているのか(例えば、各レコードの先頭のフィールドはIDである等)、どのフィールドとどのフィールドとを結合して1つのフィールドとして扱う(例えば、住所が「都道府県」、「市町村」、および「番地とビル名」に分かれている各フィールドを1つのフィールドとして扱う等)のか、どのフィールドの類似度計算に変換語辞書5を用いるのか、およびレコード間の類似度を算出する際の各フィールドの重み(名称フィールド、住所フィールド、および電話番号フィールドの重みの比を、1:1:1とする)等の情報を入力する。
In the database
図3は、変換語辞書5に登録されている情報の例を示す説明図である。変換語辞書5を構成する同義語辞書には、語と、その語の同義語のうち代表的な語である代表語とが対応づけられて登録されている。また、変換語辞書5を構成する省略可能語辞書には、代表語のうち、相互に省略可能な代表語に同じグループIDが付されて登録されている。 FIG. 3 is an explanatory diagram showing an example of information registered in the conversion word dictionary 5. In the synonym dictionary constituting the conversion word dictionary 5, a word and a representative word that is a representative word among the synonyms of the word are registered in association with each other. Further, in the omissible word dictionary constituting the conversion word dictionary 5, the representative group that can be omitted among the representative words is registered with the same group ID.
図3の例によれば、「エヌイーシー」と「日本電気」との代表語は「NEC」であり、「日本電気株式会社」の代表語は「日電」である。また、「NEC」と「日電」とは相互に省略可能な省略可能語である。 According to the example of FIG. 3, the representative word for “NC” and “NEC” is “NEC”, and the representative word for “NEC” is “Nippon Electric”. “NEC” and “Nikkei” are abbreviations that can be omitted from each other.
なお、同義語辞書において、同義語の欄の語は、代表語として用いられることはないものとする。また、省略可能語辞書において、省略可能語として登録されている語は、代表語であってもよいが、同義語ではないものとする。 In the synonym dictionary, the words in the synonym column are not used as representative words. In the abbreviation word dictionary, a word registered as an abbreviation word may be a representative word, but is not a synonym.
類似度計算部3は、例えば、形態素解析等の方法を用いて、データベース2に登録されている各情報を語の単位に分解する。なお、情報を語の単位に分解する他の方法として、例えば、スペースの前後で語の単位に分解したり、文字種が切り替わる位置(例えば、カタカナから漢字に切り替わる位置等)で語の単位に分解したりする方法がある。類似度計算部3は、同義語辞書を検索して、分解した語が同義語辞書に同義語として登録されていると、その同義語に対応づけられている代表語に変換する。
The
類似度計算部3は、省略可能語辞書を検索して、代表語に変換された語が省略可能語として登録されていると、同じグループIDが付されている省略可能語を、データベース2に登録されているレコードの語に追加する。そして、類似度計算部3は、代表語に変換され、省略可能語が追加された各レコード間の類似度を計算する。
The
類似度計算部3が各レコード間の類似度を計算する方法は、例えば、各情報の対応するフィールドの語の文字を先頭から1文字ずつ比較していき、合致すればその文字の類似度を1とし、合致しなければその文字の類似度を0とする。そして、例えば、各文字の類似度を合計した数を、語の文字数で割った商(すなわち、0から1の間で正規化した値)をそのフィールドの類似度とする。なお、各情報のフィールドの語の文字数が異なっている場合は、各フィールドを構成する語のうち最も多い文字数で、各文字の類似度を合計した数を割った商をそのフィールドの類似度とする。
For example, the
そして、類似度計算部3は、各フィールドの類似度に、各フィールドごとの所定の重みの値を乗じた積を合計した数を、フィールドの数で割った商(すなわち、0から1の間で正規化した値)を、レコードの類似度として計算する。
Then, the
本発明の類似度の計算方法は、上述した方法に限定されるものではなく、編集距離を用いる方法等の、他の方法を用いてもよい。なお、類似度計算部3は、データベース情報入力部4に入力された情報にもとづいて、各フィールドおよび各レコードの類似度を計算してもよい。
The similarity calculation method of the present invention is not limited to the above-described method, and other methods such as a method using an edit distance may be used. Note that the
重複候補抽出部6は、類似度計算部3が計算した類似度が、所定の閾値以上であるレコードの組を、重複レコード候補として抽出する。なお、重複候補抽出部6は、他の方法を用いて、重複レコード候補を抽出してもよい。
The duplication
重複レコード検出システム20は、コンピュータに、複数の情報からなる複数のレコードを保持するデータベースに登録されている情報に用いられている語を、語に対応する変換語を記憶する変換語辞書5が記憶している変換語に変換して、レコード間の類似度を計算させる類似度計算処理と、類似度計算処理で計算した類似度が、所定の値以上であるレコードの組み合わせである重複レコード候補を抽出させる重複候補抽出処理とを実行させるための重複レコード検出プログラムを搭載している。
The duplicate
次に、本発明の第1の実施の形態の動作を、具体例を挙げて図面を参照して説明する。図2の例に示すデータベース2に登録されている情報から、重複レコード候補を抽出する。図4は、本発明の第1の実施の形態の動作を説明するフローチャートである。
Next, the operation of the first exemplary embodiment of the present invention will be described with reference to the drawings with a specific example. Duplicate record candidates are extracted from the information registered in the
まず、類似度計算部3が、データベース2に登録されている情報を読み込む(ステップS101)。レコードIDが「001」のレコードの名称のフィールドは、「エヌイーシー奈良支店」である。類似度計算部3は、「エヌイーシー奈良支店」に形態素解析等を行って語に分解する(ステップS102)。具体的には、「エヌイーシー」と「奈良」と「支店」とに分解する。
First, the
なお、ここでは、データベース情報入力部4に入力された情報が、名称フィールド、および住所フィールドの類似度計算に、変換語辞書5を用いることを示していたものとする。すると、類似度計算部3は、変換語辞書5を参照して、分解した語が同義語であれば代表語に変換する(ステップS103)。図3を参照すると、「エヌイーシー」が同義語であるので、「エヌイーシー」を代表語である「NEC」に変換する。「奈良」および「支店」は同義語辞書に登録されていないので変換を行わない。すると、レコードID「001」の語は、「NEC」、「奈良」、および「支店」である。
Here, it is assumed that the information input to the database
次に、類似度計算部3は、変換語辞書5を参照して、省略可能語があれば、同じグループIDの省略可能語を追加する(ステップS104)。図3を参照すると、「NEC」と「日電」とが同じグループIDの省略可能語であるので、「日電」を追加する。すると、レコードID「001」の語は、「NEC」、「日電」、「奈良」、および「支店」である。
Next, the
類似度計算部3は、分解した語を結合する(ステップS105)。すると、レコードID「001」のレコードの名称のフィールドは、「NEC日電奈良支店」および「日電NEC奈良支店」に変換される。
The
類似度計算部3は、上述したステップS101からステップS105の動作を、レコードID「002」およびレコードID「003」に対しても行う。
The
具体的には、レコードIDが「002」のレコードの名称のフィールドは、「日電奈良支店」である。類似度計算部3は、「日電奈良支店」に形態素解析を行って語に分解する。具体的には、「日電」と「奈良」と「支店」とに分解する。
Specifically, the field of the record name with the record ID “002” is “Nippon Nara Branch”. The
類似度計算部3は、変換語辞書5を参照して、分解した各語が同義語であれば代表語に変換する。図3を参照すると、「日電」は代表語であり、「奈良」および「支店」は同義語辞書に登録されていないので変換を行わない。
The
次に、類似度計算部3は、変換語辞書5を参照して、省略可能語があれば、同じグループIDの省略可能語を追加する。図3を参照すると、「NEC」と「日電」とが同じグループIDの省略可能語であるので、「NEC」を追加する。すると、レコードID「002」の語は、「NEC」、「日電」、「奈良」、および「支店」である。
Next, the
類似度計算部3は、分解した語を結合する。すると、レコードID「002」のレコードの名称のフィールドは、「NEC日電奈良支店」および「日電NEC奈良支店」に変換される。
The
同様に、レコードIDが「003」のレコードの名称のフィールドは、「NEC奈良支店」である。類似度計算部3は、「NEC奈良支店」に形態素解析を行って語に分解する。具体的には、「NEC」と「奈良」と「支店」とに分解する。
Similarly, the field of the name of the record with the record ID “003” is “NEC Nara branch”. The
類似度計算部3は、変換語辞書5を参照して、分解した各語が同義語であれば代表語に変換する。図3を参照すると、「NEC」が代表語であり、「奈良」および「支店」は同義語辞書に登録されていないので変換を行わない。
The
次に、類似度計算部3は、変換語辞書5を参照して、省略可能語があれば、同じグループIDの省略可能語を追加する。図3を参照すると、「NEC」と「日電」とが同じグループIDの省略可能語であるので、「日電」を追加する。すると、レコードID「006」の語は、「NEC」、「日電」、「奈良」、および「支店」である。
Next, the
類似度計算部3は、分解した語を結合する。すると、レコードID「003」のレコードの名称のフィールドは、「NEC日電奈良支店」および「日電NEC奈良支店」に変換される。
The
次に、類似度計算部3は、変換したレコードID「001」、「002」および「003」の名称のフィールドの相互の類似度を計算する(ステップS106)。
Next, the
まず、レコードID「001」の名称のフィールドと、レコードID「002」の名称のフィールドとの類似度を計算する。レコードID「001」の変換後の名称のフィールドは、「NEC日電奈良支店」と、「日電NEC奈良支店」とであり、レコードID「002」の変換後の名称のフィールドは、「NEC日電奈良支店」と、「日電NEC奈良支店」とである。レコードID「001」の「NEC日電奈良支店」と、レコードID「002」の「NEC日電奈良支店」とは、9文字中9文字が合致するので、9×1÷9=1となり、類似度は1である。
First, the similarity between the field with the record ID “001” and the field with the record ID “002” is calculated. The converted name fields of the record ID “001” are “NEC Niden Nara Branch” and “Nikden NEC Nara Branch”, and the converted name field of the record ID “002” is “NEC Niden Nara Branch”. “Nippon NEC Nara Branch”. Since “NEC Niden Nara Branch” with record ID “001” and “NEC Niden Nara Branch” with record ID “002”
同様に、レコードID「001」の「日電NEC奈良支店」と、レコードID「002」の「日電NEC奈良支店」とは、9文字中9文字が合致するので、9×1÷9=1となり、類似度は1である。
Similarly, “Nippen NEC Nara Branch” with record ID “001” and “Nichiden NEC Nara Branch” with record ID “002”
また、レコードID「001」の「NEC日電奈良支店」と、レコードID「002」の「日電NEC奈良支店」とは、9文字中4文字が合致するので、4×1÷9=0.44(小数点3桁目四捨五入)となり、類似度は0.44である。
Also, “NEC Niden Nara Branch” with record ID “001” and “Nichiden NEC Nara Branch” with record ID “002”
同様に、また、レコードID「001」の「日電NEC奈良支店」と、レコードID「002」の「NEC日電奈良支店」とは、9文字中4文字が合致するので、4×1÷9=0.44(小数点3桁目四捨五入)となり、類似度は0.44である。
Similarly, since “Nikden NEC Nara Branch” with record ID “001” and “NEC Niden Nara Branch” with record ID “002”
ここで、類似度計算部3は、最も類似度が高い値を採用することとする。すると、レコードID「001」の名称のフィールドと、レコードID「002」の名称のフィールドとの類似度は1である。
Here, the
同様に、レコードID「001」の名称のフィールドと、レコードID「003」の名称のフィールドとの類似度を計算すると、類似度は1となる。また、レコードID「002」の名称のフィールドと、レコードID「003」の名称のフィールドとの類似度を計算すると、類似度は1となる。 Similarly, when the similarity between the field with the record ID “001” and the field with the record ID “003” is calculated, the similarity is 1. When the similarity between the field with the record ID “002” and the field with the record ID “003” is calculated, the similarity is 1.
次に、類似度計算部3は、レコードID「001」、「002」および「003」の住所のフィールドの相互の類似度を計算する(ステップS107)。
Next, the
レコードID「001」の住所のフィールドは「○○○1の1」であり、レコードID「002」の住所のフィールドは「○○○1−1」であり、レコードID「003」の住所のフィールドは「○○○1−1」である。 The address field of the record ID “001” is “1 of XXX1”, the address field of the record ID “002” is “XXX1-1”, and the address of the record ID “003”. The field is “◯◯◯ 1-1”.
レコードID「001」の住所のフィールド「○○○1の1」と、レコードID「002」の住所のフィールド「○○○1−1」とは、6文字中5文字が合致するので、5×1÷6=0.83(小数点3桁目四捨五入)となり、類似度は0.83である。 Since 5 out of 6 characters match the address field “xxx1” of the record ID “001” and the address field “xxx1-1” of the record ID “002”, 5 × 1 ÷ 6 = 0.83 (rounded to the third decimal place), and the similarity is 0.83.
レコードID「001」の住所のフィールド「○○○1の1」と、レコードID「003」の住所のフィールド「○○○1−1」とは、6文字中5文字が合致するので、5×1÷6=0.83(小数点3桁目四捨五入)となり、類似度は0.83である。 Since 5 out of 6 characters match the address field “XXX1” of the record ID “001” and the address field “XXX1-1” of the record ID “003”, 5 × 1 ÷ 6 = 0.83 (rounded to the third decimal place), and the similarity is 0.83.
レコードID「002」の住所のフィールド「○○○1−1」と、レコードID「003」の住所のフィールド「○○○1−1」とは、6文字中6文字が合致するので、6×1÷6=1となり、類似度は1である。 Since 6 out of 6 characters match the address field “XXX1-1” of the record ID “002” and the address field “XXX1-1” of the record ID “003”, 6 × 1 ÷ 6 = 1, and the similarity is 1.
次に、類似度計算部3は、レコードID「001」、「002」および「003」の電話番号のフィールドの相互の類似度を計算する(ステップS108)。
Next, the
レコードID「001」の電話番号のフィールドは「000−111−1234」であり、レコードID「002」の電話番号のフィールドは「000−111−1235」であり、レコードID「003」の電話番号のフィールドは「000−111−1234」である。 The telephone number field of the record ID “001” is “000-111-1234”, the telephone number field of the record ID “002” is “000-111-1235”, and the telephone number of the record ID “003”. The field of “000-111-1234”.
レコードID「001」の電話番号のフィールド「000−111−1234」と、レコードID「002」の電話番号のフィールド「000−111−1235」とは、12文字中11文字が合致するので、11×1÷12=0.92(小数点3桁目四捨五入)となり、類似度は0.92である。 Since 11 out of 12 characters match the telephone number field “000-111-1234” of the record ID “001” and the telephone number field “000-111-1235” of the record ID “002”, 11 × 1 ÷ 12 = 0.92 (rounded to the third decimal place), and the similarity is 0.92.
レコードID「001」の電話番号のフィールド「000−111−1234」と、レコードID「003」の電話番号のフィールド「000−111−1234」とは、12文字中12文字が合致するので、12×1÷12=1となり、類似度は1である。 Since 12 of the 12 characters match the telephone number field “000-111-1234” of the record ID “001” and the telephone number field “000-111-1234” of the record ID “003”, 12 X1 ÷ 12 = 1, and the similarity is 1.
レコードID「002」の電話番号のフィールド「000−111−1235」と、レコードID「003」の電話番号のフィールド「000−111−1234」とは、12文字中11文字が合致するので、11×1÷12=0.92(小数点3桁目四捨五入)となり、類似度は0.92である。 Since 11 out of 12 characters match the telephone number field “000-111-1235” of the record ID “002” and the telephone number field “000-111-1234” of the record ID “003”, 11 × 1 ÷ 12 = 0.92 (rounded to the third decimal place), and the similarity is 0.92.
類似度計算部3は、レコードID「001」、「002」および「003」の各フィールドの相互の類似度を、各フィールドの類似度に重みの値を乗じた積を合計した数を、フィールドの数で割った商を、各レコード間の類似度として計算する(ステップS109)。なお、ここでは、データベース情報入力部4に入力された情報が、名称フィールド、住所フィールド、および電話番号フィールドの重みの比が、1:1:1であることを示していたものとする。
The
すると、レコードID「001」とレコードID「002」との類似度は、(1×1+0.83×1+0.92×1)÷3=0.92(小数点3桁目四捨五入)となる。 Then, the similarity between the record ID “001” and the record ID “002” is (1 × 1 + 0.83 × 1 + 0.92 × 1) ÷ 3 = 0.92 (rounded to the third decimal place).
また、レコードID「001」とレコードID「003」との類似度は、(1×1+0.83×1+1×1)÷3=0.94(小数点3桁目四捨五入)となる。 The similarity between the record ID “001” and the record ID “003” is (1 × 1 + 0.83 × 1 + 1 × 1) ÷ 3 = 0.94 (rounded to the third decimal place).
レコードID「002」とレコードID「003」との類似度は、(1×1+1×1+0.92×1)÷3=0.97(小数点3桁目四捨五入)となる。 The similarity between the record ID “002” and the record ID “003” is (1 × 1 + 1 × 1 + 0.92 × 1) ÷ 3 = 0.97 (rounded to the third decimal place).
類似度計算部3は、計算した各レコードの組の類似度と、類似度を計算したレコードの組とを重複候補抽出部6に出力する。重複候補抽出部6は、類似度計算部3が計算した類似度が、所定の閾値以上である各レコードを、重複レコード候補として抽出する(ステップS110)。ここで、所定の閾値を0.90とすると、重複候補抽出部6は、レコードID「001」、レコードID「002」、およびレコードID「003」を重複レコード候補として抽出する。
The
表示部(図示せず)は、重複候補抽出部6が抽出した各レコードを表示する(ステップS111)。 The display unit (not shown) displays each record extracted by the duplication candidate extraction unit 6 (step S111).
以上に述べたように、この実施の形態によれば、同義語や省略可能語による表記の差異があっても、重複する情報をデータベース2から抽出することができる。
As described above, according to this embodiment, duplicate information can be extracted from the
実施の形態2.
本発明の第2の実施の形態について、図面を参照して説明する。図5は、本発明の第2の実施の形態の一構成例を示すブロック図である。
A second embodiment of the present invention will be described with reference to the drawings. FIG. 5 is a block diagram showing a configuration example of the second embodiment of the present invention.
本発明の第2の実施の形態の構成は、第1の実施の形態の構成に、重複候補抽出部6が抽出した重複レコード候補が、重複レコードであるか否かを判定するルールである重複判定ルールを記憶する重複判定ルール記憶部8、重複判定ルール記憶部8が記憶しているルールにもとづいて、重複候補抽出部6が抽出した重複レコード候補が重複レコードであるか否かを判定する重複レコード判定部7、および重複レコード判定部7が重複レコードであると判定したレコードを記憶する重複レコードデータベース9を加えたものであり、その他の構成要素は第1の実施の形態と同様なため、その他の構成要素には図1と同じ符号を付し、説明を省略する。
The configuration of the second embodiment of the present invention is a duplicate rule that determines whether or not the duplicate record candidate extracted by the duplicate
図6は、重複判定ルールの例を示す説明図である。図6に示した例によると、重複判定ルールは、例えば、レコード相互の類似度が特定の値を超えているならば、それらを重複レコードとみなす、というルールや、レコード相互の類似度が特定の値以下であれば、それらを重複レコードではないとみなす、というルールや、いずれかのフィールドの類似度が特定の値以下であれば、それらを重複レコードではないとみなす、というルールや、あるフィールドの類似度が所定の値以上であり、かつ、他のあるフィールドの類似度が所定の値以上であれば、それらを重複レコードとみなす、等である。 FIG. 6 is an explanatory diagram illustrating an example of a duplication determination rule. According to the example shown in FIG. 6, the duplication determination rule specifies, for example, a rule that, if the degree of similarity between records exceeds a specific value, these are regarded as duplicate records, and the degree of similarity between records is specified. There is a rule that if it is less than or equal to the value, it is considered that it is not a duplicate record, or there is a rule that if any of the similarity of any field is less than a certain value, it is considered that it is not a duplicate record If the similarity of a field is greater than or equal to a predetermined value and the similarity of another field is greater than or equal to a predetermined value, they are regarded as duplicate records.
図7は、重複判定ルール記憶部8が記憶している重複判定ルールの例を示す説明図である。図7の例に示すように、重複判定ルールは、それぞれ条件部分(図7におけるIF以下の部分)と、結論部分(図7におけるTHEN以下の部分)とで構成される。
FIG. 7 is an explanatory diagram illustrating an example of the overlap determination rule stored in the overlap determination
そして、条件部分には、レコードの組の類似度の値や、フィールドの組の類似度の値が、ある値よりも大きい、小さい、以上、または以下等の条件を、AND、OR、およびNOTで組み合わせて記述する。 The condition part includes conditions such as the value of the similarity of the record set and the value of the similarity of the field set larger, smaller, above, or below, such as AND, OR, and NOT. Describe in combination.
また、結論部分には、条件部分のに記述されている条件に合致するレコードの組を、重複レコードであると記述したり、重複レコードではないと記述したりする。また、結論部分において、条件部分のネスト(入れ子)を記述してもよい。 In the conclusion portion, a record set that matches the condition described in the condition portion is described as a duplicate record, or is described as not being a duplicate record. In the conclusion part, the nesting of the condition part may be described.
図7の(1)式に示す例では、レコードの組の類似度の値が1であれば、重複レコードであるというルールを記述している。また、図7の(2)式に示す例では、住所フィールドの組の類似度が0.9を超えていて、かつ、電話番号フィールドの組の類似度が0.9を超えていた場合、名称フィールドの組の類似度が0.9を超えていれば、レコードの組は重複レコードであり、名称フィールドの組の類似度が0.9以下であれば、レコードの組を重複レコードではないというルールを記述している。 In the example shown in the expression (1) in FIG. 7, a rule is described that if the similarity value of a record set is 1, it is a duplicate record. Further, in the example shown in the expression (2) in FIG. 7, when the similarity of the address field pair exceeds 0.9 and the similarity of the telephone number field pair exceeds 0.9, If the similarity of the name field pair exceeds 0.9, the record pair is a duplicate record, and if the similarity of the name field pair is 0.9 or less, the record pair is not a duplicate record. The rule is described.
類似度計算部3は、計算した各フィールドの組の類似度と、各レコードの組の類似度とを重複候補抽出部6に出力する。重複候補抽出部6は、類似度計算部3が計算した類似度が、所定の閾値以上である各レコードを、重複レコード候補として抽出し、重複レコード候補の各フィールドの組の類似度と、各レコードの組の類似度とを重複レコード判定部7に出力する。
The
本発明の第2の実施の形態の動作を、具体例を挙げて説明する。まず、図2の例に示したレコードID「001」、レコードID「002」およびレコードID「003」が重複レコードであるか否かを判定する場合を例に説明する。 The operation of the second exemplary embodiment of the present invention will be described with a specific example. First, a case where it is determined whether or not the record ID “001”, the record ID “002”, and the record ID “003” illustrated in the example of FIG. 2 are duplicate records will be described.
類似度計算部3が、各フィールドの組の類似度と、各レコードの組の類似度とを計算するまでの動作は、第1の実施の形態における動作と同様なため、説明を省略する。
Since the operation until the
類似度計算部3は、計算した各フィールドの組の類似度と、各レコードの組の類似度とを重複候補抽出部6に出力する。重複候補抽出部6は、類似度計算部3が計算した類似度が、所定の閾値以上である各レコードを重複レコード候補として抽出し、重複レコード候補の各フィールドの組の類似度と、各レコードの組の類似度とを重複レコード判定部7に出力する。ここで、所定の閾値を0.9とすると、重複候補抽出部6は、レコードID「001」、レコードID「002」、およびレコードID「003」を重複レコード候補として抽出する。
The
重複レコード判定部7は、レコードID「001」とレコードID「002」との類似度が0.92であるので、図7の例に示す式(1)の条件部分(レコードの組の類似度の値が1)に合致しないので、レコードID「001」とレコードID「002」との重複レコードの判定に、式(1)を適用しない。
Since the similarity between the record ID “001” and the record ID “002” is 0.92, the duplicate
重複レコード判定部7は、レコードID「001」の住所フィールドと、レコードID「002」の住所フィールドとの類似度が1であるが、レコードID「001」の電話番号フィールドと、レコードID「002」の電話番号フィールドとの類似度が0.83であるので、図7の例に示す式(2)の条件部分(住所フィールドの組の類似度が0.9を超えていて、かつ、電話番号フィールドの組の類似度が0.9を超えていた場合)に合致しないので、レコードID「001」とレコードID「002」との重複レコードの判定に、式(2)を適用しない。
The duplicate
また、重複レコード判定部7は、レコードID「001」とレコードID「003」との類似度が0.94であるので、図7の例に示す式(1)の条件部分(レコードの組の類似度の値が1)に合致しないので、レコードID「001」とレコードID「003」との重複レコードの判定に、式(1)を適用しない。
In addition, since the similarity between the record ID “001” and the record ID “003” is 0.94, the duplicate
重複レコード判定部7は、レコードID「001」の住所フィールドと、レコードID「003」の住所フィールドとの類似度が1であるが、レコードID「001」の電話番号フィールドと、レコードID「003」の電話番号フィールドとの類似度が0.83であるので、図7の例に示す式(2)の条件部分(住所フィールドの組の類似度が0.9を超えていて、かつ、電話番号フィールドの組の類似度が0.9を超えていた場合)に合致しないので、レコードID「001」とレコードID「003」との重複レコードの判定に、式(2)を適用しない。
The duplicate
重複レコード判定部7は、レコードID「002」とレコードID「003」との類似度が0.97であるので、図7の例に示す式(1)の条件部分(レコードの組の類似度の値が1)に合致しないので、レコードID「002」とレコードID「003」との重複レコードの判定に、式(1)を適用しない。
Since the similarity between the record ID “002” and the record ID “003” is 0.97, the duplicate
重複レコード判定部7は、レコードID「002」の住所フィールドと、レコードID「003」の住所フィールドとの類似度が1であって、レコードID「002」の電話番号フィールドと、レコードID「003」の電話番号フィールドとの類似度が1であるので、図7の例に示す式(2)の条件部分(住所フィールドの組の類似度が0.9を超えていて、かつ、電話番号フィールドの組の類似度が0.9を超えていた場合)に合致する。また、レコードID「002」の名称フィールドと、レコードID「003」の名称フィールドとの類似度が0.92であるので、式(2)の結果部分における条件部分(名称フィールドの組の類似度が0.9を超えている)に合致するので、レコードID「002」とレコードID「003」とが重複レコードであると判定する。
The duplicate
重複レコード判定部7は、重複レコードであると判定した各レコードを、重複レコードデータベース9に記憶させる。
The duplicate
なお、重複レコード判定部7は、重複判定ルール記憶部8が記憶している重複判定ルールを適用しなかったレコードの組を、表示部に表示させてもよい。すると、使用者が重複レコードであるか否かを判定することができる。
Note that the duplicate
以上に述べたように、この実施の形態によれば、重複レコード判定部7が、予め重複判定ルール記憶部8が記憶している重複判定ルールにもとづいて、各レコードの組が重複レコードであるか否かを自動的に判定することができる。
As described above, according to this embodiment, the duplicate
また、重複レコードデータベース9が、重複レコード判定部7が重複レコードであると判定したレコードの組を記憶するため、使用者は、重複レコード判定部7が重複レコードであると判定したレコードの組を確認することができる。
In addition, since the
実施の形態3.
本発明の第3の実施の形態を、図面を参照して説明する。図8は、本発明の第3の実施の形態の一構成例を示すブロック図である。
A third embodiment of the present invention will be described with reference to the drawings. FIG. 8 is a block diagram showing a configuration example of the third embodiment of the present invention.
本発明の第3の実施の形態の構成は、第2の実施の形態の構成に、重複レコード判定部7が重複レコードであると判定したレコードの組から変換語の候補を抽出して変換語辞書5に登録する変換語候補抽出部10を加えた点が第2の実施の形態の構成と異なり、その他の点は第2の実施の形態の構成と同様である。そのため、第2の実施の形態と同様な構成要素には、図5と同じ符号を付し、説明を省略する。
The configuration of the third exemplary embodiment of the present invention is the same as the configuration of the second exemplary embodiment, in which conversion word candidates are extracted from a set of records determined by the duplicate
変換語候補抽出部10は、重複レコード判定部7が重複レコードであると判定したレコードの組を比較して、異なる部分に、例えば、形態素解析等を行って、重複レコードの組における異なる部分の語の組を同義語候補の組として抽出する。
The conversion word
なお、変換語候補抽出部10は、重複レコード判定部7が重複レコードであると判定したレコードの組を比較して、一方のレコードが、他方のレコードに含まれる場合には、一方のレコードと他方のレコードとの異なる部分と、共通する部分との組を省略可能語候補の組として抽出する。
In addition, the conversion word
また、変換語候補抽出部10は、抽出した同義語候補の組が、他の一のレコードに含まれる場合は、抽出した同義語候補の組を省略可能語候補の組とする。
In addition, when the extracted synonym candidate set is included in another record, the conversion word
変換語候補抽出部10は、抽出した同義語候補の組のうち、他の同義語候補や省略可能語候補の組み合わせで構成される同義語候補の組を、同義語候補の組から除外する。
The conversion word
また、変換語候補抽出部10は、省略可能語候補の組のうち、他の同義語候補や省略可能語候補に含まれる省略可能語候補の組を、省略可能語候補の組から除外する。
Moreover, the conversion word
変換語候補抽出部10は、変換語辞書5を参照して、変換語候補、および省略可能語候補の組のうち、変換語辞書5に登録されている語以外の語を変換語辞書5に登録する。
The conversion word
次に、この実施の形態において、重複レコードから同義語候補および省略可能語候補を名称フィールドから抽出する際の動作を、具体例を挙げて図面を参照して説明する。図9は、本発明の第3の実施の形態の動作を説明するフローチャートである。図10は、重複レコード判定部7が重複レコードであると判定したレコードの組の例を示す説明図である。
Next, in this embodiment, the operation when extracting synonym candidates and omissible word candidates from the duplicate record from the name field will be described with reference to the drawings with specific examples. FIG. 9 is a flowchart for explaining the operation of the third embodiment of the present invention. FIG. 10 is an explanatory diagram illustrating an example of a set of records that the duplicate
変換語候補抽出部10は、重複レコード判定部7が重複レコードであると判定したレコードの組を比較して、異なる部分に、例えば、形態素解析等を行って、重複レコードの組における異なる部分の語を同義語候補として抽出し、一方のレコードが、他方のレコードに含まれる場合には、一方のレコードと他方のレコードとの異なる部分と、共通する部分とを省略可能語候補として抽出する(ステップS301)。
The conversion word
具体的には、変換語候補抽出部10は、図10の例に示したレコードID「001」とレコードID「002」とを比較して、レコードID「001」と、レコードID「002」とで異なる部分である「日電NEC」と「エヌイーシー」とを同義語候補の組として抽出する。
Specifically, the conversion word
変換語候補抽出部10は、図10の例に示したレコードID「001」とレコードID「003」とを比較して、レコードID「001」と、レコードID「003」とで異なる部分である「NEC」と「エヌイーシー」とを同義語候補の組として抽出する。
The conversion word
変換語候補抽出部10は、図10の例に示したレコードID「001」とレコードID「004」とを比較すると、レコードID「004」が、レコードID「001」に含まれるので、異なる部分である「日電」と、共通する部分である「NEC奈良支店」とを省略可能語候補の組として抽出する。
When the conversion word
変換語候補抽出部10は、図10の例に示したレコードID「001」とレコードID「005」とを比較すると、レコードID「005」が、レコードID「001」に含まれるので、異なる部分である「NEC」と、共通する部分である「日電奈良支店」とを省略可能語候補の組として抽出する。
When the conversion word
変換語候補抽出部10は、図10の例に示したレコードID「002」とレコードID「003」とを比較すると、レコードID「002」が、レコードID「003」に含まれるので、異なる部分である「日電」と、共通する部分である「エヌイーシー奈良支店」とを省略可能語候補の組として抽出する。
When the conversion word
変換語候補抽出部10は、図10の例に示したレコードID「002」とレコードID「004」とを比較して、レコードID「002」と、レコードID「004」とで異なる部分である「エヌイーシー」と「NEC」とを同義語候補の組として抽出する。
The conversion word
変換語候補抽出部10は、図10の例に示したレコードID「002」とレコードID「005」とを比較して、レコードID「002」と、レコードID「005」とで異なる部分である「エヌイーシー」と「日電」とを同義語候補の組として抽出する。
The conversion word
変換語候補抽出部10は、図10の例に示したレコードID「003」とレコードID「004」とを比較して、レコードID「003」と、レコードID「004」とで異なる部分である「日電エヌイーシー」と「NEC」とを同義語候補の組として抽出する。
The conversion word
変換語候補抽出部10は、図10の例に示したレコードID「003」とレコードID「005」とを比較すると、レコードID「005」が、レコードID「003」に含まれるので、異なる部分である「エヌイーシー」と、共通する部分である「日電奈良支店」とを省略可能語候補の組として抽出する。
When the conversion word
変換語候補抽出部10は、図10の例に示したレコードID「004」とレコードID「005」とを比較して、レコードID「004」と、レコードID「005」とで異なる部分である「NEC」と「日電」とを同義語候補の組として抽出する。
The conversion word
次に、変換語候補抽出部10は、抽出した同義語候補の組が、他の一のレコードに含まれる場合は、抽出した同義語候補の組を省略可能語候補の組とする(ステップS302)。
Next, when the extracted synonym candidate set is included in another record, the converted word
具体的には、変換語候補抽出部10は、レコードID「002」とレコードID「005」とを比較して抽出した同義語候補の組である「エヌイーシー」と「日電」とが、レコードID「003」の「日電エヌイーシー奈良支店」に含まれるので、同義語候補の組である「エヌイーシー」と「日電」とを省略可能語候補の組とする。
Specifically, the conversion word
また、変換語候補抽出部10は、レコードID「004」とレコードID「005」とを比較して抽出した同義語候補の組である「NEC」と「日電」とが、レコードID「001」の「日電NEC奈良支店」に含まれるので、同義語候補の組である「NEC」と「日電」と省略可能語候補の組とする。
Moreover, the conversion word
次に、変換語候補抽出部10は、抽出した同義語候補の組のうち、他の同義語候補や省略可能語候補の組み合わせで構成される同義語候補の組を、同義語候補の組から除外する(ステップS303)。
Next, the conversion word
具体的には、変換語候補抽出部10は、レコードID「004」とレコードID「005」とを比較して抽出した同義語候補の組である「NEC」と「日電」とを組み合わせると、レコードID「001」とレコードID「002」とを比較して同義語候補として抽出した「日電NEC」を構成するので、レコードID「004」とレコードID「005」とを比較して抽出した同義語候補の組である「NEC」と「日電」とを、同義語候補の組から除外する。
Specifically, the conversion word
変換語候補抽出部10は、レコードID「002」とレコードID「005」とを比較して抽出した同義語候補の組である「エヌイーシー」と「日電」とを組み合わせると、レコードID「003」とレコードID「004」とを比較して同義語候補として抽出した「日電エヌイーシー」を構成するので、レコードID「002」とレコードID「005」とを比較して抽出した同義語候補の組である「エヌイーシー」と「日電」とを、同義語候補の組から除外する。
The conversion word
変換語候補抽出部10は、省略可能語候補の組のうち、他の同義語候補や省略可能語候補に含まれる省略可能語候補の組を、省略可能語候補の組から除外する(ステップS304)。
The conversion word
具体的には、変換語候補抽出部10は、レコードID「001」とレコードID「004」とを比較して抽出した省略可能語候補の組である「日電」と「NEC奈良支店」とは、レコードID「004」とレコードID「005」とを比較して抽出した同義語候補の組である「NEC」と「日電」とを含むので省略可能語候補から除外する。
Specifically, the conversion word
変換語候補抽出部10は、レコードID「001」とレコードID「005」とを比較して抽出した省略可能語候補の組である「NEC」と「日電奈良支店」とは、レコードID「004」とレコードID「005」とを比較して抽出した同義語候補の組である「NEC」と「日電」とを含むので省略可能語候補から除外する。
The conversion word
変換語候補抽出部10は、レコードID「002」とレコードID「003」とを比較して抽出した省略可能語候補の組である「日電」と「エヌイーシー奈良支店」とは、レコードID「002」とレコードID「005」とを比較して抽出した同義語候補の組である「エヌイーシー」と「日電」とを含むので省略可能語候補から除外する。
The conversion word
変換語候補抽出部10は、レコードID「003」とレコードID「005」とを比較して抽出した省略可能語候補の組である「エヌイーシー」と「日電奈良支店」とは、レコードID「002」とレコードID「005」とを比較して抽出した同義語候補の組である「エヌイーシー」と「日電」とを含むので省略可能語候補から除外する。
The conversion word
すると、レコードID「001」とレコードID「003」とを比較して抽出された同義語候補の組、およびレコードID「002」とレコードID「004」とを比較して抽出された同義語候補の組である「NEC」と「エヌイーシー」とが同義語候補の組となる。 Then, a set of synonym candidates extracted by comparing the record ID “001” and the record ID “003”, and a synonym candidate extracted by comparing the record ID “002” and the record ID “004” “NEC” and “NEC”, which are pairs of synonyms, become a set of synonym candidates.
また、レコードID「002」とレコードID「005」とを比較して抽出された同義語候補の組、およびレコードID「004」とレコードID「005」とを比較して抽出された同義語候補の組である「エヌイーシー」と「日電」とが、省略可能語候補に変更されて省略可能語候補の組となる。 Also, a set of synonym candidates extracted by comparing the record ID “002” and the record ID “005”, and a synonym candidate extracted by comparing the record ID “004” and the record ID “005” “NEC” and “Nichiden” are changed to candidates for omissible words and become groups of omissible word candidates.
変換語候補抽出部10は、変換語辞書5を参照して、変換語候補、および省略可能語候補の組のうち、変換語辞書5に登録されている語以外の語を変換語辞書5に登録する(ステップS305)。
The conversion word
なお、変換語候補抽出部10は、同義語候補の組である「NEC」と「エヌイーシー」とのいずれかを代表語として、変換語辞書5に登録する。変換語候補抽出部10は、例えば、50音順のや、アルファベット順の早い方の語や、文字数の少ない方の語を代表語として、同義語候補の組の語を変換語辞書5に登録する。
The conversion word
このとき、同義語候補の組の語のいずれかが既に代表語として変換語辞書5に登録されていた場合、変換語候補抽出部10は、同義語候補の組の他の語を、その代表語の同義語として変換語辞書5に登録する。
At this time, if any of the words in the synonym candidate group has already been registered in the conversion word dictionary 5 as a representative word, the conversion word
なお、同義語候補の組の語のすべてが既に代表語として変換語辞書5に登録されていた場合、変換語候補抽出部10は、いずれか1つの語を代表語として変換語辞書5に登録し、同義語候補の組の他の語を、その代表語の同義語として変換語辞書5に登録する。このとき、変換語候補抽出部10は、既に代表語として変換語辞書5に登録されていた語の同義語を、代表語として変換語辞書5に登録した語の同義語として、変換語辞書5に登録する。
If all the words in the synonym candidate group have already been registered in the conversion word dictionary 5 as representative words, the conversion word
変換語候補抽出部10は、省略可能語候補の組が変換語辞書5に登録されていなかった場合、新たにグループIDを決定して省略可能語候補として変換語辞書5に登録する。なお、新たなグループIDは、例えば、既に登録済みのグループIDの最大値に1を加えた値とする。
When the set of omissible word candidates is not registered in the conversion word dictionary 5, the conversion word
変換語候補抽出部10は、省略可能語候補の組のうち、いずれかが既に省略可能語候補として変換語辞書5に登録されていた場合、他の省略可能語候補を、既に変換語辞書5に登録されている省略可能語候補と同じグループIDで変換語辞書5に登録する。
The conversion word
変換語候補抽出部10は、省略可能語候補の組がすべて既に省略可能語候補として同じグループIDで変換語辞書5に登録されていた場合は、変換語辞書5に登録する動作を行わない。変換語候補抽出部10は、省略可能語候補の組を構成する省略可能語候補のそれぞれが、異なるグループIDで既に省略可能語候補として変換語辞書5に登録されていた場合、グループIDの値を比較して、グループIDの値が大きい方の省略可能語候補のグループIDの値を、グループIDが小さい方の値に変更する。
The conversion word
なお、変換語候補抽出部10は、同義語候補または省略可能語候補を表示部に表示して、同義語候補または省略可能語候補として変換語辞書5に登録するか否かを使用者に選択させてもよい。
The conversion word
以上に述べたように、この実施の形態によれば、重複レコード判定部7が重複レコードとして判定したレコードに含まれる語のうち、所定の条件に合致する語を、同義語候補または省略可能語候補として変換語辞書5に登録することができる。
As described above, according to this embodiment, among the words included in the record determined by the duplicate
実施の形態4.
本発明の第4の実施の形態を、図面を参照して説明する。図11は、本発明の第4の実施の形態の一構成例を示すブロック図である。
A fourth embodiment of the present invention will be described with reference to the drawings. FIG. 11 is a block diagram showing a configuration example of the fourth embodiment of the present invention.
本発明の第4の実施の形態の構成は、第3の実施の形態の構成に、同義語候補、および省略可能語候補を変換語辞書5に登録するか否か、および重複レコード候補を重複レコードデータベース9に登録するか否かを使用者に確認する入出力部11を加えたものであり、その他の構成要素は第3の実施の形態と同様なため、その他の構成要素には図8と同じ符号を付し、説明を省略する。
The configuration of the fourth embodiment of the present invention is the same as the configuration of the third embodiment except that the synonym candidate and the omissible word candidate are registered in the conversion word dictionary 5 and the duplicate record candidate is duplicated. An input / output unit 11 for confirming with the user whether or not to register in the
入出力部11は、表示部である液晶ディスプレイ等と、入力手段であるキーボード等によって実現される。 The input / output unit 11 is realized by a liquid crystal display or the like as a display unit and a keyboard or the like as an input unit.
次に、本発明の第4の実施の形態の動作を、図面を参照して説明する。図12は、本発明の第4の実施の形態の動作を説明するフローチャートである。 Next, the operation of the fourth exemplary embodiment of the present invention will be described with reference to the drawings. FIG. 12 is a flowchart for explaining the operation of the fourth embodiment of the present invention.
まず、類似度計算部3が、データベース2に登録されている情報を読み込む(ステップS401)。
First, the
類似度計算部3は、第1の実施の形態における動作と同様の動作を行い、各レコードの組の類似度を計算し、計算した各レコードの組の類似度と、類似度を計算したレコードの組とを重複候補抽出部6に出力する(ステップS402)。
The
重複候補抽出部6は、例えば、第1の実施の形態における動作と同様の動作を行い、重複レコード候補をデータベース2から抽出する(ステップS403)。
For example, the duplication
重複レコード判定部7は、第2の実施の形態における動作と同様の動作を行い、重複候補抽出部6が抽出した重複レコード候補が重複レコードであるか否かを判定し(ステップS404)、重複レコードであると判定した重複レコード候補を重複レコードデータベース9に記憶させる。
The duplicate
変換語候補抽出部10は、第3の実施の形態における動作と同様の動作を行い、重複レコード判定部7が重複レコードであると判定したレコードから、同義語候補および省略可能語候補(以下、単に変換語候補という)を抽出する(ステップS405)。
The conversion word
変換語候補抽出部10は、変換語候補を抽出すると、抽出した変換語候補を入出力部11に出力する。入出力部11は、変換語候補抽出部10が入力した変換語候補を表示し、使用者に変換語候補が変換語であるか否かを判定させる。
When the conversion word
使用者が、入出力部11を操作して変換語候補が変換語であると判定すると、変換語候補抽出部10は、変換語候補を変換語辞書5に登録する(ステップS406)。
When the user operates the input / output unit 11 and determines that the conversion word candidate is a conversion word, the conversion word
変換語候補抽出部10が、変換語候補を変換語辞書5に登録すると、重複候補抽出部6は、第1の実施の形態における動作と同様の動作を行い、重複レコード候補をデータベース2から抽出する(ステップS403)。新たな変換語が変換語辞書5に登録されると、新たに重複レコードと判定されるレコードが発生する可能性があるからである。
When the conversion word
変換語候補抽出部10が変換語候補の抽出を終了したり、使用者が、入出力部11を操作して変換語候補が変換語であるか否かの判定を拒否したりすると、重複レコード判定部7は、重複レコードであると判定しなかった重複レコード候補を入出力部11に出力する。入出力部11は、重複レコード判定部7が入力した重複レコード候補を表示し、使用者に重複レコード候補が重複レコードであるか否かを判定させる(ステップS407)。なお、重複レコード判定部7は、重複レコードであると判定しなかった重複レコード候補のうち、重複する可能性のあるレコードの組み合わせの数が多い順番で、重複レコード候補を入出力部11に出力してもよい。
When the conversion word
使用者が、入出力部11を操作して重複レコード候補が重複レコードであると判定すると、重複レコード判定部7は、重複レコード候補を重複レコードであると判定し、重複レコードデータベース9に登録する(ステップS408)。
When the user operates the input / output unit 11 to determine that the duplicate record candidate is a duplicate record, the duplicate
重複レコード判定部7が、重複レコード候補を重複レコードデータベース9に登録すると、変換語候補抽出部10は、第3の実施の形態における動作と同様の動作を行い、重複レコード判定部7が重複レコードであると判定したレコードから、変換語候補を抽出する(ステップS405)。重複レコードが増加すると、増加した重複レコードから新たに変換語候補が抽出される可能性があるからである。
When the duplicate
重複レコード判定部7が、重複レコードであると判定しなかった重複レコード候補をすべて入出力部11に出力したり、使用者が、入出力部11を操作して重複レコード候補の判定を拒否したりすると、変換語候補抽出部10は、第3の実施の形態における動作と同様の動作を行い、重複レコード判定部7が重複レコードであると判定したレコードから変換語候補を抽出する(ステップS405)。
The duplicate
変換語候補抽出部10が、第3の実施の形態における動作と同様の動作を行い、重複レコード判定部7が重複レコードであると判定したレコードから変換語候補を抽出する動作を終了すると、すべての構成要素は動作を終了する。
When the conversion word
以上に述べたように、この実施の形態によれば、重複レコードを検出するために、使用者に確認する回数を減らすことができる。 As described above, according to this embodiment, the number of confirmations with the user can be reduced in order to detect duplicate records.
また、使用者が、変換語候補が変換語であると判定した場合に増加した新たな重複レコードから変換語候補を抽出することができる。 In addition, when the user determines that the conversion word candidate is a conversion word, the conversion word candidate can be extracted from a new duplicate record that has increased.
さらに、使用者が、重複レコード候補が重複レコードであると判定した場合に増加した新たな重複レコードから変換語候補を抽出することができる。 Furthermore, a conversion word candidate can be extracted from the new duplicate record increased when the user determines that the duplicate record candidate is a duplicate record.
なお、重複レコード判定部7は、重複レコードであると判定しなかった重複レコード候補が複数存在した場合、最も語の数の多い重複レコード候補から順に入出力部11に出力してもよい。すると、変換語候補抽出部10が変換語候補を抽出する可能性が高い順に重複レコード候補が入出力部11に出力されて使用者が重複レコードであるか否かを判定するため、変換語候補抽出部10が重複レコード候補から多くの変換語候補を抽出すると、語の数の少ない重複レコード候補からは変換語候補抽出部10が変換語候補を抽出する可能性が低くなり、変換語候補や、重複レコードを検出するために使用者に確認する回数を減らすことができる。
When there are a plurality of duplicate record candidates that are not determined to be duplicate records, the duplicate
また、変換語候補抽出部10は、使用者が複数の変換語候補を変換語であると判定すると、使用者が判定した複数の変換語を類似度計算部3に出力し、類似度計算部3は、使用者が判定した複数の変換語に応じてデータベース2の該当するレコードを変換し、重複候補抽出部6は、変換されたレコードにもとづいて重複レコード候補の組を抽出してもよい。そして、重複レコード判定部7は、重複候補抽出部6が抽出した重複レコード候補の組のうち、重複レコード候補の組を構成する重複レコード候補の数が多い順に、重複レコード候補を入出力部11に出力してもよい。
If the conversion word
重複レコード判定部7は、使用者が複数の重複レコード候補を重複レコードであると判定すると、使用者が重複レコードであると判定した重複レコード候補を変換語候補抽出部10に出力し、変換語候補抽出部10は、抽出した変換語候補の数が多い重複レコード候補から抽出した変換語候補を、順に入出力部11に出力してもよい。
When the user determines that a plurality of duplicate record candidates are duplicate records, the duplicate
実施の形態5.
本発明の第5の実施の形態を、図面を参照して説明する。図13は、本発明の第5の実施の形態の一構成例を示すブロック図である。
Embodiment 5. FIG.
A fifth embodiment of the present invention will be described with reference to the drawings. FIG. 13 is a block diagram showing a configuration example of the fifth embodiment of the present invention.
本発明の第5の実施の形態の構成は、本発明の第4の実施の形態の構成に、重複レコードデータベース9に登録されている重複レコードの組を構成するレコードのうち、一のレコードを除いて、他のレコードをデータベース2から削除する重複レコード削除部12を加えたものであり、その他の構成要素は第4の実施の形態と同様なため、その他の構成要素には図11と同じ符号を付し、説明を省略する。
The configuration of the fifth embodiment of the present invention is the same as the configuration of the fourth embodiment of the present invention, except that one record among the records constituting the set of duplicate records registered in the
重複レコード削除部12は、重複レコードデータベース9に登録された重複レコードの組を入出力部11に出力して、使用者に削除するレコードを選択させ、使用者が選択したレコードをデータベース2から削除してもよい。また、重複レコード削除部12は、重複レコードデータベース9に登録された重複レコードの組のうち、最もレコードIDの値の小さいレコード以外のレコードをデータベース2から削除してもよい。
The duplicate
また、重複レコード削除部12は、削除したレコードの記録を記憶してもよい。
The duplicate
以上に述べたように、この実施の形態によれば、重複レコード判定部7が、重複レコード判定ルールにもとづいて重複レコードであると判定した重複レコードを、重複レコードデータベース9に登録してから、重複レコード削除部12を介してデータベース2から削除するため、使用者が削除するレコードを確認したり、削除したレコードの記録を記憶させておいたりすることができる。
As described above, according to this embodiment, the duplicate
実施の形態6.
本発明の第6の実施の形態を、図面を参照して説明する。図14は、本発明の第6の実施の形態の一構成例を示すブロック図である。
A sixth embodiment of the present invention will be described with reference to the drawings. FIG. 14 is a block diagram showing a configuration example of the sixth embodiment of the present invention.
本発明の第6の実施の形態の構成は、第3の実施の形態の構成に、使用者が新たにデータベース2に追加する情報を入力するデータベース登録部13と、データベース2に登録されている情報を検索する検索部14と、使用者に請求する料金を算出する検索料金算出部15とを加えたものであり、その他の構成要素は第3の実施の形態と同様なため、その他の構成要素には図8と同じ符号を付し、説明を省略する。
The configuration of the sixth embodiment of the present invention is registered in the
データベース登録部13は、使用者が新たにデータベース2に追加する情報を入力すると、変換語辞書5に登録されている同義語と省略可能語とにもとづいて、使用者が入力した情報と重複する情報である可能性のあるレコードを表示部に表示させる。
When the user newly inputs information to be added to the
例えば、図2の例に示す情報がデータベース2に登録され、図3の例に示す情報が変換語辞書5に登録されている場合に、使用者が、データベース登録部13に、名称が「日本電気奈良支店」である情報を入力する。
For example, when the information shown in the example of FIG. 2 is registered in the
すると、データベース登録部13は、入力された「日本電気奈良支店」に形態素解析等の方法を用いて、「日本電気奈良支店」を、「日本電気」と「奈良支店」との語に分解する。
Then, the
そして、データベース登録部13は、同義語辞書5を参照して、「日本電気」および「奈良支店」の同義語と省略可能語とを抽出する。「日本電気」の代表語である同義語は、「NEC」であるため、データベース登録部13は、「NEC」を抽出する。また、データベース登録部13は、「NEC」を代表語とする同義語である「エヌイーシー」を抽出する。
Then, the
さらに、データベース登録部13は、同義語辞書5を参照して、「日本電気」、「NEC」、および「エヌイーシー」のいずれかの省略可能語を抽出する。具体的には、「NEC」の省略可能語として「日電」を抽出する。
Furthermore, the
そして、データベース登録部13は、同義語辞書5から抽出した語や、使用者が入力した情報の語を組み合わせて、使用者が入力した情報から変形した可能性がある情報を生成する。具体的には、「NEC奈良支店」、「エヌイーシー奈良支店」、「日電NEC奈良支店」、「日電エヌイーシー奈良支店」、「NEC日電奈良支店」、「エヌイーシー日電奈良支店」、「日電奈良支店」等を生成する。
And the
データベース登録部13は、生成した情報と合致する情報がデータベース2に登録されているか否かを検索して、データベース2から合致する情報を抽出する。すると、図2の例に示すレコードID「001」、レコードID「002」、およびレコードID「003」が抽出される。
The
データベース登録部13は、抽出した各レコードを、重複可能性のあるレコードとして表示部に表示させる。
The
検索部14は、上述したデータベース登録部13の動作と同様な動作を行って、データベース2から、使用者が検索部14に検索キーとして入力した情報、およびその情報から変形した可能性がある情報に合致する情報を、検索結果として表示部に表示させる。
The
検索料金算出部15は、検索部14が検索結果を表示部に表示させると、使用者に請求する所定の料金を算出する。なお、使用者が、データベース2の所有者または管理者に、データベース2の使用料金を支払っている場合は、検索料金算出部15は、データベース2の所有者または管理者に請求する料金を算出してもよい。
The search
以上に述べたように、この実施の形態によれば、使用者がデータベース2に情報を登録する際に、重複する可能性のある情報を使用者に提示するため、新しく登録する情報が、重複レコードとなることを防ぐことができる。
As described above, according to this embodiment, when a user registers information in the
また、検索部14がデータベース2に登録されている情報を検索し、検索料金算出部15が、検索部14が行った情報の検索に応じた料金を算出するため、重複レコード検出システム20の所有者は、料金を使用者またはデータベース2の所有者または管理者に請求することができる。
Further, since the
実施の形態7.
本発明の第7の実施の形態を、図面を参照して説明する。図15は、本発明の第7の実施の形態の一構成例を示すブロック図である。
A seventh embodiment of the present invention will be described with reference to the drawings. FIG. 15 is a block diagram showing a configuration example of the seventh embodiment of the present invention.
本発明の第7の実施の形態の構成は、第5の実施の形態の構成に、重複レコード削除部12がデータベース2から削除した情報に応じて、データベース2の所有者等に請求する料金を算出する削除料金算出部16を加えたものであり、その他の構成要素は第5の実施の形態と同様なため、その他の構成要素には図13と同じ符号を付し、説明を省略する。
The configuration of the seventh embodiment of the present invention is the same as the configuration of the fifth embodiment, except that the fee charged to the owner of the
重複レコード削除部12は、第5の実施の形態における動作と同様の動作を行い、重複レコードをデータベース2から削除する。
The duplicate
削除料金算出部16は、重複レコード削除部12がデータベース2から削除した情報に応じて、データベース2の所有者または管理者に請求する料金を算出する。
The deletion fee calculation unit 16 calculates a fee charged to the owner or administrator of the
以上に述べたように、この実施の形態によれば、データベース2に登録されている重複レコードの削除に応じた料金を、データベース2の所有者または管理者に請求することができる。
As described above, according to this embodiment, it is possible to charge the owner or manager of the
なお、重複レコード検出システム20の所有者等は、重複レコード検出システム20に他のデータベースに登録されている情報を入力して、重複レコード削除部12に情報を削除させてもよい。すると、変換語候補抽出部10が、変換語を変換語辞書5に登録するため、重複レコード判定部7による重複レコードの判定精度を向上させることができる。そのため、例えば、第4の実施の形態で、使用者が、重複レコード候補が重複レコードであるか否かの判定を行う回数を減らすことができる。
The owner of the duplicate
本発明は、データベースに重複して登録されている情報を抽出するシステムに適用することができる。 The present invention can be applied to a system that extracts information that is registered redundantly in a database.
1 記憶部
2 データベース
3 類似度計算部
4 データベース情報入力部
5 変換語辞書
6 重複候補抽出部
7 重複レコード判定部
8 重複判定ルール記憶部
9 重複レコードデータベース
10 変換語候補抽出部
11 入出力部
12 重複レコード削除部
13 データベース登録部
14 検索部
15 検索料金算出部
16 削除料金算出部
20 重複レコード検出システム
DESCRIPTION OF
Claims (18)
複数の情報からなる複数のレコードを保持するデータベースに登録されている情報に用いられている語を、前記変換語記憶部が記憶している変換語に変換して、前記レコード間の類似度を計算する類似度計算部と、
前記類似度計算部が計算した前記類似度が、所定の値以上であるレコードの組み合わせである重複レコード候補を抽出する重複候補抽出部と
を備えたことを特徴とする重複レコード検出システム。 A conversion word storage unit for storing a conversion word corresponding to the word;
A word used in information registered in a database holding a plurality of records composed of a plurality of information is converted into a conversion word stored in the conversion word storage unit, and the similarity between the records is determined. A similarity calculation unit to calculate,
A duplicate record detection system comprising: a duplicate candidate extraction unit that extracts a duplicate record candidate that is a combination of records in which the similarity calculated by the similarity calculation unit is equal to or greater than a predetermined value.
類似度計算部は、データベースに登録されている情報に用いられている語を、対応する同義語に変換してレコード間の類似度を計算する
請求項1記載の重複レコード検出システム。 The conversion word storage unit stores synonyms as conversion words,
The duplicate record detection system according to claim 1, wherein the similarity calculation unit calculates a similarity between records by converting a word used in information registered in the database into a corresponding synonym.
類似度計算部は、データベースに登録されている情報に用いられている語に、対応する省略可能語を追加してレコード間の類似度を計算する
請求項1または請求項2記載の重複レコード検出システム。 The conversion word storage unit stores an optional word that is an optional word as a conversion word,
The duplicate record detection according to claim 1, wherein the similarity calculation unit calculates a similarity between records by adding a corresponding optional word to a word used in information registered in the database. system.
類似度計算部は、前記データベース情報入力部に入力された前記フィールドの情報にもとづいて、フィールド間の類似度を計算し、計算した前記フィールド間の類似度を用いて、レコード間の類似度を計算する
請求項1から請求項3のうちいずれか1項記載の重複レコード検出システム。 Comprising a database information input unit that configures a database record and inputs field information that is a unit in which information registered in the database record is delimited;
The similarity calculation unit calculates a similarity between fields based on the information on the field input to the database information input unit, and calculates a similarity between records using the calculated similarity between the fields. The duplicate record detection system according to any one of claims 1 to 3, wherein calculation is performed.
前記重複判定ルール記憶部が記憶している前記重複判定ルールにもとづいて、前記重複レコード候補が前記重複レコードであるか否かを判定する重複レコード判定部とを含む
請求項1から請求項4のうちいずれか1項記載の重複レコード検出システム。 A duplicate determination rule storage unit that stores a duplicate determination rule that is a rule for determining whether or not the duplicate record candidate extracted by the duplicate candidate extraction unit is a duplicate record that is a combination of records of the same content information;
The duplication record determination part which determines whether the said duplication record candidate is the said duplication record based on the said duplication judgment rule which the said duplication judgment rule memory | storage part has memorize | stored is included. The duplicate record detection system according to any one of the above.
請求項5記載の重複レコード検出システム。 The duplicate record detection system according to claim 5, further comprising a conversion word candidate extraction unit that extracts a conversion word candidate that is a conversion word candidate from the record that the duplicate record determination unit determines to be a duplicate record.
請求項6記載の重複レコード検出システム。 The duplicate record detection system according to claim 6, wherein the conversion word candidate extraction unit extracts, as extracted synonym candidates, synonym candidates, which are synonym candidates, from the extracted conversion word candidates.
請求項7記載の重複レコード検出システム。 When one record of the duplicate record is included in the other record of the duplicate record, the conversion word candidate extraction unit, the difference between the one record and the other record, and the one record and the other record The duplicate record detection system according to claim 7, wherein portions having common records are extracted as omissible word candidates that are omissible word candidates that are omissible words.
請求項8記載の重複レコード検出システム。 The duplicate record detection system according to claim 8, wherein the conversion word candidate extraction unit changes the synonym candidate to an abbreviation-candidate word if any of the extracted synonym candidates is included in another record.
請求項9記載の重複レコード検出システム。 The conversion word candidate extraction unit excludes, from the synonym candidates, synonym candidates composed of other synonym candidates and combinations of omissible word candidates from the extracted synonym candidates. Record detection system.
請求項10記載の重複レコード検出システム。 The duplicate record according to claim 10, wherein the conversion word candidate extraction unit excludes, from the omissible word candidates, synonym candidates and omissible word candidates included in other omissible word candidates. Detection system.
請求項11記載の重複レコード検出システム。 The duplicate record detection system according to claim 11, wherein the conversion word candidate extraction unit stores the synonym candidate as a synonym in the conversion word storage unit, and stores the optional word candidate as an optional word in the conversion word storage unit.
重複レコード判定部は、前記入出力部に出力する重複レコード候補の数が少なくなる順番で前記重複レコード候補を前記入出力部に出力し、
変換語候補抽出部は、前記入出力部に出力する変換語候補の数が少なくなる順番で前記変換語候補を前記入出力部に出力する
請求項5から請求項12のうちいずれか1項記載の重複レコード検出システム。 Including an input / output unit that outputs a duplicate record candidate and a conversion word candidate, and a user inputs a determination as to whether the duplicate record candidate is a duplicate record and whether the conversion word candidate is a conversion word; ,
The duplicate record determination unit outputs the duplicate record candidates to the input / output unit in order of decreasing the number of duplicate record candidates to be output to the input / output unit,
The conversion word candidate extraction unit outputs the conversion word candidates to the input / output unit in an order in which the number of conversion word candidates to be output to the input / output unit decreases. Duplicate record detection system.
請求項13記載の重複レコード検出システム。 The duplicate record determination unit outputs the duplicate record candidates to the input / output unit in descending order of the number of records constituting the duplicate record candidate among the duplicate record candidates that have not been determined to be duplicate records. Duplicate record detection system.
前記変換語候補抽出部は、変換語候補を抽出した数が多い前記重複レコード候補から抽出した前記変換語候補から順に入出力部に出力する
請求項13または請求項14記載の重複レコード検出システム。 The duplicate record determination unit outputs the duplicate record candidate that has not been determined to be a duplicate record to the conversion word candidate extraction unit,
The duplicate record detection system according to claim 13 or 14, wherein the conversion word candidate extraction unit sequentially outputs the conversion word candidates extracted from the duplicate record candidates having a large number of extracted conversion word candidates to the input / output unit.
前記重複レコードデータベースが記憶しているレコードの組み合わせを構成するレコードのうち、一のレコード以外のレコードをデータベースから削除する重複レコード削除部とを含む
請求項13から請求項15のうちいずれか1項記載の重複レコード検出システム。 A duplicate record database that stores a combination of records determined by the user via a duplicate record determination unit or an input / output unit as a duplicate record;
The duplicate record deletion part which deletes records other than one record from a database among the records which comprise the combination of the record which the said duplicate record database has memorized. Any one of Claims 13-15. The described duplicate record detection system.
前記データベース登録部が抽出したレコードを表示する表示部とを含む
請求項1から請求項16のうちいずれか1項記載の重複レコード検出システム。 Information consisting of words converted from the words of information input by the user to be registered in the database into conversion words stored in the conversion word storage unit or words that match the input information words A database registration unit that extracts records including
The duplicate record detection system according to claim 1, further comprising: a display unit that displays the records extracted by the database registration unit.
複数の情報からなる複数のレコードを保持するデータベースに登録されている情報に用いられている語を、語に対応する変換語を記憶する変換語記憶部が記憶している変換語に変換して、前記レコード間の類似度を計算させる類似度計算処理と、
前記類似度計算処理で計算した前記類似度が、所定の値以上であるレコードの組み合わせである重複レコード候補を抽出させる重複候補抽出処理と
を実行させるための重複レコード検出プログラム。 On the computer,
Converting a word used in information registered in a database holding a plurality of records composed of a plurality of information into a conversion word stored in a conversion word storage unit that stores a conversion word corresponding to the word , Similarity calculation processing for calculating the similarity between the records,
A duplicate record detection program for executing a duplicate candidate extraction process for extracting a duplicate record candidate that is a combination of records in which the similarity calculated in the similarity calculation process is a predetermined value or more.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004355789A JP4687089B2 (en) | 2004-12-08 | 2004-12-08 | Duplicate record detection system and duplicate record detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004355789A JP4687089B2 (en) | 2004-12-08 | 2004-12-08 | Duplicate record detection system and duplicate record detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006163941A true JP2006163941A (en) | 2006-06-22 |
JP4687089B2 JP4687089B2 (en) | 2011-05-25 |
Family
ID=36665883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004355789A Expired - Fee Related JP4687089B2 (en) | 2004-12-08 | 2004-12-08 | Duplicate record detection system and duplicate record detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4687089B2 (en) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008146807A1 (en) | 2007-05-31 | 2008-12-04 | Nec Corporation | Ontology processing device, ontology processing method, and ontology processing program |
JP2010134501A (en) * | 2008-12-02 | 2010-06-17 | Nec Corp | Identification system, identification method and identification program |
JP2011008389A (en) * | 2009-06-24 | 2011-01-13 | Hitachi Information Systems Ltd | Method, system and program for consolidating kana name data |
JP2011503681A (en) * | 2007-09-28 | 2011-01-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for analysis of systems for matching data records |
JP2011513811A (en) * | 2008-02-22 | 2011-04-28 | リード ホース テクノロジーズ インコーポレイテッド | Automated ontology generation system and method |
JP2012128509A (en) * | 2010-12-13 | 2012-07-05 | Nippon Hoso Kyokai <Nhk> | Conception processing apparatus and program |
JP2013517569A (en) * | 2010-01-13 | 2013-05-16 | アビニシオ テクノロジー エルエルシー | Matching metadata sources using rules that characterize conformance |
US8510338B2 (en) | 2006-05-22 | 2013-08-13 | International Business Machines Corporation | Indexing information about entities with respect to hierarchies |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US8589415B2 (en) | 2006-09-15 | 2013-11-19 | International Business Machines Corporation | Method and system for filtering false positives |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
JP2018510410A (en) * | 2015-02-13 | 2018-04-12 | アリババ グループ ホウルディング リミテッド | Method and apparatus for processing address text |
JP2019159837A (en) * | 2018-03-13 | 2019-09-19 | 日本電気株式会社 | Database binding apparatus, database binding method, and database binding program |
CN113722377A (en) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | Method and system for building drug standard library |
JPWO2022259336A1 (en) * | 2021-06-07 | 2022-12-15 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266769A (en) * | 1993-03-15 | 1994-09-22 | Toshiba Corp | Synonym information preparing device |
JPH07192053A (en) * | 1993-12-27 | 1995-07-28 | Nippon Telegr & Teleph Corp <Ntt> | How to determine the reading of customer names and how to aggregate customer names to implement this method |
JPH10275159A (en) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | Information retrieval method and device |
JPH11184884A (en) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | System for judging the same person and method therefor |
JP2003173345A (en) * | 2001-12-05 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | Database generation device, database generation method, and database generation processing program |
-
2004
- 2004-12-08 JP JP2004355789A patent/JP4687089B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266769A (en) * | 1993-03-15 | 1994-09-22 | Toshiba Corp | Synonym information preparing device |
JPH07192053A (en) * | 1993-12-27 | 1995-07-28 | Nippon Telegr & Teleph Corp <Ntt> | How to determine the reading of customer names and how to aggregate customer names to implement this method |
JPH10275159A (en) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | Information retrieval method and device |
JPH11184884A (en) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | System for judging the same person and method therefor |
JP2003173345A (en) * | 2001-12-05 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | Database generation device, database generation method, and database generation processing program |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510338B2 (en) | 2006-05-22 | 2013-08-13 | International Business Machines Corporation | Indexing information about entities with respect to hierarchies |
US8589415B2 (en) | 2006-09-15 | 2013-11-19 | International Business Machines Corporation | Method and system for filtering false positives |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US8244769B2 (en) | 2007-05-31 | 2012-08-14 | Nec Corporation | System and method for judging properties of an ontology and updating same |
WO2008146807A1 (en) | 2007-05-31 | 2008-12-04 | Nec Corporation | Ontology processing device, ontology processing method, and ontology processing program |
US8799282B2 (en) | 2007-09-28 | 2014-08-05 | International Business Machines Corporation | Analysis of a system for matching data records |
US9286374B2 (en) | 2007-09-28 | 2016-03-15 | International Business Machines Corporation | Method and system for indexing, relating and managing information about entities |
US10698755B2 (en) | 2007-09-28 | 2020-06-30 | International Business Machines Corporation | Analysis of a system for matching data records |
JP2011503681A (en) * | 2007-09-28 | 2011-01-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for analysis of systems for matching data records |
US9600563B2 (en) | 2007-09-28 | 2017-03-21 | International Business Machines Corporation | Method and system for indexing, relating and managing information about entities |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
JP2011513811A (en) * | 2008-02-22 | 2011-04-28 | リード ホース テクノロジーズ インコーポレイテッド | Automated ontology generation system and method |
JP2010134501A (en) * | 2008-12-02 | 2010-06-17 | Nec Corp | Identification system, identification method and identification program |
JP2011008389A (en) * | 2009-06-24 | 2011-01-13 | Hitachi Information Systems Ltd | Method, system and program for consolidating kana name data |
US9031895B2 (en) | 2010-01-13 | 2015-05-12 | Ab Initio Technology Llc | Matching metadata sources using rules for characterizing matches |
KR101758669B1 (en) * | 2010-01-13 | 2017-07-18 | 아브 이니티오 테크놀로지 엘엘시 | Matching metadata sources using rules for characterizing matches |
JP2013517569A (en) * | 2010-01-13 | 2013-05-16 | アビニシオ テクノロジー エルエルシー | Matching metadata sources using rules that characterize conformance |
JP2012128509A (en) * | 2010-12-13 | 2012-07-05 | Nippon Hoso Kyokai <Nhk> | Conception processing apparatus and program |
JP2018510410A (en) * | 2015-02-13 | 2018-04-12 | アリババ グループ ホウルディング リミテッド | Method and apparatus for processing address text |
US10795964B2 (en) | 2015-02-13 | 2020-10-06 | Alibaba Group Holding Limited | Text address processing method and apparatus |
JP2019159837A (en) * | 2018-03-13 | 2019-09-19 | 日本電気株式会社 | Database binding apparatus, database binding method, and database binding program |
JPWO2022259336A1 (en) * | 2021-06-07 | 2022-12-15 | ||
WO2022259336A1 (en) * | 2021-06-07 | 2022-12-15 | 日本電気株式会社 | Information processing device, information processing method, and program |
JP7697509B2 (en) | 2021-06-07 | 2025-06-24 | 日本電気株式会社 | Information processing device, information processing method, and program |
CN113722377A (en) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | Method and system for building drug standard library |
Also Published As
Publication number | Publication date |
---|---|
JP4687089B2 (en) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4687089B2 (en) | Duplicate record detection system and duplicate record detection program | |
JP5587493B2 (en) | Method and system for assigning actionable attributes to data representing personal identification | |
CN111694823B (en) | Institutional standardization method, device, electronic device and storage medium | |
US20050278292A1 (en) | Spelling variation dictionary generation system | |
Fu et al. | Automatic record linkage of individuals and households in historical census data | |
Stokes et al. | An empirical study of the effects of NLP components on Geographic IR performance | |
JP5088096B2 (en) | Information extraction program and information extraction apparatus | |
WO2008032780A1 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
WO2012088772A1 (en) | Method for efficiently searching for contact with hand-held device | |
Alam et al. | A knowledge-poor approach to chemical-disease relation extraction | |
JPWO2008142791A1 (en) | Difference calculation program, difference calculation device, and difference calculation method | |
WO2017065891A1 (en) | Automated join detection | |
JP6470249B2 (en) | Data cleansing system, data cleansing method, and data cleansing program | |
CN112748811A (en) | English word input method and device | |
JP4362492B2 (en) | Document indexing device, document search device, document classification device, method and program thereof | |
JP4015661B2 (en) | Named expression extraction device, method, program, and recording medium recording the same | |
CN115438048A (en) | Table searching method, device, equipment and storage medium | |
JP2821213B2 (en) | Database matching method | |
KR101355284B1 (en) | Method for Recommending Words and Completing Sentences in Touch Screen Devices | |
JP4572265B2 (en) | Results management support system and results management support program | |
JP4505236B2 (en) | Patent / utility model literature search system and program | |
JP2007299028A (en) | Information processor | |
JP2002091961A (en) | System and processing method for detecting/correcting corpus error and program recording medium | |
JP2007026116A (en) | Concept search system and concept search method | |
JP2002197116A (en) | Search device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110131 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |