JP2020008951A - Terminology fluctuation extraction device and method - Google Patents
Terminology fluctuation extraction device and method Download PDFInfo
- Publication number
- JP2020008951A JP2020008951A JP2018127063A JP2018127063A JP2020008951A JP 2020008951 A JP2020008951 A JP 2020008951A JP 2018127063 A JP2018127063 A JP 2018127063A JP 2018127063 A JP2018127063 A JP 2018127063A JP 2020008951 A JP2020008951 A JP 2020008951A
- Authority
- JP
- Japan
- Prior art keywords
- spelling
- candidate
- document
- correction
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】
表記振れ候補(複合語)とOK語(複合語)の類似度を高精度で判定し、登録することを可能にする。
【解決手段】
表記振れ抽出装置は、一つのドメインにおける修正前の文書と修正後の文書を格納する記憶部と、修正前の文書と前記修正後の文書から複合語を抽出し、修正前の文書にのみ現れる複合語を前記ドメイン用語の表記揺れ候補とする処理部とを有する。そして、この処理部は、表記揺れ候補とドメイン用語の組み合わせを表記揺れ候補・ドメイン用語ペアとして、記憶部に登録し、記憶部に登録された表記揺れ候補・ドメイン用語ペアの表記揺れ候補及びドメイン用語を一般用語にそれぞれ分割し、分割された表記振れ候補の一般用語と分割されたドメイン用語の一般用語との最大類似度を計算し、計算された一般用語の最大類似度に基づいて、表記揺れ候補・ドメイン用語ペアの平均類似度を算出する。
【選択図】図4【Task】
It is possible to determine the degree of similarity between a notational deviation candidate (compound word) and an OK word (compound word) with high accuracy, and to register them.
[Solution]
The notation fluctuation extracting device stores a document before correction and a document after correction in one domain, extracts a compound word from the document before correction and the document after correction, and appears only in the document before correction. A processing unit that makes a compound word a candidate for the fluctuation of the notation of the domain term. The processing unit registers the combination of the spelling fluctuation candidate and the domain term in the storage unit as a spelling fluctuation candidate / domain term pair, and stores the spelling fluctuation candidate and the domain of the spelling fluctuation candidate / domain term pair registered in the storage unit. The term is divided into general terms, and the maximum similarity between the general term of the divided notational candidate and the general term of the divided domain term is calculated. Based on the calculated maximum similarity of the general term, the notation is calculated. The average similarity of the swing candidate / domain term pair is calculated.
[Selection diagram] FIG.
Description
本発明は、表記揺れ抽出装置及び方法に関する。 The present invention relates to a spelling fluctuation extracting device and method.
近年、自然言語で書かれた文書を分析し、その文書の「表記揺れ」を抽出する装置が開発されている。ここで、「表記揺れ」とは、一つの文書または一連の文書群において、同一の概念を指す複数の(異なる)表記である。 2. Description of the Related Art In recent years, a device that analyzes a document written in a natural language and extracts “notation fluctuation” of the document has been developed. Here, “oscillation” is a plurality of (different) notations indicating the same concept in one document or a series of documents.
表記振れに関連する技術として類似表現を抽出する技術の一例が、特許文献1に開示されている。特許文献1には、形態素列から所定の品詞の並びである複合語を抽出する複合語抽出手段と、複合語の特定の組において、一つの複合語が別の複合語の表記揺れであるか否かに関する人間による判定結果を入力する判定入力手段を備え、判定結果に基づいて表記揺れ辞書に登録する技術が開示されている。
また、特許文献1では、人間による判定結果を提供できる場合に限り、表記揺れを適切に抽出できる。そうでない場合、表記揺れを適切に抽出できないおそれがある。そのため、十分な再現率を保証できないおそれがある。
In addition, according to
本発明の課題は、表記振れ候補(複合語)とOK語(複合語)の類似度を高精度で判定し、登録することができる表記揺れ抽出装置及び方法を提供することにある。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a spelling variation extraction apparatus and method capable of determining and registering the similarity between a spelling variation candidate (compound word) and an OK word (compound word) with high accuracy.
上記課題を解決する本発明の一側面は、一つのドメインにおける修正前の文書と修正後の文書を格納する記憶部と、修正前の文書と前記修正後の文書から複合語を抽出し、修正前の文書にのみ現れる複合語を前記ドメイン用語の表記揺れ候補とする処理部とを有する。そして、この処理部は、表記揺れ候補とドメイン用語の組み合わせを表記揺れ候補・ドメイン用語ペアとして、記憶部に登録し、記憶部に登録された表記揺れ候補・ドメイン用語ペアの表記揺れ候補及びドメイン用語を一般用語にそれぞれ分割し、分割された表記振れ候補の一般用語と分割されたドメイン用語の一般用語との最大類似度を計算し、計算された一般用語の最大類似度に基づいて、表記揺れ候補・ドメイン用語ペアの平均類似度を算出する。 One aspect of the present invention that solves the above problems is a storage unit that stores a document before correction and a document after correction in one domain, and extracts a compound word from the document before correction and the document after correction, and corrects the compound word. A processing unit that sets a compound word appearing only in the previous document as a candidate for the fluctuation of the notation of the domain term. The processing unit registers the combination of the spelling fluctuation candidate and the domain term in the storage unit as a spelling fluctuation candidate / domain term pair, and stores the spelling fluctuation candidate and the domain of the spelling fluctuation candidate / domain term pair registered in the storage unit. The term is divided into general terms, and the maximum similarity between the general term of the divided notational candidate and the general term of the divided domain term is calculated. Based on the calculated maximum similarity of the general term, the notation is calculated. The average similarity of the swing candidate / domain term pair is calculated.
本発明によれば、修正前の文書と修正後の文書とから、正しい用語とその誤記である表記揺れとを精度よく、再現率よく抽出できる。 ADVANTAGE OF THE INVENTION According to this invention, a correct term and the spelling fluctuation which is the erroneous description can be extracted from the document before correction and the document after correction accurately and with good recall.
以下、実施例について図面を用いて説明する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではない。また実施例において説明されている諸要素およびその組み合わせのすべてが発明の解決手段に必須であるとは限らない。 Hereinafter, embodiments will be described with reference to the drawings. The embodiments described below do not limit the invention according to the claims. In addition, not all of the elements and combinations thereof described in the embodiments are necessarily essential to the solution of the invention.
本技術の対象である文書は、特定の「ドメイン」に属する文書である。例えば、特定の情報システムの設計書は、その情報システムという「ドメイン」に属する文書である。このように、「ドメイン」とは、文章の主題が属する分野又は文章の作成者のグループである。自然言語で書かれた特定の電子機器や銀行システムの仕様書等の文書では、ドメインに固有の用語である複合語が使用されることが多い。 A document targeted by the present technology is a document belonging to a specific “domain”. For example, a design document of a specific information system is a document belonging to a “domain” of the information system. As described above, the “domain” is a field to which the subject of the text belongs or a group of creators of the text. In a document such as a specification of a specific electronic device or a bank system written in a natural language, a compound word which is a term specific to a domain is often used.
そのため、ドメインに特有の表記揺れが発生する可能性が高い。例えば、特定のドメインでは、「預金種目」という複合語がそのドメインに固有な用語であるが、「種別」という単語は使用してもよい。このとき、「預金種別」という表記揺れが発生しうる。 For this reason, there is a high possibility that a writing fluctuation peculiar to the domain occurs. For example, in a particular domain, the compound term "deposit item" is a term specific to that domain, but the word "type" may be used. At this time, the notation “deposit type” may fluctuate.
特に、出現頻度の高い単語に対し、出現頻度の低い類似表現があった場合、出現頻度の低い類似表現のほうは、共起表現がしばしば偏ったものであるため、抽出が困難である。例えば、出現頻度が数百程度の複合語「預金種目」に対し、出現頻度が1の類似表現「預金種別」があったとする。「預金種別」の文脈は「預金種別の変更…」であるため、その共起表現は「変更」である。一方、「預金種目」の共起表現は「登録」が多い。この状況では、「預金種別」を「預金種目」の類似表現として抽出できない可能性が高い。 In particular, when there is a similar expression with a low appearance frequency for a word with a high appearance frequency, it is difficult to extract the similar expression with a low appearance frequency because the co-occurrence expression is often biased. For example, it is assumed that there is a similar expression “deposit type” having an appearance frequency of 1 for a compound word “deposit type” having an appearance frequency of about several hundreds. Since the context of "deposit type" is "change of deposit type ...", its co-occurrence expression is "change". On the other hand, the co-occurrence expression of “deposit item” is often “registration”. In this situation, there is a high possibility that “deposit type” cannot be extracted as a similar expression of “deposit type”.
以降、例として、「預金種目」をドメインに固有な用語とし、「預金種別」を表記揺れとする。 Hereinafter, as an example, “deposit type” is a term specific to a domain, and “deposit type” is notationally changed.
図1は、表記揺れ抽出装置10の概要を機能的に示した図である。表記揺れ抽出装置10は、処理部11と記憶部12を備えている。
処理部11は、入出力部111と、複合語抽出部112と、語彙ベクトル取得部113と、平均類似度計算部114と、選別部115と、を備える。記憶部12は、文書記憶部121と、語彙情報記憶部122と、を備える。
FIG. 1 is a diagram functionally showing an outline of a writing
The
実施例1において、ユーザは、処理を実行するに先立ち、修正前の文書と修正後の文書とを、入出力部111を通じて文書記憶部121に登録しておく。修正前の文書は、1つの文書でも、複数の文書でもよい。修正後の文書も同様である。
In the first embodiment, the user registers a document before correction and a document after correction in the
表記揺れ抽出装置10は、修正前の文書と修正後の文書とを、機械的に区別できるような仕組みを備える。例えば、文書記憶部121は、修正前の文書を格納するフォルダと、修正後の文書を格納するフォルダと、を備える。また、例えば、修正前の文書のファイル名に、「_修正前」を付け足す(修正後の文書に対しても同様)機能を備えてもよい。
The spelling
入出力部111の文書を登録する機能は、文書が修正前か修正後かを登録する機能を併せ持つ。例えば、ユーザに「文書が修正前か修正後かを選択するチェックボックス」を提示してもよい。また、ユーザの選択結果を受け取ったとき、文書を修正前フォルダまたは修正後フォルダに仕分ける、もしくは、「_修正前」または「_修正後」を付け足すように文書を文書記憶部121に登録する。
The function of registering a document in the input / output unit 111 also has a function of registering whether the document is before or after correction. For example, the user may be presented with a “check box for selecting whether the document is before or after modification”. Further, when receiving the user's selection result, the document is sorted into the pre-correction folder or the post-correction folder, or the document is registered in the
ユーザが入出力部111にある「起動」ボタンを押したとき、複合語抽出部112と、語彙ベクトル取得部113と、平均類似度計算部114と、選別部115と、が順次起動される。すべての処理が終了したとき、抽出したすべての表記揺れは入出力部111に表示される。
When the user presses the “start” button on the input / output unit 111, the compound word extraction unit 112, the vocabulary
通常、修正後の文書においては、表記揺れはすべて修正されている。従って、次の状況を例とする。修正前の文書は「預金種目」(ドメイン用語)と「預金種別」(表記揺れ)との両方を含む。それに対して、修正後の文書は、「預金種目」(ドメイン用語)のみを含み、「預金種別」(表記揺れ)を含まない。 Usually, in the corrected document, all the spelling has been corrected. Therefore, the following situation is taken as an example. The document before amendment includes both “deposit item” (domain term) and “deposit type” (notation). On the other hand, the document after the correction includes only the “deposit item” (domain term) and does not include the “deposit type” (notation fluctuation).
複合語抽出部112は、文書記憶部121に格納されている修正前の文書を、語彙情報記憶部122に格納されている一般単語辞書を用いて形態素解析する。ここで、「形態素」とは、文章において意味を持つ最小単位である。形態素は、形態素の表記を示す文字列の情報と、形態素が属する品詞の情報とを含む。複合語抽出部112は、Mecab(MeCabはオープンソースの形態素解析エンジン)、TermExtractを用いることで実現することができる。
The compound word extraction unit 112 performs a morphological analysis on the document before correction stored in the
形態素解析の結果である修正前の文書の形態素列を、文書記憶部121に登録する。例えば、文書記憶部121に格納されている修正前の文書は、「預金種別」という表記揺れを含む。「預金種別」は、「預金」と「種別」との2つの形態素(一般単語)になる。
The morpheme sequence of the document before correction, which is the result of the morphological analysis, is registered in the
複合語抽出部112は、文書記憶部121に格納されている修正前の文書の形態素列から、所定の品詞の並びを複合語として抽出する。抽出の結果を、修正前複合語辞書として、語彙情報記憶部122に登録する。このとき、「預金」と「種別」とは、名詞の並びなので、「預金種別」は複合語として抽出され、語彙情報記憶部122の修正前複合語辞書に登録される。
The compound word extraction unit 112 extracts a predetermined part-of-speech sequence as a compound word from the morpheme sequence of the document before correction stored in the
複合語抽出部112は、文書記憶部121に格納されている修正後の文書を、語彙情報記憶部122に格納されている一般単語辞書を用いて形態素解析する。形態素解析の結果である修正後の文書の形態素列を、文書記憶部121に登録する。例えば、文書記憶部121に格納されている修正後の文書は、「預金種目」というドメインに固有の用語を含む。「預金種目」は、「預金」と「種目」との2つの形態素(一般単語)になる。
The compound word extraction unit 112 performs a morphological analysis on the corrected document stored in the
複合語抽出部112は、文書記憶部121に格納されている修正後の文書の形態素列から、所定の品詞の並びを複合語として抽出する。抽出の結果を、修正後複合語辞書として、語彙情報記憶部122に登録する。このとき、「預金」と「種目」とは、名詞の並びなので、「預金種目」は複合語として抽出され、修正後複合語辞書に登録されるが、修正後の文書は、「預金種別」(表記揺れ)を含まないので、「預金種別」は修正後複合語辞書に登録されない。
The compound word extraction unit 112 extracts a predetermined part-of-speech sequence as a compound word from the morphological sequence of the document after correction stored in the
前述したとおり、通常、修正後の文書においては、表記揺れはすべて修正されており、修正後の文書は正しい複合語のみを含む。そのため、修正後の文書から抽出したすべての複合語は正しい、即ち、修正後複合語辞書のすべての複合語は正しい。そのため、修正後複合語辞書を「OK語辞書」と呼ぶ。また、OK語辞書に属する複合語、即ち、修正後の文書から抽出した複合語を「OK語」と呼ぶ。例えば、「預金種目」はOK語である。 As described above, all the spelling changes are usually corrected in the corrected document, and the corrected document includes only correct compound words. Therefore, all the compound words extracted from the corrected document are correct, that is, all the compound words in the corrected compound word dictionary are correct. Therefore, the corrected compound word dictionary is called an “OK word dictionary”. Further, a compound word belonging to the OK word dictionary, that is, a compound word extracted from the document after correction is referred to as an “OK word”. For example, “deposit item” is an OK word.
複合語抽出部112は、語彙情報記憶部122に格納されている修正前複合語辞書とOK語辞書との差分を取る。即ち、修正前複合語辞書のみに登録され、OK語辞書に登録されていない複合語を取得し、語彙情報記憶部122に、表記揺れ候補辞書として登録する。
The compound word extraction unit 112 calculates a difference between the uncorrected compound word dictionary stored in the vocabulary
「預金種別」は、修正前複合語辞書に登録されているが、OK語辞書に登録されていないので、表記揺れ候補辞書に登録される。 The “deposit type” is registered in the pre-correction compound word dictionary, but is not registered in the OK word dictionary, and thus is registered in the spelling candidate dictionary.
複合語抽出部112は、語彙情報記憶部122に格納されているすべての表記揺れ候補とすべてのOK語の対応を、「表記揺れ候補・OK語ペア」(本明細書では、「表記揺れ候補とOK語のペア」を「表記揺れ候補・OK語ペア」と記載する)として、語彙情報記憶部122に登録する。ここで、表記揺れ候補がn個あり、OK語がm個あったとすると、表記揺れ・OK語ペアは(n×m)個になる。
The compound word extraction unit 112 compares the correspondence between all the spelling candidates and all the OK words stored in the vocabulary
例えば、「預金種別・預金種目」という複合語のペアがある。ここで、表記揺れ候補辞書に登録には、OK語辞書に登録された複合語を除くため、OK語の数だけnの数を減らすことができ、表記揺れ・OK語ペア(本明細書では、「表記揺れとOK語のペア」を「表記揺れ・OK語ペア」と記載する)の数(n×m)を効果的に減らすことができる。 For example, there is a compound word pair “deposit type / deposit item”. Here, in the registration in the transcription fluctuation candidate dictionary, since the compound words registered in the OK word dictionary are excluded, the number of n can be reduced by the number of OK words, and the transcription fluctuation / OK word pair (in this specification, , "A pair of a spelling variation and an OK word" is referred to as a "spelling variation / OK word pair") (n × m) can be effectively reduced.
語彙ベクトル取得部113は、機械学習などの手法を用いて、文書記憶部121に格納されている修正前の文書の形態素列と修正後の文書の形態素列とを入力として、一般単語の共起表現から、一般単語のベクトル表現を計算する。語彙の共起表現から、語彙のベクトル表現を計算する方法は、例えば、Word2Vecがある。計算結果であるベクトル表現は、一般単語ベクトル1221として、語彙情報記憶部122に登録する(図3参照)。例えば、「預金」、「種目」と「種別」のベクトルは、それぞれの共起表現から計算される。本実施例では、一般単語「預金」、「種目」と「種別」のベクトルを使い、「預金種別」や「預金種目」といった複合語のベクトルは用いない。
The vocabulary
図2は、表記揺れ抽出装置のハードウェア構成を示した図である。演算機能を有するCPU21、データを一時的に記憶するメモリ22、ディスプレイ等の表示装置25やマウスやキーボードなどの入力装置26に接続されるインターフェース23、記憶部12、がバス24を介して接続されている。記憶部12は、ハードディスク、SSD等の記憶装置を用いる。記憶部12には、図1の入出力部111、複合語抽出部112、語彙ベクトル取得部113、平均類似度計算部114、選択部115の各種機能実現するプログラム13が記憶されている。これらプログラムがメモリ22に読み込まれ、CPU21が各種プログラムを実行することで、各種機能を実現している。また、記憶部12に修正前の文書と修正後の文書を記憶する文書記憶部121、一般用語辞書、修正前複合語辞書、修正後複合語辞書、表記揺れ候補辞書、表記揺れ候補・OK語ペア、一般単語ベクトル、平均類似度U、表記揺れ・OK語ペア、複合語ベクトルを記憶する語彙情報記憶部122とを有する。
FIG. 2 is a diagram illustrating a hardware configuration of the transcription fluctuation extracting device. A
図3は、一般単語ベクトル1221の例を示している。1つの一般単語に対し、50〜200個の数字からなるベクトルが付与されている。この一般ベクトルは、「預金」、「種目」と「種別」について、それぞれの共起表現から計算された値である。 FIG. 3 shows an example of the general word vector 1221. A vector consisting of 50 to 200 numbers is assigned to one general word. This general vector is a value calculated from each co-occurrence expression for “deposit”, “item” and “type”.
図4は、平均類似度計算部114における処理手順を説明するフロー図である。図4に示すフローは、語彙情報記憶部122に格納されているすべての表記揺れ候補・OK語ペアに対し、平均類似度を計算し、その結果を語彙情報記憶部122に登録する処理を示している。但し、表記揺れ候補はOK語辞書に登録されていない複合語のみであるため、表記揺れ候補・OK語ペアの数は、すでに効果的に絞られている。
FIG. 4 is a flowchart illustrating a processing procedure in average similarity calculation section 114. The flow illustrated in FIG. 4 illustrates a process of calculating the average similarity for all the spelling candidate / OK word pairs stored in the vocabulary
ステップS301では、語彙情報記憶部122から、1組の表記揺れ候補・OK語ペアを取得する。例えば、「預金種別・預金種目」を取得した。「預金種別」は表記揺れ候補であり、「預金種目」はOK語である。
In step S301, one spelling candidate / OK word pair is acquired from the vocabulary
ステップS302では、表記揺れ候補(複合語)を一般単語(要素)に分割する。OK語(複合語)も一般単語(要素)に分割する。分割とは、一般単語複合語抽出部112と同様に、語彙情報記憶部122に格納されている一般単語辞書を使用して、形態素解析することを指す。例えば、「預金種別」(表記揺れ候補複合語)は、「預金」と「種別」との2の形態素=一般単語(要素)に分割される。また、「預金種目」(OK語複合語)は、「預金」と「種目」との2の形態素=一般単語(要素)に分割される。便宜上、ここでは、複合語を構成する形態素=一般単語を、その複合語の要素と呼ぶ。
In step S302, a spelling candidate (compound) is divided into general words (elements). OK words (compound words) are also divided into general words (elements). Division refers to performing morphological analysis using a general word dictionary stored in the vocabulary
ステップS303では、平均類似度Uを0に初期化する。 In step S303, the average similarity U is initialized to 0.
ステップS304では、表記揺れ候補の1要素を取得する。便宜上、この要素を「NG要素」と呼ぶ。例えば、「種別」(NG要素)を取得した。 In step S304, one element of the spelling fluctuation candidate is acquired. For convenience, this element is called an “NG element”. For example, “type” (NG element) is acquired.
ステップS305では、最大類似度Vを0に初期化する。 In step S305, the maximum similarity V is initialized to 0.
ステップS306では、OK語の1要素を取得する。便宜上、この要素を「OK要素」と呼ぶ。例えば、「預金」(OK要素)を取得した。 In step S306, one element of the OK word is obtained. For convenience, this element is called an "OK element". For example, "deposit" (OK element) was acquired.
ステップS307では、NG要素のベクトルとOK要素のベクトルとを、語彙情報記憶部122に格納されている一般単語ベクトル1221(図3参照)から取得する。また、NG要素とOK要素との類似度Sを計算する。類似度Sは、NG要素のベクトルとOK要素のベクトルとのコサイン類似度を指す。例えば、「種別」(NG要素)と「預金」(OK要素)との類似度S=0.2とする。
In step S307, the NG element vector and the OK element vector are acquired from the general word vector 1221 (see FIG. 3) stored in the vocabulary
ステップS308では、ステップS307において算出した類似度Sを最大類似度Vと比較する。類似度S>最大類似度Vの場合、ステップS309へ進み、そうでない場合、ステップS310へ進む。類似度S=0.2>最大類似度V=0ため、ステップS309へ進む。 In step S308, the similarity S calculated in step S307 is compared with the maximum similarity V. If the similarity S> the maximum similarity V, the process proceeds to step S309; otherwise, the process proceeds to step S310. Since the similarity S = 0.2> the maximum similarity V = 0, the process proceeds to step S309.
ステップS309では、最大類似度VをステップS307で計算した類似度Sに更新する。例えば、最大類似度Vを類似度S=0.2に更新する。 In step S309, the maximum similarity V is updated to the similarity S calculated in step S307. For example, the maximum similarity V is updated to the similarity S = 0.2.
ステップS310では、OK語の要素を、すべて取得済みかどうかを確認する。OK語の要素をすべて取得済みの場合、ステップS311へ進む。そうでない場合、ステップS306へ戻る。例えば、「預金種目」(OK語)の要素としては、「預金」と「種目」とがあるが、いまはまだ「預金」のみを取得しただけなので、ステップS306へ戻る。 In step S310, it is confirmed whether or not all the elements of the OK word have been acquired. If all the elements of the OK word have been acquired, the process proceeds to step S311. Otherwise, the process returns to step S306. For example, the elements of “deposit item” (OK word) include “deposit” and “item”, but since only “deposit” has been acquired, the process returns to step S306.
上記の例について、再度、ステップS306からステップS310へ進むまでの動作を説明する。ステップS306では、「種目」(OK要素)を取得する。次に、ステップS307では、「種別」(NG要素)のベクトルと「種目」(OK要素)のベクトルとを、語彙情報記憶部122に格納されている一般単語ベクトル1221から取得し、「種別」(NG要素)のベクトルと「種目」(OK要素)のベクトルとのコサイン類似度を計算する。結果、コサイン類似度は0.8、即ち、類似度S=0.8とする。ステップS308では、類似度S=0.8を最大類似度V=0.2と比較する。結果、類似度S=0.8>最大類似度V=0.2のため、ステップS309へ進み、最大類似度Vを類似度S=0.8に更新する。次に、ステップS310では、OK語の要素をすべて取得済みであるため、ステップS311に進む。
For the above example, the operation from step S306 to step S310 will be described again. In step S306, “event” (OK element) is obtained. Next, in step S307, the “type” (NG element) vector and the “event” (OK element) vector are acquired from the general word vector 1221 stored in the vocabulary
ステップS311では、平均類似度Uに最大類似度Vを加算する。例えば、平均類似度U=0に最大類似度V=0.8を加算して、平均類似度U=0.8を得る。 In step S311, the maximum similarity V is added to the average similarity U. For example, the maximum similarity V = 0.8 is added to the average similarity U = 0 to obtain the average similarity U = 0.8.
ステップS312では、表記揺れ候補の要素を、すべて取得済みかを確認する。表記揺れ候補の要素をすべて取得済みの場合、ステップS313へ進み、そうでない場合、ステップS304へ戻る。例えば、表記揺れ候補「預金種別」の要素としては、「預金」と「種別」とがあるが、いまはまだ「種別」のみを取得しただけなので、ステップS304へ戻る。 In step S312, it is checked whether all elements of the spelling fluctuation candidate have been acquired. If all of the spelling fluctuation candidate elements have been acquired, the process proceeds to step S313; otherwise, the process returns to step S304. For example, the elements of the spelling candidate “deposit type” include “deposit” and “type”, but since only “type” has been acquired, the process returns to step S304.
上記の例について、再度、ステップS304からステップS312へ進むまでの動作を簡略的に説明する。ステップS304では、表記揺れ候補「預金種別」のもう片方の要素「預金」(NG要素)を取得する。続いて、ステップS305〜ステップS310では、「預金」(NG要素)と、OK語「預金種目」の要素「預金」(OK要素)と、の類似度S=1によって、最大類似度V=1となる。最後に、ステップS311では、平均類似度U=0.8に最大類似度V=1を加算して、平均類似度U=1.8を得る。尚、ステップS305にて、OK語の「種目」が選択された場合もステップS305からステップS310を繰り返すが、詳細な説明は省略する。 With respect to the above example, the operation from step S304 to step S312 will be briefly described again. In step S304, the other element “deposit” (NG element) of the spelling candidate “deposit type” is acquired. Subsequently, in steps S305 to S310, the similarity S = 1 between the “deposit” (NG element) and the element “deposit” (OK element) of the OK word “deposit item”, and the maximum similarity V = 1 Becomes Finally, in step S311, the maximum similarity V = 1 is added to the average similarity U = 0.8 to obtain an average similarity U = 1.8. Note that when the OK word “item” is selected in step S305, steps S305 to S310 are repeated, but detailed description is omitted.
ステップS313では、平均類似度Uを表記揺れ候補の要素数で除算する。平均類似度U=1.8であり、表記揺れ候補の要素数は2であるため、除算によって平均類似度U=0.9となる。 In step S313, the average similarity U is divided by the number of elements of the writing fluctuation candidate. Since the average similarity U = 1.8 and the number of elements of the writing fluctuation candidate is 2, the division results in the average similarity U = 0.9.
ステップS314では、表記揺れ候補・OK語ペアの平均類似度Uを、表記揺れ候補・OK語ペアの類似度として、語彙情報記憶部122に登録する。図5に、表記揺れ候補・OK語ペアと平均類似度Uが語彙情報記憶部122に登録された状態を示す。
In step S314, the average similarity U of the spelling candidate / OK word pair is registered in the vocabulary
ステップS315では、語彙情報記憶部122の表記揺れ候補・OK語ペアを、すべて取得済みかどうかを確認する。語彙情報記憶部122から表記揺れ候補・OK語ペアをすべて取得済みの場合は終了する。そうでない場合はステップS301へ戻る。
In step S315, it is checked whether or not all the spelling candidate / OK word pairs in the vocabulary
以上では、平均類似度を各最大類似度の通常の平均値として計算する場合について例示した。上記以外にも、平均類似度を各最大類似度の乗算として計算する方法がある。このとき、ステップS303では、平均類似度を1に初期化する。また、ステップS311では、平均類似度に最大類似度を乗算する。ステップS313は不要である。 In the above, the case where the average similarity is calculated as a normal average value of each maximum similarity has been illustrated. Other than the above, there is a method of calculating the average similarity as a multiplication of each maximum similarity. At this time, in step S303, the average similarity is initialized to 1. In step S311, the average similarity is multiplied by the maximum similarity. Step S313 is unnecessary.
さらに、乗算以外の方法もありうる。例えば、調和平均がある。ここでは一々詳細に説明しない。要は、表記振れ候補・OK語のペアの各要素の類似度が最も大きい組み合わせに基づいて、表記振れ候補・OK語のペアの平均類似度を求める。 Further, there can be other methods than multiplication. For example, there is a harmonic mean. It will not be described in detail here. The point is that the average similarity of the pair of the notational shake candidate / OK word is determined based on the combination having the highest similarity of each element of the pair of the notational shake candidate / OK word.
図6を用いて、上記の「平均類似度」の算出を概念的に説明する。語彙情報記憶部122から、1組の表記揺れ候補・OK語ペアである「預金種別・預金種目」の複合語のペアを取得する。「預金種別」は表記揺れ候補(NG語候補)であり、「預金種目」はOK語である。
The calculation of the “average similarity” described above will be conceptually described with reference to FIG. From the vocabulary
平均類似度計算部114は、OK語(複合語)「預金種目」を、語彙情報記憶部122に登録されている一般単語辞書に基づいて、「預金」「種目」(要素)に分割する。同様に、NG語候補(複合語)「預金種別」を、語彙情報記憶部122に登録されている一般単語辞書に基づいて、「預金」「種別」(要素)に分割する。
The average similarity calculation unit 114 divides the OK word (compound word) “deposit item” into “deposit” and “item” (element) based on a general word dictionary registered in the vocabulary
表記揺れ候補のNG要素「預金」と「種別」は、類似度計算のためにそれぞれ取得され、各NG要素はOK要素の「預金」「種目」とそれぞれ類似度が計算され、最大類似度Vが「預金種別・預金種目」の複合語の平均類似度の計算に用いられる。図6では、NG要素である「種別」とOK要素「預金」「種目」の最大類似度Vは、NG要素「種別」とOK要素「種目」の場合の「0.8」となる。 The NG elements “deposit” and “type” of the notation fluctuation candidate are respectively acquired for similarity calculation, and each NG element is calculated for the similarity with “OK” elements “deposit” and “item”, respectively. Are used to calculate the average similarity of the compound words of “deposit type / deposit item”. In FIG. 6, the maximum similarity V between the NG element “type” and the OK element “deposit” “item” is “0.8” in the case of the NG element “type” and the OK element “event”.
同様に、NG要素である「預金」とOK要素「預金」「種目」の最大類似度Vは、NG要素「預金」とOK要素「預金」の場合の「1.0」となる。これら、一般用語に分割されたNG要素とOK要素の最大類似度を加え、要素数「2」で除算したものを、「平均類似度」と呼ぶ。複合語である表記振れ候補の複合語ベクトルと、複合語であるOK語の複合語ベクトルとの類似度と違い、複合語の各要素の最大類似度を用いているため、複合語としての類似度の判定の精度を向上することができる。 Similarly, the maximum similarity V between the NG element “deposit” and the OK element “deposit” “item” is “1.0” in the case of the NG element “deposit” and the OK element “deposit”. The result obtained by adding the maximum similarity between the NG element and the OK element divided into these general terms and dividing by the number of elements “2” is called “average similarity”. Unlike the similarity between the compound word vector of the compound word candidate and the compound word vector of the compound word OK, the maximum similarity of each element of the compound word is used. The accuracy of the degree determination can be improved.
選別部115は、語彙情報記憶部122の表記揺れ候補・OK語ペアから、条件を満たす表記揺れ候補・OK語ペアを選別し、それらの表記揺れ候補・OK語ペアを最終的に表記揺れ・OK語ペアとする。前記条件は、例えば、「類似度が閾値より大きい」でもよい。即ち、閾値=0.8とした場合、類似度>0.8となる表記揺れ候補・OK語ペアを表記揺れ・OK語ペアとする。このとき、すべての表記揺れ候補に対して、表記揺れ・OK語ペアが1ペア以上あるとは限らない。すべての表記揺れ候補に対して、表記揺れ・OK語ペアが1ペア以上あることが望ましいのであれば、例えば、すべての表記揺れ候補に対し、類似度が最大の表記揺れ候補・OK語ペアを、最終的に表記揺れ・OK語ペアとして選別してもよい。表記揺れ・OK語ペアを語彙情報記憶部122に登録する。
The
入出力部111は、語彙情報記憶部122に格納されている表記揺れ・OK語ペアをユーザに提示する。単純なリスト形式で提示してもよい。一つのOK語に対して複数の表記揺れが存在する場合、OK語でグルーピングを実施してもよい。
The input / output unit 111 presents the user with the spelling / OK word pair stored in the vocabulary
図7は表記揺れ・OK語ペアの出力の一例である。図7(a)は、語彙情報記憶部122に格納されている表記揺れ・OK語ペアを、表記揺れを「表記揺れ(誤記)」とし、OK語を「ドメイン用語」として、ユーザに提示する画面の一例を示している。図7(b)は、一つのOK語に対して複数の表記揺れが存在する状況において、OK語でグルーピングを実施した場合を示している。ここでは、表記揺れ・OK語ペアを、OK語・表記揺れの順に、「ドメイン用語」と「表記揺れ(誤記)」としてユーザに提示する画面の一例を示している。
FIG. 7 is an example of the output of the spelling / OK word pair. FIG. 7A shows the user of the spelling / OK word pair stored in the vocabulary
以上のように、実施例1では、表記揺れ候補辞書に登録には、OK語辞書に登録された複合語を除くため、OK語の数だけnの数を減らすことができ、表記揺れ・OK語ペアは(n×m)個の数を効果的に絞り込むことができ、平均類似度を求めるための処理を高速化することができる。 As described above, in the first embodiment, the compound word registered in the spelling candidate dictionary is excluded from the compound words registered in the OK word dictionary. Therefore, the number of n can be reduced by the number of OK words. The number of (n × m) word pairs can be effectively narrowed down, and the processing for obtaining the average similarity can be speeded up.
また、表記振れ候補(複合語)とOK語(複合語)の複合語に対する複合語ベクトルとの類似度と違い、表記振れ候補(複合語)とOK語(複合語)を一般用語に分割したNG要素とOK要素の最大類似度を求め、各要素の最大類似度を要素数「2」で除算して「平均類似度」を算出しているので、複合語の類似度判定を高精度で行うことができる。 In addition, unlike the similarity between a compound word candidate for a compound word of an OK word (compound word) and a compound word of an OK word (compound word), the candidate for a notation shake (compound word) and an OK word (compound word) are divided into general terms. Since the maximum similarity between the NG element and the OK element is obtained, and the maximum similarity of each element is divided by the number of elements “2” to calculate “average similarity”, the similarity determination of compound words can be performed with high accuracy. It can be carried out.
実施例2では、実施例1における平均類似度計算部114の処理手順を変更し、処理時間をさらに短縮する。 In the second embodiment, the processing procedure of the average similarity calculation unit 114 in the first embodiment is changed to further reduce the processing time.
図8は、実施例2における表記揺れ抽出装置10の構成例を示している。同じ符号を用いたものは、実施例1と同様の機能、構成を有するものとする。
FIG. 8 illustrates a configuration example of the spelling
実施例2では、処理部11に、語彙出現頻度取得部116が追加される。
複合語抽出部112は、文書記憶部121に格納されている修正前の文書を、語彙情報記憶部122に格納されている修正前複合語辞書とOK語辞書とを用いて形態素解析する。その結果である修正前の文書の複合語入り形態素列を、文書記憶部121に登録する。例えば、「顧客記号番号検索画面にて画面検索ボタン押下で出力される確認ダイアログ」という文は、「顧客記号番号検索画面/にて/画面検索ボタン/押下/で/出力/される/確認ダイアログ」のように分解される。即ち、「顧客記号番号検索画面」などの複合語は一般単語に分解されない。次に、修正後の文書も同様に解析する。その結果である複合語入り修正後の文書の形態素列を、文書記憶部121に登録する。
In the second embodiment, a vocabulary appearance
The compound word extraction unit 112 performs a morphological analysis on the document before correction stored in the
語彙ベクトル取得部113は、機械学習などの手法を用いて、文書記憶部121に格納されている修正前の文書の複合語入り形態素列と修正後の文書の複合語入り形態素列とを入力として、複合語の共起表現から複合語のベクトル表現を計算する。結果は複合語ベクトル1222として、語彙情報記憶部122に登録する。例えば、「預金種目」や「預金種別」のベクトルが計算され、語彙情報記憶部122に登録される。
The vocabulary
図9は、語彙情報記憶部122に登録されている複合語ベクトル1222の例を示している。1つの複合語に対し、50〜200個の数字からなるベクトルが付与されている。
FIG. 9 shows an example of the compound word vector 1222 registered in the vocabulary
語彙出現頻度取得部116は、語彙情報記憶部122に格納されているOK語辞書と表記揺れ候補辞書とを取得する。文書記憶部121に格納されている修正前の文書の複合語入り形態素列と修正後の文書の複合語入り形態素列とから、OK語と表記揺れ候補との出現頻度を計測し、語彙情報記憶部122に登録する。
The vocabulary appearance
図10は、実施例2の平均類似度計算部114における処理手順を説明するフロー図である。図10に示すフローは、語彙情報記憶部122に格納されているすべての表記揺れ候補・OK語ペアに対して、出現頻度差異で場合分けし、複合語の各要素の最大類似度を考慮した平均類似度または複合語の「コサイン類似度」を計算し、その結果を表記揺れ候補・OK語ペアの類似度として語彙情報記憶部122に登録する処理を示している。即ち、出現頻度が低い場合には、平均類似度を用い、出現頻度が高く共起表現による複合語のコサイン類似度の信頼性が高い場合には、複合語のコサイン類似度を用いることにより、処理の高速化を図ることができる。
FIG. 10 is a flowchart illustrating a processing procedure in the average similarity calculation unit 114 according to the second embodiment. In the flow illustrated in FIG. 10, all the spelling candidate / OK word pairs stored in the vocabulary
ステップS321では、語彙情報記憶部122から、1表記揺れ候補・OK語ペアを取得する。
In step S321, one spelling candidate / OK word pair is acquired from the vocabulary
ステップS322では、語彙情報記憶部122から、表記揺れ候補の出現頻度とOK語の出現頻度とを取得する。表記揺れ候補の出現頻度は、例えば、修正前文書から表記揺れ候補の出現回数をカウントすることにより求めることができる。OK語の出現頻度も同様に、修正後文書から求めることができる。
In step S322, the appearance frequency of the spelling variation candidate and the appearance frequency of the OK word are acquired from the vocabulary
ステップS323では、表記揺れ候補とOK語との出現頻度から表記揺れ候補・OK語ペアの出現頻度差異を計算する。具体的な計算は様々ある。例えば、OK語と表記揺れ候補との出現頻度の差分でもよい。また、表記揺れ候補の出現頻度を、OK語の出現頻度で除算した商でもよい。 In step S323, the appearance frequency difference between the spelling candidate / OK word pair is calculated from the appearance frequency of the spelling candidate and the OK word. There are various specific calculations. For example, the difference in the appearance frequency between the OK word and the spelling variation candidate may be used. Alternatively, a quotient obtained by dividing the appearance frequency of the spelling fluctuation candidate by the appearance frequency of the OK word may be used.
ステップS324では、表記揺れ候補・OK語ペアの出現頻度差異>閾値であるか否かを確認する。閾値はステップS323における表記揺れ候補・OK語ペアの出現頻度差異の計算式に従って、予め適切に設定する。OK語ペアの出現頻度差異>閾値である場合、ステップS325に進む。そうでない場合、ステップS327に進む。表記揺れ候補の出現頻度を、OK語の出現頻度で除算した商とした場合には、例えば、除算した商が、「0.01」を閾値とする。出現頻度差異が閾値以上となる場合には、複合語のコサイン類似度の精度が期待できないとして、平均類似度による判断を行うためである。例えば、出現頻度の差が大きい場合、ステップS325に移動する。出現頻度差異が小さい場合には、ステップS327に移動する。 In step S324, it is checked whether or not the appearance frequency difference of the spelling fluctuation candidate / OK word pair> the threshold value. The threshold value is appropriately set in advance in accordance with the formula for calculating the difference in the appearance frequency of the spelling candidate / OK word pair in step S323. If the difference in the appearance frequency of the OK word pair> the threshold, the process proceeds to step S325. Otherwise, the process proceeds to step S327. Assuming that the appearance frequency of the spelling fluctuation candidate is a quotient obtained by dividing the appearance frequency of the OK word, for example, the threshold value of the divided quotient is “0.01”. This is because, when the difference in appearance frequency is equal to or larger than the threshold value, it is determined that the accuracy of the cosine similarity of the compound word cannot be expected, and the determination based on the average similarity is performed. For example, when the difference between the appearance frequencies is large, the process moves to step S325. If the appearance frequency difference is small, the process moves to step S327.
ステップS325では、表記揺れ候補・OK語ペアの平均類似度を計算し、その結果を表記揺れ候補・OK語ペアの類似度として語彙情報記憶部122に登録する。計算方法は図4が示すステップS302〜ステップS314である。
In step S325, the average similarity of the spelling candidate / OK word pair is calculated, and the result is registered in the vocabulary
ステップS326では、語彙情報記憶部122の表記揺れ候補・OK語ペアを、すべて取得済みかどうかを確認する。語彙情報記憶部122から表記揺れ候補・OK語ペアをすべて取得済みの場合は終了する。そうでない場合はステップS321へ戻る。
In step S326, it is confirmed whether or not all the spelling candidate / OK word pairs in the vocabulary
ステップS327では、語彙情報記憶部122に格納されている複合語ベクトル1222から表記揺れ候補のベクトルとOK語の複合語ベクトルとを取得する。
In step S327, a spelling candidate vector and an OK word compound word vector are acquired from the compound word vector 1222 stored in the vocabulary
ステップS328では、表記揺れ候補の複合語ベクトルとOK語の複合語ベクトルとのコサイン類似度を計算する。 In step S328, the cosine similarity between the compound word vector of the spelling fluctuation candidate and the compound word vector of the OK word is calculated.
ステップS329では、表記揺れ候補のベクトルとOK語の複合語ベクトルとのコサイン類似度を、表記揺れ候補・OK語ペアの類似度として、語彙情報記憶部122に登録して、ステップS326に進む。
In step S329, the cosine similarity between the spelling variation candidate vector and the OK word compound word vector is registered in the vocabulary
図11にステップS329で語彙情報記憶部122に登録される表記揺れ候補とOK語のペア、出現頻度差異、揺れ候補のベクトルとOK語のベクトルとのコサイン類似度を示す。
FIG. 11 shows a pair of a spelling variation candidate and an OK word registered in the vocabulary
実施例2によれば、出現頻度が低い場合には、平均類似度を用いることで高精度に表記振れ候補とOK語のペアをその類似度と共に登録でき、出現頻度が高く共起表現による複合語のコサイン類似度の信頼性が高い場合には複合語のコサイン類似度を用いることにより、表記揺れ候補・OK語ペアの登録を高精度かつ処理の高速に行うことができる。 According to the second embodiment, when the frequency of appearance is low, a pair of a notational shake candidate and an OK word can be registered with the similarity with high accuracy by using the average similarity. When the reliability of the word cosine similarity is high, by using the cosine similarity of the compound word, it is possible to register the spelling fluctuation candidate / OK word pair with high accuracy and high speed processing.
実施例3では、実施例2における平均類似度計算部114の処理手順を変更し、表記揺れ抽出の精度及び再現率を向上する。
実施例3における装置10の構成例は実施例2と同様(図8)である。
In the third embodiment, the processing procedure of the average similarity calculation unit 114 in the second embodiment is changed to improve the accuracy and recall of the spelling variation extraction.
A configuration example of the
図12は、平均類似度計算部114における処理手順を説明するフロー図である。図12に示すフローは、語彙情報記憶部122に格納されているすべての表記揺れ候補・OK語ペアに対して、平均類似度、コサイン類似度及び出現頻度差異を計算し、出現頻度差異による平均類似度とコサイン類似度の重み付け平均を計算し、その結果を表記揺れ候補・OK語ペアの類似度として語彙情報記憶部122に登録する処理を示している。
FIG. 12 is a flowchart illustrating a processing procedure in average similarity calculation section 114. The flow shown in FIG. 12 calculates the average similarity, the cosine similarity, and the appearance frequency difference for all the spelling candidate / OK word pairs stored in the vocabulary
平均類似度とコサイン類似度に出現頻度を考慮した重み付けを持たせることで、表記揺れ候補とOK語のペアの類似度の精度を高めることができる。 By giving weight to the average similarity and the cosine similarity in consideration of the appearance frequency, it is possible to improve the accuracy of the similarity between the pair of the spelling variation candidate and the OK word.
ステップS331では、語彙情報記憶部122から、1表記揺れ候補・OK語ペアを取得する。
In step S331, one spelling candidate / OK word pair is acquired from the vocabulary
ステップS332では、表記揺れ候補・OK語ペアの平均類似度を計算する。計算方法は図4が示すステップS302〜ステップS313である。 In step S332, the average similarity of the notation fluctuation candidate / OK word pair is calculated. The calculation method is steps S302 to S313 shown in FIG.
ステップS333では、語彙情報記憶部122に格納されている複合語ベクトル1222から表記揺れ候補のベクトルとOK語のベクトルとを取得する。
In step S333, a spelling candidate vector and an OK word vector are acquired from the compound word vector 1222 stored in the vocabulary
ステップS334では、表記揺れ候補のベクトルとOK語のベクトルとのコサイン類似度を計算する。 In step S334, the cosine similarity between the notation fluctuation candidate vector and the OK word vector is calculated.
ステップS335では、語彙情報記憶部122から、表記揺れ候補の出現頻度とOK語の出現頻度とを取得する。
In step S335, the appearance frequency of the spelling variation candidate and the appearance frequency of the OK word are acquired from the vocabulary
ステップS336では、表記揺れ候補とOK語との出現頻度から表記揺れ候補・OK語ペアの出現頻度差異を計算する。具体的な計算式には様々な候補がある。例えば、OK語の出現頻度と表記揺れ候補の出現頻度との差分でもよい。また、表記揺れ候補の出現頻度を、OK語の出現頻度で除算した商でもよい。 In step S336, a difference in the appearance frequency between the spelling candidate / OK word pair is calculated from the appearance frequency of the spelling candidate and the OK word. There are various candidates for specific formulas. For example, the difference between the appearance frequency of the OK word and the appearance frequency of the spelling variation candidate may be used. Alternatively, a quotient obtained by dividing the appearance frequency of the spelling fluctuation candidate by the appearance frequency of the OK word may be used.
ステップS337では、表記揺れ候補・OK語ペアの出現頻度差異により平均類似度とコサイン類似度との重み付け平均を計算する。一般的に、出現頻度の高いOK語に対し、出現頻度の低い表記揺れがあった場合、表記揺れのほうの共起表現がしばしば偏ったものであるため、表記揺れ候補の複合語ベクトルとOK語の複合語ベクトルとのコサイン類似度よりも、平均類似度を使用したほうがよい。表記揺れ候補・OK語ペアの出現頻度差異による平均類似度とコサイン類似度との重み付け平均の計算方法は、ステップS336における表記揺れ候補・OK語ペアの出現頻度差異の計算式に従って、予め適切に設定する。表記揺れ候補・OK語ペアの出現頻度差異を差分とした場合、例えば、平均類似度の重みを(1−1/差分)とし、コサイン類似度の重みを(1/差分)としてもよい。表記揺れ候補・OK語ペアの出現頻度差異を商とした場合、平均類似度の重みを(1−商)とし、コサイン類似度の重みを商としてもよい。 In step S337, a weighted average of the average similarity and the cosine similarity is calculated based on the appearance frequency difference of the spelling candidate / OK word pair. In general, when there is a spelling with a low appearance frequency for an OK word with a high appearance frequency, the co-occurrence expression of the spelling sway is often biased. It is better to use the average similarity than the cosine similarity of the word with the compound word vector. The calculation method of the weighted average of the average similarity and the cosine similarity based on the difference in the appearance frequency of the spelling variation candidate / OK word pair is appropriately determined in advance according to the calculation formula of the difference in appearance frequency of the spelling variation candidate / OK word pair in step S336. Set. When the difference in appearance frequency of the notation fluctuation candidate / OK word pair is set as a difference, for example, the weight of the average similarity may be set to (1-1 / difference), and the weight of the cosine similarity may be set to (1 / difference). When the difference in the appearance frequency of the notation fluctuation candidate / OK word pair is used as the quotient, the weight of the average similarity may be set to (1-quotient), and the weight of the cosine similarity may be set to the quotient.
ステップS338では、重み付け平均を表記揺れ候補・OK語ペアの類似度として語彙情報記憶部122に登録する。
In step S338, the weighted average is registered in the vocabulary
ステップS339では、語彙情報記憶部122の表記揺れ候補・OK語ペアをすべて取得済みかどうかを確認する。語彙情報記憶部122から表記揺れ候補・OK語ペアをすべて取得済みの場合は終了する。そうでない場合はステップS331へ戻る。
In step S339, it is confirmed whether or not all the spelling candidate / OK word pairs in the vocabulary
実施例3によれば、平均類似度とコサイン類似度に出現頻度を考慮した重み付けを持たせることで、表記揺れ候補とOK語のペアの類似度の精度を高めることができる。 According to the third embodiment, by giving the average similarity and the cosine similarity weights in consideration of the appearance frequency, it is possible to improve the accuracy of the similarity between the pair of the spelling variation candidate and the OK word.
10:本装置、11:処理部、12:記憶部、111:入出力部、112:複合語抽出部、113:語彙ベクトル取得部、114:平均類似度計算部、115:選別部、116:語彙出現頻度取得部、121:文書記憶部、122:語彙情報記憶部、1221:一般
単語ベクトル、1222:複合語ベクトル
10: This device, 11: processing unit, 12: storage unit, 111: input / output unit, 112: compound word extraction unit, 113: vocabulary vector acquisition unit, 114: average similarity calculation unit, 115: selection unit, 116: Vocabulary appearance frequency acquisition unit, 121: document storage unit, 122: vocabulary information storage unit, 1221: general word vector, 1222: compound word vector
Claims (15)
前記修正前の文書と前記修正後の文書から複合語を抽出し、前記修正前の文書にのみ現れる複合語を前記ドメイン用語の表記揺れ候補とする処理部とを有し、
前記処理部は、
前記表記揺れ候補と前記ドメイン用語の組み合わせを表記揺れ候補・ドメイン用語ペアとして、前記記憶部に登録し、
前記記憶部に登録された前記表記揺れ候補・ドメイン用語ペアの前記表記揺れ候補及び前記ドメイン用語を、一般用語にそれぞれ分割し、前記分割された前記表記振れ候補の一般用語と前記分割された前記ドメイン用語の一般用語との最大類似度を計算し、前記計算された一般用語の最大類似度に基づいて、前記表記揺れ候補・ドメイン用語ペアの平均類似度を算出することを特徴とする表記揺れ抽出装置。 A storage unit for storing a document before correction and a document after correction in one domain,
A processing unit that extracts a compound word from the document before the correction and the document after the correction, and sets a compound word that appears only in the document before the correction as a spelling fluctuation candidate of the domain term,
The processing unit includes:
Register the combination of the spelling fluctuation candidate and the domain term as a spelling fluctuation candidate / domain term pair in the storage unit,
The spelling candidate and the domain term of the spelling candidate / domain term pair registered in the storage unit are divided into general terms, respectively, and the general term of the divided spelling candidate and the divided Calculating a maximum similarity between the domain term and the general term, and calculating an average similarity between the notation fluctuation candidate / domain term pair based on the calculated maximum similarity between the general terms. Extraction device.
前記処理部は、前記記憶部に格納された前記修正前の文書を形態素解析により複合語を抽出して修正前複合語辞書として前記語彙情報記憶部に登録し、前記記憶部に格納された前記修正後の文書を形態素解析により複合語を抽出して修正後複合語辞書として前記記憶部に登録する複合語抽出部を有することを特徴とする請求項1記載の表記振れ抽出装置。 The storage unit has a vocabulary information storage unit,
The processing unit extracts a compound word by morphological analysis from the document before correction stored in the storage unit, registers the compound word in the vocabulary information storage unit as a compound word dictionary before correction, and stores the document in the storage unit. 2. The spelling variation extraction device according to claim 1, further comprising a compound word extraction unit that extracts a compound word from the corrected document by morphological analysis and registers the compound word in the storage unit as a corrected compound word dictionary.
前記平均類似度計算部は、前記修正後の文書に前記ドメイン用語が出現する出現頻度の差異が、閾値より大きい場合には前記平均類似度により、前記閾値より小さい場合には、前記表記揺れ候補・ドメイン用語ペアを構成する前記表記振れ候補と前記ドメイン用語のコサイン類似度により、前記表記揺れ候補・ドメイン用語ペアの類似度を計算することを特徴とする請求項4記載の表記振れ抽出装置。 For the compound of the spelling candidate / domain term pair, the processing unit includes an appearance frequency at which the spelling candidate appears in the document before the correction and an appearance frequency at which the domain term appears in the corrected document. Has a vocabulary appearance frequency acquisition unit that acquires
The average similarity calculator calculates the average similarity when the difference in the frequency of appearance of the domain term in the corrected document is larger than a threshold, and the spelling candidate when the difference is smaller than the threshold. 5. The spelling variation extraction apparatus according to claim 4, wherein a similarity between the spelling variation candidate and the domain term pair is calculated based on a cosine similarity between the spelling variation candidate forming the domain term pair and the domain term.
前記平均類似度計算部は、前記表記揺れ候補が出現する出現頻度と前記ドメイン用語が出現する出現頻度との差異に応じて、前記平均類似度と、前記表記揺れ候補・ドメイン用語ペアの前記表記振れ候補と前記ドメイン用語のコサイン類似度とに重み付け平均を計算することを特徴とする請求項4記載の表記振れ抽出装置。 For the compound of the spelling candidate / domain term pair, the processing unit includes an appearance frequency at which the spelling candidate appears in the document before the correction and an appearance frequency at which the domain term appears in the corrected document. Has a vocabulary appearance frequency acquisition unit that acquires
The average similarity calculator calculates the average similarity and the notation of the notation fluctuation candidate / domain term pair according to a difference between an appearance frequency at which the notation fluctuation candidate appears and an appearance frequency at which the domain term appears. The apparatus according to claim 4, wherein a weighted average is calculated for the shake candidate and the cosine similarity of the domain term.
前記一つのドメインにおける前記修正前の文書と前記修正後の文書を格納する記憶部と、
前記修正前の文書と前記修正後の文書から複合語を抽出し、前記修正前の文書にのみ現れる複合語を前記ドメイン用語の表記揺れ候補とする処理部とを有することを特徴とする表記振れ抽出装置。 From a document before correction and a document after correction in one domain, a domain term that is a correct compound word after correction and a correspondence of the sway of the notation of the document before correction corresponding to the domain term are stored as a pair. In the notation fluctuation extraction device,
A storage unit that stores the document before the correction and the document after the correction in the one domain,
A processing unit that extracts a compound word from the document before the correction and the document after the correction, and sets a compound word that appears only in the document before the correction as a spelling candidate of the domain term. Extraction device.
処理部により、前記修正前の文書と前記修正後の文書から複合語を抽出し、前記修正前の文書にのみ現れる複合語を前記ドメイン用語の表記揺れ候補とし、
前記表記揺れ候補と前記ドメイン用語の組み合わせを表記揺れ候補・ドメイン用語ペアとして、前記記憶部に登録し、
前記記憶部に登録された前記表記揺れ候補・ドメイン用語ペアの前記表記揺れ候補及び前記ドメイン用語を一般用語にそれぞれ分割し、前記分割された前記表記振れ候補の一般用語と前記分割された前記ドメイン用語の一般用語との最大類似度を計算し、前記計算された一般用語の最大類似度に基づいて、前記表記揺れ候補・ドメイン用語ペアの平均類似度を算出することを特徴とする表記揺れ抽出方法。 The document before correction and the document after correction in one domain are stored in the storage unit,
By the processing unit, a compound word is extracted from the document before the correction and the document after the correction, and a compound word that appears only in the document before the correction is a notation fluctuation candidate of the domain term,
Register the combination of the spelling fluctuation candidate and the domain term as a spelling fluctuation candidate / domain term pair in the storage unit,
The spelling fluctuation candidate and the domain term of the spelling fluctuation candidate / domain term pair registered in the storage unit are each divided into general terms, and the general term of the divided spelling fluctuation candidate and the divided domain are divided. Calculating the maximum similarity of a term with a general term and calculating the average similarity of the notation fluctuation candidate / domain term pair based on the calculated maximum similarity of the general term. Method.
前記表記揺れ候補・ドメイン用語ペアの複合語について、前記修正前の文書に前記表記揺れ候補が出現する出現頻度と、前記修正後の文書に前記ドメイン用語が出現する出現頻度と、を取得し、
前記修正後の文書に前記ドメイン用語が出現する出現頻度の差異が、閾値より大きい場合には前記平均類似度により、前記閾値より小さい場合には、前記表記揺れ候補・ドメイン用語ペアを構成する前記表記振れ候補と前記ドメイン用語のコサイン類似度により、前記表記揺れ候補・ドメイン用語ペアの類似度を計算することを特徴とする請求項12記載の表記振れ抽出方法。 The processing unit includes:
For the compound word of the spelling fluctuation candidate / domain term pair, an appearance frequency in which the spelling fluctuation candidate appears in the document before the correction and an appearance frequency in which the domain term appears in the corrected document,
The difference in the frequency of appearance of the domain term in the document after the modification is based on the average similarity when the difference is larger than a threshold, and when the difference is smaller than the threshold, the spelling candidate / domain term pair is configured. 13. The method according to claim 12, wherein the similarity between the spelling candidate / domain term pair is calculated based on the cosine similarity between the spelling candidate and the domain term.
前記表記揺れ候補・ドメイン用語ペアの複合語について、前記修正前の文書に前記表記揺れ候補が出現する出現頻度と、前記修正後の文書に前記ドメイン用語が出現する出現頻度と、を取得し、
前記表記揺れ候補が出現する出現頻度と前記ドメイン用語が出現する出現頻度との差異に応じて、前記平均類似度と、前記表記揺れ候補・ドメイン用語ペアの前記表記振れ候補と前記ドメイン用語のコサイン類似度とに重み付け平均を計算することを特徴とする請求項12記載の表記振れ抽出方法。 The processing unit includes:
For the compound word of the spelling fluctuation candidate / domain term pair, an appearance frequency in which the spelling fluctuation candidate appears in the document before the correction and an appearance frequency in which the domain term appears in the corrected document,
The average similarity and the cosine of the spelling candidate and the domain term of the spelling candidate / domain term pair according to the difference between the appearance frequency of the spelling variation candidate and the appearance frequency of the domain term. The method according to claim 12, wherein a weighted average is calculated for the similarity.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018127063A JP2020008951A (en) | 2018-07-03 | 2018-07-03 | Terminology fluctuation extraction device and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018127063A JP2020008951A (en) | 2018-07-03 | 2018-07-03 | Terminology fluctuation extraction device and method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020008951A true JP2020008951A (en) | 2020-01-16 |
Family
ID=69151806
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018127063A Pending JP2020008951A (en) | 2018-07-03 | 2018-07-03 | Terminology fluctuation extraction device and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2020008951A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022169992A (en) * | 2021-04-28 | 2022-11-10 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | Information processing apparatus, information processing method, terminal program, server program, and contract correction support system |
-
2018
- 2018-07-03 JP JP2018127063A patent/JP2020008951A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022169992A (en) * | 2021-04-28 | 2022-11-10 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | Information processing apparatus, information processing method, terminal program, server program, and contract correction support system |
| JP7371057B2 (en) | 2021-04-28 | 2023-10-30 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | Information processing equipment, information processing methods, terminal programs, server programs, and contract revision support systems |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3598211B2 (en) | Related word extraction device, related word extraction method, and computer readable recording medium on which related word extraction program is recorded | |
| JP6404511B2 (en) | Translation support system, translation support method, and translation support program | |
| JP5629976B2 (en) | Patent specification evaluation / creation work support apparatus, method and program | |
| JP2009500754A5 (en) | ||
| Glass et al. | A naive salience-based method for speaker identification in fiction books | |
| CN107870900A (en) | The method, apparatus and program of translation text are provided | |
| CN107291730B (en) | Method and device for providing correction suggestion for query word and probability dictionary construction method | |
| CN118607506A (en) | Text infringement analysis method, device, equipment, storage medium and program product | |
| JP3983265B1 (en) | Dictionary creation support system, method and program | |
| JP4900947B2 (en) | Abbreviation extraction method, abbreviation extraction apparatus, and program | |
| JP2020008951A (en) | Terminology fluctuation extraction device and method | |
| JP5853595B2 (en) | Morphological analyzer, method, program, speech synthesizer, method, program | |
| KR101663038B1 (en) | Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof | |
| JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
| JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
| JP5513985B2 (en) | CHARACTER VECTOR GENERATION DEVICE, CHARACTER VECTOR GENERATION METHOD, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE PROGRAM | |
| JP5364529B2 (en) | Dictionary registration device, document label determination system, and dictionary registration program | |
| Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
| CN112817996A (en) | Illegal keyword library updating method, device, equipment and storage medium | |
| JP5178357B2 (en) | Word score calculation device, document label determination system, and word score calculation program | |
| CN120337907B (en) | Text processing methods, devices, media and products | |
| JP3935374B2 (en) | Dictionary construction support method, apparatus and program | |
| JP4192142B2 (en) | Dictionary registration device, dictionary registration method, and dictionary registration program | |
| JP2014215970A (en) | Error detection device, method, and program | |
| KR20130139447A (en) | Method of improving logic to propose query for mobile keyboard typo pattern and the device thereof |