[go: up one dir, main page]

JP2018088101A - Synonymous expression extraction device, synonymous expression extraction method and synonymous expression extraction program - Google Patents

Synonymous expression extraction device, synonymous expression extraction method and synonymous expression extraction program Download PDF

Info

Publication number
JP2018088101A
JP2018088101A JP2016230635A JP2016230635A JP2018088101A JP 2018088101 A JP2018088101 A JP 2018088101A JP 2016230635 A JP2016230635 A JP 2016230635A JP 2016230635 A JP2016230635 A JP 2016230635A JP 2018088101 A JP2018088101 A JP 2018088101A
Authority
JP
Japan
Prior art keywords
word
synonym
synonymous
pair
semantic similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016230635A
Other languages
Japanese (ja)
Other versions
JP6737151B2 (en
Inventor
育昌 鄭
Yuchang Cheng
育昌 鄭
友樹 長瀬
Yuki Nagase
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016230635A priority Critical patent/JP6737151B2/en
Publication of JP2018088101A publication Critical patent/JP2018088101A/en
Application granted granted Critical
Publication of JP6737151B2 publication Critical patent/JP6737151B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文書データから複合名詞の同義表現を精度良く抽出する。【解決手段】同義表現抽出装置は、単語ペア設定部と、意味類似度学習部と、単語同義判定部と、複合名詞同義判定部と、を備える。単語ペア設定部は、文書から抽出した複合名詞のペアにおける複数の単語ペアを同義単語ペアと、未確定単語ペアと同定にする。意味類似度学習部は、未確定単語ペアと、文書内の複数の同義単語ペアとのそれぞれで、単語間の意味類似度の学習処理を、事例を追加しながら複数回行う。単語同義判定部は、未確定単語ペアにおける学習処理の回数と意味類似度との関係と、前記同義単語ペアにおける学習処理の回数と意味類似度との関係とについての相関係数に基づいて、未確定単語ペアの単語同士が同義であるか否かを判定する。複合名詞同義判定部は、複合名詞のペアにおける複数の単語ペアが全て同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する。【選択図】図1PROBLEM TO BE SOLVED: To accurately extract synonymous expressions of compound nouns from document data. A synonym expression extraction device includes a word pair setting unit, a semantic similarity learning unit, a word synonym determination unit, and a compound noun synonym determination unit. The word pair setting unit identifies a plurality of word pairs in the pair of compound nouns extracted from the document as synonymous word pairs and undetermined word pairs. The semantic similarity learning unit performs learning processing of the semantic similarity between words a plurality of times for each of the undetermined word pair and the plurality of synonymous word pairs in the document while adding cases. The word synonym determination unit, the relationship between the number of learning processing and meaning similarity in the undetermined word pair, based on the correlation coefficient for the relationship between the number of learning processing and synonym similarity in the synonymous word pair, It is determined whether the words of the undetermined word pair have the same meaning. The compound noun synonym determination unit determines that the pair of compound nouns is a synonymous expression when all the word pairs in the pair of compound nouns are synonymous word pairs. [Selection diagram] Figure 1

Description

本発明は、同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラムに関する。   The present invention relates to a synonym expression extraction device, a synonym expression extraction method, and a synonym expression extraction program.

文書データから同義語を抽出する技術の1つとして、文書データから抽出した同義語の候補に対し、文脈共起と表記編集距離とに基づいて候補間の表記類似度を算出し、当該表記類似度に基づいて同義であるか否かを判定する方法が知られている(例えば、特許文献1を参照)。この種の同義語の抽出方法では、特定の分野で使用される単語や複合名詞の同義語を抽出することが可能である。   As one technique for extracting synonyms from document data, the notation similarity between candidates is calculated based on the context co-occurrence and the notation editing distance for synonym candidates extracted from document data. There is known a method for determining whether or not they are synonymous based on the degree (see, for example, Patent Document 1). In this type of synonym extraction method, it is possible to extract synonyms of words and compound nouns used in a specific field.

国際公開第2014/002776号International Publication No. 2014/002776

上記の同義語の抽出方法では、複合名詞のペアが同義であるか否かを判定する際に、一方の複合名詞の表記と、他方の複合名詞の表記との類似度に基づいて判定する。このため、実際には同義である複合名詞のペアにおける複合名詞の表記同士に重複している部分が少ないと、該複合名詞のペアは同義表現ではないと誤判定することがある。   In the above synonym extraction method, when determining whether or not a pair of compound nouns is synonymous, the determination is made based on the similarity between the notation of one compound noun and the notation of the other compound noun. For this reason, if there are few overlapping parts in the compound noun notations in the compound noun pairs that are actually synonymous, the compound noun pairs may be erroneously determined not to be synonymous expressions.

1つの側面において、本発明は、文書データから複合名詞の同義表現を精度良く抽出することを目的とする。   In one aspect, an object of the present invention is to accurately extract synonymous expressions of compound nouns from document data.

1つの態様である同義表現抽出装置は、単語ペア設定部と、意味類似度学習部と、単語同義判定部と、複合名詞同義判定部と、を備える。単語ペア設定部は、文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定にする。意味類似度学習部は、未確定単語ペアと、複合名詞のペアにおける同義単語ペアを含む、文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回行う。単語同義判定部は、未確定単語ペアの意味類似度の学習結果と、複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、未確定単語ペアの単語同士が同義であるか否かを判定する。複合名詞同義判定部は、複合名詞のペアにおける複数の単語ペアが全て同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する。この同義表現抽出装置における意味類似度学習部は、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を毎に、当該学習処理に用いる事例を追加する。また、単語同義判定部は、未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出する。単語同義判定部は、算出した当該相関係数に基づいて、未確定単語ペアの単語同士が同義であるか否かを判定する。   A synonym expression extracting device as one aspect includes a word pair setting unit, a semantic similarity learning unit, a word synonym determining unit, and a compound noun synonym determining unit. The word pair setting unit divides the compound noun pair extracted from the document data into a plurality of word pairs, refers to a synonym word dictionary in which synonymous word pairs are registered, and sets the plurality of word pairs as synonymous word pairs. , It is identified as an unconfirmed word pair whose synonym is uncertain. The semantic similarity learning unit learns the semantic similarity between words for each of a plurality of synonym word pairs in the document data including unconfirmed word pairs and synonym word pairs in compound noun pairs. Perform multiple times. The word synonym determination unit determines whether the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Determine whether or not. The compound noun synonym determination unit determines that a pair of compound nouns is a synonym expression when a plurality of word pairs in the compound noun pair are all synonymous word pairs. The semantic similarity learning unit in the synonym expression extracting device adds a case to be used for the learning process for each of the semantic similarity learning processes for each of a plurality of word pairs to be processed. Further, the word synonym determination unit includes a relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the undefined word pair, and the number of learning processes in the learning result of the semantic similarity of the synonym word pair. A correlation coefficient for the relationship with the semantic similarity is calculated. The word synonym determination unit determines whether or not the words of the unconfirmed word pair are synonymous based on the calculated correlation coefficient.

上述の態様によれば、文書データから複合名詞の同義表現を精度良く抽出することが可能となる。   According to the above-described aspect, it is possible to accurately extract synonymous expressions of compound nouns from document data.

第1の実施形態に係る同義表現抽出装置の機能的構成を示す図である。It is a figure which shows the functional structure of the synonymous expression extraction apparatus which concerns on 1st Embodiment. 同義単語辞書の例を示す図である。It is a figure which shows the example of a synonym word dictionary. 複合名詞のペアの例と同義であるか否かの判定方法とを説明する図である。It is a figure explaining the determination method of whether it is synonymous with the example of a pair of compound nouns. 第1の実施形態に係る同義表現抽出装置が行う処理を説明するフローチャートである。It is a flowchart explaining the process which the synonymous expression extraction apparatus which concerns on 1st Embodiment performs. 同義複合名詞特定処理の内容を説明するフローチャートである。It is a flowchart explaining the content of a synonymous compound noun specific process. 意味類似度学習処理の内容を説明するフローチャートである。It is a flowchart explaining the content of a semantic similarity learning process. 単語ペアについての同義判定処理の内容を説明するフローチャート(その1)である。It is a flowchart (the 1) explaining the content of the synonym determination process about a word pair. 単語ペアについての同義判定処理の内容を説明するフローチャート(その2)である。It is a flowchart (the 2) explaining the content of the synonym determination process about a word pair. 複合名詞のペアについての同義判定処理の内容を説明するフローチャートである。It is a flowchart explaining the content of the synonym determination process about the pair of compound noun. 文字列と形態素解析の結果との例を示す図である。It is a figure which shows the example of a character string and the result of a morphological analysis. 複合名詞のペアの抽出結果と単語ペアのリストとの例を示す図である。It is a figure which shows the example of the extraction result of a pair of compound nouns, and the list of word pairs. 類似度推移テーブルの例を示す図である。It is a figure which shows the example of a similarity transition table. 未確定単語ペアが同義表現であるか否かの判定方法を説明する図である。It is a figure explaining the determination method whether an unconfirmed word pair is synonymous expression. 学習処理の回数の決定方法を説明するグラフ図である。It is a graph explaining the determination method of the frequency | count of a learning process. 第2の実施形態に係る同義表現抽出装置の機能的構成を示す図である。It is a figure which shows the functional structure of the synonymous expression extraction apparatus which concerns on 2nd Embodiment. 第2の実施形態に係る同義複合名詞特定処理の内容を説明するフローチャートである。It is a flowchart explaining the content of the synonymous compound noun specific process which concerns on 2nd Embodiment. 判定閾値の設定処理の内容を説明するフローチャートである。It is a flowchart explaining the content of the setting process of a determination threshold value. 判定閾値の設定方法の具体例を説明する図である。It is a figure explaining the specific example of the setting method of a determination threshold value. 第3の実施形態に係る同義語辞書作成システムのシステム構成を示す図である。It is a figure which shows the system configuration | structure of the synonym dictionary creation system which concerns on 3rd Embodiment. 第4の実施形態に係る文書書換システムのシステム構成を示す図である。It is a figure which shows the system configuration | structure of the document rewriting system which concerns on 4th Embodiment. 文書データ書換装置の機能的構成を示す図である。It is a figure which shows the functional structure of a document data rewriting apparatus. 文書データ書換装置が行う処理を説明するフローチャートである。It is a flowchart explaining the process which a document data rewriting apparatus performs. コンピュータのハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a computer.

[第1の実施形態]
図1は、第1の実施形態に係る同義表現抽出装置の機能的構成を示す図である。
[First Embodiment]
FIG. 1 is a diagram illustrating a functional configuration of the synonym expression extracting device according to the first embodiment.

図1に示すように、本実施形態に係る同義表現抽出装置1は、文字列抽出部110と、形態素解析部120と、複合名詞抽出部130と、同義複合名詞特定部140と、を含む。また、同義表現抽出装置1は、文書集合191と、解析用辞書192と、解析結果コーパス193と、同義単語辞書194と、類似度推移テーブル195と、同義表現リスト196とを記憶する記憶部(図示せず)を備える。   As shown in FIG. 1, the synonym expression extraction device 1 according to the present embodiment includes a character string extraction unit 110, a morpheme analysis unit 120, a compound noun extraction unit 130, and a synonym compound noun identification unit 140. The synonym expression extracting device 1 also stores a document set 191, an analysis dictionary 192, an analysis result corpus 193, a synonym word dictionary 194, a similarity transition table 195, and a synonym expression list 196 ( (Not shown).

文字列抽出部110は、文書集合191から文字列を抽出する。文書集合191は、複合名詞の同義表現の抽出に用いる複数の文書データを含む。文書集合191の複数の文書データは、それぞれ、例えば、特定の技術分野、特定の業種等で使用される用語を含む。文書集合191は、例えば、図示しない入力受付部を介して同義表現抽出装置1の記憶部に記憶させる。   The character string extraction unit 110 extracts a character string from the document set 191. The document set 191 includes a plurality of document data used for extracting synonymous expressions of compound nouns. Each of the plurality of document data in the document set 191 includes, for example, terms used in a specific technical field, a specific industry, and the like. For example, the document set 191 is stored in the storage unit of the synonym expression extraction device 1 via an input receiving unit (not shown).

形態素解析部120は、解析用辞書192を参照し、文字列抽出部110で抽出した文字列に対する形態素解析を行う。解析用辞書192は、形態素解析に使用する単語情報を含む。形態素解析部120は、形態素解析の結果を解析結果コーパス193に登録するとともに、複合名詞抽出部130に渡す。   The morpheme analysis unit 120 refers to the analysis dictionary 192 and performs morpheme analysis on the character string extracted by the character string extraction unit 110. The analysis dictionary 192 includes word information used for morphological analysis. The morpheme analysis unit 120 registers the result of the morpheme analysis in the analysis result corpus 193 and passes it to the compound noun extraction unit 130.

複合名詞抽出部130は、形態素解析の結果に基づいて、文字列内の複合名詞を抽出する。例えば、複合名詞抽出部130は、文字列内における品詞の並び順に基づいて、複合名詞の条件を満たす単語列を抽出する。また、複合名詞抽出部130は、抽出した複合名詞のなかから、同義表現である可能性がある複合名詞のペアを抽出する。   The compound noun extraction unit 130 extracts compound nouns in the character string based on the result of morphological analysis. For example, the compound noun extraction unit 130 extracts a word string that satisfies the conditions of the compound noun based on the order of parts of speech in the character string. In addition, the compound noun extraction unit 130 extracts a pair of compound nouns that may be synonymous expressions from the extracted compound nouns.

同義複合名詞特定部140は、解析結果コーパス193と、同義単語辞書194とに基づいて、複合名詞抽出部130で抽出した複合名詞のペアのなかから同義表現である複合名詞のペアを特定する。同義単語辞書194は、同義である単語のペアが複数登録されている。同義複合名詞特定部140は、同義表現である可能性がある複合名詞のペアについて、各複合名詞を単語に分割して単語ペアを生成し、同義単語辞書194を参照して単語ペアの単語同士が同義であるか否かを判定する。複合名詞のペアにおける単語ペアのなかに同義であるか否かが未確定の単語ペアがある場合、同義複合名詞特定部140は、形態素解析の結果から特定される全ての単語ペアに対し意味類似度の学習を行う。以下の説明では、単語同士が同義である単語ペアを同義単語ペアといい、単語同士が同義であるか否かが未確定の単語ペアを未確定単語ペアという。   Based on the analysis result corpus 193 and the synonym word dictionary 194, the synonymous compound noun specifying unit 140 specifies a compound noun pair that is a synonym expression from the compound noun pairs extracted by the compound noun extracting unit 130. The synonym word dictionary 194 stores a plurality of synonymous word pairs. The synonym compound noun specifying unit 140 generates a word pair by dividing each compound noun into words for compound noun pairs that may be synonymous expressions, and refers to the synonym word dictionary 194 to generate the word pairs. Whether or not is synonymous. When there is a word pair in which it is uncertain whether or not it is synonymous among the word pairs in the compound noun pair, the synonym compound noun specifying unit 140 makes semantic similarity to all the word pairs specified from the result of the morphological analysis. Do the degree learning. In the following description, a word pair in which words are synonymous is referred to as a synonymous word pair, and a word pair in which whether or not the words are synonymous is referred to as an indeterminate word pair.

意味類似度の学習を行う場合、同義複合名詞特定部140は、複数の事例による意味類似度の学習処理(算出処理)を複数回行う。この際、同義複合名詞特定部140は、1回の学習処理が終わる毎に、複数の事例を追加して次の学習処理を行う。ここで、1個の事例は、例えば、1個の文字列に対する形態素解析の結果とする。同義複合名詞特定部140は、意味類似度の学習処理が1回終わる毎に、学習結果を類似度推定テーブル195に格納する。その後、同義複合名詞特定部140は、未確定単語ペアにおける事例数(処理回数)と意味類似度との関係と、同義単語ペアにおける事例数と意味類似度との関係と、に基づいて、未確定単語ペアの単語同士が同義であるか否かを判定する。未確定単語ペアの単語同士が同義である場合、同義複合名詞特定部140は、当該未確定単語ペアを同義単語ペアに変更する。未確定単語ペアが同義単語ペアであるか否かの判定を行った後、同義複合名詞特定部140は、同義表現である可能性がある複合名詞のペアにおける複数の単語ペアが全て同義単語ペアであるか否かを判定する。複合名詞のペアにおける複数の単語ペアが全て同義単語ペアである場合、同義複合名詞特定部140は、当該複数の単語ペアを含む複合名詞のペアにおける複合名詞同士を同義表現であると判定する。同義複合名詞特定部140は、同義表現であると判定した複合名詞のペアを同義表現リスト196に登録する。   When learning semantic similarity, the synonymous compound noun specifying unit 140 performs learning processing (calculation processing) of semantic similarity by a plurality of cases a plurality of times. At this time, the synonymous compound noun identification unit 140 adds a plurality of cases and performs the next learning process every time one learning process ends. Here, one case is a result of morphological analysis for one character string, for example. The synonymous compound noun identification unit 140 stores the learning result in the similarity estimation table 195 every time the semantic similarity learning process ends. Thereafter, the synonymous compound noun specifying unit 140 determines whether the number of cases (number of processing times) in the undefined word pair and the semantic similarity is based on the relationship between the number of cases in the synonymous word pair and the semantic similarity. It is determined whether the words of the confirmed word pair are synonymous. When the words of the undefined word pair are synonymous, the synonymous compound noun specifying unit 140 changes the undefined word pair to a synonymous word pair. After determining whether or not the uncertain word pair is a synonym word pair, the synonym compound noun specifying unit 140 determines that all the plural word pairs in the compound noun pair that may be synonymous expressions are synonymous word pairs. It is determined whether or not. When all the plural word pairs in the compound noun pair are synonymous word pairs, the synonymous compound noun specifying unit 140 determines that the compound nouns in the compound noun pair including the plurality of word pairs are synonymous expressions. The synonym compound noun specifying unit 140 registers the pair of compound nouns determined to be synonymous expressions in the synonym expression list 196.

上記の機能を持つ同義複合名詞特定部140は、単語ペア設定部141と、類似度推移テーブル作成部142と、意味類似度学習部143と、単語同義判定部144と、複合名詞同義判定部145と、を含む。   The synonymous compound noun identifying unit 140 having the above functions includes a word pair setting unit 141, a similarity transition table creating unit 142, a semantic similarity learning unit 143, a word synonym determining unit 144, and a compound noun synonym determining unit 145. And including.

単語ペア設定部141は、同義表現の可能性がある複合名詞のペアにおける各複合名詞を単語に分割して複数の単語ペアを生成し、該複数の単語ペアを未確定単語ペアと同義単語ペアとに分類する。単語ペア設定部141は、同義単語辞書194を参照し、複数の単語ペアを未確定単語ペアと、同義単語ペアとに分類する。更に、単語ペア設定部141は、解析結果コーパス193と同義単語辞書194とを参照し、文書集合191における、同義表現の可能性がある複合名詞のペアに含まれる単語とは異なる単語のなかから同義単語ペアを抽出する。単語ペア設定部141は、上記の未確定単語ペアと、同義単語ペアとを、複合名詞のペアにおける複合名詞同士が同義表現であるか否かの判定に用いる単語ペアに設定する。   The word pair setting unit 141 generates a plurality of word pairs by dividing each compound noun in a compound noun pair having a possibility of synonymous expression into words, and the plurality of word pairs is synonymous with an uncertain word pair. And classify. The word pair setting unit 141 refers to the synonym word dictionary 194 and classifies a plurality of word pairs into unconfirmed word pairs and synonym word pairs. Further, the word pair setting unit 141 refers to the analysis result corpus 193 and the synonym word dictionary 194, and from the words that are different from the words included in the compound noun pairs that may be synonymously expressed in the document set 191. Extract synonym word pairs. The word pair setting unit 141 sets the unconfirmed word pair and the synonym word pair as word pairs used for determining whether or not the compound nouns in the compound noun pair are synonymous expressions.

類似度推移テーブル作成部142は、未確定単語ペア及び全ての同義単語ペアに対する意味類似度の学習結果を保存した類似度推移テーブル195を生成する。類似度推移テーブル算出部142は、意味類似度学習部143に単語ペアの意味類似度を学習させ(算出させ)、該単語ペアの意味類似度の学習結果を類似度推移テーブル195に格納する。単語ペアの総数がN個であり、意味類似度の学習処理の実行回数がM回である場合、類似度推移テーブル作成部142は、例えば、N×Mセルの類似度推移テーブル195を生成する。   The similarity transition table creation unit 142 generates a similarity transition table 195 that stores the learning results of the semantic similarity for the unconfirmed word pairs and all the synonym word pairs. The similarity transition table calculation unit 142 causes the semantic similarity learning unit 143 to learn (calculate) the semantic similarity of the word pair, and stores the learning result of the semantic similarity of the word pair in the similarity transition table 195. When the total number of word pairs is N and the number of executions of the semantic similarity learning process is M, the similarity degree transition table creating unit 142 generates, for example, an N × M cell similarity degree transition table 195. .

意味類似度学習部143は、解析結果コーパス193に記憶させた形態素解析の結果(事例)に基づいて該事例の単語についての意味ベクトルを生成し、生成した意味ベクトルに基づいて単語ペアの意味類似度を算出する(学習する)処理をM回繰り返す。意味類似度学習部143は、単語ペアの意味類似度を算出する処理を1回終える毎に、意味類似度の算出に用いる事例をH個追加する。例えば、意味類似度学習部143は、m回目(m=1,2,・・・,M)の処理における事例数HtをHt=m×Hとする。   The semantic similarity learning unit 143 generates a semantic vector for the word of the case based on the result (case) of the morphological analysis stored in the analysis result corpus 193, and the semantic similarity of the word pair based on the generated semantic vector The process of calculating (learning) the degree is repeated M times. The semantic similarity learning unit 143 adds H cases used for calculating the semantic similarity every time the process of calculating the semantic similarity of the word pair is completed once. For example, the semantic similarity learning unit 143 sets the number of cases Ht in the m-th process (m = 1, 2,..., M) as Ht = m × H.

単語同義判定部144は、意味類似度の学習結果(類似度推移テーブル195)における、同義単語ペアについての意味類似度の推移と、未確定単語ペアについての意味類似度の推移とに基づいて、該未確定単語ペアの単語同士が同義表現であるか否かを判定する。単語同義判定部144は、同義である単語ペアについての意味類似度の推移と、未確定単語ペアについての意味類似度の推移との相関係数が閾値以上である場合に、該未確定単語ペアの単語同士が同義表現であると判定する。   The word synonym determination unit 144 is based on the semantic similarity score for the synonymous word pair and the semantic similarity score for the unconfirmed word pair in the semantic similarity learning result (similarity transition table 195). It is determined whether the words of the unconfirmed word pair are synonymous expressions. The word synonym determination unit 144 determines the undefined word pair when the correlation coefficient between the transition of the semantic similarity for the synonymous word pair and the transition of the semantic similarity for the undefined word pair is equal to or greater than a threshold. Are determined to be synonymous expressions.

複合名詞同義判定部145は、単語同義判定部144の結果に基づいて、同義表現の可能性がある複合名詞のペアの複合名詞同士が同義表現であるか否かを判定する。複合名詞同義判定部145は、複合名詞のペアにおける複数の単語ペアが全て同義ペアである場合に、該複合名詞のペアの複合名詞同士が同義表現であると判定する。複合名詞同義判定部145は、同義表現であると判定した複合名詞のペアを同義表現リスト196に登録する。   Based on the result of the word synonym determination unit 144, the compound noun synonym determination unit 145 determines whether or not the compound nouns of a pair of compound nouns that may be synonymous expressions are synonymous expressions. The compound noun synonym determination unit 145 determines that compound nouns of a pair of compound nouns are synonymous expressions when a plurality of word pairs in the compound noun pair are all synonymous pairs. The compound noun synonym determination unit 145 registers the compound noun pair determined to be synonymous expressions in the synonym expression list 196.

図2は、同義単語辞書の例を示す図である。
図2に示すように、同義単語辞書194は、同義表現である単語のペア(同義単語ペア)が複数組登録されている。同義単語辞書194に登録する単語の種類や同義単語ペアの組数Kは適宜設定可能である。例えば、同義単語辞書194に登録する同義単語ペアは、文書集合191に含まれる文書の分野において出現頻度の高い代表的な同義単語ペアであってもよいし、文書集合191に含まれる文書の分野とは無関係に、無作為に抽出した同義単語ペアであってもよい。
FIG. 2 is a diagram illustrating an example of a synonym word dictionary.
As shown in FIG. 2, in the synonym word dictionary 194, a plurality of pairs of words (synonym word pairs) that are synonymous expressions are registered. The types of words registered in the synonym word dictionary 194 and the number K of synonym word pairs can be set as appropriate. For example, the synonym word pair registered in the synonym word dictionary 194 may be a representative synonym pair having a high appearance frequency in the field of documents included in the document set 191, or the field of documents included in the document set 191. It may be a synonym word pair extracted at random regardless of.

同義単語辞書194は、上記のように、同義表現の可能性がある複合名詞のペアにおける複合名詞同士が同義であるか否かを判定する際に用いる。   As described above, the synonym word dictionary 194 is used to determine whether or not compound nouns in a pair of compound nouns that may have synonymous expressions are synonymous.

図3は、複合名詞のペアの例と同義であるか否かの判定方法とを説明する図である。
図3には、複合名詞のペアの一例として、「運賃計算モジュール」という第1の複合名詞(単語列)2と、「交通費精算機能」という第2の複合名詞(単語列)3とを示している。第1の複合名詞2は、「運賃」という第1の単語201と、「計算」という第2の単語202と、「モジュール」という第3の単語203とを組み合わせた複合名詞である。一方、第2の複合名詞3は、「交通費」という第1の単語301と、「精算」という第2の単語302と、「機能」という第3の単語303とを組み合わせた複合名詞である。
FIG. 3 is a diagram for explaining a method for determining whether or not it is synonymous with an example of a pair of compound nouns.
In FIG. 3, as an example of a pair of compound nouns, a first compound noun (word string) 2 called “fare calculation module” and a second compound noun (word string) 3 called “transportation payment function” are shown. Show. The first compound noun 2 is a compound noun combining a first word 201 “Fare”, a second word 202 “Calculation”, and a third word 203 “Module”. On the other hand, the second compound noun 3 is a compound noun combining a first word 301 “transportation expense”, a second word 302 “adjustment”, and a third word 303 “function”. .

例えば、上記の第1の複合名詞2及び第2の複合名詞3は、運賃(交通費)を計算するアプリケーションソフトウェアに関する分野で用いられる複合名詞である。しかしながら、該分野についての文書集合191における第1の複合名詞2の出現頻度は、第1の複合名詞2における各単語201〜203の出現頻度よりも低いことが多い。同様に、該分野についての文書集合191における第2の複合名詞3の出現頻度は、第2の複合名詞3における各単語301〜303の出現頻度よりも低いことが多い。このため、文書集合191における第1の複合名詞2と第2の複合名詞3との出現頻度や文脈類似度等に基づいて、該2個の複合名詞が同義であるか否かを精度良く判定することは難しい。   For example, the first compound noun 2 and the second compound noun 3 described above are compound nouns used in the field of application software for calculating a fare (transportation cost). However, the appearance frequency of the first compound noun 2 in the document set 191 for the field is often lower than the appearance frequency of the words 201 to 203 in the first compound noun 2. Similarly, the appearance frequency of the second compound noun 3 in the document set 191 for the field is often lower than the appearance frequency of the words 301 to 303 in the second compound noun 3. Therefore, whether or not the two compound nouns are synonymous is accurately determined based on the appearance frequency, context similarity, and the like of the first compound noun 2 and the second compound noun 3 in the document set 191. Difficult to do.

これに対し、本実施形態では、図3に示すように、2個の複合名詞2,3をそれぞれ単語に分割して複数の単語ペアWP1,WP2,及びWP3を生成し、単語ペア毎に、同義単語辞書194を参照して同義であるか否かを判定する。図3に示した例では、まず、第1の複合名詞2における第1の単語201(「運賃」)と、第2の複合名詞3における第1の単語301(「交通費」)との単語ペアWP1について同義であるか否かを判定する。図2に示した同義単語辞書194には、「運賃」と「交通費」との単語ペアが登録されている。このため、同義表現抽出装置1は、第1の複合名詞2における第1の単語201と、第2の複合名詞3における第1の単語301との単語ペアWP1が同義であると判定する。同様に、同義表現抽出装置1は、第1の複合名詞2における第2の単語202(「計算」)と、第2の複合名詞3における第2の単語302(「精算」)との単語ペアWP2が同義単語ペアであると判定する。   On the other hand, in this embodiment, as shown in FIG. 3, two compound nouns 2 and 3 are each divided into words to generate a plurality of word pairs WP1, WP2, and WP3, and for each word pair, It is determined with reference to the synonym word dictionary 194 whether it is synonymous. In the example shown in FIG. 3, first, a word of the first word 201 (“fare”) in the first compound noun 2 and the first word 301 (“transportation cost”) in the second compound noun 3. It is determined whether or not the pair WP1 is synonymous. In the synonym word dictionary 194 shown in FIG. 2, word pairs of “fare” and “transportation cost” are registered. For this reason, the synonym expression extraction device 1 determines that the word pair WP1 between the first word 201 in the first compound noun 2 and the first word 301 in the second compound noun 3 is synonymous. Similarly, the synonym expression extraction device 1 uses the word pair of the second word 202 (“calculation”) in the first compound noun 2 and the second word 302 (“checkout”) in the second compound noun 3. It is determined that WP2 is a synonym word pair.

ここで更に、第1の複合名詞2における第3の単語203(「モジュール」)と、第2の複合名詞3における第3の単語303(「機能」)との単語ペアWP3が、図2の同義単語辞書194に登録されていたとする。この場合、同義表現抽出装置1は、第1の複合名詞2における第3の単語203と、第2の複合名詞3における第3の単語303との単語ペアWP3が同義であると判定する。このように複合名詞のペアにおける複数の単語ペアWP1〜WP3が全て同義単語ペアであると判定した場合、同義表現抽出装置1は、該複合名詞のペアにおける複合名詞同士を同義であると判定する。   Here, further, the word pair WP3 of the third word 203 (“module”) in the first compound noun 2 and the third word 303 (“function”) in the second compound noun 3 is shown in FIG. Assume that it is registered in the synonym word dictionary 194. In this case, the synonym expression extraction device 1 determines that the word pair WP3 between the third word 203 in the first compound noun 2 and the third word 303 in the second compound noun 3 is synonymous. As described above, when it is determined that the plurality of word pairs WP1 to WP3 in the compound noun pair are all synonymous word pairs, the synonym expression extracting device 1 determines that the compound nouns in the compound noun pair are synonymous. .

一方、「モジュール」と「機能」との単語ペアWP3が図2の同義単語辞書194に登録されていない場合、同義表現抽出装置1は、図3に示した複合名詞のペアにおける単語ペアWP3を未確定単語ペアと判定する。この場合、同義表現抽出装置1は、第1の複合名詞2と第2の複合名詞3とが同義表現であるか否かを判定するため、単語ペアWP3が同義単語ペアであるか否かを判定する処理を行う。同義表現抽出装置1は、文書集合191から収集した複数の同義単語ペアのそれぞれについての意味類似度の学習結果の推移と、未確定単語ペアについての意味類似度の学習結果の推移とに基づいて、未確定単語ペアが同義単語ペアであるか否かを判定する。この処理により「モジュール」と「機能」との単語ペアWP3が同義単語ペアであると判定した場合、同義表現抽出装置1は、第1の複合名詞2(「運賃計算モジュール」)と、第2の複合名詞3(「交通費精算機能」)とが同義表現であると判定する。   On the other hand, when the word pair WP3 of “module” and “function” is not registered in the synonym word dictionary 194 in FIG. 2, the synonym expression extraction device 1 determines the word pair WP3 in the compound noun pair shown in FIG. It is determined as an indeterminate word pair. In this case, the synonym expression extraction device 1 determines whether or not the word pair WP3 is a synonym word pair in order to determine whether or not the first compound noun 2 and the second compound noun 3 are synonymous expressions. Processing to determine is performed. The synonym expression extraction apparatus 1 is based on the transition of the learning result of the semantic similarity for each of the plurality of synonymous word pairs collected from the document set 191 and the transition of the learning result of the semantic similarity for the unconfirmed word pair. Then, it is determined whether or not the unconfirmed word pair is a synonymous word pair. When it is determined that the word pair WP3 of “module” and “function” is a synonym word pair by this process, the synonym expression extraction device 1 uses the first compound noun 2 (“fare calculation module”), the second And compound noun 3 (“transportation payment function”) is determined to be synonymous.

以下、図4〜図8を参照して、本実施形態に係る同義表現抽出装置1が行う処理を説明する。   Hereinafter, with reference to FIGS. 4 to 8, processing performed by the synonymous expression extraction apparatus 1 according to the present embodiment will be described.

図4は、第1の実施形態に係る同義表現抽出装置が行う処理を説明するフローチャートである。   FIG. 4 is a flowchart for explaining processing performed by the synonymous expression extraction apparatus according to the first embodiment.

本実施形態の同義表現抽出装置1は、図4に示すように、まず、文書集合191から文字列を抽出する(ステップS1)。ステップS1の処理は、文字列抽出部110が行う。文字列抽出部110は、既知の抽出方法に従って、文書集合191に含まれる複数の文書データのそれぞれから文字列を抽出する。   As shown in FIG. 4, the synonym expression extracting apparatus 1 of the present embodiment first extracts a character string from the document set 191 (step S1). The character string extraction unit 110 performs the process in step S1. The character string extraction unit 110 extracts a character string from each of a plurality of document data included in the document set 191 according to a known extraction method.

次に、同義表現抽出装置1は、抽出した文字列の形態素解析を行う(ステップS2)。ステップS2の処理は、形態素解析部120が行う。形態素解析部120は、既知の解析方法に従い、解析用辞書192を参照して、抽出した複数の文字列のそれぞれに対する形態素解析を行う。形態素解析部120は、形態素解析の結果を、解析結果コーパス193に格納するとともに、複合名詞抽出部130に渡す。形態素解析部120は、文書集合191における文単位で形態素解析の結果を解析結果コーパス193に格納する。   Next, the synonym expression extraction device 1 performs morphological analysis of the extracted character string (step S2). The process of step S2 is performed by the morphological analysis unit 120. The morpheme analysis unit 120 performs morpheme analysis on each of the extracted character strings with reference to the analysis dictionary 192 according to a known analysis method. The morpheme analysis unit 120 stores the result of the morpheme analysis in the analysis result corpus 193 and passes it to the compound noun extraction unit 130. The morpheme analysis unit 120 stores the result of the morpheme analysis in the analysis result corpus 193 for each sentence in the document set 191.

次に、同義表現抽出装置1は、形態素解析の結果に基づいて、文字列から複合名詞を抽出する(ステップS3)。ステップS3の処理は、複合名詞抽出部130が行う。複合名詞抽出部130は、各文字列に対する形態素解析の結果に基づいて、複合名詞の条件を満たす単語列を文字列から抽出する。   Next, the synonym expression extracting device 1 extracts a compound noun from the character string based on the result of the morphological analysis (step S3). The compound noun extraction unit 130 performs the process in step S3. The compound noun extraction unit 130 extracts a word string satisfying the condition of the compound noun from the character string based on the result of the morphological analysis for each character string.

次に、同義表現抽出装置1は、複数種類の複合名詞を抽出したか否かを判定する(ステップS4)。ステップS4の判定は、例えば、複合名詞抽出部130が行う。複合名詞を抽出しなかった場合、或いは抽出した複合名詞が1種類である場合(ステップS4;NO)、同義であるか否かを判定する複合名詞のペアが存在しないため、複合名詞抽出部130(同義表現抽出装置1)は、処理を終了する。   Next, the synonym expression extraction device 1 determines whether or not a plurality of types of compound nouns have been extracted (step S4). For example, the compound noun extraction unit 130 performs the determination in step S4. When no compound noun is extracted, or when there is only one extracted compound noun (step S4; NO), there is no compound noun pair for determining whether or not the compound noun is synonymous. The (synonymous expression extraction device 1) ends the process.

一方、複数種類の複合名詞を抽出した場合(ステップS4;YES)、同義表現抽出装置1は、次に、同義表現の可能性がある複合名詞のペアを同定する(ステップS5)。ステップS5の処理は、例えば、複合名詞抽出部130が行う。ステップS5において、複合名詞抽出部130は、既知の同定方法に従い、同義表現の可能性がある複合名詞のペアを同定する。例えば、複合名詞抽出部130は、複数通りの複合名詞のペアの組み合わせのそれぞれで複合名詞についての文脈類似度を算出し、該文脈類似度に基づいて、同義表現の可能性がある複合名詞のペアを同定する。   On the other hand, when a plurality of types of compound nouns are extracted (step S4; YES), the synonym expression extracting device 1 next identifies a pair of compound nouns that may be synonymous expressions (step S5). The process of step S5 is performed by the compound noun extraction unit 130, for example. In step S5, the compound noun extraction unit 130 identifies a pair of compound nouns that may have synonymous expressions according to a known identification method. For example, the compound noun extraction unit 130 calculates a context similarity for a compound noun for each of a plurality of combinations of compound noun pairs, and based on the context similarity, compound nouns that may have synonymous expressions are calculated. Identify pairs.

次に、同義表現抽出装置1は、同義表現の可能性がある複合名詞のペアが存在するか否かを判定する(ステップS6)。ステップS6の判定は、例えば、複合名詞抽出部130が行う。同義表現の可能性がある複合名詞のペアが存在しない場合(ステップS6;NO)、同義であるか否かを判定する複合名詞のペアが存在しないため、複合名詞抽出部130(同義表現抽出装置1)は、1組の文書集合191に対する一連の処理を終了する。   Next, the synonym expression extraction device 1 determines whether or not there is a pair of compound nouns that may be synonymous expressions (step S6). For example, the compound noun extraction unit 130 performs the determination in step S6. If there is no compound noun pair that has the possibility of synonymous expression (step S6; NO), there is no compound noun pair for determining whether or not it is synonymous, so the compound noun extracting unit 130 (synonymous expression extracting device) 1) terminates a series of processes for one set of documents 191.

これに対し、同義表現の可能性がある複合名詞のペアが存在する場合(ステップS6;YES)、同義表現抽出装置1は、次に、同義複合名詞特定処理(ステップS7)を行う。ステップS7の処理は、同義複合名詞特定部140が行う。同義複合名詞特定部140は、上記のような処理を行い、同義表現である複合名詞のペアを特定する。同義表現である複合名詞のペアを特定した場合、同義複合名詞特定部140は、特定した複合名詞のペアを同義表現リスト196に登録する。同義表現の可能性がある複合名詞のペアに対する同義複合名詞特定処理(ステップS7)を終えると、同期表現抽出装置1は、1組の文書集合191に対する一連の処理を終了する。   On the other hand, when there is a pair of compound nouns that may be synonymous expressions (step S6; YES), the synonym expression extracting apparatus 1 performs a synonymous compound noun specifying process (step S7). The process of step S7 is performed by the synonymous compound noun specifying unit 140. The synonymous compound noun identifying unit 140 performs the above-described processing, and identifies a pair of compound nouns that are synonymous expressions. When a compound noun pair that is a synonym expression is specified, the synonym compound noun specifying unit 140 registers the specified compound noun pair in the synonym expression list 196. When the synonymous compound noun identification process (step S7) for the compound noun pair that has the possibility of synonymous expression is completed, the synchronous expression extracting device 1 ends the series of processes for the set of documents 191.

上記のように、ステップS7の処理(同義複合名詞特定処理)は、同義複合名詞特定部140が行う。同義複合名詞特定部140は、同義複合名詞特定処理として、例えば、図5に示す処理を行う。   As described above, the process (synonymous compound noun identifying process) of step S7 is performed by the synonymous compound noun identifying unit 140. The synonymous compound noun specifying unit 140 performs, for example, the process shown in FIG. 5 as the synonymous compound noun specifying process.

図5は、同義複合名詞特定処理の内容を説明するフローチャートである。
同義複合名詞特定処理において、同義複合名詞特定部140は、まず、同義表現の可能性がある複合名詞のペアにおける同義単語ペアと、未確定単語ペアとを同定する(ステップS71)。ステップS71の処理は、同義複合名詞特定部140の単語ペア設定部141が行う。単語ペア設定部141は、図3に示したように、同義表現の可能性がある複合名詞のペアを複数の単語ペアに分割し、単語ペア毎に同義単語ペアであるか、未確定単語ペアであるかを同定する。単語ペア設定部141は、同義単語辞書194を参照して、単語ペアが同義単語ペアであるか未確定単語ペアであるかを同定する。また、ステップS71において、単語ペア設定部141は、例えば、複数の単語ペアがそれぞれ同義単語ペアであるか未確定単語ペアであるかを示す単語ペアリストを生成する。
FIG. 5 is a flowchart for explaining the contents of the synonymous compound noun identification process.
In the synonym compound noun identification process, the synonym compound noun identification unit 140 first identifies a synonym word pair and an unconfirmed word pair in a compound noun pair that may be synonymously expressed (step S71). The processing in step S71 is performed by the word pair setting unit 141 of the synonymous compound noun specifying unit 140. As shown in FIG. 3, the word pair setting unit 141 divides a compound noun pair that has the possibility of synonymous expression into a plurality of word pairs and determines whether each word pair is a synonym word pair or an undefined word pair. Is identified. The word pair setting unit 141 refers to the synonym word dictionary 194 to identify whether the word pair is a synonym word pair or an undefined word pair. Moreover, in step S71, the word pair setting part 141 produces | generates the word pair list | wrist which shows whether a some word pair is a synonymous word pair, respectively, respectively, for example.

次に、同義複合名詞特定部140は、文書集合191の文字列から同義単語辞書194に登録されている同義表現の単語ペア(同義単語ペア)を収集する(ステップS72)。ステップS72の処理は、単語ペア設定部141が行う。単語ペア設定部141は、ステップS72において収集した同義単語ペアのうちの、複合名詞のペアにおける同義単語ペアと重複していない同義単語ペアを、上記の単語ペアリストに追加する。   Next, the synonymous compound noun specifying unit 140 collects synonymous word pairs (synonymous word pairs) registered in the synonym word dictionary 194 from the character strings of the document set 191 (step S72). The word pair setting unit 141 performs the process of step S72. The word pair setting unit 141 adds, to the word pair list, synonym word pairs that do not overlap with the synonym word pairs in the compound noun pair among the synonym word pairs collected in step S72.

次に、同義複合名詞特定部140は、ステップS71及びS72で同定、収集した未確定単語ペア及び同義単語ペアを処理対象の単語ペアとして意味類似度学習処理(ステップS73)を行う。ステップS73の意味類似度学習処理は、同義複合名詞特定部140の類似度推移テーブル作成部142と、意味類似度学習部143とが行う。   Next, the synonymous compound noun specifying unit 140 performs a semantic similarity learning process (step S73) with the unconfirmed word pair and the synonymous word pair identified and collected in steps S71 and S72 as processing target word pairs. The semantic similarity learning process in step S73 is performed by the similarity transition table creating unit 142 and the semantic similarity learning unit 143 of the synonymous compound noun specifying unit 140.

ステップS73において、類似度推移テーブル作成部142は、処理対象の単語ペアのそれぞれに対する意味類似度の学習結果を格納する類似度推移テーブル195を生成する。また、類似度推移テーブル算出部142は、意味類似度学習部143における処理対象の単語ペアのそれぞれについての意味類似度の学習結果を類似度推移テーブル195の所定の欄(セル)に格納する。処理対象の単語ペアの総数がN個であり、意味類似度の学習をM回行う場合、類似度推移テーブル作成部142は、例えば、N×M個の欄(セル)を持つ類似度推移テーブル195を生成する。また、ステップS73において、意味類似度学習部143は、形態素解析の結果(事例)に基づいて単語ペアの各単語についての意味ベクトルを学習し、該意味ベクトルに基づいて単語ペアの単語同士の意味類似度を算出する処理を行う。この際、意味類似度学習部143は、1組の単語ペアに対し、上記の意味類似度を算出する処理をM回繰り返す。更に、意味類似度学習部143は、1組の単語ペアに対する意味類似度を算出する処理を1回終える毎に、意味類似度の算出に用いる事例数を追加する。例えば、意味類似度学習部143は、1組の単語ペアに対するm回目(m=1,2,・・・,M)の処理における事例数HtをHt=m×H(例えば、H=1000)とする。   In step S <b> 73, the similarity transition table creation unit 142 generates a similarity transition table 195 that stores a learning result of semantic similarity for each word pair to be processed. Further, the similarity transition table calculation unit 142 stores the learning result of the semantic similarity for each word pair to be processed in the semantic similarity learning unit 143 in a predetermined column (cell) of the similarity transition table 195. When the total number of word pairs to be processed is N and the semantic similarity is learned M times, the similarity transition table creating unit 142 has, for example, a similarity transition table having N × M columns (cells). 195 is generated. In step S73, the semantic similarity learning unit 143 learns a semantic vector for each word of the word pair based on the result (example) of the morphological analysis, and the meaning of the words of the word pair based on the semantic vector. Processing for calculating the similarity is performed. At this time, the semantic similarity learning unit 143 repeats the process of calculating the above semantic similarity for a set of word pairs M times. Furthermore, the semantic similarity learning unit 143 adds the number of cases used for calculating the semantic similarity every time the process of calculating the semantic similarity for one set of word pairs is completed once. For example, the semantic similarity learning unit 143 sets the number of cases Ht in the m-th (m = 1, 2,..., M) processing for one set of word pairs as Ht = m × H (for example, H = 1000). And

ステップS73の処理を終えると、同義複合名詞特定部140は、次に、未確定単語ペアについての同義判定処理(ステップS74)を行う。ステップS74の処理は、同義複合名詞特定部140の単語同義判定部144が行う。単語同義判定部144は、類似度推移テーブル195を参照して同義単語ペアの意味類似度の推移と、未確定単語ペアの意味類似度の推移との相関係数を算出し、当該相関係数が閾値以上である場合に未確定単語ペアの単語同士が同義であると判定する。単語同義判定部144は、単語同士が同義であると判定した未確定単語ペアを、同義単語ペアに変更する。   When the process of step S73 is completed, the synonymous compound noun specifying unit 140 next performs a synonym determination process (step S74) for the unconfirmed word pair. The process of step S74 is performed by the word synonym determination unit 144 of the synonym compound noun specification unit 140. The word synonym determination unit 144 refers to the similarity transition table 195 to calculate a correlation coefficient between the transition of the semantic similarity of the synonym word pair and the transition of the semantic similarity of the undefined word pair, and the correlation coefficient Is equal to or greater than the threshold, it is determined that the words of the undefined word pair are synonymous. The word synonym determination unit 144 changes an unconfirmed word pair that has been determined to be synonymous to a synonym word pair.

次に、同義複合名詞特定部140は、複合名詞のペアについての同義判定処理(ステップS75)。ステップS75の処理は、同義複合名詞特定部140の複合名詞同義判定部145が行う。複合名詞同義判定部145は、同義表現の可能性がある複合名詞のペアにおける複数の単語ペアのそれぞれが同義単語ペアであるか否かを判定する。複合名詞のペアにおける全ての単語ペアが同義単語ペアである場合、複合名詞同義判定部145は、該複合名詞のペアを同義表現の複合名詞のペアと判定し、該複合名詞のペアを同義表現リスト196に登録する。   Next, the synonymous compound noun specifying unit 140 performs synonym determination processing for a pair of compound nouns (step S75). The process of step S75 is performed by the compound noun synonym determination unit 145 of the synonym compound noun identification unit 140. The compound noun synonym determination unit 145 determines whether or not each of a plurality of word pairs in a compound noun pair having the possibility of synonymous expression is a synonym word pair. When all the word pairs in the compound noun pair are synonymous word pairs, the compound noun synonym determination unit 145 determines that the compound noun pair is a compound noun pair of synonymous expressions, and the compound noun pair is synonymously expressed. Register in the list 196.

ステップS75の処理を終えると、同義複合名詞特定部140は、同義複合名詞特定処理(ステップS7)を終了する。   When the process of step S75 is completed, the synonymous compound noun specifying unit 140 ends the synonymous compound noun specifying process (step S7).

同義複合名詞特定部140が行う同義複合名詞特定処理のうちの意味類似度学習処理(ステップS73)は、上記のように、類似度推移テーブル作成部142と、意味類似度学習部143とが行う。類似度推移テーブル作成部142と、意味類似度学習部143とは、意味類似度学習処理として、例えば、図6に示した処理を行う。   The semantic similarity learning process (step S73) of the synonymous compound noun specifying process performed by the synonymous compound noun specifying unit 140 is performed by the similarity transition table creating unit 142 and the semantic similarity learning unit 143 as described above. . The similarity transition table creation unit 142 and the semantic similarity learning unit 143 perform, for example, the process illustrated in FIG. 6 as the semantic similarity learning process.

図6は、意味類似度学習処理の内容を説明するフローチャートである。
意味類似度学習処理では、図6に示すように、まず、N組の単語ペアのそれぞれに対するM回の学習結果を格納する類似度推移テーブル195を用意する(ステップS7301)。ステップS7301の処理は、類似度推移テーブル作成部142が行う。類似度推移テーブル作成部142は、例えば、N×M個のデータ格納欄(セル)を持つテーブルを生成する。
FIG. 6 is a flowchart for explaining the content of the semantic similarity learning process.
In the semantic similarity learning process, as shown in FIG. 6, first, a similarity transition table 195 is prepared that stores M learning results for each of N word pairs (step S7301). The process of step S7301 is performed by the similarity transition table creation unit 142. For example, the similarity transition table creation unit 142 generates a table having N × M data storage columns (cells).

ステップS7301の処理の後、類似度推移テーブル作成部142と、意味類似度学習部143とは、第1のループ処理(ステップS7302〜S7309)をM回繰り返す。第1のループ処理における1回の処理は、第2のループ処理(ステップS7303〜S7308)となっている。第1のループ処理のループ端(ステップS7302,S7309)では、第2のループ処理の処理回数mをカウントする処理と、処理回数mがm≧Mであるか否かの判定とを行う。処理回数mのカウント及び判定は、類似度推移テーブル作成部142が行う。第2のループ処理をM回繰り返すと、類似度推移テーブル作成部142は、第1のループ処理を終了し、意味類似度学習処理を終了する。   After the process of step S7301, the similarity transition table creating unit 142 and the semantic similarity learning unit 143 repeat the first loop process (steps S7302 to S7309) M times. One process in the first loop process is a second loop process (steps S7303 to S7308). At the loop end (steps S7302 and S7309) of the first loop process, a process of counting the number m of processes of the second loop process and a determination of whether or not the number m of processes is m ≧ M are performed. The similarity transition table creation unit 142 performs counting and determination of the number m of processes. When the second loop process is repeated M times, the similarity transition table creation unit 142 ends the first loop process and ends the semantic similarity learning process.

第2のループ処理における1回の処理(ステップS7304〜S7307)は、1組の単語ペアにおける各単語の意味ベクトルを学習して意味類似度を算出し、算出した意味類似度を類似度推移テーブル195に格納する処理となっている。第2のループ処理のループ端(ステップS7303,S7308)では、複数の単語ペアのうちの1組の単語ペアを選択する処理と、全ての単語ペアに対しステップS7304〜S7307の処理を行った否かの判定とを行う。第2のループ処理のループ端における選択及び判定は、類似度推移テーブル作成部142が行う。全ての単語ペアに対しステップS7304〜S7307の処理を行うと、類似度推移テーブル作成部142は、1回の第2のループ処理を終了する。   In the second loop process (steps S7304 to S7307), the semantic similarity is calculated by learning the semantic vector of each word in a set of word pairs, and the calculated semantic similarity is stored in the similarity transition table. The process is stored in 195. At the loop end (steps S7303 and S7308) of the second loop process, whether or not the process of selecting one word pair from the plurality of word pairs and the processes of steps S7304 to S7307 have been performed on all the word pairs. Is determined. The selection and determination at the loop end of the second loop processing is performed by the similarity transition table creation unit 142. When the processing of steps S7304 to S7307 is performed for all word pairs, the similarity transition table creation unit 142 ends one second loop processing.

第2のループ処理における1回の処理では、まず、解析結果コーパス193からH個の形態素解析の結果を学習事例として取得する(ステップS7304)。ステップS7304の処理は、意味類似度学習部143が行う。意味類似度学習部143は、解析結果コーパス193に登録された形態素解析の結果のなかから、現在の意味類似度学習処理でまだ取得していない形態素解析の結果をH個取得する。なお、第2のループ処理が2回目〜M回目である場合、意味類似度学習部143は、取得したH個の学習事例を取得済みの学習事例に追加する。   In one process in the second loop process, first, H morphological analysis results are acquired from the analysis result corpus 193 as learning examples (step S7304). The semantic similarity learning unit 143 performs the processing in step S7304. The semantic similarity learning unit 143 acquires H morphological analysis results that have not yet been acquired in the current semantic similarity learning processing from the morphological analysis results registered in the analysis result corpus 193. When the second loop process is the second to Mth times, the semantic similarity learning unit 143 adds the acquired H learning examples to the acquired learning examples.

学習事例を取得した意味類似度学習部143は、続けて、取得した学習事例に基づいて単語ペアの意味ベクトルを学習し(ステップS7305)、学習した意味ベクトルに基づいて単語ペアの意味類似度を算出する(ステップS7306)。ステップS7305において、意味類似度学習部143は、既知の学習方法に従い、現在処理対象となっている1組の単語ペアにおける各単語についての意味ベクトルを学習する。また、ステップS7305において、意味類似度学習部143は、学習した各単語の意味ベクトルに基づいて単語ペアの意味類似度を算出する。意味類似度学習部143は、現在処理対象となっている単語ペアについて算出した意味類似度を類似度推移テーブル作成部142に送る。意味類似度の算出結果を受け取った類似度推移テーブル作成部142は、受け取った意味類似度の値を、類似度推移テーブル195に格納する(ステップS7307)。ステップS7307において、類似度推移テーブル作成部142は、類似度推移テーブル195のN×M個のデータ格納欄(セル)のうちの、現在処理対象となっている単語ペアと処理回数mとで特定されるセルに、意味類似度の算出結果を格納する。   The semantic similarity learning unit 143 that has acquired the learning example continuously learns the semantic vector of the word pair based on the acquired learning example (step S7305), and calculates the semantic similarity of the word pair based on the learned semantic vector. Calculate (step S7306). In step S7305, the semantic similarity learning unit 143 learns a semantic vector for each word in a set of word pairs currently being processed according to a known learning method. In step S7305, the semantic similarity learning unit 143 calculates the semantic similarity of the word pair based on the learned semantic vector of each word. The semantic similarity learning unit 143 sends the semantic similarity calculated for the word pair currently being processed to the similarity transition table creating unit 142. Upon receiving the semantic similarity calculation result, the similarity transition table creating unit 142 stores the received semantic similarity value in the similarity transition table 195 (step S7307). In step S7307, the similarity transition table creation unit 142 identifies the word pair currently being processed and the processing count m in the N × M data storage columns (cells) of the similarity transition table 195. The calculation result of the semantic similarity is stored in the cell.

全ての単語ペアに対しステップS7304〜S7307の処理を行うと、類似度推移テーブル作成部142は、第2のループ処理を終了する。その後、類似度推移テーブル142は、第1のループ処理のループ端(ステップS7302又はS7309)において処理回数mをm=m+1に更新し、m≧Mとなるまで第2のループ処理を繰り返す。そして、処理回数mがm≧Mとなると、類似度推移テーブル作成部142は、第1のループ処理を終了し、意味類似度学習処理を終了する。   When the processing of steps S7304 to S7307 is performed on all word pairs, the similarity transition table creation unit 142 ends the second loop processing. Thereafter, the similarity transition table 142 updates the processing count m to m = m + 1 at the loop end (step S7302 or S7309) of the first loop processing, and repeats the second loop processing until m ≧ M. When the number m of processing reaches m ≧ M, the similarity transition table creation unit 142 ends the first loop process and ends the semantic similarity learning process.

類似度推移テーブル作成部142及び意味類似度学習部143による意味類似度学習処理(ステップS73)が終了すると、同義複合名詞特定部140は、次に、単語ペアについての同義判定処理(ステップS74)を行う。ステップS74の処理は、同義複合名詞特定部140の単語同義判定部144が行う。単語同義判定部144は、ステップS74の同義判定処理として、図7A、及び図7Bに示す処理を行う。   When the semantic similarity learning process (step S73) by the similarity transition table creating unit 142 and the semantic similarity learning unit 143 is completed, the synonymous compound noun specifying unit 140 then performs a synonym determination process for the word pair (step S74). I do. The process of step S74 is performed by the word synonym determination unit 144 of the synonym compound noun specification unit 140. The word synonym determination unit 144 performs the processes shown in FIGS. 7A and 7B as the synonym determination process in step S74.

図7Aは、単語ペアについての同義判定処理の内容を説明するフローチャート(その1)である。図7Bは、単語ペアについての同義判定処理の内容を説明するフローチャート(その2)である。   FIG. 7A is a flowchart (part 1) illustrating the contents of synonym determination processing for a word pair. FIG. 7B is a flowchart (part 2) for explaining the contents of synonym determination processing for word pairs.

単語ペアについての同義判定処理において、単語同義判定部144は、図7Aに示すように、まず、文書集合191から収集した単語ペアのリストと、類似度推移テーブル195とを取得する(ステップS7401)。   In the synonym determination process for word pairs, the word synonym determination unit 144 first obtains a list of word pairs collected from the document set 191 and a similarity transition table 195 as shown in FIG. 7A (step S7401). .

次に、単語同義判定部144は、第1のループ処理(S7402〜S7411)を行う。第1のループ処理における1回の処理(ステップS7403〜S7410)は、第2のループ処理(ステップS7403〜S7406)と、第2のループ処理の後で行うステップS7407〜S7410の処理とを含む。第1のループ処理のループ端(ステップS7402,S7411)において、単語同義判定部144は、未確定単語ペアを選択する処理と、全ての未確定単語ペアに対してステップS7403〜S7410の処理を行ったか否かの判定とを行う。全ての未確定単語ペアに対してステップS7403〜S7410の処理を行うと、単語同義判定部144は、第1のループ処理を終了し、単語ペアについての同義判定処理を終了する。   Next, the word synonym determination unit 144 performs first loop processing (S7402 to S7411). One process (steps S7403 to S7410) in the first loop process includes a second loop process (steps S7403 to S7406) and a process of steps S7407 to S7410 performed after the second loop process. At the loop end (steps S7402 and S7411) of the first loop process, the word synonym determination unit 144 performs a process of selecting unconfirmed word pairs and a process of steps S7403 to S7410 for all unconfirmed word pairs. It is determined whether or not. When the processing of steps S7403 to S7410 is performed for all unconfirmed word pairs, the word synonym determination unit 144 ends the first loop processing and ends the synonym determination processing for the word pairs.

第2のループ処理における1回の処理(ステップS7404及びS7405)は、現在処理対象に選択されている未確定単語ペアと、1組の同義単語ペアとの意味類似度の推移の相関係数を算出する処理となっている。単語同義判定部144は、まず、類似度推移テーブル195から、現在処理対象である未確定単語ペアの意味類似度と、同義単語ペアの意味類似度とを取得する(ステップS7404)。続けて、単語同義判定部144は、取得した意味類似度同士の相関係数を算出する(ステップS7405)。ステップS7405において、単語同義判定部144は、例えば、下記式(1)により相関係数を算出する。   One processing (steps S7404 and S7405) in the second loop processing is performed by calculating the correlation coefficient of the transition of the semantic similarity between the unconfirmed word pair currently selected as a processing target and one set of synonymous word pairs. It is a process to calculate. First, the word synonym determination unit 144 obtains the semantic similarity of the unconfirmed word pair that is the current processing target and the semantic similarity of the synonym word pair from the similarity transition table 195 (step S7404). Subsequently, the word synonym determination unit 144 calculates a correlation coefficient between the acquired semantic similarities (step S7405). In step S7405, the word synonym determination unit 144 calculates a correlation coefficient by the following equation (1), for example.

Figure 2018088101
Figure 2018088101

式(1)において、xは未確定単語ペアに対するm回目の意味類似度の学習処理の結果(意味類似度)であり、xaは未確定単語ペアに対するM回分の学習処理の結果の相加平均である。また、式(1)において、yは同義単語ペアに対するm回目の意味類似度の学習処理の結果(意味類似度)であり、yaは同義単語ペアに対するM回分の学習処理の結果の相加平均である。 In Expression (1), x m is the result of the m-th semantic similarity learning process (semantic similarity) for the undefined word pair, and xa is the addition of the results of M learning processes for the undefined word pair. Average. Further, in the equation (1), y m is the result of a learning process of the m-th mean similarity to synonymous word pairs (meaning similarity), ya is additive results M times of learning process for the synonymous word pairs Average.

第2のループ処理のループ端(ステップS7403,S7406)では、全ての同義単語ペアのなかから処理対象の同義単語ペアを選択する処理と、全ての同義単語ペアで相関係数を算出する処理を行ったか否かの判定とを行う。全ての同義単語ペアで相関係数を算出する処理を行うと、単語同義判定部144は、第2のループ処理を終了する。   At the loop end of the second loop processing (steps S7403 and S7406), processing for selecting a synonym word pair to be processed from all synonymous word pairs and processing for calculating a correlation coefficient for all synonymous word pairs. It is determined whether or not it has been performed. If the process which calculates a correlation coefficient with all the synonym word pairs is performed, the word synonym determination part 144 will complete | finish a 2nd loop process.

第2のループ処理を終了すると、単語同義判定部144は、次に、現在処理対象である未確定単語ペアについての意味類似度の相関係数の平均値を算出する(ステップS7407)。ステップS7407において、単語同義判定部144は、第2のループ処理で算出した各同義単語ペアとの意味類似度の相関係数の平均値を算出する。   When the second loop process ends, the word synonym determination unit 144 next calculates the average value of the correlation coefficients of the semantic similarity for the unconfirmed word pair that is the current processing target (step S7407). In step S7407, the word synonym determination unit 144 calculates an average value of correlation coefficients of semantic similarity with each synonym word pair calculated in the second loop process.

次に、単語同義判定部144は、図7Bに示すように、算出した相関係数の平均値が閾値以上であるか否かを判定する(ステップS7408)。相関係数の平均値が閾値以上である場合(ステップS7408;YES)、単語同義判定部144は、単語ペアリストの現在処理対象である未確定単語ペアを同義単語ペアに変更する(ステップS7409)。一方、相関係数の平均値が閾値よりも小さい場合(ステップS7408;NO)、単語同義判定部144は、現在処理対象である未確定単語ペアを単語ペアリストから削除する(ステップS7410)。   Next, as shown in FIG. 7B, the word synonym determination unit 144 determines whether or not the calculated average value of the correlation coefficients is equal to or greater than a threshold value (step S7408). When the average value of the correlation coefficients is equal to or greater than the threshold (step S7408; YES), the word synonym determination unit 144 changes the unconfirmed word pair that is the current processing target of the word pair list to a synonym word pair (step S7409). . On the other hand, when the average value of the correlation coefficients is smaller than the threshold (step S7408; NO), the word synonym determination unit 144 deletes the unconfirmed word pair that is the current processing target from the word pair list (step S7410).

現在処理対象である未確定単語ペアに対する第2のループ処理、及びステップS7407〜S7410の処理を終えると、単語同義判定部144は、これらの処理を行っていない未確定単語ペアがあるか否かを判定する(ステップS7402又はS7411)。第2のループ処理、及びステップS7407〜S7410の処理を行っていない未確定単語ペアがある場合、単語同義判定部144は、未処理の未確定単語ペアに対する第2のループ処理、及びステップS7407〜S7410の処理を行う。そして、全ての未確定単語ペアに対して第2のループ処理、及びステップS7407〜S7410の処理を行うと、単語同義判定部144は、第1のループ処理を終了し、単語ペアについての同義判定処理を終了する。   When the second loop processing for the unconfirmed word pair that is the current processing target and the processing in steps S7407 to S7410 are finished, the word synonym determination unit 144 determines whether there is an unconfirmed word pair that has not been subjected to these processing. Is determined (step S7402 or S7411). When there is an unconfirmed word pair that has not been subjected to the second loop process and the processes of steps S7407 to S7410, the word synonym determination unit 144 performs the second loop process for the unprocessed unconfirmed word pair and the steps S7407 to S7407. The process of S7410 is performed. Then, when the second loop process and the processes of steps S7407 to S7410 are performed on all unconfirmed word pairs, the word synonym determination unit 144 ends the first loop process and determines the synonyms for the word pairs. The process ends.

単語同義判定部144による単語同義判定処理(ステップS74)が終了すると、同義複合名詞判定部140は、次に、複合名詞のペアについての同義判定処理(ステップS75)を行う。ステップS75の処理は、同義複合名詞判定部140の複合名詞同義判定部145が行う。複合名詞同義判定部145は、ステップS75の同義判定処理として、図8に示す処理を行う。   When the word synonym determination process (step S74) by the word synonym determination unit 144 is completed, the synonym compound noun determination unit 140 then performs a synonym determination process (step S75) for a pair of compound nouns. The process of step S75 is performed by the compound noun synonym determination unit 145 of the synonym compound noun determination unit 140. The compound noun synonym determination unit 145 performs the process shown in FIG. 8 as the synonym determination process in step S75.

図8は、複合名詞のペアについての同義判定処理の内容を説明するフローチャートである。   FIG. 8 is a flowchart for explaining the contents of synonym determination processing for a pair of compound nouns.

複合名詞のペアについての同義判定処理において、複合名詞同義判定部145は、ループ処理(S7501〜S7505)を行う。ループ処理における1回の処理(ステップS7502〜S7504)は、同義表現の可能性がある1組の複合名詞のペアにおける複数の単語ペアが全て同義単語ペアである場合に、当該複合名詞のペアを同義表現リスト196に登録する処理である。複合名詞同義判定部145は、同義表現の可能性がある全ての複合名詞のペアのそれぞれに対してステップS7502〜S7504の処理を行う。ループ処理のループ端(ステップS7501,S7505)において、複合名詞同義判定部145は、複合名詞のペアを選択する処理と、同義表現の可能性がある全ての複合名詞のペアに対してステップS7502〜S7504の処理を行ったか否かの判定とを行う。   In the synonym determination process for a pair of compound nouns, the compound noun synonym determination unit 145 performs a loop process (S7501 to S7505). One processing in the loop processing (steps S7502 to S7504) is performed when a plurality of word pairs in a pair of compound nouns that may be synonymous expressions are all synonymous word pairs. This is a process of registering in the synonym expression list 196. The compound noun synonym determination unit 145 performs the processing of steps S7502 to S7504 for each of all compound noun pairs that may have synonymous expressions. At the loop end (steps S7501 and S7505) of the loop processing, the compound noun synonym determination unit 145 performs processing for selecting a compound noun pair and steps S7502 for all compound noun pairs that may have synonymous expressions. It is determined whether or not the processing of S7504 has been performed.

ループ処理における1回の処理において、複合名詞同義判定部145は、まず、現在処理対象に選択されている複合名詞のペアにおける複数の単語ペアのそれぞれについての同義判定処理の結果を参照する(ステップS7502)。   In one process in the loop process, the compound noun synonym determination unit 145 first refers to the result of the synonym determination process for each of a plurality of word pairs in the compound noun pair currently selected for processing (step). S7502).

次に、複合名詞同義判定部145は、複合名詞のペアにおける複数の単語ペアが全て同義単語ペアであるか否かを判定する(ステップS7503)。全て同義単語ペアである場合(ステップS7503;YES)、複合名詞同義判定部145は、現在処理対象である複合名詞のペアを同義表現リスト196に登録し(ステップS7504)、ループ処理を終了するか否かの判断をする(ステップS7505)。一方、複数の単語ペアのなかに同義ではない単語ペアが含まれる場合(ステップS7503;NO)、複合名詞同義判定部145は、ステップS7504をスキップし、ループ処理を終了するか否かの判断をする(ステップS7505)。全ての複合名詞のペアに対しステップS7502〜S7504の処理を行った場合、複合名詞同義判定部145は、ループ処理を終了し、複合名詞についての同義判定処理を終了する。   Next, the compound noun synonym determination unit 145 determines whether or not all the word pairs in the compound noun pair are synonymous word pairs (step S7503). If all are synonymous word pairs (step S7503; YES), the compound noun synonym determination unit 145 registers the compound noun pair currently being processed in the synonym expression list 196 (step S7504), and ends the loop processing? It is determined whether or not (step S7505). On the other hand, when a word pair that is not synonymous is included in the plurality of word pairs (step S7503; NO), the compound noun synonym determination unit 145 determines whether to skip step S7504 and end the loop processing. (Step S7505). When the processes of steps S7502 to S7504 are performed on all compound noun pairs, the compound noun synonym determination unit 145 ends the loop process and ends the synonym determination process for the compound noun.

このように、本実施形態に係る複合名詞についての同義表現の判定処理では、複合名詞のペアにおける各複合名詞を単語に分割して複数の単語ペアを生成し、複数の単語ペアの全てが同義の単語ペアである複合名詞のペアを同義表現と判定する。また、同義表現の可能性がある複合名詞のペアについては、同義であるか否かが未確定である単語ペアと、同義である単語ペアとのそれぞれで行った意味類似度の学習結果に基づいて、同義であるか否かが未確定である単語ペアが同義であるか否かを判定する。この際、各単語ペアの意味類似度の学習は、複数回にわけて1回毎に学習事例を追加する態様で行い、事例数と意味類似度との関係を算出する。このような方法で単語ペアの意味類似度を学習した場合、同義単語ペアでは、事例数が増加するとともに意味類似度の値が大きくなる。また、複数の同義単語ペアにおける事例数と意味類似度との関係には、同じ傾向が見られる。このため、同義であるか否かが未確定である単語ペアにおける事例数と意味類似度との関係に、同義単語ペアにおける事例数と意味類似度との関係と同じ傾向がある場合、未確定単語ペアの単語同士を同義であると判定することが可能となる。よって、本実施形態によれば、文書集合191の文書データ数が少ない場合や、特定の分野のみで使われる複合名詞を含む文書がある場合でも、複合名詞の同義表現を精度良く抽出することが可能となる。   As described above, in the synonymous expression determination process for the compound noun according to the present embodiment, each compound noun in the compound noun pair is divided into words to generate a plurality of word pairs, and all of the plurality of word pairs are all synonymous. A pair of compound nouns that are word pairs is determined as a synonymous expression. In addition, for compound noun pairs that have the possibility of synonymous expressions, based on the results of semantic similarity learning performed for each of the word pairs whose synonyms are uncertain and those that are synonymous. Thus, it is determined whether or not a word pair for which whether or not it is synonymous is synonymous. At this time, the learning of the semantic similarity of each word pair is performed in such a manner that learning examples are added for each time in a plurality of times, and the relationship between the number of cases and the semantic similarity is calculated. When the semantic similarity of word pairs is learned by such a method, the number of cases increases and the value of semantic similarity increases for synonymous word pairs. Moreover, the same tendency is seen in the relationship between the number of cases and the semantic similarity in a plurality of synonymous word pairs. For this reason, if the relationship between the number of cases and semantic similarity in a word pair for which it is uncertain whether or not they are synonymous has the same tendency as the relationship between the number of cases and semantic similarity in a synonymous word pair, It becomes possible to determine that the words of the word pair are synonymous. Therefore, according to this embodiment, even when there is a small number of document data in the document set 191 or when there is a document including a compound noun used only in a specific field, a synonym expression of the compound noun can be extracted with high accuracy. It becomes possible.

図9は、文字列と形態素解析の結果との例を示す図である。図10は、複合名詞のペアの抽出結果と単語ペアのリストとの例を示す図である。   FIG. 9 is a diagram illustrating an example of a character string and a result of morphological analysis. FIG. 10 is a diagram illustrating an example of a compound noun pair extraction result and a list of word pairs.

図9の(a)のテーブル401には、文書集合191から抽出した文字列の例を示している。本実施形態に係る同義表現抽出装置1は、形態素解析部120において、文書集合191から抽出した文字列のそれぞれに対し形態素解析(ステップS2)を行う。図9の(b)のテーブル402には、図9の(a)のテーブ401に示した「交通費を求めるため運賃計算モジュールを実行する」という文字列に対する形態素解析の結果と、「交通費を求めるため交通費精算機能を実施する」という文字列に対する形態素解析の結果とを具体的に示している。なお、テーブル402における記号「 / 」は、形態素の区切りを示す。解析結果コーパス193には、例えば、テーブル402のような形式で各文(各文字列)に対する形態素解析の結果が蓄積される。   An example of character strings extracted from the document set 191 is shown in the table 401 in FIG. In the synonym expression extraction apparatus 1 according to the present embodiment, the morpheme analysis unit 120 performs morpheme analysis (step S2) on each of the character strings extracted from the document set 191. The table 402 in FIG. 9B includes the result of the morphological analysis for the character string “execute the fare calculation module to obtain the transportation cost” shown in the table 401 in FIG. The result of the morphological analysis for the character string “I will carry out the transportation expense settlement function to find the The symbol “/” in the table 402 indicates a morpheme break. In the analysis result corpus 193, for example, the result of morphological analysis for each sentence (each character string) is stored in a format such as the table 402.

形態素解析を行った後、同義表現抽出装置1は、複合名詞抽出部130において、文字列から複合名詞を抽出し(ステップS3)、更に同義表現の可能性がある複合名詞のペアを同定する(ステップS5)。複合名詞の条件の1つとして複数の名詞が連続している単語列という条件が設定されている場合、「交通費を求めるため運賃計算モジュールを実行する」という文字列からは、「運賃計算モジュール」という複合名詞が抽出される。また、「交通費を求めるため交通費精算機能で実施する」という文字列からは「交通費精算機能」という複合名詞が抽出される。また、図示は省略しているが、他の文字列からも同様の条件に従って複合名詞が抽出される。   After performing the morphological analysis, the synonym expression extraction device 1 extracts a compound noun from the character string in the compound noun extraction unit 130 (step S3), and further identifies a pair of compound nouns that may be synonymous expressions ( Step S5). When the condition of a word string in which a plurality of nouns are continuous is set as one of the conditions of the compound noun, the character string “Execute the fare calculation module to obtain transportation costs” Is extracted. Also, a compound noun “transportation cost settlement function” is extracted from the character string “perform transportation cost settlement function to obtain transportation cost”. Although not shown, compound nouns are extracted from other character strings according to similar conditions.

複合名詞を抽出した後、複合名詞抽出部130は、複合名詞についての文脈類似度等に基づいて、同義表現の可能性がある複合名詞のペアを同定する。例示した上記の2つの文字列は、いずれも「交通費を求めるため(複合名詞)を・・・」という文になっており、文脈類似度が高い。このため、複合名詞出部130は、図10の(a)のテーブル403のように、「運賃計算モジュール」と「交通費精算機能」とを、同義表現の可能性がある複合名詞のペアに同定する。   After extracting the compound noun, the compound noun extraction unit 130 identifies a pair of compound nouns that may be synonymous expressions based on the context similarity of the compound noun. Both of the above-described two character strings are sentences such as “to obtain transportation expenses (compound nouns)...”, And the context similarity is high. Therefore, as shown in the table 403 of FIG. 10A, the compound noun output unit 130 converts the “fare calculation module” and the “transportation cost adjustment function” into a pair of compound nouns that may be synonymously expressed. Identify.

その後、同義表現抽出装置1では、単語ペア設定部141において、複合名詞のペアにおける複数の単語ペアを同義単語ペア又は判定対象単語ペアに同定するとともに、文書集合191から同義単語ペアを収集する(ステップS71及びS72)。   Thereafter, in the synonym expression extraction device 1, the word pair setting unit 141 identifies a plurality of word pairs in the compound noun pair as synonymous word pairs or determination target word pairs, and collects synonym word pairs from the document set 191 ( Steps S71 and S72).

「運賃計算モジュール」と「交通費精算機能」とは、上記のように、それぞれ、3個の単語(名詞)を組み合わせた複合名詞である。このため、「運賃計算モジュール」と「交通費精算機能」とのペアからは、図10の(b)の単語ペアリスト404に示すように、「運賃」と「交通費」との単語ペア、「計算」と「精算」との単語ペア、及び「モジュール」と「機能」との単語ペアが生成される。単語ペア設定部141は、同義単語辞書194を参照し、これら3個の単語ペアが同義単語ペア及び判定対象単語ペアのいずれであるかを同定する。図2の同義単語辞書194を参照した場合、「運賃」と「交通費」との単語ペア、及び「計算」と「精算」との単語ペアは、同義単語ペアとなる。これに対し、「モジュール」と「機能」との単語ペアは未確定単語ペアとなる。このため、同義単語辞書194は、単語ペアリスト404に、3個の単語ペアと、各単語ペアの属性(未確定又は同義)を登録する。また、単語ペアリスト404に単語ペアを登録する際には、図10の(b)に示したように、各単語ペアを識別する配列IDを付与する。   As described above, the “fare calculation module” and the “transportation cost adjustment function” are compound nouns each combining three words (nouns). For this reason, from the pair of the “fare calculation module” and the “transportation cost adjustment function”, as shown in the word pair list 404 of FIG. 10B, the word pair of “fare” and “transportation cost”, A word pair of “calculation” and “settlement” and a word pair of “module” and “function” are generated. The word pair setting unit 141 refers to the synonym word dictionary 194 and identifies which of these three word pairs is a synonym word pair or a determination target word pair. When referring to the synonym word dictionary 194 in FIG. 2, the word pair of “fare” and “transportation cost” and the word pair of “calculation” and “settlement” are synonymous word pairs. In contrast, the word pair of “module” and “function” is an undefined word pair. For this reason, the synonym word dictionary 194 registers three word pairs and attributes (unconfirmed or synonymous) of each word pair in the word pair list 404. Further, when registering a word pair in the word pair list 404, an array ID for identifying each word pair is assigned as shown in FIG.

更に、判定対象同定部141は、全ての文字列についての形態素解析の結果から、同義単語辞書194に登録されている同義単語ペアを収集し、単語ペアリスト404に登録する。図2の同義単語辞書194には、「実行」と「実施」との組が同義単語ペアとして登録されている。また、図9の(b)のテーブル402に示した形態素解析の結果には、「実行」という単語を含む文字列と、「実施」という単語を含む文字列とが存在する。このため、判定対象同定部141は、図10の(b)の単語ペアリスト404のように、「実行」と「実施」との単語ペアを同義単語ペアとして登録する。また、判定対象同定部141は、全ての文字列についての形態素解析の結果から同義単語辞書194に登録された同義単語ペアを全て収集し、単語ペアリスト404に登録する。   Further, the determination target identification unit 141 collects synonym word pairs registered in the synonym word dictionary 194 from the results of morphological analysis for all character strings, and registers them in the word pair list 404. In the synonym word dictionary 194 of FIG. 2, a set of “execution” and “execution” is registered as a synonym word pair. Further, the result of the morphological analysis shown in the table 402 of FIG. 9B includes a character string including the word “execution” and a character string including the word “execution”. Therefore, the determination target identification unit 141 registers the word pairs of “execution” and “execution” as synonymous word pairs as in the word pair list 404 of FIG. 10B. Further, the determination target identification unit 141 collects all the synonym word pairs registered in the synonym word dictionary 194 from the morphological analysis results for all the character strings, and registers them in the word pair list 404.

複合名詞のペアにおける未確定単語ペアと、同義単語辞書194に登録されている同義単語ペアとを単語ペアリスト404に登録した後、同義表現抽出装置1は、意味類似度学習処理(ステップS73)を行う。意味類似度学習処理では、類似度推移テーブル作成部142と、意味類似度学習部143とが、図6のステップS7301〜S7309の処理を行い、図11に示したような類似度推移テーブル195を作成する。   After registering the uncertain word pair in the compound noun pair and the synonym word pair registered in the synonym word dictionary 194 in the word pair list 404, the synonym expression extracting device 1 performs the semantic similarity learning process (step S73). I do. In the semantic similarity learning process, the similarity transition table creating unit 142 and the semantic similarity learning unit 143 perform the processing of steps S7301 to S7309 in FIG. 6 and the similarity transition table 195 as shown in FIG. create.

図11は、類似度推移テーブルの例を示す図である。
図11に示すように、類似度推移テーブル195は、N個の単語ペアのそれぞれに対するM回の学習処理の結果を格納するデータ格納欄(セル)を持つ。各単語ペアにおけるM回の学習処理の結果は、それぞれ、単語ペアに付与された配列IDと、学習回数mとで指定されるデータ格納欄に格納される。また、図11の類似度推移テーブル195では、1回の意味類似度の学習処理で取得する事例数HをH=1000としている。すなわち、図11の類似度推移テーブル195におけるm回目の学習処理の結果は、m×1000個(m=1,2,・・・,M)の学習事例を用いて行った学習処理の結果となる。
FIG. 11 is a diagram illustrating an example of the similarity transition table.
As shown in FIG. 11, the similarity transition table 195 has a data storage column (cell) for storing the results of M learning processes for each of N word pairs. The result of the M learning processes for each word pair is stored in a data storage column designated by the array ID assigned to the word pair and the learning count m. Further, in the similarity transition table 195 in FIG. 11, the number of cases H acquired in one semantic similarity learning process is set to H = 1000. That is, the result of the m-th learning process in the similarity transition table 195 in FIG. 11 is the result of the learning process performed using m × 1000 learning cases (m = 1, 2,..., M). Become.

類似度推移テーブル195を作成した後、同義表現抽出装置1は、単語同義判定部144において、単語ペアについての同義判定処理(ステップS74)を行う。ステップS74の処理は、未確定単語ペアが同義単語ペアであるか否かを判定する処理である。単語同義判定部144は、図7A及び図7BのステップS7401〜S7411の処理を行い、未確定単語ペアが同義単語ペアであるか否かを判定する。   After creating the similarity transition table 195, the synonym expression extraction device 1 performs synonym determination processing (step S74) for the word pair in the word synonym determination unit 144. The process of step S74 is a process of determining whether or not the unconfirmed word pair is a synonymous word pair. The word synonym determination unit 144 performs the processes of steps S7401 to S7411 in FIGS. 7A and 7B to determine whether or not the unconfirmed word pair is a synonym word pair.

図12は、未確定単語ペアが同義表現であるか否かの判定方法を説明する図である。
図12の(a)には、類似度推移テーブル195における同義単語ペアについての事例数と意味類似度との関係を示す3本の直線と、未確定単語ペアについての事例数と意味類似度との関係を示す2本の直線とを示している。同義単語ペアは、同義単語辞書194において同義であると定義されている単語のペアである。また、同義単語ペアにおける各単語は、複数の単語を組み合わせた複合名詞と比べ、文書集合191における出現頻度が高い。このため、同義単語ペアにおける各単語の意味ベクトルの学習結果に基づいて算出される同義単語ペアの意味類似度は、図12の(a)に示したように、事例数(学習データ量)に比例して高くなる傾向がある。すなわち、単語ペアにおける2個の単語が同義である場合、当該単語ペアの意味類似度は、事例数(学習データ量)に比例して高くなる傾向があるといえる。
FIG. 12 is a diagram illustrating a method for determining whether or not an undefined word pair is a synonymous expression.
FIG. 12A shows three straight lines indicating the relationship between the number of cases for the synonymous word pair and the semantic similarity in the similarity transition table 195, and the number of cases and the semantic similarity for the undefined word pair. And two straight lines showing the relationship. A synonym word pair is a pair of words defined as synonymous in the synonym word dictionary 194. Each word in the synonym word pair has a higher appearance frequency in the document set 191 than a compound noun combining a plurality of words. For this reason, the semantic similarity of the synonym word pair calculated based on the learning result of the semantic vector of each word in the synonym word pair is represented by the number of cases (learning data amount) as shown in FIG. There is a tendency to increase proportionately. That is, when two words in a word pair are synonymous, it can be said that the semantic similarity of the word pair tends to increase in proportion to the number of cases (learning data amount).

したがって、未確定単語ペアにおける2個の単語が同義である場合、当該単語ペアについての事例数と意味類似度との関係には、同義単語ペアにおける事例数と意味類似度との関係と同じ傾向があると考えられる。すなわち、未確定単語ペアにおける2個の単語が同義である場合、当該単語ペアの意味類似度は、図12の(a)に太い実線で示したように、事例数(学習データ量)に比例して高くなると考えられる。一方、未確定単語ペアにおける2個の単語が同義ではない場合、当該単語ペアについての事例数と意味類似度との関係には、図12の(a)に太い点線で示したように、同義単語ペアにおける事例数と意味類似度との関係とは異なる傾向があるといえる。   Therefore, when two words in an unconfirmed word pair are synonymous, the relationship between the number of cases and semantic similarity in the word pair has the same tendency as the relationship between the number of cases and semantic similarity in the synonymous word pair It is thought that there is. That is, when two words in an undefined word pair are synonymous, the semantic similarity of the word pair is proportional to the number of cases (learning data amount) as shown by a thick solid line in FIG. It will be higher. On the other hand, when the two words in the uncertain word pair are not synonymous, the relationship between the number of cases and the semantic similarity for the word pair is synonymous as shown by the thick dotted line in FIG. It can be said that the relationship between the number of cases and the degree of semantic similarity in word pairs tends to be different.

よって、本実施形態では、図7AのステップS7403〜S7407のような処理を行い、未確定単語ペアの意味類似度の推移と、同義単語ペアの意味類似度の推移との相関係数を算出する。例えば、図11の類似度推移テーブル195では、配列IDが「1」の単語ペアが未確定単語ペアであり、他の配列IDの単語ペアは同義単語ペアである(図10の(b)を参照)。このため、単語同義判定部144は、図12の(b)のテーブル405のように、一方の配列IDを「1」とする配列IDのペアのそれぞれで、意味類似度の相関係数を算出する。その後、単語同義判定部144は、算出した複数の意味類似度の相関係数の平均値を算出し、当該平均値が閾値以上であれば、一方の単語の配列IDが「1」である単語ペアは同義単語ペアであると判定する。図12の(b)に示した例では、相関係数の平均値が0.68となっている。したがって、図7BのステップS7408で用いる判定閾値が0.68以下である場合には、配列IDが「1」の単語ペア(「モジュール」と「機能」とのペア)が同義であると判定される。この場合、単語同義判定部144は、例えば、図10の(b)の単語ペアリスト404における「モジュール」と「機能」との単語ペアの属性が、未確定から同義に変更する(ステップS7409)。一方、図7BのステップS7408で用いる判定閾値が0.68よりも大きい場合には、配列IDが「1」の単語ペアは同義ではないと判定される。この場合、単語同義判定部144は、単語ペアリスト404から「モジュール」と「機能」との単語ペアを削除する(ステップS7410)。   Therefore, in the present embodiment, processing as in steps S7403 to S7407 in FIG. 7A is performed to calculate a correlation coefficient between the transition of the semantic similarity of the undefined word pair and the transition of the semantic similarity of the synonymous word pair. . For example, in the similarity transition table 195 in FIG. 11, the word pair with the array ID “1” is an unconfirmed word pair, and the word pairs with the other array ID are synonymous word pairs (see (b) in FIG. 10). reference). For this reason, the word synonym determination unit 144 calculates the correlation coefficient of the semantic similarity for each of the array ID pairs in which one array ID is “1” as in the table 405 in FIG. To do. Thereafter, the word synonym determination unit 144 calculates the average value of the calculated correlation coefficients of the plurality of semantic similarity degrees, and if the average value is equal to or greater than the threshold, the word whose array ID is “1” It is determined that the pair is a synonym word pair. In the example shown in FIG. 12B, the average value of the correlation coefficient is 0.68. Therefore, when the determination threshold used in step S7408 in FIG. 7B is 0.68 or less, it is determined that the word pair (pair of “module” and “function”) having the array ID “1” is synonymous. The In this case, for example, the word synonym determination unit 144 changes the attribute of the word pair of “module” and “function” in the word pair list 404 of FIG. 10B from unconfirmed to synonymous (step S7409). . On the other hand, when the determination threshold value used in step S7408 of FIG. 7B is larger than 0.68, it is determined that the word pair with the array ID “1” is not synonymous. In this case, the word synonym determination unit 144 deletes the word pair of “module” and “function” from the word pair list 404 (step S7410).

ステップS74の処理の後、同義表現抽出装置1では、複合名詞同義判定部145において、同義表現の可能性がある複合名詞のペアが同義表現であるか否かの判定を行う。同義表現の可能性がある複合名詞のペアは、上記のように、該複合名詞のペアにおける複数の単語ペアのなかに未確定単語ペアが含まれる。未確定単語ペアについては、ステップS74の単語についての同義判定処理により、同義単語ペアであるか否かの判定を済ませている。未確定単語ペアが同義単語ペアである場合、単語ペアリスト404における未確定単語ペアの属性は、未確定から同義に変更されている。一方、未確定単語ペアが同義単語ペアではない場合、該未確定単語ペアは単語ペアリスト404から削除されている。また、複合名詞のペアにおける同義単語ペアは、単語ペアリスト404に登録されている。したがって、複合名詞のペアにおける複数の単語ペアが全て単語ペアリスト404に同義単語ペアとして登録されている場合、複合名詞同義判定部145は、当該複合名詞のペアを同義表現であると判定し、同義表現リスト196に登録する。   After the process of step S74, in the synonym expression extraction device 1, the compound noun synonym determination unit 145 determines whether or not a pair of compound nouns that may be synonymous expressions are synonymous expressions. As described above, a compound noun pair having the possibility of synonymous expression includes an undefined word pair among a plurality of word pairs in the compound noun pair. For the unconfirmed word pair, whether or not it is a synonym word pair has been determined by the synonym determination process for the word in step S74. When the unconfirmed word pair is a synonymous word pair, the attribute of the unconfirmed word pair in the word pair list 404 is changed from unconfirmed to synonymous. On the other hand, when the unconfirmed word pair is not a synonymous word pair, the unconfirmed word pair is deleted from the word pair list 404. The synonym word pairs in the compound noun pairs are registered in the word pair list 404. Therefore, when all of a plurality of word pairs in a compound noun pair are registered as synonymous word pairs in the word pair list 404, the compound noun synonym determination unit 145 determines that the compound noun pair is a synonym expression, Register in the synonym expression list 196.

このように、本実施形態に係る同義表現抽出装置1では、文書集合191から抽出した複合名詞のペアにおいて同義であるか否かが未確定の単語ペアと、同義単語ペアとで、学習に用いる事例(データ)を追加しながら意味類似度の学習を複数回行う。そして、同義単語ペアにおける学習回数と意味類似度との関係と、未確定単語ペアにおける学習回数と意味類似度との関係とについての相関係数の平均値が閾値以上である場合には、未確定単語ペアを同義単語ペアと判定する。そして、本実施形態では、複合名詞のペアにおける複数の単語ペアが全て同義単語ペアであるか否かにより、該複合名詞のペアが同義表現であるか否かを判定する。よって、本実施形態によれば、文書集合191における出現頻度が少ない複合名詞のペアに対する同義表現であるか否かの判定精度を向上させることが可能となる。   As described above, in the synonym expression extraction device 1 according to the present embodiment, the pair of compound nouns extracted from the document set 191 is used for learning with the word pair whose synonym is uncertain and the synonym word pair. Learning semantic similarity multiple times while adding cases (data). If the average value of the correlation coefficients for the relationship between the number of learnings in the synonymous word pair and the semantic similarity and the relationship between the number of learnings in the unconfirmed word pair and the semantic similarity is equal to or greater than a threshold value, The confirmed word pair is determined as a synonymous word pair. In the present embodiment, whether or not a pair of compound nouns is a synonymous expression is determined based on whether or not a plurality of word pairs in the compound noun pair are all synonymous word pairs. Therefore, according to the present embodiment, it is possible to improve the accuracy of determination as to whether or not a synonym expression is made for a pair of compound nouns with a low appearance frequency in the document set 191.

なお、本実施形態における各単語ペアの意味類似度の学習処理の回数Mは、適宜設定可能であるが、20回以上(M≧20)とすることが好ましい。   Note that the number M of learning processes of the semantic similarity of each word pair in the present embodiment can be set as appropriate, but is preferably 20 times or more (M ≧ 20).

図13は、学習処理の回数の決定方法を説明するグラフ図である。
図13のグラフ図において、横軸は意味類似度の学習処理の実行回数である。また、図13のグラフ図において、左の縦軸は意味類似度の相関係数についての有意性検定値であり、右の縦軸は学習処理に要する処理時間である。
FIG. 13 is a graph illustrating a method for determining the number of learning processes.
In the graph of FIG. 13, the horizontal axis represents the number of executions of the semantic similarity learning process. In the graph of FIG. 13, the left vertical axis is the significance test value for the correlation coefficient of semantic similarity, and the right vertical axis is the processing time required for the learning process.

各単語ペアに対する学習処理の実行回数と、有意性検定値との関係は、図13に太い実線で示したように、実行回数が増えるとともに意味類似度の相関係数についての有意性検定値が減少する。有意性検定値は、相関係数が統計的に有意性であるか否かを検定した結果であり、既知の検定方法により算出される。この有意性検定値は、意味類似度の相関係数の信頼度と関係があり、有意性検定値が小さいほど、意味類似度の相関係数の信頼度が高くなる。すなわち、図13に示したように、各単語ペアに対する学習処理の実行回数を多くすると、2個の単語ペアの意味類似度の相関係数の信頼度が高くなる。しかしながら、各単語ペアに対する学習処理の実行回数を多くすると、図13に太い点線で示したように、学習処理に要する処理時間が増大する。よって、各単語ペアに対する学習処理の実行回数Mは、所望する意味類似度の相関係数の信頼度(単語ペアが同義表現であるか否かの判定精度)や、同義表現抽出装置1の処理能力、所望するレスポンス等に基づいて、適宜設定すればよい。例えば、有意性検定値(99%以上の信頼度)で0.5以下となる信頼度を所望する場合には、各単語ペアに対する学習処理の実行回数Mを30回程度にすればよい。また、例えば、有意性検定値(99%以上の信頼度)で0.6以下となる信頼度を所望する場合には、各単語ペアに対する学習処理の実行回数Mを20回程度に減らすこと可能となる。   The relationship between the number of executions of the learning process for each word pair and the significance test value is as shown in FIG. 13 by a thick solid line, where the significance test value for the correlation coefficient of the semantic similarity increases as the number of executions increases. Decrease. The significance test value is a result of testing whether or not the correlation coefficient is statistically significant, and is calculated by a known test method. This significance test value is related to the reliability of the correlation coefficient of semantic similarity, and the smaller the significance test value, the higher the reliability of the correlation coefficient of semantic similarity. That is, as shown in FIG. 13, when the number of executions of learning processing for each word pair is increased, the reliability of the correlation coefficient of the semantic similarity of two word pairs is increased. However, if the number of executions of the learning process for each word pair is increased, the processing time required for the learning process increases as shown by a thick dotted line in FIG. Therefore, the number of executions M of the learning process for each word pair is the reliability of the correlation coefficient of the desired semantic similarity (determination accuracy of whether the word pair is a synonym expression) or the process of the synonym expression extraction device 1. What is necessary is just to set suitably based on capability, a desired response, etc. For example, when a reliability value that is 0.5 or less in the significance test value (99% or more reliability) is desired, the number of executions M of the learning process for each word pair may be set to about 30 times. Also, for example, when a reliability level of 0.6 or less is desired for the significance test value (99% or higher reliability), the number of executions M of learning processing for each word pair can be reduced to about 20 times. It becomes.

なお、図4〜図8のフローチャートは、本実施形態に係る同義表現の抽出処理の一例に過ぎない。本実施形態に係る同義表現の抽出処理は、図4〜図8のフローチャートに限らず、本実施形態の要旨を逸脱しない範囲において処理内容を適宜変更可能である。例えば、意味類似度学習処理(ステップS73)では、図11のような類似度推移テーブル195を生成する代わりに、N個の単語ペアのそれぞれにおけるM回の学習処理の結果を順次格納するN個の配列を生成してもよい。また、例えば、単語ペアについての同義判定処理(ステップS74)では、図7Aにおける第2のループ処理を開始する前に現在処理対象である未確定単語ペアの意味類似度を取得してもよい。この場合、図7AにおけるステップS7404では、現在処理対象である同義単語ペアの意味類似度のみを取得すればよい。このため、第2のループ処理において、都度、未確定単語ペアの意味類似度を取得することによる処理時間の増加を抑えることが可能となる。   Note that the flowcharts of FIGS. 4 to 8 are merely examples of synonym expression extraction processing according to the present embodiment. The synonymous expression extraction processing according to the present embodiment is not limited to the flowcharts of FIGS. 4 to 8, and the processing content can be appropriately changed without departing from the gist of the present embodiment. For example, in the semantic similarity learning process (step S73), instead of generating the similarity transition table 195 as shown in FIG. 11, N pieces of learning results are sequentially stored in each of N word pairs. May be generated. Further, for example, in the synonym determination process (step S74) for the word pair, the semantic similarity of the undefined word pair that is the current processing target may be acquired before the second loop process in FIG. 7A is started. In this case, in step S7404 in FIG. 7A, only the semantic similarity of the synonym word pair that is the current processing target is acquired. For this reason, in the second loop processing, it is possible to suppress an increase in processing time due to acquiring the semantic similarity of the undefined word pair each time.

また、本実施形態に係る同義表現抽出装置1は、図1に示した構成に限らず、例えば、外部装置から文書集合191を取得する取得部を備えた装置であってもよい。また、同義表現抽出装置1は、複合名詞同義特定処理(ステップS7)の処理結果や、同義表現リスト196等を表示する表示部、或いは外部装置に出力する出力部を備えた装置であってもよい。   Further, the synonym expression extraction device 1 according to the present embodiment is not limited to the configuration illustrated in FIG. 1, and may be a device including an acquisition unit that acquires the document set 191 from an external device, for example. Further, the synonym expression extraction device 1 may be a device including a display unit that displays the processing result of the compound noun synonym identification process (step S7), the synonym expression list 196, or the like, or an output unit that outputs to an external device. Good.

[第2の実施形態]
図14は、第2の実施形態に係る同義表現抽出装置の機能的構成を示す図である。
[Second Embodiment]
FIG. 14 is a diagram illustrating a functional configuration of the synonym expression extracting device according to the second embodiment.

図14に示すように、本実施形態に係る同義表現抽出装置1は、文字列抽出部110と、形態素解析部120と、複合名詞抽出部130と、同義複合名詞特定部140と、を含む。また、同義表現抽出装置1は、文書集合191と、解析用辞書192と、解析結果コーパス193と、同義単語辞書194と、類似度推移テーブル195と、同義表現リスト196とを記憶する記憶部(図示せず)を備える。   As shown in FIG. 14, the synonym expression extraction device 1 according to the present embodiment includes a character string extraction unit 110, a morpheme analysis unit 120, a compound noun extraction unit 130, and a synonym compound noun identification unit 140. The synonym expression extracting device 1 also stores a document set 191, an analysis dictionary 192, an analysis result corpus 193, a synonym word dictionary 194, a similarity transition table 195, and a synonym expression list 196 ( (Not shown).

本実施形態の同義表現抽出装置1における文字列抽出部110、形態素解析部120、複合名詞抽出部130、及び同義複合名詞特定部140は、それぞれ、第1の実施形態で説明した機能を持つ。なお、本実施形態の同義表現抽出装置1における同義複合名詞特定部140は、第1の実施形態で説明した機能に加え、未確定単語ペアが同義ペアであるか否かの判定に用いる判定閾値を設定する機能を持つ。   The character string extraction unit 110, the morpheme analysis unit 120, the compound noun extraction unit 130, and the synonym compound noun identification unit 140 in the synonym expression extraction device 1 of the present embodiment each have the functions described in the first embodiment. Note that the synonym compound noun specifying unit 140 in the synonym expression extracting device 1 of the present embodiment uses a determination threshold used for determining whether or not an undefined word pair is a synonymous pair in addition to the functions described in the first embodiment. With the ability to set

本実施形態の同義表現抽出装置1における同義複合名詞特定部140は、単語ペア設定部141と、類似度推移テーブル作成部142と、意味類似度学習部143と、単語同義判定部144と、複合名詞同義判定部145と、を含む。本実施形態に係る同義複合名詞特定部140における単語ペア設定部141、類似度推移テーブル作成部142、意味類似度学習部143、単語同義判定部144、及び複合名詞同義判定部145は、それぞれ、第1の実施形態で説明した機能を持つ。   The synonym compound noun identifying unit 140 in the synonym expression extracting device 1 of the present embodiment includes a word pair setting unit 141, a similarity transition table creation unit 142, a semantic similarity learning unit 143, a word synonym determination unit 144, and a composite A noun synonym determination unit 145. The word pair setting unit 141, the similarity transition table creating unit 142, the semantic similarity learning unit 143, the word synonym determining unit 144, and the compound noun synonym determining unit 145 in the synonymous compound noun specifying unit 140 according to the present embodiment, respectively, The function described in the first embodiment is provided.

また、本実施形態に係る同義複合名詞特定部140は、判定閾値設定部146を更に含む。判定閾値設定部146は、未確定単語ペアが同義ペアであるか否かの判定に用いる判定閾値を設定する。判定閾値設定部146は、単語ペア設定部141で文書集合から収集した複数の同義単語ペアのそれぞれにおける意味類似度の学習結果に基づいて、判定閾値を設定する。すなわち、判定閾値設定部146は、第1の実施形態で説明した意味類似度学習処理(ステップS73)で作成した類似度推移テーブル195における同義単語ペアの学習結果に基づいて、判定閾値を設定する。   In addition, the synonymous compound noun specifying unit 140 according to the present embodiment further includes a determination threshold setting unit 146. The determination threshold setting unit 146 sets a determination threshold used for determining whether or not the unconfirmed word pair is a synonymous pair. The determination threshold setting unit 146 sets a determination threshold based on the learning result of the semantic similarity in each of a plurality of synonymous word pairs collected from the document set by the word pair setting unit 141. That is, the determination threshold setting unit 146 sets a determination threshold based on the learning result of the synonym word pair in the similarity transition table 195 created in the semantic similarity learning process (step S73) described in the first embodiment. .

本実施形態に係る同義表現抽出装置1は、例えば、図4に示したステップS1〜S7の処理により、文書集合191から複合名詞の同義表現を抽出する。本実施形態に係る同義表現抽出装置1が行うステップS1〜S7の処理のうちのステップS1〜S6の処理は、それぞれ、第1の実施形態で説明したような処理内容でよい。これに対し、本実施形態に係る同義表現抽出装置1は、ステップS7の同義複合名詞特定処理に含まれる意味類似度学習処理において、未確定単語ペアが同義ペアであるか否かの判定に用いる判定閾値を設定する。このため、本実施形態に係る同義表現抽出装置1は、ステップS7の同義複合名詞特定処理として、例えば、図15に示す処理を行う。   The synonym expression extraction apparatus 1 according to the present embodiment extracts a synonym expression of compound nouns from the document set 191 by, for example, the processes of steps S1 to S7 illustrated in FIG. Of the processes in steps S1 to S7 performed by the synonymous expression extraction apparatus 1 according to the present embodiment, the processes in steps S1 to S6 may be the same as described in the first embodiment. On the other hand, the synonym expression extraction device 1 according to the present embodiment is used to determine whether or not the undefined word pair is a synonym pair in the semantic similarity learning process included in the synonym compound noun identification process in step S7. Set the judgment threshold. For this reason, the synonym expression extraction apparatus 1 which concerns on this embodiment performs the process shown, for example in FIG. 15 as a synonymous compound noun specific process of step S7.

図15は、第2の実施形態に係る同義複合名詞特定処理の内容を説明するフローチャートである。   FIG. 15 is a flowchart for explaining the contents of the synonymous compound noun specifying process according to the second embodiment.

本実施形態においても、同義複合名詞特定処理は、同義複合名詞特定部140が行う。同義複合名詞特定部140は、図15に示すように、まず、複合名詞のペアにおける同義単語ペアと未確定単語ペアとを同定する処理(ステップS71)と、文書集合から同義単語辞書に登録されている同義単語ペアを収集する処理(ステップS72)とを行う。ステップS71及びS72の処理は、単語ペア設定部141が行う。単語ペア設定部141は、第1の実施形態で説明した処理を行い、例えば、図10の(b)に示したような単語ペアリスト404を生成する。   Also in the present embodiment, the synonymous compound noun identifying process is performed by the synonymous compound noun identifying unit 140. As shown in FIG. 15, first, the synonym compound noun specifying unit 140 is registered in the synonym word dictionary from the document set (step S71) for identifying the synonym word pair and the unconfirmed word pair in the compound noun pair. The process (step S72) which collects the same synonym word pair is performed. The word pair setting unit 141 performs the processes in steps S71 and S72. The word pair setting unit 141 performs the processing described in the first embodiment, and generates, for example, a word pair list 404 as illustrated in FIG.

次に、同義複合名詞特定部140は、ステップS71及びS72の処理により得られた未確定単語ペア及び同義単語ペアを処理対象の単語ペアとして意味類似度学習処理(ステップS73)を行う。ステップS73の意味類似度学習処理は、同義複合名詞特定部140の類似度推移テーブル作成部142と、意味類似度学習部143とが行う。例えば、類似度推移テーブル作成部142、及び意味類似度学習部143は、第1の実施形態で説明した処理(図6を参照)を行い、複数の単語ペアのそれぞれにおける意味類似度の学習結果の推移を示す類似度推移テーブル195(図11を参照)を作成する。すなわち、本実施形態においても、意味類似度学習部143は、1組の単語ペアに対する意味類似度を学習する処理を複数回実行し、1回実行する毎に、学習に使用する事例(形態素解析の結果)を追加する。例えば、意味類似度学習部143は、1組の単語ペアに対するm回目(m=1,2,・・・,M)の処理における事例数HtをHt=m×H(例えば、H=1000)とする。   Next, the synonymous compound noun specifying unit 140 performs a semantic similarity learning process (step S73) with the unconfirmed word pair and the synonym word pair obtained by the processes of steps S71 and S72 as the word pairs to be processed. The semantic similarity learning process in step S73 is performed by the similarity transition table creating unit 142 and the semantic similarity learning unit 143 of the synonymous compound noun specifying unit 140. For example, the similarity transition table creation unit 142 and the semantic similarity learning unit 143 perform the processing described in the first embodiment (see FIG. 6), and learn the semantic similarity in each of a plurality of word pairs. A similarity transition table 195 (see FIG. 11) showing the transition of That is, also in this embodiment, the semantic similarity learning unit 143 executes the process of learning the semantic similarity for one set of word pairs a plurality of times, and each time it is executed, a case (morpheme analysis) used for learning Result). For example, the semantic similarity learning unit 143 sets the number of cases Ht in the m-th (m = 1, 2,..., M) processing for one set of word pairs as Ht = m × H (for example, H = 1000). And

ステップS73の意味類似度学習処理を終えると、同義複合名詞特定部140は、次に、単語ペアについての同義判定に用いる判定閾値の設定処理(ステップS76)を行う。ステップS76の判定閾値の設定処理は、判定閾値設定部146が行う。判定閾値設定部146は、ステップS73で生成した類似度推移テーブル195における複数の同義単語ペアについての意味類似度の学習結果に基づいて、判定閾値を設定する。具体的には、判定閾値設定部146は、類似度推移テーブル195における同義単語ペア同士の意味類似度の学習結果についての相関係数を算出し、当該相関係数の平均値を判定閾値に設定する。   When the semantic similarity learning process in step S73 is completed, the synonymous compound noun specifying unit 140 next performs a determination threshold setting process (step S76) used for synonym determination for the word pair. The determination threshold value setting unit 146 performs the determination threshold value setting process in step S76. The determination threshold value setting unit 146 sets a determination threshold value based on the semantic similarity learning results for the plurality of synonymous word pairs in the similarity transition table 195 generated in step S73. Specifically, the determination threshold setting unit 146 calculates a correlation coefficient for the learning result of the semantic similarity between synonymous word pairs in the similarity transition table 195, and sets the average value of the correlation coefficient as the determination threshold. To do.

ステップS76の処理を終えると、同義複合名詞特定部140は、次に、未確定単語ペアについての同義判定処理(ステップS74)を行う。ステップS74の処理は、同義複合名詞特定部140の単語同義判定部144が行う。単語同義判定部144は、類似度推移テーブル195を参照して同義単語ペアの意味類似度の推移と、未確定単語ペアの意味類似度の推移との相関係数を算出し、当該相関係数が閾値以上である場合に未確定単語ペアの単語同士が同義であると判定する。単語同義判定部144は、単語同士が同義であると判定した未確定単語ペアを、同義単語ペアに変更する。なお、本実施形態に係るステップS74の処理において、単語同義判定部144は、ステップS76で設定した判定閾値に基づいて、未確定単語ペアが同義単語ペアであるか否かを判定する。すなわち、単語同義判定部144は、ステップS76で設定した判定閾値を、図7BのステップS7408の判定に用いる。   When the process of step S76 is completed, the synonymous compound noun specifying unit 140 then performs a synonym determination process (step S74) for the unconfirmed word pair. The process of step S74 is performed by the word synonym determination unit 144 of the synonym compound noun specification unit 140. The word synonym determination unit 144 refers to the similarity transition table 195 to calculate a correlation coefficient between the transition of the semantic similarity of the synonym word pair and the transition of the semantic similarity of the undefined word pair, and the correlation coefficient Is equal to or greater than the threshold, it is determined that the words of the undefined word pair are synonymous. The word synonym determination unit 144 changes an unconfirmed word pair that has been determined to be synonymous to a synonym word pair. In the process of step S74 according to the present embodiment, the word synonym determination unit 144 determines whether the unconfirmed word pair is a synonym word pair based on the determination threshold set in step S76. That is, the word synonym determination unit 144 uses the determination threshold set in step S76 for the determination in step S7408 in FIG. 7B.

次に、同義複合名詞特定部140は、複合名詞のペアについての同義判定処理(ステップS75)。ステップS75の処理は、同義複合名詞特定部140の複合名詞同義判定部145が行う。複合名詞同義判定部145は、同義表現の可能性がある複合名詞のペアにおける複数の単語ペアのそれぞれが同義単語ペアであるか否かを判定する。複合名詞のペアにおける全ての単語ペアが同義単語ペアである場合、複合名詞同義判定部145は、該複合名詞のペアを同義表現の複合名詞のペアと判定し、該複合名詞のペアを同義表現リスト196に登録する。   Next, the synonymous compound noun specifying unit 140 performs synonym determination processing for a pair of compound nouns (step S75). The process of step S75 is performed by the compound noun synonym determination unit 145 of the synonym compound noun identification unit 140. The compound noun synonym determination unit 145 determines whether or not each of a plurality of word pairs in a compound noun pair having the possibility of synonymous expression is a synonym word pair. When all the word pairs in the compound noun pair are synonymous word pairs, the compound noun synonym determination unit 145 determines that the compound noun pair is a compound noun pair of synonymous expressions, and the compound noun pair is synonymously expressed. Register in the list 196.

ステップS75の処理を終えると、同義複合名詞特定部140は、同義複合名詞特定処理(ステップS7)を終了する。   When the process of step S75 is completed, the synonymous compound noun specifying unit 140 ends the synonymous compound noun specifying process (step S7).

このように、本実施形態に係る同義複合名詞特定処理(ステップS7)では、複数の単語ペアにおける意味類似度の学習結果に基づいて、単語ペアが同義であるか否かの判定に用いる判定閾値を設定する。判定閾値の設定処理(ステップS76)は、上記のように、判定閾値設定部146が行う。判定閾値設定部146は、判定閾値の設定処理として、例えば、図16に示した処理を行う。   Thus, in the synonymous compound noun identification process (step S7) according to the present embodiment, a determination threshold value used for determining whether or not a word pair is synonymous based on a learning result of semantic similarity in a plurality of word pairs. Set. The determination threshold value setting process (step S76) is performed by the determination threshold value setting unit 146 as described above. The determination threshold setting unit 146 performs, for example, the process illustrated in FIG. 16 as the determination threshold setting process.

図16は、判定閾値の設定処理の内容を説明するフローチャートである。
判定閾値設定部146は、類似度推移テーブル195から、同義単語ペアの意味類似度の学習結果を抽出する(ステップS7601)。ステップS7601において、判定閾値設定部146は、例えば、図10の(b)の単語ペアリスト404から属性が同義である単語ペアの配列IDを取得し、該配列IDの意味類似度の学習結果を類似度推移テーブル195から抽出する。
FIG. 16 is a flowchart for explaining the contents of the determination threshold value setting process.
The determination threshold setting unit 146 extracts the learning result of the semantic similarity of the synonym word pair from the similarity transition table 195 (step S7601). In step S7601, the determination threshold value setting unit 146 acquires, for example, the array ID of the word pair having the same attribute from the word pair list 404 in FIG. 10B, and obtains the learning result of the semantic similarity of the array ID. Extracted from the similarity transition table 195.

次に、判定閾値設定部146は、同義単語ペアの意味類似度同士の相関係数を算出するループ処理(ステップS7602〜S7604)を行う。当該ループ処理における1回の処理は、2組の同義単語ペアのそれぞれにおける意味類似度同士の相関係数を算出する処理(ステップS7603)となっている。ループ処理におけるループ端(ステップS7602,S7604)では、判定閾値設定部146は、相関係数を算出する2組の同義単語ペアを選択する処理と、全ての同義単語ペアの組み合わせで相関係数を算出したか否かの判定とを行う。処理対象となっている複数の同義単語ペアのなかから2組の同義単語ペアを抽出する場合の組み合わせの全てで相関係数を算出すると、判定閾値設定部146は、ループ処理を終了する。   Next, the determination threshold value setting unit 146 performs a loop process (steps S7602 to S7604) for calculating a correlation coefficient between the semantic similarity of the synonym word pairs. One process in the loop process is a process of calculating a correlation coefficient between semantic similarities in each of two pairs of synonymous words (step S7603). At the loop end (steps S7602 and S7604) in the loop processing, the determination threshold value setting unit 146 selects a correlation coefficient for a combination of two synonym word pairs for calculating a correlation coefficient and all synonym word pairs. It is determined whether or not it has been calculated. When the correlation coefficient is calculated for all combinations in the case of extracting two sets of synonym word pairs from among a plurality of synonym word pairs to be processed, the determination threshold value setting unit 146 ends the loop process.

2組の同義単語ペアにおける意味類似度の相関係数を算出するループ処理(ステップS7602〜S7604)を終えると、判定閾値設定部146は、次に、算出した意味類似度同士の相関係数の平均値を算出する(ステップS7605)。ステップS7605において、判定閾値設定部146は、ループ処理(ステップS7602〜S7604)で算出した複数の相関係数から、相関係数の平均値を算出する。   When the loop processing (Steps S7602 to S7604) for calculating the correlation coefficient of the semantic similarity in the two pairs of synonymous words is finished, the determination threshold setting unit 146 next calculates the correlation coefficient between the calculated semantic similarities. An average value is calculated (step S7605). In step S7605, the determination threshold setting unit 146 calculates an average value of correlation coefficients from the plurality of correlation coefficients calculated in the loop process (steps S7602 to S7604).

その後、判定閾値設定部146は、算出した相関係数の平均値を単語ペアについての同義表現の判定閾値に設定し(ステップS7606)、判定閾値の設定処理を終了する。   Thereafter, the determination threshold value setting unit 146 sets the calculated average value of the correlation coefficients as the determination threshold value of the synonymous expression for the word pair (step S7606), and ends the determination threshold value setting process.

判定閾値の設定処理(ステップS76)を終了した後、同義複合名詞特定部140は、上記のように、単語ペアについての同義判定処理(ステップS74)を行い、未確定単語ペアが同義単語ペアであるか否かを判定する。ステップS74の処理は、単語同義判定部144が行う。単語同義判定部144は、例えば、図7A及び図7Bに示したステップS7401〜S7411の処理を行う。このとき、単語同義判定部144は、ステップS7408の判定における判定閾値として、ステップS76で設定した判定閾値を用いる。   After completing the determination threshold value setting process (step S76), the synonymous compound noun identification unit 140 performs the synonym determination process (step S74) for the word pair as described above, and the unconfirmed word pair is a synonym word pair. It is determined whether or not there is. The word synonym determination unit 144 performs the process in step S74. The word synonym determination unit 144 performs, for example, the processes of steps S7401 to S7411 illustrated in FIGS. 7A and 7B. At this time, the word synonym determination unit 144 uses the determination threshold set in step S76 as the determination threshold in the determination in step S7408.

図17は、判定閾値の設定方法の具体例を説明する図である。
図17の(a)には、第1の実施形態で例示した単語ペアリスト404を示している。単語ペアリスト404は、上記のように、単語ペア作成部141が同義複合名詞特定処理(ステップS7)におけるステップS71及びS72の処理を行って作成する。単語ペアリスト404には、複合名詞のペアから抽出した単語ペアと、文書集合191から収集した同義単語ペアとが登録されている。また、単語ペアリスト404では、各単語ペアには同義であるか否かを示す「未確定」又は「同義」の属性と、単語ペアを識別する配列IDとが付与されている。
FIG. 17 is a diagram illustrating a specific example of a determination threshold setting method.
FIG. 17A shows the word pair list 404 exemplified in the first embodiment. As described above, the word pair list 404 is created by the word pair creation unit 141 by performing steps S71 and S72 in the synonymous compound noun identification process (step S7). In the word pair list 404, word pairs extracted from compound noun pairs and synonymous word pairs collected from the document set 191 are registered. Also, in the word pair list 404, each word pair is given an “unconfirmed” or “synonymous” attribute indicating whether or not they are synonymous, and an array ID for identifying the word pair.

本実施形態に係る判定閾値の設定処理において、判定閾値設定部146は、同義単語ペアの意味類似度の学習結果(推移)同士の相関係数に基づいて、未確定単語ペアが同義単語ペアであるか否かを判定する。このため、判定閾値設定部146は、同義単語ペアについての配列IDのなかから2個の配列IDを選ぶときの組み合わせ(配列IDのペア)の全てで、意味類似度の相関係数を算出する。例えば、図17の(a)の単語ペアリスト404では、配列IDが1である単語ペアの属性が「未確定」になっており、配列IDが2〜4、及びNである単語ペアの属性が「同義」となっている。よって、判定閾値設定部146は、図17の(b)のテーブル406に示したように、同義単語ペアに付与された配列IDのペア{2,3},{2,4}等を生成し、配列IDのペア毎に意味類似度の相関係数を算出する(ステップS7602〜S7604)。判定閾値設定部146は、上記式(1)により、意味類似度の相関係数を算出する。配列IDのペアの全てで意味類似度の相関係数を算出すると、判定閾値設定部146は、算出した複数の相関係数から、相関係数の平均値を算出する(ステップS7605)。   In the determination threshold value setting process according to the present embodiment, the determination threshold value setting unit 146 determines that the uncertain word pair is a synonym word pair based on the correlation coefficient between the learning results (transitions) of the semantic similarity of the synonym word pair. It is determined whether or not there is. Therefore, the determination threshold value setting unit 146 calculates the correlation coefficient of the semantic similarity for all combinations (sequence ID pairs) when selecting two sequence IDs from among the sequence IDs for the synonym word pairs. . For example, in the word pair list 404 of FIG. 17A, the attribute of the word pair whose array ID is 1 is “indeterminate”, and the attribute of the word pair whose array ID is 2 to 4 and N Is synonymous. Therefore, the determination threshold value setting unit 146 generates array ID pairs {2, 3}, {2, 4} and the like given to the synonym word pairs as shown in the table 406 of FIG. The correlation coefficient of the semantic similarity is calculated for each pair of array IDs (steps S7602 to S7604). The determination threshold value setting unit 146 calculates a correlation coefficient of semantic similarity according to the above equation (1). When the correlation coefficient of the semantic similarity is calculated for all the array ID pairs, the determination threshold setting unit 146 calculates an average value of the correlation coefficients from the calculated plurality of correlation coefficients (step S7605).

このように、本実施形態では、複合名詞のペアから抽出した未確定単語ペアが同義であるか否かの判定に用いる判定閾値を、文書集合191から収集した同義単語ペアについての意味類似度の相関係数に基づいて自動的に設定する。複数の同義単語ペアのそれぞれについての意味類似度の学習結果における事例数と意味類似度との関係は、図12の(a)に示したように、事例数が多くなると意味類似度が高くなるという同じ傾向が見られるものの、変化量(直線の傾き)に違いがある。このため、同義表現の複合名詞を抽出する文書を含む文書集合191における同義単語ペアの意味類似度の相関係数に基づいて判定閾値を設定することで、文書集合191の文書の内容に応じた閾値により単語ペアが同義であるか否かを判定することが可能となる。よって、本実施形態によれば、未確定単語ペアが同義であるか否かの判定精度を向上させることが可能となる。   As described above, in this embodiment, the determination threshold used for determining whether or not the uncertain word pair extracted from the compound noun pair is synonymous is the semantic similarity of the synonym word pairs collected from the document set 191. Automatically set based on correlation coefficient. As shown in FIG. 12 (a), the relationship between the number of cases and the semantic similarity in the learning result of the semantic similarity for each of a plurality of synonymous word pairs increases as the number of cases increases. However, there is a difference in the amount of change (straight line). For this reason, by setting the determination threshold based on the correlation coefficient of the semantic similarity of the synonym word pairs in the document set 191 including the document from which the compound nouns of synonymous expressions are extracted, the content of the documents in the document set 191 is set. It is possible to determine whether the word pair is synonymous with the threshold. Therefore, according to the present embodiment, it is possible to improve the determination accuracy of whether or not the unconfirmed word pair is synonymous.

なお、図15及び図16のフローチャートは、本実施形態に係る同義複合名詞特定処理の一例に過ぎない。本実施形態に係る同義複合名詞特定処理は、図15及び図16に示した処理に限らず、本実施形態の要旨を逸脱しない範囲において処理内容を適宜変更可能である。   Note that the flowcharts of FIGS. 15 and 16 are only examples of synonymous compound noun identification processing according to the present embodiment. The synonymous compound noun identification processing according to the present embodiment is not limited to the processing illustrated in FIGS. 15 and 16, and the processing content can be appropriately changed without departing from the gist of the present embodiment.

[第3の実施形態]
図18は、第3の実施形態に係る同義語辞書作成システムのシステム構成を示す図である。
[Third Embodiment]
FIG. 18 is a diagram showing a system configuration of a synonym dictionary creation system according to the third embodiment.

図18に示すように、本実施形態に係る同義語辞書作成システム5は、同義表現抽出装置1と、第1のストレージ装置6と、第2のストレージ装置7と、を含む。同義表現抽出装置1は、第1のストレージ装置6及び第2のストレージ装置7のそれぞれと伝送ケーブル等で接続されており、装置間でのデータの送受信が可能となっている。また、同義表現抽出装置1、第1のストレージ装置6、及び第2のストレージ装置7は、インターネットやLocal Area Network(LAN)等のネットワーク8に接続されており、ネットワーク8を介して端末装置9(9A〜9C)と通信可能に接続される。   As shown in FIG. 18, the synonym dictionary creation system 5 according to the present embodiment includes a synonym expression extraction device 1, a first storage device 6, and a second storage device 7. The synonymous expression extraction device 1 is connected to each of the first storage device 6 and the second storage device 7 by a transmission cable or the like, and can transmit and receive data between the devices. The synonymous expression extraction device 1, the first storage device 6, and the second storage device 7 are connected to a network 8 such as the Internet or a local area network (LAN), and the terminal device 9 is connected via the network 8. (9A to 9C) are communicably connected.

本実施形態に係る同義表現抽出装置1は、第1の実施形態又は第2の実施形態で説明したように、文書集合に含まれる複合名詞についての同義表現を抽出する。なお、本実施形態に係る同義表現抽出装置1は、第1のストレージ装置6及び第2のストレージ装置7のそれぞれとの通信(データの送受信)を行う通信部を含む。   As described in the first embodiment or the second embodiment, the synonym expression extraction apparatus 1 according to the present embodiment extracts synonym expressions for compound nouns included in a document set. The synonymous expression extraction device 1 according to the present embodiment includes a communication unit that performs communication (data transmission / reception) with each of the first storage device 6 and the second storage device 7.

第1のストレージ装置6は、複合名詞の同義表現を抽出する文書集合を記憶させる装置である。例えば、第1のストレージ装置6には、図18に示したように、第1分野の文書集合601、及び第2分野の文書集合602を含む、所定の分野の文書データのみを蓄積した複数の文書集合を記憶させる。複数の文書集合601,602には、例えば、同義語辞書作成システム5の利用者が端末装置9を利用して収集し、端末装置9から第1のストレージ装置6に転送した文書データが蓄積される。   The first storage device 6 is a device that stores a document set for extracting synonymous expressions of compound nouns. For example, as shown in FIG. 18, the first storage device 6 includes a plurality of documents in which only document data in a predetermined field including a first field document set 601 and a second field document set 602 are stored. Remember a set of documents. In the plurality of document sets 601 and 602, for example, document data collected by the user of the synonym dictionary creation system 5 using the terminal device 9 and transferred from the terminal device 9 to the first storage device 6 is accumulated. The

第2のストレージ装置7は、同義表現である複合名詞のペアを含む同義語辞書を記憶させる装置である。例えば、第2のストレージ装置7には、図18に示したように、第1分野の同義語辞書701、及び第2分野の同義語辞書702を含む、複数の同義語辞書を記憶させる。第1分野の同義語辞書701は、第1分野の文書集合601から抽出した複合名詞についての同義表現が登録された辞書である。第2分野の同義語辞書702は、第2分野の文書集合701から抽出した複合名詞についての同義表現が登録された辞書である。複数の同義語辞書701,702には、例えば、同義表現抽出装置1により文書集合601,602から抽出した、同義表現である複合名詞のペアが登録される。同義語辞書作成システム5の利用者は、端末装置9を利用して第2のストレージ装置7の同義語辞書701,702にアクセスし、文書内の複合名詞についての他の表現(同義表現)を調べることが可能である。なお、第2のストレージ装置7に記憶させる同義語辞書は、複合名詞についての同義語だけでなく、各種単語についての同義語を含むものであってもよい。   The second storage device 7 is a device that stores a synonym dictionary including a pair of compound nouns that are synonymous expressions. For example, as shown in FIG. 18, the second storage device 7 stores a plurality of synonym dictionaries including a synonym dictionary 701 in the first field and a synonym dictionary 702 in the second field. The synonym dictionary 701 in the first field is a dictionary in which synonyms for compound nouns extracted from the document set 601 in the first field are registered. The synonym dictionary 702 in the second field is a dictionary in which synonyms for compound nouns extracted from the document set 701 in the second field are registered. In the plurality of synonym dictionaries 701 and 702, for example, pairs of compound nouns that are synonymous expressions extracted from the document sets 601 and 602 by the synonym expression extracting apparatus 1 are registered. The user of the synonym dictionary creation system 5 uses the terminal device 9 to access the synonym dictionaries 701 and 702 of the second storage device 7 and uses other expressions (synonymous expressions) for compound nouns in the document. It is possible to investigate. The synonym dictionary stored in the second storage device 7 may include not only synonyms for compound nouns but also synonyms for various words.

本実施形態に係る同義語辞書作成システム5では、例えば、システムの利用者が、端末装置9を利用して各種文書データを収集し、文書集合601,602に蓄積する処理を随時行う。また、同義語辞書作成システム5における同義表現抽出装置1は、例えば、システムの利用者が端末装置9を利用して同義表現抽出装置1に送信した命令を受信したこと、或いは予め設定した日時が到来したことを契機に、図4に示したような処理を行う。この際、同義表現抽出装置1は、第1のストレージ装置6から1つの分野の文書集合を取得して同義である複合名詞のペアを抽出する処理を行う。同義である複合名詞のペアを抽出した後、同義表現抽出装置1は、抽出した複合名詞のペアを、第2のストレージ装置7の所定の同義語辞書に登録する。なお、抽出した複合名詞のペアを同義語辞書に登録する際、同義表現抽出装置1は、同義語辞書に登録された複合名詞のペアを参照し、同義語辞書に未登録のペアのみを追加登録する。   In the synonym dictionary creation system 5 according to the present embodiment, for example, a user of the system collects various document data using the terminal device 9 and accumulates them in the document sets 601 and 602 as needed. The synonym expression extraction device 1 in the synonym dictionary creation system 5 receives, for example, a command that the user of the system has transmitted to the synonym expression extraction device 1 using the terminal device 9, or a preset date and time. The process as shown in FIG. 4 is performed in response to the arrival. At this time, the synonym expression extracting device 1 acquires a document set of one field from the first storage device 6 and extracts a synonym compound noun pair. After extracting synonymous compound noun pairs, the synonym expression extracting device 1 registers the extracted compound noun pairs in a predetermined synonym dictionary of the second storage device 7. In addition, when registering the extracted compound noun pair in the synonym dictionary, the synonym expression extracting device 1 refers to the compound noun pair registered in the synonym dictionary and adds only the unregistered pair to the synonym dictionary. sign up.

このように、本実施形態に係る同義語辞書作成システム5では、特定の分野の文書のみを集めた文書集合に基づいて、その分野で使用される複合名詞の同義表現を抽出し、分野毎に用意された同義語辞書に登録する(蓄積する)。更に、本実施形態に係る同義語辞書作成システム5では、第1の実施形態及び第2の実施形態で説明したように、複合名詞のペアを複数の単語ペアに分割し、複数の単語ペアが全て同義単語ペアである複合名詞のペアを同義表現であると判定する。このため、本実施形態に係る同義語辞書作成システム5では、特定の分野のみで使用される複合名詞の同義表現を効率よく、かつ精度よく抽出して同義語辞書を作成することが可能となる。   As described above, the synonym dictionary creation system 5 according to the present embodiment extracts a synonym expression of compound nouns used in a field based on a document set in which only documents in a specific field are collected. Register (store) in the prepared synonym dictionary. Furthermore, in the synonym dictionary creation system 5 according to the present embodiment, as described in the first embodiment and the second embodiment, the compound noun pair is divided into a plurality of word pairs, and a plurality of word pairs are obtained. Compound noun pairs that are all synonymous word pairs are determined to be synonymous expressions. For this reason, in the synonym dictionary creation system 5 according to the present embodiment, it is possible to efficiently and accurately extract synonym expressions of compound nouns used only in a specific field and create a synonym dictionary. .

なお、図18のシステム構成は、本実施形態に係る同義語辞書作成システム5のシステム構成の一例に過ぎない。本実施形態に係る同義語辞書作成システム5は、図18のシステム構成に限らず、適宜変更可能である。例えば、第1のストレージ装置6には1つの特定分野の文書集合のみを記憶させ、第2のストレージ装置7に当該特定分野の同義語辞書のみを記憶させもよい。また、第2のストレージ装置7には、1個の同義語辞書を用意し、複数の文書集合のそれぞれから抽出した複合名詞の同義表現を当該1個の同義語辞書にまとめて登録してもよい。更に、同義語辞書作成システム5は、第1のストレージ装置6と、第2のストレージ装置7との代わりに、文書集合及び同義語辞書を記憶する1個のストレージ装置を備えた構成であってもよい。   Note that the system configuration in FIG. 18 is merely an example of the system configuration of the synonym dictionary creation system 5 according to the present embodiment. The synonym dictionary creation system 5 according to the present embodiment is not limited to the system configuration of FIG. 18 and can be changed as appropriate. For example, only the document set of one specific field may be stored in the first storage device 6 and only the synonym dictionary of the specific field may be stored in the second storage device 7. Also, one synonym dictionary is prepared in the second storage device 7, and synonym expressions of compound nouns extracted from each of a plurality of document sets are registered together in the one synonym dictionary. Good. Further, the synonym dictionary creation system 5 includes a single storage device that stores a document set and a synonym dictionary instead of the first storage device 6 and the second storage device 7. Also good.

[第4の実施形態]
図19は、第4の実施形態に係る文書書換システムのシステム構成を示す図である。
[Fourth Embodiment]
FIG. 19 is a diagram showing a system configuration of a document rewriting system according to the fourth embodiment.

図19に示すように、本実施形態に係る文書書換システム10は、同義表現抽出装置1と、第1のストレージ装置6と、第2のストレージ装置7と、文書データ書換装置11と、を含む。同義表現抽出装置1は、第1のストレージ装置6及び第2のストレージ装置7のそれぞれと伝送ケーブル等で接続されており、装置間でのデータの送受信が可能となっている。また、文書データ書換装置11は、第2のストレージ装置7と伝送ケーブル等で接続されており、装置間でのデータの送受信が可能となっている。更に、同義表現抽出装置1、第1のストレージ装置6、第2のストレージ装置7、及び文書データ書換装置11は、インターネットやLocal Area Network(LAN)等のネットワーク8に接続されており、ネットワーク8を介して端末装置9(9A〜9C)と通信可能に接続される。   As shown in FIG. 19, the document rewriting system 10 according to this embodiment includes a synonym expression extracting device 1, a first storage device 6, a second storage device 7, and a document data rewriting device 11. . The synonymous expression extraction device 1 is connected to each of the first storage device 6 and the second storage device 7 by a transmission cable or the like, and can transmit and receive data between the devices. The document data rewriting device 11 is connected to the second storage device 7 by a transmission cable or the like, and data can be transmitted and received between the devices. Furthermore, the synonymous expression extraction device 1, the first storage device 6, the second storage device 7, and the document data rewriting device 11 are connected to a network 8 such as the Internet or a local area network (LAN). The terminal device 9 (9A to 9C) is connected to be communicable with each other.

本実施形態に係る同義表現抽出装置1は、第1の実施形態又は第2の実施形態で説明したように、文書集合に含まれる複合名詞についての同義表現を抽出する。なお、本実施形態に係る同義表現抽出装置1は、第1のストレージ装置6及び第2のストレージ装置7のそれぞれとの通信(データの送受信)を行う通信部を含む。   As described in the first embodiment or the second embodiment, the synonym expression extraction apparatus 1 according to the present embodiment extracts synonym expressions for compound nouns included in a document set. The synonymous expression extraction device 1 according to the present embodiment includes a communication unit that performs communication (data transmission / reception) with each of the first storage device 6 and the second storage device 7.

第1のストレージ装置6は、複合名詞の同義表現を抽出する文書集合を記憶させる装置である。例えば、第1のストレージ装置6には、図18に示したように、第1分野の文書集合601、及び第2分野の文書集合602を含む、所定の分野の文書データのみを蓄積した複数の文書集合を記憶させる。複数の文書集合601,602には、例えば、文書書換システム10の利用者が端末装置9を利用して収集し、端末装置9から第1のストレージ装置6に転送した文書データが蓄積される。   The first storage device 6 is a device that stores a document set for extracting synonymous expressions of compound nouns. For example, as shown in FIG. 18, the first storage device 6 includes a plurality of documents in which only document data in a predetermined field including a first field document set 601 and a second field document set 602 are stored. Remember a set of documents. For example, document data collected by the user of the document rewriting system 10 using the terminal device 9 and transferred from the terminal device 9 to the first storage device 6 is stored in the plurality of document sets 601 and 602.

第2のストレージ装置7は、同義表現である複合名詞のペアを含む同義語辞書を記憶させる装置である。例えば、第2のストレージ装置7には、図18に示したように、第1分野の同義語辞書701、及び第2分野の同義語辞書702を含む、複数の同義語辞書を記憶させる。第1分野の同義語辞書701は、第1分野の文書集合601から抽出した複合名詞についての同義表現が登録された辞書である。第2分野の同義語辞書702は、第2分野の文書集合701から抽出した複合名詞についての同義表現が登録された辞書である。複数の同義語辞書701,702には、例えば、同義表現抽出装置1により文書集合601,602から抽出した、同義表現である複合名詞のペアが登録される。文書書換システム10の利用者は、端末装置9を利用して第2のストレージ装置7の同義語辞書701,702にアクセスし、文書内の複合名詞についての他の表現(同義表現)を調べることが可能である。なお、第2のストレージ装置7に記憶させる同義語辞書は、複合名詞についての同義語だけでなく、各種単語についての同義語を含むものであってもよい。   The second storage device 7 is a device that stores a synonym dictionary including a pair of compound nouns that are synonymous expressions. For example, as shown in FIG. 18, the second storage device 7 stores a plurality of synonym dictionaries including a synonym dictionary 701 in the first field and a synonym dictionary 702 in the second field. The synonym dictionary 701 in the first field is a dictionary in which synonyms for compound nouns extracted from the document set 601 in the first field are registered. The synonym dictionary 702 in the second field is a dictionary in which synonyms for compound nouns extracted from the document set 701 in the second field are registered. In the plurality of synonym dictionaries 701 and 702, for example, pairs of compound nouns that are synonymous expressions extracted from the document sets 601 and 602 by the synonym expression extracting apparatus 1 are registered. The user of the document rewriting system 10 accesses the synonym dictionaries 701 and 702 of the second storage device 7 by using the terminal device 9 and examines other expressions (synonymous expressions) of compound nouns in the document. Is possible. The synonym dictionary stored in the second storage device 7 may include not only synonyms for compound nouns but also synonyms for various words.

文書データ書換装置11は、第2のストレージ装置7に記憶させた同義語辞書701,702を参照し、文書データに含まれる複合名詞を同義表現に書き換える装置である。文書データ書換装置11は、例えば、文書書換システム11の利用者が端末装置9を利用して文書データ書換装置11に送信した文書データから複合名詞を抽出する。また、文書データ書換装置11は、第2のストレージ装置7の同義語辞書を検索し、文書データから抽出した複合名詞の他の表現(同義表現)を取得する。文書データから抽出した複合名詞に対する同義表現が存在する場合、文書データ書換装置11は、複合名詞を他の同義表現に書き換えるか否かを判定する。例えば、文書データ書換装置11は、文書データから抽出した複合名詞と、同義語辞書から取得した同義表現との優先度に基づいて、複合名詞を書き換えるか否かを判定する。同義表現の優先度は、例えば、文書集合における出現頻度の多さ等に基づいて設定する。同義語辞書から取得した同義表現のほうが優先度の高い表現である場合、文書データ書換装置11は、文書データ内の複合名詞を同義語辞書から取得した同義表現に書き換える。上記の各処理を終えると、文書書換データ装置11は、文書データを端末装置9に返信する。   The document data rewriting device 11 is a device that refers to the synonym dictionaries 701 and 702 stored in the second storage device 7 and rewrites compound nouns included in the document data into synonymous expressions. For example, the document data rewriting device 11 extracts compound nouns from document data transmitted to the document data rewriting device 11 by the user of the document rewriting system 11 using the terminal device 9. In addition, the document data rewriting device 11 searches the synonym dictionary of the second storage device 7 and acquires another expression (synonymous expression) of the compound noun extracted from the document data. When there is a synonym expression for the compound noun extracted from the document data, the document data rewriting device 11 determines whether or not to rewrite the compound noun with another synonym expression. For example, the document data rewriting device 11 determines whether to rewrite the compound noun based on the priority between the compound noun extracted from the document data and the synonym expression acquired from the synonym dictionary. The priority of synonymous expressions is set based on, for example, the frequency of appearance in a document set. When the synonym expression acquired from the synonym dictionary is an expression with higher priority, the document data rewriting device 11 rewrites the compound noun in the document data with the synonym expression acquired from the synonym dictionary. When the above processes are completed, the document rewriting data device 11 returns document data to the terminal device 9.

図20は、文書データ書換装置の機能的構成を示す図である。
図20に示すように、文書データ書換装置11は、文書データ取得部1110と、文字列抽出部1120と、形態素解析部1130と、複合名詞抽出部1140と、同義表現検索部1150と、同義表現書換部1160と、文書データ返信部1170と、を備える。
FIG. 20 is a diagram illustrating a functional configuration of the document data rewriting device.
As shown in FIG. 20, the document data rewriting device 11 includes a document data acquisition unit 1110, a character string extraction unit 1120, a morpheme analysis unit 1130, a compound noun extraction unit 1140, a synonym expression search unit 1150, and a synonym expression. A rewriting unit 1160 and a document data reply unit 1170 are provided.

文書データ取得部1110は、端末装置9から文書データ書換装置11に送信された文書データの入力を受け付ける。文書データ返信部1170は、文書データ書換装置11により書換処理を行った文書データを端末装置9に返信する。   The document data acquisition unit 1110 receives input of document data transmitted from the terminal device 9 to the document data rewriting device 11. The document data return unit 1170 returns the document data that has been rewritten by the document data rewriting device 11 to the terminal device 9.

文字列抽出部1120、及び形態素解析部1130は、それぞれ、第1の実施形態に係る同義表現抽出装置1における文字列抽出部110、及び形態素解析部120と同様の機能を持つ。文字列抽出部1120は、書換処理の対象である文書データから文字列を抽出する。形態素解析部1130は、解析用辞書1190を参照し、抽出した文字列に対する形態素解析を行う。   The character string extraction unit 1120 and the morpheme analysis unit 1130 have the same functions as the character string extraction unit 110 and the morpheme analysis unit 120 in the synonym expression extraction device 1 according to the first embodiment, respectively. The character string extraction unit 1120 extracts a character string from document data that is a target of rewriting processing. The morpheme analysis unit 1130 refers to the analysis dictionary 1190 and performs morpheme analysis on the extracted character string.

複合名詞抽出部1140は、形態素解析の結果に基づいて、文書データの文字列に含まれる複合名詞を抽出する。   The compound noun extraction unit 1140 extracts a compound noun included in the character string of the document data based on the result of the morphological analysis.

同義表現検索部1150は、第2のストレージ装置7の同義語辞書を検索し、文字列から抽出した複合名詞についての同義表現を取得する。   The synonym expression search unit 1150 searches the synonym dictionary of the second storage device 7 and acquires a synonym expression for the compound noun extracted from the character string.

同義表現書換部1160は、文書データの文字列に含まれる複合名詞を、同義語辞書から取得した同義表現に書き換える。なお、同義表現書換部1160は、文書データの文字列に含まれる複合名詞よりも、同義語辞書から取得した同義表現のほうが優先度の高い表現である場合に、複合名詞を同義表現に書き換える。   The synonym expression rewriting unit 1160 rewrites the compound noun included in the character string of the document data with the synonym expression acquired from the synonym dictionary. The synonym expression rewriting unit 1160 rewrites the compound noun to the synonym expression when the synonym expression acquired from the synonym dictionary has a higher priority than the compound noun included in the character string of the document data.

本実施形態に係る文書書換システム10における文書データ書換装置11は、端末装置9等から文書データにおける複合名詞の書き換えを指示する命令が入力されると、該命令で指定された文書データを取得して図21に示した処理を行う。   When a command for instructing rewriting of compound nouns in document data is input from the terminal device 9 or the like, the document data rewriting device 11 in the document rewriting system 10 according to the present embodiment acquires the document data specified by the command. Then, the process shown in FIG.

図21は、文書データ書換装置が行う処理を説明するフローチャートである。
書換処理の対象である文書データを取得した文書データ書換装置11は、まず、文書データから文字列を抽出する(ステップS11)。ステップS11の処理は、文字列抽出部1120が行う。
FIG. 21 is a flowchart for explaining processing performed by the document data rewriting device.
The document data rewriting device 11 that has acquired the document data to be rewritten first extracts a character string from the document data (step S11). The character string extraction unit 1120 performs the process in step S11.

次に、文書データ書換装置11は、抽出した文字列に対する形態素解析を行う(ステップS12)。ステップS12の処理は、形態素解析部1130が行う。形態素解析部1130は、既知の解析方法に従い、解析用辞書1190を参照して文字列を形態素に分割する。   Next, the document data rewriting device 11 performs morphological analysis on the extracted character string (step S12). The processing in step S12 is performed by the morphological analysis unit 1130. The morpheme analyzer 1130 divides the character string into morphemes with reference to the analysis dictionary 1190 according to a known analysis method.

次に、文書データ書換装置11は、形態素解析の結果に基づいて、文字列から複合名詞を抽出する(ステップS13)。ステップS13の処理は、複合名詞抽出部1140が行う。複合名詞抽出部1140は、複合名詞の抽出条件に従い、文字列から複合名詞を抽出する。例えば、複合名詞の抽出条件は、名詞である単語(形態素)が複数個連続した単語列を複合名詞として抽出する、という条件を含む。   Next, the document data rewriting device 11 extracts a compound noun from the character string based on the result of the morphological analysis (step S13). The compound noun extraction unit 1140 performs the process in step S13. The compound noun extraction unit 1140 extracts a compound noun from the character string in accordance with the compound noun extraction condition. For example, the compound noun extraction condition includes a condition that a word string in which a plurality of words (morphemes) that are nouns are continuous is extracted as a compound noun.

次に、文書データ書換装置11は、同義語辞書を検索して文書データから抽出した複合名詞を同義表現に書き換えるループ処理(ステップS14〜S19)を行う。当該ループ処理は、同義表現検索部1150と、同義表現書換部1160とが行う。ループ処理における1回の処理(ステップS15〜S18)は、文書データから抽出した1種類の複合名詞についての同義表現を検索して書き換える処理となっている。ループ処理におけるループ端(ステップS14,S19)では、同義表現検索部1150が、文書データから抽出した複合名詞のうちの1種類を選択する処理と、文書データから抽出した全ての複合名詞についての同義表現を検索したか否かの判定を行う。抽出した1種類又は複数種類の複合名詞の全てで同義表現を検索し必要に応じて書き換えを行うと、同義表現検索部1150は、ループ処理を終了する。   Next, the document data rewriting device 11 performs a loop process (steps S14 to S19) that searches the synonym dictionary and rewrites the compound noun extracted from the document data into a synonym expression. The loop processing is performed by the synonym expression search unit 1150 and the synonym expression rewrite unit 1160. One process (steps S15 to S18) in the loop process is a process of searching for and rewriting synonymous expressions for one type of compound noun extracted from the document data. At the loop end (steps S14 and S19) in the loop processing, the synonym expression search unit 1150 selects one type of compound nouns extracted from the document data and synonyms for all compound nouns extracted from the document data. It is determined whether the expression has been searched. When the synonym expression is searched for in all of the extracted one or more types of compound nouns and rewritten as necessary, the synonym expression search unit 1150 ends the loop processing.

ループ処理(ステップS14〜S19)における1回の処理では、まず、同義表現検索部1150が、処理対象に選択された複合名詞をキーワードとして、第2のストレージ装置7の同義語辞書を検索する(ステップS15)。   In one processing in the loop processing (steps S14 to S19), first, the synonym expression search unit 1150 searches the synonym dictionary of the second storage device 7 using the compound noun selected as the processing target as a keyword ( Step S15).

次に、同義表現検索部1150は、処理対象の複合名詞についての他の同義表現が同義語辞書に登録されているか否かを判定する(ステップS16)。他の同義表現が同義語辞書に登録されていない場合(ステップS16;NO)、同義表現検索部1150は、ループ処理のループ端(ステップS19)において、ループ処理を終了するか否かを判定する。   Next, the synonym expression search unit 1150 determines whether another synonym expression for the compound noun to be processed is registered in the synonym dictionary (step S16). When another synonym expression is not registered in the synonym dictionary (step S16; NO), the synonym expression search unit 1150 determines whether or not to end the loop process at the loop end (step S19) of the loop process. .

処理対象の複合名詞についての他の同義表現が同義語辞書に登録されている場合(ステップS16;YES)、同義表現検索部1150は、次に、文書データから抽出した複合名詞よりも他の同義表現のほうが優先度が高いか否かを判定する(ステップS17)。文書データから抽出した複合名詞のほうが優先度の高い表現である場合(ステップS17;NO)、同義表現検索部1150は、ループ処理のループ端(ステップS19)において、ループ処理を終了するか否かを判定する。   When another synonym expression for the compound noun to be processed is registered in the synonym dictionary (step S16; YES), the synonym expression search unit 1150 then synonyms other than the compound noun extracted from the document data. It is determined whether or not the expression has a higher priority (step S17). If the compound noun extracted from the document data has a higher priority expression (step S17; NO), the synonym expression search unit 1150 determines whether or not to end the loop process at the loop end of the loop process (step S19). Determine.

一方、他の同義表現のほうが優先度の高い表現である場合(ステップS17;YES)、同義表現検索部1150は、次に、同義表現書換部1160に、文書データ中の複合名詞を他の同義表現に書き換えさせる(ステップS18)。その後、同義表現検索部1150は、ループ処理のループ端(ステップS19)において、ループ処理を終了するか否かを判定する。   On the other hand, if the other synonym expression is a higher priority expression (step S17; YES), the synonym expression search unit 1150 then causes the synonym expression rewriting unit 1160 to transfer the compound noun in the document data to another synonym. The expression is rewritten (step S18). Thereafter, the synonym expression search unit 1150 determines whether or not to end the loop processing at the loop end of the loop processing (step S19).

ループ処理のループ端(ステップS19)において、ループ処理を終了すると判定した場合、同義表現検索部1150は、ループ処理を終了する。ループ処理を終了した後、同義表現検索部1150は、例えば、同義表現書換部1160に、複合名詞を他の同義表現に書き換えた文書データを端末装置9に返送させる(ステップS20)。   When it is determined at the loop end of the loop processing (step S19) that the loop processing is to be ended, the synonym expression search unit 1150 ends the loop processing. After completing the loop processing, for example, the synonym expression search unit 1150 causes the synonym expression rewrite unit 1160 to return the document data in which the compound noun is rewritten to another synonym expression to the terminal device 9 (step S20).

文書データを端末装置9に返送すると、文書データ書換装置11は、1個の文書データに対する書換処理を終了する。   When the document data is returned to the terminal device 9, the document data rewriting device 11 finishes the rewriting process for one piece of document data.

このように、本実施形態に係る文書書換システム10では、分野毎の文書集合に基づいて第1の実施形態又は第2の実施形態に説明した方法で作成した同義語辞書を参照し、文書データの複合名詞を他の同義表現に書き換える。また、文書書換システム10では、上記のように、文書データから抽出した複合名詞よりも、該複合名詞の他の同義表現のほうが優先度の高い表現である場合に、文書データの複合名詞を他の同義表現に書き換える。このため、本実施形態によれば、文書データに存在する同義表現の複合名詞を1個の表記に統一することが可能となる。   As described above, the document rewriting system 10 according to the present embodiment refers to the synonym dictionary created by the method described in the first embodiment or the second embodiment on the basis of the document set for each field, and the document data Rewrite the compound noun with another synonymous expression. Further, in the document rewriting system 10, as described above, when other synonymous expressions of the compound noun have higher priority than compound nouns extracted from the document data, Rewrite it as a synonymous expression. For this reason, according to the present embodiment, synonymous compound nouns existing in document data can be unified into one notation.

なお、図21のフローチャートは、本実施形態に係る文書データ書換装置11が行う処理の一例に過ぎない。本実施形態に係る文書データ書換装置11が行う処理は、図21に示した処理に限らず、本実施形態の要旨を逸脱しない範囲において処理内容を適宜変更可能である。   Note that the flowchart of FIG. 21 is merely an example of processing performed by the document data rewriting device 11 according to the present embodiment. The processing performed by the document data rewriting device 11 according to the present embodiment is not limited to the processing illustrated in FIG. 21, and the processing content can be appropriately changed without departing from the gist of the present embodiment.

また、図19のシステム構成は、本実施形態に係る文書書換システム10のシステム構成の一例に過ぎない。本実施形態に係る文書書換システム10は、図19に示した構成に限らず、例えば、同義表現抽出装置1と文書データ書換装置11とが一体化されていてもよい。更に、文書集合と同義語辞書とは、1個のストレージ装置に記憶させてもよい。   Further, the system configuration of FIG. 19 is only an example of the system configuration of the document rewriting system 10 according to the present embodiment. The document rewriting system 10 according to the present embodiment is not limited to the configuration illustrated in FIG. 19. For example, the synonym expression extracting device 1 and the document data rewriting device 11 may be integrated. Further, the document set and the synonym dictionary may be stored in one storage device.

加えて、上記の各実施形態に係る同義表現抽出装置1は、コンピュータと、当該コンピュータに実行させるプログラムとにより実現可能である。以下、図22を参照して、コンピュータとプログラムとにより実現される同義表現抽出装置1について説明する。   In addition, the synonymous expression extraction apparatus 1 according to each of the above embodiments can be realized by a computer and a program executed by the computer. Hereinafter, the synonymous expression extraction apparatus 1 realized by a computer and a program will be described with reference to FIG.

図22は、コンピュータのハードウェア構成を示す図である。
図22に示すように、コンピュータ15は、プロセッサ1501と、主記憶装置1502と、補助記憶装置1503と、入力装置1504と、出力装置1505と、入出力インタフェース1506と、通信制御装置1507と、媒体駆動装置1508と、を備える。コンピュータ15におけるこれらの要素1501〜1508は、バス1510により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
FIG. 22 is a diagram illustrating a hardware configuration of a computer.
As shown in FIG. 22, the computer 15 includes a processor 1501, a main storage device 1502, an auxiliary storage device 1503, an input device 1504, an output device 1505, an input / output interface 1506, a communication control device 1507, and a medium. A driving device 1508. These elements 1501 to 1508 in the computer 15 are connected to each other by a bus 1510 so that data can be exchanged between the elements.

プロセッサ1501は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ1501は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ15の全体の動作を制御する。また、プロセッサ1501は、例えば、図4〜図8に示した同義表現の複合名詞のペアを抽出する処理を含む同義表現抽出プログラムを実行する。   The processor 1501 is a central processing unit (CPU), a micro processing unit (MPU), or the like. The processor 1501 controls the overall operation of the computer 15 by executing various programs including an operating system. In addition, the processor 1501 executes a synonym expression extraction program including a process of extracting a pair of synonym compound nouns illustrated in FIGS. 4 to 8, for example.

主記憶装置1502は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置1502のROMには、例えば、コンピュータ15の起動時にプロセッサ1501が読み出す所定の基本制御プログラム等が予め記録されている。一方、主記憶装置1502のRAMは、プロセッサ1501が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置1502のRAMは、例えば、文書集合191から抽出した文字列、解析結果コーパス193、未確定単語ペア及び同義単語ペアのリスト、類似度推移テーブル195等の記憶に利用可能である。また、主記憶装置1502のRAMは、例えば、解析用辞書192、同義単語辞書194、同義表現リスト196等の記憶に利用可能である。   The main storage device 1502 includes a read only memory (ROM) and a random access memory (RAM) not shown. In the ROM of the main storage device 1502, for example, a predetermined basic control program read by the processor 1501 when the computer 15 is started is recorded in advance. On the other hand, the RAM of the main storage device 1502 is used as a working storage area as necessary when the processor 1501 executes various programs. The RAM of the main storage device 1502 can be used for storing, for example, a character string extracted from the document set 191, an analysis result corpus 193, a list of unconfirmed word pairs and synonym word pairs, a similarity transition table 195, and the like. The RAM of the main storage device 1502 can be used for storing, for example, the analysis dictionary 192, the synonym word dictionary 194, the synonym expression list 196, and the like.

補助記憶装置1503は、主記憶装置1502のRAMと比べて容量の大きい記憶装置であり、例えば、Hard Disk Drive(HDD)や、フラッシュメモリのような不揮発性メモリ(Solid State Drive(SSD)を含む)等である。補助記憶装置1503は、プロセッサ1501によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置1503は、例えば、図4〜図8に示した同義表現の複合名詞のペアを抽出する処理を含む同義表現抽出プログラムの記憶に利用可能である。また、補助記憶装置1503は、例えば、文書集合191から抽出した文字列、解析結果コーパス193、未確定単語ペア及び同義単語ペアのリスト、類似度推移テーブル195等の記憶に利用可能である。更に、補助記憶装置1503は、例えば、解析用辞書192、同義単語辞書194、同義表現リスト196等の記憶に利用可能である。   The auxiliary storage device 1503 is a storage device having a larger capacity than the RAM of the main storage device 1502, and includes, for example, a hard disk drive (HDD) and a non-volatile memory (Solid State Drive (SSD)) such as a flash memory. ) Etc. The auxiliary storage device 1503 can be used to store various programs executed by the processor 1501 and various data. The auxiliary storage device 1503 can be used, for example, for storing a synonym expression extraction program including a process of extracting a synonym compound noun pair shown in FIGS. The auxiliary storage device 1503 can be used for storing, for example, a character string extracted from the document set 191, an analysis result corpus 193, a list of unconfirmed word pairs and synonym word pairs, a similarity transition table 195, and the like. Further, the auxiliary storage device 1503 can be used for storing, for example, the analysis dictionary 192, the synonym word dictionary 194, the synonym expression list 196, and the like.

入力装置1504は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ15のオペレータ(利用者)が入力装置1504に対して所定の操作を行うと、入力装置1504は、その操作内容に対応付けられている入力情報をプロセッサ1501に送信する。入力装置1504は、例えば、複合名詞についての同義表現の抽出処理を開始させる命令、コンピュータ15が実行可能な他の処理に関する命令等の入力や、各種設定値の入力等に利用可能である。   The input device 1504 is, for example, a keyboard device or a touch panel device. When an operator (user) of the computer 15 performs a predetermined operation on the input device 1504, the input device 1504 transmits input information associated with the operation content to the processor 1501. The input device 1504 can be used, for example, for inputting a command for starting synonymous expression extraction processing for compound nouns, commands for other processing that can be executed by the computer 15, inputting various setting values, and the like.

出力装置1505は、例えば、液晶表示装置等の表示装置やプリンタ等の印刷装置である。出力装置1505は、複合名詞についての同義表現の抽出処理の結果や、同義表現リストの内容の出力に利用可能である。   The output device 1505 is, for example, a display device such as a liquid crystal display device or a printing device such as a printer. The output device 1505 can be used to output the results of synonym expression extraction processing for compound nouns and the contents of the synonym expression list.

入出力インタフェース1506は、コンピュータ15と、他の電子機器とを接続する。入出力インタフェース1506は、例えば、Universal Serial Bus(USB)規格のコネクタ等を備える。入出力インタフェース1506は、例えば、コンピュータ15とストレージ装置6,7等との接続に利用可能である。   The input / output interface 1506 connects the computer 15 and other electronic devices. The input / output interface 1506 includes, for example, a universal serial bus (USB) standard connector. The input / output interface 1506 can be used, for example, for connection between the computer 15 and the storage devices 6 and 7.

通信制御装置1507は、コンピュータ15をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ15と他の通信機器との各種通信を制御する装置である。通信制御装置1507は、例えば、コンピュータ15と、端末装置9との通信に利用可能である。   The communication control device 1507 is a device that connects the computer 15 to a network such as the Internet and controls various communications between the computer 15 and other communication devices via the network. The communication control device 1507 can be used for communication between the computer 15 and the terminal device 9, for example.

媒体駆動装置1508は、可搬型記憶媒体16に記録されているプログラムやデータの読み出し、補助記憶装置1503に記憶されたデータ等の可搬型記憶媒体16への書き込みを行う。媒体駆動装置1508には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置1508としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体16としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体16としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ15が媒体駆動装置1508として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体16として利用可能である。可搬型記録媒体16として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体16は、例えば、図4〜図8に示した同義表現の複合名詞のペアを抽出する処理を含む同義表現抽出プログラムの記憶に利用可能である。また、可搬型記録媒体16は、例えば、文書集合191から抽出した文字列、解析結果コーパス193、未確定単語ペア及び同義単語ペアのリスト、類似度推移テーブル195等の記憶に利用可能である。更に、可搬型記録媒体16は、例えば、解析用辞書192、同義単語辞書194、同義表現リスト196等の記憶に利用可能である。   The medium driving device 1508 reads programs and data recorded in the portable storage medium 16 and writes data stored in the auxiliary storage device 1503 to the portable storage medium 16. For the medium driving device 1508, for example, a memory card reader / writer corresponding to one type or a plurality of types of standards can be used. When a memory card reader / writer is used as the medium driving device 1508, the portable storage medium 16 is a memory card (flash memory) conforming to a standard supported by the memory card reader / writer, for example, Secure Digital (SD) standard. ) Etc. can be used. As the portable recording medium 16, for example, a flash memory provided with a USB standard connector can be used. Further, when the computer 15 is equipped with an optical disk drive that can be used as the medium driving device 1508, various optical disks that can be recognized by the optical disk drive can be used as the portable recording medium 16. Examples of the optical disc that can be used as the portable recording medium 16 include a Compact Disc (CD), a Digital Versatile Disc (DVD), and a Blu-ray Disc (Blu-ray is a registered trademark). The portable recording medium 16 can be used, for example, for storing a synonym expression extraction program including a process of extracting a synonym compound noun pair shown in FIGS. The portable recording medium 16 can be used for storing, for example, a character string extracted from the document set 191, an analysis result corpus 193, a list of unconfirmed word pairs and synonym word pairs, a similarity transition table 195, and the like. Furthermore, the portable recording medium 16 can be used for storing, for example, an analysis dictionary 192, a synonym word dictionary 194, a synonym expression list 196, and the like.

例えば、オペレータが入力装置1504等を利用して同義表現の抽出処理を開始する命令をコンピュータ15に入力すると、プロセッサ1501が、補助記憶装置1503等の非一時的な記録媒体に記憶させた同義表現抽出プログラムを読み出して実行する。この処理において、プロセッサ1501は、同義表現抽出装置1における文字列抽出部110、形態素解析部120、複合名詞抽出部130、及び同義複合名詞特定部140として機能する(動作する)。また、プロセッサ1501が同義表現抽出プログラムを実行している間、主記憶装置1502のRAMや補助記憶装置1503等は、同義表現抽出装置1の図示しない記憶部として機能する。すなわち、主記憶装置1502のRAMや補助記憶装置1503等は、文書集合191、解析用辞書192、解析結果コーパス193、同義単語辞書194、類似度推移テーブル195、及び同義表現リスト196等を記憶する記憶部として機能する。   For example, when an operator inputs an instruction to start synonym expression extraction processing using the input device 1504 or the like to the computer 15, the processor 1501 stores the synonym expression stored in a non-temporary recording medium such as the auxiliary storage device 1503. Read and execute the extraction program. In this process, the processor 1501 functions (operates) as the character string extraction unit 110, the morpheme analysis unit 120, the compound noun extraction unit 130, and the synonym compound noun identification unit 140 in the synonym expression extraction device 1. Further, while the processor 1501 is executing the synonymous expression extraction program, the RAM of the main storage device 1502, the auxiliary storage device 1503, and the like function as a storage unit (not shown) of the synonymous expression extraction device 1. That is, the RAM of the main storage device 1502, the auxiliary storage device 1503, and the like store the document set 191, the analysis dictionary 192, the analysis result corpus 193, the synonym word dictionary 194, the similarity transition table 195, the synonym expression list 196, and the like. Functions as a storage unit.

なお、同義表現抽出装置1として動作させるコンピュータ15は、図22に示した全ての要素1501〜1508を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ15は、通信制御装置1507や媒体駆動装置1508が省略されたものであってもよい。   Note that the computer 15 that operates as the synonymous expression extraction apparatus 1 does not need to include all the elements 1501 to 1508 illustrated in FIG. 22, and some elements may be omitted depending on applications and conditions. For example, the computer 15 may be one in which the communication control device 1507 and the medium driving device 1508 are omitted.

また、コンピュータ15における補助記憶装置1503等の記憶装置は、例えば、第3の実施形態で示した同義語辞書作成システムにおける第1のストレージ装置6及び第2のストレージ装置7として利用することも可能である。   The storage device such as the auxiliary storage device 1503 in the computer 15 can also be used as the first storage device 6 and the second storage device 7 in the synonym dictionary creation system shown in the third embodiment, for example. It is.

更に、コンピュータ15は、同義表現抽出装置1として動作させるだけでなく、第4の実施形態で示した文書書換システム10の文書データ書換装置11として動作させることも可能である。また、文書書換システム10では、1台のコンピュータ15を、同義表現抽出装置1として動作させるとともに、文書データ書換装置11として動作させることも可能である。   Further, the computer 15 can be operated not only as the synonym expression extracting device 1 but also as the document data rewriting device 11 of the document rewriting system 10 shown in the fourth embodiment. In the document rewriting system 10, one computer 15 can be operated as the synonym expression extracting device 1 and can also be operated as the document data rewriting device 11.

以上記載した各実施形態に関し、更に以下の付記を開示する。
(付記1)
文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定にする、単語ペア設定部と、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回行う意味類似度学習部と、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する単語同義判定部と、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する複合名詞同義判定部と、を備え、
前記意味類似度学習部は、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加し、
前記単語同義判定部は、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する、
ことを特徴とする同義表現抽出装置。
(付記2)
前記単語同義判定部は、
前記複数の同義単語ペアのそれぞれで、前記未確定単語ペアについての前記学習処理の回数と前記意味類似度との関係と、前記同義単語ペアについての前記学習処理の回数と前記意味類似度との関係とについての相関係数を算出し、
算出した複数の前記相関係数の平均値が閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする付記1に記載の同義表現抽出装置。
(付記3)
前記同義表現抽出装置は、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果における学習処理の回数と意味類似度との関係に基づいて、前記未確定単語ペアの単語同士が同義であるか否かの判定閾値を設定する判定閾値設定部、を更に備え、
前記単語同義判定部は、算出した前記相関係数の平均値が、前記判定閾値設定部で設定した前記判定閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする付記2に記載の同義表現抽出装置。
(付記4)
前記同義表現抽出装置は、同義表現である前記複合名詞のペアを登録した同義表現リストを記憶する記憶部、を更に備える、
ことを特徴とする付記1に記載の同義表現抽出装置。
(付記5)
前記同義表現抽出装置は、前記同義表現リストに登録された前記複合名詞の同義表現に基づいて、文書データから抽出した複合名詞を同義表現に書き換える同義表現書換部、を更に備える、
ことを特徴とする付記1に記載の同義表現抽出装置。
(付記6)
コンピュータが、
文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定し、
前記文書データから、前記同義単語辞書に登録された前記同義単語ペアを収集し、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回実行し、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定し、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する、処理を実行し、
前記意味類似度を学習する処理において、前記コンピュータは、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加し、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理において、前記コンピュータは、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する、
ことを特徴とする同義表現抽出方法。
(付記7)
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理において、前記コンピュータは、
前記複数の同義単語ペアのそれぞれで、前記未確定単語ペアについての前記学習処理の回数と前記意味類似度との関係と、前記同義単語ペアについての前記学習処理の回数と前記意味類似度との関係とについての相関係数を算出し、
算出した複数の前記相関係数の平均値が閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする付記6に記載の同義表現抽出方法。
(付記8)
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理を行う前に、前記コンピュータが、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果における学習処理の回数と意味類似度との関係に基づいて、前記未確定単語ペアの単語同士が同義であるか否かの判定閾値を設定する処理を、更に含み、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理において、前記コンピュータは、前記相関係数の平均値が前記判定閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする付記7に記載の同義表現抽出方法。
(付記9)
文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定し、
前記文書データから、前記同義単語辞書に登録された前記同義単語ペアを収集し、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回実行し、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定し、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する、処理をコンピュータに実行させる同義表現抽出プログラムであって、
前記意味類似度を学習する処理は、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加する処理を含み、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理は、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する処理を含む、
ことを特徴とする同義表現抽出プログラム。
(付記10)
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理は、
前記複数の同義単語ペアのそれぞれで、前記未確定単語ペアについての前記学習処理の回数と前記意味類似度との関係と、前記同義単語ペアについての前記学習処理の回数と前記意味類似度との関係とについての相関係数を算出し、
算出した複数の前記相関係数の平均値が閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、処理を含む、
ことを特徴とする付記9に記載の同義表現抽出プログラム。
(付記11)
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理の前に実行する、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果における学習処理の回数と意味類似度との関係に基づいて、前記未確定単語ペアの単語同士が同義であるか否かの判定閾値を設定する処理を、更に含み、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理は、前記相関係数の平均値が前記判定閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする付記10に記載の同義表現抽出プログラム。
The following additional notes are disclosed for each of the embodiments described above.
(Appendix 1)
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. A word pair setting unit for identifying an unconfirmed word pair that is not confirmed,
A process of learning the semantic similarity between words is performed a plurality of times for each of the plurality of synonym word pairs in the document data including the synonym word pair in the compound noun pair and the uncertain word pair. A semantic similarity learning unit;
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. A word synonym determination unit for determining;
A compound noun synonym determination unit that determines that the compound noun pair is a synonymous expression when the plurality of word pairs in the compound noun pair are all synonymous word pairs;
Each time the semantic similarity learning unit performs a semantic similarity learning process for each of a plurality of word pairs to be processed, a case used for the learning process is added.
The word synonym determination unit includes a relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the undefined word pair, and the number of learning processes in the learning result of the semantic similarity of the synonym word pair. Calculating a correlation coefficient with respect to the relationship with the semantic similarity, and determining whether or not the words of the undefined word pair are synonymous based on the correlation coefficient;
A synonymous expression extraction device characterized by that.
(Appendix 2)
The word synonym determination unit
In each of the plurality of synonymous word pairs, the relationship between the number of learning processes for the uncertain word pair and the semantic similarity, and the number of learning processes for the synonymous word pair and the semantic similarity. Calculate the correlation coefficient for the relationship,
When the average value of the plurality of calculated correlation coefficients is equal to or greater than a threshold, it is determined that the words of the undefined word pair are synonymous.
The synonym expression extraction device according to Supplementary Note 1, wherein
(Appendix 3)
In the synonym expression extraction device, the words of the undefined word pair are synonymous based on the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity in each of the plurality of synonymous word pairs. A determination threshold value setting unit that sets a determination threshold value of whether or not
The word synonym determination unit determines that the words of the undefined word pair are synonymous when the calculated average value of the correlation coefficients is equal to or greater than the determination threshold set by the determination threshold setting unit. ,
The synonymous expression extraction apparatus according to Supplementary Note 2, wherein
(Appendix 4)
The synonym expression extraction device further includes a storage unit that stores a synonym expression list in which the compound noun pairs that are synonym expressions are registered.
The synonym expression extraction device according to Supplementary Note 1, wherein
(Appendix 5)
The synonym expression extraction device further includes a synonym expression rewriting unit that rewrites a compound noun extracted from document data into a synonym expression based on the synonym expression of the compound noun registered in the synonym expression list.
The synonym expression extraction device according to Supplementary Note 1, wherein
(Appendix 6)
Computer
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. Identified as unconfirmed word pairs that have not been confirmed,
Collecting the synonym word pairs registered in the synonym word dictionary from the document data,
For each of the plurality of synonym word pairs in the document data including the undefined word pair and the synonym word pair in the compound noun pair, a process of learning the semantic similarity between words is executed a plurality of times. And
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Judgment,
When the plurality of word pairs in the compound noun pair are all synonymous word pairs, the compound noun pair is determined to be a synonym expression, and a process is executed.
In the process of learning the semantic similarity, each time the computer performs a semantic similarity learning process for each of a plurality of word pairs to be processed, it adds a case to be used for the learning process,
In the process of determining whether or not the words of the uncertain word pair are synonymous, the computer includes a relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the uncertain word pair. , Calculating a correlation coefficient for the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the synonymous word pair, and based on the correlation coefficient, the words of the undefined word pair Whether or not is synonymous,
A synonymous expression extraction method characterized by that.
(Appendix 7)
In the process of determining whether or not the words of the undefined word pair are synonymous,
In each of the plurality of synonymous word pairs, the relationship between the number of learning processes for the uncertain word pair and the semantic similarity, and the number of learning processes for the synonymous word pair and the semantic similarity. Calculate the correlation coefficient for the relationship,
When the average value of the plurality of calculated correlation coefficients is equal to or greater than a threshold, it is determined that the words of the undefined word pair are synonymous.
The synonymous expression extraction method according to Supplementary Note 6, wherein
(Appendix 8)
Before performing the process of determining whether or not the words of the uncertain word pair are synonymous, the computer counts the number and meaning of learning processes in the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Based on the relationship with the degree of similarity, further includes a process of setting a determination threshold value as to whether or not the words of the undefined word pair are synonymous,
In the process of determining whether or not the words of the uncertain word pair are synonymous, when the average value of the correlation coefficient is equal to or greater than the determination threshold, the computer Is determined to be synonymous,
The synonymous expression extraction method according to Supplementary Note 7, wherein
(Appendix 9)
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. Identified as unconfirmed word pairs that have not been confirmed,
Collecting the synonym word pairs registered in the synonym word dictionary from the document data,
For each of the plurality of synonym word pairs in the document data including the undefined word pair and the synonym word pair in the compound noun pair, a process of learning the semantic similarity between words is executed a plurality of times. And
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Judgment,
When the plurality of word pairs in the compound noun pair are all synonymous word pairs, the compound noun pair is determined to be a synonym expression, a synonym expression extraction program for causing a computer to execute a process,
The process of learning the semantic similarity includes a process of adding a case to be used for the learning process every time the semantic similarity learning process is performed for each of a plurality of word pairs to be processed.
The process of determining whether or not the words of the undefined word pair are synonymous is the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the undefined word pair, and the synonymous word A correlation coefficient is calculated for the relationship between the number of learning processes in the learning result of the semantic similarity of the pair and the relationship between the semantic similarity, and the words of the undefined word pair are synonymous based on the correlation coefficient Including processing to determine whether or not
A synonym expression extraction program characterized by that.
(Appendix 10)
The process of determining whether or not the words of the undefined word pair are synonymous,
In each of the plurality of synonymous word pairs, the relationship between the number of learning processes for the uncertain word pair and the semantic similarity, and the number of learning processes for the synonymous word pair and the semantic similarity. Calculate the correlation coefficient for the relationship,
Including a process of determining that the words of the unconfirmed word pair are synonymous when an average value of the plurality of calculated correlation coefficients is equal to or greater than a threshold value,
The synonymous expression extraction program according to supplementary note 9, characterized by:
(Appendix 11)
The number of learning processes and the semantic similarity in the learning result of the semantic similarity in each of the plurality of synonymous word pairs, executed before the process of determining whether or not the words of the undefined word pair are synonymous. Further including a process of setting a determination threshold for determining whether or not the words of the undefined word pair are synonymous based on the relationship of
The process of determining whether or not the words of the undefined word pair are synonymous is that the words of the undefined word pair are synonymous when the average value of the correlation coefficient is equal to or greater than the determination threshold. To determine,
The synonymous expression extraction program according to supplementary note 10, characterized by:

1 同義表現抽出装置
2,3 複合名詞
401〜403,405,406 テーブル
404 単語ペアリスト
5 同義語辞書作成システム
6,7 ストレージ装置
8 ネットワーク
9(9A〜9C) 端末装置
10 文書書換システム
11 文書データ書換装置
15 コンピュータ
16 可搬型記録媒体
110,1120 文字列抽出部
120,1130 形態素解析部
130,1140 複合名詞抽出部
140 同義複合名詞特定部
141 単語ペア設定部
142 類似度推移テーブル作成部
143 意味類似度学習部
144 単語同義判定部
145 複合名詞同義判定部
146 判定閾値設定部
191,601,602 文書集合
192,1190 解析用辞書
103 解析結果コーパス
194 同義単語辞書
195 類似度推移テーブル
196 同義表現リスト
701,702 同義語辞書
1110 文書データ取得部
1150 同義表現検索部
1160 同義表現書換部
1170 文書データ返信部
1501 プロセッサ
1502 主記憶装置
1503 補助記憶装置
1504 入力装置
1505 出力装置
1506 入出力インタフェース
1507 通信制御装置
1508 補助記憶装置
DESCRIPTION OF SYMBOLS 1 Synonymous expression extraction apparatus 2,3 Compound noun 401-403,405,406 Table 404 Word pair list 5 Synonym dictionary creation system 6,7 Storage apparatus 8 Network 9 (9A-9C) Terminal apparatus 10 Document rewriting system 11 Document data Rewriting device 15 Computer 16 Portable recording medium 110, 1120 Character string extraction unit 120, 1130 Morphological analysis unit 130, 1140 Compound noun extraction unit 140 Synonym compound noun specification unit 141 Word pair setting unit 142 Similarity transition table creation unit 143 Meaning similarity Degree learning unit 144 word synonym determining unit 145 compound noun synonym determining unit 146 determination threshold setting unit 191, 601, 602 document set 192, 1190 analysis dictionary 103 analysis result corpus 194 synonym word dictionary 195 similarity transition table 196 synonym expression list 701 702 Synonym dictionary 1110 Document data acquisition unit 1150 Synonym expression search unit 1160 Synonym expression rewrite unit 1170 Document data return unit 1501 Processor 1502 Main storage device 1503 Auxiliary storage device 1504 Input device 1505 Output device 1506 Input / output interface 1507 Communication control device 1508 Auxiliary storage apparatus

Claims (6)

文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定にする、単語ペア設定部と、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回行う意味類似度学習部と、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する単語同義判定部と、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する複合名詞同義判定部と、を備え、
前記意味類似度学習部は、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加し、
前記単語同義判定部は、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する、
ことを特徴とする同義表現抽出装置。
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. A word pair setting unit for identifying an unconfirmed word pair that is not confirmed,
A process of learning the semantic similarity between words is performed a plurality of times for each of the plurality of synonym word pairs in the document data including the synonym word pair in the compound noun pair and the uncertain word pair. A semantic similarity learning unit;
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. A word synonym determination unit for determining;
A compound noun synonym determination unit that determines that the compound noun pair is a synonymous expression when the plurality of word pairs in the compound noun pair are all synonymous word pairs;
Each time the semantic similarity learning unit performs a semantic similarity learning process for each of a plurality of word pairs to be processed, a case used for the learning process is added.
The word synonym determination unit includes a relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the undefined word pair, and the number of learning processes in the learning result of the semantic similarity of the synonym word pair. Calculating a correlation coefficient with respect to the relationship with the semantic similarity, and determining whether or not the words of the undefined word pair are synonymous based on the correlation coefficient;
A synonymous expression extraction device characterized by that.
前記単語同義判定部は、
前記複数の同義単語ペアのそれぞれで、前記未確定単語ペアについての前記学習処理の回数と前記意味類似度との関係と、前記同義単語ペアについての前記学習処理の回数と前記意味類似度との関係とについての相関係数を算出し、
算出した複数の前記相関係数の平均値が閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする請求項1に記載の同義表現抽出装置。
The word synonym determination unit
In each of the plurality of synonymous word pairs, the relationship between the number of learning processes for the uncertain word pair and the semantic similarity, and the number of learning processes for the synonymous word pair and the semantic similarity. Calculate the correlation coefficient for the relationship,
When the average value of the plurality of calculated correlation coefficients is equal to or greater than a threshold, it is determined that the words of the undefined word pair are synonymous.
The synonymous expression extraction apparatus according to claim 1, wherein:
前記同義表現抽出装置は、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果における学習処理の回数と意味類似度との関係に基づいて、前記未確定単語ペアの単語同士が同義であるか否かの判定閾値を設定する判定閾値設定部、を更に備え、
前記単語同義判定部は、算出した前記相関係数の平均値が、前記判定閾値設定部で設定した前記判定閾値以上である場合に、前記未確定単語ペアの単語同士が同義であると判定する、
ことを特徴とする請求項2に記載の同義表現抽出装置。
In the synonym expression extraction device, the words of the undefined word pair are synonymous based on the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity in each of the plurality of synonymous word pairs. A determination threshold value setting unit that sets a determination threshold value of whether or not
The word synonym determination unit determines that the words of the undefined word pair are synonymous when the calculated average value of the correlation coefficients is equal to or greater than the determination threshold set by the determination threshold setting unit. ,
The synonymous expression extraction apparatus according to claim 2, wherein
前記同義表現抽出装置は、同義表現である前記複合名詞のペアを登録した同義表現リストを記憶する記憶部、を更に備える、
ことを特徴とする請求項1に記載の同義表現抽出装置。
The synonym expression extraction device further includes a storage unit that stores a synonym expression list in which the compound noun pairs that are synonym expressions are registered.
The synonymous expression extraction apparatus according to claim 1, wherein:
コンピュータが、
文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定し、
前記文書データから、前記同義単語辞書に登録された前記同義単語ペアを収集し、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回実行し、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定し、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する、処理を実行し、
前記意味類似度を学習する処理において、前記コンピュータは、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加し、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理において、前記コンピュータは、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する、
ことを特徴とする同義表現抽出方法。
Computer
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. Identified as unconfirmed word pairs that have not been confirmed,
Collecting the synonym word pairs registered in the synonym word dictionary from the document data,
For each of the plurality of synonym word pairs in the document data including the undefined word pair and the synonym word pair in the compound noun pair, a process of learning the semantic similarity between words is executed a plurality of times. And
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Judgment,
When the plurality of word pairs in the compound noun pair are all synonymous word pairs, the compound noun pair is determined to be a synonym expression, and a process is executed.
In the process of learning the semantic similarity, each time the computer performs a semantic similarity learning process for each of a plurality of word pairs to be processed, it adds a case to be used for the learning process,
In the process of determining whether or not the words of the uncertain word pair are synonymous, the computer includes a relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the uncertain word pair. , Calculating a correlation coefficient for the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the synonymous word pair, and based on the correlation coefficient, the words of the undefined word pair Whether or not is synonymous,
A synonymous expression extraction method characterized by that.
文書データから抽出した複合名詞のペアを複数の単語ペアに分割し、同義である単語ペアが登録された同義単語辞書を参照して、前記複数の単語ペアを同義単語ペアと、同義であるか否かが確定していない未確定単語ペアと同定し、
前記文書データから、前記同義単語辞書に登録された前記同義単語ペアを収集し、
前記未確定単語ペアと、前記複合名詞のペアにおける前記同義単語ペアを含む、前記文書データ内の複数の同義単語ペアとのそれぞれに対し、単語間の意味類似度を学習する処理を複数回実行し、
前記未確定単語ペアの意味類似度の学習結果と、前記複数の同義単語ペアのそれぞれにおける意味類似度の学習結果とに基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定し、
前記複合名詞のペアにおける前記複数の単語ペアが全て前記同義単語ペアである場合に、該複合名詞のペアを同義表現であると判定する、処理をコンピュータに実行させる同義表現抽出プログラムであって、
前記意味類似度を学習する処理は、処理対象である複数の単語ペアのそれぞれに対する意味類似度の学習処理を行う毎に、当該学習処理に用いる事例を追加する処理を含み、
前記未確定単語ペアの単語同士が同義であるか否かを判定する処理は、前記未確定単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係と、前記同義単語ペアの意味類似度の学習結果における学習処理の回数と意味類似度との関係とについての相関係数を算出し、当該相関係数に基づいて、前記未確定単語ペアの単語同士が同義であるか否かを判定する処理を含む、
ことを特徴とする同義表現抽出プログラム。
The compound noun pair extracted from the document data is divided into a plurality of word pairs, and the synonym word dictionary in which the synonym word pairs are registered is referred to, and the plurality of word pairs are synonymous with the synonym word pairs. Identified as unconfirmed word pairs that have not been confirmed,
Collecting the synonym word pairs registered in the synonym word dictionary from the document data,
For each of the plurality of synonym word pairs in the document data including the undefined word pair and the synonym word pair in the compound noun pair, a process of learning the semantic similarity between words is executed a plurality of times. And
Whether or not the words of the undefined word pair are synonymous based on the learning result of the semantic similarity of the undefined word pair and the learning result of the semantic similarity in each of the plurality of synonymous word pairs. Judgment,
When the plurality of word pairs in the compound noun pair are all synonymous word pairs, the compound noun pair is determined to be a synonym expression, a synonym expression extraction program for causing a computer to execute a process,
The process of learning the semantic similarity includes a process of adding a case to be used for the learning process every time the semantic similarity learning process is performed for each of a plurality of word pairs to be processed.
The process of determining whether or not the words of the undefined word pair are synonymous is the relationship between the number of learning processes and the semantic similarity in the learning result of the semantic similarity of the undefined word pair, and the synonymous word A correlation coefficient is calculated for the relationship between the number of learning processes in the learning result of the semantic similarity of the pair and the relationship between the semantic similarity, and the words of the undefined word pair are synonymous based on the correlation coefficient Including processing to determine whether or not
A synonym expression extraction program characterized by that.
JP2016230635A 2016-11-28 2016-11-28 Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program Active JP6737151B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016230635A JP6737151B2 (en) 2016-11-28 2016-11-28 Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016230635A JP6737151B2 (en) 2016-11-28 2016-11-28 Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program

Publications (2)

Publication Number Publication Date
JP2018088101A true JP2018088101A (en) 2018-06-07
JP6737151B2 JP6737151B2 (en) 2020-08-05

Family

ID=62493646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016230635A Active JP6737151B2 (en) 2016-11-28 2016-11-28 Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program

Country Status (1)

Country Link
JP (1) JP6737151B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067568A (en) * 2018-12-04 2020-06-12 주식회사 누아 Method to extract antonym using word embedding
CN111428476A (en) * 2019-01-09 2020-07-17 百度在线网络技术(北京)有限公司 Synonym generation method and device, electronic equipment and storage medium
WO2020158991A1 (en) * 2019-01-30 2020-08-06 주식회사 이볼케이노 Language learning system using concept maker of word
CN113326686A (en) * 2020-02-28 2021-08-31 株式会社斯库林集团 Similarity calculation device, recording medium, and similarity calculation method
US20220138417A1 (en) * 2019-02-21 2022-05-05 Nippon Telegraph And Telephone Corporation Synonym extraction device, synonym extraction method, and synonym extraction program
CN117709688A (en) * 2024-02-05 2024-03-15 广东省电信规划设计院有限公司 Inspection data management method and device
JP2024099884A (en) * 2023-01-13 2024-07-26 株式会社三井E&S Natural language processing system, program and natural language processing method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325292A (en) * 2000-05-12 2001-11-22 Nec Soft Ltd System and method for judging similarity degree of compound word and recording medium
JP2008233963A (en) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Word correlation calculation device and method, program, and recording medium
WO2014002776A1 (en) * 2012-06-25 2014-01-03 日本電気株式会社 Synonym extraction system, method, and recording medium
WO2014033799A1 (en) * 2012-08-27 2014-03-06 株式会社日立製作所 Word meaning relationship extraction device
US20150006157A1 (en) * 2012-03-14 2015-01-01 Nec Corporation Term synonym acquisition method and term synonym acquisition apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001325292A (en) * 2000-05-12 2001-11-22 Nec Soft Ltd System and method for judging similarity degree of compound word and recording medium
JP2008233963A (en) * 2007-03-16 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Word correlation calculation device and method, program, and recording medium
US20150006157A1 (en) * 2012-03-14 2015-01-01 Nec Corporation Term synonym acquisition method and term synonym acquisition apparatus
WO2014002776A1 (en) * 2012-06-25 2014-01-03 日本電気株式会社 Synonym extraction system, method, and recording medium
WO2014033799A1 (en) * 2012-08-27 2014-03-06 株式会社日立製作所 Word meaning relationship extraction device

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067568A (en) * 2018-12-04 2020-06-12 주식회사 누아 Method to extract antonym using word embedding
KR102152889B1 (en) * 2018-12-04 2020-09-07 주식회사 누아 Method to extract antonym using word embedding
CN111428476A (en) * 2019-01-09 2020-07-17 百度在线网络技术(北京)有限公司 Synonym generation method and device, electronic equipment and storage medium
CN111428476B (en) * 2019-01-09 2023-03-31 百度在线网络技术(北京)有限公司 Synonym generation method and device, electronic equipment and storage medium
WO2020158991A1 (en) * 2019-01-30 2020-08-06 주식회사 이볼케이노 Language learning system using concept maker of word
US20220138417A1 (en) * 2019-02-21 2022-05-05 Nippon Telegraph And Telephone Corporation Synonym extraction device, synonym extraction method, and synonym extraction program
US11900055B2 (en) * 2019-02-21 2024-02-13 Nippon Telegraph And Telephone Corporation Synonym extraction device, synonym extraction method, and synonym extraction program
CN113326686A (en) * 2020-02-28 2021-08-31 株式会社斯库林集团 Similarity calculation device, recording medium, and similarity calculation method
CN113326686B (en) * 2020-02-28 2024-05-10 株式会社斯库林集团 Similarity calculation device, recording medium, and similarity calculation method
JP2024099884A (en) * 2023-01-13 2024-07-26 株式会社三井E&S Natural language processing system, program and natural language processing method
CN117709688A (en) * 2024-02-05 2024-03-15 广东省电信规划设计院有限公司 Inspection data management method and device
CN117709688B (en) * 2024-02-05 2024-05-31 广东省电信规划设计院有限公司 Inspection data management method and device

Also Published As

Publication number Publication date
JP6737151B2 (en) 2020-08-05

Similar Documents

Publication Publication Date Title
US11762926B2 (en) Recommending web API&#39;s and associated endpoints
JP6737151B2 (en) Synonym expression extraction device, synonym expression extraction method, and synonym expression extraction program
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
CN110929038B (en) Knowledge graph-based entity linking method, device, equipment and storage medium
CN105378732B (en) Method and system for thematic analysis of tabular data
TW202020691A (en) Feature word determination method and device and server
CN111414561B (en) Method and apparatus for presenting information
CN107220352A (en) The method and apparatus that comment collection of illustrative plates is built based on artificial intelligence
JP6705318B2 (en) Bilingual dictionary creating apparatus, bilingual dictionary creating method, and bilingual dictionary creating program
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN113986950B (en) SQL statement processing method, device, equipment and storage medium
US11086600B2 (en) Back-end application code stub generation from a front-end application wireframe
CN112784009A (en) Subject term mining method and device, electronic equipment and storage medium
CN119476496B (en) Article generation method, device, equipment and storage medium
CN113468339A (en) Label extraction method, system, electronic device and medium based on knowledge graph
CN119046432A (en) Data generation method and device based on artificial intelligence, computer equipment and medium
CN106815215B (en) The method and apparatus for generating annotation repository
JP6705352B2 (en) Language processing device, language processing method, and language processing program
KR102685135B1 (en) Video editing automation system
CN103514194B (en) Determine method and apparatus and the classifier training method of the dependency of language material and entity
JP2019148859A (en) Device and method supporting discovery of design pattern in model development environment using flow diagram
CN112559711A (en) Synonymous text prompting method and device and electronic equipment
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
CN114970524B (en) Controllable text generation method and device
CN111259180A (en) Image push method, device, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R150 Certificate of patent or registration of utility model

Ref document number: 6737151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150