JP2006277413A - Document classification device and document classification method - Google Patents
Document classification device and document classification method Download PDFInfo
- Publication number
- JP2006277413A JP2006277413A JP2005096374A JP2005096374A JP2006277413A JP 2006277413 A JP2006277413 A JP 2006277413A JP 2005096374 A JP2005096374 A JP 2005096374A JP 2005096374 A JP2005096374 A JP 2005096374A JP 2006277413 A JP2006277413 A JP 2006277413A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- information
- comparison target
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000009825 accumulation Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書の分野を分類する文書分類装置および文書分類方法に関する。 The present invention relates to a document classification apparatus and a document classification method for classifying document fields.
従来、予めデータベースに記憶される複数の文書情報に基づいて、入力文書の属する分野を特定する文書分類システムがある。このような文書分類システムでは、まず、予め分野が特定されてデータベースに記憶されている複数の比較対象文書から分類を特定したい入力文書と類似する比較対象文書を抽出する。その後、その抽出された比較対象文書に予め関連付けられている分野に基づいて、入力文書が属する分野を特定する方式がある(例えば、特許文献1)。 Conventionally, there is a document classification system that identifies a field to which an input document belongs based on a plurality of document information stored in advance in a database. In such a document classification system, first, a comparison target document similar to an input document whose classification is to be specified is extracted from a plurality of comparison target documents whose fields are specified in advance and stored in the database. Thereafter, there is a method for specifying a field to which an input document belongs based on a field previously associated with the extracted comparison target document (for example, Patent Document 1).
さらに、分類処理の効率化を図るため、文書分類システムでは、一括して大量の入力文書の分類処理を行なう方式が一般的である。また、このような文書分類システムでは、入力文書について大量の比較対象文書との類似度算出を行なうことが多い。さらに、高い精度が求められる文書分類システムにおいては、コンピュータにより分類した結果を、人手によってチェックすることになる。
上述したような、大量の入力文書を同一の基準により一括して分類する従来の文書分類システムでは、一度に大量の文書を効率良く処理できる反面、一括して分類処理を行った時点で分類の結果が確定される。そのため、対話性が犠牲になる問題が生じることがある。 As described above, the conventional document classification system that collectively classifies a large number of input documents according to the same standard can efficiently process a large number of documents at one time, but at the time when the classification process is performed collectively. The result is confirmed. As a result, the problem of interactivity may arise.
再び分類処理でのパラメータ調整して再度分類を実行することも考えられるが、これによれば、パラメータを調整することで、その後に分類される全ての分類結果に対して変更されたパラメータが適用される。これによれば、全ての分類結果が同一のパラメータで分類されてしまうという問題があった。 It is possible to adjust the parameters again in the classification process and execute the classification again, but according to this, by adjusting the parameters, the changed parameters are applied to all the classification results that are classified after that. Is done. According to this, there is a problem that all classification results are classified with the same parameter.
本発明は上記の問題を解決するためになされたものであり、分類される文書ごとに分類するために利用されるパラメータを調整することが可能な文書分類装置および文書分類方法を提供することを目的とする。 The present invention has been made to solve the above problem, and provides a document classification apparatus and a document classification method capable of adjusting parameters used for classification for each document to be classified. Objective.
本発明の第1の特徴に係る文書分類装置によれば、入力された被分類文書の属する分野を分類する文書分類装置であって、被分類文書と比較する比較対象文書の情報と、この比較対象文書の分野とを比較対象文書情報として記憶する比較対象文書情報記憶部と、単語と、この単語の単語重みを記憶する単語重み情報記憶部と、被分類文書を比較対象文書情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、共通使用単語と、共通使用単語の使用回数と、単語重み情報記憶部から読み出した共通使用単語の単語重みと、この単語重みごとに設定されて単語重みを調整する調整値とを共通単語情報として生成し、この生成された共通単語情報に基づいて複数の比較対象文書と被分類文書との類似度を求め、この求められた類似度に基づいて分野を特定し、入力装置からの指示に基づいて調整値を可変させて比較対象文書に基づいて新たな分野を特定する分類処理部とを有することを特徴としている。 According to the document classification apparatus according to the first aspect of the present invention, the document classification apparatus classifies the field to which the input classified document belongs, and information of a comparison target document to be compared with the classified document and the comparison The comparison target document information storage unit that stores the field of the target document as comparison target document information, the word, the word weight information storage unit that stores the word weight of the word, and the classified document are compared with the comparison target document information. The common use words that are commonly used in the classified document and the comparison target document are extracted, the common use words, the number of use of the common use words, and the word weights of the common use words read from the word weight information storage unit And an adjustment value that is set for each word weight and adjusts the word weight is generated as common word information, and the similarity between a plurality of comparison target documents and classified documents is calculated based on the generated common word information. Seeking And a classification processing unit that identifies a field based on the obtained similarity and identifies a new field based on a comparison target document by varying an adjustment value based on an instruction from an input device. Yes.
また、第2の特徴に係る文書分類装置によれば、入力された被分類文書の属する分野を分類する文書分類装置であって、被分類文書と比較する比較対象文書の情報と、この比較対象文書の分野とを比較対象文書情報として記憶する比較対象文書情報記憶部と、単語と、この単語の単語重みを記憶する単語重み情報記憶部と、被分類文書を比較対象文書情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、共通使用単語と、共通使用単語の使用回数と、単語重み情報記憶部から読み出した共通使用単語の単語重みと、この単語重みごとに設定されて単語重みを調整する調整値とを共通単語情報として生成する共通単語情報生成部と、共通単語情報に含まれる各共通使用単語の使用回数とその共通使用単語の単語重みと単語重みに関連付けられる調整値とに基づいて類似度を算出する類似度算出部と、この類似度算出部で求められた類似度に基づいて被分類文書の属する分野を特定して分類結果とする分野特定部と、調整値を可変させる類似度パラメータ調整部と、分類結果が確定されると、被分類文書の各使用単語の調整値を含む分類結果を生成して記憶装置に記憶させる分類結果記憶部とを有することを特徴としている。 Further, according to the document classification device according to the second feature, the document classification device classifies the field to which the input classified document belongs, and information on the comparison target document to be compared with the classified document, and the comparison target A comparison target document information storage unit that stores the field of the document as comparison target document information, a word, a word weight information storage unit that stores the word weight of the word, and a classified document compared with the comparison target document information Commonly used words that are commonly used in the classified document and the comparison target document are extracted, the commonly used words, the number of times of use of the commonly used words, and the word weights of the commonly used words read from the word weight information storage unit, A common word information generation unit that generates, as common word information, an adjustment value that is set for each word weight and adjusts the word weight, and the number of times each common word used in the common word information is used and the common word used A similarity calculation unit that calculates a similarity based on the word weight and an adjustment value associated with the word weight, and identifies and classifies the field to which the classified document belongs based on the similarity calculated by the similarity calculation unit When the classification result is confirmed, a classification result including the adjustment value of each word used in the classified document is generated and stored in the storage device. And a classification result storage unit to be stored.
上記構成の本発明によれば、文書を分類するためのパラメータを調整する文書分類装置及び文書分類方法を提供することができる。 According to the present invention configured as described above, it is possible to provide a document classification apparatus and a document classification method for adjusting parameters for classifying a document.
本発明によれば、文書分類装置及び文書分類方法において、文書を分類するためのパラメータを調整することができる。 According to the present invention, parameters for classifying a document can be adjusted in a document classification apparatus and a document classification method.
以下に、図面を参照して、本発明の最良の実施の形態に係る文書分類装置1及び文書分類方法を説明する。
Hereinafter, a
[文書分類装置]
図1に示すのは、本発明の最良の実施の形態に係る文書分類装置1のブロック図である。
[Document Classification Device]
FIG. 1 is a block diagram of a
図1に示す文書分類装置1は、分類処理部10、比較対象文書情報記憶部11、単語重み情報記憶部12及び分類結果記憶部13を有する。
A
比較対象文書情報記憶部11は、文書の属する分野を分類する対象となる被分類文書と比較する比較対象文書の情報(テキスト情報)と、この比較対象文書の分野が関連付けられた比較対象文書情報を記憶している。
The comparison target document
単語重み情報記憶部12は、単語と、単語が含まれる文書の分野の特徴を示す指標となる単語重みを記憶している。
The word weight
分類結果記憶部13は、分類処理部10で分類された被分類文書に関する情報と、この被分類文書で使用される使用単語の調整値を含む分類結果を記憶する。
The classification result storage unit 13 stores the classification result including the information related to the classified document classified by the
分類処理部10は、分類キー文書を比較対象文書情報と比較して、分類キー文書および比較対象文書で共通に使用されている単語である共通使用単語を抽出し、少なくともこれらの共通使用単語と、共通使用単語の使用回数と、単語重み情報記憶部から読み出した共通使用単語の単語重みと、この単語重みごとに設定され、この単語重みを調整する調整値と、を関連付て共通単語情報として生成する。また、分類処理部10は、共通単語情報から複数の比較対象文書との類似度を求め、求められた類似度の高い比較対象文書の分野に基づいて分野を特定した分類結果を求め、分類結果記憶部13に記憶させる。さらに、分類処理部10は、入力装置からの指示に基づいて、調整値を可変させて前記比較対象文書に基づいて、新たな分野を特定する。
The
図2に示すのは、比較対象文書情報記憶部11で記憶する比較対象文書情報の一例である。比較対象文書とは、分野を分類する対象となる被分類文書と比較する文書である。また、比較対象文書情報は、この比較対象文書に基づいて生成される。
FIG. 2 shows an example of comparison target document information stored in the comparison target document
具体的に図2に示す比較対象文書情報11aは、複数の比較対象文書の「タイトル」、「分野」、「使用単語」、「使用回数」および「調整値」の情報を含んでいる。「タイトル」は比較対象文書のタイトルであり、「分野」は比較対象文書に定められた分野である。また、「使用単語」は比較対象文書で使用されている単語であり、「使用回数」は、各使用単語が比較対象文書中で使用されている回数である。 Specifically, the comparison target document information 11a illustrated in FIG. 2 includes information on “title”, “field”, “use word”, “use count”, and “adjustment value” of a plurality of comparison target documents. “Title” is a title of the comparison target document, and “Field” is a field defined in the comparison target document. The “used word” is a word used in the comparison target document, and the “use count” is the number of times each used word is used in the comparison target document.
「調整値」は各被分類文書の使用単語毎に、単語重みを調整する値である。本発明の最良の実施の形態に係る文書分類装置1では、この「調整値」を変化させることにより、類似度を求めるためのパラメータが調整される。
The “adjustment value” is a value for adjusting the word weight for each used word of each classified document. In the
この図2に示す比較対象文書情報11aによれば、比較対象文書1は、タイトルが「データベース更新処理時間の短縮」であり、分野は「データベース更新」である。また、比較対象文書1の中で使用されている単語とその使用回数として、それぞれ「大規模」が2回、「データベース」が5回、「更新処理」が8回、「時間」が3回、「短縮」が2回であることを表している。また、各使用単語の「調整値」は、初期値である「1.0」が設定されている。
According to the comparison target document information 11a shown in FIG. 2, the title of the
図3は、単語重み情報記憶部12で記憶する単語重み情報12aの一例である。図3に示す単語重み情報12aでは、例えば「自動分類」の単語重みは「8.5」であり、「データベース」の単語重みは「4.3」であることを表している。
FIG. 3 is an example of word weight information 12 a stored in the word weight
この「単語重み」には、例えば比較対象文書情報記憶部11中の全ての比較対象文書におけるその使用単語の使用回数の逆数を利用する。これは、使用される回数の多い単語は一般的な単語であり、文書の特徴を表さない単語であると考え、逆に、使用される回数の少ない単語は特徴的な単語であると考える。本発明の最良の実施の形態では、分類に使用する単語重み情報として、図3に示すような単語重み情報12aが予め作成され、単語重み情報記憶部12に記憶されているものとする。
For this “word weight”, for example, the reciprocal of the number of times the used word is used in all comparison target documents in the comparison target document
本発明の最良の実施の形態に係る文書分類装置1は、図4に示すように、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103および入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107およびリムーバブルディスク108が接続されている。
As shown in FIG. 4, the
中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102から文書分類装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラムおよびデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算または加工など、後述する一連の処理を実現する処理装置である。
The central
入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109およびバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110および入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば、中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、文書分類装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号または出力信号として、入出力インタフェース109およびバス110を介して中央処理制御装置101に送受信される。
The
記憶装置107は半導体記憶装置または磁気ディスク装置等であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109およびバス110を介して中央処理制御装置101に送受信される。本発明の実施の形態に係る文書分類装置1の記憶装置107には、文書分類プログラムが記憶されるとともに、比較対象文書情報記憶部11、単語重み情報記憶部12および分類結果記憶部13が記憶される。また、この文書分類プログラムが文書分類装置1の中央処理制御装置101に読み込まれて実行されることによって、分類処理部10が実装される。
The
なお、本発明の最良の実施の形態に係る文書分類装置1は、一つのコンピュータによって実現されても良いし、互いに通信可能な複数のコンピュータによって実現されても良い。例えば、一括処理を行なうための構成と対話処理を行なうための構成は、同一のコンピュータシステム上にあっても構わないし、ネットワーク等を介して接続された別のコンピュータシステム上にあっても構わない。また、分類処理部10もそれぞれ一つのコンピュータによって実現されていても良く、また複数のコンピュータによって実現されていても良い。
The
図5に示すように、本発明の実施の形態に係る文書分類装置1における分類処理部10は制御部200およびメモリ部250を有する。
As shown in FIG. 5, the
制御部200は、初期化部201、入力部202、単語重み読み込み部203、被分類文書情報生成部204、比較対象文書情報読み込み部205、共通単語情報生成部206、比較対象文書類似度算出部207、分野別類似度積算部208、分野特定部209、類似度算出パラメータ調整部210および分類結果記憶部211を有する。
The
また、メモリ部250は、単語重みバッファ部251、被分類文書情報バッファ部252、比較対象文書情報バッファ部253、共通単語情報バッファ部254、比較対象文書類似度バッファ部255および分野別類似度積算値バッファ部256を有する。
The
単語重みバッファ部251は、比較対象文書で使用されている単語である各使用単語について、使用単語とその単語重みとが関連付けられた単語重み情報を記憶する。
The word
被分類文書情報バッファ部252は、分類の対象となる被分類文書から生成される被分類文書情報を記憶する。
The classified document
比較対象文書情報バッファ部253は、被分類文書情報と比較する比較対象文書情報を記憶する。
The comparison target document
共通単語情報バッファ部254は、被分類文書と比較対象文書で共通して使用されている単語である共通使用単語と、その共通使用単語の文書における使用回数と、その共通使用単語の単語重みと、この単語重みごとに設定されてこの単語重みを調整する調整値とを関連付けた共通単語情報を記憶する。
The common word
比較対象文書類似度バッファ部255は、被分類文書に関して求められた比較対象文書毎の共通使用単語情報に基づいて算出された類似度を比較対象文書類似度として記憶する。本発明の最良の実施の形態においては、比較対象文書類似度算出部207において比較対象文書類似度を算出し、この比較対象文書類似度に基づいて生成した比較対象文書類似度情報を記憶している。
The comparison target document similarity buffer unit 255 stores the similarity calculated based on the commonly used word information for each comparison target document obtained with respect to the classified document as the comparison target document similarity. In the best mode of the present invention, the comparison target document
分野別類似度積算値バッファ部256は、比較対象文書類似度について、その比較対象文書が属する分野毎に合計した分野別類似度積算値を記憶する。
The field-specific similarity integrated
初期化部201は、メモリ部250の各バッファ部251〜256を初期化する。
The
入力部202は、被分類文書や操作指示を入力装置を介して入力する。
The
単語重み読み込み部203は、単語重み情報記憶部12から単語重みバッファ部251に単語重み情報を読み込む。
The word
被分類文書情報生成部204は、入力部202に入力された被分類文書を単語単位に分解し、分解された各単語とその単語の使用回数とを含む被分類文書情報を生成して被分類文書情報バッファ部252に記憶させる。
The classified document
比較対象文書情報読み込み部205は、比較対象文書情報記憶部11から比較対象文書情報バッファ部253に比較対象文書情報を読み込む。
The comparison target document
共通単語情報生成部206は、被分類文書情報バッファ部252に記憶される被分類文書情報と比較対象文書情報バッファ部253に記憶される比較対象文書情報とを読み出し、被分類文書と比較対象文書で共通で使用している共通使用単語を抽出する。また、共通単語情報生成部206は、その共通使用単語の文書中での使用回数およびその共通使用単語の単語重みと調整値の初期値とを関連付けた共通単語情報を生成して共通単語情報バッファ部254に記憶させる。
The common word
比較対象文書類似度算出部207は、共通単語情報バッファ部254に記憶されている共通単語情報を読み出し、読み出した共通単語情報に含まれる共通単語の使用回数と単語重みと調整値とに基づいて、被分類文書と各比較対象文書との類似度である比較対象文書類似度を算出する。また、比較対象文書類似度算出部207は、算出した各比較対象文書類似度により、比較対象文書類似度情報を生成して、比較対象文書類似度バッファ部255に記憶させる。
The comparison target document
なお、本発明の最良の実施の形態において比較対象文書類似度を算出する方法は、被分類文書および比較対象文書の2つの文書で共通して使用されている使用単語の出現回数の和に単語重みと調整値との積を掛け合わせたものを類似度とする例を用いて説明する。しかし、この類似度の算出方法は、上記の方法に限定するものではなく、他の算出方法で求めてもよい。 In the best mode of the present invention, the method for calculating the comparison target document similarity is based on the sum of the number of used words commonly used in the two documents of the classified document and the comparison target document. This will be described using an example in which the product of the weight and the adjustment value is used as the similarity. However, the method of calculating the similarity is not limited to the above method, and may be obtained by other calculation methods.
分野別類似度積算部208は、比較対象文書類似度バッファ部255に比較対象文書類似度が記憶されると、この比較対象文書類似度を適合する分野について、各分野別に積算した分野別類似度積算値に加算し、分野別類似度積算値バッファ部256に記憶させる。
When the comparison target document similarity is stored in the comparison target document similarity buffer unit 255, the sector
分野特定部209は、分野別類似度積算値バッファ部256に記憶された分野別類似度積算値と、共通単語情報バッファ部254に記憶されている共通単語情報254aとを読み出すとともに、これらを関連付けた分野特定結果を生成し、表示装置などの出力装置に出力する。
The
類似度算出パラメータ調整部210は、入力装置を介して利用者によって単語重みを調整するために変更された調整値に基づいて、新たな共通単語情報254aに基づいて再分類させるため、共通単語情報バッファ部254の共通単語情報254aを書き替える。
The similarity calculation
分類結果記憶部211は、分類結果が確定されると、共通単語情報バッファ部254に記憶される共通単語情報254aを読み出し、確定された分類と使用単語と調整値とを含む登録用の分類結果13aを生成し、分類結果記憶部13に記憶させる。
When the classification result is confirmed, the classification
[文書分類処理]
次に、図6乃至図17を用いて、本発明の実施の形態に係る文書分類装置1における文書分類処理を説明する。図6及び図7に示すフローチャートは、分類処理部10における処理を示している。
[Document classification processing]
Next, document classification processing in the
まず、図6に示すフローチャートにあるように、初期化部201は、メモリ部250の各バッファ部251〜256を初期化する(S001)。その後、単語重み読み込み部203は、単語重み情報記憶部12から単語重みバッファ部251に単語重み情報を読み込む(S002)。
First, as shown in the flowchart of FIG. 6, the
続いて、被分類文書情報生成部204は、入力部202を介して被分類文書が入力されると、入力された被分類文書を単語単位に分解する。また被分類文書情報生成部204は、分解された各単語と各単語の使用回数とを含む被分類文書情報を生成し、生成した被分類文書情報を被分類文書情報バッファ部252に記憶させる(S003)。
Subsequently, when a classified document is input via the
図8に、入力部202を介して被分類文書情報生成部204に入力される被分類文書の一例である被分類文書1を示す。なお、文書の後半は省略されている。このような、複数の被分類文書が被分類文書情報生成部204に入力される。
FIG. 8 shows a
また、図9に、被分類文書情報生成部204において「被分類文書1」に基づいて生成された被分類文書情報252aの一例を示す。図9に示すように、被分類文書情報252aは例えば、被分類文書中で使用されている「使用単語」と、その使用単語が対象となる被分類文書中で使用されている回数である「使用回数」および「調整値」が関連付けられた情報である。ここで、この「調整値」の初期値としては、「1.0」を設定する。
FIG. 9 shows an example of classified document information 252a generated by the classified document
このステップS003の処理は、分類の対象となる被分類文書全てに対して行なわれる(S004)。例えば、被分類文書として2000の文書が入力された場合、ステップS003の処理は2000回繰り返される。 The process in step S003 is performed for all classified documents to be classified (S004). For example, when 2000 documents are input as classified documents, the process of step S003 is repeated 2000 times.
全ての被分類文書について被分類文書情報が生成されると、比較対象文書情報読み込み部205は、比較対象文書情報記憶部11から比較対象文書情報バッファ部253に比較対象文書情報11aを読み込む(S005)。
When classified document information is generated for all classified documents, the comparison target document
続いて、共通単語情報生成部206は、被分類文書情報バッファ部252から被分類文書情報252aを読み出し、比較対象文書情報バッファ部253から比較対象文書情報11aを読み出し、被分類文書と比較対象文書で共通して使用されている単語を共通使用単語として抽出するとともに、抽出された共通使用単語について被分類文書および比較対象文書で使用されている回数の合計値とを合わせて共通単語情報254aを生成し、比較対象文書毎に共通単語情報バッファ部254に記憶する(S006)。
Subsequently, the common word
その後、全ての比較対象文書について共通単語情報254aが生成されて、記憶されるまで、ステップS005及びS006の処理を繰り返す(S007)。 Thereafter, the processes in steps S005 and S006 are repeated until the common word information 254a is generated and stored for all the comparison target documents (S007).
図10に、共通単語情報254aの一例を示す。この共通単語情報254aでは、各被分類文書と比較対象文書との組み合わせ毎に、その比較対象文書の「分野」、「使用単語」、その使用単語が被分類文書および比較対象文書で使用された「使用回数」、その使用単語の「単語重み」およびその単語重みを調整する「調整値」が関連付けられて記憶されている。 FIG. 10 shows an example of the common word information 254a. In the common word information 254a, for each combination of each classified document and the comparison target document, the “field”, “used word”, and the used word of the comparison target document are used in the classified document and the comparison target document. “Use count”, “word weight” of the used word, and “adjustment value” for adjusting the word weight are stored in association with each other.
例えば、図10に示す共通単語情報254aでは、被分類文書1を比較対象文書1であるタイトルが「データベース更新処理時間の短縮」の文書と比較すると、使用単語「大規模」の使用回数は「5回」、使用単語「データベース」の使用回数は「11回」、「時間」の使用回数は「5回」であることを示している。
For example, in the common word information 254a shown in FIG. 10, when the classified
本発明の最良の実施の形態で比較対象文書類似度算出部207は、共通単語情報に含まれる共通単語の使用回数と単語重みと調整値との積を加算して、類似度を求めている。しかしながら、これ以外にもベクトル空間法を利用して類似度を算出することも可能である。
In the best embodiment of the present invention, the comparison target document
次に、比較対象文書類似度算出部207は、共通単語情報バッファ部254に記憶される共通単語情報254aを読み出して類似度を算出し、算出した類似度を比較対象文書類似度情報255aとして比較対象文書類似度バッファ部255に記憶させる(S008)。
Next, the comparison target document
この比較対象文書類似度を算出するために、まず、各共通使用単語について使用回数と単語重みとの積を算出する。各共通使用単語について求められた使用回数と単語重みとの積の合計の値を、被分類文書毎に各比較対象文書類似度とし、これらの各比較対象文書類似度に基づき比較対象文書類似度情報255aを生成する。 In order to calculate the comparison target document similarity, first, the product of the number of times of use and the word weight is calculated for each commonly used word. The total value of the product of the number of times used for each common word and the word weight is used as each comparison target document similarity for each classified document, and the comparison target document similarity is based on each comparison target document similarity. Information 255a is generated.
例えば、図10に示した「比較対象文書1」の場合、その比較対象文書類似度は5×2.1+11×4.3+5×1.7=66.3となる。
For example, in the case of “
図11に示すのは、比較対象文書類似度バッファ部255に記憶される比較対象文書類似度情報255aの一例である。 FIG. 11 shows an example of comparison target document similarity information 255 a stored in the comparison target document similarity buffer unit 255.
その後、分野別類似度積算部208は、比較対象文書類似度バッファ部255に比較対象文書類似度情報255aが記憶されると、比較対象文書類似度を分野別に積算した分野別類似度積算値に比較対象文書類似度を加算し、分野別類似度積算値情報256aを書き替えて分野別類似度積算値バッファ部256に記憶させる(S009)。
After that, when the comparison target document similarity information 255a is stored in the comparison target document similarity buffer unit 255, the field-specific
類似度算出結果が図11に示す状態にあった場合、まず、「データベース更新」という分野にはタイトルが「データベース更新処理時間の短縮」の文書について算出された類似度66.3と、タイトルが「テキストデータベース更新」の文書について算出された類似度43.5が加算され、その後に続く分類対象文書で「データベース更新」に分類される文書について算出された類似度が加算されて分野別類似度積算値とされる。 When the similarity calculation result is in the state shown in FIG. 11, first, in the field “database update”, the similarity 66.3 calculated for the document whose title is “reduction in database update processing time” and the title is The similarity 43.5 calculated for the “text database update” document is added, and the similarity calculated for the document classified as “database update” in the subsequent classification target document is added to add the similarity by field It is an integrated value.
図12に、ステップS105において、すべての比較対象文書について処理を行った結果、得られた分野別の類似度積算値から生成された分野別類似度積算値情報256aの一例を示す。 FIG. 12 shows an example of the field-specific similarity integrated value information 256a generated from the field-specific similarity integrated values obtained as a result of processing all the comparison target documents in step S105.
次に、全ての比較対象文書について算出された比較対象文書類似度が分野別類似度積算値に加算されると(S010でYES)、分野特定部209は、分野別類似度積算値バッファ部256から分野別類似度積算値情報256aを読み出して分野別類似度積算値を降順に並べるとともに、共通単語情報バッファ部254に記憶される共通単語情報254aを読み出し、分野別類似度積算値の大きい分野から順に共通単語情報254aと類似度積算値とを関連付けた分野特定結果を生成し、出力装置に出力する。この分野特定結果は、「分野名」、その分野に該当する比較対象文書の「タイトル」および「類似度」を有している。また、分野特定部209は、各比較対象文書との類似度の算出で利用した単語重みについても表示する。(S011)このときに、各単語の単語重みを書き換え可能な状態で表示する。
Next, when the comparison target document similarity calculated for all the comparison target documents is added to the field-specific similarity integrated value (YES in S010), the
図13に、ステップS011で表示される分野特定結果の表示画面600の一例を示す。また、図14に、ステップS011で表示される単語重み調整画面の表示画面601の一例を示す。図14の表示画面601の例では、使用回数の大きい順にソートして単語重みを表示している。
FIG. 13 shows an example of the field identification
図13に示す表示画面600には、単語重み調整ボタン600aが設けられ、この単語重み調整ボタン600aを押下することにより表示画面601が表示される例であるが、単語重み調整ボタン600aは必須のものではなく、分野特定結果及び単語重み調整画面が同時に表示されるものであっても良く、また、一定時間を経て順に表示されるものであっても良い。
The
続いて、類似度算出パラメータ調整部210は、ステップS011で表示した単語重みを調整する調整値の変更を受け付ける。(S012)
具体的には、利用者は、表示された被分類文書の内容と分類結果を参照し、分類結果が正しくないと判断した場合、その分類結果に含まれる分類に影響した単語とその単語重みを参照し、調整値を可変することで単語重みを調整して、変更後の調整値を利用して新たに分類結果を求めることができる。例えば、利用者は、表示された単語重みの中で、被分類文書の分野の特徴を示していないにも関わらず、高い重みが付いている場合や、逆に分野の特徴を示しているにも関わらず、低い重みが付いている場合に、その単語重みを調整することが可能となる。
Subsequently, the similarity calculation
Specifically, when the user refers to the contents of the displayed classified document and the classification result and determines that the classification result is not correct, the user selects the word that affected the classification included in the classification result and the word weight. It is possible to refer to and adjust the word weight by changing the adjustment value, and to obtain a new classification result using the changed adjustment value. For example, the user does not indicate the characteristics of the field of the classified document among the displayed word weights, but the user has a high weight, or conversely, indicates the characteristics of the field. Nevertheless, when the weight is low, the word weight can be adjusted.
図14に示す表示画面601を用いて説明すると、「調整値」を自在に変更することが可能であり、再分類開始ボタン601aを押下することで、後述するように、変更された「調整値」に基づいて再び分類が開始される。例えば、利用者が、図8に示す被分類文書に対して属する分野として、「データベース更新」や「文書検索」が適当でないと判断し、その原因が「データベース」の単語重みが高いことによると判断したとする。この場合、「データベース」の調整値を例えば0.2に変更するなど、低い値に設定し直すことができる。
Referring to the
続いて、類似度算出パラメータ調整部210で調整値が変更を受け付けたことが判断されると(S013でYES)、類似度算出パラメータ調整部210は、変更された調整値を利用して共通単語情報バッファ部254の共通単語情報254aを書き替える(S014)。具体的には、類似度算出パラメータ調整部210は、共通単語情報254aの「調整値」を書き替える。図15に、「データベース」の「調整値」を0.2に書き替えられた一例である共通単語情報254bを示す。その後、ステップS008からS013の処理を再実行する。
Subsequently, when the similarity calculation
図16に、上述した例にあるように「データベース」の「調整値」を0.2に書き替えた場合に比較対象文書1について算出された類似度により生成された比較対象文書類似度情報255bの一例を示す。このように調整した結果、被分類文書が属する分野としてあまり適当でなかった、「データベース更新」や「文書検索」分野の点数が下がり、分類先として適当な「文書分類」分野が上位に上がる結果となる。
FIG. 16 shows comparison target document similarity information 255b generated based on the similarity calculated for the
本発明の最良の実施の形態では、類似度算出の中間データとして、共通単語とその単語重みを調整する調整値を用いたが、これらに限られず、複数の方式により算出した値に基づいて、それらの複数の値の比率などを調整して、分野を特定する実施の形態も考えられる。 In the best embodiment of the present invention, the adjustment value for adjusting the common word and its word weight is used as intermediate data for similarity calculation, but is not limited thereto, and based on values calculated by a plurality of methods, An embodiment in which the field is specified by adjusting the ratio of the plurality of values is also conceivable.
ステップS013の判定で調整を受け付けられていなかった場合(S013でNO)、現在設定されている調整値で確定されたと判断し、分類結果記憶部211は、共通単語情報バッファ部254に記憶される共通単語情報に基づいて、重み調整済みの登録用の分類結果13aを生成し、分類結果記憶部13に記憶させる。
If the adjustment is not accepted in the determination of step S013 (NO in S013), it is determined that the adjustment value is currently set, and the classification
図17に、分類結果記憶部13に記憶された登録用の分類結果13aを示す。図17に示す分類結果13aは、被分類文書1について生成された登録用の分類結果13aであり、分野及び被分類文書1の内容と共に使用単語と関連付けられた調整値を含んでいる。
FIG. 17 shows a registration classification result 13 a stored in the classification result storage unit 13. The classification result 13a shown in FIG. 17 is a registration classification result 13a generated for the classified
上述したステップS008〜009の処理は、対象となる全ての被分類文書に対して繰り返される(S016)。例えば、被分類文書として2000件分の文書が入力された場合、2000回繰り返される。 The above-described processing of steps S008 to 009 is repeated for all the classified documents to be processed (S016). For example, when 2000 documents are input as classified documents, the process is repeated 2000 times.
上述した本発明によれば、分類の対象である被分類文書ごとに分類に利用されるパラメータを可変して分類することが出来る。これにより、分類の精度を向上させることが可能になる。 According to the present invention described above, the parameters used for classification can be classified for each classified document that is the classification target. This makes it possible to improve the classification accuracy.
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。 As described above, the embodiments of the present invention have been described. However, it should not be understood that the descriptions and drawings constituting a part of this disclosure limit the present invention. From this disclosure, various alternative embodiments, examples, and operational techniques will be apparent to those skilled in the art.
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明に記載した事項と自明な特許請求の範囲に係る発明特定事項によってのみ定められるものである。 It goes without saying that the present invention includes various embodiments not described herein. Therefore, the technical scope of the present invention is defined only by the matters described in the above description and the invention specific matters according to the obvious claims.
1…文書分類装置
10…分類処理部
11…比較対象文書情報記憶部
11a…比較対象文書情報
12…単語重み情報記憶部
12a…単語重み情報記憶部
101…中央処理制御装置
102…ROM
103…RAM
104…入力装置
105…表示装置
106…通信制御装置
107…記憶装置
108…リムーバブルディスク
109…入出力インタフェース
110…バス
200…制御部
201…初期化部
202…入力部
203…単語重み読み込み部
204…被分類文書情報生成部
205…比較対象文書情報読み込み部
206…共通単語情報生成部
207…比較対象文書類似度算出部
208…分野別類似度積算部
209…分野特定部
210…類似度算出パラメータ調整部
211…分類結果記憶部
250…メモリ部
251…単語重みバッファ部
252…被分類文書情報バッファ部
252a…被分類文書情報
253…比較対象文書情報バッファ部
254…共通単語情報バッファ部
254a,254b…共通単語情報
255…比較対象文書類似度バッファ部
255a,255b…比較対象文書類似度情報
256…分野別類似度積算値バッファ部
256a…分野別類似度積算値情報
600…表示画面
600a…調整ボタン
601…表示画面
601a…再分類開始ボタン
DESCRIPTION OF
103 ... RAM
DESCRIPTION OF
Claims (8)
前記被分類文書と比較する比較対象文書の情報と、この比較対象文書の分野とを比較対象文書情報として記憶する比較対象文書情報記憶部と、
単語と、この単語の単語重みを記憶する単語重み情報記憶部と、
前記被分類文書を前記比較対象文書情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、前記共通使用単語と、前記共通使用単語の使用回数と、前記単語重み情報記憶部から読み出した前記共通使用単語の単語重みと、この単語重みごとに設定されて単語重みを調整する調整値とを共通単語情報として生成し、この生成された前記共通単語情報に基づいて複数の比較対象文書と前記被分類文書との類似度を求め、この求められた類似度に基づいて分野を特定し、入力装置からの指示に基づいて前記調整値を可変させて前記比較対象文書に基づいて新たな分野を特定する分類処理部と、
を有することを特徴とする文書分類装置。 A document classification device for classifying a field to which an inputted classified document belongs,
A comparison target document information storage unit that stores information of a comparison target document to be compared with the classified document and a field of the comparison target document as comparison target document information;
A word and a word weight information storage unit for storing the word weight of the word;
The classified document is compared with the comparison target document information to extract a common use word that is commonly used in the classified document and the comparison target document, the common use word, and the number of times the common use word is used, The word weight of the commonly used word read from the word weight information storage unit and an adjustment value that is set for each word weight and adjusts the word weight are generated as common word information, and the generated common word A similarity between a plurality of comparison target documents and the classified document is obtained based on information, a field is specified based on the obtained similarity, and the adjustment value is varied based on an instruction from an input device. A classification processing unit that identifies a new field based on the comparison target document;
A document classification apparatus comprising:
前記被分類文書と比較する比較対象文書の情報と、この比較対象文書の分野とを比較対象文書情報として記憶する比較対象文書情報記憶部と、
単語と、この単語の単語重みを記憶する単語重み情報記憶部と、
前記被分類文書を前記比較対象文書情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、前記共通使用単語と、前記共通使用単語の使用回数と、前記単語重み情報記憶部から読み出した前記共通使用単語の単語重みと、この単語重みごとに設定されて単語重みを調整する調整値とを共通単語情報として生成する共通単語情報生成部と、
前記共通単語情報に含まれる各共通使用単語の使用回数とその共通使用単語の単語重みと単語重みに関連付けられる調整値とに基づいて類似度を算出する類似度算出部と、
この類似度算出部で求められた類似度に基づいて前記被分類文書の属する分野を特定して分類結果とする分野特定部と、
前記調整値を可変させる類似度パラメータ調整部と、
前記分類結果が確定されると、前記被分類文書の各使用単語の調整値を含む分類結果を生成して記憶装置に記憶させる分類結果記憶部と、
を有することを特徴とする文書分類装置。 A document classification device for classifying a field to which an inputted classified document belongs,
A comparison target document information storage unit that stores information of a comparison target document to be compared with the classified document and a field of the comparison target document as comparison target document information;
A word and a word weight information storage unit for storing the word weight of the word;
The classified document is compared with the comparison target document information to extract a common use word that is commonly used in the classified document and the comparison target document, the common use word, and the number of times the common use word is used, A common word information generation unit that generates, as common word information, the word weight of the commonly used word read from the word weight information storage unit and an adjustment value that is set for each word weight and adjusts the word weight;
A similarity calculation unit that calculates a similarity based on the number of times of use of each commonly used word included in the common word information, the word weight of the commonly used word, and an adjustment value associated with the word weight;
A field identification unit that identifies the field to which the classified document belongs based on the similarity obtained by the similarity calculation unit and sets the classification result;
A similarity parameter adjustment unit that varies the adjustment value;
When the classification result is confirmed, a classification result storage unit that generates a classification result including an adjustment value of each used word of the classified document and stores it in a storage device;
A document classification apparatus comprising:
特定の共通使用単語の調整値を可変して共通単語情報を生成することを特徴とする文書分類装置。 The document classification apparatus according to claim 2, wherein the similarity parameter adjustment unit includes:
A document classification apparatus, wherein common word information is generated by varying an adjustment value of a specific common use word.
前記各共通単語の使用回数と単語重みと共通使用単語との積の合計を算出し、この算出された合計の値を類似度とすることを特徴とする文書分類装置。 The document classification device according to claim 2, wherein the similarity calculation unit includes:
A document classification apparatus characterized in that a sum of products of the number of times of use of each common word, a word weight, and a common word is calculated and the calculated total value is used as a similarity.
前記被分類文書を前記被分類文書と比較するための比較対象文書の情報と、この比較対象文書の分野が関連付けられた比較対象文書情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、この共通使用単語と、共通使用単語の使用回数と、共通使用単語の単語重みと、この単語重みごとに設定された単語重みを調整する調整値とを共通単語情報として生成し、この生成された前記共通単語情報から複数の比較対象文書と前記被分類文書との類似度を求め、この求められた類似度に基づいて分野を特定し、入力装置からの指示に基づいて、前記調整値を可変させて、前記比較対象文書に基づいて新たな分野を特定する分類処理ステップ、
を有することを特徴とする文書分類方法。 A document classification method for classifying a field to which an input classified document belongs,
The comparison target document information for comparing the classified document with the classified document is compared with the comparison target document information associated with the field of the comparison target document. The commonly used words used are extracted, and the commonly used words, the number of times the common used words are used, the word weights of the commonly used words, and adjustment values for adjusting the word weights set for the respective word weights. It is generated as common word information, a similarity between a plurality of comparison target documents and the classified document is obtained from the generated common word information, a field is specified based on the obtained similarity, and an input device A classification processing step of varying the adjustment value based on the instruction and specifying a new field based on the comparison target document;
A document classification method characterized by comprising:
前記被分類文書を前記被分類文書と比較するための比較対象文書の情報と比較して被分類文書と比較対象文書とで共通に使用されている共通使用単語を抽出し、この共通使用単語と、共通使用単語の使用回数と、共通使用単語の単語重みと、この単語重みごとに設定されて単語重みを調整する調整値とを共通単語情報としてを生成する共通単語情報生成ステップと、
各共通使用単語の使用回数とその共通使用単語の単語重みと単語重みに関連付けられる調整値とに基づいて類似度を算出する類似度算出ステップと、
被分類文書について求められた類似度に基づいて前記被分類文書の属する分野を特定して分類結果とする分野特定ステップと、
前記調整値を可変させる類似度パラメータ調整ステップと、
前記分類結果が確定されると、前記被分類文書の各使用単語の調整値を含む分類結果を生成して記憶装置に記憶させる分類結果記憶ステップと、
を有することを特徴とする文書分類方法。 A document classification method for classifying a field to which an input classified document belongs,
Comparing the classified document with the information of the comparison target document for comparing the classified document with the classified document, the common used word commonly used in the classified document and the comparison target document is extracted, A common word information generation step for generating, as common word information, the number of times of use of the common use word, the word weight of the common use word, and an adjustment value that is set for each word weight and adjusts the word weight;
A similarity calculation step of calculating a similarity based on the number of times of use of each commonly used word, the word weight of the commonly used word, and an adjustment value associated with the word weight;
A field specifying step of specifying the field to which the classified document belongs based on the similarity obtained for the classified document and making it a classification result;
A similarity parameter adjustment step for varying the adjustment value;
When the classification result is confirmed, a classification result storing step of generating a classification result including an adjustment value of each used word of the classified document and storing it in a storage device;
A document classification method characterized by comprising:
特定の共通使用単語の調整値を可変して共通単語情報を生成することを特徴とする文書分類方法。 The document classification method according to claim 6, wherein the similarity parameter adjustment step includes:
A document classification method, characterized in that common word information is generated by varying an adjustment value of a specific commonly used word.
前記各共通単語の使用回数と単語重みと共通使用単語との積の合計を算出し、この算出された合計の値を類似度とすることを特徴とする文書分類方法。 The document classification method according to claim 6 or 7, wherein the similarity calculation step includes:
A document classification method characterized in that a sum of products of the number of times of use of each common word, word weight, and a common word is calculated, and the calculated total value is used as a similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096374A JP2006277413A (en) | 2005-03-29 | 2005-03-29 | Document classification device and document classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096374A JP2006277413A (en) | 2005-03-29 | 2005-03-29 | Document classification device and document classification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006277413A true JP2006277413A (en) | 2006-10-12 |
Family
ID=37212098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005096374A Pending JP2006277413A (en) | 2005-03-29 | 2005-03-29 | Document classification device and document classification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006277413A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011503681A (en) * | 2007-09-28 | 2011-01-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for analysis of systems for matching data records |
JP2011233164A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
JP2011233163A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
US8375022B2 (en) | 2010-11-02 | 2013-02-12 | Hewlett-Packard Development Company, L.P. | Keyword determination based on a weight of meaningfulness |
US8510338B2 (en) | 2006-05-22 | 2013-08-13 | International Business Machines Corporation | Indexing information about entities with respect to hierarchies |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US8589415B2 (en) | 2006-09-15 | 2013-11-19 | International Business Machines Corporation | Method and system for filtering false positives |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
JPWO2017072822A1 (en) * | 2015-10-30 | 2018-07-26 | 株式会社Fronteo | Relevance evaluation system, method, program, and recording medium |
US10380554B2 (en) | 2012-06-20 | 2019-08-13 | Hewlett-Packard Development Company, L.P. | Extracting data from email attachments |
CN112447301A (en) * | 2020-11-30 | 2021-03-05 | 山东健康医疗大数据有限公司 | Medical data aggregation method and device |
-
2005
- 2005-03-29 JP JP2005096374A patent/JP2006277413A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510338B2 (en) | 2006-05-22 | 2013-08-13 | International Business Machines Corporation | Indexing information about entities with respect to hierarchies |
US8589415B2 (en) | 2006-09-15 | 2013-11-19 | International Business Machines Corporation | Method and system for filtering false positives |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US9286374B2 (en) | 2007-09-28 | 2016-03-15 | International Business Machines Corporation | Method and system for indexing, relating and managing information about entities |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
US8799282B2 (en) | 2007-09-28 | 2014-08-05 | International Business Machines Corporation | Analysis of a system for matching data records |
JP2011503681A (en) * | 2007-09-28 | 2011-01-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and system for analysis of systems for matching data records |
US9600563B2 (en) | 2007-09-28 | 2017-03-21 | International Business Machines Corporation | Method and system for indexing, relating and managing information about entities |
US10698755B2 (en) | 2007-09-28 | 2020-06-30 | International Business Machines Corporation | Analysis of a system for matching data records |
US8375022B2 (en) | 2010-11-02 | 2013-02-12 | Hewlett-Packard Development Company, L.P. | Keyword determination based on a weight of meaningfulness |
JP2011233163A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
JP2011233164A (en) * | 2011-07-21 | 2011-11-17 | Mitsubishi Electric Corp | Sentence associating system and sentence associating program |
US10380554B2 (en) | 2012-06-20 | 2019-08-13 | Hewlett-Packard Development Company, L.P. | Extracting data from email attachments |
JPWO2017072822A1 (en) * | 2015-10-30 | 2018-07-26 | 株式会社Fronteo | Relevance evaluation system, method, program, and recording medium |
CN112447301A (en) * | 2020-11-30 | 2021-03-05 | 山东健康医疗大数据有限公司 | Medical data aggregation method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107978311B (en) | Voice data processing method and device and voice interaction equipment | |
CN112151035B (en) | Voice control method and device, electronic equipment and readable storage medium | |
JP4429236B2 (en) | Classification rule creation support method | |
US11093537B2 (en) | Information processing method, information processing apparatus, and non-transitory recording medium | |
CN115968480A (en) | Production process optimization method and production process optimization system | |
JP2006277413A (en) | Document classification device and document classification method | |
CN116705018A (en) | Voice control method, voice control device, electronic equipment and readable storage medium | |
CN110597082A (en) | Intelligent household equipment control method and device, computer equipment and storage medium | |
WO2021135290A1 (en) | Information visualization method, apparatus and device based on knowledge graph, and storage medium | |
JP6622938B1 (en) | Correlation extraction method and correlation extraction program | |
CN117396896A (en) | Prediction device, learning device, prediction method, learning method, prediction program, and learning program | |
JPH07129597A (en) | Database retrieving device | |
JP7613607B2 (en) | Bayesian optimization device, Bayesian optimization method, and Bayesian optimization program | |
JP2009251810A (en) | Data classification apparatus, data classification method, data classification program and electronic equipment | |
JP7264911B2 (en) | Pattern recognition device and trained model | |
CN116049414B (en) | Topic description-based text clustering method, electronic equipment and storage medium | |
JP2006099478A (en) | Document classification device and document classification method | |
CN115393659B (en) | Personalized classification process optimization method and device based on multi-level decision tree | |
CN107506463B (en) | A data classification and processing method and device | |
US11676050B2 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes | |
JP5488200B2 (en) | Dialog apparatus, dialog method, and program | |
JP2018163586A (en) | Learning program, learning method and learning apparatus | |
JP5127911B2 (en) | Data clustering apparatus and method | |
JP7268347B2 (en) | IDENTIFICATION DEVICE, IDENTIFICATION METHOD AND PROGRAM | |
JPWO2017163342A1 (en) | Computer system and data classification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081202 |