[go: up one dir, main page]

JP2018194881A - Document classification system and document classification method - Google Patents

Document classification system and document classification method Download PDF

Info

Publication number
JP2018194881A
JP2018194881A JP2017095341A JP2017095341A JP2018194881A JP 2018194881 A JP2018194881 A JP 2018194881A JP 2017095341 A JP2017095341 A JP 2017095341A JP 2017095341 A JP2017095341 A JP 2017095341A JP 2018194881 A JP2018194881 A JP 2018194881A
Authority
JP
Japan
Prior art keywords
classification
document
word
basis
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017095341A
Other languages
Japanese (ja)
Other versions
JP6814091B2 (en
Inventor
亮平 加嶋
Ryohei Kashima
亮平 加嶋
久雄 間瀬
Hisao Mase
久雄 間瀬
光一 岡本
Koichi Okamoto
光一 岡本
康充 池浦
Yasumitsu Ikeura
康充 池浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017095341A priority Critical patent/JP6814091B2/en
Publication of JP2018194881A publication Critical patent/JP2018194881A/en
Application granted granted Critical
Publication of JP6814091B2 publication Critical patent/JP6814091B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書分類システムにおいて、キーワードに基づいて文書を分類するときに、その分類根拠を明示し、その分類の根拠となったキーワードについて妥当か否かを検証できるようにする。【解決手段】文書に分類を付与する文書分類システムであって、分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、分類付与対象の文書を読み込み、モデル情報を用いて、分類対象の文書に複数の分類を付与する分類部を有し、当該分類を付与する根拠となった分類付与対象の単語または文を出力する。特に、根拠となった単語または文のリストと、文書中で根拠となった単語または文が強調された文書とを出力する。【選択図】 図1In a document classification system, when a document is classified based on a keyword, the basis for the classification is specified, and it is possible to verify whether the keyword that is the basis for the classification is valid. A document classification system for assigning a classification to a document, comprising model information created by reading a classified document as teacher data, reading the document to be classified, and using the model information to classify the document A classification unit that assigns a plurality of classifications to the document, and outputs a word or sentence to be classified as a basis for assigning the classifications. In particular, a list of words or sentences that are the basis and a document in which the words or sentences that are the basis in the document are emphasized are output. [Selection] Figure 1

Description

本発明は、文書分類システムおよび文書分類方法に係り、特に、特許文書を機械学習により分類した場合にその分類根拠を明示的に表示するのに好適な文書分類システムおよび文書分類方法に関する。   The present invention relates to a document classification system and a document classification method, and more particularly to a document classification system and a document classification method suitable for explicitly displaying a classification basis when a patent document is classified by machine learning.

特許出願に対しては、国際特許分類(IPC:International Patent Class)や、FI(File Index)、Fタームといった特許分類が付与されている。従来、これらの特許分類は人手で付与されているため、そのための労力やコストが小さくない。そのため、特許分類を、コンピュータにより自動で付与することが検討されている。   Patent applications such as International Patent Class (IPC), FI (File Index), and F-term are assigned to patent applications. Conventionally, since these patent classifications are assigned manually, the labor and cost for the classification are not small. For this reason, it has been studied to automatically assign a patent classification by a computer.

文書の自動分類には、例えば、特許文献1がある。特許文献1には、文書を解析し、単語と一致するキーワードの出現頻度により、分類項目毎に集計して、文書を自動分類する技術が開示されている。   For example, Patent Document 1 is an example of automatic document classification. Patent Document 1 discloses a technique for automatically classifying a document by analyzing the document and counting the classified items for each classification item based on the appearance frequency of keywords that match the word.

特開2003−36261号公報JP 2003-36261 A

特許文献1に記載の文書自動分類に係る技術では、予め分類ごとにキーワードを分類してその情報を保持しておき(図3)、このキーワードが出現することの多い文書をその分類項目に属するものとして分類している。そして、ユーザに対する分類結果は、図20、図21のような形式で表示される(段落番号0101、0103)。   In the technology related to automatic document classification described in Patent Document 1, keywords are classified for each classification in advance and the information is retained (FIG. 3), and documents in which the keywords frequently appear belong to the classification items. It is classified as a thing. Then, the classification result for the user is displayed in a format as shown in FIGS. 20 and 21 (paragraph numbers 0101 and 0103).

しかしながら、文書の分類結果を受取るユーザにとっては、その分類根拠が示されず、その分類結果がどの程度信頼できるものかの定量的な評価をすることができない。また、分類根拠となったキーワードが分類結果を確認するユーザに示されないため、そのキーワードによる分類の妥当性を評価することもできなかった。   However, for the user who receives the document classification result, the classification basis is not shown, and it is impossible to quantitatively evaluate how reliable the classification result is. In addition, since the keyword that is the basis for classification is not shown to the user who confirms the classification result, the validity of the classification based on the keyword cannot be evaluated.

また、データベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることもできない。   In addition, related documents that include the same keyword stored in the database and belong to the same category cannot be displayed.

特許文献の分類のように、膨大な文書がどの分類に属するかを定める場合には、ユーザ(例えば、特許庁の審査官)は、その分類の根拠となったキーワードについて妥当か否かを検証したいという要請が生じる。また、審査において、ある特許文書の関連した文書を調べることも重要になってくる。同じ技術分野に属する特許文書を検索したいという要請は、企業の担当者が、研究や侵害事件に関連して特許文書をアクセスする場合でも同様である。   When categorizing a vast number of documents, such as a classification of patent documents, a user (for example, an examiner of the Patent Office) verifies whether or not the keyword that is the basis of the classification is valid. A request to do so arises. It is also important to examine documents related to a patent document during examination. The request to search for patent documents belonging to the same technical field is the same even when the person in charge of the company accesses the patent documents in connection with research or infringement cases.

本発明の目的は、キーワードに基づいて文書を分類するときに、その分類根拠を明示し、その分類の根拠となったキーワードについて妥当か否かを検証できる文書分類システムを提供することにある。   An object of the present invention is to provide a document classification system that, when classifying documents based on keywords, clearly indicates the classification basis and verifies whether the keyword that is the basis of the classification is valid.

また、そのデータベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることのできる文書分類システムを提供することにある。   It is another object of the present invention to provide a document classification system that can display related documents that include the same keyword stored in the database and belong to the same classification.

上記課題を解決するために、本発明の文書分類システムは、好ましくは、文書に分類を付与する文書分類システムであって、分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、分類付与対象の文書を読み込み、モデル情報を用いて、分類対象の文書に複数の分類を付与する分類部を有し、当該分類を付与する根拠となった分類付与対象の単語または文を出力する。   In order to solve the above problems, the document classification system of the present invention is preferably a document classification system for assigning a classification to a document, comprising model information created by reading a classified document as teacher data, A document to be assigned is read, using a model information, has a classification unit that assigns a plurality of classifications to the document to be classified, and outputs a word or sentence to be classified that is a basis for giving the classification.

本発明によれば、キーワードに基づいて文書を分類するときに、その分類根拠を明示し、その分類の根拠となったキーワードについて妥当か否かを検証できる文書分類システムを提供することができる。   According to the present invention, when a document is classified based on a keyword, it is possible to provide a document classification system that clearly indicates the classification basis and can verify whether the keyword that is the basis of the classification is valid.

また、本発明によれば、そのデータベースに格納されている同じキーワードを含んでおり、同じ分類に属する関連文書を表示させることのできる文書分類システムを提供することができる。   In addition, according to the present invention, it is possible to provide a document classification system that can display related documents that include the same keyword stored in the database and belong to the same classification.

文書分類システムの全体構成図である。1 is an overall configuration diagram of a document classification system. 文献情報テーブル221の一例を示す図である。6 is a diagram illustrating an example of a document information table 221. FIG. 分類情報テーブル222の一例を示す図である。5 is a diagram illustrating an example of a classification information table 222. FIG. 分類付与精度情報テーブル223の一例を示す図である。It is a figure which shows an example of the classification provision accuracy information table 223. 単語重みテーブル224の一例を示す図である。It is a figure which shows an example of the word weight table 224. 文重みテーブル225の一例を示す図である。It is a figure which shows an example of the sentence weight table 225. 文献ファイル226の一例を示す図である。6 is a diagram illustrating an example of a document file 226. FIG. モデル情報作成処理を示すフローチャートである。It is a flowchart which shows a model information creation process. NAMによる学習と分類の概要を説明する図である。It is a figure explaining the outline | summary of the learning and classification by NAM. 文献分類処理の概要を示すフローチャートである。It is a flowchart which shows the outline | summary of a document classification | category process. 文献分類から分類結果を表示するまでの処理を示すフローチャートである。It is a flowchart which shows the process until it displays a classification result from literature classification. 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その一)。It is a figure which shows the classification result display screen of the document classification system which concerns on this embodiment (the 1). 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その二)。It is a figure which shows the classification result display screen of the document classification system which concerns on this embodiment (the 2). 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その三)。It is a figure which shows the classification result display screen of the document classification system which concerns on this embodiment (the 3). 本実施形態に係る文書分類システムの分類結果表示画面を示す図である(その四)。It is a figure which shows the classification result display screen of the document classification system which concerns on this embodiment (the 4).

以下、本発明に係る一実施形態を、図1ないし図15を用いて説明する。   Hereinafter, an embodiment according to the present invention will be described with reference to FIGS.

本実施形態では、特許文献を出現単語により解析して、Fターム、FIによる分類する文書分類システムの例について説明する。   In the present embodiment, an example of a document classification system that analyzes patent documents based on appearance words and classifies them according to F-term and FI will be described.

例えば、US、EPなどの外国特許文献は、IPCは、付与されているが、日本国特許庁の分類体系であるFターム、FIによる分類は、通常、付与されていない。実施形態の文書分類システムでは、そのような状況で、Fターム、FIが付与されていない外国特許文献に、Fターム、FIよる分類を付与する例について説明する。このときに、日本の特許文献には、Fターム、FIの分類が付与されているため、その日本の特許文献を機械翻訳した文書を、分類のため学習の教師データとすることができ、分類の精度(後述)も評価することができる。   For example, IPC is given to foreign patent documents such as US and EP, but classification by F-term and FI, which are classification systems of the Japan Patent Office, is not usually given. In the document classification system according to the embodiment, an example will be described in which a classification based on F terms and FIs is given to foreign patent documents to which F terms and FIs are not given in such a situation. At this time, since Japanese patent documents are assigned F-term and FI classifications, a document obtained by machine translation of the Japanese patent documents can be used as learning data for classification. The accuracy (described later) can also be evaluated.

先ず、図1を用いて本発明に係る文書分類システムの構成について説明する。
図1は、文書分類システムの全体の機能構成を示したものであり、本実施形態の文書分類システムは、図1に示されるように、利用者端末10、AP(Application)サーバ100、DBサーバ200、文書分類サーバ300がネットワーク5で接続された形態である。
First, the configuration of the document classification system according to the present invention will be described with reference to FIG.
FIG. 1 shows the overall functional configuration of a document classification system. As shown in FIG. 1, the document classification system of this embodiment includes a user terminal 10, an AP (Application) server 100, and a DB server. 200, a document classification server 300 is connected via a network 5.

利用者端末10は、APサーバ100にアクセスして、文書分類システムの各種機能の提供を受けるクライアント端末である。利用者端末10は、UI(User Interface)部11を有し、各種コマンド、データの入力や、APサーバ100が作成した画像データの表示をおこなう。   The user terminal 10 is a client terminal that accesses the AP server 100 and receives various functions of the document classification system. The user terminal 10 has a UI (User Interface) unit 11 and inputs various commands and data and displays image data created by the AP server 100.

AP(Application)サーバ100は、文書分類のアプリケーションソフトウェアを実行するサーバであり、文書検索や文書検索に関する情報の表示のための画像データを作成する。APサーバ100は、図1に示されるように、演算部110を有しており、演算部110には、検索部111と、付与根拠編集部112、画面表示データ作成部113の各機能部を有する。検索部111は、利用者端末10からの文献の番号等の入力を受付け、文献を検索する機能部である。付与根拠編集部112は、文献の分類のための分類付与のための情報を、文献番号と関連付けて編集する機能部である。画面表示データ作成部113は、利用者端末10に表示するための画面表示データを作成する機能部である。例えば、APサーバ100は、Webサーバであり、画面表示データ作成部113は、HTML(HyperText Markup Language)ファイルを作成し、HTTP(Hypertext Transfer Protocol)によりそれを利用者端末10に送信する。利用者端末10のUI部11には、ブラウザが実装されており、送信されてきたHTMLファイルをそのブラウザにより表示する。ただし、利用者端末10のUI部11には、専用の画面表示ソフトウェアを実装して、画面表示データ作成部113が独自形式の画面表示データを作成して、それを利用者端末10に送信するようにしてもよい。   An AP (Application) server 100 is a server that executes application software for document classification, and creates image data for displaying a document search and information related to the document search. As shown in FIG. 1, the AP server 100 includes a calculation unit 110, and the calculation unit 110 includes functional units such as a search unit 111, an assignment basis editing unit 112, and a screen display data creation unit 113. Have. The search unit 111 is a functional unit that receives an input such as a document number from the user terminal 10 and searches for a document. The grant basis editing unit 112 is a functional unit that edits information for class grant for classifying documents in association with the document number. The screen display data creation unit 113 is a functional unit that creates screen display data to be displayed on the user terminal 10. For example, the AP server 100 is a Web server, and the screen display data creation unit 113 creates an HTML (HyperText Markup Language) file and transmits it to the user terminal 10 using HTTP (Hypertext Transfer Protocol). The UI unit 11 of the user terminal 10 is equipped with a browser, and the transmitted HTML file is displayed by the browser. However, dedicated screen display software is installed in the UI unit 11 of the user terminal 10, and the screen display data creation unit 113 creates screen display data in a unique format and transmits it to the user terminal 10. You may do it.

DBサーバ200は、文献情報や分類に関する情報などの各種データを保存し、アクセスする手段を提供するためのサーバであり、図1に示されるように、演算部210と記憶部220を有する。演算部210は、変換処理部211、集計処理部212の各機能部からなる。そして、変換処理部211は、文書分類サーバ300の分類付与処理部312が算出した分類や分類根拠を、データベースに適合するように編集し、分類付与情報として、分類情報テーブル222に、分類根拠情報として、単語重みテーブル224、文重みテーブル225に記憶する機能部である。集計処理部212は、分類情報テーブル222に記憶された分類に基づいて、分類の精度を算出して、付与精度情報として、分類付与精度情報テーブル223を作成する機能部である。記憶部220は、各種データ、テーブルを格納する機能部であり、文献情報テーブル221、分類情報テーブル222、分類付与精度情報テーブル223、単語重みテーブル224、文重みテーブル225、文献ファイル226を保持する。なお、データとテーブルの内容の詳細は詳述する。   The DB server 200 is a server for storing and accessing various data such as literature information and information related to classification, and includes a calculation unit 210 and a storage unit 220 as shown in FIG. The calculation unit 210 includes functional units such as a conversion processing unit 211 and a totalization processing unit 212. Then, the conversion processing unit 211 edits the classification and classification basis calculated by the classification assignment processing unit 312 of the document classification server 300 so as to match the database, and stores the classification basis information in the classification information table 222 as the classification assignment information. As a functional unit stored in the word weight table 224 and the sentence weight table 225. The aggregation processing unit 212 is a functional unit that calculates the accuracy of classification based on the classification stored in the classification information table 222 and creates the classification provision accuracy information table 223 as the provision accuracy information. The storage unit 220 is a functional unit that stores various data and tables, and holds a document information table 221, a classification information table 222, a classification assignment accuracy information table 223, a word weight table 224, a sentence weight table 225, and a document file 226. . Details of the data and the contents of the table will be described in detail.

文書分類サーバ300は、文献の自動分類の機能を提供するサーバであり、図1に示されるように、演算部310と記憶部320を有する。そして、演算部310は、学習処理部311、分類付与処理部312、単語の文脈ベクトル重み計算部313、文の文脈ベクトル重み計算部314の各機能部からなる。学習処理部311は、分類付与済みの文献データ(教師データ)を学習し、モデル情報を作成・更新する機能部である。分類付与処理部312は、分類対象文献に、分類付与を実行し、分類根拠も特定する機能部である。単語の文脈ベクトル重み計算部313は、学習していく中で適正になるように重みα(後述)を調整していく機能部である。文の文脈ベクトル重み計算部314は、学習していく中で適正になるように重みβ(後述)を調整していく機能部である。記憶部320は、学習済みモデルのモデル情報321を格納する機能部である。学習済みモデルのモデル情報321については、後に詳説する。   The document classification server 300 is a server that provides an automatic document classification function, and includes a calculation unit 310 and a storage unit 320 as shown in FIG. The calculation unit 310 includes functional units such as a learning processing unit 311, a classification assignment processing unit 312, a word context vector weight calculation unit 313, and a sentence context vector weight calculation unit 314. The learning processing unit 311 is a functional unit that learns document data (teacher data) that has been classified and creates / updates model information. The classification assignment processing unit 312 is a functional unit that performs classification assignment on a classification target document and also specifies a classification basis. The word context vector weight calculation unit 313 is a functional unit that adjusts a weight α (described later) so as to be appropriate during learning. The sentence context vector weight calculation unit 314 is a functional unit that adjusts a weight β (described later) so as to be appropriate during learning. The storage unit 320 is a functional unit that stores model information 321 of the learned model. The model information 321 of the learned model will be described in detail later.

APサーバ100、DBサーバ200、文書分類サーバ300は、いずれも一般的なサーバ装置に、必要なアプリケーションソフトウェアを実行することにより実現され、CPUが主記憶装置上にそれらのアプリケーションソフトウェアをHDDなど補助記憶装置からロードして実行することにより機能が実現される。利用者端末10も、一般的なPC(Personal Computer)などの情報処理装置に、必要なアプリケーションソフトウェアを実行することにより実現され、CPUが主記憶装置上にそれらのアプリケーションソフトウェアをHDDなど補助記憶装置からロードして実行することにより機能が実現される。   Each of the AP server 100, the DB server 200, and the document classification server 300 is realized by executing necessary application software on a general server device, and the CPU assists the application software on the main storage device such as an HDD. Functions are realized by loading and executing from a storage device. The user terminal 10 is also realized by executing necessary application software in an information processing device such as a general PC (Personal Computer), and the CPU stores the application software on the main storage device such as an HDD. The function is realized by loading and executing from above.

APサーバ100、DBサーバ200、文書分類サーバ300は、図1で示したように分離した形態でなくとも、各サーバが一つになって実現されていてもよい。また、図1では、文書分類システムを、サーバ、クライアント構成で実現する構成について示したが、一つの情報処理装置に必要なアプリケーションソフトウェアをインストールした、いわゆるオールインワンの構成であってもよい。   The AP server 100, the DB server 200, and the document classification server 300 may not be separated as shown in FIG. FIG. 1 shows a configuration in which the document classification system is realized by a server and client configuration. However, a so-called all-in-one configuration in which application software necessary for one information processing apparatus is installed may be used.

次に、図2ないし図7を用いて文書分類システムに用いられるデータ構造について説明する。   Next, the data structure used in the document classification system will be described with reference to FIGS.

文献情報テーブル221は、分類の対象となる文献の情報を格納するテーブルであり、図2に示されるように、文献ID221a、パス221b、文献ファイル名221c、言語221d、ファミリ文献ID221eの各フィールドよりなる。文献ID221aには、文献を識別するための識別子が格納される。パス221bには、文献の格納場所を表すDBサーバ200のファイルシステムにおけるディレクトリが格納される。文献ファイル名221cには、文献のファイル名が格納される。本実施形態では、特許文献を扱っているため、例えば、文献ファイル名としては、出願番号や公開番号が用いられる。言語221dには、文献に使用されている言語のコードが格納される。ファミリ文献ID221cには、優先権主張や分割出願などを行ったときの親出願の文献IDが格納される。   The document information table 221 is a table for storing information on documents to be classified. As shown in FIG. 2, the document information table 221 includes fields of a document ID 221a, a path 221b, a document file name 221c, a language 221d, and a family document ID 221e. Become. The document ID 221a stores an identifier for identifying a document. In the path 221b, a directory in the file system of the DB server 200 representing the storage location of the document is stored. The document file name 221c stores the file name of the document. In this embodiment, since patent documents are handled, for example, an application number or a publication number is used as a document file name. The language 221d stores a language code used in the literature. The family document ID 221c stores the document ID of the parent application when a priority claim or divisional application is made.

分類情報テーブル222は、文献の分類に関する情報を格納するためのテーブルであり、図3に示されるように、文献ID222a、テーマ222b、分類222c、FI222dの各フィールドよりなる。文献ID222aには、文献を識別するための識別子が格納される。テーマ222bには、Fタームの分類体系におけるテーマが格納される。分類222cには、Fタームの分類体系におけるFタームリストの分類記号が格納される。FI222dには、FIの記号が格納される。ここで、Fタームは、日本国特許庁が編纂している日本の特許文献に記載された技術的特徴による分類体系であり、FIは、国際特許分類(IPC)を細分化した日本独自の分類体系である。なお、分類情報テーブル222では、一つの文献に対して、複数のFタームとFIを対応付けすることが可能である。   The classification information table 222 is a table for storing information related to the classification of documents, and includes fields of a document ID 222a, a theme 222b, a classification 222c, and an FI 222d as shown in FIG. The document ID 222a stores an identifier for identifying a document. The theme 222b stores themes in the F-term classification system. The classification 222c stores the classification symbols of the F-term list in the F-term classification system. The FI 222d stores the FI symbol. Here, F-term is a classification system based on technical features described in Japanese patent documents compiled by the Japan Patent Office, and FI is a Japan-specific classification that subdivides the International Patent Classification (IPC). It is a system. In the classification information table 222, a plurality of F terms and FIs can be associated with one document.

分類付与精度情報テーブル223は、機械学習における分類の精度を保持するためのテーブルであり、図4に示されるように、テーマ223a、分類223b、言語223c、精度223d、作成日223eの各フィールドよりなる。テーマ223aには、Fタームの分類体系におけるテーマが格納される。分類223bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。言語223cには、精度を作成した文献の言語コードが格納される。精度223dには、この分類、文献の言語における精度が%表記で格納される。なお、精度とは、文献の分類の妥当性を表す指標であり、高いほど、その分類が正確であることを意味している。精度の具体的な計算方法については、後に詳説する。作成日223eには、その精度を計算した日付が格納される。   The classification imparting accuracy information table 223 is a table for maintaining the accuracy of classification in machine learning. As shown in FIG. 4, the classification assignment accuracy information table 223 includes fields of the theme 223a, classification 223b, language 223c, accuracy 223d, and creation date 223e. Become. The theme 223a stores themes in the F-term classification system. The classification 223b stores the classification symbols of the F-term list in the F-term classification system. The language 223c stores the language code of the document for which accuracy is created. The accuracy in the classification and the language of the document is stored in the accuracy 223d in% notation. The accuracy is an index indicating the validity of the classification of documents, and the higher the accuracy, the more accurate the classification. A specific calculation method of accuracy will be described in detail later. The creation date 223e stores the date for which the accuracy is calculated.

単語重みテーブル224は、機械学習による文書の分類において、各単語(Word)のその分類における重みを格納するテーブルであり、図5に示されるように、テーマ224a、分類224b、単語224c、重み224d、出現順序224e、文献ID224fの各フィールドよりなる。テーマ224aには、Fタームの分類体系におけるテーマが格納される。分類224bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。単語224cには、重みを評価する単語が格納される。重み224dは、その文献におけるその単語の重みが格納される。ここで、単語の重みとは、機械学習によりその文献の分類にその単語がどれくらい寄与しているかの評価の指標となる量である。この単語の重みについては、後に詳説する。出現順序224eには、その単語の文献における出現順序が格納される。文献ID224fには、その単語が含まれる文献の識別子が格納される。   The word weight table 224 is a table for storing the weight of each word (Word) in the document classification by machine learning. As shown in FIG. 5, the theme 224a, the classification 224b, the word 224c, and the weight 224d. , The fields of appearance order 224e and document ID 224f. The theme 224a stores themes in the F-term classification system. The classification 224b stores the classification symbols of the F-term list in the F-term classification system. The word for evaluating the weight is stored in the word 224c. The weight 224d stores the weight of the word in the document. Here, the word weight is an amount that serves as an index for evaluating how much the word contributes to the classification of the document by machine learning. The weight of this word will be described in detail later. The appearance order 224e stores the appearance order of the word in the document. The document ID 224f stores an identifier of a document including the word.

文重みテーブル225は、機械学習による文書の分類において、各文(Statement)のその分類における重みを格納するテーブルであり、図6に示されるように、テーマ225a、分類225b、単語225c、重み225d、出現順序225e、文献ID225fの各フィールドよりなる。テーマ225aには、Fタームの分類体系におけるテーマが格納される。分類225bには、Fタームの分類体系におけるFタームリストの分類記号が格納される。単語225cには、重みを評価する文が格納される。重み225dは、その文献におけるその文の重みが格納される。ここで、文の重みとは、機械学習によりその文献の分類にその文がどれくらい寄与しているかの評価の指標となる量である。この文の重みについても、後に詳説する。出現順序225eには、その文の文献における出現順序が格納される。文献ID225fには、その文が含まれる文献の識別子が格納される。   The sentence weight table 225 is a table for storing the weight of each sentence (Statement) in the classification of the document by machine learning. As shown in FIG. 6, the theme 225a, the classification 225b, the word 225c, and the weight 225d. , The appearance order 225e and the document ID 225f. The theme 225a stores themes in the F-term classification system. The classification 225b stores a classification symbol of the F-term list in the F-term classification system. A sentence for evaluating the weight is stored in the word 225c. The weight 225d stores the weight of the sentence in the document. Here, the sentence weight is an amount that serves as an index for evaluating how much the sentence contributes to the classification of the document by machine learning. The weight of this sentence will also be described in detail later. The appearance order 225e stores the appearance order of the sentence in the document. The document ID 225f stores the identifier of the document including the sentence.

文献ファイル226は、図7に示されるような特許文献の電子データである。本実施形態では、特許文献の形式としては、マークアップ言語の一種であるXML(eXtensible Markup Language)を用いている。   The document file 226 is electronic data of a patent document as shown in FIG. In this embodiment, XML (eXtensible Markup Language), which is a kind of markup language, is used as the format of the patent document.

次に、図8ないし図11を用いて文書分類システムの処理について説明する。   Next, processing of the document classification system will be described with reference to FIGS.

先ず、図8および図9を用いて文書分類サーバ300の学習処理部311がモデル情報321を作成する処理について説明する。   First, a process in which the learning processing unit 311 of the document classification server 300 creates the model information 321 will be described with reference to FIGS. 8 and 9.

本実施形態の文書分類システムにおける文書分類の処理は、ニューラルネットワークの応用例であるニューラルアテンションモデル(以下、「NAM」:Neural Attention Model)に基づく処理とする。NAMは、アテンション機構により入力側の隠れ層(中間層)のユニットを重みで加重平均した文脈ベクトルにより出力を予測するモデルである。特に、本実施形態のモデルでは、NAMの隠れ層で再帰的入力をおこなうRNN(Recurrent Neural Network)を用いる。   The document classification process in the document classification system of the present embodiment is a process based on a neural attention model (hereinafter referred to as “NAM”) which is an application example of a neural network. The NAM is a model that predicts an output based on a context vector obtained by weighted averaging the units of hidden layers (intermediate layers) on the input side by an attention mechanism. In particular, in the model of this embodiment, an RNN (Recurrent Neural Network) that performs recursive input in a hidden layer of the NAM is used.

先ず、文献の単語列の読み込みをおこなう(図8のS01、図9のPH1)。図9のPH1のw1,w2,…は、単語列である。   First, a word string of a document is read (S01 in FIG. 8, PH1 in FIG. 9). In FIG. 9, w1, w2,... Of PH1 are word strings.

次に、単語の埋込み表現として、各単語にワードベクトルを設定する(S02、PH2)。ワードベクトルは、文脈において単語の特徴量を表現するベクトルである。図9のPH1のx1,x2,…は、ワードベクトルである。   Next, a word vector is set for each word as an embedded expression of the word (S02, PH2). The word vector is a vector that expresses the feature amount of the word in the context. In FIG. 9, PH1, x1, x2,... Are word vectors.

次に、RNN隠れ層の演算により、単語の文脈ベクトルを設定する(S03、PH3)。単語の文脈ベクトルとは、単語の出現する文脈に応じた特徴量を表現するベクトルである。PH3では、順方向h11,h12,…の文脈ベクトルと、逆方向の文脈ベクトルh21,h22,…とを結合して、文脈ベクトルhw1,hw2,…とすることを示している。   Next, the context vector of the word is set by the calculation of the RNN hidden layer (S03, PH3). The word context vector is a vector that expresses a feature amount according to the context in which the word appears. PH3 indicates that the context vectors h11, h12,... In the forward direction and the context vectors h21, h22,.

次に、学習時に教師データから単語の文脈ベクトル重み計算部313で適正になるように調整し、単語の文脈ベクトルに重みαを付与する。そして、同じ文中の単語の文脈ベクトルを足し合わせて、文ベクトルを算出する(S04、PH4)。PH4では、各々の単語の文脈ベクトルの重みをα,α,…とし、文ベクトルを、s1,s2,…としている。 Next, at the time of learning, the teacher data is adjusted to be appropriate by the word context vector weight calculation unit 313, and the weight α is assigned to the word context vector. Then, the sentence vectors are calculated by adding the context vectors of the words in the same sentence (S04, PH4). In PH4, the context vector weight of each word is α 1 , α 2 ,..., And the sentence vector is s 1 , s 2 ,.

次に、文ベクトルの各文の前後関係を考慮しながら、RNN隠れ層演算により、文の文脈ベクトルを設定する(S05、PH5)。PH5では、文の文脈ベクトルを、hs1,hs2,…としている。   Next, the context vector of the sentence is set by RNN hidden layer calculation while considering the context of each sentence of the sentence vector (S05, PH5). In PH5, the context vector of the sentence is set to hs1, hs2,.

次に、文の文脈ベクトルに重みβを付与し、足し合わせて文献ベクトルとする(S06、PH6)。PH6では、各々の単語の文脈ベクトルの重みをβ,β,…とし、文献ベクトルを、v1,v2,…としている。 Next, a weight β is assigned to the context vector of the sentence, and the resultant is added to obtain a document vector (S06, PH6). In PH6, the context vector weight of each word is set to β 1 , β 2 ,..., And the document vector is set to v 1, v 2,.

そして、文献ベクトルと予め文献に付与しておいた分類(教師データ)を比較し、適正になるように、単語の文脈ベクトル重み計算部313と文の文脈ベクトルの重み計算部314を調整して、各文脈ベクトルに対する適正な単語の文脈ベクトル重みαと文の文脈ベクトルの重みβを学習していく(S07、PH8、PH9)。   Then, the document vector and the classification (teacher data) previously assigned to the document are compared, and the word context vector weight calculation unit 313 and the sentence context vector weight calculation unit 314 are adjusted so as to be appropriate. Then, an appropriate word context vector weight α and sentence context vector weight β for each context vector are learned (S07, PH8, PH9).

分類に対する単語の文脈ベクトル重みαと文の文脈ベクトルの重みβは、それぞれ図5に示した単語重みテーブル224の重み224d、図6に示した文重みテーブル225の重み225dに格納される。   The word context vector weight α and the sentence context vector weight β for the classification are stored in the weight 224d of the word weight table 224 shown in FIG. 5 and the weight 225d of the sentence weight table 225 shown in FIG.

次に、図10および図9を用いて文書分類サーバ300の分類付与処理部が文献に対する分類付与をおこなう処理について説明する。   Next, a process in which the classification assignment processing unit of the document classification server 300 performs classification assignment for a document will be described with reference to FIGS. 10 and 9.

図8のフローチャートによる学習によるモデル情報生成処理では、教師データに基づいて、分類に対する単語の文脈ベクトル重みαと文の文脈ベクトルの重みβを学習した。文献に対する分類付与に関する処理では、その重みαおよび重みβに基づいて、文献に対する分類を付与する。   In the model information generation process by learning according to the flowchart of FIG. 8, the word context vector weight α and the sentence context vector weight β for the classification are learned based on the teacher data. In the process related to the classification for the document, the classification for the document is given based on the weight α and the weight β.

先ず、文献の単語列の読み込みをおこなう(図10のS11、図9のPH1)。
次に、単語の埋込み表現として、各単語にワードベクトルを設定する(S12、PH2)。
First, a word string of a document is read (S11 in FIG. 10, PH1 in FIG. 9).
Next, a word vector is set for each word as an embedded expression of the word (S12, PH2).

次に、RNN隠れ層の演算により、単語の文脈ベクトルを設定する(S13、PH3)。   Next, the context vector of the word is set by the calculation of the RNN hidden layer (S13, PH3).

次に、単語の文脈ベクトルにモデル情報321の重みα(単語重みテーブル224の重み224d)を付与し、同じ文中の単語の文脈ベクトルを足し合わせて、文ベクトルを算出する(S14、PH4)。   Next, the weight α of the model information 321 (weight 224d of the word weight table 224) is assigned to the context vector of the word, and the sentence vector is calculated by adding the context vectors of the words in the same sentence (S14, PH4).

次に、文ベクトルの各文の前後関係を考慮しながら、RNN隠れ層演算により、文の文脈ベクトルを設定する(S15、PH5)。   Next, the context vector of the sentence is set by RNN hidden layer calculation while considering the context of each sentence of the sentence vector (S15, PH5).

次に、文の文脈ベクトルにモデル情報321の重みβ(文重みテーブル225の重み225d)を付与し、足し合わせて文献ベクトルとする(S16、PH6)。   Next, the weight β of the model information 321 (weight 225d of the sentence weight table 225) is assigned to the context vector of the sentence, and the resultant is added as a document vector (S16, PH6).

そして、文献ベクトルに基づいて文献に対する分類を付与する(S17、PH7)。   And the classification | category with respect to a literature is provided based on a literature vector (S17, PH7).

次に、図11を用いて文献分類から結果表示までの処理について説明する。
先ず、文書分類サーバ300は、DBサーバ200を介して、分類をおこなう文献(文献ファイル226)を読み込む(S21)。
Next, processing from document classification to result display will be described with reference to FIG.
First, the document classification server 300 reads a document (reference file 226) to be classified via the DB server 200 (S21).

次に、図10のフローチャートに示した処理により、文書分類サーバ300の分類付与処理部312が文献に対する分類付与をおこなう(S22)。   Next, according to the process shown in the flowchart of FIG. 10, the classification assignment processing unit 312 of the document classification server 300 assigns a classification to a document (S22).

次に、DBサーバ200の変換処理部211は、文書分類サーバ300の分類付与処理部312が文献に対する分類付与情報を、図3に示した分類情報テーブル222に格納する(S23)。   Next, in the conversion processing unit 211 of the DB server 200, the classification assignment processing unit 312 of the document classification server 300 stores the classification assignment information for the document in the classification information table 222 illustrated in FIG. 3 (S23).

次に、DBサーバ200の変換処理部212は、文献に対する分類に対して、分類の精度を求め、図4に示した分類付与精度情報テーブル223に格納する(S24)。   Next, the conversion processing unit 212 of the DB server 200 obtains the classification accuracy for the classification of the document and stores it in the classification assignment accuracy information table 223 shown in FIG. 4 (S24).

ここで、分類の精度とは、既に説明したように、文献の分類の妥当性を表す指標であり、高いほど、その分類が正確であることを意味しており、以下の(式1)で求められる。   Here, as described above, the accuracy of classification is an index representing the validity of classification of documents, and the higher it is, the more accurate the classification is, and the following (formula 1) Desired.

Figure 2018194881
Figure 2018194881

なお、(式1)の再現率は、以下の(式2)で求められる。   In addition, the recall of (Formula 1) is obtained by the following (Formula 2).

Figure 2018194881
Figure 2018194881

また、(式1)の適合率は、以下の(式3)で求められる。   Moreover, the precision of (Formula 1) is obtained by the following (Formula 3).

Figure 2018194881
Figure 2018194881

次に、分類結果表示をおこなう(S25)。この処理では、APサーバ100の付与根拠編集部112が、分類を付与した文献に対して、分類の付与根拠を編集して、画面表示データ作成部が画面表示のデータを作成して、利用者端末10に配信する。APサーバ100は、DBサーバ200を介して、対象の文献の文献ファイル226(図7)を読み出し、分類情報テーブル222(図3)からその文献の分類を抽出する。そして、当該分類に対応する情報を、分類付与根拠情報(単語重みテーブル224(図5)、文重みテーブル225(図6))から抽出する。そして、文献ファイル内の単語・文と、抽出した分類付与根拠情報中の単語・文を突き合わせて、一致した単語・文に、分類付与根拠情報中の重みを付加するなどの加工・編集処理をおこなう。   Next, the classification result is displayed (S25). In this process, the grant basis editing unit 112 of the AP server 100 edits the sort grant basis for the document to which the category is given, and the screen display data creation unit creates screen display data. Delivered to the terminal 10. The AP server 100 reads the document file 226 (FIG. 7) of the target document via the DB server 200 and extracts the classification of the document from the classification information table 222 (FIG. 3). Then, information corresponding to the classification is extracted from the classification grant basis information (word weight table 224 (FIG. 5), sentence weight table 225 (FIG. 6)). Then, the word / sentence in the document file is matched with the word / sentence in the extracted classification grant basis information, and the processing / editing process such as adding the weight in the classification grant basis information to the matched word / sentence is performed. Do it.

次に、図12ないし図15を用いて本実施形態に係る文書分類システムのユーザインタフェースについて説明する。   Next, the user interface of the document classification system according to this embodiment will be described with reference to FIGS.

文書分類システムの分類結果表示画面500は、図12に示されるように、文書の分類とそれに関する情報を表示する画面である。利用者端末10のUI部11が、APサーバ100から受信した情報に基づいて表示する画面である。   The classification result display screen 500 of the document classification system is a screen that displays document classification and information related thereto as shown in FIG. This is a screen displayed by the UI unit 11 of the user terminal 10 based on information received from the AP server 100.

文献表示欄501は、タブ502ごとにその文書の内容を表示する欄である。ユーザがその文書を見たいときには、タブ502の部分をクリックする。該当するときには、文献表示左欄503には、その分類対象とした文献の原文を表示し、文献表示右欄504には、その文献を機械翻訳した文章に内容を表示したり、ファミリ文献の内容を表示する。   The document display column 501 is a column for displaying the contents of the document for each tab 502. When the user wants to view the document, the user clicks on the tab 502. When applicable, the document display left column 503 displays the original text of the document to be classified, and the document display right column 504 displays the content in a machine-translated sentence or the contents of the family document. Is displayed.

分類表示欄510には、対象となる文献に付与された分類の一覧と、その分類精度が表示される。   The classification display field 510 displays a list of classifications assigned to the target document and the classification accuracy.

オンライン修正ボタン520は、対象となる文献の分類をマニュアルで入力して修正する分類入力画面(図示せず)にアクセスするためのボタンである。   The online correction button 520 is a button for accessing a classification input screen (not shown) for manually inputting and correcting a classification of a target document.

分類表示欄510に表示される分類をクリックすると、選択した分類について、文献表示左欄503に表示されている重みが大きい単語または文、あるいは、その両方をハイライトして表示する。ハイライトの仕方は、重みや精度に応じて変更する。例えば、重みが大きい単語は、濃い色や鮮明な色で強調し、重みが小さい単語は薄い色で強調する。また、ハイライトさせる単語または文は、重みが一番大きい単語のみならず、重みの大きい上位3語のようにランキングの高い単語または文をハイライトさせるようにしてもよい。   When a category displayed in the category display column 510 is clicked, a word or sentence with a large weight displayed in the document display left column 503 or both of them are highlighted and displayed for the selected category. The highlighting method is changed according to the weight and accuracy. For example, a word with a large weight is emphasized with a dark color or a clear color, and a word with a small weight is emphasized with a light color. The highlighted word or sentence is not limited to the word with the highest weight, but may be a word or sentence with a high ranking such as the top three words with the highest weight.

また、分類表示欄510の分類を複数選択した場合(マウスでドラッグ、CTRLキーを押しながら選択などの操作)、分類ごとに色系統を変えてハイライトする。図12に示した例では、例えば、5B075に関する単語は赤系統で強調し、5B077に関連する単語は、青系統にて強調する。   When a plurality of categories in the category display field 510 are selected (dragging with the mouse, selecting while pressing the CTRL key, etc.), the color system is changed for each category and highlighted. In the example shown in FIG. 12, for example, words related to 5B075 are emphasized in red, and words related to 5B077 are emphasized in blue.

また、分類の類似度を考慮してもよい。例えば、5B075と5B077は、上位階層が同じなので、類似する赤系統で強調し、この分野に類似しない単語は、青系統にて強調するようにしてもよい。   Moreover, you may consider the similarity of classification. For example, since 5B075 and 5B077 have the same upper hierarchy, they may be emphasized with a similar red system, and words that are not similar to this field may be emphasized with a blue system.

さらに、文献表示右欄504についても、分類表示欄510に表示される分類が選択されたときには、機械翻訳により単語や文の対応がつくときには、選択した分類について、文献表示左欄503に表示されている重みが大きい単語または文、あるいは、その両方をハイライトして表示する。   Further, the document display right column 504 is also displayed in the document display left column 503 when the category displayed in the category display column 510 is selected and the word or sentence is matched by machine translation. Highlight and / or display words and / or sentences with high weight.

文献表示左欄503および文献表示右欄504でハイライトした単語をクリックしたときには、図13に示されるように、その選択した単語の重みが大きい文献の文献ファイル名の一覧を選択するための文献一覧メニュー530が表示され、ユーザがその文献一覧メニュー530を選択すると、その選択した文献を表示するための新しい文献表示欄501が開かれる。   When the highlighted word is clicked in the document display left column 503 and the document display right column 504, as shown in FIG. 13, a document for selecting a list of document file names of documents having a large weight of the selected word. When the list menu 530 is displayed and the user selects the document list menu 530, a new document display field 501 for displaying the selected document is opened.

また、図14に示されるように、分類表示欄510に表示される分類をクリックして、右クリックなどにより、表示コマンドを入力することによって、単語・文情報表示欄540にその選択した分類の中で重みの大きい単語・文についての情報をランキング形式で表示する。   Further, as shown in FIG. 14, by clicking a category displayed in the category display field 510 and inputting a display command by right-clicking or the like, the word / sentence information display field 540 displays the selected category. Information about words / sentences with high weights is displayed in a ranking format.

さらに、単語・文情報表示欄540の単語をクリックしたときには、図15に示されるように、その選択した単語の重みが大きい文献の文献ファイル名の一覧を選択するための文献一覧メニュー530が表示され、ユーザがその文献一覧メニュー530を選択すると、その選択した文献を表示するための新しい文献表示欄501が開かれる。   Further, when a word in the word / sentence information display field 540 is clicked, as shown in FIG. 15, a document list menu 530 for selecting a list of document file names of documents whose weight of the selected word is large is displayed. When the user selects the document list menu 530, a new document display field 501 for displaying the selected document is opened.

以上のように、本実施形態の文書分類システムによれば、分類の付与されていない特許文献に対して、機械学習したモデル情報に基づいて自動的に文献の分類をおこなうことができる。   As described above, according to the document classification system of the present embodiment, it is possible to automatically classify documents based on machine-learned model information for patent documents to which no classification is given.

そのときに、文献の分類の根拠、すなわち、機械学習したモデルにおける重みの大きい単語・文を、文献の文書の中から明示的に表示するため、ユーザは、機械学習による分類を、レビューして、妥当性を検証し、必要ならば修正することができる。   At that time, in order to explicitly display the basis of document classification, that is, the words / sentences with high weight in the machine-learned model from the documents in the document, the user reviews the classification by machine learning. Can be validated and corrected if necessary.

また、文献の分類の根拠、すなわち、機械学習したモデルにおける重みの大きい単語・文を、選択して、その単語・文の分類寄与が大きい関連特許文献の表示をおこなうことができるため、関連特許文献の検索も容易になるという利点がある。
なお、本実施形態では、文書の分類を付与し、その分類過程で出力された情報を用いて関連特許文献の表示を行っているが、分類付与を行わずに関連特許文献の表示のみを行ってもよい。特許情報を利用する企業、研究所においては、特許庁等が付与した分類を用いることができるため、新たに分類を付与する必要はないからである。
この場合においても、システム構成は図1と同様となる。付与した分類以外の分類根拠などは、公開されない情報が多いからである。まずは、特許庁が分類付与した特許文献(すなわち、教師データ)を用いて、学習モデル情報321を作成する。その後、モデル情報321を用いて、分類付与済みの特許文献について、分類付与処理を行う。これによってDBサーバ200の記憶部220に記憶される各情報が形成され、関連特許の表示が可能になる。
In addition, since the basis of document classification, that is, a word / sentence having a large weight in a machine-learned model can be selected and related patent documents having a large contribution to classification of the word / sentence can be displayed, related patents can be displayed. There is an advantage that it is easy to search for documents.
In this embodiment, the classification of the document is assigned and the related patent document is displayed using the information output in the classification process. However, only the related patent document is displayed without assigning the classification. May be. This is because companies and research laboratories that use patent information can use classifications granted by the Patent Office and the like, and therefore do not need to assign new classifications.
Even in this case, the system configuration is the same as in FIG. This is because there is a lot of information that is not disclosed about the classification grounds other than the assigned classification. First, learning model information 321 is created using patent documents (that is, teacher data) classified and assigned by the JPO. Thereafter, using the model information 321, classification grant processing is performed on the patent documents already classified. Thereby, each information memorize | stored in the memory | storage part 220 of DB server 200 is formed, and the display of a related patent is attained.

以上のように、本実施形態の文書分類システムは、審査のために、Fターム、FIを付与する特許庁の審査部門関連部署においても有効に活用できるし、特許情報を利用する企業、研究所においても、特許情報の有効利用を促進して、研究・開発などの手段とすることができる。   As described above, the document classification system according to the present embodiment can be effectively used in the examination department related departments of the JPO that grants F-terms and FIs for examination, and companies and laboratories that use patent information. In Japan, the effective use of patent information can be promoted for research and development.

10…利用者端末、100…APサーバ、200…DBサーバ、300…文書分類サーバ   DESCRIPTION OF SYMBOLS 10 ... User terminal, 100 ... AP server, 200 ... DB server, 300 ... Document classification server

Claims (15)

文書に分類を付与する文書分類システムであって、
分類付与済み文書を教師データとして読み込んで作成したモデル情報を備え、
分類付与対象の文書を読み込み、前記モデル情報を用いて、分類対象の文書に複数の分類を付与する分類部を有し、
当該分類を付与する根拠となった前記分類付与対象の単語または文を出力することを特徴とする文書分類システム。
A document classification system for assigning classifications to documents,
With model information created by reading classified documents as teacher data,
A classification unit that reads a document to be classified and uses the model information to assign a plurality of classifications to the document to be classified;
A document classification system that outputs the classification target word or sentence that is a basis for the classification.
請求項1において、
文書中で根拠となった単語または文が強調された文書を出力することを特徴とする文書分類システム。
In claim 1,
A document classification system that outputs a document in which a word or sentence that is the basis of the document is emphasized.
請求項1において、
根拠となった単語または文のリストを出力することを特徴とする文書分類システム。
In claim 1,
A document classification system that outputs a list of words or sentences that serve as a basis.
請求項3において、
根拠となった単語または文のリストに、単語または文の分類に寄与した重みを表示することを特徴とする文書分類システム。
In claim 3,
A document classification system, characterized in that a weight contributing to classification of a word or sentence is displayed in a list of words or sentences as a basis.
請求項1乃至4のいずれかにおいて、
前記付与された分類の選択を受け付け、選択された分類の付与根拠を表示することを特徴とする文書分類システム。
In any one of Claims 1 thru | or 4,
A document classification system that accepts selection of the assigned classification and displays a basis for giving the selected classification.
請求項5において、
選択された分類の付与根拠は、分類の根拠となった重みの大きい単語または文を表示することを特徴とする文書分類システム。
In claim 5,
The document classification system is characterized in that the basis for assigning the selected classification displays a word or sentence having a large weight that is the basis for classification.
請求項1乃至6のいずれかにおいて、
前記付与された分類ごとの分類精度を表示することを特徴とする文書分類システム。
In any one of Claims 1 thru | or 6.
A document classification system for displaying classification accuracy for each of the assigned classifications.
請求項1乃至7のいずれかにおいて、
複数の分類について区別可能な状態で、前記分類の付与根拠を表示することを特徴とする文書分類システム。
In any one of Claims 1 thru | or 7,
A document classification system, characterized in that a basis for providing the classification is displayed in a state where the plurality of classifications are distinguishable.
請求項8において、
前記複数の分類の類似度に基づいて、前記分類の類似度に応じて、前記分類付与対象の単語または文の出力の様態を変えて出力することを特徴とする文書分類システム。
In claim 8,
A document classification system, which outputs based on the similarity of the plurality of classifications, according to the similarity of the classifications, by changing the output mode of the words or sentences to be classified.
請求項1乃至9において、
分類を付与する根拠となった前記分類付与対象の単語または文を選択して、その前記分類付与対象の単語または文の分類の寄与が大きい文献一覧を表示することを特徴とする文書分類システム。
In claims 1 to 9,
A document classification system, wherein a word or sentence to be classified is selected as a basis for classification, and a list of documents having a large contribution of classification of the word or sentence to be classified is displayed.
請求項3において、
根拠となった単語または文のリストの中の単語または文を選択して、その前記分類付与対象の単語または文の分類の寄与が大きい文献一覧を表示することを特徴とする文書分類システム。
In claim 3,
A document classification system, wherein a word or sentence in a list of words or sentences as a basis is selected and a list of documents having a large contribution of classification of the word or sentence to be classified is displayed.
文書に分類を付与する文書分類方法であって、
分類付与済み文書を教師データとして読み込んで作成したモデル情報作成するステップと、
分類付与対象の文書を読み込み、前記モデル情報を用いて、前記分類対象の文書に複数の分類を付与するステップと、
該当する文献に対する付与された分類を表示するステップと、
該当する文献に対する付与された分類の選択を受け付けて、選択された分類の付与根拠を表示するステップとを有することを特徴する文書分類方法。
A document classification method for assigning a classification to a document,
Creating model information created by reading classified documents as teacher data;
Reading a document to be classified and assigning a plurality of classifications to the document to be classified using the model information;
Displaying the assigned classification for the relevant document;
Receiving the selection of the assigned classification for the corresponding document, and displaying the basis for the assignment of the selected classification.
請求項12において、
分類の付与根拠として、前記文書中で根拠となった単語または文が強調された文書とを出力することを特徴とする文書分類方法。
In claim 12,
A document classification method, comprising: outputting a document in which a word or sentence used as a basis in the document is emphasized as a classification grant basis.
請求項12において、
分類の付与根拠として、根拠となった単語または文のリストを出力することを特徴とする文書分類方法。
In claim 12,
A document classification method characterized by outputting a list of words or sentences as a basis for providing classification.
請求項14において、
根拠となった単語または文のリストに、単語または文の分類に寄与した重みを表示することを特徴とする文書分類方法。
In claim 14,
A document classification method, characterized in that a weight contributing to classification of a word or sentence is displayed in a list of words or sentences as a basis.
JP2017095341A 2017-05-12 2017-05-12 Document classification system and document classification method Active JP6814091B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017095341A JP6814091B2 (en) 2017-05-12 2017-05-12 Document classification system and document classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017095341A JP6814091B2 (en) 2017-05-12 2017-05-12 Document classification system and document classification method

Publications (2)

Publication Number Publication Date
JP2018194881A true JP2018194881A (en) 2018-12-06
JP6814091B2 JP6814091B2 (en) 2021-01-13

Family

ID=64570847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017095341A Active JP6814091B2 (en) 2017-05-12 2017-05-12 Document classification system and document classification method

Country Status (1)

Country Link
JP (1) JP6814091B2 (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095521A (en) * 2018-12-13 2020-06-18 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program
JP2020113218A (en) * 2019-01-16 2020-07-27 株式会社エクサウィザーズ Information processing device, display method, and program
WO2020179764A1 (en) * 2019-03-05 2020-09-10 株式会社医療情報技術研究所 Classification system
JP2021108012A (en) * 2019-12-27 2021-07-29 Kddi株式会社 Explanation device, explanation method, and explanation program
JPWO2021230000A1 (en) * 2020-05-15 2021-11-18
JP2022104232A (en) * 2020-12-28 2022-07-08 パナソニックIpマネジメント株式会社 Classification device, classification method, and computer program
KR102427136B1 (en) * 2021-10-29 2022-08-01 (주)제이엘케이 Method and apparatus for searching for similar sentences
JP2023013117A (en) * 2021-07-15 2023-01-26 Kddi株式会社 Device for realizing explanation, method for realizing explanation and program for realizing explanation
WO2023026140A1 (en) * 2021-08-26 2023-03-02 株式会社半導体エネルギー研究所 Document classification system and document classification method
JP2023054506A (en) * 2021-10-04 2023-04-14 株式会社ラック Information retrieval system, information retrieval method, and program
JP2024002456A (en) * 2022-06-24 2024-01-11 株式会社日立製作所 Document classification system, document classification device, and document classification method
JP2024010619A (en) * 2022-07-12 2024-01-24 富士フイルム株式会社 Learning devices, learning methods, and learning programs
JP2024041521A (en) * 2022-09-14 2024-03-27 株式会社東芝 Document classification device, method and program
WO2025263427A1 (en) * 2024-06-21 2025-12-26 株式会社村田製作所 Technical information classification system and method for classifying technical information

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024080119A (en) 2022-12-01 2024-06-13 株式会社東芝 Document classification device, method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285499A (en) * 2005-03-31 2006-10-19 Nec Corp Data mining device, data mining method and its program
JP2009217528A (en) * 2008-03-11 2009-09-24 Hitachi Ltd Document classification method, system, and computer program
JP2016206748A (en) * 2015-04-16 2016-12-08 株式会社日立製作所 Classification adding method and classification adding system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285499A (en) * 2005-03-31 2006-10-19 Nec Corp Data mining device, data mining method and its program
JP2009217528A (en) * 2008-03-11 2009-09-24 Hitachi Ltd Document classification method, system, and computer program
JP2016206748A (en) * 2015-04-16 2016-12-08 株式会社日立製作所 Classification adding method and classification adding system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
特許庁, 「平成29年度 F ターム等付与支援システム実用化に向けた実証的研究事業 仕様書」, JPN6020022857, April 2017 (2017-04-01), pages 1 - 9, ISSN: 0004295843 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7284371B2 (en) 2018-12-13 2023-05-31 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method, and program
JP2020095521A (en) * 2018-12-13 2020-06-18 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program
JP2020113218A (en) * 2019-01-16 2020-07-27 株式会社エクサウィザーズ Information processing device, display method, and program
WO2020179764A1 (en) * 2019-03-05 2020-09-10 株式会社医療情報技術研究所 Classification system
JP2020144502A (en) * 2019-03-05 2020-09-10 株式会社医療情報技術研究所 Classification system
US12339932B2 (en) 2019-03-05 2025-06-24 Iryou Jyouhou Gijyutu Kenkyusho Corporation Classification system
JP2021108012A (en) * 2019-12-27 2021-07-29 Kddi株式会社 Explanation device, explanation method, and explanation program
JP7179714B2 (en) 2019-12-27 2022-11-29 Kddi株式会社 Explanation device, explanation method and explanation program
JPWO2021230000A1 (en) * 2020-05-15 2021-11-18
WO2021230000A1 (en) * 2020-05-15 2021-11-18 ソニーグループ株式会社 Information processing device, information processing method, and information processing system
US12469130B2 (en) 2020-05-15 2025-11-11 Sony Group Corporation Pathology image diagnosis support apparatus, pathology image diagnosis support method, and pathology image diagnosis support system
JP7652188B2 (en) 2020-05-15 2025-03-27 ソニーグループ株式会社 Information processing device, information processing method, and information processing system
JP7199028B2 (en) 2020-12-28 2023-01-05 パナソニックIpマネジメント株式会社 CLASSIFIER, CLASSIFICATION METHOD AND COMPUTER PROGRAM
JP2022104232A (en) * 2020-12-28 2022-07-08 パナソニックIpマネジメント株式会社 Classification device, classification method, and computer program
JP7525449B2 (en) 2021-07-15 2024-07-30 Kddi株式会社 EXPLAINABILITY DEVICE, EXPLAINABILITY METHOD, AND EXPLAINABILITY PROGRAM
JP2023013117A (en) * 2021-07-15 2023-01-26 Kddi株式会社 Device for realizing explanation, method for realizing explanation and program for realizing explanation
WO2023026140A1 (en) * 2021-08-26 2023-03-02 株式会社半導体エネルギー研究所 Document classification system and document classification method
JP2023054506A (en) * 2021-10-04 2023-04-14 株式会社ラック Information retrieval system, information retrieval method, and program
KR102427136B1 (en) * 2021-10-29 2022-08-01 (주)제이엘케이 Method and apparatus for searching for similar sentences
JP2024002456A (en) * 2022-06-24 2024-01-11 株式会社日立製作所 Document classification system, document classification device, and document classification method
JP2024010619A (en) * 2022-07-12 2024-01-24 富士フイルム株式会社 Learning devices, learning methods, and learning programs
JP2024041521A (en) * 2022-09-14 2024-03-27 株式会社東芝 Document classification device, method and program
WO2025263427A1 (en) * 2024-06-21 2025-12-26 株式会社村田製作所 Technical information classification system and method for classifying technical information

Also Published As

Publication number Publication date
JP6814091B2 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
JP6814091B2 (en) Document classification system and document classification method
Alene et al. Prevalence and determinants of unintended pregnancy in Ethiopia: A systematic review and meta-analysis of observational studies
US8521561B2 (en) Database system, program, image retrieving method, and report retrieving method
US9588955B2 (en) Systems, methods, and software for manuscript recommendations and submissions
JP2010527067A (en) System and method for parsing documents
CN101430704A (en) Method and apparatus of supporting creation of classification rules
TW201322023A (en) Search device, search method, search program, and storage medium
US20240419889A1 (en) Programmatic Creation of Dynamically Configured, Hierarchically Organized Hyperlinked XML Documents For Presenting Data and Domain Knowledge From Diverse Sources
CN109902152A (en) Method and apparatus for retrieving information
JP7259854B2 (en) Question answering device, question answering method and program
CN102272727B (en) Apparatus and method for supporting data linkage among plurality of applications
WO2019008394A1 (en) Digital information capture and retrieval
McGowan Using text mining tools to inform search term generation: an introduction for librarians
US20070100809A1 (en) Mixed mode (mechanical process and english text) query building support for improving the process of building queries correctly
JP5574775B2 (en) Idea organization support device and idea organization support program
KR20090105715A (en) How to provide expert suggested search results and recording media therefor
Kemp et al. A taxonomy of design guidance for hypermedia design
KR102111989B1 (en) System and method for providing time series to a natural language question
KR20230068762A (en) the integrated search system of the relevant medical device
JP7103414B2 (en) Display format determination device, display format determination method and program
Bibi et al. Web semantics and ontologies-based framework for software component selection from online repositories
Paternò et al. How an LLM Can Improve Automatic Web Accessibility Validation?
JP2003044486A (en) Knowledge analysis system, cluster management method, and cluster management program
CN112733527B (en) Construction method and system of building engineering document knowledge network
Babych et al. Cross-language comparability and its applications for MT

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201218

R150 Certificate of patent or registration of utility model

Ref document number: 6814091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150