[go: up one dir, main page]

JP2024091709A - Sentence creation device, sentence creation method, and sentence creation program - Google Patents

Sentence creation device, sentence creation method, and sentence creation program Download PDF

Info

Publication number
JP2024091709A
JP2024091709A JP2024062838A JP2024062838A JP2024091709A JP 2024091709 A JP2024091709 A JP 2024091709A JP 2024062838 A JP2024062838 A JP 2024062838A JP 2024062838 A JP2024062838 A JP 2024062838A JP 2024091709 A JP2024091709 A JP 2024091709A
Authority
JP
Japan
Prior art keywords
document
sentence creation
section
sentence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024062838A
Other languages
Japanese (ja)
Inventor
樹 八木田
Itsuki Yagita
祐亮 城戸
Yusuke Kido
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Legalscape
Legalscape Inc
Original Assignee
Legalscape
Legalscape Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Legalscape, Legalscape Inc filed Critical Legalscape
Priority to JP2024062838A priority Critical patent/JP2024091709A/en
Publication of JP2024091709A publication Critical patent/JP2024091709A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】膨大な専門書類への横断的なアクセス及び高度な分析に基づく必要な専門書類へのピンポイントなアクセスを可能にする文作成装置、文作成方法および文作成プログラムを提供することを目的とする。
【解決手段】
文作成装置であって、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える。
【選択図】図4

The present invention aims to provide a sentence creation device, a sentence creation method, and a sentence creation program that enable cross-sectional access to a huge amount of specialized documents and pinpoint access to necessary specialized documents based on advanced analysis.
SOLUTION
The sentence creation device includes a receiving unit that receives document input, a division unit that divides the document into a plurality of sections, a keyword tag generation unit that generates keyword tags for each of the plurality of sections divided by the division unit, a determination unit that determines whether the plurality of sections contain a wording that suggests a reference, and an identification unit that identifies the referenced section when the wording that suggests a reference is contained.
[Selected figure] Figure 4

Description

本発明は、文作成装置、文作成方法および文作成プログラムに関する。具体的には、専門書類を構造化して、専門書類間の参照を容易にする文作成装置、文作成方法および文作成プログラムに関する。 The present invention relates to a sentence creation device, a sentence creation method, and a sentence creation program. Specifically, the present invention relates to a sentence creation device, a sentence creation method, and a sentence creation program that structure technical documents and facilitate reference between technical documents.

従来、複数の専門書類を複数の分類に振り分けて、専門書類を検索して参照したいユーザに検索しやすくする文作成装置、文作成方法および文作成プログラムが知られている。 Conventionally, a sentence creation device, a sentence creation method, and a sentence creation program are known that classify multiple specialized documents into multiple categories to make it easier for a user who wants to search and refer to the specialized documents.

特開2003-16055号公報JP 2003-16055 A 特許第6469919号公報Patent No. 6469919

上記特許文献1のような文作成装置および文作成方法では、単語もしくは文節データの入力を文テンプレートの選択よりも先に行い、入力された全ての単語もしくは文節データの意味カテゴリ、および文字列に含まれる付属語が記述されている文テンプレートのみを用いて文候補を生成する。また、上記特許文献2のような文作成装置、文作成方法および文作成プログラムでは、判決文を適切に小文章に章立てし、その小文章の項目分けを行い、この項目分けまたは種類分けされた小文章から判決文に関連する他の判決文の小文章や評釈などの小文章の検索を行い、この項目分けまたは種類分けされた種類分けされた小文章から訴状などの文を作成する。 In the sentence creation device and sentence creation method of the above Patent Document 1, word or phrase data is input before the selection of a sentence template, and sentence candidates are generated using only sentence templates that describe the semantic categories of all the input word or phrase data and auxiliary words contained in the character string. In addition, in the sentence creation device, sentence creation method, and sentence creation program of the above Patent Document 2, the judgment is appropriately divided into short sentences, the short sentences are classified, and from these classified or categorized short sentences, other short sentences of the judgment related to the judgment, such as commentaries, are searched for, and sentences such as complaints are created from these classified or categorized short sentences.

これまで、法律専門書や官公庁の資料等は様々な場所や媒体に分散しており、またそれらが検索のできないアナログ媒体であることも多くあった。一部デジタル化されている場合でも閲覧性・検索性の低い印刷用PDFデータそのままでの提供に限られることが多かった。そのため、法務実務家が必要な情報にアクセスするためには、文献等の特定、文献等の入手、文献等の中から目次や索引を駆使して必要な情報を見つけるというプロセスを必要とし、膨大な手間と時間を要していた。また、PDFビューアーに代表される従来型の電子書籍リーダーでは、単一キーワードタグによる全文検索や目次からの単純な移行は可能であるものの、複数キーワードタグによる章および節の絞り込みや書籍内外の関連した記述へのスムーズかつ並行したアクセスおよび閲覧ができなかった。上記特許文献1のような文作成装置及び文作成方法では、同じ文書内で文を作成することしかできないため他の文書にピンポイントにアクセスすることはできなかった。上記特許文献2のような文作成装置、文作成方法および文作成プログラムでは、判決文のみに対応した技術であるから、すべての文献から横断的に検索し、閲覧することはできなかった。よって上記先行技術では、高度かつ複雑な情報収集および分析を必要とする法律調査において、必要な情報を素早く正確に洗い出し、絞り込みたいというニーズに充分に対応することができなかった。 Until now, legal textbooks and government documents were scattered in various places and media, and were often analog media that could not be searched. Even if some of them were digitized, they were often limited to being provided as printable PDF data with low viewability and searchability. Therefore, in order for legal practitioners to access the information they need, they had to identify documents, obtain documents, and use tables of contents and indexes to find the information they need from the documents, which required a huge amount of time and effort. In addition, while conventional e-book readers, such as PDF viewers, can perform full-text searches using a single keyword tag or simple transitions from the table of contents, they cannot narrow down chapters and sections using multiple keyword tags or smoothly and simultaneously access and view related descriptions inside and outside the book. The sentence creation device and sentence creation method of the above-mentioned Patent Document 1 can only create sentences within the same document, so it is not possible to pinpoint access to other documents. The sentence creation device, sentence creation method, and sentence creation program of the above-mentioned Patent Document 2 are technologies that only support judgment documents, so they cannot search and view all documents across the board. As a result, the above prior art technologies were unable to adequately meet the need to quickly and accurately identify and narrow down the necessary information in legal research, which requires advanced and complex information gathering and analysis.

そこで、近年、文書中の参照や注記等、別の文献への言及がある場合、当該別の文献にワンクリックで移行でき、閲覧中の文献のある箇所が別の文献により参照されている場合には当該別の文献を関連文献として表示でき、文献の章、節等それぞれのセクションに対しキーワードタグが付与されていることによる、一般的な全文検索を超える精度の高い検索機能を有する文作成装置、文作成方法および文作成プログラムの提供が望まれている。 Therefore, in recent years, there has been a demand for a text creation device, a text creation method, and a text creation program that have a highly accurate search function that exceeds general full-text searches by allowing users to move to another document with one click when there is a reference to another document in a document, such as a reference or note, and by allowing users to display the other document as a related document when a certain part of the document being viewed is referenced by another document, and by assigning keyword tags to each section of the document, such as chapters and paragraphs.

そこで本発明は、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や法律特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能な文作成装置、文作成方法および文作成プログラムを提供することを目的とする。
Therefore, the present invention aims to provide a text creation device, text creation method, and text creation program that electronically centralizes distributed specialized document resources, making it possible to search for information across the board and quickly access necessary information, and not only makes specialized documents available for electronic viewing, but also analyzes and organizes specialized documents using natural language processing technology, etc., and analyzes the cross-reference relationships of specialized documents and the use of legal-specific terms (keyword tags) in sentences to organize the relationships between specialized documents (for example, legal documents; by way of example, documents in other specialized fields where similar cross-references between documents are important may also be used), thereby enabling pinpoint access to necessary information from all specialized documents and thorough investigation of related information.

上記課題を解決するために、本発明の文作成装置は、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える。 To solve the above problem, the sentence creation device of the present invention includes a receiving unit that receives document input, a division unit that divides the document into multiple sections, a keyword tag generation unit that generates keyword tags for each of the multiple sections divided by the division unit, a determination unit that determines whether the multiple sections contain a wording that suggests a reference, and an identification unit that identifies the referenced section when the wording that suggests a reference is contained.

本発明の文作成装置は、特定部が特定した参照先のセクションに文書からのリンクを生成するリンク生成部と、特定部が特定した参照先へのリンクを出力するリンク出力部と、をさらに備えてもよい。 The sentence creation device of the present invention may further include a link generation unit that generates a link from the document to the section of the reference destination identified by the identification unit, and a link output unit that outputs a link to the reference destination identified by the identification unit.

判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。 The determination unit may detect phrases that suggest references using at least one of a method for solving sequence labeling problems, such as pattern matching and conditional random fields, and a neural network, and identify the section to which each link refers.

本発明の文作成装置は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、関連文書を出力する関連文書出力部と、をさらに備えてもよい。 The sentence creation device of the present invention may further include a related document acquisition unit that acquires information indicating related documents, which are reference data that are similar to the document and indicate the content of the text that suggests a reference, and a related document output unit that outputs the related documents.

関連文書取得部は、セクションおよび参照先のセクションから、関連文書を取得してもよい。 The related document acquisition unit may acquire related documents from the section and the referenced section.

関連文書取得部は、文書とは異なる他の文書から、関連文書を取得してもよい。 The related document acquisition unit may acquire related documents from documents other than the document.

関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。 The related document acquisition unit may acquire related documents by either network structuring, which uses graph theory to infer relevance, or by similarity calculation in a low-dimensional Euclidean space based on embedding.

また、上記課題を解決するために、本発明の文作成方法は、文書の入力を受け付ける受付ステップと、文書を複数のセクションに分割する分割ステップと、分割ステップで分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える。 In order to solve the above problem, the sentence creation method of the present invention includes a receiving step for receiving document input, a division step for dividing the document into a plurality of sections, a keyword tag generating step for generating keyword tags for each of the plurality of sections divided in the division step, a determination step for determining whether the plurality of sections contain a wording that suggests a reference, and an identification step for identifying the referenced section when the wording that suggests a reference is contained.

本発明の文作成方法は、特定ステップが特定した参照先のセクションに文書からのリンクを生成する生成ステップと、特定ステップが特定した参照先へのリンクを出力する出力ステップと、をさらに備えてもよい。 The sentence creation method of the present invention may further include a generating step of generating a link from the document to the section of the reference identified in the identifying step, and an output step of outputting a link to the reference identified in the identifying step.

判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。 The determination step may detect reference-indicating text using at least one of techniques for solving sequence labeling problems, such as pattern matching, conditional random fields, and neural networks, and identify the referenced section for each link.

本発明の文作成方法は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、関連文書を出力する関連文書出力ステップと、をさらに備えてもよい。 The sentence creation method of the present invention may further include a related document acquisition step of acquiring information indicating a related document, which is data of a reference destination that indicates the content of a sentence similar to the document and suggests a reference, and a related document output step of outputting the related document.

関連文書取得ステップは、セクションおよび参照先のセクションから、関連文書を取得してもよい。 The related document acquisition step may acquire related documents from the section and the referenced section.

関連文書取得ステップは、文書とは異なる他の文書から、関連文書を取得してもよい。 The related document acquisition step may acquire related documents from other documents different from the document.

関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。 The relevant document acquisition step may acquire relevant documents by either network structuring, which uses graph theory to infer relevance, or by similarity calculation in a low-dimensional Euclidean space based on embedding.

また、上記課題を解決するために、本発明の文作成プログラムは、コンピュータに、文書の入力を受け付ける受付機能と、文書を複数のセクションに分割する分割機能と、分割機能が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能とを実現させる。 In order to solve the above problem, the sentence creation program of the present invention has a computer realize a receiving function for receiving document input, a dividing function for dividing the document into multiple sections, a keyword tag generating function for generating keyword tags for each of the multiple sections divided by the dividing function, a determining function for determining whether a section contains a wording that suggests a reference, and an identifying function for identifying the section to which the reference is directed when the wording that suggests a reference is contained.

本発明の文作成プログラムは、コンピュータに、特定機能が特定した参照先のセクションに文書からのリンクを生成するリンク生成機能と、特定機能が特定した参照先へのリンクを出力するリンク出力機能と、をさらに実現させてもよい。 The sentence creation program of the present invention may further cause the computer to realize a link generation function that generates a link from the document to a section of the reference destination identified by the specific function, and a link output function that outputs a link to the reference destination identified by the specific function.

判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。 The determination function may detect reference-indicating text using at least one of the following techniques: pattern matching, methods for solving sequence labeling problems such as conditional random fields, and neural networks, and identify the referenced section for each link.

本発明の文作成プログラムは、コンピュータに、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、関連文書を出力する関連文書出力機能と、をさらに実現させてもよい。 The sentence creation program of the present invention may further implement in the computer a related document acquisition function for acquiring information indicating related documents, which are reference data that indicate the content of a sentence that is similar to a document and suggests a reference, and a related document output function for outputting related documents.

関連文書取得機能は、セクションおよび参照先のセクションから、関連文書を取得してもよい。 The related document retrieval function may retrieve related documents from a section and its referenced sections.

関連文書取得機能は、文書とは異なる他の文書から、関連文書を取得してもよい。 The related document acquisition function may also acquire related documents from other documents different from the document.

関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。 The related document acquisition function may acquire related documents either by network structuring, which uses graph theory to infer relevance, or by calculating similarity in a low-dimensional Euclidean space based on embedding.

本発明の文作成装置、文作成方法および文作成プログラムによれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。 According to the sentence creation device, sentence creation method, and sentence creation program of the present invention, by electronically centralizing distributed technical document resources, it is possible to search for information across the board and quickly access necessary information. It not only makes technical documents available for electronic viewing, but also analyzes and organizes technical documents using natural language processing technology, etc., and analyzes the cross-reference relationships of technical documents and the use of unique terms (keyword tags) in sentences to organize the relationships between technical documents (for example, legal documents; this may also be an example, or documents in other specialized fields where similar cross-references between documents are important), making it possible to pinpoint access to necessary information from all technical documents and to investigate all related information without missing anything.

文作成装置を含むシステムによる処理の一例を説明するための模式図である。FIG. 2 is a schematic diagram for explaining an example of processing by a system including a sentence creation device. 文作成装置を含むシステムの概略構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a schematic configuration of a system including a sentence creation device. サーバの概略構成の一例を示す図である。FIG. 2 illustrates an example of a schematic configuration of a server. 本発明に係る文作成装置の構成要素を示す図である。FIG. 2 is a diagram showing components of a sentence creation device according to the present invention. 本発明に係る文作成装置のインタフェースを示す図である。FIG. 2 is a diagram showing an interface of the sentence creation device according to the present invention. 本発明に係る文作成装置のインタフェースを示す別の図である。FIG. 2 is another diagram showing an interface of the sentence creation device according to the present invention. 本発明に係る文作成装置のインタフェースを示すさらに別の図である。FIG. 11 is yet another diagram showing an interface of the sentence creation device according to the present invention. 本発明に係る文作成方法を示すフローチャートである。2 is a flowchart showing a sentence creation method according to the present invention. 本発明の実現方法の概要を示す図である。FIG. 1 is a diagram showing an overview of a method for implementing the present invention. 本発明の実現方法の第一段階を示す図である。FIG. 2 illustrates a first step in the method for implementing the present invention. 本発明の実現方法の第二段階を示す図である。FIG. 4 illustrates a second step in the method for implementing the present invention. 本発明の実現方法の第三段階を示す図である。FIG. 4 illustrates a third step in the method for implementing the present invention. 本発明の実現方法の第四段階を示す図である。FIG. 4 illustrates a fourth step in the method for implementing the present invention. 本発明の実現方法の第五段階を示す図である。FIG. 4 illustrates a fifth step in the method for implementing the present invention.

以下、本開示の一側面に係る文作成装置、文作成方法および文作成プログラムについて図を参照しつつ説明する。但し、本開示の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。 Below, a sentence creation device, a sentence creation method, and a sentence creation program according to one aspect of the present disclosure will be described with reference to the drawings. However, please note that the technical scope of the present disclosure is not limited to these embodiments, but extends to the inventions described in the claims and their equivalents.

(文作成システム1による処理の概要)
図1は、文作成システム1による処理の一例を説明するための模式図である。
(Outline of processing by sentence creation system 1)
FIG. 1 is a schematic diagram for explaining an example of processing by a sentence creation system 1. As shown in FIG.

文作成システム1は、1つ以上のコンピュータ2から複数の専門書類を受信し、サーバ3に記憶し、ユーザの端末装置4からの検索要求に応じて専門書類を提供する。専門書類とは法律文書、技術文書、論文、技術雑誌など幅広い文書を含んでよく、通常はテキストデータからなる。これらの文書は、テキストデータ以外にもテキストデータに変換可能な情報を含んでいれば、画像データ(動画像、静止画像)や音声データであってもよい。 The text creation system 1 receives a number of technical documents from one or more computers 2, stores them in a server 3, and provides the technical documents in response to a search request from a user's terminal device 4. Technical documents may include a wide range of documents such as legal documents, technical documents, papers, and technical magazines, and are usually composed of text data. These documents may also be image data (moving images, still images) or audio data, so long as they contain information that can be converted into text data in addition to text data.

サーバ3には、専門書類データベース311が記憶されている。専門書類データベース311には複数の専門書類が専門書類識別情報(専門書類ID)とともに記憶されている。また、専門書類データベース311は、本実施の形態においては、サーバからなっているが、文作成システム1の外部に存在してもよい。 The server 3 stores a technical document database 311. The technical document database 311 stores a plurality of technical documents together with technical document identification information (technical document ID). In this embodiment, the technical document database 311 is a server, but may be located outside the sentence creation system 1.

ユーザは、サーバ3に記憶されている専門書類を検索したい場合には、端末装置4を用いて、検索要求をサーバ3に送信する。サーバ3は、受信した検索要求に応じてサーバ3の専門書類データベース311から専門書類を抽出して、ユーザの端末装置4に送信する。 When a user wishes to search for technical documents stored in the server 3, the user uses the terminal device 4 to send a search request to the server 3. In response to the received search request, the server 3 extracts technical documents from the technical document database 311 of the server 3 and sends them to the user's terminal device 4.

ユーザは、端末装置4と接続されている文作成装置100において、文書データをインタフェースに入力し、その文書データについて、文書内の閲覧したい情報を検索したり、文書内容の説明文が表示される設定がされた状態の文書データに変換したりすることができる。 The user can input document data into the interface of the sentence creation device 100 connected to the terminal device 4, and can search for information within the document that the user wants to view, or convert the document data into document data that is set to display an explanatory text of the document contents.

なお、上述した図1の説明は、本発明の内容への理解を深めるための説明にすぎない。本発明は、具体的には、次に説明する各実施の形態において実施され、且つ、本発明の原則を実質的に超えずに、さまざまな変形例によって実施されてもよい。このような変形例はすべて、本発明および本明細書の開示範囲に含まれる。例えば、本実施の形態において、法律文書を検索する構成について説明しているが、契約書を元に専門書類を検索する構成としてもよい。更に、本実施の形態にかかる文は、法律文書に限定されて解釈される必要もない。すなわち、互いに関係性のある文章同士の検索に用いることができる。また、本発明の文は、法律文書に限定されず、他の文に適応することができる。例えば、論文やブログなどにも適用することができる。 The above description of FIG. 1 is merely for the purpose of deepening understanding of the contents of the present invention. Specifically, the present invention is implemented in each of the embodiments described below, and may be implemented in various modified forms without substantially exceeding the principles of the present invention. All such modified forms are included in the scope of the present invention and the disclosure of this specification. For example, in this embodiment, a configuration for searching legal documents is described, but a configuration for searching technical documents based on contracts may also be used. Furthermore, the sentences in this embodiment do not need to be interpreted as being limited to legal documents. In other words, they can be used to search for sentences that are related to each other. Furthermore, the sentences of the present invention are not limited to legal documents and can be applied to other sentences. For example, they can be applied to papers, blogs, etc.

(文作成システム1の概略構成)
図2は、文作成システム1の概略構成の一例を示す図である。
(Overall configuration of sentence creation system 1)
FIG. 2 is a diagram showing an example of a schematic configuration of the sentence creation system 1. As shown in FIG.

文作成システム1は、複数のコンピュータ2、2、2・・・と、サーバ3と、ユーザの端末装置4とを有する。以下では、複数のコンピュータ2を単にコンピュータ2と称する場合がある。コンピュータ2、2、2・・・およびサーバ3は、例えば、ネットワーク5などの通信ネットワークを介してそれぞれ相互に接続される。更に、ユーザの端末装置4およびサーバ3は、例えば、ネットワーク5などの通信ネットワークを介してそれぞれ相互に接続される。文作成装置100はサーバ3に接続されている。また、ここではネットワーク5が1つ例示されているが、ネットワーク5が複数のネットワークからなる場合は、それぞれのネットワーク間にゲートウェイ(図示しない)を適宜設けてもよい。コンピュータ2で実行されるプログラム(例えば、閲覧プログラム)と、サーバ3で実行されるプログラム(例えば、管理プログラム)とは、ハイパーテキスト転送プロトコル(HTTP)などの通信プロトコルを用いて通信を行う。 The sentence creation system 1 has multiple computers 2, 2, 2..., a server 3, and a user terminal device 4. In the following, the multiple computers 2 may be simply referred to as computers 2. The computers 2, 2, 2... and the server 3 are connected to each other via a communication network such as network 5. Furthermore, the user terminal device 4 and the server 3 are connected to each other via a communication network such as network 5. The sentence creation device 100 is connected to the server 3. In addition, although one network 5 is illustrated here, if the network 5 consists of multiple networks, a gateway (not shown) may be appropriately provided between each network. A program executed by the computer 2 (e.g., a browsing program) and a program executed by the server 3 (e.g., a management program) communicate using a communication protocol such as the hypertext transfer protocol (HTTP).

(サーバ3の概略構成)
図3は、サーバ3の概略構成の一例を示す図である。
(Schematic configuration of server 3)
FIG. 3 is a diagram showing an example of a schematic configuration of the server 3.

サーバ3には、複数の専門書類を記憶するデータベースが記憶されている。専門書類データベース311には複数の専門書類が専門書類識別情報(専門書類ID)とともに記憶されている。これらの専門書類は、サーバ3がコンピュータ2から受信し、端末装置4により検索される。そして、サーバ3は、端末装置4により入力された検索条件に基づいて専門書類を検索し、端末装置4に送信する。以上のような機能を実現するために、サーバ3は、サーバ通信部314、サーバ記憶部315、およびサーバ処理部316を更に備える。 The server 3 stores a database that stores multiple technical documents. The technical document database 311 stores multiple technical documents together with technical document identification information (technical document ID). These technical documents are received by the server 3 from the computer 2 and searched by the terminal device 4. The server 3 then searches for technical documents based on search conditions input by the terminal device 4 and transmits them to the terminal device 4. To realize the above functions, the server 3 further includes a server communication unit 314, a server memory unit 315, and a server processing unit 316.

サーバ通信部314は、サーバ3をネットワーク5に接続するための通信インタフェース回路を有する。サーバ通信部314は、コンピュータ2から専門書類の文書データを受信する。更に、サーバ通信部314は、端末装置4から受信した検索条件などのデータをサーバ処理部316に送信する。そして、サーバ通信部314は、サーバ処理部316から得られた抽出結果や生成された画面構成を端末装置4に送信する。サーバ通信部314は、上述以外の情報をコンピュータ2や端末装置4に送信または受信することができる。 The server communication unit 314 has a communication interface circuit for connecting the server 3 to the network 5. The server communication unit 314 receives document data of technical documents from the computer 2. Furthermore, the server communication unit 314 transmits data such as search conditions received from the terminal device 4 to the server processing unit 316. The server communication unit 314 then transmits the extraction results obtained from the server processing unit 316 and the generated screen configuration to the terminal device 4. The server communication unit 314 can transmit or receive information other than the above-mentioned information to the computer 2 or the terminal device 4.

サーバ記憶部315は、例えば、半導体メモリ、磁気ディスク装置および光ディスク装置の内の少なくとも一つを有し、バスを介してサーバ3と接続される。サーバ記憶部315は、サーバ処理部316による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データなどを記憶する。例えば、サーバ記憶部315は、ドライバプログラムとして、サーバ通信部314を制御する通信デバイスドライバプログラムなどを記憶する。コンピュータプログラムは、例えばCD-ROM、DVD-ROMなどのコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラムなどを用いてサーバ記憶部315にインストールされてもよい。また、サーバ記憶部315は、専門書類データベース311および契約書データベース312などを記憶する。 The server storage unit 315 has, for example, at least one of a semiconductor memory, a magnetic disk device, and an optical disk device, and is connected to the server 3 via a bus. The server storage unit 315 stores driver programs, operating system programs, application programs, data, and the like used in processing by the server processing unit 316. For example, the server storage unit 315 stores, as driver programs, communication device driver programs that control the server communication unit 314, and the like. Computer programs may be installed in the server storage unit 315 from computer-readable portable recording media such as CD-ROMs and DVD-ROMs using a known setup program, and the like. The server storage unit 315 also stores a specialized document database 311, a contract database 312, and the like.

サーバ処理部316は、コンピュータ2から受信した文を章立てしたり、節立てしたりして、文、章および節を対応付けてサーバ記憶部315に記憶する。更にサーバ処理部316は、ユーザの端末装置4から受信した各種検索要求に応じて検索結果を抽出したり、抽出した検索結果をユーザの端末装置4に送信すべく画面構成を生成したり、生成された画面構成をサーバ通信部314に送ったりする。これらの機能は、サーバ処理部316が備えるプロセッサで実行されるプログラムにより実現される機能モジュールである。あるいは、これらの各部は、独立した集積回路、マイクロプロセッサ、またはファームウェアとしてサーバ3に実装されてもよい。 The server processing unit 316 divides the sentences received from the computer 2 into chapters and sections, associates the sentences, chapters, and sections, and stores them in the server storage unit 315. Furthermore, the server processing unit 316 extracts search results in response to various search requests received from the user's terminal device 4, generates a screen configuration for transmitting the extracted search results to the user's terminal device 4, and sends the generated screen configuration to the server communication unit 314. These functions are functional modules realized by a program executed by a processor provided in the server processing unit 316. Alternatively, each of these units may be implemented in the server 3 as an independent integrated circuit, microprocessor, or firmware.

[文作成装置]
図面を参照して、本実施形態に係る文作成装置100について説明する。文作成装置100は、専門書類の入力を受け付けて、この専門書類に解説を加える変換処理を行う注釈付与装置である。ここで解説を加えるとは、専門書類の文中に含まれる参照文言に対して、その参照先の文書がある文へのリンクを貼ったり、専門書類に含まれる専門用語等の解説をする文書データを付与したり、その専門用語を解説する他の文書へのリンクを貼ったりすることをいう。
[Sentence creation device]
The sentence creation device 100 according to the present embodiment will be described with reference to the drawings. The sentence creation device 100 is an annotation device that accepts input of a technical document and performs a conversion process to add an explanation to the technical document. Adding an explanation here means providing a link to a sentence in a reference document for a reference phrase included in a sentence of the technical document, providing document data that explains technical terms and the like included in the technical document, or providing a link to another document that explains the technical term.

図4に示すように、文作成装置100は、受付部10、分割部20、キーワードタグ生成部30、制御部40、リンク生成部70、リンク出力部80、関連文書取得部90および関連文書出力部110を備える。 As shown in FIG. 4, the sentence creation device 100 includes a reception unit 10, a division unit 20, a keyword tag generation unit 30, a control unit 40, a link generation unit 70, a link output unit 80, a related document acquisition unit 90, and a related document output unit 110.

文作成装置100では、専門書類を構造化する。具体的には、まず、PDF情報等の構造化されていない(以下、構造化レベル0という)データを構文的解析により構造化する第一段階の構造化(以下、構造化レベル1という)を行う。本実施形態では、専門書類のPDF情報等の構造化されていないデータから、章構造・節構造等の専門書類の階層構造(以下、特に章・節・段落等の文書階層構造上のかたまりをセクションと呼ぶことにする)や、柱書、注釈等を抽出する。それにより、ウェブ上での閲覧に適した閲覧が可能になり、全専門書類に本文と連動する目次を表示することができる。次に、第一段階の構造化で構文的に構造化された文書データを意味的解析により構造化する、第二段階の構造化(以下、構造化レベル2という)を行う。本実施形態では、3つのことを行う。まず、1つ目として全ての法律文書の各セクションに対し、その内容を的確に表すキーワードタグ(例えば、重要語句、法令名、文章名)を付与することで、専門書類自体やそのセクションとタグとの関係性を記述する。それにより、キーワードタグを用いて閲覧したい専門書類をピンポイントに検索することが可能になる。2つ目として、専門書類間の明示的な参照関係を抽出する。これにより、専門書類中の参照リンクを辿り、引用されている文献を閲覧できるようになる。加えて、閲覧中の専門書類を参照しているような別の文書のセクションを、サジェストすることが可能になる。3つ目として、1つ目で付与されたキーワードタグを用い、全専門書類のセクション同士の関係性を推定する。この推定の際には、推定の精度を高めるために、2つ目で付与された明示的な参照関係を用いることもできるし、加えてキーワードタグの生成時あるいは生成とは独立のタイミングで、キーワードタグどうしの相互の関係性を推定しておくこともできる。これにより、閲覧中の文章を明示的には参照していない別の文章のセクションであって、関連するようなものをサジェストすることが可能になる。 In the sentence creation device 100, technical documents are structured. Specifically, first, a first stage of structuring (hereinafter referred to as structuring level 1) is performed to structure unstructured data such as PDF information (hereinafter referred to as structuring level 0) by syntactic analysis. In this embodiment, hierarchical structures of technical documents such as chapter structures and section structures (hereinafter, chunks in the document hierarchical structure such as chapters, sections, and paragraphs will be called sections) as well as headers, annotations, etc. are extracted from unstructured data such as PDF information of technical documents. This enables browsing suitable for browsing on the web, and a table of contents linked to the main text can be displayed for all technical documents. Next, a second stage of structuring (hereinafter referred to as structuring level 2) is performed to structure the document data that has been syntactically structured in the first stage of structuring by semantic analysis. In this embodiment, three things are done. First, keyword tags (e.g., important phrases, legal names, and document names) that accurately represent the contents are assigned to each section of all legal documents, thereby describing the relationship between the technical documents themselves and the sections and the tags. This makes it possible to pinpoint and search for the technical document you want to view using keyword tags. Secondly, it extracts explicit reference relationships between technical documents. This makes it possible to follow reference links in technical documents and view cited documents. In addition, it makes it possible to suggest sections of other documents that refer to the technical document you are viewing. Thirdly, it uses the keyword tags added in the first step to estimate the relationships between the sections of all technical documents. In order to improve the accuracy of this estimation, it is possible to use the explicit reference relationships added in the second step, and in addition, it is possible to estimate the mutual relationships between keyword tags when generating keyword tags or at a time independent of their generation. This makes it possible to suggest related sections of other documents that do not explicitly reference the document you are viewing.

受付部10は、ネットワーク5を介して、ユーザの端末(PC、スマートフォン、タブレット端末などの情報処理装置)から、通信により、文書の入力を受け付ける通信インタフェースである。 The reception unit 10 is a communication interface that receives document input from a user's terminal (an information processing device such as a PC, a smartphone, or a tablet terminal) via the network 5.

受付部10が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、PDFファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。この段階は構造化レベル0である。 The document accepted by the accepting unit 10 may be a legal document or other specialized document. At this stage, the document is unstructured data and may be in the form of a PDF file, text data, or Word data. These are merely examples, and the document can be realized in other forms. This stage is structuring level 0.

分割部20は、受付部10が受け付けた文書を複数のセクションに分割する。図5の左部分に示すように、構造化されていないPDFファイルのデータは、タイトル、章構造・節構造等の文書の階層構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、ページ番号が文章と一体となっていることがある。特に、文の途中にある単語やフレーズについて注釈などが入っていたりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合もある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置100では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、1つのまとまった意味のある部分を1つのセクションとして、複数のセクションに分割部20が分割する。例えば、図5の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「(f)第三者割当て」を1つのセクション、「第三者割当ては、・・・支配権の移動」を1つのセクション、「注17」・・・企業開示ガイドラインC III(1)(4)」を1つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。この段階が構造化レベル1である。この「第三者割当て」のようなキーワードタグとしては、法律文書であれば、条項の文言や専門用語や法条名(例えば、保険業法272条2項)が対象になる。技術用語の場合は、各技術分野の専門書に掲載されている専門用語やJIS用語が対象となる。論文では雑誌名、タイトル、著者名などが対象となる。技術雑誌では雑誌名、タイトル、著者名、各技術分野の専門用語やJIS用語が対象となる。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。 The division unit 20 divides the document received by the reception unit 10 into multiple sections. As shown in the left part of FIG. 5, the data of the unstructured PDF file has a structure in which the title, the hierarchical structure of the document such as the chapter structure and the section structure, the header, the main text, and the annotations are integrated without distinction. For example, the title and the main text may be integrated, or the page number may be integrated with the text. In particular, when an annotation is included for a word or phrase in the middle of a sentence, a line break may be inserted in the middle of the sentence, and the annotation may begin. In such a case, a page break is inserted, and the continuation of the sentence is written on the next page in the middle of the sentence. In order to eliminate such inconvenience, in the sentence creation device 100 in this embodiment, the division unit 20 divides the document into multiple sections, with each section being a meaningful part that is a whole, such as the title part, the part of the sentence up to the annotation, and the annotation part. For example, as shown in the right part of FIG. 5, if there is a document with the title "Third Party Allocation", it is divided into multiple sections, such as "(f) Third Party Allocation" as one section, "Third Party Allocation is ... Transfer of Control" as one section, and "Note 17" ... Corporate Disclosure Guidelines C III (1) (4)" as one section. In other words, "Transfer of Control" and "Third Party Allocation with" that were separated by a page break are recognized as a series of sentences called "Third Party Allocation with Transfer of Control". This stage is structuring level 1. For keyword tags such as this "third party allocation", in the case of legal documents, the target is the wording of the clause, technical terms, and legal article names (for example, Article 272, paragraph 2 of the Insurance Business Act). In the case of technical terms, the target is technical terms and JIS terms published in technical books in each technical field. In the case of papers, the target is the journal name, title, author name, etc. In the case of technical journals, the target is the journal name, title, author name, technical terms and JIS terms in each technical field. By searching documents using these keyword tags, you can view the chapters and sections to which the keyword tags are attached, improving search accuracy compared to regular keyword searches.

この構文的構造化の実現方法において、データを記録する形式はHTMLベースのデータフォーマットであってもよい。HTML形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、HTMLベースのデータフォーマットは一例であり、XML等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより、全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。 In this method of achieving syntactic structuring, the format for recording data may be an HTML-based data format. The HTML format is highly machine-readable, making it ideal for operation and viewing on the web. However, the HTML-based data format is just one example, and other data formats such as XML may also be used. Conversion to this data format may be performed fully automatically or semi-automatically by a learning model obtained by machine learning using a supervised model, and the segmentation results obtained by syntactic structuring performed semi-automatically by this learning model may be corrected by a human, or may be performed entirely by a human.

次に、構造化レベル2の意味的構造化について、図9~14を用いて説明する。 Next, we will explain semantic structuring at structuring level 2 using Figures 9 to 14.

図9は、構造化レベル2の意味的構造化の実現方法を示すフローチャートである。まず、キーワードタグ集合を生成し、それに基づき、セクションごとにキーワードタグを付与し(以下、セクション-キーワードタグ間の関係性という)、キーワードタグどうしの階層関係を解析する(以下、キーワードタグ-キーワードタグ間の関係性という)。また、セクション間の参照関係を検出する(以下、セクション-セクション間の明示的に存在する関係性という)。そして、セクション-キーワードタグ間の関係性に基づき、セクションどうしの関連性の解析を行う(以下、セクション-セクション間の真の関係性という)。また、任意に、キーワードタグ-キーワードタグ間の関係性に基づきセクション-キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよく、セクション-セクション間の明示的に存在する関係性に基づきセクション-キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよい。キーワードタグ集合の生成と、セクション-キーワードタグ間の関係性と、キーワードタグ-キーワードタグ間の関係性とを独立の手法として段階的に行ってもよく、同時に行ってもよい。 Figure 9 is a flowchart showing a method for realizing semantic structuring at the structuring level 2. First, a keyword tag set is generated, and based on the set, keyword tags are assigned to each section (hereinafter, referred to as the section-keyword tag relationship), and the hierarchical relationship between the keyword tags is analyzed (hereinafter, referred to as the keyword tag-keyword tag relationship). Also, a reference relationship between the sections is detected (hereinafter, referred to as the section-section explicitly existing relationship). Then, based on the section-keyword tag relationship, the relevance between the sections is analyzed (hereinafter, referred to as the section-section true relationship). Also, optionally, the relationship between the sections may be analyzed based on the section-keyword tag relationship based on the keyword tag-keyword tag relationship, or the relationship between the sections may be analyzed based on the section-keyword tag relationship based on the section-section explicitly existing relationship. The generation of the keyword tag set, the section-keyword tag relationship, and the keyword tag-keyword tag relationship may be performed step by step as independent methods, or may be performed simultaneously.

図10は、キーワードタグ集合を生成する手法を具体的に説明している。法律書籍等の索引、辞書、Wikipediaなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類を入力として、TextrankやRapid Automatic Keyword Extraction等のアルゴリズムを用いてキーワードタグ集合を出力する。図6は、構造化レベル2により意味的構造化された文書データを示すインタフェースを示している。例えば、「注17」を注釈への参照として認識し、その下のセクションを注釈のセクションとして認識したり、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現するためのデータを作成することができる。キーワードタグ生成部30は、分割部20が分割した複数のセクションごとにキーワードタグを生成する。 Figure 10 specifically explains a method for generating a keyword tag set. Using words from indexes of legal books, dictionaries, Wikipedia, etc., and a large amount of specialized documents such as legal books, laws, precedents, and government documents as input, a keyword tag set is output using algorithms such as Textrank and Rapid Automatic Keyword Extraction. Figure 6 shows an interface showing document data semantically structured by structuring level 2. For example, it is possible to create data that recognizes "Note 17" as a reference to an annotation and recognizes the section below it as an annotation section, or discolors the name of a legal clause and allows the user to move to another section of another document by selecting the discolored part of the legal clause name. The keyword tag generating unit 30 generates keyword tags for each of the multiple sections divided by the dividing unit 20.

キーワードタグ集合の生成の別の手法としては、自立語の類似度を考え、文書中に出現する自立語の集合の中で最も多くの語との類似性を認められる語を選ぶ手法(以下、手法Xと呼ぶ)が用いられる。これは、自立語の類似度は語の共起に基づいて考えられ、具体的にはword2vecを用いる。word2vecは語の共起の予測に用いる機械学習モデルの隠れ層の行列により表現される。また、最も多くの語との類似性を認められる語は、word2vecのコサイン距離を重みとした有向グラフのページランクを考えることで選ぶことができる。 Another method for generating a set of keyword tags is to consider the similarity of independent words and select the word that is most similar to the set of independent words that appear in the document (hereinafter referred to as method X). In this method, the similarity of independent words is considered based on word co-occurrence, and specifically, word2vec is used. Word2vec is expressed by a matrix of the hidden layer of a machine learning model used to predict word co-occurrence. In addition, the word that is most similar to the most words can be selected by considering the page rank of a directed graph with the cosine distance of word2vec as a weight.

キーワードタグ集合の生成の具体的な手法としては、また、文書からTextrankやRapid Automatic Keyword Extraction等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。 A specific method for generating a set of keyword tags is to have algorithms such as Textrank and Rapid Automatic Keyword Extraction select keyphrases, which are combinations of keyword tags, from documents, and then select characteristic words from among them. More specifically, machine learning is an effective method for selecting keyphrases, and learning and prediction are performed in which the input is the entire document and the output is the keyphrase.

キーワードタグ集合の生成の具体的な手法としては、また、文書に出現する自立語をノードとしnワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで単語集合を表現し、各ノードに対して何らかのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。 A specific method for generating a set of keyword tags is to represent the set of words as a directed graph, with nodes representing independent words that appear in a document and branches representing co-occurrences of words within n words, with the order of appearance being the direction, and to calculate some kind of score for each node and select the node with the highest score. The PageRank algorithm is a typical algorithm for calculating the score of each node.

次に、キーワードタグ生成部30は、キーワードタグ集合を生成し、生成されたキーワードタグ集合と、分割部20が文書データを分割して作ったセクションの集合を入力として、木構造になったキーワードタグ集合が出力される。具体的には、Textrank、Rapid Automatic Keyword Extraction、Word2Vec、Topic Model等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図7は、この付与されたキーワードがタグとして、各章や各節の下に表示されているユーザインタフェースである。例として、1つのセクションに「(f)第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がタグとして付与されており、文中に「第三者割当て」という語が記号T1で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号T2で示すようにハイライトされている。 Next, the keyword tag generating unit 30 generates a set of keyword tags, and outputs a tree-structured set of keyword tags using the generated set of keyword tags and a set of sections created by the dividing unit 20 by dividing the document data as input. Specifically, a keyword tag that semantically represents each section is assigned to each section using algorithms such as Textrank, Rapid Automatic Keyword Extraction, Word2Vec, and Topic Model. FIG. 7 shows a user interface in which the assigned keywords are displayed as tags under each chapter and each section. As an example, one section has an item "(f) Third Party Allocation" and under that item, "Third Party Allocation" and "Regulation" are assigned as tags, and the word "third party allocation" is highlighted in the text as shown by symbol T1, and the legal clause indicating the content of "regulation" is highlighted as shown by symbol T2.

タグを付与する方法としては、キーワードタグ生成部30がキーワードタグを生成する上記具体的手法に加え、上記具体的手法の実行結果からそのままキーワードタグを付与する方法と、上記具体的手法の結果からキーワードタグごとの重みづけ(tf-idfなどを用いる)のあるキーワードタグ集合を生成し、各セクションに対して上位n位のキーワードタグのみをキーワードタグとして付与する方法が考えられる。また、この二手法を並行して実施し、選ばれたキーワードタグ集合の和集合をキーワードタグとする方法と、選ばれたキーワードタグ集合の積集合をキーワードタグとする方法がある。 In addition to the above specific method in which the keyword tag generator 30 generates keyword tags, other possible methods for assigning tags include a method in which keyword tags are assigned directly from the results of executing the above specific method, and a method in which a set of keyword tags with weighting for each keyword tag (using tf-idf, etc.) is generated from the results of the above specific method, and only the top n keyword tags are assigned to each section as keyword tags. In addition, there is a method in which these two methods are performed in parallel, and the union of the selected sets of keyword tags is used as the keyword tag, or the intersection of the selected sets of keyword tags is used as the keyword tag.

図12は、キーワードタグどうしの階層関係の解析、つまりキーワードタグ-キーワードタグ間の関係性を示す手法を示している。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてaが出現する条件において、そこにaとbが共起する条件付き確率と、ある範囲においてbが出現する条件において、そこにbとaが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、aはbを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、bはaを包含するキーワードタグであると考えることができる。 Figure 12 shows a method for analyzing the hierarchical relationships between keyword tags, that is, for showing the relationships between keyword tags. With this method, a set of keyword tags and a set of sections are input, and a set of keyword tags in the form of a tree is output. Analysis of the relationships between keyword tags means analyzing whether two selected keyword tags are similar to each other, and if so, the degree of similarity, and also analyzing whether the concepts indicated by the selected keyword tags are in an inclusive relationship, and if so, which one encompasses which. Specifically, there are two methods for evaluating similarity: a method that recognizes that keyword tags that are simultaneously assigned to more sentences are highly similar when the keywords are assigned, and a method that recognizes that pairs with a high degree of co-occurrence calculated when the keyword tag set is generated are highly similar. As a method of evaluating inclusiveness, for example, when considering the conditional probability that a and b co-occur when a appears in a certain range, and the conditional probability that b and a co-occur when b appears in a certain range, if the latter is greater than the former, a is considered to be a keyword tag that includes b. Similarly, if the former is greater than the latter, b can be considered to be a keyword tag that includes a.

また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。逆に、bの方がaよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、aの方がbよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。 Furthermore, using the same method as method X, if a is found to have similarities with more words than b, it is possible to analyze the inclusion relationship between keyword tags by considering a to include b. Similarly, if b is found to have similarities with more words than a, it is possible to consider b to include a. Conversely, if b is found to have similarities with more words than a, it is possible to analyze the inclusion relationship between keyword tags by considering a to include b. Similarly, if a is found to have similarities with more words than b, it is possible to consider b to include a.

また、書籍の文章の論理構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考えることができる。 Also, in the logical structure of a book's text, keyword tags that appear in lower-level chapter headings can be considered to be included in keyword tags that appear in higher-level chapter headings.

あるいは、例えば、書籍の索引に「目論見書」と「目論見書の虚偽記載」という二つの項目があれば、後者は前者の文字列に付して助詞「の」を用いて下位概念を説明しているものと推定し、「虚偽記載」は「目論見書」の下位概念であるということが分かるというように、索引を用いて項目間の部分文字列関係からキーワードタグ間の関係を推定できる。同様に、目次の階層構造を用いることもできる。 Or, for example, if a book index has two items, "prospectus" and "false statements in a prospectus," it can be inferred that the latter is attached to the former string using the particle "no" to explain a subordinate concept, and it can be seen that "false statements" is a subordinate concept to "prospectus." In this way, the index can be used to infer the relationships between keyword tags from the substring relationships between items. Similarly, the hierarchical structure of the table of contents can also be used.

あるいは、文章の係り受け等を解析し、キーワードタグ間の上位・下位を判定することもできる。 Alternatively, it is also possible to analyze the dependencies of sentences and determine the hierarchy between keyword tags.

図13は、セクション間の明示的な参照関係(セクション-セクション間の明示的に存在する関係性)を検出する手法を示している。制御部40は、判定部50と、特定部60とを備えている。判定部50は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注:」、「~参照」、「例、」などの文言や、法律の条項(例えば、特許法第2条1項。例示であって、他に例えば保険業法272条2項であってもよい)、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。 Figure 13 shows a method for detecting explicit reference relationships between sections (explicitly existing relationships between sections). The control unit 40 includes a determination unit 50 and an identification unit 60. The determination unit 50 determines whether or not multiple sections contain wording suggesting a reference. Specifically, when words such as "Note:", "See," "Example," legal provisions (for example, Article 2, paragraph 1 of the Patent Act; this is an example, and other examples such as Article 272, paragraph 2 of the Insurance Business Act) and industry jargon are included, they are recognized as a set of character strings known to be reference notations. In addition, it is determined whether or not a set of sections that is not known to be reference notations contains wording suggesting a reference.

このセクション間の明示的な参照関係(セクション-セクション間の明示的に存在する関係性)を検出する手法において、判定部50は、パターンマッチを用いてもよく、系列ラベリング問題としてモデリングした上で条件付き確率場等またはニューラルネットワークを用いてもよく、もしくはニューラルネットワー用いてもよい。 In this method of detecting explicit reference relationships between sections (explicitly existing relationships between sections), the determination unit 50 may use pattern matching, or may model the problem as a sequence labeling problem and then use a conditional random field or a neural network, or may use a neural network.

参照表記であることが分かっていない文字列を含む、セクションに分かれた大量の法律文書であるセクションの集合に基づくセクション間の明示的な参照関係の解析手法としては、書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くことおよびニューラルネットワークを使用することが挙げられる。 Methods for analyzing explicit reference relationships between sections based on a large collection of sections of legal documents that are divided into sections and contain strings of characters that are not known to be references include estimating the location of the reference from the location of the reference in the PDF data of a book, etc., mechanically extracting expressions that are thought to be references by pattern matching, modeling the problem as a "sequence labeling" problem and solving it using conditional random fields, and using neural networks.

参照表記であることが分かっている文字列を含む文字列の集合に基づくセクション間の参照関係の解析手法としては、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することを挙げることができる。 Methods for analyzing reference relationships between sections based on a set of strings that contain strings known to be reference notations include modeling the problem as a "sequence labeling" problem and solving it using conditional random fields, or using neural networks.

系列ラベリングとは、単語列やトークン列等の系列に対して、系列を構成する各要素に対して全体を通しての最適性を考慮してラベル付けする、という問題設定である。ここでは、セクションの集合と文字列の集合とから、別セクションへのリンクが付与されたセクションの集合を出力する。この系列ラベリングを解くための手法として、条件付き確率場を用いて解く手法と、ニューラルネットワークベースの手法を用いて解く手法とがあり、その際に副次的にリンク先の特定も同時に解くことができる場合がある。 Sequence labeling is a problem setting in which each element that makes up a sequence, such as a string of words or a string of tokens, is labeled while taking into account the overall optimality of the sequence. Here, a set of sections with links to other sections is output from a set of sections and a set of strings. Methods for solving this sequence labeling problem include a method that uses conditional random fields and a method that uses a neural network-based method, and in some cases it may be possible to identify the link destination at the same time as a by-product.

また、明示的な参照関係の解析手法としてパターンマッチがある。パターンマッチは、書籍等の中でどのような表現がリンクとして使われがちかという情報をもとに系列ラベリングを解く手法である。すなわち、「詳細は○○を参照せよ」と書いてあれば、この部分は○○へのリンクと思われる、というようなパターンを用意することにより、自動または半自動または手動で明示的な参照関係を解析できる。 Pattern matching is another method for analyzing explicit reference relationships. Pattern matching is a method for solving sequence labeling based on information about what expressions are likely to be used as links in books, etc. In other words, by preparing a pattern such as "If it says "See XX for details," this part is likely to be a link to XX," explicit reference relationships can be analyzed automatically, semi-automatically, or manually.

また、上記セクション間の明示的な参照関係の解析手法を用いて確率的に同定された参照先のセクション候補群のうちに、参照先のセクションである確率が閾値よりも高いものが無い場合に、専門書類データベース311に候補群を記録しておき、参照先候補をユーザに提示し選択させ、その選択を蓄積することにより、検索の精度を向上させる。 In addition, if there is no reference section candidate group that is probabilistically identified using the above-mentioned method for analyzing explicit reference relationships between sections and that has a probability higher than a threshold value of being a reference section, the candidate group is recorded in the technical document database 311, and the reference candidates are presented to the user for selection, and the selection is stored, thereby improving search accuracy.

書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これらの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。 A set of sections with links to other sections is output by estimating the location of the reference from the location of the reference notation on the PDF data of the book, etc., mechanically extracting expressions that are thought to be references by pattern matching, modeling it as a "sequence labeling" problem and solving it using conditional random fields, etc., and using neural networks. These methods may be used in combination, or any one method may be used alone.

このセクション間の明示的な参照関係(セクション-セクション間の明示的に存在する関係性)を検出する手法において、特定部60は、判定部50が参照を示唆する文言が含まれると判定した場合に、参照先のセクションを特定する。 In this method of detecting explicit reference relationships between sections (explicit relationships that exist between sections), the identification unit 60 identifies the referenced section when the determination unit 50 determines that a sentence that suggests a reference is included.

このセクション間の明示的な参照関係(セクション-セクション間の明示的に存在する関係性)を検出する手法において、リンク生成部70は、特定部60が特定した参照先のセクションに文書からのリンクを生成する。 In this method of detecting explicit reference relationships between sections (explicit relationships that exist between sections), the link generation unit 70 generates a link from the document to the referenced section identified by the identification unit 60.

このセクション間の明示的な参照関係(セクション-セクション間の明示的に存在する関係性)を検出する手法において、リンク出力部80は、特定部60が特定した参照先へのリンクを出力する。 In this method of detecting explicit reference relationships between sections (explicit relationships that exist between sections), the link output unit 80 outputs a link to the reference destination identified by the identification unit 60.

図14は、セクションどうしの関連性(セクション-セクション間の真の関係性)の解析手法を示している。この解析手法において、セクションごとにセクションを意味的に表すキーワードタグが付与されたセクションの集合と、別セクションへのリンクが付与されたセクションの集合と、木構造になったキーワードタグ集合とを入力として、セクションごとの関連性(類似度等)が出力される。 Figure 14 shows a method for analyzing the relevance between sections (the true relationships between sections). In this analysis method, a set of sections to which keyword tags that semantically describe each section have been added, a set of sections to which links to other sections have been added, and a set of keyword tags arranged in a tree structure are input, and the relevance (similarity, etc.) for each section is output.

このセクションどうしの関連性(セクション-セクション間の真の関係性)の解析手法において、関連文書取得部90は、ある文書に類似する関連文書を示す情報を取得する。関連文書取得部90は、セクションおよび参照先のセクションから、関連文書を取得する。また、関連文書取得部90は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。 In this method of analyzing the relevance between sections (the true relationship between sections), the related document acquisition unit 90 acquires information indicating related documents similar to a certain document. The related document acquisition unit 90 acquires related documents from a section and a referenced section. The related document acquisition unit 90 also acquires related documents by either network structuring, which uses graph theory to infer relevance, or by similarity calculation in a low-dimensional Euclidean space based on embedding.

具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションAとセクションBは、同じセクションCへのリンクを含むとすると、このとき、まずAとC、およびBとCを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、AとC、BとCが直接連結していることをもとにAとBもある程度関連していると推論し、AとBも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の1つで、グラフ理論の問題として定式化して解析することが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。 Specifically, sections are given as input, and each section is given links and keyword tags. One method is to roughly structure the sections into a network using links, keyword tags, section positions, and vocabulary that appears in the sections as clues, and then further refine the relationships based on the rough information in the structure. For example, if sections A and B contain links to the same section C, then first A and C, and B and C are connected in a rough network using the information that "there is a link." After constructing a rough network in this way, it is inferred that A and B are also related to some extent based on the fact that A and C and B and C are directly connected, and A and B are also connected, and so on. In computer science, this relationship network is one of the data structures called "graphs," and can be formulated and analyzed as a problem in graph theory. Another method is based on embedding, in which each section has multiple clues, such as links and keyword tags, as in the above network structuring, and these can be used to associate each section with a vector in a low-dimensional Euclidean space. This allows us to calculate section-to-section similarity using known techniques for calculating vector-to-vector similarity.

このセクションどうしの関連性(セクション-セクション間の真の関係性)の解析手法において、関連文書出力部110は、関連文書取得部90が取得した関連文書を出力する。 In this method of analyzing the relevance between sections (the true relationship between sections), the related document output unit 110 outputs the related documents acquired by the related document acquisition unit 90.

このような構成を備えることにより、本実施形態に係る文作成装置によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことを実現させることが可能になる。 With this configuration, the text creation device of this embodiment electronically centralizes distributed technical document resources, allowing for cross-sectional information searches and quick access to required information. It not only makes technical documents electronically viewable, but also analyzes and organizes technical documents using natural language processing technology, etc., and analyzes the cross-reference relationships of technical documents and the use of unique terms (keyword tags) in sentences to organize the relationships between technical documents (e.g., legal documents; this is just an example, and documents in other specialized fields where similar cross-references between documents are important may also be used), making it possible to realize pinpoint access to required information from all technical documents and to conduct thorough investigations of related information.

[文作成方法]
以下に、図8を参照して、本発明に係る文作成方法について説明する。
[How to write a sentence]
The sentence creation method according to the present invention will now be described with reference to FIG.

文作成方法は、受付ステップS10、分割ステップS20、キーワードタグ生成ステップS30、判定ステップS40、検出ステップS41、同定ステップS42、特定ステップS50、リンク生成ステップS60、リンク出力ステップS70、関連文書取得ステップS80および関連文書出力ステップS90を含む。以下、それぞれ具体的に説明する。 The sentence creation method includes a receiving step S10, a dividing step S20, a keyword tag generating step S30, a determining step S40, a detecting step S41, an identifying step S42, a specifying step S50, a link generating step S60, a link output step S70, a related document acquiring step S80, and a related document output step S90. Each of these steps will be described in detail below.

受付ステップS10では、受付部10が、ネットワーク5を介して、ユーザの端末(PC、スマートフォン、タブレット端末などの情報処理装置)から、通信により、文書の入力を受け付ける通信インタフェースである。 In the reception step S10, the reception unit 10 is a communication interface that receives document input via communication from a user's terminal (an information processing device such as a PC, smartphone, or tablet terminal) via the network 5.

受付部10が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、PDFファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。 The document accepted by the accepting unit 10 may be a legal document or other specialized document. At this stage, the document is unstructured data and may be in the form of a PDF file, text data, or Word data. These are merely examples, and other forms may also be used.

分割ステップS20は、分割部20が、受付部10が受け付けた文書を複数のセクションに分割する。図5の左部分に示すように、構造化されていないPDFファイルのデータは、タイトル、章構造、節構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、文の途中にある単語やフレーズについて注釈などが入ったりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合がある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置100では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、1つのまとまった意味のある部分を1つのセクションとして、複数のセクションに分割部20が分割する。例えば、図5の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「(f)第三者割当て」を1つのセクション、「第三者割当ては、・・・支配権の移動」を1つのセクション、「注17」・・・企業開示ガイドラインC III(1)(4)」を1つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。これを構文的構造化と呼ぶ。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。 In the division step S20, the division unit 20 divides the document received by the reception unit 10 into a plurality of sections. As shown in the left part of FIG. 5, the data of the unstructured PDF file has a structure in which the title, chapter structure, section structure, header, main text, and annotations are integrated without distinction. For example, when the title and the main text are integrated, or when an annotation is added to a word or phrase in the middle of a sentence, a line break may be inserted in the middle of the sentence, and the annotation may begin. In such a case, a page break is inserted, so that the continuation of the sentence is written on the next page in the middle of the sentence. In order to eliminate such inconvenience, in the sentence creation device 100 in this embodiment, the division unit 20 divides the document into a plurality of sections, with each section being a meaningful part that is a whole, such as the title part, the part of the sentence up to the annotation, and the annotation part. For example, as shown in the right part of Figure 5, if there is a document with the title "Third Party Allotment", it will be divided into multiple sections, with "(f) Third Party Allotment" as one section, "Third Party Allotment ...Transfer of Control" as one section, and "Note 17" ...Corporate Disclosure Guidelines C III (1) (4)" as one section. In other words, "Transfer of Control" and "Third Party Allotment with" that were separated by a page break are recognized as a single sentence, "Third Party Allotment with Transfer of Control". This is called syntactic structuring. By searching a document with this keyword tag, it is possible to view the chapters and sections to which the keyword tag is attached, improving search accuracy compared to normal keyword searches.

この構文的構造化の実現方法において、データを記録する形式はHTMLベースのデータフォーマットであってもよい。HTML形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、HTMLベースのデータフォーマットは一例であり、XML等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。 In this method of achieving syntactic structuring, the format for recording data may be an HTML-based data format. The HTML format is highly machine-readable, making it ideal for operation and viewing on the web. However, the HTML-based data format is just one example, and other data formats such as XML may also be used. Conversion to this data format may be performed fully automatically or semi-automatically by a learning model obtained by machine learning using a supervised model, and the segmentation results obtained by syntactic structuring performed semi-automatically by this learning model may be corrected by a human, or may be performed entirely by a human.

以上、構文的構造化の手法について述べたが、次に構造化レベルの第2段階としての意味的構造化について説明する。図6に示すように、例えば、「注17」を注釈として認識し、その下のセクションを注釈のセクションとして、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現できるためのデータを作成することができる。キーワードタグ生成ステップS30は、分割部20が分割した複数のセクションごとにキーワードタグを生成する。具体的には、法律書籍等の索引、辞書、Wikipediaなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類から、TextrankやRapid Automatic Keyword Extraction等のアルゴリズムを用いてキーワードタグ集合を生成する。 The above describes the syntactic structuring technique, and next we will explain semantic structuring as the second structuring level. As shown in FIG. 6, for example, data can be created that recognizes "Note 17" as an annotation, discolors the legal clause name with the section below it as an annotation section, and enables moving to another section of another document by selecting the discolored legal clause name. The keyword tag generation step S30 generates keyword tags for each of the multiple sections divided by the division unit 20. Specifically, a keyword tag set is generated using algorithms such as Textrank and Rapid Automatic Keyword Extraction from words in indexes, dictionaries, Wikipedia, etc. of legal books, and a large amount of specialized documents such as legal books, laws, precedents, and government documents.

キーワードタグ集合の生成の別の手法としては、自立語の類似度を考え、文書中に出現する自立語の集合の中で最も多くの語との類似性を認められる語を選ぶ手法(以下、手法Xと呼ぶ)が用いられる。これは、自立語の類似度は語の共起に基づいて考えられ、具体的にはword2vecを用いる。word2vecは語の共起の予測に用いる機械学習モデルの隠れ層の行列により表現される。また、最も多くの語との類似性を認められる語は、word2vecのコサイン距離を重みとした有向グラフのページランクを考えることで選ぶことができる。 Another method for generating a set of keyword tags is to consider the similarity of independent words and select the word that is most similar to the set of independent words that appear in the document (hereinafter referred to as method X). In this method, the similarity of independent words is considered based on word co-occurrence, and specifically, word2vec is used. Word2vec is expressed by a matrix of the hidden layer of a machine learning model used to predict word co-occurrence. In addition, the word that is most similar to the most words can be selected by considering the page rank of a directed graph with the cosine distance of word2vec as a weight.

キーワードタグ集合の生成のさらに別の手法としては、また、文書からTextrankやRapid Automatic Keyword Extraction等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。特徴的な単語の選択には、tf-idfなどを用いる。 Another method for generating keyword tag sets is to use algorithms such as Textrank and Rapid Automatic Keyword Extraction to select keyphrases, which are combinations of keyword tags, from documents, and then select characteristic words from among them. More specifically, machine learning is a powerful method for selecting keyphrases, which involves learning and prediction in which the input is the entire document and the output is the keyphrase. tf-idf, for example, is used to select characteristic words.

具体的な手法としては、また、文書に出現する自立語をノードとしnワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで表現し、ノードのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。 A specific method is to represent the independent words that appear in a document as nodes, co-occurrences of words within n words as branches, and a directed graph with the order of appearance as the direction, then calculate the score of the nodes and select the node with the highest score. The PageRank algorithm is a typical algorithm for calculating the score of each node.

具体的な手法としては、また、自立語の共起度を自立語の共起頻度で割った値をスコアとし、スコアが最大となりかつコーパス上に存在する自立語の順列を考える手法が用いられる。より具体的には、文書に出現する自立語を各行列に対応させた正方行列を考え、各要素は対応する語のnワード以内での共起の回数とし、このとき、共起度は行および列の和、共起頻度は行および列の中での最大値である。 As a specific method, the score is calculated by dividing the co-occurrence degree of an independent word by its co-occurrence frequency, and the permutation of the independent words that exists in the corpus and maximizes the score is considered. More specifically, a square matrix is considered in which the independent words that appear in the document correspond to each matrix, and each element is the number of times the corresponding word co-occurs within n words, where the co-occurrence degree is the sum of the row and column, and the co-occurrence frequency is the maximum value within the row and column.

次に、キーワードタグ生成ステップS30は、キーワードタグ生成部30が生成したキーワードタグ集合からキーワードタグを生成する。具体的には、キーワードタグ生成部30が生成したキーワードタグ集合と、分割部20が分割して作ったセクションの集合から、Textrank、Rapid Automatic Keyword Extraction、Word2Vec、Topic Model等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図7は、この付与されたキーワードタグが各章や各節の下に表示されているユーザインタフェースである。例として、1つのセクションに「(f)第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がキーワードタグとして付与されており、文中に「第三者割当て」という語が記号T1で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号T2で示すようにハイライトされている。 Next, the keyword tag generation step S30 generates keyword tags from the keyword tag set generated by the keyword tag generation unit 30. Specifically, from the keyword tag set generated by the keyword tag generation unit 30 and the set of sections created by division by the division unit 20, keyword tags that semantically represent the sections are assigned to each section using algorithms such as Textrank, Rapid Automatic Keyword Extraction, Word2Vec, and Topic Model. FIG. 7 shows a user interface in which the assigned keyword tags are displayed under each chapter or section. As an example, one section has an item "(f) Third Party Allocation," and under that item, "Third Party Allocation" and "Regulation" are assigned as keyword tags, and the word "third party allocation" is highlighted in the text as indicated by the symbol T1, and the legal clause indicating the content of "regulation" is highlighted as indicated by the symbol T2.

タグを付与する方法としては、キーワードタグ生成部30がキーワードタグを生成する上記具体的手法に加え、上記具体的手法の実行結果からそのままキーワードタグを付与する方法と、上記具体的手法の結果からキーワードタグごとの重みづけ(tf-idfなどを用いる)のあるキーワードタグ集合を生成し、各セクションに対して上位n位のキーワードタグのみをキーワードタグとして付与する方法が考えられる。また、この二手法を並行して実施し、選ばれたキーワードタグ集合の和集合をキーワードタグとする方法と、選ばれたキーワードタグ集合の積集合をキーワードタグとする方法がある。 In addition to the specific method described above in which the keyword tag generator 30 generates keyword tags, other possible methods for assigning tags include a method in which keyword tags are assigned directly from the results of executing the specific method described above, and a method in which a set of keyword tags with weighting for each keyword tag (using tf-idf, etc.) is generated from the results of the specific method described above, and only the top n keyword tags are assigned to each section as keyword tags. In addition, there is a method in which these two methods are performed in parallel, and the union of the selected sets of keyword tags is used as the keyword tag, or the intersection of the selected sets of keyword tags is used as the keyword tag.

また、キーワードタグどうしの階層関係の解析、つまりキーワードタグ-キーワードタグ間の関係性の解析も行うことができる。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてaが出現する条件において、そこにaとbが共起する条件付き確率と、ある範囲においてbが出現する条件において、そこにbとaが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、aはbを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、bはaを包含するキーワードタグであると考えることができる。 It is also possible to analyze the hierarchical relationships between keyword tags, that is, to analyze the relationships between keyword tags. With this method, a set of keyword tags and a set of sections are input, and a set of keyword tags arranged in a tree is output. Analyzing the relationships between keyword tags means analyzing whether two selected keyword tags are similar to each other, and if so, what the degree of similarity is. It also means analyzing whether the concepts indicated by the selected keyword tags are in an inclusion relationship, and if so, which one encompasses which. Specifically, there are two methods for evaluating similarity: one in which keyword tags that are simultaneously assigned to more sentences are deemed to be highly similar when the tags are assigned, and another in which pairs with a high degree of co-occurrence calculated when the keyword tag set is generated are deemed to be highly similar. As a method of evaluating inclusiveness, for example, when considering the conditional probability that a and b co-occur when a appears in a certain range, and the conditional probability that b and a co-occur when b appears in a certain range, if the latter is greater than the former, a is considered to be a keyword tag that includes b. Similarly, if the former is greater than the latter, b can be considered to be a keyword tag that includes a.

また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考える。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考える。書籍の構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考える。 In addition, using the same method as method X, if a is found to have more similarities with words than b, then a is considered to contain b. Similarly, if b is found to have more similarities with words than a, then b is considered to contain a. In the book structure, keyword tags that appear in lower-level chapter headings are considered to be contained in keyword tags that appear in higher-level chapter headings.

また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。逆に、bの方がaよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、aの方がbよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。 In addition, using the same method as method X, if a is found to have similarities with more words than b, it is possible to analyze the inclusion relationship between keyword tags by considering a to include b. Similarly, if b is found to have similarities with more words than a, it is possible to consider b to include a. Conversely, if b is found to have similarities with more words than a, it is possible to analyze the inclusion relationship between keyword tags by considering a to include b. Similarly, if a is found to have similarities with more words than b, it is possible to consider b to include a.

また、書籍の文章の論理構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考えることができる。 Also, in the logical structure of a book's text, keyword tags that appear in lower-level chapter headings can be considered to be included in keyword tags that appear in higher-level chapter headings.

あるいは、例えば、書籍の索引に「目論見書」と「目論見書の虚偽記載」という二つの項目があれば、後者は前者の文字列に付して助詞「の」を用いて下位概念を説明しているものと推定し、「虚偽記載」は「目論見書」の下位概念であるということが分かるというように、索引を用いて項目間の部分文字列関係からキーワードタグ間の関係を推定できる。同様に、目次の階層構造を用いることもできる。 Or, for example, if a book index has two items, "prospectus" and "false statements in a prospectus," it can be inferred that the latter is attached to the former string using the particle "no" to explain a subordinate concept, and it can be seen that "false statements" is a subordinate concept to "prospectus." In this way, the index can be used to infer the relationships between keyword tags from the substring relationships between items. Similarly, the hierarchical structure of the table of contents can also be used.

あるいは、文章の係り受け等を解析し、キーワードタグ間の上位・下位を判定することもできる。 Alternatively, it is also possible to analyze the dependencies of sentences and determine the hierarchy between keyword tags.

次に、判定ステップS40は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注:」、「~参照」、「例、」などの文言や、法律の条項(例えば、特許法第2条1項)、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。 Next, in judgment step S40, it is determined whether the multiple sections contain any wording that suggests a reference. Specifically, if the multiple sections contain words such as "Note:", "See," or "Example," or legal provisions (e.g., Article 2, paragraph 1 of the Patent Act), or industry jargon, they are recognized as a set of character strings that are known to be reference notations. In addition, it is determined whether the set of sections that are not known to be reference notations contains any wording that suggests a reference.

判定ステップS40は、検出ステップS41でパターンマッチ、条件付き確率場等の系列ラベリング問題を解く手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、同定ステップS42でリンクのそれぞれについて参照先のセクションを同定する。 In the determination step S40, a detection step S41 detects text suggesting a reference using at least one of a method for solving sequence labeling problems such as pattern matching and conditional random fields, and a neural network, and an identification step S42 identifies the referenced section for each link.

系列ラベリングとは、単語列やトークン列等の系列に対して、系列を構成する各要素に対して全体を通しての最適性を考慮してラベル付けする、という問題設定である。ここでは、セクションの集合と文字列の集合とから、別セクションへのリンクが付与されたセクションの集合を出力する。この系列ラベリングを解くための手法として、条件付き確率場を用いて解く手法と、ニューラルネットワークベースの手法を用いて解く手法とがあり、その際に副次的にリンク先の特定も同時に解くことができる場合がある。 Sequence labeling is a problem setting in which each element that makes up a sequence, such as a string of words or a string of tokens, is labeled while taking into account the overall optimality of the sequence. Here, a set of sections with links to other sections is output from a set of sections and a set of strings. Methods for solving this sequence labeling problem include a method that uses conditional random fields and a method that uses a neural network-based method, and in some cases it may be possible to identify the link destination at the same time as a by-product.

また、明示的な参照関係の解析手法としてパターンマッチがある。パターンマッチは、書籍等の中でどのような表現がリンクとして使われがちかという情報をもとに系列ラベリングを解く手法である。すなわち、「詳細は○○を参照せよ」と書いてあれば、この部分は○○へのリンクと思われる、というようなパターンを用意することにより、自動または半自動または手動で明示的な参照関係を解析できる。 Pattern matching is another method for analyzing explicit reference relationships. Pattern matching is a method for solving sequence labeling based on information about what expressions are likely to be used as links in books, etc. In other words, by preparing a pattern such as "If it says "See XX for details," this part is likely to be a link to XX," explicit reference relationships can be analyzed automatically, semi-automatically, or manually.

また、上記セクション間の明示的な参照関係の解析手法を用いて確率的に同定された参照先のセクション候補群のうちに、参照先のセクションである確率が閾値よりも高いものが無い場合に、専門書類データベース311に候補群を記録しておき、参照先候補をユーザに提示し選択させ、その選択を蓄積することにより、検索の精度を向上させる。 In addition, if there is no reference section candidate group that is probabilistically identified using the above-mentioned method for analyzing explicit reference relationships between sections and that has a probability higher than a threshold value of being a reference section, the candidate group is recorded in the technical document database 311, and the reference candidates are presented to the user for selection, and the selection is stored, thereby improving search accuracy.

書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これら4つの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。 A set of sections with links to other sections is output by estimating the location of the reference from the location of the reference notation on the PDF data of a book, etc., mechanically extracting expressions that are thought to be references by pattern matching, modeling it as a "sequence labeling" problem and solving it using conditional random fields, etc., and using a neural network. These four methods may be used in combination, or any one method may be used alone.

特定ステップS50では、判定ステップS40で判定部50が参照を示唆する文言が含まれると判定した場合に、特定部60が、参照先のセクションを特定する。 In the identification step S50, if the determination unit 50 determines in the determination step S40 that the text contains a phrase that suggests a reference, the identification unit 60 identifies the referenced section.

リンク生成ステップS60は、特定部60が特定した参照先のセクションに文書からのリンクを生成する。 The link generation step S60 generates a link from the document to the reference section identified by the identification unit 60.

リンク出力ステップS70は、特定部60が特定した参照先へのリンクを出力する。 The link output step S70 outputs a link to the reference destination identified by the identification unit 60.

関連文書取得ステップS80では、関連文書取得部90が、ある文書に類似する関連文書を示す情報を生成する。関連文書取得部90は、セクションおよび参照先のセクションから、関連文書を生成する。また、関連文書取得部90は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。 In the related document acquisition step S80, the related document acquisition unit 90 generates information indicating related documents similar to a certain document. The related document acquisition unit 90 generates related documents from a section and a referenced section. The related document acquisition unit 90 also acquires related documents by either network structuring, which infers relevance using graph theory, or by similarity calculation in a low-dimensional Euclidean space based on embedding.

具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションAとセクションBは、同じセクションCへのリンクを含むとすると、このとき、まずAとC、およびBとCを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、AとC、BとCが直接連結していることをもとにAとBもある程度関連していると推論し、AとBも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の1つで、グラフ理論の問題として定式化して解くことが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。 Specifically, sections are given as input, and each section is given links and keyword tags. One method is to roughly structure the sections into a network using links, keyword tags, section positions, and vocabulary that appears in the sections as clues, and then further refine the relationships based on the rough information in the structure. For example, if sections A and B contain links to the same section C, then first A and C, and B and C are connected in a rough network using the information that "there is a link." After constructing a rough network in this way, it is inferred that A and B are also related to some extent based on the fact that A and C and B and C are directly connected, and A and B are also connected, and so on. In computer science, this relationship network is one of the data structures called "graphs," and it is possible to formulate and solve it as a problem in graph theory. Another method is based on embedding, in which each section has multiple clues, such as links and keyword tags, as in the above network structuring, and these can be used to associate each section with a vector in a low-dimensional Euclidean space. This allows us to calculate section-to-section similarity using known techniques for calculating vector-to-vector similarity.

関連文書出力ステップS90は、関連文書出力部110が、関連文書取得部90が取得した関連文書を出力する。 In the related document output step S90, the related document output unit 110 outputs the related documents acquired by the related document acquisition unit 90.

このようなステップを備えることにより、本実施形態に係る文作成方法によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。
[文作成プログラム]
By including these steps, the text creation method of this embodiment electronically centralizes distributed technical document resources, making it possible to search for information across the board and quickly access necessary information. It not only makes technical documents available for electronic viewing, but also analyzes and organizes technical documents using natural language processing technology, etc., and analyzes the cross-reference relationships of technical documents and the way unique terms (keyword tags) are used in sentences to organize the relationships between technical documents (e.g., legal documents; this is just an example, and documents in other specialized fields where similar inter-document cross-references are important may also be used), making it possible to pinpoint access to necessary information from all technical documents and to conduct thorough investigations of related information.
[Sentence creation program]

本発明に係る文作成プログラムでは、本発明の文作成装置が有する機能をコンピュータに実現させる。 The sentence creation program of the present invention causes a computer to realize the functions of the sentence creation device of the present invention.

また、前述した各種の変形例を選択し、適宜組み合わせてもよいし、その他の変形を施してもよい。 The various modifications described above may be selected and combined as appropriate, or other modifications may be made.

<補足>
上記実施形態には示していないが、上記文作成装置が作成したデータを用いて実現される機能として、関連文献を逆引きする機能を含んでよい。閲覧中の文献の全体或いは特定箇所が別の文献により参照されている場合、その閲覧中の文献の全体或いは特定箇所を参照している文献があることがある。従来であれば、閲覧中の文献を参照している他の文献を発見することは不可能であった。なぜなら、この世に存在するすべての書籍は、その箇所を参照している可能性があるため、ある文献へ言及している他の文献を網羅的に探し出すためには、世の中の全文献を確認する必要があり、このことは現実的な時間制約上、実行不可能であるためである。本実施形態に係る発明においては、上述の意味的構造化により、すべての文献のセクション間の明示的参照関係が抽出されているため、ある文献を参照している他の文書が「この文書を参照している文書」としてプロダクト画面上に表示され、それらの文書の当該箇所に移動することができる。具体的には、上記実施形態に示した手法により参照先の文献も同様に構造化してセクションに分割するとともに各セクションに対するタグ付けを実行し、参照先の関連するセクションに対してリンクを貼る。これによって、関連文献の中の関連する部分を参照することができ、従来は不可能だったある文書を参照している他の文書を発見することと、被参照先の本の中から当該資料への言及を含むセクションへと移動することが可能になる。例えば、閲覧していた「大阪地方裁判所…」という判決を参照している文書が表示されているとすると、例えば、図7に示すようなUIにおいて「被リンク検索」というボタンを設けて、当該ボタンを押すことにより「この文書を参照している文書」というポップアップが表示され、その中の1冊を選択すると、当該判例が参照されている箇所に移動することが出来る。
<Additional Information>
Although not shown in the above embodiment, a function realized by using the data created by the sentence creation device may include a function of reverse-searching related documents. When the entire document or a specific part of the document being viewed is referenced by another document, there may be a document that references the entire document or a specific part of the document being viewed. Conventionally, it was impossible to find other documents that reference the document being viewed. This is because all books in the world may reference that part, so in order to comprehensively find other documents that refer to a certain document, it is necessary to check all documents in the world, which is impossible due to realistic time constraints. In the invention according to this embodiment, the explicit reference relationships between the sections of all documents are extracted by the above-mentioned semantic structuring, so other documents that reference a certain document are displayed on the product screen as "documents that reference this document," and it is possible to move to the corresponding parts of those documents. Specifically, the referenced document is similarly structured and divided into sections by the method shown in the above embodiment, and each section is tagged, and a link is placed to the related section of the referenced document. This makes it possible to refer to related parts of related literature, discover other documents that refer to a certain document, which was previously impossible, and move to a section in the referenced book that contains a reference to the document in question. For example, if a document that references the judgment of "Osaka District Court..." that you are viewing is displayed, a "Backlink Search" button can be provided in the UI shown in Figure 7, and pressing this button will display a popup that says "Documents that refer to this document." By selecting one of the books, you can move to the section where the precedent is referenced.

また、上記実施形態で実現される機能として、表記ゆれを修正する機能が含まれてもよい。従来、書籍中に法律名等を略して「保険業法第272条1項」が「法272条1項」と書いてあったり、また、法律用語であっても、「第三者割当て」「第三者割当」「第三者割当増資」などの表記ゆれが存在したりする。このような場合、「法272条1項」と検索すると、その文字列を含む全ての文書が出てきてしまい、保険業法以外の法律の272条1項に関する言及を抽出してしまう。本実施形態に係る発明においては、上述の意味的構造化により、法条や法律用語への言及がある場合、それらを自動的にキーワードタグとして認識する。また、キーワードタグ同士の関係性も抽出されるため、例えば、「法272条1項」は「保険業法272条1項」と同じ意味であることや、「第三者割当て」「第三者割当」「第三者割当増資」の3つは同じ意味であることも抽出される。このようにして抽出された用語を、文作成装置が互いに関連付けて記憶することにより表記ゆれを吸収し、それぞれ表現は異なるものの同じ内容を示す場合に、同じセクションや説明を参照するようにリンクを貼ることができる。これにより、キーワードタグを用いた検索を行うと、キーワードタグが付与された文章が含まれる各文献のセクションがすべてヒットして、関連度順に並べられた状態で検索結果一覧として表示され、たとえば「保険業法272条1項」についての全ての文献を検索することが可能となる。「保険業法第272条」というキーワードタグを用いて検索を実行した結果がイメージ画像として表示されているとすると、同キーワードタグが付された文章が含まれるセクションとしては、『詳解 保険業法』の中の「第5章 少額短期保険業者などの規制・監督」というセクションがヒットする。なぜなら、当該セクションの中に含まれている「法272条1項」という言及が、「保険業法第272条」というキーワードタグとして事前に認定され、キーワードタグが付与されているためである。従来はある本において「法272条」と書かれているだけでは、それが保険業法なのか、商法なのか、明示的にはわからず、「保険業法第272条」と検索しても検索結果一覧に表示されることはなかった。しかし、当該書籍の「法272条」という文字列は、その文脈等の情報から「保険業法第272条」というキーワードタグであると認識することを事前に行うことで、「保険業法第272条」というキーワードタグでの検索結果に対して、文脈等の情報から「保険業法第272条」というキーワードが付与されているすべてのセクションおよびそのセクションを含む文献(文字列としては「法272条」のみが含まれたものも含む)を、検索結果一覧に表示することが可能になる。 In addition, the functions realized in the above embodiment may include a function to correct spelling variations. Conventionally, in books, "Article 272, Paragraph 1 of the Insurance Business Law" is written as "Article 272, Paragraph 1 of the Law" by abbreviating the name of the law, and even legal terms have spelling variations such as "third party allocation", "third party allocation", and "third party allotment". In such cases, if you search for "Article 272, Paragraph 1 of the Law", all documents containing the character string will be found, and references to Article 272, Paragraph 1 of laws other than the Insurance Business Law will be extracted. In the invention according to this embodiment, when there is a reference to a legal provision or legal term, it is automatically recognized as a keyword tag by the above-mentioned semantic structuring. In addition, since the relationship between keyword tags is also extracted, for example, it is also extracted that "Article 272, Paragraph 1 of the Law" has the same meaning as "Article 272, Paragraph 1 of the Insurance Business Law", and that "third party allocation", "third party allocation", and "third party allotment" have the same meaning. The sentence creation device stores the extracted terms in this way in association with each other, absorbing variations in spelling, and when the expressions are different but indicate the same content, links can be added to refer to the same section or explanation. This makes it possible to search for all documents related to "Article 272, Paragraph 1 of the Insurance Business Act" by performing a search using a keyword tag, and all sections of documents containing sentences with keyword tags are hit and displayed as a list of search results sorted by relevance, making it possible to search for all documents related to "Article 272, Paragraph 1 of the Insurance Business Act" for example. If the results of a search using the keyword tag "Article 272 of the Insurance Business Act" are displayed as images, the section containing the sentence with the keyword tag "Chapter 5: Regulation and Supervision of Small Amount and Short-Term Insurance Companies" in "Detailed Explanation of the Insurance Business Act" will be hit. This is because the reference to "Article 272, Paragraph 1 of the Act" included in the section has been recognized in advance as the keyword tag "Article 272 of the Insurance Business Act" and the keyword tag has been added. Previously, if a book simply contained the words "Article 272 of the Law," it was not clear whether it referred to the Insurance Business Law or the Commercial Code, and even if you searched for "Article 272 of the Insurance Business Law," it would not show up in the search results. However, by recognizing in advance that the character string "Article 272 of the Law" in the book is the keyword tag "Article 272 of the Insurance Business Law" based on its context and other information, it becomes possible to display in the search results list all sections to which the keyword "Article 272 of the Insurance Business Law" has been assigned, and documents that contain these sections (including those that only contain the character string "Article 272 of the Law"), based on context and other information, for search results with the keyword tag "Article 272 of the Insurance Business Law."

上記実施形態で実現される機能として、キーワードのセクション別ヒット数を表示する機能がある。従来、文献をキーワードタグ検索ではなく、単純な完全一致検索であるキーワード検索すると、一般的にはキーワードが本文中でハイライトされ、それを一つずつ見て必要な情報を探すことになる。本実施形態に係る発明においては、上述の構文的構造化により、文献の本文の左側に表示される目次(TOC:Table of contents)上で、どのセクションにおいて、そのキーワードが何個あるかが表示される。これにより、瞬時に読むべき部分かどうかを、目次の文言と、ヒット数から判断することができる。例えば、「株式等売渡請求 強圧性」という二つの単語を用いて本文内検索を実行すると、その際、本文内では、それぞれのキーワードが別の色でハイライトされており、視認しやすくなっている。また、左側に表示されるTOC(Table of contents)では、各見出しの右側に数字が表示される。この数字は、各見出しが付されたページ内に何個当該のキーワードが含まれているかを示す。この機能によって、キーワードを本文内検索した際に、キーワードが多く含まれている箇所を瞬時に特定して、その場所へと移動することが可能になる。 The above embodiment realizes a function to display the number of hits for each keyword by section. Conventionally, when a document is searched for by keyword, which is a simple exact match search rather than a keyword tag search, the keyword is generally highlighted in the text, and the required information is searched for one by one by looking at the highlighted keywords. In the invention according to this embodiment, the above-mentioned syntactic structuring is used to display how many times the keyword is present in which section on the table of contents (TOC) displayed on the left side of the document text. This allows the user to instantly determine whether a section should be read from the wording of the table of contents and the number of hits. For example, when a search is performed in the text using two words, "demand for sale of stocks, etc., coercive nature," each keyword is highlighted in a different color in the text, making it easy to see. In addition, a number is displayed to the right of each heading in the TOC (Table of contents) displayed on the left side. This number indicates how many times the keyword is present in the page to which the heading is attached. With this function, when searching for a keyword within the text, you can instantly identify places that contain a lot of that keyword and move to those places.

また、文作成装置は、参照を示唆する文言として、「こそあど」言葉に対してリンクを貼ったり、「○○以上」、「××以下」、「△△以外」のような条件節に対して、その条件の分岐先をリンク付けたりしてもよい。「こそあど」言葉とは、これとかあれとかのような指示名詞であり、そのような言葉を文中から探索して、その場合の文脈解析により、指示名詞が何を指すのかを特定してリンクを貼ることができる。条件節についても同様に条件の元となる内容を特定し、その場合の条件による分岐先を特定し、その条件のいずれを指すのかを特定することによって、何を指すのかを特定してリンクを貼ることができる。 The sentence creation device may also link "kosoado" words as phrases suggesting references, or link the branching destination of a condition to a condition clause such as "more than XX," "less than XX," or "other than △△." "Kosoado" words are demonstrative nouns such as this or that, and by searching for such words in a sentence and analyzing the context in that case, it is possible to identify what the demonstrative noun refers to and create a link. Similarly, for condition clauses, it is possible to identify what is referred to and create a link by identifying the content that is the source of the condition, identifying the branching destination depending on the condition in that case, and identifying which of the conditions it refers to.

1 文作成システム
2 コンピュータ
3 サーバ
4 端末装置
5 ネットワーク
100 文作成装置
10 受付部
20 分割部
30 キーワードタグ生成部
40 制御部
50 判定部
51 検出部
52 同定部
60 特定部
70 リンク生成部
80 リンク出力部
90 関連文書取得部
110 関連文書出力部
Reference Signs List 1 Sentence creation system 2 Computer 3 Server 4 Terminal device 5 Network 100 Sentence creation device 10 Reception unit 20 Division unit 30 Keyword tag generation unit 40 Control unit 50 Determination unit 51 Detection unit 52 Identification unit 60 Identification unit 70 Link creation unit 80 Link output unit 90 Related document acquisition unit 110 Related document output unit

Claims (21)

文書の入力を受け付ける受付部と、
前記文書を複数のセクションに分割する分割部と、
前記分割部が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、
前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、
前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える
文作成装置。
a reception unit for receiving an input of a document;
a division unit for dividing the document into a plurality of sections;
a keyword tag generating unit that generates a keyword tag for each of the plurality of sections divided by the dividing unit;
a determination unit that determines whether or not the plurality of sections includes a phrase that suggests a reference;
A sentence creation device comprising: an identification unit that identifies a referenced section when a sentence suggesting the reference is included.
前記特定部が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成部と、
前記特定部が特定した前記参照先へのリンクを出力し、当該リンクを選択することにより前記参照先への移動を可能にするリンク出力部と、
をさらに備える
請求項1に記載の文作成装置。
a link generating unit that generates a link from the document to the section of the reference destination identified by the identifying unit;
a link output unit that outputs a link to the reference destination identified by the identification unit and enables movement to the reference destination by selecting the link;
The sentence creation device of claim 1 further comprising:
前記判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項2に記載の文作成装置。 The sentence creation device according to claim 2, characterized in that the determination unit detects the text suggesting the reference using at least one of a method for solving sequence labeling problems such as pattern matching and conditional random fields, and a neural network, and identifies the section to which the reference is directed for each of the links. 前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、
前記関連文書を出力する関連文書出力部と、
をさらに備える請求項1~3のいずれか1項に記載の文作成装置。
a related document acquisition unit that acquires information indicating a related document that is similar to the document and indicates the content of a sentence that suggests the reference;
a related document output unit for outputting the related document;
The sentence creation device according to any one of claims 1 to 3, further comprising:
前記関連文書取得部は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項4に記載の文作成装置。 The sentence creation device according to claim 4, characterized in that the related document acquisition unit acquires the related documents from the section and the referenced section. 前記関連文書取得部は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項4に記載の文作成装置。 The sentence creation device according to claim 4, characterized in that the related document acquisition unit acquires the related documents from other documents different from the document. 前記関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項4~6に記載の文作成装置。 The sentence creation device according to claims 4 to 6, characterized in that the related document acquisition unit acquires the related documents by either network structuring, which uses graph theory to infer relevance, or by similarity calculation in a low-dimensional Euclidean space based on embedding. 文書の入力を受け付ける受付ステップと、
前記文書を複数のセクションに分割する分割ステップと、
前記分割ステップが分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、
前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、
前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える
文作成方法。
A receiving step of receiving an input of a document;
a dividing step of dividing the document into a plurality of sections;
a keyword tag generating step of generating a keyword tag for each of the plurality of sections divided by the dividing step;
determining whether the plurality of sections includes a reference-indicating phrase;
A sentence creation method comprising a step of identifying the referenced section when the sentence contains a wording that suggests the reference.
前記特定ステップが特定した前記参照先のセクションに前記文書からのリンクを生成する生成ステップと、
前記特定ステップが特定した前記参照先へのリンクを出力する出力ステップと、
をさらに備える
請求項8に記載の文作成方法。
a generating step of generating a link from the document to the section of the reference identified in the identifying step;
an output step of outputting a link to the reference destination identified in the identification step;
The method of claim 8 further comprising:
前記判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項9に記載の文作成方法。 The sentence creation method according to claim 9, characterized in that the determination step detects the phrase suggesting the reference using at least one of a method for solving sequence labeling problems such as pattern matching and conditional random fields, and a neural network, and identifies the section to which the reference is directed for each of the links. 前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、
前記関連文書を出力する関連文書出力ステップと、
をさらに備える請求項8~10のいずれか1項に記載の文作成方法。
a related document acquisition step of acquiring information indicating a related document which is similar to the document and indicates the content of a sentence suggesting the reference;
a related document output step of outputting the related document;
The sentence creation method according to any one of claims 8 to 10, further comprising:
前記関連文書取得ステップは、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項11に記載の文作成方法。 The sentence creation method according to claim 11, characterized in that the related document acquisition step acquires the related documents from the section and the referenced section. 前記関連文書取得ステップは、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項11に記載の文作成方法。 The sentence creation method according to claim 11, characterized in that the related document acquisition step acquires the related document from another document different from the document. 前記関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項11~13に記載の文作成方法。 The sentence creation method according to claims 11 to 13, characterized in that the related document acquisition step acquires the related documents by either network structuring that infers relevance using graph theory, or similarity calculation in a low-dimensional Euclidean space based on embedding. コンピュータに、
文書の入力を受け付ける受付機能と、
前記文書を複数のセクションに分割する分割機能と、
前記分割機能が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、
前記セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、
参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能と
を実現させることを特徴とする文作成プログラム。
On the computer,
A reception function for receiving document input;
a division function for dividing the document into a plurality of sections;
a keyword tag generating function for generating a keyword tag for each of the plurality of sections divided by the dividing function;
a determining function for determining whether the section contains a reference-indicating phrase;
A text creation program characterized by realizing a specific function of identifying a referenced section when a text suggesting a reference is included.
前記コンピュータに、
前記特定機能が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成機能と、
前記特定機能が特定した前記参照先へのリンクを出力するリンク出力機能と、
をさらに実現させる
ことを特徴とする請求項15に記載の文作成プログラム。
The computer includes:
a link generating function for generating a link from the document to the referenced section identified by the identifying function;
a link output function for outputting a link to the reference destination identified by the identification function;
16. The sentence creation program according to claim 15, further comprising:
前記判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項16に記載の文作成プログラム。 The sentence creation program according to claim 16, characterized in that the determination function detects the text suggesting the reference using at least one of a method for solving sequence labeling problems such as pattern matching and conditional random fields, and a neural network, and identifies the section to which the reference is directed for each of the links. 前記コンピュータに、
前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、
前記関連文書を出力する関連文書出力機能と、
をさらに実現させる請求項15~17のいずれか1項に記載の文作成プログラム。
The computer includes:
a related document acquisition function for acquiring information indicating a related document which is data of a reference destination indicating the contents of a sentence similar to the document and which suggests the reference;
a related document output function for outputting the related document;
18. The sentence creation program according to claim 15, further comprising:
前記関連文書取得機能は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とすることを特徴とする請求項18に記載の文作成プログラム。 The sentence creation program according to claim 18, characterized in that the related document acquisition function acquires the related documents from the section and the referenced section. 前記関連文書取得機能は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項18に記載の文作成プログラム。 The sentence creation program according to claim 18, characterized in that the related document acquisition function acquires the related document from a document other than the document. 前記関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項18~20に記載の文作成プログラム。 The sentence creation program according to claims 18 to 20, characterized in that the related document acquisition function acquires the related documents by either network structuring that infers relevance using graph theory, or similarity calculation in a low-dimensional Euclidean space based on embedding.
JP2024062838A 2019-10-11 2024-04-09 Sentence creation device, sentence creation method, and sentence creation program Pending JP2024091709A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024062838A JP2024091709A (en) 2019-10-11 2024-04-09 Sentence creation device, sentence creation method, and sentence creation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019188191A JP2021064143A (en) 2019-10-11 2019-10-11 Sentence generating device, sentence generating method, and sentence generating program
JP2024062838A JP2024091709A (en) 2019-10-11 2024-04-09 Sentence creation device, sentence creation method, and sentence creation program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019188191A Division JP2021064143A (en) 2019-10-11 2019-10-11 Sentence generating device, sentence generating method, and sentence generating program

Publications (1)

Publication Number Publication Date
JP2024091709A true JP2024091709A (en) 2024-07-05

Family

ID=75486303

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019188191A Pending JP2021064143A (en) 2019-10-11 2019-10-11 Sentence generating device, sentence generating method, and sentence generating program
JP2024062838A Pending JP2024091709A (en) 2019-10-11 2024-04-09 Sentence creation device, sentence creation method, and sentence creation program

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019188191A Pending JP2021064143A (en) 2019-10-11 2019-10-11 Sentence generating device, sentence generating method, and sentence generating program

Country Status (1)

Country Link
JP (2) JP2021064143A (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7606937B2 (en) * 2021-07-05 2024-12-26 株式会社日立製作所 Checklist completion support device and checklist completion support method
JP2023166252A (en) 2022-05-09 2023-11-21 キヤノン株式会社 Information processing device, information processing method, and program
CN115618852B (en) * 2022-11-22 2023-04-07 山东天成书业有限公司 Text digital automatic proofreading system
WO2024262026A1 (en) * 2023-06-23 2024-12-26 日本電信電話株式会社 Teacher data generation device, teacher data generation method, and teacher data generation program
JP7700346B1 (en) * 2024-11-15 2025-06-30 弁護士ドットコム株式会社 Program, method, and information processing device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357170A (en) * 1999-06-15 2000-12-26 Fujitsu Ltd Apparatus for retrieving information using document reference reason
US6295542B1 (en) * 1998-10-02 2001-09-25 National Power Plc Method and apparatus for cross-referencing text
JP2002032367A (en) * 2000-07-14 2002-01-31 Jisedai Joho Hoso System Kenkyusho:Kk Information addition method and text presentation device for supporting text interpretation
JP2004086845A (en) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd Apparatus, method, and program for expanding electronic document information, and recording medium storing the program
JP2006172489A (en) * 2006-01-11 2006-06-29 Fujitsu Ltd An apparatus for searching information using the reason for referring to a document
JP2013528885A (en) * 2010-06-15 2013-07-11 トムソン ルーターズ (サイエンティフィック) インコーポレイテッド Systems and methods for citation processing, presentation and transfer for reference verification
US20180039907A1 (en) * 2016-08-08 2018-02-08 Adobe Systems Incorporated Document structure extraction using machine learning
US20180373952A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Automated workflows for identification of reading order from text segments using probabilistic language models
JP6469919B1 (en) * 2018-05-09 2019-02-13 株式会社Legalscape Judgment sentence database creation method, judgment sentence database search method, sentence creation method, judgment sentence database creation apparatus, judgment sentence database retrieval apparatus, sentence creation apparatus, judgment sentence database creation program, judgment sentence database retrieval program, And sentence creation program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178055A (en) * 2001-12-11 2003-06-27 Hitachi Ltd Document data association extraction device and extraction program
GB2405730A (en) * 2003-09-03 2005-03-09 Business Integrity Ltd Cross-reference generation
JP2006195667A (en) * 2005-01-12 2006-07-27 Toshiba Corp Structured document search device, structured document search method and structured document search program
JP5084297B2 (en) * 2007-02-21 2012-11-28 株式会社野村総合研究所 Conversation analyzer and conversation analysis program
JP2008310570A (en) * 2007-06-14 2008-12-25 Hitachi Ltd Message analysis method, message analysis device, and message analysis program
JP5106155B2 (en) * 2008-01-29 2012-12-26 株式会社東芝 Document processing apparatus, method and program
JP5621438B2 (en) * 2010-09-13 2014-11-12 株式会社リコー Document dividing device, document processing system, program
US9411804B1 (en) * 2013-07-17 2016-08-09 Yseop Sa Techniques for automatic generation of natural language text
JP6292190B2 (en) * 2015-08-04 2018-03-14 コニカミノルタ株式会社 Document association apparatus, document association system, and program

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295542B1 (en) * 1998-10-02 2001-09-25 National Power Plc Method and apparatus for cross-referencing text
JP2000357170A (en) * 1999-06-15 2000-12-26 Fujitsu Ltd Apparatus for retrieving information using document reference reason
JP2002032367A (en) * 2000-07-14 2002-01-31 Jisedai Joho Hoso System Kenkyusho:Kk Information addition method and text presentation device for supporting text interpretation
JP2004086845A (en) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd Apparatus, method, and program for expanding electronic document information, and recording medium storing the program
JP2006172489A (en) * 2006-01-11 2006-06-29 Fujitsu Ltd An apparatus for searching information using the reason for referring to a document
JP2013528885A (en) * 2010-06-15 2013-07-11 トムソン ルーターズ (サイエンティフィック) インコーポレイテッド Systems and methods for citation processing, presentation and transfer for reference verification
US20180039907A1 (en) * 2016-08-08 2018-02-08 Adobe Systems Incorporated Document structure extraction using machine learning
US20180373952A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Automated workflows for identification of reading order from text segments using probabilistic language models
JP6469919B1 (en) * 2018-05-09 2019-02-13 株式会社Legalscape Judgment sentence database creation method, judgment sentence database search method, sentence creation method, judgment sentence database creation apparatus, judgment sentence database retrieval apparatus, sentence creation apparatus, judgment sentence database creation program, judgment sentence database retrieval program, And sentence creation program

Also Published As

Publication number Publication date
JP2021064143A (en) 2021-04-22

Similar Documents

Publication Publication Date Title
Chen et al. A Two‐Step Resume Information Extraction Algorithm
US9286290B2 (en) Producing insight information from tables using natural language processing
US10146751B1 (en) Methods for information extraction, search, and structured representation of text data
US8051080B2 (en) Contextual ranking of keywords using click data
US7788099B2 (en) Method and apparatus for query expansion based on multimodal cross-vocabulary mapping
JP2024091709A (en) Sentence creation device, sentence creation method, and sentence creation program
JP7232831B2 (en) Retrieval of corroborative evidence for complex answers
JP6014725B2 (en) Retrieval and information providing method and system for single / multi-sentence natural language queries
US9715531B2 (en) Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
CN110990597B (en) Cross-modal data retrieval system and retrieval method based on text semantic mapping
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US11222053B2 (en) Searching multilingual documents based on document structure extraction
US20170262429A1 (en) Collecting Training Data using Anomaly Detection
Aletras et al. Evaluating topic representations for exploring document collections
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
Hinze et al. Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation
Vandemoortele et al. Scalable Table-to-Knowledge Graph Matching from Metadata using LLMs
US10387472B2 (en) Expert stance classification using computerized text analytics
US11341188B2 (en) Expert stance classification using computerized text analytics
US9305103B2 (en) Method or system for semantic categorization
Musabeyezu Comparative study of annotation tools and techniques
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Zinvandi et al. Persian web document retrieval corpus
Tsapatsoulis Web image indexing using WICE and a learning-free language model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250805