JPH02254566A - Automatic excerpt generating device - Google Patents
Automatic excerpt generating deviceInfo
- Publication number
- JPH02254566A JPH02254566A JP1075214A JP7521489A JPH02254566A JP H02254566 A JPH02254566 A JP H02254566A JP 1075214 A JP1075214 A JP 1075214A JP 7521489 A JP7521489 A JP 7521489A JP H02254566 A JPH02254566 A JP H02254566A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- important
- sentences
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、文書データベース作成のために、データベー
スに蓄積される文書に対して、重要な内容を簡潔に記述
した抄録を、原文から自動的に生成する装置に関するも
のである。[Detailed Description of the Invention] [Industrial Application Field] The present invention automatically generates abstracts that concisely describe important contents of documents stored in the database from the original texts in order to create a document database. This relates to a device that generates
[従来の技術]
マニュアル、新聞記事、特許出願の明細書、技術文献な
ど、大量の文書から構成されるデータベースを作成する
場合、文書の内容の概略を迅速に把握できるように、原
文の抄録を作成することが必要である。従来、この目的
のために、次のような方法が用いられていた。[Prior Art] When creating a database consisting of a large amount of documents such as manuals, newspaper articles, specifications of patent applications, and technical documents, it is necessary to create an abstract of the original text so that the outline of the contents of the document can be quickly grasped. It is necessary to create one. Conventionally, the following methods have been used for this purpose.
(1) 何等かの文章の理解を行って、重要な文を決定
する方法
(2) 文と文との関係を解析し、重要な文を決定する
方法
(3ン キーワードの頻度を用いて、重要な文を決定す
る方法
しかし、これらの従来の方法には、それぞれ次のような
欠点がある。(1) A method for determining important sentences by understanding some text (2) A method for determining important sentences by analyzing the relationship between sentences (3) A method for determining important sentences by analyzing the relationship between sentences (3) Using the frequency of keywords, Methods for Determining Important SentencesHowever, each of these conventional methods has the following drawbacks.
(1)の方法では、物語文法や因果関係を利用すること
により、深層レベルの文章の構造的な制約や事象間の関
係を解析し、これにより得られたデータ構造にに対して
、要約規則を適用して重要な文を決定する。In method (1), by using narrative grammar and causal relationships, the structural constraints and relationships between events in sentences are analyzed at a deep level, and summarization rules are applied to the data structure obtained. apply to determine important sentences.
この方法では、世界知識や推論規則など、対象に関する
大量の知識と深い解析を行って抄録を生成する。このた
め、世界知識、常識、言語的な制約、意図、内容の関連
、因果関係など、いろいろなレベルの知識を用いて、推
論による論理的な帰結として、抄録を作成できるという
利点がある。This method generates an abstract using a large amount of knowledge and deep analysis of the subject, including world knowledge and inference rules. Therefore, it has the advantage of being able to create an abstract as a logical result of inference using various levels of knowledge such as world knowledge, common sense, linguistic constraints, intentions, content relationships, and causal relationships.
しかし、この方法は、非常に多くの世界知識と深い推論
が必要なので、限られた狭い分野で、かつ、比較的短い
文章にしか適用できないという欠点がある。However, this method requires a great deal of world knowledge and deep reasoning, so it has the disadvantage that it can only be applied in a narrow field and to relatively short texts.
(2)の方法では、2つの文の連接関係(連続する2つ
の文の間の論理的な関係)の解析を行い、文の連接関係
ごとに与えられた2つの文の相対的な重要度の指標に基
づいて、原文中の文を取楡選択するこ出により抄録を生
成する。この際、2つの文の間の連接関係は、接続詞と
指示語、命題間の構成要素の概念関係、動詞・名詞・形
容詞が持つ推論規則、スクリプトなどから求める。In method (2), the conjunctive relationship between two sentences (the logical relationship between two consecutive sentences) is analyzed, and the relative importance of the two sentences given for each concatenative relationship is calculated. An abstract is generated by selecting sentences in the original text based on the index. At this time, the conjunctive relationship between two sentences is determined from conjunctions and demonstratives, conceptual relationships between constituent elements between propositions, inference rules of verbs, nouns, and adjectives, scripts, and the like.
この方法には、文と文の相対的重要度に関する規則から
、推論による論理的帰結として抄録を導出できるという
利点がある。しかし、多くの場合、文と文の関係は統語
的な情報だけでは決定できず、多くの知識と推論を要す
るので、対象分野が非常に狭(限定されるという欠点が
ある。また、文の連接関係から得られる重要度は、段落
内で最重要文を決定する場合のような局所的な重要度評
価には有効であるが、文章全体の中から最重要文を決定
する場合のような大局的な重要度評価には用いることが
できないので、比較的短い文章、または、文章の一部に
しか適用できないという欠点がある。This method has the advantage that the abstract can be derived as a logical consequence of inference from rules regarding the relative importance of sentences. However, in many cases, the relationship between sentences cannot be determined using only syntactic information and requires a lot of knowledge and reasoning, so the target area is very narrow (limited). Importance obtained from conjunctions is effective for local importance evaluations, such as determining the most important sentence within a paragraph, but it is effective for evaluating local importance, such as determining the most important sentence within an entire sentence. Since it cannot be used for global importance evaluation, it has the disadvantage that it can only be applied to relatively short sentences or parts of sentences.
(3)の方法では、文章の頻度統計などにより記述内容
の主題や核となる重要語(キーワード)を予め求め、こ
の重要語を多く含む文を重要度(キーセンテンス)とし
て抽出することにより抄録を生成する。In method (3), the theme and core important words (keywords) of the written content are determined in advance using frequency statistics of sentences, etc., and sentences that contain many of these important words are extracted as importance (key sentences) and then abstracted. generate.
この方法は、文章の大局的な解析により重要な内容を決
定することができ、また、各文には重要語の頻度に応じ
て、重要度を付与することが出来るので、文章中から重
要度の順に必要な数だけ重要度を選ぶことが出来るとい
う利点がある。しかし、この方法には、抄録の中に文章
の主題の展開とは余り関係のない文が混在したり、出力
される抄録が互いに関連のない文の羅列となり文章とし
てのまとまりがない、等の欠点があった。With this method, important content can be determined by comprehensively analyzing a sentence, and importance can be assigned to each sentence according to the frequency of important words. The advantage is that you can select as many degrees of importance as you need in this order. However, this method has problems such as the abstract containing sentences that have little to do with the development of the main theme of the text, or the output abstract being a list of sentences that are not related to each other and not being cohesive as a text. There were drawbacks.
これらをまとめれば、(1)及び(2)の方法よ、大量
の知識を用いて非常に深い解析を行うので、抄録を作る
対象が、限定された分野の短い文章に制限されるという
問題点があった。一方、(3ンの方法は、広い範囲の文
章に対して適用可能であるが、文章主題の展開に関係の
ない文が抽出されたり、抄録に文章としてのまとまりが
ない、等の問題点があった。To summarize, methods (1) and (2) use a large amount of knowledge to perform very deep analysis, so the problem is that the subject of abstract creation is limited to short texts in a limited field. was there. On the other hand, method (3) can be applied to a wide range of texts, but there are problems such as sentences that are unrelated to the development of the text's theme and that the abstract is not coherent as a text. there were.
[発明が解決しようとする課題]
本発駅は、文章の展開に関係のない文が抽出されたり、
抄録に文章としてのまとまりがない、という重要語の頻
度に基づく抄録作成法の問題点を解決した自動抄録生成
装置を堤供することを目的とする。[Problem to be solved by the invention] The present station is capable of extracting sentences that are unrelated to the development of the sentence,
The purpose of the present invention is to provide an automatic abstract generation device that solves the problem of the abstract generation method based on the frequency of important words, in which the abstract lacks cohesion as a sentence.
[課題を解決するための手段]
上記の課題を解決するために、本発明は、抄録生成プロ
グラムを実行するプロセッサ、文書データを読み込む入
力装置、生成された抄録を磁気記憶装置に出力するため
の出力装置、抄録生成プログラムメモリ、文書メモリ、
作業メモリ、単語テーブル、文章構造テーブル、重要語
テーブル、重要文テーブル、抄録テーブル、日本語辞書
、文章構造規則辞書を備えている。[Means for Solving the Problems] In order to solve the above problems, the present invention provides a processor that executes an abstract generation program, an input device that reads document data, and a device that outputs the generated abstract to a magnetic storage device. Output device, abstract generation program memory, document memory,
It is equipped with a working memory, a word table, a sentence structure table, an important word table, an important sentence table, an abstract table, a Japanese dictionary, and a sentence structure rule dictionary.
[作用]
本発明は、抄録作成処理の対象となる文章中で使用頻度
が高い名詞は、主題や記述の核となる重要語であるとい
う性質を利用して、プロセッサにおいて、日本語辞書を
用いて機能語を完全に除去し、一般名詞と固有名詞を対
象として、これらの頻度情報及び位置情報から、文章の
主題や記述の核となる重要語を高精度で抽出する。[Operation] The present invention utilizes the property that nouns that are frequently used in sentences that are subject to abstract creation processing are important words that form the core of the subject or description. Function words are completely removed, and important words, which are the core of the subject and description of a sentence, are extracted with high precision from the frequency and position information of common nouns and proper nouns.
また、文章は、見出し、段落、文などを構成要素とする
構造体であり、これらの構成要素間にはその構造を規定
する規則が存在するという性質を利用して、構文解析の
場合と同様に、統語的な手法により文章構造を解析する
。In addition, a sentence is a structure whose constituent elements are headings, paragraphs, sentences, etc., and by utilizing the property that there are rules that define the structure between these constituent elements, similar to the case of syntactic analysis, First, we analyze the sentence structure using syntactic methods.
字下げで表現される形式段落の間には、内容的な結び付
きの強いものと弱いものがあり、内容的開速度の高い一
連の段落群を一つの意味段落としてまとめることができ
るという性質を利用して、各形式段落における名詞の使
用状況を統計的に解析し、文章を意味段落に分割する。There are strong and weak content connections between formal paragraphs expressed by indentation, and this method takes advantage of the property that a series of paragraphs with high content opening speed can be grouped together as one semantic paragraph. Then, the usage of nouns in each formal paragraph is statistically analyzed, and the sentence is divided into semantic paragraphs.
また、重要語が初めて現れる文は、主題の導入や問題の
提起を行う文であることが多いという性質、及び、重要
語が最後に現れる文は、主題に関する結論を述べた文で
あることが多いという性質、段落の先頭にある文は段落
の内容を総括する文であることが多いという性質、重要
語を多く含む文は文章の中心的内容を述べていることが
多いという性質を利用して、各文が含む重要語の頻度や
文章内での文の位置から文章中の重要文を抽出する。Additionally, the first sentence in which an important word appears is often the one that introduces the topic or raises an issue, and the last sentence in which the important word appears is often a sentence that states the conclusion regarding the topic. The first sentence of a paragraph is often a sentence that summarizes the content of the paragraph, and the sentence that contains many important words often describes the central content of the sentence. Then, important sentences in a sentence are extracted from the frequency of important words contained in each sentence and the position of the sentence within the sentence.
幾つかの意味段落から文章が構成されている場合には、
中心的な話題を表現する重要語や、内容を総括する重要
文が、意味段落ごとに存在することが多いという性質を
利用して、意味段落ごとに重要語や重要文を抽出するこ
とにより、重要文抽出の際には、原文の文章構造におけ
る比較的大きな構成要素ごとに要旨を把握し、かつ、抄
録生成の際には、原文における文章の展開と話題の変化
を抄録に再現する。When a sentence is composed of several semantic paragraphs,
Taking advantage of the fact that important words that express the central topic and important sentences that summarize the content often exist in each semantic paragraph, by extracting important words and important sentences for each semantic paragraph, When extracting important sentences, the gist of each relatively large component in the sentence structure of the original text is grasped, and when generating an abstract, the development of sentences and changes in topic in the original text are reproduced in the abstract.
同じ重要語群を含む文を集めると、文と文の間のつなが
り、すなわち、結束性が生じ、文章としての内容的なま
とまりを持つ抄録となるという性質、及び、抽出された
重要文を原文中の順番に従って並べ、原文と同様な文章
構造を与えれば、原文内での文章の論理的構造及び情報
の提示順序を抄録に再現することができることから、文
章全体のまとまり、すなわち、一貫性を持つ抄録となる
という性質を利用して、文章としての結束性と一貫性を
兼備した抄録を生成する。When sentences containing the same group of important words are collected, there is a connection between the sentences, that is, cohesion, and the abstract has a cohesive content as a sentence. By arranging them according to the order in which they are written and giving them the same sentence structure as the original text, it is possible to reproduce the logical structure of the sentences and the order in which information is presented in the original text. By utilizing the property of being an abstract, an abstract that has both cohesion and consistency as a text is generated.
抽出された重要文を原文中の出現順序に並べると、これ
らの重要文中に含まれる接続詞及び指示側の意味が、原
文における意味と整合しないという性質と、連接する又
聞に共通の語群が存在すれば、接続詞や指示側を除去し
ても結束性を維持できるという性質を利用して、抽出さ
れた重要文において、原文の文脈とは整合しない接続詞
及び指示側を検出し、これを削除する。ことにより、又
聞の接続が自然で違和感がない抄録を生成する。When the extracted important sentences are arranged in the order of appearance in the original text, it is possible to find that the meanings of the conjunctions and denotatives contained in these important sentences are inconsistent with the meanings in the original text, and that there are common word groups in the conjunctive phrases. Utilizing the property that cohesion can be maintained even if conjunctions and indicators are removed if they exist, in the extracted important sentences, conjunctions and indicators that are inconsistent with the context of the original sentence are detected and deleted. do. By doing this, an abstract with natural connections and no discomfort can be generated.
以上のような作用によって、本発明は、問題の提起、結
論などの文章の展開を考慮し、主題と関係のない文が抄
録に含まれることを防止し、原文の文章構造を意味段落
のレベルまで解析して重要語や重要文の抽出に利用し、
抄録生成の際に、各文に共通の重要語群を含ませ、不自
然な接続詞や指示側を除去し、原文の文章構造を再利用
して文章としての結束性と一貫性を持った抄録を作成す
ることを可能ならしめる。Through the above-described functions, the present invention takes into consideration the development of the sentence such as the presentation of the problem and the conclusion, prevents sentences unrelated to the subject from being included in the abstract, and changes the sentence structure of the original text to the level of a semantic paragraph. It is used to extract important words and important sentences by analyzing
When generating an abstract, each sentence includes a common group of important words, unnatural conjunctions and indicators are removed, and the sentence structure of the original text is reused to create an abstract that has cohesion and consistency as a text. Make it possible to create.
[実施例]
第1図は、本発明の自動抄録生成装置を実現するための
一実施例を示すシステムを構成する図である。■は磁気
記憶装置に文字コードで記録されている文書デー′夕を
読み込む入力装置、2は生成された抄録を磁気記憶装置
に出力するための出力装置、3は抄録生成プログラムを
実行するプロセッサ(CPU) 、4は抄録生成プログ
ラムを格納するプログラムメモリ、5は入力装置1によ
り読み込まれた文書データを格納する文書メモリ、6は
抄録生成プログラムを実行する際に使用する作業メモリ
、7は形態素解析により得られた単語列を格納する単語
テーブル、8は文章構造解析により得られた文章構造を
記憶する文章構造テーブル、9は文章中から抽出された
重要語を格納する重要語テーブル、10は文章中から抽
出された重要文を格納する重要文テーブル、11は生成
された抄録を格納する抄録テーブル、12は形態素解析
及び名詞抽出を行う際に必要な統語情報と意味情報を格
納した日本語辞書、13は処理対象とする文書の構造に
関する規則を格納した文章構造規則辞書、である。各種
テーブルは半導体メモリ、磁気ディスク、光ディスク等
によって実現することができる。[Embodiment] FIG. 1 is a diagram configuring a system showing an embodiment for realizing an automatic abstract generation device of the present invention. 2 is an input device that reads document data recorded in character code in a magnetic storage device, 2 is an output device for outputting the generated abstract to the magnetic storage device, and 3 is a processor that executes an abstract generation program ( CPU), 4 is a program memory that stores an abstract generation program, 5 is a document memory that stores document data read by the input device 1, 6 is a working memory used when executing the abstract generation program, and 7 is a morphological analysis 8 is a sentence structure table that stores the sentence structure obtained by sentence structure analysis; 9 is an important word table that stores important words extracted from sentences; 10 is a sentence 11 is an abstract table that stores generated abstracts, and 12 is a Japanese dictionary that stores syntactic and semantic information necessary for morphological analysis and noun extraction. , 13 is a sentence structure rule dictionary that stores rules regarding the structure of a document to be processed. Various tables can be realized using semiconductor memory, magnetic disks, optical disks, etc.
第2図は、本発明の1実施例の機能ブロック図を示し、
入力部21は第1図の入力装置1に相当するものであっ
て、処理対象となる文書ファイル28を文書メモリ5に
読み込む。FIG. 2 shows a functional block diagram of one embodiment of the present invention,
The input unit 21 corresponds to the input device 1 in FIG. 1, and reads a document file 28 to be processed into the document memory 5.
次に、形態素解析部22は、日本語辞書29を用いて、
入力文章に対して辞書引きを行って単語単位に分割する
と共に、各単語について品詞名を付与した単語列を生成
し、単語テーブル7に格納する。この際、複合語(長単
位名詞)は単位語に分割して格納する。Next, the morphological analysis unit 22 uses the Japanese dictionary 29 to
The input sentence is looked up in a dictionary and divided into words, and a word string is generated in which each word is given a part of speech name and stored in a word table 7. At this time, compound words (long unit nouns) are divided into unit words and stored.
次に、文章構造解析部23と重要語抽出部24の処理が
並行して実行され、解析結果を相互に参照しながら、文
章構造の情報と重要語の情報を重要語抽出部に引き渡す
。Next, the processes of the sentence structure analysis section 23 and the important word extraction section 24 are executed in parallel, and while mutually referring to the analysis results, the sentence structure information and the important word information are passed to the important word extraction section.
文章構造解析部23は、第3図に示すように、書式から
認識可能な文書構造を生成する文章形態解析手段(ステ
ップsl)と、形式段落間の内容的開速度を解析して文
章を意味段落に分割する段落連鎖解析手段(ステップs
2)から構成され、文章の構成要素(文、段落、見出し
、意味段落など)及び構成要素間の関係を文章構造テー
ブル8に格納する。以下に、文章解析部23の各ステッ
プを詳細に説明する。As shown in FIG. 3, the sentence structure analysis unit 23 includes a sentence form analysis means (step sl) that generates a recognizable document structure from the format, and a sentence structure analyzer (step sl) that generates a recognizable document structure from the format, and analyzes the content opening speed between formal paragraphs to analyze the meaning of the sentence. Paragraph chain analysis means for dividing into paragraphs (step s
2), and stores the constituent elements of a sentence (sentences, paragraphs, headings, meaning paragraphs, etc.) and the relationships between the constituent elements in the sentence structure table 8. Each step of the text analysis section 23 will be explained in detail below.
ステップs1の文章形態解析では、入力文章を文字列と
見なし、この文字列に対して、文章構造規則辞書30に
格納されている文章構造規則を適用して、まず、題名、
見出し、文などの文章の基本的な構成要素を認識する。In the sentence form analysis in step s1, the input sentence is regarded as a character string, and the sentence structure rules stored in the sentence structure rule dictionary 30 are applied to this character string, and the title,
Recognize the basic components of sentences such as headings and sentences.
次に、これらの構成要素の間の関係を解析して、段落や
節などのより大きな文章の構成要素を認識する。It then analyzes the relationships between these components to recognize larger text components, such as paragraphs and sections.
文章構造規則は、「文書」を初期記号とし、印字可能文
字と書式制御文字を終端記号とする生成規則群とする。The sentence structure rules are a group of production rules in which "document" is the initial symbol and printable characters and format control characters are the terminal symbols.
非終端記号としては、「見出し」、「段落」、「文」な
どが用いられる。多くの場合、文章構造の形式文法によ
る記述は、文脈自由文法(CFG)の枠内で行うことが
できる。この規則を利用して、文章形態解析では、トッ
プダウンCFGパーサにより文章構造を解析する。As non-terminal symbols, "heading", "paragraph", "sentence", etc. are used. In many cases, a formal grammar description of a sentence structure can be performed within the framework of a context-free grammar (CFG). Using this rule, in sentence form analysis, a top-down CFG parser analyzes the sentence structure.
第4図は、文章構造規則を用いた文章構造に関する形式
文法の定義の一例である。規則の第1行は、この例で処
理対象としている文書は、文書見出し部は、順目、所属
、著者から構成されることを表し、第6行から第9行は
、文書本体部は節の繰り返しであり、節は節見出し部を
持つ場合と持たない場合があり、節本体部は、段落の繰
り返しであることを表している。これらの規則は、対象
とする文書に固有なものであり、規則を書き換えること
により、様々な文書に対して、文章形態解析を適用する
ことができる。FIG. 4 is an example of the definition of formal grammar regarding sentence structure using sentence structure rules. The first line of the rule indicates that the document to be processed in this example has a document header consisting of order, affiliation, and author, and lines 6 to 9 indicate that the document body consists of sections. A section may or may not have a section header, and the section body indicates that it is a repeat of a paragraph. These rules are unique to the target document, and by rewriting the rules, text form analysis can be applied to various documents.
文章形態解析(ステップsl)は、最後に、解析の結果
として得られた、題名、段落、文等に関する文章構造情
報を文章構造テーブル8に格納し、処理を終了する ス
テップS2の段落連鎖解析では、各没落(形式段落)ご
とに計算した語雲的な特徴lを時系列分析することによ
り段落間の内容的な関連度を調べ、文章を幾つかの意味
的なまとまり(意味段落)に区分化する。In the sentence form analysis (step sl), finally, the sentence structure information regarding titles, paragraphs, sentences, etc. obtained as a result of the analysis is stored in the sentence structure table 8, and the process ends. , we examine the degree of content relatedness between paragraphs by time-series analysis of the word cloud features calculated for each downfall (formal paragraph), and divide the text into several semantic groups (semantic paragraphs). become
第5図は、段落連鎖解析手段のフローチャートである。FIG. 5 is a flowchart of the paragraph chain analysis means.
段落連鎖解析では、まず、各段落ごとに名詞を抽出し、
次のような項目から構成される段落語霊表を作成する(
ステップ511)。In paragraph chain analysis, first, nouns are extracted from each paragraph,
Create a paragraph word list consisting of the following items (
Step 511).
■単位語集合(同語反復を含む全ての名詞の集合)
■見出し語集合(全ての異なり名詞の集合)■延べ語数
(単位語集合の要素数)
■異なり語数(見出し語集合の要素数)次に、文章を意
味段落に分けるために、内容的な結び付きの強さを指標
化するための特徴量を各段落(形式段落)ごとに計算す
る(ステップ512)。■ Unit word set (set of all nouns including tautology) ■ Headword set (set of all different nouns) ■ Total number of words (number of elements in unit word set) ■ Number of different words (number of elements in headword set) Next, in order to divide the text into semantic paragraphs, a feature value for indexing the strength of content connections is calculated for each paragraph (formal paragraph) (step 512).
ここでは、文章の展開に伴う各段落中の異なり語数と延
べ語数の変化、及び、隣接する段落間の同一語句の反復
という現象に着目し、段落間の内容的な結び付きの強さ
の指標として、次のような新出語率と用語類似度という
2つの統計的な尺度を定義する。Here, we focus on the changes in the number of different words and the total number of words in each paragraph as the text develops, and the repetition of the same words between adjacent paragraphs, and use them as indicators of the strength of the content connections between paragraphs. , we define the following two statistical measures: new word rate and term similarity.
k (i) :段落iに初めて現れる語の異なり語数
n (t) :段落iの延べ語数
用語類似度D (i) = (1/ N(i)) ’E
−F(i、 M)賢eV(i+1)
V(i):段落i上の語雲(異なり語の集合)N(i)
:段落iの延べ語数
M:見出し語(異なり語)
F (i、M):段落i中のMの使用度数新出語率r
(1)は段落iでの見出し語の平均増加率である。話題
の変化点では新語が群山する傾向があるので、新出語率
の極大点から、新しい話題の導入点を検出できる。k (i) : Number of different words that appear for the first time in paragraph i n (t) : Total number of words in paragraph i Term similarity D (i) = (1/ N(i)) 'E
−F(i, M) wise eV(i+1) V(i): Word cloud (set of different words) on paragraph i N(i)
: Total number of words in paragraph i M: Headword (different word) F (i, M): Frequency of use of M in paragraph i New word rate r
(1) is the average increase rate of headwords in paragraph i. Since new words tend to pile up at points where topics change, the point at which a new topic is introduced can be detected from the maximum point of the new word appearance rate.
また、用語類似度D (i)は、段落iとその直前の段
落i−1で、共通の語が用いられていることが多いので
、用語類似度の極小点から話題の変化点を検出できる。In addition, the term similarity D (i) can detect the point of change in the topic from the minimum point of the term similarity, since common words are often used in paragraph i and the paragraph i-1 immediately before it. .
文章を段落の時系列として捉えると、一般に、文章の進
展に伴って、新出語率は減少し、用語類似度は漸壜する
傾向がある。これは、文章の終わりに近づくにしたがっ
て、話題が結論へと徐々に収束して行くためである。こ
のような傾向変動を考慮し、大局的観点から話題の変化
点を検出するために、まず、次のようにして、段落の時
系列における新出語率と用語類似度の傾向変動を最小2
乗法により1次関数で近似する(ステップ513)。When a sentence is viewed as a time series of paragraphs, the rate of new words generally decreases and the degree of term similarity tends to gradually decrease as the sentence progresses. This is because the topic gradually converges to the conclusion as the sentence approaches the end. In order to take such trend fluctuations into account and detect changing points in the topic from a global perspective, first, we calculate the trend fluctuations of the new word rate and term similarity in the paragraph time series to a minimum of 2.
A linear function is approximated by multiplication (step 513).
一般に、系列X (i)が傾向変動T (i)を含み、
それ以外を残差系列e (i)としてX (i) =T
(i) +e (i)と表すとき、傾向変動T (i
)を1次関数T (i) =β。+β、*i
で近似することにすれば、最小2乗法により、e (i
)の2乗和Q
Q=Σ(e(i)) ” =Σ(X(i)−(β。+β
t*+))’を最小にするようなβ。及びβ、を決める
ことができる。これより、残差系列e (i>は、e(
i)=X(i)−T(i>=X(i)−(β。+81本
1)として求めることができる。In general, the series X (i) includes a trend variation T (i),
Other than that, let the residual sequence e (i) be X (i) = T
When expressed as (i) +e (i), the trend fluctuation T (i
) as a linear function T (i) = β. +β, *i, then e (i
) Q=Σ(e(i)) ” =Σ(X(i)−(β.+β
β such that t*+))' is minimized. and β can be determined. From this, the residual sequence e (i> is e(
It can be obtained as i)=X(i)-T(i>=X(i)-(β.+81 lines 1).
この方法を新出語率 「(i)及び用語類似度D (i
)に適用することにより、新出語率の残差e、(i)及
び用語類似度の残差e、(i)を求める。This method is based on the new word rate ``(i) and the term similarity D (i
), the residual e,(i) of the new word rate and the residual e,(i) of the term similarity are obtained.
次に、残差系列が掻値(新出語率は極大値、用語類似度
は極小値)をとる段落を意味段落の切れ目の候補として
選択する(ステップ514)。具体的には、次の条件の
どちらか一方を満足する段落lを意味段落分割点の候補
とする。Next, a paragraph whose residual series takes a value (the new word rate is a maximum value and the term similarity is a minimum value) is selected as a candidate for a break in the semantic paragraph (step 514). Specifically, a paragraph l that satisfies either of the following conditions is selected as a candidate for a semantic paragraph division point.
(a) e、(i) >O,er(i−1)<e、(
i)。(a) e, (i) > O, er (i-1) < e, (
i).
e、(i) > e、(i+ 1)
(b) eo(i) <0. an(i−1)>e
a(i)。e, (i) > e, (i+ 1) (b) eo(i) <0. an(i-1)>e
a(i).
eo (i> < eo (+ + 1)次に、この候
補に基づいて、最終的に文章全体がほぼ同じ大きさの2
〜4つの部分に分がれるように意味没落を決定する(ス
テップ515)。eo (i>< eo (+ + 1)) Next, based on this candidate, the entire sentence is finally divided into two blocks of approximately the same size.
- Determine the meaning collapse so that it is divided into four parts (step 515).
具体的な手順は次の通りである。The specific steps are as follows.
■ 分割点候補を
max (le、(i)l、1e0(i)I)の降順に
整列する。■ Arrange the dividing point candidates in descending order of max (le, (i)l, 1e0(i)I).
■ 隣接する段落が両方とも分割点候補となっていると
きは、
max (Ie、(i)1.le、(i)l)の小さい
方を候補から除去する。■ When both adjacent paragraphs are division point candidates, remove the smaller one of max (Ie, (i)1.le, (i)l) from the candidates.
■ IIIJIX (l e、(i) 1. l
e−(i) l)の大きい方から決められた数だけ
分割点を選ぶO
但し、元の文章が、文章形態解析の段階で幾つかの部分
に分けられているときは、文章形態解析の結果、すなわ
ち、書式などの解析により得られた章節構造を優先する
。■ IIIJIX (l e, (i) 1. l
Select a predetermined number of division points from the larger one of e-(i) l). However, if the original sentence is divided into several parts at the stage of sentence form analysis, Priority is given to the result, that is, the chapter structure obtained through analysis of format, etc.
文章形態解析は、最後に、意味段落の情報を文章構造テ
ーブルに格納し、処理を終了する。Finally, the sentence form analysis stores the information of the semantic paragraph in the sentence structure table, and ends the process.
第6図は、重要語抽出部24のフローチャートである。FIG. 6 is a flowchart of the important word extraction section 24.
重要語抽出部では、まず、ステップS21において、単
語テーブル7上の単語の品詞情報を参照して、名詞以外
の単語、及び、時詞、数詞、代名詞、形式名詞など機能
語的な役割を持った名詞を除去し、一般名詞及び固有名
詞のみを抽出する。First, in step S21, the important word extraction unit refers to the part-of-speech information of the words on the word table 7 and extracts words other than nouns and words that have function word roles such as temporal pronouns, numerals, pronouns, and formal nouns. Remove common nouns and extract only common nouns and proper nouns.
つぎに、ステップs22において、語鴬の頻度統計を行
い、続いて、ステップs23において、見出し語集合を
次のような情報をキーとして整列する。Next, in step s22, word frequency statistics are performed, and then in step s23, the headword set is arranged using the following information as a key.
第1キー:使用度数(降順)
第2キー:見出しに出現する/しない(出現する方を先
に仙べる)
第3キー:初出位置(昇順)
整列された各見出し語について、次のような統計量から
なる度数順単語表を作成する。1st key: Frequency of use (descending order) 2nd key: Appears in the heading/does not appear (the one that appears is written first) 3rd key: First appearance position (ascending order) For each sorted entry word, Create a frequency-ordered word table consisting of statistics.
■ 使用度数(頻度)の順位
■ 単語の字面(見出し語)
■ 使用度数
■ 累積使用率(延べ語被覆率)
■ 異なり語被覆率
■ 見出し出現語フラグ
■ 初出位置
一般に、使用頻度の高い単語は、重要語となるm率が高
い。しかし、高頻度語の集合による重要語の被覆率を調
べると、重要語の被覆率は、高頻度語集合の大きさ(異
なり語の被覆率)の対数と比例する。すなわち、頻度の
非常に高いグループ語が重要語に選ばれる確率は非常に
高いが、頻度が低くなるに従って、異なり語数が指数的
に増えるので、次に頻度が高いグループの語が重要語に
選ばれる確率は、前のグループよりかなり低くなる。■ Ranking of usage frequency (frequency) ■ Word appearance (headword) ■ Frequency of usage ■ Cumulative usage rate (total word coverage rate) ■ Different word coverage rate ■ Headline occurrence word flag ■ First appearance position In general, words with high frequency of use are , the m rate of being an important word is high. However, when examining the coverage of important words by a set of high-frequency words, the coverage of important words is proportional to the logarithm of the size of the set of high-frequency words (coverage of different words). In other words, the probability that a word in a group with a very high frequency will be selected as an important word is very high, but as the frequency decreases, the number of different words increases exponentially, so the word in the next most frequent group will be selected as an important word. The probability of being affected is much lower than in the previous group.
そこで、重要語集合の中で、重要度の順位付けをする必
要が生じたときのために、第1のグループの語を最重要
語、第1と第2のグループの語を合わせたものを重要語
と呼ぶことにし、以降の処理では扱いを別にする。Therefore, in case it becomes necessary to rank the importance among the set of important words, the words in the first group are the most important words, and the words in the first and second groups are combined. We will call them important words and will treat them differently in subsequent processing.
以上の知見に基づいて、ステップs24では、累積使用
率が15%以下の語を最重要語として抽出する。また、
ステップs25では、異なり語被覆率が5%を超えない
範囲で、累積使用率が25%以下の語を重要語として抽
出する。なお、このしきい値は、専門家と同程度の量の
重要語が得られるように、標本として用いた文章から実
験的に決定したものである。対象とする文章の性質及び
生成しようとする抄録の性質に応じて、しきい値を変更
することにより、本手法は各種の文章に対して適用可能
である。Based on the above knowledge, in step s24, words with a cumulative usage rate of 15% or less are extracted as the most important words. Also,
In step s25, words with a cumulative usage rate of 25% or less are extracted as important words within a range where the different word coverage rate does not exceed 5%. Note that this threshold value was determined experimentally from the sentences used as samples so that the same amount of important words as an expert could be obtained. This method can be applied to various types of texts by changing the threshold depending on the nature of the target text and the nature of the abstract to be generated.
重要語抽出部24は、最後に、抽出した最重要語及び重
要語は、重要語テーブル9に格納し、処理を終了する。Finally, the important word extraction unit 24 stores the extracted most important words and important words in the important word table 9, and ends the process.
第7図は、重要文抽出部のフローチャートである。重要
文抽出部25は、文章構造テーブル8及び重要語テーブ
ル9の情報に基づいて、まず、原文中の各文の形態的な
特徴を解析する(ステップ531)。FIG. 7 is a flowchart of the important sentence extraction section. The important sentence extraction unit 25 first analyzes the morphological characteristics of each sentence in the original text based on the information in the sentence structure table 8 and the important word table 9 (step 531).
文特徴解析(ステップ531)では、重要語抽出の結果
と文章構造解析の結果に基づいて、次の3つの観点から
文の特徴を指標化する。In the sentence feature analysis (step 531), the sentence features are indexed from the following three viewpoints based on the results of important word extraction and sentence structure analysis.
(a)各文の最重要語及び重要語の頻度(b)文の時系
列上での最重要語及び重要語の分布
(c)文の構造体の中での文の位置
また、大局的な文脈を特徴量に反映させるために、文章
構造解析の結果に基づいて、次の2種類の重要語を用意
する。(a) The frequency of the most important words and important words in each sentence (b) The distribution of the most important words and important words in the chronological order of sentences (c) The position of the sentence within the sentence structure and the overall In order to reflect the context in the feature values, we prepare the following two types of important words based on the results of sentence structure analysis.
(i)文章全体の最重要語及び重要語
(11)各意味段落の最重要語及び重要語これらの観点
から、文特徴解析(ステップ531)では、各文につい
て次のような項目からなる文特徴表を作成する。(i) Most important words and important words of the entire sentence (11) Most important words and important words of each semantic paragraph From these points of view, in the sentence feature analysis (step 531), each sentence is divided into sentences consisting of the following items. Create a feature table.
■ 意味段落番号、段落番号、段落白文番号■ 文章全
体の中で、その文で初めて出現した鰻重要語
■ 文章全体の中で、その文で最後に出現した鰻重要語
■ その文に出現する文章全体の鰻重要語及び重要語
■ その文に出現する意味段落の重要語法に、ステップ
s32では、文特徴解析の結果から文の重要度の順位付
けを行う。重要語を含む文は、文章の主題のある側面を
記述していることは明らかである。しかし、意味的な情
報を使わない場合には、何が重要な側面であるかは、確
率的な尤度で決めざるを得ない。■ Meaning paragraph number, paragraph number, paragraph white sentence number ■ An important eel word that appears for the first time in that sentence in the entire sentence ■ An important eel word that appears last in that sentence in the entire sentence ■ Appears in that sentence Eel Important Words and Important Words of the Entire Sentence■ In step s32, the importance of the sentence is ranked based on the result of the sentence feature analysis for the important phrases of the semantic paragraphs that appear in the sentence. Sentences containing key words clearly describe some aspect of the subject of the text. However, when semantic information is not used, important aspects must be determined using probabilistic likelihood.
内容抽出の観点から考えられる重要度の条件は次のよう
なものである。Conditions of importance that can be considered from the viewpoint of content extraction are as follows.
(a)重要語を多く含む文
(b)重要語の初出文及び終出文
(c)段落の先頭にある文
重要語を多(含む文は、文章の中心的内容を述べている
ことが多く、その文から原文中の多くの内容が連想可能
である。重要語の初出文や終出文は、問題の提起、結論
などを多く含むことが多い。(a) Sentences that contain many important words (b) Sentences in which important words appear for the first time and at the end (c) Sentences at the beginning of paragraphs Sentences that contain many important words tend to state the central content of the sentence. In many cases, it is possible to associate many contents of the original text from that sentence.Sentences in which important words appear for the first time and at the end often contain many issues, conclusions, etc.
また、段落の先頭にある文は段落の内容を総括する文で
あることが多い。Furthermore, the sentence at the beginning of a paragraph is often a sentence that summarizes the content of the paragraph.
文章生成の観点から考えられる重要度の条件は次のよう
なものである。Conditions of importance that can be considered from the viewpoint of sentence generation are as follows.
(d)各文が文章の主題に関連する語群を含む(e)主
題の導入的記述を含む文
複数の文により内容を記述する場合、各文の間の結束性
と文章自身の完結性が要求される。結束性を与えるため
には、各文が、同じ主題に対する叙述でなければならな
い。また、完結性を与えるためには、読み手が主題を認
識できる記述を抄録中に含むことが必要である。(d) Each sentence contains a group of words related to the theme of the sentence (e) A sentence that contains an introductory description of the theme When the content is described using multiple sentences, there is cohesion between each sentence and completeness of the sentence itself. is required. To provide cohesion, each sentence must be descriptive of the same subject. Additionally, in order to provide completeness, it is necessary to include a description in the abstract that allows the reader to recognize the subject matter.
これらの考察から、次の■■■■の順に(■は、重要語
が多い順に)、文の重要度の順位付けを行う。Based on these considerations, the importance of the sentences is ranked in the following order of ■■■■ (■ is the order of the number of important words).
■ 鰻重要語が初めて出現する文
■ 鰻重要語が最後に出現する文
■ 鰻重要語を含み、段落の先頭にある文■ 鰻重要語
を含み、かつ、重要語が多く出現する文
次に、ステップs33では、重要度の高い文から順に、
文数が原文の20%に達するまで文を選ぶ。ここで、し
きい値は、標本として用いた文章において、専門家が選
ぶ重要度の数と同程度の量の重要度が、自動抄録により
得られるように実験的に決定した。対象文章及び生成す
べき抄録の性質に応じてしきい値を変更することにより
、本手法を各種の文章に適用することができる。■ The sentence in which the eel important word appears for the first time ■ The sentence in which the eel important word appears last ■ The sentence that contains the eel important word and is at the beginning of the paragraph ■ The next sentence that contains the eel important word and in which many important words appear , in step s33, the sentences are written in descending order of importance,
Select sentences until the number of sentences reaches 20% of the original sentence. Here, the threshold value was experimentally determined so that automatic abstraction would obtain the same amount of importance levels as the number of importance levels selected by experts in the sentences used as samples. By changing the threshold according to the nature of the target text and the abstract to be generated, this method can be applied to various types of texts.
更に、意味段落の情報が利用可能な場合には、■■の重
要度は文章全体から抽出し、■■の重要度は意味段落ご
とに抽出する。この際、鰻重要語は、文章全体の重要語
と各意味段落の重要語を併合したものを用いる。Furthermore, if the information on the semantic paragraph is available, the importance of ■■ is extracted from the entire sentence, and the importance of ■■ is extracted for each semantic paragraph. At this time, the important words used are the combination of the important words of the entire sentence and the important words of each semantic paragraph.
重要語抽出部25は、最後に、こうして決定された重要
度を重要度テーブル10に格納し、処理を終了する。Finally, the important word extraction unit 25 stores the importance determined in this way in the importance table 10, and ends the process.
第8図は、抄録生成部のフローチャートである。FIG. 8 is a flowchart of the abstract generation section.
抄録生成部26は、まず、ステップs41において、選
ばれた重要度を原文中の順に並べ直す。これは、原文中
の文の順序を反映し、抄録を原文の類似縮小形とするこ
とにより、文章としての一貫性を持つ抄録を生成するた
めである。First, in step s41, the abstract generation unit 26 rearranges the selected importance levels in the order of the original text. This is to generate an abstract that is consistent as a text by reflecting the order of sentences in the original text and making the abstract a similar reduced form of the original text.
次に、ステップs42では、この文の列の中で、文頭に
位置する接続詞や指示側を単語テーブル7の品詞情報を
用いて検出する。これは、接続詞や指示側は、原文の文
脈において又聞の関係を示していた語なので、重要度の
列の中では原文の文脈と整合しない接続関係や参照関係
を生じさせる可能性を持っているためである。Next, in step s42, a conjunction or an indicator located at the beginning of a sentence in this string of sentences is detected using the part-of-speech information in the word table 7. This is because conjunctions and denotatives are words that indicated inter-verbal relationships in the context of the original text, so they have the potential to create conjunctions or reference relationships that are inconsistent with the context of the original text in the importance sequence. This is because there is.
次に、ステップs43では、ステップs42で検出した
接続詞及び指示側の中で、原文の文脈と整合しない抄録
中の接続詞及び指示側を削除する。Next, in step s43, among the conjunctions and indicators detected in step s42, those in the abstract that do not match the context of the original text are deleted.
原文の文脈と整合するかどうかの判断は、重要度の原文
での位置情報を用いて、次のように行う。Judgment as to whether or not it is consistent with the context of the original text is performed as follows using position information in the original text of importance.
一般に、原文中で連続する2つの文が重要度に選ばれた
場合には、前方の文に対する後方の文の接続関係及び参
照関係が抄録中でも保持される可能性が非常に高い。ま
た、文頭の接続詞や指示間を除去しても文が非文(文法
的に正しくない文)になることはない。さらに、複数の
文が共通の語群を含んでいれば、又聞に結束性が生じる
ので、文頭の接続詞や指示間がなくても又聞の接続関係
や参照関係は、ある程度まで読者が保管することができ
る。Generally, when two consecutive sentences in the original text are selected for importance, there is a very high possibility that the connection and reference relationships between the preceding sentence and the subsequent sentence will be maintained even in the abstract. Furthermore, even if you remove the conjunction or the inter-indication at the beginning of a sentence, the sentence will not become a non-sentence (a grammatically incorrect sentence). Furthermore, if multiple sentences contain a common word group, there will be cohesiveness in the mata, so even if there are no conjunctions or indications at the beginning of the sentences, readers can retain the conjunctive and referential relations of the mata to a certain extent. can do.
これらを考慮して、ステップs43では、原文中で連続
する2つの重要度における後方の文の接続詞及び指示間
は保存し、それ以外は全て削除する。Taking these into consideration, in step s43, the conjunctions and indications in the following sentences in two successive degrees of importance in the original text are preserved, and all others are deleted.
次に、ステップs44では、生成すべき抄録の書式に従
って、題名、著者名、及び、抄録を書式付けし、その結
果を抄録テーブル11に格納し、抄録生成部2日の処理
を終了する。Next, in step s44, the title, author name, and abstract are formatted according to the format of the abstract to be generated, the results are stored in the abstract table 11, and the process of the abstract generation section 2 ends.
最後に、出力部27は、抄録テーブル11の内容を抄録
ファイル31に格納する。Finally, the output unit 27 stores the contents of the abstract table 11 in the abstract file 31.
第9図は、本発明の一動作例である。FIG. 9 is an example of the operation of the present invention.
入力文書の原文を第9図eに示す。入力R21により読
み込まれた文書ファイル28中の入力文書は、形態素解
析部22により形態素解析される。The original text of the input document is shown in FIG. 9e. The input document in the document file 28 read by the input R21 is subjected to morphological analysis by the morphological analysis unit 22.
次に、文章構造解析部23において、まず、文章形態解
析が文章構造規則辞書30中の文章構造規則を用いて、
入力文書の構造解析を行う。この結果を第9図aに示す
。この処理により、入力文書における、題名、段落、文
などの各構成要素を認識し、さらに文と段落の関係など
構成要素間の関係も認識する。Next, in the sentence structure analysis unit 23, first, sentence structure analysis is performed using the sentence structure rules in the sentence structure rule dictionary 30.
Analyze the structure of the input document. The results are shown in Figure 9a. Through this processing, each constituent element such as a title, paragraph, sentence, etc. in the input document is recognized, and the relationship between constituent elements, such as the relationship between a sentence and a paragraph, is also recognized.
続いて、段落連鎖解析が各段落の用語類似度及び新出語
率を計算した結果に基づいて、意味段落分割を行う。用
語類似度と新出語率の計算結果、及び、得られた意味段
落を第9図すに示す。この例では、新出語率の誤差系列
の極大点から段落4と段落13が、また、用語類似度の
誤差系列の極小点から段落9が大局的にみた話題の変化
点として選ばれ、意味段落が決定される。Next, the paragraph chain analysis performs semantic paragraph segmentation based on the results of calculating the term similarity and new word rate of each paragraph. The calculation results of term similarity and new word rate, as well as the obtained semantic paragraphs, are shown in Figure 9. In this example, paragraphs 4 and 13 are selected from the maximum point of the error series of new word appearance rate, and paragraph 9 is selected from the minimum point of the error series of term similarity as the change point of the topic from a broader perspective. The paragraph is determined.
次に、重要語抽出部24は、語霊統計により度数順単語
表を作成し、文章全体の最重要語と重要語、及び、各意
味段落の重要語を決定する。文章全体の度数順単語表、
文章全体の最重要語と重要語、及び、各意味段落の重要
語の抽出結果を第9図Cに示す。この例では、累積使用
率15%以下の「競争」、「サービス」、「技術」、「
仕事」、rA S K」が最重要語として選ばれ、これ
らに加えて、累積使用率25%以下という条件を満足す
る「自分」、「活動」、「失敗」などが重要語として選
ばれる。また、各意味段落での語霊統計により、意味段
落ごとの重要語も同様に決定される。Next, the important word extraction unit 24 creates a frequency-ordered word table based on the word spirit statistics, and determines the most important words and important words of the entire sentence and the important words of each semantic paragraph. Frequency-ordered word list for the entire sentence,
Figure 9C shows the extraction results of the most important words and important words of the entire sentence and the important words of each semantic paragraph. In this example, "Competition", "Service", "Technology", "
``work'' and ``rA S K'' are selected as the most important words, and in addition to these, ``self,''``activity,'' and ``failure,'' which satisfy the condition that the cumulative usage rate is 25% or less, are selected as important words. Furthermore, important words for each semantic paragraph are determined in the same way based on the word spirit statistics for each semantic paragraph.
次に、重要部抽出部25は、各文の文特徴解析を行う。Next, the important part extraction unit 25 performs sentence feature analysis of each sentence.
文特徴解析の結果を第9図dに示す。文特徴解析では、
各文に対して、その文の位置、字面、初出及び終出する
最重要語及び重要語、文中の最重要語、文中の意味段落
重要語などに関する情報を付与する。続いて、文解析の
結果に基づいて、文を重要度の順に整列し、必要な分量
の文を選択する。重要度抽出の結果を第9図eに示す。The results of sentence feature analysis are shown in Figure 9d. In sentence feature analysis,
For each sentence, information is given such as the position of the sentence, the face of the sentence, the most important words and important words appearing for the first time and the last time, the most important word in the sentence, the meaning paragraph important word in the sentence, etc. Next, based on the result of the sentence analysis, the sentences are arranged in order of importance and the required amount of sentences is selected. The results of importance extraction are shown in Figure 9e.
この例では、原文の20%を超えるまで文を選ぶという
条件により、原文中の48個の文の中から10個の文が
抽出される。In this example, 10 sentences are extracted from 48 sentences in the original text under the condition that sentences are selected until they exceed 20% of the original text.
次に、抄録生成llB26は、抽出された重要度を原文
の順番に並べ直し、文頭の接続詞し及び指示間の中で、
不適切なものを除去する。削除すべき接続詞及び指示間
を検出した結果を第9図fに示す。この例では、「しか
し」、「ですから」、「これが」、「しかし」の4つが
來頭の接続詞・指示間として検出されるが、後者の2つ
の語は原文中の直前の文が抄録にも選ばれているので削
除されず、前者の2つの語が削除される。Next, the abstract generation 11B26 rearranges the extracted importance levels in the order of the original text, and arranges them between the conjunctions at the beginning of sentences and between instructions.
Remove inappropriate items. The results of detecting conjunctions and indications to be deleted are shown in FIG. 9f. In this example, the four words ``but'', ``therefore'', ``kore ga'', and ``but'' are detected as prepositional conjunctions/demonstrations, but the latter two words are also detected in the abstract because the previous sentence in the original sentence is not included in the abstract. Since it is selected, it is not deleted, and the former two words are deleted.
最後に、出力部27は、出来上がった抄録を抄録ファイ
ル31に書き出す。Finally, the output unit 27 writes the completed abstract to an abstract file 31.
[発明の効果]
上記の説明のように、本発明は、
日本語辞書の品詞情報と、単語の頻度情報、及び位置情
報から文章の主題や記述の核となる重要語を高精度で抽
出し、
問題の提起や結論などの原文の文章の展開に基づいて、
文章展開の上で重要であり、かつ、内容の要点を述べた
重要度を抽出し、
原文の文章構造を意味段落のレベルまで解析することに
より、意味段落構造の情報を重要語や重要文の抽出に利
用して、意味段落ごとの要旨を述べた重要語や重要文を
抽出し、
また、抄録作成の際には、各文に共通の重要語群を含ん
だ文を、原文の論理的構造を利用し、不自然な接続関係
や参照関係を除去して抄録を生成するものであるから、
文章の主題や記述の核となる重要語を構成度に抽出する
ことができ、
文章展開上で重要であり、かつ、内容の要点を述べた重
要文を抽出することができ、
また、文章としての結束性と一貫性を持った抄録を生成
することができる、という改善効果が得られた。[Effects of the Invention] As explained above, the present invention extracts important words that are the core of the subject and description of a sentence with high accuracy from part-of-speech information, word frequency information, and position information in a Japanese dictionary. , based on the development of the original text, such as the problem statement and conclusion.
By extracting the importance that is important in developing the text and stating the gist of the content, and analyzing the sentence structure of the original text to the level of the semantic paragraph, information on the semantic paragraph structure can be used to identify important words and important sentences. It is used for extraction to extract important words and important sentences that describe the gist of each semantic paragraph. Also, when creating an abstract, sentences that contain important word groups common to each sentence are extracted based on the logical meaning of the original text. Since it generates an abstract by using the structure and removing unnatural connections and reference relationships, it is possible to extract important words that are the core of the text's theme and description at a compositional level, and improve the text development. The improvement effect was that it was possible to extract important sentences that were important and stated the gist of the content, and it was also possible to generate an abstract that had cohesion and consistency as a text. .
第1図は本発明の1実施例のシステム構成図、第2図は
本発明の1実施例の機能ブロック図、第3図は文章構造
解析部のフローチャート、第4図は文章形態解析で用い
る形式文法及び文章構造規則の1例、第5図は段落連鎖
解析のフローチャート、第6図は重要語抽出部のフロー
チャート、第7図は重要文抽出部のフローチャート、第
8図は抄録生成部のフローチャート、第9図は本発明の
1動作例である。
入力装置
出力装置
プロセッサ(CPU)
プログラムメモリ
文書メモリ
作業メモリ
単語テーブル
文章構造テーブル
重要語テーブル
二重要文テーブル
:抄録テーブル
:日本語辞書
二文章構造規則辞書
二入力部
:形態素解析部
:文章構造解析部
24:重要語抽出部
25:重要文抽出部
26:抄録生成部
27:出力部
28:文書ファイル
29:日本語辞書
30:文章構造規則辞書
31:抄録ファイルFig. 1 is a system configuration diagram of an embodiment of the present invention, Fig. 2 is a functional block diagram of an embodiment of the invention, Fig. 3 is a flowchart of the text structure analysis section, and Fig. 4 is used in text form analysis. An example of formal grammar and sentence structure rules, Figure 5 is a flowchart of paragraph chain analysis, Figure 6 is a flowchart of important word extraction section, Figure 7 is a flowchart of important sentence extraction section, and Figure 8 is a flowchart of abstract generation section. The flowchart in FIG. 9 is an example of the operation of the present invention. Input device Output device Processor (CPU) Program memory Document memory Working memory Word table Sentence structure table Important word table 2 Important sentence table: Abstract table: Japanese dictionary 2 Sentence structure rule dictionary 2 Input section: Morphological analysis section: Sentence structure analysis section 24: Important word extraction unit 25: Important sentence extraction unit 26: Abstract generation unit 27: Output unit 28: Document file 29: Japanese dictionary 30: Sentence structure rule dictionary 31: Abstract file
Claims (2)
語辞書と、 この日本語辞書を用いて形態素解析を行う形態素解析部
と、 見出し、段落、文等の文章の構成要素の間の関係に関す
る規則を記憶した文章構造規則辞書と、この文章構造規
則辞書、及び、名詞の使用状況に関する解析結果を用い
て文書の構成要素を認識し、構成要素間の論理的な関係
を解析する文章構造解析部と、 名詞の使用状況に関する解析結果を用いて、文章中の重
要語を抽出する重要語抽出部と、 前記重要語抽出部より得られる重要語情報、及び前記文
章構造解析部より得られる重要文について、その提示順
序を決定し、抄録を生成する抄録生成部とを備え、 前記文章構造解析部は更に、 前記文章構造規則辞書を用いて、書式などの形態的特徴
から文章の構成要素を認識する文章形態解析手段と、 この手段により認識された構成要素である段落について
、名詞の使用状況を段落毎に解析し、連接する段落間の
内容的関連性を判定して文章を区分化する段落連鎖解析
手段とを備えたことを特徴とする自動抄録生成装置。(1) An input section for inputting the original text, a Japanese dictionary that stores syntactic information and semantic information for morphological analysis, a morphological analysis section that performs morphological analysis using this Japanese dictionary, and headings and paragraphs. , a sentence structure rule dictionary that stores rules regarding the relationships between the constituent elements of sentences such as sentences, and this sentence structure rule dictionary and analysis results regarding the usage of nouns to recognize and structure the document components. A sentence structure analysis unit that analyzes logical relationships between elements; an important word extraction unit that extracts important words in a sentence using analysis results regarding the usage of nouns; and important words obtained from the important word extraction unit. an abstract generation unit that determines the presentation order of important sentences obtained from the word information and the sentence structure analysis unit and generates an abstract, and the sentence structure analysis unit further includes: , a sentence form analysis means that recognizes the constituent elements of a sentence from morphological features such as format, and analyzes the usage status of nouns for each paragraph of the paragraphs that are the constituent elements recognized by this means, and An automatic abstract generation device comprising paragraph chain analysis means for determining content relevance and segmenting sentences.
された重要文を原文中の出現頻度に従って並べ、この重
要文の系列において、原文の分脈とは整合しない接続詞
及び指示詞を検出し、これを削除する手段を有すること
を特徴とする特許請求の範囲第1項記載の自動抄録生成
装置。(2) The abstract generation unit arranges the important sentences extracted by the important sentence extraction unit according to the frequency of appearance in the original text, and detects conjunctions and demonstratives that are inconsistent with the context of the original text in the series of important sentences. The automatic abstract generation device according to claim 1, further comprising means for deleting the information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1075214A JPH02254566A (en) | 1989-03-29 | 1989-03-29 | Automatic excerpt generating device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1075214A JPH02254566A (en) | 1989-03-29 | 1989-03-29 | Automatic excerpt generating device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02254566A true JPH02254566A (en) | 1990-10-15 |
Family
ID=13569736
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1075214A Pending JPH02254566A (en) | 1989-03-29 | 1989-03-29 | Automatic excerpt generating device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02254566A (en) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1040267A (en) * | 1996-07-26 | 1998-02-13 | Nec Corp | Document summary viewer |
| JPH1125091A (en) * | 1997-07-09 | 1999-01-29 | Just Syst Corp | Document summarization support apparatus and computer-readable recording medium for causing a computer to function as the apparatus |
| JPH11259521A (en) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | Document understanding support device, summary sentence generation method, and computer-readable recording medium storing document understanding support program |
| JP2001147937A (en) * | 1999-11-22 | 2001-05-29 | Toshiba Corp | Business support system |
| JP2001202389A (en) * | 2000-12-11 | 2001-07-27 | Toshiba Corp | Document search device and document search method |
| US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
| JP2005322245A (en) * | 2004-04-30 | 2005-11-17 | Microsoft Corp | Method and system for classifying display page using summary |
| US7234942B2 (en) | 2002-07-09 | 2007-06-26 | Canon Kabushiki Kaisha | Summarisation representation apparatus |
| WO2022107234A1 (en) * | 2020-11-18 | 2022-05-27 | 日本電信電話株式会社 | Summary generation method, summary generation device, and program |
-
1989
- 1989-03-29 JP JP1075214A patent/JPH02254566A/en active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1040267A (en) * | 1996-07-26 | 1998-02-13 | Nec Corp | Document summary viewer |
| JPH1125091A (en) * | 1997-07-09 | 1999-01-29 | Just Syst Corp | Document summarization support apparatus and computer-readable recording medium for causing a computer to function as the apparatus |
| JPH11259521A (en) * | 1998-03-13 | 1999-09-24 | Fujitsu Ltd | Document understanding support device, summary sentence generation method, and computer-readable recording medium storing document understanding support program |
| US6537325B1 (en) | 1998-03-13 | 2003-03-25 | Fujitsu Limited | Apparatus and method for generating a summarized text from an original text |
| US6638317B2 (en) | 1998-03-20 | 2003-10-28 | Fujitsu Limited | Apparatus and method for generating digest according to hierarchical structure of topic |
| JP2001147937A (en) * | 1999-11-22 | 2001-05-29 | Toshiba Corp | Business support system |
| JP2001202389A (en) * | 2000-12-11 | 2001-07-27 | Toshiba Corp | Document search device and document search method |
| US7234942B2 (en) | 2002-07-09 | 2007-06-26 | Canon Kabushiki Kaisha | Summarisation representation apparatus |
| JP2005322245A (en) * | 2004-04-30 | 2005-11-17 | Microsoft Corp | Method and system for classifying display page using summary |
| WO2022107234A1 (en) * | 2020-11-18 | 2022-05-27 | 日本電信電話株式会社 | Summary generation method, summary generation device, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
| US5369577A (en) | Text searching system | |
| JP3266246B2 (en) | Natural language analysis apparatus and method, and knowledge base construction method for natural language analysis | |
| Sedláček et al. | A new Czech morphological analyser ajka | |
| Vivaldi et al. | Improving term extraction by system combination using boosting | |
| US20080249764A1 (en) | Smart Sentiment Classifier for Product Reviews | |
| US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
| US20200342052A1 (en) | Syntactic graph traversal for recognition of inferred clauses within natural language inputs | |
| EP1208456A2 (en) | Method and system for topical segmentation, segment significance and segment function | |
| US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
| CN112612892A (en) | Special field corpus model construction method, computer equipment and storage medium | |
| JP2020113129A (en) | Document evaluation device, document evaluation method, and program | |
| Pirovani et al. | Portuguese named entity recognition using conditional random fields and local grammars | |
| Kostić et al. | Monolingual, multilingual and cross-lingual code comment classification | |
| Espinosa-Anke et al. | Applying dependency relations to definition extraction | |
| JPH02254566A (en) | Automatic excerpt generating device | |
| Subha et al. | Quality factor assessment and text summarization of unambiguous natural language requirements | |
| Baud et al. | Morpho-semantic parsing of medical expressions | |
| Brants | Tagging and parsing with cascaded Markov models: automation of corpus annotation | |
| KR102807787B1 (en) | Shopping mall review data analysis method and shopping mall review data analysis device | |
| Breck et al. | Playing the telephone game: Determining the hierarchical structure of perspective and speech expressions | |
| JPWO2009113289A1 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
| Zavrel et al. | Feature-rich memory-based classification for shallow NLP and information extraction | |
| Pham et al. | Extracting positive attributions from scientific papers | |
| JPH0844763A (en) | Keyword automatic extractor |