JP2001043220A - Method and device for processing document and recording medium - Google Patents
Method and device for processing document and recording mediumInfo
- Publication number
- JP2001043220A JP2001043220A JP11212652A JP21265299A JP2001043220A JP 2001043220 A JP2001043220 A JP 2001043220A JP 11212652 A JP11212652 A JP 11212652A JP 21265299 A JP21265299 A JP 21265299A JP 2001043220 A JP2001043220 A JP 2001043220A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- summary sentence
- document processing
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、電子文書を処理す
る文書処理方法及び装置並びに電子文書を処理する文書
処理プログラムが記録された記録媒体に関する。[0001] 1. Field of the Invention [0002] The present invention relates to a document processing method and apparatus for processing an electronic document and a recording medium on which a document processing program for processing an electronic document is recorded.
【0002】[0002]
【従来の技術】従来、インターネットにおいて、ウィン
ドウ形式でハイパーテキスト型情報を提供するアプリケ
ーションサービスとしてWWW(World Wide Web)が知
られている。2. Description of the Related Art Conventionally, WWW (World Wide Web) is known as an application service for providing hypertext information in a window format on the Internet.
【0003】WWWは、文書の作成、公開又は共有化の
文書処理を実行し、新しいスタイルの文書の在り方を示
したシステムである。しかし、文書の実際上の利用の観
点からは、文書の内容に基づいた文書の分類や要約とい
った、WWWを越える高度な文書処理が求められてい
る。このような高度な文書処理には、文書の内容の機械
的な処理が不可欠である。[0003] The WWW is a system that executes document processing for creating, publishing, or sharing a document and showing the way of a new style document. However, from the viewpoint of practical use of documents, advanced document processing beyond WWW, such as classification and summarization of documents based on the contents of the documents, is required. For such advanced document processing, mechanical processing of the contents of the document is indispensable.
【0004】しかしながら、文書の内容の機械的な処理
は、以下のような理由から依然として困難である。すな
わち、第1に、ハイパーテキストを記述する言語である
HTML(Hyper Text Markup Language)は、文書の表
現については規定するが、文書の内容についてはほとん
ど規定しない点、第2に、文書間に構成されたハイパー
テキストのネットワークは、文書の読者にとって文書の
内容を理解するために必ずしも利用しやすいものではな
い点、第3に、一般に文章の著作者は読者の便宜を念頭
に置かずに著作するが、文書の読者の便宜が著作者の便
宜と調整されることはない点が、文書の機械的処理を困
難とする理由である。However, mechanical processing of the contents of a document is still difficult for the following reasons. First, HTML (Hyper Text Markup Language), which is a language for describing hypertext, defines the expression of a document, but hardly defines the content of the document. Third, a written hypertext network is not always easy for readers of a document to understand the contents of the document, and thirdly, authors of texts generally write without the convenience of the reader. However, the fact that the convenience of the reader of the document is not coordinated with the convenience of the author is the reason why the mechanical processing of the document is difficult.
【0005】このように、WWWは新しい文書の在り方
を示したシステムであるが、文書を機械的に処理しない
ので、高度な文書処理を行うことができなかった。換言
すると、高度な文書処理を実行するためには、文書を機
械的に処理することが必要となる。[0005] As described above, WWW is a system showing the way of a new document. However, since the document is not mechanically processed, advanced document processing cannot be performed. In other words, in order to perform advanced document processing, it is necessary to process the document mechanically.
【0006】そこで、文書の機械的な処理を目標とし
て、文書の機械的な処理を支援するシステムが自然言語
研究の成果に基づいて開発されている。自然言語研究に
よる文書処理として、文書の著作者等による文書の内部
構造についての属性情報、いわゆるタグの付与を前提と
した、文書に付与されたタグを利用する機械的な文書処
理が提案されている。Therefore, a system for supporting mechanical processing of documents has been developed based on the results of natural language research, with the goal of mechanical processing of documents. As a document processing based on natural language research, mechanical document processing using tags attached to a document has been proposed on the assumption that attribute information about the internal structure of the document by the author of the document, so-called tags are added. I have.
【0007】ところで、近年のコンピュータの普及や、
ネットワーク化の進展に伴い、文章処理や、文書の内容
に依存した索引などで、テキスト文書の作成、ラベル付
け、変更などを行う文書処理の高機能化が求められてい
る。例えば、ユーザの要望に応じた文書の要約や、文書
の分類等が望まれる。By the way, the spread of computers in recent years,
With the progress of networking, there has been a demand for sophisticated document processing for creating, labeling, and changing text documents by using text processing, indexes depending on the contents of documents, and the like. For example, it is desired to summarize a document according to a user's request, classify the document, and the like.
【0008】すなわち、ユーザは、例えばいわゆるサー
チエンジンのような情報検索システムを利用し、インタ
ーネットを介して提供される膨大な情報の中から所望の
情報を探し出すようにしている。この情報検索システム
は、指定されたキーワードに基づいて情報を検索し、検
索した情報をユーザに提供するシステムである。ユーザ
は、提供された情報の中から所望の情報を選択する。[0008] That is, a user uses an information search system such as a so-called search engine to search for desired information from a vast amount of information provided through the Internet. This information search system is a system that searches for information based on a specified keyword and provides the searched information to a user. The user selects desired information from the provided information.
【0009】情報検索システムにおいては、このように
容易に情報を検索することができるが、ユーザは、検索
されて提供された情報を一読して概略を理解し、それが
希望する情報であるか否かを判断する必要がある。この
作業は、特に、提供された情報の量が多い場合には、ユ
ーザにとって大きな負担となる。そこで、最近、テキス
ト情報、すなわち文書の内容を自動的に要約するシステ
ムであるいわゆる自動要約文作成システムが注目されて
いる。[0009] In the information retrieval system, information can be easily retrieved as described above. However, the user must read the retrieved and provided information to understand the outline, and determine whether the information is the desired information. It is necessary to determine whether or not. This operation imposes a heavy burden on the user, especially when the amount of provided information is large. Therefore, recently, a so-called automatic summary sentence creating system, which is a system for automatically summarizing text information, that is, a content of a document, has attracted attention.
【0010】自動要約文作成システムは、元の情報、す
なわち文書の大意を保持したままテキストの情報の長さ
や複雑さを減らすことによって、要約文を作成するシス
テムである。ユーザは、この自動要約文作成システムに
より作成された要約文を一読することで、文書の概略を
理解することができる。The automatic summary text creation system is a system for creating a summary text by reducing the length and complexity of text information while maintaining the original information, ie, the meaning of the document. The user can understand the outline of the document by reading the summary sentence created by the automatic summary sentence creation system.
【0011】通常、自動要約文作成システムは、テキス
ト中の文や単語を1つの単位とし、それに何らかの情報
に基づいた重要度を付与して順序付けする。そして、自
動要約文作成システムは、上位に順序付けした文や単語
を寄せ集め、要約文を作成する。Normally, an automatic summary sentence creating system assigns a sentence or word in a text as one unit, and assigns an importance based on some information to order the sentence or word. Then, the automatic summary sentence creating system collects sentences and words ordered in a higher order and creates a summary sentence.
【0012】[0012]
【発明が解決しようとする課題】ところで、上述した自
動要約文作成システムにおいては、文書から要約文を作
成することが可能であるが、作成される要約文の情報量
は、文書の情報量等により決定されていた。そのため、
自動要約文作成システムにおいては、例えば、作成され
た要約文が簡略すぎてユーザが文書の概略を把握できな
い場合、ユーザは、より詳細な要約文を参照することが
できなかった。By the way, in the above-mentioned automatic summary text creation system, it is possible to create a summary text from a document. Was determined by for that reason,
In the automatic summary text creation system, for example, when the created summary text is too simple for the user to grasp the outline of the document, the user cannot refer to a more detailed summary text.
【0013】また、元の文中の主語の省略されている部
分を要約文に取り入れる場合に、省略されている部分が
要約文中に含まれていないと、要約文から正確な内容把
握が行えないことにもなる。In addition, when the omitted part of the subject in the original sentence is incorporated in the abstract, if the omitted part is not included in the abstract, accurate contents cannot be grasped from the abstract. Also.
【0014】本発明は、上述の実情に鑑みて提案された
ものであり、入力された文書に対して、ユーザの理解が
容易で正確な内容の要約文を自動生成し得るような文書
処理方法及び装置、並びに文書処理プログラムが記録さ
れてなる記録媒体を提供することを目的とする。The present invention has been proposed in view of the above-mentioned circumstances, and a document processing method capable of automatically generating an accurate summary sentence easily understood by a user for an input document. And a recording medium on which a document processing program is recorded.
【0015】[0015]
【課題を解決するための手段】上述の課題を解決するた
めに、本発明は、電子文書の形態の文書を処理する文書
処理方法及び装置において、文書の要約文を作成し、作
成される要約文中における省略された主語又は目的語が
該要約文中に含まれていないとき、元の文書中の対応す
る主語又は目的語を要約文中に追加することを特徴とし
ている。In order to solve the above-mentioned problems, the present invention provides a document processing method and apparatus for processing a document in the form of an electronic document. When the omitted subject or object in the sentence is not included in the abstract, the corresponding subject or object in the original document is added to the abstract.
【0016】ここで、上記省略された主語又は目的語は
ゼロ照応エレメントと称され、上記要約文中にこのゼロ
照応エレメントが含まれているか否かを判別し、含まれ
ていないときに、当該ゼロ照応エレメントを要約文中に
括弧でくくって追加することが好ましい。Here, the abbreviated subject or object is referred to as a zero-anaphoric element, and it is determined whether or not the zero-anaphoric element is included in the summary sentence. Preferably, the anaphoric element is added in parentheses in the summary sentence.
【0017】これによって、要約文中に省略された主語
や目的語が全く含まれないことが回避される。Thus, it is possible to prevent the abbreviated subject from including any omitted subject or object.
【0018】[0018]
【発明の実施の形態】以下、図面を参照して、本発明に
係る文書処理方法及び装置並びに文書処理プログラムが
記録された記録媒体の実施の形態について説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of a document processing method and apparatus and a recording medium in which a document processing program is recorded according to the present invention will be described with reference to the drawings.
【0019】本発明の実施の形態としての文書処理装置
は、図1に示すように、制御部11及びインターフェー
ス12を備える本体10と、ユーザからの入力を受けて
本体10に送る入力部20と、外部からの信号を受信し
て本体10に送る通信部22と、本体10からの出力を
表示する表示部30と、記録媒体32に対して情報を記
録/再生する記録/再生部31とを有している。As shown in FIG. 1, a document processing apparatus according to an embodiment of the present invention includes a main unit 10 having a control unit 11 and an interface 12, an input unit 20 which receives an input from a user and sends it to the main unit 10. A communication unit 22 that receives an external signal and sends it to the main unit 10, a display unit 30 that displays an output from the main unit 10, and a recording / reproducing unit 31 that records / reproduces information on / from a recording medium 32. Have.
【0020】本体10は、制御部11及びインターフェ
ース12を有し、この文書処理装置の主要な部分を構成
している。制御部11は、この文書処理装置における処
理を実行するCPU13と、揮発性のメモリであるRA
M14と、不揮発性のメモリであるROM15とを有し
ている。CPU13は、例えばROM15に記録された
プログラムの手順にしたがって各処理を実行するための
制御を行う。RAM14には、CPU13が各種の処理
を実行する上で必要なプログラムやデータが一時的に格
納される。インターフェース12は、制御部11、入力
部20、通信部22、表示部30及び記録/再生部31
に接続されている。このインターフェース12は、制御
部11の制御の下に、入力部20及び通信部22からの
データの入力、表示部30へのデータの送信、記録/再
生部31に対するデータの送受信について、データを送
信するタイミングを調整したり、データの形式を変換し
たりする。The main body 10 has a control unit 11 and an interface 12, and constitutes a main part of the document processing apparatus. The control unit 11 includes a CPU 13 that executes processing in the document processing apparatus, and a RA that is a volatile memory.
M14 and a ROM 15 which is a non-volatile memory. The CPU 13 performs control for executing each process in accordance with, for example, a procedure of a program recorded in the ROM 15. The RAM 14 temporarily stores programs and data necessary for the CPU 13 to execute various processes. The interface 12 includes a control unit 11, an input unit 20, a communication unit 22, a display unit 30, and a recording / reproducing unit 31.
It is connected to the. The interface 12 transmits data for input of data from the input unit 20 and the communication unit 22, transmission of data to the display unit 30, and transmission and reception of data to the recording / reproducing unit 31 under the control of the control unit 11. To adjust the timing of data conversion and data format conversion.
【0021】入力部20は、この文書処理装置に対する
ユーザの入力を受ける部分であり、例えばキーボードや
マウスにより構成される。ユーザは、この入力部20を
用い、キーボードによりキーワードを入力したり、マウ
スにより表示部30に表示されている電子文書のエレメ
ントを選択して入力したりすることができる。なお、以
下では電子文書を単に文書と称することにする。ここ
で、エレメントとは文書を構成する要素であって、例え
ば文書、文、句及び語が含まれる。The input section 20 is a section for receiving a user's input to the document processing apparatus, and comprises, for example, a keyboard and a mouse. The user can use the input unit 20 to input a keyword using a keyboard or select and input an element of the electronic document displayed on the display unit 30 using a mouse. In the following, an electronic document will be simply referred to as a document. Here, the element is an element constituting a document, and includes, for example, a document, a sentence, a phrase, and a word.
【0022】通信部22は、この文書処理装置に外部か
ら通信路、例えば電話回線を介して送信される信号を受
信する部分である。具体的には、通信部22は、例え
ば、モデム、ターミナルアダプタ等により構成され、電
話回線を介してインターネット23に接続され、インタ
ーネットに接続されているサーバ24にアクセスし、そ
こから文書等のデータを受信することができるようにさ
れている。このような通信部22は、外部から送信され
た複数の文書等のデータを受信し、受信したデータを本
体10に送る。The communication section 22 is a section for receiving a signal transmitted from the outside to the document processing apparatus via a communication path, for example, a telephone line. Specifically, the communication unit 22 is configured by, for example, a modem, a terminal adapter, and the like, is connected to the Internet 23 via a telephone line, accesses a server 24 connected to the Internet, and from there, data such as a document. Have been able to receive. Such a communication unit 22 receives data such as a plurality of documents transmitted from the outside, and sends the received data to the main body 10.
【0023】表示部30は、この文書処理装置からの文
字や画像情報の出力を表示する。表示部30は、例えば
陰極線管(cathode ray tube;CRT)や液晶表示装置(li
quidcrystal display;LCD)から構成され、例えば単数
又は複数のウィンドウを表示したり、文字、図形、又は
画像等を表示したりする。The display unit 30 displays the output of characters and image information from the document processing device. The display unit 30 includes, for example, a cathode ray tube (CRT) or a liquid crystal display (li).
It is composed of a liquid crystal display (LCD) and displays, for example, one or more windows, and displays characters, figures, images, and the like.
【0024】記録/再生部31は、例えばフロッピーデ
ィスク、光ディスク、光磁気ディスクのような着脱可能
な記録媒体32に対してデータの記録及び/又は再生を
行う。記録媒体32には、文書を処理する文書処理プロ
グラムが記録されている。この記録媒体32には、文書
を処理するための電子文書処理プログラムや処理対象と
する文書が記録されている。The recording / reproducing unit 31 records and / or reproduces data on a removable recording medium 32 such as a floppy disk, an optical disk, and a magneto-optical disk. In the recording medium 32, a document processing program for processing a document is recorded. The recording medium 32 records an electronic document processing program for processing a document and a document to be processed.
【0025】ハードディスクドライブ33は、大容量の
磁気記録媒体であるハードディスクに対してデータの記
録及び/又は再生を行う。The hard disk drive 33 records and / or reproduces data on a hard disk which is a large-capacity magnetic recording medium.
【0026】このような文書処理装置は、以下のように
して所望の文書を受信し、表示部31に表示する。Such a document processing apparatus receives a desired document and displays it on the display unit 31 as follows.
【0027】文書処理装置においては、まずユーザが入
力部20を操作してインターネット23を介して通信を
行うためのプログラムを起動し、サーバ24(サーチエ
ンジン)のURL(Uniform Resource Locator)を入力
すると、制御部11は、通信部22を制御し、サーバ2
4にアクセスする。In the document processing apparatus, first, the user operates the input unit 20 to start a program for performing communication via the Internet 23, and inputs a URL (Uniform Resource Locator) of the server 24 (search engine). , The control unit 11 controls the communication unit 22 and the server 2
Access 4
【0028】これに応じて、サーバ24は、インターネ
ット23を介して、文書処理装置の通信部22に検索画
面のデータを出力する。文書処理装置においてCPU1
3は、このデータをインターフェース12を介して表示
部30に出力し、表示させる。In response, the server 24 outputs the data of the search screen to the communication unit 22 of the document processing device via the Internet 23. CPU1 in the document processing device
3 outputs the data to the display unit 30 via the interface 12 and causes the display unit 30 to display the data.
【0029】文書処理装置においては、ユーザが入力部
20を用いてこの検索画面上でキーワード等を入力して
検索を指令すると、通信部22からインターネット23
を介して、サーチエンジンとしてのサーバ24に対して
検索命令が送信される。In the document processing apparatus, when a user inputs a keyword or the like on this search screen using the input unit 20 and instructs a search, the communication unit 22 transmits the keyword to the Internet 23.
, A search command is transmitted to the server 24 as a search engine.
【0030】サーバ24は、検索命令を受信すると、こ
の検索命令を実行し、得られた検索結果をインターネッ
ト23を介して通信部22に送信する。文書処理装置に
おいて制御部11は、通信部22を制御し、サーバ24
から送信される検索結果を受信させ、その一部を表示部
30に表示させる。When receiving the search command, the server 24 executes the search command and transmits the obtained search result to the communication unit 22 via the Internet 23. In the document processing apparatus, the control unit 11 controls the communication unit 22 and
, And a part thereof is displayed on the display unit 30.
【0031】具体的には、ユーザが入力部20を用いて
例えば「TCP」というキーワードを入力して検索を指
令した場合には、文書処理装置には、サーバ24から
「TCP」のキーワードを含む各種情報が送信され、表
示部30に表示される。Specifically, when the user inputs a keyword such as “TCP” using the input unit 20 and instructs a search, the document processing apparatus includes the keyword “TCP” from the server 24. Various information is transmitted and displayed on the display unit 30.
【0032】続いて、本実施の形態における文書につい
て説明する。本実施の形態においては、文書処理は、文
書に付与された属性情報であるタグを参照して行われ
る。本実施の形態で用いられるタグには、文書の構造を
示す統語論的(syntactic)タグと、多言語間で文書の
機械的な内容理解を可能にするような意味的(semanti
c)・語用論的タグとがある。Next, a document according to the present embodiment will be described. In the present embodiment, document processing is performed with reference to a tag that is attribute information given to a document. Tags used in the present embodiment include a syntactic tag indicating the structure of a document and a semantic (semanti) tag that enables mechanical understanding of the content of a document between multiple languages.
c) ・ There is a pragmatic tag.
【0033】統語論的なタグとしては、文書の内部構造
を記述するものがある。タグ付けによる内部構造は、図
2に示すように、文書、文、語彙エレメント等の各エレ
メントが、通常リンク、参照・被参照リンクにより関連
付けられて構成されている。図中において、白丸“○”
はエレメントを示し、最下位の白丸は文書における最小
レベルの語に対応する語彙エレメントである。また、実
線は文書、文、語彙エレメント等のエレメント間のつな
がり示す通常リンク(normal link) である。破線は参
照・被参照による係り受け関係を示す参照リンク(refe
rence link)である。文書の内部構造は、上位から下位
への順序で、文書(document)、サブディビジョン(su
bdivision) 、段落(paragraph)、文(sentence) 、
サブセンテンシャルセグメント(subsentential segmen
t) 、・・・、語彙エレメントから構成される。これら
のうち、サブディビジョンと段落とは、例えばオプショ
ンとして用いられるものである。Some syntactic tags describe the internal structure of a document. As shown in FIG. 2, the internal structure by tagging is configured such that each element such as a document, a sentence, and a vocabulary element is associated with a normal link and a reference / referenced link. In the figure, white circle “○”
Indicates an element, and the white circle at the bottom is a vocabulary element corresponding to the lowest level word in the document. A solid line is a normal link indicating a connection between elements such as a document, a sentence, and a vocabulary element. The broken line is a reference link (refe
rence link). The internal structure of a document is document, subdivision (su
bdivision), paragraph, sentence (
Subsentential segmen
t) consists of vocabulary elements. Of these, the subdivisions and paragraphs are used, for example, as options.
【0034】一方、意味論・語用論的なタグ付けとして
は、係り受け、例えば代名詞の指示対象等を示す統語構
造(syntactic structure) に関するタグ付けや多義語
の意味のように意味(semantic)の情報を記述するもの
がある。本実施の形態におけるタグ付けは、HTML
(Hyper Text Markup Language)と同様なXML(eXte
nsible Markup Language)の形式によるものである。On the other hand, as semantic / pragmatic tagging, tags such as syntactic structure indicating a referent of a pronoun or the like or semantic like the meaning of a polysemy are used. There is something that describes the information. Tagging in the present embodiment is performed in HTML.
XML (eXte) similar to (Hyper Text Markup Language)
nsible Markup Language).
【0035】以下にタグ付けされた文や文書の例を示す
が、文書へのタグ付けはこの方法に限定されるものでは
ない。また、以下では英語と日本語の文書の例を示す
が、タグ付けによる内部構造の記述は、他の言語にも同
様に適用することができることは勿論である。The following is an example of a tagged sentence or document, but tagging of the document is not limited to this method. In the following, examples of English and Japanese documents are shown. However, it is needless to say that the description of the internal structure by tagging can be similarly applied to other languages.
【0036】例えば、“Time flies like an arrow.”
という文については、下記のようなタグ付けをすること
ができる。For example, "Time flies like an arrow."
Can be tagged as follows:
【0037】<文><名詞句 語義=“time0”>time
</名詞句> <動詞句><動詞 語義=“fly1”>flies</動詞> <形容動詞句><形容動詞 語義=“like0”>like<
/形容動詞> <名詞句>an<名詞 語義=“arrow0”>arrow</名
詞></名詞句> </形容動詞句></動詞句>.</文> ここで<文>、<名詞>、<名詞句>、<動詞>、<動
詞句>、<形容動詞>、<形容動詞句>は、それぞれ
文、名詞、名詞句、動詞、動詞句、形容詞を含む前置詞
句又は後置詞句/形容詞句、形容詞句/形容動詞句のよ
うな文の統語構造(syntactic structure) を表してい
る。タグは、エレメントの先端の直前及び終端の直後に
対応して配置される。エレメントの終端の直後に配置さ
れるタグは、記号“/”によりエレメントの終端である
ことを示している。エレメントは統語的構成素、すなわ
ち句、節、及び文を示す。なお、語義(word sense)=
“time0”は、語“time”の有する複数の意味、すなわ
ち複数の語義のうちの第0番目の意味を指している。具
体的には、語“time”には少なくとも名詞、形容詞、動
詞の意味があるが、ここでは語“time”が名詞であるこ
とを示している。同様に、語“オレンジ”は少なくとも
植物の名前、色、果物の意味があるが、これらも語義に
よって区別することができる。<Sentence><noun phrase meaning = “time0”> time
</ Noun phrase><verbphrase><verb meaning = "fly1"> flies </ verb><adjective verb phrase><adjective verb meaning = "like0"> like <
/ Adjective verb><nounphrase> an <noun word meaning = "arrow0"> arrow </ noun></ noun phrase></ adjective verb phrase></ verb phrase>. <// sentence> where <sentence>, < Noun, <noun phrase>, <verb>, <verb phrase>, <adjective verb>, <adjective verb phrase> are sentence, noun, noun phrase, verb, verb phrase, prepositional phrase or postposition including adjective, respectively. It represents a syntactic structure of a sentence, such as an adjective / adjective phrase or an adjective / adjective verb phrase. Tags are arranged corresponding to immediately before the front end and immediately after the end of the element. The tag placed immediately after the end of the element indicates that it is the end of the element by the symbol "/". Elements indicate syntactic constituents, ie, phrases, clauses, and sentences. Note that word sense =
“Time0” indicates a plurality of meanings of the word “time”, that is, a 0th meaning of the plurality of meanings. Specifically, the word “time” has at least the meanings of a noun, an adjective, and a verb. Here, it indicates that the word “time” is a noun. Similarly, the word "orange" has at least the meaning of plant name, color, and fruit, but these can also be distinguished by their meaning.
【0038】本実施の形態に用いられる文書は、図3に
示すように、上記図1の表示部30のウィンドウ101
に統語構造を表示することができる。このウィンドウ1
01においては、右半面103に語彙エレメントが、左
半面102に文の内部構造がそれぞれ表示されている。
このウィンドウ101においては、日本語で記述された
文書のみならず、英語等の任意の言語で記述された文書
についても、統語構造を表示することができる。As shown in FIG. 3, the document used in the present embodiment is a window 101 of the display unit 30 shown in FIG.
The syntactic structure can be displayed. This window 1
In 01, the vocabulary elements are displayed on the right half 103, and the internal structure of the sentence is displayed on the left half 102.
In this window 101, not only a document described in Japanese but also a document described in an arbitrary language such as English can display a syntactic structure.
【0039】このウィンドウ101には、一例として、
タグ付けにより内部構造を記述された次に示すような文
書「A氏のB会が終わったC市で、一部の大衆紙と一般
紙がその写真報道を自主規制する方針を紙面で明らかに
した。」の一部が表示されている。この文書のタグ付け
の例を次に示す。In the window 101, for example,
The following document describing the internal structure by tagging: "In the city C where Mr. A's B meeting was over, some popular papers and general newspapers clarified the policy to voluntarily regulate the photo report Is displayed. An example of tagging this document follows.
【0040】<文書><文><形容動詞句 関係=“位
置”><名詞句><形容動詞句 場所=“C市”> <形容動詞句 関係=“主語”><名詞句 識別子=
“B会”><形容動詞句関係=“所属”><人名 識別
子=“A氏”>A氏</人名>の</形容動詞句><組
織名 識別子=“B会”>B会</組織名></名詞句
>が</形容動詞句> 終わった</形容動詞句><地名 識別子=“C市”>
C市</地名></名詞句>で、</形容動詞句><形
容動詞句 関係=“主語”><名詞句 識別子=“pres
s” 統語=“並列”><名詞句><形容動詞句>一部
の</形容動詞句>大衆紙</名詞句>と<名詞>一般
紙</名詞></名詞句>が</形容動詞句> <形容動詞句 関係=“目的語”><形容動詞句 関係
=“内容” 主語=“press”><形容動詞句 関係=
“目的語”><名詞句><形容動詞句><名詞共参照=
“B会”>そ</名詞>の</形容動詞句>写真報道<
/名詞句>を</形容動詞句> 自主規制する</形容動詞句>方針を</形容動詞句> <形容動詞句 関係=“位置”>紙面で</形容動詞句
> 明らかにした。</文></文書> この文書においては、「一部の大衆紙と一般紙」は、統
語=“並列”というタグにより並列であることが表され
ている。並列の定義は、係り受け関係を共有すると言う
ことである。特に何も指定がない場合は、例えば、<名
詞句 関係=x><名詞>A</名詞><名詞>B</
名詞></名詞句> はAがBに依存関係のあることを
表す。関係=xは関係属性を表す。<Document><sentence><adjective verb phrase relation = “position”><nounphrase><adjective verb phrase place = “C city”><adjective verb phrase relation = “subject”><noun phrase identifier =
“B meeting”><adjective verb phrase relation = “affiliation”><person name identifier = “Mr. A”> Mr. A </ person name></ adjective verb phrase><organization name identifier = “B meeting”> B meeting < / Organization name><Nounphrase></ Adjective verb phrase> Finished </ Adjective verb phrase><Place name identifier = "C city">
C city </ place name></ noun phrase>, </ adjective verb phrase><adjective verb phrase relation = "subject"><noun phrase identifier = "pres
s ”syntactic =“ parallel ”><nounphrase><adjective verb phrase> Some </ adjective verb phrases> popular paper </ noun phrase> and <noun> general paper </ noun></ noun phrase> / Adjective verb phrase><adjective verb phrase relation = “object”><adjective verb phrase relation = “content” subject = “press”><adjective verb phrase relation =
"Object"><nounphrase><adjective verb phrase><noun co-reference =
"B-kai"> so </ noun></ adjective verb phrase> photo coverage <
</ Noun phrase></ adjective verb phrase> Self-regulating </ adjective verb phrase> Policy </ adjective verb phrase><adjective verb phrase relation = "position"></ adjective verb phrase> on paper. </ Sentence></document> In this document, "part of popular paper and general paper" is expressed in parallel by a tag of syntactic = "parallel". The definition of parallel is to share a dependency relationship. If nothing is specified, for example, <noun phrase relation = x><noun> A </ noun><noun> B <//
Noun >></ noun phrase> indicates that A has a dependency on B. Relation = x represents a relation attribute.
【0041】関係属性は、統語、意味、修辞についての
相互関係を記述する。主語、目的語、間接目的語のよう
な文法機能、動作主、被動作者、受益者などのような主
題役割、及び理由、結果などのような修辞関係はこの関
係属性により記述される。本実施の形態では、主語、目
的語、間接目的語のような比較的容易な文法機能につい
て関係属性を記述する。The relation attribute describes the mutual relation between syntactic, meaning, and rhetorical. Grammar functions such as subjects, objects, and indirect objects, subject roles such as an actor, a subject, beneficiaries, and the like, and rhetorical relations such as a reason and a result are described by the relation attributes. In the present embodiment, relation attributes are described for relatively easy grammatical functions such as a subject, an object, and an indirect object.
【0042】また、この文書においては、“A氏”、
“B会”、“C市”のような固有名詞について、地名、
人名、組織名等のタグにより属性が記述されている。こ
れら地名、人名、組織名等のタグが付与される語は固有
名詞である。In this document, "Mr. A"
For proper nouns such as "B Association" and "C City", place names,
Attributes are described by tags such as person names and organization names. These words to which tags such as place names, personal names, and organization names are given are proper nouns.
【0043】また、このようなタグ付けされた文書にお
いては、代名詞や限定節についての参照、被参照関係が
タグにより表される。例えば、上記文書においては、
「その写真報道を」のエレメントの「その」の部分が、
「共参照=“B会”」という属性を持つことにより、そ
の部分が「識別子=“B会”」という属性を持つエレメ
ント(この場合は名詞句)「A氏のB会」であることが
示されている。従って、上記「その写真報道を」の「そ
の」の部分を置き換えると、「A氏のB会の写真報道
を」となる。In such a tagged document, a reference to a pronoun or a restrictive clause or a referenced relationship is represented by a tag. For example, in the above document,
The "that" part of the "photo coverage" element
By having the attribute “co-reference =“ B meeting ””, that part can be an element (in this case, a noun phrase) “Mr. A's B meeting” having the attribute “identifier =“ B meeting ””. It is shown. Therefore, replacing the part of "the photograph report" with "the report" becomes "the photograph report of Mr. A's B meeting".
【0044】さらに、このようなタグ付けされた文書に
おいては、省略された主語や目的語等を他の部分によっ
て補うことができる。すなわち、上記文書の例において
は、「自主規制する」のエレメントが「主語=“pres
s”」 という属性を持つことにより、その意味上の主語
が「識別子=“press”」 という属性を持つエレメント
(この場合は名詞句)「一部の一般紙と大衆紙」である
ことが示されている。従って、主語を補ったものは、
「(一部の一般紙と大衆紙が)自主規制する」となる。
このように、省略が他の部分によって補われることをゼ
ロ照応と呼ぶ。Further, in such a tagged document, the omitted subject, object, and the like can be supplemented by other parts. That is, in the example of the above document, the element of “self-regulating” is “subject =“ pres
s ”” attribute indicates that the semantic subject is an element (in this case, a noun phrase) with the attribute “identifier =“ press ”” “some general paper and popular paper” Have been. Therefore, the complement of the subject is
"(Some general and popular newspapers) self-regulate."
Thus, the elimination of an omission by another part is called zero anaphor.
【0045】以下、本発明に係る実施の形態の文書処理
装置の具体的な動作について説明する。本実施の形態の
文書処理装置は、上述したようなタグ付けされた文書に
対して、自動要約処理を行わせるものであり、この要約
文作成の際に、代名詞や限定節の置き換え処理や、省略
された主語を補うようなゼロ照応処理を行う。Hereinafter, a specific operation of the document processing apparatus according to the embodiment of the present invention will be described. The document processing apparatus according to the present embodiment is configured to perform an automatic summarization process on a document tagged as described above. Performs a zero anaphoric process to supplement the omitted subject.
【0046】文書処理装置において文書の要約文を作成
する場合には、その文書が図1の表示部30に文書が表
示されている状態で、ユーザが入力部20を操作し、自
動要約モードに切り換える。制御部11は、この自動要
約モードに切り換えられたとき、図4に示すような自動
要約文作成プログラムの初期画面を表示して、ユーザに
よる自動要約文作成の開始操作を待つ。When the document processing apparatus creates a summary of a document, the user operates the input unit 20 while the document is displayed on the display unit 30 in FIG. Switch. When the control section 11 is switched to the automatic summary mode, the control section 11 displays an initial screen of the automatic summary statement creation program as shown in FIG. 4 and waits for the user to start the automatic summary statement creation operation.
【0047】すなわち、ユーザが上記自動要約文作成モ
ードに切り換え操作したときには、図1の制御部11
は、ハードディスク装置33に保存されている自動要約
文作成プログラムを起動し、表示部30を制御し、図4
に示すような自動要約文作成プログラムの初期画面を表
示させる。この例においては、表示部31に表示される
ウィンドウ190は、文書の名称が表示される文書名表
示部191、キーワードが入力されるキーワード入力部
192、文書の要約文を作成するための実行ボタンであ
る要約文作成実行ボタン193等が表示される表示領域
200と、文書が表示される表示領域210と、文書の
要約文が表示される表示領域220とに区分されてい
る。That is, when the user performs an operation to switch to the automatic summary sentence creation mode, the control unit 11 shown in FIG.
Starts the automatic summary sentence creation program stored in the hard disk device 33, controls the display unit 30,
Display the initial screen of the automatic summary sentence creation program as shown in (1). In this example, a window 190 displayed on the display unit 31 includes a document name display unit 191 for displaying the name of the document, a keyword input unit 192 for inputting a keyword, and an execution button for creating a summary of the document. , A display area 200 for displaying a document, a display area 210 for displaying a document, and a display area 220 for displaying a summary of the document.
【0048】表示領域200の文書名表示部191に
は、表示領域210に表示される文書の文書名等が表示
される。また、キーワード入力部192には、例えば入
力部20のキーボード等を用いて文書の要約文を作成す
るためのキーワードが入力される。要約文作成実行ボタ
ン193は、例えば入力部20のマウス等を用いて押さ
れることによって、表示領域210に表示されている文
書の要約文作成処理を実行開始するための実行ボタンで
ある。In the document name display section 191 of the display area 200, the document name of the document displayed in the display area 210 is displayed. In addition, a keyword for creating a summary of a document is input to the keyword input unit 192 using, for example, the keyboard of the input unit 20. The summary sentence creation execution button 193 is an execution button for starting execution of a summary sentence creation process for the document displayed in the display area 210 by being pressed using, for example, the mouse of the input unit 20.
【0049】表示領域210には、文書が表示される。
表示領域210の右端には、スクロールバー211と、
このスクロールバー211を上下に動かすためのボタン
212,213が設けられており、ユーザが例えば入力
部20のマウス等を用いて、スクロールバー211を上
下に直接動かしたり、ボタン212,213を押してス
クロールバー211を上下に動かすことによって、表示
領域210に表示される表示内容を縦方向にスクロール
することができる。ユーザは、入力部20を操作するこ
とによって、表示領域210に表示されている文書の一
部を選択して要約させることもでき、文書全体を要約さ
せることもできる。In the display area 210, a document is displayed.
At the right end of the display area 210, a scroll bar 211,
Buttons 212 and 213 for moving the scroll bar 211 up and down are provided. The user can directly move the scroll bar 211 up and down by using, for example, a mouse of the input unit 20 or scroll by pressing the buttons 212 and 213. By moving the bar 211 up and down, the display content displayed in the display area 210 can be scrolled in the vertical direction. By operating the input unit 20, the user can select and summarize a part of the document displayed in the display area 210, or can summarize the entire document.
【0050】表示領域220には、要約文が表示され
る。図4においては、要約文がまだ作成されていない状
態であるため、この表示領域220には、何も表示され
ていない。ユーザは、入力部20を操作することによっ
て、要約文の表示領域220の表示範囲(大きさ)を変
更することができる。具体的には、ユーザは、同図に示
す表示領域220の表示範囲(大きさ)を、例えば図5
に示すように拡大することができる。The display area 220 displays a summary sentence. In FIG. 4, nothing is displayed in display area 220 because a summary has not been created yet. The user can change the display range (size) of the display area 220 of the summary sentence by operating the input unit 20. Specifically, the user changes the display range (size) of the display area 220 shown in FIG.
It can be enlarged as shown in FIG.
【0051】文書処理装置は、ユーザが例えば入力部2
0のマウス等を用いて、要約文作成実行ボタン193を
押してオン状態とすると、CPU13の制御のもとに、
図6に示す処理を実行して要約文の作成を開始する。The document processing device allows the user to input, for example,
When the summary sentence creation execution button 193 is turned on by using a mouse 0 or the like, under the control of the CPU 13,
The process shown in FIG. 6 is executed to start creating a summary sentence.
【0052】文書から要約文を作成する処理は、文書の
内部構造に関するタグ付けに基づいて実行される。文書
処理装置においては、先に図5に示したように、ウィン
ドウ190の表示領域220の大きさを変更することが
できる。文書処理装置は、CPU13の制御のもとに、
新たにウィンドウ190が表示部31に描画されるか、
又は、表示領域220の大きさが変更された後、要約文
作成実行ボタン193が操作されたときには、表示領域
220に適合するように、ウィンドウ190の表示領域
210に少なくともその一部が表示されている文書か
ら、要約文を作成する処理を実行する。The process of creating an abstract from a document is executed based on tagging of the internal structure of the document. In the document processing apparatus, the size of the display area 220 of the window 190 can be changed as shown in FIG. The document processing device, under the control of the CPU 13,
Whether a new window 190 is drawn on the display unit 31 or
Alternatively, when the summary sentence creation execution button 193 is operated after the size of the display area 220 is changed, at least a part thereof is displayed in the display area 210 of the window 190 so as to match the display area 220. From the existing document.
【0053】まず、文書処理装置は、図6に示すよう
に、ステップS21において、CPU13の制御のもと
に、活性拡散と呼ばれる処理を行う。本実施の形態にお
いては、活性拡散により得られた中心活性値を重要度と
して採用することによって、文書の要約文を行う。すな
わち、内部構造に関するタグ付けがされた文書において
は、活性拡散を行うことによって、各エレメントに対し
て、内部構造に関するタグ付けに応じた中心活性値を付
与することができる。First, as shown in FIG. 6, the document processing apparatus performs a process called active diffusion under the control of the CPU 13 in step S21. In the present embodiment, a summary sentence of a document is performed by employing the central activity value obtained by activity diffusion as the importance. That is, in a document tagged with an internal structure, by performing active diffusion, a central activation value corresponding to the tagging with respect to the internal structure can be given to each element.
【0054】ここで、活性拡散は、中心活性値の高いエ
レメントと関わりのあるエレメントにも高い中心活性値
を与えるような処理である。すなわち、活性拡散は、照
応(anaphora;共参照(coreference))表現されたエ
レメントとその先行詞との間で中心活性値が等しくな
り、それ以外では各中心活性値が同じ値に収束してい
く。この中心活性値は、文書の内部構造に関するタグ付
けに応じて決定されるため、内部構造を考慮した文書の
分析に利用することができる。Here, the active diffusion is a process for giving a high central activity value also to an element related to an element having a high central activity value. In other words, the active diffusion means that the central activity values become equal between the element expressed in anaphora (coreference) and its antecedent, and otherwise, each central activity value converges to the same value. . Since the central activity value is determined according to tagging relating to the internal structure of the document, it can be used for analysis of the document in consideration of the internal structure.
【0055】文書処理装置は、図7に示す一連の工程を
経ることによって、活性拡散を実行する。The document processing apparatus executes active diffusion by going through a series of steps shown in FIG.
【0056】まず、文書処理装置は、図7に示すよう
に、ステップS41において、CPU13の制御のもと
に、各エレメントの初期化を行う。文書処理装置は、語
彙エレメントを除いた全てのエレメントと語彙エレメン
トとに対して中心活性値の初期値を割り当てる。例え
ば、文書処理装置は、中心活性値の初期値として、語彙
エレメントを除いた全てのエレメントに対しては“1”
を、語彙エレメントに対しては“0”を割り当てる。ま
た、文書処理装置は、各エレメントの中心活性値の初期
値に均一ではない値を予め割り当てることによって、活
性拡散の結果得られた中心活性値に、初期値の偏りを反
映させることができる。例えば、文書処理装置は、ユー
ザが関心を有するエレメントに対しては、中心活性値の
初期値を高く設定することによって、ユーザの関心を反
映した中心活性値を得ることができる。First, as shown in FIG. 7, the document processing apparatus initializes each element under the control of the CPU 13 in step S41. The document processing device assigns the initial value of the central activity value to all the elements except the vocabulary element and the vocabulary element. For example, the document processing apparatus sets the initial value of the central activity value to “1” for all elements except the vocabulary element.
And “0” is assigned to the vocabulary element. In addition, the document processing apparatus can reflect the bias of the initial value in the central activity value obtained as a result of activity diffusion by assigning a non-uniform value to the initial value of the central activity value of each element in advance. For example, the document processing apparatus can obtain a central activity value reflecting the interest of the user by setting a high initial value of the central activity value for an element of interest to the user.
【0057】エレメント間で参照・被参照による係り受
けの関係にあるリンクである参照・被参照リンクと、そ
れ以外のリンクである通常リンクとに関しては、エレメ
ントを連結するリンクの端点の端点活性値を“0”に設
定する。文書処理装置は、このようにして付与した端点
活性値の初期値を例えばRAM14に記憶させる。Regarding the reference / referenced link which is a link having a dependency relationship by reference / reference between elements and the normal link which is another link, the end point activation value of the end point of the link connecting the elements. Is set to “0”. The document processing apparatus stores the initial value of the end point activation value thus assigned, for example, in the RAM 14.
【0058】ここで、エレメントとエレメントの連結構
造の一例を図8に示す。同図においては、文書を構成す
るエレメントとリンクの構造の一部として、エレメント
Ei及びエレメントEjが示されている。エレメントEi
とエレメントEjとは、それぞれ、中心活性値ei,ej
を有し、リンクLijにて接続されている。リンクLijの
エレメントEiに接続する端点は、Tijであり、エレメ
ントEjに接続する端点は、Tjiである。エレメントEi
は、リンクLijにより接続されるエレメントEjの他
に、リンクLik,Lil及びLimにより図示しないエレ
メントEk,El及びEmにそれぞれ接続している。エレ
メントEjは、リンクLjiにより接続されるエレメント
Eiの他に、リンクLjp,Ljq及びLjrにより図示しな
いエレメントEp,Eq及びErにそれぞれ接続してい
る。FIG. 8 shows an example of an element-to-element connection structure. In the figure, an element Ei and an element Ej are shown as a part of the structure of the element and the link that constitute the document. Element E i
And the element E j are the central activation values e i and e j , respectively.
And are connected by a link L ij . The end point of the link L ij connected to the element E i is T ij , and the end point of the link L ij connected to the element E j is T ji . Element E i
, In addition to the elements E j, which is connected by a link L ij, the link L ik, L il and L im element E k (not shown) by, respectively connected to the E l and E m. The element E j is connected to elements E p , E q, and Er ( not shown) by links L jp , L jq, and L jr , respectively, in addition to the element E i connected by the link L ji .
【0059】続いて、文書処理装置は、図7中のステッ
プS42において、CPU13の制御のもとに、文書を
構成するエレメントEiを計数するカウンタの初期化を
行う。すなわち、文書処理装置は、エレメントを計数す
るカウンタのカウンタ値iを“1”に設定する。このこ
とにより、カウンタは、第1番目のエレメントE1を参
照していることになる。[0059] Then, the document processing device, in step S42 in FIG. 7, under the control of the CPU 13, performs initialization of a counter for counting the elements E i of a document. That is, the document processing apparatus sets the counter value i of the counter for counting the elements to “1”. Thus, the counter will be that refers to the first element E 1.
【0060】続いて、文書処理装置は、ステップS43
において、CPU13の制御のもとに、カウンタが参照
するエレメントについて、新たな中心活性値を計算する
リンク処理を実行する。このリンク処理については、さ
らに後述する。Subsequently, the document processing device proceeds to step S43.
, Under the control of the CPU 13, a link process for calculating a new central activation value is executed for the element referred to by the counter. This link processing will be further described later.
【0061】続いて、文書処理装置は、ステップS44
において、CPU13の制御のもとに、文書中の全ての
エレメントについて新たな中心活性値の計算が完了した
か否かを判断する。Subsequently, the document processing device proceeds to step S44.
, Under the control of the CPU 13, it is determined whether or not the calculation of a new central activation value has been completed for all elements in the document.
【0062】ここで、文書処理装置は、文書中の全ての
エレメントについて新たな中心活性値の計算が完了した
ことを判断した場合には、ステップS45へと処理を移
行し、一方、文書中の全てのエレメントについて新たな
中心活性値の計算が完了していないことを判断した場合
には、ステップS47へと処理を移行する。Here, when the document processing device determines that the calculation of the new central activation value has been completed for all the elements in the document, the process proceeds to step S45, while the process proceeds to step S45. If it is determined that the calculation of the new central activity value has not been completed for all the elements, the process proceeds to step S47.
【0063】具体的には、文書処理装置は、CPU13
の制御のもとに、カウンタのカウンタ値iが、文書が含
むエレメントの総数に達したか否かを判断する。そし
て、文書処理装置は、カウンタのカウンタ値iが、文書
が含むエレメントの総数に達したことを判断した場合に
は、全てのエレメントが計算済みであるものとして、ス
テップS45へと処理を移行する。一方、文書処理装置
は、カウンタのカウンタ値iが、文書が含むエレメント
の総数に達していないことを判断した場合には、全ての
エレメントについて計算が終了していないものとしてス
テップS47へと処理を移行する。More specifically, the document processing device is a CPU 13
Under the control of, it is determined whether or not the counter value i of the counter has reached the total number of elements included in the document. If the document processing apparatus determines that the counter value i of the counter has reached the total number of elements included in the document, it is determined that all elements have been calculated, and the process proceeds to step S45. . On the other hand, when the document processing apparatus determines that the counter value i of the counter has not reached the total number of elements included in the document, it is determined that the calculation has not been completed for all elements, and the process proceeds to step S47. Transition.
【0064】文書処理装置は、カウンタのカウンタ値i
が、文書が含むエレメントの総数に達していないことを
判断した場合には、ステップS47において、CPU1
3の制御のもとに、カウンタのカウント値iを“1”だ
けインクリメントさせ、カウンタのカウント値を“i+
1”とする。このことにより、カウンタは、i+1番目
のエレメント、すなわち次のエレメントを参照する。そ
して、文書処理装置は、ステップS43へと処理を移行
し、端点活性値の計算及びこれに続く一連の行程が、次
のi+1番目のエレメントについて実行される。The document processing apparatus sets the counter value i
Determines that the total number of elements included in the document has not been reached, in step S47
Under the control of 3, the count value i of the counter is incremented by “1” and the count value of the counter is incremented by “i +
As a result, the counter refers to the (i + 1) th element, that is, the next element. Then, the document processing apparatus shifts the processing to step S43, calculates the endpoint activation value, and follows the calculation. A series of steps is performed for the next (i + 1) th element.
【0065】また、文書処理装置は、カウンタのカウン
タ値iが、文書が含むエレメントの総数に達したことを
判断した場合には、ステップS45において、CPU1
3の制御のもとに、文書に含まれる全てのエレメントの
中心活性値の変化分、すなわち新たに計算された中心活
性値の元の中心活性値に対する変化分について平均値を
計算する。When the document processing device determines that the counter value i of the counter has reached the total number of elements included in the document, the document processing device determines in step S45 that the CPU 1
Under the control of 3, the average value is calculated for the change in the central activity value of all the elements included in the document, that is, the change in the newly calculated central activity value from the original central activity value.
【0066】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された元の中心活性値と新
たに計算した中心活性値を、文書に含まれる全てのエレ
メントについて読み出す。文書処理装置は、新たに計算
した中心活性値の元の中心活性値に対するそれぞれの変
化分の総和を文書に含まれるエレメントの総数で除する
ことにより、全てのエレメントの中心活性値の変化分の
平均値を計算する。文書処理装置は、このように計算し
た全てのエレメントの中心活性値の変化分の平均値を、
例えばRAM14に記憶させる。Under the control of the CPU 13, the document processing apparatus reads, for example, the original center activity value and the newly calculated center activity value stored in the RAM 14 for all the elements included in the document. The document processing apparatus divides the sum of the respective changes of the newly calculated central activity value from the original central activity value by the total number of elements included in the document, thereby obtaining the change in the central activity value of all the elements. Calculate the average value. The document processing device calculates the average value of the change in the central activity value of all the elements calculated in this way,
For example, it is stored in the RAM 14.
【0067】そして、文書処理装置は、ステップS46
において、CPU13の制御のもとに、ステップS45
で計算した全てのエレメントの中心活性値の変化分の平
均値が、予め設定された閾値以内であるか否かを判断す
る。そして、文書処理装置は、この変化分が閾値以内で
あると判断した場合には、この一連の行程を終了する。
一方、文書処理装置は、変化分が閾値以内でないと判断
した場合には、ステップS42へと処理を移行し、カウ
ンタのカウント値iを“1”に設定して文書のエレメン
トの中心活性値を計算する一連の行程を再び実行する。
文書処理装置においては、これらのステップS42乃至
ステップS46のループが繰り返される毎に、変化分
は、徐々に減少する。Then, the document processing apparatus proceeds to step S46.
In step S45 under the control of the CPU 13,
It is determined whether or not the average value of the change in the central activity values of all the elements calculated in the above is within a preset threshold value. Then, when the document processing device determines that the change is within the threshold, the document processing apparatus ends the series of steps.
On the other hand, when the document processing device determines that the change is not within the threshold, the process proceeds to step S42, where the count value i of the counter is set to “1” and the central activation value of the element of the document is set. Execute the series of steps to be calculated again.
In the document processing apparatus, each time the loop of steps S42 to S46 is repeated, the amount of change gradually decreases.
【0068】文書処理装置は、このようにして活性拡散
を行うことができる。つぎに、この活性拡散を行うため
にステップS43において実行されるリンク処理につい
て図9を参照して説明する。なお、同図に示すフローチ
ャートは、1つのエレメントEiに対する処理を示した
ものであるが、この処理は、全てのエレメントに対して
行われるものである。The document processing apparatus can perform active diffusion in this way. Next, a link process executed in step S43 to perform this active diffusion will be described with reference to FIG. The flowchart shown in the figure, but shows the processing for one element E i, this processing is to be performed for all elements.
【0069】まず、文書処理装置は、図9に示すよう
に、ステップS51において、CPU13の制御のもと
に、文書を構成する1つのエレメントEiと一端が接続
されたリンクを計数するカウンタの初期化を行う。すな
わち、文書処理装置は、リンクを計数するカウンタのカ
ウント値jを“1”に設定する。このカウンタは、エレ
メントEiと接続された第1番目のリンクLijを参照す
ることになる。[0069] First, the document processing apparatus, as shown in FIG. 9, in step S51, under the control of the CPU 13, the counter for counting the links one element E i and one end of a document is connected Perform initialization. That is, the document processing apparatus sets the count value j of the counter for counting links to “1”. This counter will refer to the first link L ij connected to element E i .
【0070】続いて、文書処理装置は、ステップS52
において、CPU13の制御のもとに、エレメントEi
とEjを接続するリンクLijについて、関係属性のタグ
を参照することによって、そのリンクLijが通常リンク
であるか否かを判断する。文書処理装置は、リンクLij
が、語に対応する語彙エレメント、文に対応する文エレ
メント、段落に対応する段落エレメント等の間の関係を
示す通常リンクと、参照・被参照による係り受けの関係
を示す参照リンクのいずれであるかを判断する。文書処
理装置は、リンクLijが通常リンクであると判断した場
合には、ステップS53へと処理を移行し、リンクLij
が参照リンクであると判断した場合には、ステップS5
4へと処理を移行する。Subsequently, the document processing device proceeds to step S52.
, Under the control of the CPU 13, the elements E i
It is determined whether or not the link L ij is a normal link by referring to the tag of the relation attribute for the link L ij connecting the link L ij and E j . The document processing device uses the link L ij
Is a normal link indicating the relationship between the vocabulary element corresponding to the word, the sentence element corresponding to the sentence, the paragraph element corresponding to the paragraph, and the like, and a reference link indicating the dependency relationship by reference / reference. Judge. When the document processing device determines that the link L ij is a normal link, the document processing device shifts the processing to step S53 and executes the link L ij
If it is determined that is a reference link, step S5
The processing shifts to step 4.
【0071】文書処理装置は、リンクLijが通常リンク
であると判断した場合には、ステップS53において、
エレメントEiの通常リンクLijに接続された端点Tij
の新たな端点活性値を計算する処理を行う。When the document processing device determines that the link L ij is a normal link, in step S 53,
An end point T ij connected to the normal link L ij of the element E i
To calculate a new end point activity value.
【0072】このステップS53では、ステップS52
における判別により、リンクLijが通常リンクであるこ
とが明らかになっている。エレメントEiの通常リンク
Lijに接続される端点Tijの新たな端点活性値tijは、
エレメントEjの端点活性値のうち、リンクLij以外の
リンクに接続する全ての端点Tjp,Tjq,Tjrの端点活
性値tjp、tjq,tjrと、エレメントEiがリンクLij
により接続されるエレメントEjの中心活性値ejとを加
算し、この加算で得た値を文書に含まれるエレメントの
総数で除することにより求められる。In step S53, step S52
It is clear from the determination in that the link Lij is a normal link. The new endpoint activation value t ij of the endpoint T ij connected to the normal link L ij of the element E i is:
Of the end point activation values of the element E j, the end point activation values t jp , t jq , t jr of all the end points T jp , T jq , T jr connected to the links other than the link L ij , and the element E i is the link L ij
And the central activity value e j of the element E j connected by the following formula, and the value obtained by this addition is divided by the total number of elements included in the document.
【0073】文書処理装置は、CPU13の制御のもと
に、例えばRAM14から必要な端点活性値及び中心活
性値を読み出す。文書処理装置は、読み出された端点活
性値及び中心活性値について、上述のようにその通常リ
ンクと接続された端点の新たな端点活性値を計算する。
そして、文書処理装置は、このように計算した新たな端
点活性値を、例えばRAM14に記憶させる。Under the control of the CPU 13, the document processing apparatus reads necessary endpoint activation values and central activation values from the RAM 14, for example. The document processing device calculates a new endpoint activity value of the endpoint connected to the normal link as described above for the endpoint activity value and the center activity value that have been read.
Then, the document processing apparatus stores the new endpoint activation value calculated in this way in, for example, the RAM 14.
【0074】一方、文書処理装置は、リンクLijが通常
リンクでないと判断した場合には、ステップS54にお
いて、エレメントEiの参照リンクに接続された端点T
ijの端点活性値を計算する処理を行う。On the other hand, when the document processing device determines that the link L ij is not a normal link, in step S54, the end point T connected to the reference link of the element E i is determined.
A process for calculating the endpoint activity value of ij is performed.
【0075】このステップS54では、ステップS52
における判別により、リンクLijが参照リンクであるこ
とが明らかになっている。エレメントEiの参照リンク
Lijに接続される端点Tijの端点活性値tijは、エレメ
ントEjの端点活性値のうち、リンクLijを除いたリン
クに接続される全ての端点Tjp,Tjq,tjrの端点活性
値tjp,tjq,tjrと、エレメントEiがリンクLijに
より接続されるエレメントEjの中心活性値ejとを加算
することにより求められる。In step S54, step S52
It is clear from the determination in that the link Lij is a reference link. Point activation values t ij endpoint T ij that is connected to the reference link L ij of the element E i, of the end-point activation value of the element E j, all endpoints T uk which is connected to the link, excluding the link L ij, T jq, point activation value t uk of t jr, is obtained by adding t jq, and t jr, a central activation value e j of the element E j of the element E i is connected by a link L ij.
【0076】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された端点活性値及び中心
活性値から、必要な端点活性値及び中心活性値を読み出
す。文書処理装置は、読み出された端点活性値及び中心
活性値を用いて、上述のように参照リンクと接続された
新たな端点活性値を計算する。そして、文書処理装置
は、このように計算した端点活性値を、例えばRAM1
4に記憶させる。Under the control of the CPU 13, the document processing apparatus reads necessary endpoint activation values and central activation values from, for example, the endpoint activation values and the central activation values stored in the RAM 14. The document processing apparatus calculates a new endpoint activity value connected to the reference link as described above using the read endpoint activity value and the central activity value. Then, the document processing apparatus stores the calculated endpoint activation value in the RAM 1
4 is stored.
【0077】これらのステップS53における通常リン
クの処理及びステップS54における参照リンクの処理
は、ステップS52からステップS55に至り、ステッ
プS57を介してステップS52に戻るループに示すよ
うに、カウント値iにより参照されているエレメントE
iに接続される全てのリンクLijに対して実行される。
なお、ステップS57では、エレメントEiに接続され
るリンクを計数するカウント値jをインクリメントして
いる。The processing of the normal link in step S53 and the processing of the reference link in step S54 go from step S52 to step S55, and are referred to by the count value i as shown in a loop returning to step S52 via step S57. Element E
This is executed for all the links L ij connected to i .
In step S57, the are increments the count value j for counting the links connected to the element E i.
【0078】文書処理装置は、これらのステップS53
又はステップS54の処理を行った後、ステップS55
において、CPU13の制御のもとに、エレメントEi
に接続される全てのリンクについて端点活性値が計算さ
れたか否かを判別する。そして、文書処理装置は、全て
のリンクについて端点活性値が計算されていると判断し
た場合には、ステップS56の処理へと移行し、全ての
リンクについて端点活性値が計算されていないと判断し
た場合には、ステップS57へと処理を移行する。The document processing apparatus performs these steps S53
Alternatively, after performing the processing of step S54, step S55
, Under the control of the CPU 13, the elements E i
It is determined whether or not the endpoint activation values have been calculated for all the links connected to. If the document processing apparatus determines that the end point activation values have been calculated for all the links, the process proceeds to step S56, and determines that the end point activation values have not been calculated for all the links. In this case, the process proceeds to step S57.
【0079】ここで、文書処理装置は、全てのリンクに
ついて端点活性値が計算されていると判断した場合に
は、ステップS56において、CPU13の制御のもと
に、エレメントEiの中心活性値eiの更新を実行する。Here, if the document processing apparatus determines that the end point activation values have been calculated for all the links, in step S 56, the central activation value e of the element E i is controlled under the control of the CPU 13. Perform i update.
【0080】エレメントEi の中心活性値ei の新たな
値、すなわち更新値は、エレメントEiの現在の中心活
性値eiと、エレメントEiの全ての端点の新たな端点活
性値との和であるei’=ei+Σtj’をとることによ
り求められる。ここで、プライム“’”は、新たな値と
いう意味である。このように、新たな中心活性値は、そ
のエレメントの元の中心活性値に、そのエレメントの端
点の新たな端点活性値の総和に加えることにより得られ
る。[0080] new value of central activation value e i of the element E i, i.e. updated value is currently a central activation value e i of the element E i, the new end-point activation values of all of the end points of the element E i It is obtained by taking the sum e i '= e i + { t j '. Here, the prime “′” means a new value. Thus, the new central activity value is obtained by adding the element's original central activity value to the sum of the new endpoint activity values for the endpoints of the element.
【0081】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された端点活性値及び中心
活性値から必要な端点活性値を読み出す。文書処理装置
は、上述したような計算を実行し、そのエレメントEi
の中心活性値eiを算出する。そして、文書処理装置
は、計算した新たな中心活性値eiを例えばRAM14
に記憶させる。Under the control of the CPU 13, the document processing apparatus reads necessary end point activation values from the end point activation values and the center activation values stored in the RAM 14, for example. The document processing device performs the calculations as described above and its elements E i
Is calculated. Then, the document processing apparatus stores the calculated new central activation value e i in , for example, the RAM 14.
To memorize.
【0082】このようにして、文書処理装置は、文書中
の各エレメントについて、新たな中心活性値を計算す
る。そして、文書処理装置は、このようにして図6中の
ステップS21における活性拡散を実行する。As described above, the document processing apparatus calculates a new central activation value for each element in the document. Then, the document processing apparatus executes the active diffusion in step S21 in FIG.
【0083】続いて、文書処理装置は、図6中のステッ
プS22において、CPU13の制御のもとに、先に図
4に示した表示部30に表示されているウィンドウ19
0の表示領域220の大きさ、すなわちこの表示領域2
20に表示可能な最大文字数をWsと設定する。また、
文書処理装置は、CPU13の制御のもとに、要約文S
を初期化して初期値S0=””と設定する。これは、要
約文に何も文字列が存在していないことを示す。文書処
理装置は、このように設定した、表示領域220に表示
可能な最大文字数Ws及び要約文Sの初期値S0を、例え
ばRAM14に記憶させる。Subsequently, in step S22 in FIG. 6, the document processing apparatus, under the control of the CPU 13, sets the window 19 previously displayed on the display unit 30 shown in FIG.
0, that is, the size of the display area 220,
The maximum number of characters that can be displayed is set to W s to 20. Also,
The document processing device, under the control of the CPU 13,
Is initialized to set an initial value S 0 = “”. This indicates that there is no character string in the summary sentence. Document processing device, thus set, the initial value S 0 of the maximum number of characters W s and summary S can be displayed in the display area 220, is stored in, for example, the RAM 14.
【0084】続いて、文書処理装置は、ステップS23
において、CPU13の制御のもとに、要約文の骨格の
順次での作成をカウントするカウンタのカウント値iを
“1”に設定する。すなわち、文書処理装置は、カウン
ト値について、i=1と設定する。文書処理装置は、こ
のように設定したカウント値iを例えばRAM14に記
憶させる。Subsequently, the document processing device proceeds to step S23.
, Under the control of the CPU 13, the count value i of a counter that counts the sequential creation of the skeleton of the summary sentence is set to “1”. That is, the document processing apparatus sets i = 1 for the count value. The document processing apparatus stores the count value i set in this way in, for example, the RAM 14.
【0085】続いて、文書処理装置は、ステップS24
において、CPU13の制御のもとに、カウンタのカウ
ント値iについて、要約文作成対照の文章からi番目に
平均中心活性値の高い文の骨格を抽出する。ここで、平
均中心活性値とは、1つの文を構成する各エレメントの
中心活性値を平均したものである。文書処理装置は、例
えばRAM14に記憶させた要約文Si-1を読み出し、
この要約文Si-1に対して抽出した文の骨格の文字列を
加えて、要約文Siとする。そして、文書処理装置は、
このようにして得た要約文Siを、例えばRAM14に
記憶させる。同時に、文書処理装置は、文の骨格に含ま
れないエレメントの中心活性値順のリストliを作成
し、このリストliを例えばRAM14に記憶させる。Subsequently, the document processing device proceeds to step S24.
Then, under the control of the CPU 13, for the count value i of the counter, the skeleton of the sentence having the i-th highest average central activity value is extracted from the sentence to be summarized. Here, the average central activity value is the average of the central activity values of the elements constituting one sentence. The document processing device reads, for example, the summary sentence S i-1 stored in the RAM 14, and
Adding strings skeleton of the extracted sentence against the summary S i-1, and summary S i. Then, the document processing device:
Such a summary S i thus obtained, is stored in, for example, the RAM 14. At the same time, the document processing device, creates a list l i the central activation value order of the elements that are not included in the backbone of the sentence, and stores the list l i for example the RAM 14.
【0086】すなわち、このステップS24において
は、文書処理装置は、CPU13の制御のもとに、活性
拡散の結果を用いて、平均中心活性値の大きい順に文を
選択し、選択された文の骨格を抽出する。文の骨格は、
文から抽出した必須エレメントにより構成される。必須
エレメントになり得るものは、エレメントの主辞(hea
d)と、主語(subject)、目的語(object)、間接目的
語(indirect object)、所有者(posessor)、原因(c
ause)、条件(condition)又は比較(comparison)の
関係属性を有するエレメントと、等位構造とされた関連
するエレメントが必須エレメントのときには、その等位
構造に直接含まれるエレメントとである。文書処理装置
は、文の必須エレメントをつなげて文の骨格を生成し、
要約文に加える。That is, in step S24, the document processing apparatus selects sentences in descending order of the average central activity value using the result of the activity diffusion under the control of the CPU 13, and selects the skeleton of the selected sentence. Is extracted. The skeleton of the sentence is
It consists of required elements extracted from the sentence. Required elements can be element heads (hea
d) and subject, object, indirect object, owner (posessor), cause (c
an element having a relation attribute of “ause”, “condition” or “comparison”, and an element directly included in the coordination structure when the related element having the coordination structure is an essential element. The document processing apparatus connects the essential elements of the sentence to generate a sentence skeleton,
Add to the summary sentence.
【0087】続いて、文書処理装置は、ステップS25
において、CPU13の制御のもとに、要約文Siの長
さ、すなわち文字数が、ウィンドウ190の表示領域2
20の最大文字数Wsよりも多いか否かを判断する。Subsequently, the document processing device proceeds to step S25.
Under the control of the CPU 13, the length of the summary sentence S i , that is, the number of characters is displayed in the display area 2 of the window 190.
It is determined whether or not more than the maximum number of characters W s of 20.
【0088】ここで、文書処理装置は、要約文Siの文
字数が最大文字数Wsよりも多いと判断した場合には、
ステップS30において、CPU13の制御のもとに、
要約文Si-1を最終的な要約文として設定し、一連の処
理を終了する。なお、この場合には、要約文Si=S0=
“”を出力するため、要約文は、表示領域220に表示
されないことになる。Here, when the document processing apparatus determines that the number of characters of the summary sentence S i is larger than the maximum number of characters W s ,
In step S30, under the control of the CPU 13,
The summary sentence S i-1 is set as the final summary sentence, and the series of processing ends. In this case, the summary sentence S i = S 0 =
Since “” is output, the summary sentence is not displayed in the display area 220.
【0089】一方、文書処理装置は、要約文Siの文字
数が最大文字数Wsよりも多くないと判断した場合に
は、ステップS26の処理へと移行し、CPU13の制
御のもとに、i+1番目に平均中心活性値が高い文の平
均中心活性値と、ステップS24で作成したリストli
のエレメントの中で最も中心活性値が高いエレメントの
中心活性値とを比較する。そして、文書処理装置は、i
+1番目に平均中心活性値が高い文の平均中心活性値
が、リストliのエレメントの中で最も中心活性値が高
いエレメントの中心活性値よりも高いと判断した場合に
は、ステップS27へと処理を移行する。一方、文書処
理装置は、i+1番目に平均中心活性値が高い文の平均
中心活性値が、リストliのエレメントの中で最も中心
活性値が高いエレメントの中心活性値よりも高くないと
判断した場合には、ステップS28へと処理を移行す
る。On the other hand, if the document processing device determines that the number of characters of the abstract sentence S i is not larger than the maximum number of characters W s , the process proceeds to step S 26, and under the control of the CPU 13, i + 1 The average central activity value of the sentence with the second highest average central activity value and the list l i created in step S24
Is compared with the center activity value of the element having the highest center activity value among the elements. Then, the document processing device sets i
If it is determined that the average central activity value of the sentence having the + 1st average central activity value is higher than the central activity value of the element having the highest central activity value among the elements of the list l i , the process proceeds to step S27. Transfer processing. On the other hand, the document processing apparatus has determined that the average central activity value of the sentence having the (i + 1) th average central activity value is not higher than the central activity value of the element having the highest central activity value among the elements of the list l i . In this case, the process proceeds to step S28.
【0090】文書処理装置は、i+1番目に平均中心活
性値が高い文の平均中心活性値が、リストliのエレメ
ントの中で最も中心活性値が高いエレメントの中心活性
値よりも高いと判断した場合には、ステップS27にお
いて、CPU13の制御のもとに、カウンタのカウント
値iを“1”だけインクリメントさせ、ステップS24
へと処理を戻す。The document processing apparatus determines that the average central activity value of the sentence having the (i + 1) -th highest average central activity value is higher than the central activity value of the element having the highest central activity value among the elements of the list l i . In this case, in step S27, under the control of the CPU 13, the count value i of the counter is incremented by "1", and in step S24
Return processing to
【0091】また、文書処理装置は、i+1番目に平均
中心活性値が高い文の平均中心活性値が、リストliの
エレメントの中で最も中心活性値が高いエレメントの中
心活性値よりも高くないと判断した場合には、ステップ
S28において、CPU13の制御のもとに、リストl
iのエレメントの中で最も中心活性値の高いエレメント
eを要約文Siに加えてSSiを生成し、さらに、エレメ
ントeをリストliから削除する。そして、文書処理装
置は、このようにして生成した要約文SSiを例えばR
AM14に記憶させる。In the document processing apparatus, the average central activity value of the sentence having the (i + 1) th average central activity value is not higher than the central activity value of the element having the highest central activity value among the elements of the list l i. If it is determined that the list 1 has been entered under the control of the CPU 13 in step S28.
The element e having the highest central activity value among the elements i is added to the summary sentence S i to generate SS i , and the element e is deleted from the list l i . Then, the document processing device converts the summary sentence SS i thus generated into, for example, R
It is stored in AM14.
【0092】続いて、文書処理装置は、ステップS29
において、CPU13の制御のもとに、要約文SSiの
文字数がウィンドウ190の表示領域220の最大文字
数Wsよりも多いか否かを判別する。文書処理装置は、
要約文SSiの文字数が最大文字数Wsよりも多くないと
判別した場合には、ステップS26からの処理を繰り返
す。一方、文書処理装置は、要約文SSiの文字数が最
大文字数Wsよりも多いと判別した場合には、ステップ
S31において、CPU13の制御のもとに、要約文S
iを最終的な要約文として設定し、表示領域220に表
示して一連の処理を終了する。このようにして、文書処
理装置は、最大文字数Wsよりも多くならないように要
約文を生成する。Subsequently, the document processing device proceeds to step S29.
In, under the control of the CPU 13, the number of characters in summary SS i it is determined whether or not more than the maximum number of characters W s of the display area 220 of the window 190. The document processing device
If the number of characters in summary SS i is determined to not more than the maximum number of characters W s repeats the processing from step S26. On the other hand, the document processing device, when the number of characters in summary SS i is determined to greater than the maximum number of characters W s, in step S31, under the control of the CPU 13, summary S
i is set as the final summary sentence, displayed in the display area 220, and the series of processing ends. In this way, the document processing apparatus generates a summary so as not more than the maximum number of characters W s.
【0093】文書処理装置は、このような一連の処理を
行うことによって、タグ付けされた文書を要約して要約
文を作成することができる。文書処理装置は、例えば図
4に示した文書を要約した場合には、図10に示すよう
な要約文を作成し、表示範囲の表示領域220に表示す
る。By performing such a series of processing, the document processing apparatus can summarize a tagged document and create a summary sentence. When, for example, the document shown in FIG. 4 is summarized, the document processing apparatus creates a summary sentence as shown in FIG. 10 and displays it in the display area 220 of the display range.
【0094】すなわち、文書処理装置は、「TCP/IPの歴
史はARPANETを抜きにして語ることはできない。ARPANET
は1969年北米西海岸の4個所の大学、研究機関のホスト
コンピュータを50kbpsの回線で結んだ小規模なネットワ
ークからARPANETは出発した。当時は1964年にメインフ
レームの汎用コンピュータシリーズが開発された。この
時代背景を考えると、将来のコンピュータ通信の最盛を
見越したこのようなプロジェクトは、まさに米国ならで
はのものであったといえるだろう。」という要約文を作
成し、表示領域220に表示する。That is, the document processing apparatus states, "The history of TCP / IP cannot be described without ARPANET.
In 1969, ARPANET departed from a small network connecting host computers of four universities and research institutes on the west coast of North America with 50 kbps lines. At that time, a general-purpose computer series of mainframes was developed in 1964. Given this historical background, such a project that anticipated the future of computer communications could be said to have been unique to the United States. Is created and displayed in the display area 220.
【0095】文書処理装置においては、ユーザは、文書
の全文章を一読する代わりに、この要約文を読むこと
で、文章の概要を理解し、この文章が所望する情報であ
るか否かを判定することができる。In the document processing apparatus, instead of reading the entire text of the document, the user can read the summary to understand the outline of the text and determine whether or not the text is the desired information. can do.
【0096】なお、文書処理装置においては、文書中の
エレメントに対して重要度を付与する方法としては、必
ずしも上述したような活性拡散を用いる必要はなく、例
えば、文書中に出現する単語の重みの総和を文書の重要
度とする方法でもよい。また、重要度の付与方法は、こ
れらの方法以外のものを利用することもできる。さら
に、表示領域200のキーワード入力部192にキーワ
ードを入力することによって、そのキーワードに基づい
た重要度の設定を行うこともできる。In the document processing apparatus, as a method of assigning importance to elements in a document, it is not always necessary to use active diffusion as described above. For example, the weight of words appearing in a document may be weighted. May be used as the importance of the document. Further, as a method of assigning importance, methods other than these methods can be used. Further, by inputting a keyword into the keyword input section 192 of the display area 200, it is possible to set the importance based on the keyword.
【0097】さて、文書処理装置は、先に図5に示した
ように、表示部31に表示されるウィンドウ190の表
示領域220の表示範囲を拡大することができるが、作
成した要約文が表示領域220に表示されている状態に
おいて、表示領域220の表示範囲を変更すると、その
表示範囲に応じて、要約文の情報量を変更することがで
きる。Now, the document processing apparatus can enlarge the display range of the display area 220 of the window 190 displayed on the display unit 31 as shown in FIG. When the display range of the display area 220 is changed in the state where the display is displayed in the area 220, the information amount of the summary sentence can be changed according to the display range.
【0098】この場合、文書処理装置は、CPU13の
制御のもとに、ユーザが入力部20を操作することに対
応して、表示部31に表示されたウィンドウ190の表
示領域220の表示範囲が変更されるまで待機する。そ
して、文書処理装置は、表示領域220の表示範囲が変
更されると、CPU13の制御のもとに、先に図6に示
した一連の処理と同様の処理を行い、表示領域220の
表示範囲に対応した要約文を作成する。In this case, under the control of the CPU 13, the document processing apparatus changes the display range of the display area 220 of the window 190 displayed on the display unit 31 in response to the user operating the input unit 20. Wait for the change. When the display range of the display area 220 is changed, the document processing apparatus performs the same processing as the series of processing shown in FIG. Create a summary sentence corresponding to.
【0099】文書処理装置は、このようにして、表示領
域220の表示範囲に応じた要約文を新たに作成するこ
とができる。例えば、文書処理装置は、ユーザが入力部
20のマウスをドラッグ操作することにより表示領域2
20の表示範囲を拡大すると、より詳細な要約文を新た
に作成し、図11に示すように、新たな要約文をウィン
ドウ190の表示領域220に表示する。In this way, the document processing apparatus can newly create a summary according to the display range of the display area 220. For example, the document processing apparatus displays the display area 2 by dragging the mouse of the input unit 20 by the user.
When the display range 20 is expanded, a more detailed summary is newly created, and a new summary is displayed in the display area 220 of the window 190 as shown in FIG.
【0100】すなわち、文書処理装置は、「TCP/IPの歴
史はARPANETを抜きにして語ることはできない。ARPANET
はアメリカ国防省DODの国防高等研究計画局がスポンサ
ーとなって構築されてきた、実験および研究用のパケッ
ト交換ネットワークである。1969年北米西海岸の4個所
の大学、研究機関のホストコンピュータを50kbpsの回線
で結んだきわめて小規模なネットワークからARPANETは
出発した。当時は1945年に世界初のコンピュータである
ENIACがペンシルバニア大学で開発され、1964年にはじ
めてICを理論素子として実装したメインフレームの汎用
コンピュータシリーズが開発され、やっとコンピュータ
が産声をあげたばかりあった。この時代背景を考える
と、将来のコンピュータ通信の最盛を見越したこのよう
なプロジェクトは、まさに米国ならではのものであった
といえるだろう。」という要約文を作成し、表示領域2
20に表示する。That is, the document processing apparatus states, "The history of TCP / IP cannot be described without ARPANET.
Is an experimental and research packet-switched network sponsored by the U.S. Department of Defense DOD's Defense Advanced Research Projects Agency. In 1969, ARPANET departed from a very small network connecting host computers of four universities and research institutes on the west coast of North America with 50 kbps lines. At that time it was the world's first computer in 1945
ENIAC was developed at the University of Pennsylvania, and in 1964 the first mainframe general-purpose computer series that implemented ICs as theoretical elements was developed. Given this historical background, such a project that anticipated the future of computer communications could be said to have been unique to the United States. Is created, and the display area 2
20 is displayed.
【0101】このように、文書処理装置においては、表
示された要約文が簡略すぎて文書の概略を把握すること
ができない場合、ユーザは、表示領域220の表示範囲
を拡大することで、より多くの情報量を有するより詳細
な要約文を参照することができる。As described above, in the document processing device, when the displayed summary is too simple to grasp the outline of the document, the user can increase the display range of the display area 220 to increase the A more detailed summary sentence having the information amount of can be referred to.
【0102】ここで、文書処理装置は、このようにして
文書の要約文を作成する際に、その要約文中に、代名詞
や限定節が要約文に含まれる場合には置き換えを行い、
また主語や目的語等が省略されている場合には対応する
主語や目的語等を補うような上述したゼロ照応の処理を
行っている。Here, when the document processing apparatus prepares the summary sentence of the document in this manner, if the summary sentence includes a pronoun or a restrictive clause in the summary sentence, it performs replacement.
When the subject, object, and the like are omitted, the above-described zero anaphoric processing is performed to supplement the corresponding subject, object, and the like.
【0103】先ず、この代名詞等の置き換えやゼロ照応
の具体例について、次のような文書を参照しながら説明
する。First, a specific example of the replacement of the pronoun and the like and the zero anaphor will be described with reference to the following document.
【0104】「仕事について。"About work.
【0105】わたしは今の仕事があまり好きではない。
しかし、それをやらなければならない。」この文書のタ
グ付けの例は、次のようになる。I do not like my current job very much.
But you have to do it. An example of tagging this document would look like this:
【0106】<文書> <タイトル><形容動詞句 関係=“目的語”><名詞
句>仕事</名詞句>に</形容動詞句>ついて</タ
イトル> <段落> <文><形容動詞句 関係=“主語”><名詞句 識別
子=“識別子1”>わたし</名詞句>は</形容動詞
句><形容動詞句 関係=“目的語”><名詞句識別子
=“識別子0”><形容動詞句>今の</形容動詞句>
仕事</名詞句>が</形容動詞句><動詞><形容動
詞句 関係=“程度”>あまり</形容動詞句><動詞
>好きではない</動詞></動詞>。</文><文>
<形容動詞句>しかし、</形容動詞句><動詞><形
容動詞句 関係=“目的語”><名詞句 参照=“識別
子0”>それ</名詞句>を</形容動詞句><動詞
主語=“識別子1”>やらなければならない</動詞>
</動詞>。</文> </段落> </文書><Document><title><adjective verb phrase Relation = "object"><nounphrase> job </ noun phrase> and </ adjective verb phrase></title><paragraph><sentence><adjective Verb phrase relation = “subject”><noun phrase identifier = “identifier 1”> I </ noun phrase> is </ adjective verb phrase><adjective verb phrase relation = “object”><noun phrase identifier = “identifier 0” "><Adjective verb phrase> now </ adjective verb phrase>
The job </ noun phrase> is </ adjective verb phrase><verb><adjective verb phrase Relationship = "degree"> not so much </ adjective verb phrase><verb> I don't like </ verb></verb>.</Sentence><sentence>
<Adjective verb phrase> However, </ adjective verb phrase><verb><adjective verb phrase relation = “object”><noun phrase reference = “identifier 0”> that </ noun phrase></ adjective verb phrase><Verb
Subject = "identifier 1"> must do </ verb>
</ Verb>. </ Sentence></paragraph></document>
【0107】この文書において、「それ」という名詞句
は、「参照=“識別子0”」という属性を有し、「識別
子=“識別子0”」を含むエレメントである「今の仕
事」という名詞句を参照している。すなわち、被参照エ
レメントである代名詞「それ」に対応する先行詞となる
参照エレメントが「今の仕事」である。従って、要約文
中に名詞句「それ」が含まれるにも拘わらず名詞句「今
の仕事」が含まれていない場合には、要約文中の「そ
れ」を「今の仕事」に置き換えるものである。In this document, the noun phrase “it” has an attribute “reference =“ identifier 0 ”” and is an element containing “identifier =“ identifier 0 ””. Is referred to. That is, the reference element which is the antecedent corresponding to the pronoun "it" which is the referenced element is "current work". Therefore, if the noun phrase "current work" is not included in the summary sentence even though the noun phrase "it" is included, "it" in the summary sentence is replaced with "current work". .
【0108】また、上記文書において、「やらなければ
ならない」という動詞は、「主語=“識別子1”」とい
う属性を有することから、その意味上の主語は、「識別
子=“識別子1”」という属性を有するエレメントであ
る「わたし」という名詞句であることが分かる。すなわ
ち、エレメント「やらなければならない」のゼロ照応エ
レメントが「わたし」である。従って、要約文中に「や
らなければならない」が含まれているにも拘わらず意味
上の主語「わたし」が含まれていない場合には、要約文
中で、「(わたしが)やらなければならない」のように
ゼロ照応エレメントを補うものである。In the above document, the verb “must do” has the attribute “subject =“ identifier 1 ””, so the semantic subject is “identifier =“ identifier 1 ””. It can be seen that this is a noun phrase “I” which is an element having an attribute. That is, the zero anaphoric element of the element "must do" is "I". Therefore, if the semantic subject "I" is not included in the summary sentence even though "I must do" is included, "(I must do)" in the summary sentence And supplement the zero illuminating element.
【0109】このような代名詞等の置き換え処理やゼロ
照応処理は、上述した要約文作成に続いて、あるいは要
約文作成と同時に行われるものであり、これらの処理内
容の具体例について、図12及び図13のフローチャー
トを参照しながら説明する。Such a process of replacing a pronoun or the like and a zero anaphoric process are performed following the above-mentioned summary sentence creation or simultaneously with the creation of the summary sentence. A concrete example of these processing contents is shown in FIG. This will be described with reference to the flowchart of FIG.
【0110】すなわち、図12は、代名詞や限定節が要
約文に含まれる場合の処理を説明するためのフローチャ
ートであり、この図12に示す処理は、例えば上記図6
のステップS30,S31に続いて行われる。この図1
2に示す処理において、文書中の参照・被参照関係にお
ける代名詞などの被参照エレメントをリストアップする
ために被参照リストRBListを用いており、要約用の語彙
エレメントの配列のi番目の要素をti とし、この語彙
エレメントti の参照エレメントをri としている。That is, FIG. 12 is a flowchart for explaining the processing when a pronoun or a restrictive clause is included in the summary sentence. The processing shown in FIG.
Are performed following steps S30 and S31. This figure 1
In the processing shown in FIG. 2, the referenced list RBList is used to list the referenced elements such as pronouns in the reference / reference relationship in the document, and the i-th element of the summary vocabulary element array is set to t. i, and the reference element of the vocabulary element t i is r i .
【0111】図12の最初のステップS71において、
文書処理装置は、図1のCPU13の制御のもとに、上
記被参照リストRBListを空にする。次のステップS72
で、文書処理装置は、要約用の語彙エレメントを配列順
にカウントするカウンタのカウント値iを1に設定する
(i=1)。At the first step S71 in FIG.
The document processing apparatus empties the referenced list RBList under the control of the CPU 13 in FIG. Next step S72
Then, the document processing apparatus sets the count value i of the counter that counts the summary vocabulary elements in the arrangement order to 1 (i = 1).
【0112】次のステップS73で、文書処理装置は、
要約用の語彙エレメントの配列のi番目のエレメントt
i に関して、該語彙エレメントti の被参照エレメント
集合を被参照リストRBListに加える。また、語彙エレメ
ントti の参照エレメントをri とする。このステップ
S73での処理は、当該エレメントti を他の代名詞等
が参照している場合には他の代名詞等を被参照リストRB
Listに加え、当該エレメントti が代名詞等であって他
のエレメント(先行詞)を参照している場合には参照し
ているエレメント(先行詞)を参照エレメントri とす
るものである。At the next step S73, the document processing device
I-th element t of the array of vocabulary elements for summarization
For i , add the referenced element set of the vocabulary element t i to the referenced list RBList. Also, let the reference element of the vocabulary element t i be r i . The process in this step S73 is to, when another pronoun or the like refers to the element t i, to refer to another pronoun or the like in the referenced list RB.
In addition to the List, when the element t i is a pronoun or the like and refers to another element (advance), the referring element (advance) is set as the reference element r i .
【0113】次のステップS74で、文書処理装置は、
語彙エレメントti の参照エレメントri が存在するか
否かを判別する。文書処理装置は、このステップS74
でYES、すなわちri が存在する、と判別されたときは
ステップS75に進み、NOのときはステップS76に
進む。すなわち、ステップS74での判別により、当該
エレメントti が代名詞等であって参照エレメントri
が存在しているときのみ、ステップS75に進む。At the next step S74, the document processing device
It determines whether the reference elements r i of the vocabulary elements t i is present. The document processing device performs this step S74.
In YES, that there are r i, when it is determined that the process proceeds to step S75, the if NO, the process proceeds to step S76. That is, according to the determination in step S74, the element t i is a pronoun or the like and the reference element r i
Only when exists, the process proceeds to step S75.
【0114】ステップS75で、文書処理装置は、語彙
エレメントti が上記被参照リストRBListの要素である
か否かを判別し、YESのときはステップS76に進み、
NOのときはステップS77に進む。ステップS76
で、文書処理装置は、語彙エレメントti を要約文に追
加し、ステップS79に進む。ステップS77で、文書
処理装置は、ti の参照エレメントri の語彙列を要約
文に追加して、ステップS78に進み、ri の被参照エ
レメント集合を被参照リストRBListに加えた後、ステッ
プS79に進む。In step S75, the document processing apparatus determines whether or not the vocabulary element t i is an element of the referenced list RBList. If YES, the process advances to step S76.
If NO, the process proceeds to step S77. Step S76
Then, the document processing device adds the vocabulary element t i to the summary sentence, and proceeds to step S79. In step S77, the document processing apparatus adds the vocabulary columns of reference elements r i of t i in summary, the process proceeds to step S78, after the addition of referenced elements set of r i in the reference list RBList, step Proceed to S79.
【0115】これらのステップS75〜S78での処理
は、エレメントti が代名詞等であって他のエレメント
を参照している場合に、当該エレメントti が被参照リ
ストRBListの要素であれば、すなわち既に先行詞が要約
文中に含まれていれば、エレメントti を先行詞で置き
換えることなくそのまま要約文に加え、エレメントti
が被参照リストRBListの要素でなければ、先行詞がまだ
要約文中にふくまれていないことから、当該エレメント
ti を先行詞である参照エレメントri で置き換えて要
約文に加えるものである。The processing in these steps S75 to S78 is such that if the element t i is a pronoun or the like and refers to another element, the element t i is an element of the referenced list RBList, If the antecedent is already included in the abstract, the element t i is added to the abstract as it is without replacing the element t i with the antecedent.
If There be an element of the referenced list RBList, since the antecedent is not yet included in the summary sentence, but added by replacing the reference element r i is a antecedent of the element t i in summary.
【0116】ステップS79で、文書処理装置は、要約
用の語彙エレメントの配列の全てについてステップS7
3以降の処理が終了したか否かを判別し、NOのときは
ステップS80にて上記カウント値iを1だけインクリ
メント(i=i+1)した後、ステップS73に戻り、
YESのときは処理を終了する。In step S79, the document processing apparatus proceeds to step S7 for all the arrangements of the vocabulary elements for summarization.
It is determined whether or not the processing after step 3 has been completed. If NO, the count value i is incremented by 1 (i = i + 1) in step S80, and the process returns to step S73.
If YES, the process ends.
【0117】以上のような置き換え処理により、要約文
中に代名詞や限定節等の被参照エレメントが存在するに
も拘わらず、対応する先行詞としての参照エレメントが
要約文中に含まれていない場合に、最初に現れた被参照
エレメントti が参照エレメントri で置き換えられる
と共に、この参照エレメントri の被参照エレメント集
合が被参照リストRBListに加えられるから、その後の同
じ参照エレメントriに対応する被参照エレメントにつ
いては、置き換えされずにそのまま要約文に加えられる
ことになる。By the above-described replacement processing, if the referenced sentence such as a pronoun or a restrictive clause exists in the abstract sentence but the corresponding reference element as the antecedent is not included in the abstract sentence, with referenced elements t i of the first occurrence is replaced with the reference element r i, referenced element set of the reference element r i is from is added to a referenced list RBList, corresponding to the subsequent same reference elements r i of the The reference element is added to the summary sentence without being replaced.
【0118】なお、図12に示す具体的な置き換え処理
の例については、上記図6に示す要約文作成の処理に続
いて行うものとして説明しているが、要約文作成と同時
に行わせてもよい。Although the specific example of the replacement process shown in FIG. 12 has been described as being performed following the process of creating the summary sentence shown in FIG. 6, it may be performed simultaneously with the creation of the summary sentence. Good.
【0119】次に、図13は、要約文に省略された主語
や目的語等を含む文が存在する場合の前述したようなゼ
ロ照応処理を説明するためのフローチャートであり、こ
の図13に示す処理は、例えば上記図6のステップS3
0,S31に続いて、上記図12の処理の前、後、ある
いは同時に行われる。この図13に示す処理において、
文書中の省略された主語や目的語等のゼロ照応エレメン
トをリストアップするためにゼロ照応リストZAListを用
いており、要約用の語彙エレメントの配列のi番目の要
素をti とし、この語彙エレメントti のゼロ照応エレ
メントをzi としている。Next, FIG. 13 is a flow chart for explaining the above-mentioned zero anaphoric processing when there is a sentence containing the omitted subject, object, etc. in the abstract sentence, and is shown in FIG. The processing is performed, for example, in step S3 in FIG.
Subsequent to 0, S31, it is performed before, after, or simultaneously with the processing of FIG. In the process shown in FIG.
The zero anaphor list ZAList is used to list the zero anaphor elements such as the omitted subject and object in the document. The i-th element of the summary vocabulary element array is represented by t i, and this vocabulary element The zero anaphoric element of t i is denoted by z i .
【0120】図13の最初のステップS81において、
文書処理装置は、図1のCPU13の制御のもとに、上
記ゼロ照応リストZAListを空にする。次のステップS8
2で、文書処理装置は、要約用の語彙エレメントを配列
順にカウントするカウンタのカウント値iを1に設定す
る(i=1)。In the first step S81 of FIG.
The document processing apparatus empties the zero analytic list ZAList under the control of the CPU 13 in FIG. Next step S8
In step 2, the document processing apparatus sets a count value i of a counter that counts vocabulary elements for summarization in the order of arrangement to 1 (i = 1).
【0121】次のステップS83で、文書処理装置は、
要約用の語彙エレメントの配列のi番目の要素をti に
関して、該語彙エレメントti のゼロ照応エレメントが
存在すればそれをri とする。次のステップS84で、
文書処理装置は、語彙エレメントti のゼロ照応エレメ
ントzi が存在するか否かを判別する。このステップS
84でYES(ゼロ照応エレメントzi が存在)と判別さ
れたときはステップS85に進み、NOのときはステッ
プS86に進む。At the next step S83, the document processing apparatus
Regarding the i-th element in the array of vocabulary elements for summarization, t i is defined as r i if a zero-anaphoric element of the vocabulary element t i exists. In the next step S84,
The document processing device determines whether the zero anaphor element z i of the vocabulary element t i exists. This step S
If it is determined at 84 that YES (the zero illuminating element z i exists), the flow proceeds to step S85, and if NO, the flow proceeds to step S86.
【0122】ステップS85で、文書処理装置は、語彙
エレメントti が上記ゼロ照応リストZAListの要素であ
るか否かを判別し、YESのときはステップS86に進
み、NOのときはステップS87に進む。ステップS8
6では、語彙エレメントti を要約文に追加し、ステッ
プS89に進む。文書処理装置は、ステップS87で
は、ゼロ照応エレメントzi が要約文中に既に含まれて
存在しているか否かを判別し、YESのときは上記ゼロ照
応リストZAListにゼロ照応エレメントzi を加えてステ
ップS86に進み、NOのときはステップS89に進
む。ステップS89で、文書処理装置は、語彙エレメン
トti のゼロ照応エレメントzi の語彙列を括弧でくく
り、語彙エレメントti と共に要約文に追加して、ステ
ップS90に進み、語彙エレメントti とゼロ照応エレ
メントzi とをゼロ照応リストZAListに加えた後、ステ
ップS91に進む。ステップS89、S90において
は、文書処理装置は、ゼロ照応エレメントzi が主語な
らばその語彙列に「が」を付加して括弧でくくり、目的
語ならばその語彙列に「を」を付加して括弧でくくっ
て、語彙エレメントti の前あるいは後に配置する。日
本語の場合には、ゼロ照応エレメントは語彙エレメント
の前に配置する。In step S85, the document processing apparatus determines whether or not the vocabulary element t i is an element of the zero anaphor list ZAList. If YES, proceed to step S86; if NO, proceed to step S87. . Step S8
In 6, the vocabulary element t i is added to the summary sentence, and the process proceeds to step S89. Document processing device, in step S87, it is determined whether or not the zero anaphoric elements z i are present already included in the summary sentence, if YES in addition zero anaphora elements z i in the zero anaphora list ZAList Proceed to step S86, and if NO, proceed to step S89. In the step S89, that is, the document processing device, enclosed vocabulary trailing zeros anaphoric elements z i vocabulary elements t i in parentheses, in addition to the summary with vocabulary elements t i, the process proceeds to step S90, the vocabulary elements t i and zero after adding and anaphoric elements z i to zero anaphoric list ZAList, and the process proceeds to step S91. In step S89, S90, the document processing device, if zero anaphoric elements z i are subject enclosed in parentheses by adding "ga" in its vocabulary column, by adding "wo" in its lexicon string if object And placed before or after the vocabulary element t i . In the case of Japanese, the zero-anaphoric element is placed before the vocabulary element.
【0123】文書処理装置は、ステップS91で、要約
用の語彙エレメントの配列の全てについてステップS8
3以降の処理が終了したか否かを判別し、NOのときは
ステップS92にて上記カウント値iを1だけインクリ
メント(i=i+1)した後、ステップS83に戻り、
YESのときは処理を終了する。In step S91, the document processing apparatus performs step S8 for all of the arrangements of the vocabulary elements for summarization.
It is determined whether or not the processing after step 3 has been completed. If NO, the count value i is incremented by 1 (i = i + 1) in step S92, and the process returns to step S83.
If YES, the process ends.
【0124】以上のようなゼロ照応処理により、要約文
中に主語や目的語等が省略されたエレメントti が存在
するにも拘わらず、対応するゼロ照応エレメントzi が
要約文中に含まれていない場合に、当該エレメントti
にゼロ照応エレメントzi が括弧でくくられて付加され
ると共に、このエレメントti とゼロ照応エレメントz
i とがゼロ照応リストZAListに加えられるから、その後
の同じゼロ照応エレメントzi に対応するエレメントに
ついては、ゼロ照応エレメントzi が付加されずにその
まま要約文に加えられることになる。By the above-described zero anaphor processing, the corresponding zero anaphor element z i is not included in the abstract sentence even though there is an element t i in which the subject and the object are omitted in the abstract. In this case, the element t i
Is added to the zero anaphor element z i in parentheses, and the element t i and the zero anaphor element z are added.
because there is a i are applied to zero anaphoric list ZAList, for subsequent elements corresponding to the same zero anaphoric elements z i, will be applied to the intact summary without being added zero anaphoric elements z i.
【0125】ところで、これらの図12に示す代名詞等
の置き換え処理や、図13に示すゼロ照応処理を、上述
した図6に示した要約文作成に続いて行う場合には、要
約文中の文字数が変化し、上述した要約文の最大文字
数、すなわち上記要約文表示領域の大きさに応じて決ま
る表示可能な最大文字数を超えてしまったり、最大文字
数よりも少なくなってしまうことがある。そこで、要約
文中の文字数を上記最大文字数以内の最大の文字数にす
るために、最終的な文字数の調整作業が必要である。こ
れは、上記代名詞等の置き換え処理やゼロ照応処理を行
うことにより要約文中の文字数が最大文字数を超えた場
合には、要約文中の重要度の低いエレメント、すなわち
上記中心活性値の低いエレメントから順次削除して、要
約文中の文字数が上記最大文字数以内に収まるようにす
る。また、文字数が最大文字数よりも少なくなった場合
には、元の文書中の要約文に含まれないエレメントの内
の最も中心活性値が高いエレメントから順に要約文中に
付加して行き、上記最大文字数を超える直前でエレメン
トの付加を停止することで、上記最大文字数に最も近
く、最大文字数以内の文字数の要約文を得ることができ
る。When the process of replacing pronouns and the like shown in FIG. 12 and the process of zero anaphoresis shown in FIG. 13 are performed subsequent to the creation of the summary sentence shown in FIG. 6, the number of characters in the summary sentence is reduced. It may change and exceed the maximum number of characters of the above-mentioned summary sentence, that is, the maximum number of characters that can be displayed determined according to the size of the above-mentioned summary sentence display area, or become smaller than the maximum number of characters. Therefore, in order to reduce the number of characters in the summary sentence to the maximum number of characters within the above maximum number of characters, it is necessary to adjust the final number of characters. This is because if the number of characters in the summary exceeds the maximum number of characters in the summary sentence by performing the pronoun replacement process or the zero anaphoresis process, the elements of the summary sentence with lower importance, that is, the element with the lower central activity value sequentially. Delete it so that the number of characters in the summary is within the maximum number of characters. If the number of characters is less than the maximum number of characters, the elements that are not included in the abstract sentence in the original document are added to the abstract sentence in descending order of the element with the highest central activity value. By stopping the addition of the element immediately before exceeding the maximum number of characters, a summary sentence having the number of characters closest to the maximum number of characters and within the maximum number of characters can be obtained.
【0126】なお、本実施の形態においては、文書への
タグ付けの方法の一例を示したが、本発明がこのタグ付
けの方法に限定されないことは勿論である。また、本実
施の形態においては、文書処理装置の通信部22に外部
から電話回線を介して文書が送信されるとしたが、本発
明はこれに限定されない。例えば、衛星等を介して文書
が送信される場合にも適用でき、また、記録/再生部3
1において記録媒体32から読み出されたり、文書処理
装置のROM13に文書が書き込まれていたりしてもよ
い。In the present embodiment, an example of a method for tagging a document has been described, but it is needless to say that the present invention is not limited to this tagging method. Further, in the present embodiment, the document is transmitted from the outside to the communication unit 22 of the document processing apparatus via a telephone line, but the present invention is not limited to this. For example, the present invention can be applied to a case where a document is transmitted via a satellite or the like.
1, the document may be read from the recording medium 32, or the document may be written in the ROM 13 of the document processing apparatus.
【0127】また、本発明の実施の形態においては、上
記図1の記録媒体32として、上述した文書処理プログ
ラムが書き込まれたディスク状記録媒体やテープ状記録
媒体等を提供することも容易に実現できる。さらに、上
述した文書処理プログラムについては、通信回線等の伝
送媒体を介して供給することも容易に実現できる。In the embodiment of the present invention, it is also easy to provide a disk-shaped recording medium or a tape-shaped recording medium in which the above-mentioned document processing program is written, as the recording medium 32 in FIG. it can. Further, the above-described document processing program can be easily supplied via a transmission medium such as a communication line.
【0128】また、上述の実施の形態においては、文書
処理装置の表示部30に表示された文書から所望のエレ
メントを選択するデバイスとしてマウスを例示したが、
本発明がこれに限定されないことはいうまでもない。文
書処理装置におけるエレメントの入力には、タブレッ
ト、ライトペン等の他のデバイスを利用することができ
る。In the above-described embodiment, a mouse is exemplified as a device for selecting a desired element from a document displayed on the display unit 30 of the document processing apparatus.
It goes without saying that the present invention is not limited to this. Other devices such as a tablet and a light pen can be used for inputting elements in the document processing apparatus.
【0129】さらに、上述の実施の形態においては日本
語の文章を例示したが、本発明は、日本語に限定され
ず、英語、ドイツ語、フランス語、ロシア語、イタリア
語、スペイン語、中国語、韓国語等の種々の言語に適用
できることはいうまでもない。Furthermore, in the above-described embodiment, Japanese sentences have been exemplified. However, the present invention is not limited to Japanese, but English, German, French, Russian, Italian, Spanish, and Chinese. Needless to say, it can be applied to various languages such as Korean.
【0130】[0130]
【発明の効果】以上の説明からも明らかなように、本発
明によれば、文書の要約文を作成し、作成される要約文
中における省略された主語又は目的語が該要約文中に含
まれていないとき、元の文書中の対応する主語又は目的
語を要約文中に追加することにより、ゼロ照応エレメン
トが要約文中に必ず1回は現れることになり、ユーザの
理解が容易で正確な内容の要約文を自動生成することが
できる。As is clear from the above description, according to the present invention, a summary of a document is created, and the omitted subject or object in the created summary is included in the summary. When not present, by adding the corresponding subject or object in the original document to the summary sentence, the zero-anaphoric element will always appear once in the summary sentence, making it easy and accurate for the user to summarize the content. Sentences can be automatically generated.
【図1】本実施の形態を適用した文書処理装置の概略構
成を示すブロック図である。FIG. 1 is a block diagram illustrating a schematic configuration of a document processing apparatus according to an embodiment;
【図2】文書のタグ付けによる内部構造の一例を示す図
である。FIG. 2 is a diagram illustrating an example of an internal structure by tagging a document.
【図3】文書のタグ付けによる内部構造を表示したウィ
ンドウを示す図である。FIG. 3 is a diagram showing a window displaying an internal structure by tagging a document.
【図4】文書を表示したウィンドウを示す図である。FIG. 4 is a diagram showing a window displaying a document.
【図5】文書を表示したウィンドウを示す図であって、
要約文を表示する表示領域が図13に示す表示領域より
も拡大された様子を示す図である。FIG. 5 is a diagram showing a window displaying a document,
FIG. 14 is a diagram showing a state in which a display area for displaying a summary sentence is enlarged from the display area shown in FIG.
【図6】要約文を作成する際の一連の処理を説明するフ
ローチャートである。FIG. 6 is a flowchart illustrating a series of processes when creating an abstract sentence.
【図7】活性拡散を行う際の一連の処理を説明するフロ
ーチャートである。FIG. 7 is a flowchart illustrating a series of processes when performing active diffusion.
【図8】活性拡散の処理を説明するためのエレメントの
連結構造を示す図である。FIG. 8 is a diagram showing a connection structure of elements for explaining a process of active diffusion.
【図9】活性拡散のリンク処理を行う際の一連の処理を
説明するフローチャートである。FIG. 9 is a flowchart illustrating a series of processing when performing link processing of active spread.
【図10】文書とその要約文を表示したウィンドウを示
す図である。FIG. 10 is a diagram showing a window displaying a document and its summary.
【図11】文書とその要約文を表示したウィンドウを示
す図であって、図5に示すウィンドウに要約文を表示し
た様子を示す図である。11 is a diagram showing a window displaying a document and a summary sentence thereof, and showing a state in which the summary sentence is displayed in the window shown in FIG. 5. FIG.
【図12】被参照エレメントが要約文に含まれる場合の
参照エレメントでの置き換え処理を説明するためのフロ
ーチャートである。FIG. 12 is a flowchart illustrating a replacement process with a reference element when a referenced element is included in a summary sentence.
【図13】要約文中でのゼロ照応処理を説明するための
フローチャートである。FIG. 13 is a flowchart illustrating zero anaphoric processing in a summary sentence.
10 文書処理装置の本体、 11 制御部、 12
インターフェース、13 CPU、 20 入力部、
22 通信部、 30 表示部、 31 記録/再生
部、 32 記録媒体、 33 ハードディスク装置10 body of document processing device, 11 control unit, 12
Interface, 13 CPU, 20 input unit,
22 communication unit, 30 display unit, 31 recording / reproducing unit, 32 recording medium, 33 hard disk device
Claims (15)
理方法において、 上記文書の要約文を作成する要約文作成工程と、 上記作成される要約文中における省略された主語又は目
的語が該要約文中に含まれていないとき、元の文書中の
対応する主語又は目的語を要約文中に追加するゼロ照応
処理工程とを有することを特徴とする文書処理方法。1. A document processing method for processing a document in the form of an electronic document, comprising: a summary sentence creating step of creating an abstract sentence of the document; and an omitted subject or object in the created summary sentence A zero-anaphora processing step of adding the corresponding subject or object in the original document to the abstract sentence when not included in the sentence.
領域内における大きさを可変に設定する設定工程と、 上記設定工程で設定された表示領域の大きさに基づいて
上記文書の要約文の長さを決定する決定工程と、 上記決定工程で決定された要約文の長さに基づいて上記
要約文表示領域内におさまる長さの上記文書の要約文を
作成する工程とを有して成ることを特徴とする請求項1
記載の文書処理方法。2. The method according to claim 1, further comprising: setting the size of the summary sentence display area in which the summary sentence of the document is displayed in an entire display area; and setting the display set in the setting step. A determining step of determining the length of the summary sentence of the document based on the size of the area; and the document having a length that fits in the summary sentence display area based on the length of the summary sentence determined in the determining step. And a step of creating a summary sentence.
Document processing method described.
された内部構造を有し、上記内部構造を示すタグ情報が
予め付与されていることを特徴とする請求項1記載の文
書処理方法。3. The document processing method according to claim 1, wherein the document has an internal structure in which a plurality of elements are hierarchized, and tag information indicating the internal structure is added in advance.
に基づいて活性拡散を行うことにより、上記文書の要約
文を作成することを特徴とする請求項3記載の文書処理
方法。4. The document processing method according to claim 3, wherein in the summary sentence creating step, an active sentence is performed based on the tag information to create an abstract sentence of the document.
中に、上記省略された主語又は目的語が含まれるか否か
を判別し、含まれていないとき上記省略された主語又は
目的語を括弧でくくって上記要約文中に追加することを
特徴とする請求項1記載の文書処理方法。5. In the zero anaphor processing step, it is determined whether or not the abbreviated subject or object is included in the abstract sentence. If the abbreviated subject or object is not included, the abbreviated subject or object is bracketed. 2. The document processing method according to claim 1, wherein the document is added to the summary sentence.
理装置において、 上記文書の要約文を作成する要約文作成手段と、 上記作成される要約文中における省略された主語又は目
的語が該要約文中に含まれていないとき、元の文書中の
対応する主語又は目的語を要約文中に追加するゼロ照応
処理手段とを有することを特徴とする文書処理装置。6. A document processing apparatus for processing a document in the form of an electronic document, comprising: a summary sentence creating means for creating a summary sentence of the document; and an abbreviated subject or object in the created summary sentence being an abstract. A document processing apparatus comprising: a zero-anaphora processing means for adding a corresponding subject or object in an original document to a summary sentence when not included in the sentence.
領域内における大きさを可変に設定する設定手段と、 上記設定手段で設定された表示領域の大きさに基づいて
上記文書の要約文の長さを決定する決定手段と、 上記決定手段で決定された要約文の長さに基づいて上記
要約文表示領域内におさまる長さの上記文書の要約文を
作成する手段とを有して成ることを特徴とする請求項6
記載の文書処理装置。7. The summary sentence creating means includes: setting means for variably setting the size of the summary sentence display area in which the summary sentence of the document is displayed in the entire display area; and a display set by the setting means. Determining means for determining the length of the summary sentence of the document based on the size of the area; and the document having a length that fits within the summary sentence display area based on the length of the summary sentence determined by the determining means Means for creating a summary sentence of
Document processing device as described.
された内部構造を有し、上記内部構造を示すタグ情報が
予め付与されていることを特徴とする請求項6記載の文
書処理装置。8. The document processing apparatus according to claim 6, wherein the document has an internal structure in which a plurality of elements are hierarchized, and tag information indicating the internal structure is added in advance.
基づいて活性拡散を行うことにより、上記文書の要約文
を作成することを特徴とする請求項8記載の文書処理装
置。9. The document processing apparatus according to claim 8, wherein said abstract sentence creating means creates an abstract sentence of said document by performing active diffusion based on said tag information.
中に、上記省略された主語又は目的語が含まれるか否か
を判別し、含まれていないとき上記省略された主語又は
目的語を括弧でくくって上記要約文中に追加することを
特徴とする請求項6記載の文書処理装置。10. The zero anaphor processing means determines whether or not the abbreviated subject or object is included in the summary sentence. If the abbreviated subject or object is not included, the abbreviated subject or object is bracketed. 7. The document processing apparatus according to claim 6, wherein the document is added to the summary sentence.
ピュータ制御可能な文書処理プログラムが記録された記
録媒体において、 上記文書処理プログラムは、 上記文書の要約文を作成する要約文作成工程と、 上記作成される要約文中における省略された主語又は目
的語が該要約文中に含まれていないとき、元の文書中の
対応する主語又は目的語を要約文中に追加するゼロ照応
処理工程とを有することを特徴とする文書処理プログラ
ムが記録された記録媒体。11. A recording medium on which a computer-controllable document processing program for processing a document in the form of an electronic document is recorded, wherein the document processing program comprises: A zero-anaphora processing step of adding a corresponding subject or object in the original document to the abstract when the omitted subject or object in the generated abstract is not included in the abstract. A recording medium on which a characteristic word processing program is recorded.
領域内における大きさを可変に設定する設定工程と、 上記設定工程で設定された表示領域の大きさに基づいて
上記文書の要約文の長さを決定する決定工程と、 上記決定工程で決定された要約文の長さに基づいて上記
要約文表示領域内におさまる長さの上記文書の要約文を
作成する工程とを有して成ることを特徴とする請求項1
1記載の文書処理プログラムが記録された記録媒体。12. The summary sentence creating step includes: a setting step of variably setting a size of the summary sentence display area in which the summary sentence of the document is displayed in the entire display area; and a display set in the setting step. A determining step of determining the length of the summary sentence of the document based on the size of the area; and the document having a length that fits in the summary sentence display area based on the length of the summary sentence determined in the determining step. And a step of creating a summary sentence.
A recording medium on which the document processing program according to 1 is recorded.
化された内部構造を有し、上記内部構造を示すタグ情報
が予め付与されていることを特徴とする請求項11記載
の文書処理プログラムが記録された記録媒体。13. The document processing program according to claim 11, wherein the document has an internal structure in which a plurality of elements are hierarchized, and tag information indicating the internal structure is added in advance. The recorded recording medium.
報に基づいて活性拡散を行うことにより、上記文書の要
約文を作成することを特徴とする請求項13記載の文書
処理プログラムが記録された記録媒体。14. The document processing program according to claim 13, wherein in the abstract sentence creating step, an active sentence is performed based on the tag information to create an abstract sentence of the document. recoding media.
文中に、上記省略された主語又は目的語が含まれるか否
かを判別し、含まれていないとき上記省略された主語又
は目的語を括弧でくくって上記要約文中に追加すること
を特徴とする請求項11記載の文書処理プログラムが記
録された記録媒体。15. In the zero anaphor processing step, it is determined whether or not the omitted subject or object is included in the summary sentence, and if not included, the omitted subject or object is enclosed in parentheses. The recording medium according to claim 11, wherein the document processing program is added to the summary sentence.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21265299A JP4186321B2 (en) | 1999-07-27 | 1999-07-27 | Document processing method and apparatus, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21265299A JP4186321B2 (en) | 1999-07-27 | 1999-07-27 | Document processing method and apparatus, and recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001043220A true JP2001043220A (en) | 2001-02-16 |
JP2001043220A5 JP2001043220A5 (en) | 2006-04-27 |
JP4186321B2 JP4186321B2 (en) | 2008-11-26 |
Family
ID=16626181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21265299A Expired - Lifetime JP4186321B2 (en) | 1999-07-27 | 1999-07-27 | Document processing method and apparatus, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4186321B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234049A (en) * | 2007-03-16 | 2008-10-02 | Nippon Hoso Kyokai <Nhk> | Summary sentence generation device and summary sentence generation program |
JP2012174014A (en) * | 2011-02-22 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Document summarization device, document summarization method, and program |
WO2021193548A1 (en) * | 2020-03-23 | 2021-09-30 | 富士フイルム株式会社 | Document creation assistance device, method, and program |
US20230185954A1 (en) * | 2021-12-15 | 2023-06-15 | Bank Of America Corporation | Transmission of Sensitive Data in a Communication Network |
-
1999
- 1999-07-27 JP JP21265299A patent/JP4186321B2/en not_active Expired - Lifetime
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234049A (en) * | 2007-03-16 | 2008-10-02 | Nippon Hoso Kyokai <Nhk> | Summary sentence generation device and summary sentence generation program |
JP2012174014A (en) * | 2011-02-22 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Document summarization device, document summarization method, and program |
WO2021193548A1 (en) * | 2020-03-23 | 2021-09-30 | 富士フイルム株式会社 | Document creation assistance device, method, and program |
JPWO2021193548A1 (en) * | 2020-03-23 | 2021-09-30 | ||
JP7436636B2 (en) | 2020-03-23 | 2024-02-21 | 富士フイルム株式会社 | Document creation support device, method and program |
US12417838B2 (en) | 2020-03-23 | 2025-09-16 | Fujifilm Corporation | Document creation support apparatus, method, and program to generate medical document based on medical images |
US20230185954A1 (en) * | 2021-12-15 | 2023-06-15 | Bank Of America Corporation | Transmission of Sensitive Data in a Communication Network |
US12314426B2 (en) * | 2021-12-15 | 2025-05-27 | Bank Of America Corporation | Transmission of sensitive data in a communication network |
Also Published As
Publication number | Publication date |
---|---|
JP4186321B2 (en) | 2008-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7076732B2 (en) | Document processing apparatus having an authoring capability for describing a document structure | |
US7610546B1 (en) | Document processing apparatus having capability of controlling video data | |
JP4214598B2 (en) | Document processing method and apparatus, and recording medium | |
US5708825A (en) | Automatic summary page creation and hyperlink generation | |
EP1109151A1 (en) | Electronic document processor | |
US7120861B1 (en) | Document processing system | |
JPH11161682A (en) | Information retrieval apparatus, information retrieval method, and recording medium | |
JP3143345B2 (en) | String search device | |
EP1318466A2 (en) | Apparatus for interpreting electronic legal documents | |
WO2000043909A1 (en) | Method and device for processing documents and recording medium | |
JP2806867B2 (en) | Document database construction method, display method, and display device | |
JP2001043220A (en) | Method and device for processing document and recording medium | |
JP2001109762A (en) | Method and device for processing document and recording medium | |
JP2001043219A (en) | Method and device for processing document and recording medium | |
JP2000099526A (en) | Document information extraction device | |
JP2001027997A (en) | Method for electronic document processing and electronic document processor and recording medium where electronic document processing program is recorded | |
JP4320819B2 (en) | Document processing method and apparatus, and recording medium | |
JP3734101B2 (en) | Hypermedia construction support device | |
JP2000353165A (en) | Method and device for processing document and recording medium | |
JP2001027996A (en) | Method for electronic document processing and electronic document processor and recording medium where electronic document processing program is recorded | |
JP2001014305A (en) | Method and device for electronic document processing, and recording medium where electronic document processing program is recorded | |
JP3969689B2 (en) | Document creation support apparatus, document creation support method, and storage medium storing document creation support program | |
JP2001027995A (en) | Method for electronic document processing and electronic document processor and recording medium where electronic document processing program is recorded | |
JP2001357034A (en) | Computer-readable recording medium recording Kanji sentence, Kanji sentence creation support device, Kanji sentence generation device, language conversion service device, computer-readable recording medium recording program, Kanji sentence communication device, and information management Server, reader terminal device, Chinese symbol sentence display device, computer-readable recording medium recording dictionary, and content information distribution system | |
JP4345129B2 (en) | Document processing method and apparatus, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060307 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080901 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110919 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120919 Year of fee payment: 4 |