[go: up one dir, main page]

JP2000235574A - Document processing device - Google Patents

Document processing device

Info

Publication number
JP2000235574A
JP2000235574A JP11036890A JP3689099A JP2000235574A JP 2000235574 A JP2000235574 A JP 2000235574A JP 11036890 A JP11036890 A JP 11036890A JP 3689099 A JP3689099 A JP 3689099A JP 2000235574 A JP2000235574 A JP 2000235574A
Authority
JP
Japan
Prior art keywords
relevance
paragraph
document
total value
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11036890A
Other languages
Japanese (ja)
Inventor
Atsuyuki Goto
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11036890A priority Critical patent/JP2000235574A/en
Publication of JP2000235574A publication Critical patent/JP2000235574A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 話題が混在した新聞記事などの電子化文書か
ら、話題ごとに文書を分割する。 【解決手段】 電子化文書を、段落に分けて段落間の関
連度を求め、この関連度を例えばマトリクスに表示し
て、任意番目の行と任意番目の列と対角成分とで囲まれ
る三角形領域とし、この三角形領域内の関連度の合計値
を求め、この合計値より分割点を求める。例えば、三角
形領域内の関連度の合計値とこの三角形の列を1辺とし
任意番目の行を1辺とする矩形領域内の関連度の合計値
を求め、これら三角形領域の合計値と矩形領域の合計値
の比を求め、この比の値に基づいて文書を分割する。
(57) [Summary] [Problem] A document is divided for each topic from an electronic document such as a newspaper article in which topics are mixed. SOLUTION: The digitized document is divided into paragraphs, the relevance between paragraphs is obtained, and the relevance is displayed in, for example, a matrix, and a triangle surrounded by an arbitrary row, an arbitrary column, and a diagonal component is displayed. As a region, a total value of the degree of relevance in this triangular region is obtained, and a division point is obtained from the total value. For example, a total value of relevance in a triangular area and a total value of relevance in a rectangular area having a column of this triangle as one side and an arbitrary row as one side are obtained. Is calculated, and the document is divided based on the value of the ratio.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書処理装置に関
し、より詳しくは、意味ブロック毎に文書を分割する文
書処理装置に関し、文書の要約や複数の記事などが混在
した文書を意味毎に分割する場合に適用して好適な文書
分割に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a document processing apparatus, and more particularly, to a document processing apparatus for dividing a document for each semantic block. The present invention relates to a suitable document division to be applied to the case.

【0002】[0002]

【従来の技術】近年、パーソナルコンピュータによる文
書作成の機会の増加、インターネットの急速な普及によ
り身の回りに電子化文書が氾濫している。このような電
子化文書をすべて閲覧して、有効な情報を提供する文書
を探索することは時間的な制限により不可能に近い。
2. Description of the Related Art In recent years, the number of opportunities for creating documents using personal computers and the rapid spread of the Internet have caused a flood of electronic documents around the user. It is almost impossible to browse all such electronic documents and search for a document that provides valid information due to time limitations.

【0003】このような問題を解決するために、全文検
索などにより、必要な文書を検索する方法もあるが、検
索された文書をある程度、読解しなければ、検索された
文書が本当に意図した情報を提供してくれるかどうか判
断するのは難しい。
[0003] In order to solve such a problem, there is a method of searching for a necessary document by a full-text search or the like. However, if the searched document is not read to some extent, the searched document does not have the intended information. It is difficult to judge whether or not to offer.

【0004】一方、こうした状況を解決する手段とし
て、文書の要約技術がある。文書の要約を全文検索の検
索結果として表示すれば、検索された文書をいちいち開
いて内容を吟味する必要がなくなるので、検索の効率が
飛躍的に向上する。
On the other hand, as a means for solving such a situation, there is a technique for summarizing documents. If the summary of the document is displayed as a search result of the full-text search, it is not necessary to open the searched document and examine the contents thereof, so that the efficiency of the search is dramatically improved.

【0005】しかしながら、いろいろな話題が1つの紙
面に混在した新聞記事などから要約を提示するには、話
題ごとに要約を提供する必要がある。
However, in order to present an abstract from a newspaper article or the like in which various topics are mixed on one page, it is necessary to provide an abstract for each topic.

【0006】[0006]

【発明が解決しようとする課題】本発明は、上述のごと
き実情に鑑みてなされたもので、電子化文書を意味ブロ
ック毎に分割することを目的とするものである。
SUMMARY OF THE INVENTION The present invention has been made in view of the above situation, and has as its object to divide an electronic document into meaning blocks.

【0007】[0007]

【課題を解決するための手段】請求項1の発明は、電子
化された文書を段落に分割し、上記段落から抽出された
キーワードに基づいて段落間の関連度を計算し、段落の
数を次元とする正方行列において、該正方行列の対角成
分を境として片側の領域の各成分に上記関連度を入れ、
該関連度を入れた前記片側領域において、任意番目の行
(又は列)と、任意番目の列(又は行)と、対角成分
と、で囲まれる三角形領域内の関連度の合計値を求め、
該関連度の合計値に基づいて文書の分割点を求めるよう
にしたものである。
According to the first aspect of the present invention, an electronic document is divided into paragraphs, and the degree of relevance between paragraphs is calculated based on keywords extracted from the paragraphs, and the number of paragraphs is calculated. In the square matrix to be a dimension, the above-described degree of relevance is put into each component of the one-sided area with the diagonal component of the square matrix as a boundary,
In the one-sided area containing the relevance, a total value of relevance in a triangular area surrounded by an arbitrary row (or column), an arbitrary column (or row), and a diagonal component is calculated. ,
The document dividing point is obtained based on the total value of the relevance.

【0008】請求項2の発明は、請求項1に記載された
発明において、前記三角形領域内の合計値と、前記三角
形領域の列(又は行)に対応しかつ該三角形領域を除く
矩形領域内の関連度の合計値の関係から文書の分割点を
求めるようにしたものである。
According to a second aspect of the present invention, in the first aspect of the present invention, a total value in the triangular area and a rectangular area corresponding to a column (or row) of the triangular area and excluding the triangular area are included. The document division point is obtained from the relationship between the total values of the degrees of relevance.

【0009】請求項3の発明は、請求項2に記載された
発明において、前記三角形領域内の合計値と、前記矩形
領域内の関連度の合計値との比から極値を求めることに
より、文書の分割点を求めるようにしたものである。
According to a third aspect of the present invention, in the invention described in the second aspect, an extreme value is obtained from a ratio of a total value in the triangular area to a total value of relevance in the rectangular area. This is to obtain a document division point.

【0010】請求項4の発明は、請求項1乃至3のいず
れかに記載された発明において、隣接する段落における
行(又は列)の関連度の合計をそれぞれ求め、各合計値
を比較して話題転換点を求めるようにしたものである。
According to a fourth aspect of the present invention, in the invention described in any one of the first to third aspects, a total of the relevance of a row (or a column) in an adjacent paragraph is obtained, and each total is compared. It is designed to find a turning point.

【0011】請求項5の発明は、請求項1乃至3のいず
れかに記載された発明において、前記分割点における行
(又は列)の関連度の合計値が所定値以下の時、該行
(又は列)を孤立段落とするようにしたものである。
According to a fifth aspect of the present invention, in the invention according to any one of the first to third aspects, when a total value of relevance of a row (or column) at the division point is equal to or less than a predetermined value, the row (or Or column) as an isolated paragraph.

【0012】[0012]

【発明の実施の形態】上述のように、本発明を使用すれ
ば、新聞記事などの複数の話題が混在した文書でも、話
題ごとに要約を提供することが可能になる。以下に、文
書要約機能を有する文書処理装置において、表1に示す
テキストの文書を複数の意味ブロックに分割する例につ
いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS As described above, the present invention makes it possible to provide a summary for each topic even in a document in which a plurality of topics are mixed, such as a newspaper article. Hereinafter, an example in which a document having the text shown in Table 1 is divided into a plurality of semantic blocks in a document processing apparatus having a document summarizing function will be described.

【0013】本発明は、ある文書を関連する意味のまと
まりに分割する(意味ブロック抽出)もので、以下に説
明する意味ブロックの抽出は、文書の重要文抽出の前処
理であり、異なる話題の文章を話題の切れ目で分割する
ことを意味している。たとえば、いろいろな内容の文章
の寄せ集めである新聞の1面から重要文を抽出する際に
有効な処理である。意味ブロック抽出を行い、新聞の1
面から1つの記事を切り出し、そこから重要文を抽出し
た方が、複数の記事から直接、重要文を抽出する方より
良い結果が得られる。例えば、テキスト例に入力された
電子化文書を表1に示すように段落毎に分割する。
The present invention divides a document into a group of related meanings (semantic block extraction). Extraction of a semantic block described below is a pre-process of extracting an important sentence of a document. This means that the text is divided at the breaks in the topic. For example, this process is effective when extracting important sentences from one page of a newspaper, which is a collection of sentences of various contents. Extract the meaning block
It is better to extract one sentence from the surface and extract the important sentence therefrom than to extract the important sentence directly from a plurality of articles. For example, a digitized document input as a text example is divided into paragraphs as shown in Table 1.

【0014】[0014]

【表1】 [Table 1]

【0015】次の手順により意味ブロックを抽出する。 1.段落関連度マトリクスの作成 (1.1).入力文書を段落毎に解析し、キーワードを
抽出する。キーワードは基本的には名詞であり、出現頻
度が高いものほどキーワード性が高いものとする。ま
た、キーワード同士の部分文字列の一致も考慮して、出
現頻度を計算する。
A semantic block is extracted according to the following procedure. 1. Creation of paragraph relevance matrix (1.1). The input document is analyzed for each paragraph, and keywords are extracted. Keywords are basically nouns, and the higher the frequency of appearance, the higher the keyword characteristics. Also, the appearance frequency is calculated in consideration of the matching of the partial character strings between the keywords.

【0016】(1.2).段落番号をインデックスとし
た2次元配列(正方行列)を用意し、段落と段落のキー
ワードの重複度を計算して、配列要素(成分)に代入す
る。例えば、表1のテキスト例に対する段落関連度マト
リクスは表2に示すようになる。
(1.2). A two-dimensional array (square matrix) using a paragraph number as an index is prepared, the degree of overlap between the paragraph and the keyword of the paragraph is calculated, and the calculated degree is substituted into an array element (component). For example, a paragraph relevance matrix for the text example in Table 1 is as shown in Table 2.

【0017】[0017]

【表2】 [Table 2]

【0018】図1は、本発明による段落関連マトリクス
を説明するための概要図で、以下、表2と共に説明す
る。意味ブロック抽出に使用するのは、2次元配列(正
方行列)の上半分の三角形領域であり、対角成分は使用
しない。つまり、段落番号(n)と段落番号(m)の関
連度R(n,m)の計算に対して、段落番号の並びを考
慮していない。すなわち、次の理由(a),(b)によ
り、R(n,m)とR(m,n)の値は同じであるとみ
なしている。 (a)不必要な計算をしない。R(n,m)とR(m,
n)の値を異なるものとしたら、段落関連度マトリクス
の下半分を新たに計算しなければならなくなる。 (b)意味ブロック抽出において、R(n,m)とR
(m,n)の値を別にする論理的根拠がない。R(n,
m)は、別な見方をすれば、意味空間上における段落n
と段落mの一種の距離であるとみなせる。従って、段落
nから段落mを計った距離と段落mから段落nを計った
距離は同じであるべきであり、そのように定義されなけ
れば、意味ブロック抽出過程において不都合が生じる。
FIG. 1 is a schematic diagram for explaining a paragraph-related matrix according to the present invention. A triangular area in the upper half of a two-dimensional array (square matrix) is used for semantic block extraction, and no diagonal components are used. In other words, the calculation of the relevance R (n, m) between the paragraph number (n) and the paragraph number (m) does not consider the arrangement of the paragraph numbers. That is, for the following reasons (a) and (b), the values of R (n, m) and R (m, n) are considered to be the same. (A) Do not perform unnecessary calculations. R (n, m) and R (m,
If the value of n) is different, the lower half of the paragraph relevance matrix must be newly calculated. (B) In extracting a semantic block, R (n, m) and R (n, m)
There is no rationale to separate the value of (m, n). R (n,
m) is, from another perspective, a paragraph n in the semantic space.
And a kind of distance of paragraph m. Therefore, the distance measured from the paragraph n to the paragraph m should be the same as the distance measured from the paragraph m to the paragraph n, and if not defined, a problem occurs in the semantic block extraction process.

【0019】2.段落関連度マトリクスから三角形(対
角線上の成分を含まない)を切り出す 三角形が意味ブロックを表す。すなわち、三角形を切り
出すことが意味ブロックの抽出を意味する。表2の段落
関連度マトリクスには、キーワードノイズがあるため意
味ブロックである三角形がないように見えるが、以下に
説明する方式によれば、三角形が切り出せる。
2. Triangles (excluding diagonal components) are extracted from the paragraph relevance matrix. Triangles represent semantic blocks. In other words, cutting out a triangle means extracting a meaning block. In the paragraph relevance matrix of Table 2, it seems that there is no triangle which is a semantic block due to the presence of keyword noise. However, according to the method described below, a triangle can be cut out.

【0020】(2.1).面積比の計算 段落関連度マトリクス(n×n)において、上述の如く
片側領域(三角形の領域)において、第1行と、任意番
目の列(i列)と、対角線とで囲まれる三角形内の関連
度の総和をDi(三角形の面積内の関連度総和)、前記
三角形の列に対応しかつ該三角形を除く矩形領域内の関
連度の総和をRi(矩形の面積内の関連度総和)とす
る。マトリクス上のすべての段落番号iに対して、Di
とRiを計算する。この結果、D1,D2,…,Dn
1,R2,…,Rnが求まる。
(2.1). Calculation of area ratio In the paragraph relevance matrix (n × n), as described above, in one side region (triangular region), the first row, the arbitrary column (i column), and the triangle within the diagonal line The sum of the relevance is D i (the sum of the relevance in the area of the triangle), and the sum of the relevance in the rectangular area corresponding to the row of the triangle and excluding the triangle is R i (the sum of the relevance in the area of the rectangle). ). For all paragraph numbers i on the matrix, Di
And R i . As a result, D 1 , D 2 ,..., D n ,
R 1 , R 2 ,..., R n are obtained.

【0021】(2.2).極小点の探索 すべてのDiとRiに対してRi/Diを計算し、式(1)
を満たす点を探す。 Ri/Di≧Ri+1/Di+1<Ri+2/Di+2 …式(1) この時、i+1番目の段落が分割候補点になる。なお、
比を逆にとれば、分割候補点となる極値は、極大点とな
る。
(2.2). Finding the minimum point R i / D i is calculated for all D i and R i , and equation (1)
Find points that satisfy. R i / D i ≧ R i + 1 / D i + 1 <R i + 2 / D i + 2 (1) At this time, the ( i + 1) th paragraph is a division candidate point. In addition,
If the ratio is reversed, the extremum which is a division candidate point becomes the maximum point.

【0022】(2.3).話題転換係数 式(1)で求めた段落iに対して、式(2)の計算をす
る。 (Ri+2/Di+2)/(Ri+1/Di+1) …式(2) この値は、意味ブロックの話題の転換の度合いを表して
いる。仮に、この値を話題転換係数と呼ぶことにする。
話題転換係数が1に十分近い場合は、式(1)で求めた
分割点により区切られて出来る2つの意味ブロックは互
いに似たような話題を題材にしていることを意味してい
る。
(2.3). Topic conversion coefficient Equation (2) is calculated for paragraph i obtained by equation (1). (R i + 2 / D i + 2 ) / (R i + 1 / D i + 1 ) Expression (2) This value represents the degree of the change of the topic of the semantic block. This value will be referred to as a topic conversion coefficient.
If the topic conversion coefficient is sufficiently close to 1, it means that the two semantic blocks formed by the division points obtained by the equation (1) are based on topics similar to each other.

【0023】話題転換係数が1から離れるほど、2つの
意味ブロックは、異なる話題を題材にしていることにな
る。従って、話題転換係数が1より明らかに大きい場合
は、段落i+1は、意味の切れ目になる。つまり、段落
番号が1〜i+1の意味ブロックと段落番号がi+2〜
nの意味ブロックに分かれる。
As the topic conversion coefficient becomes farther from 1, the two semantic blocks are based on different topics. Thus, if the topic conversion factor is clearly greater than 1, paragraph i + 1 is a break in meaning. That is, the semantic block whose paragraph number is 1 to i + 1 and the paragraph number is i + 2
It is divided into n meaning blocks.

【0024】(2.4).上記話題転換係数というの
は、図2,図3の曲線の極小点における曲線の傾き(微
分係数)を意味する。Riの値が急に大きくなり、逆に
iの値が急に小さくなると極小点の曲線の傾きが大き
くなる。つまり極小点Pを境として話題の内容が大きく
異なることを意味する。話題の転換があいまいに推移す
ると(論旨があいまいな文章や小説など)、極小点が存
在しても、話題転換係数が1に近くなり、意味ブロック
としての三角形が切り出せなくなる。
(2.4). The topic conversion coefficient means the slope (differential coefficient) of the curve at the minimum point of the curves in FIGS. The value of R i is suddenly increased, the slope of the curve of the minimum point when the value is suddenly decreased in D i is increased conversely. In other words, it means that the content of the topic is greatly different from the minimum point P. If the change of the topic is ambiguous (a sentence or a novel whose amendment is ambiguous), the topic conversion coefficient becomes close to 1 even if there is a minimum point, so that a triangle as a semantic block cannot be cut out.

【0025】このような場合、話題転換係数の値を適切
に決めることにより、適切な意味ブロックを抽出できる
ようになる。実験の結果、話題転換係数を1.1に設定
しても、良好な結果を得ることができた。話題転換係数
の導入により、誤った意味ブロックの抽出を防止でき
る。
In such a case, an appropriate meaning block can be extracted by appropriately determining the value of the topic conversion coefficient. As a result of the experiment, good results could be obtained even if the topic conversion coefficient was set to 1.1. By introducing the topic conversion coefficient, it is possible to prevent the extraction of an incorrect semantic block.

【0026】(2.5).意味ブロック抽出における孤
立段落の判定 段落iが、意味ブロックの先頭にあって、矩形の面積
(Ri)の成分の合計値が所定値以下例えば0の場合、
孤立段落になる。表2の段落関連度マトリクスを見れば
わかるように、この段落は、どの段落とも関連していな
い。本意味ブロック抽出ロジックの性格上、孤立段落
(どの段落とも関連せずに孤立して存在する段落)は、
必ず意味ブロックの先頭にくる(後述の『意味ブロック
の切り出し方法に対する理論的な背景』と表3の『アル
ゴリズムの実装』を参照)。このような場合は、意味ブ
ロックの開始段落番号をS、終了段落番号をEとする
と、 [S,E]→[S,S]+[S+1,E] …式(3) のように、段落内を分割して処理する。
(2.5). Determination of Isolated Paragraph in Semantic Block Extraction When the paragraph i is at the head of the semantic block and the total value of the components of the rectangular area (R i ) is equal to or less than a predetermined value, for example, 0,
It becomes an isolated paragraph. As can be seen from the paragraph association matrix shown in Table 2, this paragraph is not associated with any paragraph. Due to the nature of this semantic block extraction logic, isolated paragraphs (paragraphs that are isolated without being related to any paragraph)
It always comes at the beginning of the semantic block (see "Theoretical background to semantic block extraction method" described later and "Algorithm implementation" in Table 3). In such a case, assuming that the starting paragraph number of the semantic block is S and the ending paragraph number is E, [S, E] → [S, S] + [S + 1, E]... Is divided and processed.

【0027】この孤立段落は、意味ブロック[S+1,
E]とは関連していないが、直前の段落と関連している
可能性があるので、厳密な結果を求める場合は、その接
続可能性を検査する必要がある。ただし、孤立段落は重
要文を含む可能性が低いので、重要文抽出処理の前処理
として意味ブロックを抽出する場合には無視できる。
This isolated paragraph has a meaning block [S + 1,
E], but it may be related to the previous paragraph, so if you want an exact result, you need to check its connectivity. However, since an isolated paragraph is unlikely to include an important sentence, it can be ignored when extracting a semantic block as preprocessing of the important sentence extraction processing.

【0028】3.意味ブロックである三角形の切リ出し
方法に対する理論的な背景 (3.1).三角形と矩形の面積比により、三角形を切
り出す根拠 表2の段落関連度マトリクスにおいて、相互に関連度の
高い段落の集まりは、段落関連度マトリクス上で三角形
を構成するのは明らかである。しかし、実際は、互いに
関連のない段落同士でも、同じようなキーワードを持つ
場合があるので、段落関連度マトリクス上にノイズとな
って表れる。
3. Theoretical background to the method of extracting a triangle that is a semantic block (3.1). Grounds for Triangulating Triangles Based on the Area Ratio of Triangles and Rectangles In the paragraph relevance matrix of Table 2, it is clear that a group of paragraphs having a high degree of relevance constitutes a triangle on the paragraph relevance matrix. However, in practice, even paragraphs that are not related to each other may have similar keywords, and thus appear as noise on the paragraph relevance matrix.

【0029】そうしたノイズは、矩形上に表れる。表1
のテキスト例では、段落1〜段落5までが1つの意味ブ
ロックを形成し、段落6〜段落10までが別な意味ブロ
ックを形成する。しかし、段落1と段落6では、「ワシ
ントン」,「米政府」,「連邦政府」などのキーワード
が共通に出現し、互いに関連があるように見える。この
場合、こうしたキーワードはノイズであり、非対角成分
である矩形に表れている。表2の(1,6)の要素(成
分)である9という値がそうである。こうしたノイズを
取り除いて、三角形を切り出すには、三角形と矩形の面
積比に注目すれば良い。
Such noise appears on a rectangle. Table 1
In the text example, paragraphs 1 to 5 form one semantic block, and paragraphs 6 to 10 form another semantic block. However, in paragraphs 1 and 6, keywords such as "Washington", "US government", and "Federal government" appear in common and seem to be related to each other. In this case, such keywords are noise and appear in rectangles that are off-diagonal components. That is the value of 9 which is the element (component) of (1, 6) in Table 2. In order to remove such noise and cut out a triangle, attention should be paid to the area ratio between the triangle and the rectangle.

【0030】ノイズがないと仮定すると、図1に示す段
落関連度マトリクスから容易に理解されるように、(矩
形の面積)÷(三角形の面積)の値は、段落の始まりで
無限大になり(Dの面積が0)、段落の終わりで、0
(Rの面積が0)になる。
Assuming that there is no noise, the value of (area of the rectangle) 三角形 (area of the triangle) becomes infinite at the beginning of the paragraph, as can be easily understood from the paragraph relevance matrix shown in FIG. (D area is 0), 0 at the end of the paragraph
(R area is 0).

【0031】図2は、(矩形の面積)÷(三角形の面
積)の値を概念的な曲線(当然ながら、実際には、離散
曲線になる)で表したもので(この例では、n個の段落
が2つの意味ブロックに分割されたことを意味してい
る)、図2において、極小点Pの値が0(Rの値が0)
になり、段落番号1おける値が無限大、段落番号nにお
ける値が0になることを表している。
FIG. 2 shows the value of (the area of a rectangle) ÷ (the area of a triangle) as a conceptual curve (of course, actually becomes a discrete curve). Is divided into two semantic blocks). In FIG. 2, the value of the minimum point P is 0 (the value of R is 0).
And the value in paragraph number 1 is infinite, and the value in paragraph number n is 0.

【0032】図3は、ノイズがある場合で、この場合
は、意味ブロックの分割点における極小点Pの値が、ノ
イズの分だけ、Y軸方向に増加する。ただし、段落番号
1における値は無限大、段落nにおける値は0のままで
ある。注目すべきは、ノイズがある場合でもない場合で
も、曲線の形状は図2,図3とも似たようなものになる
点である。すなわち、面積比の値が無限大から始まり、
極小点と極大点を交互に持ちながら、次第に0に減衰し
ていくのである。
FIG. 3 shows the case where there is noise. In this case, the value of the minimum point P at the division point of the meaning block increases in the Y-axis direction by the amount of the noise. However, the value in paragraph number 1 is infinite, and the value in paragraph n remains 0. It should be noted that the shape of the curve is similar to FIGS. 2 and 3 regardless of whether there is noise. That is, the value of the area ratio starts from infinity,
It gradually decreases to 0 while having the minimum point and the maximum point alternately.

【0033】(3.2).極小点が分割点になる理由 表2の段落関連マトリクスから、意味ブロック(三角
形)内では次の関係が成立する。 R1≦R2≦…<Rk-1<Rk>Rk+1>…>Rm(Rm→0) …式(4) D1≦D2≦…<Dm …式(5) 段落番号1〜mの間に、分割点はないとする。この時意
味ブロック内では、 ∀i∈[l,m] …式(6) の定条件のもとで、 Ri/Di≧Ri+1/Di+1 …式(7) が成立することを示す(この説明は数学的な証明ではな
いので厳密さに欠ける)。
(3.2). Reason why the minimum point becomes a division point From the paragraph relation matrix of Table 2, the following relation is established in the semantic block (triangle). R 1 ≤R 2 ≤ ... <R k-1 <R k > R k + 1 >...> R m (R m → 0) Equation (4) D 1 ≦ D 2 ≦ ... <D m Equation (5) It is assumed that there is no division point between paragraph numbers 1 to m. At this time, in the semantic block, R i / D i ≧ R i + 1 / D i + 1 ... Equation (7) holds under the fixed condition of {i} [l, m]... (This explanation is not a mathematical proof, so it lacks rigor).

【0034】[0034]

【数1】 (Equation 1)

【0035】となる。このX,Yは、段落関連度マトリ
クスにおいて、図4に示すように、それぞれ、列がiの
Y方向の成分、行がiのX方向の成分を指す。(Y−
X)が0以上の場合は、式(8)の符号は正になる。
(Y−X)が負の場合に、 Di>(Ri・Y)/(X−Y) …式(9) を満たす段落関連度マトリクスの要素(成分)の状態を
示す。式(9)が成立すると、式(8)の符号が負にな
り、iが極小点になる。すなわち、式(9)を満たす段
落関連度マトリクスの要素(成分)が存在した場合は、
分割点がないと仮定した意味ブロックに分割点が存在す
ることになる。そうした場合について、以下(a),
(b)の2つに分けて検討してみる。
## EQU1 ## In the paragraph relevance matrix, X and Y indicate a component in the Y direction with a column of i and a component in the X direction with a row i, respectively, as shown in FIG. (Y-
When X) is 0 or more, the sign of Expression (8) is positive.
When (Y−X) is negative, D i > (R i · Y) / (X−Y)... Indicates the state of the elements (components) of the paragraph relevance matrix that satisfies Expression (9). When Expression (9) is satisfied, the sign of Expression (8) becomes negative, and i becomes the minimum point. That is, when there is an element (component) of the paragraph relevance matrix that satisfies Expression (9),
The division point exists in the semantic block assuming that there is no division point. In such cases, the following (a),
Let's consider the two parts (b).

【0036】(a).Y/(X−Y)>1 すなわち
X>Y>X/2 の場合 上記式(9)において、Riの係数が1より大きい時
に、式(9)が成立するので、Diの面積(重み:関連
度の合計値)は、Riの面積(重み:関連度の合計値)
より大きいと言える。すなわち、三角形の面積(重み)
より、矩形の面積(重み)より大きい場合に式(9)が
成立する。
(A). Y / (XY)> 1 That is,
X>Y> X / 2 if the above formula (9), when the coefficient is greater than 1 the R i, since equation (9) is satisfied, the area of the D i (weight: total value of relevance), the Area of R i (weight: total value of relevance)
It can be said that it is larger. That is, the area (weight) of the triangle
Therefore, when the area (weight) of the rectangle is larger, Expression (9) holds.

【0037】Yの値がXの値と近い状態で、三角形の重
みが周辺部より重い場合は、同じ話題を扱う1つの意味
ブロック内で、話題があいまいに展開していると考えら
れる。そうした場合は、式(8)が負になり、iが極小
点になる。この極小点で分割される前後の意味ブロック
は同じ話題について記述されている意味ブロックで、こ
の極小点における話題転換係数は1にかなり近い値とな
る。
If the value of Y is close to the value of X and the weight of the triangle is heavier than the surroundings, it is considered that the topic is unclearly developed in one semantic block that handles the same topic. In such a case, equation (8) becomes negative and i becomes the minimum point. The semantic blocks before and after the division at the minimum point are semantic blocks describing the same topic, and the topic conversion coefficient at this minimum point has a value quite close to 1.

【0038】(b).Y/(X−Y)≦1 すなわち
0≦Y≦X/2 の場合 Yが0の場合は、段落iは孤立段落となる。この時、式
(8)の符号は負になり極小点が存在する。また、Yが
X/2に近くなるほど、aの状況に近づく。まとめる
と、分割点がないと仮定した意味ブロック内でも、孤立
段落が存在したり、話題が曖昧に展開したりすると、分
割点が発生する。しかし、すでに説明したように、話題
転換係数の導入と、孤立段落の処理により、こうした状
況を救済することが可能になる。
(B). Y / (XY) ≦ 1 That is,
When 0 ≦ Y ≦ X / 2 When Y is 0, the paragraph i is an isolated paragraph. At this time, the sign of equation (8) becomes negative, and there is a minimum point. Further, as Y approaches X / 2, the situation approaches a. In summary, even in a semantic block that is assumed to have no division point, a division point occurs when an isolated paragraph exists or a topic unambiguously develops. However, as described above, such a situation can be remedied by introducing a topic conversion coefficient and processing an isolated paragraph.

【0039】4.アルゴリズムの実装 意味ブロックの抽出アルゴリズムの実装は極めて簡単で
あり、実際のコードも非常に短いので、その例を表3に
疑似コードで示す(ただし、意味ブロックの統合、孤立
段落処理は、省略している)。ただし、DiとRiの計算
の高速化のために、段落関連度マトリクスは2次元配列
ではなく、まったく別個のデータ構造になっている。こ
の疑似コードでは、与えられた段落群から意味の切れ目
を1つ見つけ、段落を2つの意味段落群に分けている。
意味の切れ目が見つからない場合は、意味ブロック抽出
処理は終了する。意味の切れ目があった場合には、分割
した最初の段落群の意味の切れ目を探索するために、再
帰的に自分自身を呼び出す。同様に分割した後の段落群
の意味の切れ目を探索するために、再帰的に呼び出す。
意味の切れ目の判断条件は、『三角形の切り出し方法』
で説明した通りである。
4. Algorithm Implementation The implementation of the semantic block extraction algorithm is extremely simple, and the actual code is very short. An example is shown in Table 3 in pseudo code (however, the integration of semantic blocks and the isolated paragraph processing are omitted. ing). However, to speed up the calculation of D i and R i , the paragraph relevance matrix is not a two-dimensional array but has a completely separate data structure. In this pseudo code, one break in meaning is found from a given paragraph group, and the paragraph is divided into two meaning paragraph groups.
If no meaning break is found, the meaning block extraction process ends. If there is a meaning break, recursively call itself to search for a meaning break in the first paragraph group divided. Similarly, it is called recursively to search for a break in the meaning of a group of paragraphs after division.
Judgment condition of the break of the meaning is "triangulation method"
As described in the above.

【0040】[0040]

【表3】 [Table 3]

【0041】[0041]

【発明の効果】本発明によれば、新聞記事など複数の話
題が混在した文書でも、話題ごとに要約を提供すること
が可能になる。新聞記事などのように複数の記事を有す
るものから重要文を抽出する場合、本発明による意味ブ
ロック抽出を行ってから、該当する記事を切り出し、そ
こから重要文を抽出した方が、複数の記事から直接重要
文を抽出する方よりも良い結果が得られる。また、本発
明によれば、同じ文書に日本語と英語などのように2つ
以上の言語が混在した場合でも、日本語で記述された部
分に分割することが可能になる。上記話題転換係数の導
入により、誤った意味ブロックの抽出を防止できる。
According to the present invention, it is possible to provide a summary for each topic even in a document including a plurality of topics such as newspaper articles. When extracting an important sentence from an article having a plurality of articles such as a newspaper article, the extraction of the relevant article after performing the semantic block extraction according to the present invention, and extracting the important sentence therefrom, Is better than extracting important sentences directly from Further, according to the present invention, even when two or more languages such as Japanese and English are mixed in the same document, it is possible to divide the document into portions described in Japanese. By introducing the topic conversion coefficient, it is possible to prevent erroneous semantic blocks from being extracted.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 段落関連度マトリクスを説明するための概要
図である。
FIG. 1 is a schematic diagram for explaining a paragraph relevance matrix.

【図2】 三角形領域と矩形領域の関係を説明するため
の図である。
FIG. 2 is a diagram for explaining a relationship between a triangular area and a rectangular area.

【図3】 三角形領域と矩形領域の関係(ノイズがある
場合)を説明する図である。
FIG. 3 is a diagram illustrating a relationship between a triangular area and a rectangular area (when there is noise).

【図4】 段落関連度マトリクスを説明する図である。FIG. 4 is a diagram illustrating a paragraph relevance matrix.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 電子化された文書を段落に分割し、 上記段落から抽出されたキーワードに基づいて段落間の
関連度を計算し、 段落を次元とする正方行列において、該正方行列の対角
成分を境として片側の領域の各成分に上記関連度を入
れ、該関連度を入れた前記片側領域において、任意番目
の行(又は列)と、任意番目の列(又は行)と、対角成
分と、で囲まれる三角形領域内の関連度の合計値を求
め、 該関連度の合計値に基づいて文書の分割点を求めること
を特徴とする文書処理装置。
An electronic document is divided into paragraphs, a relevancy between paragraphs is calculated based on keywords extracted from the paragraphs, and a square matrix having the paragraphs as a dimension is a diagonal of the square matrix. The relevance is put into each component of the one-sided area with the component as a boundary, and in the one-sided area where the relevance is put, an arbitrary row (or column), an arbitrary column (or row), and a diagonal A document processing apparatus comprising: obtaining a total value of relevance in a triangular region surrounded by components; and obtaining a document division point based on the total value of the relevance.
【請求項2】 請求項1に記載された文書処理装置にお
いて、前記三角形領域内の合計値と、前記三角形領域の
列(又は行)に対応しかつ該三角形領域を除く矩形領域
内の関連度の合計値との関係から文書の分割点を求める
ことを特徴とする文書処理装置。
2. The document processing apparatus according to claim 1, wherein a total value in the triangular area and a degree of association in a rectangular area corresponding to a column (or row) of the triangular area and excluding the triangular area. A document division point obtained from a relationship with a total value of the document.
【請求項3】 請求項2に記載された文書処理装置にお
いて、前記三角形領域内の合計値と、前記矩形領域内の
関連度の合計値との比から極値を求めることにより、文
書の分割点を求めることを特徴とする文書処理装置。
3. The document processing apparatus according to claim 2, wherein an extremum is obtained from a ratio of a total value in the triangular area to a total value of the relevance in the rectangular area. A document processing device for obtaining points.
【請求項4】 請求項1乃至3のいずれかに記載された
文書処理装置において、隣接する段落における行(又は
列)の関連度の合計をそれぞれ求め、各合計値を比較し
て話題転換点を求めることを特徴とする文書処理装置。
4. The document processing apparatus according to claim 1, wherein a sum of relevance of a row (or a column) in an adjacent paragraph is obtained, and the sum is compared to obtain a topic turning point. A document processing apparatus characterized by determining
【請求項5】 請求項1乃至3のいずれかに記載された
文書処理装置において、前記分割点における行(又は
列)の関連度の合計値が所定値以下の時、該行(又は
列)を孤立段落とすることを特徴とする文書処理装置。
5. The document processing apparatus according to claim 1, wherein when the total value of the relevance of a row (or a column) at the division point is equal to or less than a predetermined value, the row (or the column). A document processing apparatus, wherein the document is an isolated paragraph.
JP11036890A 1999-02-16 1999-02-16 Document processing device Pending JP2000235574A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11036890A JP2000235574A (en) 1999-02-16 1999-02-16 Document processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11036890A JP2000235574A (en) 1999-02-16 1999-02-16 Document processing device

Publications (1)

Publication Number Publication Date
JP2000235574A true JP2000235574A (en) 2000-08-29

Family

ID=12482383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11036890A Pending JP2000235574A (en) 1999-02-16 1999-02-16 Document processing device

Country Status (1)

Country Link
JP (1) JP2000235574A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127523A (en) * 2005-10-27 2006-05-18 Hitachi Ltd Document information display system
US7113897B2 (en) 2000-10-02 2006-09-26 Hewlett-Packard Company Apparatus and method for text segmentation based on coherent units
JP2014059896A (en) * 2003-11-21 2014-04-03 Nuance Communications Inc Topic specific language model and text segment division and label application using user dialogue by topic specific labelling statistic
US9396166B2 (en) 2003-02-28 2016-07-19 Nuance Communications, Inc. System and method for structuring speech recognized text into a pre-selected document format

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113897B2 (en) 2000-10-02 2006-09-26 Hewlett-Packard Company Apparatus and method for text segmentation based on coherent units
US9396166B2 (en) 2003-02-28 2016-07-19 Nuance Communications, Inc. System and method for structuring speech recognized text into a pre-selected document format
JP2014059896A (en) * 2003-11-21 2014-04-03 Nuance Communications Inc Topic specific language model and text segment division and label application using user dialogue by topic specific labelling statistic
US9128906B2 (en) 2003-11-21 2015-09-08 Nuance Communications, Inc. Text segmentation and label assignment with user interaction by means of topic specific language models, and topic-specific label statistics
JP2006127523A (en) * 2005-10-27 2006-05-18 Hitachi Ltd Document information display system

Similar Documents

Publication Publication Date Title
US11741173B2 (en) Related notes and multi-layer search in personal and shared content
US8108405B2 (en) Refining a search space in response to user input
US7461056B2 (en) Text mining apparatus and associated methods
US7958128B2 (en) Query-independent entity importance in books
US8909654B2 (en) Information search method, apparatus, program and computer readable recording medium
CN101501630B (en) Method for ranking computerized search result list and its database search engine
US20060010144A1 (en) System and method for identifying relationships between database records
Lossio-Ventura et al. Yet another ranking function for automatic multiword term extraction
CA2472664A1 (en) Vision-based document segmentation
CN101315623A (en) Text subject recommending method and device
CN105426360A (en) Keyword extracting method and device
CN105005556A (en) Index keyword extraction method and system based on big geological data
EP2045732A2 (en) Determining the depths of words and documents
CN109815499B (en) Information association method and system
CN105550359A (en) Webpage sorting method and device based on vertical search and server
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
JP2000235574A (en) Document processing device
Ohgaya et al. Conceptual fuzzy sets-based navigation system for Yahoo!
Triwijoyo et al. Analysis of Document Clustering based on Cosine Similarity and K-Main Algorithms
CN1629835A (en) Method and apparatus for computer-aided writing and browsing of electronic document
CN114186014A (en) Method, device and device for generating word graph
CN113569000A (en) Text data processing method
Li et al. Web Search Based on Micro Information Units
Wang Relevance weighting of multi-term queries for vector space model
Gelfand et al. Discovering concepts in raw text: Building semantic relationship graphs

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050920