JP2003036262A

JP2003036262A - 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体

Info

Publication number: JP2003036262A
Application number: JP2001221289A
Authority: JP
Inventors: Tsutomu Hirao; 努平尾; Eisaku Maeda; 英作前田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2001-07-23
Filing date: 2001-07-23
Publication date: 2003-02-07

Abstract

(57)【要約】【課題】重要文抽出において、重要度計算時に用いる
重み付けの値を人手によらずに決定する。【解決手段】まず、重要文、非重要文のラベルのつい
た訓練データを特徴ベクトルで表現する（ステップ１
１）。次に、訓練データを用いてSupport Vector Mchin
eにより分類器を構成する（ステップ１２）。次に、重
要文を抽出すべき文書中の各文を特徴ベクトルで表現す
る（ステップ１３）。ここで、 Support Vector Mchine
は、正例、負例を分離平面によって分離する。次に、ス
テップ１２にて構成した分類器を用いてステップ１３で
得た各文の特徴ベクトルの、分離平面からの距離を求め
る（ステップ１４）。次に、分離平面からの距離をsigm
oid関数を用いて確率値に近似し（ステップ１４）、高
い確率値が与えられた文から順に必要に応じて重要文と
判定する（ステップ１５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は重要文抽出方法およ
び装置に関する。

【０００２】

【従来の技術】従来の重要文抽出方法では、文の特徴を
表す集合をF＝｛f₁, f₂,・・・, f_n｝とした場合、それ
らの特徴がとる値の集合をV＝｛v₁, v₂, ・・・, v_n｝
と表し、これらの値の重みを表す集合W＝｛w₁, w₂, ・
・・, w_n｝を考慮して以下の式で文lのスコアを定義す
る。次に、スコアの高い文から順に必要とする重要文の
数に応じて重要文として採用する。

【０００３】

【数１】

【０００４】ここで、Fの要素としては、文の長さ、文
の出現位置、文に出現するキーワードの有無などを考え
ることができる（表１参照）。また、f_iがとる値v_iは、
連続値や１、０の数値で表される。

【０００５】

【表１】

【０００６】Ｗの各要素は、重要文抽出の正解データ
（訓練データ）を用いて人手により最適値を決定する。

【０００７】

【発明が解決しようとする課題】上述した従来の方法で
は、文の特徴集合Fの要素数が大きくなるにしたがい、v
_i（∈V）に対する重みw_i（∈W）を人手により決定する
ことが困難となる。特にFの要素が数百にもおよぶ場合
には人手によりw_iの最適値を決定することはほぼ不可能
である。

【０００８】本発明の目的は、文の重要度計算時に人手
による重み付けを不要とする重要文抽出方法、装置、プ
ログラム、および同プログラムを記録した記録媒体を提
供することにある。

【０００９】

【課題を解決するための手段】本発明は、文を特徴付け
る要素の集合Fとそれらがとる値の集合Vが与えられた場
合に、文をFの各要素に基づくn次元のベクトルで表現
し、さらに各文に対して割り当てられた重要文（正
例）、非重要文（負例）のラベルを考慮して、正例、負
例の２値分類器をSupport Vector Machine （参考文
献：V. Vapnik, The Nature of Statistical Learning
Theory. Spring-Verlag, New York, 1955. 参照）によ
り構成し、任意の一文が重要文になるか否かを決定する
ことができるようにしたものである。

【００１０】ここで、Support Vector Machine (SVM)に
ついて説明する。

【００１１】SVMは、二値分類のための教師あり学習ア
ルゴリズムである。概念図を図５に示す。

【００１２】学習データとして以下のベクトル集合を考
える。

【００１３】

【数２】

【００１４】

【外１】

【００１５】は事例iを表す特徴ベクトルであり、n次元
のベクトルで表現される。y_iは、事象iが正例であると
き１、負例であるときに―１をとるスカラーである。SV
Mでは、

【００１６】

【外２】

【００１７】を以下の分離平面で正例、負例に分類す
る。

【００１８】

【数３】

【００１９】ただし、このような分離平面は一般的に多
数存在するが、 SVMではマージンが最大になるように

【００２０】

【外３】

【００２１】とbを決定する。また、

【００２２】

【数４】

【００２３】上の学習事例をSupport Vectorと呼ぶ。

【００２４】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００２５】図１は本発明の一実施形態の重要文抽出装
置の構成図である。

【００２６】文書中の重要文（正例）と非重要文（負
例）を示す訓練データが与えられたときに各文を正例か
負例のいずれかに属するｒ個の訓練データのベクトルの
集合として（x₁, y₁）, ・・・, （x_r, y_r）と表す。ここで、x_iは文iの特徴ベクトルで、n次元のベ
クトルである。ベクトルの各次元はFに対応し、値はVに
対応する。また、y_iは文iが正例の場合には＋１をと
り、負例の場合には―１をとるスカラ変数のラベルであ
る。訓練データの例を以下の表２に示す。

【００２７】

【表２】

【００２８】分離平面構成部１は、これらの訓練データ
を入力としてSupport Vector Machineにより分類器を作
成する。重要文判定部２は重要文を抽出すべき文書を表
２と同様のベクトルで表現し、Support Vector Mchine
により作成した分類器を用いて重要文であるか否かを判
定する。

【００２９】図２は本実施形態の重要文抽出装置の詳細
な処理を示すフローチャートである。

【００３０】まず、重要文、非重要文のラベルのついた
訓練データを表２に示す特徴ベクトルで表現する（ステ
ップ１１）。次に、訓練データを用いてSupport Vector
Mchineにより分類器を構成する（ステップ１２）。次
に、重要文を抽出すべき文書中の各文を表２に示す特徴
ベクトルで表現する（ステップ１３）。ここで、 Suppo
rt Vector Mchineは、正例、負例を分離平面によって分
離する。すなわち、ある文書中の各文を入力とした場
合、分離平面によって正例と分類された文が重要文であ
り、負例と分類された文が非重要文である（図３参
照）。次に、ステップ１２にて構成した分類器を用いて
ステップ１３で得た各文の特徴ベクトルの、分離平面か
らの距離を求める（ステップ１４）。ある文書に必要と
される重要文の数は分離平面によって分離され、重要文
と判定された文の数と一致するとは限らない。そこで、
分離平面からの距離をsigmoid関数を用いて確率値へ近
似し（ステップ１４）、高い確率値が与えられた文から
順に必要に応じて重要文と判定する（ステップ１５、図
３参照）。ただし、負例側へ距離は負の値で示される。
sigmoid関数は以下の式で定義される。

【００３１】

【数５】

【００３２】本発明の有効性を実験により確かめた。

【００３３】実験には、TSC（Text Summarization Chal
lenge）の重要文抽出データを利用した。このデータ
は、９４年、９５年、９８年の毎日新聞の報道、社説、
解説などの全１８０記事から成る。記事を構成する文の
数に対して、１０％、３０％、５０％の要約率を設定
し、重要文が抽出されている。Dryrun, Formalrun時に
それぞれ３０文書が公開され、Formalrun の後に１２０
文書が公開された。表３に各セットの全文数、一文書あ
たりの平均文数を示す。

【００３４】

【表３】

【００３５】システムによって抽出された文の数をａ，
ａに含まれる正解文の数をｂとすると、一致率はｂ／ａ
となる。１５０文書を５等分し、５回の交差検定を行な
った結果の平均値を表４に示す。本発明の方法が最も高
精度で、次いで従来からの重要文抽出方法であるＬｅａ
ｄ手法、Ｃ４，５による手法の順であることがわかる。

【００３６】

【表４】

【００３７】なお、図２に示した処理は重要文抽出プロ
グラムとしてフロッピィディスク、ＣＤ―ＲＯＭ、光磁
気ディスク等の記録媒体に記録し、あるいはハードディ
スクに格納してパソコン等のコンピュータで実行するこ
ともできる。

【００３８】

【発明の効果】以上、説明したように本発明によれば、
Support Vector Mchineを用いた重要文抽出装置が実現
でき、文をベクトルで表現し入力するだけでそれが重要
であるか否かを判定できるという効果が得られる。

【図面の簡単な説明】

【図１】本発明の一実施形態の重要文抽出装置の構成図
である。

【図２】図１の重要文抽出装置の処理の流れを示すフロ
ーチャートである。

【図３】超平面によって正例、負例を分離する様子を示
す図である。

【図４】各文の特徴ベクトルの確率値を示す図である。

【図５】Support Vector Mchineの概念図である。

【符号の説明】

１分離平面構成部２重要文判定部１１〜１４ステップ

Claims

【特許請求の範囲】

【請求項１】正例、負例のラベルのついた、重要文抽
出のための訓練データを特徴ベクトルで表現するステッ
プと、前記訓練データを用いてSupport Vector Machine によ
り分類器を構成するステップと、重要文を抽出すべき文書中の各文を特徴ベクトルで表現
するステップと、前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求めるステップと、前記分離平面からの各距離を確率値へ変換するステップ
と、前記確率値の高いものから順に必要な数だけを重要文と
決定するステップを有する重要文抽出方法。
【請求項２】正例、負例のラベルのついた、重要文抽
出のための、特徴ベクトルで表現された訓練データを用
いてSupport Vector Machine により分類器を構成する
手段と、重要文を抽出すべき文書中の各文を特徴ベクトルで表現
する手段と、前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求める手段と、前記分離平面からの各距離を確率値へ変換する手段と、前記確率値の高いものから順に必要な数だけを重要文と
決定する手段を有する重要文抽出装置。
【請求項３】正例、負例のラベルのついた、重要文抽
出のための訓練データを特徴ベクトルで表現する手順
と、前記訓練データを用いてSupport Vector Machine によ
り分類器を構成する手順と、重要文を抽出すべき文書中の各文を特徴ベクトルで表現
する手順と、前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求める手順と、前記分離平面からの各距離を確率値へ変換する手順と、前記確率値の高いものから順に必要な数だけを重要文と
決定する手順をコンピュータに実行させる重要文抽出プ
ログラム。
【請求項４】請求項３に記載の重要文抽出プログラム
を記録した記録媒体。