JP2003036262A - 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 - Google Patents
重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体Info
- Publication number
- JP2003036262A JP2003036262A JP2001221289A JP2001221289A JP2003036262A JP 2003036262 A JP2003036262 A JP 2003036262A JP 2001221289 A JP2001221289 A JP 2001221289A JP 2001221289 A JP2001221289 A JP 2001221289A JP 2003036262 A JP2003036262 A JP 2003036262A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- important
- feature vector
- sentences
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】
【課題】 重要文抽出において、重要度計算時に用いる
重み付けの値を人手によらずに決定する。 【解決手段】 まず、重要文、非重要文のラベルのつい
た訓練データを特徴ベクトルで表現する(ステップ1
1)。次に、訓練データを用いてSupport Vector Mchin
eにより分類器を構成する(ステップ12)。次に、重
要文を抽出すべき文書中の各文を特徴ベクトルで表現す
る(ステップ13)。ここで、 Support Vector Mchine
は、正例、負例を分離平面によって分離する。次に、ス
テップ12にて構成した分類器を用いてステップ13で
得た各文の特徴ベクトルの、分離平面からの距離を求め
る(ステップ14)。次に、分離平面からの距離をsigm
oid関数を用いて確率値に近似し(ステップ14)、高
い確率値が与えられた文から順に必要に応じて重要文と
判定する(ステップ15)。
重み付けの値を人手によらずに決定する。 【解決手段】 まず、重要文、非重要文のラベルのつい
た訓練データを特徴ベクトルで表現する(ステップ1
1)。次に、訓練データを用いてSupport Vector Mchin
eにより分類器を構成する(ステップ12)。次に、重
要文を抽出すべき文書中の各文を特徴ベクトルで表現す
る(ステップ13)。ここで、 Support Vector Mchine
は、正例、負例を分離平面によって分離する。次に、ス
テップ12にて構成した分類器を用いてステップ13で
得た各文の特徴ベクトルの、分離平面からの距離を求め
る(ステップ14)。次に、分離平面からの距離をsigm
oid関数を用いて確率値に近似し(ステップ14)、高
い確率値が与えられた文から順に必要に応じて重要文と
判定する(ステップ15)。
Description
【0001】
【発明の属する技術分野】本発明は重要文抽出方法およ
び装置に関する。
び装置に関する。
【0002】
【従来の技術】従来の重要文抽出方法では、文の特徴を
表す集合をF={f1, f2,・・・, fn}とした場合、それ
らの特徴がとる値の集合をV={v1, v2, ・・・, vn}
と表し、これらの値の重みを表す集合W={w1, w2, ・
・・, wn}を考慮して以下の式で文lのスコアを定義す
る。次に、スコアの高い文から順に必要とする重要文の
数に応じて重要文として採用する。
表す集合をF={f1, f2,・・・, fn}とした場合、それ
らの特徴がとる値の集合をV={v1, v2, ・・・, vn}
と表し、これらの値の重みを表す集合W={w1, w2, ・
・・, wn}を考慮して以下の式で文lのスコアを定義す
る。次に、スコアの高い文から順に必要とする重要文の
数に応じて重要文として採用する。
【0003】
【数1】
【0004】ここで、Fの要素としては、文の長さ、文
の出現位置、文に出現するキーワードの有無などを考え
ることができる(表1参照)。また、fiがとる値viは、
連続値や1、0の数値で表される。
の出現位置、文に出現するキーワードの有無などを考え
ることができる(表1参照)。また、fiがとる値viは、
連続値や1、0の数値で表される。
【0005】
【表1】
【0006】Wの各要素は、重要文抽出の正解データ
(訓練データ)を用いて人手により最適値を決定する。
(訓練データ)を用いて人手により最適値を決定する。
【0007】
【発明が解決しようとする課題】上述した従来の方法で
は、文の特徴集合Fの要素数が大きくなるにしたがい、v
i(∈V)に対する重みwi(∈W)を人手により決定する
ことが困難となる。特にFの要素が数百にもおよぶ場合
には人手によりwiの最適値を決定することはほぼ不可能
である。
は、文の特徴集合Fの要素数が大きくなるにしたがい、v
i(∈V)に対する重みwi(∈W)を人手により決定する
ことが困難となる。特にFの要素が数百にもおよぶ場合
には人手によりwiの最適値を決定することはほぼ不可能
である。
【0008】本発明の目的は、文の重要度計算時に人手
による重み付けを不要とする重要文抽出方法、装置、プ
ログラム、および同プログラムを記録した記録媒体を提
供することにある。
による重み付けを不要とする重要文抽出方法、装置、プ
ログラム、および同プログラムを記録した記録媒体を提
供することにある。
【0009】
【課題を解決するための手段】本発明は、文を特徴付け
る要素の集合Fとそれらがとる値の集合Vが与えられた場
合に、文をFの各要素に基づくn次元のベクトルで表現
し、さらに各文に対して割り当てられた重要文(正
例)、非重要文(負例)のラベルを考慮して、正例、負
例の2値分類器をSupport Vector Machine (参考文
献:V. Vapnik, The Nature of Statistical Learning
Theory. Spring-Verlag, New York, 1955. 参照)によ
り構成し、任意の一文が重要文になるか否かを決定する
ことができるようにしたものである。
る要素の集合Fとそれらがとる値の集合Vが与えられた場
合に、文をFの各要素に基づくn次元のベクトルで表現
し、さらに各文に対して割り当てられた重要文(正
例)、非重要文(負例)のラベルを考慮して、正例、負
例の2値分類器をSupport Vector Machine (参考文
献:V. Vapnik, The Nature of Statistical Learning
Theory. Spring-Verlag, New York, 1955. 参照)によ
り構成し、任意の一文が重要文になるか否かを決定する
ことができるようにしたものである。
【0010】ここで、Support Vector Machine (SVM)に
ついて説明する。
ついて説明する。
【0011】SVMは、二値分類のための教師あり学習ア
ルゴリズムである。概念図を図5に示す。
ルゴリズムである。概念図を図5に示す。
【0012】学習データとして以下のベクトル集合を考
える。
える。
【0013】
【数2】
【0014】
【外1】
【0015】は事例iを表す特徴ベクトルであり、n次元
のベクトルで表現される。yiは、事象iが正例であると
き1、負例であるときに―1をとるスカラーである。SV
Mでは、
のベクトルで表現される。yiは、事象iが正例であると
き1、負例であるときに―1をとるスカラーである。SV
Mでは、
【0016】
【外2】
【0017】を以下の分離平面で正例、負例に分類す
る。
る。
【0018】
【数3】
【0019】ただし、このような分離平面は一般的に多
数存在するが、 SVMではマージンが最大になるように
数存在するが、 SVMではマージンが最大になるように
【0020】
【外3】
【0021】とbを決定する。また、
【0022】
【数4】
【0023】上の学習事例をSupport Vectorと呼ぶ。
【0024】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0025】図1は本発明の一実施形態の重要文抽出装
置の構成図である。
置の構成図である。
【0026】文書中の重要文(正例)と非重要文(負
例)を示す訓練データが与えられたときに各文を正例か
負例のいずれかに属するr個の訓練データのベクトルの
集合として (x1, y1), ・・・, (xr, yr) と表す。ここで、xiは文iの特徴ベクトルで、n次元のベ
クトルである。ベクトルの各次元はFに対応し、値はVに
対応する。また、yiは文iが正例の場合には+1をと
り、負例の場合には―1をとるスカラ変数のラベルであ
る。訓練データの例を以下の表2に示す。
例)を示す訓練データが与えられたときに各文を正例か
負例のいずれかに属するr個の訓練データのベクトルの
集合として (x1, y1), ・・・, (xr, yr) と表す。ここで、xiは文iの特徴ベクトルで、n次元のベ
クトルである。ベクトルの各次元はFに対応し、値はVに
対応する。また、yiは文iが正例の場合には+1をと
り、負例の場合には―1をとるスカラ変数のラベルであ
る。訓練データの例を以下の表2に示す。
【0027】
【表2】
【0028】分離平面構成部1は、これらの訓練データ
を入力としてSupport Vector Machineにより分類器を作
成する。重要文判定部2は重要文を抽出すべき文書を表
2と同様のベクトルで表現し、Support Vector Mchine
により作成した分類器を用いて重要文であるか否かを判
定する。
を入力としてSupport Vector Machineにより分類器を作
成する。重要文判定部2は重要文を抽出すべき文書を表
2と同様のベクトルで表現し、Support Vector Mchine
により作成した分類器を用いて重要文であるか否かを判
定する。
【0029】図2は本実施形態の重要文抽出装置の詳細
な処理を示すフローチャートである。
な処理を示すフローチャートである。
【0030】まず、重要文、非重要文のラベルのついた
訓練データを表2に示す特徴ベクトルで表現する(ステ
ップ11)。次に、訓練データを用いてSupport Vector
Mchineにより分類器を構成する(ステップ12)。次
に、重要文を抽出すべき文書中の各文を表2に示す特徴
ベクトルで表現する(ステップ13)。ここで、 Suppo
rt Vector Mchineは、正例、負例を分離平面によって分
離する。すなわち、ある文書中の各文を入力とした場
合、分離平面によって正例と分類された文が重要文であ
り、負例と分類された文が非重要文である(図3参
照)。次に、ステップ12にて構成した分類器を用いて
ステップ13で得た各文の特徴ベクトルの、分離平面か
らの距離を求める(ステップ14)。ある文書に必要と
される重要文の数は分離平面によって分離され、重要文
と判定された文の数と一致するとは限らない。そこで、
分離平面からの距離をsigmoid関数を用いて確率値へ近
似し(ステップ14)、高い確率値が与えられた文から
順に必要に応じて重要文と判定する(ステップ15、図
3参照)。ただし、負例側へ距離は負の値で示される。
sigmoid関数は以下の式で定義される。
訓練データを表2に示す特徴ベクトルで表現する(ステ
ップ11)。次に、訓練データを用いてSupport Vector
Mchineにより分類器を構成する(ステップ12)。次
に、重要文を抽出すべき文書中の各文を表2に示す特徴
ベクトルで表現する(ステップ13)。ここで、 Suppo
rt Vector Mchineは、正例、負例を分離平面によって分
離する。すなわち、ある文書中の各文を入力とした場
合、分離平面によって正例と分類された文が重要文であ
り、負例と分類された文が非重要文である(図3参
照)。次に、ステップ12にて構成した分類器を用いて
ステップ13で得た各文の特徴ベクトルの、分離平面か
らの距離を求める(ステップ14)。ある文書に必要と
される重要文の数は分離平面によって分離され、重要文
と判定された文の数と一致するとは限らない。そこで、
分離平面からの距離をsigmoid関数を用いて確率値へ近
似し(ステップ14)、高い確率値が与えられた文から
順に必要に応じて重要文と判定する(ステップ15、図
3参照)。ただし、負例側へ距離は負の値で示される。
sigmoid関数は以下の式で定義される。
【0031】
【数5】
【0032】本発明の有効性を実験により確かめた。
【0033】実験には、TSC(Text Summarization Chal
lenge)の重要文抽出データを利用した。このデータ
は、94年、95年、98年の毎日新聞の報道、社説、
解説などの全180記事から成る。記事を構成する文の
数に対して、10%、30%、50%の要約率を設定
し、重要文が抽出されている。Dryrun, Formalrun時に
それぞれ30文書が公開され、Formalrun の後に120
文書が公開された。表3に各セットの全文数、一文書あ
たりの平均文数を示す。
lenge)の重要文抽出データを利用した。このデータ
は、94年、95年、98年の毎日新聞の報道、社説、
解説などの全180記事から成る。記事を構成する文の
数に対して、10%、30%、50%の要約率を設定
し、重要文が抽出されている。Dryrun, Formalrun時に
それぞれ30文書が公開され、Formalrun の後に120
文書が公開された。表3に各セットの全文数、一文書あ
たりの平均文数を示す。
【0034】
【表3】
【0035】システムによって抽出された文の数をa,
aに含まれる正解文の数をbとすると、一致率はb/a
となる。150文書を5等分し、5回の交差検定を行な
った結果の平均値を表4に示す。本発明の方法が最も高
精度で、次いで従来からの重要文抽出方法であるLea
d手法、C4,5による手法の順であることがわかる。
aに含まれる正解文の数をbとすると、一致率はb/a
となる。150文書を5等分し、5回の交差検定を行な
った結果の平均値を表4に示す。本発明の方法が最も高
精度で、次いで従来からの重要文抽出方法であるLea
d手法、C4,5による手法の順であることがわかる。
【0036】
【表4】
【0037】なお、図2に示した処理は重要文抽出プロ
グラムとしてフロッピィディスク、CD―ROM、光磁
気ディスク等の記録媒体に記録し、あるいはハードディ
スクに格納してパソコン等のコンピュータで実行するこ
ともできる。
グラムとしてフロッピィディスク、CD―ROM、光磁
気ディスク等の記録媒体に記録し、あるいはハードディ
スクに格納してパソコン等のコンピュータで実行するこ
ともできる。
【0038】
【発明の効果】以上、説明したように本発明によれば、
Support Vector Mchineを用いた重要文抽出装置が実現
でき、文をベクトルで表現し入力するだけでそれが重要
であるか否かを判定できるという効果が得られる。
Support Vector Mchineを用いた重要文抽出装置が実現
でき、文をベクトルで表現し入力するだけでそれが重要
であるか否かを判定できるという効果が得られる。
【図1】本発明の一実施形態の重要文抽出装置の構成図
である。
である。
【図2】図1の重要文抽出装置の処理の流れを示すフロ
ーチャートである。
ーチャートである。
【図3】超平面によって正例、負例を分離する様子を示
す図である。
す図である。
【図4】各文の特徴ベクトルの確率値を示す図である。
【図5】Support Vector Mchineの概念図である。
1 分離平面構成部
2 重要文判定部
11〜14 ステップ
Claims (4)
- 【請求項1】 正例、負例のラベルのついた、重要文抽
出のための訓練データを特徴ベクトルで表現するステッ
プと、 前記訓練データを用いてSupport Vector Machine によ
り分類器を構成するステップと、 重要文を抽出すべき文書中の各文を特徴ベクトルで表現
するステップと、 前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求めるステップと、 前記分離平面からの各距離を確率値へ変換するステップ
と、 前記確率値の高いものから順に必要な数だけを重要文と
決定するステップを有する重要文抽出方法。 - 【請求項2】 正例、負例のラベルのついた、重要文抽
出のための、特徴ベクトルで表現された訓練データを用
いてSupport Vector Machine により分類器を構成する
手段と、 重要文を抽出すべき文書中の各文を特徴ベクトルで表現
する手段と、 前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求める手段と、 前記分離平面からの各距離を確率値へ変換する手段と、 前記確率値の高いものから順に必要な数だけを重要文と
決定する手段を有する重要文抽出装置。 - 【請求項3】 正例、負例のラベルのついた、重要文抽
出のための訓練データを特徴ベクトルで表現する手順
と、 前記訓練データを用いてSupport Vector Machine によ
り分類器を構成する手順と、 重要文を抽出すべき文書中の各文を特徴ベクトルで表現
する手順と、 前記分類器を用いて前記各文の特徴ベクトルの、分離平
面からの距離を求める手順と、 前記分離平面からの各距離を確率値へ変換する手順と、 前記確率値の高いものから順に必要な数だけを重要文と
決定する手順をコンピュータに実行させる重要文抽出プ
ログラム。 - 【請求項4】 請求項3に記載の重要文抽出プログラム
を記録した記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001221289A JP2003036262A (ja) | 2001-07-23 | 2001-07-23 | 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001221289A JP2003036262A (ja) | 2001-07-23 | 2001-07-23 | 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2003036262A true JP2003036262A (ja) | 2003-02-07 |
Family
ID=19054975
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001221289A Pending JP2003036262A (ja) | 2001-07-23 | 2001-07-23 | 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2003036262A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006059352A (ja) * | 2004-08-13 | 2006-03-02 | Microsoft Corp | ドキュメントを要約する方法およびシステム |
| WO2009142253A1 (ja) * | 2008-05-21 | 2009-11-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
| JP2010181966A (ja) * | 2009-02-03 | 2010-08-19 | Ntt Docomo Inc | レコメンド情報評価装置およびレコメンド情報評価方法 |
| JP2011238159A (ja) * | 2010-05-13 | 2011-11-24 | Hitachi Ltd | 計算機システム |
| JP2016189089A (ja) * | 2015-03-30 | 2016-11-04 | 日本電気株式会社 | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 |
-
2001
- 2001-07-23 JP JP2001221289A patent/JP2003036262A/ja active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006059352A (ja) * | 2004-08-13 | 2006-03-02 | Microsoft Corp | ドキュメントを要約する方法およびシステム |
| WO2009142253A1 (ja) * | 2008-05-21 | 2009-11-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
| CN101681448A (zh) * | 2008-05-21 | 2010-03-24 | 索尼株式会社 | 信息处理单元、信息处理方法和程序 |
| JP2010181966A (ja) * | 2009-02-03 | 2010-08-19 | Ntt Docomo Inc | レコメンド情報評価装置およびレコメンド情報評価方法 |
| JP2011238159A (ja) * | 2010-05-13 | 2011-11-24 | Hitachi Ltd | 計算機システム |
| JP2016189089A (ja) * | 2015-03-30 | 2016-11-04 | 日本電気株式会社 | 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Devi et al. | Redundancy-driven modified Tomek-link based undersampling: A solution to class imbalance | |
| JP4311552B2 (ja) | ドキュメントの自動分離 | |
| US20160253597A1 (en) | Content-aware domain adaptation for cross-domain classification | |
| CN105389379A (zh) | 一种基于文本分布式特征表示的垃圾稿件分类方法 | |
| CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
| Cheng et al. | Adversarial email generation against spam detection models through feature perturbation | |
| US10380456B2 (en) | Classification dictionary learning system, classification dictionary learning method and recording medium | |
| CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
| CN101138001A (zh) | 学习处理方法和学习处理装置以及程序 | |
| CN107862051A (zh) | 一种文件分类方法、系统及一种文件分类设备 | |
| AlKhateeb et al. | Multiclass classification of unconstrained handwritten Arabic words using machine learning approaches | |
| JP2003036262A (ja) | 重要文抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 | |
| Jarvis | Data mining with learner corpora | |
| CN116010603A (zh) | 一种用于商业文本分类的特征聚类降维方法 | |
| Purwanta et al. | Backpropagation Neural Network for Book Classification Using the Image Cover | |
| CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
| CN112883158A (zh) | 对短文本分类的方法、装置、介质以及电子设备 | |
| EP3716104A1 (en) | Extracting named entities based using document structure | |
| As et al. | Comparison of sentiment analysis methods on topic haram of music in Youtube | |
| CN103593062B (zh) | 一种数据检测方法及装置 | |
| Zha et al. | Text classification via iVector based feature representation | |
| JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
| JP2012174083A (ja) | プログラム及び情報処理システム | |
| Rahnama et al. | Automatic metadata extraction from iranian theses and dissertations | |
| CN111159410A (zh) | 一种文本情感分类方法、系统、装置及存储介质 |