JPH1115854A - 文書処理方法及び装置並びに記録媒体 - Google Patents
文書処理方法及び装置並びに記録媒体Info
- Publication number
- JPH1115854A JPH1115854A JP9181818A JP18181897A JPH1115854A JP H1115854 A JPH1115854 A JP H1115854A JP 9181818 A JP9181818 A JP 9181818A JP 18181897 A JP18181897 A JP 18181897A JP H1115854 A JPH1115854 A JP H1115854A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- importance
- extracted
- knowledge data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ユーザーの興味対象等が変化してもそれに追
従して知識データを変更し、精度のよい判断を行うこと
ができる文書処理装置を提供すること 【解決手段】 与えられた文書中からキーワードとその
重要度をキーワード抽出部12で抽出し、その文書の作
成時間とともに記憶部13に格納する。文書情報とキー
ワード集合の抽出部15では、時間キー入力手段14に
より与えられた時間軸上の任意の時刻により特定される
対象区間内に存在する文書についてのキーワードと重要
度を、記憶部13から抽出するとともに、その抽出した
キーワードと重要度に基づいてその対象区間における知
識データを生成し、対象区間内での文書情報記憶部16
に格納する。そして、評価部17では、未知の文書が与
えられた場合に、その未知の文書から抽出されたキーワ
ード及び重要度と、記憶部16に格納された知識データ
とを比較し、未知の文書に対する評価を行う。
従して知識データを変更し、精度のよい判断を行うこと
ができる文書処理装置を提供すること 【解決手段】 与えられた文書中からキーワードとその
重要度をキーワード抽出部12で抽出し、その文書の作
成時間とともに記憶部13に格納する。文書情報とキー
ワード集合の抽出部15では、時間キー入力手段14に
より与えられた時間軸上の任意の時刻により特定される
対象区間内に存在する文書についてのキーワードと重要
度を、記憶部13から抽出するとともに、その抽出した
キーワードと重要度に基づいてその対象区間における知
識データを生成し、対象区間内での文書情報記憶部16
に格納する。そして、評価部17では、未知の文書が与
えられた場合に、その未知の文書から抽出されたキーワ
ード及び重要度と、記憶部16に格納された知識データ
とを比較し、未知の文書に対する評価を行う。
Description
【0001】
【発明の属する技術分野】本発明は、文書処理方法及び
装置並びに記録媒体に関するもので、より具体的には、
与えられた文書からキーワードを抽出し、その文書の特
徴を求めて評価基準となる知識データを生成したり、そ
の生成した知識データに基づいて未知の文書を評価し、
知識データに対する一致度などを求めることにより、ユ
ーザーの興味のあるものか否かや内容の推定を行うこと
のできる文書処理を行うものに関する。
装置並びに記録媒体に関するもので、より具体的には、
与えられた文書からキーワードを抽出し、その文書の特
徴を求めて評価基準となる知識データを生成したり、そ
の生成した知識データに基づいて未知の文書を評価し、
知識データに対する一致度などを求めることにより、ユ
ーザーの興味のあるものか否かや内容の推定を行うこと
のできる文書処理を行うものに関する。
【0002】
【従来の技術】従来、文書特徴量を用いた文書処理は一
般化しており、例えば、文書検索の分野においては、問
合わせ式と文書との一致度を計算する尺度として、問合
わせキーワードの文書中での出現頻度(キーワードの重
要度を表わす)やキーワードの出現する文書数(キーワ
ード弁別能力を表わす)を用いている。これにより、多
数の文書から目的とする内容が記載された文書を抽出し
たり、新規の未知文書があるカテゴリーに属する文書で
あるか否かのおおよその判断ができるようになってい
る。
般化しており、例えば、文書検索の分野においては、問
合わせ式と文書との一致度を計算する尺度として、問合
わせキーワードの文書中での出現頻度(キーワードの重
要度を表わす)やキーワードの出現する文書数(キーワ
ード弁別能力を表わす)を用いている。これにより、多
数の文書から目的とする内容が記載された文書を抽出し
たり、新規の未知文書があるカテゴリーに属する文書で
あるか否かのおおよその判断ができるようになってい
る。
【0003】
【発明が解決しようとする課題】ところで、新規文書の
内容が、ユーザーにとって興味のある文書であるか否か
などを判断することは、例えば電子メール文書等におい
て多数のメールが届くような場合にその電子メールの内
容を予めコンピュータ側で解析しユーザーにとって興味
のある(見る)必要のある文書であるか否かを判断する
ことができると、メールを見るか否かの判断の指標とな
り、効率よくメールに対する処理ができて好ましい。
内容が、ユーザーにとって興味のある文書であるか否か
などを判断することは、例えば電子メール文書等におい
て多数のメールが届くような場合にその電子メールの内
容を予めコンピュータ側で解析しユーザーにとって興味
のある(見る)必要のある文書であるか否かを判断する
ことができると、メールを見るか否かの判断の指標とな
り、効率よくメールに対する処理ができて好ましい。
【0004】そこで、精度よく判断する必要があるが、
上記した判断の精度は、比較基準となる知識データの良
否が大きな要因となる。そして、ユーザーにとって見る
必要がある/興味の有する文書は、時間の経過とともに
変化するのが通常である。したがって、ある時期で有効
に判断できた知識も、時間経過とともに有効に判断でき
なくなるおそれがある。したがって、知識データをメン
テナンスして常にユーザーにとって適した状態にするこ
とが必要であるが、個々のユーザーで興味は異なるの
で、実際に個々のユーザーに合わせてメンテナンスをす
ることは煩雑で、実用に供し得ない。
上記した判断の精度は、比較基準となる知識データの良
否が大きな要因となる。そして、ユーザーにとって見る
必要がある/興味の有する文書は、時間の経過とともに
変化するのが通常である。したがって、ある時期で有効
に判断できた知識も、時間経過とともに有効に判断でき
なくなるおそれがある。したがって、知識データをメン
テナンスして常にユーザーにとって適した状態にするこ
とが必要であるが、個々のユーザーで興味は異なるの
で、実際に個々のユーザーに合わせてメンテナンスをす
ることは煩雑で、実用に供し得ない。
【0005】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、従来の文書特徴量に加え、時間的要素を加味するこ
とにより、ユーザーの興味対象等が変化してもそれに追
従して知識データを変更し、精度のよい判断を行うこと
ができ、また、ユーザーの興味対象やその逆が時間とと
もにどのように推移していったかを検出することのでき
る文書処理方法及び装置並びに記録媒体を提供すること
にある。
もので、その目的とするところは、上記した問題を解決
し、従来の文書特徴量に加え、時間的要素を加味するこ
とにより、ユーザーの興味対象等が変化してもそれに追
従して知識データを変更し、精度のよい判断を行うこと
ができ、また、ユーザーの興味対象やその逆が時間とと
もにどのように推移していったかを検出することのでき
る文書処理方法及び装置並びに記録媒体を提供すること
にある。
【0006】
【課題を解決するための手段】上記した目的を達成する
ため、本発明に係る文書処理方法では、まず第1の発明
(第1の実施の形態で実現されている)として、与えら
れた文書中からキーワードを抽出し、前記文書内での前
記キーワードの重要度を算出し、前記抽出されたキーワ
ード及び重要度と、前記与えられた文書の作成時間情報
を含むデータを第1記憶手段に格納する。ここまでの工
程は、実施の形態では図3に示すフローにより実現され
る。次いで、時間軸上の任意の時刻を入力することによ
り設定される対象区間に基づいて前記第1記憶手段をア
クセスし、前記第1記憶手段に格納されたデータのう
ち、前記文書の作成時間が前記対象区間内に存在する文
書についてのキーワードと重要度を抽出するとともに、
その抽出したキーワードと重要度に基づいてその対象区
間における知識データを生成し、その生成された前記対
象区間内での知識データを第2記憶手段に格納すること
ができる(請求項1)。ここまでの工程は実施の形態で
は図4に示すフローにより実現される。
ため、本発明に係る文書処理方法では、まず第1の発明
(第1の実施の形態で実現されている)として、与えら
れた文書中からキーワードを抽出し、前記文書内での前
記キーワードの重要度を算出し、前記抽出されたキーワ
ード及び重要度と、前記与えられた文書の作成時間情報
を含むデータを第1記憶手段に格納する。ここまでの工
程は、実施の形態では図3に示すフローにより実現され
る。次いで、時間軸上の任意の時刻を入力することによ
り設定される対象区間に基づいて前記第1記憶手段をア
クセスし、前記第1記憶手段に格納されたデータのう
ち、前記文書の作成時間が前記対象区間内に存在する文
書についてのキーワードと重要度を抽出するとともに、
その抽出したキーワードと重要度に基づいてその対象区
間における知識データを生成し、その生成された前記対
象区間内での知識データを第2記憶手段に格納すること
ができる(請求項1)。ここまでの工程は実施の形態で
は図4に示すフローにより実現される。
【0007】上記の方法を前提とし、未知の文書が与え
られた場合に、その未知の文書からキーワード及び重要
度を抽出し、前記抽出した未知の文書のキーワードと重
要度を前記第2記憶手段に格納された知識データと比較
し、前記文書に対する評価を行うようにしてもよい(請
求項2)。この工程は、実施の形態では、図7により実
現されている。
られた場合に、その未知の文書からキーワード及び重要
度を抽出し、前記抽出した未知の文書のキーワードと重
要度を前記第2記憶手段に格納された知識データと比較
し、前記文書に対する評価を行うようにしてもよい(請
求項2)。この工程は、実施の形態では、図7により実
現されている。
【0008】前記文書を与えるに際し、カテゴリーを関
連付けて入力し、前記第1記憶手段に格納するデータを
前記カテゴリーごとに分けて格納し、かつ、前記カテゴ
リーごとに前記知識データを生成するとともに、前記第
2記憶手段にカテゴリーごとに格納するようにしてもよ
い(請求項3)。
連付けて入力し、前記第1記憶手段に格納するデータを
前記カテゴリーごとに分けて格納し、かつ、前記カテゴ
リーごとに前記知識データを生成するとともに、前記第
2記憶手段にカテゴリーごとに格納するようにしてもよ
い(請求項3)。
【0009】未知の文書が与えられた場合に、その未知
の文書からキーワード及び重要度を抽出し、その抽出し
たキーワード及び重要度と、前記第2記憶手段に格納さ
れたカテゴリーごとの知識データとを比較し、各カテゴ
リーに対する一致度を求め、かつ、前記求めた各カテゴ
リーに対する一致度に基づいて未知の文書を分類するよ
うにしてもよい(請求項4)。
の文書からキーワード及び重要度を抽出し、その抽出し
たキーワード及び重要度と、前記第2記憶手段に格納さ
れたカテゴリーごとの知識データとを比較し、各カテゴ
リーに対する一致度を求め、かつ、前記求めた各カテゴ
リーに対する一致度に基づいて未知の文書を分類するよ
うにしてもよい(請求項4)。
【0010】そして、上記した各方法を実施するために
適した第1の発明としては、例えば与えられた文書中か
らキーワードを抽出するとともに、前記文書内での前記
キーワードの重要度を算出するキーワード抽出手段と、
前記キーワード抽出手段で抽出されたキーワードと、前
記与えられた文書の作成時間情報を含むデータを記憶す
る第1記憶手段(実施の形態では、「文書情報とキーワ
ード集合の記憶部13」に対応)と、時間軸上の任意の
時刻を入力する時間キー入力手段と、前記第1記憶手段
に格納されたデータのうち、前記文書の作成時間が前記
時間キー入力手段から与えられる時刻により特定される
前記対象区間内に存在する文書についてのキーワードと
重要度を抽出するとともに、その抽出したキーワードと
重要度に基づいてその対象区間における知識データを生
成する生成手段と、その生成手段(実施の形態では、
「文書情報とキーワード集合の抽出部15」に対応)に
より生成された前記対象区間内での知識データを記憶す
る第2記憶手段(実施の形態では「対象区間内での文書
情報記憶部16」に対応)とを備えて構成することがで
きる(請求項8)。
適した第1の発明としては、例えば与えられた文書中か
らキーワードを抽出するとともに、前記文書内での前記
キーワードの重要度を算出するキーワード抽出手段と、
前記キーワード抽出手段で抽出されたキーワードと、前
記与えられた文書の作成時間情報を含むデータを記憶す
る第1記憶手段(実施の形態では、「文書情報とキーワ
ード集合の記憶部13」に対応)と、時間軸上の任意の
時刻を入力する時間キー入力手段と、前記第1記憶手段
に格納されたデータのうち、前記文書の作成時間が前記
時間キー入力手段から与えられる時刻により特定される
前記対象区間内に存在する文書についてのキーワードと
重要度を抽出するとともに、その抽出したキーワードと
重要度に基づいてその対象区間における知識データを生
成する生成手段と、その生成手段(実施の形態では、
「文書情報とキーワード集合の抽出部15」に対応)に
より生成された前記対象区間内での知識データを記憶す
る第2記憶手段(実施の形態では「対象区間内での文書
情報記憶部16」に対応)とを備えて構成することがで
きる(請求項8)。
【0011】また、未知の文書が与えられた場合に、そ
の未知の文書から抽出されたキーワード及び重要度と、
前記第2記憶手段に格納された知識データとを比較し、
前記文書に対する評価を行う評価手段をさらに備えるよ
うに構成してもよい(請求項9)。
の未知の文書から抽出されたキーワード及び重要度と、
前記第2記憶手段に格納された知識データとを比較し、
前記文書に対する評価を行う評価手段をさらに備えるよ
うに構成してもよい(請求項9)。
【0012】また、前記文書を与えるに際し、カテゴリ
ーを関連付けて入力するようにし、前記第1記憶手段に
格納するデータは、前記カテゴリーごとに分けて格納す
るようにし、前記生成手段では、前記カテゴリーごとに
前記知識データを生成し、前記第2記憶手段にカテゴリ
ーごとに格納するように構成してもよい(請求項1
0)。
ーを関連付けて入力するようにし、前記第1記憶手段に
格納するデータは、前記カテゴリーごとに分けて格納す
るようにし、前記生成手段では、前記カテゴリーごとに
前記知識データを生成し、前記第2記憶手段にカテゴリ
ーごとに格納するように構成してもよい(請求項1
0)。
【0013】さらにまた、未知の文書が与えられた場合
に、その未知の文書から抽出されたキーワード及び重要
度と、前記第2記憶手段に格納されたカテゴリーごとの
知識データとを比較し、各カテゴリーに対する一致度に
基づいて評価した文書を分類する(実施の形態では、
「評価部17」により実現される)ように構成してもよ
い(請求項11)。
に、その未知の文書から抽出されたキーワード及び重要
度と、前記第2記憶手段に格納されたカテゴリーごとの
知識データとを比較し、各カテゴリーに対する一致度に
基づいて評価した文書を分類する(実施の形態では、
「評価部17」により実現される)ように構成してもよ
い(請求項11)。
【0014】上記した目的を達成するための第2の発明
(第3の実施の形態として実現されている)としては、
上記した請求項1〜4を前提とし、異なる対象区間を複
数指定し、指定された複数の対象区間ごとの知識データ
を生成し、各知識データの特徴を比較することでユーザ
ーの興味の推移を求めるようにすることである(請求項
5)。
(第3の実施の形態として実現されている)としては、
上記した請求項1〜4を前提とし、異なる対象区間を複
数指定し、指定された複数の対象区間ごとの知識データ
を生成し、各知識データの特徴を比較することでユーザ
ーの興味の推移を求めるようにすることである(請求項
5)。
【0015】そして、係る方法を実施するための装置と
しては、請求項8〜11に記載の装置を前提とし、対象
区間を複数指定することにより、知識データを複数個生
成し、各知識データの特徴を比較することでユーザーの
興味の推移を求める機能(実施の形態では、「ユーザー
の興味推移算出部19」に対応)をさらに備えることで
ある(請求項12)。
しては、請求項8〜11に記載の装置を前提とし、対象
区間を複数指定することにより、知識データを複数個生
成し、各知識データの特徴を比較することでユーザーの
興味の推移を求める機能(実施の形態では、「ユーザー
の興味推移算出部19」に対応)をさらに備えることで
ある(請求項12)。
【0016】上記した目的を達成するための第3の発明
(第2の実施の形態として実現されている)として、与
えられた文書中からキーワードを抽出し、前記文書内で
の構造レベルやキーワードの頻度に応じて前記キーワー
ドの重要度を算出し、前記抽出したキーワード及び重要
度を累積演算によって過去に与えられた文書に基づいて
生成されたキーワード及び重要度に足し合わせることに
より知識データを生成し、その生成した知識データを記
憶手段に記憶させるようにし、かつ前記累積演算は、与
えられた文書中から抽出されたキーワード及び重要度の
影響が大きくなるようにすることである(請求項6)。
(第2の実施の形態として実現されている)として、与
えられた文書中からキーワードを抽出し、前記文書内で
の構造レベルやキーワードの頻度に応じて前記キーワー
ドの重要度を算出し、前記抽出したキーワード及び重要
度を累積演算によって過去に与えられた文書に基づいて
生成されたキーワード及び重要度に足し合わせることに
より知識データを生成し、その生成した知識データを記
憶手段に記憶させるようにし、かつ前記累積演算は、与
えられた文書中から抽出されたキーワード及び重要度の
影響が大きくなるようにすることである(請求項6)。
【0017】上記方法を前提とし、与えられた未知の文
書からキーワード及び重要度を抽出し、その抽出した前
記キーワード及び重要度と前記記憶手段に格納された累
積された知識データとを比較し、前記文書に対する評価
を行うようにしてもよい(請求項7)。
書からキーワード及び重要度を抽出し、その抽出した前
記キーワード及び重要度と前記記憶手段に格納された累
積された知識データとを比較し、前記文書に対する評価
を行うようにしてもよい(請求項7)。
【0018】そして、係る方法を実施するための装置と
しては、与えられた文書中からキーワードを抽出すると
ともに、前記文書内での前記キーワードの重要度を算出
するキーワード抽出手段と、前記キーワード抽出手段で
抽出されたキーワード及び重要度を累積演算によって過
去に与えられた文書に基づいて生成されたキーワード及
び重要度に足し合わせることにより知識データを生成す
る生成手段と、その生成手段により生成された知識デー
タを記憶する記憶手段とを備え、かつ前記生成手段にお
ける累積演算は、キーワード抽出手段で抽出されたキー
ワード及び重要度の影響が大きくなるように構成した
(請求項13)。
しては、与えられた文書中からキーワードを抽出すると
ともに、前記文書内での前記キーワードの重要度を算出
するキーワード抽出手段と、前記キーワード抽出手段で
抽出されたキーワード及び重要度を累積演算によって過
去に与えられた文書に基づいて生成されたキーワード及
び重要度に足し合わせることにより知識データを生成す
る生成手段と、その生成手段により生成された知識デー
タを記憶する記憶手段とを備え、かつ前記生成手段にお
ける累積演算は、キーワード抽出手段で抽出されたキー
ワード及び重要度の影響が大きくなるように構成した
(請求項13)。
【0019】そして、上記装置を前提とし、与えられた
未知の文書から抽出されたキーワード及び重要度と、前
記記憶手段に格納された累積された知識データとを比較
し、前記文書に対する評価を行う評価手段をさらに備え
て構成するとよい(請求項14)。
未知の文書から抽出されたキーワード及び重要度と、前
記記憶手段に格納された累積された知識データとを比較
し、前記文書に対する評価を行う評価手段をさらに備え
て構成するとよい(請求項14)。
【0020】さらに請求項15〜21に規定するよう
に、上記した各処理を実行するためのプログラムを格納
した記録媒体としてもよい。
に、上記した各処理を実行するためのプログラムを格納
した記録媒体としてもよい。
【0021】従来からある文書特徴量に加え、キーワー
ドの持つ時間的、意味的な性質を考慮し、時系列的にキ
ーワード集合をとらえることにより、ユーザーの興味対
象あるいは、その逆となる文書、または、現在、話題の
中心となっている文書あるいは、めずらしい話題の文書
かを表わすことができる。
ドの持つ時間的、意味的な性質を考慮し、時系列的にキ
ーワード集合をとらえることにより、ユーザーの興味対
象あるいは、その逆となる文書、または、現在、話題の
中心となっている文書あるいは、めずらしい話題の文書
かを表わすことができる。
【0022】そして、請求項1,3,6,8,10,1
3,15,17,20の発明では、時間推移に基づくユ
ーザーの興味の変化などに追従した文書の特徴量(知識
データ)を生成できる。その結果、請求項2,4,7,
9,11,14,16,18,21の発明では、上記し
た知識データに基づいて未知の文書に対する評価を精度
よく行うことができ、ユーザーにとって必要な文書であ
るか否かの判断も容易に行うことができる。
3,15,17,20の発明では、時間推移に基づくユ
ーザーの興味の変化などに追従した文書の特徴量(知識
データ)を生成できる。その結果、請求項2,4,7,
9,11,14,16,18,21の発明では、上記し
た知識データに基づいて未知の文書に対する評価を精度
よく行うことができ、ユーザーにとって必要な文書であ
るか否かの判断も容易に行うことができる。
【0023】そして、請求項6,7,13,14,2
0,21のようにすると、知識データの記憶容量を削減
できる。さらに、現在のキーワード集合と、過去のある
時点でのキーワード集合との比較により、ユーザーの興
味や話題の推移をも表現することができる。さらには、
近い将来のユーザーの興味や話題の予測も可能となる
(請求項5,12,19)。
0,21のようにすると、知識データの記憶容量を削減
できる。さらに、現在のキーワード集合と、過去のある
時点でのキーワード集合との比較により、ユーザーの興
味や話題の推移をも表現することができる。さらには、
近い将来のユーザーの興味や話題の予測も可能となる
(請求項5,12,19)。
【0024】*用語の定義 請求項1,8等で規定される「対象区間」は、例えば2
つの時間を指定することによりその間を特定するように
してもよく、或いは、ある時間から最近まで(最初から
ある時間まで)等のように時間指定は1つでもよく、さ
らには、ある時間(時刻)というように「時」も含む概
念である。
つの時間を指定することによりその間を特定するように
してもよく、或いは、ある時間から最近まで(最初から
ある時間まで)等のように時間指定は1つでもよく、さ
らには、ある時間(時刻)というように「時」も含む概
念である。
【0025】キーワード抽出手段は、キーワードを抽出
する機能と重要度を求める機能をそれぞれ別々の処理部
で実現するようにしてもよく、係る場合には、それら複
数の処理部全体で本発明でいうキーワード抽出手段とな
る。
する機能と重要度を求める機能をそれぞれ別々の処理部
で実現するようにしてもよく、係る場合には、それら複
数の処理部全体で本発明でいうキーワード抽出手段とな
る。
【0026】
【発明の実施の形態】まず、本発明の実施の形態の具体
的な構成を説明する前に、概念的な実施の形態を説明す
る。一般にある文書がユーザーにとって興味対象となる
文書であるか否かを自動的に判断する場合には、判断対
象の文書中のキーワードを抽出し、そのキーワードを予
め作成した辞書(キーワード)と比較して一致度を求
め、その一致度の大小に基づいて判断することができ
る。
的な構成を説明する前に、概念的な実施の形態を説明す
る。一般にある文書がユーザーにとって興味対象となる
文書であるか否かを自動的に判断する場合には、判断対
象の文書中のキーワードを抽出し、そのキーワードを予
め作成した辞書(キーワード)と比較して一致度を求
め、その一致度の大小に基づいて判断することができ
る。
【0027】この時、まず文書中にあらわれるキーワー
ドを抽出する時において、時間軸をとり、その時点での
時間と抽出されたキーワード集合を記憶する(図1参
照)。そして、ある時点Aとある時点Bを指定し、その
区間でのキーワードの重要度を累計することにより、ユ
ーザーの興味対象となる文書、あるいは、その逆となる
文書を表わすことができる。また、新規文書の読込み時
に、過去のキーワード集合から、この文書が、ユーザー
の興味対象となる文書あるいは、その逆である文書かを
表わすことができる。なお、以下に示す実施の形態で
は、ユーザーが受け取った文書を電子メール文書として
いるが、同様の処理が、その他の文書でも、可能であ
る。
ドを抽出する時において、時間軸をとり、その時点での
時間と抽出されたキーワード集合を記憶する(図1参
照)。そして、ある時点Aとある時点Bを指定し、その
区間でのキーワードの重要度を累計することにより、ユ
ーザーの興味対象となる文書、あるいは、その逆となる
文書を表わすことができる。また、新規文書の読込み時
に、過去のキーワード集合から、この文書が、ユーザー
の興味対象となる文書あるいは、その逆である文書かを
表わすことができる。なお、以下に示す実施の形態で
は、ユーザーが受け取った文書を電子メール文書として
いるが、同様の処理が、その他の文書でも、可能であ
る。
【0028】本形態では、受信した電子メール文書が、
使用者にとって有意義な文書(興味対象となる文書)で
あるか否かを判断するための装置である。図2は本発明
の好適な第1の実施の形態を示している。同図に示すよ
うに、まず入力側に文書情報の入力部11を設け、この
文書情報の入力部11にて受信した電子メール文書情報
を、次段のキーワード抽出部12及び文書情報とキーワ
ード集合の記憶部13にそれぞれ与えるようになってい
る。また、ここで与える文書情報としては、電子メール
文書自体のみでもよく、それに加えて文書情報の入力時
間やその文書に対するユーザーからの情報(カテゴリー
(興味の有無など))も併せて入力するようにしてもよ
い。なお、入力時間は、ユーザーがマニュアルで入力す
るようにしてもよいが、本発明では係る時間が重要な要
素となるので、文書情報が入力された時に内蔵する時計
をアクセスしてその時の時刻を取得し、それを関連づけ
て記憶部13に与えるようにしてもよい。また、入力時
間は文書が電子メールとすると、その電子メールを受信
した時とするのが最も好ましいが、システムの簡略化並
びに通常の使用状況下では、電子メールの受信時刻と本
装置への文書情報の入力時刻との差があまりないか、あ
ったとしても一定の範囲内であるため、本装置への入力
時刻を格納するようにしている。
使用者にとって有意義な文書(興味対象となる文書)で
あるか否かを判断するための装置である。図2は本発明
の好適な第1の実施の形態を示している。同図に示すよ
うに、まず入力側に文書情報の入力部11を設け、この
文書情報の入力部11にて受信した電子メール文書情報
を、次段のキーワード抽出部12及び文書情報とキーワ
ード集合の記憶部13にそれぞれ与えるようになってい
る。また、ここで与える文書情報としては、電子メール
文書自体のみでもよく、それに加えて文書情報の入力時
間やその文書に対するユーザーからの情報(カテゴリー
(興味の有無など))も併せて入力するようにしてもよ
い。なお、入力時間は、ユーザーがマニュアルで入力す
るようにしてもよいが、本発明では係る時間が重要な要
素となるので、文書情報が入力された時に内蔵する時計
をアクセスしてその時の時刻を取得し、それを関連づけ
て記憶部13に与えるようにしてもよい。また、入力時
間は文書が電子メールとすると、その電子メールを受信
した時とするのが最も好ましいが、システムの簡略化並
びに通常の使用状況下では、電子メールの受信時刻と本
装置への文書情報の入力時刻との差があまりないか、あ
ったとしても一定の範囲内であるため、本装置への入力
時刻を格納するようにしている。
【0029】キーワード抽出部12は、与えられた電子
メール文書情報(電子メールを構成する文書)のキーワ
ードを抽出するとともにその抽出したキーワードの重要
度を求め、求めたキーワードと重要度を関連づけて文書
情報とキーワード集合の記憶部13に送るようになって
いる。ここでキーワード抽出は、たとえば文書を分かち
書きした後品詞解析を行って名詞のみを抽出し、それを
キーワードとすることができる。また、重要度は、抽出
したキーワード(名詞)の出現頻度等に基づいて求める
(出現頻度が多いものほど重要度は高い)ことができ
る。なお、最終的に登録・保持するキーワードは、抽出
されたもの総てでもよく、或いは求めた重要度が一定の
値以上のものや上位n個のみを最終的なキーワードにす
るなど各種の方法が採れる。なお、係るキーワード抽出
処理等は、文書をデータベース化する際に用いられる各
種の自動キーワード抽出法を適用できる。
メール文書情報(電子メールを構成する文書)のキーワ
ードを抽出するとともにその抽出したキーワードの重要
度を求め、求めたキーワードと重要度を関連づけて文書
情報とキーワード集合の記憶部13に送るようになって
いる。ここでキーワード抽出は、たとえば文書を分かち
書きした後品詞解析を行って名詞のみを抽出し、それを
キーワードとすることができる。また、重要度は、抽出
したキーワード(名詞)の出現頻度等に基づいて求める
(出現頻度が多いものほど重要度は高い)ことができ
る。なお、最終的に登録・保持するキーワードは、抽出
されたもの総てでもよく、或いは求めた重要度が一定の
値以上のものや上位n個のみを最終的なキーワードにす
るなど各種の方法が採れる。なお、係るキーワード抽出
処理等は、文書をデータベース化する際に用いられる各
種の自動キーワード抽出法を適用できる。
【0030】文書情報とキーワード集合の記憶部13
は、文書情報の入力時間を含めた文書情報およびキーワ
ード抽出部12で抽出されたキーワード(重要度付)を
関連づけて記憶する。なお、文書情報の入力部11によ
り、ユーザーの興味やその逆を表わすカテゴリーなどが
指定されている場合には、記憶部13へはカテゴリーご
とに分類して所定の情報を記憶する。
は、文書情報の入力時間を含めた文書情報およびキーワ
ード抽出部12で抽出されたキーワード(重要度付)を
関連づけて記憶する。なお、文書情報の入力部11によ
り、ユーザーの興味やその逆を表わすカテゴリーなどが
指定されている場合には、記憶部13へはカテゴリーご
とに分類して所定の情報を記憶する。
【0031】一方、入力手段として文書情報に対する時
間キー入力部14を備えており、この時間キー入力部1
4は、新規文書に対して評価を行う際の知識データを生
成する際の対象期間としての時間情報を入力するもの
で、その時間情報が次段の文書情報とキーワード集合の
抽出部15に与えられる。この文書情報とキーワード集
合の抽出部15は、与えられた時間情報に基づいて文書
情報とキーワード集合の記憶部13にアクセスし、時間
情報で設定される対象期間内に入力された文書に関する
情報を抽出し、上記知識データを生成するようになって
いる。そして、生成した知識データ(キーワードの累
計)を対象区間内での文書情報記憶部16に格納する。
なお、この対象区間は、デフォルト値としては開始から
現時点までの全区間としておく。
間キー入力部14を備えており、この時間キー入力部1
4は、新規文書に対して評価を行う際の知識データを生
成する際の対象期間としての時間情報を入力するもの
で、その時間情報が次段の文書情報とキーワード集合の
抽出部15に与えられる。この文書情報とキーワード集
合の抽出部15は、与えられた時間情報に基づいて文書
情報とキーワード集合の記憶部13にアクセスし、時間
情報で設定される対象期間内に入力された文書に関する
情報を抽出し、上記知識データを生成するようになって
いる。そして、生成した知識データ(キーワードの累
計)を対象区間内での文書情報記憶部16に格納する。
なお、この対象区間は、デフォルト値としては開始から
現時点までの全区間としておく。
【0032】さらに本形態では、評価部17を有し、こ
こにおいて対象区間内での文書情報記憶部16に記憶さ
れたキーワード集合と重要度の累計に基づき、新規に受
信した電子メール文書の評価を行う。すなわち、この評
価部17では、「評価対象の電子メール文書のキーワー
ド(重要度付)」と、「文書情報記憶部16に記憶され
たキーワード集合と重要度の累計」とを比較し、その一
致度をみることによりユーザーにとって興味対象で見る
必要が高いメールか否かを判断する。そこで、本形態で
は、評価対象の電子メール文書も文書情報の入力部11
を介して与えられ、キーワード抽出部12でキーワード
が抽出された後、文書情報とキーワード集合の記憶部1
3に記憶するようにしておく。そして、評価部17は、
両記憶部13,16に格納された評価対象の電子メール
文書のキーワード(重要度付)と、それまでに蓄積され
た文書データに基づいて生成された知識データ(キーワ
ード集合と重要度の累計)を読み出し、比較処理して一
致度を求める。
こにおいて対象区間内での文書情報記憶部16に記憶さ
れたキーワード集合と重要度の累計に基づき、新規に受
信した電子メール文書の評価を行う。すなわち、この評
価部17では、「評価対象の電子メール文書のキーワー
ド(重要度付)」と、「文書情報記憶部16に記憶され
たキーワード集合と重要度の累計」とを比較し、その一
致度をみることによりユーザーにとって興味対象で見る
必要が高いメールか否かを判断する。そこで、本形態で
は、評価対象の電子メール文書も文書情報の入力部11
を介して与えられ、キーワード抽出部12でキーワード
が抽出された後、文書情報とキーワード集合の記憶部1
3に記憶するようにしておく。そして、評価部17は、
両記憶部13,16に格納された評価対象の電子メール
文書のキーワード(重要度付)と、それまでに蓄積され
た文書データに基づいて生成された知識データ(キーワ
ード集合と重要度の累計)を読み出し、比較処理して一
致度を求める。
【0033】つまり、知識データが特にカテゴリー分類
されることなく電子メール文書を与えたものに基づいて
生成された場合、キーワード集合に属するキーワードと
一致するものはユーザーにとって興味がある可能性が高
い文書といえる(前提として、有益な興味のある文書を
ユーザーが登録する)。そして、キーワードの中でも重
要度の累計が大きいものほど、興味を有する文書に存在
する可能性の高いキーワードといえる。
されることなく電子メール文書を与えたものに基づいて
生成された場合、キーワード集合に属するキーワードと
一致するものはユーザーにとって興味がある可能性が高
い文書といえる(前提として、有益な興味のある文書を
ユーザーが登録する)。そして、キーワードの中でも重
要度の累計が大きいものほど、興味を有する文書に存在
する可能性の高いキーワードといえる。
【0034】従って、例えば評価対象の文書から抽出さ
れた重要度の高いキーワードが、知識データにおいても
キーワードとして抽出されしかも重要度の累計も大きい
(一致度が高い)場合には、ユーザーが興味のある文書
らしいと判断できる。逆に評価対象の文書から抽出され
た重要度の高いキーワードが、知識データになかったり
仮にあったとしても重要度の累計が大きい場合には、ユ
ーザーの興味のない文書らしいと判断できる(知識デー
タにない方がより興味のないらしさが高くなる(一致度
が低い))。さらにまた、仮に抽出されたキーワードと
知識データに記憶されたキーワードが一致したとして
も、例えば評価対象の文書において重要度の高いキーワ
ードが知識データでは重要度の累計が小さく、評価対象
の文書において重要度の低いキーワードが知識データで
は重要度の累計が大きいというように、重要度の大小が
逆になっているような文章も一致度は低くなる(なお、
システム設計や実際のユーザーの使用などにあわせて、
係る場合には一致度を高くするようにしてももちろんよ
い)。
れた重要度の高いキーワードが、知識データにおいても
キーワードとして抽出されしかも重要度の累計も大きい
(一致度が高い)場合には、ユーザーが興味のある文書
らしいと判断できる。逆に評価対象の文書から抽出され
た重要度の高いキーワードが、知識データになかったり
仮にあったとしても重要度の累計が大きい場合には、ユ
ーザーの興味のない文書らしいと判断できる(知識デー
タにない方がより興味のないらしさが高くなる(一致度
が低い))。さらにまた、仮に抽出されたキーワードと
知識データに記憶されたキーワードが一致したとして
も、例えば評価対象の文書において重要度の高いキーワ
ードが知識データでは重要度の累計が小さく、評価対象
の文書において重要度の低いキーワードが知識データで
は重要度の累計が大きいというように、重要度の大小が
逆になっているような文章も一致度は低くなる(なお、
システム設計や実際のユーザーの使用などにあわせて、
係る場合には一致度を高くするようにしてももちろんよ
い)。
【0035】そして、具体的な一致度の算出は、上記し
た事項に鑑み、キーワードと重要度(累計)を総合的に
判断し、ファジィ推論その他の評価方法により求めても
よく、或いは単純に同一のキーワードの重要度(評価文
書)と重要度の累計(過去の文書に基づく知識データ)
とを乗算し、得られた値の総和を求め、その総和が大き
いものほど一致度が高いとしたり、上記乗算する際に、
片方にしかキーワードがない場合には、その値を0にし
たり或いは減算対象にしたりするなど各種の方法が採れ
る。そして、本発明における評価部の処理としては、こ
れらの演算処理に限られないのはもちろんである。
た事項に鑑み、キーワードと重要度(累計)を総合的に
判断し、ファジィ推論その他の評価方法により求めても
よく、或いは単純に同一のキーワードの重要度(評価文
書)と重要度の累計(過去の文書に基づく知識データ)
とを乗算し、得られた値の総和を求め、その総和が大き
いものほど一致度が高いとしたり、上記乗算する際に、
片方にしかキーワードがない場合には、その値を0にし
たり或いは減算対象にしたりするなど各種の方法が採れ
る。そして、本発明における評価部の処理としては、こ
れらの演算処理に限られないのはもちろんである。
【0036】そして、その評価部17で得られた評価結
果と電子メール文書およびその文書情報を、出力部18
を介して出力するようになっている。この出力部18と
してはCRTなどのディスプレイ(表示装置)であった
り、プリンタなどの印刷装置であったりする。
果と電子メール文書およびその文書情報を、出力部18
を介して出力するようになっている。この出力部18と
してはCRTなどのディスプレイ(表示装置)であった
り、プリンタなどの印刷装置であったりする。
【0037】次に上記構成の装置の使用方法・作用を説
明しつつ、各部の詳細な説明をする。
明しつつ、各部の詳細な説明をする。
【0038】*文書情報収集工程 未知の文書を評価するために必要な知識を生成する前準
備として、受信した電子メール文書についての文書情報
の収集を行う。具体的には、図3に示すように、まず文
書情報の入力部11を用いて受信した文書メールの文書
情報(文書+入力時間等)を入力する(ST1)。この
入力処理は、通常の使用状況下では、電子メールを受信
する都度、或いは電子メールをダウンロードしておき、
一定の期間ごとに一括して入力するなど各種の方法が採
れる。このようにすることにより、時間の経過ととも
に、情報が蓄積され、精度のよい評価・判定が行える。
備として、受信した電子メール文書についての文書情報
の収集を行う。具体的には、図3に示すように、まず文
書情報の入力部11を用いて受信した文書メールの文書
情報(文書+入力時間等)を入力する(ST1)。この
入力処理は、通常の使用状況下では、電子メールを受信
する都度、或いは電子メールをダウンロードしておき、
一定の期間ごとに一括して入力するなど各種の方法が採
れる。このようにすることにより、時間の経過ととも
に、情報が蓄積され、精度のよい評価・判定が行える。
【0039】次に、キーワード抽出部12にて与えられ
た文書情報のキーワードの出現頻度などにより、各キー
ワードごとの重要度を算出し、文書入力時点での時刻に
対するキーワード集合を生成する。そして生成したキー
ワード集合と時刻を含む文書情報を記憶文書情報とキー
ワード集合の記憶部13に格納する(ST3)。これに
より、情報収集工程が完了する。なお、ユーザーの興味
あるいは、その逆を表わすカテゴリーを指定していれ
ば、カテゴリーごとに文書情報記憶を生成する。そし
て、上記したステップ1〜ステップ3は、新規文書を入
力するごとに繰り返され、時系列的に文書情報とキーワ
ード集合の記憶部13に記憶される。
た文書情報のキーワードの出現頻度などにより、各キー
ワードごとの重要度を算出し、文書入力時点での時刻に
対するキーワード集合を生成する。そして生成したキー
ワード集合と時刻を含む文書情報を記憶文書情報とキー
ワード集合の記憶部13に格納する(ST3)。これに
より、情報収集工程が完了する。なお、ユーザーの興味
あるいは、その逆を表わすカテゴリーを指定していれ
ば、カテゴリーごとに文書情報記憶を生成する。そし
て、上記したステップ1〜ステップ3は、新規文書を入
力するごとに繰り返され、時系列的に文書情報とキーワ
ード集合の記憶部13に記憶される。
【0040】*知識データ生成工程 この工程は、上記文書情報収集工程を経て記憶された文
書情報から、未知の電子メールに対する評価を行う基準
となる知識データを生成するものである。具体的には、
図4に示すように、文書情報に対する時間キー入力部1
4を用いて時間軸上のある時点、あるいは、ある区間を
指定する(ST5)。
書情報から、未知の電子メールに対する評価を行う基準
となる知識データを生成するものである。具体的には、
図4に示すように、文書情報に対する時間キー入力部1
4を用いて時間軸上のある時点、あるいは、ある区間を
指定する(ST5)。
【0041】その指定された区間をキーにして、文書情
報とキーワード集合の記憶部13に記憶された情報をサ
ーチし、該当する区間内に記憶された文書情報とキーワ
ードを抽出する(ST6)。
報とキーワード集合の記憶部13に記憶された情報をサ
ーチし、該当する区間内に記憶された文書情報とキーワ
ードを抽出する(ST6)。
【0042】次いで、抽出されたすべてのキーワードに
付された重要度の累計を求め、その区間におけるキーワ
ードとその求めた累計を関連づけて対象区間内での文書
情報記憶部16に登録する(ST7)。この累計は、例
えば同一のキーワードに付された重要度の総和を求める
とともに、その総和を抽出された文書の総数で除算する
というように単純に平均値を求めてもよく、その他各種
の方法を用いることができる。そして、係る累計の算出
はすべてのキーワードについて行う。
付された重要度の累計を求め、その区間におけるキーワ
ードとその求めた累計を関連づけて対象区間内での文書
情報記憶部16に登録する(ST7)。この累計は、例
えば同一のキーワードに付された重要度の総和を求める
とともに、その総和を抽出された文書の総数で除算する
というように単純に平均値を求めてもよく、その他各種
の方法を用いることができる。そして、係る累計の算出
はすべてのキーワードについて行う。
【0043】この処理の一例を示すと、以下のようにな
る。まず、文書情報とキーワード集合の記憶部13の内
部のデータ構造は、図5に示すように、文書を特定する
文書名と、その電子メール文書を入力した日時と、キー
ワード(重要度付)を関連づけて格納しているものとす
る。なお、具体的な文書の内容もあわせて格納するよう
にしてもよいし、或いは他の記憶エリアに格納してお
き、文書名などをキーにリンク付けをしてもよい。そし
て図では「A1,D1,D13」の3つの文書が示され
ているが、それ以外の文書も格納されている。
る。まず、文書情報とキーワード集合の記憶部13の内
部のデータ構造は、図5に示すように、文書を特定する
文書名と、その電子メール文書を入力した日時と、キー
ワード(重要度付)を関連づけて格納しているものとす
る。なお、具体的な文書の内容もあわせて格納するよう
にしてもよいし、或いは他の記憶エリアに格納してお
き、文書名などをキーにリンク付けをしてもよい。そし
て図では「A1,D1,D13」の3つの文書が示され
ているが、それ以外の文書も格納されている。
【0044】係る場合に、ステップ5で[1997/0
5/12 01:10〜1997/05/30 00:
00]までの区間を時間キーとして入力したとすると、
図5中「時間」の欄をアクセスし、上記時間キーで特定
される区間内に存在するものを抽出する。これにより、
図6に示すように時間キーで設定された対象区間と、キ
ーワード(重要度の累計)を関連づけて格納する。
5/12 01:10〜1997/05/30 00:
00]までの区間を時間キーとして入力したとすると、
図5中「時間」の欄をアクセスし、上記時間キーで特定
される区間内に存在するものを抽出する。これにより、
図6に示すように時間キーで設定された対象区間と、キ
ーワード(重要度の累計)を関連づけて格納する。
【0045】*新規電子メール文書の評価工程 新規に電子メールを受信した場合に、図7に示すよう
に、係る新規電子メール文書を文書情報の入力部14を
用いて入力する(ST10)。次いでキーワード抽出部
12が動作し、その文書からキーワードを抽出し、キー
ワード集合を生成する(ST11)。なお、ここまでの
工程は、上記(1)におけるステップ1,2と同じであ
る。
に、係る新規電子メール文書を文書情報の入力部14を
用いて入力する(ST10)。次いでキーワード抽出部
12が動作し、その文書からキーワードを抽出し、キー
ワード集合を生成する(ST11)。なお、ここまでの
工程は、上記(1)におけるステップ1,2と同じであ
る。
【0046】次に、評価部17が対象区間内での文書情
報記憶部16にアクセスし、ステップ11で生成したキ
ーワード集合(評価文書から抽出したキーワード集合
(重要度付))をキーワード単位で比較し、その文書
が、ユーザーの興味の対象となる文書、あるいは、その
逆となる文書であるかの指標となる一致度を求める(S
T12)。
報記憶部16にアクセスし、ステップ11で生成したキ
ーワード集合(評価文書から抽出したキーワード集合
(重要度付))をキーワード単位で比較し、その文書
が、ユーザーの興味の対象となる文書、あるいは、その
逆となる文書であるかの指標となる一致度を求める(S
T12)。
【0047】そして、求めた一致度に基づき、その文書
の分類を行う。すなわち、例えば評価対象の電子メール
文書は、ユーザーにとって興味がわき必要のあるもの
か、逆に興味が無く見る必要のない文書である等を区分
けする。そして、一致度とその分類をあわせて出力部8
に出力する(ST13)。従って、ユーザーの興味対象
あるいは、その逆となる文書であるかを内容を読む前に
知ることができるので、メールを読むか否かの判断を簡
単に行うことができる。
の分類を行う。すなわち、例えば評価対象の電子メール
文書は、ユーザーにとって興味がわき必要のあるもの
か、逆に興味が無く見る必要のない文書である等を区分
けする。そして、一致度とその分類をあわせて出力部8
に出力する(ST13)。従って、ユーザーの興味対象
あるいは、その逆となる文書であるかを内容を読む前に
知ることができるので、メールを読むか否かの判断を簡
単に行うことができる。
【0048】また、知識データを生成する際に文書とと
もにカテゴリーも入力していた場合には、知識データも
カテゴリーごとに分離形成されるので、一致度の算出も
各カテゴリーごとに行うことになる。そして、最も一致
度の高いカテゴリーに属する可能性が高いと判断し、当
該カテゴリーに属する文書と分類できる。
もにカテゴリーも入力していた場合には、知識データも
カテゴリーごとに分離形成されるので、一致度の算出も
各カテゴリーごとに行うことになる。そして、最も一致
度の高いカテゴリーに属する可能性が高いと判断し、当
該カテゴリーに属する文書と分類できる。
【0049】そのようにした場合には、例えばカテゴリ
ーが仕事,趣味,プライベート等とすると、電子メール
の内容のおおよその見当がつき、すぐに見た方がよいか
後で見ても大丈夫かの判断をしやすくなる。また、カテ
ゴリー分類が、興味のある/ないとすると、どちらのカ
テゴリーの一致度が高いかにより評価対象の電子メール
文書が、興味のあるものか否かを直接的に判断できる。
しかも、どちらのカテゴリーに対する一致度も低い場合
には、現在、話題の中心となっている文書あるいは、め
ずらしい話題の文書等である可能性が高いと判断するこ
ともできる。
ーが仕事,趣味,プライベート等とすると、電子メール
の内容のおおよその見当がつき、すぐに見た方がよいか
後で見ても大丈夫かの判断をしやすくなる。また、カテ
ゴリー分類が、興味のある/ないとすると、どちらのカ
テゴリーの一致度が高いかにより評価対象の電子メール
文書が、興味のあるものか否かを直接的に判断できる。
しかも、どちらのカテゴリーに対する一致度も低い場合
には、現在、話題の中心となっている文書あるいは、め
ずらしい話題の文書等である可能性が高いと判断するこ
ともできる。
【0050】また、適合するメールが多い場合、各属性
ごとに出力表示することにより、分類して表示すること
ができる。さらにまた、この実施の形態に検索機能を付
加した場合、問合わせキーワードへの重みづけにユーザ
ーの現在の興味度などを加えることで、よりユーザー個
々人の時間的な興味の推移に応じた検索が可能となる。
さらには、この実施の形態に要約機能を付加した場合に
ついても、上記と同様によりユーザー個々人の時間的な
興味の推移に応じた要約が可能となる。
ごとに出力表示することにより、分類して表示すること
ができる。さらにまた、この実施の形態に検索機能を付
加した場合、問合わせキーワードへの重みづけにユーザ
ーの現在の興味度などを加えることで、よりユーザー個
々人の時間的な興味の推移に応じた検索が可能となる。
さらには、この実施の形態に要約機能を付加した場合に
ついても、上記と同様によりユーザー個々人の時間的な
興味の推移に応じた要約が可能となる。
【0051】図8は、本発明の第2の実施の形態を示し
ている。ユーザーが受け取った電子メール文書中のキー
ワード集合は、時間軸とともに変化する。そこで、上記
した第1の実施の形態においては、文書ごとのキーワー
ド集合すべてを記憶し、必要に応じて時間キーを入力し
てある時間区間におけるキーワード(重要度の累計付)
を求め、知識を形成するようにしていた。そのため、開
始からの経過時間が長くなると、記憶する文書数も多く
なるため、文書情報とキーワード集合の記憶部13の記
憶容量も大きなものが必要となる。
ている。ユーザーが受け取った電子メール文書中のキー
ワード集合は、時間軸とともに変化する。そこで、上記
した第1の実施の形態においては、文書ごとのキーワー
ド集合すべてを記憶し、必要に応じて時間キーを入力し
てある時間区間におけるキーワード(重要度の累計付)
を求め、知識を形成するようにしていた。そのため、開
始からの経過時間が長くなると、記憶する文書数も多く
なるため、文書情報とキーワード集合の記憶部13の記
憶容量も大きなものが必要となる。
【0052】そこで本実施の形態においては、ユーザー
が受け取った文書中のキーワード集合を随時累計してい
くことにより、単に、新規情報を追加することに比べ、
記憶容量の削減を図ることができる。これらのキーワー
ド集合において、頻繁に現れるキーワードについては、
よく議論されているととらえることができる。また、時
間とともに、しだいに現れなくなったキーワードについ
ては、重要度を下げていくことより、忘却機能を与える
ことができる。
が受け取った文書中のキーワード集合を随時累計してい
くことにより、単に、新規情報を追加することに比べ、
記憶容量の削減を図ることができる。これらのキーワー
ド集合において、頻繁に現れるキーワードについては、
よく議論されているととらえることができる。また、時
間とともに、しだいに現れなくなったキーワードについ
ては、重要度を下げていくことより、忘却機能を与える
ことができる。
【0053】ここで具体的な構成の説明をする前に、概
念(イメージ)を説明する。まず、新規電子メール文書
が入力されるごとに、次の(1)と(2)の特徴をとら
え、その電子メールの文書が、どちらに属するかの評価
を行い分類出力する。 (1)ユーザーに必要あるいは、興味のある文書 (2)不要あるいは、興味のない文書 また、随時、文書情報であるキーワード集合とその重要
度を累計することにより、すべての文書ごとのキーワー
ドを記憶する必要がなくなるので、記憶容量を小さくで
きるとともに、新規文書の特徴を次の文書に対する評価
に反映することができる。
念(イメージ)を説明する。まず、新規電子メール文書
が入力されるごとに、次の(1)と(2)の特徴をとら
え、その電子メールの文書が、どちらに属するかの評価
を行い分類出力する。 (1)ユーザーに必要あるいは、興味のある文書 (2)不要あるいは、興味のない文書 また、随時、文書情報であるキーワード集合とその重要
度を累計することにより、すべての文書ごとのキーワー
ドを記憶する必要がなくなるので、記憶容量を小さくで
きるとともに、新規文書の特徴を次の文書に対する評価
に反映することができる。
【0054】次に、具体的な構成について説明する。図
8に示すように、新規の電子メール文書は文書情報の入
力部21を介してキーワード抽出部22に与えられ、そ
こにおいてキーワードを抽出するとともに、出現頻度等
を用いて各キーワードの重要度を求める。これら入力部
21とキーワード抽出部22は、基本的に第1の実施の
形態における入力部11とキーワード抽出部12と同様
のものを用いることができる。
8に示すように、新規の電子メール文書は文書情報の入
力部21を介してキーワード抽出部22に与えられ、そ
こにおいてキーワードを抽出するとともに、出現頻度等
を用いて各キーワードの重要度を求める。これら入力部
21とキーワード抽出部22は、基本的に第1の実施の
形態における入力部11とキーワード抽出部12と同様
のものを用いることができる。
【0055】そして、キーワード抽出部22で抽出され
たキーワード(重要度付き)は評価部23と知識更新部
25に与えられる。この評価部23では文書情報記憶部
24に格納された今までに与えられた文書情報から生成
した知識データに基づいて評価対象の新規電子メール文
書に対する評価(ユーザーの興味対象となるか否かな
ど)を行う。また知識更新部25では、次回の評価に備
えて新規文書について求めたキーワード集合と重要度お
よび時刻を含む文書情報を、過去に記憶された文書情報
に累計して新たな知識データを生成し、文書情報記憶部
24を更新するようになっている。
たキーワード(重要度付き)は評価部23と知識更新部
25に与えられる。この評価部23では文書情報記憶部
24に格納された今までに与えられた文書情報から生成
した知識データに基づいて評価対象の新規電子メール文
書に対する評価(ユーザーの興味対象となるか否かな
ど)を行う。また知識更新部25では、次回の評価に備
えて新規文書について求めたキーワード集合と重要度お
よび時刻を含む文書情報を、過去に記憶された文書情報
に累計して新たな知識データを生成し、文書情報記憶部
24を更新するようになっている。
【0056】さらに評価部23では、新規の文書につい
て求めた評価結果、すなわち、ユーザーの興味の対象に
なる文書であるか否かを出力部25を用いて出力するよ
うになっている。
て求めた評価結果、すなわち、ユーザーの興味の対象に
なる文書であるか否かを出力部25を用いて出力するよ
うになっている。
【0057】次に、本実施の形態の要部となる知識更新
部26の機能について説明する。新規電子メール文書が
入力され、その文書中から抽出されたキーワードAの重
要度を下記の式に入力することで、文書情報記憶部に記
憶するキーワードAの重要度を求める。
部26の機能について説明する。新規電子メール文書が
入力され、その文書中から抽出されたキーワードAの重
要度を下記の式に入力することで、文書情報記憶部に記
憶するキーワードAの重要度を求める。
【0058】
【数1】 このことにより、新規電子メール文書で抽出されないキ
ーワードは、上記した式の右辺の分母の第2項が0とな
るので、文書情報記憶部中の重要度のほぼ半分が新規に
更新される際のそのキーワードの重要度となる。従っ
て、使用頻度が下がってきたあるいは、使われなくなっ
たキーワードに対する重要度は、小さくなっていく機
能、つまり、忘却機能を実現することが可能となる。ま
た、仮にキーワードとして抽出されていても、その抽出
された重要度の増減によって新規に更新される際のキー
ワードの重要度も増減する。これにより、頻繁に使用さ
れるキーワードで、しかも最近受信した電子メール文書
中の重要度が増加する傾向にあるものは、最近興味が増
してきたものと判断でき、知識データとして格納される
キーワードの重要度も増すように作用する。
ーワードは、上記した式の右辺の分母の第2項が0とな
るので、文書情報記憶部中の重要度のほぼ半分が新規に
更新される際のそのキーワードの重要度となる。従っ
て、使用頻度が下がってきたあるいは、使われなくなっ
たキーワードに対する重要度は、小さくなっていく機
能、つまり、忘却機能を実現することが可能となる。ま
た、仮にキーワードとして抽出されていても、その抽出
された重要度の増減によって新規に更新される際のキー
ワードの重要度も増減する。これにより、頻繁に使用さ
れるキーワードで、しかも最近受信した電子メール文書
中の重要度が増加する傾向にあるものは、最近興味が増
してきたものと判断でき、知識データとして格納される
キーワードの重要度も増すように作用する。
【0059】そして、具体例を示すと、まず、新規文書
入力直前の文書情報記憶部24に格納されたデータが、
図9(A)に示すようになっているとする。次に、新規
文書が入力され、キーワード抽出部22により次のよう
なキーワード集合が生成されたとする。いずれも()の
中がその新規文書におけるキーワードの重要度である。
入力直前の文書情報記憶部24に格納されたデータが、
図9(A)に示すようになっているとする。次に、新規
文書が入力され、キーワード抽出部22により次のよう
なキーワード集合が生成されたとする。いずれも()の
中がその新規文書におけるキーワードの重要度である。
【0060】
【表1】 すると、知識更新部25では、キーワード抽出部22か
ら出力される上記キーワード集合(重要度付)を受け取
るとともに、文書情報記憶部24にアクセスしてそこに
格納された現在の知識データを取得し、各キーワードに
対して、累計演算を施し、新たな重要度を求める。その
累計演算の一例を示すと、キーワード「ペルー」の場合
には、
ら出力される上記キーワード集合(重要度付)を受け取
るとともに、文書情報記憶部24にアクセスしてそこに
格納された現在の知識データを取得し、各キーワードに
対して、累計演算を施し、新たな重要度を求める。その
累計演算の一例を示すと、キーワード「ペルー」の場合
には、
【0061】
【数2】 となる。
【0062】同様に、新規文書でキーワードとして抽出
されなかった「フジモリ」の場合には、
されなかった「フジモリ」の場合には、
【0063】
【数3】 となる。
【0064】その他のキーワードも同様に計算すること
により、各キーワードについての重要度を求め、その求
めた新たなキーワード集合(重要度付)を文書情報記憶
部24に格納する。その結果、同図(B)に示すように
更新される。ここで、キーワード「人質」の重要度は下
がり、話題の中心となるキーワード「青木」の重要度が
上がる。なお、上記した説明では、評価部23と知識更
新部25を別構成にしたが、使用する情報(データ)は
同じであるので、1つの処理部で処理を行うように構成
してももちろんよい。
により、各キーワードについての重要度を求め、その求
めた新たなキーワード集合(重要度付)を文書情報記憶
部24に格納する。その結果、同図(B)に示すように
更新される。ここで、キーワード「人質」の重要度は下
がり、話題の中心となるキーワード「青木」の重要度が
上がる。なお、上記した説明では、評価部23と知識更
新部25を別構成にしたが、使用する情報(データ)は
同じであるので、1つの処理部で処理を行うように構成
してももちろんよい。
【0065】次に、上記した装置を用いた作用である本
発明に係る方法の実施の形態について説明する。前提と
して、すでに過去に文書情報が入力されており、文書情
報記憶部24にはキーワード集合(重要度付)が登録さ
れているものとする。図11に示すフローチャートのよ
うに、まず、新規文書情報が入力される(ST21)。
これを受けてキーワード抽出部22では各キーワードに
対する重要度を出現頻度などにより算出し評価部23に
送る(ST22)。評価部23では、与えられた新規文
書についてのキーワード(重要度付)と過去に与えられ
た文書情報に基づいて生成された知識データを用いて、
キーワード単位で比較することにより、その新規文書が
ユーザーの興味の対象となる文書、あるいは、その逆と
なる文書であるかを評価する(ST23)。また、知識
更新部25にて、新規文書に基づくキーワード集合(重
要度付)を加味・累計して新たな知識データを生成し、
文書情報の記憶部24に追加・更新する(ST24)。
一方、上記の評価結果をもとに、ユーザーの興味ごと
に、分類出力する(ST25)。
発明に係る方法の実施の形態について説明する。前提と
して、すでに過去に文書情報が入力されており、文書情
報記憶部24にはキーワード集合(重要度付)が登録さ
れているものとする。図11に示すフローチャートのよ
うに、まず、新規文書情報が入力される(ST21)。
これを受けてキーワード抽出部22では各キーワードに
対する重要度を出現頻度などにより算出し評価部23に
送る(ST22)。評価部23では、与えられた新規文
書についてのキーワード(重要度付)と過去に与えられ
た文書情報に基づいて生成された知識データを用いて、
キーワード単位で比較することにより、その新規文書が
ユーザーの興味の対象となる文書、あるいは、その逆と
なる文書であるかを評価する(ST23)。また、知識
更新部25にて、新規文書に基づくキーワード集合(重
要度付)を加味・累計して新たな知識データを生成し、
文書情報の記憶部24に追加・更新する(ST24)。
一方、上記の評価結果をもとに、ユーザーの興味ごと
に、分類出力する(ST25)。
【0066】なお、上記した処理フローは、新規文書を
入力するごとに随時繰り返され、文書情報の記憶部の知
識データを更新する。
入力するごとに随時繰り返され、文書情報の記憶部の知
識データを更新する。
【0067】以上の構成により、随時、ユーザーの興味
対象あるいは、その逆となる文書、または、現在、話題
の中心となっている文書あるいは、めずらしい話題の文
書かを表わすことができる。そして、文書情報記憶部に
は、新規情報を累計していくことにより、単に、新規情
報を追加することに比べ、記憶容量が膨大になりすぎる
ことを防ぐことができる。また、このことにより、文書
情報記憶部へのアクセス処理速度の負荷を軽減すること
ができる。
対象あるいは、その逆となる文書、または、現在、話題
の中心となっている文書あるいは、めずらしい話題の文
書かを表わすことができる。そして、文書情報記憶部に
は、新規情報を累計していくことにより、単に、新規情
報を追加することに比べ、記憶容量が膨大になりすぎる
ことを防ぐことができる。また、このことにより、文書
情報記憶部へのアクセス処理速度の負荷を軽減すること
ができる。
【0068】図11は、本発明の第3の実施の形態を示
している。本実施の形態では、第1の実施の形態で生成
された文書情報記憶部16に格納された知識データを用
い、2つ以上の対象区間同士を比較することにより、ユ
ーザーの文書情報(ユーザーの興味)の推移を表わす機
能を付加している。係る推移を求めるのが、ユーザーの
興味推移算出部19であり、求めた結果を出力部18に
出力する。
している。本実施の形態では、第1の実施の形態で生成
された文書情報記憶部16に格納された知識データを用
い、2つ以上の対象区間同士を比較することにより、ユ
ーザーの文書情報(ユーザーの興味)の推移を表わす機
能を付加している。係る推移を求めるのが、ユーザーの
興味推移算出部19であり、求めた結果を出力部18に
出力する。
【0069】本実施の形態の意図を理解しやすくするた
めに、具体例をあげつつ説明する。まず、ユーザーの先
月と今月の興味を表わすキーワードが、以下のようにな
っているものとする。
めに、具体例をあげつつ説明する。まず、ユーザーの先
月と今月の興味を表わすキーワードが、以下のようにな
っているものとする。
【0070】
【表2】 係る区間は、例えば文書情報に対する時間キー入力部1
4からユーザーが推移を見たいと思う2つの区間を指定
することにより行える。また、例えば先月と先々月とい
うように予め推移を見る区間を特定しておくことによ
り、自動的に入力するようにしてもよい。
4からユーザーが推移を見たいと思う2つの区間を指定
することにより行える。また、例えば先月と先々月とい
うように予め推移を見る区間を特定しておくことによ
り、自動的に入力するようにしてもよい。
【0071】推移算出部19では、比較する2つの区間
のキーワード集合(重要度付)を取得し、文書検索技術
分野において利用されるベクトル空間法によりそれぞれ
の区間についてのキーワードベクトルを求める。これに
より、図12中(1),(2)で示すようなグラフが求
められるので、(1)のキーワードベクトルから(2)
のキーワードベクトルにユーザーの興味が推移したこと
がわかる。そして、例えば係るグラフを出力部18に出
力することができる。
のキーワード集合(重要度付)を取得し、文書検索技術
分野において利用されるベクトル空間法によりそれぞれ
の区間についてのキーワードベクトルを求める。これに
より、図12中(1),(2)で示すようなグラフが求
められるので、(1)のキーワードベクトルから(2)
のキーワードベクトルにユーザーの興味が推移したこと
がわかる。そして、例えば係るグラフを出力部18に出
力することができる。
【0072】また、上記のように2つの区間のみでな
く、3つ以上の区間にてキーワード集合体を求めてお
き、各区間のキーワードベクトルを求めることにより、
時間の経過によりどのようにユーザーの興味が推移して
いったかがより明確にわかり、さらには今後の推移の予
測を行うことにより、例えば来月のキーワードベクトル
の存在予測をし、対象区間内での文書情報記憶部16に
予測したキーワード集合(重要度付)を格納し、評価部
17における評価は、係る予測した知識データ(キーワ
ード集合)に基づいて行うようにすることもできる。
く、3つ以上の区間にてキーワード集合体を求めてお
き、各区間のキーワードベクトルを求めることにより、
時間の経過によりどのようにユーザーの興味が推移して
いったかがより明確にわかり、さらには今後の推移の予
測を行うことにより、例えば来月のキーワードベクトル
の存在予測をし、対象区間内での文書情報記憶部16に
予測したキーワード集合(重要度付)を格納し、評価部
17における評価は、係る予測した知識データ(キーワ
ード集合)に基づいて行うようにすることもできる。
【0073】以上、対象区間同士でのキーワード集合を
比較することにより、ユーザーの興味あるいは、その逆
の時間的な推移を抽出することができ、ユーザーの話題
の時間的な推移を抽出することができ、ユーザーの共通
の話題を抽出することができ、ある時点からある時点ま
でで、現れなかった目新しいキーワードを抽出し、それ
をもとに、目新しい文書を抽出することができる等のユ
ーザーの推移を表わすことができる。
比較することにより、ユーザーの興味あるいは、その逆
の時間的な推移を抽出することができ、ユーザーの話題
の時間的な推移を抽出することができ、ユーザーの共通
の話題を抽出することができ、ある時点からある時点ま
でで、現れなかった目新しいキーワードを抽出し、それ
をもとに、目新しい文書を抽出することができる等のユ
ーザーの推移を表わすことができる。
【0074】上記した各実施の形態は、いずれも装置に
組み込んだ状態を前提として説明したが、上記した各処
理をコンピュータに実行させるためのプログラムとし、
係るプログラムは所定の記録媒体に記録して提供するよ
うにしてもよい。一例を示すと、図3,図4,図7,図
11に示すフローチャートの各処理ステップを実行する
ためのプログラムであったり、ユーザーの興味推移算出
を行うプログラムであったりする。そして、上記した記
録媒体に記録するプログラムは、各フローチャートをす
べて実行するためのプログラムではなく、例えば図3の
フローチャートを実行するためのプログラムのみという
ように、一部でもよい。
組み込んだ状態を前提として説明したが、上記した各処
理をコンピュータに実行させるためのプログラムとし、
係るプログラムは所定の記録媒体に記録して提供するよ
うにしてもよい。一例を示すと、図3,図4,図7,図
11に示すフローチャートの各処理ステップを実行する
ためのプログラムであったり、ユーザーの興味推移算出
を行うプログラムであったりする。そして、上記した記
録媒体に記録するプログラムは、各フローチャートをす
べて実行するためのプログラムではなく、例えば図3の
フローチャートを実行するためのプログラムのみという
ように、一部でもよい。
【0075】図13,図14に示すように、記録媒体と
しては、フロッピーディスク(FD)30やCD−RO
M31などがあり、係る記録媒体30,31に格納され
たプログラムは、FDドライブ32やCD−ROMドラ
イブ33を介してコンピュータ34に接続された(内蔵
された)HDユニット35にインストールされ、これに
より、コンピュータ34は、上記した各実施の形態で説
明した装置を構成することになる。具体的には、各実施
の形態における記憶部13,16,24などは、HDユ
ニット35により実現され、各抽出部12,15,22
や評価部17,23,知識更新部25,ユーザーの興味
推移算出部19は、例えば使用の都度HDユニット35
から内部メモリ36に転送され、そこにおいて各種処理
を高速に行うことができる。また、文書情報の入力部1
1,21は、キーボード37やモデム38等により実現
され、時間キー入力部14はキーボード37等により実
現される。さらに、出力部18,26は、図示の例では
CRTディスプレイ(表示装置)39に対応するが、プ
リンタその他各種の出力装置を用いることができる。
しては、フロッピーディスク(FD)30やCD−RO
M31などがあり、係る記録媒体30,31に格納され
たプログラムは、FDドライブ32やCD−ROMドラ
イブ33を介してコンピュータ34に接続された(内蔵
された)HDユニット35にインストールされ、これに
より、コンピュータ34は、上記した各実施の形態で説
明した装置を構成することになる。具体的には、各実施
の形態における記憶部13,16,24などは、HDユ
ニット35により実現され、各抽出部12,15,22
や評価部17,23,知識更新部25,ユーザーの興味
推移算出部19は、例えば使用の都度HDユニット35
から内部メモリ36に転送され、そこにおいて各種処理
を高速に行うことができる。また、文書情報の入力部1
1,21は、キーボード37やモデム38等により実現
され、時間キー入力部14はキーボード37等により実
現される。さらに、出力部18,26は、図示の例では
CRTディスプレイ(表示装置)39に対応するが、プ
リンタその他各種の出力装置を用いることができる。
【0076】
【発明の効果】以上のように、本発明に係る文書処理方
法及び装置並びに記録媒体では、従来の文書特徴量に加
え、時間的要素を加味することにより、ユーザーの興味
対象等が変化してもそれに追従して知識データを変更
し、精度のよい判断を行うことができ、また、ユーザー
の興味対象やその逆が時間とともにどのように推移して
いったかを検出することができる。
法及び装置並びに記録媒体では、従来の文書特徴量に加
え、時間的要素を加味することにより、ユーザーの興味
対象等が変化してもそれに追従して知識データを変更
し、精度のよい判断を行うことができ、また、ユーザー
の興味対象やその逆が時間とともにどのように推移して
いったかを検出することができる。
【図1】本発明の第1の実施の形態の概念を説明する図
である。
である。
【図2】本発明の第1の実施の形態を示すブロック図で
ある。
ある。
【図3】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
るフローチャートである。
【図4】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
るフローチャートである。
【図5】文書情報とキーワード集合の記憶部13のデー
タ構造と登録されたデータの一例を示す図である。
タ構造と登録されたデータの一例を示す図である。
【図6】対象区間内での文書情報記憶部16のデータ構
造と登録されたデータの一例を示す図である。
造と登録されたデータの一例を示す図である。
【図7】第1の実施の形態の装置の動作の一部を説明す
るフローチャートである。
るフローチャートである。
【図8】本発明の第1の実施の形態を示すブロック図で
ある。
ある。
【図9】文書情報記憶部24のデータ構造と登録された
データの一例を示す図で、(A)が更新前で(B)が更
新後のデータをそれぞれ示す図である。
データの一例を示す図で、(A)が更新前で(B)が更
新後のデータをそれぞれ示す図である。
【図10】第2の実施の形態の装置の動作を説明するフ
ローチャートである。
ローチャートである。
【図11】本発明の第3の実施の形態を示すブロック図
である。
である。
【図12】第3の実施の形態におけるユーザーの興味推
移算出部の機能を説明する図である。
移算出部の機能を説明する図である。
【図13】本発明に係る記録媒体を実施するシステム構
成を示す図である。
成を示す図である。
【図14】本発明に係る記録媒体を実施するシステム構
成を示す図である。
成を示す図である。
11 文書情報の入力部 12 キーワード抽出部 13 文書情報とキーワード集合の記憶部 14 文書情報に対する時間キー入力部 15 文書情報とキーワード集合の抽出部 16 対象区間内での文書情報記憶部 17 評価部 18 出力部 19 ユーザーの興味推移算出部 21 文書情報の入力部 22 キーワード抽出部 23 評価部 24 文書情報記憶部 25 知識更新部 26 出力部 30 FD(記録媒体) 31 CD−ROM(記録媒体)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 呉 亜棟 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内
Claims (21)
- 【請求項1】 与えられた文書中からキーワードを抽出
し、 前記文書内での前記キーワードの重要度を算出し、 前記抽出されたキーワード及び重要度と、前記与えられ
た文書の作成時間情報を含むデータを第1記憶手段に格
納し、 時間軸上の任意の時刻を入力することにより設定される
対象区間に基づいて前記第1記憶手段をアクセスし、前
記第1記憶手段に格納されたデータのうち、前記文書の
作成時間が前記対象区間内に存在する文書についてのキ
ーワードと重要度を抽出するとともに、その抽出したキ
ーワードと重要度に基づいてその対象区間における知識
データを生成し、 その生成された前記対象区間内での知識データを第2記
憶手段に格納することを特徴とする文書処理方法。 - 【請求項2】 未知の文書が与えられた場合に、その未
知の文書からキーワード及び重要度を抽出し、 前記抽出した未知の文書のキーワードと重要度を前記第
2記憶手段に格納された知識データと比較し、前記文書
に対する評価を行うようにしたことを特徴とする請求項
1に記載の文書処理方法。 - 【請求項3】 前記文書を与えるに際し、カテゴリーを
関連付けて入力し、 前記第1記憶手段に格納するデータを前記カテゴリーご
とに分けて格納し、 かつ、前記カテゴリーごとに前記知識データを生成する
とともに、前記第2記憶手段にカテゴリーごとに格納す
ることを特徴とする請求項1に記載の文書処理方法。 - 【請求項4】 未知の文書が与えられ場合に、その未知
の文書からキーワード及び重要度を抽出し、 その抽出したキーワード及び重要度と、前記第2記憶手
段に格納されたカテゴリーごとの知識データとを比較し
て各カテゴリーに対する一致度を求め、 かつ、前記求めた各カテゴリーに対する一致度に基づい
て未知の文書を分類するようにしたことを特徴とする請
求項3に記載の文書処理方法。 - 【請求項5】 異なる対象区間を複数指定し、 指定された複数の対象区間ごとの知識データを生成し、 各知識データの特徴を比較することでユーザーの興味の
推移を求めるようにしたことを特徴とする請求項1〜4
のいずれか1項に記載の文書処理方法。 - 【請求項6】 与えられた文書中からキーワードを抽出
し、 前記文書内での構造レベルやキーワードの頻度に応じて
前記キーワードの重要度を算出し、 前記抽出したキーワード及び重要度を累積演算によって
過去に与えられた文書に基づいて生成されたキーワード
及び重要度に足し合わせることにより知識データを生成
し、 その生成した知識データを記憶手段に記憶させるように
し、 かつ前記累積演算は、与えられた文書中から抽出された
キーワード及び重要度の影響が大きくなるようにしたこ
とを特徴とする文書処理方法。 - 【請求項7】 与えられた未知の文書からキーワード及
び重要度を抽出し、 その抽出した前記キーワード及び重要度と前記記憶手段
に格納された累積された知識データとを比較し、前記文
書に対する評価を行うようにしたことを特徴とする請求
項6に記載の文書処理方法。 - 【請求項8】 与えられた文書中からキーワードを抽出
するとともに、前記文書内での前記キーワードの重要度
を算出するキーワード抽出手段と、 前記キーワード抽出手段で抽出されたキーワードと、前
記与えられた文書の作成時間情報を含むデータを記憶す
る第1記憶手段と、 時間軸上の任意の時刻を入力する時間キー入力手段と、 前記第1記憶手段に格納されたデータのうち、前記文書
の作成時間が前記時間キー入力手段から与えられる時刻
により特定される前記対象区間内に存在する文書につい
てのキーワードと重要度を抽出するとともに、その抽出
したキーワードと重要度に基づいてその対象区間におけ
る知識データを生成する生成手段と、 その生成手段により生成された前記対象区間内での知識
データを記憶する第2記憶手段とを備えたことを特徴と
する文書処理装置。 - 【請求項9】 未知の文書が与えられた場合に、その未
知の文書から抽出されたキーワード及び重要度と、前記
第2記憶手段に格納された知識データとを比較し、前記
文書に対する評価を行う評価手段をさらに備えたことを
特徴とする請求項8に記載の文書処理装置。 - 【請求項10】 前記文書を与えるに際し、カテゴリー
を関連付けて入力する機能を有し、 前記第1記憶手段に格納するデータは、前記カテゴリー
ごとに分けて格納するようにし、 前記生成手段では、前記カテゴリーごとに前記知識デー
タを生成し、前記第2記憶手段にカテゴリーごとに格納
するようにしたことを特徴とする請求項8に記載の文書
処理装置。 - 【請求項11】 未知の文書が与えられた場合に、その
未知の文書から抽出されたキーワード及び重要度と、前
記第2記憶手段に格納されたカテゴリーごとの知識デー
タとを比較し、各カテゴリーに対する一致度に基づいて
評価した文書を分類するようにしたことを特徴とする請
求項10に記載の文書処理装置。 - 【請求項12】 対象区間を複数指定することにより、
知識データを複数個生成し、 各知識データの特徴を比較することでユーザーの興味の
推移を求める機能を備えたことを特徴とする請求項8〜
11のいずれか1項に記載の文書処理装置。 - 【請求項13】 与えられた文書中からキーワードを抽
出するとともに、前記文書内での前記キーワードの重要
度を算出するキーワード抽出手段と、 前記キーワード抽出手段で抽出されたキーワード及び重
要度を累積演算によって過去に与えられた文書に基づい
て生成されたキーワード及び重要度に足し合わせること
により知識データを生成する生成手段と、 その生成手段により生成された知識データを記憶する記
憶手段とを備え、 かつ前記生成手段における累積演算は、キーワード抽出
手段で抽出されたキーワード及び重要度の影響が大きく
なるようにしたものであることを特徴とする文書処理装
置。 - 【請求項14】 未知の文書が与えられた場合に、その
未知の文書から抽出されたキーワード及び重要度と、前
記記憶手段に格納された累積された知識データとを比較
し、前記文書に対する評価を行う評価手段をさらに備え
たことを特徴とする請求項13に記載の文書処理装置。 - 【請求項15】 与えられた文書中からキーワードを抽
出する処理、 前記文書内での前記キーワードの重要度を算出する処
理、 前記抽出されたキーワード及び重要度と、前記与えられ
た文書の作成時間情報を含むデータをコンピュータ内の
第1記憶手段に格納する処理、 時間軸上の任意の時刻を入力することにより設定される
対象区間に基づいて前記第1記憶手段をアクセスし、前
記第1記憶手段に格納されたデータのうち、前記対象区
間内に存在する文書についてのキーワードと重要度を抽
出するとともに、その抽出したキーワードと重要度に基
づいてその対象区間における知識データを生成する処
理、 その生成された前記対象区間内での知識データを前記コ
ンピュータ内の第2記憶手段に格納する処理、 をコンピュータに実行させる命令を含む文書処理プログ
ラムを格納したコンピュータが読取り可能な記録媒体。 - 【請求項16】 与えられた未知の文書からキーワード
及び重要度を抽出する処理、 前記抽出した未知の文書のキーワードと重要度を前記第
2記憶手段に格納された知識データとを比較し、前記文
書に対する評価を行う処理をさらに含むプログラムを格
納した請求項15に記載の記録媒体。 - 【請求項17】 前記第1記憶手段に格納するデータを
前記カテゴリーごとに分けて格納する処理、 前記カテゴリーごとに前記知識データを生成するととも
に、前記第2記憶手段にカテゴリーごとに格納する処理
をさらに含むプログラムを格納した請求項15に記載の
記録媒体。 - 【請求項18】 未知の文書が与えられた場合に、その
未知の文書からキーワード及び重要度を抽出する処理、 その抽出したキーワード及び重要度と、前記第2記憶手
段に格納されたカテゴリーごとの知識データとを比較
し、各カテゴリーに対する一致度を求める処理、前記求
めた各カテゴリーに対する一致度に基づいて未知の文書
を分類する処理をさらに含むプログラムを格納した請求
項17に記載の記録媒体。 - 【請求項19】 指定された複数の対象区間ごとの知識
データを生成する処理、 各知識データの特徴を比較することでユーザーの興味の
推移を求める処理をさらに含むプログラムを格納した請
求項15に記載の記録媒体。 - 【請求項20】 与えられた文書中からキーワードを抽
出する処理、 前記文書内での構造レベルやキーワードの頻度に応じて
前記キーワードの重要度を算出する処理、 前記抽出したキーワード及び重要度の影響が大きくなる
ように、累積演算によって過去に与えられた文書に基づ
いて生成されたキーワード及び重要度に足し合わせるこ
とにより知識データを生成する処理、 その生成した知識データを記憶手段に記憶させる処理、 をコンピュータに実行させる命令を含む文書処理プログ
ラムを格納したコンピュータが読取り可能な記録媒体。 - 【請求項21】 与えられた未知の文書からキーワード
及び重要度を抽出する処理、 その抽出した前記キーワード及び重要度と前記記憶手段
に格納された累積された知識データとを比較し、前記文
書に対する評価を行う処理をさらに含むプログラムを格
納した請求項20に記載の記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9181818A JPH1115854A (ja) | 1997-06-24 | 1997-06-24 | 文書処理方法及び装置並びに記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9181818A JPH1115854A (ja) | 1997-06-24 | 1997-06-24 | 文書処理方法及び装置並びに記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1115854A true JPH1115854A (ja) | 1999-01-22 |
Family
ID=16107368
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9181818A Withdrawn JPH1115854A (ja) | 1997-06-24 | 1997-06-24 | 文書処理方法及び装置並びに記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1115854A (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000285134A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 文書管理方法および文書管理装置および記憶媒体 |
| JP2001312513A (ja) * | 2000-02-21 | 2001-11-09 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
| WO2002041182A1 (en) * | 2000-11-17 | 2002-05-23 | Mitsubishi Space Software Co., Ltd. | Interesting news item distributing system and interesting news item distributing method |
| JP2006243803A (ja) * | 2005-02-28 | 2006-09-14 | Fuji Xerox Co Ltd | 情報処理システム、プログラム及び情報処理方法 |
| JP2009042968A (ja) * | 2007-08-08 | 2009-02-26 | Nec Corp | 情報選別システム、情報選別方法及び情報選別用プログラム |
| JP2010041414A (ja) * | 2008-08-05 | 2010-02-18 | Kddi Corp | 留守番電話装置 |
| KR101522316B1 (ko) * | 2009-12-29 | 2015-05-21 | 네이버 주식회사 | 문서 중요도 판별 시스템 및 방법 |
| JP2018010533A (ja) * | 2016-07-14 | 2018-01-18 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
1997
- 1997-06-24 JP JP9181818A patent/JPH1115854A/ja not_active Withdrawn
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000285134A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 文書管理方法および文書管理装置および記憶媒体 |
| JP2001312513A (ja) * | 2000-02-21 | 2001-11-09 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
| WO2002041182A1 (en) * | 2000-11-17 | 2002-05-23 | Mitsubishi Space Software Co., Ltd. | Interesting news item distributing system and interesting news item distributing method |
| JP2006243803A (ja) * | 2005-02-28 | 2006-09-14 | Fuji Xerox Co Ltd | 情報処理システム、プログラム及び情報処理方法 |
| JP2009042968A (ja) * | 2007-08-08 | 2009-02-26 | Nec Corp | 情報選別システム、情報選別方法及び情報選別用プログラム |
| JP2010041414A (ja) * | 2008-08-05 | 2010-02-18 | Kddi Corp | 留守番電話装置 |
| KR101522316B1 (ko) * | 2009-12-29 | 2015-05-21 | 네이버 주식회사 | 문서 중요도 판별 시스템 및 방법 |
| JP2018010533A (ja) * | 2016-07-14 | 2018-01-18 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101078864B1 (ko) | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 | |
| Zhao et al. | Topical keyphrase extraction from twitter | |
| JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
| US20070061314A1 (en) | Verbal web search with improved organization of documents based upon vocal gender analysis | |
| JP5136910B2 (ja) | 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム | |
| JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
| KR101659064B1 (ko) | 사용자 피드백을 이용하여 컨텐츠에 대한 평가 점수를 산출하기 위한 방법 및 장치 | |
| JP5226241B2 (ja) | タグを付与する方法 | |
| JP2009015796A (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
| JPH1115854A (ja) | 文書処理方法及び装置並びに記録媒体 | |
| JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
| JP2003167907A (ja) | 情報提供方法およびシステム | |
| CN116881406A (zh) | 一种多模态智能文件检索方法及系统 | |
| CN111291214A (zh) | 一种检索文本的识别方法、装置及存储介质 | |
| CN111259136A (zh) | 一种基于用户偏好自动生成主题评价摘要的方法 | |
| JP2007219929A (ja) | 感性評価システム及び方法 | |
| CN111341457B (zh) | 一种基于大数据检索的医疗诊断信息可视化方法及装置 | |
| CN119336809A (zh) | 一种石油业务数据资产检索方法及系统 | |
| JP4009937B2 (ja) | 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体 | |
| JP2008084193A (ja) | インスタンス選択装置、インスタンス選択方法及びインスタンス選択プログラム | |
| JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
| JP2000259653A (ja) | 音声認識装置及び音声認識方法 | |
| JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
| Geng et al. | A novel automatic text summarization study based on term co-occurrence | |
| JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20040907 |