JP2009042968A

JP2009042968A - 情報選別システム、情報選別方法及び情報選別用プログラム

Info

Publication number: JP2009042968A
Application number: JP2007206395A
Authority: JP
Inventors: Yoshiko Matsukawa; 淑子松川; Susumu Akamine; 享赤峯; Shinichi Doi; 伸一土井; Satoshi Nakazawa; 聡中澤; Takamasa Kawai; 剛巨河合; Toshio Takeda; 俊夫竹田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-08-08
Filing date: 2007-08-08
Publication date: 2009-02-26
Also published as: US20090044105A1

Abstract

【課題】システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができるようにする。
【解決手段】情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを備えたことを特徴とする。
【選択図】図１１

Description

本発明は、ユーザの理解度が低い単語又は単語列を選別する情報選別システム、情報選別方法及び情報選別用プログラムに関する。

会議中や対話中に、聞き手にとって初めて聞く言葉や聞き慣れない言葉、意味がわからない言葉等が出てきた場合、一般に、その会議や対話の場で質問するか、後から自分で調べざるをえない。しかし、その会議や対話の場で質問すると、会議や対話の流れを中断させてしまう。また、会議や対話の中で、それらの言葉を正しく聞き取れなかったり、それらの言葉の正しい表記がわからなかったりすることも多い。そのため、後から自分で調べようと思っても調べられないことも多い。

初めて聞く言葉や聞き慣れない言葉、意味がわからない言葉を後で自分で調べたりすることを支援できるシステムが、例えば、特許文献１に記載されている。特許文献１には、システムが提示する単語の中から、ユーザが辞書情報を取得したい単語を選択し、ユーザが選択した単語についての辞書情報を音声出力する情報提示システムの一例が記載されている。

特許文献１に記載された情報提示システムは、連続音声を出力する手段と、操作者のタイミング指定を入力する手段（ワードボタン）と、音声認識手段と、音声認識結果とタイミング指定に基づいて連続音声中の単語を特定する手段と、特定された単語に基づいて辞書情報を生成する手段と、辞書情報を出力する手段とから構成されている。

上記に示した構成を有する情報提示システムは、次のように動作する。情報提示システムは、音声データ再生中にユーザがワードボタンを押下すると、再生を一時停止し、押下直前の所定時間の音声データを音声認識する。そして、情報提示システムは、音声データを１又は複数の単語に分解し、ユーザに提示する。ユーザは、辞書情報を取得したい単語が提示されている間に再度ワードボタンを押下する。すると、情報提示システムは、ワードボタンが押下されたときの単語を特定し、その単語に関する辞書情報を取得して、ユーザに提示する。

特開２００２−２５９３７３号公報

特許文献１に記載された関連する情報提示システムでは、ユーザが情報を取得したい単語又は単語列を推定することができない。そのため、システムが提示する単語又は単語列の中から、情報を取得したい単語又は単語列をユーザが自分で選択しなければならないという問題がある。

例えば、辞書引きサービスを利用する場合に、ユーザが辞書引きボタンを押したとしても、押したタイミングと辞書引きしたい単語との間にずれが生じるので、どの単語について付加情報を取得するのが適切なのかについては、ユーザが選択操作する必要がある。

例えば、「I like puppies」という音声データを再生中に、ユーザが「puppies 」について辞書情報を取得したいと考えたとする。この場合、特許文献１に記載された情報提示システムでは、「I like puppies」を再生中にユーザがワードボタンを押下すると、「I like puppies」を音声認識して、「I 」，「like」，「puppies 」という３つの単語に分解する。そして、情報提示システムは、それらの単語を１つずつユーザに提示する。ユーザは、自分が辞書情報を取得したい単語が「puppies 」であるので、「puppies 」が提示されている間に再度ワードボタンを押下する。すると、情報提示システムは、ユーザが辞書情報を取得したい単語が「puppies」であると特定し、「puppies 」に関する辞書情報を取得して、ユーザに提示する。そのため、「puppies 」に関する辞書情報を取得するために、ユーザが選択操作を行わなければならず、手間がかかる。

そこで、本発明は、システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができる情報選別システム、情報選別方法及び情報選別用プログラムを提供することを目的とする。

本発明による情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを備えたことを特徴とする。

本発明による情報選別方法は、入力データから単語又は単語列を抽出する単語列抽出ステップと、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得ステップと、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別ステップとを含むことを特徴とする。

本発明による情報選別用プログラムは、コンピュータに、入力データから単語又は単語列を抽出する単語列抽出処理と、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得処理と、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを実行させるためのものである。

本発明によれば、入力データから抽出した各単語又は各単語列に関連した統計データを取得し、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別するように構成されているので、システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができる。

実施形態１．
次に、本発明の第１の実施形態について図面を参照して説明する。図１は、本発明による情報選別システムの構成の一例を示すブロック図である。本実施形態では、情報選別システムは、ユーザが付加情報を取得したい単語又は単語列を選別して提示する。

なお、ユーザが取得したい付加情報とは、例えば、単語又は単語列の意味や訳語、一般的な用法、語源のことである。また、ユーザが取得したい付加情報は、インターネット等の通信ネットワークを介して検索した各種検索情報（例えば、単語又は単語列が含まれているコンテンツや、コンテンツ中の単語又は単語列が含まれている周辺の記述部分）であってもよい。

図１に示すように、情報選別システムは、データ入力手段１と、出力手段４と、データ処理手段２と、情報を記憶する記憶手段３とを含む。これらの手段は、それぞれ概略以下のように動作する。

データ入力手段１は、具体的には、マイクロフォンやキーボード等の入力装置によって実現され、ユーザの操作に従って、データの入力を受け付ける機能を備える。出力手段４は、ディスプレイ装置等の表示装置やスピーカ等の音声出力装置によって実現される。出力手段４は、データ処理手段２の指示に従って、情報を表示したり、音声を出力したりする機能を備える。

データ処理手段２は、具体的には、プログラム制御により動作するパーソナルコンピュータ等の情報処理装置によって実現される。図１に示すように、データ処理手段２は、単語列抽出手段２０１と、統計データ取得手段２０２と、選別手段２０３とを含む。

また、データ処理手段２は、ユーザの入力操作に従って、データ入力手段１から入力データを入力する機能を備える。なお、データ処理手段２は、例えば、データ入力手段１から、入力データとして電子文書等のテキストデータを入力してもよい。また、データ入力手段１がマイクロフォン等の音声入力装置である場合には、データ処理手段２は、入力した音声データを音声認識してテキストデータに変換し、入力データとしてもよい。

単語列抽出手段２０１は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。単語列抽出手段２０１は、記憶手段３が記憶する辞書３０１を参照して、入力データから単語又は単語列を抽出する機能を備える。

なお、単語列抽出手段２０１は、例えば、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する。

統計データ取得手段２０２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。統計データ取得手段２０２は、記憶手段３が記憶する文書データベース３０２を参照して、ユーザに関連する電子文書群における単語列抽出手段２０１が抽出した単語又は単語列に関連した統計データを取得する機能を備える。

なお、統計データ取得手段２０２が求める統計データは、単語列抽出手段２０１が抽出する単語又は単語列についての頻度や時間の統計値を示すデータである。例えば、統計データ取得手段２０２は、統計データとして、ユーザが作成した電子文書中に各単語又は各単語列が出現する頻度（以下、ユーザ文書出現頻度ともいう）を求める。また、例えば、統計データ取得手段２０２は、統計データとして、ユーザの関係者が作成した電子文書中に各単語又は各単語列が出現する頻度（以下、関係文書出現頻度ともいう）を求める。また、例えば、統計データ取得手段２０２は、統計データとして、ユーザが電子文書を更新した更新日時（以下、ユーザ文書更新日時ともいう）を特定する。さらに、例えば、統計データ取得手段２０２は、統計データとして、ユーザの関係者が電子文書を更新した更新日時（以下、関係文書更新日時ともいう）を特定する。

選別手段２０３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。選別手段２０３は、統計データ取得手段２０２が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する機能を備える。

記憶手段３は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。図１に示すように、記憶手段３は、辞書３０１と、文書データベース３０２とを含む。

辞書３０１には、入力データから単語又は単語列を抽出するために必要な情報が登録されている。例えば、記憶手段３は、辞書３０１として、日本語や外国語の各単語を収録した辞書データを記憶する。

文書データベース３０２には、ユーザに関連の深い電子文書群が登録されている。例えば、文書データベース３０２は、ユーザが過去に作成、編集又は参照した電子文書を蓄積する。また、文書データベース３０２には、各電子文書に出現する語彙の出現頻度を含む出現頻度リストが登録されていてもよい。

文書データベース３０２は、例えば、ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチーム（グループ）の人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも１種類以上の電子文書が登録されていてもよい。また、文書データベース３０２は、例えば、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、電子文書毎にリスト化した情報（例えば、出現頻度リスト）が登録されていてもよい。

なお、登録情報をユーザが自分で入力するようにするのではなく、情報選別システムが自動で取得するものとする。また、情報選別システムは、文書データベース３０２に記憶する登録情報を、変更がある毎に自動的に更新するものとする。

例えば、情報選別システムのデータ処理手段２は、文書データベース３０２に記憶する登録情報を更新する文書更新手段を含む。この場合、文書更新手段は、所定時間毎に、社内等に設置された共有ファイルサーバにアクセスする。共有ファイルサーバは、文書更新手段からの要求に応じて、更新された電子文書を抽出し、通信ネットワークを介して文書更新手段に送信する。そして、文書更新手段は、受信した電子文書に基づいて、文書データベース３０２に記憶する登録情報を更新する。

なお、本実施形態において、データ処理手段２の記憶装置（図示せず）は、ユーザの理解度が低い単語又は単語列を選別するための各種プログラムを記憶している。例えば、データ処理手段２の記憶装置は、コンピュータに、入力データから単語又は単語列を抽出する単語列抽出処理と、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得処理と、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを実行させるための情報選別用プログラムを記憶している。

次に、第１の実施形態の全体の動作について説明する。図２は、情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。まず、データ処理手段２は、ユーザの入力操作に従って、データ入力手段１から入力データを入力する（図２のステップＳ１０１）。そして、単語列抽出手段２０１は、記憶手段３が記憶する辞書３０１を参照して、入力データから単語又は単語列を抽出する（ステップＳ１０２）。

次に、統計データ取得手段２０２は、記憶手段３が記憶する文書データベース３０２を参照して、単語列抽出手段２０１が抽出した各単語又は各単語列に関連した統計データを取得する（ステップＳ１０３）。また、選別手段２０３は、統計データ取得手段２０２が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する（ステップＳ１０４）。

そして、選別手段２０３は、選別した単語又は単語列を出力手段４に提示させる（ステップＳ１０５）。この場合、選別手段２０３は、例えば、選別した単語又は単語列を、出力手段４としてディスプレイ装置等の表示装置に表示させる。また、選別手段２０３は、例えば、選別した単語又は単語列を音声変換して、出力手段４としてスピーカ等の音声出力装置に音声出力させる。

以上のように、本実施形態によれば、統計データ取得手段２０２は、記憶手段３が記憶する文書データベース３０２を参照して、単語列抽出手段２０１が抽出した各単語又は各単語列に関連した統計データを取得する。また、選別手段２０３は、統計データ取得手段２０２が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する。そのため、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。

また、本実施形態によれば、ユーザが聞き取れなかった言葉であっても、話し手が発した言葉で提示できる。そのため、その提示された言葉を検索キーワードとして利用すれば、キーワードが正しく設定できずに検索できないという状況をなくすことができ、会議等の後でユーザが自分で調べやすくすることができる。

また、本実施形態によれば、ユーザが付加情報を取得したい言葉を後から自分で調べやすくできるので、会議等その場で質問する必要がなくなり、会議や対話の流れを中断しないですむようにできる。

さらに、本実施形態によれば、ユーザが聞き取れなかった可能性の高い言葉を会議等その場で提示できるので、その聞き取れなかった言葉が気になって以降の話が耳に入らなくなり、全体的に話の理解度が落ちてしまうという状況をなくすことができる。そのため、会議や対話におけるコミュニケーション障害を軽減できる。

なお、例えば、特開２００４−２４０８５９号公報には、ユーザが作成したテキストや、ユーザが読んで理解できたテキストに使われている用語に基づいて、ユーザの習熟度の学習を行うことが記載されている。そのような関連技術を適用すれば、求めた習熟度に基づいて、ユーザが情報を取得したい単語をある程度推定することができる。

しかし、上記の関連技術では、ユーザが作成したテキストやユーザが読んで理解できたテキストに１回でも単語が出現していれば、ユーザがその単語に習熟していると判断している。そのため、上記の関連技術を用いたとしても、ユーザが情報を取得したい単語を適切に推定できるとは限らない。すなわち、一般に、ユーザが作成したテキストやユーザが読んで理解できたテキストに１回出現しているからといって、必ずしもユーザがその単語に習熟しているとは言えないのであるから、ユーザが情報を取得したい単語を適切に推定できない可能性がある。

これに対して、本実施形態によれば、統計データに基づいて推定したユーザの理解度の推定結果に基づいて単語又は単語列を選別するので、ユーザが単語又は単語列に習熟しているか否かを適切に推定することができる。従って、ユーザが情報を取得したい単語を適切に推定して提示することができる。

なお、本実施形態では、情報選別システムは、データを入力すると、常に入力データから単語又は単語列を抽出する場合を示したが、データを入力した後にさらにユーザからの検出指示のコマンドを入力したことに基づいて、入力データから単語又は単語列を抽出するようにしてもよい。この場合、情報選別システムは、例えば、キーボードやマイクロフォン、カメラ等の入力装置によって実現されるコマンド入力手段を含んでもよい。そして、データ処理手段２の単語列抽出手段２０１は、ステップＳ１０１でデータを入力した後、さらにコマンド入力手段からコマンドを入力したことに基づいて、ステップＳ１０２の単語又は単語列を抽出する処理を実行するようにしてもよい。

そのように構成すれば、ユーザからの検出指示のコマンドを入力したことに基づいて、入力データから単語又は単語列を抽出するので、ユーザの検出指示がなされたときにのみ、単語又は単語列の抽出処理を行うようにすることができる。従って、単語又は単語列の抽出処理にかかる負荷を軽減することができる。

また、本実施形態では、ユーザの理解度が低い、つまりユーザが付加情報を取得したいであろうと選別した単語又は単語列を常に提示する場合を示したが、ユーザからの検出指示のコマンドを入力したことに基づいて、ユーザが付加情報を取得したいであろうと選別した単語又は単語列を提示するようにしてもよい。この場合、情報選別システムは、データを入力する毎に、常にステップＳ１０１〜Ｓ１０５の処理を実行し、単語又は単語列を選別する処理を実行する。そして、情報選別システムは、コマンド入力手段から、ユーザからの検出指示のコマンドを入力したことに基づいて、選別した単語又は単語列を出力手段４に提示させる。

そのように構成すれば、ユーザが付加情報を取得したいであろう単語又は単語列の選別を常に実行していて、ユーザの検出指示がなされたときにのみ提示するようにすることができる。そのため、ユーザからの検出指示の入力に基づいて単語又は単語列の選別処理を開始する場合と比較して、ユーザが単語又は単語列の検出を望んでから提示するまでの時間を短縮することができる。

なお、情報選別システムは、例えば、単語又は単語列についてＷｅｂ検索を行ったり辞書引き検索を行ったりする検索システムの用途に適用できる。また、テレビ会議やＷｅｂ会議等を行う会議支援システムの用途に適用できる。また、各種文章読解や、単語に対する訳語を検索して翻訳文等を得る読解支援システムの用途に適用できる。さらに、語学学習の情報等の各種学習情報を検索する学習支援システムの用途にも適用可能である。

例えば、会議支援システムの用途に適用する場合、情報選別システムは、会議中の音声データを入力するマイクロフォン等の音声入力手段を備える。そして、単語列抽出手段２０１は、音声入力手段が入力した音声データから単語又は単語列を抽出する。この場合、単語列抽出手段２０１は、例えば、入力した音声データを音声認識して変換したテキストデータから単語又は単語列を抽出する。そして、情報選別システムは、選別手段２０３が選別した単語又は単語列に基づいて情報を検索する情報検索手段と、情報検索手段が検索した情報を提示する情報提示手段とをさらに備える。

実施形態２．
次に、本発明の第２の実施形態について図面を参照して説明する。図３は、第２の実施形態における情報選別システムの構成例を示すブロック図である。図３に示すように、本実施形態では、図１で示した構成要素に加えて、データ処理手段２が範囲推定手段２０４を含む点で、第１の実施形態と異なる。また、本実施形態では、単語列抽出手段２０１Ａの機能が、第１の実施形態で示した単語列抽出手段２０１の機能と異なる。

範囲推定手段２０４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。範囲推定手段２０４は、入力データから単語又は単語列を抽出する範囲を推定する機能を備える。

単語列抽出手段２０１Ａは、記憶手段３が記憶する辞書３０１を参照して、入力データのうちの範囲推定手段２０４が推定した範囲から単語又は単語列を抽出する機能を備える。なお、単語列抽出手段２０１Ａは、例えば、所定の範囲として、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する。

次に、第２の実施形態の全体の動作について説明する。図４は、第２の実施形態における情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。第１の実施形態では、情報選別システムは、データを入力すると、逐次単語又は単語列を抽出し、順にユーザの理解度を推定するように動作した。本実施形態では、情報選別システムは、データを入力すると、まず、単語又は単語列を抽出する範囲を推定する。そして、情報選別システムは、範囲を推定した後に、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定するように動作する。

まず、データ処理手段２は、第１の実施形態と同様の処理に従って、ユーザの入力操作に従って、データ入力手段１から入力データを入力する（ステップＳ１０１）。すると、範囲推定手段２０４は、入力データ中の単語又は単語列を抽出する範囲を推定する（ステップＳ１０１Ａ）。そして、単語列抽出手段２０１は、記憶手段３が記憶する辞書３０１を参照して、入力データのうち範囲推定手段２０４が推定した範囲から単語又は単語列を抽出する（ステップＳ１０２Ａ）。

なお、以降のステップＳ１０３からステップＳ１０５までに示される第２の実施形態における統計データ取得手段２０２、及び選別手段２０３の処理と、出力手段４の動作とは、第１の実施形態におけるそれらの手段の処理及び動作と同様である。

以上のように、本実施形態によれば、第１の実施形態と同様に、情報選別システムは、ユーザの理解度が低い単語又は単語列を自動的に推定する。そのため、ユーザが、システムが提示する単語又は単語列の中から付加情報を取得したい単語又は単語列を自分で選択操作する必要をなくすことができる。

さらに、本実施形態によれば、情報選別システムは、データを入力すると、入力データ中の単語又は単語列を抽出する範囲を推定し、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定する。そのため、逐次単語又は単語列を抽出し順にユーザの理解度を推定する第１の実施形態と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。

次に、本発明の第１の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第１の実施形態をより具体化したものに対応する。本実施例では、情報選別システムは、データ入力手段１としてマイクロフォンを備え、データ処理手段２としてパーソナルコンピュータを備えているものとする。また、情報選別システムは、記憶手段３として磁気ディスク装置を備え、出力手段４としてディスプレイ装置を備えているものとする。

パーソナルコンピュータは、単語列抽出手段２０１、統計データ取得手段２０２、及び選別手段２０３として機能する中央演算装置を有する。また、磁気ディスク装置は、辞書３０１及び文書データベース３０２を含む。

データ入力手段１から音声データを入力すると、単語列抽出手段２０１は、音声認識を開始し、辞書３０１を参照して、音声データをテキストデータに変換する。また、単語列抽出手段２０１は、音声認識の結果得られたテキストデータから単語又は単語列を抽出する。なお、音声認識の技術に関しては、公知の技術であるので説明を省略する。

また、抽出する単語又は単語列の単位は、単語や複合語、文節、句、文等任意に設定できるものとする。また、抽出する単語又は単語列の単位を、助詞や助動詞以外の単語（自立語）とすれば、統計データ取得手段２０２や、選別手段２０３が行う処理の効率を上げることができる。よって、以下の説明では、自立語を抽出単位とする場合について説明する。なお、自立語とは、主に名詞や固有名詞、サ変名詞（「勉強」や「委託」等）、動詞をさす。

単語列抽出手段２０１は、抽出した単語又は単語列を順次統計データ取得手段２０２に送信（出力）する。そして、統計データ取得手段２０２は、文書データベース３０２を参照して、各単語又は各単語列に対する統計データを計算する。

文書データベース３０２には、ユーザに関連の深い電子文書群が登録されている。ユーザに関連の深い電子文書群とは、例えば、ユーザ自身が作成した電子文書や、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書等である。なお、文書データベース３０２には、各電子文書に出現する語彙の出現頻度リストが登録されていてもよい。

また、文書データベース３０２は、所定のグループ毎やユーザ毎に電子文書を蓄積するデータベースをそれぞれ含んでいてもよい。図５は、グループ毎及びユーザ毎にデータベースを含む場合の文書データベース３０２の構造の例を示す説明図である。図５に示すように、文書データベース３０２は、グループＡ，Ｂ毎にデータベース６１０，６２０を含む。また、文書データベース３０２は、グループＡについて、ユーザＡ１，Ａ２，Ａ３毎にデータベース６１１，６１２，６１３を含む。また、文書データベース３０２は、グループＢについて、ユーザＢ１，Ｂ２毎にデータベース６２１，６２２を含む。

また、図６は、文書データベース３０２が含むユーザ毎のデータベースが記憶する情報の一例を示す説明図である。図６は、一例として、ユーザＡ１に対するデータベースが記憶する情報を示している。図６に示すように、ユーザ毎のデータベースは、ユーザＩＤ、文書ＩＤ、更新日時、単語数、更新回数Ａ１，Ａ２、参照回数Ａ１，Ａ２、及び本文を対応付けて記憶する。

図６において、ユーザＩＤは、ユーザを識別するためのＩＤである。また、文書ＩＤは、蓄積する電子文書を識別するためのＩＤである。更新日時は、電子文書を最後に更新した日時である。本文は、電子文書の本文である。なお、文書データベース３０２は、更新日時に加えて、電子文書の作成日時や参照日時を記憶してもよい。

単語数は、電子文書に含まれる単語数である。例えば、データ処理手段２が備える文書更新手段は、電子文書が新たに作成される毎に形態素解析を行い、電子文書に含まれる全単語数を求めて文書データベース３０２に記憶させる。

更新回数は、電子文書を更新した回数である。例えば、文書更新手段は、電子文書が更新される毎に、電子文書を更新したユーザ毎に文書データベース３０２が記憶する更新回数を更新（１加算）する。

参照回数は、電子文書を参照（例えば、閲覧）した回数である。例えば、文書更新手段は、電子文書が参照される毎に、電子文書を参照したユーザ毎に文書データベース３０２が記憶する参照回数を更新（１加算）する。

また、統計データ取得手段２０２が統計データを計算する方法として、次に示すように、ユーザが作成した電子文書中に各単語又は各単語列が出現する頻度（ユーザ文書出現頻度）を求める方法がある。以下、ユーザをＹ（ユーザＹ）として説明する。

図７は、ユーザ文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。一般に、ユーザ本人が作成した電子文書において出現する頻度が低い単語又は単語列は、ユーザの理解度が低いと推定できる。図７に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。

なお、図７において、ステップＳ２０の処理は第１の実施形態で示したステップＳ１０３に相当し、ステップＳ２１の処理は第１の実施形態で示したステップＳ１０４に相当する。

まず、統計データ取得手段２０２は、ユーザＹが作成した電子文書を文書データベース３０２から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度（ユーザ文書出現頻度）を統計データとして求める（ステップＳ２０）。また、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度の値が低い単語又は単語列を、ユーザの理解度が低い単語又は単語列として選別する（ステップＳ２１）。

例えば、統計データ取得手段２０２は、ステップＳ２０で、文書データベース３０２から「作成者」がユーザＹ本人である電子文書を選択して抽出し、抽出した各電子文書と単語列抽出手段２０１が抽出した単語又は単語列との文字列マッチングを行う。そして、統計データ取得手段２０２は、ユーザＹが作成した全ての電子文書中に単語又は単語列が出現する総出現回数と、ユーザＹが作成した全ての電子文書の単語数の和とから、単語又は単語列の出現回数の平均（（単語数の和）／総出現回数）を、ユーザ文書出現頻度として求める。また、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度が所定の閾値（例えば、０．０５（２０語に１回使用））と比較し、ユーザ文書出現頻度が所定の閾値より低い全ての単語又は単語列を、ユーザの理解度が低いと推定する。

例えば、「春」という単語がユーザＹが作成した電子文書全てに出現する回数の平均が「０．１（１０語に１回）」である場合には、統計データ取得手段２０２は、ユーザ文書出現頻度を０．１と求める。同様に、「夏」という単語がユーザＹが作成した電子文書全てに出現する回数の平均が「０．０１（１００語に１回）」である場合には、統計データ取得手段２０２は、ユーザ文書出現頻度を０．０１と求める。そして、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度「０．１」と「０．０１」をそれぞれ所定の閾値「０．０５」と比較し、「夏」のほうが閾値より小さいことから、「夏」がユーザが付加情報を取得したい単語又は単語列であるとして選別する。

また、統計データ取得手段２０２は、文書データベース３０２に予め出現頻度リストが登録されている場合には、出現頻度リストと単語又は単語列とをマッチングしてユーザ文書出現頻度を求めるようにしてもよい。

なお、ユーザが付加情報を取得したいであろうと選別する単語又は単語列の数は、予め設定した閾値をはずれる単語又は単語列全てとは限らない。例えば、情報選別システムは、予め設定した閾値を一番大きくはずれる単語１つだけを選別するようにしてもよい。

上記に示すような計算を経て、選別手段２０３は、ユーザの理解度が低い単語又は単語列がユーザが付加情報を取得したい単語又は単語列であるとして選別し、出力手段４に送信（出力）する。そして、出力手段４は、選別手段２０３の指示に従って、選別された単語又は単語列をユーザＹのディスプレイ装置に提示（表示）する。

以上に示した処理を、具体例を用いて説明する。今、話し手Ｚが投資に関する講演をしていて、聞き手Ｙが聴講しているとする。話し手Ｚが「さいきんとうしかのあいだでちゅうもくされているのはぶりっくすです」と発言すると、情報選別システムは、その音声データを入力し、音声認識を行う。そして、情報選別システムは、その音声認識結果として「最近投資家の間で注目されているのはBRICs です」を得る。

次に、情報選別システムの単語列抽出手段２０１は、辞書３０１を参照して、音声認識結果のデータから、自立語として、「最近」、「投資家」、「間」、「注目」及び「BRICs 」を抽出して、統計データ取得手段２０２に送信（出力）する。

統計データ取得手段２０２は、聞き手Ｙが作成した電子文書に抽出した単語又は単語列が出現する頻度（ユーザ文書出現頻度）を計算する。そして、統計データ取得手段２０２は、「最近」に対して出現頻度０．８を求め、「投資家」に対して出現頻度０．４を求め、「間」に対して出現頻度１．０を求め、「注目」に対して出現頻度０．７を求め、「BRICs 」に対して出現頻度０．０１を求めたものとする。

選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度を所定の閾値「０．０５」と比較し、閾値より出現頻度の低い「BRICs 」が、ユーザの理解度が低いと推定する。さらに、「BRICs 」を聞き手Ｙが付加情報を取得したい単語又は単語列であるとして、聞き手Ｙのディスプレイ装置に「BRICs 」を提示（表示）させる。

なお、情報選別システムがデータ入力手段１から入力するデータは、音声データに限らない。例えば、情報選別システムは、データ入力手段１から、字幕文字や電光ニュース文字等の音声以外の流動的なデータを入力してもよいし、キーボードやＯＣＲから文章のような静止的なデータを入力してもよい。

また、付加情報を取得したいであろうと選別された単語又は単語列の提示方法は、聞き手Ｙのディスプレイ装置に表示する方法だけとは限らず、ユーザが好みの方法を指定できるようにしてもよい。例えば、情報選別システムは、同時に話し手Ｚのディスプレイ装置に、選別した単語又は単語列を表示させるようにしてもよい。そのようにすれば、話し手Ｚに、ある単語についてわからないと思った人がいるということを知らせることができ、補足説明を促すことが可能となる。

また、情報選別システムは、選別した単語又は単語列を、聞き手Ｙが予め指定するファイルに保存することとしてもよい。そのようにすれば、聞き手Ｙは、その単語又は単語列について、後から自分で調べるためのメモとして利用することができる。

また、付加情報を取得したいであろうと選別された単語又は単語列の提示方法は、音声で提示する方法であってもよい。また、情報選別システムは、選別した単語又は単語列を、ディスプレイ装置への表示及び音声出力の両方を用いて提示させてもよい。

なお、付加情報を取得したいであろうと選別された単語又は単語列の利用方法としては、その語をキーワードとしてＷｅｂ検索を行ったり、辞書引きを行ったりすることが考えられる。

以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度を求め、求めたユーザ文書出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

なお、本実施例では、ユーザに関する頻度情報としてユーザ文書出現頻度を求める場合を示したが、統計データ取得手段２０２が求めるユーザに関する頻度情報は、本実施例で示したものに限られない。

例えば、ユーザ本人が更新又は参照する頻度が低い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定するようにしてもよい。この場合、例えば、統計データ取得手段２０２は、全ての電子文書と文字又は文字列マッチングして、単語列抽出手段２０１が抽出した単語又は単語列が出現する電子文書を特定する。そして、統計データ取得手段２０２は、特定した電子文書をユーザ本人が更新又は参照した回数を求める。また、選別手段２０３は、統計データ取得手段２０２が求めた更新回数又は参照回数を所定の閾値（例えば、２０回）と比較し、更新回数又は参照回数が所定の閾値より低い全ての単語又は単語列を、ユーザの理解度が低いと推定する。

次に、本発明の第２の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第１の実施形態をより具体化したものに対応する。第１の実施例では、統計データとしてユーザ文書出現頻度を求める場合を示したが、本実施例では、ユーザ文書出現頻度に加えて、ユーザの関係者が作成した電子文書中に各単語又は各単語列が出現する頻度（関係文書出現頻度）を求める場合を説明する。

図８は、ユーザ文書出現頻度及び関係文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。一般にユーザと同じグループの人が作成した電子文書に出現する頻度に比べて、ユーザ本人が作成した電子文書に出現する頻度が低い単語又は単語列は、ユーザの理解度が低いと推定できる。図８に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。

なお、図８において、ステップＳ３０，Ｓ３１の処理は第１の実施形態で示したステップＳ１０３に相当し、ステップＳ３２の処理は第１の実施形態で示したステップＳ１０４に相当する。

まず、統計データ取得手段２０２は、ユーザＹが作成した電子文書を文書データベース３０２から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度（ユーザ文書出現頻度）を統計データとして求める（ステップＳ３０）。また、統計データ取得手段２０２は、ユーザＹのグループの人（例えば、上司）が作成した電子文書を文書データベース３０２から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度（関係文書出現頻度）を統計データとして求める（ステップＳ３１）。また、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度の値が、関係文書出現頻度の値より低い単語又は単語列を、ユーザの理解度が低いと推定して、該単語又は単語列を、ユーザが付加情報を取得したい単語又は単語列であるとして選別する（ステップＳ３２）。

本実施例で示す方法は、例えば、ユーザＹの上司が作成した電子文書中に出現する頻度に比べて、ユーザＹが作成した電子文書中に出現する頻度の低い単語又は単語列を、付加情報を取得したい単語又は単語列であると選別する方法である。そのため、統計データ取得手段２０２は、文書データベース３０２から、「作成者」がユーザＹ本人である電子文書と、「作成者」がユーザＹの上司である電子文書とを選択して抽出する。また、統計データ取得手段２０２は、両者のそれぞれの電子文書に対して、単語列抽出手段２０１が抽出した単語又は単語列との文字列マッチングを行う。そして、統計データ取得手段２０２は、全ての電子文書中に単語又は単語列が出現する総出現回数と、全ての電子文書の単語数の和とから、両者のそれぞれの電子文書での単語又は単語列の出現回数の平均（（単語数の和）／総出現回数）を求める。

例えば、「春」という単語について、ユーザＹが作成した電子文書全てに対する出現頻度（ユーザ文書出現頻度）を０．８と求め、ユーザＹの上司が作成した電子文書全てに対する出現頻度（関係文書出現頻度）を１．０と求めたとする。また、「夏」という単語については、ユーザＹが作成した電子文書全てに対する出現頻度を０．６と求め、ユーザＹの上司が作成した電子文書全てに対する出現頻度を０．８と求めたとする。すると、「春」も「夏」も、ユーザＹの上司が作成した電子文書に出現する頻度に比べて、ユーザＹが作成した電子文書に出現する頻度が低いので、選別手段２０３は、ユーザの理解度が低いと推定する。さらに、「春」も「夏」も、ユーザが付加情報を取得したい単語又は単語列であるとして選別する。

なお、上記のように単語又は単語列を選別して提示することによって、上司がよく使う単語又は単語列は、部下も知っているべきであるという注意を促すこともできる。

以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度及び関係文書出現頻度を求め、ユーザ文書出現頻度が関係文書出現頻度より低い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

また、ユーザと同じグループの人等の関係者が理解している単語又は単語列である場合には、一般に、それらの単語又は単語列は重要単語又は重要単語列であることが多い。従って、本実施例によれば、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列を選別することができる。

なお、本実施例では、ユーザの関係者がユーザと同じグループの人である場合を示したが、関係文書出現頻度を求める対象となるユーザの関係者は、本実施例で示したものに限られない。例えば、統計データ取得手段２０２は、ユーザの関係者としてユーザと同じ分野の人が作成した電子文書中に各単語又は各単語列が出現する頻度を関係文書出現頻度として求めてもよい。また、例えば、統計データ取得手段２０２は、一般の人が作成した電子文書中に単語又は単語列が出現する頻度を関係文書出現頻度として求めてもよい。

また、統計データ取得手段２０２が求めるユーザの関係者に関する頻度情報は、本実施例で示した関係文書出現頻度に限られない。例えば、ユーザ本人が更新又は参照する頻度が、ユーザの関係者が更新又は参照する頻度よりも低い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定するようにしてもよい。

例えば、統計データ取得手段２０２は、全ての電子文書と文字又は文字列マッチングして、単語列抽出手段２０１が抽出した単語又は単語列が出現する電子文書を特定する。そして、統計データ取得手段２０２は、特定した電子文書をユーザ本人が更新又は参照した回数を求める。また、統計データ取得手段２０２は、特定した電子文書をユーザの関係者が更新又は参照した回数を求める。

次に、選別手段２０３は、ユーザ本人が更新又は参照した回数が、ユーザの関係者が更新又は参照した回数より少ないか否かを確認する。ユーザの関係者が更新又は参照した回数より少なければ、選別手段２０３は、ユーザの理解度が低いと推定する。

次に、本発明の第３の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第１の実施形態をより具体化したものに対応する。第１の実施例や第２の実施例では、電子文書中に単語又は単語列が出現する頻度を統計データとして求める場合を示したが、本実施例では、ユーザが電子文書を更新した更新日時（ユーザ文書更新日時）を特定する場合を説明する。

図９は、ユーザ文書更新日時を特定して単語又は単語列を選別する場合の処理例を示す流れ図である。一般に、ユーザが最後に更新した日時が古い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定できる。図９に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。

なお、図９において、ステップＳ４０の処理は第１の実施形態で示したステップＳ１０３に相当し、ステップＳ４１の処理は第１の実施形態で示したステップＳ１０４に相当する。

まず、統計データ取得手段２０２は、単語列抽出手段２０１が抽出した各単語又は各単語列が含まれ、ユーザＹが作成した電子文書を、文書データベース３０２からそれぞれ抽出する。そして、統計データ取得手段２０２は、抽出した電子文書の更新日時（ユーザ文書更新日時）を特定する（ステップＳ４０）。また、選別手段２０３は、統計データ取得手段２０２が特定したユーザ文書更新日時が古い電子文書に対応する単語又は単語列を、ユーザの理解度が低い単語又は単語列であるとして選別する（ステップＳ４１）。

本実施例で示す方法は、例えば、出現する電子文書の更新日時が一番古い単語又は単語列を、付加情報を取得したい単語又は単語列であると選別する方法である。これは、一般に、一番古い過去に使った言葉や目にした言葉は忘れている可能性が高いからである。そのため、統計データ取得手段２０２は、全ての電子文書に対して、単語列抽出手段２０１が抽出した単語又は単語列との文字列マッチングを行う。そして、選別手段２０３は、単語列抽出手段２０１が抽出した単語又は単語列が含まれる電子文書を日付順に比較することで、ユーザの理解度を推定する。

例えば、「春」という単語が出現した電子文書の更新日時のうち、一番新しい日付が「２００６／０４／２８」で、「夏」という単語が出現した電子文書の更新日時のうち、一番新しい日付が「２００３／０８／１５」であったとする。この場合、選別手段２０３は、「夏」のほうが更新日時が古く、ユーザの理解度が低いと推定して選別する。

なお、統計データ取得手段２０２は、例えば、各電子文書について特定したユーザ文書更新日時と現在日時との差分を求めるようにしてもよい。そして、選別手段２０３は、統計データ取得手段２０２が求めた日時の差分を所定の閾値（例えば、２年）と比較し、日時の差分が所定の閾値より長い全ての電子文書に対応する単語又は単語列を、ユーザの理解度が低いと推定してもよい。

また、本実施例では、統計データ取得手段２０２が電子文書の更新日時を特定する場合を示したが、特定する日時情報は更新日時に限らず、例えば、電子文書の作成日時や参照（例えば、閲覧）日時を特定するようにしてもよい。

以上のように、本実施例によれば、統計データとして電子文書の更新日時を特定し、特定した更新日時が古い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

なお、統計データ取得手段２０２が取得する統計データは、上記の各実施例で示したユーザ文書出現頻度や、関係文書出現頻度、ユーザ文書更新日時に限られない。例えば、統計データ取得手段２０２は、統計データとして、ユーザ文書更新日時に加えて、ユーザの関係者が電子文書を更新した更新日時（関係文書更新日時）を特定するようにしてもよい。この場合、選別手段２０３は、例えば、ユーザ文書更新日時が関係文書更新日時よりも古い日付であるか否かを判断する。そして、選別手段２０３は、関係文書更新日時よりも古い日付であれば、ユーザの理解度が低いと推定する。

なお、ユーザの関係者は、ユーザと同じグループの人であってもよく、ユーザと同じ分野の人であってもよい。また、統計データ取得手段２０２は、例えば、一般の人が電子文書を更新した更新日時を関係文書更新日時として特定してもよい。

また、情報選別システムは、上記の各実施例に示したユーザの理解度の推定方法のうちのいずれか複数を組み合わせて用いて、入力データから抽出した単語又は単語列に対するユーザの理解度を推定してもよい。例えば、情報選別システムは、（１）ユーザ文書出現頻度のみに基づいて推定する方法、（２）ユーザ文書出現頻度と関係文書出現頻度とを比較して推定する方法、（３）ユーザ文書更新日時のみを用いて推定する方法、及び（４）ユーザ文書更新日時と関係文書更新日時とを比較して推定する方法のうち、いずれか２つ又は３つを組み合わせて用いてユーザの理解度を推定してもよい。また、情報選別システムは、それら４つ全てを組み合わせて用いてユーザの理解度を推定してもよい。

次に、本発明の第４の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第１の実施形態をより具体化したものに対応する。本実施例では、上記の各実施例に示したユーザの理解度の推定方法のうち、（２）ユーザ文書出現頻度と関係文書出現頻度とを比較して推定する方法と、（４）ユーザ文書更新日時と関係文書更新日時とを比較して推定する方法とを組み合わせて用いて、ユーザの理解度を推定する場合を説明する。

図１０は、ユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。なお、図１０において、ステップＳ５０〜Ｓ５３の処理は第１の実施形態で示したステップＳ１０３に相当し、ステップＳ５４の処理は第１の実施形態で示したステップＳ１０４に相当する。

まず、統計データ取得手段２０２は、ユーザＹが作成した電子文書を文書データベース３０２から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度（ユーザ文書出現頻度）を統計データとして求める（ステップＳ５０）。また、統計データ取得手段２０２は、抽出した電子文書の更新日時（ユーザ文書更新日時）を特定する（ステップＳ５１）。また、統計データ取得手段２０２は、ユーザＹのグループの人（例えば、上司）が作成した電子文書を文書データベース３０２から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度（関係文書出現頻度）を統計データとして求める（ステップＳ５２）。また、統計データ取得手段２０２は、抽出した電子文書の更新日時（関係文書更新日時）を特定する（ステップＳ５３）。

また、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度の値が関係文書出現頻度の値より低く、かつ統計データ取得手段２０２が特定したユーザ文書更新日時が関係文書更新日時より古い日付である単語又は単語列を、ユーザの理解度が低い単語又は単語列であるとして選別する（ステップＳ５４）。

なお、ステップＳ５４において、選別手段２０３は、統計データ取得手段２０２が求めたユーザ文書出現頻度の値が関係文書出現頻度の値より低いか、又は統計データ取得手段２０２が特定したユーザ文書更新日時が関係文書更新日時より古い日付であるかいずれかの条件を満たす単語又は単語列を、ユーザの理解度が低いと推定してもよい。

以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求め、ユーザ文書出現頻度が関係文書出現頻度より低く、かつユーザ文書更新日時が関係文書更新日時より古い日付である単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列をより確実に推定して、ユーザに提示する単語又は単語列として選別することができる。また、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列をより確実に選別することができる。

次に、本発明の第５の実施例を説明する。なお、本実施例は、本発明の第２の実施形態をより具体化したものに対応する。すなわち、本実施例では、情報選別システムは、範囲推定手段２０４を含む。そして、範囲推定手段２０４は、入力データから単語又は単語列を抽出する範囲を推定し、単語列抽出手段２０１Ａは、入力データのうちの範囲推定手段２０４が推定した範囲から単語又は単語列を抽出する。範囲推定手段２０４が範囲を推定する方法としては、以下に示すような方法がある。

例えば、入力データが音声データや字幕文字、電光ニュース文字等のように、提示されては消えてゆく流動的なデータである場合には、範囲推定手段２０４は、ユーザが指示操作したポイントを終点として、入力データ中の範囲を推定する方法を用いる。

また、例えば、範囲推定手段２０４は、ユーザの指示操作がなくても、発話が区切れたり話者が交代した等のイベントが生じたタイミングを終点として、入力データ中の範囲を推定する方法を用いる。例えば、範囲推定手段２０４は、入力データ中に登場する話者が交代したら、それより前の交代前の話者が話していた部分を、単語又は単語列を抽出する範囲として推定する。

また、例えば、入力データが流動的ではないテキスト等である場合には、範囲推定手段２０４は、ユーザがなぞったり丸で囲んだりする操作を行った範囲を、単語又は単語列を抽出する範囲として推定する方法を用いる。また、例えば、範囲推定手段２０４は、ユーザが指示操作したポイントを始点又は終点として、入力データ中の範囲を推定する方法を用いる。

また、例えば、範囲推定手段２０４は、ユーザ操作に従って表示文書中の次ページへ進むイベントや、前ページへ戻るイベント等が生じたタイミングを始点又は終点として、入力データ中の範囲を推定する方法を用いる。例えば範囲推定手段２０４は、ユーザによって次ページへ進む指示操作が行われたら、表示文書中の次ページを、単語又は単語列を抽出する範囲として推定する。

なお、ユーザの指示操作は、入力データが流動的なデータである場合には、音声認識を利用して、「えっ？」や「何？」等といった音声に基づいて認識できるようにしてもよい。また、画像認識を利用して、ユーザを撮影した画像に基づいて、首をかしげる等といった動作に基づいて認識できるようにしてもよい。

また、ユーザの指示操作は、入力データが流動的ではないテキスト等である場合には、キーボードやマウスだけでなく、タッチペンや指を用いた操作に基づいて認識できるようにしてもよい。

また、範囲推定手段２０４は、入力データ中の単語又は単語列を抽出する範囲を、具体的には、次のようなルールに基づいて求める。例えば、範囲推定手段２０４は、入力データが流動的なデータである場合には、３秒間といった予め設定した時間や、３発話分といった予め設定した発話数、一話者分といった予め設定した範囲、４０文字分といった予め設定した文字数、２段落分といった予め設定した段落数を求める。

また、例えば、範囲推定手段２０４は、入力データが流動的ではないテキスト等である場合には、４０文字分といった予め設定した文字数や、２段落分といった予め設定した段落数を求める。

なお、いずれのルールに従って範囲を求める場合も、範囲推定のルールをユーザが任意に随時変更できるものとする。

以上に説明した動作を、具体例をあげて説明する。まず、入力データが流動的なデータである場合を説明する。今、話し手Ｚが投資に関する講演をしていて、聞き手Ｙが聴講しているとする。また、範囲推定手段２０４は、ユーザの指示を受け取ると、３秒間さかのぼった範囲を単語又は単語列の抽出対象の範囲とするように予め設定されているものとする。

話し手Ｚが「さいきんとうしかのあいだでちゅうもくされているのはぶりっくすです」と発言すると、情報選別システムは、その音声データを入力し、音声認識を行う。そして、情報選別システムは、その音声認識結果として「最近投資家の間で注目されているのはBRICs です」を得る。

聞き手Ｙは「ぶりっくす」ということばが初耳だったので、例えば、キーボード上の所定のボタンを押す。すると、範囲推定手段２０４は、ボタンを押されたときから３秒間分の音声認識結果のデータをさかのぼって、「投資家の間で注目されているのはBRICs です」を、単語又は単語列を抽出する範囲として得る。

単語列抽出手段２０１Ａは、範囲推定手段２０４が推定した範囲から、第１の実施例と同様の処理に従って、「投資家」、「間」、「注目」及び「BRICs 」を抽出し、抽出した各単語又は各単語列を統計データ取得手段２０２に送る。

なお、以降の統計データ取得手段２０２、選別手段２０３の動作は、第１の実施例と同様である。

次に、入力データが流動的ではないテキスト等である場合を説明する。今、話し手Ｚが投資に関する講演をしていて、聞き手Ｙが資料を自分のパーソナルコンピュータのディスプレイ装置に表示しながら聴講しているとする。また、範囲推定手段２０４は、ユーザの操作に従って、次ページへ進むという指示を受け取ると、次ページを単語又は単語列の抽出対象の範囲とするように予め設定されているものとする。

話し手Ｚが資料の１ページ目を説明し終えたので、例えば、聞き手Ｙは、自分のパーソナルコンピュータを操作して、次ページへ進む指示を入力指示する。この場合、次ページには「今投資家は「BRICs 」に大注目！」と書かれているものとする。すると、範囲推定手段２０４は、入力データであるテキスト等から「今投資家は「BRICs 」に大注目！」を、単語又は単語列を抽出する範囲として推定する。

単語列抽出手段２０１Ａは、範囲推定手段２０４が範囲として推定したページから、第１の実施例と同様の処理に従って、「今」、「投資家」、「BRICs 」及び「大注目」を抽出し、抽出した各単語又は各単語列を統計データ取得手段２０２に送る。

以上のように、本実施例によれば、情報選別システムは、データを入力すると、入力データ中の単語又は単語列を抽出する範囲を推定し、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定する。そのため、逐次単語又は単語列を抽出し順にユーザの理解度を推定する場合と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。

次に、本発明による情報選別システムの最小構成について説明する。図１１は、情報選別システムの最小の構成例を示すブロック図である。図１１に示すように、情報選別システムは、最小の構成要素として、単語列抽出手段２０１、統計データ取得手段２０２、選別手段２０３を含む。

単語列抽出手段２０１は、入力データから単語又は単語列を抽出する機能を備える。統計データ取得手段２０２は、ユーザに関連する電子文書群における単語列抽出手段２０１が抽出した単語又は単語列に関連した統計データを取得する機能を備える。選別手段２０３は、統計データ取得手段２０２が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列が、ユーザが付加情報を取得したい単語又は単語列であると選別する。

図１１に示す最小構成の情報選別システムによれば、統計データ取得手段２０２は、単語列抽出手段２０１が抽出した各単語又は各単語列に関連した統計データを取得する。また、選別手段２０３は、統計データ取得手段２０２が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する。そのため、上記に示した各実施形態及び各実施例と同様に、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。

なお、上記の各実施形態及び各実施例では、以下の（１）〜（１０）に示すような情報選別システムの特徴的構成が示されている。

（１）情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段（例えば、単語列抽出手段２０１によって実現される）と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段（例えば、統計データ取得手段２０２によって実現される）と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段（例えば、選別手段２０３によって実現される）とを備えたことを特徴とする。そのような構成によれば、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。

（２）統計データ取得手段は、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、選別手段は、統計データ取得手段が求めた出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

（３）統計データ取得手段は、各単語又は各単語列が出現する電子文書に対する所定の日時情報（例えば、電子文書の作成、更新又は参照日時）をそれぞれ統計データとして特定し、選別手段は、統計データ取得手段が特定した日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、電子文書に対する所定の日時情報に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

（４）統計データ取得手段は、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、選別手段は、統計データ取得手段が求めたユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、ユーザ文書出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。

（５）統計データ取得手段は、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、選別手段は、統計データ取得手段が求めたユーザ文書出現頻度が関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、ユーザ文書出現頻度及び関係文書出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。また、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列を選別することができる。

（６）情報選別システムは、入力データから単語又は単語列を抽出する範囲を推定する範囲推定手段（例えば、範囲推定手段２０４によって実現される）を備え、単語列抽出手段は、入力データのうちの範囲推定手段が推定した範囲から単語又は単語列を抽出するように構成されていてもよい。そのような構成によれば、逐次単語又は単語列を抽出し順にユーザの理解度を推定する場合と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。

（７）単語列抽出手段は、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出するように構成されていてもよい。

（８）単語列抽出手段は、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出するように構成されていてもよい。

（９）情報選別システムは、ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも１種類以上の電子文書を保存する文書データベースを備えるように構成されていてもよい。

（１０）文書データベースは、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、電子文書毎にリスト化した情報を保存するように構成されていてもよい。

本発明は、単語又は単語列についてＷｅｂ検索を行ったり辞書引き検索を行ったりする検索システムの用途に適用できる。また、テレビ会議やＷｅｂ会議等を行う会議支援システムの用途に適用できる。また、各種文章読解や、単語に対する訳語を検索して翻訳文等を得る読解支援システムの用途に適用できる。さらに、語学学習の情報等の各種学習情報を検索する学習支援システムの用途にも適用可能である。

本発明による情報選別システムの構成の一例を示すブロック図である。情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。第２の実施形態における情報選別システムの構成例を示すブロック図である。第２の実施形態における情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。グループ毎及びユーザ毎にデータベースを含む場合の文書データベースの構造の例を示す説明図である。文書データベースが含むユーザ毎のデータベースが記憶する情報の一例を示す説明図である。ユーザ文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。ユーザ文書出現頻度及び関係文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。ユーザ文書更新日時を特定して単語又は単語列を選別する場合の処理例を示す流れ図である。ユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。情報選別システムの最小の構成例を示すブロック図である。

符号の説明

１データ入力手段
２データ処理手段
３記憶手段
４出力手段
２０１単語列抽出手段
２０２統計データ取得手段
２０３選別手段
２０４範囲推定手段
３０１辞書
３０２文書データベース

Claims

入力データから単語又は単語列を抽出する単語列抽出手段と、
ユーザに関連する電子文書群における前記単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、
前記統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを
備えたことを特徴とする情報選別システム。
統計データ取得手段は、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、
選別手段は、前記統計データ取得手段が求めた出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する
請求項１記載の情報選別システム。
統計データ取得手段は、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定し、
選別手段は、前記統計データ取得手段が特定した日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する
請求項１又は請求項２記載の情報選別システム。
統計データ取得手段は、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、
選別手段は、前記統計データ取得手段が求めたユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する
請求項２記載の情報選別システム。
統計データ取得手段は、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、
選別手段は、前記統計データ取得手段が求めたユーザ文書出現頻度が関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する
請求項２記載の情報選別システム。
入力データから単語又は単語列を抽出する範囲を推定する範囲推定手段を備え、
単語列抽出手段は、入力データのうちの前記範囲推定手段が推定した範囲から単語又は単語列を抽出する
請求項１から請求項５のうちのいずれか１項に記載の情報選別システム。
単語列抽出手段は、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する請求項１から請求項６のうちのいずれか１項に記載の情報選別システム。
単語列抽出手段は、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する請求項１から請求項７のうちのいずれか１項に記載の情報選別システム。
ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも１種類以上の電子文書を保存する文書データベースを備えた請求項１から請求項８のうちのいずれか１項に記載の情報選別システム。
文書データベースは、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、前記電子文書毎にリスト化した情報を保存する請求項９記載の情報選別システム。
入力データから単語又は単語列を抽出する単語列抽出ステップと、
ユーザに関連する電子文書群における抽出した前記単語又は前記単語列に関連した統計データを取得する統計データ取得ステップと、
取得した前記統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別ステップとを
含むことを特徴とする情報選別方法。
統計データ取得ステップで、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、
選別ステップで、求めた前記出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する
請求項１１記載の情報選別方法。
統計データ取得ステップで、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定し、
選別ステップで、特定した前記日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する
請求項１１又は請求項１２記載の情報選別方法。
統計データ取得ステップで、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、
選別ステップで、求めた前記ユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する
請求項１２記載の情報選別方法。
統計データ取得ステップで、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、
選別ステップで、求めた前記ユーザ文書出現頻度が前記関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する
請求項１２記載の情報選別方法。
入力データから単語又は単語列を抽出する範囲を推定する範囲推定ステップを含み、
単語列抽出ステップで、入力データのうちの前記推定した範囲から単語又は単語列を抽出する
請求項１１から請求項１５のうちのいずれか１項に記載の情報選別方法。
単語列抽出ステップで、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する請求項１１から請求項１６のうちのいずれか１項に記載の情報選別方法。
単語列抽出ステップで、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する請求項１１から請求項１７のうちのいずれか１項に記載の情報選別方法。
ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも１種類以上の電子文書を文書データベースに保存する請求項１１から請求項１８のうちのいずれか１項に記載の情報選別方法。
ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、前記電子文書毎にリスト化した情報を文書データベースに保存する請求項１９記載の情報選別方法。
コンピュータに、
入力データから単語又は単語列を抽出する単語列抽出処理と、
ユーザに関連する電子文書群における抽出した前記単語又は前記単語列に関連した統計データを取得する統計データ取得処理と、
取得した前記統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを
実行させるための情報選別用プログラム。
コンピュータに、
統計データ取得処理で、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求める処理を実行させ、
選別処理で、求めた前記出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
請求項２１記載の情報選別用プログラム。
コンピュータに、
統計データ取得処理で、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定する処理を実行させ、
選別処理で、特定した前記日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
請求項２１又は請求項２２記載の情報選別用プログラム。
コンピュータに、
統計データ取得処理で、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求める処理を実行させ、
選別処理で、求めた前記ユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
請求項２２記載の情報選別用プログラム。
コンピュータに、
統計データ取得処理で、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求める処理を実行させ、
選別処理で、求めた前記ユーザ文書出現頻度が前記関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
請求項２２記載の情報選別用プログラム。
コンピュータに、
入力データから単語又は単語列を抽出する範囲を推定する範囲推定処理を実行させ、
単語列抽出処理で、入力データのうちの前記推定した範囲から単語又は単語列を抽出する処理を実行させる
請求項２１から請求項２５のうちのいずれか１項に記載の情報選別用プログラム。
コンピュータに、
単語列抽出処理で、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する処理を実行させる
請求項２１から請求項２６のうちのいずれか１項に記載の情報選別用プログラム。
コンピュータに、
単語列抽出処理で、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する処理を実行させる
請求項２１から請求項２７のうちのいずれか１項に記載の情報選別用プログラム。