[go: up one dir, main page]

JP2009042968A - 情報選別システム、情報選別方法及び情報選別用プログラム - Google Patents

情報選別システム、情報選別方法及び情報選別用プログラム Download PDF

Info

Publication number
JP2009042968A
JP2009042968A JP2007206395A JP2007206395A JP2009042968A JP 2009042968 A JP2009042968 A JP 2009042968A JP 2007206395 A JP2007206395 A JP 2007206395A JP 2007206395 A JP2007206395 A JP 2007206395A JP 2009042968 A JP2009042968 A JP 2009042968A
Authority
JP
Japan
Prior art keywords
word
user
word string
statistical data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007206395A
Other languages
English (en)
Inventor
Yoshiko Matsukawa
淑子 松川
Susumu Akamine
享 赤峯
Shinichi Doi
伸一 土井
Satoshi Nakazawa
聡 中澤
Takamasa Kawai
剛巨 河合
Toshio Takeda
俊夫 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007206395A priority Critical patent/JP2009042968A/ja
Priority to US12/186,785 priority patent/US20090044105A1/en
Publication of JP2009042968A publication Critical patent/JP2009042968A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができるようにする。
【解決手段】情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを備えたことを特徴とする。
【選択図】図11

Description

本発明は、ユーザの理解度が低い単語又は単語列を選別する情報選別システム、情報選別方法及び情報選別用プログラムに関する。
会議中や対話中に、聞き手にとって初めて聞く言葉や聞き慣れない言葉、意味がわからない言葉等が出てきた場合、一般に、その会議や対話の場で質問するか、後から自分で調べざるをえない。しかし、その会議や対話の場で質問すると、会議や対話の流れを中断させてしまう。また、会議や対話の中で、それらの言葉を正しく聞き取れなかったり、それらの言葉の正しい表記がわからなかったりすることも多い。そのため、後から自分で調べようと思っても調べられないことも多い。
初めて聞く言葉や聞き慣れない言葉、意味がわからない言葉を後で自分で調べたりすることを支援できるシステムが、例えば、特許文献1に記載されている。特許文献1には、システムが提示する単語の中から、ユーザが辞書情報を取得したい単語を選択し、ユーザが選択した単語についての辞書情報を音声出力する情報提示システムの一例が記載されている。
特許文献1に記載された情報提示システムは、連続音声を出力する手段と、操作者のタイミング指定を入力する手段(ワードボタン)と、音声認識手段と、音声認識結果とタイミング指定に基づいて連続音声中の単語を特定する手段と、特定された単語に基づいて辞書情報を生成する手段と、辞書情報を出力する手段とから構成されている。
上記に示した構成を有する情報提示システムは、次のように動作する。情報提示システムは、音声データ再生中にユーザがワードボタンを押下すると、再生を一時停止し、押下直前の所定時間の音声データを音声認識する。そして、情報提示システムは、音声データを1又は複数の単語に分解し、ユーザに提示する。ユーザは、辞書情報を取得したい単語が提示されている間に再度ワードボタンを押下する。すると、情報提示システムは、ワードボタンが押下されたときの単語を特定し、その単語に関する辞書情報を取得して、ユーザに提示する。
特開2002−259373号公報
特許文献1に記載された関連する情報提示システムでは、ユーザが情報を取得したい単語又は単語列を推定することができない。そのため、システムが提示する単語又は単語列の中から、情報を取得したい単語又は単語列をユーザが自分で選択しなければならないという問題がある。
例えば、辞書引きサービスを利用する場合に、ユーザが辞書引きボタンを押したとしても、押したタイミングと辞書引きしたい単語との間にずれが生じるので、どの単語について付加情報を取得するのが適切なのかについては、ユーザが選択操作する必要がある。
例えば、「I like puppies」という音声データを再生中に、ユーザが「puppies 」について辞書情報を取得したいと考えたとする。この場合、特許文献1に記載された情報提示システムでは、「I like puppies」を再生中にユーザがワードボタンを押下すると、「I like puppies」を音声認識して、「I 」,「like」,「puppies 」という3つの単語に分解する。そして、情報提示システムは、それらの単語を1つずつユーザに提示する。ユーザは、自分が辞書情報を取得したい単語が「puppies 」であるので、「puppies 」が提示されている間に再度ワードボタンを押下する。すると、情報提示システムは、ユーザが辞書情報を取得したい単語が「puppies」であると特定し、「puppies 」に関する辞書情報を取得して、ユーザに提示する。そのため、「puppies 」に関する辞書情報を取得するために、ユーザが選択操作を行わなければならず、手間がかかる。
そこで、本発明は、システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができる情報選別システム、情報選別方法及び情報選別用プログラムを提供することを目的とする。
本発明による情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを備えたことを特徴とする。
本発明による情報選別方法は、入力データから単語又は単語列を抽出する単語列抽出ステップと、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得ステップと、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別ステップとを含むことを特徴とする。
本発明による情報選別用プログラムは、コンピュータに、入力データから単語又は単語列を抽出する単語列抽出処理と、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得処理と、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを実行させるためのものである。
本発明によれば、入力データから抽出した各単語又は各単語列に関連した統計データを取得し、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別するように構成されているので、システムが提示する単語又は単語列の中から情報を取得したい単語又は単語列をユーザが自分で選択する必要をなくすことができる。
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による情報選別システムの構成の一例を示すブロック図である。本実施形態では、情報選別システムは、ユーザが付加情報を取得したい単語又は単語列を選別して提示する。
なお、ユーザが取得したい付加情報とは、例えば、単語又は単語列の意味や訳語、一般的な用法、語源のことである。また、ユーザが取得したい付加情報は、インターネット等の通信ネットワークを介して検索した各種検索情報(例えば、単語又は単語列が含まれているコンテンツや、コンテンツ中の単語又は単語列が含まれている周辺の記述部分)であってもよい。
図1に示すように、情報選別システムは、データ入力手段1と、出力手段4と、データ処理手段2と、情報を記憶する記憶手段3とを含む。これらの手段は、それぞれ概略以下のように動作する。
データ入力手段1は、具体的には、マイクロフォンやキーボード等の入力装置によって実現され、ユーザの操作に従って、データの入力を受け付ける機能を備える。出力手段4は、ディスプレイ装置等の表示装置やスピーカ等の音声出力装置によって実現される。出力手段4は、データ処理手段2の指示に従って、情報を表示したり、音声を出力したりする機能を備える。
データ処理手段2は、具体的には、プログラム制御により動作するパーソナルコンピュータ等の情報処理装置によって実現される。図1に示すように、データ処理手段2は、単語列抽出手段201と、統計データ取得手段202と、選別手段203とを含む。
また、データ処理手段2は、ユーザの入力操作に従って、データ入力手段1から入力データを入力する機能を備える。なお、データ処理手段2は、例えば、データ入力手段1から、入力データとして電子文書等のテキストデータを入力してもよい。また、データ入力手段1がマイクロフォン等の音声入力装置である場合には、データ処理手段2は、入力した音声データを音声認識してテキストデータに変換し、入力データとしてもよい。
単語列抽出手段201は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。単語列抽出手段201は、記憶手段3が記憶する辞書301を参照して、入力データから単語又は単語列を抽出する機能を備える。
なお、単語列抽出手段201は、例えば、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する。
統計データ取得手段202は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。統計データ取得手段202は、記憶手段3が記憶する文書データベース302を参照して、ユーザに関連する電子文書群における単語列抽出手段201が抽出した単語又は単語列に関連した統計データを取得する機能を備える。
なお、統計データ取得手段202が求める統計データは、単語列抽出手段201が抽出する単語又は単語列についての頻度や時間の統計値を示すデータである。例えば、統計データ取得手段202は、統計データとして、ユーザが作成した電子文書中に各単語又は各単語列が出現する頻度(以下、ユーザ文書出現頻度ともいう)を求める。また、例えば、統計データ取得手段202は、統計データとして、ユーザの関係者が作成した電子文書中に各単語又は各単語列が出現する頻度(以下、関係文書出現頻度ともいう)を求める。また、例えば、統計データ取得手段202は、統計データとして、ユーザが電子文書を更新した更新日時(以下、ユーザ文書更新日時ともいう)を特定する。さらに、例えば、統計データ取得手段202は、統計データとして、ユーザの関係者が電子文書を更新した更新日時(以下、関係文書更新日時ともいう)を特定する。
選別手段203は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。選別手段203は、統計データ取得手段202が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する機能を備える。
記憶手段3は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。図1に示すように、記憶手段3は、辞書301と、文書データベース302とを含む。
辞書301には、入力データから単語又は単語列を抽出するために必要な情報が登録されている。例えば、記憶手段3は、辞書301として、日本語や外国語の各単語を収録した辞書データを記憶する。
文書データベース302には、ユーザに関連の深い電子文書群が登録されている。例えば、文書データベース302は、ユーザが過去に作成、編集又は参照した電子文書を蓄積する。また、文書データベース302には、各電子文書に出現する語彙の出現頻度を含む出現頻度リストが登録されていてもよい。
文書データベース302は、例えば、ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチーム(グループ)の人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも1種類以上の電子文書が登録されていてもよい。また、文書データベース302は、例えば、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、電子文書毎にリスト化した情報(例えば、出現頻度リスト)が登録されていてもよい。
なお、登録情報をユーザが自分で入力するようにするのではなく、情報選別システムが自動で取得するものとする。また、情報選別システムは、文書データベース302に記憶する登録情報を、変更がある毎に自動的に更新するものとする。
例えば、情報選別システムのデータ処理手段2は、文書データベース302に記憶する登録情報を更新する文書更新手段を含む。この場合、文書更新手段は、所定時間毎に、社内等に設置された共有ファイルサーバにアクセスする。共有ファイルサーバは、文書更新手段からの要求に応じて、更新された電子文書を抽出し、通信ネットワークを介して文書更新手段に送信する。そして、文書更新手段は、受信した電子文書に基づいて、文書データベース302に記憶する登録情報を更新する。
なお、本実施形態において、データ処理手段2の記憶装置(図示せず)は、ユーザの理解度が低い単語又は単語列を選別するための各種プログラムを記憶している。例えば、データ処理手段2の記憶装置は、コンピュータに、入力データから単語又は単語列を抽出する単語列抽出処理と、ユーザに関連する電子文書群における抽出した単語又は単語列に関連した統計データを取得する統計データ取得処理と、取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを実行させるための情報選別用プログラムを記憶している。
次に、第1の実施形態の全体の動作について説明する。図2は、情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。まず、データ処理手段2は、ユーザの入力操作に従って、データ入力手段1から入力データを入力する(図2のステップS101)。そして、単語列抽出手段201は、記憶手段3が記憶する辞書301を参照して、入力データから単語又は単語列を抽出する(ステップS102)。
次に、統計データ取得手段202は、記憶手段3が記憶する文書データベース302を参照して、単語列抽出手段201が抽出した各単語又は各単語列に関連した統計データを取得する(ステップS103)。また、選別手段203は、統計データ取得手段202が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する(ステップS104)。
そして、選別手段203は、選別した単語又は単語列を出力手段4に提示させる(ステップS105)。この場合、選別手段203は、例えば、選別した単語又は単語列を、出力手段4としてディスプレイ装置等の表示装置に表示させる。また、選別手段203は、例えば、選別した単語又は単語列を音声変換して、出力手段4としてスピーカ等の音声出力装置に音声出力させる。
以上のように、本実施形態によれば、統計データ取得手段202は、記憶手段3が記憶する文書データベース302を参照して、単語列抽出手段201が抽出した各単語又は各単語列に関連した統計データを取得する。また、選別手段203は、統計データ取得手段202が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する。そのため、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。
また、本実施形態によれば、ユーザが聞き取れなかった言葉であっても、話し手が発した言葉で提示できる。そのため、その提示された言葉を検索キーワードとして利用すれば、キーワードが正しく設定できずに検索できないという状況をなくすことができ、会議等の後でユーザが自分で調べやすくすることができる。
また、本実施形態によれば、ユーザが付加情報を取得したい言葉を後から自分で調べやすくできるので、会議等その場で質問する必要がなくなり、会議や対話の流れを中断しないですむようにできる。
さらに、本実施形態によれば、ユーザが聞き取れなかった可能性の高い言葉を会議等その場で提示できるので、その聞き取れなかった言葉が気になって以降の話が耳に入らなくなり、全体的に話の理解度が落ちてしまうという状況をなくすことができる。そのため、会議や対話におけるコミュニケーション障害を軽減できる。
なお、例えば、特開2004−240859号公報には、ユーザが作成したテキストや、ユーザが読んで理解できたテキストに使われている用語に基づいて、ユーザの習熟度の学習を行うことが記載されている。そのような関連技術を適用すれば、求めた習熟度に基づいて、ユーザが情報を取得したい単語をある程度推定することができる。
しかし、上記の関連技術では、ユーザが作成したテキストやユーザが読んで理解できたテキストに1回でも単語が出現していれば、ユーザがその単語に習熟していると判断している。そのため、上記の関連技術を用いたとしても、ユーザが情報を取得したい単語を適切に推定できるとは限らない。すなわち、一般に、ユーザが作成したテキストやユーザが読んで理解できたテキストに1回出現しているからといって、必ずしもユーザがその単語に習熟しているとは言えないのであるから、ユーザが情報を取得したい単語を適切に推定できない可能性がある。
これに対して、本実施形態によれば、統計データに基づいて推定したユーザの理解度の推定結果に基づいて単語又は単語列を選別するので、ユーザが単語又は単語列に習熟しているか否かを適切に推定することができる。従って、ユーザが情報を取得したい単語を適切に推定して提示することができる。
なお、本実施形態では、情報選別システムは、データを入力すると、常に入力データから単語又は単語列を抽出する場合を示したが、データを入力した後にさらにユーザからの検出指示のコマンドを入力したことに基づいて、入力データから単語又は単語列を抽出するようにしてもよい。この場合、情報選別システムは、例えば、キーボードやマイクロフォン、カメラ等の入力装置によって実現されるコマンド入力手段を含んでもよい。そして、データ処理手段2の単語列抽出手段201は、ステップS101でデータを入力した後、さらにコマンド入力手段からコマンドを入力したことに基づいて、ステップS102の単語又は単語列を抽出する処理を実行するようにしてもよい。
そのように構成すれば、ユーザからの検出指示のコマンドを入力したことに基づいて、入力データから単語又は単語列を抽出するので、ユーザの検出指示がなされたときにのみ、単語又は単語列の抽出処理を行うようにすることができる。従って、単語又は単語列の抽出処理にかかる負荷を軽減することができる。
また、本実施形態では、ユーザの理解度が低い、つまりユーザが付加情報を取得したいであろうと選別した単語又は単語列を常に提示する場合を示したが、ユーザからの検出指示のコマンドを入力したことに基づいて、ユーザが付加情報を取得したいであろうと選別した単語又は単語列を提示するようにしてもよい。この場合、情報選別システムは、データを入力する毎に、常にステップS101〜S105の処理を実行し、単語又は単語列を選別する処理を実行する。そして、情報選別システムは、コマンド入力手段から、ユーザからの検出指示のコマンドを入力したことに基づいて、選別した単語又は単語列を出力手段4に提示させる。
そのように構成すれば、ユーザが付加情報を取得したいであろう単語又は単語列の選別を常に実行していて、ユーザの検出指示がなされたときにのみ提示するようにすることができる。そのため、ユーザからの検出指示の入力に基づいて単語又は単語列の選別処理を開始する場合と比較して、ユーザが単語又は単語列の検出を望んでから提示するまでの時間を短縮することができる。
なお、情報選別システムは、例えば、単語又は単語列についてWeb検索を行ったり辞書引き検索を行ったりする検索システムの用途に適用できる。また、テレビ会議やWeb会議等を行う会議支援システムの用途に適用できる。また、各種文章読解や、単語に対する訳語を検索して翻訳文等を得る読解支援システムの用途に適用できる。さらに、語学学習の情報等の各種学習情報を検索する学習支援システムの用途にも適用可能である。
例えば、会議支援システムの用途に適用する場合、情報選別システムは、会議中の音声データを入力するマイクロフォン等の音声入力手段を備える。そして、単語列抽出手段201は、音声入力手段が入力した音声データから単語又は単語列を抽出する。この場合、単語列抽出手段201は、例えば、入力した音声データを音声認識して変換したテキストデータから単語又は単語列を抽出する。そして、情報選別システムは、選別手段203が選別した単語又は単語列に基づいて情報を検索する情報検索手段と、情報検索手段が検索した情報を提示する情報提示手段とをさらに備える。
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図3は、第2の実施形態における情報選別システムの構成例を示すブロック図である。図3に示すように、本実施形態では、図1で示した構成要素に加えて、データ処理手段2が範囲推定手段204を含む点で、第1の実施形態と異なる。また、本実施形態では、単語列抽出手段201Aの機能が、第1の実施形態で示した単語列抽出手段201の機能と異なる。
範囲推定手段204は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。範囲推定手段204は、入力データから単語又は単語列を抽出する範囲を推定する機能を備える。
単語列抽出手段201Aは、記憶手段3が記憶する辞書301を参照して、入力データのうちの範囲推定手段204が推定した範囲から単語又は単語列を抽出する機能を備える。なお、単語列抽出手段201Aは、例えば、所定の範囲として、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する。
次に、第2の実施形態の全体の動作について説明する。図4は、第2の実施形態における情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。第1の実施形態では、情報選別システムは、データを入力すると、逐次単語又は単語列を抽出し、順にユーザの理解度を推定するように動作した。本実施形態では、情報選別システムは、データを入力すると、まず、単語又は単語列を抽出する範囲を推定する。そして、情報選別システムは、範囲を推定した後に、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定するように動作する。
まず、データ処理手段2は、第1の実施形態と同様の処理に従って、ユーザの入力操作に従って、データ入力手段1から入力データを入力する(ステップS101)。すると、範囲推定手段204は、入力データ中の単語又は単語列を抽出する範囲を推定する(ステップS101A)。そして、単語列抽出手段201は、記憶手段3が記憶する辞書301を参照して、入力データのうち範囲推定手段204が推定した範囲から単語又は単語列を抽出する(ステップS102A)。
なお、以降のステップS103からステップS105までに示される第2の実施形態における統計データ取得手段202、及び選別手段203の処理と、出力手段4の動作とは、第1の実施形態におけるそれらの手段の処理及び動作と同様である。
以上のように、本実施形態によれば、第1の実施形態と同様に、情報選別システムは、ユーザの理解度が低い単語又は単語列を自動的に推定する。そのため、ユーザが、システムが提示する単語又は単語列の中から付加情報を取得したい単語又は単語列を自分で選択操作する必要をなくすことができる。
さらに、本実施形態によれば、情報選別システムは、データを入力すると、入力データ中の単語又は単語列を抽出する範囲を推定し、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定する。そのため、逐次単語又は単語列を抽出し順にユーザの理解度を推定する第1の実施形態と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。
次に、本発明の第1の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第1の実施形態をより具体化したものに対応する。本実施例では、情報選別システムは、データ入力手段1としてマイクロフォンを備え、データ処理手段2としてパーソナルコンピュータを備えているものとする。また、情報選別システムは、記憶手段3として磁気ディスク装置を備え、出力手段4としてディスプレイ装置を備えているものとする。
パーソナルコンピュータは、単語列抽出手段201、統計データ取得手段202、及び選別手段203として機能する中央演算装置を有する。また、磁気ディスク装置は、辞書301及び文書データベース302を含む。
データ入力手段1から音声データを入力すると、単語列抽出手段201は、音声認識を開始し、辞書301を参照して、音声データをテキストデータに変換する。また、単語列抽出手段201は、音声認識の結果得られたテキストデータから単語又は単語列を抽出する。なお、音声認識の技術に関しては、公知の技術であるので説明を省略する。
また、抽出する単語又は単語列の単位は、単語や複合語、文節、句、文等任意に設定できるものとする。また、抽出する単語又は単語列の単位を、助詞や助動詞以外の単語(自立語)とすれば、統計データ取得手段202や、選別手段203が行う処理の効率を上げることができる。よって、以下の説明では、自立語を抽出単位とする場合について説明する。なお、自立語とは、主に名詞や固有名詞、サ変名詞(「勉強」や「委託」等)、動詞をさす。
単語列抽出手段201は、抽出した単語又は単語列を順次統計データ取得手段202に送信(出力)する。そして、統計データ取得手段202は、文書データベース302を参照して、各単語又は各単語列に対する統計データを計算する。
文書データベース302には、ユーザに関連の深い電子文書群が登録されている。ユーザに関連の深い電子文書群とは、例えば、ユーザ自身が作成した電子文書や、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書等である。なお、文書データベース302には、各電子文書に出現する語彙の出現頻度リストが登録されていてもよい。
なお、登録情報をユーザが自分で入力するようにするのではなく、情報選別システムが自動で取得するものとする。また、情報選別システムは、文書データベース302に記憶する登録情報を、変更がある毎に自動的に更新するものとする。
また、文書データベース302は、所定のグループ毎やユーザ毎に電子文書を蓄積するデータベースをそれぞれ含んでいてもよい。図5は、グループ毎及びユーザ毎にデータベースを含む場合の文書データベース302の構造の例を示す説明図である。図5に示すように、文書データベース302は、グループA,B毎にデータベース610,620を含む。また、文書データベース302は、グループAについて、ユーザA1,A2,A3毎にデータベース611,612,613を含む。また、文書データベース302は、グループBについて、ユーザB1,B2毎にデータベース621,622を含む。
また、図6は、文書データベース302が含むユーザ毎のデータベースが記憶する情報の一例を示す説明図である。図6は、一例として、ユーザA1に対するデータベースが記憶する情報を示している。図6に示すように、ユーザ毎のデータベースは、ユーザID、文書ID、更新日時、単語数、更新回数A1,A2、参照回数A1,A2、及び本文を対応付けて記憶する。
図6において、ユーザIDは、ユーザを識別するためのIDである。また、文書IDは、蓄積する電子文書を識別するためのIDである。更新日時は、電子文書を最後に更新した日時である。本文は、電子文書の本文である。なお、文書データベース302は、更新日時に加えて、電子文書の作成日時や参照日時を記憶してもよい。
単語数は、電子文書に含まれる単語数である。例えば、データ処理手段2が備える文書更新手段は、電子文書が新たに作成される毎に形態素解析を行い、電子文書に含まれる全単語数を求めて文書データベース302に記憶させる。
更新回数は、電子文書を更新した回数である。例えば、文書更新手段は、電子文書が更新される毎に、電子文書を更新したユーザ毎に文書データベース302が記憶する更新回数を更新(1加算)する。
参照回数は、電子文書を参照(例えば、閲覧)した回数である。例えば、文書更新手段は、電子文書が参照される毎に、電子文書を参照したユーザ毎に文書データベース302が記憶する参照回数を更新(1加算)する。
また、統計データ取得手段202が統計データを計算する方法として、次に示すように、ユーザが作成した電子文書中に各単語又は各単語列が出現する頻度(ユーザ文書出現頻度)を求める方法がある。以下、ユーザをY(ユーザY)として説明する。
図7は、ユーザ文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。一般に、ユーザ本人が作成した電子文書において出現する頻度が低い単語又は単語列は、ユーザの理解度が低いと推定できる。図7に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。
なお、図7において、ステップS20の処理は第1の実施形態で示したステップS103に相当し、ステップS21の処理は第1の実施形態で示したステップS104に相当する。
まず、統計データ取得手段202は、ユーザYが作成した電子文書を文書データベース302から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度(ユーザ文書出現頻度)を統計データとして求める(ステップS20)。また、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度の値が低い単語又は単語列を、ユーザの理解度が低い単語又は単語列として選別する(ステップS21)。
例えば、統計データ取得手段202は、ステップS20で、文書データベース302から「作成者」がユーザY本人である電子文書を選択して抽出し、抽出した各電子文書と単語列抽出手段201が抽出した単語又は単語列との文字列マッチングを行う。そして、統計データ取得手段202は、ユーザYが作成した全ての電子文書中に単語又は単語列が出現する総出現回数と、ユーザYが作成した全ての電子文書の単語数の和とから、単語又は単語列の出現回数の平均((単語数の和)/総出現回数)を、ユーザ文書出現頻度として求める。また、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度が所定の閾値(例えば、0.05(20語に1回使用))と比較し、ユーザ文書出現頻度が所定の閾値より低い全ての単語又は単語列を、ユーザの理解度が低いと推定する。
例えば、「春」という単語がユーザYが作成した電子文書全てに出現する回数の平均が「0.1(10語に1回)」である場合には、統計データ取得手段202は、ユーザ文書出現頻度を0.1と求める。同様に、「夏」という単語がユーザYが作成した電子文書全てに出現する回数の平均が「0.01(100語に1回)」である場合には、統計データ取得手段202は、ユーザ文書出現頻度を0.01と求める。そして、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度「0.1」と「0.01」をそれぞれ所定の閾値「0.05」と比較し、「夏」のほうが閾値より小さいことから、「夏」がユーザが付加情報を取得したい単語又は単語列であるとして選別する。
また、統計データ取得手段202は、文書データベース302に予め出現頻度リストが登録されている場合には、出現頻度リストと単語又は単語列とをマッチングしてユーザ文書出現頻度を求めるようにしてもよい。
なお、ユーザが付加情報を取得したいであろうと選別する単語又は単語列の数は、予め設定した閾値をはずれる単語又は単語列全てとは限らない。例えば、情報選別システムは、予め設定した閾値を一番大きくはずれる単語1つだけを選別するようにしてもよい。
上記に示すような計算を経て、選別手段203は、ユーザの理解度が低い単語又は単語列がユーザが付加情報を取得したい単語又は単語列であるとして選別し、出力手段4に送信(出力)する。そして、出力手段4は、選別手段203の指示に従って、選別された単語又は単語列をユーザYのディスプレイ装置に提示(表示)する。
以上に示した処理を、具体例を用いて説明する。今、話し手Zが投資に関する講演をしていて、聞き手Yが聴講しているとする。話し手Zが「さいきんとうしかのあいだでちゅうもくされているのはぶりっくすです」と発言すると、情報選別システムは、その音声データを入力し、音声認識を行う。そして、情報選別システムは、その音声認識結果として「最近投資家の間で注目されているのはBRICs です」を得る。
次に、情報選別システムの単語列抽出手段201は、辞書301を参照して、音声認識結果のデータから、自立語として、「最近」、「投資家」、「間」、「注目」及び「BRICs 」を抽出して、統計データ取得手段202に送信(出力)する。
統計データ取得手段202は、聞き手Yが作成した電子文書に抽出した単語又は単語列が出現する頻度(ユーザ文書出現頻度)を計算する。そして、統計データ取得手段202は、「最近」に対して出現頻度0.8を求め、「投資家」に対して出現頻度0.4を求め、「間」に対して出現頻度1.0を求め、「注目」に対して出現頻度0.7を求め、「BRICs 」に対して出現頻度0.01を求めたものとする。
選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度を所定の閾値「0.05」と比較し、閾値より出現頻度の低い「BRICs 」が、ユーザの理解度が低いと推定する。さらに、「BRICs 」を聞き手Yが付加情報を取得したい単語又は単語列であるとして、聞き手Yのディスプレイ装置に「BRICs 」を提示(表示)させる。
なお、情報選別システムがデータ入力手段1から入力するデータは、音声データに限らない。例えば、情報選別システムは、データ入力手段1から、字幕文字や電光ニュース文字等の音声以外の流動的なデータを入力してもよいし、キーボードやOCRから文章のような静止的なデータを入力してもよい。
また、付加情報を取得したいであろうと選別された単語又は単語列の提示方法は、聞き手Yのディスプレイ装置に表示する方法だけとは限らず、ユーザが好みの方法を指定できるようにしてもよい。例えば、情報選別システムは、同時に話し手Zのディスプレイ装置に、選別した単語又は単語列を表示させるようにしてもよい。そのようにすれば、話し手Zに、ある単語についてわからないと思った人がいるということを知らせることができ、補足説明を促すことが可能となる。
また、情報選別システムは、選別した単語又は単語列を、聞き手Yが予め指定するファイルに保存することとしてもよい。そのようにすれば、聞き手Yは、その単語又は単語列について、後から自分で調べるためのメモとして利用することができる。
また、付加情報を取得したいであろうと選別された単語又は単語列の提示方法は、音声で提示する方法であってもよい。また、情報選別システムは、選別した単語又は単語列を、ディスプレイ装置への表示及び音声出力の両方を用いて提示させてもよい。
なお、付加情報を取得したいであろうと選別された単語又は単語列の利用方法としては、その語をキーワードとしてWeb検索を行ったり、辞書引きを行ったりすることが考えられる。
以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度を求め、求めたユーザ文書出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
なお、本実施例では、ユーザに関する頻度情報としてユーザ文書出現頻度を求める場合を示したが、統計データ取得手段202が求めるユーザに関する頻度情報は、本実施例で示したものに限られない。
例えば、ユーザ本人が更新又は参照する頻度が低い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定するようにしてもよい。この場合、例えば、統計データ取得手段202は、全ての電子文書と文字又は文字列マッチングして、単語列抽出手段201が抽出した単語又は単語列が出現する電子文書を特定する。そして、統計データ取得手段202は、特定した電子文書をユーザ本人が更新又は参照した回数を求める。また、選別手段203は、統計データ取得手段202が求めた更新回数又は参照回数を所定の閾値(例えば、20回)と比較し、更新回数又は参照回数が所定の閾値より低い全ての単語又は単語列を、ユーザの理解度が低いと推定する。
次に、本発明の第2の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第1の実施形態をより具体化したものに対応する。第1の実施例では、統計データとしてユーザ文書出現頻度を求める場合を示したが、本実施例では、ユーザ文書出現頻度に加えて、ユーザの関係者が作成した電子文書中に各単語又は各単語列が出現する頻度(関係文書出現頻度)を求める場合を説明する。
図8は、ユーザ文書出現頻度及び関係文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。一般にユーザと同じグループの人が作成した電子文書に出現する頻度に比べて、ユーザ本人が作成した電子文書に出現する頻度が低い単語又は単語列は、ユーザの理解度が低いと推定できる。図8に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。
なお、図8において、ステップS30,S31の処理は第1の実施形態で示したステップS103に相当し、ステップS32の処理は第1の実施形態で示したステップS104に相当する。
まず、統計データ取得手段202は、ユーザYが作成した電子文書を文書データベース302から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度(ユーザ文書出現頻度)を統計データとして求める(ステップS30)。また、統計データ取得手段202は、ユーザYのグループの人(例えば、上司)が作成した電子文書を文書データベース302から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度(関係文書出現頻度)を統計データとして求める(ステップS31)。また、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度の値が、関係文書出現頻度の値より低い単語又は単語列を、ユーザの理解度が低いと推定して、該単語又は単語列を、ユーザが付加情報を取得したい単語又は単語列であるとして選別する(ステップS32)。
本実施例で示す方法は、例えば、ユーザYの上司が作成した電子文書中に出現する頻度に比べて、ユーザYが作成した電子文書中に出現する頻度の低い単語又は単語列を、付加情報を取得したい単語又は単語列であると選別する方法である。そのため、統計データ取得手段202は、文書データベース302から、「作成者」がユーザY本人である電子文書と、「作成者」がユーザYの上司である電子文書とを選択して抽出する。また、統計データ取得手段202は、両者のそれぞれの電子文書に対して、単語列抽出手段201が抽出した単語又は単語列との文字列マッチングを行う。そして、統計データ取得手段202は、全ての電子文書中に単語又は単語列が出現する総出現回数と、全ての電子文書の単語数の和とから、両者のそれぞれの電子文書での単語又は単語列の出現回数の平均((単語数の和)/総出現回数)を求める。
例えば、「春」という単語について、ユーザYが作成した電子文書全てに対する出現頻度(ユーザ文書出現頻度)を0.8と求め、ユーザYの上司が作成した電子文書全てに対する出現頻度(関係文書出現頻度)を1.0と求めたとする。また、「夏」という単語については、ユーザYが作成した電子文書全てに対する出現頻度を0.6と求め、ユーザYの上司が作成した電子文書全てに対する出現頻度を0.8と求めたとする。すると、「春」も「夏」も、ユーザYの上司が作成した電子文書に出現する頻度に比べて、ユーザYが作成した電子文書に出現する頻度が低いので、選別手段203は、ユーザの理解度が低いと推定する。さらに、「春」も「夏」も、ユーザが付加情報を取得したい単語又は単語列であるとして選別する。
なお、上記のように単語又は単語列を選別して提示することによって、上司がよく使う単語又は単語列は、部下も知っているべきであるという注意を促すこともできる。
以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度及び関係文書出現頻度を求め、ユーザ文書出現頻度が関係文書出現頻度より低い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
また、ユーザと同じグループの人等の関係者が理解している単語又は単語列である場合には、一般に、それらの単語又は単語列は重要単語又は重要単語列であることが多い。従って、本実施例によれば、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列を選別することができる。
なお、本実施例では、ユーザの関係者がユーザと同じグループの人である場合を示したが、関係文書出現頻度を求める対象となるユーザの関係者は、本実施例で示したものに限られない。例えば、統計データ取得手段202は、ユーザの関係者としてユーザと同じ分野の人が作成した電子文書中に各単語又は各単語列が出現する頻度を関係文書出現頻度として求めてもよい。また、例えば、統計データ取得手段202は、一般の人が作成した電子文書中に単語又は単語列が出現する頻度を関係文書出現頻度として求めてもよい。
また、統計データ取得手段202が求めるユーザの関係者に関する頻度情報は、本実施例で示した関係文書出現頻度に限られない。例えば、ユーザ本人が更新又は参照する頻度が、ユーザの関係者が更新又は参照する頻度よりも低い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定するようにしてもよい。
例えば、統計データ取得手段202は、全ての電子文書と文字又は文字列マッチングして、単語列抽出手段201が抽出した単語又は単語列が出現する電子文書を特定する。そして、統計データ取得手段202は、特定した電子文書をユーザ本人が更新又は参照した回数を求める。また、統計データ取得手段202は、特定した電子文書をユーザの関係者が更新又は参照した回数を求める。
次に、選別手段203は、ユーザ本人が更新又は参照した回数が、ユーザの関係者が更新又は参照した回数より少ないか否かを確認する。ユーザの関係者が更新又は参照した回数より少なければ、選別手段203は、ユーザの理解度が低いと推定する。
次に、本発明の第3の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第1の実施形態をより具体化したものに対応する。第1の実施例や第2の実施例では、電子文書中に単語又は単語列が出現する頻度を統計データとして求める場合を示したが、本実施例では、ユーザが電子文書を更新した更新日時(ユーザ文書更新日時)を特定する場合を説明する。
図9は、ユーザ文書更新日時を特定して単語又は単語列を選別する場合の処理例を示す流れ図である。一般に、ユーザが最後に更新した日時が古い電子文書に出現する単語又は単語列は、ユーザの理解度が低いと推定できる。図9に示す例では、そのような考えに基づいて、単語又は単語列を選別する処理を実行する。
なお、図9において、ステップS40の処理は第1の実施形態で示したステップS103に相当し、ステップS41の処理は第1の実施形態で示したステップS104に相当する。
まず、統計データ取得手段202は、単語列抽出手段201が抽出した各単語又は各単語列が含まれ、ユーザYが作成した電子文書を、文書データベース302からそれぞれ抽出する。そして、統計データ取得手段202は、抽出した電子文書の更新日時(ユーザ文書更新日時)を特定する(ステップS40)。また、選別手段203は、統計データ取得手段202が特定したユーザ文書更新日時が古い電子文書に対応する単語又は単語列を、ユーザの理解度が低い単語又は単語列であるとして選別する(ステップS41)。
本実施例で示す方法は、例えば、出現する電子文書の更新日時が一番古い単語又は単語列を、付加情報を取得したい単語又は単語列であると選別する方法である。これは、一般に、一番古い過去に使った言葉や目にした言葉は忘れている可能性が高いからである。そのため、統計データ取得手段202は、全ての電子文書に対して、単語列抽出手段201が抽出した単語又は単語列との文字列マッチングを行う。そして、選別手段203は、単語列抽出手段201が抽出した単語又は単語列が含まれる電子文書を日付順に比較することで、ユーザの理解度を推定する。
例えば、「春」という単語が出現した電子文書の更新日時のうち、一番新しい日付が「2006/04/28」で、「夏」という単語が出現した電子文書の更新日時のうち、一番新しい日付が「2003/08/15」であったとする。この場合、選別手段203は、「夏」のほうが更新日時が古く、ユーザの理解度が低いと推定して選別する。
なお、統計データ取得手段202は、例えば、各電子文書について特定したユーザ文書更新日時と現在日時との差分を求めるようにしてもよい。そして、選別手段203は、統計データ取得手段202が求めた日時の差分を所定の閾値(例えば、2年)と比較し、日時の差分が所定の閾値より長い全ての電子文書に対応する単語又は単語列を、ユーザの理解度が低いと推定してもよい。
また、本実施例では、統計データ取得手段202が電子文書の更新日時を特定する場合を示したが、特定する日時情報は更新日時に限らず、例えば、電子文書の作成日時や参照(例えば、閲覧)日時を特定するようにしてもよい。
以上のように、本実施例によれば、統計データとして電子文書の更新日時を特定し、特定した更新日時が古い単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
なお、統計データ取得手段202が取得する統計データは、上記の各実施例で示したユーザ文書出現頻度や、関係文書出現頻度、ユーザ文書更新日時に限られない。例えば、統計データ取得手段202は、統計データとして、ユーザ文書更新日時に加えて、ユーザの関係者が電子文書を更新した更新日時(関係文書更新日時)を特定するようにしてもよい。この場合、選別手段203は、例えば、ユーザ文書更新日時が関係文書更新日時よりも古い日付であるか否かを判断する。そして、選別手段203は、関係文書更新日時よりも古い日付であれば、ユーザの理解度が低いと推定する。
なお、ユーザの関係者は、ユーザと同じグループの人であってもよく、ユーザと同じ分野の人であってもよい。また、統計データ取得手段202は、例えば、一般の人が電子文書を更新した更新日時を関係文書更新日時として特定してもよい。
また、情報選別システムは、上記の各実施例に示したユーザの理解度の推定方法のうちのいずれか複数を組み合わせて用いて、入力データから抽出した単語又は単語列に対するユーザの理解度を推定してもよい。例えば、情報選別システムは、(1)ユーザ文書出現頻度のみに基づいて推定する方法、(2)ユーザ文書出現頻度と関係文書出現頻度とを比較して推定する方法、(3)ユーザ文書更新日時のみを用いて推定する方法、及び(4)ユーザ文書更新日時と関係文書更新日時とを比較して推定する方法のうち、いずれか2つ又は3つを組み合わせて用いてユーザの理解度を推定してもよい。また、情報選別システムは、それら4つ全てを組み合わせて用いてユーザの理解度を推定してもよい。
次に、本発明の第4の実施例を、図面を参照して説明する。なお、本実施例は、本発明の第1の実施形態をより具体化したものに対応する。本実施例では、上記の各実施例に示したユーザの理解度の推定方法のうち、(2)ユーザ文書出現頻度と関係文書出現頻度とを比較して推定する方法と、(4)ユーザ文書更新日時と関係文書更新日時とを比較して推定する方法とを組み合わせて用いて、ユーザの理解度を推定する場合を説明する。
図10は、ユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。なお、図10において、ステップS50〜S53の処理は第1の実施形態で示したステップS103に相当し、ステップS54の処理は第1の実施形態で示したステップS104に相当する。
まず、統計データ取得手段202は、ユーザYが作成した電子文書を文書データベース302から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度(ユーザ文書出現頻度)を統計データとして求める(ステップS50)。また、統計データ取得手段202は、抽出した電子文書の更新日時(ユーザ文書更新日時)を特定する(ステップS51)。また、統計データ取得手段202は、ユーザYのグループの人(例えば、上司)が作成した電子文書を文書データベース302から抽出し、抽出した電子文書中に単語又は単語列が出現する頻度(関係文書出現頻度)を統計データとして求める(ステップS52)。また、統計データ取得手段202は、抽出した電子文書の更新日時(関係文書更新日時)を特定する(ステップS53)。
また、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度の値が関係文書出現頻度の値より低く、かつ統計データ取得手段202が特定したユーザ文書更新日時が関係文書更新日時より古い日付である単語又は単語列を、ユーザの理解度が低い単語又は単語列であるとして選別する(ステップS54)。
なお、ステップS54において、選別手段203は、統計データ取得手段202が求めたユーザ文書出現頻度の値が関係文書出現頻度の値より低いか、又は統計データ取得手段202が特定したユーザ文書更新日時が関係文書更新日時より古い日付であるかいずれかの条件を満たす単語又は単語列を、ユーザの理解度が低いと推定してもよい。
以上のように、本実施例によれば、統計データとしてユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求め、ユーザ文書出現頻度が関係文書出現頻度より低く、かつユーザ文書更新日時が関係文書更新日時より古い日付である単語又は単語列を、ユーザの理解度が低いと推定する。従って、ユーザの理解度が低い単語又は単語列をより確実に推定して、ユーザに提示する単語又は単語列として選別することができる。また、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列をより確実に選別することができる。
次に、本発明の第5の実施例を説明する。なお、本実施例は、本発明の第2の実施形態をより具体化したものに対応する。すなわち、本実施例では、情報選別システムは、範囲推定手段204を含む。そして、範囲推定手段204は、入力データから単語又は単語列を抽出する範囲を推定し、単語列抽出手段201Aは、入力データのうちの範囲推定手段204が推定した範囲から単語又は単語列を抽出する。範囲推定手段204が範囲を推定する方法としては、以下に示すような方法がある。
例えば、入力データが音声データや字幕文字、電光ニュース文字等のように、提示されては消えてゆく流動的なデータである場合には、範囲推定手段204は、ユーザが指示操作したポイントを終点として、入力データ中の範囲を推定する方法を用いる。
また、例えば、範囲推定手段204は、ユーザの指示操作がなくても、発話が区切れたり話者が交代した等のイベントが生じたタイミングを終点として、入力データ中の範囲を推定する方法を用いる。例えば、範囲推定手段204は、入力データ中に登場する話者が交代したら、それより前の交代前の話者が話していた部分を、単語又は単語列を抽出する範囲として推定する。
また、例えば、入力データが流動的ではないテキスト等である場合には、範囲推定手段204は、ユーザがなぞったり丸で囲んだりする操作を行った範囲を、単語又は単語列を抽出する範囲として推定する方法を用いる。また、例えば、範囲推定手段204は、ユーザが指示操作したポイントを始点又は終点として、入力データ中の範囲を推定する方法を用いる。
また、例えば、範囲推定手段204は、ユーザ操作に従って表示文書中の次ページへ進むイベントや、前ページへ戻るイベント等が生じたタイミングを始点又は終点として、入力データ中の範囲を推定する方法を用いる。例えば範囲推定手段204は、ユーザによって次ページへ進む指示操作が行われたら、表示文書中の次ページを、単語又は単語列を抽出する範囲として推定する。
なお、ユーザの指示操作は、入力データが流動的なデータである場合には、音声認識を利用して、「えっ?」や「何?」等といった音声に基づいて認識できるようにしてもよい。また、画像認識を利用して、ユーザを撮影した画像に基づいて、首をかしげる等といった動作に基づいて認識できるようにしてもよい。
また、ユーザの指示操作は、入力データが流動的ではないテキスト等である場合には、キーボードやマウスだけでなく、タッチペンや指を用いた操作に基づいて認識できるようにしてもよい。
また、範囲推定手段204は、入力データ中の単語又は単語列を抽出する範囲を、具体的には、次のようなルールに基づいて求める。例えば、範囲推定手段204は、入力データが流動的なデータである場合には、3秒間といった予め設定した時間や、3発話分といった予め設定した発話数、一話者分といった予め設定した範囲、40文字分といった予め設定した文字数、2段落分といった予め設定した段落数を求める。
また、例えば、範囲推定手段204は、入力データが流動的ではないテキスト等である場合には、40文字分といった予め設定した文字数や、2段落分といった予め設定した段落数を求める。
なお、いずれのルールに従って範囲を求める場合も、範囲推定のルールをユーザが任意に随時変更できるものとする。
以上に説明した動作を、具体例をあげて説明する。まず、入力データが流動的なデータである場合を説明する。今、話し手Zが投資に関する講演をしていて、聞き手Yが聴講しているとする。また、範囲推定手段204は、ユーザの指示を受け取ると、3秒間さかのぼった範囲を単語又は単語列の抽出対象の範囲とするように予め設定されているものとする。
話し手Zが「さいきんとうしかのあいだでちゅうもくされているのはぶりっくすです」と発言すると、情報選別システムは、その音声データを入力し、音声認識を行う。そして、情報選別システムは、その音声認識結果として「最近投資家の間で注目されているのはBRICs です」を得る。
聞き手Yは「ぶりっくす」ということばが初耳だったので、例えば、キーボード上の所定のボタンを押す。すると、範囲推定手段204は、ボタンを押されたときから3秒間分の音声認識結果のデータをさかのぼって、「投資家の間で注目されているのはBRICs です」を、単語又は単語列を抽出する範囲として得る。
単語列抽出手段201Aは、範囲推定手段204が推定した範囲から、第1の実施例と同様の処理に従って、「投資家」、「間」、「注目」及び「BRICs 」を抽出し、抽出した各単語又は各単語列を統計データ取得手段202に送る。
なお、以降の統計データ取得手段202、選別手段203の動作は、第1の実施例と同様である。
次に、入力データが流動的ではないテキスト等である場合を説明する。今、話し手Zが投資に関する講演をしていて、聞き手Yが資料を自分のパーソナルコンピュータのディスプレイ装置に表示しながら聴講しているとする。また、範囲推定手段204は、ユーザの操作に従って、次ページへ進むという指示を受け取ると、次ページを単語又は単語列の抽出対象の範囲とするように予め設定されているものとする。
話し手Zが資料の1ページ目を説明し終えたので、例えば、聞き手Yは、自分のパーソナルコンピュータを操作して、次ページへ進む指示を入力指示する。この場合、次ページには「今投資家は「BRICs 」に大注目!」と書かれているものとする。すると、範囲推定手段204は、入力データであるテキスト等から「今投資家は「BRICs 」に大注目!」を、単語又は単語列を抽出する範囲として推定する。
単語列抽出手段201Aは、範囲推定手段204が範囲として推定したページから、第1の実施例と同様の処理に従って、「今」、「投資家」、「BRICs 」及び「大注目」を抽出し、抽出した各単語又は各単語列を統計データ取得手段202に送る。
なお、以降の統計データ取得手段202、選別手段203の動作は、第1の実施例と同様である。
以上のように、本実施例によれば、情報選別システムは、データを入力すると、入力データ中の単語又は単語列を抽出する範囲を推定し、その推定した範囲から抽出した単語又は単語列に対してユーザの理解度を推定する。そのため、逐次単語又は単語列を抽出し順にユーザの理解度を推定する場合と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。
次に、本発明による情報選別システムの最小構成について説明する。図11は、情報選別システムの最小の構成例を示すブロック図である。図11に示すように、情報選別システムは、最小の構成要素として、単語列抽出手段201、統計データ取得手段202、選別手段203を含む。
単語列抽出手段201は、入力データから単語又は単語列を抽出する機能を備える。統計データ取得手段202は、ユーザに関連する電子文書群における単語列抽出手段201が抽出した単語又は単語列に関連した統計データを取得する機能を備える。選別手段203は、統計データ取得手段202が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列が、ユーザが付加情報を取得したい単語又は単語列であると選別する。
図11に示す最小構成の情報選別システムによれば、統計データ取得手段202は、単語列抽出手段201が抽出した各単語又は各単語列に関連した統計データを取得する。また、選別手段203は、統計データ取得手段202が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する。そのため、上記に示した各実施形態及び各実施例と同様に、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。
なお、上記の各実施形態及び各実施例では、以下の(1)〜(10)に示すような情報選別システムの特徴的構成が示されている。
(1)情報選別システムは、入力データから単語又は単語列を抽出する単語列抽出手段(例えば、単語列抽出手段201によって実現される)と、ユーザに関連する電子文書群における単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段(例えば、統計データ取得手段202によって実現される)と、統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段(例えば、選別手段203によって実現される)とを備えたことを特徴とする。そのような構成によれば、ユーザが付加情報を取得したい単語又は単語列を推定して提示することができる。従って、システムが提示する単語又は単語列の中から、付加情報を取得したい単語又は単語列をユーザが自分で選択操作する必要をなくすことができる。
(2)統計データ取得手段は、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、選別手段は、統計データ取得手段が求めた出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
(3)統計データ取得手段は、各単語又は各単語列が出現する電子文書に対する所定の日時情報(例えば、電子文書の作成、更新又は参照日時)をそれぞれ統計データとして特定し、選別手段は、統計データ取得手段が特定した日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、電子文書に対する所定の日時情報に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
(4)統計データ取得手段は、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、選別手段は、統計データ取得手段が求めたユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、ユーザ文書出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。
(5)統計データ取得手段は、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、選別手段は、統計データ取得手段が求めたユーザ文書出現頻度が関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定するように構成されていてもよい。そのような構成によれば、ユーザ文書出現頻度及び関係文書出現頻度に基づいて、ユーザの理解度が低い単語又は単語列を容易に推定して、ユーザに提示する単語又は単語列として選別することができる。また、ユーザの理解度が低い単語又は単語列を選別できるとともに、重要単語又は重要単語列を選別することができる。
(6)情報選別システムは、入力データから単語又は単語列を抽出する範囲を推定する範囲推定手段(例えば、範囲推定手段204によって実現される)を備え、単語列抽出手段は、入力データのうちの範囲推定手段が推定した範囲から単語又は単語列を抽出するように構成されていてもよい。そのような構成によれば、逐次単語又は単語列を抽出し順にユーザの理解度を推定する場合と比べて、ユーザの理解度の推定処理にかかる負荷を軽減することができる。
(7)単語列抽出手段は、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出するように構成されていてもよい。
(8)単語列抽出手段は、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出するように構成されていてもよい。
(9)情報選別システムは、ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも1種類以上の電子文書を保存する文書データベースを備えるように構成されていてもよい。
(10)文書データベースは、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、電子文書毎にリスト化した情報を保存するように構成されていてもよい。
本発明は、単語又は単語列についてWeb検索を行ったり辞書引き検索を行ったりする検索システムの用途に適用できる。また、テレビ会議やWeb会議等を行う会議支援システムの用途に適用できる。また、各種文章読解や、単語に対する訳語を検索して翻訳文等を得る読解支援システムの用途に適用できる。さらに、語学学習の情報等の各種学習情報を検索する学習支援システムの用途にも適用可能である。
本発明による情報選別システムの構成の一例を示すブロック図である。 情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。 第2の実施形態における情報選別システムの構成例を示すブロック図である。 第2の実施形態における情報選別システムがユーザの理解度が低い単語又は単語列を選別する処理の一例を示す流れ図である。 グループ毎及びユーザ毎にデータベースを含む場合の文書データベースの構造の例を示す説明図である。 文書データベースが含むユーザ毎のデータベースが記憶する情報の一例を示す説明図である。 ユーザ文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。 ユーザ文書出現頻度及び関係文書出現頻度を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。 ユーザ文書更新日時を特定して単語又は単語列を選別する場合の処理例を示す流れ図である。 ユーザ文書出現頻度、関係文書出現頻度、ユーザ文書更新日時及び関係文書更新日時を求めて単語又は単語列を選別する場合の処理例を示す流れ図である。 情報選別システムの最小の構成例を示すブロック図である。
符号の説明
1 データ入力手段
2 データ処理手段
3 記憶手段
4 出力手段
201 単語列抽出手段
202 統計データ取得手段
203 選別手段
204 範囲推定手段
301 辞書
302 文書データベース

Claims (28)

  1. 入力データから単語又は単語列を抽出する単語列抽出手段と、
    ユーザに関連する電子文書群における前記単語列抽出手段が抽出した単語又は単語列に関連した統計データを取得する統計データ取得手段と、
    前記統計データ取得手段が取得した統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別手段とを
    備えたことを特徴とする情報選別システム。
  2. 統計データ取得手段は、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、
    選別手段は、前記統計データ取得手段が求めた出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する
    請求項1記載の情報選別システム。
  3. 統計データ取得手段は、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定し、
    選別手段は、前記統計データ取得手段が特定した日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する
    請求項1又は請求項2記載の情報選別システム。
  4. 統計データ取得手段は、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、
    選別手段は、前記統計データ取得手段が求めたユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する
    請求項2記載の情報選別システム。
  5. 統計データ取得手段は、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、
    選別手段は、前記統計データ取得手段が求めたユーザ文書出現頻度が関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する
    請求項2記載の情報選別システム。
  6. 入力データから単語又は単語列を抽出する範囲を推定する範囲推定手段を備え、
    単語列抽出手段は、入力データのうちの前記範囲推定手段が推定した範囲から単語又は単語列を抽出する
    請求項1から請求項5のうちのいずれか1項に記載の情報選別システム。
  7. 単語列抽出手段は、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する請求項1から請求項6のうちのいずれか1項に記載の情報選別システム。
  8. 単語列抽出手段は、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する請求項1から請求項7のうちのいずれか1項に記載の情報選別システム。
  9. ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも1種類以上の電子文書を保存する文書データベースを備えた請求項1から請求項8のうちのいずれか1項に記載の情報選別システム。
  10. 文書データベースは、ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、前記電子文書毎にリスト化した情報を保存する請求項9記載の情報選別システム。
  11. 入力データから単語又は単語列を抽出する単語列抽出ステップと、
    ユーザに関連する電子文書群における抽出した前記単語又は前記単語列に関連した統計データを取得する統計データ取得ステップと、
    取得した前記統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別ステップとを
    含むことを特徴とする情報選別方法。
  12. 統計データ取得ステップで、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求め、
    選別ステップで、求めた前記出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する
    請求項11記載の情報選別方法。
  13. 統計データ取得ステップで、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定し、
    選別ステップで、特定した前記日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する
    請求項11又は請求項12記載の情報選別方法。
  14. 統計データ取得ステップで、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求め、
    選別ステップで、求めた前記ユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する
    請求項12記載の情報選別方法。
  15. 統計データ取得ステップで、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求め、
    選別ステップで、求めた前記ユーザ文書出現頻度が前記関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する
    請求項12記載の情報選別方法。
  16. 入力データから単語又は単語列を抽出する範囲を推定する範囲推定ステップを含み、
    単語列抽出ステップで、入力データのうちの前記推定した範囲から単語又は単語列を抽出する
    請求項11から請求項15のうちのいずれか1項に記載の情報選別方法。
  17. 単語列抽出ステップで、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する請求項11から請求項16のうちのいずれか1項に記載の情報選別方法。
  18. 単語列抽出ステップで、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する請求項11から請求項17のうちのいずれか1項に記載の情報選別方法。
  19. ユーザに関連の深い電子文書として、ユーザ自身が作成した電子文書、ユーザと同じチームの人が作成した電子文書、ユーザが専門とする分野の電子文書のうち、少なくとも1種類以上の電子文書を文書データベースに保存する請求項11から請求項18のうちのいずれか1項に記載の情報選別方法。
  20. ユーザに関連の深い電子文書に出現する単語又は単語列の出現頻度を、前記電子文書毎にリスト化した情報を文書データベースに保存する請求項19記載の情報選別方法。
  21. コンピュータに、
    入力データから単語又は単語列を抽出する単語列抽出処理と、
    ユーザに関連する電子文書群における抽出した前記単語又は前記単語列に関連した統計データを取得する統計データ取得処理と、
    取得した前記統計データに基づいて、ユーザの理解度が低いと推定される単語又は単語列を選別する選別処理とを
    実行させるための情報選別用プログラム。
  22. コンピュータに、
    統計データ取得処理で、電子文書中に各単語又は各単語列が出現する出現頻度をそれぞれ統計データとして求める処理を実行させ、
    選別処理で、求めた前記出現頻度に基づいて、出現頻度が低い単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
    請求項21記載の情報選別用プログラム。
  23. コンピュータに、
    統計データ取得処理で、各単語又は各単語列が出現する電子文書に対する所定の日時情報をそれぞれ統計データとして特定する処理を実行させ、
    選別処理で、特定した前記日時情報に示される日時が古い単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
    請求項21又は請求項22記載の情報選別用プログラム。
  24. コンピュータに、
    統計データ取得処理で、ユーザが作成した電子文書中に各単語又は各単語列が出現するユーザ文書出現頻度をそれぞれ統計データとして求める処理を実行させ、
    選別処理で、求めた前記ユーザ文書出現頻度が小さい単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
    請求項22記載の情報選別用プログラム。
  25. コンピュータに、
    統計データ取得処理で、ユーザが作成した電子文書中に単語又は単語列が出現する出現頻度であるユーザ文書出現頻度と、ユーザの関係者が作成した電子文書中に単語又は単語列が出現する出現頻度である関係文書出現頻度とを求める処理を実行させ、
    選別処理で、求めた前記ユーザ文書出現頻度が前記関係文書出現頻度より小さい単語又は単語列を、ユーザの理解度が低いと推定する処理を実行させる
    請求項22記載の情報選別用プログラム。
  26. コンピュータに、
    入力データから単語又は単語列を抽出する範囲を推定する範囲推定処理を実行させ、
    単語列抽出処理で、入力データのうちの前記推定した範囲から単語又は単語列を抽出する処理を実行させる
    請求項21から請求項25のうちのいずれか1項に記載の情報選別用プログラム。
  27. コンピュータに、
    単語列抽出処理で、入力データのうちの予め設定した一定時間、一定文字数、又は句読点から句読点までの範囲から、単語又は単語列を抽出する処理を実行させる
    請求項21から請求項26のうちのいずれか1項に記載の情報選別用プログラム。
  28. コンピュータに、
    単語列抽出処理で、単語又は単語列の単位として、単語、複合語、文節、句、文、段落、項、節、又は章のいずれかの単位で単語又は単語列を抽出する処理を実行させる
    請求項21から請求項27のうちのいずれか1項に記載の情報選別用プログラム。
JP2007206395A 2007-08-08 2007-08-08 情報選別システム、情報選別方法及び情報選別用プログラム Pending JP2009042968A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007206395A JP2009042968A (ja) 2007-08-08 2007-08-08 情報選別システム、情報選別方法及び情報選別用プログラム
US12/186,785 US20090044105A1 (en) 2007-08-08 2008-08-06 Information selecting system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007206395A JP2009042968A (ja) 2007-08-08 2007-08-08 情報選別システム、情報選別方法及び情報選別用プログラム

Publications (1)

Publication Number Publication Date
JP2009042968A true JP2009042968A (ja) 2009-02-26

Family

ID=40347631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007206395A Pending JP2009042968A (ja) 2007-08-08 2007-08-08 情報選別システム、情報選別方法及び情報選別用プログラム

Country Status (2)

Country Link
US (1) US20090044105A1 (ja)
JP (1) JP2009042968A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216089A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd 支援装置、支援プログラムおよび支援方法
JP2016045796A (ja) * 2014-08-25 2016-04-04 Kddi株式会社 相手方ユーザからの対話文章に対して支援情報を明示する端末、プログラム及び方法
JP2016177631A (ja) * 2015-03-20 2016-10-06 Kddi株式会社 相手方ユーザの対話文に対する支援情報を明示する端末、プログラム及び方法
JP2017097488A (ja) * 2015-11-19 2017-06-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369970B2 (en) * 2008-09-19 2013-02-05 Allen Justin C Fantasy sports neural engine for player drafting
US20120296652A1 (en) * 2011-05-18 2012-11-22 Sony Corporation Obtaining information on audio video program using voice recognition of soundtrack
JP5113936B1 (ja) * 2011-11-24 2013-01-09 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP5915628B2 (ja) * 2013-11-26 2016-05-11 コニカミノルタ株式会社 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204418A (ja) * 1996-01-29 1997-08-05 Fuji Xerox Co Ltd 文書処理装置
JPH1115854A (ja) * 1997-06-24 1999-01-22 Omron Corp 文書処理方法及び装置並びに記録媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2001101139A (ja) * 1999-09-30 2001-04-13 Fuji Xerox Co Ltd 情報処理装置
US20040044950A1 (en) * 2002-09-04 2004-03-04 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
JP2004199395A (ja) * 2002-12-18 2004-07-15 Fujitsu Ltd 情報検索端末
US20060248106A1 (en) * 2005-03-17 2006-11-02 Milne Andrew J Interpolated timestamps in high-speed data capture and analysis
JP2007025925A (ja) * 2005-07-14 2007-02-01 Fuji Xerox Co Ltd 関連記述提示システム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204418A (ja) * 1996-01-29 1997-08-05 Fuji Xerox Co Ltd 文書処理装置
JPH1115854A (ja) * 1997-06-24 1999-01-22 Omron Corp 文書処理方法及び装置並びに記録媒体
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2001101139A (ja) * 1999-09-30 2001-04-13 Fuji Xerox Co Ltd 情報処理装置
US20040044950A1 (en) * 2002-09-04 2004-03-04 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
JP2004199395A (ja) * 2002-12-18 2004-07-15 Fujitsu Ltd 情報検索端末
US20060248106A1 (en) * 2005-03-17 2006-11-02 Milne Andrew J Interpolated timestamps in high-speed data capture and analysis
JP2007025925A (ja) * 2005-07-14 2007-02-01 Fuji Xerox Co Ltd 関連記述提示システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216089A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd 支援装置、支援プログラムおよび支援方法
JP2016045796A (ja) * 2014-08-25 2016-04-04 Kddi株式会社 相手方ユーザからの対話文章に対して支援情報を明示する端末、プログラム及び方法
JP2016177631A (ja) * 2015-03-20 2016-10-06 Kddi株式会社 相手方ユーザの対話文に対する支援情報を明示する端末、プログラム及び方法
JP2017097488A (ja) * 2015-11-19 2017-06-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US20090044105A1 (en) 2009-02-12

Similar Documents

Publication Publication Date Title
JP6570169B2 (ja) ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法
JP3923513B2 (ja) 音声認識装置および音声認識方法
US10037758B2 (en) Device and method for understanding user intent
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
JPWO2005122016A1 (ja) 入力補助装置、情報検索装置、入力補助方法、及びプログラム
JP2004212895A (ja) 教育支援システム及び方法並びに教育支援用プログラム
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
CN115605840B (zh) 具有音频呈现交互的自动化助理
JP2008083100A (ja) 音声対話装置及びその方法
CN110099332B (zh) 一种音频环境展示方法及装置
JP2012003704A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
CN114846540A (zh) 使用视频剪辑作为词典使用示例
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2007265425A (ja) 入力補助装置、情報検索装置、入力補助方法、及びプログラム
CN101326533A (zh) 基于语音的文档的历史跟踪方法和系统
CN111782779B (zh) 语音问答方法、系统、移动终端及存储介质
JP7681360B1 (ja) 議事録作成支援装置、およびプログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2015099290A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム
JP2002014751A (ja) オンラインヘルプシステム
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121113