JP2017129720A

JP2017129720A - 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP2017129720A
Application number: JP2016008720A
Authority: JP
Inventors: 村田　淳; Atsushi Murata; 淳村田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2017-07-27
Anticipated expiration: 2036-01-20
Also published as: JP6746923B2; EP3197139B1; EP3197139A1

Abstract

【課題】収録された音声による議事録の作成を容易とするシステム、装置、方法及びプログラムを提供する。
【解決手段】情報処理装置（サーバ）１０は、時系列に従い取得された音に含まれる音声が変換された第１のテキストと、音において第１のテキストの各部分が対応する時間を示す各時間情報とを取得して情報処理装置に送信する取得部を形成するためのプログラム２１を複数の端末装置２０に送信Ｓ１０する。情報処理装置１０は、複数の端末装置のそれぞれにおいて取得部により取得された、音と、第１のテキストの各部分と、各部分にそれぞれ対応する各時間情報とを収集Ｓ１２する。
【選択図】図４

Description

本発明は、情報処理システム、情報処理装置、情報処理方法および情報処理プログラムに関する。

会議などの様子を音声や映像として収録すると共に、会議の進行と並行して入力されたテキストを、入力開始からの経過時間情報を付加して記録する議事録作成再生システムが知られている（例えば特許文献１）。この議事録作成再生システムにおいては、収録された音声や映像の再生時に、経過時間に対応するテキストの部分を表示することが可能である。また、テキストの部分を指定することで、指定された部分に対応する位置から音声や映像を再生することが可能である。

ここで、会議に参加する各メンバが、会議の様子を音声としてそれぞれ収録する場合について考える。この場合、収録可能な音声は、各メンバが収録に使用するマイクロフォンの位置や性能に大きく依存し、各メンバが、全てのメンバの発言を満遍無く収録することは、一般的には困難である。そのため、各メンバが収録した音声に基づきそれぞれ議事録を作成しても、作成された各議事録は断片的なものとなり、各議事録から会議全体の流れを把握することは、容易ではなかった。

本発明は、上記に鑑みてなされたものであって、収録された音声による議事録の作成を容易とすることを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、情報処理装置と複数の端末装置とを含む情報処理システムであって、情報処理装置は、時系列に従い取得された音に含まれる音声が変換された第１のテキストと、音において第１のテキストの各部分が対応する時間を示す各時間情報とを取得して情報処理装置に送信する取得部を形成するためのプログラムを複数の端末装置に送信する送信部と、複数の端末装置のそれぞれにおいて取得部により取得された、音と、第１のテキストの各部分と、各部分にそれぞれ対応する各時間情報とを収集する収集部とを備える。

本発明によれば、収録された音声による議事録の作成が容易になるという効果を奏する。

図１は、各実施形態に共通して適用可能な情報処理システムの一例の構成を示すブロック図である。図２は、各実施形態に共通して適用可能なサーバの一例のハードウェア構成を示すブロック図である。図３は、各実施形態に共通して適用可能な端末装置の一例のハードウェア構成を示すブロック図である。図４は、第１の実施形態に係る情報処理システムの処理の流れを概略的に示す図である。図５は、第１の実施形態に係るサーバの機能を説明するための一例の機能ブロック図である。図６は、第１の実施形態に係る端末装置の機能を説明するための一例の機能ブロック図である。図７は、第１の実施形態に係る情報処理システムの処理の流れを説明するための図である。図８は、第１の実施形態に係る端末装置における処理を示す一例のフローチャートである。図９は、第１の実施形態に係るテキスト化ツール画面の例を示す図である。図１０は、第１の実施形態に係る音データのテキスト化処理について説明するための図である。図１１は、第１の実施形態に係るサーバにおける処理を示す一例のフローチャートである。図１２は、第１の実施形態に係る時系列表示画面の例を示す図である。図１３は、第２の実施形態に係る情報処理システムの処理の流れを概略的に示す図である。図１４は、第２の実施形態に係る情報処理システムの処理の流れを説明するための図である。図１５は、第２の実施形態に係る端末装置の処理を示す一例のフローチャートである。図１６は、第２の実施形態に係る、第２テキストの送信に対応するサーバの処理を示す一例のフローチャートである。図１７は、第２の実施形態に係る、第２テキストに対する、第１テキストに含まれる各ワードの対応付け処理を示す一例のフローチャートである。図１８は、第２の実施形態に係る探索処理について説明するための図である。図１９は、第２の実施形態に係る対応付け処理についてより具体的に説明するための図である。図２０は、第２の実施形態の変形例に係る、第２テキストに対する、複数の第１テキストに含まれる各ワードの対応付け処理を示す一例のフローチャートである。図２１は、第２の実施形態の変形例に係る対応付け処理についてより具体的に説明するための図である。図２２は、第２の実施形態の変形例に係る、対応付け処理の結果で出力される結果データの一例を示す図である。図２３は、第２の実施形態の変形例に係る時系列表示画面の例を示す図である。図２４は、第３の実施形態に係るサーバの機能を説明するための機能ブロック図である。図２５は、第３の実施形態に係るプロジェクト選択画面の例を示す図である。図２６は、第３の実施形態に係るプロジェクト管理部の機能を説明するための機能ブロック図である。図２７は、第３の実施形態に係るテキスト処理部の機能を説明するための一例の機能ブロック図である。図２８は、第３の実施形態に係る主画面の例を示す図である。図２９は、第３の実施形態に係る、テキスト化ツール画面の表示の例を示す図である。図３０は、第３の実施形態に係る時間管理領域の例を示す図である。図３１は、第３の実施形態に係る議事録データの例を示す図である。

以下に、添付図面を参照して、情報処理システム、情報処理装置、情報処理方法および情報処理プログラムの実施形態を詳細に説明する。

（各実施形態に共通の構成）
図１は、各実施形態に共通して適用可能な情報処理システムの一例の構成を示す。図１において、情報処理システム１は、情報処理装置としてのサーバ１０と、サーバ１０にＬＡＮ(Local Area Network)といったネットワーク１２により接続される複数の端末装置２０ａ、２０ａ、…を含む。情報処理システム１は、さらに、サーバ１０に対してインターネットといった外部のネットワーク３０を介して接続される１以上の端末装置２０ｂを含んでもよい。

サーバ１０は、例えばハードディスクドライブを含む記憶装置１１が接続される。サーバ１０は、例えば各端末装置２０ａ、２０ａ、…、２０ｂから送信されたデータを記憶装置１１に記憶する。

また、サーバ１０に対して、表示装置が接続される。図１の例では、表示装置として、電子黒板であるＩＷＢ(Interactive Whiteboard)１３がサーバ１０に接続されている。サーバ１０は、例えば各端末装置２０ａ、２０ａ、…、２０ｂから転送されたデータに基づき表示情報を生成してＩＷＢ１３に供給する。ＩＷＢ１３は、サーバ１０から供給された表示情報に従った画面を表示する。

なお、図１の例では、ＩＷＢ１３がサーバ１０に直接的に接続されるように示しているが、これはこの例に限定されず、ＩＷＢ１３をネットワーク１２に接続してもよい。また、図１の例では、各端末装置２０ａ、２０ａ、…がネットワーク１２に対して有線で接続されるように示されているが、これはこの例に限定されず、各端末装置２０ａ、２０ａ、…は、ネットワーク１２に対して無線で接続されていてもよい。さらに、ネットワーク１２自体を、無線通信によるネットワークにより構成してもよい。

ここで、各端末装置２０ａ、２０ａ、…、２０ｂは、同一の会議に参加する各メンバにより用いられるものとする。このとき、例えば、端末装置２０ａ、２０ａ、…は、同一の部屋内にて用いられるものとする。また、端末装置２０ｂは、当該部屋に対して遠隔の場所にて用いられ、既知の遠隔会議システムにおいて、端末装置２０ａ、２０ａ、…と例えばネットワーク３０を介して会議を共有するものとする。

なお、各端末装置２０ａ、２０ａ、…、２０ｂは、それぞれマイクロフォンが内蔵または接続され、録音が可能とされているものとする。ここで、各端末装置２０ａ、２０ａ、…は同室で用いられるが、各端末装置２０ａ、２０ａ、…の位置やそれぞれが備えるマイクロフォンの性能などにより、各端末装置２０ａ、２０ａ、…は、各メンバの発言による音声を、満遍無く録音できない場合がある。これは、遠隔会議システムにより接続される端末装置２０ｂにおいても同様である。

図２は、各実施形態に共通して適用可能なサーバ１０の一例のハードウェア構成を示す。図２において、サーバ１０は、ＣＰＵ(Central Processing Unit)１００と、ＲＯＭ(Read Only Memory)１０１と、ＲＡＭ(Random Access Memory)１０２と、ストレージ１０３と、通信Ｉ／Ｆ１０４とを含み、これら各部がバス１１０により互いに通信可能に接続される。

ストレージ１０３は、ハードディスクドライブや不揮発性半導体メモリにより構成され、ＣＰＵ１００が動作するための各種プログラムやデータが格納される。また、ＲＯＭ１０１は、例えばサーバ１０が起動するために用いるプログラムやデータが予め記憶される。

ＣＰＵ１００は、ストレージ１０３やＲＯＭ１０１に格納されるプログラムに従い、ＲＡＭ１０２をワークエリアとして用いて動作し、サーバ１０の全体の動作を制御する。通信Ｉ／Ｆ１０４は、ＣＰＵ１００の指示に従い、ネットワーク１２を介した通信を制御する。また、通信Ｉ／Ｆ１０４は、記憶装置１１との通信も制御する。なお、記憶装置１１は、ストレージ１０３を兼用して用いてもよい。さらに、通信Ｉ／Ｆ１０４は、ＩＷＢ１３がサーバ１０に直接的に接続される場合には、ＩＷＢ１３との通信も制御する。

図３は、各実施形態に共通して適用可能な端末装置２０ａの一例のハードウェア構成を示す。なお、端末装置２０ｂは、端末装置２０ａと同等の構成にて実現可能なので、特に記載の無い限り、端末装置２０ａで代表させて説明する。

端末装置２０ａは、例えば一般的なパーソナルコンピュータとして構成することができる。図３において、端末装置２０ａは、ＣＰＵ２００と、ＲＯＭ２０１と、ＲＡＭ２０２と、表示制御部２０３と、ストレージ２０４と、入力Ｉ／Ｆ２０５と、音声Ｉ／Ｆ２０６と、通信Ｉ／Ｆ２０７とを含み、これら各部がバス２１０により互いに通信可能に接続される。

ストレージ２０４は、ハードディスクドライブや不揮発性半導体メモリにより構成され、ＣＰＵ２００が動作するための各種プログラムやデータが格納される。また、ＲＯＭ２０１は、例えば端末装置２０ａが起動するために用いるプログラムやデータが予め記憶される。ＣＰＵ２００は、ストレージ２０４やＲＯＭ２０１に格納されるプログラムに従い、ＲＡＭ２０２をワークエリアとして用いて動作し、端末装置２０ａの全体の動作を制御する。

表示制御部２０３は、ディスプレイ２１４が接続され、プログラムに従いＣＰＵ２００に生成された表示情報に基づき、ディスプレイ２１４が表示可能な表示制御信号を生成する。表示制御部２０３は、生成した表示制御信号をディスプレイ２１４に供給する。ディスプレイ２１４は、例えばＬＣＤ(Liquid Crystal Display)といった表示デバイスと、表示制御信号に従い当該表示デバイスを駆動する駆動部とを備える。

入力Ｉ／Ｆ２０５は、端末装置２０ａに対するデータの入力を受け付けるためのインタフェースであり、例えばＵＳＢ(Universal Serial Bus)を適用することができる。図３の例では、入力Ｉ／Ｆ２０５に対して、キーボード２１５が接続されている。なお、入力Ｉ／Ｆ２０５として、押圧または接触した位置に応じた信号を出力するタッチセンサを用いることも可能である。この場合、ディスプレイ２１４とタッチセンサとを一体的に形成して、タッチパネルを構成することができる。

音声Ｉ／Ｆ２０６は、アナログ形式による音信号の入力を受け付け、入力された音信号を、デジタル形式による音データに変換する。図３の例では、音声Ｉ／Ｆ２０６に対して、音を収音してアナログ音信号を出力するマイクロフォン（ＭＩＣ）２１６が接続されている。マイクロフォン２１６は、端末装置２０ａに内蔵されていてもよいし、外部機器として端末装置２０ａに接続してもよい。

通信Ｉ／Ｆ２０７は、ＣＰＵ２００の指示に従い、ネットワーク１２を介した通信を制御する。

なお、ここでは、端末装置２０ａがパーソナルコンピュータであるとして説明したが、これはこの例に限定されない。例えば、端末装置２０ａは、タブレット型コンピュータであってもよいし、多機能型携帯電話端末（スマートフォン）であってもよい。また、端末装置２０ａは、情報処理システム１における用途によっては、音声Ｉ／Ｆ２０６を省略することができる。

（第１の実施形態）
次に、第１の実施形態について説明する。図４は、第１の実施形態に係る情報処理システム１の処理の流れを概略的に示す。なお、図４において、上述した図１と共通する部分には同一の符号を付して、詳細な説明を省略する。また、以下では、「音」は、人声を含む全ての音を表し、「音声」は、人声による音を表すものとする。

第１の実施形態では、サーバ１０は、端末装置２０ａ、２０ａ、…、２０ｂに、音データに含まれる音声に係る部分をテキスト情報に変換するテキスト化ツール２１を提供する（ステップＳ１０）。図４の例では、説明のため、端末装置２０ａ、２０ａ、…、２０ｂのうち１台の端末装置２０ａを注目して示している。なお、テキスト化ツール２１は、例えばサーバ１０においてストレージ１０３に予め記憶される。

端末装置２０ａは、テキスト化ツール２１により、例えば各メンバの発言による音声を含む、会議において発生する音を収音し（ステップＳ１１）、収音した音に含まれる音声部分をテキスト情報に変換する。このとき、テキスト化ツール２１は、変換されたテキスト情報に対して、当該テキスト情報に対応する音声の、音データ内での位置（時間）を示す時間情報を付加する。

テキスト化ツール２１は、音声が変換されたテキストと、当該テキストに関連付けられた時間情報とをサーバ１０に送信する（ステップＳ１２）。サーバ１０は、端末装置２０ａから送信されたテキストおよび時間情報に基づき、テキストを時系列に沿って表示させるための表示情報を生成する。サーバ１０は、このテキストおよび時間情報に基づく表示情報を、ＩＷＢ１３に送信する（ステップＳ１３）。ＩＷＢ１３は、この表示情報に従い、テキストを時系列に沿って表示させる。

このステップＳ１０〜ステップＳ１３の処理を、同一の会議に参加する各端末装置２０ａ、２０ａ、…、２０ｂそれぞれにおいて実行する。これにより、ＩＷＢ１３に対して、各端末装置２０ａ、２０ａ、…、２０ｂにおいてそれぞれ収音された音に基づく各テキストが、時系列に沿ってそれぞれ表示される。したがって、会議に参加する各メンバは、議事の進行を、より容易に把握することが可能となる。

（第１の実施形態の詳細）
図５は、第１の実施形態に係るサーバ１０の機能を説明するための一例の機能ブロック図である。図５において、サーバ１０は、通信部１２０と、制御部１２１と、記憶部１２２と、検出部１２３と、収集部１２４と、関連付け部１２５と、表示情報生成部１２６とを含む。

これら通信部１２０、制御部１２１、記憶部１２２、検出部１２３、収集部１２４、関連付け部１２５および表示情報生成部１２６は、ＣＰＵ１００上で動作するプログラムにより実現される。これに限らず、通信部１２０、制御部１２１、記憶部１２２、検出部１２３、収集部１２４、関連付け部１２５および表示情報生成部１２６の一部または全部を、互いに協働して動作するハードウェア回路により構成してもよい。

制御部１２１は、通信部１２０、記憶部１２２、検出部１２３、収集部１２４、関連付け部１２５および表示情報生成部１２６それぞれの動作を統合的に制御する。通信部１２０は、通信Ｉ／Ｆ１０４による通信を制御する。記憶部１２２は、記憶装置１１およびストレージ１０３に対するデータの書き込み、読み出しを制御する。検出部１２３は、２つのテキストを比較して対応部分を検出する。収集部１２４は、各端末装置２０ａ、２０ａ、…、２０ｂから送信されたテキストおよび時間情報を収集する。関連付け部１２５は、テキストと時間情報とを関連付ける。表示情報生成部１２６は、例えばＩＷＢ１３に表示させる画面を形成するための表示情報を生成する。

サーバ１０における各機能を実現するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ(Compact Disk)、フレキシブルディスク（ＦＤ）、ＤＶＤ(Digital Versatile Disk)などのコンピュータで読み取り可能な記録媒体に記録して提供される。これに限らず、当該プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、当該ネットワークを介してダウンロードさせることにより提供してもよい。また、当該プログラムをインターネットなどのネットワークを経由して提供または配布するように構成してもよい。

当該プログラムは、上述した各部（通信部１２０、制御部１２１、記憶部１２２、検出部１２３、収集部１２４、関連付け部１２５および表示情報生成部１２６）を含むモジュール構成となっている。実際のハードウェアとしては、ＣＰＵ１００がストレージ１０３などの記憶媒体から当該プログラムを読み出して実行することにより、上述した各部がＲＡＭ１０２などの主記憶装置上にロードされ、通信部１２０、制御部１２１、記憶部１２２、検出部１２３、収集部１２４、関連付け部１２５および表示情報生成部１２６が主記憶装置上に生成されるようになっている。

なお、第１の実施形態においては、検出部１２３および関連付け部１２５の機能は省略できる。

図６は、第１の実施形態に係る端末装置２０ａの機能を説明するための一例の機能ブロック図である。なお、端末装置２０ｂは、端末装置２０ａと同等の機能を含むため、ここでの説明を省略する。図６において、端末装置２０ａは、通信部２２０と、制御部２２１と、入力部２２２と、取得部２２３と、表示部２２５とを含む。また、取得部２２３は、音取得部２２３０と、テキスト取得部２２３１とを含む。

これら通信部２２０、制御部２２１、入力部２２２、取得部２２３および表示部２２５は、ＣＰＵ２００上で動作するプログラムにより実現される。これに限らず、通信部２２０、制御部２２１、入力部２２２、取得部２２３および表示部２２５のうち通信部２２０、制御部２２１、入力部２２２および表示部２２５は、互いに協働して動作するハードウェア回路により構成してもよい。

制御部２２１は、通信部２２０、入力部２２２、取得部２２３および表示部２２５それぞれの動作を統合的に制御する。通信部２２０は、通信Ｉ／Ｆ２０７による通信を制御する。入力部２２２は、入力Ｉ／Ｆ２０５に対してなされた入力を受け付ける。表示部２２５は、ディスプレイ２１４に表示させるための表示情報を生成する。

取得部２２３は、図４で説明したテキスト化ツール２１に対応するもので、サーバ１０からネットワーク１２を介してダウンロードして取得されるプログラムがＣＰＵ２００上で実行されることで、取得部２２３に含まれる音取得部２２３０およびテキスト取得部２２３１がＲＡＭ２０２などの主記憶装置上にロードされ、これら各部が主記憶装置上に生成されるようになっている。取得部２２３は、例えば、端末装置２０ａが搭載するＯＳ(Operating System)がＷｉｎｄｏｗｓ（登録商標）であれば、ＡｃｔｉｖｅＸ（登録商標）と呼ばれる技術を用いて、サーバ１０から端末装置２０ａに導入される。

次に、第１の実施形態に係る情報処理システム１における処理について、図７および図８を用いてより詳細に説明する。図７は、第１の実施形態に係る情報処理システム１の処理の流れを説明するための図である。また、図８は、第１の実施形態に係る端末装置２０ａにおける処理を示す一例のフローチャートである。なお、図７において、上述した図１、図３、図５および図６と共通する部分には同一の符号を付して、詳細な説明を省略する。

各端末装置２０ａ、２０ａ、…、２０ｂのうち、ある端末装置２０ａを注目し、当該端末装置２０ａに対する所定の操作により、例えば端末装置２０ａは、サーバ１０に対してテキスト化ツール２１を要求する（図８のステップＳ１００）。サーバ１０は、この要求に応じて、端末装置２０ａに対してテキスト化ツール２１を送信する。端末装置２０ａは、送信されたテキスト化ツール２１をダウンロードして取得する（ステップＳ１０１）。これにより、端末装置２０ａ上に取得部２２３が形成される。

図９は、第１の実施形態に係る取得部２２３により端末装置２０ａのディスプレイ２１４に表示されるテキスト化ツール画面の例を示す。図９において、テキスト化ツール画面２５０は、録音ボタン２５１と、テキスト化ボタン２５２と、終了ボタン２５３と、最小化ボタン２５４とを含む。録音ボタン２５１は、操作することで、マイクロフォン２１６により収音された音による音データの録音の開始を取得部２２３に指示する。また、録音ボタン２５１は、録音状態で操作されると、録音の中止を取得部２２３に指示する。テキスト化ボタン２５２は、操作することで、録音ボタン２５１の操作に応じて録音された音データのテキスト化処理の開始を取得部２２３に指示する。終了ボタン２５３は、操作することで、テキスト化ツール画面２５０を閉じる。このとき、録音中であれば、録音が中止される。最小化ボタン２５４は、操作することで、テキスト化ツール画面２５０が最小化される。テキスト化ツール画面２５０が最小化されても、最小化ボタン２５４を操作した時点で実行中の動作は、停止されない。

取得部２２３は、録音ボタン２５１が操作されると、音取得部２２３０による録音を開始させ（ステップＳ１０２）、マイクロフォン２１６により収音された音による音データを音取得部２２３０に取得させる。音取得部２２３０は、取得した音データを、音データの取得を開始した時間を示す情報を関連付けて、ストレージ２０４に記憶する。音データ取得開始時間は、例えば、当該音データがストレージ２０４に記憶される場合の、当該音データが格納されるファイルのタイムスタンプを適用することができる。

次のステップＳ１０３で、取得部２２３は、テキスト取得部２２３１により、録音により記憶された音データに対するテキスト化処理を実行する（ステップＳ１０３）。

テキスト化処理において、テキスト取得部２２３１は、音取得部２２３０により記憶された音データを取得してテキスト変換部２２４に渡し、テキスト変換部２２４に対して音データのテキストへの変換を要求する。ここで、テキスト変換部２２４は、取得部２２３またはテキスト取得部２２３１に含まれる構成としてもよいし、例えばネットワーク３０上においてテキスト化サービスを提供するテキスト化サーバの機能を利用してもよい。

テキスト変換部２２４は、既知の音声認識技術を用いて、テキスト取得部２２３１から渡された音データをテキスト情報に変換する。例えば、テキスト変換部２２４は、予め学習された音響モデルを用いて音データに含まれる音声を認識し、認識された一連の音声の集合をワードとして特定する。ワードの特定には、例えば隠れマルコフモデルを用いることができる。

なお、特定されたワードは、テキストとしては、音声に従い例えば平仮名あるいは片仮名により表記される。テキスト変換部２２４は、この平仮名あるいは片仮名により構成されるワードを、既知の仮名漢字変換技術を用いて漢字仮名交じり文によるワードに変換する。

テキスト変換部２２４は、さらに、特定したワードに対して時間情報を関連付ける。例えば、テキスト変換部２２４は、音データの先頭から当該ワードの先頭の音声までの時間を計測し、この時間を示す時間情報を、当該ワードに関連付ける。テキスト変換部２２４は、特定されたワードと、当該ワードに関連付けられた時間情報とをテキスト取得部２２３１に渡す。

取得部２２３は、テキスト取得部２２３１により、テキスト変換部２２４から渡されたワードを、関連付けられた時間情報と共に取得する（ステップＳ１０４）。取得部２２３は、テキスト取得部２２３１により、取得したワードおよび対応する時間情報をサーバ１０に送信する（ステップＳ１０５）。送信されたワードおよび時間情報は、サーバ１０において収集部１２４に収集され、記憶部１２２に記憶される。

なお、上述したワードの漢字仮名交じり文への変換は、例えば端末装置２０ａに搭載される漢字仮名交じり文変換プログラムを利用して、テキスト取得部２２３１において実行してもよい。

次のステップＳ１０６で、取得部２２３は、録音が終了したか否かを判定する。取得部２２３は、録音が終了していないと判定した場合、処理をステップＳ１０３に戻す。したがって、音データがテキスト化されたワード、および、ワードに対応する時間情報は、音データからワードが特定される毎に、サーバ１０に送信される。

一方、取得部２２３は、ステップＳ１０６で録音が終了したと判定した場合、この図８のフローチャートによる一連のテキスト化処理を終了させる。なお、１の音データから取得された一連のワードを、纏めて第１テキストと呼ぶ。すなわち、ワードは、第１テキストの部分である。

取得部２２３は、テキスト化処理が終了すると、ストレージ２０４に記憶された音データを、サーバ１０に送信する。サーバ１０は、送信されたこの音データを、記憶装置１１に記憶する。

なお、この図８のフローチャートによる一連の処理は、各端末装置２０ａ、２０ａ、…、２０ｂにより、それぞれ独立して実行される。

図１０を用いて、第１の実施形態に係る、上述したステップＳ１０３による音データのテキスト化処理について説明する。図１０（ａ）および図１０（ｂ）は、それぞれ、例えば端末装置２０ａ、２０ａ、…のうち１の端末装置２０ａと、端末装置２０ｂとにより録音された音データ３００ａおよび３００ｂに基づくテキスト化処理を示している。図１０（ａ）および図１０（ｂ）に示されるように、音データ３００ａおよび３００ｂがテキスト化されて、それぞれ複数のワードを含む第１テキスト３０１ａおよび３０１ｂが取得される。

図１０（ａ）において、テキスト変換部２２４は、時刻Ｔ_a0から録音が開始された音データ３００ａについて、時刻Ｔ_a0（以下、録音開始時刻Ｔ_a0）を起点とした時間ｔ_a1、ｔ_a2およびｔ_a3から、それぞれ音声を検出したものとする。ここで、録音開始時刻Ｔ_a0は、絶対時刻であり、時間ｔ_a1、ｔ_a2およびｔ_a3は、音データ３００ａ内における相対時間である。

テキスト変換部２２４は、時間ｔ_a1から検出された音声をテキストに変換し、ワードＡ₁₀を取得する。同様に、テキスト変換部２２４は、時間ｔ_a2およびｔ_a3から検出された各音声をテキストに変換し、ワードＡ₁₁およびＡ₁₂をそれぞれ取得する。そして、テキスト変換部２２４は、図１０（ａ）の下段に例示されるように、各ワードＡ₁₀、Ａ₁₁およびＡ₁₂に対してそれぞれ時間ｔ_a1、ｔ_a2およびｔ_a3を関連付ける。

例えば、テキスト変換部２２４は、ワードＡ₁₀が取得されると、取得したワードＡ₁₀に対して時間ｔ_a1を関連付ける。そして、テキスト変換部２２４は、ワードＡ₁₀と時間ｔ_a1とをテキスト取得部２２３１に渡す。テキスト変換部２２４は、このワードおよび時間をテキスト取得部２２３１に渡す処理を、例えばワードが取得される毎に実行する。

図１０（ｂ）の、音データ３００ｂに対する処理も、上述と同様である。音データ３００ｂは、時刻Ｔ_b0から録音が開始される。なお、一般的には、音データ３００ｂの録音開始時刻Ｔ_b0は、上述した音データ３００ａの録音開始時刻Ｔ_a0に対して異なる時刻となる。

テキスト変換部２２４は、音データ３００ａの場合と同様に、音データ３００ｂの時間ｔ_b1、ｔ_b2およびｔ_b3から検出された各音声をテキストに変換し、それぞれワードＢ₁₀、Ｂ₁₁およびＢ₁₂を取得する。テキスト変換部２２４は、図１０（ｂ）の下段に例示されるように、ワードＢ₁₀、Ｂ₁₁およびＢ₁₂の取得毎に、これらワードＢ₁₀、Ｂ₁₁およびＢ₁₂に対して時間ｔ_b1、ｔ_b2およびｔ_b3を関連付けて、テキスト取得部２２３１に渡す。

各ワードＡ₁₀、Ａ₁₁およびＡ₁₂の絶対時刻Ｔ_a1、Ｔ_a2およびＴ_a3は、時刻Ｔ_a0に各時間ｔ_a1、ｔ_a2およびｔ_a3を加算することで求めることができる。各ワードＢ₁₀、Ｂ₁₁およびＢ₁₂についても同様に、時刻Ｔ_b0に各時刻ｔ_b1、ｔ_b2およびｔ_b3を加算することで、絶対時刻を求めることができる。

図１１は、第１の実施形態に係るサーバ１０における処理を示す一例のフローチャートである。ステップＳ１１０で、サーバ１０は、制御部１２１により、端末装置２０ａ、２０ａ、…、２０ｂのうち何れか（例えば端末装置２０ａ、２０ａ、…のうち１の端末装置２０ａ）から、テキスト化ツール２１の要求を受信したか否かを判定する。制御部１２１は、受信していないと判定した場合、処理をステップＳ１１０に戻し、受信したと判定した場合、処理をステップＳ１１１に移行する。

ステップＳ１１１で、制御部１２１は、テキスト化ツール２１の要求元に対してテキスト化ツール２１を送信する。次のステップＳ１１２で、制御部１２１は、テキスト化ツール２１の要求元から、ワードと、当該ワードに対応する時間情報とを受信したか否かを判定する。制御部１２１は、受信していないと判定した場合、処理をステップＳ１１２に戻し、受信したと判定した場合、処理をステップＳ１１３に移行させる。

ステップＳ１１３で、制御部１２１は、記憶部１２２により、テキスト化ツール２１の要求元から受信したワードと時間情報とを関連付けて記憶装置１１に保存する。次のステップＳ１１４で、制御部１２１は、表示情報生成部１２６により、テキスト化ツール２１の要求元から受信したワードに時間情報を関連付けて表示させるための表示情報を生成する。生成された表示情報は、例えばＩＷＢ１３に送信され、後述するように、ＩＷＢ１３においてワードと時間情報とが関連付けられて表示される。

次のステップＳ１１５で、制御部１２１は、テキスト化ツール２１の要求元からの、１の音データに基づくワードの受信が全て終了したか否かを判定する。制御部１２１は、例えば、テキスト化ツール２１の要求元からの直前のワードの受信から所定時間を経過して次のワードの受信が無い場合に、１の音データに基づく全てのワードの受信が終了したと判定する。テキスト化ツール２１の要求元が、１の音データに基づくワードの送信が終了した旨を示す情報を送信するようにしてもよい。

制御部１２１は、１の音データに基づく全てのワードの受信が終了していないと判定した場合、処理をステップＳ１１２に戻す。一方、１の音データに基づく全てのワードの受信が終了したと判定した場合は、当該テキスト化ツール２１の要求元に係る、図１１のフローチャートによる一連の処理が終了される。

図１２は、第１の実施形態に係る、上述のステップＳ１１３で表示情報生成部１２６により生成された表示情報に基づく時系列表示画面３２０の例を示す。図１２に例示される時系列表示画面３２０は、サーバ１０により例えばＩＷＢ１３に表示される。これに限らず、時系列表示画面３２０を各端末装置２０ａ、２０ａ、…、２０ｂのディスプレイ２１４に表示させてもよいし、サーバ１０にアクセスを許可されたさらに別の端末装置のディスプレイに表示させてもよい。

時系列表示画面３２０は、ワードおよび時間情報をサーバ１０に送信した各端末装置にそれぞれ対応する時系列表示部３２１ａ、３２１ｂ、…を含む。図１２の例では、時系列表示部３２１ａは、図１０（ａ）で説明した端末装置２０ａに対応し、音データ３００ａに基づく情報が表示される。また、時系列表示部３２１ｂは、図１０（ｂ）で説明した端末装置２０ｂに対応し、音データ３００ｂに対応する情報が表示される。

図１２の例では、時系列表示部３２１ａは、領域３２２ａに、時間軸を矢印で示す表示３２３ａと、音データ３００ａから取得された各ワードＡ₁₀、Ａ₁₁、Ａ₁₂、…とが表示されている。各ワードＡ₁₀、Ａ₁₁、Ａ₁₂、…は、時間軸に従った順序および間隔で表示され、それぞれ対応する時間ｔ_a1、ｔ_a2、ｔ_a3、…を示す時間情報がさらに表示されている。ここでは、各時間ｔ_a1、ｔ_a2、ｔ_a3、…は、音データ３００ａの録音開始時刻Ｔ_a0を加算した絶対時刻として表示されている。

時系列表示部３２１ｂも、時系列表示部３２１ａと同様に、領域３２２ｂに、時間軸を矢印で示す表示３２３ｂと、音データ３００ｂから取得された各ワードＢ₁₀、Ｂ₁₁、Ｂ₁₂、…と、それぞれに対応する時間ｔ_b1、ｔ_b2、ｔ_b3、…を示す各時間情報とが、時間軸に従った順序および間隔で表示される。

時系列表示部３２１ｂにおいて、各時間ｔ_b1、ｔ_b2、ｔ_b3、…は、時系列表示部３２１ａと同様、音データ３００ｂの録音開始時刻Ｔ_b0を加算した絶対時刻として表示される。これにより、時系列表示部３２１ａと時系列表示部３２１ｂとで時間軸が一致する。したがって、複数の端末装置２０ａ、２０ａ、…、２０ｂで収音された各音から取得された各ワードが共通の時系列に沿って表示され、議事の把握が容易になる。

なお、端末装置２０ｂは、各端末装置２０ａ、２０ａ、…と遠隔会議システムにより接続されるため、各情報の伝達に遅延が発生する可能性がある。この場合には、遅延時間を予め取得しておき、取得された遅延時間を各時間ｔ_b1、ｔ_b2、ｔ_b3、…から減算することが考えられる。

（第２の実施形態）
次に、第２の実施形態について説明する。議事録の作成において、会議中に録音した音を会議終了後に再生し、再生された音を元にテキストを入力して清書テキストを作成し、この清書テキストを用いて議事録を作成する場合がある。この場合、再生された音が録音された時刻と、清書テキストの各部との関連性が無く、清書テキストを用いて作成した議事録を参照しても、会議の進行を容易に把握できないおそれがある。

第２の実施形態では、清書されたテキストに対して時間情報を関連付ける。図１３は、第２の実施形態に係る情報処理システム１の処理の流れを概略的に示す。なお、第２の実施形態では、図１に示した情報処理システム１の構成をそのまま利用できる。図１３において、上述した図１と共通する部分には同一の符号を付して、詳細な説明を省略する。

図１３において、記憶装置１１には、各端末装置２０ａ、２０ａ、…、２０ｂにより録音された音に基づき、上述した第１の実施形態で説明したような方法で作成した各ワードＡ₁₀、Ａ₁₁、Ａ₁₂、…、Ｂ₁₀、Ｂ₁₁、Ｂ₁₂、…と、これらに対応する時間情報である時間ｔ_a1、ｔ_a2、ｔ_a3、…、ｔ_b1、ｔ_b2、ｔ_b3、…とが関連付けられて既に保存されているものとする。

ユーザは、ネットワーク１２に接続可能であり、サーバ１０にアクセス可能な情報処理装置を用いて、会議中に録音された音に基づき清書テキストを作成する（ステップＳ２０）。例えば、ユーザは、端末装置２０ａ、２０ａ、…、２０ｂのうち１の端末装置を用いて清書テキストを作成することができる。清書テキストを作成するために用いる音データは、清書テキストを作成する端末装置２０ａにより録音し当該端末装置２０ａに保存した音データを用いることができる。これに限らず、各端末装置２０ａ、２０ａ、…、２０ｂにより録音され、記憶装置１１に保存された１以上の音データを用いて清書テキストを作成してもよい。

ユーザは、清書テキストを作成すると、作成した清書テキストを端末装置２０ａからサーバ１０に送信する（ステップＳ２１）。サーバ１０は、送信された清書テキストと、記憶装置１１に記憶される、各端末装置２０ａ、２０ａ、…、２０ｂから取得した各ワードとを比較して、各ワードと対応する清書テキストの部分を検出する（ステップＳ２２）。そして、サーバ１０は、検出された清書テキストの部分に対して、対応するワードに関連付けられた時間情報を関連付ける。

サーバ１０は、この時間情報が関連付けられた清書テキストの部分を表示させる表示情報を生成し、例えばＩＷＢ１３に供給する（ステップＳ２３）。これにより、清書テキストを、部分毎に時系列に沿って表示させることができる。

図１４は、第２の実施形態に係る情報処理システム１の処理の流れを説明するための図である。この図１４と、図１５〜図１７のフローチャートとを参照しながら、第２の実施形態に係る情報処理システム１の処理について説明する。なお、図１４において、上述した図１、図３、図５および図６と共通する部分には同一の符号を付して、詳細な説明を省略する。

なお、第２の実施形態においては、サーバ１０の機能に関し、図５における収集部１２４の機能は省略できる。

図１５は、第２の実施形態に係る端末装置２０ａの処理を示す一例のフローチャートである。ステップＳ１２０で、端末装置２０ａは、清書テキストである第２テキストを取得する。例えば、端末装置２０ａにおいて、入力部２２２に対して清書テキストが入力され、第２テキストが取得される。なお、第２テキストは、一般的には、入力時に、端末装置２０ａに搭載される仮名漢字変換プログラムを用いて漢字仮名交じり文のテキストに変換されている。次のステップＳ１２１で、端末装置２０ａは、ステップＳ１２０で取得した第２テキストを、通信部２２０によりネットワーク１２を介してサーバ１０に送信する。

ステップＳ１２０における入力部２２２に対する清書テキストの入力は、端末装置２０ａに接続されるキーボード２１５を用いて人手により行うことができる。これに限らず、他の情報処理装置により作成された清書テキストを、ＵＳＢといったインタフェースや、ネットワーク１２を介して、データとして入力部２２２に入力してもよい。

図１６は、第２の実施形態に係る、上述した図１５の第２テキストの送信に対応するサーバ１０の処理を示す一例のフローチャートである。ステップＳ１３０で、サーバ１０は、ネットワーク１２を介して第２テキストを受信したか否かを判定する。サーバ１０は、受信していないと判定した場合、処理をステップＳ１３０に戻し、受信したと判定した場合、処理をステップＳ１３１に移行させる。ステップＳ１３１で、サーバ１０は、ステップＳ１３０で受信した第２テキストをＲＡＭ１０２やストレージ１０３に記憶する。

図１７は、第２の実施形態に係る、サーバ１０における、第２テキストに対する、第１テキストに含まれる各ワードの対応付け処理を示す一例のフローチャートである。この図１７のフローチャートと、上述した図１４とを参照しながら、この対応付け処理について説明する。

図１７のフローチャートによる処理は、上述の図１６のフローチャートによる処理の終了後に、開始される。図１７のフローチャートの処理に先立って、サーバ１０は、記憶部１２２により、記憶装置１１から処理の対象となる第１テキストを取得する。この第１テキストは、上述したように、１以上のワードを含む。また、サーバ１０は、変数ｍを１に初期化する。

ステップＳ１４０で、サーバ１０において、検出部１２３は、第１テキストに含まれるワードの数であるワード数ｎを取得する。次のステップＳ１４１で、検出部１２３は、図１６のフローチャートのステップＳ１３１で記憶された第２テキスト内で、第１テキストのｍ番目のワードに対応する箇所を探索する。

図１８を用いて、第２の実施形態に係る、ステップＳ１４１における探索処理について説明する。図１８において、第２テキスト３３０（この例では「今日はいい天気でした。明日は雨でしょう。」）内で、第１テキストに含まれるｍ番目のワード３３３（この例では「いい天気」）と対応する箇所を探索する。この場合、例えば、第２テキスト３３０に対して、ワード３３３に含まれる文字数（４文字）と等しい長さの窓３３２を設定する。そして、窓３３２を第２テキスト３３０内で移動させて、窓３３２内の文字列に対してワード３３３が対応するか否かを判定する。このとき、例えば、文字単位で一致を判定し、一致する割合が所定以上の場合に、当該ワード３３３が窓３３２内の文字列に対応すると判定することができる。

ステップＳ１４２で、検出部１２３は、第２テキスト内に、第１テキストのｍ番目のワードに対応する箇所が存在するか否かを判定する。検出部１２３は、対応箇所が存在しないと判定した場合、処理をステップＳ１４４に移行させ、対応箇所が存在すると判定した場合、処理をステップＳ１４３に移行させる。

ステップＳ１４３で、サーバ１０において関連付け部１２５は、第２テキストの、第１テキストのｍ番目のワードに対応する箇所に、当該ｍ番目のワードに対応する時間情報を関連付ける。例えば、上述した図１０（ａ）を参照し、ｍ番目のワードがワードＡ₁₁である場合、対応する時間情報として時間ｔ_a2を関連付ける。このとき、関連付ける時間情報は、時間ｔ_a2に対して録音開始時刻Ｔ_a0を加算した絶対時刻とすると好ましい。

次のステップＳ１４４で、検出部１２３は、変数ｍがワード数ｎと等しいか否かを判定する。検出部１２３は、変数ｍがワード数ｎと等しくないと判定した場合、変数ｍに１を加算して処理をステップＳ１４１に戻す。一方、検出部１２３は、変数ｍがワード数ｎと等しいと判定した場合、処理対象の第１テキストに対する処理が完了したとして、処理をステップＳ１４５に移行させる。

ステップＳ１４５で、関連付け部１２５は、第２テキストと、第２テキストの各部に関連付けられた時間情報とを、結果データとして出力する。出力された第２テキストおよび時間情報は、例えば記憶部１２２により記憶装置１１に記憶される。

図１９を用いて、第２の実施形態に係る、図１７のフローチャートの処理について、より具体的に説明する。音データ３３４から取得された第１テキストは、５つのワードＡ₁’、Ａ₂’、Ａ₃’、Ａ₄’およびＡ₅’を含む（ｎ＝５）。各ワードＡ₁’、Ａ₂’、Ａ₃’、Ａ₄’およびＡ₅’の音データ３３４内での開始時間は、それぞれ時間ｔ₁、ｔ₂、ｔ₃、ｔ₄およびｔ₅であるものとする。

検出部１２３は、１番目のワードＡ₁’は、３文字であるので、第２テキスト３３０に３文字の長さの窓３３２を設定し、窓３３２を第２テキスト３３０内で移動させて、ワードＡ₁’に対応する第２テキストの部分が存在するか否かを判定する。図１９の例では、第２テキスト３３０の先頭の３文字の部分Ａ₁がワードＡ₁’に対応する部分として検出される。関連付け部１２５は、部分Ａ₁の先頭にワードＡ₁’の開始時間である時間ｔ₁を関連付ける。

以下、同様にして、検出部１２３は、２〜ｎ番目の各ワードＡ₂’、Ａ₃’、Ａ₄’およびＡ₅’について、第２テキスト３３０内の対応箇所を順次探索する。その結果、検出部１２３により、各ワードＡ₂’、Ａ₃’、Ａ₄’およびＡ₅’にそれぞれ対応する第２テキスト３３０の部分Ａ₂、Ａ₃、Ａ₄およびＡ₅が検出される。関連付け部１２５は、検出された各部分Ａ₂、Ａ₃、Ａ₄およびＡ₅に対して、各ワードＡ₂’、Ａ₃’、Ａ₄’およびＡ₅’の開始時間ｔ₂、ｔ₃、ｔ₄およびｔ₅をそれぞれ関連付ける。

こうして、第２テキストは、各ワードＡ₁’〜Ａ₅’に対応する各部分Ａ₁〜Ａ₅に対して、各ワードＡ₁’〜Ａ₅’それぞれの開始時間ｔ₁〜ｔ₅が関連付けられて出力される。

なお、上述では、第１テキストと第２テキストとを、テキスト情報として比較しているが、これはこの例に限定されない。例えば、第１テキストおよび第２テキストを既知の音声合成技術によりそれぞれ第１音声データおよび第２音声データに変換し、これら第１音声データと第２音声データとを比較することで、第２テキスト内の、第１テキストに含まれる各ワードの対応部分を検出してもよい。

（第２の実施形態の変形例）
次に、第２の実施形態の変形例について説明する。第２の実施形態の変形例は、複数の音データからそれぞれ取得された各第１テキストに含まれる各ワードと、第２テキストの部分とを関連付ける例である。ここで、複数の音データは、例えば同一の会議において異なる条件で録音された音データであるものとする。この場合、各音データに含まれる音声は、それぞれの録音に用いたマイクロフォンの位置や、話者の位置などに応じて異なる場合がある。一例として、ある音データに含まれる音声が、他の音データでは含まれない、または、検出困難なレベルで含まれるような場合が考えられる。

図２０は、第２の実施形態の変形例に係る、サーバ１０における、第２テキストに対する、複数の第１テキストに含まれる各ワードの対応付け処理を示す一例のフローチャートである。この図２０のフローチャートと、上述した図１４とを参照しながら、この対応付処理について説明する。なお、第２の実施形態の変形例では、図１に示した情報処理システム１の構成をそのまま利用できるので、システム構成については説明を省略する。

図２０のフローチャートによる処理は、上述の図１６のフローチャートによる処理の終了後に、開始される。図２０のフローチャートの処理に先立って、サーバ１０は、記憶部１２２により、記憶装置１１から処理の対象となる複数の第１テキストを取得する。取得した各第１テキストは、上述したように、１以上のワードを含む。また、サーバ１０は、変数ｑを１に初期化する。

ステップＳ１５０で、サーバ１０において、検出部１２３は、対象となる第１テキストの数ｐを取得する。次のステップＳ１５１で、検出部１２３および関連付け部１２５は、ｑ番目の第１テキストについて、図１７のフローチャートを用いて説明した処理に従い、第２のテキストの各部分に対する時間情報の関連付けを行う。次のステップＳ１５２で、検出部１２３は、変数ｑが第１テキスト数ｐと等しいか否かを判定する。検出部１２３は、変数ｑが第１テキスト数ｐと等しくないと判定した場合、変数ｑに１を加算して処理をステップＳ１５１に戻し、次の第１テキストについて、関連付け処理を実行する。

一方、検出部１２３は、変数ｑが第１テキスト数ｐと等しいと判定した場合、処理対象の全ての第１テキストに対する処理が完了したとして、処理をステップＳ１５３に移行する。ステップＳ１５３で、関連付け部１２５は、第２テキストと、第２テキストの各部分に関連付けられた時間情報とを、結果データとして出力する。出力された第２テキストおよび時間情報は、例えば記憶部１２２により記憶装置１１に記憶される。

図２１を用いて、図２０のフローチャートの処理について、より具体的に説明する。

図２１（ａ）は、例えば第１の端末装置２０ａ（ＰＣ＃１とする）により録音された音データ３３４ａと、当該音データ３３４ａから取得された第１テキスト３３１ａ（ｑ＝１の第１テキストとする）との例を示す。図２１（ａ）の例では、第１テキスト３３１ａは、それぞれ音データ３３４ａ内の時間ｔ_a1、ｔ_a2およびｔ_a3を開始時間とするワードＡ₁₀’、Ａ₁₁’およびＡ₁₂’を含む。なお、音データ３３４ａの録音開始時刻は、時刻Ｔ_a00とする。

図２１（ｂ）は、同様に、例えば第２の端末装置２０ａ（ＰＣ＃２とする）により録音された音データ３３４ｂと、当該音データ３３４ｂから取得された第１テキスト３３１ｂ（ｑ＝２の第１テキストとする）との例を示す。図２１（ｂ）の例では、第１テキスト３３１ｂは、それぞれ音データ３３４ｂ内の時間ｔ_b1、ｔ_b2およびｔ_b3を開始時間とするワードＢ₁₀’、Ｂ₁₁’およびＢ₁₂’を含む。なお、音データ３３４ｂの録音開始時刻は、時刻Ｔ_b00とする。

さらに、図２１（ｃ）は、同様に、例えば第３の端末装置２０ａ（ＰＣ＃３とする）により録音された音データ３３４ｃと、当該音データ３３４ｃから取得された第１テキスト３３１ｃ（ｑ＝３の第１テキストとする）との例を示す。図２１（ｃ）の例では、第１テキスト３３１ｃは、それぞれ音データ３３４ｃ内の時間ｔ_c1、ｔ_c2およびｔ_c3を開始時間とするワードＣ₁₀’、Ｃ₁₁’およびＣ₁₂’を含む。なお、音データ３３４ｃの録音開始時刻は、時刻Ｔ_c00とする。

図２１（ｄ）は、第２テキスト３３０の例を示す。この例では、第２テキスト３３０は、図２１（ａ）〜図２１（ｃ）にそれぞれ示した各ワードＡ₁₀’〜Ａ₁₂’、Ｂ₁₀’〜Ｂ₁₂’、および、Ｃ₁₀’〜Ｃ₁₂’にそれぞれ対応する各部分Ａ₁₀〜Ａ₁₂、Ｂ₁₀〜Ｂ₁₂、および、Ｃ₁₀〜Ｃ₁₂を含んでいる。なお、第２テキスト３３０は、例えば会議中の発言順に従い、各部分が、部分Ａ₁₀、Ｂ₁₀、Ｃ₁₀、Ａ₁₁、Ｂ₁₁、Ｃ₁₁、Ａ₁₂、Ｂ₁₂、Ｃ₁₂の順に並べられている。

図２０のフローチャートにおいて、ステップＳ１５０で対象の第１テキストの数ｎ＝３が取得される。１回目（ｑ＝１）のステップＳ１５１の処理で、検出部１２３に、第１テキスト３３１ａに含まれる各ワードＡ₁₀’、Ａ₁₁’およびＡ₁₂’にそれぞれ対応する第２テキスト３３０の各部分Ａ₁₀、Ａ₁₁およびＡ₁₂が検出される。関連付け部１２５は、検出された第２テキスト３３０の各部分Ａ₁₀、Ａ₁₁およびＡ₁₂に対して、各ワードＡ₁₀’、Ａ₁₁’およびＡ₁₂’に対応する時間ｔ_a1、ｔ_a2およびｔ_a3をそれぞれ関連付ける。

図２０のフローチャートの２回目（ｑ＝２）の処理においても、同様に、検出部１２３により、第１テキスト３３１ｂに含まれる各ワードＢ₁₀’、Ｂ₁₁’およびＢ₁₂’が、第２テキスト３３０の各部分Ｂ₁₀、Ｂ₁₁およびＢ₁₂に対して対応付けられ、関連付け部１２５により、各部分Ｂ₁₀、Ｂ₁₁およびＢ₁₂に、各ワードＢ₁₀’、Ｂ₁₁’およびＢ₁₂’に対応する時間ｔ_b1、ｔ_b2およびｔ_b3が関連付けられる。

同様にして、図２０のフローチャートの３回目（ｑ＝３）の処理においても、第２テキスト３３０の各部分Ｃ₁₀、Ｃ₁₁およびＣ₁₂に対して、時間ｔ_c1、ｔ_c2およびｔ_c3が関連付けられる。

図２２は、第２の実施形態の変形例に係る、図２０のフローチャートのステップＳ１５３で出力される結果データの一例を示す。図２２の例では、結果データ３４０は、各行に、第２テキスト３３０の各部分Ａ₁₀、Ｂ₁₀、Ｃ₁₀、Ａ₁₁、Ｂ₁₁、Ｃ₁₁、Ａ₁₂、Ｂ₁₂、Ｃ₁₂のテキストと、これら各部分それぞれに関連付けられた各時間ｔ_a1、ｔ_a2、ｔ_a3、ｔ_b1、ｔ_b2、ｔ_b3、ｔ_c1、ｔ_c2、ｔ_c3とが対応付けられて含まれている。

なお、結果データ３４０における各時間ｔ_a1、ｔ_a2、ｔ_a3、ｔ_b1、ｔ_b2、ｔ_b3、ｔ_c1、ｔ_c2、ｔ_c3は、それぞれ、音データ３３４ａ、３３２ｂおよび３３２ｃ内での時間に対して対応する録音開始時刻Ｔ_a00、Ｔ_b00およびＴ_c00を加算した絶対時刻であるものとする。

また、図２２の例では、第２テキスト３３０の各部分Ａ₁₀、Ｂ₁₀、Ｃ₁₀、Ａ₁₁、Ｂ₁₁、Ｃ₁₁、Ａ₁₂、Ｂ₁₂、Ｃ₁₂にそれぞれ対応するワードＡ₁₀’、Ｂ₁₀’、Ｃ₁₀’、Ａ₁₁’、Ｂ₁₁’、Ｃ₁₁’、Ａ₁₂’、Ｂ₁₂’、Ｃ₁₂’が検出された音データ３３４ａ、３３２ｂおよび３３２ｃを録音した各端末装置２０ａ（ＰＣ＃１、ＰＣ＃２およびＰＣ＃３）を示す情報が、さらに含まれている。

図２３は、第２の実施形態の変形例に係る、上述した結果データ３４０に基づき表示情報生成部１２６により生成された表示情報に基づく時系列表示画面３５０の例を示す。図２３に例示される時系列表示画面３５０は、サーバ１０により例えばＩＷＢ１３に表示される。これに限らず、時系列表示画面３５０を各端末装置２０ａ、２０ａ、…、２０ｂのディスプレイ２１４に表示させてもよいし、サーバ１０にアクセスを許可されたさらに別の端末装置のディスプレイに表示させてもよい。

時系列表示画面３５０は、時系列表示部３５１を含み、時系列表示部３５１内の領域３５２に、時間軸を矢印で示す表示３５３と、第２テキスト３３０に含まれる各部分Ａ₁₀、Ｂ₁₀、Ｃ₁₀、Ａ₁₁、Ｂ₁₁、Ｃ₁₁、Ａ₁₂、Ｂ₁₂、Ｃ₁₂のテキストとが表示されている。各部分Ａ₁₀、Ｂ₁₀、Ｃ₁₀、Ａ₁₁、Ｂ₁₁、Ｃ₁₁、Ａ₁₂、Ｂ₁₂、Ｃ₁₂のテキストは、それぞれに関連付けられた絶対時刻である時間ｔ_a1、ｔ_b1、ｔ_c1、ｔ_a2、ｔ_b2、ｔ_c2、ｔ_a3、ｔ_b2、ｔ_c3の順序および間隔に従い、時間軸上に表示される。

このように、第２の実施形態の変形例では、ユーザにより清書されたテキストである第２テキストの各部分に対して、例えば実際の会議の発言がなされた時刻に対応する時間情報が、複数の音データに基づき関連付けられる。そのため、条件が異なる複数の端末装置で録音された音データのそれぞれが、発言による音声を部分的に含んでいなくても、会議全体における発言の流れを把握することが可能となる。

（第３の実施形態）
次に、第３の実施形態について説明する。第３の実施形態は、上述した第１の実施形態に係る情報処理システム１を、成果物生成システムに適用させた例である。成果物生成システムは、例えば、１以上の端末装置により更新された共有データを、それぞれ１以上の端末装置を含む複数のグループからそれぞれ集め、集めた複数の共有データを指定したタイミングで合成して、その時点での成果物としての成果物データを生成する。

図２４は、図１に示したサーバ１０に対応する、第３の実施形態に係るサーバ１０’の機能を説明するための機能ブロック図である。なお、図２４において、上述した図５と共通する部分には同一の符号を付して、詳細な説明を省略する。また、サーバ１０のハードウェア構成は、図２で説明した構成をそのまま適用できるので、ここでの説明を省略する。

図２４において、サーバ１０’は、通信部１２０と、制御部１２１と、記憶部１２２と、選択部１０４２と、１以上のプロジェクト管理部１０４４とを含む。通信部１２０、制御部１２１、記憶部１２２、選択部１０４２および１以上のプロジェクト管理部１０４４は、ＣＰＵ１００上で動作するプログラムにより実現される。これに限らず、通信部１２０、制御部１２１、記憶部１２２、選択部１０４２および１以上のプロジェクト管理部１０４４のうち一部または全部を、互いに協働して動作するハードウェア回路により構成してもよい。

サーバ１０’は、ウェブブラウザなどを実行する複数の端末装置２０ａからのアクセスを受け付ける。そして、サーバ１０’は、複数の端末装置２０ａのそれぞれに対して、その端末装置２０ａが要求した情報を提供する。

また、サーバ１０’は、複数の端末装置２０ａが更新することが可能な少なくとも１つの共有データを管理する。より詳しくは、サーバ１０’は、複数の端末装置２０ａのそれぞれが、既存の共有データの参照、新規の共有データの登録、既存の共有データの変更および既存の共有データの削除等をすることができるように、少なくとも１つの共有データを管理する。

また、サーバ１０’は、それぞれの端末装置２０ａに表示された画像である端末画像を取得し、端末画像のログを記憶する。また、サーバ１０’は、管理している共有データのログを記憶する。また、サーバ１０’は、管理している少なくとも１つの共有データを含む成果物データを生成する。

ここで、共有データは、例えば、テキストデータ、画像データ、動画像データ、音楽データ、文書データまたはプログラムデータ（スクリプトデータ）等のどのようなデータであってもよい。成果物データは、例えば、少なくとも１つの共有データを合成して文書化したデータである。例えば、成果物データは、テキストデータまたは画像データである共有データを、所定の位置に配置したＰＤＦ（Portable Document Format）データ等の文書データである。また、成果物データは、テキストデータ、画像データ、動画像データ、音楽データ、文書データおよびプログラムデータ等を合成したウェブ文書データであってもよい。

サーバ１０’は、プロジェクト毎に、複数のユーザによるグループを形成する。サーバ１０’は、プロジェクト毎に、ユーザ間のコミュニケーションを実現させる。また、サーバ１０’は、プロジェクト毎にプロジェクト管理部１０４４を有する。

図２４において、選択部１０４２は、ユーザ認証がされた端末装置２０ａからアクセスされた場合、図２５に示すようなプロジェクト選択画面１２００を端末装置２０ａに提供して、端末装置２０ａのディプレイ２１４に表示させる。プロジェクト選択画面１２００は、管理している少なくとも１つのプロジェクトの中から、参加する１つのプロジェクトを端末装置２０ａに選択させるための画面である。端末装置２０ａは、ユーザにより何れかのプロジェクトが選択された場合、選択されたプロジェクトを示す選択情報をサーバ１０’に送信する。

選択部１０４２は、端末装置２０ａからの選択情報に応じて、その端末装置２０ａが参加するプロジェクトを選択する。選択部１０４２は、端末装置２０ａからの選択情報に応じて選択されたプロジェクトに対応するプロジェクト管理部１０４４を呼び出し、そのプロジェクト管理部１０４４とその端末装置２０ａとの間の情報のやり取りを可能とする。

それぞれのプロジェクト管理部１０４４は、対応するプロジェクトに参加するそれぞれの端末装置２０ａからアクセスを受け付ける。また、それぞれのプロジェクト管理部１０４４は、対応するプロジェクトに関する各種の情報処理を実行する。

記憶部１２２は、それぞれのプロジェクト管理部１０４４が管理するデータを、プロジェクト毎に記憶装置１１に記憶させる。これに限らず、記憶部１２２は、それぞれのプロジェクト管理部１０４４が管理するデータをストレージ１０３に記憶させてもよいし、当該データを記憶装置１１およびストレージ１０３にそれぞれ記憶させてもよい。

図２６は、第３の実施形態に係るプロジェクト管理部１０４４の機能を説明するための機能ブロック図である。プロジェクト管理部１０４４は、テキスト処理部１１００と、端末管理部１１０１と、共有データ管理部１１０２と、成果物管理部１１０３と、主画面提供部１１０４と、時間管理部１１０５とを含む。

図２７は、第３の実施形態に係るテキスト処理部１１００の機能を説明するための一例の機能ブロック図である。テキスト処理部１１００は、検出部１２３と、収集部１２４と、関連付け部１２５と、表示情報生成部１２６とを含み、図５で説明したサーバ１０の機能の一部を実現する。すなわち、第３の実施形態に係るサーバ１０’は、第１の実施形態に係るサーバ１０の機能を含む。

図２６の説明に戻り、主画面提供部１１０４は、それぞれの端末装置２０ａの画面に、例えば、図２８に示すように、操作領域１３２０と、再生領域１３４０と、作業領域１３６０と、時間管理領域１３８０とを含む主画面１３００を表示させる。

主画面１３００において、操作領域１３２０には、各種の操作ボタン１３１０ａ、１３１０ｂおよび１３１０ｃが表示される。操作ボタン１３１０ａは、例えば再生領域１３４０の表示を制御するためのボタン、操作ボタン１３１０ｂは、成果物データ作成を指示するためのボタン、操作ボタン１３１０ｃは、音声収集およびテキスト変換の開始を指示する画面を表示させるためのボタンである。

主画面１３００において、再生領域１３４０には、プロジェクトに参加するそれぞれの端末装置２０ａに表示された画像である端末画像が表示される。作業領域１３６０には、プロジェクトに参加するそれぞれの端末装置２０ａからアクセス可能な共有データが表示される。時間管理領域１３８０には、時間の経過および表示する画像およびテキストの時刻に関する情報、および、プロジェクトの進行の管理をするための情報が表示される。

図２６の説明に戻り、端末管理部１１０１は、端末画像取得機能と、端末ログ生成機能と、端末画像表示制御機能とを含む。端末管理部１１０１は、端末画像取得機能により、それぞれの端末装置２０ａに表示された画像である端末画像を取得する。端末管理部１１０１は、端末ログ生成機能により、端末画像取得機能により取得された端末画像に基づき、端末装置２０ａ毎に端末画像のログを生成し、生成した端末画像のログを時刻情報と関連付けて、記憶部１２２により例えば記憶装置１１に記憶させる。

端末管理部１１０１は、端末画像表示制御機能により、それぞれの端末装置２０ａに表示された端末画像を、対象の端末装置２０ａの画面における主画面１３００の再生領域１３４０に表示させる。この場合において、端末管理部１１０１は、端末画像取得機能により取得したリアルタイムの端末画像を再生領域１３４０に表示させる。これに限らず、端末管理部１１０１は、記憶部１２２により、記憶装置１１から端末画像の最新のログを取得して、再生領域１３４０に表示させてもよい。

また、ユーザは、主画面１３００の時間管理領域１３８０に対する操作により、過去の時刻（第１時刻）を指定することができる。端末管理部１１０１は、端末画像表示制御機能により、対象の端末装置２０ａにより第１時刻が指定された場合、当該指定された第１時刻の端末画像のログを記憶装置１１から取得して、対象の端末装置２０ａの画面における主画面１３００の再生領域１３４０に表示させる。これにより、端末管理部１１０１は、過去に表示された端末画像をユーザに提供することができる。

共有データ管理部１１０２は、共有データ管理機能と、共有データログ生成機能と、共有データ表示制御機能とを含む。共有データ管理部１１０２は、共有データ管理機能により、少なくとも１つの共有データを管理する。さらに、共有データ管理部１１０２は、共有データ管理機能により、プロジェクトに参加しているそれぞれの端末装置２０ａから、共有データへのアクセスを受け付ける。

さらにまた、共有データ管理部１１０２は、共有データ管理機能により、１つのプロジェクトに対して少なくとも１つのワークシートを設定する。ワークシートは、共有データを管理するためのインデックスを示す情報である。共有データ管理部１１０２は、共有データ管理機能により、共有データを何れかのワークシートに関連付けて管理する。例えば、共有データ管理部１１０２は、作業領域１３６０に表示される各共有データを、１つのワークシートに関連付けて管理する。

共有データ管理部１１０２は、共有データログ生成機能により、管理されている共有データのログを生成し、生成した共有データのログを時刻情報と関連付けて、記憶部１２２により例えば記憶装置１１に記憶させる。

共有データ管理部１１０２は、共有データ表示制御機能により、少なくとも１つの共有データを、対象の端末装置２０ａの画面における主画面１３００の作業領域１３６０に表示させる。この場合において、共有データ管理部１１０２は、共有データ表示制御機能により、管理されている最新の共有データを作業領域１３６０に表示させる。これに限らず、共有データ管理部１１０２は、記憶部１２２により、記憶装置１１から共有データの最新のログを取得して、作業領域１３６０に表示させてもよい。

また、ユーザは、主画面１３００の時間管理領域１３８０を操作して、過去の時刻（第２時刻）を指定することができる。共有データ管理部１１０２は、共有データ表示制御機能により、対象の端末装置２０ａにより第２時刻が指定された場合、第２時刻の共有データのログを記憶装置１１から取得して、対象の端末装置２０ａの画面における主画面１３００の作業領域１３６０に表示させる。これにより、共有データ管理部１１０２は、過去に表示された共有データをユーザに提供することができる。

成果物管理部１１０３は、成果物生成機能と、成果物表示制御機能とを含む。成果物管理部１１０３は、成果物生成機能により、特定のユーザの端末装置２０ａからの操作ボタン１３１０ｂに対する操作に応じて、少なくとも１つの共有データを含む成果物データを生成する。成果物管理部１１０３は、成果物生成機能により生成した成果物データを、記憶部１２２により例えば記憶装置１１に記憶させる。成果物管理部１１０３は、成果物表示制御機能により、記憶装置１１から成果物データを取得して、対象の端末装置２０ａの画面における主画面１３００に設けられる成果物表示領域に表示させる。

時間管理部１１０５は、時間の経過および表示する画像およびテキストの時刻に関する情報を、対象の端末装置２０ａの画面における主画面１３００の時間管理領域１３８０に表示させる。時間管理部１１０５は、例えば、現在時刻を示す情報と、過去の端末画像を示すサムネイル画像と、過去の共有データを示すサムネイル画像とを時間管理領域１３８０に表示させる。さらに、時間管理部１１０５は、テキスト処理部１１００において収集され時間情報を関連付けられたテキストを、時間管理領域１３８０に表示させる。

また、時間管理部１１０５は、例えば、再生領域１３４０に表示させる端末画像のログの時刻（第１時刻）、および、作業領域１３６０に表示させる共有データのログの時刻（第２時刻）を制御するためのユーザインターフェイス等を、時間管理領域１３８０に表示させる。

次に、第３の実施形態に係るサーバ１０’におけるテキスト収集および表示処理について、上述した図６および図８、ならびに、図２８を参照しながら説明する。図２８を参照し、対象の端末装置２０ａは、主画面１３００の操作ボタン１３１０ｃが操作されると、上述した図８のフローチャートの処理を開始する。すなわち、当該端末装置２０ａは、操作ボタン１３１０ｃに対する操作に応じて、図８のステップＳ１００に従い、サーバ１０’に対してテキスト化ツール２１を要求する。サーバ１０’は、この要求に応じて、当該端末装置２０ａに対してテキスト化ツール２１を送信する。

端末装置２０ａは、送信されたテキスト化ツール２１をダウンロードして取得する（図８のステップＳ１０１）。これにより、端末装置２０ａ上に取得部２２３（図６参照）が形成され、端末装置２０ａに図９に示したテキスト化ツール画面２５０が表示される。図２９は、第３の実施形態に係る、テキスト化ツール画面２５０の表示の例を示す。この例では、テキスト化ツール画面２５０が主画面１３００に対してオーバーラップされて表示されている。

上述したように、テキスト化ツール画面２５０において、録音ボタン２５１が操作されると、取得部２２３（図６参照）による録音が開始される。さらに、テキスト化ボタン２５２が操作されると、録音ボタン２５１の操作に応じて録音された音データのテキスト化処理が開始される（図８のステップＳ１０２）。最小化ボタン２５４を操作することで、テキスト化ツール画面２５０が最小化され、例えば主画面１３００における作業の邪魔にならないようにできる。テキスト化ツール画面２５０が最小化されている場合でも、録音およびテキスト化処理は継続される。

以降、図８のステップＳ１０３〜ステップＳ１０６の処理に従い、録音終了の判定がなされるまで、録音およびテキスト化処理が実行される。

図８のステップＳ１０５の処理において説明したように、端末装置２０ａは、テキスト化ツール２１で取得されたワードおよび時間情報を、サーバ１０’に送信する。端末装置２０ａから送信されたワードおよび時間情報は、サーバ１０’において、テキスト処理部１１００に含まれる収集部１２４に収集される。収集部１２４は、収集したワードおよび時間情報を、時間管理部１１０５に渡す。また、収集部１２４は、収集したワードおよび時間情報を、例えば共有データ管理部１１０２に渡す。共有データ管理部１１０２は、渡されたワードおよび時間情報を、作業領域１３６０に対応するワークシートに関連付けて、記憶部１２２により記憶装置１１に記憶させる。

サーバ１０’において、時間管理部１１０５は、テキスト処理部１１００の収集部１２４から渡されたワードすなわちテキストを、対応する時間情報に従い、例えば主画面１３００の時間管理領域１３８０に表示させる。

図３０は、第３の実施形態に係る、時間管理部１１０５により表示される時間管理領域１３８０の例を示す。時間管理部１１０５は、時間管理領域１３８０に、タイムラインバー１３８１と、現在時刻線１３８２とを表示させる。

タイムラインバー１３８１は、現在時刻を含む所定の時間範囲の時刻を表す。例えば、図３０の例では、タイムラインバー１３８１は、８時５０分から１０時２０分までの範囲の時刻を表している。現在時刻線１３８２は、タイムラインバー１３８１における現在時刻に対応する位置を示す。図３０の例では、現在時刻線１３８２は、９時５５分を現在時刻として示している。時間管理部１１０５は、時間の経過に従って、タイムラインバー１３８１の表示範囲と、現在時刻線１３８２の位置とを相対的に移動させる。

時間管理部１１０５は、時間管理領域１３８０に対して、端末画像のログのサムネイル画像１３８３、１３８３、…を、タイムラインバー１３８１における端末画像のログの生成時刻に対応する位置にさらに表示させる。例えば、時間管理部１１０５は、時間管理領域１３８０に、内容が更新された時刻における端末画像のサムネイル画像１３８３を表示させる。

また、時間管理部１１０５は、共有データのサムネイル画像１３８３を、タイムラインバー１３８１における端末画像のログの生成時刻に対応する位置に表示させてもよい。例えば、時間管理部１１０５は、内容が更新された時刻における共有データのサムネイル画像１３８３を表示させる。時間管理部１１０５は、ユーザによる操作に応じて、時間管理領域１３８０に端末画像のサムネイル画像１３８３と、共有データのサムネイル画像１３８３とのうち何れを表示させるかを切り替える。

さらに、時間管理部１１０５は、時間管理領域１３８０に対して、テキスト処理部１１００の収集部１２４から渡されたテキスト１３８４、１３８４、…を、タイムラインバー１３８１における当該テキストに関連付けられた時間情報に対応する位置にさらに表示させる。

なお、図３０の例では、録音開始マーク１３８７により示される時刻（例えば８時４５分）から録音およびテキスト化処理が開始されている。そのため、時間管理領域１３８０には、この録音開始マーク１３８７が示す時刻以降の時間情報が関連付けられたテキスト１３８４、１３８４、…が表示されている。

なお、図３０において、第１時刻マーク１３８５は、再生領域１３４０に表示する端末画像のログの時刻（第１時刻）を指定する。ユーザ操作に応じて第１時刻マーク１３８５の位置をタイムラインバー１３８１における過去の時刻に対応する位置に移動させることで、再生領域１３４０に、過去に表示された端末画像が表示される。また、第２時刻マーク１３８６は、作業領域１３６０に表示する共有データのログの時刻（第２時刻）を指定する。ユーザの操作に応じて第２時刻マーク１３８６の位置をタイムラインバー１３８１における過去の時刻に対応する位置に移動させることで、作業領域１３６０には、過去に表示された共有データが表示される。

第３の実施形態に係るサーバ１０’は、成果物データの生成に関する議事録を作成することができる。図３１は、第３の実施形態に係る、サーバ１０’において成果物管理部１１０３が作成する議事録データの例を示す。

図３１において、議事録データ１４００は、成果物データ情報１４０１と、共有データリスト１４０２と、発言リスト１４０３とを含むデータである。共有データリスト１４０２は、例えば、その成果物データ情報１４０１に対応するワークシートに関連付けられた少なくとも共有データと、その共有データを生成したユーザと、生成した日時とを含む。また、発言リスト１４０３は、当該成果物データ情報に対応するワークシートに関連付けられた少なくとも発言データ（テキスト）と、発言データの発言を行ったユーザと、発言データに関連付けられた日時（時間情報）とを含む。成果物管理部１１０３は、このような議事録データ１４００を生成することにより、後で成果物データの内容や、議事の流れなどを確認させることができる。

第２の実施形態で説明した清書テキストに基づき、議事録データ１４００の発言リスト１４０３の内容を書き換えることができる。例えば、図２２を用いて説明した結果データ３４０に含まれる時間情報と、各端末装置２０ａを示す情報と、第２テキスト３３０の各部分のテキストを用いて、発言リスト１４０３の日時、ユーザおよび発言データをそれぞれ書き換える。

このように、第３の実施形態では、成果物データを生成するために用いる端末画像および共有データと、共有データの更新過程などにおいてなされた発言に基づくテキストとを、共通の時間軸で管理できる。そのため、成果物データを生成した際の処理の流れなどの把握が容易となり、作業の効率を向上させることが可能となる。

なお、上述の実施形態は、本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変形による実施が可能である。

１情報処理システム
１０，１０’ サーバ
１１記憶装置
１２，３０ネットワーク
１３ＩＷＢ
２０ａ，２０ｂ端末装置
２１テキスト化ツール
１００，２００ＣＰＵ
１０３，２０４ストレージ
１２２記憶部
１２３検出部
１２４収集部
１２５関連付け部
１２６表示情報生成部
２１５キーボード
２１６マイクロフォン
２２３取得部
２５０テキスト化ツール画面
３００ａ，３００ｂ，３３２ａ，３３２ｂ，３３２ｃ音データ
３０１ａ，３０１ｂ，３３１ａ，３３１ｂ，３３１ｃ第１テキスト
３２０，３５０時系列表示画面
３３０第２テキスト
３４０結果データ
１０４２選択部
１０４４プロジェクト管理部
１１００テキスト処理部
１１０１端末管理部
１１０２共有データ管理部
１１０３成果物管理部
１１０４主画面提供部
１１０５時間管理部
１２００プロジェクト選択画面
１３００主画面
１３２０操作領域
１３４０再生領域
１３６０作業領域
１３８０時間管理領域
１３８１タイムラインバー
１３８２現在時刻線
１３８３サムネイル画像
１３８４テキスト
１４００成果物表示領域
２２３０音取得部
２２３１テキスト取得部

特開２００８−１７２５８２号公報

Claims

情報処理装置と複数の端末装置とを含む情報処理システムであって、
前記情報処理装置は、
時系列に従い取得された音に含まれる音声が変換された第１のテキストと、該音において該第１のテキストの各部分が対応する時間を示す各時間情報とを取得して前記情報処理装置に送信する取得部を形成するためのプログラムを前記複数の端末装置に送信する送信部と、
前記複数の端末装置のそれぞれにおいて前記取得部により取得された、前記音と、前記第１のテキストの前記各部分と、該各部分にそれぞれ対応する前記各時間情報とを収集する収集部と
を備える情報処理システム。
前記情報処理装置は、
第２のテキスト内の、前記収集部により前記複数の端末装置から収集された前記第１のテキストそれぞれの前記各部分のうち第１の部分に対応する第２の部分を検出する検出部と、
前記第２の部分に、前記各時間情報のうち前記第１の部分が対応する時間情報を関連付ける関連付け部と
をさらに備える請求項１に記載の情報処理システム。
前記情報処理装置は、
前記収集部により前記複数の端末装置から収集された前記第１のテキストそれぞれの前記各部分を、前記各時間情報に基づき、前記複数の端末装置毎に時系列に従って表示させるための表示情報を生成する生成部をさらに備える
請求項１または請求項２に記載の情報処理システム。
前記端末装置は、
前記音を収音する収音部を備え、
前記取得部は、
前記収音部による前記音の収音に応じて順次に前記第１のテキストの前記各部分を取得して前記情報処理装置に送信する
請求項１乃至請求項３の何れか１項に記載の情報処理システム。
時系列に従い取得された音に含まれる音声が変換された第１のテキストと、該音において該第１のテキストの各部分が対応する時間を示す各時間情報とを取得する取得部を形成するためのプログラムを複数の端末装置に送信する送信部と、
前記複数の端末装置のそれぞれにおいて前記取得部により取得された、前記音と、前記第１のテキストの前記各部分と、該各部分にそれぞれ対応する前記各時間情報とを収集する収集部と
を備える情報処理装置。
時系列に従い取得された音に含まれる音声が変換された第１のテキストと、該音において該第１のテキストの各部分が対応する時間を示す各時間情報とを取得する取得部を形成するためのプログラムを複数の端末装置に送信する送信ステップと、
前記複数の端末装置のそれぞれにおいて前記取得部により取得された、前記音と、前記第１のテキストの前記各部分と、該各部分にそれぞれ対応する前記各時間情報とを収集する収集ステップと
を有する情報処理方法。
時系列に従い取得された音に含まれる音声が変換された第１のテキストと、該音において該第１のテキストの各部分が対応する時間を示す各時間情報とを取得する取得部を形成するためのプログラムを複数の端末装置に送信する第１の送信ステップと、
前記複数の端末装置のそれぞれにおいて前記取得部により取得された、前記音と、前記第１のテキストの前記各部分と、該各部分にそれぞれ対応する前記各時間情報とを収集する収集ステップと
をコンピュータに実行させるための情報処理プログラム。