JP2007221574A

JP2007221574A - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP2007221574A
Application number: JP2006041150A
Authority: JP
Inventors: Tamihei Hiramatsu; 民平平松
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-02-17
Filing date: 2006-02-17
Publication date: 2007-08-30

Abstract

【課題】複数のマイクロフォンを設置した場合に、発言者の音声だけを良好に録音した音声データを作成する。
【解決手段】少なくとも２つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する第１のメモリ２１と、第１のメモリ２１に記憶された原音声データのレベルが予め設定した閾値を超過する原音声データに付与された識別子を抽出する識別子抽出部４２ｃと、第１のメモリ２１より読み出した原音声データのうち、抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御部４２ｄとを備え、加算処理した音声データを作成する。
【選択図】図４

Description

本発明は、例えば会議において発言者の音声を録音する場合に適用して好適な音声処理装置、音声処理方法及びプログラムに関する。

従来、会議などにおいて、空間的に分散した発言者が発する複数の発言を、複数のマイクロフォン（以下の説明では、マイクとも称する。）で録音するために様々な技術が提供されていた。例えば、発言者に近い場所に置かれたマイク信号のみを発言者やオペレータの操作で選択（スイッチング）して録音する技術があった。また、音声信号の振幅を検出して発言者の選択を自動的に行って録音する技術があった。さらに、全てのマイクで集音した音声信号を加算（ミクス）して録音する技術があった。そして、近年は、ハードディスクドライブやフラッシュメモリ等の記憶媒体の大容量化や低価格化の進展によって、長時間の録音であっても必要な記憶容量を確保することができるようになってきた。

特許文献１には、複数のマイクにより発言者の音声を集音するデータ伝送システムの記載がある。
特開２００５−１１７１３４号公報（図１４）

ところで、従来用いてきた発言者のマイクを選択して録音する技術ではマイク選択操作のオン／オフ切り替えが必要であったため、操作自体が煩わしく、また操作を誤ると録音できないという不都合があった。例えば、選択操作のオン切り替えを忘れた場合、音声を録音できなくなってしまう。また、オフ切り換えを忘れた場合、不要な録音を続行してしまう。

また、音声信号の振幅を検出して自動的に録音する技術では、音声信号がある程度大きくなってからマイクオンするので、発言開始音声が頭切れして録音してしまう。また、発言終了間際に小さい音声となったところでマイクオフとなることもあり、録音した発言の語尾が唐突に切断されてしまう。あるいは不要な雑音であっても、ある閾値を超えるとマイクオンして録音してしまう。そして、頭切れしないようにマイクオンしやすくすると雑音であってもマイクオンしてしまう。一方、雑音でオンしないようにすると、発言を開始していても雑音とみなしてマイクオンしないため、発言開始音声が切れてしまう。このように自動録音技術では、確実に音声を録音できない可能性があった。

また、全てのマイクで集音した音声信号を加算して録音する技術では、非発言者のマイクが集音する不要な周囲の背景雑音が加算されるためＳ／Ｎ（Signal to Noise）が非常に悪化してしまう。例えば、２０個のマイクを用いて音声を録音している場合、発言者１人分の音声に対して雑音が１９マイク分加算されてしまい、録音した音声の品質が良いとは言えなかった。

このように、従来は多数のマイクで集音した音声信号から録音状態を良好に録音する技術がなかった。そして、多数のマイクから音声を集音する場合は、ミキサが必要であるため、未だに効率的に音声議事録を作成する装置は実用化されていなかった。

本発明はこのような状況に鑑みて成されたものであり、多数のマイクで集音する場合に、発言者の音声を良好に録音することを目的とする。

本発明は、少なくとも２つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶し、記憶された原音声データのレベルが予め設定した閾値を超過する原音声データに付与された識別子を抽出し、読み出した原音声データのうち、抽出した識別子以外に対応する原音声データを減衰させて加算するものである。

このようにしたことで、発言者を抽出して、発言者以外の音声を減衰させた音声を録音することが可能となった。

本発明によれば、発言者を抽出して、発言者以外の音声を減衰させた音声議事録を作成できるため、発言者の音声が強調されると共に不要な周囲の雑音が低減されるという効果がある。

以下、本発明の一実施の形態を、添付図面を参照して説明する。本実施の形態では、発言者の音声を複数本のマイクで集音して、音声議事録を作成可能な音声議事録作成装置に適用した例について説明する。本例で用いる音声議事録作成装置は、マイクで集音した音声から発言者のマイクを特定し、他のマイクで集音した音声を減衰させることで、発言者の音声を強調して記録した音声議事録を作成できる。

まず、本例の音声議事録作成装置の外部構成例について、図１を参照して説明する。図１は、本例の音声議事録作成装置を各種装置に接続した音声議事録作成システムの接続構成例を示した図である。本例の音声議事録を作成する音声議事録作成装置１は、発言者の音声を集音する２６本のマイクＭ１〜Ｍ２６より、原音声信号として収集する。マイクＭ１〜Ｍ２６は、識別可能とするための識別子としてマイク番号が付与してあり、会議テーブル５上に設置してある。そして、マイクＭ１〜Ｍ２６で集音したアナログ音声信号は、アナログ／デジタル変換する端末ａ１〜ａ２６でデジタルの音声データ（以下この音声データを原音声データと称する）に変換して音声議事録作成装置１に供給される。本例の端末ａ１〜ａ２６はマイク番号の順に、音声議事録作成装置１の音声入力部４１までデイジーチェーン接続してある。集音した音声データは、音声入力インタフェースである音声入力部４１を介して音声議事録作成装置１に供給する。ただし、マイク本数は２６本に限定されるものではなく、必要に応じて本数を増減させてよい。

音声議事録作成装置１は、装置１の前面に外部装置へのインタフェースとなる入力部と出力部を備える。キーボード，マウス等からなる入力装置４は、外部信号を装置１に入力する入力部４７に接続してあり、入力信号を装置１に供給する。また、ボタン，スイッチ等を備えた操作部４３が、装置１の前面に取り付けてあり、直接操作可能としてある。入力装置４や操作部４３の操作入力によって、後述するレベルデータの閾値の設定、ピーク個数の設定、音声議事録作成時間の開始／終了設定等を行うことができる。音声議事録作成装置１で作成する音声議事録は、装置１内部に格納してある後述する第４のメモリ２４に記憶してある。液晶ディスプレイパネルを備えたモニタ２には、時間毎に全マイク番号に対応するレベルデータの波形を表示させて、レベルが閾値ｔｈ以下で聞き取りにくい発言者であっても音声議事録に記録させるようマニュアル操作を行うことができる。そして、音声議事録の再生時には、第４のメモリ２４から音声議事録ファイルを読み出してスピーカ３より、放音させる。

次に、マイクに接続して音声信号を伝送する端末の内部構成例について、図２を参照して説明する。本例では、端末ａ１〜ａ３をデイジーチェーン接続してあり、前端末として端末ａ１、次端末として端末ａ３として、端末ａ２を介してデータの送受を行う例を示してある。端末ａ２は、データの送受と、終端での自動的な折り返し制御を行う送受信ブロック１０ａと、スロットへの制御データの書き込みを行うデータ処理ブロック１０Ｂとで構成してある。また、端末ａ２は、前端末ａ１との接続用のＡ端子１０ｄと、次端末ａ３との接続用のＢ端子１０ｅとを有する。各端子には、データ伝送用の信号線１１ａ，１１ｂと電源線１１ｃとが設けてある。信号線１１ａが処理パス用、信号線１１ｂが中継パス用である。そして、端末ａ２には、電源供給用の電源端子１０ｆが設けてある。

端末ａ２は、受信スロットのデータを出力するための端子１０ｉを備える。本例において、データマスタ用の端末は、伝送路の最下流に配置される端末であり、収集したデータを外部に出力するために用いられる。一方、非データマスタ用の端末は、一般に伝送路の最下流を除く上流側に配置される端末である。端子１０ｇは非データマスタ用の端末に必要な端子であり、端子１０ｉはデータマスタ用の端末に必要な端子である。本例では、端子１０ｇ，１０ｉへのデータの入出力を検出し、検出状態に応じて端末を切り替える。

端末ａ２は、マイクからアナログ音声信号を入力するための端子１０ｇを備える。マイクＭ２で集音して、端子１０ｇより入力したアナログ音声信号は、アナログ／デジタル変換部１０ｃでデジタル音声信号に変換して、データ処理ブロック１０ｂに供給する。そして、前端末で作成した音声信号を、送受信ブロック１０ａを介して次端末へ供給する。端末の終端（例えば端末ａ２６）では、端子１０ｉと装置１の音声入力部４１とを接続して、装置１に音声信号を供給する。供給された音声信号は、音声議事録作成装置１で原音声データとして記憶できる。

次に、データを伝送するのに用いる伝送データの構造例について、図３を参照して説明する。本例では、伝送にＵＡＲＴ（Universal Asynchronous Receiver Transmitter）を適用した例としてある。ＵＡＲＴ自体は、非同期伝送技術の一つとして周知の技術であるので詳細な説明は省略する。簡単に説明すると、この技術は、スタートビット“０”の検出後、内部カウンタにより一定時間毎所定のビット数だけ、ビットの中央位相で１／０を判定することにより、通信を行うことができる。所定ビットの読み込み終了後は、新たに次フレームのスタートビットの検出を始める。図３（ａ）は、フレームの構成例を示す。本例では、フレーム周波数ｆｓを２２．０５ｋＨｚ（４．５μ秒）とする。図３（ｂ）は、データの構成例を示す。１フレームは３１個のスロットと一定長のギャップ（データ“１”）で構成されるものとする。３１スロットのうち２６スロットは音声データ、残る５スロットは制御データとする。また、各スロットのデータ長は１７ビットとする。１スロットは、１ビット長のスタートビット“０”と、これに続く１６ビット長のデータｄｓとで構成する。

次に、本例の音声議事録作成装置１の内部構成例について、図４を参照して説明する。発言者の発言内容や周囲の雑音をマイクＭ１〜Ｍ２６で集音した音声は、端末ａ１〜ａ２６でアナログ／デジタル変換が施され、音声信号として端末ａ１〜ａ２６を接続するケーブルを通して、音声入力部４１を介して装置１に入力する。装置１には、入力した音声信号や、音声信号の各種変換処理での変換データを記憶させるため、大容量のデータを記憶可能な第１のメモリ２１〜第４のメモリ２４を備える。本例では、メモリ２１〜２４には、例えばフラッシュメモリを用いる。

各部を制御する制御部４２は、読み出しのみ可能なＲＯＭ（Read Only Memory）４４よりプログラム、固定パラメータ等を読み出して処理を実行し、書き込み可能なＲＡＭ（Random Access Memory）４５に作業領域を確保して、変数，一時データ等を記憶させ、必要に応じてＲＡＭ４５からデータを読み出して処理に用いる。また、制御部４２は、時刻を計時する時計部４６より、時刻を読み出して、メモリ２１〜２４への読み出しや書き込みのタイミングを制御する。そして、本例の制御部４２は、音声入力部４１から入力した原音声データを第１のメモリ２１へ書き込む原音声データ作成部４２ａと、原音声データから大きさのみのレベルデータを作成して第２のメモリ２２に書き込むレベルデータ作成部４２ｂと、予め定めた閾値を超過したレベルデータのマイク番号を一定の個数だけ第３のメモリ２３に作成したピークテーブルに書き込む識別子抽出部４２ｃと、第１のメモリ２１から読み出した原音声データのうち、ピークテーブルから読み出したマイク番号以外の原音声データを減衰させて減衰音声データとし、減衰音声データと、ピークテーブルから読み出したマイク番号に対応する原音声データとを同一時刻毎に加算し、音声議事録を作成する音声データ加算制御部４２ｄを備える。

音声議事録作成装置１に時刻順で入力した音声データは、原音声データ作成部４２ａの書き込みアドレスを管理して、第１のメモリ２１のマイク番号毎に対応するメモリ領域に原音声データとして書き込まれる。第１のメモリ２１には、マイク番号に対応して領域ｍ１〜ｍ２６までの２６個の記憶領域を確保してある。マイクで集音した原音声データは、マイクＭ１は領域ｍ１，マイクＭ２は領域ｍ２，…，マイクＭ２６は領域ｍ２６へと、マイク番号毎に対応する領域に書き込む。音声信号は一本の信号線に多重化されたデジタル信号として音声入力部４１より入力するため、多重化タイミング信号に合わせて第１のメモリ２１への書き込みデータとすることができる。

そして、レベルデータ作成部４２ｂは、第１のメモリ２１の読み出しアドレスを管理して、マイク番号毎に原音声データを読み出す。原音声データには、音声データの信号は正負に振れ、さらに声以外の高い周波数の雑音も含まれている。原音声データは、１００Ｈｚ〜１ｋＨｚ程度のローパスフィルタ（ＬＰＦ：Low Pass Filter）と、整流回路からなる検波部２５を通して正の波形に検波して、大きさ（音声レベル）を示すレベルデータを作成する。レベルデータ作成部４２ｂは、書き込みアドレスの管理によって、作成したレベルデータを第２のメモリ２２のマイク番号毎に対応する領域に書き込む。第２のメモリ２２には、マイク番号に対応して領域ｍＬ１〜ｍＬ２６までの２６個の記憶領域を予め確保してある。そして、マイクＭ１は領域ｍＬ１，マイクＭ２は領域ｍＬ２，…，マイクＭ２６は領域ｍＬ２６へと、レベルデータとしてそれぞれの領域に書き込む。

識別子抽出部２３は、第２のメモリ２２の読み出しアドレスを管理して、同一時刻毎かつマイク番号毎にレベルデータを読み出す。そして、レベルデータが閾値を超過する大きさであるマイク番号を、予め定めたピーク個数だけ抽出し、抽出したマイク番号を時刻順に第３のメモリ２３に構成したピークテーブルに書き込む。本例のピークテーブルには、ピーク個数をｐ１〜ｐ３の３個としてあり、レベルデータの大きさが大きい順に３個のマイク番号を抽出するものとする。レベルデータの大きさが閾値に満たない場合は、マイク番号は抽出しない。こうして時刻ｔ１，ｔ２，…，Ｔのそれぞれの時刻でピークとなったマイク番号を書き込む。本例の装置１では、全マイクの同一時刻毎のレベルを表すグラフを、映像出力部３１からモニタ２に出力させて、表示させることができる。そして、操作部４３や入力装置４の外部操作によって任意にマイク番号を抽出してピークテーブルに書き込むこともできる。

音声データ加算制御部４２ｄは、第３のメモリ２３の読み出しアドレスを管理して、ピークテーブルに書き込まれたマイク番号を時刻順で読み出す。また、音声データ加算制御部４２ｄは、第１のメモリ２１の読み出しアドレスを管理して、全てのマイクの原音声データを同一時刻毎に読み出す。そして、音声データ加算制御部４２ｄは、ピークテーブルに記憶したマイク番号以外に対応する原音声データを、アッテネータ２７に供給して、原音声データからレベルを低下させた減衰音声データを作成させる制御を行う。そして、同一時刻毎に、ピークテーブルに記憶したマイク番号に対応する原音声データと、減衰音声データとをアキュムレータ２８で加算して音声議事録データを作成する。

作成した音声議事録データは、第４のメモリ２４に音声議事録ファイルとして記憶させる。音声出力時には、記憶させた音声議事録ファイルを随時読み出して、デジタルデータをアナログ信号に変換するデジタル／アナログ変換部２９でアナログ音声信号に変換する。そして、スピーカ３へのインタフェースである音声出力部３０を介してスピーカ３にアナログ音声信号を供給し、スピーカ３で放音させる。ただし、作成した音声議事録データを第４のメモリ２４に記憶させることなく、デジタル／アナログ変換部２９と音声出力部３０を介してスピーカ３で直接放音させることもできる。

次に、本例のピークテーブル作成処理の例について、図５と図６を参照して説明する。図５は、ピークテーブル作成処理例のフローチャートである。図６（ａ）〜図６（ｃ）は、各データの波形の例であり、図６（ｄ）は、ピークテーブルの例である。まず、原音声データ作成部４２ａは、音声入力部４１より入力した音声信号を原音声データとして第１のメモリ２１に記憶させる（ステップＳＴ１）。このとき、マイクＭ１〜Ｍ３，Ｍ２６で集音した音声は、縦軸をレベル、横軸を時間として図６（ａ）に示す波形を描く。ここで、端末ａ１〜ａ２６は、サンプリング周波数を、例えば２２．０５ｋＨｚ、量子化ビット数を１６ビットとして、集音したアナログ音声信号からデジタル音声信号に変換して、装置１に供給する。そして、原音声データ作成部４２ａは、デジタル化された原音声データを第１のメモリ２１の領域ｍ１〜ｍ２６にマイク番号毎に書き込む。

次に、レベルデータ作成部４２ｂは、第１のメモリ２１の領域ｍ１〜ｍ２６をマイク番号に読み出し（ステップＳＴ２）、検波部２６を通して整流し、マイク番号毎に第２のメモリ２２の領域ｍＬ１〜ｍＬ２６にレベルデータを書き込む（ステップＳＴ３）。

ステップＳＴ３の処理によって、原音声データは、４５ｍｓ間隔、大きさは８ビットのレベルデータに変換される。ここで、サンプリング周波数が２２．０５ｋＨｚの場合、約４５μ秒間隔であるが、４５ｍ秒間隔とすることで、データ量を１／１０００に削減できる。さらに、量子化ビット数の大きさを１６ビットから８ビットとすることで、データ量を１／２に削減できる。このため、レベルデータのデータ量は、原音声データの１／２０００に削減可能となる。このとき、図６（ｂ）で示す波形の例のように、正の包絡線となる。

次に、ある時刻ｔを定めて、これに対応する全マイクのレベルデータを第２のメモリ２２から読み出す（ステップＳＴ４）。識別子抽出部４２ｃは、時刻ｔを変数として、０＜ｔ＜Ｔの時間内であれば、時刻ｔを一定の時間間隔でカウントアップする。そして、第２のメモリ２２より同一時刻ｔ毎のレベルデータを全マイク番号（本例では２６個）分だけ読み出す。ある時刻ｔでは、まず第２のメモリ２２を読み出す添え字として変数ｉを定め、領域ｍＬｉとする。そして、初期値１をｉにセットして（ステップＳＴ５）、時刻ｔにおける領域ｍＬ１のレベルデータを読み出す。

そして、ｍＬｉ＞ｍＬ２６であるかどうか判断する（ステップＳＴ６）。ｍＬｉ≦ｍＬ２６の場合、識別子抽出部４２ｃは、時刻ｔでレベル値が大きいマイク番号を検出し、ＲＡＭ４５に一時記憶させる（ステップＳＴ７）。ここで、縦軸をレベル、横軸をマイク番号として図６（ｃ）で示した時刻ｔ１〜ｔ４毎のレベルデータ波形の例を示す。図６（ｃ）では、予め閾値ｔｈを設定してあり、閾値ｔｈを超過しないレベルデータはピークと判定せず、マイク番号をピークテーブルに書き込まない。

ただし、図６（ｃ）で示した時間毎のレベルデータの波形の例は、映像信号として映像出力部３１より出力し、モニタ２に表示させることができる。この場合、ユーザのマニュアル操作によって抽出した任意のマイク番号をピークテーブルに書き込むよう指定することも可能である。

そして、添え字ｉを１つカウントアップしてステップＳＴ６の判定処理に戻ってｍＬｉ＞ｍＬ２６となるまで処理を繰り返す。ここで、ステップＳＴ７では、ＲＡＭ４５に一時記憶させたマイク番号のレベルより大きなレベルを検出すると、そのマイク番号で、ＲＡＭ４５に一時記憶させたマイク番号を書き換える。ＲＡＭ４５に記憶させるマイク番号の個数は任意に設定可能であり、本例ではレベルの大きい順に３個まで一時記憶できるようにしてある。

領域ｍＬ２６までの読み出しとピークとなるマイク番号の抽出が完了したら、第３のメモリ２３に作成するピークテーブルにマイク番号を書き込む（ステップＳＴ８）。このとき、ＲＡＭ４５に一時記憶させた時刻ｔ毎のマイク番号のうち、３個のマイク番号を読み出し、レベルの大きい順にｐ１，ｐ２，ｐ３としてピークテーブルにマイク番号を書き込む。ただし、レベルデータが閾値を超過しない場合は、ピークテーブルにマイク番号を書き込まない。

ここで、ピークテーブルの例として図６（ｄ）に示す。本例のピークテーブルは、ピークｐ１〜ｐ３を列、時刻ｔ１〜Ｔを行とするテーブル形式で表される。時刻ｔ１では、１番大きいピークｐ１にマイクＭ１、２番目に大きいピークｐ２にマイクＭ２６を書き込む。同様に、時刻ｔ２では、ピークｐ１にマイクＭ２、ピークｐ２にマイクＭ３、３番目に大きいピークｐ３にマイクＭ１を書き込む。そして、時刻ｔ３では、ピークｐ１にマイクＭ３を書き込む。時刻ｔ４では、閾値ｔｈを超過するレベルデータがないため、ピークテーブルには何も書き込まない。

こうして、時刻ｔをカウントアップしながら、時刻ｔ＝Ｔとなるまで識別子抽出部２３ｃがレベルデータを読み出して、ピークテーブルへの書き込み処理を繰り返す。そして、時刻ｔ＝Ｔとなったらピークテーブル作成処理を終了する。

次に、本例の音声議事録作成処理の例について、図７のフローチャートを参照して説明する。ある時刻を定めて、第３のメモリ２３から同一時刻毎に対応するピークテーブルのマイク番号を読み出す（ステップＳＴ１１）。音声データ加算制御部４２ｄは、時刻ｔを変数として、０＜ｔ＜Ｔの時間内であれば、時刻ｔを一定の時間間隔でカウントアップして、ピークテーブルより同一時刻ｔにおけるピークｐ１〜ｐ３のマイク番号を読み出す。ある時刻ｔでは、第１のメモリ２１を読み出す添え字として変数ｊを定め、領域ｍｊとする。そして、初期値１をｊにセットして（ステップＳＴ１３）、時刻ｔにおける領域ｍ１の原音声データを読み出す。

そして、ｍｊ＞ｍ２６であるかどうか判断する（ステップＳＴ１４）。ｍｊ≦ｍ２６の場合、音声データ加算制御部４２ｄは、ピークテーブルから読み出した時刻ｔでのマイク番号に対応する原音声データを第１のメモリ２１から読み出す（ステップＳＴ１５）。そして、ピークテーブルに記載されたマイク番号以外の原音声データはアッテネータ２７で減衰させて（ステップＳＴ１６）、減衰音声データとする。アッテネータの減衰値は、複数のピークや周囲雑音をどの程度再現再生させるかの要求によって決められる。ピークテーブルに記載されたマイク番号の原音声データは、処理を加えない。

さらに、同一時刻ｔ毎に減衰音声データと原音声データを加算して加算音声データを作成する（ステップＳＴ１７）。そして、添え字ｊを１つカウントアップしてステップＳＴ１４の判定処理に戻ってｍｊ＞ｍ２６となるまで処理を繰り返す。そして、時刻ｔにおける領域ｍ２６まで読み出しが完了したら、スピーカ３で音声を出力させるか、第４のメモリ２４に作成した音声議事録ファイルに書き込むか、出力を判断する（ステップＳＴ１８）。

音声出力させる場合、加算音声データをデジタル／アナログ変換して、アナログ音声信号をスピーカ３へ供給して、音声を放音させる（ステップＳＴ１９）。音声ファイルに書き込む場合、第４のメモリ２４に作成した音声議事録ファイルに加算音声データを書き込む（ステップＳＴ２０）。

そして、時刻ｔ＝Ｔとなるまで、音声データ加算制御部２３ｄは第１のメモリ２１の原音声データを全マイク領域にわたって順次読み出し、選択的な加算がアキュムレータ２８によって時刻ｔ毎に行って加算音声データを作成する。時刻ｔ＝Ｔとなったら音声議事録作成処理を終了する。

このようにして、発言者毎に集音した原音声データを加算する場合に、発言者以外の音声を減衰させて、音声議事録を作成することができるようになった。

本実施の形態によれば、適切に加工された複数の音声データを加算することによって、音声議事録を作成することができる。このため、周囲の不要な雑音が抑制され、発言内容の頭切れがなく、必要な発言のみが録音された音声議事録を得られる。また、会議等において複数のマイクで集音した場合に、録音状態の良好な音声議事録が作成できる。

また、第１のメモリ２１から読み出した原音声データのうち、発言者以外の音声を減衰させた音声データと、ピークテーブルに書き込まれたマイク番号の原音声データとを加算するようにしたため、発言内容がより際立って音声議事録に反映されるという効果がある。また、例えば最大ピークのみを際立たせたいなら、他信号の減衰量を無限大とするし、周囲の背景音も混ぜたいなら非無限大とすればよい。また、複数ピークが時間的に交差する場合は減衰量を時間的に連続変化させて不自然さを感じさせないようにもできる。

なお、上述した実施の形態では、端末ａ１〜ａ２６と音声議事録作成装置１との接続は、有線接続としたが、無線接続としてもよい。このようにするとケーブルを設置する作業が不要となり、マイク，端末の設置が容易となるという効果がある。

また、上述した実施の形態では、音声データを記憶させるメモリにフラッシュメモリを用いるようにしたが、ハードディスクドライブ、テープドライブ等の大容量記録装置に音声データを記録させるようにしてもよい。

また、第４のメモリ２４に作成した音声議事録ファイルに音声議事録データを書き込む場合、複数のトラックを設けて、トラック毎に音声議事録ファイルを記憶させることで、会議日付，時間等が異なる音声議事録ファイルを複数作成してもよい。また、マイク番号とトラック番号を関連付けて、トラック毎に異なる発言者の音声議事録を記憶させてもよい。あるいは、ピークテーブルを記憶させる場合に、第４のメモリ２４に設けたトラック毎にピークとなるマイク番号を個別に記憶させてピークテーブルとして用いるようにしてもよい。

また、上述した実施の形態では、ピークテーブルに設定した抽出するピーク個数を３個としたが、任意のピーク個数を設定することができる。例えば、識別子抽出部４２ｃは、例えばピーク個数を１個としてレベルが最大値を示すマイク番号だけをピークテーブルに書き込むようにしてもよい。また、ピーク個数を３個とした場合に、レベルが最大値を示すマイク番号と、このマイク番号のマイクに隣接して配置されたマイクのマイク番号をピークテーブルに書き込むようにしてもよい。また、ピーク個数を２個としてレベルが最大値と２番目に大きいマイク番号をピークテーブルに書き込むようにしてもよい。このようにピーク個数やピークテーブルへの書き込み条件を変更することによって使用状況に応じた音声議事録を作成できるという効果がある。また、特定のマイク番号のみをピークテーブルに書き込むようにしてもよい。このようにすると、特定の発言者の発言内容のみを音声議事録として作成することも可能となる。

また、上述した実施の形態では、音声議事録ファイルとして第４のメモリ２４に記憶させるようにしたが、第４のメモリ２４を装置１に着脱可能なスティック状などのカード型の半導体記憶装置としてもよい。こうすることによって、任意に第４のメモリ２４を取り外し、別の装置に装填して音声議事録ファイルを再生することもできるようになる。また、第４のメモリ２４を装置１に取り付けたときに自動的に第１のメモリ２１から原音声データを読み出して第４のメモリ２４に音声議事録ファイルを作成するようにしてもよい。

また、上述した実施の形態では、音声議事録ファイルとして第４のメモリ２４に記憶させるようにしたが、音声データ加算制御部４２ｄで出力した音声議事録データより、発言内容を読み取って自動的に文字議事録ファイルを作成するようにしてもよい。こうすることによって、音声議事録ファイルを再生しながら発言内容を文字入力する手間が不要となるという効果がある。

また、上述した実施の形態では、会議などにおいて音声議事録などを作成する装置を例としたが、複数のマイクで集音した音声データを処理する装置であれば、その他の目的に使用される同様の音声処理装置にも適用可能である。

本発明の一実施の形態における音声議事録作成システムの接続例を示した構成図である。本発明の一実施の形態における端末の内部構成例を示したブロック図である。本発明の一実施の形態における伝送データの構成例を示した説明図である。本発明の一実施の形態における音声議事録作成装置の内部構成例を示したブロック図である。本発明の一実施の形態におけるピークテーブルの作成処理例を示したフローチャートである。本発明の一実施の形態におけるピークテーブルの作成例を示した説明図である。本発明の一実施の形態における音声議事録の作成処理例を示したフローチャートである。

符号の説明

１…音声議事録作成装置、２…モニタ、３…スピーカ、４…入力装置、５…会議テーブル、２１〜２４…メモリ、２５…検波部、２７…アッテネータ、２８…アキュムレータ、２９…デジタル／アナログ変換部、３０…音声出力部、３１…映像出力部、２９…外部入力部、４１…音声入力部、４２…制御部、４２ａ…原音声データ作成部、４２ｂ…レベルデータ作成部、４２ｃ…識別子抽出部、４２ｄ…音声データ加算制御部、４３…操作部、４４…ＲＯＭ、４５…ＲＡＭ、４６…時計部、４７…入力部、１００…音声議事録作成システム、Ｍ１〜Ｍ２６…マイク、ａ１〜ａ２６…端末

Claims

少なくとも２つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する第１の記憶部と、
前記第１の記憶部に記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出部と、
前記第１の記憶部より読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御部とを備えたことを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
同一時刻毎のレベルデータを前記識別子毎に表示させる表示部と、
前記表示部に表示させた前記レベルデータより、任意の前記識別子を抽出する操作部とを備えたことを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
前記識別子抽出部として、
前記第１の記憶部に記憶された原音声データのレベルのデータを、前記識別子毎に記憶させる第２の記憶部と、
前記第２の記憶部に記憶された前記識別子毎のレベルのデータのうち、前記閾値を超過するレベルのデータの前記識別子を各時刻毎に抽出し、その抽出した識別子を記憶させる第３の記憶部とを備えたことを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
前記識別子抽出部は、前記レベルデータが最大となる前記識別子を抽出することを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
前記識別子抽出部は、前記レベルデータが最大となる前記識別子と２番目に最大となる前記識別子を抽出することを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
前記識別子抽出部は、前記レベルデータが最大となる前記識別子と、選択した前記識別子を付与した第１のマイクロフォンの近傍に配置してある第２のマイクロフォンに付与した前記識別子を抽出することを特徴とする
音声処理装置。
請求項１記載の音声処理装置において、
前記識別子抽出部は、特定の前記識別子を抽出することを特徴とする
音声処理装置。
少なくとも２つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶し、
記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出し、
読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算することを特徴とする
音声処理方法。
少なくとも２つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する記憶処理と、
記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出処理と、
読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御処理を実行することを特徴とする
プログラム。