[go: up one dir, main page]

JP2007221574A - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP2007221574A
JP2007221574A JP2006041150A JP2006041150A JP2007221574A JP 2007221574 A JP2007221574 A JP 2007221574A JP 2006041150 A JP2006041150 A JP 2006041150A JP 2006041150 A JP2006041150 A JP 2006041150A JP 2007221574 A JP2007221574 A JP 2007221574A
Authority
JP
Japan
Prior art keywords
identifier
data
audio
original
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006041150A
Other languages
English (en)
Inventor
Tamihei Hiramatsu
民平 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006041150A priority Critical patent/JP2007221574A/ja
Publication of JP2007221574A publication Critical patent/JP2007221574A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

【課題】複数のマイクロフォンを設置した場合に、発言者の音声だけを良好に録音した音声データを作成する。
【解決手段】少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する第1のメモリ21と、第1のメモリ21に記憶された原音声データのレベルが予め設定した閾値を超過する原音声データに付与された識別子を抽出する識別子抽出部42cと、第1のメモリ21より読み出した原音声データのうち、抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御部42dとを備え、加算処理した音声データを作成する。
【選択図】図4

Description

本発明は、例えば会議において発言者の音声を録音する場合に適用して好適な音声処理装置、音声処理方法及びプログラムに関する。
従来、会議などにおいて、空間的に分散した発言者が発する複数の発言を、複数のマイクロフォン(以下の説明では、マイクとも称する。)で録音するために様々な技術が提供されていた。例えば、発言者に近い場所に置かれたマイク信号のみを発言者やオペレータの操作で選択(スイッチング)して録音する技術があった。また、音声信号の振幅を検出して発言者の選択を自動的に行って録音する技術があった。さらに、全てのマイクで集音した音声信号を加算(ミクス)して録音する技術があった。そして、近年は、ハードディスクドライブやフラッシュメモリ等の記憶媒体の大容量化や低価格化の進展によって、長時間の録音であっても必要な記憶容量を確保することができるようになってきた。
特許文献1には、複数のマイクにより発言者の音声を集音するデータ伝送システムの記載がある。
特開2005−117134号公報(図14)
ところで、従来用いてきた発言者のマイクを選択して録音する技術ではマイク選択操作のオン/オフ切り替えが必要であったため、操作自体が煩わしく、また操作を誤ると録音できないという不都合があった。例えば、選択操作のオン切り替えを忘れた場合、音声を録音できなくなってしまう。また、オフ切り換えを忘れた場合、不要な録音を続行してしまう。
また、音声信号の振幅を検出して自動的に録音する技術では、音声信号がある程度大きくなってからマイクオンするので、発言開始音声が頭切れして録音してしまう。また、発言終了間際に小さい音声となったところでマイクオフとなることもあり、録音した発言の語尾が唐突に切断されてしまう。あるいは不要な雑音であっても、ある閾値を超えるとマイクオンして録音してしまう。そして、頭切れしないようにマイクオンしやすくすると雑音であってもマイクオンしてしまう。一方、雑音でオンしないようにすると、発言を開始していても雑音とみなしてマイクオンしないため、発言開始音声が切れてしまう。このように自動録音技術では、確実に音声を録音できない可能性があった。
また、全てのマイクで集音した音声信号を加算して録音する技術では、非発言者のマイクが集音する不要な周囲の背景雑音が加算されるためS/N(Signal to Noise)が非常に悪化してしまう。例えば、20個のマイクを用いて音声を録音している場合、発言者1人分の音声に対して雑音が19マイク分加算されてしまい、録音した音声の品質が良いとは言えなかった。
このように、従来は多数のマイクで集音した音声信号から録音状態を良好に録音する技術がなかった。そして、多数のマイクから音声を集音する場合は、ミキサが必要であるため、未だに効率的に音声議事録を作成する装置は実用化されていなかった。
本発明はこのような状況に鑑みて成されたものであり、多数のマイクで集音する場合に、発言者の音声を良好に録音することを目的とする。
本発明は、少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶し、記憶された原音声データのレベルが予め設定した閾値を超過する原音声データに付与された識別子を抽出し、読み出した原音声データのうち、抽出した識別子以外に対応する原音声データを減衰させて加算するものである。
このようにしたことで、発言者を抽出して、発言者以外の音声を減衰させた音声を録音することが可能となった。
本発明によれば、発言者を抽出して、発言者以外の音声を減衰させた音声議事録を作成できるため、発言者の音声が強調されると共に不要な周囲の雑音が低減されるという効果がある。
以下、本発明の一実施の形態を、添付図面を参照して説明する。本実施の形態では、発言者の音声を複数本のマイクで集音して、音声議事録を作成可能な音声議事録作成装置に適用した例について説明する。本例で用いる音声議事録作成装置は、マイクで集音した音声から発言者のマイクを特定し、他のマイクで集音した音声を減衰させることで、発言者の音声を強調して記録した音声議事録を作成できる。
まず、本例の音声議事録作成装置の外部構成例について、図1を参照して説明する。図1は、本例の音声議事録作成装置を各種装置に接続した音声議事録作成システムの接続構成例を示した図である。本例の音声議事録を作成する音声議事録作成装置1は、発言者の音声を集音する26本のマイクM1〜M26より、原音声信号として収集する。マイクM1〜M26は、識別可能とするための識別子としてマイク番号が付与してあり、会議テーブル5上に設置してある。そして、マイクM1〜M26で集音したアナログ音声信号は、アナログ/デジタル変換する端末a1〜a26でデジタルの音声データ(以下この音声データを原音声データと称する)に変換して音声議事録作成装置1に供給される。本例の端末a1〜a26はマイク番号の順に、音声議事録作成装置1の音声入力部41までデイジーチェーン接続してある。集音した音声データは、音声入力インタフェースである音声入力部41を介して音声議事録作成装置1に供給する。ただし、マイク本数は26本に限定されるものではなく、必要に応じて本数を増減させてよい。
音声議事録作成装置1は、装置1の前面に外部装置へのインタフェースとなる入力部と出力部を備える。キーボード,マウス等からなる入力装置4は、外部信号を装置1に入力する入力部47に接続してあり、入力信号を装置1に供給する。また、ボタン,スイッチ等を備えた操作部43が、装置1の前面に取り付けてあり、直接操作可能としてある。入力装置4や操作部43の操作入力によって、後述するレベルデータの閾値の設定、ピーク個数の設定、音声議事録作成時間の開始/終了設定等を行うことができる。音声議事録作成装置1で作成する音声議事録は、装置1内部に格納してある後述する第4のメモリ24に記憶してある。液晶ディスプレイパネルを備えたモニタ2には、時間毎に全マイク番号に対応するレベルデータの波形を表示させて、レベルが閾値th以下で聞き取りにくい発言者であっても音声議事録に記録させるようマニュアル操作を行うことができる。そして、音声議事録の再生時には、第4のメモリ24から音声議事録ファイルを読み出してスピーカ3より、放音させる。
次に、マイクに接続して音声信号を伝送する端末の内部構成例について、図2を参照して説明する。本例では、端末a1〜a3をデイジーチェーン接続してあり、前端末として端末a1、次端末として端末a3として、端末a2を介してデータの送受を行う例を示してある。端末a2は、データの送受と、終端での自動的な折り返し制御を行う送受信ブロック10aと、スロットへの制御データの書き込みを行うデータ処理ブロック10Bとで構成してある。また、端末a2は、前端末a1との接続用のA端子10dと、次端末a3との接続用のB端子10eとを有する。各端子には、データ伝送用の信号線11a,11bと電源線11cとが設けてある。信号線11aが処理パス用、信号線11bが中継パス用である。そして、端末a2には、電源供給用の電源端子10fが設けてある。
端末a2は、受信スロットのデータを出力するための端子10iを備える。本例において、データマスタ用の端末は、伝送路の最下流に配置される端末であり、収集したデータを外部に出力するために用いられる。一方、非データマスタ用の端末は、一般に伝送路の最下流を除く上流側に配置される端末である。端子10gは非データマスタ用の端末に必要な端子であり、端子10iはデータマスタ用の端末に必要な端子である。本例では、端子10g,10iへのデータの入出力を検出し、検出状態に応じて端末を切り替える。
端末a2は、マイクからアナログ音声信号を入力するための端子10gを備える。マイクM2で集音して、端子10gより入力したアナログ音声信号は、アナログ/デジタル変換部10cでデジタル音声信号に変換して、データ処理ブロック10bに供給する。そして、前端末で作成した音声信号を、送受信ブロック10aを介して次端末へ供給する。端末の終端(例えば端末a26)では、端子10iと装置1の音声入力部41とを接続して、装置1に音声信号を供給する。供給された音声信号は、音声議事録作成装置1で原音声データとして記憶できる。
次に、データを伝送するのに用いる伝送データの構造例について、図3を参照して説明する。本例では、伝送にUART(Universal Asynchronous Receiver Transmitter)を適用した例としてある。UART自体は、非同期伝送技術の一つとして周知の技術であるので詳細な説明は省略する。簡単に説明すると、この技術は、スタートビット“0”の検出後、内部カウンタにより一定時間毎所定のビット数だけ、ビットの中央位相で1/0を判定することにより、通信を行うことができる。所定ビットの読み込み終了後は、新たに次フレームのスタートビットの検出を始める。図3(a)は、フレームの構成例を示す。本例では、フレーム周波数fsを22.05kHz(4.5μ秒)とする。図3(b)は、データの構成例を示す。1フレームは31個のスロットと一定長のギャップ(データ“1”)で構成されるものとする。31スロットのうち26スロットは音声データ、残る5スロットは制御データとする。また、各スロットのデータ長は17ビットとする。1スロットは、1ビット長のスタートビット“0”と、これに続く16ビット長のデータdsとで構成する。
次に、本例の音声議事録作成装置1の内部構成例について、図4を参照して説明する。発言者の発言内容や周囲の雑音をマイクM1〜M26で集音した音声は、端末a1〜a26でアナログ/デジタル変換が施され、音声信号として端末a1〜a26を接続するケーブルを通して、音声入力部41を介して装置1に入力する。装置1には、入力した音声信号や、音声信号の各種変換処理での変換データを記憶させるため、大容量のデータを記憶可能な第1のメモリ21〜第4のメモリ24を備える。本例では、メモリ21〜24には、例えばフラッシュメモリを用いる。
各部を制御する制御部42は、読み出しのみ可能なROM(Read Only Memory)44よりプログラム、固定パラメータ等を読み出して処理を実行し、書き込み可能なRAM(Random Access Memory)45に作業領域を確保して、変数,一時データ等を記憶させ、必要に応じてRAM45からデータを読み出して処理に用いる。また、制御部42は、時刻を計時する時計部46より、時刻を読み出して、メモリ21〜24への読み出しや書き込みのタイミングを制御する。そして、本例の制御部42は、音声入力部41から入力した原音声データを第1のメモリ21へ書き込む原音声データ作成部42aと、原音声データから大きさのみのレベルデータを作成して第2のメモリ22に書き込むレベルデータ作成部42bと、予め定めた閾値を超過したレベルデータのマイク番号を一定の個数だけ第3のメモリ23に作成したピークテーブルに書き込む識別子抽出部42cと、第1のメモリ21から読み出した原音声データのうち、ピークテーブルから読み出したマイク番号以外の原音声データを減衰させて減衰音声データとし、減衰音声データと、ピークテーブルから読み出したマイク番号に対応する原音声データとを同一時刻毎に加算し、音声議事録を作成する音声データ加算制御部42dを備える。
音声議事録作成装置1に時刻順で入力した音声データは、原音声データ作成部42aの書き込みアドレスを管理して、第1のメモリ21のマイク番号毎に対応するメモリ領域に原音声データとして書き込まれる。第1のメモリ21には、マイク番号に対応して領域m1〜m26までの26個の記憶領域を確保してある。マイクで集音した原音声データは、マイクM1は領域m1,マイクM2は領域m2,…,マイクM26は領域m26へと、マイク番号毎に対応する領域に書き込む。音声信号は一本の信号線に多重化されたデジタル信号として音声入力部41より入力するため、多重化タイミング信号に合わせて第1のメモリ21への書き込みデータとすることができる。
そして、レベルデータ作成部42bは、第1のメモリ21の読み出しアドレスを管理して、マイク番号毎に原音声データを読み出す。原音声データには、音声データの信号は正負に振れ、さらに声以外の高い周波数の雑音も含まれている。原音声データは、100Hz〜1kHz程度のローパスフィルタ(LPF:Low Pass Filter)と、整流回路からなる検波部25を通して正の波形に検波して、大きさ(音声レベル)を示すレベルデータを作成する。レベルデータ作成部42bは、書き込みアドレスの管理によって、作成したレベルデータを第2のメモリ22のマイク番号毎に対応する領域に書き込む。第2のメモリ22には、マイク番号に対応して領域mL1〜mL26までの26個の記憶領域を予め確保してある。そして、マイクM1は領域mL1,マイクM2は領域mL2,…,マイクM26は領域mL26へと、レベルデータとしてそれぞれの領域に書き込む。
識別子抽出部23は、第2のメモリ22の読み出しアドレスを管理して、同一時刻毎かつマイク番号毎にレベルデータを読み出す。そして、レベルデータが閾値を超過する大きさであるマイク番号を、予め定めたピーク個数だけ抽出し、抽出したマイク番号を時刻順に第3のメモリ23に構成したピークテーブルに書き込む。本例のピークテーブルには、ピーク個数をp1〜p3の3個としてあり、レベルデータの大きさが大きい順に3個のマイク番号を抽出するものとする。レベルデータの大きさが閾値に満たない場合は、マイク番号は抽出しない。こうして時刻t1,t2,…,Tのそれぞれの時刻でピークとなったマイク番号を書き込む。本例の装置1では、全マイクの同一時刻毎のレベルを表すグラフを、映像出力部31からモニタ2に出力させて、表示させることができる。そして、操作部43や入力装置4の外部操作によって任意にマイク番号を抽出してピークテーブルに書き込むこともできる。
音声データ加算制御部42dは、第3のメモリ23の読み出しアドレスを管理して、ピークテーブルに書き込まれたマイク番号を時刻順で読み出す。また、音声データ加算制御部42dは、第1のメモリ21の読み出しアドレスを管理して、全てのマイクの原音声データを同一時刻毎に読み出す。そして、音声データ加算制御部42dは、ピークテーブルに記憶したマイク番号以外に対応する原音声データを、アッテネータ27に供給して、原音声データからレベルを低下させた減衰音声データを作成させる制御を行う。そして、同一時刻毎に、ピークテーブルに記憶したマイク番号に対応する原音声データと、減衰音声データとをアキュムレータ28で加算して音声議事録データを作成する。
作成した音声議事録データは、第4のメモリ24に音声議事録ファイルとして記憶させる。音声出力時には、記憶させた音声議事録ファイルを随時読み出して、デジタルデータをアナログ信号に変換するデジタル/アナログ変換部29でアナログ音声信号に変換する。そして、スピーカ3へのインタフェースである音声出力部30を介してスピーカ3にアナログ音声信号を供給し、スピーカ3で放音させる。ただし、作成した音声議事録データを第4のメモリ24に記憶させることなく、デジタル/アナログ変換部29と音声出力部30を介してスピーカ3で直接放音させることもできる。
次に、本例のピークテーブル作成処理の例について、図5と図6を参照して説明する。図5は、ピークテーブル作成処理例のフローチャートである。図6(a)〜図6(c)は、各データの波形の例であり、図6(d)は、ピークテーブルの例である。まず、原音声データ作成部42aは、音声入力部41より入力した音声信号を原音声データとして第1のメモリ21に記憶させる(ステップST1)。このとき、マイクM1〜M3,M26で集音した音声は、縦軸をレベル、横軸を時間として図6(a)に示す波形を描く。ここで、端末a1〜a26は、サンプリング周波数を、例えば22.05kHz、量子化ビット数を16ビットとして、集音したアナログ音声信号からデジタル音声信号に変換して、装置1に供給する。そして、原音声データ作成部42aは、デジタル化された原音声データを第1のメモリ21の領域m1〜m26にマイク番号毎に書き込む。
次に、レベルデータ作成部42bは、第1のメモリ21の領域m1〜m26をマイク番号に読み出し(ステップST2)、検波部26を通して整流し、マイク番号毎に第2のメモリ22の領域mL1〜mL26にレベルデータを書き込む(ステップST3)。
ステップST3の処理によって、原音声データは、45ms間隔、大きさは8ビットのレベルデータに変換される。ここで、サンプリング周波数が22.05kHzの場合、約45μ秒間隔であるが、45m秒間隔とすることで、データ量を1/1000に削減できる。さらに、量子化ビット数の大きさを16ビットから8ビットとすることで、データ量を1/2に削減できる。このため、レベルデータのデータ量は、原音声データの1/2000に削減可能となる。このとき、図6(b)で示す波形の例のように、正の包絡線となる。
次に、ある時刻tを定めて、これに対応する全マイクのレベルデータを第2のメモリ22から読み出す(ステップST4)。識別子抽出部42cは、時刻tを変数として、0<t<Tの時間内であれば、時刻tを一定の時間間隔でカウントアップする。そして、第2のメモリ22より同一時刻t毎のレベルデータを全マイク番号(本例では26個)分だけ読み出す。ある時刻tでは、まず第2のメモリ22を読み出す添え字として変数iを定め、領域mLiとする。そして、初期値1をiにセットして(ステップST5)、時刻tにおける領域mL1のレベルデータを読み出す。
そして、mLi>mL26であるかどうか判断する(ステップST6)。mLi≦mL26の場合、識別子抽出部42cは、時刻tでレベル値が大きいマイク番号を検出し、RAM45に一時記憶させる(ステップST7)。ここで、縦軸をレベル、横軸をマイク番号として図6(c)で示した時刻t1〜t4毎のレベルデータ波形の例を示す。図6(c)では、予め閾値thを設定してあり、閾値thを超過しないレベルデータはピークと判定せず、マイク番号をピークテーブルに書き込まない。
ただし、図6(c)で示した時間毎のレベルデータの波形の例は、映像信号として映像出力部31より出力し、モニタ2に表示させることができる。この場合、ユーザのマニュアル操作によって抽出した任意のマイク番号をピークテーブルに書き込むよう指定することも可能である。
そして、添え字iを1つカウントアップしてステップST6の判定処理に戻ってmLi>mL26となるまで処理を繰り返す。ここで、ステップST7では、RAM45に一時記憶させたマイク番号のレベルより大きなレベルを検出すると、そのマイク番号で、RAM45に一時記憶させたマイク番号を書き換える。RAM45に記憶させるマイク番号の個数は任意に設定可能であり、本例ではレベルの大きい順に3個まで一時記憶できるようにしてある。
領域mL26までの読み出しとピークとなるマイク番号の抽出が完了したら、第3のメモリ23に作成するピークテーブルにマイク番号を書き込む(ステップST8)。このとき、RAM45に一時記憶させた時刻t毎のマイク番号のうち、3個のマイク番号を読み出し、レベルの大きい順にp1,p2,p3としてピークテーブルにマイク番号を書き込む。ただし、レベルデータが閾値を超過しない場合は、ピークテーブルにマイク番号を書き込まない。
ここで、ピークテーブルの例として図6(d)に示す。本例のピークテーブルは、ピークp1〜p3を列、時刻t1〜Tを行とするテーブル形式で表される。時刻t1では、1番大きいピークp1にマイクM1、2番目に大きいピークp2にマイクM26を書き込む。同様に、時刻t2では、ピークp1にマイクM2、ピークp2にマイクM3、3番目に大きいピークp3にマイクM1を書き込む。そして、時刻t3では、ピークp1にマイクM3を書き込む。時刻t4では、閾値thを超過するレベルデータがないため、ピークテーブルには何も書き込まない。
こうして、時刻tをカウントアップしながら、時刻t=Tとなるまで識別子抽出部23cがレベルデータを読み出して、ピークテーブルへの書き込み処理を繰り返す。そして、時刻t=Tとなったらピークテーブル作成処理を終了する。
次に、本例の音声議事録作成処理の例について、図7のフローチャートを参照して説明する。ある時刻を定めて、第3のメモリ23から同一時刻毎に対応するピークテーブルのマイク番号を読み出す(ステップST11)。音声データ加算制御部42dは、時刻tを変数として、0<t<Tの時間内であれば、時刻tを一定の時間間隔でカウントアップして、ピークテーブルより同一時刻tにおけるピークp1〜p3のマイク番号を読み出す。ある時刻tでは、第1のメモリ21を読み出す添え字として変数jを定め、領域mjとする。そして、初期値1をjにセットして(ステップST13)、時刻tにおける領域m1の原音声データを読み出す。
そして、mj>m26であるかどうか判断する(ステップST14)。mj≦m26の場合、音声データ加算制御部42dは、ピークテーブルから読み出した時刻tでのマイク番号に対応する原音声データを第1のメモリ21から読み出す(ステップST15)。そして、ピークテーブルに記載されたマイク番号以外の原音声データはアッテネータ27で減衰させて(ステップST16)、減衰音声データとする。アッテネータの減衰値は、複数のピークや周囲雑音をどの程度再現再生させるかの要求によって決められる。ピークテーブルに記載されたマイク番号の原音声データは、処理を加えない。
さらに、同一時刻t毎に減衰音声データと原音声データを加算して加算音声データを作成する(ステップST17)。そして、添え字jを1つカウントアップしてステップST14の判定処理に戻ってmj>m26となるまで処理を繰り返す。そして、時刻tにおける領域m26まで読み出しが完了したら、スピーカ3で音声を出力させるか、第4のメモリ24に作成した音声議事録ファイルに書き込むか、出力を判断する(ステップST18)。
音声出力させる場合、加算音声データをデジタル/アナログ変換して、アナログ音声信号をスピーカ3へ供給して、音声を放音させる(ステップST19)。音声ファイルに書き込む場合、第4のメモリ24に作成した音声議事録ファイルに加算音声データを書き込む(ステップST20)。
そして、時刻t=Tとなるまで、音声データ加算制御部23dは第1のメモリ21の原音声データを全マイク領域にわたって順次読み出し、選択的な加算がアキュムレータ28によって時刻t毎に行って加算音声データを作成する。時刻t=Tとなったら音声議事録作成処理を終了する。
このようにして、発言者毎に集音した原音声データを加算する場合に、発言者以外の音声を減衰させて、音声議事録を作成することができるようになった。
本実施の形態によれば、適切に加工された複数の音声データを加算することによって、音声議事録を作成することができる。このため、周囲の不要な雑音が抑制され、発言内容の頭切れがなく、必要な発言のみが録音された音声議事録を得られる。また、会議等において複数のマイクで集音した場合に、録音状態の良好な音声議事録が作成できる。
また、第1のメモリ21から読み出した原音声データのうち、発言者以外の音声を減衰させた音声データと、ピークテーブルに書き込まれたマイク番号の原音声データとを加算するようにしたため、発言内容がより際立って音声議事録に反映されるという効果がある。また、例えば最大ピークのみを際立たせたいなら、他信号の減衰量を無限大とするし、周囲の背景音も混ぜたいなら非無限大とすればよい。また、複数ピークが時間的に交差する場合は減衰量を時間的に連続変化させて不自然さを感じさせないようにもできる。
なお、上述した実施の形態では、端末a1〜a26と音声議事録作成装置1との接続は、有線接続としたが、無線接続としてもよい。このようにするとケーブルを設置する作業が不要となり、マイク,端末の設置が容易となるという効果がある。
また、上述した実施の形態では、音声データを記憶させるメモリにフラッシュメモリを用いるようにしたが、ハードディスクドライブ、テープドライブ等の大容量記録装置に音声データを記録させるようにしてもよい。
また、第4のメモリ24に作成した音声議事録ファイルに音声議事録データを書き込む場合、複数のトラックを設けて、トラック毎に音声議事録ファイルを記憶させることで、会議日付,時間等が異なる音声議事録ファイルを複数作成してもよい。また、マイク番号とトラック番号を関連付けて、トラック毎に異なる発言者の音声議事録を記憶させてもよい。あるいは、ピークテーブルを記憶させる場合に、第4のメモリ24に設けたトラック毎にピークとなるマイク番号を個別に記憶させてピークテーブルとして用いるようにしてもよい。
また、上述した実施の形態では、ピークテーブルに設定した抽出するピーク個数を3個としたが、任意のピーク個数を設定することができる。例えば、識別子抽出部42cは、例えばピーク個数を1個としてレベルが最大値を示すマイク番号だけをピークテーブルに書き込むようにしてもよい。また、ピーク個数を3個とした場合に、レベルが最大値を示すマイク番号と、このマイク番号のマイクに隣接して配置されたマイクのマイク番号をピークテーブルに書き込むようにしてもよい。また、ピーク個数を2個としてレベルが最大値と2番目に大きいマイク番号をピークテーブルに書き込むようにしてもよい。このようにピーク個数やピークテーブルへの書き込み条件を変更することによって使用状況に応じた音声議事録を作成できるという効果がある。また、特定のマイク番号のみをピークテーブルに書き込むようにしてもよい。このようにすると、特定の発言者の発言内容のみを音声議事録として作成することも可能となる。
また、上述した実施の形態では、音声議事録ファイルとして第4のメモリ24に記憶させるようにしたが、第4のメモリ24を装置1に着脱可能なスティック状などのカード型の半導体記憶装置としてもよい。こうすることによって、任意に第4のメモリ24を取り外し、別の装置に装填して音声議事録ファイルを再生することもできるようになる。また、第4のメモリ24を装置1に取り付けたときに自動的に第1のメモリ21から原音声データを読み出して第4のメモリ24に音声議事録ファイルを作成するようにしてもよい。
また、上述した実施の形態では、音声議事録ファイルとして第4のメモリ24に記憶させるようにしたが、音声データ加算制御部42dで出力した音声議事録データより、発言内容を読み取って自動的に文字議事録ファイルを作成するようにしてもよい。こうすることによって、音声議事録ファイルを再生しながら発言内容を文字入力する手間が不要となるという効果がある。
また、上述した実施の形態では、会議などにおいて音声議事録などを作成する装置を例としたが、複数のマイクで集音した音声データを処理する装置であれば、その他の目的に使用される同様の音声処理装置にも適用可能である。
本発明の一実施の形態における音声議事録作成システムの接続例を示した構成図である。 本発明の一実施の形態における端末の内部構成例を示したブロック図である。 本発明の一実施の形態における伝送データの構成例を示した説明図である。 本発明の一実施の形態における音声議事録作成装置の内部構成例を示したブロック図である。 本発明の一実施の形態におけるピークテーブルの作成処理例を示したフローチャートである。 本発明の一実施の形態におけるピークテーブルの作成例を示した説明図である。 本発明の一実施の形態における音声議事録の作成処理例を示したフローチャートである。
符号の説明
1…音声議事録作成装置、2…モニタ、3…スピーカ、4…入力装置、5…会議テーブル、21〜24…メモリ、25…検波部、27…アッテネータ、28…アキュムレータ、29…デジタル/アナログ変換部、30…音声出力部、31…映像出力部、29…外部入力部、41…音声入力部、42…制御部、42a…原音声データ作成部、42b…レベルデータ作成部、42c…識別子抽出部、42d…音声データ加算制御部、43…操作部、44…ROM、45…RAM、46…時計部、47…入力部、100…音声議事録作成システム、M1〜M26…マイク、a1〜a26…端末

Claims (9)

  1. 少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する第1の記憶部と、
    前記第1の記憶部に記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出部と、
    前記第1の記憶部より読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御部とを備えたことを特徴とする
    音声処理装置。
  2. 請求項1記載の音声処理装置において、
    同一時刻毎のレベルデータを前記識別子毎に表示させる表示部と、
    前記表示部に表示させた前記レベルデータより、任意の前記識別子を抽出する操作部とを備えたことを特徴とする
    音声処理装置。
  3. 請求項1記載の音声処理装置において、
    前記識別子抽出部として、
    前記第1の記憶部に記憶された原音声データのレベルのデータを、前記識別子毎に記憶させる第2の記憶部と、
    前記第2の記憶部に記憶された前記識別子毎のレベルのデータのうち、前記閾値を超過するレベルのデータの前記識別子を各時刻毎に抽出し、その抽出した識別子を記憶させる第3の記憶部とを備えたことを特徴とする
    音声処理装置。
  4. 請求項1記載の音声処理装置において、
    前記識別子抽出部は、前記レベルデータが最大となる前記識別子を抽出することを特徴とする
    音声処理装置。
  5. 請求項1記載の音声処理装置において、
    前記識別子抽出部は、前記レベルデータが最大となる前記識別子と2番目に最大となる前記識別子を抽出することを特徴とする
    音声処理装置。
  6. 請求項1記載の音声処理装置において、
    前記識別子抽出部は、前記レベルデータが最大となる前記識別子と、選択した前記識別子を付与した第1のマイクロフォンの近傍に配置してある第2のマイクロフォンに付与した前記識別子を抽出することを特徴とする
    音声処理装置。
  7. 請求項1記載の音声処理装置において、
    前記識別子抽出部は、特定の前記識別子を抽出することを特徴とする
    音声処理装置。
  8. 少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶し、
    記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出し、
    読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算することを特徴とする
    音声処理方法。
  9. 少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶する記憶処理と、
    記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出処理と、
    読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御処理を実行することを特徴とする
    プログラム。
JP2006041150A 2006-02-17 2006-02-17 音声処理装置、音声処理方法及びプログラム Pending JP2007221574A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006041150A JP2007221574A (ja) 2006-02-17 2006-02-17 音声処理装置、音声処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006041150A JP2007221574A (ja) 2006-02-17 2006-02-17 音声処理装置、音声処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007221574A true JP2007221574A (ja) 2007-08-30

Family

ID=38498311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006041150A Pending JP2007221574A (ja) 2006-02-17 2006-02-17 音声処理装置、音声処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2007221574A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012085271A (ja) * 2010-10-14 2012-04-26 Harman Becker Automotive Systems Gmbh マイクロフォンリンクシステム
CN105427880A (zh) * 2015-08-03 2016-03-23 汉柏科技有限公司 语音记录系统及语音记录方法
KR101742990B1 (ko) * 2016-02-26 2017-06-15 (유) 드림솔루션 음향 전송 시스템 및 방법
CN107493544A (zh) * 2016-11-15 2017-12-19 北京唱吧科技股份有限公司 一种声音切换方法及麦克风

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012085271A (ja) * 2010-10-14 2012-04-26 Harman Becker Automotive Systems Gmbh マイクロフォンリンクシステム
CN105427880A (zh) * 2015-08-03 2016-03-23 汉柏科技有限公司 语音记录系统及语音记录方法
KR101742990B1 (ko) * 2016-02-26 2017-06-15 (유) 드림솔루션 음향 전송 시스템 및 방법
CN107493544A (zh) * 2016-11-15 2017-12-19 北京唱吧科技股份有限公司 一种声音切换方法及麦克风
CN107493544B (zh) * 2016-11-15 2023-03-21 北京唱吧科技股份有限公司 一种声音切换方法及麦克风

Similar Documents

Publication Publication Date Title
US6163508A (en) Recording method having temporary buffering
KR100723663B1 (ko) 기록재생장치
JP2005537738A5 (ja)
US7729209B2 (en) Recording and playback apparatus using harddrive for ripping digital audio data
JP2007221574A (ja) 音声処理装置、音声処理方法及びプログラム
KR100357241B1 (ko) 디지털 오디오 플레이어에서의 반복재생구간 설정제어방법 및 이것을 이용한 파일재생장치 및 저장매체
JP3978465B2 (ja) 録音再生装置
JP4581052B2 (ja) 録音再生装置、録音再生方法、およびプログラム
CN1145913C (zh) 重现信息或执行功能的设备
JP2017038955A (ja) 玩具体、制御方法、プログラム、及び玩具システム
US20040028384A1 (en) Digital recording/reproducing apparatus
KR100563320B1 (ko) 단일 메모리를 갖는 어학학습장치 및 그 제어방법
JP2005043628A (ja) 対話記録装置および対話記録方法
JPH0368399B2 (ja)
JP2024109930A (ja) 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体
JP2001209400A (ja) 音声合成装置及び音声案内システム
JP6810527B2 (ja) 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体
JP2001034295A (ja) 音声メッセージ記録再生方式
WO2005104125A1 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
JP2005140858A (ja) 録音再生装置及び方法
JP2000207838A (ja) デジタル記録装置
JP2001112099A (ja) 音声データ処理システム、音声データ処理方法、該音声データ処理を行うためのプログラムを記録した記録媒体、音声記録装置及び、音声データ処理装置
KR20030054812A (ko) 디지털 미디어 콘텐츠 재생장치 및 방법
JP2000090574A (ja) 記録再生装置
JPS63115188A (ja) 学習装置