JP2007140063A

JP2007140063A - 音声記録再生装置

Info

Publication number: JP2007140063A
Application number: JP2005333036A
Authority: JP
Inventors: Koji Mizobuchi; 孝二溝渕
Original assignee: Olympus Imaging Corp
Current assignee: Olympus Imaging Corp
Priority date: 2005-11-17
Filing date: 2005-11-17
Publication date: 2007-06-07

Abstract

【課題】録音対象に応じて録音品質を最適化することができ、かつ使い易く誤操作のない音声記録再生装置を提供すること。
【解決手段】入力された音声信号と所定の判定基準値とを大小比較して、判定基準値以上の音声信号を検出する音声信号レベル検出部１と、所定時間内に、音声信号レベル検出部１により検出された判定基準値以上の音声信号の入力回数に基づいて録音対象を判定する録音対象判定部２と、録音対象判定部２による判定結果に基づいて録音品質が最適になるようにサンプリング周波数を選択するサンプリング周波数選択部３と、サンプリング周波数選択部３で選択されたサンプリング周波数に応じたビットレートの音声データに、入力された音声信号を符号化する符号化部４とから構成される。
【選択図】図１

Description

本発明は、録音対象の判別機能を備えた音声記録再生装置に関する。

アナログの音声信号をデジタルの音声データに変換した後、この音声データを書換え可能な記録媒体としてのフラッシュメモリに記録する機能と、フラッシュメモリに記録された音声データをアナログ化して再生する機能とを有する携帯型の音声記録再生装置（以下、ＩＣレコーダと称する）が１９９０年代後半から本格的に実用化されている。更に、近年では、上記の機能に加えて、ＷＭＡ（Windows（登録商標） Media Audio）形式やＭＰ３（MPEG-1 audio layer3）形式等の音声ファイルを高音質で再生することができるミュージックプレーヤとしてのＩＣレコーダも製品化されている。

このようなＩＣレコーダは、所定の操作部を操作することにより、録音、再生、早送り、及び早戻しなどの各種動作を選択的に実行させることができる。例えば、録音動作のときは、予めフラッシュメモリに設けられた音声データ記録領域に、デジタル信号に変換された音声データが記録され、インデックス情報記録領域に、該音声データに関するインデックス情報（音声データの記録アドレス、録音日時等の音声データに関する各種情報）が記録される。

ここで、フラッシュメモリに記録される音声データは、インデックス情報と共に音声ファイルを構成している。音声ファイルは、その後のファイル検索や再生が容易となるように、記録時に、ファイルナンバー（ファイル名）とフォルダ記号とが割り当てられる。また、フォルダは、録音毎に増え続ける音声ファイルを効率良く区分管理できるように、例えばＡ、Ｂ、Ｃフォルダのように複数設けられることが多い。更に、これら複数設けられたフォルダのうちで選択中のフォルダを操作者が認識し易いように、フォルダの選択時には、ＩＣレコーダ本体に設けられたＬＣＤなどの表示器に、フォルダマークをポップ表示するなどの工夫もなされている。

このように、機能、性能、及び操作性においては十分に進化してきたＩＣレコーダであるが、口述と会議（複数話者の会話、講演等）に代表されるような、録音対象に応じて録音品質を最適化する技術については、未だに操作者自身の経験と勘に頼らざるを得ない。

このような問題を解決するための手法として、例えば特許文献１において提案されている記録装置では、録音対象に応じた録音時間や録音品質の切り換え選択が行われている。具体的には、操作者が指定した録音時間又は音質に応じて、最高音質で録音できる組み合わせのサンプリング周波数と圧縮率とを録音対象毎に選択することが述べられている。
特開平８−１８５６７１号公報

ここで、上記特許文献１の提案の場合、録音開始前に操作者自身の状況判断で録音時間や音質をその都度指定しなければならない。したがって、咄嗟の録音時には、指定操作が間に合わない可能性がある。また、録音経験の浅い未熟な操作者は、録音対象と期待する録音品質（録音時間や音質等）との関連付けがイメージできないことが多く、この意味においても操作者自身に煩雑な操作を要求するのは現実的ではない。

本発明は、上記の事情に鑑みてなされたものであり、録音対象に応じて録音品質を最適化することができ、かつ使い易く誤操作のない音声記録再生装置を提供することを目的とする。

上記の目的を達成するために、本発明の第１の態様による音声記録再生装置は、入力された音声信号と所定の判定基準値とを大小比較する音声信号レベル検出手段と、所定時間内に上記音声信号レベル検出手段により検出された上記判定基準値以上の音声信号の入力回数に基づいて録音対象を判定する録音対象判定手段と、上記録音対象判定手段による判定結果に基づいて録音品質が最適になるようにサンプリング周波数を選択するサンプリング周波数選択手段と、上記サンプリング周波数選択手段で選択されたサンプリング周波数に応じたビットレートの音声データに上記入力された音声信号を符号化する符号化手段とを具備することを特徴とする。

本発明によれば、録音対象に応じて録音品質を最適化することができ、かつ使い易く誤操作のない音声記録再生装置を提供することができる。

以下、図面を参照して本発明の実施形態を説明する。
図１は、本発明の一実施形態に係る音声記録再生装置の主要な構成を示したブロック図である。図１に示すように、本一実施形態の音声記録再生装置は、音声信号レベル検出部１と、録音対象判定部２と、サンプリング周波数選択部３と、符号化部４とから構成されている。

音声信号レベル検出部１は、図示しないマイクロフォンを介して入力され、図示しないマイクアンプにより増幅された音声信号と所定の判定基準値とを大小比較し、この比較の結果、所定の判定基準値以上の音声信号を、録音対象判定部２に出力する。録音対象判定部２は、所定時間内に、音声信号レベル検出部１から入力された判定基準値以上の音声信号の入力回数を計数し、その回数に基づいて録音対象を判定する。そして、その判定結果をサンプリング周波数選択部３に出力する。サンプリング周波数選択部３は、録音対象判定部２による録音対象の判定結果に基づいて録音品質が最適になるようにサンプリング周波数を選択し、選択したサンプリング周波数を符号化部４に供給する。符号化部４は、サンプリング周波数選択部３から供給されるサンプリング周波数に応じたビットレートの音声データに音声信号を符号化する。

図２は、本発明の一実施形態に係る音声記録再生装置の一例としてのＩＣレコーダの内部構成を示すブロック図である。図２に示すＩＣレコーダは、音声を電気信号に変換するマイクロフォン（ＭＩＣ）２０を備えている。音声の録音時においては、マイクロフォン（ＭＩＣ）２０は、音声を電気信号（アナログの音声信号）に変換し、変換して得られた音声信号を後段のマイクアンプ（ＡＭＰ）２１に出力する。マイクアンプ（ＡＭＰ）２１は、マイクロフォン（ＭＩＣ）２０を介して入力された音声信号を増幅して、ローパスフィルタ（ＬＰＦ）２２に出力する。ローパスフィルタ（ＬＰＦ）２２は、入力された音声信号のうち、不要な周波数帯域をカットして、Ａ/Ｄ変換器（ＡＤＣ）２３に出力する。Ａ/Ｄ変換器（ＡＤＣ）２３は、入力された音声信号をデジタル信号に変換し、これによって得られたデジタルの音声信号を、デジタル信号処理部（ＤＳＰ）２４に出力する。デジタル信号処理部（ＤＳＰ）２４は、録音時には、システム制御部２５の制御の下、Ａ/Ｄ変換器（ＡＤＣ）２３で得られたデジタルの音声信号を、フレーム単位で読み出して所定の符号化フォーマットの音声データに符号化（圧縮）する。この符号化された音声データは、システム制御部２５に設けられた図示しないバッファメモリに一時的に記憶される。

一方、デジタル信号処理部（ＤＳＰ）２４は、音声の再生時には、システム制御部２５の制御の下、システム制御部２５の図示しないバッファメモリから、符号化された音声データをフレーム単位で読み出して復号化（伸長）し、Ｄ/Ａ変換器（ＤＡＣ）２６に出力する。Ｄ/Ａ変換器（ＤＡＣ）２６は、符号化された音声データをアナログ信号に変換して、ローパスフィルタ（ＬＰＦ）２７に出力する。ローパスフィルタ（ＬＰＦ）２７は、入力された音声信号のうち、不要な周波数帯域をカットして、パワーアンプ（ＡＭＰ）２８に出力する。パワーアンプ（ＡＭＰ）２８は、入力された音声信号を増幅して、スピーカ（ＳＰ）２９に出力する。スピーカ（ＳＰ）２９は、入力された音声信号を音声として出力する。

システム制御部２５は、例えばＣＰＵで構成されており、デジタル信号処理部（ＤＳＰ）２４以外に、記録部（メモリ）３０と、操作部３１と、表示部３２とが接続されている。

記録部（メモリ）３０は、例えば、フラッシュメモリ等の不揮発性の半導体メモリで構成されている。録音時においては、記録部（メモリ）３０には、デジタル信号処理部（ＤＳＰ）２４で符号化された音声データが、システム制御部２５の制御の下、図示しないバッファメモリを介して記録される。このとき、音声データに関するインデックス情報も記録される。

操作部３１は、録音スイッチ（ＲＥＣ）、再生スイッチ（ＰＬＡＹ）、停止スイッチ（ＳＴＯＰ）、早送りスイッチ（ＦＦ）、早戻しスイッチ（ＲＥＷ）、メニュースイッチ（ＭＥＮＵ）、消去スイッチ（ＥＲＡＳＥ）、ホールドスイッチ（ＨＯＬＤ）等の各種操作部材が機能別に設けられている。このような操作部３１の操作を受けてシステム制御部２５は各種動作処理を実行する。

表示部３２は、操作部３１に含まれる何れかの操作を受けて所定の処理が開始されたときに、本ＩＣレコーダの動作モード、又はそれら動作モードにおけるその後の動作状況を表示する。例えば、操作者により録音スイッチ（ＲＥＣ）が押された場合に、表示部３２は、録音の経過時間、録音可能な残り時間、及びファイルナンバー等を表示する。また、操作者によりメニュースイッチ（ＭＥＮＵ）が押された場合に、表示部３２は、マイク感度の選択（高/低）、録音モードの選択（自動/標準/ロング）、及びアラームの選択（オン/オフ）等の本ＩＣレコーダの機能選択に関連した表示を行う。更に、システム制御部２５が時計機能を有しているときは、表示部３２は、現在日時のカレンダー表示も行う。

次に、図２に示す構成を有するＩＣレコーダのメイン動作について図３を参照しながら説明する。図３は、図２のＩＣレコーダのメイン動作を示すフローチャートである。

図示しないパワースイッチの操作等により、本ＩＣレコーダがパワーオンされると、図３に示すように、システム制御部２５は、所定の初期設定を行う（Ｓ１）。初期設定の終了後に、システム制御部２５は、図示しないタイマの計時をスタートさせる（Ｓ２）。このタイマは、所定時間経過後に、本ＩＣレコーダが通常の動作モードから待機モード（低消費電流モード）に入るための時間を計時するためのタイマである。

Ｓ２のタイマスタートの後、システム制御部２５は、Ｓ３〜Ｓ９に示すスイッチ検出処理を行う。即ち、システム制御部２５は、録音スイッチ（ＲＥＣ）がオンされたか否か（Ｓ３）、再生スイッチがオンされたか否か（Ｓ４）、早送りスイッチ（ＦＦ）がオンされたか否か（Ｓ５）、早戻しスイッチ（ＲＥＷ）がオンされたか否か（Ｓ６）、停止スイッチ（ＳＴＯＰ）がオンされたか否か（Ｓ７）、メニュースイッチ（ＭＥＮＵ）がオンされたか否か（Ｓ８）、及び消去スイッチ（ＥＲＡＳＥ）がオンされたか否か（Ｓ９）を順次判定する。

Ｓ３〜Ｓ９の判定において、全てのスイッチがオフである場合には、Ｓ１０に進み、システム制御部２５は、タイマの計時時間が所定時間をオーバしたか否かを判定する（Ｓ１０）。Ｓ１０の判定において、タイマの計時時間が所定時間をオーバしていない場合には、Ｓ３に戻り、Ｓ３〜Ｓ９のスイッチ検出処理を継続する。一方、Ｓ１０の判定において、タイマの計時時間が所定時間をオーバしている場合には、Ｓ１０をＳ１１に分岐して、システム制御部２５は、待機モードのサブルーチン処理を行う（Ｓ１１）。待機モードに入ると本ＩＣレコーダが低電流動作になる。具体的には、図２のマイクロフォン（ＭＩＣ）２０、マイクアンプ（ＡＭＰ）２１、ローパスフィルタ（ＬＰＦ）２２、Ａ/Ｄ変換器（ＡＤＣ）２３、デジタル信号処理部（ＤＳＰ）２４、Ｄ/Ａ変換器（ＤＡＣ）２６、ローパスフィルタ（ＬＰＦ）２７、パワーアンプ（ＡＭＰ）２８、記録部（メモリ）３０、表示部３２への電源供給を遮断する、或いは図２の各ブロックを構成する図示しないＩＣに設けられているチップイネーブル端子に、システム制御部２５から非選択信号を出力することにより、低消費電流状態とする。このとき、システム制御部２５のＣＰＵは、自らも動作クロックを最も消費電流の少ない低速クロックに切り換えて低消費電流状態になる。場合によっては、動作クロックをメインクロック（例えば、16.384MHz）からサブクロック（例えば、32.768kHz）に切り換えて、その後スイッチ入力が検出されるまで、メインクロックを完全に停止させても良い。

ここで、待機モード中に、ユーザによって何らかのスイッチ操作がなされた場合には、Ｓ２に戻り、メイン動作の処理が再開される。

また、Ｓ３の判定において、録音スイッチがオンされた場合には、Ｓ３をＳ１２に分岐して、システム制御部２５は、録音処理のサブルーチンを実行する（Ｓ１２）。この録音処理については後述する。また、Ｓ４の判定において、再生スイッチがオンされた場合には、Ｓ４をＳ１３に分岐して、システム制御部２５は、再生処理のサブルーチンを実行する（Ｓ１３）。また、Ｓ５の判定において、早送りスイッチがオンされた場合には、Ｓ５をＳ１４に分岐して、システム制御部２５は、早送り処理のサブルーチンを実行する（Ｓ１４）。また、Ｓ６の判定において、早戻しスイッチがオンされた場合には、Ｓ６をＳ１５に分岐して、システム制御部２５は、早戻し処理のサブルーチンを実行する（Ｓ１５）。また、Ｓ７の判定において、停止スイッチがオンされた場合には、Ｓ７をＳ１６に分岐して、システム制御部２５は、停止処理のサブルーチンを実行する（Ｓ１６）。また、Ｓ８の判定において、メニュースイッチがオンされた場合には、Ｓ８をＳ１７に分岐して、システム制御部２５は、メニュー変更処理のサブルーチンを実行する（Ｓ１７）。また、Ｓ９の判定において、消去スイッチがオンされた場合には、Ｓ９をＳ１８に分岐して、システム制御部２５は、消去処理のサブルーチンを実行する（Ｓ１８）。これら何れかのサブルーチンの実行後、システム制御部２５は、上記タイマを再スタートさせて（Ｓ１９）、Ｓ３に戻る。

ここで、Ｓ１３の再生処理、Ｓ１４の早送り処理、Ｓ１５の早戻し処理、Ｓ１６の停止処理、Ｓ１７のメニュー変更処理、及びＳ１８の消去処理の各処理は、周知の技術手段を用いて実施できるものであり、また、本一実施形態の内容に直接関係しないので、ここでの詳しい説明は省略する。

次に、本一実施形態の音声記録再生装置の録音処理について更に説明する。図４は、図２の構成のうちで、特に録音処理に係る詳細な構成について示す図である。

図２のマイクロフォン（ＭＩＣ）２０から出力される音声信号（ＶＩＮ）は、オペアンプ４０、コンデンサＣ１及びＣ２、抵抗Ｒ１及びＲ２で構成された増幅回路（上記マイクアンプ（ＡＭＰ）２１に対応している）２１に入力される。この図４の増幅回路２１では、入力された音声信号（ＶＩＮ）がおよそＲ２/Ｒ１倍に増幅され、これによって得られた音声信号（ＶＬＯ）がローパスフィルタ（ＬＰＦ）２２に出力される。

ここで、増幅によって得られた音声信号（ＶＬＯ）の振幅が後述するＡ/Ｄ変換器２３の入力ダイナミックレンジを超えないように、増幅回路２１の入出力間には、負帰還回路で構成されたオートゲインコントローラ（ＡＧＣ）４２が付加されている。このオートゲインコントローラ（ＡＧＣ）４２によって、Ａ/Ｄ変換器２３への音声信号の過入力が自動的に抑制される。

ローパスフィルタ（ＬＰＦ）２２は、サンプリング周波数の半分以下、例えばサンプリング周波数のおよそ０．４５倍、のカットオフ周波数で動作するアンチエイリアス用のフィルタである。増幅回路２１から出力される音声信号（ＶＬＯ）は、ローパスフィルタ（ＬＰＦ）２２を通過することにより、量子化に不必要な高い周波数帯域の音声信号が減衰除去される。このローパスフィルタ（ＬＰＦ）２２を通過した、カットオフ周波数よりも低い周波数帯域の音声信号は、後段のＡ/Ｄ変換器（ＡＤＣ）２３において、サンプリング周期（サンプリング周波数の逆数である）毎に量子化（Ａ/Ｄ変換）される。このときの量子化ビット数は少なくとも１４ビット以上である。Ａ/Ｄ変換器（ＡＤＣ）２３で得られたデジタル音声信号はデジタル信号処理部（ＤＳＰ）２４とマグニチュードコンパレータ４５とに出力される。

ところで、ローパスフィルタ（ＬＰＦ）２２、Ａ/Ｄ変換器（ＡＤＣ）２３、及びデジタル信号処理部（ＤＳＰ）２４には、サンプリング周波数として高ビットレート用ｆｓ、または低ビットレート用ｆｓの何れか１波のみが供給される。即ち、システム制御部２５を構成するＣＰＵ４７からセレクタ４６に入力されるｆｓ選択信号により、ビットレートに応じたサンプリング周波数が択一的に、ローパスフィルタ（ＬＰＦ）２２、Ａ/Ｄ変換器（ＡＤＣ）２３、及びデジタル信号処理部（ＤＳＰ）２４に供給される。つまり、ＣＰＵ４７とセレクタ４６とで図１のサンプリング周波数選択部３を構成している。ここで、高ビットレート用ｆｓは、低ビットレート用ｆｓよりも高い周波数であるとする。

図１の符号化部４に対応するデジタル信号処理部（ＤＳＰ）２４においては、ＣＰＵ４７によって予め指定された音声データの圧縮率とセレクタ４６において選択されたサンプリング周波数の組み合わせとに従って、デジタル音声信号が所定ビットレートの音声データに符号化される。

もちろん言うまでもなく、セレクタ４６において選択できるサンプリング周波数は２波に限るものではなく、例えば、３波以上の固定周波数の中から選択できるようにしても良い。また、セレクタ４６の代わりにＰＬＬを用いて任意の周波数を供給できるようにしても良い。このように供給できるサンプリング周波数の数を増やすことにより、幅広いビットレートの選択に対応させることができる。

また、図１の音声信号レベル検出部１に対応するマグニチュードコンパレータ４５では、Ａ/Ｄ変換器（ＡＤＣ）２３から出力されるデジタル音声信号が所定の上側閾値（＋ＶＴＨ）及び下側閾値（−ＶＴＨ）に対してどれだけ大きいか又は小さいかの大小比較が、サンプリング周期毎に行われる。マグニチュードコンパレータ４５での検出結果は、ＣＰＵ４７に音声信号レベル検出信号として出力される。

具体的には、図５に示す、Ａ/Ｄ変換器２３のダイナミックレンジ内（ＶＣＣ＞ＡＤＩＮ（ＭＡＸ）、ＡＤＩＮ（ＭＩＮ）＞ＧＮＤ）で、オペアンプ４０の動作基準電圧（ＡＶＲＥＦ）を基準として対称に振動している部分の音声信号（ＶＬＯ）の大小比較を行う。この大小比較において、図２のマイクロフォン（ＭＩＣ）２０に入力される音声が大きいときには、音声信号（ＶＬＯ）が上側閾値（＋ＶＴＨ）及び下側閾値（−ＶＴＨ）をそれぞれ超えた振幅で振動するので、マグニチュードコンパレータ４５からは、ＡＤＩＮ（ＭＡＸ）＞ＶＬＯ≧＋ＶＴＨ、及び−ＶＴＨ≧ＶＬＯ＞ＡＤＩＮ（ＭＩＮ）であることを示す音声信号レベル検出信号が出力される。逆に、図２のマイクロフォン（ＭＩＣ）２０に入力される音声が比較的小さいときには、音声信号（ＶＬＯ）が上側閾値（＋ＶＴＨ）と下側閾値（−ＶＴＨ）の範囲内の振幅で振動するので、マグニチュードコンパレータ４５からは、＋ＶＴＨ＞ＶＬＯ＞−ＶＴＨであることを示す音声信号レベル検出信号が出力される。

以下、図６を参照して録音処理について説明する。図６は録音処理について示すフローチャートである。図６の処理は、システム制御部２５内のＣＰＵ４７によって行われるが、ここではシステム制御部２５が行うとして以下の説明を続ける。

録音処理が開始すると、システム制御部２５は、最初にマイク感度（高/低）、録音モード（自動/標準/ロング）、ファイルナンバー、及び音声データを記録する音声データ記録領域における記録開始アドレス等の各種情報をインデックス情報記録領域に記録する（Ｓ３０）。ここで、録音モードは、操作者が意図的に「標準」又は「ロング」を選択していない限りは「自動」が選択されるものである。

次に、システム制御部２５は、ＬＢＲフラグを０にクリアし（Ｓ３１）、更にＲＪＦフラグを０にクリアする（Ｓ３２）。ここで、ＬＢＲフラグは、後述する録音対象判定処理において、高ビットレート用ｆｓから低ビットレート用ｆｓへの切り換えが行われたときにセットされるサインフラグである。また、ＲＪＦフラグは、録音対象判定処理が完了したときにセットされるサインフラグである。

Ｓ３２の後に、システム制御部２５は、サンプリング周波数として高ビットレート用ｆｓが選択されるように、ｆｓ選択信号を出力する（Ｓ３３）。つまり、録音モードが「自動」である場合には録音動作開始時に必ず高ビットレート用ｆｓが選択される。なお、本一実施形態では録音モード「標準」の場合が高ビットレート用ｆｓに対応し、「ロング」の場合が低ビットレート用ｆｓに対応している。

以上の処理の後、マイクロフォン（ＭＩＣ）２０から出力されたアナログの音声信号がサンプリング周期毎に量子化（Ａ/Ｄ変換）される（Ｓ３４）。この後、システム制御部２５は、ＲＪＦフラグの状態判定を行う（Ｓ３５）。Ｓ３５の判定において、ＲＪＦフラグ＝０のときは、Ｓ４１以後の録音対象判定のシーケンスに移行する。録音対象判定のシーケンスにおいては、まず図４のマグニチュードコンパレータ４５により、量子化された音声信号のレベル検出がサンプリング周期毎に行われる（Ｓ４１）。ここで、Ｓ４１の音声信号のレベル検出は、録音開始からごく僅かな所定時間、例えば録音開始から３０秒間程度行えば良い。次に、システム制御部２５は、録音開始から上記所定時間が経過したか否かを判定する（Ｓ４２）。Ｓ４２の判定において、所定時間が経過していない場合には、Ｓ３４に戻る。

一方、Ｓ４２の判定において、所定時間が経過した場合には、Ｓ４２をＳ４３に分岐して、システム制御部２５は、Ｓ４２の所定時間内に採集した音声信号レベル検出信号を基にして録音対象を判定する（Ｓ４３）。具体的には、Ｓ４２の所定時間内に採集された音声信号レベル検出信号のうちで所定レベル以上（例えば、ＡＤＩＮ（ＭＡＸ）＞ＶＬＯ≧＋ＶＴＨ、及び−ＶＴＨ≧ＶＬＯ＞ＡＤＩＮ（ＭＩＮ））の音声信号レベル検出信号の検出回数により録音対象を判定する。

ここで、録音対象は、少なくとも「会議録音」と「口述録音」とに大別できれば良い。一般に、「会議録音」の場合は、マイクロフォン（ＭＩＣ）２０に入感する音声が弱く小さいので、所定レベル以上の音声信号レベル検出信号の検出回数が少なくなる。逆に、「口述録音」の場合は、マイクロフォン（ＭＩＣ）２０に入感する音声が強く大きいので、所定レベル以上の音声信号レベル検出信号の検出回数が「会議録音」に比べて多くなる。そこで、Ｓ４３においては、説明を簡単にするために、所定レベル以上の音声信号レベル検出信号の検出回数が所定回数以上である場合には、録音対象が「口述録音」であり、そうでない場合には録音対象が「会議録音」であると判定する。

なお、Ｓ４２の所定時間内に採集した所定レベル以上の音声信号レベル検出信号の検出回数と録音対象毎に実測された所定レベル以上の音声信号レベル検出信号の検出回数の平均値とを比較することにより録音対象を判定しても良い。この場合には、システム制御部２５は、所定時間内に採集された所定レベル以上の音声信号レベル検出信号の検出回数に最も近い検出回数平均値を検出し、この検出回数平均値に対応する録音対象を現在の録音対象と判定する。ここで、録音対象毎に実測された所定レベル以上の音声信号レベル検出信号の検出回数平均値は、フィールドテスト等の実測によって求めれば良く、システム制御部２５内のＣＰＵ４７に設けられた図示しないプログラムメモリに既定値として記憶させておけば良い。

更に録音対象の判定精度の向上を狙うなら、音声信号の検出レベルの閾値を複数設けたり、音声信号の検出間隔及び検出回数等を統計的に算術処理して、モデル的な録音対象との相関性から録音対象を類推しても良い。

Ｓ４３の判定において、所定レベル以上の音声信号レベル検出信号の検出回数が所定回数以上でない場合には、Ｓ４３をＳ４４に分岐して、システム制御部２５は、録音対象が「会議録音」であると判定する。「会議録音」の場合は、マイクロフォン（ＭＩＣ）２０に入感する音声が弱く小さいので、録音環境下の雰囲気や複数話者の声の重畳がクリアに録音できるように、サンプリング周波数として高ビットレート用ｆｓが選択されるように、ｆｓ選択信号を出力する（Ｓ４４）。その後、Ｓ４７に移行する。一方、Ｓ４３の判定において、所定レベル以上の音声信号レベル検出信号の検出回数が所定回数以上である場合には、Ｓ４３をＳ４５に分岐して、システム制御部２５は、録音対象が「口述録音」であると判定する。「口述録音」の場合は、マイクロフォン（ＭＩＣ）２０に入感する音声が強く大きいので、サンプリング周波数として低ビットレート用ｆｓが選択されるように、ｆｓ選択信号を出力する（Ｓ４５）。低ビットレート用ｆｓ選択時には、ＬＢＲフラグを１にセットする（Ｓ４６）。

以上の処理の後、システム制御部２５は、ＲＪＦフラグを１にセットして（Ｓ４７）、Ｓ３４に戻る。

一方、Ｓ３５の判定において、ＲＪＦフラグが１の場合には、Ｓ３５をＳ３６に分岐して、デジタル信号処理部（ＤＳＰ）２４による符号化が行われ、これによって得られた音声データが記録部（メモリ）３０に記録される（Ｓ３６）。ここで、符号化そのものはフレーム単位で、音声データ所定フレーム数に達するまで連続的に行われる。つまり、ＣＰＵ４７の図示しないバッファメモリに記憶された音声データが所定フレーム数に達した場合に、これら所定フレーム数の音声データが記録部（メモリ）３０の音声データ記録領域に記録される。例えば、１４ビット/フレームの音声信号を４ビット/フレームまで符号化した音声データを記録部（メモリ）３０へ５１２バイト単位で書き込む場合、所定フレーム数は１０２４になる。

次に、システム制御部２５は、停止スイッチがオンされたか否かを判定する（Ｓ３７）。Ｓ３７の判定において、停止スイッチがオンされるまで、Ｓ３４からＳ３６の処理が繰り返される。一方、Ｓ３７の判定において、停止スイッチがオンされた場合には、Ｓ３７をＳ３８に分岐して、システム制御部２５は、ＬＢＲフラグの状態判定を行う（Ｓ３８）。Ｓ３８の判定において、ＬＢＲフラグ＝０のときは、システム制御部２５は、そのまま録音終了処理を実行して（Ｓ４０）、録音を終了する。

一方、Ｓ３８の判定において、ＬＢＲフラグ＝１のときは、高ビットレート用ｆｓでの録音がなされた録音開始からＳ４２の所定時間経過までの間の音声データを、所定時間経過後に録音した音声データと等価な低ビットレート用ｆｓの音声データに変換する（Ｓ３９）。その後にシステム制御部２５は、録音終了処理を実行して（Ｓ４０）、録音を終了する。ここで、例えば、サンプリング周波数が、高ビットレート用ｆｓ＝１６ｋＨｚ、低ビットレート用ｆｓ＝８ｋＨｚのとき、もしワークエリアとして利用できるメモリ容量に余裕があるならば、録音開始から所定時間経過までの量子化後のデジタル音声信号を、図４のＣＰＵ４７に設けられたバッファメモリ、または図２の記録部（メモリ）３０に一時的に記憶しても良い。例えば、上記所定時間を３０秒とすると、３０秒間の１４ビットのデジタル音声信号の書き込みに必要なメモリ容量は、僅かに（１４ビット×１６ｋＨｚ×３０秒）÷８ビット＝８４０ｋバイトである。仮に記録部（メモリ）３０の容量が１Ｇバイトもあれば、８４０ｋバイトの消費は０．１％以下であり、音声データの記録（即ち録音時間）を著しく圧迫することはない。

また、低ビットレートの音声データへの変換は、例えば記録部（メモリ）３０のワークエリアに一時的に書き込まれたデジタル音声信号を先頭アドレスから順次読み出し、デジタル信号処理部（ＤＳＰ）２４で低ビットレート用ｆｓ＝８ｋＨｚに対応した符号化を行ってから、記録部（メモリ）３０において対応するファイルナンバーの音声データ記録領域に、変換後の音声データを順次再記録すれば良い。もちろん、デジタル信号処理部（ＤＳＰ）２４の処理能力が高ければ、記録部（メモリ）３０の音声データ記録領域から直接的に変換対象の音声データを読み出し、デジタル信号処理部（ＤＳＰ）２４で低ビットレート用ｆｓに対応した音声データに変換して記録部（メモリ）３０に再記録しても良い。例えば、ＭＰ３形式で録音した録音時間が３０秒、ビットレートが６４ｋｂｐｓの音声データを、低ビットレートの３２ｋｂｐｓの音声データに再符号化する場合も、数秒以内に上記一連の処理が完了すれば、操作者がストレスを感じることはない。

ここで、音声データに関する録音モード（標準/ロング）、音声データ記録領域における記録開始アドレス等の各種インデックス情報の更新は、Ｓ３９の低ビットレートへの変換終了後に行う。

以上の説明のように、本一実施形態によれば、録音時に、録音対象に最適なビットレートが自動的に選択されるので、操作者は録音行為に集中することができる。また、録音対象毎に、録音品質が一定に保たれるので、メモリ使用に無駄が生じない。

以上実施形態に基づいて本発明を説明したが、本発明は上記した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。

さらに、上記した実施形態には種々の段階の発明が含まれており、開示される複数の構成要件の適当な組合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。

本発明の一実施形態に係る音声記録再生装置の主要な構成を示したブロック図である。本発明の一実施形態に係る音声記録再生装置の一例としてのＩＣレコーダの内部構成を示すブロック図である。図２のＩＣレコーダのメイン動作を示すフローチャートである。図２の構成のうちで、特に録音処理に係る詳細な構成について示す図である。音声信号レベル検出信号について説明するための図である。録音処理について示すフローチャートである。

符号の説明

１…音声信号レベル検出部、２…録音対象判定部、３…サンプリング周波数選択部、４…符号化部、２０…マイクロフォン（ＭＩＣ）、２１…マイクアンプ（ＡＭＰ）、２２,２７…ローパスフィルタ（ＬＰＦ）、２２…デジタル信号処理部、２３…Ａ/Ｄ変換器（ＡＤＣ）、２４…デジタル信号処理部（ＤＳＰ）、２５…システム制御部、２６…Ｄ/Ａ変換器（ＤＡＣ）、２８…パワーアンプ（ＡＭＰ）、２９…スピーカ、３０…記録部（メモリ）、３１…操作部、３２…表示部、４０…オペアンプ、４２…オートゲインコントローラ（ＡＧＣ）、４５…マグニチュードコンパレータ、４６…セレクタ、４７…ＣＰＵ

Claims

入力された音声信号と所定の判定基準値とを大小比較して、上記判定基準値以上の音声信号を検出する音声信号レベル検出手段と、
所定時間内に上記音声信号レベル検出手段により検出された上記判定基準値以上の音声信号の入力回数に基づいて録音対象を判定する録音対象判定手段と、
上記録音対象判定手段による判定結果に基づいて録音品質が最適になるようにサンプリング周波数を選択するサンプリング周波数選択手段と、
上記サンプリング周波数選択手段で選択されたサンプリング周波数に応じたビットレートの音声データに上記入力された音声信号を符号化する符号化手段と、
を具備することを特徴とする音声記録再生装置。
上記サンプリング周波数選択手段は、録音動作の開始時には、高音質のビットレートに対応するサンプリング周波数を選択し、上記録音対象判定手段によって録音対象が判定された後は、上記録音対象判定手段による判定結果に基づいたサンプリング周波数を選択することを特徴とする請求項１に記載の音声記録再生装置。
上記符号化手段は、録音動作の開始時には高音質のビットレートで上記入力された音声信号を符号化し、上記録音対象判定手段によって録音対象が判定された後、上記録音動作の開始時のビットレートと録音対象が判定された後のビットレートとが異なる場合には、上記録音動作の開始時のビットレートで符号化された音声データを、録音対象が判定された後のビットレートで符号化し直すことを特徴とする請求項１に記載の音声記録再生装置。
上記録音対象は、少なくとも口述録音と会議録音の何れかを含み、
上記サンプリング周波数選択手段は、上記録音対象判定手段によって上記録音対象が口述録音であることが判定された場合に低音質のビットレートに対応するサンプリング周波数を選択し、上記録音対象判定手段によって上記録音対象が会議録音であることが判定された場合に高音質のビットレートに対応するサンプリング周波数を選択することを特徴とする請求項１に記載の音声記録再生装置。