JP2018066963A

JP2018066963A - 音声処理装置

Info

Publication number: JP2018066963A
Application number: JP2016207316A
Authority: JP
Inventors: 和広並木; Kazuhiro Namiki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2018-04-26

Abstract

【課題】風雑音と駆動雑音が音声に重畳している場合にそれぞれの雑音を低減する。【解決手段】入力音声信号を音声信号スペクトルへ変換する変換手段と、駆動雑音の周波数毎の振幅に関するプロファイルを記憶する記憶手段と、変換手段からの出力に基づいて減算係数を算出する算出手段と、入力音声信号に含まれる風雑音の大きさに応じて補正量を決定する補正量決定手段と、減算係数を補正量で補正する補正手段と、補正された減算係数とプロファイルとから周波数毎の雑音の低減値を決定する決定手段と、変換手段から出力された音声信号のスペクトルから低減値を減算することにより駆動雑音の低減処理を行う雑音低減手段と、雑音低減手段からの音声信号スペクトルを時間領域の音声信号に変換する逆変換手段と、逆変換手段から出力された音声信号から風雑音を低減する低減手段とを有する。【選択図】図５

Description

本発明は音声処理装置に関する。

従来、デジタルカメラなどの撮像装置では、撮影された動画と共に音声を記録している。デジタルカメラは屋外で使用されることが多い。そのため、マイクに対して風が当たり、この風による雑音が音声に含まれてしまう。また、デジタルカメラはビデオカメラに比べて本体のサイズが小さく、レンズなどの光学系とマイクの位置が近い。そのため、絞りやレンズを駆動させるモータによる駆動音がノイズとして音声に含まれてしまう。

従来、このように、マイクからの音声に含まれる風によるノイズ（風雑音）や光学系の駆動によるノイズ（駆動雑音）を低減させる技術が提案されている。ノイズ低減の方法として、スペクトルサブトラクション（ＳｐｅｃｔｒａｌＳｕｔｒａｃｔｉｏｎ）法（以下、ＳＳ法）が知られている（特許文献１）。

特開２０００−３３０５９７号公報

しかしながら、駆動雑音の帯域と風雑音帯域が重複する様な音声が入力された場合に、ＳＳ法で駆動雑音や風雑音の低減処理を行ったとすると、次のような問題がある。

図１２は、風切り音（風雑音）と駆動音が重畳した時において、Ｌｃｈ、Ｒｃｈの音声信号の位相ベクトルを表した図である。ここでは、例えば駆動音をズームレンズの駆動により発生する雑音（ズーム音）とする。図１２（ａ）では風切り音Ｒ１２０１と風切り音Ｌ１２０２は逆位相に入力され、ズーム音Ｒ１２０３とズーム音Ｌ１２０４は同位相で入力されたと仮定する。

その時、風雑音の低減処理と駆動雑音の低減処理は、図１２（ｂ）のように行われる。図１２（ｂ）において、駆動雑音の低減処理１２０７、１２０８はズーム音＋風切り音１２０５、１２０６からスカラー量分を差し引く。また、風雑音の低減処理１２０９、１２１０は位相差分のスカラー量を差し引く。その為、ズーム音に同位相の雑音１２１１が残り、抑圧できないといった課題がある。

本発明は、風雑音と駆動雑音が音声に重畳している場合に、それぞれの雑音を低減することが可能な装置を提供することを目的とする。

入力手段と、駆動手段と、前記入力手段により得られた時間領域の音声信号を一定の時間毎に分割し、周波数領域の音声信号スペクトルへ変換する変換手段と、前記駆動手段による雑音である駆動雑音の周波数毎の振幅に関するプロファイルを記憶する記憶手段と、前記変換手段からの出力信号に基づいて減算係数を算出する算出手段と、前記入力手段より得られた音声信号に含まれる風雑音の大きさに応じて、前記減算係数の補正量を決定する補正量決定手段と、前記算出手段で求めた減算係数を前記補正量決定手段により得られた補正量で補正する補正手段と、前記補正手段により補正された減算係数と、前記記憶手段に記憶されている前記プロファイルとから、周波数毎の雑音の低減値を決定する決定手段と、前記変換手段から出力された前記周波数領域の音声信号のスペクトルから、前記決定手段により得られる前記低減値を減算することにより、前記駆動雑音の低減処理を行う雑音低減手段と、前記雑音低減手段からの前記周波数領域の音声信号スペクトルを時間領域の音声信号に変換する逆変換手段と、前記逆変換手段から出力された音声信号から風雑音を低減する風雑音の低減手段とを有する。

本発明によれば、風雑音と駆動雑音が音声に重畳している場合でも、それぞれの雑音を低減することが可能となる。

音声処理装置を含む撮像装置のブロック図である。音声処理を示すフローチャートである。風雑音の低減回路を示す図である。駆動雑音の低減回路を示す図である。駆動雑音の低減回路を示す図である。補正量決定部の処理を表すフローチャートである。風雑音の検出量及び減算係数γを示す図である。補正量決定部の処理を示すフローチャートである。減算係数を示す図である。駆動雑音の低減回路を示す図である。ノイズプロファイルの生成処理を示す図である。駆動雑音低減処理と風雑音低減処理を説明する図である。

（実施例１）
以下、本発明の実施形態を説明する。

図１は本発明の音声処理装置が適用される撮像装置の構成例を示すブロック図である。図１における撮像装置１００は、主に、音声処理部１０７で雑音の低減処理を行う。以下に説明する多くの構成要素はメモリバス１１７に接続され、メモリ１１６に対してデータのやり取りを行なっている。

メモリ１１６は高速でランダムアクセス可能なダイナミックＲＡＭである。メモリ内は音声データ領域、画像データ領域、制御信号領域がある。また、音声データ領域に記憶された音声データ、及び画像データ領域に記憶された画像データ、タイミング信号領域のタイミング信号はフレーム毎にどの時刻のデータであるかを識別するように管理されている。

図１において、レンズ１０１は、モータ駆動部１０３で制御されたモータ１０２によりズーム動作を行う。撮像部１０４はレンズ１０１を介して結像された被写体の光学像をＣＣＤセンサやＣＭＯＳセンサ等の撮像素子により光電変換してアナログ画像信号を生成する。そして、生成されたアナログ画像信号をデジタル信号に変換して、画像処理部１０５に送信する。画像処理部１０５は、入力されたデジタル画像信号に、設定値に応じたホワイトバランスや色、明るさ等を調整する画質調整処理を施し、メモリ１１６に送信し、メモリ１１６内の画像データ領域に記憶する。

音声入力部１０６は内蔵されたマイクロホンまたは音声入力端子を介して接続された外部マイク等である。音声処理部１０７は、音声入力部１０６で装置周囲の音声を収音することにより得られたアナログ音声信号をデジタル信号に変換し、レベルの適正処理、特定周波数の低減処理等の音声に関する処理を行う。音声処理部１０７は、後述のように、駆動雑音の低減処理や風雑音の低減処理を行う。そして、音声処理部１０７は、デジタル音声信号をメモリ１１６に送信し、メモリ１１６内の音声データ領域に記憶する。また、音声処理部１０７は、通信部１０９からメモリ１１６の音声データ領域に記憶された音声データを読み出し、同様な処理を施し、再度メモリ１１６の音声データ領域に記憶する。

表示部１０８は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ、電子ペーパー等の表示デバイスで有れば何であっても良い。例えば、表示用の画像データは画像処理部１０５からメモリ１１６の画像データ領域に一時的に記憶される。表示部１０８は画像データ領域から画像データを読み出してディスプレイに表示させる。

通信部１０９はワイヤレスマイクから送信されたデジタル音声信号を受信し、一時的にメモリ１１６の制御信号領域に記憶する。通信部１０９は、外部装置との間で通信を行うもので、例えば、音声信号、画像信号、撮影開始、終了コマンド等の撮影動作の為の制御信号等を送受信する。通信部１０９は、例えば、赤外線通信モジュールやＢｌｕｅｔｏｏｔｈ（登録商標）通信モジュール、無線ＬＡＮモジュール等の無線通信モジュールである。

記録再生部１１０は記録媒体１１１に記録された画像データを読み出し（再生し）、表示部１０８や画像出力部１１４に送信する。記録媒体１１１は、メモリカードやＨＤＤなどのランダムアクセスの記録媒体である。

画像出力部１１４は、例えば画像出力端子からなり、撮像装置１００に接続された外部ディスプレイ等に映像を表示させるために画像信号を送信する。音声出力部１１５は、例えば、音声出力端子からなり、メモリ１１６の音声データ領域に記憶されている音声データを読みだして、撮像装置１００に接続されたイヤホンやスピーカ等から音声を出力する為に音声信号を送信する。また、音声出力部１１５は、撮像装置１００に内蔵され、音声信号に応じた音声を出力するスピーカであっても良い。また、画像出力部１１４及び音声出力部１１５は、統合された１つの端子、例えば、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）のような端子であっても良い。

操作部１１３は、例えば、ボタンやダイヤル等であり、ユーザの操作に応じた指示信号を制御部１１２に送信する。制御部１１２は、操作部１１３から送信された指示信号に基づいて、撮像装置１００の各ブロックに制御信号を送信することで、各ブロックを制御する。操作部１１３は、例えば、電源ボタン、記録開始ボタン、メニュー表示ボタン、決定ボタン、カーソールキー、タッチパネル等である。また、制御部１１２は、各種処理を実行する為の、例えばＣＰＵ、ＤＲＡＭ、ＳＲＡＭ等からなる。メモリバス１１７は、各種データや、制御信号を撮像装置１００の各ブロックに送信する為にものである。

次に、音声処理部１０７の内部構成を説明する。図２は、従来の音声処理部１０７の音声処理のフローを表すフローチャートである。Ｓ２０１では、ＳＳ法で駆動雑音の低減処理を行う。ＳＳ法による駆動雑音の低減処理の詳細は後述する。Ｓ２０２では、Ｓ２０１でカメラ駆動雑音処理をした音声出力を用いて、風雑音低減処理を行う。風雑音低減処理の詳細は後述する。Ｓ２０３では、Ｓ２０２までに一通りの雑音低減処理を行った音声信号に対し、一定の音量になる様に調整する為の、オートレベルコントロール処理（ＡＬＣ）を行う。例えば、マイクロホンで収音された音声が小さい時には、振幅を増幅し、適正な音量の場合には振幅の増幅率を元に戻す。また、一般的には、増幅率には上限が設けられている。

以下に風雑音低減処理とＳＳ法によるカメラ駆動雑音の低減処理の方法を説明する。

＜風雑音の低減方法＞
マイクロホンなどを使って屋外の音声を収音する際には風がマイクロホンにあたり、風雑音が記録されてしまうことがある。そこで、本実施形態では、左右方向からの音声を独立して収音するマイクロホン（ステレオマイク）で取得された左右それぞれの音声信号に対して、風雑音の低減処理を行う。無指向で近接する２つマイクロホンで収音された音声は、一般的に以下の様な特徴を有する。
（１）風がない環境で収音した場合、左右のマイクに同位相の音声が収音される。特に低域周波数は同位相となる。
（２）風がある環境で収音した場合、風雑音が低域周波数（約５０Ｈｚ〜数ｋＨｚ）程度に集中し、左右のマイクの収音では音声信号に位相差が発生する。

以上の２点の特徴を考慮し、風雑音の低減処理が行われる。図３（ａ）は、音声処理部１０７における風雑音の低減処理を行う回路ブロック３００を示す図である。また、図３（ｂ）はハイパスフィルタ３０３の振幅特性の例を表すグラフである。なお、図３（ａ）の風雑音処理回路３００は、後述のように、ＳＳ方による雑音の低減処理が行われた後のＬｃｈ、Ｒｃｈの音声信号が入力され、風雑音の低減処理を行う。

図３（ａ）において、風雑音の低減回路３００に入力されたステレオ音声信号の左チャンネル（Ｌｃｈ）と右チャンネル（Ｒｃｈ）は、加算回路３０１で加算、減算回路３０２で減算される。ハイパスフィルタ回路３０３では、例えば図３（ｂ）のような風雑音に多く含まれる周波数帯域である５０ｋＨｚ以下の成分を減衰させる。ハイパスフィルタ３０３は、減算回路３０２で求めたステレオ音声信号の差分値の低域周波数を除去して出力する。ここでは、例えば１ｋＨｚで３ｄＢ減衰するフィルタとする。

ハイパスフィルタ３０３の出力と加算回路３０１からの出力を加算回路３０４で加算し、コントローラ３０７で加算回路３０４の出力の音量を半分に調整してＬｃｈ音声出力部に出力する。また、減算回路３０５により、加算回路３０１からの出力からハイパスフィルタ３０３の出力を減算し、コントローラ３０７で減算回路３０５の出力の音量を半分に調整してＲｃｈ音声出力部に出力する。このように、風雑音低減回路３００により、入力音声に含まれる風雑音が低減される。

＜ＳＳ法による駆動雑音の低減処理方法＞
ＳＳ法を用いた駆動雑音の低減処理の構成について、図４（ａ）を用いて説明する。図４（ａ）において、ノイズプロファイル４０１、４０２は、低減対象となる雑音の周波数成分をノイズプロファイルとして記憶する。具体的には、低減対象となる雑音のみから成る音声信号をフーリエ変換し、周波数成分を得る。このとき、低減対象となる雑音がある程度の時間（例えば４秒間）続く場合は、雑音が続く時間内における周波数成分の時間変化に対して、ピークホールドしたものがノイズプロファイルとなる。また、ノイズプロファイル４０１、４０２に記憶されるノイズプロファイルは、ある程度復元可能な形であれば圧縮されていてもよい。記憶されているノイズプロファイルの、圧縮、非圧縮は限定されない。また、ノイズプロファイル４０１、４０２は、記憶しているノイズプロファイルを、周波数成分比較部４０５、４０６と加減算器４１１、４１２へ送信する。

フーリエ変換部４０３、４０４は、入力された音声信号を一定の時間毎（フレーム）毎に分割する。そして、分割した時間領域のデジタル音声信号に対してフーリエ変換を行い、周波数領域の音声信号スペクトルに変換する。その結果、音声信号の周波数毎の位相情報と、周波数毎の振幅の絶対値（周波数成分）、を算出する。また、フーリエ変換部４０３、４０４は、算出した周波数成分を周波数成分比較部４５、４０６と雑音低減部４１３、４１４へ送信する。また、フーリエ変換部４０３、４０４は、算出した周波数毎の位相情報を逆フーリエ変換部４１５、４１６へ送信する。

周波数成分比較部４０５、４０６は除算器であり、フーリエ変換部４０３、４０４から送信された入力音声の周波数成分を、ノイズプロファイル記憶部４０１、４０２からのノイズプロファイルにより周波数毎に除算する。周波数成分比較部４０５、４０６は算出した周波数毎の演算結果を時間変化制御部４０７、４０８へ送信する。

時間変化制御部４０７、４０８は、周波数成分比較部４０５、４０６から送信された周波数毎の除算結果に対して、周波数毎に時間方向へローパスフィルタ（ＬＰＦ）をかけることにより平滑化する。時間変化制御部４０７、４０８は、算出した周波数毎の判定結果を、減算係数算出部４０９、４１０へ送信する。

減算係数算出部４０９、４１０は、時間変化制御部４０７、４０８から送信された、周波数毎の演算結果を用いて、周波数毎の減算係数を算出する。時間変化制御部４０７、４０８の出力であるＬＰＦ出力レベル大きくなれば、徐々に減算係数γ［ｎ］が小さくなるようなテーブルである。例えば、図４（ｂ）の様なテーブルである。ＬＰＦ出力レベルが十分に大きい場合は、低減対象とする騒音の周波数成分に対して、十分大きな所望音声の周波数成分が重畳されており、マスキング効果により、人間の聴覚では騒音をほぼ知覚できなくなる。そのため、減算係数γ［ｎ］を小さくすることで、雑音低減部４１３、４１４により入力音声から減算されるプロファイルの大きさを小さくし、所望音声が劣化することを抑えることができる。減算係数算出部４０９、４１０は、算出した周波数毎の減算係数を乗算器４１１、４１２へ送信する。

乗算器４１１、４１２は、減算係数算出部４０９、４１０から送信された周波数毎の減算係数と、ノイズプロファイル記憶部４０１、４０２から送信されたノイズプロファイルとを、周波数毎に乗算する。乗算器４１１、４１２の周波数毎の演算結果を、減算係数スペクトルとする。乗算器４１１、４１２は、算出した減算係数スペクトルを雑音低減部４１３、４１４へ送信する。

雑音低減部４１３、４１４は減算器であり、フーリエ変換部４０３、４０４から送信される周波数成分から、乗算器４１１、４１２から送信される減算係数スペクトルを減算することで、騒音が低減された周波数毎のスペクトルを得る。雑音低減部４１３、４１４で得られたスペクトルを、雑音低減スペクトルとする。雑音騒音低減部４１３、４１４は、雑音低減スペクトルを逆フーリエ変換部４１５、４１６へ送信する。

逆フーリエ変換部４１５、４１６は、雑音低減部４１３、４１４から送信される雑音低減スペクトルに対して、フーリエ変換部４０３、４０４から送信される位相情報を用いて、逆フーリエ変換（フーリエ逆変換）を行う。即ち、周波数領域の音声信号スペクトルを時間領域の音声信号に変換する逆変換処理を行う。そして、雑音が低減されたデジタル音声信号を得る。逆フーリエ変換部４１５、４１６は、復元した雑音低減後のデジタル音声信号を信号出力制御部Ｌｃｈ、Ｒｃｈへ送信する。

以上、風雑音の低減処理回路と、ＳＳ方式を用いた雑音低減処理回路について説明した。次に、本実施例における、音声処理部１０７による雑音の低減処理について説明する。

図５は、本実施例における、雑音の低減処理の回路を示す図である。雑音低減回路５００は音声処理部１０７に含まれる。雑音低減回路５００は、ＳＳ法による駆動雑音の低減処理を行う。駆動雑音は、図１におけるモータ１０２の駆動により発生する雑音である。なお、図４（ａ）と共通するブロックに関しては同一の番号を付加し、詳細な説明を省略する。

雑音低減回路５００には、音声入力部１０６から入力された、ＬｃｈとＲｃｈの音声信号をデジタル信号に変換した後のデジタル音声信号が入力される。また、雑音低減回路５００からのＬｃｈ、Ｒｃｈの音声信号が、図３の風雑音処理回路３００に出力される。

雑音低減回路５００においては、入力音声に含まれる風雑音の成分の大きさに応じてノイズプロファイルの補正量を調整する。図５において、補正量決定部５１１では、高速フーリエ変換回路５０３、５０４で出力された周波数帯域毎の音声データを用いて、Ｌｃｈ、Ｒｃｈの音声信号の位相の異なる低域周波数を検出し、減衰係数γ［ｎ］を補正する為の補正値αを決定する。

図６（ａ）は、補正量決定部５１１による減衰係数γ［ｎ］の補正量αを決定する処理を示すフローチャートである。雑音低減回路５００では、入力音声に含まれる風雑音の成分の大きさに応じてノイズプロファイルの補正量を調整する。そのため、入力音声に含まれる風雑音の成分を検出する処理を行う。Ｓ６０１において、風検出の評価値を初期化する。Ｓ６０２では、フーリエ変換部４０１、４０２から送信した音声スペクトルの周波数帯域に、閾値ｔｈｆ以上の周波数帯域が含まれていないを判定する。閾値ｔｈｆ以上の周波数帯域が含まれていない場合、Ｓ６０３に移行する。また、閾値ｔｈｆ以上の周波数帯域が含まれている場合、フローを終了する。この時の音声スペクトルの周波数の閾値であるｔｈｆは、音声信号に風雑音が多く集中する帯域である１ｋＨｚ程度に設定する。

Ｓ６０３では、フーリエ変換部４０１、４０２の出力であるステレオマイクの音声スペクトルの位相特性を比較する。前述のように、音声に風雑音が含まれている場合、音声の低域周波数帯域では、周波数の位相が無相関であるため、ある閾値ｔｈφ以上の位相差があればＳ６０４に移行する。また、位相差が閾値ｔｈφ以下であれば、風雑音が含まれていないとして、Ｓ６０２に移行する。この時、図１の撮像装置１００としてのデジタルカメラは、ＬｃｈとＲｃｈのマイクの間の距離が小さいと考えられる。通常、マイク間距離が小さい場合、ステレオマイクに入ってくる音声は、低域周波数帯域であるｔｈｆ以下では、ほぼ同位相の音声が収音できる。

Ｓ６０４では、フーリエ変換部４０１、４０２の出力であるステレオマイクの音声スペクトルの振幅を比較する。風雑音が含まれる音声スペクトルでは、振幅が大きい。そのため、左右の音声スペクトルの振幅がある閾値ｔｈＡ以上あれば、風雑音が含まれていると判定し６０５に移行する。また、振幅がある閾値ｔｈＡ以下であれば、Ｓ６０２に移行する。

Ｓ６０５では、Ｓ６０２からＳ６０４までの条件に合っていた場合、その音声スペクトルには風雑音が含まれているとして、風検出の評価値を１加算する。Ｓ６０６では、風検出の評価値がある閾値ｔｈｎ以上であれば、Ｓ６０７に移行する。閾値ｔｈｎ以下であればＳ６０２に移行する。Ｓ６０７では、例えば図７（ａ）の様な風検出の評価値に対する減衰係数γの補正量αを決めておく。Ｓ６０６で求めた風検出の評価値を参照して補正量αを決定し、フローを終了する。補正量αは風検出の評価値が大きければ補正量αも大きくする。この時、図７（ａ）は風検出の評価値がある一定値以上になった場合、補正量αを一定に設定したが、状況に応じてどのように設定しても良い。

減衰係数補正部５１２、５１３では、このように補正量決定部５１１で求めた補正量αを用いて、減衰係数算出部５０９で算出した減衰係数γ［ｎ］を補正する。乗算器４１１、４１２は、減算係数補正部５１２、５１３から出力された周波数毎の減算係数と、ノイズプロファイル記憶部４０１、４０２から送信されたノイズプロファイルとを、周波数毎に乗算する。これにより、ノイズプロファイルに基づく、周波数毎の雑音の低減値が決定される。

図７（ｂ）は減衰係数γ［ｎ］を補正量αにより補正したグラフを示す。図７（ｂ）では、補正量決定部５１１で求めた補正量αを音声レベル毎の減衰係数γに加算する。ここでは、補正方法として、補正量αを加算したが、状況に応じて補正量αを変えても良い。

このように、本実施形態では、風雑音が含まれる場合、その大きさに応じてノイズプロファイルの減衰係数を補正する。具体的には、風雑音の大きさが大きいほど、プロファイルが大きくなるように減衰係数の補正量が決定される。そのため、風雑音が含まれていると判断される場合には、入力音声から減算されるノイズプロファイルの成分がより大きくなるように補正される。減衰係数γ［ｎ］に補正量αを加算することで、ＳＳ法を用いた駆動雑音の低減処理時には、低域で駆動音が残留する課題を解決出来る。

（実施例２）
本実施例では、減衰係数γの補正方法に関する説明を行う。本実施例の雑音低減回路の構成は、実施例１の構成と同様の構成を持つ為、説明は省略する。ただし、補正量決定部５１１の構成が実施例１と異なる為、以下に詳細を述べる。

図８は、本実施例における補正量決定部５１１の処理を説明するフローチャートである。また、図９は、減衰係数γ［ｎ］を補正量αにより補正したグラフを示す。Ｓ８０１では、補正量決定部５１１で、音声信号のレベルが閾値以上かどうかを判定する。Ｓ８０２では、音声信号のレベルが閾値以上であれば、レベルに応じた減衰係数γに対し補正量αを加算する。また、図９の様に補正後、減衰係数１．０以上の値は減衰係数１．０にする。

Ｓ８０３では、音声信号が閾値以下であれば、補正量αは設定せず、減衰係数補正部５１０、５１１では減衰係数γの補正を行わない。Ｓ８０４では、Ｓ８０２、Ｓ８０３で補正した、減衰係数γ［ｎ］をプロファイル５０１、５０２にかけて、プロファイルを更新する。

本実施例では、ステレオマイクから得られた、音声信号のレベルが閾値より小さい場合は、風雑音が入ってきたとしても補正量αを加算しない。音声信号が閾値以上のレベルであれば、補正量α分を加算する。

このように、音声信号のレベルに応じて、補正量αを加算するかを決定することで、音声信号のレベルが小さい場合に補正しすぎないように駆動雑音及び風雑音を低減することができる。

（実施例３）
図１０及び図１１を用いて本実施例における雑音低減回路１０００を説明する。本実施例の雑音低減回路１０００の構成は、実施例１及び実施例２の構成における図５の騒音低減装置の構成と比較し、ノイズプロファイル生成部１００１、１００２が異なる。

図１０は、本実施例の雑音低減回路１０００の構成を示す図である。また、図１１はＳＳ法による駆動雑音の低減処理を行う為のプロファイル生成を行うための概念図である。ノイズプロファイル生成部１００１、１００２は、低減対象となる雑音の周波数成分示すノイズプロファイルを記憶する。具体的には、図１１において低減対象の雑音が発生する前の音声１１０１及び低減対象の雑音１１０２から成る音声信号をフーリエ変換し、音声信号１１０１の周波数成分Ｒｔ１［ｉ］と音声信号１１０２の周波数成分Ｒｔ２［ｉ］を得る。この時周波数成分Ｒｔ１［ｉ］とＲｔ２［ｉ］は、振幅のスカラー量である。また、ｉは周波数のサンプル数で、サンプリング定理により音声データのサンプル数Ｎだとすると、ｉはＮ／２となる。つまり音声データのサンプル数Ｎ＝１０２４の場合、周波数のサンプル数は、ｉ＝５１２となる。

時間ｔ２の騒音周波数成分（Ｒｔ２）から時間ｔ１の雑音を含まない音声の周波数成分（Ｒｔ１）を差し引く事で、雑音のみの周波数成分、つまりノイズプロファイルＲｐを算出する。
Ｒｐ［ｉ］＝Ｒｔ２［ｉ］−Ｒｔ１［ｉ］式（１）

算出した低減対象の雑音のみの周波数成分Ｒｐをノイズプロファイルとして記憶し、雑音低減部４１３、４１４において、騒音低減処理をする。

このように、騒音が発生する毎にノイズプロファイルを生成することで、それぞれの騒音に適した低減処理が行えるようになる。

Claims

入力手段と、
駆動手段と、
前記入力手段により得られた時間領域の音声信号を一定の時間毎に分割し、周波数領域の音声信号スペクトルへ変換する変換手段と、
前記駆動手段による雑音である駆動雑音の周波数毎の振幅に関するプロファイルを記憶する記憶手段と、
前記変換手段から出力された信号に基づいて減算係数を算出する算出手段と、
前記入力手段より得られた音声信号に含まれる風雑音の大きさに応じて、前記減算係数の補正量を決定する補正量決定手段と、
前記算出手段で求めた減算係数を前記補正量決定手段により得られた補正量で補正する補正手段と、
前記補正手段により補正された減算係数と、前記記憶手段に記憶されている前記プロファイルとから、周波数毎の雑音の低減値を決定する決定手段と、
前記変換手段から出力された前記周波数領域の音声信号のスペクトルから、前記決定手段により得られる前記低減値を減算することにより、前記駆動雑音の低減処理を行う雑音低減手段と、
前記雑音低減手段からの前記周波数領域の音声信号スペクトルを時間領域の音声信号に変換する逆変換手段と、
前記逆変換手段から出力された音声信号から風雑音を低減する風雑音の低減手段と、
を有することを特徴とする音声処理装置。
前記補正量決定手段は、前記入力手段より得られた音声信号に風雑音が多く含まれているほど前記低減値が大きくなるように前記補正量を決定することを特徴とする請求項１に記載の音声処理装置。
前記補正量決定手段は、前記変換手段から出力された音声信号スペクトルの振幅特性及び位相特性から風雑音の評価値を求め、前記評価値に基づいて前記補正量を決定することを特徴とする請求項１に記載の音声処理装置。
前記入力手段はステレオ音声信号を入力し、
前記補正量決定手段は、前記変換手段から出力された、前記ステレオ音声信号の左チャンネルと右チャンネルの音声信号スペクトルにおける位相差、及び、振幅の大きさに応じて前記評価値を求めることを特徴とする請求項３に記載の音声処理装置。
前記補正手段は、前記補正量決定手段により決定された前記補正量を音声レベル毎の減算係数に加算して補正することを特徴とする請求項１に記載の音声処理装置。
前記算出手段は、前記プロファイルを前記変換手段から出力された音声信号スペクトルにより除算した結果の時間変化が大きいほど、前記減算係数を小さくすることを特徴とする請求項１に記載の音声処理装置。
前記算出手段は、前記変換手段から出力された音声信号スペクトルと、前記プロファイルとの比を周波数毎に求め、前記周波数毎の比を、一定の時間に対して周波数毎に平滑化した結果に基づいて、前記減算係数を算出することを特徴とする請求項６に記載の音声処理装置。