JP2018128500A - Formation device, formation method and formation program - Google Patents
Formation device, formation method and formation program Download PDFInfo
- Publication number
- JP2018128500A JP2018128500A JP2017019449A JP2017019449A JP2018128500A JP 2018128500 A JP2018128500 A JP 2018128500A JP 2017019449 A JP2017019449 A JP 2017019449A JP 2017019449 A JP2017019449 A JP 2017019449A JP 2018128500 A JP2018128500 A JP 2018128500A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic signal
- target
- unit
- beamformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】環境に応じて音声認識に最適な音声強調を行うこと。【解決手段】取得部15aが、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得し、音声強調部15dが、周波数ごとに音響信号のビームを形成するための所定のビームフォーマwfを用いて、観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出し、音声認識部15eが、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与し、最適化部15fが、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwfを最適化する。【選択図】図1Speech enhancement that is optimal for speech recognition according to the environment. An acquisition unit 15a acquires observation signals at a plurality of points including an acoustic signal of a target speech that is a target of speech recognition and an acoustic signal of noise other than the target speech, and a speech enhancement unit 15d Using a predetermined beamformer wf for forming an acoustic signal beam for each frequency, an acoustic signal of an emphasized speech in which the acoustic signal of the target speech is emphasized among the observation signals is calculated, and the speech recognition unit 15e calculates The estimated phoneme probability distribution of the emphasized speech is estimated, a reference label indicating the phoneme is assigned to the emphasized speech, and the optimization unit 15f minimizes the difference between the reference label and the phoneme probability distribution of the emphasized speech. Thus, the beam former wf is optimized. [Selection] Figure 1
Description
本発明は、形成装置、形成方法および形成プログラムに関する。 The present invention relates to a forming apparatus, a forming method, and a forming program.
従来、音声認識を行う前に、雑音を抑制して音声強調を行ったビームを形成するビームフォーマを算出する技術が開示されている(非特許文献1、2参照)。また、より明確に音声認識を行えるように、環境に応じて音声強調のためのパラメータを推定する技術が開示されている(非特許文献3参照)。 2. Description of the Related Art Conventionally, a technique for calculating a beam former that forms a beam that has been subjected to speech enhancement while suppressing noise before speech recognition has been disclosed (see Non-Patent Documents 1 and 2). Further, a technique for estimating a parameter for speech enhancement according to the environment is disclosed so that speech recognition can be performed more clearly (see Non-Patent Document 3).
しかしながら、従来の技術においては、音声強調と音声認識とを切り離して行っているため、必ずしも音声認識に最適に音声強調がなされているとは限らなかった。また、非特許文献3に記載されている時間周波数マスクによる音声強調の技術に依っても、音声認識率の改善幅はビームフォーマによる認識率改善幅より小さかった。 However, in the prior art, since speech enhancement and speech recognition are performed separately, speech enhancement is not always optimal for speech recognition. Also, even with the speech enhancement technique using the time-frequency mask described in Non-Patent Document 3, the improvement rate of the speech recognition rate was smaller than the improvement rate of the recognition rate by the beamformer.
本発明は、上記に鑑みてなされたものであって、環境に応じて音声認識に最適な音声強調を行うことを目的とする。 The present invention has been made in view of the above, and an object thereof is to perform speech enhancement that is optimal for speech recognition in accordance with the environment.
上述した課題を解決し、目的を達成するために、本発明に係る形成装置は、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、を備えることを特徴とする。 In order to solve the above-described problems and achieve the object, the forming apparatus according to the present invention includes a plurality of points including an acoustic signal of a target speech that is a target of speech recognition and an acoustic signal of noise other than the target speech. Using the acquisition unit for acquiring the observation signal and a predetermined beamformer for forming a beam of the acoustic signal for each frequency, the acoustic signal of the emphasized speech that emphasizes the acoustic signal of the target speech among the observation signals A speech enhancement unit to calculate; a speech recognition unit that estimates a phoneme probability distribution of the calculated enhanced speech; and a reference label indicating a phoneme to the enhanced speech; and the reference label and the phoneme of the enhanced speech An optimization unit for optimizing the beamformer so as to minimize a difference from the probability distribution.
本発明によれば、環境に応じて音声認識に最適な音声強調を行うことが可能となる。 According to the present invention, it is possible to perform speech enhancement optimal for speech recognition according to the environment.
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by this embodiment. Moreover, in description of drawing, the same code | symbol is attached | subjected and shown to the same part.
[形成装置の構成]
まず、図1を参照して、本実施形態に係る形成装置の概略構成を説明する。図1に示すように、本実施形態に係る形成装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。形成装置1は、後述する形成処理を実行して、音声認識に最適に目的音声の音声強調を行ったビームを形成する。
[Configuration of forming apparatus]
First, a schematic configuration of a forming apparatus according to the present embodiment will be described with reference to FIG. As shown in FIG. 1, the forming apparatus 1 according to the present embodiment is realized by a general-purpose computer such as a workstation or a personal computer, and includes an
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置、スピーカ等によって実現され、例えば、後述する形成処理を実行した後、強調音声や音声認識結果等を操作者に対して出力する。
The
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介したサーバ等の外部の装置と制御部15との通信を制御する。
The
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、形成装置1を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。また、この記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
The
制御部15は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図1に例示するように、取得部15a、時間周波数分析部15b、推定部15c、音声強調部15d、音声認識部15eおよび最適化部15fとして機能する。
As illustrated in FIG. 1, the
取得部15aは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。具体的に、取得部15aは、音声認識の対象である1つの目的音声の音源からの音響信号と、背景の雑音の音響信号とが混在する状況において、M箇所の異なる地点に設置されているマイクで収録されたM個の観測信号からなる多チャンネル観測信号を取得する。
The
時間周波数分析部15bは、取得部15aが取得したM個の観測信号を対象に、短時間フーリエ変換等の短時間信号分析を行って、所定の長さの同一の短時間区間の周波数(以下、時間周波数とも記す)ごとに観測信号を抽出する。また、時間周波数分析部15bは、抽出した時間周波数ごとの観測信号を用いてM次元縦ベクトルである観測ベクトルを生成する。
The time-frequency analysis unit 15b performs short-time signal analysis such as short-time Fourier transform on the M observation signals acquired by the
ここで、目的音声はスパース性を有するため、目的音声が含まれない雑音のみの時間周波数の点が存在するものと仮定する(非特許文献1参照)。その場合、観測ベクトルyf,tは、次式(1)または次式(2)で表すことができる。ここで、tは1〜Tの整数であり、時間の番号を表す。また、fは0〜Fの整数であり、周波数の番号を表す。 Here, since the target speech has sparsity, it is assumed that there is a point of time frequency of only noise that does not include the target speech (see Non-Patent Document 1). In this case, the observation vector y f, t can be expressed by the following formula (1) or the following formula (2). Here, t is an integer of 1 to T and represents a time number. F is an integer of 0 to F and represents a frequency number.
なお、ステアリングベクトルとは、目的音声の音源や雑音の音源から各マイクまでの伝達特性を成分とするベクトルであり、音源の空間情報を含む。 The steering vector is a vector whose component is a transfer characteristic from the sound source of the target speech or the noise sound source to each microphone, and includes spatial information of the sound source.
推定部15cは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いてビームフォーマを算出する。
The
具体的に、まず、推定部15cは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせとして、時間周波数分析部15bから観測ベクトルyf,tを取得する。次に、推定部15cは、観測ベクトルを目的音声と雑音とのクラスタと、目的音声を含まない雑音のみのクラスタとに分類して、各クラスタに対応する空間相関行列を推定する。また、推定部15cは、これを用いて目的音声の空間相関行列を推定する。この空間相関行列から、目的音声の音源の空間情報を含むステアリングベクトルが導出される。
Specifically, first, the
ここで、図2を参照して、推定部15cの処理を説明する。図2に示すように、推定部15cは、パラメータ推定部151、マスク推定部152、空間相関行列計算部153、ステアリングベクトル計算部154、およびビームフォーマ推定部155を含む。
Here, with reference to FIG. 2, the process of the
まず、観測ベクトルyf,tの確率分布は、次式(3)に示すように、目的音声と雑音とのクラスタの確率分布(以下、事後確率とも記す)と雑音のみのクラスタの事後確率との混合分布でモデル化して表すことができる。 First, the probability distribution of the observation vector y f, t , as shown in the following equation (3), is a probability distribution of a cluster of target speech and noise (hereinafter also referred to as posterior probability) and a posterior probability of a cluster of noise only. Can be modeled and expressed as a mixture distribution.
この場合に、パラメータ推定部151は、上記式(3)の各パラメータ(以下、分布パラメータと記す)を推定する。その際、パラメータ推定部151は、次式(4)に示す尤度関数を目的関数とする。
In this case, the
すなわち、パラメータ推定部151は、観測ベクトルの分布を近似的に表す混合分布の分布パラメータとして、上記式(4)に示す目的関数を局所最大化する分布パラメータを求める。
That is, the
そこで、パラメータ推定部151は、EM(Expectation-Maximization)アルゴリズムを適用するため、次式(5)に示すように、対数尤度関数の条件付期待値を表すQ関数を定義する。
Therefore, in order to apply the EM (Expectation-Maximization) algorithm, the
上記式(5)の補助パラメータは、観測ベクトルが各クラスタに属する度合いを表すマスクに相当し、E(期待値)ステップにおいて次式(6)のように算出できる。 The auxiliary parameter of the above equation (5) corresponds to a mask representing the degree to which the observation vector belongs to each cluster, and can be calculated as the following equation (6) in the E (expected value) step.
また、分布パラメータの更新式は、M(最大化)ステップにおいて、上記式(5)に示すQ関数をそれぞれのパラメータで偏微分して0とすることにより、次式(7)および次式(8)のように導出される。 In addition, the distribution parameter update equation is expressed by the following equation (7) and the following equation (M) in the M (maximization) step by partially differentiating the Q function shown in the equation (5) with respect to each parameter to 0. 8) is derived.
パラメータ推定部151が、Mステップにおける上記式(7)および式(8)による分布パラメータの更新を行う。また、マスク推定部152が、Eステップにおける、更新された分布パラメータを用いた上記式(6)による補助パラメータの算出を行う。推定部15cは、この分布パラメータの更新と補助パラメータの算出とを反復的に行う。これにより、パラメータ推定部151は、上記式(4)に示す目的関数を局所最大化する分布パラメータを推定する。また、マスク推定部152が、補助パラメータすなわちマスクを推定する。
The
ここで、観測信号に雑音のみのクラスタに対応する補助パラメータλ(n) f,tを掛け合わせることにより、雑音のみの観測信号が得られる。したがって、雑音のみの空間相関行列は、次式(9)により得ることができる。 Here, by multiplying the observation signal by the auxiliary parameter λ (n) f, t corresponding to the noise-only cluster, the noise-only observation signal is obtained. Therefore, the noise-only spatial correlation matrix can be obtained by the following equation (9).
そこで、空間相関行列計算部153は、次式(10)に示すように、観測信号の空間相関行列から雑音のみの空間相関行列を差し引くことにより、目的音声の空間相関行列を求めることができる。
Therefore, the spatial correlation
次に、ステアリングベクトル計算部154が、目的音声のステアリングベクトルとして、目的音声の空間相関行列を固有値分解して第一固有値に対応する固有ベクトルを導出する。
Next, the steering
また、ビームフォーマ推定部155は、推定された目的音声のステアリングベクトルを用いて、目的音声を強調するビームを形成するビームフォーマwfを算出する。具体的に、ビームフォーマ推定部155は、次式(11)に示す条件下において、次式(12)に示す目的関数を最小化することにより、ビームフォーマwfを算出する(非特許文献2参照)。
In addition, the
ここで算出されるビームフォーマwfは、目的音声の音源の空間情報を含むステアリングベクトル方向の音響信号のパワーを減衰させることなく、その他の方向の雑音の音響信号のパワーを減衰させることにより、雑音を抑制するビームを形成することができる。 The beam former w f calculated here attenuates the power of the acoustic signal of noise in the other direction without attenuating the power of the acoustic signal in the steering vector direction including the spatial information of the sound source of the target speech. A beam that suppresses noise can be formed.
図1の説明に戻る。音声強調部15dは、周波数fごとに音響信号のビームを形成するための所定のビームフォーマwfを用いて、観測信号のうち目的音声の音響信号を強調した強調音声の音響信号を算出する。具体的に、音声強調部15dは、目的音声のステアリングベクトルを用いて算出されたビームフォーマwfを初期値として用いて、次式(13)に示すように、観測ベクトルとビームフォーマwfとの内積をとることにより強調音声のビームを形成する。
Returning to the description of FIG.
音声認識部15eは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。
The
ここで、以下の説明において、M個のマイクロホンで収録された観測信号を、次式(14)に示すように表す。 Here, in the following description, an observation signal recorded by M microphones is expressed as shown in the following equation (14).
また、観測ベクトルyf,tを、短時間離散フーリエ変換や短時間離散コサイン変換等の短時間信号分析を適用して求められた時間周波数ごとの信号特徴量Ym,f,tを用いて、次式(15)のように表す。 Also, the observation vector y f, a t, short-time discrete Fourier transform and short time discrete signal feature quantity of each time-frequency determined by applying the short signal analysis cosine transform or the like Y m, f, using the t Is expressed as the following equation (15).
この場合に、音声認識部15eは、次式(16)で表される演算を行って、上記式(13)により求められた強調音声の各時刻における音素の確率分布(以下、音素の事後確率または音素状態事後確率とも記す)を求める。
In this case, the
ここで、強調音声は、各周波数における強調音声を用いて、次式(17)に示すベクトルで表される。 Here, the emphasized speech is expressed by a vector represented by the following equation (17) using the enhanced speech at each frequency.
具体的に、音声認識部15eは、音声強調部15dから上記式(17)に示す強調音声を受け取って、事前に学習されたパラメータの初期値を用いて、線形演算と非線形演算とを複数回繰り返し、次式(18)で表される各時刻の音素の事後確率を出力する。
Specifically, the
また、音声認識部15eは、次式(19)で表されるように、各時刻の強調音声の音素を示すバイナリの参照ラベルを付与する。
Moreover, the
最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwfを最適化する。すなわち、最適化部15fは、音声強調部15dおよび音声認識部15eで構成されるネットワークを、観測ベクトルを入力すると強調音声の音素状態事後確率を出力するネットワークとみなし、出力の最適化を行う。
具体的に、最適化部15fは、上記式(18)で表される各時刻の音素の事後確率と、上記式(19)で表される各時刻の音素の参照ラベルとの間で、次式(20)に示すように定義されるクロスエントロピーを目的関数として、この目的関数を最小化する。
Specifically, the
ここで、最急降下法を適用することにより、ビームフォーマwfの更新式は、次式(21)のように表される。 Here, by applying the steepest descent method, the update formula of the beamformer w f is expressed as the following formula (21).
この場合に、次式(22)に示すように、目的関数の勾配は、微分法における連鎖律を適用してA×Bの形に変形することにより算出できる。 In this case, as shown in the following equation (22), the gradient of the objective function can be calculated by applying the chain rule in the differential method and transforming it into an A × B shape.
すなわち、上記式(22)のAの部分は、ニューラルネットワークのパラメータ推定に適用されるバックプロパゲーションに基づく周知の手法を用いて算出することができる。また、上記式(22)のBの部分については、上記式(13)に基づいて、次式(23)により算出できる。 That is, the part A in the above equation (22) can be calculated by using a well-known method based on backpropagation applied to parameter estimation of the neural network. Further, the portion B of the above formula (22) can be calculated by the following formula (23) based on the above formula (13).
ここで、図3を参照して、最適化部15fの処理を説明する。図3に示すように、最適化部15fは、パラメータ初期化部156、勾配計算部157、パラメータ更新部158および収束判定部159を含む。
Here, the processing of the
パラメータ初期化部156は、最適化部15f内の処理に用いられる各種のパラメータの初期値を設定する。例えば、パラメータ初期化部156は、推定部15cが算出したビームフォーマwfを初期値として勾配計算部157に引き渡す。なお、パラメータ初期化部156は、単位ベクトルをビームフォーマwfの初期値として勾配計算部157に引き渡してもよい。また、パラメータ初期化部156は、上記式(21)に用いられる学習率αをパラメータ更新部158に引き渡す。
The
勾配計算部157は、上記式(22)に示す勾配を算出し、引き渡されたビームフォーマwfの初期値と算出した勾配とをパラメータ更新部158に引き渡す。パラメータ更新部158は、学習率αとビームフォーマwfと勾配とを受け取って、上記式(21)を用いてビームフォーマwfの更新値を算出し、算出したビームフォーマwfを収束判定部159に引き渡す。
The
収束判定部159は、所定の収束条件を満たしているか否かを判定する。収束条件とは、例えば、上記式(21)に示す更新式の反復回数が所定の回数を満たしていること、あるいは、上記式(17)に示した目的関数が収束すること等が例示される。収束条件を満たしていない場合には、収束判定部159は、パラメータ更新部158から受け取ったビームフォーマwfを勾配計算部157に引き渡す。勾配計算部157は、収束判定部159から受け取ったビームフォーマwfを初期値として、上記の処理を繰り返す。これにより、所定の収束条件を満たすまで、パラメータ更新部158がビームフォーマwfの更新値を算出する。
The
所定の収束条件を満たしている場合に、音声認識に最適に更新されたビームフォーマwfが導出されたことを意味する。この場合に、収束判定部159は、ビームフォーマwfの更新値を、直接あるいは推定部15cを介して、音声強調部15dに引き渡す。
This means that the beam former w f updated optimally for speech recognition is derived when a predetermined convergence condition is satisfied. In this case, the
なお、音声認識に最適に更新されたビームフォーマwfを受け取った音声強調部15dが、このビームフォーマwfを用いて、上記式(13)に示すように、音声認識に最適な強調音声のビームを形成し、スピーカ等で実現される出力部12が強調音声を出力する。
Incidentally,
[形成処理]
次に、図4を参照して、形成装置1の形成処理について説明する。図4は、形成装置1の形成処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
[Formation processing]
Next, the forming process of the forming apparatus 1 will be described with reference to FIG. FIG. 4 is a flowchart showing a forming process procedure of the forming apparatus 1. The flowchart of FIG. 4 is started, for example, at a timing when there is an operation input instructing the start of processing.
まず、取得部15aが、音声認識の対象である目的音声の音響信号と、目的音声以外の雑音の音響信号とを含む複数の地点に設置されたマイクで収録された多チャンネルの観測信号を取得する(ステップS1)。
First, the
次に、観測信号から時間周波数分析部15bが生成した観測ベクトルを用いて、推定部15cが目的音声の音源の空間情報を含むステアリングベクトルを推定する(ステップS2)。また、推定部15cは、推定されたステアリングベクトルを用いて、ステアリングベクトル方向の音響信号を強調する強調音声のビームを形成するビームフォーマwfを算出する。
Next, using the observation vector generated by the time-frequency analysis unit 15b from the observation signal, the
音声強調部15dが、推定されたステアリングベクトルを用いて算出されるビームフォーマwfを用いて、強調音声の音響信号を算出する(ステップS3)。
次に、音声認識部15eが、算出された強調音声の音声認識を行う(ステップS4)。すなわち、音声認識部15eは、強調音声の音素の確率分布を推定する。また、音声認識部15eは、強調音声に音素を示す参照ラベルを付与する。
Next, the
最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwfを最適化する。すなわち、最適化部15fは、強調音声の音声認識を最適化するビームフォーマwfを導出することにより、強調音声を最適化する(ステップS5)。
また、出力部12が、最適化された強調音声を出力する(ステップS6)。これにより、一連の形成処理が終了する。
Further, the
以上、説明したように、本実施形態の形成装置1では、取得部15aは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。また、音声強調部15dは、周波数ごとに音響信号のビームを形成するための所定のビームフォーマwfを用いて、観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出する。また、音声認識部15eは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。また、最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwfを最適化する。
As described above, in the forming apparatus 1 of the present embodiment, the
これにより、形成装置1は、雑音を抑制して目的音声の音声を強調したビームを、音声認識に最適に形成することができる。したがって、環境に応じて音声認識に最適な音声強調を行うことが可能となる。例えば、雑音下でのスマートフォンの操作や検索、会話や講義の自動書き起こし等の際に高精度な音声認識を行える。 Accordingly, the forming apparatus 1 can optimally form a beam that suppresses noise and emphasizes the voice of the target voice for voice recognition. Therefore, it is possible to perform speech enhancement optimal for speech recognition according to the environment. For example, high-accuracy voice recognition can be performed during operations such as smartphone operations and searches under noisy, automatic transcription of conversations and lectures, and the like.
なお、推定部15cが、観測信号の所定の長さの同一の短時間区間tにおける周波数fごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数毎に目的音声の音源の空間情報を含むステアリングベクトルを推定し、推定したステアリングベクトルを用いてビームフォーマwfを算出する。これにより、最適化部15fの処理に用いられるビームフォーマwfの初期値として、雑音を抑制するビームを形成するビームフォーマwfを算出できる。
Note that the
また、最適化部15fは、周波数fごとのビームフォーマwfの全てを更新しなくてもよい。背景雑音の状況等に応じて、例えば、一部の周波数fについてのみが更新されてもよい。あるいは、各周波数fについてのビームフォーマwfの成分のうち、ベクトルの一部の成分のみが更新されてもよい。これにより、形成処理1の処理負荷を軽減することができる。
Moreover, the
[実施例]
上記実施形態に係る形成装置1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合について、実験を行った。ここで、学習率αは6×103とした。また、ビームフォーマwfの初期値は、上記式(4)に示す尤度関数を最大化するように求めた値とした。また、上記式(21)に示すビームフォーマwfの更新式の反復回数は30回とした。
[Example]
Using the forming apparatus 1 according to the above-described embodiment, in an environment where background noise exists such as in a bus or a cafe, a speaker reads a voice reading a sentence toward the tablet, and M = 6 attached to the tablet. An experiment was conducted for recording with a single microphone. Here, the learning rate α is set to 6 × 10 3 . The initial value of the beamformer w f has a value determined so as to maximize the likelihood function shown in the equation (4). In addition, the number of repetitions of the beamformer w f update equation shown in the above equation (21) is 30 times.
この場合に、形成装置1を用いずに音声認識を行った場合の単語認識誤差率は16.80%であった。これ対し、最適化部15fによる処理を行う前のビームフォーマwfの初期値による強調音声の音声認識を行った場合の単語認識誤差率は9.06%であった。また、最適化部15fにより更新したビームフォーマによる強調音声の音声認識を行った場合の単語認識誤差率は8.89%であった。このように、本実施形態の形成装置1による形成処理の効果を確認できた。
In this case, the word recognition error rate when speech recognition was performed without using the forming apparatus 1 was 16.80%. This contrast, word recognition error rate in the case of performing speech recognition of the initial value due to enhanced speech before the beamformer w f for performing a process by the optimizing
[プログラム]
上記実施形態に係る形成装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、形成装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の形成処理を実行する形成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の形成プログラムを情報処理装置に実行させることにより、情報処理装置を形成装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の形成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、形成装置1は、観測信号を入力とし、強調音声を出力する形成処理サービスを提供するサーバ装置として実装される。この場合、形成装置1は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の形成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、形成装置1と同様の機能を実現する形成プログラムを実行するコンピュータの一例を説明する。
[program]
It is also possible to create a program in which processing executed by the forming apparatus 1 according to the above embodiment is described in a language that can be executed by a computer. As an embodiment, the forming apparatus 1 can be implemented by installing a forming program for executing the forming process as package software or online software on a desired computer. For example, the information processing apparatus can function as the forming apparatus 1 by causing the information processing apparatus to execute the above forming program. The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, the information processing apparatus includes mobile communication terminals such as smart phones, mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDA (Personal Digital Assistants). In addition, a terminal device used by a user can be a client, and the client can be implemented as a server device that provides services related to the above-described formation processing to the client. For example, the forming apparatus 1 is implemented as a server apparatus that provides a forming process service that receives an observation signal and outputs an emphasized voice. In this case, the forming apparatus 1 may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above-described forming processing by outsourcing. Hereinafter, an example of a computer that executes a forming program that realizes the same function as the forming apparatus 1 will be described.
図5に示すように、形成プログラムを実行するコンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
As shown in FIG. 5, the
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
The
ここで、図5に示すように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ1031やメモリ1010に記憶される。
Here, as shown in FIG. 5, the hard disk drive 1031 stores, for example, an
また、形成プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した形成装置1が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
Further, the forming program is stored in the hard disk drive 1031 as a
また、形成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
Data used for information processing by the forming program is stored as
なお、形成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、形成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。 As mentioned above, although embodiment which applied the invention made | formed by this inventor was described, this invention is not limited with the description and drawing which make a part of indication of this invention by this embodiment. That is, other embodiments, examples, operational techniques, and the like made by those skilled in the art based on this embodiment are all included in the scope of the present invention.
1 形成装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 取得部
15b 時間周波数分析部
15c 推定部
15d 音声強調部
15e 音声認識部
15f 最適化部
DESCRIPTION OF SYMBOLS 1
Claims (5)
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、
を備えることを特徴とする形成装置。 An acquisition unit for acquiring observation signals at a plurality of points including an acoustic signal of a target speech that is a target of speech recognition and an acoustic signal of noise other than the target speech;
Using a predetermined beamformer for forming a beam of an acoustic signal for each frequency, a speech enhancement unit that calculates an acoustic signal of an enhanced speech in which the acoustic signal of the target speech is enhanced among the observation signals;
A speech recognition unit that estimates a probability distribution of the calculated phoneme of the emphasized speech and assigns a reference label indicating the phoneme to the emphasized speech;
An optimization unit for optimizing the beamformer so as to minimize a difference between the reference label and a phoneme probability distribution of the emphasized speech;
A forming apparatus comprising:
前記音声強調部は、算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出することを特徴とする請求項1に記載の形成装置。 Furthermore, by separating and estimating the probability distribution of the combination of signals that do not include the acoustic signal of the target speech among the combinations of signals for each frequency in the same short period of the predetermined length of the observation signal, Estimating a steering vector including spatial information of the sound source of the target speech for each frequency, and comprising an estimation unit that calculates a beamformer using the steering vector,
The speech enhancement unit calculates an acoustic signal of an enhanced speech in which the acoustic signal of the target speech is enhanced among the observation signals using the calculated beam former as an initial value. The forming apparatus as described.
音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得工程と、
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調工程と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識工程と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化工程と、
を含むことを特徴とする形成方法。 A forming method executed by a forming apparatus,
An acquisition step of acquiring observation signals at a plurality of points including an acoustic signal of a target speech that is a target of speech recognition and an acoustic signal of noise other than the target speech;
Using a predetermined beamformer for forming a beam of an acoustic signal for each frequency, a speech enhancement step of calculating an acoustic signal of an enhanced speech in which the acoustic signal of the target speech is enhanced among the observation signals;
A speech recognition step of estimating the calculated probability distribution of the phoneme of the emphasized speech and adding a reference label indicating the phoneme to the emphasized speech;
An optimization step of optimizing the beamformer to minimize the difference between the reference label and the phonetic probability distribution of the enhanced speech;
The formation method characterized by including.
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調ステップと、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識ステップと、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化ステップと、
をコンピュータに実行させることを特徴とする形成プログラム。 An acquisition step of acquiring observation signals at a plurality of points including an acoustic signal of a target speech that is a target of speech recognition and an acoustic signal of noise other than the target speech;
Using a predetermined beamformer for forming a beam of acoustic signals for each frequency, a speech enhancement step of calculating an acoustic signal of enhanced speech in which the acoustic signal of the target speech is enhanced among the observed signals;
A speech recognition step of estimating the calculated probability distribution of the phoneme of the emphasized speech and adding a reference label indicating the phoneme to the emphasized speech;
An optimization step of optimizing the beamformer so as to minimize the difference between the reference label and the phoneme probability distribution of the enhanced speech;
A program for causing a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017019449A JP6711765B2 (en) | 2017-02-06 | 2017-02-06 | Forming apparatus, forming method, and forming program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017019449A JP6711765B2 (en) | 2017-02-06 | 2017-02-06 | Forming apparatus, forming method, and forming program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018128500A true JP2018128500A (en) | 2018-08-16 |
| JP6711765B2 JP6711765B2 (en) | 2020-06-17 |
Family
ID=63172697
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017019449A Active JP6711765B2 (en) | 2017-02-06 | 2017-02-06 | Forming apparatus, forming method, and forming program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6711765B2 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020141160A (en) * | 2019-02-26 | 2020-09-03 | 国立大学法人 筑波大学 | Sound information processing equipment and programs |
| CN112216298A (en) * | 2019-07-12 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | Method, device and equipment for orienting sound source by double-microphone array |
| JPWO2021255925A1 (en) * | 2020-06-19 | 2021-12-23 | ||
| JP2025000790A (en) * | 2019-03-10 | 2025-01-07 | カードーム テクノロジー リミテッド | Speech enhancement using clustering of cue |
-
2017
- 2017-02-06 JP JP2017019449A patent/JP6711765B2/en active Active
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020141160A (en) * | 2019-02-26 | 2020-09-03 | 国立大学法人 筑波大学 | Sound information processing equipment and programs |
| JP7182168B2 (en) | 2019-02-26 | 2022-12-02 | 国立大学法人 筑波大学 | Sound information processing device and program |
| JP2025000790A (en) * | 2019-03-10 | 2025-01-07 | カードーム テクノロジー リミテッド | Speech enhancement using clustering of cue |
| CN112216298A (en) * | 2019-07-12 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | Method, device and equipment for orienting sound source by double-microphone array |
| CN112216298B (en) * | 2019-07-12 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | Dual microphone array sound source orientation method, device and equipment |
| JPWO2021255925A1 (en) * | 2020-06-19 | 2021-12-23 | ||
| WO2021255925A1 (en) * | 2020-06-19 | 2021-12-23 | 日本電信電話株式会社 | Target sound signal generation device, target sound signal generation method, and program |
| JP7428251B2 (en) | 2020-06-19 | 2024-02-06 | 日本電信電話株式会社 | Target sound signal generation device, target sound signal generation method, program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6711765B2 (en) | 2020-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
| Drude et al. | NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing | |
| JP6434657B2 (en) | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program | |
| EP3078020B1 (en) | Method and apparatus for speech recognition using neural networks with speaker adaptation | |
| US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
| US12254250B2 (en) | Mask estimation device, mask estimation method, and mask estimation program | |
| JP6517760B2 (en) | Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program | |
| JP7112348B2 (en) | SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM | |
| JP6711765B2 (en) | Forming apparatus, forming method, and forming program | |
| CN110998723A (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
| CN115699170B (en) | Text echo cancellation | |
| JP2018141922A (en) | Steering vector estimation device, steering vector estimating method and steering vector estimation program | |
| JP6538624B2 (en) | Signal processing apparatus, signal processing method and signal processing program | |
| JP6636973B2 (en) | Mask estimation apparatus, mask estimation method, and mask estimation program | |
| WO2022123742A1 (en) | Speaker diarization method, speaker diarization device, and speaker diarization program | |
| JP5647159B2 (en) | Prior distribution calculation device, speech recognition device, prior distribution calculation method, speech recognition method, program | |
| JP2021157145A (en) | Inference device and learning method of inference device | |
| JP2021033466A (en) | Encoding device, decoding device, parameter learning device, and program | |
| US12482479B2 (en) | Acoustic signal enhancement apparatus, method and program | |
| WO2023013081A1 (en) | Learning device, estimation device, learning method, and learning program | |
| US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
| JP6930408B2 (en) | Estimator, estimation method and estimation program | |
| WO2025046906A1 (en) | Signal processing device and signal processing method | |
| WO2020035998A1 (en) | Language-model-score calculation device, learning device, method for calculating language model score, learning method, and program | |
| JPWO2016092837A1 (en) | Audio processing device, noise suppression device, audio processing method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181210 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191017 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191212 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200528 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6711765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |