JP2001117580A - Audio signal processing device and audio signal processing method - Google Patents
Audio signal processing device and audio signal processing methodInfo
- Publication number
- JP2001117580A JP2001117580A JP30027299A JP30027299A JP2001117580A JP 2001117580 A JP2001117580 A JP 2001117580A JP 30027299 A JP30027299 A JP 30027299A JP 30027299 A JP30027299 A JP 30027299A JP 2001117580 A JP2001117580 A JP 2001117580A
- Authority
- JP
- Japan
- Prior art keywords
- note
- audio signal
- observation
- probability
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 80
- 238000012545 processing Methods 0.000 title claims description 34
- 238000003672 processing method Methods 0.000 title claims description 25
- 230000007704 transition Effects 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011295 pitch Substances 0.000 description 52
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】
【課題】 入力される歌声や楽器音などの音声が譜面の
どの位置にいるかをより正確に検出することが可能とす
る。
【解決手段】 まず、音声信号が入力されると、その音
声信号を所定の時間(フレーム)単位で区切り、フレー
ム単位の音声信号から特徴パラメータを取得する。そし
て、取得した特徴パラメータを符号帳を参照することに
より、シンボル量子化し、音符辞書を参照してシンボル
観測確率を取得する。そして、予め記憶された音符列に
したがって隠れマルコフモデルが形成し、ビタービアル
ゴリズムを用いて入力音声のフレームに対応する音符を
特定する。これにより、入力音声が音符列のどの位置に
いるかを特定できる。
(57) [Summary] [Problem] It is possible to more accurately detect the position of an input singing voice or a musical instrument sound on a musical score. First, when an audio signal is input, the audio signal is divided into predetermined time units (frames), and characteristic parameters are obtained from the audio signals in frame units. Then, the obtained feature parameters are symbol-quantized by referring to the codebook, and the symbol observation probability is obtained by referring to the note dictionary. Then, a hidden Markov model is formed in accordance with the note sequence stored in advance, and the note corresponding to the frame of the input voice is specified using the Viterbi algorithm. As a result, it is possible to specify the position of the input voice in the note sequence.
Description
【0001】[0001]
【発明の属する技術分野】本発明は、予め記憶された音
符列と入力音声とを時系列で対応付ける音声信号処理装
置および音声信号処理方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio signal processing apparatus and an audio signal processing method for associating a previously stored note sequence with an input audio in a time series.
【0002】[0002]
【従来の技術】従来より、楽器音のピッチや発音時間を
検出することによって、現時点で楽器音譜面のどの位置
にいるかを追従するための方法が考えられている(例え
ば、 "An On-Line Algorithm for Real-time Accompanm
ient"(R. Dannenberg. Proceedings of the ICMC 198
4)や、"The Synthetic performer in the Context of
Live Musical Performance"(B. Vercoe. Proceedings
of the ICMC 1984.)などに記載された方法)。2. Description of the Related Art Conventionally, there has been proposed a method for following a current position of an instrumental music score by detecting a pitch or a sounding time of an instrumental sound (for example, "An On-Line"). Algorithm for Real-time Accompanm
ient "(R. Dannenberg. Proceedings of the ICMC 198
4) and "The Synthetic performer in the Context of
Live Musical Performance "(B. Vercoe. Proceedings
of the ICMC 1984.)).
【0003】[0003]
【発明が解決しようとする課題】しかし、実際の演奏や
歌声は、完全に譜面通りに進行するとは限らず、微妙な
テンポ、タイミングピッチのずれや、揺らぎなどの不確
定な要素が悪影響を与え、上述した従来の手法では、楽
器音や歌声を譜面のどこにいるかを正確に検出すること
ができない場合がある。However, actual performances and singing voices do not always progress completely according to the musical score, and uncertain factors such as subtle tempo, timing pitch shift, and fluctuations have an adverse effect. However, with the above-described conventional method, it may not be possible to accurately detect where the musical instrument sound or the singing voice is located on the musical score.
【0004】本発明は、上記の事情を考慮してなされた
ものであり、入力される歌声や楽器音などの音声が譜面
のどの位置にいるかをより正確に検出することが可能な
音声信号処理装置、および音声信号処理方法を提供する
ことを目的とする。[0004] The present invention has been made in view of the above circumstances, and provides an audio signal processing capable of more accurately detecting the position of an input singing voice or instrument sound on a musical score. It is an object to provide an apparatus and an audio signal processing method.
【0005】[0005]
【課題を解決するための手段】上記課題を解決するた
め、本発明の請求項1に記載の音声信号処理装置は、入
力音声を音符列のいずれかの音符と対応付ける音声信号
処理装置であって、時間列で記述された音符列情報を記
憶する音符列記憶手段と、フレーム単位で入力される音
声信号から特徴パラメータを取得するパラメータ取得手
段と、音声信号の代表的な特徴パラメータを特徴ベクト
ルとしてシンボルにクラスタ化した符号帳と、各音符毎
に状態数、状態遷移確率および前記シンボルの観測確率
とを記憶した認識用音符情報記憶手段と、前記認識用音
符情報記憶手段を参照することにより、前記パラメータ
取得手段により取得された特徴パラメータから前記入力
音声の観測シンボルを取得し、該観測シンボルの観測確
率を取得する観測確率取得手段と、前記認識用音符情報
記憶手段に記憶された状態数および状態遷移確率に基づ
いて、前記音符列情報記憶手段に記憶された前記音符列
の各状態を有限状態ネットワーク上で隠れマルコフモデ
ルによって形成する状態形成手段と、前記観測確率取得
手段によって取得された観測確率と、前記状態形成手段
により形成された前記隠れマルコフモデルとにしたがっ
て状態遷移を決定する状態遷移決定手段と、前記状態遷
移決定手段によって決定された状態遷移に基づいて、前
記入力音声信号の各フレームと前記音符列情報とを対応
付ける対応付け手段とを具備することを特徴としてい
る。According to a first aspect of the present invention, there is provided an audio signal processing apparatus for associating an input voice with one of notes in a note sequence. Note string storage means for storing note string information described in a time sequence, parameter acquisition means for acquiring feature parameters from a speech signal input in frame units, and representative feature parameters of the speech signal as feature vectors. By referring to the codebook clustered into symbols, the number of states for each note, the state transition probability, and the note information storage means for recognition storing the observation probability of the symbol, by referring to the note information storage means for recognition, Observation symbols of the input voice are acquired from the characteristic parameters acquired by the parameter acquisition means, and the observation probability of acquiring the observation probability of the observation symbols is acquired. An acquisition unit, and based on the number of states and a state transition probability stored in the recognition note information storage unit, store each state of the note sequence stored in the note sequence information storage unit on a finite state network using a hidden Markov model. State forming means, the state transition determining means for determining a state transition according to the observation probability obtained by the observation probability obtaining means, and the hidden Markov model formed by the state forming means, and the state transition The image processing apparatus further includes a correspondence unit that associates each frame of the input audio signal with the note string information based on the state transition determined by the determination unit.
【0006】また、請求項2に記載の音声信号処理装置
は、請求項1に記載の音声信号処理装置において、前記
対応付け手段による対応付け結果に基づいて、現在の入
力音声が前記音符列情報のどの部分であるかを表示する
表示手段をさらに具備することを特徴としている。According to a second aspect of the present invention, in the audio signal processing apparatus according to the first aspect, based on a result of the association by the associating means, a current input speech is converted to the note string information. The display device further comprises display means for displaying which part of the image is.
【0007】また、請求項3に記載の音声信号処理装置
は、請求項1または2に記載の音声信号処理装置におい
て、前記パラメータ取得手段は、入力される音声信号か
ら少なくともエネルギー、デルタエネルギー、ゼロクロ
ス、ピッチ、デルタピッチおよびピッチエラーを特徴パ
ラメータとして取得することを特徴としている。According to a third aspect of the present invention, in the audio signal processing apparatus according to the first or second aspect, the parameter acquiring means determines at least energy, delta energy, and zero crossing from an input audio signal. , Pitch, delta pitch, and pitch error as characteristic parameters.
【0008】また、請求項4に記載の音声信号処理装置
は、請求項3に記載の音声信号処理装置において、前記
認識用音符情報記憶手段に記憶されたエネルギー、デル
タエネルギー、ゼロクロス、デルタピッチおよびピッチ
エラーの5種の観測確率は、ガウス分布を用いた観測関
数を用いて算出されており、前記認識用音符情報記憶手
段に記憶されたピッチの観測確率は、ガウス分布を用い
た観測関数とステップ観測確率関数とを用いて算出され
ており、このピッチの観測確率を算出する際に、前記ピ
ッチの有無に応じて前記ガウス分布を用いた観測関数と
前記ステップ観測関数とを使い分けるようにしたことを
特徴としている。According to a fourth aspect of the present invention, in the audio signal processing apparatus according to the third aspect, the energy, delta energy, zero cross, delta pitch, and energy stored in the recognition note information storage means are stored. The five observation probabilities of the pitch error are calculated using an observation function using a Gaussian distribution, and the observation probabilities of the pitches stored in the recognition note information storage means are the same as the observation function using a Gaussian distribution. It is calculated using a step observation probability function, and when calculating the observation probability of this pitch, the observation function using the Gaussian distribution and the step observation function are selectively used depending on the presence or absence of the pitch. It is characterized by:
【0009】また、請求項5に記載の音声信号処理装置
は、請求項3または4のいずれかに記載の音声信号処理
装置において、前記状態形成手段は、ピッチの有る音、
ピッチの無い音、無音に応じて3種類のleft-to-right
型の隠れマルコフモデルを形成し、前記ピッチの有る音
およびピッチの無い音を3状態のモデルとして形成し、
前記ピッチの無い音を1状態のモデルとして形成するこ
とを特徴としている。According to a fifth aspect of the present invention, in the audio signal processing apparatus according to any one of the third and fourth aspects, the state forming means includes a sound having a pitch,
3 types of left-to-right depending on the pitchless sound and silence
Forming a hidden Markov model of the pattern, forming the pitched sound and the pitchless sound as a three-state model,
It is characterized in that the pitchless sound is formed as a one-state model.
【0010】また、請求項6に記載の音声信号処理装置
は、請求項5に記載の音声信号処理装置において、前記
状態形成手段は、前記ピッチの有る音の隠れマルコフモ
デルを形成する際、前音符とスラーで接続された音符と
単音符とを別のモデルとして形成することを特徴として
いる。According to a sixth aspect of the present invention, in the audio signal processing apparatus according to the fifth aspect, when the state forming means forms the hidden Markov model of the sound having the pitch, It is characterized in that a note and a note connected by a slur and a single note are formed as different models.
【0011】また、請求項7に記載の音声信号処理装置
は、請求項1ないし6のいずれかに記載の音声信号処理
装置において、学習用楽音波形データと該楽音波形を音
符化した学習用音符列データとを入力する入力手段と、
前記入力手段から入力される学習用音符列データの音符
毎に有限ネットワーク上で隠れマルコフモデルを形成す
る学習用モデル形成手段と、学習時に、前記学習用モデ
ル形成手段により形成されたモデルの尤度が最大となる
パラメータをk平均アルゴリズムにより推定するパラメ
ータ推定手段とをさらに備え、前記認識用音符情報記憶
手段は、前記パラメータ推定手段によって推定されたパ
ラメータにより求められた各音符における特徴ベクトル
の状態遷移確率および観測確率を記憶することを特徴と
している。According to a seventh aspect of the present invention, there is provided the audio signal processing apparatus according to any one of the first to sixth aspects, wherein the learning musical tone waveform data and the learning musical note obtained by converting the musical tone waveform into a musical note. Input means for inputting column data;
A learning model forming means for forming a hidden Markov model on a finite network for each note of the learning note sequence data input from the input means, and a likelihood of the model formed by the learning model forming means during learning. Parameter estimating means for estimating a parameter having a maximum value by a k-means algorithm, wherein the recognition note information storing means includes a state transition of a feature vector in each note obtained by the parameter estimated by the parameter estimating means. It is characterized by storing probabilities and observation probabilities.
【0012】また、請求項8に記載の音声信号処理装置
は、請求項1ないし7のいずれかに記載の音声信号処理
装置において、前記状態遷移決定手段は、ビタービアル
ゴリズムによって状態遷移を決定することを特徴として
いる。According to an eighth aspect of the present invention, in the audio signal processing apparatus according to any one of the first to seventh aspects, the state transition determining means determines a state transition by a Viterbi algorithm. It is characterized by:
【0013】また、請求項9に記載の音声信号処理装置
は、請求項8に記載の音声信号処理装置において、前記
音符列記憶手段は、前記音符列に対応する持続時間デー
タを記憶しており、前記状態遷移決定手段は、前記音符
列記憶手段に記憶された持続時間データを前記ビタービ
アルゴリズムに含めることを特徴としている。According to a ninth aspect of the present invention, in the audio signal processing apparatus according to the eighth aspect, the note string storing means stores duration data corresponding to the note string. The state transition determining means includes the duration data stored in the note string storage means in the Viterbi algorithm.
【0014】また、請求項10に記載の音声信号処理方
法は、入力音声を予め記憶された音符列のいずれかの音
符と対応付ける音声信号処理方法であって、フレーム単
位で入力される音声信号から特徴パラメータを取得する
パラメータ取得ステップと、予め記憶された音声信号の
代表的な特徴パラメータを特徴ベクトルとしてシンボル
にクラスタ化した符号帳と、各音符毎に状態数、状態遷
移確率および前記シンボルの観測確率とを参照すること
により、前記パラメータ取得ステップにより取得された
特徴パラメータから前記入力音声の観測シンボルを取得
し、該観測シンボルの観測確率を取得する観測確率取得
ステップと、予め記憶された状態数および状態遷移確率
に基づいて、予め記憶された音符列の各状態を有限状態
ネットワーク上で隠れマルコフモデルによって形成する
状態形成ステップと、前記観測確率取得ステップによっ
て取得された観測確率と、前記状態形成ステップにより
形成された前記隠れマルコフモデルとにしたがって状態
遷移を決定する状態遷移決定ステップと、前記状態遷移
決定ステップによって決定された状態遷移に基づいて、
前記入力音声信号の各フレームと前記音符列情報とを対
応付ける対応付けステップとを具備することを特徴とし
ている。According to a tenth aspect of the present invention, there is provided an audio signal processing method for associating an input voice with any one of notes stored in advance in a note sequence. A parameter acquisition step of acquiring characteristic parameters, a codebook in which symbols representative of pre-stored representative characteristic parameters of the audio signal are clustered into symbols, a state number, a state transition probability, and observation of the symbol for each note An observation probability acquisition step of acquiring an observation symbol of the input voice from the feature parameter acquired in the parameter acquisition step by referring to the probability, and an observation probability acquisition step of acquiring an observation probability of the observation symbol; and a state number stored in advance. Based on the state transition probability and each state of the note sequence stored in advance, State formation step formed by the Markov model, the observation probability acquired by the observation probability acquisition step, and a state transition determination step of determining a state transition according to the hidden Markov model formed by the state formation step, Based on the state transition determined by the state transition determining step,
A step of associating each frame of the input audio signal with the note sequence information.
【0015】また、請求項11に記載の音声信号処理方
法は、請求項10に記載の音声信号処理方法において、
前記対応付けステップによる対応付け結果に基づいて、
現在の入力音声が前記音符列情報のどの部分であるかを
表示する表示ステップをさらに具備することを特徴とし
ている。The audio signal processing method according to claim 11 is the audio signal processing method according to claim 10,
Based on the result of the association by the association step,
It is characterized by further comprising a display step of displaying which part of the note string information the current input voice is.
【0016】また、請求項12に記載の音声信号処理方
法は、請求項10または11に記載の音声信号処理方法
において、前記パラメータ取得ステップでは、入力され
る音声信号から少なくともエネルギー、デルタエネルギ
ー、ゼロクロス、ピッチ、デルタピッチおよびピッチエ
ラーを特徴パラメータとして取得することを特徴として
いる。According to a twelfth aspect of the present invention, in the audio signal processing method according to the tenth or eleventh aspect, in the parameter acquiring step, at least energy, delta energy, and zero-crossing from an input audio signal are obtained. , Pitch, delta pitch, and pitch error as characteristic parameters.
【0017】また、請求項13に記載の音声信号処理方
法は、請求項12に記載の音声信号処理方法において、
前記エネルギー、デルタエネルギー、ゼロクロス、デル
タピッチおよびピッチエラーの5種の観測確率を、ガウ
ス分布を用いた観測関数を用いて算出して記憶する第1
の観測確率算出ステップと、前記ピッチの観測確率を、
ガウス分布を用いた観測関数とステップ観測確率関数と
を用い、前記ピッチの有無に応じて前記ガウス分布を用
いた観測関数と前記ステップ観測関数とを使い分けて算
出して記憶する第2の観測確率算出ステップとをさらに
具備し、前記観測確率取得ステップでは、前記第1およ
び第2の観測確率算出ステップで記憶された観測確率を
参照することにより観測確率を取得することを特徴とし
ている。According to a thirteenth aspect of the present invention, in the audio signal processing method according to the twelfth aspect,
First, the five observation probabilities of the energy, delta energy, zero cross, delta pitch, and pitch error are calculated and stored using an observation function using a Gaussian distribution.
Observation probability calculation step, the observation probability of the pitch,
A second observation probability calculated and stored by using an observation function using the Gaussian distribution and the step observation function in accordance with the presence or absence of the pitch, using an observation function using a Gaussian distribution and a step observation probability function. And a calculation step, wherein the observation probability is obtained by referring to the observation probabilities stored in the first and second observation probability calculation steps.
【0018】また、請求項14に記載の音声信号処理方
法は、請求項12または13のいずれかに記載の音声信
号処理方法において、前記状態形成ステップでは、ピッ
チの有る音、ピッチの無い音、無音に応じて3種類のle
ft-to-right型の隠れマルコフモデルを形成し、前記ピ
ッチの有る音およびピッチの無い音を3状態のモデルと
して形成し、前記ピッチの無い音を1状態のモデルとし
て形成することを特徴としている。According to a fourteenth aspect of the present invention, in the audio signal processing method according to any one of the twelfth and thirteenth aspects, in the state forming step, a sound having a pitch, a sound having no pitch, 3 types of le according to silence
forming a hidden Markov model of the ft-to-right type, forming the pitched sound and the pitchless sound as a three-state model, and forming the pitchless sound as a one-state model. I have.
【0019】また、請求項15に記載の音声信号処理方
法は、請求項14に記載の音声信号処理方法において、
前記状態形成ステップでは、前記ピッチの有る音の隠れ
マルコフモデルを形成する際、前音符とスラーで接続さ
れた音符と単音符とを別のモデルとして形成することを
特徴としている。According to a fifteenth aspect of the present invention, in the audio signal processing method according to the fourteenth aspect,
In the state forming step, when forming the hidden Markov model of the sound having the pitch, a note connected to the preceding note by a slur and a single note are formed as different models.
【0020】また、請求項16に記載の音声信号処理方
法は、請求項10ないし15のいずれかに記載の音声信
号処理方法において、学習用楽音波形データと該楽音波
形を音符化した学習用音符列データとを入力する入力ス
テップと、前記入力ステップで入力される学習用音符列
データの音符毎に有限ネットワーク上で隠れマルコフモ
デルを形成する学習用モデル形成ステップと、学習時
に、前記学習用モデル形成手段により形成されたモデル
の尤度が最大となるパラメータをk平均アルゴリズムに
より推定するパラメータ推定ステップと、前記パラメー
タ推定ステップによって推定されたパラメータにより求
められた各音符における特徴ベクトルの状態遷移確率お
よび観測確率を記憶する確率記憶ステップとを備え、前
記観測確率取得ステップでは、前記確率記憶ステップに
より記憶された観測確率を参照することにより観測確率
を取得し、前記状態形成ステップでは、前記確率記憶ス
テップにより記憶された状態遷移確率に基づいて、予め
記憶された音符列の各状態を有限状態ネットワーク上で
隠れマルコフモデルによって形成することを特徴として
いる。A sound signal processing method according to a sixteenth aspect of the present invention is the audio signal processing method according to any one of the tenth to fifteenth aspects, wherein the learning musical tone waveform data and the learning musical note obtained by converting the musical tone waveform into a musical note. An input step of inputting column data; a learning model forming step of forming a hidden Markov model on a finite network for each note of the learning note string data input in the input step; A parameter estimating step of estimating a parameter with the maximum likelihood of the model formed by the forming means by a k-means algorithm; and a state transition probability of a feature vector in each note obtained by the parameter estimated by the parameter estimating step; A probability storage step of storing an observation probability. In the step, the observation probability is obtained by referring to the observation probability stored in the probability storage step, and in the state forming step, a note stored in advance based on the state transition probability stored in the probability storage step is used. It is characterized in that each state of the sequence is formed by a hidden Markov model on a finite state network.
【0021】また、請求項17に記載の音声信号処理方
法は、請求項10ないし16のいずれかに記載の音声信
号処理方法において、前記状態遷移決定ステップは、ビ
タービアルゴリズムによって状態遷移を決定することを
特徴としている。According to a seventeenth aspect of the present invention, in the audio signal processing method according to any one of the tenth to sixteenth aspects, the state transition determining step determines a state transition by a Viterbi algorithm. It is characterized by:
【0022】また、請求項18に記載の音声信号処理方
法は、請求項17に記載の音声信号処理方法において、
前記状態遷移決定ステップでは、予め記憶された音符列
に対応する持続時間データを前記ビタービアルゴリズム
に含めることを特徴としている。The audio signal processing method according to the eighteenth aspect is the audio signal processing method according to the seventeenth aspect,
In the state transition determining step, duration data corresponding to a note sequence stored in advance is included in the Viterbi algorithm.
【0023】[0023]
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。 A.実施形態の構成 A−1.全体構成 まず、図1は本発明の一実施形態に係る音声信号処理装
置の構成を示す図である。同図において、符号1はマイ
クであり、歌唱者の歌声や楽器音などの音を収集し、入
力音声信号Svとして入力音声信号切出部3に出力す
る。符号2は分析窓生成部であり、分析窓生成部2は前
回のフレームで検出したピッチの周期の固定倍の周期を
有する分析窓(例えば、ハミング窓)AWを生成し、入
力音声信号切出部3に出力する。なお、初期状態もしく
は前回のフレームが無音の場合には、予め設定した固定
周期の分析窓を分析窓AWとして入力音声信号切出部3
に出力する。Embodiments of the present invention will be described below with reference to the drawings. A. Configuration of Embodiment A-1. 1. Overall Configuration First, FIG. 1 is a diagram showing a configuration of an audio signal processing device according to an embodiment of the present invention. In FIG. 1, reference numeral 1 denotes a microphone, which collects sounds such as a singer's singing voice and a musical instrument sound, and outputs the collected sounds to an input audio signal cutout unit 3 as an input audio signal Sv. Reference numeral 2 denotes an analysis window generation unit. The analysis window generation unit 2 generates an analysis window (for example, a hamming window) AW having a period that is a fixed multiple of the period of the pitch detected in the previous frame, and cuts out an input audio signal. Output to section 3. When the initial state or the previous frame is silent, the analysis window AW is used as an analysis window of a fixed period set in advance and the input audio signal extracting unit 3.
Output to
【0024】入力音声信号切出部3は、入力された分析
窓AWと入力音声信号Svとを掛け合わせ、入力音声信
号Svをフレーム単位で切り出し、フレーム音声信号F
Svとして高速フーリエ変換部4に出力する。高速フー
リエ変換部4は、フレーム音声信号FSvから周波数ス
ペクトルを求め、特徴パラメータ分析部5に出力する。The input audio signal extracting section 3 multiplies the input analysis window AW by the input audio signal Sv, cuts out the input audio signal Sv in frame units, and outputs the frame audio signal Fv.
It is output to the fast Fourier transform unit 4 as Sv. The fast Fourier transform unit 4 obtains a frequency spectrum from the frame audio signal FSv, and outputs the frequency spectrum to the feature parameter analysis unit 5.
【0025】特徴パラメータ分析部5は、入力音声のス
ペクトル特性を特徴づける特徴パラメータを抽出し、シ
ンボル量子化部7に出力する。本実施形態では、特徴パ
ラメータとして後に説明する6種類(エネルギー、デル
タエネルギー、ゼロクロス率、ピッチ周波数、デルタピ
ッチおよびトータルエラー)の特徴ベクトルを用いてい
る。認識用音符情報記憶部6は、後に詳しく説明するよ
うに、符号帳6aと、各音符における特徴ベクトルの状
態数および状態遷移確率とシンボル観測確率とを示す確
率データを記憶した音符辞書6bとを備えている。The characteristic parameter analysis unit 5 extracts a characteristic parameter characterizing the spectral characteristics of the input speech, and outputs the characteristic parameter to the symbol quantization unit 7. In the present embodiment, six types of feature vectors (energy, delta energy, zero-cross rate, pitch frequency, delta pitch, and total error) described later are used as the feature parameters. As will be described later in detail, the recognition note information storage unit 6 stores a codebook 6a and a note dictionary 6b storing probability data indicating the number of states of the feature vector and the state transition probability and the symbol observation probability in each note. Have.
【0026】シンボル量子化部7は、認識用音符情報記
憶部6に記憶された符号帳6aを参照して、そのフレー
ムにおける最大尤度をもつ特徴シンボルを選び出し、選
び出した特徴シンボルの観測確率を音符列状態形成部8
に出力する。The symbol quantization unit 7 selects a characteristic symbol having the maximum likelihood in the frame with reference to the codebook 6a stored in the recognition note information storage unit 6, and determines the observation probability of the selected characteristic symbol. Note row state forming unit 8
Output to
【0027】音符列状態形成部8は、上記認識用音符情
報記憶部6と後述する音符列情報記憶部11とを参照す
ることにより、隠れマルコフモデル(HMM)によって
音符列情報記憶部11に記述された音符列状態を形成す
る。状態遷移決定部9は、シンボル量子化部7から出力
される入力音声から得られたフレーム単位の特徴シンボ
ルの観測確率を用いて、後述するビタービアルゴリズム
にしたがって状態遷移を決定する。これにより、入力音
声の音符をフレーム単位の各時刻において特定できる。The note string state forming unit 8 refers to the recognition note information storage unit 6 and a note string information storage unit 11 described later, and describes the note string information storage unit 11 using a hidden Markov model (HMM). To form a note sequence state. The state transition determination unit 9 determines a state transition according to a Viterbi algorithm described later, using the observation probability of a feature symbol in frame units obtained from the input speech output from the symbol quantization unit 7. Thereby, the note of the input voice can be specified at each time in frame units.
【0028】マッチング部10は、特定された入力音声
のフレーム単位の音符により、入力音声のフレーム単位
の各時刻と、音符列情報記憶部11に記憶された音符列
のいずれの位置であるかを特定し、入力音声と音符列と
の対応付けを行う。表示装置12は、マッチング部10
による入力音声と音符列との対応付け結果を表示する。The matching unit 10 determines the time of each frame of the input speech and the position of the note sequence stored in the note sequence information storage unit 11 based on the specified note of the input speech frame. Identify and associate the input voice with the note sequence. The display device 12 includes the matching unit 10
The result of associating the input voice with the note sequence is displayed.
【0029】A−2.認識用音符情報記憶部 次に、上記認識用音符情報記憶部6に記憶される符号帳
6aおよび音符辞書6bについて説明する。符号帳6a
は、音声信号の代表的な特徴パラメータを特徴ベクトル
として所定数のシンボルにクラスタ化されている。A-2. Recognition note information storage unit Next, the codebook 6a and the note dictionary 6b stored in the recognition note information storage unit 6 will be described. Codebook 6a
Are clustered into a predetermined number of symbols using a representative feature parameter of the audio signal as a feature vector.
【0030】A−2−1.特徴ベクトル まず、符号帳6aについて説明する前に、本実施形態で
用いる6種類の特徴ベクトルについて説明する。A-2-1. Feature Vectors First, before describing the codebook 6a, six types of feature vectors used in the present embodiment will be described.
【0031】エネルギー エネルギーは音の強さを表す係数であり、次式により特
徴ベクトルにパラメータ化される。Energy Energy is a coefficient representing the intensity of sound, and is parameterized into a feature vector by the following equation.
【数1】 デルタエネルギー デルタエネルギーは音の強さを差分として表す係数であ
り、次式により特徴ベクトルにパラメータ化される。(Equation 1) Delta energy Delta energy is a coefficient that represents the sound intensity as a difference, and is parameterized into a feature vector by the following equation.
【数2】 ゼロクロス率 ゼロクロス率は、有声音であるほどゼロクロス率が低く
なる特徴を有するものであり、次式により特徴ベクトル
にパラメータ化される。(Equation 2) Zero-cross rate The zero-cross rate has a feature that the zero-cross rate decreases as the voiced sound becomes, and is parameterized into a feature vector by the following equation.
【数3】 ピッチ周波数 ピッチ周波数は、"Fundamental Frequency Estimation
in the SMS Analysis"(P. Cano. DAFX Proceedings 199
8.)に記載されたTwo-Way Mismatch法により求めること
ができる。(Equation 3) Pitch frequency The pitch frequency is defined as "Fundamental Frequency Estimation
in the SMS Analysis "(P. Cano. DAFX Proceedings 199
It can be determined by the Two-Way Mismatch method described in 8.).
【0032】デルタピッチ デルタピッチは、次式により特徴ベクトルにパラメータ
化される。Delta Pitch Delta pitch is parameterized into a feature vector by the following equation:
【数4】 トータルエラー トータルエラーは、予測ピッチの測定ピッチとのエラ
ー、および測定ピッチの予測ピッチのエラーの2方向か
らのミスマッチを求めることにより有声音らしさを示す
ものである。まず、予測ピッチ(p)の測定ピッチ(m)
とのピッチエラーは次式により表される。(Equation 4) Total Error The total error indicates a voiced soundness by calculating a mismatch between the error of the predicted pitch with the measured pitch and the error of the predicted pitch of the measured pitch from two directions. First, the measured pitch (m) of the predicted pitch (p)
Is expressed by the following equation.
【数5】 上記式において、fkはk番目の予測ピーク周波数、Δ
fkはk番目の予測ピーク周波数と測定ピッチの周波数
差、akはk番目の予測アンプリチュード、Amaxはアン
プリチュードの最大値を示す。一方、測定ピッチ(m)
から予測ピッチ(p)へのピッチエラーは、次式で表さ
れる。(Equation 5) In the above equation, f k is the k-th predicted peak frequency, Δ
f k is the frequency difference between the k-th predicted peak frequency and the measured pitch, a k is the k-th predicted amplitude, and A max is the maximum value of the amplitude. On the other hand, measurement pitch (m)
The pitch error from to the predicted pitch (p) is represented by the following equation.
【数6】 上記式において、fkはk番目の予測ピーク周波数、Δ
fkはk番目の予測ピーク周波数と測定ピッチの周波数
差、akはk番目の予測アンプリチュード、Amaxはアン
プリチュードの最大値を示す。(Equation 6) In the above equation, f k is the k-th predicted peak frequency, Δ
f k is the frequency difference between the k-th predicted peak frequency and the measured pitch, a k is the k-th predicted amplitude, and A max is the maximum value of the amplitude.
【0033】従って、トータルエラーは、次式のように
なる。Therefore, the total error is as follows.
【数7】 A−2−2.音符辞書 音符辞書6bには、各音符毎にleft-to-right型の隠れ
マルコフモデルが記憶されている。ここで、音符辞書6
bには入力音声の物理的特性に応じて3種類のモデルが
用意されている。具体的には、ピッチ有り音、ピッチ無
し音および無音の3種類毎にモデルが用意されている。
また、ピッチ有り音としては、各音程(C0、C#0、
D0、D#0、E0、F0、F#0、G0、G#0…
…)毎にモデル、つまり状態数および状態遷移確率が記
憶されている(図2および図3参照)。また、後述する
ように予めガウス分布等にしたがって算出された各特徴
ベクトルのシンボルに対する観測確率の値が記憶されて
いる。ここで、ピッチ有り音の場合には、状態数は3で
あり、それぞれ発音の立ち上がり(アタック)、定常状
態(ステディー)、リリース状態の3つの状態を擬似的
に表している。(Equation 7) A-2-2. Note dictionary The note dictionary 6b stores a left-to-right type hidden Markov model for each note. Here, note dictionary 6
For b, three types of models are prepared according to the physical characteristics of the input voice. Specifically, models are prepared for each of three types of sounds, pitched sound, pitchless sound, and silence.
As pitched sounds, each pitch (C0, C # 0,
D0, D # 0, E0, F0, F # 0, G0, G # 0 ...
...), The model, that is, the number of states and the state transition probabilities are stored (see FIGS. 2 and 3). In addition, as described later, an observation probability value for each feature vector symbol calculated in advance according to a Gaussian distribution or the like is stored. Here, in the case of a sound with a pitch, the number of states is three, and three states, namely, a rising state (attack), a steady state (steady state), and a release state of the sound are respectively simulated.
【0034】また、本実施形態ではピッチ無し音とし
て、破裂音(/p/,/b/……)や摩擦音(/s/,/sh/……)
毎に1モデルが用意されている。本実施形態では、この
ピッチ無し音のモデルでも状態数がアタック、ステディ
ー、リリースの3状態に設定されており、これにより呼
気音、破裂音、摩擦音等の細かなニュアンスを再現でき
るようにしている。また、無音(SILENCE)の場合は、
状態数は1に設定されている。なお、ピッチ有り音の場
合、スラーで全音と接続された音符に関しては、単音符
とは異なるモデルを用意するようにすれば、より精度の
よい入力音声と音符との対応付けが可能となる。 A−2−3.符号帳 符号帳6aは、上記6種の特徴ベクトルのうち、エネ
ルギー、Δエネルギー、ゼロクロス率、デルタピ
ッチ、およびトータルエラーの5種類により生成さ
れ、クラスタ分けされている。各クラスタには、各シン
ボルを表す典型的なベクトル集合が入っている。(図4
参照)。本実施形態では、符号帳6aの作成の際に、公
知のLBGアルゴリズムを使用している。また、符号帳
6aの作成は、次式で示されるガウス分布の連続密度関
数にしたがってなされる。In the present embodiment, plosive sounds (/ p /, / b /...) And fricative sounds (/ s /, / sh /...) Are used as pitchless sounds.
One model is prepared for each. In the present embodiment, the number of states is set to three states of attack, steady, and release even in the model of the pitchless sound, so that fine nuances such as an expiration sound, a popping sound, and a fricative sound can be reproduced. . In the case of silence (SILENCE),
The number of states is set to one. In the case of a pitched sound, for a note connected to a whole note by a slur, if a model different from a single note is prepared, it is possible to more accurately associate an input voice with a note. A-2-3. Codebook The codebook 6a is generated based on five types of energy, Δ energy, zero cross rate, delta pitch, and total error among the above six types of feature vectors, and is divided into clusters. Each cluster contains a typical set of vectors representing each symbol. (FIG. 4
reference). In the present embodiment, a known LBG algorithm is used when creating the codebook 6a. The codebook 6a is created according to a continuous density function of a Gaussian distribution represented by the following equation.
【数8】 ここで、Cjmは状態jにおける成分mの混合重み係数を
示している。また、N(j;μ,Σj)は平均ベクトル
μと共分散行列Σの多次元ガウス分布を示しているが、
このままでは多次元であることにより学習パラメータの
数が膨大になるため、本実施形態ではN(j;μ,
Σj)を一定の関数としている。(Equation 8) Here, C jm indicates the mixing weight coefficient of the component m in the state j. N (j; μ, Σ j ) indicates a multidimensional Gaussian distribution of the mean vector μ and the covariance matrix Σ,
Since the number of learning parameters becomes enormous due to being multidimensional in this state, N (j; μ,
Σ j ) is a constant function.
【0035】このようなガウス分布にしたがった符号帳
6aを作成するため、フレームにおける量子化ベクトル
Nlの観測系列yt〜lは部分集合Mlとなる。ここで、M
lは作成する符号帳の混合要素の数である。そして、符
号帳6a作成の際には、以下のような演算でパラメータ
が推定されることになる。In order to create the codebook 6a according to such a Gaussian distribution, the observation sequence y t to l of the quantization vector N l in the frame becomes a subset M l . Where M
l is the number of mixed elements in the codebook to be created. When the codebook 6a is created, parameters are estimated by the following calculation.
【数9】 (Equation 9)
【数10】 混合重み係数Cjmは、量子化ベクトルNlmが符号帳のm
番目に混合されるときに用いられ、以下の式のように表
される。(Equation 10) The mixing weight coefficient C jm is obtained by calculating the quantization vector N lm
It is used at the time of the second mixing, and is represented by the following equation.
【数11】 次に、本実施形態では、上記5種類以外の特徴ベクトル
であるピッチ周波数については、その観測確率を算出
する際に用いる関数は、ピッチ有り音と、ピッチ無し音
又は無音の場合の2通りに分けられている。ここで、図
5(a)はピッチ有り音の場合の観測確率b(y)を算
出するためのステップ関数を示し、図5(b)はピッチ
無し音又は無音の場合の観測確率b(y)を算出するた
めのステップ関数を示す。同図に示すように、ピッチ有
り音の場合、ピッチF0=0、つまりピッチが検出され
ないときには、算出される観測確率は定数となる。一
方、ピッチが検出された場合、つまりF0=0でない場
合には、観測確率b’(y)を算出する関数(図5
(a)中右上に示すグラフ参照)としてガウス分布にし
たがった連続密度関数に置き換えられる。そして、この
算出の際に用いられるピッチF0Devは以下の式で算出さ
れる。[Equation 11] Next, in the present embodiment, for the pitch frequency, which is a feature vector other than the above five types, the function used to calculate the observation probability has two types: a pitched sound, a pitchless sound, and a silent sound. Divided. Here, FIG. 5A shows a step function for calculating an observation probability b (y) in the case of a pitched sound, and FIG. 5B shows an observation probability b (y) in the case of a pitchless sound or a silent sound. ) Is shown below. As shown in the figure, in the case of a pitched sound, when the pitch F 0 = 0, that is, when no pitch is detected, the calculated observation probability is a constant. On the other hand, when the pitch is detected, that is, when F 0 = 0, a function for calculating the observation probability b ′ (y) (FIG. 5)
(A) Refer to the graph shown in the upper right of FIG. 2) as a continuous density function according to a Gaussian distribution. Then, the pitch F 0 Dev used in this calculation is calculated by the following equation.
【数12】 上記式において、FPerfect0は、本来演奏されるべきピ
ッチ周波数を示す。例えば、平均率A4=440Hzの
場合には、各音程において観測確率算出の際に用いられ
るFPerfect0は以下の数値である。 C3………261.626Hz D3………293.66Hz E3………329.628Hz このようにガウス分布の連続密度関数等にしたがって6
種類の特徴ベクトルに対する観測確率は算出され、音符
辞書6bに記憶されており、また符号帳6aもこのガウ
ス分布にしたがった形で作成されている。(Equation 12) In the above equation, F Perfect0 indicates the pitch frequency that should be played. For example, when the average rate A4 = 440 Hz, F Perfect0 used for calculating the observation probability at each interval is the following numerical value. C3... 261.626 Hz D3... 293.66 Hz E3... 329.628 Hz As described above, 6 according to the continuous density function of the Gaussian distribution, etc.
The observation probabilities for the types of feature vectors are calculated and stored in the note dictionary 6b, and the codebook 6a is also created in accordance with the Gaussian distribution.
【0036】A−3.音符列情報記憶部 次に、音符列情報記憶部11について説明する。図6に
示すように、音符列情報記憶部11は、楽曲などの音符
列が時系列に記述されている。また、本実施形態では、
上記音符列の各音符毎にその持続時間情報が記憶されて
いる。従って、図6(a)に示すような譜面で示される
楽曲の音符列を記憶する場合には、図6(b)に示すよ
うな音符列情報と持続時間情報が記憶されることにな
る。ここで、持続時間情報は、以下のように表されてい
る。A-3. Note string information storage unit Next, the note string information storage unit 11 will be described. As shown in FIG. 6, the note string information storage unit 11 describes note strings such as music pieces in chronological order. In the present embodiment,
The duration information is stored for each note in the note sequence. Therefore, when storing a note sequence of a musical piece represented by a musical score as shown in FIG. 6A, the note sequence information and the duration information as shown in FIG. 6B are stored. Here, the duration information is expressed as follows.
【0037】ピッチ有り音又はピッチ無し音の場合、 S1:全音符 S2:2分音符 S3:4分音符 S4:8分音符 といったように表される。In the case of a pitched sound or a pitchless sound, it is expressed as follows: S1: whole note S2: half note S3: quarter note S4: eighth note.
【0038】一方、無音(休符)の場合、 U1:全休符 U2:2分休符 U3:4分休符 U4:8分休符 といったように表される。On the other hand, in the case of silence (rest), it is expressed as follows: U1: full rest U2: two-minute rest U3: four-minute rest U4: eight-minute rest
【0039】従って、上記持続時間の実時間は、楽譜面
の速度表記や設定テンポによって決定される。Accordingly, the actual time of the above-mentioned duration is determined by the speed notation of the musical score and the set tempo.
【0040】B.実施形態の動作 次に、上記構成を有する音声信号処理装置の動作につい
て説明する。 B−1.概要動作 最初に、この音声信号処理装置の概要動作について図7
に示すフローチャートを参照しながら説明する。まず、
マイク1により入力音声信号が生成されると、この音声
信号に対してフレーム単位で高速フーリエ変換して周波
数スペクトルを取得する。そして、取得した周波数スペ
クトルから特徴パラメータ解析を行って上述した6種類
の特徴パラメータを取得する(ステップS1)。B. Next, an operation of the audio signal processing device having the above configuration will be described. B-1. Outline operation First, the outline operation of this audio signal processing device is shown in FIG.
This will be described with reference to the flowchart shown in FIG. First,
When an input audio signal is generated by the microphone 1, the audio signal is subjected to fast Fourier transform on a frame basis to obtain a frequency spectrum. Then, feature parameter analysis is performed from the obtained frequency spectrum to obtain the above-described six types of feature parameters (step S1).
【0041】次に、認識用音符情報記憶部6を参照する
ことにより、シンボル量子化部7によって取得した6種
類の特徴パラメータのシンボル量子化が行われる(ステ
ップS2)。そして、シンボル量子化部7は音符辞書6
bを参照することにより、シンボル量子化したシンボル
の観測確率を取得する。Next, the symbol quantization of the six types of characteristic parameters obtained by the symbol quantization unit 7 is performed by referring to the recognition note information storage unit 6 (step S2). Then, the symbol quantization unit 7 outputs the note dictionary 6
By referring to b, the observation probability of the symbol quantized symbol is obtained.
【0042】この後、音符列情報記憶部11に記憶され
た音符列情報および音符辞書6bを参照することによ
り、音符列状態形成部8によって音符列の状態がHMM
モデルにより構成される(ステップS3)。そして、上
述したようにシンボル量子化部7によって取得されたシ
ンボル観測確率と、音符列状態形成部8によって形成さ
れたHMMモデルとに基づき、状態遷移決定部9がビタ
ービアルゴリズムを用いて状態遷移を決定する(ステッ
プS4)。HMMモデルおよびビタービアルゴリズムに
ついては後述する。そして、状態遷移決定部9により決
定された状態遷移に基づいて、マッチング部10が入力
音声と音符列との時間的な対応付けを行われ(ステップ
S5)、この対応付け結果が表示装置12に表示される
(ステップS6)。Thereafter, by referring to the note string information stored in the note string information storage section 11 and the note dictionary 6b, the note string state forming section 8 changes the state of the note string to HMM.
It is composed of a model (step S3). Then, based on the symbol observation probability acquired by the symbol quantization unit 7 and the HMM model formed by the note sequence state forming unit 8 as described above, the state transition determining unit 9 performs state transition using the Viterbi algorithm. Is determined (step S4). The HMM model and the Viterbi algorithm will be described later. Then, based on the state transition determined by the state transition determining unit 9, the matching unit 10 performs temporal association between the input voice and the note sequence (step S5), and the association result is displayed on the display device 12. It is displayed (step S6).
【0043】B−2.動作の詳細 次に、概要動作においてふれた各処理について詳細に説
明する。B-2. Details of Operation Next, each process described in the outline operation will be described in detail.
【0044】B−2−1.特徴パラメータ分析およびシ
ンボル量子化 図8は、マイク1により生成される入力音声信号から特
徴パラメータを取得してシンボル量子化する処理を説明
するための図である。同図に示すように、入力された音
声信号は、フレーム単位で高速フーリエ変換によって周
波数スペクトルに変換される。この周波数スペクトルに
は、特徴パラメータ分析が行われる。そして、各特徴ベ
クトル毎に、認識用音符情報記憶部6の符号帳6aから
最大尤度のシンボルを見つけだし、音符辞書6bを参照
して見つけだしたシンボルについての観測確率を取得す
る。B-2-1. Characteristic Parameter Analysis and Symbol Quantization FIG. 8 is a diagram for describing a process of acquiring characteristic parameters from an input audio signal generated by the microphone 1 and performing symbol quantization. As shown in the figure, the input audio signal is converted into a frequency spectrum by fast Fourier transform on a frame basis. A characteristic parameter analysis is performed on this frequency spectrum. Then, for each feature vector, the symbol with the maximum likelihood is found from the codebook 6a of the note information storage unit 6 for recognition, and the observation probability of the found symbol is acquired by referring to the note dictionary 6b.
【0045】B−2−2.隠れマルコフモデル 次に、図9を参照しながら、隠れマルコフモデル(HM
M)について説明する。なお、音声の状態は一方向へ遷
移するので、本実施形態では、上述したようにLeft-to-
right型のモデルを用いている。B-2-2. Hidden Markov Model Next, referring to FIG. 9, a hidden Markov model (HM
M) will be described. Since the state of the voice transits in one direction, in the present embodiment, as described above, the left-to-
The right type model is used.
【0046】時刻tにおいて、状態iからjへ遷移する
確率(状態遷移確率)をaijと表す。図9に示す例で
は、状態にとどまる確率をa11と表し、状態から状
態へ遷移する確率をa12と表している。このような状
態遷移確率が上述したように音符辞書6bには音符毎に
記憶されている(図3参照)。また、本実施形態におい
て、ピッチ有り音およびピッチ無し音では、状態はア
タック、状態はステディー、状態はリリースを示
す。At time t, the probability of transition from state i to j (state transition probability) is represented as a ij . In the example shown in FIG. 9 represents the probability of staying in the state a 11, it represents the probability of transition from state to state and a 12. Such a state transition probability is stored for each note in the note dictionary 6b as described above (see FIG. 3). In the present embodiment, for the pitched sound and the pitchless sound, the state indicates attack, the state indicates steady, and the state indicates release.
【0047】各状態の中には特徴ベクトルがそれぞれ存
在し、各々に異なる観測シンボルがある。これをY=
{y1、y2、……、yt}と表す。そして、時刻tにお
いて状態がjである時に特徴ベクトルのシンボルytを
発生させる確率(シンボル観測確率)をbj(yt)と表
す。ここで、図示のモデルをMとした場合、観測シンボ
ル系列yが状態、、と推移する確率をYとする
と、XとYが同時に起こる確率は、次の式で表せる。Each state has a feature vector, and each state has a different observation symbol. This is Y =
{Y 1 , y 2 ,..., Y t }. The probability (symbol observation probability) of generating the symbol y t of the feature vector when the state is j at the time t is represented as b j (y t ). Here, when the model shown in the drawing is M, and the probability that the observed symbol sequence y transitions to the state is represented by Y, the probability that X and Y occur simultaneously can be expressed by the following equation.
【数13】 本実施形態では、音符列情報記憶部11に記憶された音
符列情報に基づいて、図9に示すようなFSN(有限状
態ネットワーク)を音符単位で形成する。例えば、図6
(b)に示すような情報が記憶されている場合には、音
符辞書6bに記憶された音程「E3」、「G3」、「無
音」……の状態数および状態遷移確率に基づいて隠れマ
ルコフモデルを形成する。(Equation 13) In the present embodiment, based on the note string information stored in the note string information storage unit 11, an FSN (finite state network) as shown in FIG. 9 is formed for each note. For example, FIG.
If the information as shown in FIG. 3B is stored, the hidden Markov is based on the number of states and the state transition probabilities of the intervals “E3”, “G3”, “silence”... Stored in the note dictionary 6b. Form a model.
【0048】B−2−3.状態遷移決定 本実施形態では、音符列情報記憶部11に記憶された音
符列情報に基づいて上記のように形成された隠れマルコ
フモデルと、シンボル量子化部7が取得した特徴シンボ
ルと、このシンボルの観測確率とから、ビタービアルゴ
リズムにしたがって入力音声の状態遷移を決定するが、
その概要を簡単に説明する。ビタービアルゴリズムは、
モデルMが観測シンボル系列yを出力するときの最も可
能性の高い観測状態列を導くためのものである。Φ
j(t)を時刻tで状態にあるときの、観測ベクトルy1
〜ytに遷移する際の最も高い確率であるとすると、こ
のときの部分的尤度は次の帰納式で表される。B-2-3. In this embodiment, the hidden Markov model formed as described above based on the note sequence information stored in the note sequence information storage unit 11, the characteristic symbol acquired by the symbol quantization unit 7, and the symbol From the observation probability of, the state transition of the input voice is determined according to the Viterbi algorithm.
The outline is briefly described. The Viterbi algorithm is
This is to derive the most likely observation state sequence when the model M outputs the observation symbol sequence y. Φ
Observation vector y 1 when j (t) is in the state at time t
Assuming that the probability is the highest when transitioning to y t , the partial likelihood at this time is expressed by the following induction formula.
【数14】 上記式において、aijは状態iからjへの状態遷移率
(つまり、音符列情報記憶部11に記憶された音符列に
より決定される)、bj(yt)は特徴ベクトルの各々の
時刻tにおけるシンボル観測確率であり、入力される音
声の特徴ベクトルと上述した認識用音符情報記憶部6等
とに基づいて決定されるものである。[Equation 14] In the above equation, a ij is the state transition rate from state i to j (that is, determined by the note sequence stored in the note sequence information storage unit 11), and b j (y t ) is the time of each feature vector. The symbol observation probability at t, which is determined based on the feature vector of the input voice and the above-described recognition note information storage unit 6 and the like.
【0049】また、Φ1(1)=1、Φj(1)=a1jb
j(y1)とすると、1<j<Nについて、最大尤度確率
P’(Y|M)は、次の式で表される。Φ 1 (1) = 1, Φ j (1) = a 1j b
Assuming that j (y 1 ), for 1 <j <N, the maximum likelihood probability P ′ (Y | M) is represented by the following equation.
【数15】 このようにして状態jへの最大の確率を再帰的に求める
ことにより、最適なパス、つまり最も高い確率の観測状
態列が導かれ、状態遷移が決定される。(Equation 15) By recursively obtaining the maximum probability for the state j in this manner, an optimal path, that is, an observation state sequence having the highest probability is derived, and a state transition is determined.
【0050】さらに、本実施形態では、音符列情報記憶
部11に音符列の各音符に対応した持続時間情報が記憶
されており、上述の最適パス算出のためのビタービアル
ゴリズムにこの持続時間情報を含めた以下に示すような
アルゴリズムを使用している。Further, in the present embodiment, the note string information storage unit 11 stores the duration information corresponding to each note in the note string, and the duration information is stored in the Viterbi algorithm for calculating the optimum path. And the following algorithm including
【0051】このアルゴリズムでは、各々の音符n、時
間tでの持続時間の経過を保持し、時間tの状態から時
間t+1の状態jに推移する際の罰則関数Pを導入して
いる。In this algorithm, the duration of each note n and time t is kept, and a penalty function P for transitioning from the state at time t to the state j at time t + 1 is introduced.
【数16】 このような罰則関数Pの導入に関しての詳細は、"Robus
t Parametric Modeling of Durations in HMMs"(D. Bu
rshtein. ICASSP Proceedings 1995)に記載されてい
る。(Equation 16) For details on the introduction of such a penalty function P, see "Robus
t Parametric Modeling of Durations in HMMs "(D. Bu
rshtein. ICASSP Proceedings 1995).
【0052】上記罰則関数Pにおいて、ΔD(t)は対
象となる本来演奏されるべき音の持続時間と、実際の音
の持続時間との差を示している。つまり、ΔD(t)=
D(t)−Dnとなる。ここで、D(t)は実際の音の
持続時間であり、Dnは本来演奏されるべき音の持続時
間で、音符列中では持続時間を示すシンボルで表される
(S1,S2等、図6(b)参照)。上述したように持
続時間の実時間長は、楽譜面の速度表記や設定テンポに
よって決定される。例えば、図6に示す楽譜において、
持続時間情報が「S3」、つまり四分音符の場合には、
Dn=60/120=500msecとなる。また、上記罰
則関数において、l(u)=logp(u)を示している。こ
こで、p(u)はΔDの確率密度であり、ガウス混合密
度でモデル化されたものである。In the penalty function P, ΔD (t) represents the difference between the duration of the target sound to be played and the duration of the actual sound. That is, ΔD (t) =
D (t) -Dn. Here, D (t) is the actual duration of the sound, and Dn is the duration of the sound to be originally played, and is represented by a symbol indicating the duration in the note sequence (S1, S2, etc. 6 (b)). As described above, the actual time length of the duration is determined by the speed notation of the musical score and the set tempo. For example, in the music score shown in FIG.
If the duration information is "S3", that is, a quarter note,
Dn = 60/120 = 500 msec. In the penalty function, l (u) = logp (u) is shown. Here, p (u) is the probability density of ΔD, and is modeled by a Gaussian mixture density.
【0053】このような罰則関数Pを上記ビタービアル
ゴリズムに含めるために、モデルパラメータの対数をと
ると、帰納式は次のように表される。When the penalty function P is included in the Viterbi algorithm and the logarithm of the model parameter is taken, the inductive expression is expressed as follows.
【数17】 この式により、音韻の持続時間が考慮された最適なパス
を決定することができる。[Equation 17] With this formula, it is possible to determine the optimal path in consideration of the duration of the phoneme.
【0054】図10に示す例では、上記式によって計算
された確率を○あるいは△で示している(○>△)。例
えば、時刻tm1〜時刻tm3(時刻tm1等はフレー
ム単位の時刻を示す)までの観測をふまえ、状態「Sile
nce」から状態「C1」へのパスが形成される確率は、状
態「Silence」から状態「Silence」へのパスが形成され
る確率よりも高く、時刻tm3におけるベスト確率とな
り、図中太線で示すように状態遷移が決定される。この
ような演算を入力音声の各フレームに対応する時刻(t
m1、tm2、tm3、……)毎に行うことによって、
図10に示す例では、図中太線で示すような遷移したよ
うに決定される。これにより入力音声の音符を各フレー
ム単位の各時刻において特定できるようになる。図10
に示す場合には、時刻tm1、tm2が「Silence」、
tm3〜tm10までが「C1」、tm11〜が「D
0」といった具合に特定できる。In the example shown in FIG. 10, the probability calculated by the above equation is indicated by ○ or ((○> △). For example, based on observation from time tm1 to time tm3 (time tm1 and the like indicate time in frame units), the state “Sile
The probability that a path from the “nce” to the state “C 1 ” is formed is higher than the probability that a path from the state “Silence” to the state “Silence” is formed, and is the best probability at the time tm3. The state transition is determined as shown. Such an operation is performed at a time (t) corresponding to each frame of the input voice.
m1, tm2, tm3,...)
In the example shown in FIG. 10, the transition is determined as a transition as shown by the bold line in the figure. Thereby, the note of the input voice can be specified at each time of each frame unit. FIG.
In the case shown in, the times tm1 and tm2 are "Silence",
tm3 to tm10 are "C1", and tm11 to tm10 are "D
0 ".
【0055】このようにしてフレーム単位の時刻で特定
した入力音声の音符と、音符列情報記憶部11に記憶さ
れた音符列を構成する各音符との対応付けが可能とな
る。これにより、入力音声と音符列の各音符とを対応付
けた結果を表示装置12に表示することができる。ここ
で、表示装置12の表示方法としては、図10に示すよ
うに、楽譜面を表示し、現時点での入力音声がこの楽譜
面のどの位置にいるかを矢印等で指し示すようにしても
よいし、現在の入力音声に相当する音符を他の音符と色
を変えて表示し、現在の入力音声が音符列のどの位置に
あるかを表示してもよいし、任意である。In this way, it is possible to correlate the notes of the input voice specified at the time of the frame unit with each note constituting the note string stored in the note string information storage unit 11. As a result, the result of associating the input voice with each note in the note sequence can be displayed on the display device 12. Here, as a display method of the display device 12, as shown in FIG. 10, a musical score may be displayed, and an arrow or the like may indicate a position on the musical score where the input voice at the present time is. Alternatively, the note corresponding to the current input voice may be displayed in a different color from the other notes, and the position of the current input voice in the note sequence may be displayed, or may be arbitrary.
【0056】C.変形例 なお、上述した実施形態では、認識用音符情報記憶部6
の音符辞書6bには予め算出した遷移確率やシンボル観
測確率等を記述するようにしていたが、随時学習データ
(楽音や歌声の波形データと、これに対応する音符列を
示すデータとのセット)を入力して、これらのパラメー
タを推定して書き換えるようにしてもよい。この場合、
学習データの音符列を表記したデータを用いて、各音符
について隠れマルコフモデルをFSNに拡張したものを
生成する。そして、入力される学習データの尤度を最大
にするために各々の音符モデルのパラメータを推定する
ことにより求める。ここでは、公知のK平均法を用いて
パラメータを推定する方法について簡単に説明する。C. Modified Example In the above-described embodiment, the recognition note information storage unit 6 is used.
In the note dictionary 6b, the transition probability, the symbol observation probability, and the like calculated in advance have been described. However, learning data (a set of musical tone and singing voice waveform data and data indicating a note sequence corresponding thereto) is used as needed. May be input to estimate and rewrite these parameters. in this case,
Using data representing the note sequence of the learning data, a hidden Markov model extended to FSN is generated for each note. Then, in order to maximize the likelihood of the input learning data, it is obtained by estimating the parameters of each note model. Here, a method of estimating parameters using a known K-means method will be briefly described.
【0057】初期化 まず、学習データの波形データを音符列表記の音符毎に
分割する。Initialization First, the waveform data of the learning data is divided for each note in a note string notation.
【0058】推定 次に、遷移に要する時間をカウントし、それを状態の遷
移時間で割ることで遷移確率を算出する。つまり、次式
で遷移確率が算出される。Estimation Next, the transition time is calculated by counting the time required for the transition and dividing the time by the transition time of the state. That is, the transition probability is calculated by the following equation.
【数18】 この過程では、学習時間中の各々の遷移状態と出力シン
ボルを追跡するために、カウンタの管理を行う必要があ
る。(Equation 18) In this process, it is necessary to manage the counter in order to track each transition state and output symbol during the learning time.
【0059】そして、ピッチ周波数以外の5種類の特徴
ベクトルの観測確率に使用されるガウス分布の連続密度
関数における混合重み係数は、各々の状態iについて次
の式で推定される。The mixing weight coefficient in the continuous density function of the Gaussian distribution used for the observation probability of the five types of feature vectors other than the pitch frequency is estimated for each state i by the following equation.
【数19】 また、残りの特徴ベクトルであるピッチ周波数について
の確率関数は、次に示すものを使用する。[Equation 19] The following probability function is used for the remaining feature vector, that is, the pitch frequency.
【数20】 また、上述したようにピッチ周波数についてピッチ音あ
りの場合は、他の5種類の特徴ベクトルと同様にガウス
分布の連続密度関数が用いられるので、この場合には、
上記5種類の特徴ベクトルと同様にして推定される。(Equation 20) Also, as described above, when there is a pitch sound for the pitch frequency, a continuous density function of a Gaussian distribution is used as in the other five types of feature vectors. In this case,
It is estimated in the same way as the above five types of feature vectors.
【0060】セグメント分け 上記に示した推定過程において、推定されたパラメー
タを用いて、あらためてセグメント分けを行う。Segmentation In the estimation process described above, segmentation is performed again using the estimated parameters.
【0061】反復 上記ととを収束するまで繰り返す。Repetition The above is repeated until convergence.
【0062】このように学習を行うことにより、より正
確なパラメータを推定して音符辞書6bに記述すること
ができる。すなわち、音符辞書6bを参照して行われる
状態遷移の決定の正確性を向上させることができ、入力
音声が音符列のどの位置にいるかをより正確に検出する
ことができるようになる。By performing the learning as described above, more accurate parameters can be estimated and described in the note dictionary 6b. That is, it is possible to improve the accuracy of the state transition determination performed with reference to the note dictionary 6b, and it is possible to more accurately detect the position of the note sequence in which the input voice is located.
【0063】[0063]
【発明の効果】以上説明したように、本発明によれば、
入力される歌声や楽器音などの音声が譜面のどの位置に
いるかをより正確に検出することが可能となる。As described above, according to the present invention,
It is possible to more accurately detect the position of the input singing voice or instrument sound on the music score.
【図1】 本発明の一実施形態に係る音声信号処理装置
の構成を示すブロック図である。FIG. 1 is a block diagram illustrating a configuration of an audio signal processing device according to an embodiment of the present invention.
【図2】 前記音声信号処理装置の構成要素である音符
辞書を説明するための図である。FIG. 2 is a diagram for explaining a note dictionary which is a component of the audio signal processing device.
【図3】 前記音声信号処理装置の構成要素である音符
辞書を説明するための図である。FIG. 3 is a diagram for explaining a note dictionary which is a component of the audio signal processing device.
【図4】 前記音声信号処理装置の構成要素である符号
帳を説明するための図である。FIG. 4 is a diagram for explaining a codebook which is a component of the audio signal processing device.
【図5】 前記音符辞書に記述されたシンボルの観測確
率を算出するための関数を説明するための図である。FIG. 5 is a diagram for explaining a function for calculating an observation probability of a symbol described in the note dictionary.
【図6】 前記音声信号処理装置の構成要素である音符
列情報記憶部を説明するための図である。FIG. 6 is a diagram for explaining a note sequence information storage unit that is a component of the audio signal processing device.
【図7】 前記音声信号処理装置の動作を説明するため
のフローチャートである。FIG. 7 is a flowchart for explaining the operation of the audio signal processing device.
【図8】 入力音声から特徴ベクトルを取得する過程に
ついて説明する図である。FIG. 8 is a diagram illustrating a process of acquiring a feature vector from an input voice.
【図9】 前記音声信号処理装置で使用される隠れマル
コフモデルを説明するための図である。FIG. 9 is a diagram for explaining a hidden Markov model used in the audio signal processing device.
【図10】 入力音声と音符列との対応付けを説明する
ための図である。FIG. 10 is a diagram for explaining correspondence between an input voice and a note sequence.
【図11】 入力音声と音符列との対応付け結果の表示
例を説明するための図である。FIG. 11 is a diagram illustrating a display example of a result of associating an input voice with a note sequence.
1……マイク、2……分析窓生成部、4……高速フーリ
エ変換部、5……特徴パラメータ分析部、6……認識用
音符情報記憶部、6a……符号帳、6b……音符辞書、
8……音符列状態形成部、9……状態遷移決定部、11
……音符列情報記憶部、12……表示装置1 microphone, 2 analysis window generation unit, 4 fast Fourier transform unit, 5 feature parameter analysis unit, 6 note information storage unit for recognition, 6a codebook, 6b note dictionary ,
8... Note sequence state forming unit 9... State transition determining unit 11
... Note string information storage unit, 12... Display device
─────────────────────────────────────────────────────
────────────────────────────────────────────────── ───
【手続補正書】[Procedure amendment]
【提出日】平成11年12月15日(1999.12.
15)[Submission date] December 15, 1999 (1999.12.
15)
【手続補正1】[Procedure amendment 1]
【補正対象書類名】図面[Document name to be amended] Drawing
【補正対象項目名】図8[Correction target item name] Fig. 8
【補正方法】変更[Correction method] Change
【補正内容】[Correction contents]
【図8】 FIG. 8
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551G (72)発明者 ペドロ ケイノ スペイン バルセロナ 08002 メルセ 12 (72)発明者 アレックス ロスコス スペイン バルセロナ 08002 メルセ 12 Fターム(参考) 5D015 AA06 CC03 CC06 CC13 CC14 CC18 HH23 KK02 5D082 BB01 BB14 BB15 5D378 KK02 KK03 KK05 MM02 MM14──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 15/00 G10L 3/00 551G (72) Inventor Pedro Keino Spain Barcelona 08002 Merce 12 (72) Inventor Alex Roscos Spain Barcelona 08002 Merce 12 F term (reference) 5D015 AA06 CC03 CC06 CC13 CC14 CC18 HH23 KK02 5D082 BB01 BB14 BB15 5D378 KK02 KK03 KK05 MM02 MM14
Claims (18)
応付ける音声信号処理装置であって、 時間列で記述された音符列情報を記憶する音符列記憶手
段と、 フレーム単位で入力される音声信号から特徴パラメータ
を取得するパラメータ取得手段と、 音声信号の代表的な特徴パラメータを特徴ベクトルとし
てシンボルにクラスタ化した符号帳と、各音符毎に状態
数、状態遷移確率および前記シンボルの観測確率とを記
憶した認識用音符情報記憶手段と、 前記認識用音符情報記憶手段を参照することにより、前
記パラメータ取得手段により取得された特徴パラメータ
から前記入力音声の観測シンボルを取得し、該観測シン
ボルの観測確率を取得する観測確率取得手段と、 前記認識用音符情報記憶手段に記憶された状態数および
状態遷移確率に基づいて、前記音符列情報記憶手段に記
憶された前記音符列の各状態を有限状態ネットワーク上
で隠れマルコフモデルによって形成する状態形成手段
と、 前記観測確率取得手段によって取得された観測確率と、
前記状態形成手段により形成された前記隠れマルコフモ
デルとにしたがって状態遷移を決定する状態遷移決定手
段と、 前記状態遷移決定手段によって決定された状態遷移に基
づいて、前記入力音声信号の各フレームと前記音符列情
報とを対応付ける対応付け手段とを具備することを特徴
とする音声信号処理装置。1. An audio signal processing apparatus for associating an input voice with any one of notes in a note sequence, a note sequence storing means for storing note sequence information described in a time sequence, and a sound input in frame units. Parameter acquisition means for acquiring a characteristic parameter from a signal, a codebook in which a representative characteristic parameter of a voice signal is clustered into a symbol as a characteristic vector, a number of states for each note, a state transition probability, and an observation probability of the symbol. By referring to the note information storing means for recognition storing the observation symbol of the input voice from the characteristic parameter obtained by the parameter obtaining means, by referring to the note information storing means for recognition. Observation probability acquisition means for acquiring a probability, based on the number of states and the state transition probability stored in the note information storage means for recognition. There are a state forming means for each state of the sequence of notes stored in the sequence of notes data storing means formed by Hidden Markov Model on finite state networks, and observation probability acquired by the observation probability acquiring means,
A state transition determining unit that determines a state transition according to the hidden Markov model formed by the state forming unit; and, based on the state transition determined by the state transition determining unit, each frame of the input voice signal and the An audio signal processing apparatus comprising: a correspondence unit that associates the note string information with the note string information.
基づいて、現在の入力音声が前記音符列情報のどの部分
であるかを表示する表示手段をさらに具備することを特
徴とする請求項1に記載の音声信号処理装置。2. The apparatus according to claim 1, further comprising a display unit for displaying which part of the note string information the current input voice is based on a result of the association by the association unit. An audio signal processing device as described in the above.
音声信号から少なくともエネルギー、デルタエネルギ
ー、ゼロクロス、ピッチ、デルタピッチおよびピッチエ
ラーを特徴パラメータとして取得することを特徴とする
請求項1または2に記載の音声信号処理装置。3. The parameter acquisition unit according to claim 1, wherein the parameter acquisition unit acquires at least energy, delta energy, zero cross, pitch, delta pitch, and pitch error from the input audio signal as characteristic parameters. Audio signal processing device.
たエネルギー、デルタエネルギー、ゼロクロス、デルタ
ピッチおよびピッチエラーの5種の観測確率は、ガウス
分布を用いた観測関数を用いて算出されており、 前記認識用音符情報記憶手段に記憶されたピッチの観測
確率は、ガウス分布を用いた観測関数とステップ観測確
率関数とを用いて算出されており、このピッチの観測確
率を算出する際に、前記ピッチの有無に応じて前記ガウ
ス分布を用いた観測関数と前記ステップ観測関数とを使
い分けるようにしたことを特徴とする請求項3に記載の
音声信号処理装置。4. The five observation probabilities of energy, delta energy, zero cross, delta pitch, and pitch error stored in the recognition note information storage means are calculated using an observation function using a Gaussian distribution. The observation probability of the pitch stored in the recognition note information storage means for recognition is calculated using an observation function using a Gaussian distribution and a step observation probability function.When calculating the observation probability of this pitch, The audio signal processing device according to claim 3, wherein an observation function using the Gaussian distribution and the step observation function are selectively used depending on the presence or absence of the pitch.
ピッチの無い音、無音に応じて3種類のleft-to-right
型の隠れマルコフモデルを形成し、 前記ピッチの有る音およびピッチの無い音を3状態のモ
デルとして形成し、前記ピッチの無い音を1状態のモデ
ルとして形成することを特徴とする請求項3または4の
いずれかに記載の音声信号処理装置。5. The state forming means includes a sound having a pitch,
3 types of left-to-right depending on the pitchless sound and silence
A hidden Markov model of a pattern is formed, the sound with pitch and the sound without pitch are formed as a three-state model, and the sound without pitch is formed as a one-state model. 5. The audio signal processing device according to any one of 4.
音の隠れマルコフモデルを形成する際、前音符とスラー
で接続された音符と単音符とを別のモデルとして形成す
ることを特徴とする請求項5に記載の音声信号処理装
置。6. The state forming means, when forming the hidden Markov model of the pitched sound, forms a note connected with a preceding note by a slur and a single note as different models. The audio signal processing device according to claim 5.
符化した学習用音符列データとを入力する入力手段と、 前記入力手段から入力される学習用音符列データの音符
毎に有限ネットワーク上で隠れマルコフモデルを形成す
る学習用モデル形成手段と、 学習時に、前記学習用モデル形成手段により形成された
モデルの尤度が最大となるパラメータをk平均アルゴリ
ズムにより推定するパラメータ推定手段とをさらに備
え、 前記認識用音符情報記憶手段は、前記パラメータ推定手
段によって推定されたパラメータにより求められた各音
符における特徴ベクトルの状態遷移確率および観測確率
を記憶することを特徴とする請求項1ないし6のいずれ
かに記載の音声信号処理装置。7. An input means for inputting learning musical sound waveform data and learning musical note sequence data obtained by converting the musical sound waveform into a musical note, and a finite network for each musical note of the learning musical note sequence data input from the input means. And a parameter estimating means for estimating, by a k-means algorithm, a parameter that maximizes the likelihood of the model formed by the learning model forming means during learning. 7. The method according to claim 1, wherein the recognition note information storage means stores a state transition probability and an observation probability of a feature vector in each note obtained by a parameter estimated by the parameter estimation means. An audio signal processing device according to any one of the above.
ゴリズムによって状態遷移を決定することを特徴とする
請求項1ないし7のいずれかに記載の音声信号処理装
置。8. The audio signal processing device according to claim 1, wherein said state transition determining means determines a state transition by a Viterbi algorithm.
応する持続時間データを記憶しており、 前記状態遷移決定手段は、前記音符列記憶手段に記憶さ
れた持続時間データを前記ビタービアルゴリズムに含め
ることを特徴とする請求項8に記載の音声信号処理装
置。9. The note string storage means stores duration data corresponding to the note string, and the state transition determining means stores the duration data stored in the note string storage means into the Viterbi data. The audio signal processing device according to claim 8, wherein the audio signal processing device is included in an algorithm.
ずれかの音符と対応付ける音声信号処理方法であって、 フレーム単位で入力される音声信号から特徴パラメータ
を取得するパラメータ取得ステップと、 予め記憶された音声信号の代表的な特徴パラメータを特
徴ベクトルとしてシンボルにクラスタ化した符号帳と、
各音符毎に状態数、状態遷移確率および前記シンボルの
観測確率とを参照することにより、前記パラメータ取得
ステップにより取得された特徴パラメータから前記入力
音声の観測シンボルを取得し、該観測シンボルの観測確
率を取得する観測確率取得ステップと、 予め記憶された状態数および状態遷移確率に基づいて、
予め記憶された音符列の各状態を有限状態ネットワーク
上で隠れマルコフモデルによって形成する状態形成ステ
ップと、 前記観測確率取得ステップによって取得された観測確率
と、前記状態形成ステップにより形成された前記隠れマ
ルコフモデルとにしたがって状態遷移を決定する状態遷
移決定ステップと、 前記状態遷移決定ステップによって決定された状態遷移
に基づいて、前記入力音声信号の各フレームと前記音符
列情報とを対応付ける対応付けステップとを具備するこ
とを特徴とする音声信号処理方法。10. A voice signal processing method for associating an input voice with any one of a pre-stored note sequence, comprising: a parameter obtaining step of obtaining feature parameters from a voice signal input in frame units; A codebook obtained by clustering representative characteristic parameters of the obtained speech signal into symbols as a feature vector,
By referring to the number of states, the state transition probability, and the observation probability of the symbol for each note, the observation symbol of the input voice is acquired from the characteristic parameter acquired in the parameter acquisition step, and the observation probability of the observation symbol is acquired. Observation probability acquisition step of acquiring, based on the number of states and state transition probabilities stored in advance,
A state forming step of forming each state of a note string stored in advance on a finite state network by a hidden Markov model; an observation probability obtained by the observation probability obtaining step; and the hidden Markov formed by the state forming step. A state transition determining step of determining a state transition in accordance with the model, and, based on the state transition determined by the state transition determining step, an associating step of associating each frame of the input voice signal with the note string information. An audio signal processing method, comprising:
結果に基づいて、現在の入力音声が前記音符列情報のど
の部分であるかを表示する表示ステップをさらに具備す
ることを特徴とする請求項10に記載の音声信号処理方
法。11. The apparatus according to claim 10, further comprising a display step of displaying which part of the note string information the current input voice is based on a result of the association by the association step. The audio signal processing method according to the above.
力される音声信号から少なくともエネルギー、デルタエ
ネルギー、ゼロクロス、ピッチ、デルタピッチおよびピ
ッチエラーを特徴パラメータとして取得することを特徴
とする請求項10または11に記載の音声信号処理方
法。12. The parameter acquiring step according to claim 10, wherein at least energy, delta energy, zero cross, pitch, delta pitch and pitch error are acquired from the input audio signal as characteristic parameters. Audio signal processing method.
ゼロクロス、デルタピッチおよびピッチエラーの5種の
観測確率を、ガウス分布を用いた観測関数を用いて算出
して記憶する第1の観測確率算出ステップと、 前記ピッチの観測確率を、ガウス分布を用いた観測関数
とステップ観測確率関数とを用い、前記ピッチの有無に
応じて前記ガウス分布を用いた観測関数と前記ステップ
観測関数とを使い分けて算出して記憶する第2の観測確
率算出ステップとをさらに具備し、 前記観測確率取得ステップでは、前記第1および第2の
観測確率算出ステップで記憶された観測確率を参照する
ことにより観測確率を取得することを特徴とする請求項
12に記載の音声信号処理方法。13. The energy, delta energy,
A first observation probability calculation step of calculating and storing five types of observation probabilities of zero cross, delta pitch and pitch error using an observation function using a Gaussian distribution, and using the Gaussian distribution for the observation probability of the pitch. A second observation probability calculation step of separately calculating and storing the observation function using the Gaussian distribution and the step observation function according to the presence or absence of the pitch using the observation function and the step observation probability function The voice according to claim 12, further comprising: in the observation probability acquiring step, the observation probability is acquired by referring to the observation probability stored in the first and second observation probability calculation steps. Signal processing method.
有る音、ピッチの無い音、無音に応じて3種類のleft-t
o-right型の隠れマルコフモデルを形成し、 前記ピッチの有る音およびピッチの無い音を3状態のモ
デルとして形成し、前記ピッチの無い音を1状態のモデ
ルとして形成することを特徴とする請求項12または1
3のいずれかに記載の音声信号処理方法。14. In the state forming step, three types of left-t are selected according to a pitched sound, a pitchless sound, and a silence.
An o-right type hidden Markov model is formed, the pitched sound and the pitchless sound are formed as a three-state model, and the pitchless sound is formed as a one-state model. Item 12 or 1
3. The audio signal processing method according to any one of 3.
チの有る音の隠れマルコフモデルを形成する際、前音符
とスラーで接続された音符と単音符とを別のモデルとし
て形成することを特徴とする請求項14に記載の音声信
号処理方法。15. In the state forming step, when forming the hidden Markov model of the pitched sound, a note connected with a previous note, a note connected by a slur, and a single note are formed as different models. The audio signal processing method according to claim 14.
音符化した学習用音符列データとを入力する入力ステッ
プと、 前記入力ステップで入力される学習用音符列データの音
符毎に有限ネットワーク上で隠れマルコフモデルを形成
する学習用モデル形成ステップと、 学習時に、前記学習用モデル形成手段により形成された
モデルの尤度が最大となるパラメータをk平均アルゴリ
ズムにより推定するパラメータ推定ステップと、 前記パラメータ推定ステップによって推定されたパラメ
ータにより求められた各音符における特徴ベクトルの状
態遷移確率および観測確率を記憶する確率記憶ステップ
とを備え、 前記観測確率取得ステップでは、前記確率記憶ステップ
により記憶された観測確率を参照することにより観測確
率を取得し、 前記状態形成ステップでは、前記確率記憶ステップによ
り記憶された状態遷移確率に基づいて、予め記憶された
音符列の各状態を有限状態ネットワーク上で隠れマルコ
フモデルによって形成することを特徴とする請求項10
ないし15のいずれかに記載の音声信号処理方法。16. An inputting step of inputting learning musical tone waveform data and learning musical note sequence data obtained by converting the musical musical tone into notes, and a finite network for each musical note of the learning musical note sequence data input in the inputting step. A learning model forming step of forming a hidden Markov model by: a parameter estimating step of estimating, by a k-means algorithm, a parameter that maximizes a likelihood of a model formed by the learning model forming means during learning; A probability storage step of storing a state transition probability and an observation probability of a feature vector in each note obtained by the parameter estimated by the estimation step, and the observation probability acquisition step stores the observation probability stored by the probability storage step. Obtain the observation probability by referring to In step, on the basis of the probability memory stored state transition probabilities by step, according to claim 10 in which each state of pre-stored sequence of notes, and forming by Hidden Markov Model on a finite state network
16. The audio signal processing method according to any one of claims 15 to 15.
ビアルゴリズムによって状態遷移を決定することを特徴
とする請求項10ないし16のいずれかに記載の音声信
号処理方法。17. The audio signal processing method according to claim 10, wherein said state transition determining step determines a state transition by a Viterbi algorithm.
記憶された音符列に対応する持続時間データを前記ビタ
ービアルゴリズムに含めることを特徴とする請求項17
に記載の音声信号処理方法。18. The method according to claim 17, wherein in the state transition determining step, duration data corresponding to a note string stored in advance is included in the Viterbi algorithm.
3. The audio signal processing method according to 1.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30027299A JP4302837B2 (en) | 1999-10-21 | 1999-10-21 | Audio signal processing apparatus and audio signal processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30027299A JP4302837B2 (en) | 1999-10-21 | 1999-10-21 | Audio signal processing apparatus and audio signal processing method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001117580A true JP2001117580A (en) | 2001-04-27 |
| JP4302837B2 JP4302837B2 (en) | 2009-07-29 |
Family
ID=17882804
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP30027299A Expired - Fee Related JP4302837B2 (en) | 1999-10-21 | 1999-10-21 | Audio signal processing apparatus and audio signal processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4302837B2 (en) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004515808A (en) * | 2000-12-05 | 2004-05-27 | アミューズテック カンパニー リミテッド | Music analysis method using sound information of musical instruments |
| JP2004533016A (en) * | 2001-05-21 | 2004-10-28 | アミューズテック カンパニー リミテッド | Music score tracking method and apparatus |
| JP2005514666A (en) * | 2001-12-18 | 2005-05-19 | アミューズテック カンパニー リミテッド | Music analyzer using sound information of musical instruments |
| JP2007193222A (en) * | 2006-01-20 | 2007-08-02 | Casio Comput Co Ltd | Melody input device and music search device |
| JP2007241181A (en) * | 2006-03-13 | 2007-09-20 | Univ Of Tokyo | Automatic accompaniment system and score tracking system |
| US8013231B2 (en) | 2005-05-26 | 2011-09-06 | Yamaha Corporation | Sound signal expression mode determining apparatus method and program |
| JP2011180590A (en) * | 2010-03-02 | 2011-09-15 | Honda Motor Co Ltd | Apparatus, method and program for estimating musical score position |
| US8660678B1 (en) * | 2009-02-17 | 2014-02-25 | Tonara Ltd. | Automatic score following |
| JP2015079183A (en) * | 2013-10-18 | 2015-04-23 | ヤマハ株式会社 | Score alignment apparatus and score alignment program |
| WO2018084316A1 (en) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | Acoustic analysis method and acoustic analysis device |
| CN115206273A (en) * | 2022-07-11 | 2022-10-18 | 深圳市芒果未来科技有限公司 | A kind of real-time musical score following method, system and computer-readable storage medium |
-
1999
- 1999-10-21 JP JP30027299A patent/JP4302837B2/en not_active Expired - Fee Related
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004515808A (en) * | 2000-12-05 | 2004-05-27 | アミューズテック カンパニー リミテッド | Music analysis method using sound information of musical instruments |
| JP2004533016A (en) * | 2001-05-21 | 2004-10-28 | アミューズテック カンパニー リミテッド | Music score tracking method and apparatus |
| JP2005514666A (en) * | 2001-12-18 | 2005-05-19 | アミューズテック カンパニー リミテッド | Music analyzer using sound information of musical instruments |
| US8013231B2 (en) | 2005-05-26 | 2011-09-06 | Yamaha Corporation | Sound signal expression mode determining apparatus method and program |
| JP2007193222A (en) * | 2006-01-20 | 2007-08-02 | Casio Comput Co Ltd | Melody input device and music search device |
| JP2007241181A (en) * | 2006-03-13 | 2007-09-20 | Univ Of Tokyo | Automatic accompaniment system and score tracking system |
| US8660678B1 (en) * | 2009-02-17 | 2014-02-25 | Tonara Ltd. | Automatic score following |
| JP2011180590A (en) * | 2010-03-02 | 2011-09-15 | Honda Motor Co Ltd | Apparatus, method and program for estimating musical score position |
| JP2015079183A (en) * | 2013-10-18 | 2015-04-23 | ヤマハ株式会社 | Score alignment apparatus and score alignment program |
| WO2018084316A1 (en) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | Acoustic analysis method and acoustic analysis device |
| JP2018077262A (en) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | Acoustic analysis method and acoustic analyzer |
| US10810986B2 (en) | 2016-11-07 | 2020-10-20 | Yamaha Corporation | Audio analysis method and audio analysis device |
| CN115206273A (en) * | 2022-07-11 | 2022-10-18 | 深圳市芒果未来科技有限公司 | A kind of real-time musical score following method, system and computer-readable storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4302837B2 (en) | 2009-07-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Aucouturier et al. | Segmentation of musical signals using hidden Markov models | |
| Maddage et al. | Content-based music structure analysis with applications to music semantics understanding | |
| US6304846B1 (en) | Singing voice synthesis | |
| Umbert et al. | Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges | |
| Gupta et al. | Deep learning approaches in topics of singing information processing | |
| JP5131904B2 (en) | System and method for automatically associating music acoustic signal and lyrics with time | |
| JP4302837B2 (en) | Audio signal processing apparatus and audio signal processing method | |
| Benetos et al. | Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription | |
| Kim | Singing voice analysis/synthesis | |
| EP4365891A1 (en) | Information processing device, information processing method, and program | |
| CN109036376A (en) | A kind of the south of Fujian Province language phoneme synthesizing method | |
| Xue et al. | Learn2sing: Target speaker singing voice synthesis by learning from a singing teacher | |
| CN106971743A (en) | User's singing data treating method and apparatus | |
| JP4323029B2 (en) | Voice processing apparatus and karaoke apparatus | |
| Abeßer et al. | Deep Learning for Jazz Walking Bass Transcription. | |
| JP4364977B2 (en) | Voice conversion apparatus and method | |
| Wright et al. | Analysis/synthesis comparison | |
| Weil et al. | Automatic Generation of Lead Sheets from Polyphonic Music Signals. | |
| Raphael | Orchestra in a box: A system for real-time musical accompaniment | |
| Konev et al. | The program complex for vocal recognition | |
| Ikemiya et al. | Transferring vocal expression of f0 contour using singing voice synthesizer | |
| JP4430174B2 (en) | Voice conversion device and voice conversion method | |
| Çakir et al. | Musical instrument synthesis and morphing in multidimensional latent space using variational, convolutional recurrent autoencoders | |
| Gu et al. | Singing-voice synthesis using demi-syllable unit selection | |
| CN119380679B (en) | A model construction method and device for Song Dynasty music restoration |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060223 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081118 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090421 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090423 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140501 Year of fee payment: 5 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |