JP2006017900A - Time stretch processing device - Google Patents
Time stretch processing device Download PDFInfo
- Publication number
- JP2006017900A JP2006017900A JP2004194091A JP2004194091A JP2006017900A JP 2006017900 A JP2006017900 A JP 2006017900A JP 2004194091 A JP2004194091 A JP 2004194091A JP 2004194091 A JP2004194091 A JP 2004194091A JP 2006017900 A JP2006017900 A JP 2006017900A
- Authority
- JP
- Japan
- Prior art keywords
- pitch period
- frame length
- processing
- input signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、例えば、音声信号のピッチ周期に応じて、その音声信号の速度変換処理を実施するタイムストレッチ処理装置に関するものである。 The present invention relates to a time stretch processing device that performs speed conversion processing of an audio signal in accordance with, for example, the pitch period of the audio signal.
従来のタイムストレッチ処理装置は、入力信号(例えば、音声信号)の音程や音質を変えずに音の長さを変えるため、その音声信号のピッチ周期を抽出し、そのピッチ周期で音声信号を繰り返す補間処理や、音声信号を間引く間引き処理を実施するようにしている。
あるいは、音声信号をピッチ周期毎に切り出し、それぞれの切り出し信号に窓かけを実施してから、相互に重ね合わせるなどの処理を実施するようにしている。
A conventional time stretch processing device extracts a pitch period of an audio signal in order to change the sound length without changing the pitch or sound quality of an input signal (for example, an audio signal), and repeats the audio signal at the pitch period. Interpolation processing and thinning processing for thinning out audio signals are performed.
Alternatively, the audio signals are cut out for each pitch period, and each cut-out signal is windowed and then subjected to processing such as superimposing each other.
しかし、音声信号のピッチ周期を抽出することができない場合には、音の長さを変えることができないので、音声信号を区間毎に分類し、その特徴に応じて処理を切り替える方法がある。
例えば、以下の特許文献1には、音声信号を有声音の区間と、ピッチ周期が存在しない無声音の区間とに分類し、有声音の区間においては、ピッチ周期を利用して音声信号の圧縮や伸張処理を実施して速度を変換する。一方、無声音の区間においては、サンプリング周期によって速度を変換する方法が開示されている。
However, when the pitch period of the audio signal cannot be extracted, the length of the sound cannot be changed. Therefore, there is a method of classifying the audio signal for each section and switching the processing according to the feature.
For example,
また、以下の特許文献2には、音声信号をピッチ周期が存在しない無声区間と、その他の区間に分類し、無声区間においては、任意の固定フレーム長で間引き処理や補間処理を実施する方法が開示されている。
Further, in
従来のタイムストレッチ処理装置は以上のように構成されているので、音声信号のピッチ周期を抽出することができない無音区間においても速度を変換することができる。しかし、音声信号にBGMが重なっている場合や、入力信号が音響信号である場合には、有音区間であっても、ピッチ周期を抽出することができず、適正な速度変換処理を実施することができなくなることがあるなどの課題があった。 Since the conventional time stretch processing apparatus is configured as described above, the speed can be converted even in a silent section where the pitch period of the audio signal cannot be extracted. However, when the BGM overlaps the audio signal or when the input signal is an acoustic signal, the pitch period cannot be extracted even in a sound section, and an appropriate speed conversion process is performed. There were problems such as being unable to do so.
この発明は上記のような課題を解決するためになされたもので、音源の種類を問わず、適正な速度変換処理を実施することができるタイムストレッチ処理装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to obtain a time stretch processing device capable of performing an appropriate speed conversion process regardless of the type of sound source.
この発明に係るタイムストレッチ処理装置は、ピッチ周期抽出手段により抽出されたピッチ周期が許容範囲内にあるか否かを判定する判定手段を設け、その判定手段からピッチ周期が許容範囲内にある旨を示す判定結果が得られた場合、そのピッチ周期に応じた処理フレーム長を指定し、その判定手段からピッチ周期が許容範囲を逸脱している旨を示す判定結果が得られた場合、予め設定された処理フレーム長を指定するようにしたものである。 The time stretch processing device according to the present invention is provided with a determination unit that determines whether or not the pitch period extracted by the pitch period extraction unit is within an allowable range, and that the pitch period is within the allowable range from the determination unit. If a determination result indicating that the pitch period is out of the allowable range is obtained from the determination means, a determination result indicating that the pitch period is out of the permissible range is set in advance. The specified processing frame length is designated.
この発明によれば、ピッチ周期抽出手段により抽出されたピッチ周期が許容範囲内にあるか否かを判定する判定手段を設け、その判定手段からピッチ周期が許容範囲内にある旨を示す判定結果が得られた場合、そのピッチ周期に応じた処理フレーム長を指定し、その判定手段からピッチ周期が許容範囲を逸脱している旨を示す判定結果が得られた場合、予め設定された処理フレーム長を指定するように構成したので、音源の種類を問わず、適正な速度変換処理を実施することができる効果がある。 According to the present invention, the determination means for determining whether or not the pitch period extracted by the pitch period extraction means is within the allowable range is provided, and the determination result indicating that the pitch period is within the allowable range from the determination means If the determination result indicating that the pitch period is out of the allowable range is obtained from the determination means, the processing frame set in advance is specified. Since the length is designated, there is an effect that an appropriate speed conversion process can be performed regardless of the type of the sound source.
実施の形態1.
図1はこの発明の実施の形態1によるタイムストレッチ処理装置を示す構成図であり、図において、ピッチ周期抽出部1は入力信号(例えば、音声信号、音響信号)のピッチ周期を抽出するピッチ周期抽出手段を構成している。
比較部2はピッチ周期抽出部1により抽出されたピッチ周期を許容範囲の最短値と比較するとともに、そのピッチ周期を許容範囲の最長値と比較し、その比較結果を制御部3に出力する。なお、比較部2は判定手段を構成している。
1 is a block diagram showing a time stretch processing apparatus according to
The
制御部3は比較部2からピッチ周期が許容範囲内にある旨を示す比較結果が得られた場合、そのピッチ周期に応じた処理フレーム長を指定し、比較部2からピッチ周期が許容範囲を逸脱している旨を示す比較結果が得られた場合、予め設定された処理フレーム長を指定する。なお、制御部3はフレーム長指定手段を構成している。
速度変換処理部4は制御部3により指定された処理フレーム長で入力信号の速度変換処理を実施する速度変換手段を構成している。
図2はこの発明の実施の形態1によるタイムストレッチ処理装置の処理内容を示すフローチャートである。
When a comparison result indicating that the pitch period is within the allowable range is obtained from the
The speed
FIG. 2 is a flowchart showing the processing contents of the time stretch processing apparatus according to
次に動作について説明する。
まず、ピッチ周期抽出部1は、例えば、音声信号などの入力信号を受けると、図12に示すように、その入力信号のピッチ周期Tを抽出する(ステップST1)。
ピッチ周期Tの抽出方法としては、例えば、入力信号の原音声波形に対する自己相関処理を実施して平均のピッチ周期を求める方法、入力信号のLPC分析を実施して残差を使用する方法、FFTを用いる方法、平行移動点における相関から最大値をとる方法など、種々の方法が存在する。
Next, the operation will be described.
First, when receiving an input signal such as an audio signal, for example, the pitch
As a method of extracting the pitch period T, for example, a method of obtaining an average pitch period by performing autocorrelation processing on the original speech waveform of the input signal, a method of performing LPC analysis of the input signal, and using a residual, FFT There are various methods, such as a method using, and a method for obtaining the maximum value from the correlation at the translation point.
しかし、ピッチ周期は、元来感覚的な量であり、機械的に作り出した波形以外には完全な周期波は存在せず、準周期的なものに過ぎない。また、ノイズの影響や個人差などが存在するので、正確なピッチ周期を抽出することは極めて難しい。
更に、入力信号が音声などに限定されない場合は、各種信号の重畳が考えられるため、正確なピッチ周期を抽出することは困難である。
したがって、ピッチ周期抽出部1により抽出されるピッチ周期Tは、必ずしも正確なピッチ周期ではないが、それらしい値は抽出される。
However, the pitch period is originally a sensory quantity, and there is no complete periodic wave other than a mechanically generated waveform, and it is only a quasi-periodic one. Further, since there are noise effects and individual differences, it is extremely difficult to extract an accurate pitch period.
Furthermore, when the input signal is not limited to voice or the like, it is difficult to extract an accurate pitch period because various signals can be superimposed.
Therefore, the pitch period T extracted by the pitch
比較部2は、ピッチ周期抽出部1がピッチ周期Tを抽出すると、そのピッチ周期Tが許容範囲(例えば、1/3000秒〜1/50秒)内にあるか否かを判定する。
即ち、ピッチ周期抽出部1により抽出されるピッチ周期Tは、必ずしも正確なピッチ周期ではなく、それらしい値であるため、常に、そのピッチ周期Tに応じて、速度変換処理に使用する処理フレーム長FLを指定すると、適正な速度変換処理を実施することができなくなることがあるので、そのピッチ周期Tが許容範囲内にあるか否かを判定する。
When the pitch
That is, since the pitch period T extracted by the pitch
具体的には、比較部2は、ピッチ周期抽出部1により抽出されたピッチ周期Tと、許容範囲の最短値Sref(例えば、1/3000秒)とを比較し、そのピッチ周期Tが最短値Srefより短ければ(ステップST2)、最短値より短いことを示す最短値逸脱信号を制御部3に出力する。
また、比較部2は、そのピッチ周期Tが最短値Srefより短くなければ(ステップST2)、そのピッチ周期Tと、許容範囲の最長値Lref(例えば、1/50秒)とを比較し、そのピッチ周期Tが最長値Lrefより長ければ(ステップST3)、最長値より長いことを示す最長値逸脱信号を制御部3に出力する。
なお、そのピッチ周期Tが最長値Lrefより長くなければ(ステップST3)、許容範囲内であることを示す許容信号を制御部3に出力する。
Specifically, the
If the pitch period T is not shorter than the shortest value S ref (step ST2), the
If the pitch period T is not longer than the longest value L ref (step ST3), an allowable signal indicating that it is within the allowable range is output to the
制御部3は、比較部2から許容信号を受けると、例えば以下に示すように、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを計算する(ステップST4)。ただし、αは1,2,3・・・などの定数である。
FL=α×T
When receiving the permission signal from the
FL = α × T
制御部3は、比較部2から最短値逸脱信号を受けているとき、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定すると、処理フレーム長FLが短くなり過ぎて、音程の乱れや歪みが起こるので、予め設定された処理フレーム長FLを指定する(ステップST5)。
例えば、ピッチ周期Tが1/100秒であれば、処理フレーム長FLは、次のようになる。
FL=α/100
When the
For example, if the pitch period T is 1/100 second, the processing frame length FL is as follows.
FL = α / 100
制御部3は、比較部2から最長値逸脱信号を受けているとき、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定すると、処理フレーム長FLが長くなり過ぎて、信号の明らかな欠落やエコーが起こるので、予め設定された処理フレーム長FLを指定する(ステップST6)。
例えば、ピッチ周期Tが1/100秒であれば、処理フレーム長FLは、次のようになる。
FL=α/100
When the
For example, if the pitch period T is 1/100 second, the processing frame length FL is as follows.
FL = α / 100
速度変換処理部4は、上記のようにして制御部3が処理フレーム長FLを指定すると、その処理フレーム長FLで入力信号の速度変換処理を実施する(ステップST7)。
入力信号の速度変換処理は、上記の特許文献1,2等に開示されている方法を適用すればよいが、例えば、ピッチ周期Tに対応するピッチ幅から処理フレーム長FLを間引く間引き処理などを実施する。
When the
For the speed conversion processing of the input signal, the method disclosed in the above-mentioned
以上で明らかなように、この実施の形態1によれば、ピッチ周期抽出部1により抽出されたピッチ周期Tが許容範囲内にあるか否かを判定する比較部2を設け、比較部2からピッチ周期が許容範囲内にある旨を示す比較結果が得られた場合、そのピッチ周期Tに応じた処理フレーム長FLを指定し、比較部2からピッチ周期Tが許容範囲を逸脱している旨を示す比較結果が得られた場合、予め設定された処理フレーム長FLを指定するように構成したので、音源の種類を問わず、音程の乱れや歪み、信号の明らかな欠落やエコーの発生を招くことなく、適正な速度変換処理を実施することができる効果を奏する。
また、ピッチ周期抽出部1が正確なピッチ周期Tを抽出しなくても、それらしい値を抽出すれば、制御部3が適正な処理フレーム長FLを指定することができるので、ピッチ周期Tの抽出に伴う演算量を低減することができる効果を奏する。
As apparent from the above, according to the first embodiment, the
Even if the pitch
なお、この実施の形態1では、制御部3が比較部2から最短値逸脱信号又は最長値逸脱信号を受けると、予め設定された処理フレーム長FLを指定するものについて示したが、入力信号の性質や出力信号の品質に応じた処理フレーム長FLを指定するようにしてもよい。
また、制御部3が比較部2から最短値逸脱信号又は最長値逸脱信号を受けると、前回指定した処理フレーム長FLを再度指定するようにしてもよい。
In the first embodiment, when the
Further, when the
実施の形態2.
図3はこの発明の実施の形態2によるタイムストレッチ処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
ピッチ周期保存部11はピッチ周期抽出部1により抽出されたピッチ周期を保存するメモリであり、ピッチ周期保存部11はピッチ周期保存手段を構成している。
比較部12はピッチ周期抽出部1により抽出された現在のピッチ周期とピッチ周期保存部11に保存されている以前のピッチ周期との差分を求め、そのピッチ周期の差分と許容範囲の最短値とを比較するとともに、そのピッチ周期の差分と許容範囲の最長値とを比較し、その比較結果を制御部13に出力する。なお、比較部12は判定手段を構成している。
3 is a block diagram showing a time stretch processing apparatus according to
The pitch
The
制御部13は比較部12からピッチ周期の差分が許容範囲内にある旨を示す比較結果が得られた場合、現在のピッチ周期に応じた処理フレーム長を指定し、比較部12からピッチ周期の差分が許容範囲を逸脱している旨を示す比較結果が得られた場合、予め設定された処理フレーム長を指定する。なお、制御部13はフレーム長指定手段を構成している。
図4はこの発明の実施の形態2によるタイムストレッチ処理装置の処理内容を示すフローチャートである。
When the
FIG. 4 is a flowchart showing the processing contents of the time stretch processing apparatus according to the second embodiment of the present invention.
次に動作について説明する。
まず、ピッチ周期抽出部1は、例えば、音声信号などの入力信号を受けると、上記実施の形態1と同様に、その入力信号のピッチ周期TNを抽出する(ステップST11)。
なお、ピッチ周期抽出部1は、その抽出したピッチ周期TNを比較部12に出力するとともに、そのピッチ周期TNをピッチ周期保存部11に保存する。
ただし、Tの添字であるNは、Nフレーム目のピッチ周期であることを示している。
Next, the operation will be described.
First, when receiving an input signal such as an audio signal, for example, the pitch
Note that the pitch
However, the subscript N of T indicates the pitch period of the Nth frame.
比較部12は、ピッチ周期抽出部1が現在のピッチ周期TN(Nフレーム目のピッチ周期)を抽出すると、ピッチ周期保存部11から以前のピッチ周期TN−1(N−1フレーム目のピッチ周期)を読み出し、Nフレーム目のピッチ周期TNとN−1フレーム目のピッチ周期TN−1との差分ΔTを求める(ステップST12)。
When the pitch
次に、比較部12は、ピッチ周期の差分ΔTと、許容範囲の最短値Sref(例えば、Nフレーム目のピッチ周期TNの−10%の値)とを比較し、そのピッチ周期の差分ΔTが最短値Srefより短ければ(ステップST13)、最短値を逸脱していることを示す最短値逸脱信号を制御部13に出力する。
また、比較部12は、そのピッチ周期の差分ΔTが最短値Srefより短くなければ(ステップST13)、そのピッチ周期の差分ΔTと、許容範囲の最長値Lref(例えば、Nフレーム目のピッチ周期TNの+10%の値)とを比較し、そのピッチ周期の差分ΔTが最長値Lrefより長ければ(ステップST14)、最長値を逸脱していることを示す最長値逸脱信号を制御部13に出力する。
なお、そのピッチ周期の差分ΔTが最長値Lrefより長くなければ(ステップST14)、許容範囲内であることを示す許容信号を制御部13に出力する。
Next, the
If the difference ΔT in the pitch period is not shorter than the shortest value S ref (step ST13), the
If the pitch period difference ΔT is not longer than the longest value L ref (step ST14), an allowable signal indicating that it is within the allowable range is output to the
制御部13は、比較部12から許容信号を受けると、上記実施の形態1と同様に、ピッチ周期抽出部1により抽出されたピッチ周期TNに応じた処理フレーム長FLを計算する(ステップST15)。
When receiving the permission signal from the
制御部13は、比較部12から最短値逸脱信号を受けているとき、Nフレーム目のピッチ周期TNに応じた処理フレーム長FLを指定すると、その処理フレーム長FLがN−1フレーム目の処理フレーム長FLとかけ離れた値となり、速度変換処理の不安定化を招くので、予め設定された処理フレーム長FLを指定する(ステップST16)。
例えば、ピッチ周期Tが1/100秒であれば、処理フレーム長FLは、次のようになる。
FL=α/100
When the
For example, if the pitch period T is 1/100 second, the processing frame length FL is as follows.
FL = α / 100
制御部13は、比較部12から最長値逸脱信号を受けているとき、Nフレーム目のピッチ周期TNに応じた処理フレーム長FLを指定すると、その処理フレーム長FLがN−1フレーム目の処理フレーム長FLとかけ離れた値となり、速度変換処理の不安定化を招くので、予め設定された処理フレーム長FLを指定する(ステップST17)。
例えば、ピッチ周期Tが1/100秒であれば、処理フレーム長FLは、次のようになる。
FL=α/100
When the
For example, if the pitch period T is 1/100 second, the processing frame length FL is as follows.
FL = α / 100
速度変換処理部4は、上記のようにして制御部13が処理フレーム長FLを指定すると、上記実施の形態1と同様に、その処理フレーム長FLで入力信号の速度変換処理を実施する(ステップST18)。
When the
以上で明らかなように、この実施の形態2によれば、ピッチ周期抽出部1により抽出された現在のピッチ周期とピッチ周期保存部11に保存されている以前のピッチ周期との差分ΔTが許容範囲内にあるか否かを判定する比較部12を設け、比較部12からピッチ周期の差分ΔTが許容範囲内にある旨を示す比較結果が得られた場合、現在のピッチ周期に応じた処理フレーム長FLを指定し、比較部12からピッチ周期の差分ΔTが許容範囲を逸脱している旨を示す比較結果が得られた場合、予め設定された処理フレーム長FLを指定するように構成したので、上記実施の形態1と同様に、音源の種類を問わず、適正な速度変換処理を実施することができるほか、入力信号に重畳されている信号のレベル変動に伴ってピッチ周期が一時的に変化しても、処理フレーム長FLの大きな変動を防止して、速度変換処理の安定化を図ることができる効果を奏する。
As apparent from the above, according to the second embodiment, the difference ΔT between the current pitch period extracted by the pitch
なお、この実施の形態2では、比較部12がNフレーム目のピッチ周期TNとN−1フレーム目のピッチ周期TN−1との差分ΔTを求めるものについて示したが、以前のピッチ周期TN−1はN−1フレーム目のピッチ周期TN−1である必要はなく、例えば、Nフレーム目のピッチ周期TNとN−2フレーム目のピッチ周期TN−2との差分ΔTを求めるようにしてもよい。
また、この実施の形態2では、制御部13が比較部12から最短値逸脱信号又は最長値逸脱信号を受けると、予め設定された処理フレーム長FLを指定するものについて示したが、前回指定した処理フレーム長FLを再度指定するようにしてもよい。
In the second embodiment, as mentioned above. Comparing
Further, in the second embodiment, when the
実施の形態3.
上記実施の形態2では、入力信号の帯域を問わず、許容範囲の最短値Srefや最長値Lrefが設定されているものについて示したが、入力信号の帯域毎に許容範囲の最短値Sref及び最長値Lrefを設定し、比較部12が入力信号の帯域に対応する許容範囲の最短値Sref及び最長値Lrefとピッチ周期の差分ΔTを比較するようにしてもよい。
In the second embodiment, the shortest allowable value S ref and the longest value L ref are set regardless of the band of the input signal. However, the shortest value S of the allowable range is set for each band of the input signal. ref and longest value L ref may be set, and the
例えば、入力信号の帯域毎に、許容範囲の最短値Sref及び最長値Lrefが下記のように設定されている場合において、例えば、入力信号の帯域が200Hzであれば、比較部12がNフレーム目のピッチ周期TNの−10%の値を最短値Srefとして使用し、Nフレーム目のピッチ周期TNの+10%の値を最長値Lrefとして使用するようにする。
入力信号の帯域 最短値 最長値
〜100Hz → −5% +5%
100〜300Hz → −10% +10%
300Hz〜 → −20% +20%
For example, when the shortest value S ref and the longest value L ref of the allowable range are set as follows for each band of the input signal, for example, if the band of the input signal is 200 Hz, the comparing
Input signal bandwidth Minimum value Maximum value ~ 100Hz → -5% + 5%
100-300Hz → -10% + 10%
300Hz-> -20% + 20%
以上で明らかなように、この実施の形態3によれば、入力信号の帯域に対応する許容範囲の最短値Sref及び最長値Lrefとピッチ周期の差分ΔTを比較するように構成したので、ピッチ周期の誤抽出による影響を軽減することができる効果を奏する。 As apparent from the above, according to the third embodiment, since the shortest value S ref and longest value L ref of the allowable range corresponding to the band of the input signal are compared with the pitch period difference ΔT, There is an effect that the influence of erroneous extraction of the pitch period can be reduced.
実施の形態4.
上記実施の形態1〜3では、制御部3,13が比較部2,12から比較結果を受けると、その比較結果を考慮して、直ちに処理フレーム長FLを指定するものについて示したが、入力信号に重畳されている信号のレベル変動に伴うピッチ周期の一時的な変化に追従して、処理フレーム長FLを変更するようにすると、速度変換処理の不安定化を招くおそれがある。
In the first to third embodiments, when the
そこで、この実施の形態4では、制御部3,13が比較部2,12から比較結果を受けても、直ちに処理フレーム長FLを変更せず、同一の指定条件が所定回数連続したとき処理フレーム長FLを変更するようにする。
例えば、M回(例えば、M=3)連続して、比較部2から許容信号を受け、かつ、ピッチ周期抽出部1により抽出された現在のピッチ周期Tが同じ値であるとき、制御部3が現在のピッチ周期Tに応じた処理フレーム長FLを指定するようにする。
あるいは、M回(例えば、M=3)連続して、比較部12から許容信号を受け、かつ、ピッチ周期の差分ΔTが同じ値であるとき、制御部13が現在のピッチ周期Tに応じた処理フレーム長FLに変更するようにする。
Therefore, in the fourth embodiment, even when the
For example, when the current pitch cycle T received by the
Alternatively, the
あるいは、M回(例えば、M=3)連続して、比較部2,12から最短値逸脱信号を受けたとき、制御部3,13が最短値を逸脱したときの処理フレーム長FLに変更するようにする。
あるいは、M回(例えば、M=3)連続して、比較部2,12から最長値逸脱信号を受けたとき、制御部3,13が最長値を逸脱したときの処理フレーム長FLに変更するようにする。
Alternatively, when the shortest value deviation signal is received from the
Alternatively, when the longest value deviation signal is received from the
以上で明らかなように、この実施の形態4によれば、処理フレーム長の指定条件が変化しても直ちに処理フレーム長FLを変更せず、同一の指定条件が所定回数連続したとき処理フレーム長FLを変更するように構成したので、入力信号に重畳されている信号のレベル変動に伴ってピッチ周期が一時的に変化しても、処理フレーム長FLの大きな変動を防止して、速度変換処理の安定化を図ることができる効果を奏する。 As is apparent from the above, according to the fourth embodiment, the processing frame length FL is not changed immediately even if the processing frame length designation condition changes, and the processing frame length is changed when the same designation condition continues a predetermined number of times. Since it is configured to change the FL, even if the pitch period changes temporarily due to the level fluctuation of the signal superimposed on the input signal, a large change in the processing frame length FL is prevented and the speed conversion process is performed. The effect which can aim at stabilization of is produced.
実施の形態5.
上記実施の形態1〜3では、制御部3,13が比較部2,12から比較結果を受けると、その比較結果を考慮して、直ちに処理フレーム長FLを指定するものについて示したが、前回指定した処理フレーム長FLを変更する場合、その処理フレーム長FLを段階的に変更するようにしてもよい。
In the first to third embodiments, when the
具体的には、例えば、前回指定した処理フレーム長FLが“1/25秒”で、今回の指定条件に見合う処理フレーム長FLが“1/100秒”である場合、上記実施の形態1〜3では、直ちに、処理フレーム長FLとして“1/100秒”を指定するが、この実施の形態5では、直ちに、処理フレーム長FLを“1/100秒”に変更せず、“1/25秒”→“1/50秒”→“1/100秒”のように処理フレーム長FLを段階的に変更する。 Specifically, for example, when the processing frame length FL specified last time is “1/25 seconds” and the processing frame length FL that meets the current specified conditions is “1/100 seconds”, 3 immediately specifies “1/100 second” as the processing frame length FL, but in the fifth embodiment, the processing frame length FL is not immediately changed to “1/100 second”, but “1/25”. The processing frame length FL is changed stepwise in the order of “second” → “1/50 second” → “1/100 second”.
この実施の形態5によれば、入力信号に重畳されている信号のレベル変動に伴ってピッチ周期が一時的に変化しても、処理フレーム長FLの大きな変動を防止することができるため、速度変換処理の安定化を図ることができる効果を奏する。 According to the fifth embodiment, even if the pitch period temporarily changes with the level fluctuation of the signal superimposed on the input signal, a large fluctuation in the processing frame length FL can be prevented. There is an effect that the conversion processing can be stabilized.
実施の形態6.
図5はこの発明の実施の形態6によるタイムストレッチ処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
有音/無音検出部21は入力信号が有音であるか、無音であるかを検出する。スイッチ22は有音/無音検出部21が有音を検出すると、入力信号をピッチ周期抽出部1に与える一方、有音/無音検出部21が無音を検出すると、ピッチ周期抽出部1に対する入力信号の提供を中止する。
Embodiment 6 FIG.
5 is a block diagram showing a time stretch processing apparatus according to Embodiment 6 of the present invention. In the figure, the same reference numerals as those in FIG.
The voice /
制御部23は図1の制御部3と同様に、比較部2からピッチ周期Tが許容範囲内にある旨を示す比較結果が得られた場合、そのピッチ周期Tに応じた処理フレーム長FLを指定し、比較部2からピッチ周期Tが許容範囲を逸脱している旨を示す比較結果が得られた場合、予め設定された処理フレーム長FLを指定するが、有音/無音検出部21が無音を検出すると、予め設定された処理フレーム長FLを指定する。
なお、有音/無音検出部21、スイッチ22及び制御部23からフレーム長指定手段が構成されている。
図6はこの発明の実施の形態6によるタイムストレッチ処理装置の処理内容を示すフローチャートである。
As in the case of the
The voice /
FIG. 6 is a flowchart showing the processing contents of the time stretch processing apparatus according to the sixth embodiment of the present invention.
次に動作について説明する。
まず、有音/無音検出部21は、入力信号が有音であるか、無音であるかを検出する(ステップST21)。
スイッチ22は、有音/無音検出部21により有音が検出された場合(ステップST22)、入力信号をピッチ周期抽出部1に与える(ステップST23)。
この場合の以降の処理内容は、上記実施の形態1と同様であるため説明を省略する。
Next, the operation will be described.
First, the voice /
The
Since the subsequent processing contents in this case are the same as those in the first embodiment, description thereof will be omitted.
スイッチ22は、有音/無音検出部21により無音が検出された場合(ステップST22)、ピッチ周期抽出部1に対する入力信号の提供を中止する(ステップST24)。
即ち、入力信号が無音である場合、入力信号には明らかに周期的な信号が存在していないので、無駄なピッチ周期の抽出処理を中止させるべく、ピッチ周期抽出部1に対する入力信号の提供を中止する。これにより、ピッチ周期抽出部1における演算量の削減を図ることができるとともに、ピッチ周期の誤抽出を防止することができる。
When the sound /
That is, when the input signal is silent, there is clearly no periodic signal in the input signal, so the input signal is provided to the pitch
制御部23は、有音/無音検出部21により有音が検出された場合、図1の制御部3と同様にして、処理フレーム長FLを指定するが、有音/無音検出部21により無音が検出された場合、予め設定された処理フレーム長FLを指定する(ステップST25)。
例えば、ピッチ周期Tが1/100秒であれば、処理フレーム長FLは、次のようになる。
FL=α/100
When the voice /
For example, if the pitch period T is 1/100 second, the processing frame length FL is as follows.
FL = α / 100
以上で明らかなように、この実施の形態6によれば、入力信号が無音である場合、予め設定された処理フレーム長FLを指定するように構成したので、ピッチ周期抽出部1における演算量の削減を図ることができるとともに、ピッチ周期の誤抽出を防止して、適正な速度変換処理を実施することができる効果を奏する。
As apparent from the above, according to the sixth embodiment, when the input signal is silent, the processing frame length FL set in advance is designated, so that the amount of calculation in the pitch
なお、この実施の形態6では、有音/無音検出部21及びスイッチ22を図1のタイムストレッチ処理装置に適用するものについて示したが、有音/無音検出部21及びスイッチ22を図3のタイムストレッチ処理装置に適用してもよい。
この場合、制御部23は、有音/無音検出部21により有音が検出された場合、図3の制御部13と同様にして、処理フレーム長FLを指定する。
In the sixth embodiment, the voice /
In this case, when the sound /
実施の形態7.
図7はこの発明の実施の形態7によるタイムストレッチ処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
抽出周期制限部31は入力信号のピッチ周期の抽出範囲を設定する抽出範囲設定手段を構成している。
ピッチ周期抽出部32は入力信号のピッチ周期が抽出周期制限部31により設定された抽出範囲内にあれば、そのピッチ周期Tを抽出する一方、その抽出範囲内になければ、その抽出範囲内で一番最もらしいピッチ周期Tを抽出する。なお、ピッチ周期抽出部32はピッチ周期抽出手段を構成している。
Embodiment 7 FIG.
7 is a block diagram showing a time stretch processing apparatus according to Embodiment 7 of the present invention. In the figure, the same reference numerals as those in FIG.
The extraction cycle limiter 31 constitutes an extraction range setting means for setting the extraction range of the pitch cycle of the input signal.
If the pitch period of the input signal is within the extraction range set by the extraction period limiting unit 31, the pitch
制御部33はピッチ周期抽出部32により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定するフレーム長指定手段を構成している。
図8はこの発明の実施の形態7によるタイムストレッチ処理装置の処理内容を示すフローチャートである。
The
FIG. 8 is a flowchart showing the processing contents of the time stretch processing apparatus according to the seventh embodiment of the present invention.
次に動作について説明する。
まず、抽出周期制限部31は、入力信号のピッチ周期Tの抽出範囲を設定する(ステップST31)。
例えば、入力信号のピッチ周期Tが1/3000秒〜1/50秒の範囲内であるとき、ピッチ周期Tに基づく速度変換処理の適正化が可能であれば、入力信号のピッチ周期Tの抽出範囲として、1/3000秒〜1/50秒を設定する。
Next, the operation will be described.
First, the extraction cycle limiter 31 sets the extraction range of the pitch cycle T of the input signal (step ST31).
For example, when the pitch period T of the input signal is in the range of 1/3000 sec to 1/50 sec, if the speed conversion process based on the pitch period T can be optimized, the pitch period T of the input signal is extracted. As a range, 1/3000 second to 1/50 second is set.
ピッチ周期抽出部32は、音声信号などの入力信号を受けると、上記実施の形態1と同様に、その入力信号のピッチ周期Tを抽出する(ステップST32)。ただし、入力信号のピッチ周期Tが抽出周期制限部31により設定された抽出範囲内にあれば(ステップST33)、そのピッチ周期Tを制御部33に出力するが、その抽出範囲内になければ(ステップST33)、その抽出範囲内で一番最もらしいピッチ周期Tを抽出し(ステップST34)、そのピッチ周期Tを制御部33に出力する。例えば、入力信号をFFT変換して、周波数領域の信号に変換すると、最大の信号が抽出範囲の外側にあっても、その抽出範囲の内側にも信号が現れるので、その内側の信号の中で最も大きい信号を、一番最もらしいピッチ周期Tとして抽出する。
When receiving an input signal such as an audio signal, the pitch
制御部33は、ピッチ周期抽出部32からピッチ周期Tを受けると、上記実施の形態1と同様にして、そのピッチ周期Tに応じた処理フレーム長FLを指定する(ステップST35)。
速度変換処理部4は、制御部3が処理フレーム長FLを指定すると、上記実施の形態1と同様に、その処理フレーム長FLで入力信号の速度変換処理を実施する(ステップST36)。
When receiving the pitch period T from the pitch
When the
以上で明らかなように、この実施の形態7によれば、入力信号のピッチ周期Tが抽出周期制限部31により設定された抽出範囲内にあれば、そのピッチ周期Tを抽出する一方、その抽出範囲内になければ、その抽出範囲内で一番最もらしいピッチ周期Tを抽出するように構成したので、ピッチ周期Tに基づく速度変換処理の信頼性を高めることができる効果を奏する。 As apparent from the above, according to the seventh embodiment, if the pitch period T of the input signal is within the extraction range set by the extraction period limiting unit 31, the pitch period T is extracted while the extraction is performed. If it is not within the range, the most probable pitch period T within the extraction range is extracted, so that it is possible to improve the reliability of the speed conversion process based on the pitch period T.
実施の形態8.
図9はこの発明の実施の形態8によるタイムストレッチ処理装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
比較部41はピッチ周期抽出部1により抽出されたピッチ周期Tと最短値Srefを比較し、そのピッチ周期Tが最短値Srefより長ければ、その旨を示すLong信号を制御部42に出力し、そのピッチ周期Tが最短値Srefより短ければ、その旨を示すShort信号を制御部42に出力する。なお、比較部41は判定手段を構成している。
Embodiment 8 FIG.
9 is a block diagram showing a time stretch processing apparatus according to Embodiment 8 of the present invention. In the figure, the same reference numerals as those in FIG.
The
制御部42は比較部41からLong信号を受けると、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定し、比較部41からShrot信号を受けると、ピッチ周期抽出部1により抽出されたピッチ周期Tの整数倍に応じた処理フレーム長FLを指定する。なお、制御部42はフレーム長指定手段を構成している。
図10はこの発明の実施の形態8によるタイムストレッチ処理装置の処理内容を示すフローチャートである。
When receiving the Long signal from the
FIG. 10 is a flowchart showing the processing contents of the time stretch processing apparatus according to the eighth embodiment of the present invention.
次に動作について説明する。
ピッチ周期抽出部1は、音声信号などの入力信号を受けると、上記実施の形態1と同様に、その入力信号のピッチ周期Tを抽出する(ステップST41)。
Next, the operation will be described.
When receiving an input signal such as an audio signal, the pitch
比較部41は、ピッチ周期抽出部1により抽出されたピッチ周期Tと最短値Sref(例えば、1/1000秒)を比較し、そのピッチ周期Tが最短値Srefより長ければ(ステップST42)、その旨を示すLong信号を制御部42に出力する。
一方、そのピッチ周期Tが最短値Srefより短ければ(ステップST42)、その旨を示すShort信号を制御部42に出力する。
The
On the other hand, if the pitch period T is shorter than the shortest value S ref (step ST42), a Short signal indicating that is output to the
制御部42は、比較部41からLongレベル信号を受けると、上記実施の形態1と同様に、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定する(ステップST43)。
ただし、比較部41からShort信号を受けた場合、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定すると、処理フレーム長FLが短くなり過ぎて、音程の乱れや歪みが起こるので、ピッチ周期抽出部1により抽出されたピッチ周期Tの整数倍に応じた処理フレーム長FLを指定する(ステップST44)。
例えば、ピッチ周期抽出部1により抽出されたピッチ周期Tが1/1000秒であれば、1/500秒や1/250秒に応じた処理フレーム長FLが指定される。
When receiving the long level signal from
However, when the Short signal is received from the
For example, if the pitch period T extracted by the pitch
速度変換処理部4は、制御部42が処理フレーム長FLを指定すると、上記実施の形態1と同様に、その処理フレーム長FLで入力信号の速度変換処理を実施する(ステップST45)。
When the
以上で明らかなように、この実施の形態8によれば、ピッチ周期抽出部1により抽出されたピッチ周期Tが最短値Srefより長ければ、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定し、そのピッチ周期Tが最短値Srefより短ければ、ピッチ周期抽出部1により抽出されたピッチ周期Tの整数倍に応じた処理フレーム長FLを指定するように構成したので、音源の種類を問わず、音程の乱れや歪みの発生を招くことなく、適正な速度変換処理を実施することができる効果を奏する。
As apparent from the above, according to the eighth embodiment, if the pitch period T extracted by the pitch
実施の形態9.
上記実施の形態8では、ピッチ周期抽出部1により抽出されたピッチ周期Tが最短値Srefより短ければ、制御部42がピッチ周期抽出部1により抽出されたピッチ周期Tの整数倍に応じた処理フレーム長FLを指定するものについて示したが、ピッチ周期抽出部1により抽出されたピッチ周期Tが最短値Srefより短ければ、制御部42がピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長を指定するとともに、複数の処理回数を設定するようにしてもよい。
Embodiment 9 FIG.
In the eighth embodiment, if the pitch period T extracted by the pitch
即ち、制御部42は、上記実施の形態1と同様に、ピッチ周期抽出部1により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定するが、比較部41からShort信号を受けると、複数の処理回数を設定する。例えば、タイムストレッチ処理装置がリアルタイム処理を継続できる範囲内で処理回数を設定する。現在の処理能力に余裕があれば、処理回数を少なく設定し、現在の処理能力に余裕がなければ、処理回数を多く設定する。
速度変換処理部4は、制御部42が処理フレーム長FLを指定すると、上記実施の形態1と同様に、その処理フレーム長FLで入力信号の速度変換処理を実施する。ただし、制御部42が複数の処理回数を設定すると、制御部42により指定された処理フレーム長FLで、その処理回数だけ複数回入力信号の速度変換処理を実施する。
That is, the
When the
この実施の形態9によれば、処理フレーム長FLが、直ちにピッチ周期Tに応じた処理フレーム長FL1に変化することに伴う速度変換処理の不安定化の発生を防止することができる一方、処理フレーム長FLが、ピッチ周期Tの変化に追従できない不具合も解消することができる効果を奏する。 According to the ninth embodiment, it is possible to prevent the speed conversion processing from becoming unstable due to the processing frame length FL immediately changing to the processing frame length FL1 corresponding to the pitch period T. There is an effect that the problem that the frame length FL cannot follow the change of the pitch period T can be solved.
実施の形態10.
図11はこの発明の実施の形態10によるタイムストレッチ処理装置を示す構成図であり、図において、ピッチ周期抽出部51はピッチ周期変化点検出部52により検出された変化点を起点にして、入力信号のピッチ周期Tを抽出するピッチ周期抽出手段を構成している。
ピッチ周期変化点検出部52はピッチ周期抽出部51により抽出されたピッチ周期Tが大きく変化する変化点を検出する。なお、ピッチ周期変化点検出部52は変化点検出手段を構成している。
Embodiment 10 FIG.
FIG. 11 is a block diagram showing a time stretch processing apparatus according to Embodiment 10 of the present invention. In the figure, a pitch
The pitch cycle
制御部53はピッチ周期抽出部51により抽出されたピッチ周期Tに応じた処理フレーム長を指定するフレーム長指定手段を構成している。
速度変換処理部54はピッチ周期変化点検出部52により検出された変化点から、制御部53により指定された処理フレーム長で入力信号の速度変換処理を実施する。なお、速度変換処理部54は速度変換手段を構成している。
The
The speed
次に動作について説明する。
ピッチ周期変化点検出部52は、ピッチ周期抽出部51により抽出されたピッチ周期Tを監視し、そのピッチ周期Tが大きく変化する変化点を検出する。
即ち、そのピッチ周期Tが予め設定された値よりも大きく変化する変化点を検出する。例えば、入力信号が音声信号から音響信号に変化する位置を検出する。
なお、ピッチ周期Tの変化点は、例えば、入力信号のパワーの変化量から検出することができる。また、入力信号の範囲を細分化してFFTの特性を観察することにより検出することもできる。
Next, the operation will be described.
The pitch period
That is, a change point at which the pitch period T changes more than a preset value is detected. For example, a position where the input signal changes from a sound signal to an acoustic signal is detected.
The change point of the pitch period T can be detected from the amount of change in the power of the input signal, for example. It is also possible to detect by subdividing the input signal range and observing the FFT characteristics.
ピッチ周期抽出部51は、ピッチ周期変化点検出部52がピッチ周期Tの変化点を検出すると、制御部53の指示の下、その変化点を起点にして、入力信号のピッチ周期Tを抽出する。
制御部53は、ピッチ周期抽出部51により抽出されたピッチ周期Tで変化点まで処理させ、変化点以降の周期をピッチ周期抽出部51に再提出させる。変化点からは再提出された周期で処理させる。。
なお、制御部53は、ピッチ周期変化点検出部52がピッチ周期Tの変化点を検出すると、上記実施の形態1と同様に、ピッチ周期抽出部51により抽出されたピッチ周期Tに応じた処理フレーム長FLを指定する。
When the pitch cycle change
The
Note that when the pitch cycle change
速度変換処理部54は、制御部53の指示の下、ピッチ周期変化点検出部52により検出された変化点から、制御部53により指定された処理フレーム長FLで入力信号の速度変換処理を実施する。
Under the instruction of the
以上で明らかなように、この実施の形態10によれば、ピッチ周期変化点検出部52により検出された変化点から、制御部53により指定された処理フレーム長で入力信号の速度変換処理を実施するように構成したので、上記実施の形態1と同様に、音源の種類を問わず、適正な速度変換処理を実施することができるほか、ピッチ周期Tの変動に対する追従性能が高まるため、高音質な出力信号を得ることができる効果を奏する。
As is apparent from the above, according to the tenth embodiment, the speed conversion process of the input signal is performed with the processing frame length designated by the
1 ピッチ周期抽出部(ピッチ周期抽出手段)、2 比較部(判定手段)、3 制御部(フレーム長指定手段)、4 速度変換処理部(速度変換手段)、11 ピッチ周期保存部(ピッチ周期保存手段)、12 比較部(判定手段)、13 制御部(フレーム長指定手段)、21 有音/無音検出部(フレーム長指定手段)、22 スイッチ(フレーム長指定手段)、23 制御部(フレーム長指定手段)、31 抽出周期制限部(抽出範囲設定手段)、32 ピッチ周期抽出部(ピッチ周期抽出手段)、33 制御部(フレーム長指定手段)、41 比較部(判定手段)、42 制御部(フレーム長指定手段)、51 ピッチ周期抽出部(ピッチ周期抽出手段)、52 ピッチ周期変化点検出部(変化点検出手段)、53 制御部(フレーム長指定手段)、54 速度変換処理部(速度変換手段)。
DESCRIPTION OF
Claims (12)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004194091A JP2006017900A (en) | 2004-06-30 | 2004-06-30 | Time stretch processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004194091A JP2006017900A (en) | 2004-06-30 | 2004-06-30 | Time stretch processing device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006017900A true JP2006017900A (en) | 2006-01-19 |
Family
ID=35792259
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004194091A Pending JP2006017900A (en) | 2004-06-30 | 2004-06-30 | Time stretch processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006017900A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012108453A (en) * | 2010-10-28 | 2012-06-07 | Yamaha Corp | Sound processing device |
| CN106469559A (en) * | 2015-08-19 | 2017-03-01 | 中兴通讯股份有限公司 | The method of adjustment of speech data and device |
| CN110838296A (en) * | 2019-11-18 | 2020-02-25 | 锐迪科微电子科技(上海)有限公司 | Recording process control method, system, electronic device and storage medium |
| US10891966B2 (en) | 2016-03-24 | 2021-01-12 | Yamaha Corporation | Audio processing method and audio processing device for expanding or compressing audio signals |
-
2004
- 2004-06-30 JP JP2004194091A patent/JP2006017900A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012108453A (en) * | 2010-10-28 | 2012-06-07 | Yamaha Corp | Sound processing device |
| CN106469559A (en) * | 2015-08-19 | 2017-03-01 | 中兴通讯股份有限公司 | The method of adjustment of speech data and device |
| US10891966B2 (en) | 2016-03-24 | 2021-01-12 | Yamaha Corporation | Audio processing method and audio processing device for expanding or compressing audio signals |
| CN110838296A (en) * | 2019-11-18 | 2020-02-25 | 锐迪科微电子科技(上海)有限公司 | Recording process control method, system, electronic device and storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5828994A (en) | Non-uniform time scale modification of recorded audio | |
| CA2253749C (en) | Method and device for instantly changing the speed of speech | |
| KR100302370B1 (en) | Speech interval detection method and system, and speech speed converting method and system using the speech interval detection method and system | |
| US8938313B2 (en) | Low complexity auditory event boundary detection | |
| US9454976B2 (en) | Efficient discrimination of voiced and unvoiced sounds | |
| JPH06332492A (en) | VOICE DETECTION METHOD AND DETECTION DEVICE | |
| JPH0990974A (en) | Signal processing method | |
| KR20040028932A (en) | Speech bandwidth extension apparatus and speech bandwidth extension method | |
| JP5081730B2 (en) | Speech segment detection apparatus and speech segment detection method | |
| KR101674597B1 (en) | System and method for reconizing voice | |
| CN105324815B (en) | Signal processing device and signal processing method | |
| JP2006017900A (en) | Time stretch processing device | |
| JP5166470B2 (en) | Voice recognition device and content playback device | |
| JP2019032400A (en) | Utterance determination program, utterance determination method, and utterance determination device | |
| JP2015022236A (en) | Signal processing device and program | |
| JP6071944B2 (en) | Speaker speed conversion system and method, and speed conversion apparatus | |
| JPH1083193A (en) | Speech synthesizer and speech unit creation method | |
| JP3219892B2 (en) | Real-time speech speed converter | |
| JP6313619B2 (en) | Audio signal processing apparatus and program | |
| JP3187241B2 (en) | Speech speed converter | |
| JPH06337696A (en) | Speed conversion control device and speed conversion control method | |
| JPS6151320B2 (en) | ||
| JP2001042889A (en) | Pitch normalization device for speech recognition input speech | |
| JP2015031913A (en) | Speech processing unit, speech processing method and program | |
| KR100384898B1 (en) | A method of audio/video synchronization for speaking rate control |