[go: up one dir, main page]

WO2013011634A1 - 波形処理装置、波形処理方法および波形処理プログラム - Google Patents

波形処理装置、波形処理方法および波形処理プログラム Download PDF

Info

Publication number
WO2013011634A1
WO2013011634A1 PCT/JP2012/004128 JP2012004128W WO2013011634A1 WO 2013011634 A1 WO2013011634 A1 WO 2013011634A1 JP 2012004128 W JP2012004128 W JP 2012004128W WO 2013011634 A1 WO2013011634 A1 WO 2013011634A1
Authority
WO
WIPO (PCT)
Prior art keywords
waveform
pitch
segment
power
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2012/004128
Other languages
English (en)
French (fr)
Inventor
正徳 加藤
玲史 近藤
康行 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013524586A priority Critical patent/JP5862667B2/ja
Priority to US14/131,460 priority patent/US9443538B2/en
Publication of WO2013011634A1 publication Critical patent/WO2013011634A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • the present invention relates to a waveform processing device, a waveform processing method, and a waveform processing program, and more particularly to a waveform processing device, a waveform processing method, and a waveform processing program that change the power of a waveform.
  • the speech waveform is represented by a waveform with time on the horizontal axis and amplitude on the vertical axis.
  • a speech waveform is prepared for each segment from the voices of speakers recorded in advance. Then, a synthesized speech is obtained by connecting the waveform of the segments corresponding to the speech to be output.
  • the sound waveform of each segment is cut out at a pitch period.
  • This cut out waveform is called a pitch waveform. Since a pitch waveform is cut out with a pitch period from the waveform of one element, a plurality of pitch waveforms are generated for each element.
  • the pitch period is the reciprocal of the pitch frequency (fundamental frequency).
  • FIG. 11 is a schematic diagram illustrating an example of compressor processing for an audio waveform.
  • the power envelope of the waveform 91 of the sound before the compressor processing can be schematically expressed as a power envelope 92.
  • the power envelope of the voice waveform becomes a power envelope 93.
  • Patent Document 1 describes a speech synthesizer.
  • the speech synthesizer described in Patent Document 1 performs waveform normalization processing as described below. That is, the speech synthesizer described in Patent Document 1 takes out one pitch waveform.
  • the speech synthesizer described in Patent Document 1 obtains normalized waveform information S [i] by performing the following equation (2) calculation with A as a predetermined value.
  • the power of the voice recorded to obtain the voice waveform for each segment varies depending on the voice recording conditions and the influence of the speaker's habit.
  • synthesized speech is generated using a waveform generated from such recorded speech, power non-uniformity occurs such that the power becomes particularly large at a certain position on the horizontal axis (time axis). As a result, synthesized speech that is difficult to hear is generated.
  • compressor processing can be considered as a method for eliminating the power non-uniformity of the synthesized speech.
  • the waveform in the portion where the amplitude value is lower than the threshold is not changed, and the waveform is changed so that the amplitude value is constant for the portion where the amplitude value is equal to or greater than the threshold.
  • the waveform is changed so that a portion where the amplitude value is equal to or larger than the threshold value is flattened. Therefore, the compressor processing has a problem that the sound waveform is distorted and the sound quality is deteriorated.
  • an object of the present invention is to provide a waveform processing device, a waveform processing method, and a waveform processing program for changing the power of each pitch waveform of a segment so that natural synthesized speech can be obtained.
  • a waveform processing apparatus selects a pitch waveform one by one from a group of pitch waveforms corresponding to a segment, and calculates the scalar representing the power of the selected pitch waveform;
  • a normalization degree calculating means for calculating a normalization degree, which is an index value indicating a degree of normalization with respect to the pitch waveform, as a function value of an increasing function using a scalar as a variable, and a pitch waveform selected by the power calculation means.
  • a change coefficient calculating means for calculating a change coefficient for changing the amplitude value based on a scalar and a normalization degree; an amplitude changing means for multiplying the amplitude value at each sampling point of the pitch waveform selected by the power calculating means by the change coefficient; It is characterized by providing.
  • the waveform processing method selects a pitch waveform one by one from a group of pitch waveforms corresponding to a segment, calculates a scalar representing the power of the selected pitch waveform, and normalizes the selected pitch waveform.
  • Calculates the degree of normalization which is an index value representing the degree of noise, as a function value of an increasing function with a scalar as a variable, and calculates a change coefficient that changes the amplitude value of the selected pitch waveform based on the scalar and degree of normalization
  • the change value is multiplied by the amplitude value at each sampling point of the selected pitch waveform.
  • the waveform processing program is a power calculation process for selecting a pitch waveform one by one from a group of pitch waveforms corresponding to an element and calculating a scalar representing the power of the selected pitch waveform.
  • Normalization degree calculation processing that calculates the normalization degree, which is an index value indicating the degree of normalization for the pitch waveform selected in the calculation processing, as a function value of an increasing function using a scalar as a variable, and the pitch waveform selected in the power calculation processing
  • a change coefficient calculation process that calculates a change coefficient that changes the amplitude value of the signal based on the scalar and the normalization degree, and an amplitude change process that multiplies the amplitude value at each sampling point of the pitch waveform selected in the power calculation process by the change coefficient Is executed.
  • the power of each pitch waveform of the segment can be changed so that natural synthesized speech can be obtained.
  • FIG. FIG. 1 is a block diagram showing an example of the first embodiment of the present invention.
  • the waveform processing apparatus includes a speech unit storage unit 1, a prosody correction unit 2, and a unit waveform connection unit 3.
  • the speech segment storage unit 1 is a storage device that stores a plurality of pitch waveforms for each segment.
  • the unit of the segment will be described.
  • the first half and the second half of the vowel are each one unit (one unit of a unit).
  • the consonant and the first half of the vowel that follows are a single segment, and the latter half of the vowel is a single segment.
  • the waveform of the recorded voice is cut out for each segment.
  • a pitch waveform is generated by further dividing the waveform for each element by a pitch period.
  • the pitch period can be obtained, for example, as the time from the peak of the waveform to the next peak.
  • a waveform in which the peak exists in the center and the power at both ends of the waveform is smaller than the peak may be cut out as a pitch waveform.
  • FIG. 1 schematically shows pitch waveform groups 21, 22, and 23 as examples of pitch waveform groups for each unit stored in the speech unit storage unit 1.
  • the pitch waveform group 21 is a pitch waveform group corresponding to one segment.
  • Each of the pitch waveform groups 22 and 23 also corresponds to one piece.
  • the speech unit storage unit 1 also stores the duration time for each unit when the waveform of the unit is generated without performing thinning or insertion of the pitch waveform is taken as an example.
  • FIG. 2 is an explanatory diagram schematically showing an example of a pitch waveform.
  • the pitch waveform is sampled along the horizontal axis (time axis). Assume that sampling is performed N times from 0 to N ⁇ 1 with respect to the pitch waveform illustrated in FIG.
  • Sampling frequency N can be said to be the length of one pitch waveform.
  • the amplitude value at t is P (t).
  • the prosodic correction unit 2 changes the power of the pitch waveform belonging to the pitch waveform group for each segment. Furthermore, the waveform of one unit is generated by thinning or inserting the pitch waveform according to the duration time when the unit is output, and connecting (superimposing and adding) the pitch waveforms.
  • the segment waveform linking unit 3 generates synthesized speech by linking the waveforms for each segment created by the prosody correcting unit 2.
  • the prosody correction unit 2 includes a power correction unit 10, a time adjustment unit 8, and a segment waveform generation unit 9.
  • the power correction unit 10 reads the pitch waveform group stored in the speech unit storage unit 1 for each unit.
  • the power correction unit 10 calculates a normalization degree for each pitch waveform corresponding to one segment. Further, the power of the pitch waveform is changed based on the degree of normalization obtained for the pitch waveform. In other words, the power is corrected based on the normalization degree.
  • the power correction unit 10 includes a power calculation unit 4, a normalization degree calculation unit 6, a scaling coefficient calculation unit 5, and a multiplier 7.
  • the power calculation unit 4 reads a pitch waveform group for each unit from the speech unit storage unit 1.
  • the power calculation unit 4, the normalization degree calculation unit 6, the scaling coefficient calculation unit 5, and the multiplier 7 perform processing for each pitch waveform belonging to the pitch waveform group of one unit.
  • the power calculation unit 4 reads a pitch waveform group for each segment according to the order of the segments in the synthesized speech.
  • the power calculation unit 4 calculates a scalar S representing power for the pitch waveform of interest.
  • a case where the power calculation unit 4 calculates the average amplitude as a scalar S representing power will be described as an example.
  • the power calculation unit 4 calculates the average by calculating the following equation (3).
  • the amplitude S may be calculated.
  • the scalar S representing power is not limited to the above average amplitude, and the power calculation unit 4 may calculate another value as the scalar S representing power. Other examples of the scalar S representing power will be described later.
  • is a real number satisfying 0.0 ⁇ ⁇ ⁇ 1.0.
  • the increasing function used as A (S) may be, for example, a step function, a polygonal line function, or a sigmoid function.
  • the increase function A (S) is a polygonal line function will be described as an example.
  • the normalization degree calculation unit 6 calculates a value according to the average amplitude S calculated by the power calculation unit 4 using the function A (S) of the following formula (4), thereby calculating the normalization degree What is necessary is just to obtain
  • ⁇ min and ⁇ max in Expression (4) may be determined in advance as constants that satisfy ⁇ min ⁇ max .
  • S 1 and S 2 may be determined in advance as constants that satisfy S 1 ⁇ S 2 .
  • the scaling coefficient calculation unit 5 calculates a scaling coefficient as a function value of a function having a scalar S representing power (average amplitude in this example) and a normalization degree ⁇ as variables.
  • the scaling factor is a factor by which the amplitude value P (t) at each sampling point of the pitch waveform is multiplied.
  • the power of the pitch waveform can be changed (corrected) by multiplying P (t) by the scaling factor.
  • the scaling coefficient calculation unit 5 calculates a scaling coefficient g that satisfies the condition (C / S) ⁇ g ⁇ 1.0.
  • the scaling coefficient calculation unit 5 may obtain the scaling coefficient g by substituting the average amplitude S and the normalization degree ⁇ into the function G (S, ⁇ ) of the following equation (5), for example.
  • Equation (5) is a predetermined constant as described above.
  • One scaling coefficient is obtained for one pitch waveform by the processing of the power calculation unit 4, the normalization degree calculation unit 6, and the scaling coefficient calculation unit 5.
  • the power is changed by performing the calculation of the following formula (6) with respect to 1.
  • P (t) ' is the corrected amplitude value at each sampling point.
  • the time adjustment unit 8 is input with the duration time for outputting the segment for each segment.
  • the time adjustment unit 8 applies the corrected pitch waveform group to the corrected pitch waveform group based on the ratio between the duration time set in advance for the power-corrected pitch waveform group and the input duration time length.
  • the pitch waveform is thinned out or the pitch waveform is inserted.
  • the pitch waveform to be inserted may be the same as the pitch waveform already obtained.
  • a pitch pattern is input to the segment waveform generator 9.
  • the pitch pattern is a time series of pitch frequencies.
  • the segment waveform generation unit 9 connects the pitch waveforms for each segment according to the pitch frequency indicated by the pitch pattern.
  • the segment waveform generator 9 calculates the pitch period by calculating the reciprocal of the pitch frequency, and connects the pitch waveform groups for each segment in accordance with the pitch period.
  • what should be calculated from which pitch frequency is included in the pitch pattern (time series of pitch frequencies) when the pitch waveforms are connected may be determined as follows, for example.
  • a time series in which the pitch frequency is associated with the elapsed time from the reference time may be input as the pitch pattern.
  • the segment waveform generation unit 9 determines the pitch waveform order in the synthesized speech, and calculates the pitch period used when connecting the pitch waveforms using the pitch frequency corresponding to the elapsed time corresponding to the pitch waveform order. do it.
  • the power calculation unit 4, the normalization degree calculation unit 6, the scaling factor calculation unit 5, the multiplier 7, the time adjustment unit 8, the segment waveform generation unit 9, and the segment waveform connection unit 3 operate according to a waveform processing program, for example.
  • a waveform processing program for example.
  • a computer program storage device (not shown) stores the waveform processing program, and the CPU reads the program, and according to the program, the power calculation unit 4, the normalization degree calculation unit 6, and the scaling coefficient calculation unit. 5, the multiplier 7, the time adjustment unit 8, the unit waveform generation unit 9, and the unit waveform connection unit 3 may be operated.
  • Each element may be realized by a separate unit.
  • FIG. 4 is a flowchart showing an example of a process for synthesizing a pitch waveform for one segment. It is assumed that a pitch waveform group is stored in advance in the speech segment storage unit 1 for each segment.
  • the power calculation unit 4 reads a pitch waveform group for one unit from the speech unit storage unit 1 (step S1). Then, the power calculation unit 4 determines whether there is a pitch waveform that has not yet been selected in the pitch waveform group for one segment read in step S1 (step S2). If there is an unselected pitch waveform (Yes in step S2), the process proceeds to step S3. Note that since no pitch waveform has been selected at the time of first transition from step S1 to step S2, the process proceeds to step S3.
  • step S3 the power calculation unit 4 selects one pitch waveform that has not yet been selected from the pitch waveform group for one segment read in step S1 (step S3).
  • the power calculation unit 4 calculates a scalar S representing power for the selected pitch waveform (step S4).
  • a scalar S representing power In this example, a case where an average amplitude is calculated as a scalar S representing power will be described as an example.
  • the power calculation unit 4 may calculate the average amplitude S of the pitch waveform by performing the calculation of Expression (3) for the selected pitch waveform.
  • the normalization degree calculation unit 6 calculates the normalization degree ⁇ based on the average amplitude S (step S5).
  • the function shown in Expression (4) is predetermined as the increasing function A (S) using the average amplitude S as a variable.
  • the scaling coefficient calculation unit 5 calculates a scaling coefficient for the pitch waveform group selected in step S1 based on the average amplitude S and the normalization degree ⁇ (step S6).
  • the function shown in Expression (5) is predetermined as the function G (S, ⁇ ) representing the scaling coefficient.
  • the normalization degree calculation unit 6 may calculate the scaling coefficient by substituting the average amplitude S calculated in step S4 and the normalization degree ⁇ calculated in step S5 into G (S, ⁇ ).
  • the multiplier 7 changes the power of the pitch waveform selected in step S3 using the scaling coefficient g calculated in step S6 (step S7).
  • the corrected amplitude value P (t) ′ at each sampling point may be calculated by performing the calculation shown in Expression (6).
  • the correction for the waveform selected in step S3 is completed.
  • step S7 the power correction unit 10 repeats the operations after step S2.
  • step S2 If it is determined in step S2 that there are no unselected pitch waveforms (No in step S2), the process proceeds to step S8.
  • the fact that there is no unselected pitch waveform means that all the pitch waveforms belonging to the group of pitch waveforms read in step S1 have already been selected, and the changes have been completed for those pitch waveforms. Become.
  • the time adjustment unit 8 is input with a duration time when the segment is output as synthesized speech.
  • the time adjustment unit 8 calculates the ratio between the duration time set in advance for the pitch waveform group for one segment read in step S1 and the input duration length. Then, based on the ratio, the time adjustment unit 8 thins out the pitch waveform or inserts the pitch waveform into the corrected pitch waveform group (step S8).
  • the predetermined duration is the duration of the segment when the segment waveform is generated without thinning out or inserting the pitch waveform.
  • FIG. 5 is an explanatory diagram showing an example of pitch waveform thinning
  • FIG. 6 is an explanatory diagram showing an example of pitch waveform insertion
  • FIG. 5A shows each pitch waveform before thinning
  • FIG. 6A shows each pitch waveform before insertion.
  • Numbers 1 to 6 shown in FIGS. 5A and 6A indicate the order of pitch waveforms. 5 and 6, the maximum amplitude of each pitch waveform is common, but the maximum amplitude of each pitch is not necessarily common.
  • the input duration length (the duration length when the segment is output as synthesized speech) is 0.66 times the predetermined duration length.
  • the time adjustment unit 8 excludes the second and fourth pitch waveforms and moves the third, fifth, and sixth pitch waveforms to the second to fourth positions (see FIG. 5). 5 (b)).
  • the number of pitch waveforms is reduced from six to four, and the duration of this segment is 0.66 times that in the case where no thinning is performed.
  • the input duration length is 1.33 times the predetermined duration length.
  • the time adjustment unit 8 inserts the same pitch wavelength as the second pitch wavelength after the second pitch wavelength.
  • the same pitch wavelength as the fourth pitch wavelength is inserted.
  • the number of pitch waveforms increases from six to eight, and the duration of this segment is 1.33 times that in the case where no insertion is performed.
  • thinning and insertion are not limited to the examples shown in FIGS.
  • About how many pitch waveforms are excluded when the input duration length is a predetermined duration length, and what pitch waveform is inserted with the same pitch waveform Can be determined in advance as a thinning or insertion rule.
  • the segment waveform generation unit 9 specifies the pitch frequency corresponding to the pitch waveform read in step S1 from the input pitch frequencies, and calculates the reciprocal of the pitch frequency. Calculate the pitch period. Then, the individual pitch waveforms are connected in accordance with the pitch period (step S9).
  • superposition addition may be performed using a shift amount corresponding to the pitch period.
  • the first pitch waveform is P 1 (t)
  • the second pitch waveform is P 2 (t)
  • the shift amount corresponding to the pitch period from the first pitch waveform to the second pitch waveform Is T is T.
  • the segment waveform generation unit 9 obtains a connected pitch waveform by calculating P 1 (t) + P 2 (t + T).
  • the third and subsequent pitch waveforms may be superimposed and added while reflecting the shift amount.
  • from the peak to the next peak becomes long at a place where the pitch period is long, and from the peak to the next peak becomes short at a place where the pitch period is short.
  • the vicinity of the end point of the previous pitch waveform and the vicinity of the start point of the next pitch waveform may be overlapped on the time axis.
  • the segment waveform generator 9 may add the amplitude value between the vicinity of the end point of the previous pitch waveform and the vicinity of the start point of the next pitch waveform.
  • the prosodic correction unit 2 may perform the above-described steps S1 to S9 for each segment in the order of the segments used in the synthesized speech.
  • the segment waveform connecting unit 3 connects the waveforms of the segments according to the order of the segments used in the synthesized speech.
  • the segment waveform linking unit 3 may perform waveform superposition addition using a shift amount corresponding to the duration time. For example, assume that the waveform of the first phoneme is X 1 (t) and the waveform of the second phoneme is X 2 (t). Further, it is assumed that the shift amount corresponding to the duration of the first phoneme is R. In this case, the segment waveform connecting unit 3 obtains a connected waveform by calculating X 1 (t) + X 2 (t + R). Similarly, the third and subsequent phoneme waveforms may be superimposed and added while reflecting the shift amount.
  • the segment waveform connecting unit 3 may add the amplitude value between the vicinity of the end point of the waveform of the previous phoneme and the vicinity of the start point of the waveform of the next phoneme.
  • the function A (S) used for calculating the normalization degree ⁇ is an increasing function. Therefore, the greater the value of the average amplitude (scalar representing power), the higher the degree of normalization. That is, it approaches full normalization. On the other hand, the smaller the average amplitude value, the lower the normalization degree, and the less the change in power due to the change in step S7. Therefore, it is possible to maintain a state where the amplitude of the pitch waveform having a small amplitude is relatively smaller than that of the other pitch waveforms. As a result, natural synthesized speech can be obtained.
  • the scaling factor calculation unit 5 calculates a scaling factor g that satisfies the condition (C / S) ⁇ g ⁇ 1.0, and the multiplier 7 changes the power by the scaling factor g. Therefore, even if a pitch waveform that suddenly increases in power due to voice recording conditions or speaker habits is obtained, it is possible to prevent power nonuniformity from occurring in the resultant synthesized voice waveform. it can.
  • the multiplier 7 changes the power of the pitch waveform by the calculation of the equation (6), the pitch waveform after the change is not distorted, and the deterioration of the sound quality can be prevented.
  • the power calculation unit 4 may obtain a scalar S representing power by the calculation of Expression (7) shown below.
  • the scalar obtained by equation (7) is the square of the average amplitude obtained by equation (3).
  • the power calculation unit 4 may obtain a scalar S representing power by calculation of the following equation (8).
  • the normalization degree calculation unit 6 calculates a value corresponding to the scalar S (for example, the average amplitude of power) calculated by the power calculation unit 4 using the function A (S) of the following equation (9). do it.
  • the function shown in Formula (9) can also be called a binary function.
  • the normalization degree calculation unit 6 may calculate the normalization degree ⁇ by substituting the scalar S calculated by the power calculation unit 4 into the following formula (10).
  • ⁇ min and ⁇ max may be determined in advance as constants that satisfy ⁇ min ⁇ max .
  • ⁇ 1 and ⁇ 2 may be determined as constants that satisfy the following equations (11) and (12).
  • S 1 and S 2 in Expression (12) may be determined in advance as constants that satisfy S 1 ⁇ S 2 .
  • a (S) is a sigmoid function
  • the change in the normalization degree ⁇ becomes smooth, so the change in power becomes more natural.
  • C in Expression (13) is a predetermined constant.
  • ⁇ 1 and ⁇ 2 in Equation (13) may be determined in advance as constants that satisfy 0.0 ⁇ ⁇ 1 ⁇ 2 ⁇ 1.0.
  • a scaling factor g may be calculated.
  • C in Formula (14) is a predetermined constant. Further, ⁇ 1 and ⁇ 2 in the equation (14) may be determined as constants that satisfy the following equations (15) and (16).
  • the normalization degree calculation unit 6 determines whether the segment for which the scaling coefficient is to be calculated (that is, the segment corresponding to the pitch waveform group read in step S1) is a vowel, or a voiced plosive (b, d,
  • the increasing function A (S) used for calculating the normalization degree ⁇ is switched depending on whether a consonant other than g) or a consonant of a voiced plosive is included.
  • the normalization degree calculation unit 6 receives the result of performing language processing on the text information to be synthesized speech output. That is, it is determined by language processing whether each segment is a segment corresponding to a vowel, a segment containing a consonant other than a voiced plosive, or a segment containing a consonant of a voiced plosive. Then, the determination results may be input to the normalization degree calculation unit 6 in the order of the segments.
  • the normalization degree calculation unit 6 uses the function A (S) of the following equation (17) as the increase function A (S). And the normalization degree ⁇ may be calculated.
  • the normalization degree calculation unit 6 uses the following equation (18) as the increase function A (S).
  • the normalization degree ⁇ may be calculated using the function A (S).
  • the normalization degree calculation unit 6 uses the function of the following equation (19) as the increase function A (S). What is necessary is just to calculate the normalization degree (alpha) using A (S).
  • S 1 , S 2 , and S th may be set as constants in advance. However, S 2 and S th are determined so as to satisfy S 2 ⁇ S th .
  • ⁇ min1 , ⁇ max1 , ⁇ min2 , and ⁇ max2 may be determined in advance as constants that satisfy ⁇ min1 ⁇ max1 and ⁇ min2 ⁇ max2 , respectively. However, ⁇ max1 and ⁇ max2 are determined so as to satisfy the condition of ⁇ max2 ⁇ max1 . As for ⁇ min1 and ⁇ min2 , either value may be large.
  • the normalization degree of the segment including the consonant can be kept small. Further, it is possible to prevent the power of the voiced plosive from becoming larger than before scaling. Accordingly, it is possible to prevent the voice deterioration of the consonant accompanying the scaling.
  • the normalization degree calculation unit 6 corresponds to a segment within 3 mora from the head of the segment for which the scaling coefficient is calculated (that is, the segment corresponding to the pitch waveform group read in step S1).
  • the increase function A (S) used to calculate the normalization degree ⁇ may be switched depending on whether or not it is a segment. In this case, as a language process for the text information to be synthesized speech output, a process is performed to determine whether each segment corresponds to a segment within 3 mora from the beginning of the sentence. The determination result may be input to the normalization degree calculation unit 6.
  • the normalization degree calculation unit 6 uses the function A (S) of the following equation (20) as the increase function A (S). ) To calculate the normalization degree ⁇ .
  • the normalization degree calculation unit 6 uses the function A (Equation 21) shown below as the increase function A (S).
  • the normalization degree ⁇ may be calculated using S).
  • S 1 , S 2 , and S 3 may be determined in advance as constants that satisfy S 1 ⁇ S 3 ⁇ S 2 , respectively.
  • ⁇ min1 , ⁇ max1 , ⁇ min2 , and ⁇ max2 may be determined in advance as constants satisfying ⁇ min1 ⁇ max1 and ⁇ min2 ⁇ max2 , respectively.
  • ⁇ max1 and ⁇ max2 are determined so as to satisfy the condition of ⁇ max2 ⁇ max1 .
  • ⁇ min1 and ⁇ min2 either value may be large.
  • a (S) used for calculation of the normalization degree ⁇ is not based on whether the segment is within 3 mora from the beginning of the sentence but based on whether the segment is within 3 mora from the beginning of the exhalation paragraph. May be switched. That is, when the segment for which the scaling factor is calculated is a segment within 3 mora from the beginning of the exhalation paragraph, the normalization degree calculation unit 6 may calculate the normalization degree ⁇ using Expression (20). . If the segment for which the scaling coefficient is to be calculated is not a segment within 3 mora from the beginning of the exhalation paragraph, the normalization degree calculation unit 6 may calculate the normalization degree ⁇ using Expression (21). In this case, the normalization degree calculation unit 6 may be input with the result of determining for each segment whether or not the segment is within 3 mora from the beginning of the exhalation paragraph.
  • the synthesized speech at the beginning of a sentence or an exhalation paragraph can be made more natural by reducing the normalization degree of the segment within 3 mora from the beginning of the sentence (or the end of the exhalation paragraph).
  • FIG. 8 is a block diagram showing an example of the second embodiment of the present invention. Constituent elements similar to those in the first embodiment are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof is omitted.
  • the waveform processing apparatus of the second embodiment further includes a recorded speech waveform storage unit 32, a time length information storage unit 31, a segment creation unit 33, Is provided.
  • the recorded voice waveform storage unit 32 is a storage device that stores a recorded voice waveform.
  • FIG. 8 shows an example in which a series of waveforms of syllables “u”, “ma”, and “i” is stored.
  • the time length information storage unit 31 is a storage device that stores the time length of each syllable of the recorded voice. That is, the time length information storage unit 31 stores the time length of each syllable corresponding to the waveform stored in the recorded speech waveform storage unit 32. For example, the time length information storage unit 31 stores the time length for each syllable such as “u”, “ma”, and “i”.
  • the segment creation unit 33 extracts a waveform for each segment from the waveform (recorded speech waveform) stored in the recorded speech waveform storage unit 32, and further extracts a pitch waveform for each waveform of each segment. . Then, a pitch waveform group is stored in the speech unit storage unit 1 for each unit.
  • the segment creation unit 33 includes a segment waveform cutout unit 34 and a pitch waveform generation unit 35.
  • the segment generation unit 33 selects individual segments from the waveform (recorded speech waveform) stored in the recorded speech waveform storage unit 32. Cut out the waveform.
  • the first half and the second half of the vowel are each one unit (one unit of a unit).
  • the consonant and the first half of the vowel that follows are a single segment, and the latter half of the vowel is a single segment.
  • the segment creation unit 33 may cut out the first half and the second half of the syllable of the vowel alone from the recorded speech waveform.
  • the first half of the consonant and the subsequent vowel may be cut out and the second half of the vowel may be cut out.
  • what is necessary is just to determine the location applicable to each syllable in the waveform of the recorded audio
  • the waveform of audio recorded as illustrated in FIG. 8 corresponds to the syllables “u”, “ma”, and “i”.
  • the segment creation unit 33 identifies locations corresponding to “u”, “ma”, “i” from the recorded waveform based on the time lengths “u”, “ma”, “i”, Cut out the first half and the second half of the part corresponding to the syllable. As a result, a waveform for each segment is obtained.
  • the pitch waveform generator 35 cuts out a pitch waveform for each waveform of each segment. Even in the waveform of one unit, a plurality of peaks appear.
  • the pitch waveform generation unit 35 calculates the interval between the peaks as a pitch period. Then, the pitch waveform generator 35 obtains a plurality of pitch waveforms (pitch waveform group) for one unit by cutting out the waveform of the unit in accordance with the pitch period. Note that the pitch waveform generator 35 cuts out individual pitch waveforms so that the peak exists in the center and the power at both ends of the waveform is smaller than the peak.
  • the pitch waveform generation unit 35 stores the generated pitch waveform group in the speech unit storage unit 1 for each unit.
  • the recorded waveform including the syllables “u”, “ma”, and “i” has been described as an example.
  • the recorded speech waveform storage unit 32 stores many recorded waveforms including various syllables.
  • the time length of each syllable corresponding to the recorded waveform is stored in the time length information storage unit 31.
  • the segment waveform cutout unit 34 and the pitch waveform generation unit 35 are realized by, for example, a CPU of a computer that operates according to a waveform processing program.
  • the same effect as that of the first embodiment can be obtained.
  • the pitch segment group of various segments can be automatically stored in the speech segment storage unit 1.
  • FIG. FIG. 9 is a block diagram showing an example of the third embodiment of the present invention. Components similar to those in the first embodiment and the second embodiment are denoted by the same reference numerals as those in FIGS. 1 and 9, and detailed description thereof is omitted.
  • the waveform processing apparatus of the third embodiment includes a recorded speech waveform storage unit 32, a time length information storage unit 31, a segment creation unit 33a, a speech segment storage unit 1, a pitch pattern generation unit 41, A single waveform connecting portion 3 is provided.
  • the unit creation unit 33a performs scaling on the pitch waveform group before being stored in the speech unit storage unit 1, and stores the scaled pitch waveform group in the speech unit storage unit 1.
  • the pitch waveform generation unit 41 connects the pitch waveforms stored in the speech unit storage unit 1 for each unit.
  • the segment creation unit 33 a includes a segment waveform cutout unit 34, a pitch waveform generation unit 35, and a power correction unit 10.
  • the segment waveform cutout unit 34 and the pitch waveform generation unit 35 are the same as those elements in the second embodiment.
  • the power correction unit 10, the power calculation unit 4, the normalization degree calculation unit 6, the scaling coefficient calculation unit 5, and the multiplier 7 included in the power correction unit 10 are the same as those elements in the first and second embodiments. It is.
  • the multiplier 7 stores the scaled pitch waveform group in the speech unit storage unit 1.
  • the pitch waveform generation unit 41 includes a time adjustment unit 8 and a segment waveform generation unit 9.
  • the time adjustment unit 8, the segment waveform generation unit 9, and the segment waveform connection unit 3 are the same as those elements in the first and second embodiments.
  • FIG. 10 is a block diagram showing an example of the minimum configuration of the waveform processing apparatus of the present invention.
  • the waveform processing apparatus of the present invention includes power calculation means 71, normalization degree calculation means 72, change coefficient calculation means 73, and amplitude change means 74.
  • the power calculation means 71 selects a pitch waveform one by one from the pitch waveform group corresponding to the segment, and a scalar (for example, average amplitude or , (Scalar obtained by equation (7) or equation (8)).
  • a scalar for example, average amplitude or , (Scalar obtained by equation (7) or equation (8)).
  • the normalization degree calculation unit 72 (for example, the normalization degree calculation unit 6) increases the normalization degree, which is an index value indicating the degree of normalization with respect to the pitch waveform selected by the power calculation unit 71, using a scalar as a variable. It is calculated as a function value of a function (for example, function A (S) exemplified in Expression (4), Expression (9), or Expression (10)).
  • the conversion coefficient calculation unit 73 calculates a change coefficient (for example, the scaling coefficient g) for changing the amplitude value of the pitch waveform selected by the power calculation unit 71 based on the scalar and the normalization degree. To calculate.
  • Amplitude changing means 74 (for example, multiplier 7) multiplies the amplitude value at each sampling point of the pitch waveform selected by power calculating means 71 by a change coefficient.
  • the power of each pitch waveform of the segment can be changed so that natural synthesized speech can be obtained.
  • Power calculation means for selecting a pitch waveform one by one from a group of pitch waveforms corresponding to a segment, calculating a scalar representing the power of the selected pitch waveform, and the pitch waveform selected by the power calculation means
  • a normalization degree calculating means for calculating a normalization degree, which is an index value representing a degree of normalization with respect to the above, as a function value of an increasing function using the scalar as a variable, and an amplitude value of the pitch waveform selected by the power calculation means
  • Change coefficient calculating means for calculating a change coefficient to be changed based on the scalar and the normalization degree; and amplitude changing means for multiplying the amplitude value at each sampling point of the pitch waveform selected by the power calculating means by the change coefficient.
  • a waveform processing apparatus comprising:
  • Additional remark 3 The waveform processing apparatus of Additional remark 1 or Additional remark 2 provided with the segment waveform generation means which produces
  • Additional remark 4 The waveform processing apparatus in any one of Additional remark 1 to Additional remark 3 provided with the segment waveform connection means which connects the waveform showing the segment produced
  • Additional remark 5 The waveform processing apparatus in any one of Additional remark 1 to Additional remark 4 provided with the segment storage means which memorize
  • (Appendix 6) Recorded speech waveform storage means for storing the waveform of the recorded speech, segment waveform cutout means for cutting out the recorded speech waveform for each segment, and the pitch of the waveform extracted for each segment 6.
  • the waveform processing device according to any one of appendix 1 to appendix 5, further comprising a pitch waveform generation unit that cuts out each waveform and generates a pitch waveform group corresponding to the segment for each segment.
  • One pitch waveform is selected one by one from the group of pitch waveforms corresponding to the segment, a scalar representing the power of the selected pitch waveform is calculated, and an index value representing the degree of normalization for the selected pitch waveform
  • the normalization degree is calculated as a function value of an increasing function using the scalar as a variable, and a change coefficient for changing the amplitude value of the selected pitch waveform is calculated based on the scalar and the normalization degree.
  • a waveform processing method characterized by multiplying the amplitude value at each sampling point of the pitch waveform by the change coefficient.
  • a power calculation process for selecting a pitch waveform one by one from a group of pitch waveforms corresponding to an element and calculating a scalar representing the power of the selected pitch waveform, and a pitch selected by the power calculation process Changes the normalization degree, which is an index value indicating the degree of normalization of the waveform, as a function value of the increasing function using the scalar as a variable, and changes the amplitude value of the pitch waveform selected in the power calculation process
  • a power calculation unit that selects one pitch waveform from a group of pitch waveforms corresponding to a segment, calculates a scalar representing the power of the selected pitch waveform, and the pitch waveform selected by the power calculation unit
  • a normalization degree that is an index value indicating the degree of normalization with respect to a normalization degree calculation unit that calculates a function value of an increase function using the scalar as a variable, and an amplitude value of the pitch waveform selected by the power calculation unit.
  • a change coefficient calculation unit that calculates a change coefficient to be changed based on the scalar and the normalization degree; and an amplitude change unit that multiplies the amplitude value at each sampling point of the pitch waveform selected by the power calculation unit by the change coefficient.
  • a waveform processing apparatus comprising:
  • Additional remark 13 The waveform processing apparatus of Additional remark 1 or Additional remark 2 provided with the segment waveform generation part which produces
  • Additional remark 14 The waveform processing apparatus in any one of additional remark 1 to additional remark 3 provided with the segment waveform connection part which connects the waveform showing the segment produced
  • the waveform processing device according to any one of supplementary notes 1 to 4, further comprising a segment storage unit that stores, for each segment, a pitch waveform group corresponding to the segment.
  • (Supplementary note 16) Recorded speech waveform storage unit for storing recorded speech waveform, segment waveform segmenting unit for segmenting the recorded speech waveform for each segment, and pitching the waveform segmented for each segment
  • the waveform processing apparatus according to any one of Supplementary Note 1 to Supplementary Note 5, including a pitch waveform generation unit that cuts out each waveform and generates a pitch waveform group corresponding to the segment for each segment.
  • the present invention is applicable to a waveform processing apparatus that changes the power of a waveform.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させる波形処理装置を提供する。パワー計算手段71は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算する。正規化度計算手段72は、パワー計算手段71によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する。変更係数計算手段73は、パワー計算手段71によって選択されたピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する。振幅変更手段74は、パワー計算手段71によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる。

Description

波形処理装置、波形処理方法および波形処理プログラム
 本発明は、波形処理装置、波形処理方法および波形処理プログラムに関し、特に、波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムに関する。
 音声の波形は、横軸を時間とし、縦軸を振幅とする波形で表される。
 音声合成では、予め収録した話者の音声から、素片毎に音声の波形を用意しておく。そして、出力しようとする音声に応じた素片の波形を連結することで、合成音声を得る。
 各素片の音声の波形は、ピッチ周期で切り出される。この切り出された波形をピッチ波形と呼ぶ。1つの素片の波形から、ピッチ周期でピッチ波形が切り出されるので、素片毎に複数のピッチ波形が生成されることになる。なお、ピッチ周期は、ピッチ周波数(基本周波数)の逆数である。
 合成音声のパワーの不均一を解消する方法として、収録された音声あるいは合成音声に対してコンプレッサ処理を行う方法が考えられる。図11は、音声の波形に対するコンプレッサ処理の例を示す模式図である。コンプレッサ処理前の音声の波形91のパワー包絡は、パワー包絡92のように模式的に表すことができる。コンプレッサ処理を行うことにより、音声の波形のパワー包絡は、パワー包絡93のようになる。
 また、特許文献1には音声合成装置が記載されている。特許文献1に記載された音声合成装置は、以下に示すような波形の正規化処理を行う。すなわち、特許文献1に記載された音声合成装置は、1ピッチ波形を取り出す。この波形をX[i](i=1,・・・,N)としたとき、平均振幅Pは、以下に示す式(1)のように表される。
Figure JPOXMLDOC01-appb-M000001
 そして、特許文献1に記載された音声合成装置は、Aを所定の値として、以下に示す式(2)計算を行うことによって、正規化した波形情報S[i]を得る。
 S[i]=X[i]×A/P     式(2)
特開2008-15361号公報(段落0075-0079)
 素片毎の音声の波形を得るために収録される音声のパワーは、音声収録条件や話者の癖等の影響で様々に変化する。このような収録音声から生成された波形を用いて合成音声を生成すると、横軸(時間軸)において、ある箇所でパワーが特に大きくなるといったパワーの不均一が生じる。その結果、聞き取りにくい合成音声が生成されてしまう。
 前述のように、合成音声のパワーの不均一を解消する方法として、コンプレッサ処理が考えられる。しかし、コンプレッサ処理では、振幅値が閾値より低い部分の波形は変化させず、振幅値が閾値以上の部分に関して振幅値を一定にするように波形を変化させる。換言すれば、波形において、振幅値が閾値以上の部分を平坦にするように波形を変化させる。そのため、コンプレッサ処理では音声波形に歪みが生じ、音質が低下するという問題があった。
 特許文献1に記載された正規化処理では、i=1,・・・,Nとして、式(2)の計算を行うことにより、波形のパワーを変化させる。従って、波形の歪みは生じない。
 しかし、1つの素片に対して予め生成された複数のピッチ波形に対して、特許文献1に記載された正規化処理を行うと、各ピッチ波形の最大振幅が揃うことになる。自然な合成音声を得るためには、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することが好ましい。
 そこで、本発明は、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムを提供することを目的とする。
 本発明による波形処理装置は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更手段とを備えることを特徴とする。
 また、本発明による波形処理方法は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じることを特徴とする。
 また、本発明による波形処理プログラムは、コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更処理を実行させることを特徴とする。
 本発明によれば、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。
本発明の第1の実施形態の例を示すブロック図である。 ピッチ波形の例を模式的に示す説明図である。 式(4)に示す関数を表す説明図である。 1つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。 ピッチ波形の間引きの例を示す説明図である。 ピッチ波形の挿入の例を示す説明図である。 式(10)に示す関数を表す説明図である。 本発明の第2の実施形態の例を示すブロック図である。 本発明の第3の実施形態の例を示すブロック図である。 本発明の波形処理装置の最小構成の例を示すブロック図である。 音声の波形に対するコンプレッサ処理の例を示す模式図である。
 以下、本発明の実施形態を図面を参照して説明する。
 1つの素片に対応する複数のピッチ波形に対して、特許文献1に記載された方法で正規化を行うと、その各ピッチ波形の最大振幅が揃う。このような正規化を完全正規化と呼ぶことにする。本発明では、1つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値を算出する。以下、この規定値を正規化度と記す。正規化度は、正規化の程度を表す指標値であるということができる。そして、本発明では、その正規化度に応じて、ピッチ波形のパワーを変更する。
実施形態1.
 図1は、本発明の第1の実施形態の例を示すブロック図である。第1の実施形態の波形処理装置は、図1に示すように、音声素片記憶部1と、韻律補正部2と、素片波形連結部3とを備える。
 音声素片記憶部1は、素片毎に複数のピッチ波形を記憶する記憶装置である。ここで、素片の単位について説明する。音声のうち、母音単独の音節に関しては、その母音の前半と後半がそれぞれ1つの素片(素片の1単位)となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで1つの素片となり、また、その母音の後半が1つの素片となる。収録音声の波形は、素片毎に切り出される。そして、素片毎の波形を、さらに、ピッチ周期で分割することによりピッチ波形を生成する。なお、ピッチ周期は、例えば、波形のピークから次のピークまでの時間として求めることができる。1つの素片の波形をピッチ波形に分割するときには、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなっている波形をピッチ波形として切り出せばよい。
 図1では、音声素片記憶部1が記憶する素片毎のピッチ波形群の例として、ピッチ波形群21,22,23を模式的に示している。ピッチ波形群21は、1つの素片に対応するピッチ波形群である。ピッチ波形群22,23に関しても、それぞれ1つの素片に対応する。
 また、本例では、音声素片記憶部1が、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片毎の継続時間長も記憶している場合を例にする。
 図2は、ピッチ波形の例を模式的に示す説明図である。ピッチ波形は、横軸(時間軸)に沿ってサンプリングされている。図2に例示するピッチ波形に対して、0~N-1まで、N回のサンプリングを行っているとする。サンプリング回数Nは、1つのピッチ波形の長さということができる。そして、t=0,1,2,・・・,N-1としたときに、tにおける振幅値をP(t)とする。以下、t=0,1,2,・・・,N-1としたときに、振幅値がP(t)となるピッチ波形を、{P(t):t=0,1,2,・・・,N-1}と表現する場合がある。
 韻律補正部2は、素片毎に、ピッチ波形群に属するピッチ波形のパワーを変化させる。さらに、その素片を出力する際の継続時間長に応じて、ピッチ波形の間引きや挿入を行い、ピッチ波形を連結(重ね合わせ加算)することによって、1つの素片の波形を生成する。
 素片波形連結部3は、韻律補正部2によって作成された素片毎の波形を連結することによって、合成音声を生成する。
 韻律補正部2は、パワー補正部10と、時間調整部8と、素片波形生成部9とを含む。
 パワー補正部10は、音声素片記憶部1に記憶されているピッチ波形群を素片毎に読み込む。パワー補正部10は、1つの素片に対応する各ピッチ波形に対して正規化度を計算する。さらに、ピッチ波形のパワーを、そのピッチ波形に対して求めた正規化度に基づいて変化させる。換言すれば、パワーを正規化度に基づいて補正する。
 具体的には、パワー補正部10は、パワー計算部4と、正規化度計算部6と、スケーリング係数計算部5と、乗算器7とを備える。
 パワー計算部4は、音声素片記憶部1から素片毎にピッチ波形群を読み込む。そして、パワー計算部4、正規化度計算部6、スケーリング係数計算部5および乗算器7は、1つの素片のピッチ波形群に属するピッチ波形毎に処理を行う。なお、パワー計算部4は、例えば、合成音声における素片の順番に従って、素片毎にピッチ波形群を読み込む。
 パワー計算部4は、着目しているピッチ波形に関して、パワーを表すスカラSを計算する。ここでは、パワー計算部4が、パワーを表すスカラSとして平均振幅を計算する場合を例にして説明する。ピッチ波形が{P(t):t=0,1,2,・・・,N-1}であるとすると、パワー計算部4は、以下に示す式(3)の計算を行うことによって平均振幅Sを計算すればよい。
Figure JPOXMLDOC01-appb-M000002
 なお、パワーを表すスカラSは上記の平均振幅に限定されず、パワー計算部4は、パワーを表すスカラSとして他の値を計算してもよい。パワーを表すスカラSの他の例に関しては、後述する。
 正規化度計算部6は、パワーを表すスカラS(本例では平均振幅)を変数とする増加関数の関数値として、正規化度を計算する。正規化度をαとし、パワーを表すスカラSを変数とする増加関数をA(S)とすると、α=A(S)である。既に説明したように、正規化度は、1つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値である。
 αは、0.0≦α≦1.0を満たす実数である。A(S)として用いる増加関数は、例えば、階段関数であっても、折れ線関数であっても、あるいはシグモイド関数であってもよい。本例では、増加関数A(S)が折れ線関数である場合を例にして説明する。例えば、正規化度計算部6は、以下に示す式(4)の関数A(S)を用いて、パワー計算部4が計算した平均振幅Sに応じた値を計算することにより、正規化度αを求めればよい。
Figure JPOXMLDOC01-appb-M000003
 式(4)に示す関数は、図3に示すように表される。また、式(4)におけるαmin、αmaxは、αmin<αmaxを満たす定数として予め定めておけばよい。同様に、S,Sに関しても、S<Sを満たす定数として予め定めておけばよい。なお、式(4)は、折れ線関数の例であり、増加関数α=A(S)は、式(4)以外の式で表される折れ線関数であってもよい。また、折れ線関数でなくてもよい。
 スケーリング係数計算部5は、パワーを表すスカラS(本例では平均振幅)と正規化度αとを変数とする関数の関数値として、スケーリング係数を計算する。スケーリング係数は、ピッチ波形の各サンプリング点における振幅値P(t)に対して乗じる係数である。P(t)にスケーリング係数を乗じることで、ピッチ波形のパワーを変更(補正)することができる。
 スケーリング係数をgとし、スケーリング係数を表す関数をG(S,α)とすると、g=G(S,α)である。また、予め定めた定数をCとする。スケーリング係数計算部5は、(C/S)≦g≦1.0という条件を満たすスケーリング係数gを計算する。
 スケーリング係数計算部5は、例えば、以下に示す式(5)の関数G(S,α)に、平均振幅Sおよび正規化度αを代入することにより、スケーリング係数gを求めればよい。
Figure JPOXMLDOC01-appb-M000004
 なお、式(5)におけるCは、上述のように、予め定めた定数である。
 パワー計算部4、正規化度計算部6およびスケーリング係数計算部5の処理により、1つのピッチ波形に対して1つのスケーリング係数が求まる。
 乗算器7は、着目しているピッチ波形の振幅値に、スケーリング係数計算部5によって計算されたスケーリング係数gを乗算することにより、ピッチ波形のパワーを変更する。すなわち、ピッチ波形を{P(t):t=0,1,2,・・・,N-1}と表すと、乗算器7は、t=0,1,2,・・・,N-1に関してそれぞれ、以下に示す式(6)の計算を行うことによって、パワーを変更する。
 P(t)’=P(t)×g      式(6)
 P(t)’は、各サンプリング点における補正後の振幅値である。
 時間調整部8には、各素片に関して、素片を出力する際の継続時間長が入力される。時間調整部8は、パワーの補正が行われたピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする。なお、挿入するピッチ波形は、既に得られているピッチ波形と同一でよい。
 素片波形生成部9には、ピッチパタンが入力される。ピッチパタンはピッチ周波数の時系列である。素片波形生成部9は、ピッチパタンが示すピッチ周波数に応じて、素片毎に、ピッチ波形を連結する。素片波形生成部9は、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出し、そのピッチ周期に合わせて、素片毎に、ピッチ波形群を連結すればよい。
 なお、ピッチ波形の連結の際に、ピッチパタン(ピッチ周波数の時系列)に含まれるどのピッチ周波数からピッチ周期を計算すればよいかは、例えば、以下のように判定すればよい。例えば、ピッチパタンとして、ピッチ周波数と基準時点から経過時間とを対応付けた時系列を入力すればよい。素片波形生成部9は、合成音声におけるピッチ波形の順番を判断し、そのピッチ波形の順番に応じた経過時間に対応するピッチ周波数を用いて、ピッチ波形を連結する際に用いるピッチ周期を計算すればよい。
 パワー計算部4,正規化度計算部6、スケーリング係数計算部5、乗算器7、時間調整部8、素片波形生成部9および素片波形連結部3は、例えば、波形処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、コンピュータのプログラム記憶装置(図示略)が波形処理プログラムを記憶し、CPUがそのプログラムを読み込んで、そのプログラムに従って、パワー計算部4,正規化度計算部6、スケーリング係数計算部5、乗算器7、時間調整部8、素片波形生成部9および素片波形連結部3として動作すればよい。また、各要素がそれぞれ別々のユニットで実現されていてもよい。
 次に、動作について説明する。
 図4は、1つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。音声素片記憶部1には、予め素片毎にピッチ波形群が記憶されているものとする。
 パワー計算部4は、1素片分のピッチ波形群を音声素片記憶部1から読み込む(ステップS1)。そして、パワー計算部4は、ステップS1で読み込んだ1素片分のピッチ波形群の中で、まだ選択していないピッチ波形があるか否かを判定する(ステップS2)。未選択のピッチ波形がある場合(ステップS2におけるYes)、ステップS3に移行する。なお、ステップS1から最初にステップS2に移行した時点では、いずれのピッチ波形も選択していないので、ステップS3に移行する。
 ステップS3において、パワー計算部4は、ステップS1で読み込んだ1素片分のピッチ波形群の中で、まだ選択していないピッチ波形を1つ選択する(ステップS3)。
 次に、パワー計算部4は、選択したピッチ波形について、パワーを表すスカラSを計算する(ステップS4)。本例では、パワーを表すスカラSとして、平均振幅を計算する場合を例にして説明する。パワー計算部4は、選択したピッチ波形について、式(3)の計算を行うことにより、そのピッチ波形の平均振幅Sを計算すればよい。
 次に、正規化度計算部6が、平均振幅Sに基づいて、正規化度αを計算する(ステップS5)。本例では、平均振幅Sを変数とする増加関数A(S)として、式(4)に示す関数が予め定められているとする。正規化度計算部6は、ステップS4で計算された平均振幅Sに応じた正規化度α(=A(S))を、式(4)に示す関数A(S)を用いて計算すればよい。
 ステップS5の後、スケーリング係数計算部5が、平均振幅Sおよび正規化度αに基づいて、ステップS1で選択されたピッチ波形群に対するスケーリング係数を計算する(ステップS6)。本例では、スケーリング係数を表す関数G(S,α)として、式(5)に示す関数が予め定められているとする。正規化度計算部6は、ステップS4で計算された平均振幅SおよびステップS5で計算された正規化度αをG(S,α)に代入することによって、スケーリング係数を計算すればよい。
 次に、乗算器7は、ステップS6で計算されたスケーリング係数gを用いて、ステップS3で選択されたピッチ波形のパワーを変更する(ステップS7)。選択したピッチ波形を、{P(t):t=0,1,2,・・・,N-1}と表した場合、乗算器7は、t=0,1,2,・・・,N-1に関してそれぞれ、式(6)に示す計算を行うことにより、各サンプリング点における補正後の振幅値P(t)’を計算すればよい。ステップS7の処理によって、ステップS3で選択された波形に対する補正が完了する。
 ステップS7の後、パワー補正部10は、ステップS2以降の動作を繰り返す。
 ステップS2において、未選択のピッチ波形がなくなったと判定したならば(ステップS2におけるNo)、ステップS8に移行する。なお、未選択のピッチ波形がないということは、ステップS1で読み込んだ1素片分のピッチ波形群に属するピッチ波形を全て選択済みであり、それらのピッチ波形について変更が完了していることになる。
 時間調整部8には、素片を合成音声として出力する際の継続時間長が入力されている。時間調整部8は、ステップS1で読み込まれた1素片分のピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合を計算する。そして、時間調整部8には、その割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする(ステップS8)。なお、予め定められていた継続時間長は、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片の継続時間長である。
 図5は、ピッチ波形の間引きの例を示す説明図であり、図6は、ピッチ波形の挿入の例を示す説明図である。図5(a)は、間引き前の各ピッチ波形を示し、図6(a)は、挿入前の各ピッチ波形を示す。本例では、1素片分のピッチ波形群に6個のピッチ波形が属している場合を例にする(図5(a)、図6(a)参照)。図5(a)および図6(a)に示す番号1~6は、ピッチ波形の順番を表している。なお、図5および図6では、各ピッチ波形の最大振幅を共通としているが、各ピッチの最大振幅は共通であるとは限らない。
 図5を参照して間引きの例について説明する。入力された継続時間長(素片を合成音声として出力する際の継続時間長)が、予め定められていた継続時間長の0.66倍であったとする。この場合、時間調整部8は、例えば、図5に示すように、2番目および4番目のピッチ波形を除外し、3番目、5番目および6番目のピッチ波形を2~4番目に繰り上げる(図5(b)参照)。この結果、ピッチ波形の数が6個から4個に減少し、この素片の継続時間長は、間引きをしない場合に比べて0.66倍になる。
 図6を参照して挿入の例について説明する。入力された継続時間長が予め定められていた継続時間長の1.33倍であったとする。この場合、時間調整部8は、図6に示すように、2番目のピッチ波長の次に、その2番目のピッチ波長と同一のピッチ波長を挿入する。同様に、4番目のピッチ波長の次に、その4番目のピッチ波長と同一のピッチ波長を挿入する。この結果、ピッチ波形の数が6個から8個に増加し、この素片の継続時間長は、挿入を行わない場合に比べて1.33倍になる。
 なお、間引きや挿入は、図5および図6に示す例に限定されない。入力された継続時間長が予め定められていた継続時間長の何倍である場合に、何番目のピッチ波形を除外するか、また、何番目のピッチ波形と同一のピッチ波形を挿入するかについては、予め間引きや挿入のルールとして定めておけばよい。
 ステップS8の次に、素片波形生成部9は、ステップS1で読み込まれたピッチ波形に対応するピッチ周波数を、入力されたピッチ周波数の中から特定し、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出する。そして、そのピッチ周期に合わせて、個々のピッチ波形を連結する(ステップS9)。
 なお、ピッチ波形を連結(重ね合わせ加算)する場合には、ピッチ周期に相当するずらし量を用いて重ね合わせ加算すればよい。例えば、1番目のピッチ波形がP(t)であり、2番目のピッチ波形がP(t)であり、1番目のピッチ波形から2番目のピッチ波形までのピッチ周期に相当するずらし量がTであるとする。この場合、素片波形生成部9は、P(t)+P(t+T)を計算することで、連結後のピッチ波形を得る。3番目以降のピッチ波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。連結後の波形において、ピッチ周期が長い箇所では、ピークから次のピークまでが長くなり、ピッチ周期が短い箇所では、ピークから次のピークまでが短くなる。
 なお、ピッチ波形を連結する際に、時間軸上で、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺とを重複させてもよい。この場合、素片波形生成部9は、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺との間で振幅値の加算を行えばよい。
 以上のステップS1~S9により、1つの素片の波形が生成されることになる。
 韻律補正部2は、合成音声で用いる素片の順番に、素片毎に上記のステップS1~S9の処理を行えばよい。
 素片波形連結部3は、合成音声で用いる素片の順番に従って、各素片の波形を連結する。素片波形連結部3は、継続時間長に相当するずらし量を用いて、波形の重ね合わせ加算を行えばよい。例えば、1番の音素の波形がX(t)であり、2番目の音素の波形がX(t)であるとする。また、1番目の音素の継続時間長に相当するずらし量がRであるとする。この場合、素片波形連結部3は、X(t)+X(t+R)を計算することで連結後の波形を得る。3番目以降の音素の波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。なお、前の音素の波形の終点近辺と、その次の音素の始点近辺とを重複させてもよい。この場合、素片波形連結部3は、前の音素の波形の終点近辺と、その次の音素の波形の始点近辺との間で振幅値の加算を行えばよい。
 本発明において、正規化度αの計算に用いる関数A(S)は増加関数である。従って、平均振幅(パワーを表すスカラ)の値が大きいほど、正規化度は高くなる。すなわち、完全正規化に近づく。一方、平均振幅の値が小さいほど、正規化度は低くなり、ステップS7での変更によるパワーの変化は少なくなる。よって、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することができる。その結果、自然な合成音声を得ることができる。
 また、スケーリング係数計算部5は、(C/S)≦g≦1.0という条件を満たすスケーリング係数gを計算し、乗算器7は、そのスケーリング係数gでパワーを変更する。従って、音声の収録条件や話者の癖により、突発的にパワーが増加するようなピッチ波形が得られたとしても、得られる合成音声の波形ではパワーの不均一が生じないようにすることができる。
 また、乗算器7は、式(6)の計算によってピッチ波形のパワーを変更するので、変更後のピッチ波形に歪みは生ぜず、音質の低下を防止することができる。
 次に、本発明の変形例について説明する。
 まず、パワー計算部4による計算の変形例について説明する。上記の例では、パワー計算部4が、ピッチ波形に関して、パワーを表すスカラSとして平均振幅を計算する場合を示した。パワー計算部4は、以下に示す式(7)の計算によって、パワーを表すスカラSを求めてもよい。
Figure JPOXMLDOC01-appb-M000005
 式(7)によって得られるスカラは、式(3)によって得られる平均振幅の二乗である。
 また、パワー計算部4は、以下に示す式(8)の計算によって、パワーを表すスカラSを求めてもよい。
Figure JPOXMLDOC01-appb-M000006
 次に、正規化度計算部6が正規化度αを求めるために用いる増加関数α=A(S)の変形例について説明する。上記の例では、増加関数α=A(S)が式(4)に示す折れ線関数である場合を例にして説明した。α=A(S)は増加関数であれば、折れ線関数でなくてもよい。例えば、正規化度計算部6は、以下に示す式(9)の関数A(S)を用いて、パワー計算部4が計算したスカラS(例えば、パワーの平均振幅)に応じた値を計算すればよい。
Figure JPOXMLDOC01-appb-M000007
 式(9)は、パワー計算部4が計算したスカラSが、予め定めた閾値Sth以下であれば、α=0.0であり、そうでなければ(すなわち、スカラSが閾値Sthより大きければ)、α=1.0とする階段関数である。なお、式(9)に示す関数は、二値関数と呼ぶこともできる。なお、式(9)は、階段関数の例であり、増加関数α=A(S)は、式(9)以外の式で表される階段関数であってもよい。
 また、α=A(S)はシグモイド関数であってもよい。例えば、正規化度計算部6は、以下に示す式(10)に、パワー計算部4が計算したスカラSを代入することで正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000008
 式(10)において、αmin、αmaxは、αmin<αmaxを満たす定数として予め定めておけばよい。また、式(10)において、γ,γは、以下に示す式(11)および式(12)を満足する定数として定めておけばよい。
 γ<0             式(11)
 0<S<γ<S        式(12)
 また、式(12)におけるS,Sに関しても、S<Sを満たす定数として予め定めておけばよい。式(10)に示すシグモイド関数は、図7に示すように表される。なお、式(10)は、シグモイド関数の例であり、増加関数α=A(S)は、式(10)以外の式で表されるシグモイド関数であってもよい。
 A(S)をシグモイド関数とすれば、正規化度αの変化が滑らかになるので、パワーの変化がより自然になる。
 次に、スケーリング係数5がスケーリング係数gを求めるために用いる関数G(S,α)の変形例について説明する。上記の例では、関数g=G(S,α)が式(5)に示す関数である場合を例にして説明した。正規化度計算部6は、以下に示す式(13)の折れ線関数g=G(S,α)を用いて、スカラS(例えば、パワーの平均振幅)および正規化度αに応じたスケーリング係数gを計算してもよい。
Figure JPOXMLDOC01-appb-M000009
 式(13)におけるCは、予め定めた定数である。また、式(13)におけるα,αは、0.0≦α<α≦1.0を満たす定数として予め定めておけばよい。関数g=G(S,α)は、式(13)以外の式で表される折れ線関数であってもよい。
 あるいは、正規化度計算部6は、以下に示す式(14)のシグモイド関数g=G(S,α)を用いて、スカラS(例えば、パワーの平均振幅)および正規化度αに応じたスケーリング係数gを計算してもよい。
Figure JPOXMLDOC01-appb-M000010
 式(14)におけるCは、予め定めた定数である。また、式(14)におけるβ,βは、以下に示す式(15)および式(16)を満足する定数として定めておけばよい。
 β1<0               式(15)
 0≦α<β<α≦1.0      式(16)
 また、第1の実施形態の他の変形例として、正規化度計算部6が、正規化度αの算出に用いる増加関数A(S)を切り替える態様が上げられる。以下、この変形例について説明する。
 正規化度計算部6は、スケーリング係数の計算対象となる素片(すなわち、ステップS1で読み込まれたピッチ波形群に対応する素片)が、母音であるのか、有声破裂音(b,d,g)以外の子音を含んでいるのか、有声破裂音の子音を含んでいるのかによって、正規化度αの算出に用いる増加関数A(S)を切り替える。
 なお、この場合、正規化度計算部6には、合成音声出力の対象となるテキスト情報に対して言語処理を行った結果が入力される。すなわち、個々の素片が、母音に該当する素片であるのか、有声破裂音以外の子音を含む素片であるのか、有声破裂音の子音を含む素片であるのかを、言語処理により判定し、素片の順番に、その判定結果を正規化度計算部6に入力すればよい。
 スケーリング係数の計算対象となる素片が母音に該当する素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(17)の関数A(S)を用いて、正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000011
 また、スケーリング係数の計算対象となる素片が有声破裂音以外の子音を含む素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(18)の関数A(S)を用いて、正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000012
 また、スケーリング係数の計算対象となる素片が有声破裂音の子音を含む素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(19)の関数A(S)を用いて、正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000013
 なお、式(17)から式(19)において、S,S,Sthはそれぞれ、定数とし予め定めておけばよい。ただし、S,Sthに関しては、S<Sthを満足するように定める。また、式(17)および式(18)において、αmin1,αmax1,αmin2,αmax2はそれぞれ、αmin1<αmax1,αmin2<αmax2を満足する定数とし予め定めておけばよい。ただし、αmax1,αmax2に関しては、αmax2<αmax1という条件も満足するように定める。αmin1,αmin2については、どちらの値が大きくてもよい。
 一般に、子音は正規化に伴う音声劣化が大きくなる可能性が高い。本変形例によれば、子音を含む素片の正規化度を小さく抑えることができる。また、有声破裂音に関してはスケーリング前よりもパワーが大きくなることを防止することができる。従って、スケーリングに伴う子音の音声劣化を防止することができる。
 また、正規化度計算部6は、スケーリング係数の計算対象となる素片(すなわち、ステップS1で読み込まれたピッチ波形群に対応する素片)が、文頭から3モーラ以内の素片に該当する素片であるか否かによって、正規化度αの算出に用いる増加関数A(S)を切り替えてもよい。この場合には、合成音声出力の対象となるテキスト情報に対する言語処理として、個々の素片が文頭から3モーラ以内の素片に該当するか否かを判定する処理を行い、素片の順番に、その判定結果を正規化度計算部6に入力すればよい。
 スケーリング係数の計算対象となる素片が文頭から3モーラ以内の素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(20)の関数A(S)を用いて、正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000014
 また、スケーリング係数の計算対象となる素片が文頭から3モーラ以内の素片でない場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(21)の関数A(S)を用いて、正規化度αを計算すればよい。
Figure JPOXMLDOC01-appb-M000015
 なお、式(20)および式(21)において、S,S,Sはそれぞれ、S<S<Sを満足する定数として予め定めておけばよい。また、αmin1,αmax1,αmin2,αmax2はそれぞれ、αmin1<αmax1,αmin2<αmax2を満足する定数とし予め定めておけばよい。ただし、αmax1,αmax2に関しては、αmax2<αmax1という条件も満足するように定める。αmin1,αmin2については、どちらの値が大きくてもよい。
 また、文頭から3モーラ以内の素片であるか否かではなく、呼気段落における呼気段落頭から3モーラ以内の素片であるか否かによって、正規化度αの算出に用いるA(S)を切り替えてもよい。すなわち、スケーリング係数の計算対象となる素片が呼気段落頭から3モーラ以内の素片である場合、正規化度計算部6は、式(20)を用いて正規化度αを計算すればよい。また、スケーリング係数の計算対象となる素片が呼気段落頭から3モーラ以内の素片でない場合、正規化度計算部6は、式(21)を用いて正規化度αを計算すればよい。この場合、正規化度計算部6には、呼気段落頭から3モーラ以内の素片であるか否かを素片毎に判定した結果が入力されればよい。
 文頭(または呼気段落頭)から3モーラ以内では、パワーが大きくなることが多い。本変形例によれば、文頭(または呼気段落頭)から3モーラ以内の素片における正規化度を小さくすることによって、文頭や呼気段落頭における合成音声をより自然な音声にすることができる。
実施形態2.
 第2の実施形態の波形処理装置は、音声素片記憶部1に記憶させるピッチ波形群を素片毎に生成する。図8は、本発明の第2の実施形態の例を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。第2の実施形態の波形処理装置は、第1の実施形態の要素(図1参照)に加え、さらに、収録音声波形記憶部32と、時間長情報記憶部31と、素片作成部33とを備える。
 収録音声波形記憶部32は、収録された音声の波形を記憶する記憶装置である。図8では、“u”,“ma”,“i”という各音節の連なりの波形を記憶している例を示している。
 時間長情報記憶部31は、収録された音声の各音節の時間長を記憶する記憶装置である。すなわち、時間長情報記憶部31は、収録音声波形記憶部32に記憶された波形に対応する各音節の時間長を記憶する。例えば、時間長情報記憶部31は、“u”,“ma”,“i”等の音節毎に、その時間長を記憶する。
 素片作成部33は、収録音声波形記憶部32に記憶された波形(収録された音声の波形)から素片毎の波形を切り出し、さらに、個々の素片の波形毎に、ピッチ波形を切り出す。そして、素片毎にピッチ波形群を音声素片記憶部1に記憶させる。
 具体的には、素片作成部33は、素片波形切り出し部34と、ピッチ波形生成部35とを備える。
 素片作成部33は、時間長情報記憶部31に記憶された音節毎の時間長に基づいて、収録音声波形記憶部32に記憶された波形(収録された音声の波形)から個々の素片の波形を切り出す。既に説明したように、母音単独の音節に関しては、その母音の前半と後半がそれぞれ1つの素片(素片の1単位)となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで1つの素片となり、また、その母音の後半が1つの素片となる。従って、素片作成部33は、収録された音声の波形から、母音単独の音節の前半と後半とをそれぞれ切り出せばよい。また、子音と、その後に続く母音とからなる音節に関しては、子音とその後に続く母音の前半を切り出すとともに、その母音の後半を切り出せばよい。また、収録された音声の波形において、個々の音節に該当する箇所は、音節毎の時間長に基づいて判定すればよい。
 例えば、図8に例示するように収録された音声の波形(以下、単に収録波形と記す。)が、“u”,“ma”,“i”という音節に対応しているとする。素片作成部33は、“u”,“ma”,“i”の各時間長に基づいて、“u”,“ma”,“i”に対応する箇所を収録波形から特定し、その各音節に該当する箇所の前半部分と後半部分とをそれぞれ切り出す。この結果、素片毎の波形が得られる。
 ピッチ波形生成部35は、各素片の波形毎に、ピッチ波形を切り出す。1つの素片の波形においても、ピークが複数現れる。ピッチ波形生成部35は、そのピーク間の間隔をピッチ周期として計算する。そして、ピッチ波形生成部35は、素片の波形をピッチ周期に合わせて切り出すことにより、1つの素片に関して複数のピッチ波形(ピッチ波形群)を得る。なお、ピッチ波形生成部35は、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなるようにして、個々のピッチ波形を切り出す。
 ピッチ波形生成部35は、素片毎に、生成したピッチ波形群を音声素片記憶部1に記憶させる。
 なお、上記の例では、“u”,“ma”,“i”という音節を含む収録波形を例に説明したが、収録音声波形記憶部32には、種々な音節を含む多くの収録波形を記憶させておく。また、その収録波形に応じた各音節の時間長を時間長情報記憶部31に記憶させておく。
 素片波形切り出し部34およびピッチ波形生成部35は、例えば、波形処理プログラムに従って動作するコンピュータのCPUによって実現される。
 韻律補正部2が備える各要素および素片波形連結部3については、第1の実施形態におけるそれらの要素と同様であり、説明を省略する。また、第1の実施形態の変形例を、第2の実施形態に適用してもよい。
 本実施形態によれば、第1の実施形態と同様の効果を得ることができる。また、音声素片記憶部1に、種々の素片のピッチ波形群を自動的に記憶させることができる。
実施形態3.
 図9は、本発明の第3の実施形態の例を示すブロック図である。第1の実施形態や第2の実施形態と同様の構成要素については、図1、図9と同一の符号を付し、詳細な説明を省略する。
 第3の実施形態の波形処理装置は、収録音声波形記憶部32と、時間長情報記憶部31と、素片作成部33aと、音声素片記憶部1と、ピッチパタン生成部41と、素片波形連結部3を備える。
 本実施形態では、素片作成部33aが、音声素片記憶部1に記憶させる前のピッチ波形群に対してスケーリングを行い、スケーリング後のピッチ波形群を音声素片記憶部1に記憶させる。
 ピッチ波形生成部41は、素片毎に、音声素片記憶部1に記憶されたピッチ波形を連結する。
 素片作成部33aは、素片波形切り出し部34と、ピッチ波形生成部35と、パワー補正部10とを備える。素片波形切り出し部34およびピッチ波形生成部35は、第2の実施形態におけるそれらの要素と同様である。パワー補正部10、およびパワー補正部10に含まれるパワー計算部4、正規化度計算部6、スケーリング係数計算部5および乗算器7は、第1および第2の実施形態におけるそれらの要素と同様である。なお、乗算器7は、スケーリング後のピッチ波形群を音声素片記憶部1に記憶させる。
 ピッチ波形生成部41は、時間調整部8と、素片波形生成部9とを備える。時間調整部8、素片波形生成部9および素片波形連結部3は、第1および第2の実施形態におけるそれらの要素と同様である。
 本実施形態においても、第2の実施形態と同様の効果が得られる。
 次に本発明の最小構成について説明する。図10は、本発明の波形処理装置の最小構成の例を示すブロック図である。本発明の波形処理装置は、パワー計算手段71と、正規化度計算手段72と、変更係数計算手段73と、振幅変更手段74とを備える。
 パワー計算手段71(例えば、パワー計算部4)は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラ(例えば、平均振幅、あるいは、式(7)または式(8)で得られるスカラ)を計算する。
 正規化度計算手段72(例えば、正規化度計算部6)は、パワー計算手段71によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数(例えば、式(4)、式(9)または式(10)に例示する関数A(S))の関数値として計算する。
 換係数計算手段73(例えば、スケーリング係数計算部5)は、パワー計算手段71によって選択されたピッチ波形の振幅値を変更する変更係数(例えば、スケーリング係数g)を、スカラおよび正規化度に基づいて計算する。
 振幅変更手段74(例えば、乗算器7)は、パワー計算手段71によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる。
 以上のような構成により、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備えることを特徴とする波形処理装置。
(付記2)変更係数計算手段は、変更係数をgとし、予め定められた定数をCとし、パワー計算手段に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記1に記載の波形処理装置。
(付記3)振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える付記1または付記2に記載の波形処理装置。
(付記4)素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える付記1から付記3のうちのいずれかに記載の波形処理装置。
(付記5)素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える付記1から付記4のうちのいずれかに記載の波形処理装置。
(付記6)収録された音声の波形を記憶する収録音声波形記憶手段と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える付記1から付記5のうちのいずれかに記載の波形処理装置。
(付記7)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じることを特徴とする波形処理方法。
(付記8)変更係数をgとし、予め定められた定数をCとし、選択したピッチ波形のパワーを表すスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記7に記載の波形処理方法。
(付記9)コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理を実行させるための波形処理プログラム。
(付記10)コンピュータに、変更係数計算処理で、変更係数をgとし、予め定められた定数をCとし、パワー計算処理で計算したスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算させる付記9に記載の波形処理プログラム。
(付記11)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算部と、パワー計算部によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算部と、パワー計算部によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算部と、パワー計算部によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更部とを備えることを特徴とする波形処理装置。
(付記12)変更係数計算部は、変更係数をgとし、予め定められた定数をCとし、パワー計算部に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記1に記載の波形処理装置。
(付記13)振幅変更部によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成部を備える付記1または付記2に記載の波形処理装置。
(付記14)素片波形生成部によって生成された素片を表す波形を連結する素片波形連結部を備える付記1から付記3のうちのいずれかに記載の波形処理装置。
(付記15)素片に対応するピッチ波形群を素片毎に記憶する素片記憶部を備える付記1から付記4のうちのいずれかに記載の波形処理装置。
(付記16)収録された音声の波形を記憶する収録音声波形記憶部と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し部と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成部とを備える付記1から付記5のうちのいずれかに記載の波形処理装置。
 この出願は、2011年7月19日に出願された日本特許出願2011-158298を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、波形のパワーを変化させる波形処理装置に適用可能である。
 1 音声素片記憶部
 2 韻律補正部
 3 素片波形連結部
 4 パワー計算部
 5 スケーリング係数計算部
 6 正規化度計算部
 7 乗算器
 8 時間調整部
 9 素片波形生成部
 10 パワー補正部

Claims (10)

  1.  素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、
     パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、
     パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、
     パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備える
     ことを特徴とする波形処理装置。
  2.  変更係数計算手段は、変更係数をgとし、予め定められた定数をCとし、パワー計算手段に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する
     請求項1に記載の波形処理装置。
  3.  振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える
     請求項1または請求項2に記載の波形処理装置。
  4.  素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える
     請求項1から請求項3のうちのいずれか1項に記載の波形処理装置。
  5.  素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える
     請求項1から請求項4のうちのいずれか1項に記載の波形処理装置。
  6.  収録された音声の波形を記憶する収録音声波形記憶手段と、
     前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、
     素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える
     請求項1から請求項5のうちのいずれか1項に記載の波形処理装置。
  7.  素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、
     選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、
     選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、
     選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる
     ことを特徴とする波形処理方法。
  8.  変更係数をgとし、予め定められた定数をCとし、選択したピッチ波形のパワーを表すスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する
     請求項7に記載の波形処理方法。
  9.  コンピュータに、
     素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、
     パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、
     パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、
     パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理
     を実行させるための波形処理プログラム。
  10.  コンピュータに、
     変更係数計算処理で、変更係数をgとし、予め定められた定数をCとし、パワー計算処理で計算したスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算させる
     請求項9に記載の波形処理プログラム。
PCT/JP2012/004128 2011-07-19 2012-06-26 波形処理装置、波形処理方法および波形処理プログラム Ceased WO2013011634A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013524586A JP5862667B2 (ja) 2011-07-19 2012-06-26 波形処理装置、波形処理方法および波形処理プログラム
US14/131,460 US9443538B2 (en) 2011-07-19 2012-06-26 Waveform processing device, waveform processing method, and waveform processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011158298 2011-07-19
JP2011-158298 2011-07-19

Publications (1)

Publication Number Publication Date
WO2013011634A1 true WO2013011634A1 (ja) 2013-01-24

Family

ID=47557837

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004128 Ceased WO2013011634A1 (ja) 2011-07-19 2012-06-26 波形処理装置、波形処理方法および波形処理プログラム

Country Status (3)

Country Link
US (1) US9443538B2 (ja)
JP (1) JP5862667B2 (ja)
WO (1) WO2013011634A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016065899A (ja) * 2014-09-22 2016-04-28 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562635B (zh) * 2020-12-03 2024-04-09 云知声智能科技股份有限公司 解决语音合成中拼接处产生脉冲信号的方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02137889A (ja) * 1988-11-19 1990-05-28 Sony Corp 信号記録方法及び装置
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
JP2008015361A (ja) * 2006-07-07 2008-01-24 Sharp Corp 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02137889A (ja) * 1988-11-19 1990-05-28 Sony Corp 信号記録方法及び装置
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置
JP2008015361A (ja) * 2006-07-07 2008-01-24 Sharp Corp 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016065899A (ja) * 2014-09-22 2016-04-28 カシオ計算機株式会社 音声合成装置、方法、およびプログラム

Also Published As

Publication number Publication date
US20140136192A1 (en) 2014-05-15
JP5862667B2 (ja) 2016-02-16
JPWO2013011634A1 (ja) 2015-02-23
US9443538B2 (en) 2016-09-13

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JP4469883B2 (ja) 音声合成方法及びその装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPWO2012063424A1 (ja) 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
US7765103B2 (en) Rule based speech synthesis method and apparatus
JP5862667B2 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
US20010029454A1 (en) Speech synthesizing method and apparatus
JP2009133890A (ja) 音声合成装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
US8407054B2 (en) Speech synthesis device, speech synthesis method, and speech synthesis program
JP4525162B2 (ja) 音声合成装置及びそのプログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP5054632B2 (ja) 音声合成装置及び音声合成プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP2004341259A (ja) 音声素片伸縮装置およびその方法
JP2008299266A (ja) 音声合成装置および音声合成方法
JP2005300919A (ja) 音声合成装置
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
JPH1097268A (ja) 音声合成装置
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12815239

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013524586

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14131460

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12815239

Country of ref document: EP

Kind code of ref document: A1