[go: up one dir, main page]

WO2013014858A1 - ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム - Google Patents

ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム Download PDF

Info

Publication number
WO2013014858A1
WO2013014858A1 PCT/JP2012/004129 JP2012004129W WO2013014858A1 WO 2013014858 A1 WO2013014858 A1 WO 2013014858A1 JP 2012004129 W JP2012004129 W JP 2012004129W WO 2013014858 A1 WO2013014858 A1 WO 2013014858A1
Authority
WO
WIPO (PCT)
Prior art keywords
state information
pitch pattern
conversion
representative value
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2012/004129
Other languages
English (en)
French (fr)
Inventor
玲史 近藤
正徳 加藤
康行 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013525552A priority Critical patent/JP5999092B2/ja
Publication of WO2013014858A1 publication Critical patent/WO2013014858A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • the present invention relates to a pitch pattern generation method, a pitch pattern generation device, a speech synthesis device, and a pitch pattern generation program for generating a pitch pattern corresponding to reading information representing the reading of a text to be subjected to speech synthesis.
  • the pitch pattern is information indicating temporal movement of intonation and voice, and is expressed as a change in frequency with time.
  • a pitch pattern generation method for generating a pitch pattern is described in Patent Document 1.
  • the pitch pattern is represented by a spline function. Then, after limiting the range of the derivative value for each section of the spline function, the function value at the connection point of the adjacent section and the first derivative are equal on both sides of the section, and the spline function passing through the desired point is Generate.
  • Patent Document 1 describes that a free pitch pattern is manually designed.
  • Patent Document 2 a technique for controlling the duration time using the interval between the centers of vowels is described in Patent Document 2.
  • Patent Document 3 describes that an expected value of the duration of each state of the HMM is calculated as a technology related to HMM (Hidden Markov Model: Hidden Markov Model).
  • the pitch pattern correction unit In addition to the accent phrase, a phoneme, Syllables, exhalation paragraphs, sentences, etc. may be employed.
  • the pitch pattern is represented by a spline function, and the function value and the first derivative at the connection point of adjacent sections constituting the spline are equal on both sides of the section, and the spline passes through a desired point. If a function is generated, it is possible to obtain a speech synthesis result without a sense of incongruity by the spline function (pitch pattern).
  • HMM may be used for speech synthesis
  • the present invention provides a pitch pattern generation method, a pitch pattern generation device, a voice synthesis device, and a pitch pattern generation program capable of generating a pitch pattern that can produce a speech synthesis result without a sense of incongruity when using an HMM.
  • the purpose is to provide.
  • the pitch pattern generation method is state information indicating the state of a hidden Markov model learned for each phoneme, and stores in advance state information indicating the frequency-related representative value and the spread of data, for each pitch pattern correction unit.
  • the state information of each phoneme specified by the reading of the pitch pattern correction unit is arranged in the order of the phoneme specified by the reading of the pitch pattern correction unit based on the information indicating the reading of the pitch pattern correction unit.
  • Controls the prosodic control information which is prosodic control information for controlling the prosodic relationship between the pitch pattern correction unit and the prosodic control information between the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • the representative value related to the frequency represented by the state information is converted using either the backward prosody control information that is the prosody control information for
  • a representative value conversion monotone function for deriving a conversion coefficient for representative value conversion is defined, a conversion coefficient for representative value conversion is calculated based on the monotonic function for representative value conversion, and an array is formed using the conversion coefficient for representative value conversion.
  • the representative value related to the frequency represented by the state information is converted, and the pitch pattern is generated based on the representative value related to the frequency and the spread of the data.
  • the pitch pattern generation device includes state information storage means for storing state information indicating the state of a hidden Markov model learned for each phoneme and representing a representative value related to frequency and data spread.
  • State information arrangement means for arranging the state information of each phoneme specified by the reading of the pitch pattern correction unit in the order of the phoneme specified by the reading of the pitch pattern correction unit based on the information indicating the reading of each pitch pattern correction unit
  • Forward prosody control information which is prosodic control information for controlling the prosody relationship between the pitch pattern correction unit and the previous pitch pattern correction unit, and the pitch pattern correction unit and subsequent pitch pattern correction.
  • the prosodic control information that is the prosodic control information for controlling the relationship of the prosody between units, Determining a representative value conversion monotone function for deriving a conversion coefficient for representative value conversion for converting a representative value related to the frequency represented by the state information, calculating a conversion coefficient for representative value conversion based on the monotonic function for representative value conversion, State information correction means for converting a representative value related to the frequency represented by the arranged state information using a conversion coefficient for representative value conversion, and a pitch pattern generation means for generating a pitch pattern based on the representative value related to the frequency and the spread of the data It is characterized by providing.
  • the speech synthesizer includes language processing means for generating information indicating reading for each pitch pattern correction unit and prosodic control information for controlling the relationship of prosody between adjacent pitch pattern correction units. , State information indicating the state of the hidden Markov model learned for each phoneme, the state information storage means for storing state information indicating the representative value and the spread of the data, and the reading for each pitch pattern correction unit Based on the information, state information arrangement means for arranging the state information of each phoneme specified by the reading of the pitch pattern correction unit in the order of the phoneme specified by the reading of the pitch pattern correction unit, and at least the pitch pattern correction unit and its Forward prosody control information, which is prosody control information for controlling the prosody relationship with the previous pitch pattern correction unit, and pitch pattern
  • the representative value related to the frequency represented by the state information is converted using either the prosodic control information, which is the prosodic control information for controlling the relationship between the prosody and the subsequent pitch pattern correction unit.
  • a representative value conversion monotone function for deriving a conversion coefficient for representative value conversion is determined, a conversion coefficient for representative value conversion is calculated based on the monotonic function for representative value conversion, and a conversion coefficient for representative value conversion is used, State information correction means for converting a representative value related to the frequency represented by the arranged state information, a pitch pattern generating means for generating a pitch pattern based on the representative value related to the frequency and the spread of the data, and generating synthesized speech based on the pitch pattern And a synthesized voice generating means.
  • the pitch pattern generation program includes state information storage means for storing state information indicating the state of the hidden Markov model learned for each phoneme and representative of the frequency and state information indicating the spread of the data.
  • a pitch pattern generation program installed in a computer equipped with, based on information indicating the reading for each pitch pattern correction unit, the state information of each phoneme specified by the reading of the pitch pattern correction unit State information arrangement processing arranged in the order of phonemes specified by reading pattern correction units, at least prosody control information for controlling the relationship of prosody between the pitch pattern correction unit and the previous pitch pattern correction unit Between the forward prosodic control information and the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • An information correction process and a pitch pattern generation process for generating a pitch pattern based on a representative value related to frequency and the spread of data are executed.
  • the present invention can generate a pitch pattern that can provide a voice synthesis result without a sense of incongruity when using an HMM.
  • phonemes, syllables, accent phrases, exhalation paragraphs, sentences, etc. can be handled as pitch pattern correction units (units for correcting the pitch pattern).
  • a case where the pattern correction unit is adopted will be described as an example.
  • FIG. FIG. 1 is a block diagram showing a pitch pattern generation device according to a first embodiment of the present invention.
  • a pitch pattern generation device 1 according to the first embodiment includes a state information storage unit 2, a state arrangement unit 3, a state information correction unit 4, and a pitch pattern generation unit 5.
  • the state information storage unit 2 is a storage device that stores state information indicating the state of an HMM (Hidden Markov Model) learned in advance for each phoneme.
  • HMM Hidden Markov Model
  • phonemes include vowels and consonants.
  • the state of the HMM may be learned in advance for each phoneme, and the state information of each state may be stored in the state information storage unit 2.
  • a single Gaussian distribution is adopted as a model of each state used in the HMM, and as a state information of each state, a representative value parameter (statistic) is expressed by an average value of the Gaussian distribution, and the data spread A case where the parameters (statistics) are expressed by Gaussian distribution will be described as an example.
  • Each state represents which frequency appears statistically by means of mean value and variance for the frequency.
  • the state information of each phoneme includes an average value and a variance value regarding the frequency of the phoneme.
  • the state corresponding to one phoneme is not necessarily one. That is, a plurality of states may be sequentially shifted with respect to one phoneme. In this case, however, there are a plurality of states corresponding to one phoneme.
  • the number of states to be learned for each phoneme may be determined at the time of learning. For example, the number of states to be learned may be reduced for short phonemes, and the number of states to be learned may be increased for long phonemes such as long vowels. Alternatively, for example, the number of states corresponding to each phoneme may be made common in order to reduce the amount of learning processing.
  • information indicating the state transition order may be included in the state information.
  • the average value is used as the representative value parameter (statistic) and the variance is used as the data spread parameter (statistic) as in the case of the single Gaussian distribution. it can.
  • an average value can be used as a representative value parameter, and kurtosis can be used as a data spread parameter.
  • the mode value or the median value can also be used as the representative value parameter (statistic).
  • a phoneme “b” will be described as an example.
  • a case where three states are learned for each phoneme is taken as an example.
  • various sounds including the sound of “b” are collected.
  • the pronunciation of “b” which frequency appears at what frequency is measured from various voices, and three states are determined.
  • state information including the average value and variance relating to the frequency may be created.
  • state information may be determined in advance in the same manner.
  • the “average value and variance regarding the frequency” may be any average value and variance depending on the frequency, and is not limited to the average value or variance of the frequency itself.
  • the individual state information may include an average value and variance of logarithmic values of frequency as “average value and variance regarding frequency”. In the following description, the case where the state information includes the average and variance of logarithmic values of frequencies will be described as an example.
  • Reading information is input to the state array unit 3 and the state information correction unit 4.
  • the state array unit 3 reads state information in a state corresponding to the phoneme specified by reading the accent phrase from the state information storage unit 2, and state information for each phoneme state in the order of phonemes specified by the reading of the accent phrase. Array. When a plurality of states are defined for one phoneme, the state information is arranged in the order of state transition in the phoneme.
  • FIG. 2 is a schematic diagram showing state transitions for each phoneme included in the accent phrase.
  • the state of the phoneme “k” transitions as states S1, S2, and S3.
  • the state of “a” transitions as states S4, S5, and S6.
  • the states of other phonemes also change as shown in FIG.
  • the state information storage unit 2 stores state information of each of the phonemes in the states S1 to S18.
  • the state arrangement unit 3 is a phoneme of “k”, “a”, “r”, “e”, “t”, “o”.
  • state information corresponding to the state S1 to S3, state S4 to S6, state S7 to S9, state S10 to S12, state S13 to S15, state S16 to S18 of each phoneme is read from the state information storage unit 2.
  • S1 to S18 are arranged in the same order. As a result, the average value and variance of the frequencies in S1 to S18 are arranged.
  • the state array unit 3 arranges such state information for each accent phrase.
  • the reading information is information indicating a voice (in other words, a voice to be read) output as a voice synthesis result using the pitch pattern generated by the pitch pattern generation device of the present invention.
  • FIG. 3 shows an example of reading information.
  • the reading information includes a character string representing the reading for each pitch pattern correction unit (in this example, for each accent phrase).
  • the character string representing the reading is separated by the symbol “/”. That is, in the example shown in FIG. 3, “/” indicates the boundary of the accent phrase.
  • the reading information includes prosodic control information for controlling the prosodic relationship between adjacent accent phrases.
  • the frequency of phonemes included in the accent phrase is controlled by the prosodic control information.
  • the numerical value described after “/” described at the boundary of the accent phrase corresponds to the prosodic control information.
  • this prosodic control information is referred to as a tag.
  • the tag is described at the boundary portion between adjacent accent phrases.
  • the tag description mode is as shown in FIG. It is not limited to the example shown.
  • a reference value hereinafter simply referred to as a reference value
  • the control content for the frequency of the accent phrase is determined by the magnitude relationship between the tag value and the reference value.
  • the fact that the tag value is larger than the reference value indicates the relationship of the accent phrase that the frequency of the preceding accent phrase is relatively increased and the frequency of the subsequent accent phrase is relatively decreased.
  • the tag value being smaller than the reference value represents the relationship of the accent phrase that the frequency of the preceding accent phrase is lowered and the frequency of the subsequent accent phrase is relatively increased.
  • FIG. 4 is a schematic diagram showing an example of frequency control of accent phrases using tags.
  • the reference value is “2”
  • FIG. 4A shows an example in which the tag value is 3 and is larger than the reference value “2”.
  • the frequency of the preceding accent phrase (hereinafter referred to as the preceding accent phrase) is increased among the two adjacent accent phrases, and the subsequent accent phrase (hereinafter referred to as “accent phrase”). Decrease the frequency of the following accent phrase.
  • the frequency increase of the preceding accent phrase and the frequency decrease of the subsequent accent phrase are increased.
  • 4B shows an example in which the tag value is 1 and is smaller than the reference value “2”.
  • the frequency of the preceding accent phrase is lowered and the frequency of the subsequent accent phrase is raised.
  • the lowering frequency of the preceding accent phrase and the increasing frequency of the subsequent accent phrase are increased.
  • the reading information includes a character string representing a reading for each accent phrase and a tag, but may include other information.
  • FIG. 3 illustrates a case where accent information indicating the position of the accent is also included.
  • the accent information is represented by a symbol “′”, which indicates that there is an accent at the position where the symbol is described.
  • Reading information may be created based on, for example, a character string that is a target of speech synthesis (for example, “he and her teacher (ka re to ka no jo no se n se i)” in Japanese). This creation may be created automatically by the information processing apparatus or may be created manually. Further, a human may make corrections to the automatically created reading information.
  • a character string that is a target of speech synthesis (for example, “he and her teacher (ka re to ka no jo no se n se i)” in Japanese).
  • This creation may be created automatically by the information processing apparatus or may be created manually. Further, a human may make corrections to the automatically created reading information.
  • reading information including a character string representing a reading for each pitch pattern correction unit and a tag is input to the pitch pattern generation device.
  • information representing the reading for each pitch pattern correction unit and a tag may be input to the pitch pattern generation device in other modes.
  • information representing a reading for each pitch pattern correction unit and a tag may be input separately.
  • the information or tag representing the reading for each pitch pattern correction unit may be binary data.
  • information and tags representing readings for each pitch pattern correction unit may be input via a GUI.
  • the state information correction unit 4 corrects the average value and variance of the logarithmic values of the frequencies included in the arranged state information.
  • the state information correction unit 4 performs this correction for each accent phrase.
  • the state information correction unit 4 represents the prosody relationship with the preceding accent phrase.
  • a conversion coefficient for average value conversion and a conversion coefficient for variance conversion are calculated for each state information.
  • a tag representing the prosodic relationship between the accent phrase of interest and the preceding accent phrase is referred to as a forward tag.
  • a tag representing the prosodic relationship between the accent phrase being focused on and the next accent phrase is referred to as a rear tag.
  • the state information correcting unit 4 assigns values representing the order of 1 to n to the arranged state information in order. Further, the state information correction unit 4 defines a monotone function having a range from 1 to n as a domain and a range from a value determined based on the front tag to a value determined based on the rear tag. And the state information correction
  • the monotone function may be a monotone increase function or a monotone decrease function. Whether it is a monotonically increasing function or a monotonically decreasing function depends on the magnitude relationship between the value of the front tag and the value of the rear tag.
  • a monotone non-decreasing function and a monotone non-increasing function which are monotonic functions in a broad sense, may be used as the monotone function. Since the conversion coefficient for average value conversion and the conversion coefficient for variance conversion are calculated separately, the state information correction unit 4 determines two types of monotone functions as described above. In this case, it is only necessary to determine two types of monotonic functions having different range values determined based on the front tag and the rear tag.
  • the state information correction unit 4 converts the average value and variance of the frequency logarithmic values included in the state information using the calculated conversion coefficient for each state information. This transformation can be said to be a correction for the mean and variance of the frequency logarithm.
  • the pitch pattern generation unit 5 generates a pitch pattern based on the average value and variance of the frequency logarithm values after being converted by the state information correction unit 4.
  • the generation of the pitch pattern may be performed by a known method.
  • the state arrangement unit 3, the state information correction unit 4, and the pitch pattern generation unit 5 are realized by a CPU of a computer that operates according to a pitch pattern generation program, for example.
  • a computer program storage device (not shown) stores a pitch pattern generation program, and the CPU reads the program, and in accordance with the program, the state arrangement unit 3, the state information correction unit 4, and the pitch pattern generation unit 5 may be operated.
  • the state information storage unit 2, the state arrangement unit 3, the state information correction unit 4, and the pitch pattern generation unit 5 may be realized by separate units.
  • FIG. 5 is a flowchart illustrating an example of processing progress of the first embodiment.
  • the state information storage unit 2 stores state information indicating the state of each phoneme. Further, it is assumed that reading information is input to the state array unit 3 and the state information correction unit 4.
  • the pitch pattern generation device performs the following processing of steps A1 to A8 for each accent phrase (each pitch pattern correction unit) included in the reading information.
  • steps A1 to A8 will be described by focusing on one accent phrase (pitch pattern correction unit) included in the reading information.
  • the pitch pattern generation device may perform the same processing for other accent phrases included in the reading information.
  • the monotone function determined by the state information correction unit 4 is a function indicating a straight line (that is, a linear function) is taken as an example.
  • the state arrangement unit 3 identifies a phoneme corresponding to the reading of the accent phrase of interest in the reading information, and reads the state information corresponding to the phoneme from the state information storage unit 2. For example, the state array unit 3 holds in advance information indicating the relationship between individual characters indicated by reading information and phonemes, and the state array unit 3 selects phonemes corresponding to the reading of the accent phrase based on the information. What is necessary is just to specify. And the state arrangement
  • the state information correction unit 4 determines a monotonic function for average value conversion based on the number of pieces of state information of the accent phrases arranged in step A1 and the front and rear tags of the accent phrases ( Step A2).
  • FIG. 6 is an explanatory diagram schematically showing the average value of the frequency logarithm value, the conversion coefficient, and the converted value of the average value of the frequency logarithm value of each state information.
  • FIG. 6 shows an example in which the number of state information arranged for one accent phrase is six. In this case, the state information correction unit 4 assigns a value representing the order of 1 to 6 to each state information in the order of transition.
  • the state information correction unit 4 has a monotone function (primary function in this example) having 1 to 6 as a domain and a range from a value determined based on the front tag to a value determined based on the rear tag. Can be determined.
  • the value determined based on the front tag is a1
  • the value determined based on the rear tag is a2.
  • FIG. 7A is an explanatory diagram illustrating an example of the relationship between the front tag and a1
  • FIG. 7B is an explanatory diagram illustrating an example of the relationship between the rear tag and a2.
  • the state information correction unit 4 determines a1 as a negative value if the value of the front tag is larger than the reference value.
  • the absolute value of a1 may be increased as the value of the front tag is larger than the reference value. If the value of the front tag is equal to the reference value, a1 is set to 0. If the value of the front tag is less than the reference value, a1 is determined as a positive value.
  • the absolute value of a1 may be increased as the value of the front tag is smaller than the reference value.
  • the state information correction unit 4 determines a2 as a positive value if the value of the rear tag is larger than the reference value.
  • the absolute value of a2 may be increased as the value of the rear tag is larger than the reference value. If the value of the rear tag is equal to the reference value, a2 is set to 0. If the value of the rear tag is less than the reference value, a2 is determined as a negative value. What is necessary is just to enlarge the absolute value of a2, so that the value of a back tag is smaller than a reference value.
  • the state information correction unit 4 determines a1 and a2 as described above, and determines a monotone function (primary function in this example) having 1 to 6 as a domain and a1 to a2 as a range.
  • the state information correction unit 4 converts the average value conversion for each state information as a value on the line indicated by the monotone function determined in step A2 (on the straight line indicated by the linear function in the example shown in FIG. 6). Find the coefficient. In other words, the state information correction unit 4 substitutes the value assigned to each state information (value indicating the order of transition) into the variable of the monotonic function obtained in step A2, thereby converting the conversion factor (average) for each state information.
  • a conversion coefficient for value conversion is calculated (step A3). For example, in the example shown in FIG. 6, the conversion coefficient obtained for the first state information is a1, and the conversion coefficient obtained for the sixth state information is a2. Further, the conversion coefficient of the second state information is obtained by substituting 2 into the variable of the monotone function obtained in step A2. The conversion coefficient of other state information is obtained in the same manner.
  • the state information correction unit 4 converts the average value of the frequency logarithm values included in the state information by using the conversion coefficient for average value conversion obtained in Step A3 (Step A4).
  • the state information correction unit 4 adds the conversion coefficient obtained with respect to the state information to the average value of the frequency logarithm values included in the state information, and sets the addition result as the average value after conversion. That's fine.
  • amendment part 4 performs this process for every arranged status information.
  • the lower part of FIG. 6 schematically shows a value after conversion of an average value of frequency logarithmic values. In this example, the case where the average value of the logarithmic value is converted by adding the conversion coefficient is shown, but the conversion using the conversion coefficient may be performed by another calculation. However, the conversion is preferably performed by an operation that maintains the relationship that the difference between the average values before and after conversion increases as the absolute value of the conversion coefficient increases.
  • the state information correction unit 4 determines a monotonic function for variance conversion based on the number of pieces of state information of one accent phrase arranged in step A1 and the front and rear tags of the accent phrase. (Step A5).
  • FIG. 8 is an explanatory diagram schematically illustrating the variance of the frequency logarithm of each state information, the conversion coefficient, and the variance after the conversion. Also in FIG. 8, the case where the number of state information is six is illustrated similarly to FIG.
  • the state information correction unit 4 assigns a value representing the order of 1 to 6 to each state information in the order of transition.
  • the state information correction unit 4 defines a monotonic function (primary function in this example) having a range from a value determined based on the front tag to a value determined based on the rear tag, with 1 to 6 as a domain. Just do it.
  • the value determined based on the front tag is b1
  • the value determined for the rear tag is b2.
  • the values of b1 and b2 that define the range may be determined in the same manner as a1 and a2.
  • the values of b1 and b2 used when determining the monotone function for variance conversion and the values of a1 and a2 used when determining the monotone function for average value conversion are the same, but are independent. Therefore, b1 and b2 are values different from a1 and a2, respectively.
  • the state information correction unit 4 uses, as the value on the line indicated by the monotone function determined in step A5 (on the straight line indicated by the linear function in the example shown in FIG. 8), the conversion coefficient for variance conversion for each state information. Ask for. In other words, the state information correction unit 4 substitutes the value assigned to each state information (value indicating the transition order) into the variable of the monotone function determined in step A5, thereby converting the conversion coefficient (dispersion) for each state information. (Conversion coefficient for conversion) is calculated (step A6). For example, in the example shown in FIG. 8, the conversion coefficient obtained for the first state information is b1, and the conversion coefficient obtained for the sixth state information is b2. Further, the conversion coefficient of the second state information is obtained by substituting 2 into the variable of the monotone function obtained in step A5. The conversion coefficient of other state information is obtained in the same manner.
  • the state information correction unit 4 converts the variance of the frequency logarithmic value included in the state information using the conversion coefficient for dispersion conversion obtained in step A6 (step A7).
  • the state information correction unit 4 may add the conversion coefficient obtained for the state information to the variance of the frequency logarithm values included in the state information, and set the addition result as the variance after conversion. .
  • amendment part 4 performs this process for every arranged status information.
  • FIG. 8 schematically shows a value after conversion of frequency logarithmic dispersion.
  • the conversion using the conversion coefficient may be performed by another calculation.
  • the conversion is preferably performed by an operation that maintains the relationship that the difference in dispersion before and after conversion increases as the absolute value of the conversion coefficient increases.
  • the pitch pattern generation unit 5 generates a pitch pattern using the average value and variance after conversion obtained by the conversion processing in steps A4 and A7 (step A8).
  • the pitch pattern generation unit 5 may generate a pitch pattern by a known method. Hereinafter, an example of generating a pitch pattern will be shown.
  • the pitch pattern generation unit 5 may calculate the pitch pattern using a predetermined window function.
  • the pitch pattern generation unit 5 may calculate the pitch pattern by solving the following equation (1) with respect to the pitch pattern C.
  • C is a pitch pattern and is expressed as the following formula (2).
  • c 1 , c 2 ,..., C T are feature quantities indicating a pitch pattern.
  • T shown as a subscript is the number of state information (total number of frames) arranged for one accent phrase. The same applies to T shown as a subscript in equations (3) to (5) described later.
  • M is a transposed vector of components whose components are the average values after correction, and is expressed as the following equation (3).
  • ⁇ ′ q1 , ⁇ ′ q2 ,..., ⁇ ′ qT are average values after conversion.
  • U is a diagonalized covariance matrix having the transformed variance as a diagonal component.
  • U is expressed as the following formula (4).
  • U q1 , U q2 ,..., U qT are variances after conversion.
  • the window function may be determined in advance as a matrix W expressed as the following equation (5).
  • Equation (5) arbitrary wt may be determined as a vector expressed as Equation (6) below.
  • the M component shown in Equation (3) is the average value after conversion
  • the diagonal component of U shown in Equation (4) is the variance after conversion.
  • the average value and variance the average value and variance of the frequency logarithm values may be used, or the average value and variance of the frequency itself may be used.
  • M and U since the average value and variance of the frequency logarithmic values are obtained, M and U may be determined using these values. Further, when converting the average value and variance of the frequency itself, M and U may be determined using the average value and variance of the frequency itself (average value and variance after conversion).
  • a conversion coefficient is defined as a value on a line indicated by a monotonic function, and a pitch pattern is generated using an average value and variance converted by the conversion coefficient.
  • the pitch pattern is smoothly connected for each accent phrase, and as a result of speech synthesis using the pitch pattern, it is possible to obtain speech without a sense of incongruity.
  • the conversion is performed with respect to the variance, and the variance can be increased when the variation of the average value due to the conversion increases.
  • the dispersion By increasing the dispersion in such a manner, pitch patterns can be connected more smoothly.
  • the conversion coefficient is defined as a value on a straight line indicated by the linear function, and the conversion is performed for the average value and the variance of the frequency logarithmic value.
  • the musical scale is defined to be a geometric sequence on the actual frequency, and is arranged on a straight line when the logarithmic value of the frequency is taken. Therefore, by performing the processing as described above, it is possible to further enhance the effect of obtaining a sound that is not uncomfortable in terms of hearing.
  • the function for determining the conversion coefficient may be a monotone function. Further, the same processing as described above may be performed not on the average value and variance of the frequency logarithm, but on the average value and variance of the actual frequency. Even in this case, it is possible to generate a pitch pattern that can provide a sound without a sense of incongruity.
  • the front tag and the rear tag are used in steps A2 and A5 to obtain a1, a2 (see FIG. 6) and b1, b2 (see FIG. 8) that define the range of the monotone function.
  • the range of the monotonic function may be defined using only one of the front tag and the rear tag.
  • the pitch pattern generation unit 5 may generate the pitch pattern by using the unconverted dispersion as it is instead of the dispersion after the conversion in Step A8.
  • Step A8 is the same as Step A8 described above, except that the unconverted variance is used as it is.
  • FIG. 9 is an explanatory diagram illustrating an example of a state learned for one phoneme and a duration length of the state. As shown in FIG. 9, for example, it is assumed that the states corresponding to the phoneme “k” are S1 to S3 as a result of learning about the state of the phoneme “k”.
  • the duration time regarding the state S1 is three times as long as a cycle (a cycle for determining whether to make a self-transition or a transition to the next state). Further, it is assumed that the durations of the states S2 and S3 are 7 times and 5 times the period, respectively. As described above, when the duration length is also learned for each of the states learned for the phonemes, the duration length is obtained as an integer multiple of the period for determining whether to self-transition or transition to the next state.
  • a cycle for determining whether to make a self-transition or a transition to the next state is simply referred to as a cycle.
  • the pitch pattern generation apparatus determines a monotone function in consideration of a duration length learned in advance for each state of each phoneme, and obtains a conversion coefficient from the monotone function. And the average value and dispersion
  • a conversion coefficient may be calculated
  • FIG. 10 is a block diagram showing a pitch pattern generation device according to the second embodiment of the present invention. Components similar to those in the first embodiment are denoted by the same reference numerals as those in FIG.
  • the pitch pattern generation device 10 according to the second embodiment includes a state information storage unit 2, a state arrangement unit 13, a state information correction unit 14, and a pitch pattern generation unit 5.
  • the state information storage unit 2 stores state information indicating the state of each phoneme (the state of the HMM) learned in advance for each phoneme.
  • Reading information is input to the state array unit 13 and the state information correction unit 14. Further, in the present embodiment, the duration time learned in advance for each state is also input to the state array unit 13.
  • the state arrangement unit 13 reads state information corresponding to the phoneme state specified by the reading information from the state information storage unit 2, and arranges the state information for each phoneme state in the order of the phonemes specified by the reading information.
  • the state information is arranged in the order of state transition in the phoneme.
  • the state arranging unit 13 repeatedly arranges the state information corresponding to the phoneme specified by the reading information for the duration of the state. For example, the period shown in FIG. And let the duration time of state S1 be 3t. In this case, the state information of the state S1 is continuously and repeatedly arranged by the number obtained by dividing the duration length 3t by the period t (in this example, “3”). Then, the state information of the next state S2 is arranged. In the example shown in FIG. 9, the duration of state S2 is 7t, and the value obtained by dividing this duration by period t is “7”. To do.
  • the state arrangement unit 13 similarly arranges the state information of the state S3, and similarly arranges the state information of the subsequent phonemes in the same manner. The state array unit 13 performs this process for each accent phrase.
  • sequence part 13 since the duration length of each state information is input to the state arrangement
  • a value obtained by dividing the duration of a certain state by the period t means the number of times that state is repeated.
  • the state information correction unit 14 corrects the average value and variance of the frequency logarithmic values included in the arranged state information.
  • the state information correction unit 14 performs this correction for each accent phrase.
  • the state information correction unit 14 calculates a conversion coefficient for average value conversion and a conversion coefficient for variance conversion for each state information based on the front tag and the rear tag for the focused accent phrase.
  • the status information correction unit 14 assigns a value indicating the arrangement order to each status information.
  • the number of arranged state information is n, and a value of 1 to n is assigned to each state information.
  • the operation of assigning a value indicating the order to each state information is the same as in the first embodiment.
  • the state information of each state is continuously arranged for the duration of the state.
  • the state information correction unit 14 assigns a value indicating the order to the same state information arranged in succession in this way.
  • the state information correction unit 14 determines the values a1 and a2 that define the range of the monotone function for average value conversion, similarly to the state information correction unit 4 in the first embodiment. Then, the state information correction unit 14 determines a monotone function having 1 to n as a domain and a1 to a2 as a range. And the state information correction
  • the state information correction unit 14 determines the values b1 and b2 that define the range of the monotonic function for dispersion conversion, similar to the state information correction unit 4 in the first embodiment. Then, the state information correction unit 14 determines a monotone function having 1 to n as a domain and b1 and b2 as a range. And the state information correction
  • the state information correction unit 14 specifies a period corresponding to the center of the duration length of the state regarding the state of interest, and assigns the value assigned to the state information corresponding to the period, By substituting into a monotone function, the conversion coefficient in that state may be obtained.
  • the state information correction unit 14 converts the variance included in the state information of the state using the conversion coefficient.
  • the duration of a certain state is assumed to be h times the period t. If h is an odd number, the state information correction unit 14 may specify (h + 1) / 2th state information among h pieces of continuous state information regarding the state. This state information is state information corresponding to the cycle corresponding to the center of the duration time. Further, if h is an even number, the state information correction unit 14 may specify (h / 2) + 1-th state information among h pieces of continuous state information regarding the state. Alternatively, (h / 2) -1st state information may be specified. It can be said that this state information is the state information corresponding to the period corresponding to the center of the duration time.
  • the pitch pattern generation unit 5 generates a pitch pattern based on the average value and the variance after the conversion, as in the first embodiment.
  • the state arrangement unit 13, the state information correction unit 14, and the pitch pattern generation unit 5 are realized by, for example, a CPU of a computer that operates according to a pitch pattern generation program.
  • a computer program storage device (not shown) stores a pitch pattern generation program, and the CPU reads the program, and in accordance with the program, the state arrangement unit 13, the state information correction unit 14, and the pitch pattern generation unit 5 may be operated.
  • the state information storage unit 2, the state array unit 13, the state information correction unit 14, and the pitch pattern generation unit 5 may be realized by separate units.
  • FIG. 11 is a flowchart illustrating an example of processing progress of the second embodiment. Note that detailed description of operations similar to those of the first embodiment is omitted.
  • the state information storage unit 2 stores state information indicating the state of each phoneme. It is assumed that reading information is input to the state array unit 13 and the state information correction unit 14. It is assumed that information on the duration of each state learned in advance is also input to the state array unit 13.
  • the pitch pattern generation device performs the following processing of steps B1 to B8 for each accent phrase (each pitch pattern correction unit) included in the reading information.
  • steps B1 to B8 will be described by focusing on one accent phrase (pitch pattern correction unit) included in the reading information.
  • the pitch pattern generation device may perform the same processing for other accent phrases included in the reading information.
  • the state information correction unit 14 determines a linear function as a monotone function.
  • the state arrangement unit 13 identifies a phoneme corresponding to the reading of the accent phrase of interest in the reading information, and reads the state information corresponding to the phoneme from the state information storage unit 2. And the state arrangement
  • the state information correction unit 14 determines a monotonic function for average value conversion based on the number of pieces of state information of the accent phrases arranged in step B1 and the front and rear tags of the accent phrases ( Step B2).
  • FIG. 12 is an explanatory diagram schematically showing the average value of the frequency logarithmic value, the conversion coefficient, and the converted value of the average value of the frequency logarithm value of each state information.
  • FIG. 12 shows the case where the number of states is “8” and the number of arranged state information is 40 as a result of arranging the state information in consideration of the duration length for each state. In this case, the state information correction unit 14 assigns values representing the order of 1 to 40 in order to the respective state information.
  • the state information correction unit 14 determines the values a1 and a2 that define the range of the monotone function (primary function in this example). The process for determining a1 and a2 is the same as in the first embodiment. Then, the state information correction unit 14 determines a monotone function (primary function) having 1 to 40 as a domain and a1 to a2 as a range.
  • amendment part 14 specifies the period applicable to the center period in the duration length of each state, and determines the conversion factor for average value conversion used as the value on the line which a monotone function shows (step B3). . Specifically, a period corresponding to the central period in the duration time of each state is specified, and a value assigned to the state information corresponding to the period is determined. The state information correction unit 14 calculates a conversion coefficient by substituting the value into a variable of a monotone function.
  • the value (value indicating the order) assigned to the state information corresponding to this cycle is 3.
  • the state information correction unit 14 may calculate a conversion coefficient by substituting this value into a variable of a monotone function. This conversion coefficient is used to convert an average value included in the four pieces of state information arranged according to the duration of the first state.
  • the 11th to 17th state information corresponds to the third state, and the state information corresponding to the fourth period is the 14th of the 40 state information. Therefore, the value assigned to the state information is 14, and the state information correction unit 14 may calculate the conversion coefficient by substituting this value into the variable of the monotone function. This conversion coefficient is used to convert an average value included in seven pieces of state information arranged according to the duration of the third state.
  • the state information correction unit 14 may calculate the number of conversion relations for other states as well.
  • step B4 average value conversion processing is performed on each piece of state information arranged in accordance with the duration of one state using the conversion coefficient obtained for the state. For example, as for the first state shown in FIG. 12, the conversion coefficient is calculated by substituting 3 into the monotone function as described above. For the average value of the logarithmic values included in the four state information arranged according to the duration of the first state, the state information correction unit 14 performs conversion using this conversion coefficient. The state information correction unit 14 may perform such conversion processing for each state. Moreover, the calculation of conversion is the same as that of 1st Embodiment, For example, what is necessary is just to convert an average value by adding a conversion coefficient to an average value. However, the conversion operation is not limited to addition.
  • the state information correction unit 14 determines a monotonic function for variance conversion based on the number of pieces of state information of the accent phrases arranged in step B1 and the front and rear tags of the accent phrases (step S1). B5).
  • FIG. 13 is an explanatory diagram schematically showing the frequency logarithmic value variance, the conversion coefficient, and the frequency logarithm value variance after conversion for each state information. As in the case shown in FIG. 12, the number of states is “8”, and the number of arranged state information is 40. The state information correction unit 14 assigns values representing the order of 1 to 40 in order to the respective state information.
  • the state information correction unit 14 determines values b1 and b2 that define a range of a monotone function (primary function in this example). The process for determining b1 and b2 is the same as in the first embodiment. Then, the state information correcting unit 14 determines a monotone function (primary function) having 1 to 40 as a domain and b1 and b2 as a range.
  • the state information correction unit 14 specifies a period corresponding to the central period in the duration length of each state, and determines a conversion coefficient for dispersion conversion that becomes a value on a line indicated by a monotone function (step B6). Specifically, a period corresponding to the central period in the duration time of each state is specified, and a value assigned to the state information corresponding to the period is determined.
  • the state information correction unit 14 calculates a conversion coefficient by substituting the value into a variable of a monotone function. That is, the conversion coefficient calculation method in step B6 is the same as the conversion coefficient calculation method in step B3. However, in step B6, since the state information correction unit 14 uses the monotone function obtained in step B5, the value of the conversion coefficient itself is different from the calculation result in step B3.
  • step B6 the state information correction unit 14 determines a conversion coefficient for variance conversion for each state.
  • step B7 the state information correction unit 14 converts the variance of the frequency logarithmic values included in each arranged state information using the conversion coefficient for dispersion conversion obtained in step B6 (step B7).
  • the process of step B7 is the same as the process of step B4 except that the conversion target is variance and the conversion coefficient calculated in step B6 is used.
  • the variance of the frequency logarithmic values included in the four state information arranged according to the duration of the first state shown in FIG. 13 is converted using the conversion coefficient calculated for the first state.
  • the state information correction unit 14 performs such conversion for each state.
  • the calculation of conversion is the same as that of the first embodiment.
  • the average value may be converted by adding a conversion coefficient to the variance.
  • the conversion operation is not limited to addition.
  • step B8 the pitch pattern generation unit 5 generates a pitch pattern using the average value and variance after conversion obtained by the conversion processing in B4 and B7 (step B8).
  • the process of step B8 is the same as the process of step A8 in the first embodiment.
  • the same effect as in the first embodiment can be obtained.
  • the state information is arranged in consideration of the duration time for each state, and the average value and the variance included in the state information are converted. Therefore, as a result of speech synthesis using the generated pitch pattern, it is possible to further enhance the effect that it is possible to obtain speech without a sense of incongruity.
  • the various modifications described in the first embodiment can be applied to the second embodiment.
  • the function for determining the conversion coefficient may be a monotone function and is not limited to a linear function.
  • the same processing as described above may be performed not on the average value and variance of the frequency logarithm, but on the average value and variance of the frequency itself.
  • Step B2 and Step B5 the range of the monotonic function may be defined using only one of the front tag and the rear tag.
  • the pitch pattern generation unit 5 may generate the pitch pattern by using the unconverted dispersion as it is, instead of the dispersion after the conversion, in Step B8.
  • the conversion coefficient for dispersion conversion is obtained based on the monotonic function.
  • the conversion coefficient for dispersion conversion may be obtained by another method.
  • a modification of the second embodiment an aspect in which a conversion coefficient for dispersion conversion is determined without using a monotone function will be described.
  • the processes in steps B1 to B4 are the same as those already described.
  • information on the duration time learned in advance is also input to the state information correction unit 14.
  • the state information correction unit 14 obtains a conversion coefficient for dispersion conversion for each state according to the length of the duration time.
  • FIG. 14 is an explanatory diagram schematically showing conversion coefficients determined according to the length of the duration time.
  • the state information correction unit 14 determines the value of the conversion coefficient to be larger as the duration time length is longer, and sets the value of the conversion coefficient to be smaller as the duration time length is shorter.
  • eight states are shown.
  • the duration of each state is 4t (4 cycles), 6t, 7t, 4t, 6t, 5t, 5t, and 3t in order from the first state.
  • the duration is the maximum in the third state, and the duration is 7t.
  • amendment part 14 determines the conversion coefficient regarding the 3rd state largest among eight states (refer FIG. 14).
  • the duration time is the minimum in the eighth state, and the duration time is 3t. Therefore, the state information correction
  • the state information correction unit 14 determines a conversion coefficient for dispersion conversion in accordance with the length of the duration time for other states. The same conversion coefficient is determined for the states having the same duration. For example, in the example illustrated in FIG. 14, the state information correction unit 14 determines the same conversion coefficient for the first and fourth states that have a common duration length of 4t. The same applies to the second and fifth states and the sixth and seventh states.
  • steps B5 and B6 shown in FIG. 11 instead of steps B5 and B6 shown in FIG. 11, the longer the duration length, the larger the conversion coefficient value, and the shorter the duration length, the smaller the transformation coefficient value. It is sufficient to perform the process. Thereafter, steps B7 and B8 may be executed.
  • Embodiment 3 Each of the pitch pattern generation apparatuses of the first embodiment and the second embodiment arranges state information with respect to the accent phrase to which attention is paid, and an average value and a variance (frequency average value and frequency) included in each state information. Variance).
  • the pitch pattern generation device according to the third embodiment arranges state information and divides the arranged state information into a front side and a rear side based on a predetermined reference. Then, the pitch pattern generation device according to the third exemplary embodiment calculates an average value and variance regarding the frequency for the front side arrangement information and / or the rear side arrangement information among the arranged state information. Convert. In addition, when converting the average value etc.
  • the pitch pattern generation device applies to the state information on the front side and the state information on the rear side. Then, each determines a monotonic function and determines a conversion coefficient.
  • the pitch pattern correction unit is an accent phrase. Therefore, in the third embodiment, it is preferable to employ an accent phrase as a pitch pattern correction unit, but a phoneme, a syllable, an exhalation paragraph, a sentence, and the like may be used as the pitch pattern correction unit.
  • FIG. 15 is an explanatory diagram schematically illustrating an example of processing of the state information correction unit 4.
  • the arranged state information is divided into a front side and a rear side according to a predetermined standard, and an example in which an average value included in the rear side state information is converted is taken as an example.
  • the state information correction unit 4 divides the state information arranged by the state arrangement unit 3 into a front side and a rear side based on a predetermined reference.
  • an example is given in which the state information in the state where the average value of the frequency logarithm is the highest is divided into the front side and the rear side.
  • the average value of the frequency logarithm values is the highest in the third state from the left.
  • the state information correction unit 4 divides the state information correction unit 4 into the front side and the rear side based on the state information in the third state.
  • the state information correction unit 4 sets the state information of the first and second states as the front side and the state information of the third to sixth states as the back side.
  • the reference state information (in this example, the state information of the third state) may be included on the front side or the rear side.
  • the state information in the state where the average value of the frequency logarithm is the highest is shown as a reference, and the state information on the front side is separated from the state information on the rear side.
  • the criteria for dividing into the rear side are not limited to the above example. Other examples will be described later.
  • the state information correction unit 4 determines a monotone function for calculating the conversion coefficient for the state information on the rear side.
  • the state information correction unit 4 assigns a value indicating the order to each arranged state information. This operation is the same as in the first embodiment.
  • the range of values assigned to the state information corresponding to the rear side is defined as the domain of the monotone function. In the example shown in FIG. 15, 3 to 6 are the domain of the monotone function.
  • a1 0 is set. About a2, what is necessary is just to determine using a back tag similarly to the already demonstrated method.
  • the state information correction unit 4 determines a monotone function having 3 to 6 as a domain and 0 to a2 as a range.
  • amendment part 4 calculates
  • the state information correction unit 4 converts the average value of the frequency logarithm values for each state information distributed to the rear side using the conversion coefficient (see FIG. 15). In addition, regarding the state information distributed to the front side, the average value of the logarithmic value is not converted (see FIG. 15).
  • FIG. 16 is a flowchart showing an example of processing progress of the third embodiment.
  • the pitch pattern generation device performs the following processing of steps C1 to C8 for each accent phrase (each pitch pattern correction unit) included in the reading information.
  • steps C1 to C8 will be described by focusing on one accent phrase (pitch pattern correction unit) included in the reading information.
  • the pitch pattern generation device may perform the same processing for other accent phrases included in the reading information.
  • processing similar to that in the other embodiments is omitted as appropriate.
  • the state arrangement unit 3 identifies a phoneme corresponding to the reading of the accent phrase of interest in the reading information, and reads the state information corresponding to the phoneme from the state information storage unit 2.
  • the state arrangement unit 3 arranges the state information according to the phoneme order corresponding to the reading of the accent phrase (step C1).
  • Step C1 in this example is the same as step A1 (see FIG. 5).
  • the state information correction unit 4 determines a monotone function determined by the defined domain and value range.
  • the monotonic function may be a linear function as in the other embodiments, or may be a monotone function other than the linear function. The same applies to the monotone function obtained in step C5 described later.
  • the state information correction unit 4 sets a conversion coefficient for average value conversion for each state information corresponding to the rear side as a value on the line indicated by the monotonic function (in the example illustrated in FIG. 15, on the straight line indicated by the linear function). Calculate (step C3). Specifically, the state information correction unit 4 substitutes a value assigned to each state information corresponding to the rear side into a variable of a monotone function, thereby converting the average value conversion for each state information corresponding to the rear side. Calculate the coefficient. Moreover, in this example, the state information correction
  • the state information correction unit 4 converts the average value of the frequency logarithm values using the conversion coefficient obtained in Step C3 for each state information corresponding to the rear side (Step C4).
  • the calculation of the conversion of the average value of the frequency logarithm is the same as in the other embodiments.
  • the average value may be converted by adding a conversion coefficient to the average value.
  • the conversion operation is not limited to addition.
  • amendment part 4 does not convert with respect to the average value of the frequency logarithm value contained in the state information distributed to the front side.
  • the state information correction unit 4 determines a monotonic function for dispersion conversion based on the rear tag for the state information on the rear side (step C5).
  • the state information correction unit 4 sets the range of values assigned to the state information on the rear side as the domain of the monotone function.
  • the state information correction unit 4 determines a monotone function determined by the defined domain and value range. For example, it is assumed that the definition area is 3 to 6, as in the case shown in FIG. In this case, the state information correction unit 4 determines a monotone function having a definition range of 3 to 6 and a value range of 0 to b2.
  • the state information correction unit 4 calculates a conversion coefficient for dispersion conversion for each state information corresponding to the rear side as a value on a line indicated by the monotonic function (step C6). Specifically, the state information correction unit 4 assigns a value assigned to each state information corresponding to the rear side to a variable of a monotone function, thereby converting the conversion coefficient for variance conversion for each state information corresponding to the rear side. Is calculated. Moreover, in this example, the state information correction
  • the state information correction unit 4 converts the variance of the frequency logarithmic value using the conversion coefficient obtained in step C6 for each state information corresponding to the rear side (step C7).
  • the calculation of frequency logarithmic variance conversion is the same as in the other embodiments, and the variance may be converted by adding a conversion coefficient to the variance.
  • the conversion operation is not limited to addition.
  • amendment part 4 does not convert with respect to dispersion
  • the pitch pattern generation unit 5 generates a pitch pattern using the average value and variance of the frequency logarithmic values in each state information (step C8).
  • the process of generating the pitch pattern using the average value and the variance is the same as in the other embodiments.
  • the average value and the variance included in the state information corresponding to the front side are not converted. Therefore, a pitch pattern is generated using the average value and variance that have not been converted and the average value and variance that have been converted in steps C4 and C7. That is, an unconverted value may be used for the element corresponding to the state information on the front side among the M element in Expression (3) and the U element in Expression (4).
  • FIG. 17 shows the state information of the first and second states among the arranged state information as the front side, and the state information of the third to sixth states as the rear side. The case is shown as an example.
  • the state information correction unit 4 determines a monotone function for calculating the conversion coefficient for the state information on the front side.
  • a monotone function for average value conversion is determined will be described as an example.
  • the state information correction unit 4 sets the range of values assigned to the state information corresponding to the front side as the domain of the monotone function. In the example shown in FIG. 17, 1 to 2 are defined areas. Further, the state information correction unit 4 determines a1 and a2 for defining the range of the monotone function for average value conversion. About a1, what is necessary is just to determine using a front tag similarly to the already demonstrated method.
  • the state information correction unit 4 determines a monotone function determined by the defined domain and value range. In the example shown in FIG. 17, a monotone function having a domain of 1 to 2 and a range of a1 to 0 may be determined.
  • amendment part 4 calculates
  • the state information correction unit 4 converts the average value of the frequency logarithm values using the conversion coefficient corresponding to the state information for each state information corresponding to the front side.
  • the calculation of the conversion of the average value of the frequency logarithm is the same as in the other embodiments.
  • the average value may be converted by adding a conversion coefficient to the average value.
  • amendment part 4 does not convert with respect to the average value of the frequency logarithm value contained in the state information distributed to the back side.
  • the state information correction unit 4 determines a monotonic function for distributed conversion based on the front tag with respect to the state information on the front side.
  • the state information correction unit 4 sets the range of values assigned to the state information on the front side as the domain of the monotone function for variance conversion.
  • amendment part 4 should just define b1, b2 instead of said a1, a2 as a value which prescribes
  • about b1 what is necessary is just to determine using a front tag similarly to the already demonstrated method.
  • b2 0 is set.
  • the state information correction unit 4 determines a monotonic function determined by the domain and the range defined in this way.
  • the state information correction unit 4 obtains a conversion coefficient for dispersion conversion for each state information distributed to the front side as a value on a line indicated by the monotonic function. Specifically, the conversion coefficient for variance conversion is calculated by substituting the value assigned to each state information corresponding to the front side into the variable of the monotone function. Moreover, in this example, the state information correction
  • the state information correction unit 4 converts the variance of the frequency logarithm value for each state information corresponding to the front side, using a conversion coefficient corresponding to the state information.
  • the calculation of the frequency logarithmic variance conversion is the same as in the other embodiments.
  • the variance may be converted by adding a conversion coefficient to the variance.
  • amendment part 4 does not convert with respect to dispersion
  • the pitch pattern generation part 5 should just generate
  • the process of generating the pitch pattern using the average value and the variance is the same as in the other embodiments.
  • unconverted values may be used for elements corresponding to the state information on the rear side.
  • the arranged state information is divided into the front side and the rear side, and the average value and variance included in the rear side state information are converted, and the average value and variance included in the front side state information are converted.
  • a monotone function may be determined as described above to convert the average value and the variance.
  • the range to which the rear tag is particularly related is state information arranged on the rear side among the arranged state information.
  • the range to which the front tag is particularly related can be considered as state information arranged on the front side of the arranged state information.
  • the average value and the variance are converted for the state information (rear side state information) corresponding to the range to which the subsequent tag is particularly related, and other state information ( With respect to the state information on the front side, there is an effect that it is not necessary to convert the average value or the variance.
  • the state information when the state information is divided into the front side and the rear side based on the state information in the state where the average value of the frequency logarithm is the highest, it corresponds to the downward slope portion of the pitch, which is particularly related to the subsequent tag.
  • the conversion is performed on the state information, and the other state information does not need to be converted.
  • the average value or variance is converted for the state information (front-side state information) corresponding to the range to which the front tag is particularly related, and other state information (rear-side state information) With respect to, there is an effect that it is not necessary to convert the average value or the variance.
  • the case where the arranged state information is divided into the front side and the rear side based on the state information in the state where the average value of the frequency logarithm is the highest is shown.
  • Another standard may be used as a standard for dividing the arranged state information into the front side and the rear side.
  • the state information correction unit 4 may divide the arranged information into the front side and the rear side with reference to the central state information among the state information corresponding to the second mora phoneme. If there is an even number of state information corresponding to the second mora phoneme, one of the two pieces of state information at the center may be used as a reference. Alternatively, of the state information corresponding to the second mora phoneme, the arranged information may be divided into the front side and the rear side based on the last state information. In this method, instead of specifically specifying the state where the frequency average value is the highest, the frequency average value of the second mora is regarded as the highest in the accent phrase. Of the state information corresponding to the second mora phoneme, the center (or last) state information may be included on the rear side or on the front side.
  • amendment part 4 may divide into the front side and the rear side on the basis of the i-th state information which becomes an inflection point. That is, the state information correction unit 4 specifies i for which the absolute value of p (i) ⁇ p (i + 1) is maximum. Then, the state information arranged in the state arrangement unit 3 may be divided into a front side and a rear side based on the i-th state information. The reference i-th state information may be included on the rear side or the front side. Of the arranged state information, the last state information does not have the next state information and may be excluded from the calculation target of p (i) ⁇ p (i + 1).
  • the average value and dispersion after the accent can be converted into (average value and dispersion regarding the frequency)
  • the average value and variance before the accent can be converted.
  • the state information correction unit 4 uses the center state information as a reference among the state information corresponding to the second mora phoneme from the end in the accent phrase, and displays the arranged information on the front side and the rear side. It may be divided into sides. Alternatively, of the state information corresponding to the last mora phoneme, the arranged information may be divided into the front side and the rear side with reference to the central state information. If there is an even number of state information corresponding to the second mora phoneme from the end, one of the two pieces of state information at the center may be used as a reference. The same is true when there is an even number of state information corresponding to the last mora phoneme. By setting the reference in this way and dividing the arranged state information, the average value and variance can be converted only in the vicinity of the last of the accent phrase.
  • the pitch pattern generation device may repeatedly arrange the state information of each state by the number corresponding to the duration of the state. Good.
  • another example of the third embodiment will be described using the pitch pattern generation device 10 illustrated in FIG. 10 as an example. Operations other than the state information correction unit 14 are the same as those in the second embodiment.
  • FIG. 18 is an explanatory diagram showing an example in the case where one or more pieces of state information are repeatedly arranged for one state in the third embodiment.
  • the state arrangement unit 13 arranges 40 pieces of state information.
  • the state information correction unit 14 may divide 40 pieces of state information into the front side and the rear side with reference to the state information in the state where the average value of the frequency logarithm value is the highest.
  • the average value of the frequency is the highest in the state information of the third state (that is, the 11th to 17th state information).
  • the status information correction unit 14 can divide the 11th to 40th status information as the rear status information and the 1st to 10th status information as the front status information in the status information shown in FIG. That's fine.
  • the 11th to 17th state information having the highest frequency is distributed to the rear side is illustrated, but the state information may be distributed to the front side.
  • the state information correction unit 14 converts the average value and variance of the frequency logarithm values for the rear state information.
  • a conversion coefficient for average value conversion and a conversion coefficient for dispersion conversion may be obtained for each state corresponding to the state information on the rear side, and the average value and dispersion may be converted.
  • This operation is the same as the operation for obtaining the conversion coefficient for average value conversion and the conversion coefficient for dispersion conversion for each state and converting the average value and the dispersion in the second embodiment.
  • the domain used to define the monotonic function for average value conversion and the monotone function for variance conversion is the last state of the rear state information from the value assigned to the first state information of the rear state information.
  • the range is up to the value assigned to the information.
  • b2 what is necessary is just to determine using a back tag similarly to the already demonstrated method.
  • the state information correction unit 14 obtains a conversion coefficient for average value conversion and a conversion coefficient for variance conversion for each state, as in the second embodiment, and uses the state information on the rear side. What is necessary is just to convert the average value and dispersion
  • the state information correction unit 14 converts the average value and variance of the frequency logarithm values for the state information on the front side.
  • a conversion coefficient for average value conversion and a conversion coefficient for dispersion conversion may be obtained for each state corresponding to the state information on the front side, and the average value and dispersion may be converted.
  • This operation is the same as the operation for obtaining the conversion coefficient for average value conversion and the conversion coefficient for dispersion conversion for each state and converting the average value and the dispersion in the second embodiment.
  • the domain used to determine the monotonic function for average value conversion and the monotone function for variance conversion is changed from the value assigned to the first state information of the front state information to the last state information of the front state information.
  • the range is up to the assigned value.
  • a1 what is necessary is just to determine using a front tag similarly to the already demonstrated method.
  • the state information correction unit 14 obtains a conversion coefficient for average value conversion and a conversion coefficient for variance conversion for each state, as in the second embodiment, and is included in the state information on the front side. What is necessary is to convert the average value and variance of the frequency logarithm values. In this case, the state information correction unit 14 does not need to perform the conversion process for the rear state information.
  • the state information correction unit 14 is as described in the modification of the second embodiment.
  • a conversion coefficient for dispersion conversion may be determined according to the duration of each state.
  • the pitch pattern generation part 5 should just generate
  • the state information correction units 4 and 14 after converting the average value related to the frequency included in the state information of the accent phrase, the state information correction units 4 and 14 further add the state information to each state information.
  • a certain constant may be uniformly added to the corresponding average value.
  • the frequency of the accent phrase can be increased as a whole by uniformly adding a constant to the average value related to the frequency.
  • FIG. 19 is a block diagram illustrating an example of a speech synthesizer according to the fourth embodiment. Elements similar to those in the first embodiment are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof is omitted.
  • the speech synthesizer of this embodiment includes an analysis dictionary storage unit 40, a language processing unit 41, a pitch pattern processing unit 30, a segment storage unit 42, a waveform storage unit 44, and a synthesized speech generation unit 48.
  • an accent phrase is a pitch pattern correction unit.
  • the analysis dictionary storage unit 40 is a storage device that stores a rule that determines what kind of tag is added in what case with respect to adjacent pitch pattern correction units.
  • Text information to be output as speech synthesis is input to the language processing unit 41.
  • the language processing unit 41 performs morphological analysis on the input text information, creates a character string representing the reading of the text information, and divides the character string for each accent phrase (pitch pattern correction unit). For example, as illustrated in FIG. 3, the character string may be separated by a symbol “/” indicating an accent phrase separation.
  • the language processing unit 41 refers to the rules stored in the analysis dictionary storage unit 40, determines a tag for a set of adjacent accent phrases, and adds it to the character string. As a result, for example, reading information illustrated in FIG. 3 is obtained. Note that the language processing unit 41 may determine the position of the accent and add accent information indicating the position of the accent to the reading information.
  • the language processing unit 41 inputs the generated reading information to the state arrangement unit 3 and the state information correction unit 4 of the pitch pattern processing unit 30.
  • the pitch pattern processing unit 30 includes a state information storage unit 2, a state arrangement unit 3, a state information correction unit 4, and a pitch pattern generation unit 5. These elements are the same as those in the first embodiment, and a description thereof will be omitted.
  • the synthesized speech generation unit 48 generates synthesized speech based on the pitch pattern generated by the pitch pattern generation unit 5.
  • the synthesized speech generation unit 48 includes, for example, a segment selection unit 43 and a waveform connection unit 45.
  • the segment storage unit 43 is a storage device that stores segments for each syllable, for example.
  • the segment selection unit 43 selects a segment for each syllable, for example, based on the pitch pattern and the reading information.
  • the waveform storage unit 44 is a storage device that stores various waveforms used for speech synthesis.
  • the waveform connection unit 45 reads a waveform corresponding to the segment selected by the segment selection unit 43 from the waveform storage unit 44, generates a synthesized speech by connecting the waveforms, and outputs the synthesized speech.
  • synthesized speech corresponding to input text information can be output.
  • the pitch pattern processing unit 30 may include the state information storage unit 2, the state arrangement unit 13, the state information correction unit 14, and the pitch pattern generation unit 5 described in the second embodiment. Good.
  • the speech synthesizer includes a duration length storage unit 46 that stores a duration length previously learned for each phoneme, and a duration length storage unit for each phoneme specified by the reading information. It is only necessary to include a duration length reading unit 47 that reads the duration length from the duration time. The duration length reading unit 47 may input the duration length read for each phoneme to the state array unit 13.
  • the speech synthesizer illustrated in FIGS. 19 and 20 may be configured such that the user can perform editing operations on the reading information generated by the language processing unit 41.
  • an editing unit (not shown) may be provided that displays the reading information generated by the language processing unit 41 on a display device and edits the reading information in accordance with the editing content input to an input device such as a keyboard. .
  • the user can adjust the value of the tag included in the reading information, for example.
  • FIG. 21 is a block diagram showing an example of the minimum configuration of the pitch pattern generation device of the present invention.
  • the pitch pattern generation device of the present invention includes state information storage means 91, state information arrangement means 92, state information correction means 93, and pitch pattern generation means 94.
  • the state information storage unit 91 (for example, the state information storage unit 2) is state information indicating the state of the hidden Markov model learned for each phoneme, and is a representative value (for example, an average value) related to frequency and data spread ( For example, state information indicating dispersion) is stored.
  • the state information arrangement unit 92 (for example, the state arrangement unit 3) includes information (for example, included in the reading information) that indicates the reading for each pitch pattern correction unit (for example, accent phrase or phoneme, syllable, exhalation paragraph, sentence, etc.). State information of each phoneme specified by the reading of the pitch pattern correction unit is arranged in the phoneme order specified by the reading of the pitch pattern correction unit. .
  • the state information correction means 93 (for example, the state information correction unit 4) is a forward prosody that is prosodic control information for controlling at least the relationship of the prosody between the pitch pattern correction unit and the previous pitch pattern correction unit.
  • Control information for example, a forward tag
  • backward prosodic control information for example, a backward tag
  • the state information correction unit 93 calculates a representative value conversion conversion coefficient based on the representative value conversion monotone function, and converts the representative value related to the frequency represented by the arranged state information using the representative value conversion conversion coefficient. .
  • the pitch pattern generation means 94 (for example, the pitch pattern generation means 94) generates a pitch pattern based on the representative value related to the frequency and the spread of data.
  • State information of each phoneme specified by the reading of the pitch pattern correction unit is arranged in the order of the phonemes specified by the reading of the pitch pattern correction unit, and at least the pitch pattern correction unit and the preceding pitch pattern
  • prosodic control information which is prosodic control information for controlling the prosodic relationship between the correction units, and the prosodic relationship between the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • the representative value change to convert the representative value related to the frequency represented by the state information using either the prosodic control information that is the prosodic control information of A representative value conversion monotone function for deriving a conversion coefficient for use is determined, a conversion coefficient for representative value conversion is calculated based on the monotonic function for conversion of representative value, and the state information arranged using the conversion coefficient for representative value conversion
  • a pitch pattern generation method wherein a pitch value is generated based on a representative value related to a frequency and a spread of data.
  • the state information of the state is repeatedly arranged by the number corresponding to the duration of the phoneme state for each phoneme state specified by the reading of the pitch pattern correction unit.
  • the pitch pattern generation method according to 1.
  • a monotonic function for representative value conversion for deriving a conversion coefficient for representative value conversion is determined for each state of the phoneme specified by reading the pitch pattern correction unit, and the monotonous function for representative value conversion is defined for each state. Any one of the supplementary notes 1 to 3 for calculating a representative value conversion coefficient based on the frequency, and converting the representative value related to the frequency represented by the arranged state information using the representative value conversion coefficient for each state.
  • a pitch pattern generation method 1
  • the arranged state information is divided into front state information and rear state information, and rear prosody control information is used to represent each state corresponding to the rear state information.
  • a monotonous function for representative value conversion for deriving a conversion coefficient for value conversion is defined, and for each of the states, a conversion coefficient for representative value conversion is calculated based on the monotonic function for representative value conversion, and the conversion coefficient for representative value conversion is calculated.
  • the pitch pattern generation method according to any one of appendix 1 to appendix 3, wherein a representative value related to the frequency represented by the state information on the rear side is converted.
  • the arranged state information is divided into front state information and rear state information, and forward prosodic control information is used to represent representative values for each state corresponding to the front state information.
  • a monotonic function for representative value conversion for deriving a conversion coefficient for conversion is determined, and for each state, a conversion coefficient for representative value conversion is calculated based on the monotonic function for representative value conversion, and the conversion coefficient for representative value conversion is used.
  • the pitch pattern generation method according to any one of appendix 1 to appendix 3, wherein a representative value related to the frequency represented by the state information on the front side is converted.
  • a monotonic function for data spread conversion is derived for deriving a conversion coefficient for data spread conversion with respect to each phoneme state specified by the reading of the pitch pattern correction unit.
  • a conversion coefficient for conversion of data spread is calculated based on the conversion monotonic function, and for each of the states, the data spread related to the frequency represented by the arranged state information is calculated using the conversion coefficient for conversion of the data spread.
  • the arranged state information is divided into front state information and rear state information, and data relating to each state corresponding to the rear state information is used by using rear prosodic control information. Determining a data spread conversion monotonic function for deriving a conversion coefficient for data spread conversion, and for each state, calculating a conversion coefficient for data spread conversion based on the data spread conversion monotone function; The pitch pattern generation method according to appendix 7, wherein the data spread related to the frequency represented by the rear state information is converted using the conversion coefficient for conversion of the data spread.
  • the arranged state information is divided into front state information and rear state information, and forward prosody control information is used to store data on each state corresponding to the front state information.
  • forward prosody control information is used to store data on each state corresponding to the front state information.
  • a monotonic function for transforming the spread of the data to derive the transform coefficients for the transform of the spread.
  • a conversion coefficient for conversion of data spread is calculated based on the monotonic function for conversion of data spread, and the frequency represented by the state information on the front side is calculated using the conversion coefficient for conversion of data spread.
  • the pitch pattern generation method according to appendix 7, wherein the spread of data is converted.
  • Supplementary note 11 Any one of Supplementary notes 5, 6, 9, and 10 that divides the arranged state information into front-side state information and rear-side state information on the basis of a state where the representative value related to the frequency is maximized Pitch pattern generation method.
  • Supplementary note 12 Supplementary note 5 which divides the arranged state information into front-side state information and rear-side state information on the basis of the state where the absolute value of the difference between the representative values with respect to the next state is maximized
  • the pitch pattern generation method according to any one of 6, 9, and 10.
  • Supplementary note 13 Any one of Supplementary notes 1 to 6, which determines a conversion coefficient for data spread conversion for converting the spread of data related to the frequency represented by the state information in accordance with the duration of the phoneme state.
  • the pitch pattern generation method as described in 2.
  • State information indicating the state of the hidden Markov model learned for each phoneme the state information storing means for storing the state value indicating the representative value and the spread of the data about the frequency, and for each pitch pattern correction unit
  • State information arrangement means for arranging state information of each phoneme specified by reading of the pitch pattern correction unit based on information indicating the reading in order of phonemes specified by reading of the pitch pattern correction unit, and at least the pitch Forward prosody control information, which is prosodic control information for controlling the relationship of the prosody between the pattern correction unit and the preceding pitch pattern correction unit, and between the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • the frequency represented by the status information using either the prosodic control information, which is the prosodic control information for controlling the relationship between the prosody of A representative value conversion monotone function for deriving a representative value conversion conversion coefficient for converting a representative value related to the representative value is determined, a representative value conversion conversion coefficient is calculated based on the representative value conversion monotone function, and the representative value conversion
  • a state information correction unit that converts a representative value related to the frequency represented by the arrayed state information using a conversion coefficient
  • a pitch pattern generation unit that generates a pitch pattern based on the representative value related to the frequency and the spread of data.
  • a pitch pattern generator characterized by the above.
  • Language processing means for generating information indicating reading for each pitch pattern correction unit and prosodic control information for controlling the relationship of prosody between adjacent pitch pattern correction units, and learned for each phoneme
  • the pitch State information arrangement means for arranging state information of each phoneme specified by reading the pattern correction unit in the order of phonemes specified by reading the pitch pattern correction unit, and at least the pitch pattern correction unit and the preceding pitch pattern Forward prosody control information, which is prosody control information for controlling the relationship of the prosody with the correction unit, and the pitch pattern correction unit A representative for converting a representative value related to the frequency represented by the state information, using either the rear prosody control information that is the prosody control information for controlling the relationship of the prosody with the pitch pattern correction unit thereafter.
  • a monotonic function for representative value conversion for deriving a conversion coefficient for value conversion is determined, a conversion coefficient for representative value conversion is calculated based on the monotonic function for representative value conversion, and the conversion coefficient for representative value conversion is arranged using the conversion coefficient State information correcting means for converting a representative value related to the frequency represented by the state information, pitch pattern generating means for generating a pitch pattern based on the representative value related to the frequency and the spread of the data, and generating synthesized speech based on the pitch pattern
  • a speech synthesizer comprising: synthesized speech generation means.
  • a pitch pattern generation program the state information of each phoneme specified by the reading of the pitch pattern correction unit is read to the computer based on the information indicating the reading of each pitch pattern correction unit.
  • State information arrangement processing arranged in the order of phonemes specified by at least, forward prosody control information which is at least prosody control information for controlling the relationship of prosody between the pitch pattern correction unit and the previous pitch pattern correction unit And control the prosodic relationship between the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • a monotonous function for representative value conversion for deriving a conversion coefficient for representative value conversion for converting a representative value related to the frequency represented by the state information using any of the rear prosody control information that is the prosodic control information for
  • a state information correction process for calculating a representative value conversion coefficient based on the representative value conversion monotonic function, and converting a representative value related to the frequency represented by the arranged state information using the representative value conversion coefficient
  • a pitch pattern generation program for executing a pitch pattern generation process for generating a pitch pattern based on a representative value related to frequency and the spread of data.
  • State information indicating the state of a hidden Markov model learned for each phoneme a state information storage unit for storing state information indicating a representative value related to frequency and a spread of data, and for each pitch pattern correction unit
  • a state information arrangement unit that arranges state information of each phoneme specified by reading of the pitch pattern correction unit based on information indicating the reading in order of phonemes specified by reading of the pitch pattern correction unit; and at least the pitch Forward prosody control information, which is prosodic control information for controlling the relationship of the prosody between the pattern correction unit and the preceding pitch pattern correction unit, and between the pitch pattern correction unit and the subsequent pitch pattern correction unit.
  • a representative value conversion conversion coefficient is calculated based on the representative value conversion monotone function, and the representative value conversion
  • a state information correction unit that converts a representative value related to the frequency represented by the arranged state information using a conversion coefficient
  • a pitch pattern generation unit that generates a pitch pattern based on the representative value related to the frequency and the spread of data.
  • a language processing unit that generates information indicating reading for each pitch pattern correction unit and prosody control information for controlling the relationship of prosody between adjacent pitch pattern correction units, and learned for each phoneme State information indicating the state of the hidden Markov model, a state information storage unit that stores a representative value related to the frequency and state information indicating the spread of the data, and information indicating the reading for each pitch pattern correction unit, A state information arrangement unit that arranges state information of each phoneme specified by reading the pattern correction unit in the order of phonemes specified by the reading of the pitch pattern correction unit, and at least the pitch pattern correction unit and the previous pitch pattern Forward prosody control information, which is prosodic control information for controlling the relationship of the prosody with the correction unit, the pitch pattern correction unit and its The representative value for converting the representative value for the frequency represented by the state information using either the backward prosodic control information, which is the prosodic control information for controlling the relationship of the prosody with the pitch pattern correction unit.
  • a state information correction unit that converts a representative value related to the frequency represented by the information; a pitch pattern generation unit that generates a pitch pattern based on the representative value related to the frequency and the spread of data; and a synthesis that generates synthesized speech based on the pitch pattern.
  • a speech synthesizer comprising: a speech generation unit.
  • the present invention is preferably applied to a pitch pattern generation device that generates a pitch pattern and a voice synthesis device that generates a pitch pattern and performs speech synthesis.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 HMMを用いる場合に、違和感のない音声合成結果が得られるようなピッチパタンを生成することができるピッチパタン生成方法を提供する。状態情報配列手段92は、音素毎に学習された隠れマルコフモデルの状態を示す状態情報を、ピッチパタン補正単位毎の読みを示す情報に基づいて配列する。状態情報補正手段93は、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定める。そして、状態情報補正手段93は、その代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、配列した状態情報が表す周波数に関する代表値を変換する。ピッチパタン生成手段94は、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成する。

Description

ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
 本発明は、音声合成の対象となるテキストの読みを表す読み情報に応じたピッチパタンを生成するピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラムに関する。
 ピッチパタンは、イントネーションや声の高低の時間的な動きを表す情報であり、時間経過に伴う周波数の変化として表される。
 ピッチパタンを生成するピッチパタン生成方法が特許文献1に記載されている。特許文献1に記載されたピッチパタン生成方法では、ピッチパタンをスプライン関数で表す。そして、スプライン関数の区間毎に導関数の値の範囲に制約を設けた上で、隣り合う区間の接続点における関数値および一次の微係数が区間両側で等しく、所望の点を通るスプライン関数を生成する。
 また、特許文献1には、自由なピッチパタンを手動でデザインすることに関しても記載されている。
 また、音声合成に関する技術として、母音の中心の間隔を用いて継続時間長を制御する技術が特許文献2に記載されている。
 また、HMM(Hidden Markov Model :隠れマルコフモデル)に関する技術として、HMMの各状態の継続時間の期待値を算出することが、特許文献3に記載されている。
特開2000-315092号公報 特開平6-222793号公報 特開2007-11203号公報
 音声合成において生成されたピッチパタンを手動で補正する場合、例えば、アクセント句同士の境界でピッチパタンが滑らかに繋がらず、違和感のない音声合成結果を得ることが難しかった。なお、ここでは、ピッチパタンを補正する単位(以下、ピッチパタン補正単位と記す。)として、アクセント句に着目する場合を示したが、ピッチパタン補正単位としては、アクセント句の他に、音素、音節、呼気段落、文等を採用し得る。
 特許文献1に記載された方法のように、ピッチパタンをスプライン関数で表し、スプラインを構成する隣り合う区間の接続点における関数値および一次の微係数が区間両側で等しく、所望の点を通るスプライン関数を生成すれば、そのスプライン関数(ピッチパタン)によって違和感のない音声合成結果を得ることができる。
 また、音声合成には、HMMを用いる場合もあるが、HMMを用いる場合にも、違和感のない音声合成結果が得られるようなピッチパタンを生成できることが好ましい。
 そこで、本発明は、HMMを用いる場合に、違和感のない音声合成結果が得られるようなピッチパタンを生成することができるピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラムを提供することを目的とする。
 本発明によるピッチパタン生成方法は、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を予め記憶し、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、ピッチパタン補正単位の読みによって特定される音素順に配列し、少なくとも、ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換し、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成することを特徴とする。
 また、本発明によるピッチパタン生成装置は、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、少なくとも、ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段とを備えることを特徴とする。
 また、本発明による音声合成装置は、ピッチパタン補正単位毎の読みを示す情報と、隣接するピッチパタン補正単位間の韻律の関係性を制御するための韻律制御情報とを生成する言語処理手段と、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、少なくとも、ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段と、ピッチパタンに基づいて合成音声を生成する合成音声生成手段とを備えることを特徴とする。
 また、本発明によるピッチパタン生成プログラムは、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段を備えたコンピュータに搭載されるピッチパタン生成プログラムであって、コンピュータに、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列処理、少なくとも、ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正処理、および、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成処理を実行させることを特徴とする。
 本発明は、HMMを用いる場合に、違和感のない音声合成結果が得られるようなピッチパタンを生成することができる。
本発明の第1の実施形態のピッチパタン生成装置を示すブロック図である。 アクセント句に含まれる音素毎の状態の遷移を示す模式図である。 読み情報の例を示す説明図。 タグによるアクセント句の周波数制御の例を示す模式図である。 第1の実施形態の処理経過の例を示すフローチャートである。 各状態情報の周波数対数値の平均値、変換係数、および周波数対数値の平均値の変換後の値を模式的に示す説明図である。 タグとa1,a2の関係の例を示す説明図である。 各状態情報の周波数対数値の分散、変換係数、および変換後の分散を模式的に示す説明図である。 1つの音素について学習された状態と、その状態の継続時間長の例を示す説明図である。 本発明の第2の実施形態のピッチパタン生成装置を示すブロック図である。 第2の実施形態の処理経過の例を示すフローチャートである。 各状態情報の周波数対数値の平均値、変換係数、および周波数対数値の平均値の変換後の値を模式的に示す説明図である。 各状態情報の周波数対数値の分散、変換係数、および周波数対数値の分散の変換後の値を模式的に示す説明図である。 継続時間長の長さに応じて定められる変換係数を模式的に示す説明図である。 第3の実施形態における状態情報補正部4の処理の例を模式的に示す説明図である。 第3の実施形態の処理経過の例を示すフローチャートである。 第3の実施形態における状態情報補正部4の処理の他の例を模式的に示す説明図である。 第3の実施形態において、1つの状態に対して1つ以上の状態情報を繰り返し配列する場合の例を示す説明図である。 第4の実施形態の音声合成装置の例を示すブロック図である。 第4の実施形態の音声合成装置の他の例を示すブロック図である。 本発明のピッチパタン生成装置の最小構成の例を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。なお、本発明において、音素、音節、アクセント句、呼気段落、文等をピッチパタン補正単位(ピッチパタンを補正する単位)として扱うことができるが、以下に示す各実施形態では、アクセント句をピッチパタン補正単位として採用する場合を例にして説明する。
実施形態1.
 図1は、本発明の第1の実施形態のピッチパタン生成装置を示すブロック図である。第1の実施形態のピッチパタン生成装置1は、状態情報記憶部2と、状態配列部3と、状態情報補正部4と、ピッチパタン生成部5とを備える。
 状態情報記憶部2は、音素毎に予め学習されたHMM(隠れマルコフモデル)の状態を示す状態情報を記憶する記憶装置である。なお、日本語の場合、音素には母音および子音が含まれる。HMMの状態を音素毎に予め学習し、各状態の状態情報を状態情報記憶部2に記憶させておけばよい。本実施形態では、HMMで用いる各状態のモデルとして単一ガウス分布を採用し、各状態の状態情報として、代表値のパラメータ(統計量)をガウス分布の平均値で表現し、データの広がりのパラメータ(統計量)をガウス分布の分散で表現する場合を例にして説明する。個々の状態は、統計的にどの周波数が現れるかを、周波数に関する平均値および分散によって表している。そして、各音素の状態情報は、その音素の周波数に関する平均値および分散の値を含んでいる。ただし、1つの音素に対応する状態は、1つとは限らない。すなわち、1つの音素に関して、順次複数の状態が遷移していくこともあり、その場合、ただし、1つの音素に対応する状態は複数存在することになる。個々の音素に関していくつの状態を学習するのかは、学習時に定めておけばよい。例えば、短い音素に関しては学習する状態の数を少なくし、長母音のような長い音素に関しては学習する状態の数を多くしてもよい。あるいは、例えば、学習の処理量を抑えるために、各音素に対応する状態の数を共通としてもよい。1つの音素に対して、複数の状態情報が定められる場合には、状態の遷移順序を示す情報も状態情報に含めておけばよい。
 また、HMMで他のモデルを採用することも可能である。そして、混合ガウス分布やガンマ分布においては、単一ガウス分布の場合と同様に、代表値のパラメータ(統計量)として平均値を用い、データの広がりのパラメータ(統計量)として分散を用いることができる。また、高次統計量では、代表値のパラメータとして平均値を用い、データの広がりのパラメータとして尖度を用いることができる。また、代表値のパラメータ(統計量)として、平均値の他に、最頻値や中央値を用いることも可能である。
 例えば、“b”という音素を例にして説明する。また、本例では、音素毎に3つの状態を学習する場合を例にする。“b”に関する状態を学習する際には、“b”の音を含む種々の音声を収集する。そして、“b”の発音に関し、どの周波数がどの程度の頻度で現れているかを種々の音声から計測し、3つの状態を定める。そして、3つの状態それぞれについて、統計的にどの周波数が現れるかを、周波数に関する平均値および分散によって表し、その周波数に関する平均値および分散を含む状態情報を作成すればよい。他の音素に関しても、同様に状態情報を予め定めておけばよい。
 ここで、「周波数に関する平均値および分散」とは、周波数に応じた値の平均値および分散であればよく、周波数自体の平均値や分散に限定されない。例えば、個々の状態情報は、「周波数に関する平均値および分散」として、周波数の対数値の平均値および分散を含んでいてもよい。以下の説明では、状態情報には、周波数の対数値の平均および分散が含まれている場合を例にして説明する。
 状態配列部3および状態情報補正部4には、読み情報が入力される。
 状態配列部3は、アクセント句の読みによって特定される音素に応じた状態の状態情報を状態情報記憶部2から読み込み、アクセント句の読みによって特定される音素の順に、音素の状態毎に状態情報を配列する。なお、1つの音素に対して、複数の状態が定められている場合、その音素における状態遷移順に状態情報を配列する。
 図2は、アクセント句に含まれる音素毎の状態の遷移を示す模式図である。図2に示す例では、音素“k”の状態は、状態S1,S2,S3のように遷移する。“a”の状態は、状態S4,S5,S6のように遷移する。他の音素の状態も、それぞれ図2に示すように遷移する。このような各音素の状態S1~S18のそれぞれの状態情報が状態情報記憶部2に記憶されているとする。状態配列部3は、例えば、日本語における「かれと(ka re to)」というアクセント句に関して、“k”,“a”,“r”,“e”,“t”,“o”という音素を特定し、個々の音素の状態S1~S3、状態S4~S6、状態S7~S9、状態S10~S12、状態S13~S15、状態S16~S18に対応する状態情報を状態情報記憶部2から読み込み、S1~S18と同様の順番に配列する。この結果、S1~S18における周波数の平均値および分散がそれぞれ配列されることになる。
 状態配列部3は、このような状態情報の配列をアクセント句毎に行う。
 ここで、読み情報について説明する。読み情報は、本発明のピッチパタン生成装置で生成されたピッチパタンを用いた音声合成結果として出力される音声(換言すれば、読み出される音声)を示す情報である。図3は、読み情報の例を示す。読み情報は、ピッチパタン補正単位毎(本例ではアクセント句毎)に読みを表す文字列を含む。図3に示す例では、アクセント句毎に、読みを表す文字列を記号“/”で区切っている。すなわち、図3に示す例では、“/”はアクセント句の境界を示す。
 また、読み情報は、隣接するアクセント句間の韻律の関係性を制御するための韻律制御情報を含む。本発明では、韻律制御情報により、アクセント句に含まれる音素の周波数を制御する。図3に示す例では、アクセント句の境界に記述される“/”の次に記述された数値が韻律制御情報に該当する。以下、この韻律制御情報をタグと記す。なお、図3に示す例では、タグは、隣接するアクセント句の境界部分に記述されているが、タグの制御対象となるアクセント句が明確にされていれば、タグの記述態様は、図3に示す例に限定されない。タグに関しては、基準となる値(以下、単に基準値と記す。)が予め定められている。そして、タグの値と基準値との大小関係により、アクセント句の周波数に対する制御内容が定まる。タグの値が基準値よりも大きいということは、相対的に、先行アクセント句の周波数を上げ、後続アクセント句の周波数を下げるというアクセント句の関係性を表しているということができる。また、タグの値が基準値よりも小さいということは、相対的に、先行アクセント句の周波数を下げ、後続アクセント句の周波数を上げるというアクセント句の関係性を表しているということができる。
 図4は、タグによるアクセント句の周波数制御の例を示す模式図である。以下、基準値が“2”である場合を例にして説明する。図4(a)は、タグの値が3であり、基準値“2”よりも大きい場合の例を示す。このように、タグの値が基準値よりも大きい場合、隣接する2つのアクセント句のうち、先のアクセント句(以下、先行アクセント句と記す。)の周波数を上げ、後のアクセント句(以下、後続アクセント句と記す。)の周波数を下げる。また、タグの値が基準値よりも大きいほど、先行アクセント句の周波数の上げ幅および後続アクセント句の周波数の下げ幅を大きくする。図4(b)は、タグの値が1であり、基準値“2”よりも小さい場合の例を示す。このように、タグの値が基準値よりも小さい場合、先行アクセント句の周波数を下げ、後続アクセント句の周波数を上げる。また、タグの値が基準値よりも小さいほど、先行アクセント句の周波数の下げ幅および後続アクセント句の周波数の上げ幅を大きくする。
 図3に示すように、読み情報には、アクセント句毎の読みを表す文字列と、タグとが含まれるが、さらに別の情報が含まれていてもよい。図3では、アクセントの位置を示すアクセント情報も含む場合を例示している。また、図3では、アクセント情報を記号“’”で表し、その記号が記述された位置にアクセントがあることを表している。
 読み情報は、例えば、音声合成の対象となる文字列(例えば、日本語における「彼と彼女の先生(ka re to ka no jo no se n se i)」)等に基づいて作成すればよい。この作成は、情報処理装置によって自動的に作成してもよく、あるいは、人手で作成してもよい。また、自動的に作成された読み情報に対して、人間が修正を加えてもよい。
 本例では、ピッチパタン補正単位毎の読みを表す文字列とタグとを含む読み情報がピッチパタン生成装置に入力される場合を例にして説明する。ただし、ピッチパタン生成装置には、ピッチパタン補正単位毎の読みを表す情報と、タグ(韻律制御情報)とが他の態様で入力されてもよい。例えば、ピッチパタン補正単位毎の読みを表す情報と、タグとが別個に入力されてもよい。また、ピッチパタン補正単位毎の読みを表す情報やタグはバイナリデータであってもよい。また、ピッチパタン補正単位毎の読みを表す情報やタグは、GUIを介して入力されてもよい。
 状態情報補正部4は、配列された状態情報に含まれる周波数の対数値の平均値および分散を補正する。状態情報補正部4は、この補正をアクセント句毎に行う。また、あるアクセント句の周波数の対数値(以下、周波数対数値と記す。)の平均値および分散を補正する際、状態情報補正部4は、その前のアクセント句との韻律の関係性を表すタグと、その次のアクセント句との韻律の関係性を表すタグに基づいて、状態情報毎に、平均値変換用の変換係数および分散変換用の変換係数を算出する。以下、着目しているアクセント句とその前のアクセント句との韻律の関係性を表すタグを前方タグと記す。また、着目しているアクセント句とその次のアクセント句との韻律の関係性を表すタグを後方タグと記す。
 ここで、配列された状態情報の個数をn個とする。そして、態情報補正部4は、配列した状態情報に対してそれぞれ順番に1~nの順番を表す値を割り当てる。さらに、状態情報補正部4は、1~nを定義域とし、前方タグに基づいて定めた値から後方タグに基づいて定めた値までの範囲を値域とする単調関数を定める。そして、状態情報補正部4は、その単調関数が示す線上の値として、各状態情報の変換係数を定めればよい。単調関数は単調増加関数であっても単調減少関数であってもよい。単調増加関数となるか、単調減少関数となるかは、前方タグの値と後方タグの値との大小関係に依存する。また、単調関数として、広義の単調関数である単調非減少関数および単調非増加関数を用いてもよい。なお、平均値変換用の変換係数と分散変換用の変換係数とをそれぞれ別個に算出するので、状態情報補正部4は、上記のような単調関数を2種類定める。この場合、前方タグおよび後方タグに基づいて定める値域の範囲が異なる単調関数を2種類定めればよい。
 状態情報補正部4は、状態情報毎に、算出した変換係数を用いて、状態情報に含まれている周波数対数値の平均値および分散をそれぞれ変換する。この変換は、周波数対数値の平均値および分散に対する補正であるということができる。
 ピッチパタン生成部5は、状態情報補正部4によって変換された後の周波数対数値の平均値および分散に基づいて、ピッチパタンを生成する。このピッチパタンの生成は、公知の方法で行えばよい。
 状態配列部3、状態情報補正部4およびピッチパタン生成部5は、例えば、ピッチパタン生成プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、コンピュータのプログラム記憶装置(図示略)がピッチパタン生成プログラムを記憶し、CPUがそのプログラムを読み込んで、そのプログラムに従って、状態配列部3、状態情報補正部4およびピッチパタン生成部5として動作すればよい。また、状態情報記憶部2、状態配列部3、状態情報補正部4およびピッチパタン生成部5がそれぞれ別のユニットで実現されていてもよい。
 次に、動作について説明する。
 図5は、第1の実施形態の処理経過の例を示すフローチャートである。状態情報記憶部2には、各音素の状態を示す状態情報が記憶されているものとする。また、状態配列部3および状態情報補正部4には、読み情報が入力されているものとする。
 なお、ピッチパタン生成装置は、以下に示すステップA1~A8の処理を、読み情報に含まれる各アクセント句(各ピッチパタン補正単位)に対して実行する。以下、説明を簡単にするために、読み情報に含まれる1つのアクセント句(ピッチパタン補正単位)に着目してステップA1~A8の処理を説明する。ピッチパタン生成装置は、同様の処理を、読み情報に含まれる他のアクセント句に対しても行えばよい。
 また、以下の説明では、状態情報補正部4が定める単調関数が、直線を示す関数(すなわち、一次関数)である場合を例にする。
 状態配列部3は、読み情報内の着目しているアクセント句の読みに応じた音素を特定し、その音素に対応する状態情報を状態情報記憶部2から読み出す。なお、例えば、読み情報が示す個々の文字と音素との関係を示す情報を予め状態配列部3が保持し、状態配列部3は、その情報に基づいて、アクセント句の読みに応じた音素を特定すればよい。そして、状態配列部3は、そのアクセント句の読みに応じた音素の順番に従って、音素の状態毎に状態情報を配列する(ステップA1)。1つの音素に対して複数の状態情報が定められている場合には、その音素に関する状態遷移の順番に従って、状態情報に遷移順序が定められている。その場合、状態配列部3は、その音素に関する状態情報をその遷移順序に従って配列すればよい。
 次に、状態情報補正部4は、ステップA1で配列されたアクセント句の各状態情報の数と、そのアクセント句の前方タグおよび後方タグとに基づいて、平均値変換用の単調関数を定める(ステップA2)。図6は、各状態情報の周波数対数値の平均値、変換係数、および周波数対数値の平均値の変換後の値を模式的に示す説明図である。図6では、1つのアクセント句について配列した状態情報の数が6個である場合を例にしている。この場合、状態情報補正部4は、それぞれの状態情報に、遷移順に、1~6の順番を表す値を割り当てる。
 そして、状態情報補正部4は、1~6を定義域とし、前方タグに基づいて定めた値から後方タグに基づいて定めた値までの範囲を値域とする単調関数(本例では一次関数)を定めればよい。前方タグに基づいて定めた値をa1とし、後方タグに基づいて定めた値をa2とする。図7(a)は、前方タグとa1の関係の例を示す説明図であり、図7(b)は、後方タグとa2の関係の例を示す説明図である。
 図7(a)に示すように、状態情報補正部4は、前方タグの値が基準値より大きければ、a1を負の値として定める。前方タグの値が基準値より大きいほどa1の絶対を大きくすればよい。また、前方タグの値が基準値と等しければ、a1を0とする。また、前方タグの値が基準値未満であれば、a1を正の値として定める。前方タグの値が基準値より小さいほど、a1の絶対値を大きくすればよい。
 また、図7(b)に示すように、状態情報補正部4は、後方タグの値が基準値より大きければ、a2を正の値をして定める。後方タグの値が基準値より大きいほどa2の絶対値を大きくすればよい。また、後方タグの値が基準値と等しければ、a2を0とする。また、後方タグの値が基準値未満であれば、a2を負の値として定める。後方タグの値が基準値より小さいほど、a2の絶対値を大きくすればよい。
 状態情報補正部4は、例えば、上記のようにa1,a2を定め、1~6を定義域とし、a1~a2を値域とする単調関数(本例では一次関数)を定める。
 次に、状態情報補正部4は、ステップA2で定めた単調関数が示す線上(図6に示す例では、一次関数が示す直線上)の値として、状態情報毎に、平均値変換用の変換係数を求める。換言すれば、状態情報補正部4は、ステップA2で求めた単調関数の変数に、各状態情報に割り当てた値(遷移順を表す値)を代入することによって、状態情報毎の変換係数(平均値変換用の変換係数)を算出する(ステップA3)。例えば、図6に示す例では、1番目の状態情報対して求める変換係数はa1となり、6番目の状態情報に対して求める変換係数はa2となる。また、2番目の状態情報の変換係数は、ステップA2で求めた単調関数の変数に2を代入して求められる。他の状態情報の変換係数も同様に求められる。
 次に、状態情報補正部4は、状態情報に含まれている周波数対数値の平均値を、ステップA3で求めた平均値変換用の変換係数を用いて変換する(ステップA4)。例えば、状態情報補正部4は、状態情報に含まれている周波数対数値の平均値に、その状態情報に対して求めた変換係数を加算し、その加算結果を、変換後の平均値とすればよい。そして、状態情報補正部4は、配列された状態情報毎にこの処理を行う。図6の下段は、周波数対数値の平均値の変換後の値を模式的に示している。なお、本例では、変換係数の加算により周波数対数値の平均値を変換する場合を示したが、変換係数を用いた変換を他の演算で行ってもよい。ただし、変換係数の絶対値が大きいほど、変換前後の平均値の差が大きくなるという関係が保たれる演算によって変換することが好ましい。
 次に、状態情報補正部4は、ステップA1で配列された1つのアクセント句の各状態情報の数と、そのアクセント句の前方タグおよび後方タグとに基づいて、分散変換用の単調関数を定める(ステップA5)。図8は、各状態情報の周波数対数値の分散、変換係数、および変換後の分散を模式的に示す説明図である。図8においても、図6と同様に状態情報の数が6個である場合を例示している。状態情報補正部4は、それぞれの状態情報に、遷移順に、1~6の順番を表す値を割り当てている。
 状態情報補正部4は、1~6を定義域とし、前方タグに基づいて定めた値から後方タグに基づいて定めた値までの範囲を値域とする単調関数(本例では一次関数)を定めればよい。前方タグに基づいて定めた値をb1とし、後方タグについて定めた値をb2とする。値域を規定するb1,b2の値は、a1,a2と同様に定めればよい。ただし、分散変換用の単調関数を定める際に用いるb1,b2の値と、平均値変換用の単調関数を定める際に用いるa1,a2の値とは、定め方は同様であるが、それぞれ独立して求めるので、b1,b2はそれぞれ、a1,a2とは異なる値となる。
 次に、状態情報補正部4は、ステップA5で定めた単調関数が示す線上(図8に示す例では、一次関数が示す直線上)の値として、状態情報毎に、分散変換用の変換係数を求める。換言すれば、状態情報補正部4は、ステップA5で定めた単調関数の変数に、各状態情報に割り当てた値(遷移順を表す値)を代入することによって、状態情報毎の変換係数(分散変換用の変換係数)を算出する(ステップA6)。例えば、図8に示す例では、1番目の状態情報対して求める変換係数はb1となり、6番目の状態情報に対して求める変換係数はb2となる。また、2番目の状態情報の変換係数は、ステップA5で求めた単調関数の変数に2を代入して求められる。他の状態情報の変換係数も同様に求められる。
 次に、状態情報補正部4は、状態情報に含まれている周波数対数値の分散を、ステップA6で求めた分散変換用の変換係数を用いて変換する(ステップA7)。例えば、状態情報補正部4は、状態情報に含まれている周波数対数値の分散に、その状態情報に対して求めた変換係数を加算し、その加算結果を、変換後の分散とすればよい。そして、そして、状態情報補正部4は、配列された状態情報毎にこの処理を行う。図8の下段は、周波数対数値の分散の変換後の値を模式的に示している。なお、本例では、変換係数の加算により周波数対数値の分散を変換する場合を示したが、変換係数を用いた変換を他の演算で行ってもよい。ただし、変換係数の絶対値が大きいほど、変換前後の分散の差が大きくなるという関係が保たれる演算によって変換することが好ましい。
 次に、ピッチパタン生成部5は、ステップA4,A7での変換処理によって求めた変換後の平均値および分散を用いて、ピッチパタンを生成する(ステップA8)。ピッチパタン生成部5は、公知の方法でピッチパタンの生成を生成すればよい。以下、ピッチパタンの生成の例を示す。
 ピッチパタン生成部5は、予め定めた窓関数を用いて、ピッチパタンを計算すればよい。ピッチパタン生成部5は、以下の式(1)をピッチパタンCに関して解くことによって、ピッチパタンを計算すればよい。
 W-1WC=W-1       式(1)
 ただし、Cはピッチパタンであり、以下の式(2)のように表される。式(2)において、c,c,・・・,cは、ピッチパタンを示す特徴量である。
 C:=[c,c,・・・,c     式(2)
 添え字として示したTは、1つのアクセント句に関して配列した状態情報の数(総フレーム数)である。後述の式(3)~式(5)において添え字として示すTも同様である。
 また、Mは、補正後の平均値の各値を成分とするベクトルの転置ベクトルであり、以下の式(3)のように表される。式(3)において、μ’q1,μ’q2,・・・,μ’qTは、変換後の平均値である。
 M:=[μ’q1,μ’q2,・・・,μ’qT     式(3)
 Uは対角化した共分散行列であり、変換後の分散を対角成分として持つ。Uは、以下の式(4)のように表される。式(4)において、Uq1,Uq2,・・・,UqTは、変換後の分散である。
 U:=diag[Uq1,Uq2,・・・,UqT     式(4)
 また、窓関数は以下の式(5)のように表される行列Wとして予め定めておけばよい。
  W:=[w,w,・・・,w     式(5)
 なお、式(5)において、任意のwtは、以下の式(6)ように表されるベクトルとして定めればよい。
  w:=[w (0),w (1),w (2)]     式(6)
 なお、上記のように、式(3)に示すMの成分は変換後の平均値であり、式(4)に示すUの対角成分は変換後の分散である。これらの平均値および分散として、周波数対数値の平均値および分散を用いても、あるいは、周波数自体の平均値および分散を用いてもよい。本例では、周波数対数値の平均値および分散を求めているので、その値を用いてMやUを定めればよい。また、周波数自体の平均値および分散を変換する場合には、周波数自体の平均値および分散(変換後の平均値および分散)を用いてMやUを定めればよい。
 本実施形態によれば、単調関数が示す線上の値として変換係数を定め、その変換係数により変換した平均値や分散を用いてピッチパタンを生成する。その結果、ピッチパタンがアクセント句毎に滑らかに繋がり、そのピッチパタンを用いた音声合成の結果、違和感のない音声を得ることができる。
 また、分散に関しても変換を行い、変換による平均値の変動が大きくなる場合には、分散も大きくすることができる。そのように分散を大きくすることで、ピッチパタンをより滑らかに繋げることができる。
 また、上記の例では、一次関数が示す直線上の値として変換係数を定め、周波数対数値の平均値および分散について変換を行う場合を示した。例えば、音楽の音階は実周波数上で等比数列になるように定義されていて、周波数の対数値をとると直線上に並ぶようになる。従って、上記のように処理を行うことで、聴感上、違和感がない音声が得られるという効果をより高めることができる。
 ただし、変換係数を定めるための関数は単調関数であればよい。また、周波数対数値の平均値および分散ではなく、実周波数の平均値および分散を対象にして、上記と同様の処理を行ってもよい。この場合であっても、違和感のない音声が得られるようなピッチパタンを生成することができる。
 また、上記の例では、ステップA2およびステップA5において、単調関数の値域を規定するa1,a2(図6参照)やb1,b2(図8参照)を求める際に、前方タグおよび後方タグを用いたが、前方タグおよび後方タグの一方だけを用いて単調関数の値域を規定してもよい。
 例えば、後方タグを用いて値域を規定するとする。この場合、状態情報補正部4は、ステップA2においてa1=0とすればよい。そして、状態情報補正部4は、後方タグの値が基準値より大きければa2を正の値とし、後方タグの値が基準値より大きいほどa2の絶対値が大きくなるようにa2を定めればよい。また、後方タグの値が基準値と等しければa2=0とすればよい。また、後方タグの値が基準値未満であればa2を負の値とし、後方タグの値が基準値より小さいほどa2の絶対値が大きくなるようにa2を定めればよい。ステップA5においても、状態情報補正部4は、b1=0とし、上記と同様に、後方タグの値に応じてb2を定めればよい。
 また、例えば、前方タグを用いて値域を規定するとする。この場合、状態情報補正部4は、ステップA2においてa2=0とすればよい。そして、状態情報補正部4は、前方タグの値が基準値よりも大きければa1を負の値とし、前方タグの値が基準値より大きいほどa1の絶対値が大きくなるようにa1を定めればよい。また、前方タグの値が基準値と等しければa1=0とすればよい。また、前方タグの値が基準値より小さければa1を正の値とし、前方タグの値が基準値より小さいほどa1の絶対値が大きくなるようにa1を定めればよい。ステップA5においても、状態情報補正部4は、b2=0とし、上記と同様に、前方タグの値に応じてb1を定めればよい。
 また、第1の実施形態において、平均値のみを変換し、分散に関しては変換を行わなくてもよい。すなわち、状態情報補正部4は、ステップA5~A7の処理を実行しなくてもよい。この場合、ピッチパタン生成部5は、ステップA8において、変換後の分散の代わりに、変換を行っていない分散をそのまま用いてピッチパタンを生成すればよい。ステップA8では、変換を行っていない分散をそのまま用いるという点以外は、上述のステップA8と同様である。
実施形態2.
 HMMの状態は、直ちに次の状態に遷移するとは限らず、自己遷移する場合もある。HMMでは、状態が自己遷移するか次の状態に遷移するかを一定周期で決定する。また、各音素の状態を学習する際には、各音素に対応する個々の状態に関して、どれだけその状態が継続するかに関しても学習する。1つの状態が継続する時間の長さを継続時間長と記す。図9は、1つの音素について学習された状態と、その状態の継続時間長の例を示す説明図である。図9に示すように、例えば、音素“k”の状態について学習した結果、音素“k”に対応する状態がS1~S3であったとする。また、状態S1に関する継続時間長は、周期(自己遷移するか次の状態に遷移するかを決定する周期)の3倍の時間であったとする。また、状態S2,S3の継続時間長も、それぞれ、周期の7倍、5倍であったとする。このように、音素について学習された状態それぞれに関して、継続時間長も学習すると、継続時間長は、自己遷移するか次の状態に遷移するかを決定する周期の整数倍として得られる。以下、「自己遷移するか次の状態に遷移するかを決定する周期」を単に周期と記載する。
 第2の実施形態のピッチパタン生成装置は、個々の音素の状態毎に予め学習された継続時間長も考慮して単調関数を定め、その単調関数から変換係数を求める。そして、周波数に関する平均値および分散を変換する。なお、周期毎に変換係数を求めてもよいが、以下に示す説明では、状態毎に変換係数を求める場合を例にする。
 第2の実施形態においても、第1の実施形態と同様に、「周波数に関する平均値および分散」として、周波数対数値の平均値および分散を用いる場合を例にする。
 図10は、本発明の第2の実施形態のピッチパタン生成装置を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付す。第2の実施形態のピッチパタン生成装置10は、状態情報記憶部2と、状態配列部13と、状態情報補正部14と、ピッチパタン生成部5とを備える。
 状態情報記憶部2は、第1の実施形態と同様に、音素毎に予め学習された各音素の状態(HMMの状態)を示す状態情報を記憶する。
 状態配列部13および状態情報補正部14には読み情報が入力される。さらに、本実施形態では、状態配列部13に、各状態に関して予め学習された継続時間長も入力される。
 状態配列部13は、読み情報によって特定される音素の状態に応じた状態情報を状態情報記憶部2から読み込み、読み情報によって特定される音素の順に、音素の状態毎に状態情報を配列する。1つの音素に対して、複数の状態情報が定められている場合、その音素における状態遷移順に状態情報を配列する。
 ただし、第2の実施形態では、状態配列部13は、読み情報によって特定される音素に応じた状態の状態情報を、その状態の継続時間長分だけ繰り返し配列する。例えば、図9に示す周期をtとする。そして、状態S1の継続時間長が3tであるとする。この場合、継続時間長3tを周期tで除算した数(本例では“3”)だけ、その状態S1の状態情報を連続して繰り返し配列する。そして、次の状態S2の状態情報を配列する。図9に示す例では、状態S2の継続時間長は7tであり、この継続時間長を周期tで除算した値は“7”であるので、状態S2の状態情報を7だけ連続して繰り返し配列する。以下、状態配列部13は、同様に、状態S3の状態情報についても配列し、さらに、同様に、以降の音素の各状態情報についても同様に配列する。状態配列部13は、アクセント句毎にこの処理を行う。
 なお、状態配列部13には、各状態情報の継続時間長が入力されるので、状態配列部13は、その継続時間長を参照すればよい。また、ある状態の継続時間長を周期tで除算した値は、その状態が繰り返される数を意味する。
 状態情報補正部14は、配列された状態情報に含まれる周波数対数値の平均値および分散を補正する。状態情報補正部14は、各アクセント句に関してこの補正を行う。状態情報補正部14は、着目しているアクセント句について、前方タグと後方タグとに基づいて、状態情報毎に、平均値変換用の変換係数および分散変換用の変換係数を算出する。
 状態情報補正部14は、それぞれの状態情報に、配列順を表す値を割り当てる。ここでは、配列された状態情報の数がnであるとし、それぞれの状態情報に1~nの値を割り当てる。各状態情報に順番を表す値を割り当てる動作は、第1の実施形態と同様である。ただし、第2の実施形態では、個々の状態の状態情報が、その状態の継続時間長分だけ連続して配列されている。このように連続して配列される同じ状態情報に対しても、状態情報補正部14は、それぞれ順番を示す値を割り当てる。
 また、状態情報補正部14は、第1の実施形態における状態情報補正部4と同様に、平均値変換用の単調関数の値域を規定する値a1,a2を決定する。そして、状態情報補正部14は、1~nを定義域とし、a1~a2を値域とする単調関数を定める。そして、状態情報補正部14は、その単調関数が示す線上の値として、状態毎に平均値変換用の変換係数を求める。各状態の継続時間長は、周期tの整数倍である。状態情報補正部14は、着目している状態に関して、その状態の継続時間長の中央に該当する周期を特定し、その期間に対応する状態情報に割り当てた値を、単調関数に代入することにより、その状態における変換係数を求めればよい。状態情報補正部14は、その変換係数を用いて、その状態の状態情報に含まれている平均値を変換する。
 また、状態情報補正部14は、第1の実施形態における状態情報補正部4と同様に、分散変換用の単調関数の値域を規定する値b1,b2を決定する。そして、状態情報補正部14は、1~nを定義域とし、b1~b2を値域とする単調関数を定める。そして、状態情報補正部14は、その単調関数が示す線上の値として、状態毎に分散変換用の変換係数を定める。上記の場合と同様に、状態情報補正部14は、着目している状態に関して、その状態の継続時間長の中央に該当する周期を特定し、その期間に対応する状態情報に割り当てた値を、単調関数に代入することにより、その状態における変換係数を求めればよい。状態情報補正部14は、その変換係数を用いて、その状態の状態情報に含まれている分散を変換する。
 なお、ある状態の継続時間長が周期tのh倍であるとする。hが奇数であるならば、状態情報補正部14は、その状態に関して、連続するh個の状態情報のうち、(h+1)/2番目の状態情報を特定すればよい。この状態情報が、継続時間長の中央に該当する周期に対応する状態情報である。また、hが偶数であるならば、状態情報補正部14は、その状態に関して、連続するh個の状態情報のうち、(h/2)+1番目の状態情報を特定すればよい。あるいは、(h/2)-1番目の状態情報を特定してもよい。この状態情報が、継続時間長の中央に該当する周期に対応する状態情報であると言える。
 ピッチパタン生成部5は、第1の実施形態と同様に、変換後の平均値および分散に基づいてピッチパタンを生成する。
 状態配列部13、状態情報補正部14およびピッチパタン生成部5は、例えば、ピッチパタン生成プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、コンピュータのプログラム記憶装置(図示略)がピッチパタン生成プログラムを記憶し、CPUがそのプログラムを読み込んで、そのプログラムに従って、状態配列部13、状態情報補正部14およびピッチパタン生成部5として動作すればよい。また、状態情報記憶部2、状態配列部13、状態情報補正部14およびピッチパタン生成部5がそれぞれ別のユニットで実現されていてもよい。
 次に、動作について説明する。
 図11は、第2の実施形態の処理経過の例を示すフローチャートである。なお、第1の実施形態と同様の動作に関しては、詳細な説明を省略する。
 状態情報記憶部2には、各音素の状態を示す状態情報が記憶されているものとする。また、状態配列部13および状態情報補正部14には、読み情報が入力されているものとする。状態配列部13には、予め学習されている各状態の継続時間長の情報も入力されているものとする。
 第1の実施形態と同様に、ピッチパタン生成装置は、以下に示すステップB1~B8の処理を、読み情報に含まれる各アクセント句(各ピッチパタン補正単位)に対して実行する。以下、説明を簡単にするために、読み情報に含まれる1つのアクセント句(ピッチパタン補正単位)に着目してステップB1~B8の処理を説明する。ピッチパタン生成装置は、同様の処理を、読み情報に含まれる他のアクセント句に対しても行えばよい。
 また、以下の説明では、状態情報補正部14が単調関数として一次関数を定める場合を例にする。
 状態配列部13は、読み情報内の着目しているアクセント句の読みに応じた音素を特定し、その音素に対応する状態情報を状態情報記憶部2から読み出す。そして、状態配列部13は、そのアクセント句の読みに応じた音素の順番に従うとともに、各音素の状態の継続時間長に応じて、状態情報を配列する(ステップB1)。例えば、1番目の音素に対応する1番目の状態の継続時間長が、周期tのk倍であるとする。この場合、状態配列部13は、その状態の状態情報をk個連続して配列する。その音素の2番目以降の各状態情報に関しても同様に配列する。さらに、2番目以降の音素に対応する各情報の状態情報についても同様に配列する。
 次に、状態情報補正部14は、ステップB1で配列されたアクセント句の各状態情報の数と、そのアクセント句の前方タグおよび後方タグとに基づいて、平均値変換用の単調関数を定める(ステップB2)。図12は、各状態情報の周波数対数値の平均値、変換係数、および周波数対数値の平均値の変換後の値を模式的に示す説明図である。図12では、状態の数が“8”であり、状態毎の継続時間長を考慮して状態情報を配列した結果、配列された状態情報の数が40個となった場合を示している。この場合、状態情報補正部14は、それぞれの状態情報に、順番に、1~40の順番を表す値を割り当てる。
 また、状態情報補正部14は、単調関数(本例では一次関数)の値域を規定する値a1,a2を決定する。a1,a2を決定する処理は、第1の実施形態と同様である。そして、状態情報補正部14は、1~40を定義域とし、a1~a2を値域とする単調関数(一次関数)を定める。
 次に、状態情報補正部14は、各状態の継続時間長における中央の周期に該当する期間を特定し、単調関数が示す線上の値となる平均値変換用の変換係数を定める(ステップB3)。具体的には、各状態の継続時間長における中央の周期に該当する期間を特定し、その期間に対応する状態情報に割り当てた値を判定する。状態情報補正部14は、その値を単調関数の変数に代入することによって、変換係数を算出する。
 例えば、図12に示す例において、1番目の状態に関しては、40個の状態情報のうち、1~4番目の4つの状態情報が配列されている。状態情報補正部14は、この1番目の状態の継続時間長における中央の周期に該当する期間として、(4/2)+1=3番目の周期を特定する。そして、この周期に対応する状態情報に割り当てた値(順番を示す値)は3である。状態情報補正部14は、この値を単調関数の変数に代入することによって、変換係数を算出すればよい。この変換係数は、1番目の状態の継続時間長に応じて配列された4つの状態情報に含まれる平均値を変換するために用いられる。
 また、例えば、図12に示す例において、3番目の状態に関しては、40個の状態情報のうち、11~17番目の7つの状態情報が配列されている。状態情報補正部14は、この3番目の状態の継続時間長における中央の周期に該当する期間として、(7+1)/2=4番目の周期を特定する。そして、3番目の状態に関しては11~17番目の状態情報が対応していて、その中で4番目の周期に対応する状態情報は、40個の状態情報のうち、14番目である。従って、この状態情報に割り当てられている値は14であり、状態情報補正部14は、この値を単調関数の変数に代入することによって、変換係数を算出すればよい。この変換係数は、3番目の状態の継続時間長に応じて配列された7つの状態情報に含まれる平均値を変換するために用いられる。
 ここでは、図12に示す1番目と3番目の状態を例にして説明したが、状態情報補正部14は、他の状態に関しても、同様に変換関係数を算出すればよい。
 次に、状態情報補正部14は、配列された各状態情報に含まれている周波数対数値の平均値を、ステップB3で求めた平均値変換用の変換係数を用いて変換する(ステップB4)。ステップB4では、1つの状態の継続時間長に応じて配列された各状態情報に対して、その状態に関して求めた変換係数を用いて、平均値の変換処理を行う。例えば、図12に示す1番目の状態に関しては、上記のように、3を単調関数に代入することによって変換係数が算出されている。1番目の状態の継続時間長に応じて配列された4つの状態情報に含まれる周波数対数値の平均値に対しては、状態情報補正部14は、この変換係数を用いて変換を行う。このような変換処理を、状態情報補正部14は、状態毎に行えばよい。また、変換の演算は第1の実施形態と同様であり、例えば、平均値に変換係数を加算することよって平均値を変換すればよい。ただし、変換の演算は加算に限定されない。
 次に、状態情報補正部14は、ステップB1で配列されたアクセント句の各状態情報の数と、そのアクセント句の前方タグおよび後方タグとに基づいて、分散変換用の単調関数を定める(ステップB5)。図13は、各状態情報の周波数対数値の分散、変換係数、および周波数対数値の分散の変換後の値を模式的に示す説明図である。図12に示す場合と同様に、状態の数が“8”であり、配列された状態情報の数が40個である場合を示している。状態情報補正部14は、それぞれの状態情報に、順番に、1~40の順番を表す値を割り当てている。
 状態情報補正部14は、単調関数(本例では一次関数)の値域を規定する値b1,b2を決定する。b1,b2を決定する処理は、第1の実施形態と同様である。そして、状態情報補正部14は、1~40を定義域とし、b1~b2を値域とする単調関数(一次関数)を定める。
 次に、状態情報補正部14は、各状態の継続時間長における中央の周期に該当する期間を特定し、単調関数が示す線上の値となる分散変換用の変換係数を定める(ステップB6)。具体的には、各状態の継続時間長における中央の周期に該当する期間を特定し、その期間に対応する状態情報に割り当てた値を判定する。状態情報補正部14は、その値を単調関数の変数に代入することによって、変換係数を算出する。すなわち、ステップB6における変換係数の算出方法は、ステップB3における変換係数の算出方法と同様である。ただし、ステップB6では、状態情報補正部14は、ステップB5で求めた単調関数を用いるので、変換係数の値自体は、ステップB3における算出結果と異なる。
 状態情報補正部14は、ステップB6において、状態毎に、分散変換用の変換係数を定める。
 次に、状態情報補正部14は、配列された各状態情報に含まれている周波数対数値の分散を、ステップB6で求めた分散変換用の変換係数を用いて変換する(ステップB7)。ステップB7の処理は、変換の対象が分散であることと、ステップB6で算出した変換係数を用いる点以外は、ステップB4の処理と同様である。例えば、図13に示す1番目の状態の継続時間長に応じて配列された4つの状態情報に含まれる周波数対数値の分散に対しては、1番目の状態に関して算出した変換係数を用いて変換する。状態情報補正部14は、このような変換を状態毎に行う。また、変換の演算は、第1の実施形態と同様であり、例えば、分散に変換係数を加算することよって、平均値を変換すればよい。ただし、変換の演算は、加算に限定されない。
 次に、ピッチパタン生成部5は、B4,B7での変換処理によって求めた変換後の平均値および分散を用いて、ピッチパタンを生成する(ステップB8)。ステップB8の処理は、第1の実施形態におけるステップA8の処理と同様である。
 第2の実施形態においても、第1の実施形態と同様の効果が得られる。特に、第2の実施形態では、状態毎の継続時間長を考慮して状態情報を配列し、その状態情報に含まれる平均値および分散を変換している。従って、生成したピッチパタンを用いた音声合成の結果、違和感のない音声を得ることができるという効果をより高めることができる。
 また、第1の実施形態で説明した種々の変形例は、第2の実施形態にも適用可能である。例えば、変換係数を定めるための関数は単調関数であればよく、一次関数に限定されない。また、周波数対数値の平均値および分散ではなく、周波数自体の平均値および分散を対象にして、上記と同様の処理を行ってもよい。
 また、ステップB2およびステップB5において、前方タグおよび後方タグの一方だけを用いて単調関数の値域を規定してもよい。
 また、第2の実施形態において、平均値のみを変換し、分散に関しては変換を行わなくてもよい。すなわち、状態情報補正部14は、ステップB5~B7の処理を実行しなくてもよい。この場合、ピッチパタン生成部5は、ステップB8において、変換後の分散の代わりに、変換を行っていない分散をそのまま用いてピッチパタンを生成すればよい。
 また、上記の第2の実施形態では、単調関数に基づいて分散変換用の変換係数を求める場合を示したが、他の方法で、分散変換用の変換係数を求めてもよい。以下、第2の実施形態の変形例として、単調関数を用いずに分散変換用の変換係数を定める態様について説明する。本変形例において、ステップB1~B4の処理は、既に説明した処理と同様である。また、本変形例では、予め学習された継続時間長の情報が状態情報補正部14にも入力される。
 本変形例では、状態情報補正部14は、状態毎に、継続時間長の長さに応じて分散変換用の変換係数を求める。図14は、継続時間長の長さに応じて定められる変換係数を模式的に示す説明図である。状態情報補正部14は、継続時間長の長さが長いほど変換係数の値を大きく定め、継続時間長の長さが短いほど変換係数の値を小さく定める。図14に示す例では、8個の状態を示している。各状態の継続時間長は、1番目の状態から順に、4t(4周期)、6t、7t、4t、6t、5t、5t、3tである。継続時間長が最大となっているのは3番目の状態であり、継続時間長は7tである。よって、状態情報補正部14は、8個の状態の中で、3番目の状態に関する変換係数を最も大きく定める(図14参照)。また、継続時間長が最小となっているのは8番目の状態であり、継続時間長は3tである。よって、状態情報補正部14は、8個の状態の中で、8番目の状態に関する変換係数を最も小さく定める(図14参照)。状態情報補正部14は、他の状態に関しても、継続時間長の長さに応じて分散変換用の変換係数を定める。継続時間長が等しい状態に関しては、同一の変換係数を定める。例えば、図14に示す例では、継続時間長が4tで共通となっている1番目と4番目の状態に対して、状態情報補正部14は、同一の変換係数を定める。2番目と5番目の状態や、6番目と7番目の状態に関しても同様である。
 本変形例では、図11に示すステップB5,B6の代わりに、継続時間長の長さが長いほど変換係数の値を大きく定め、継続時間長の長さが短いほど変換係数の値を小さく定めるという処理を行えばよい。そして、その後、ステップB7,B8を実行すればよい。
 本変形例によれば、継続時間長が長い状態に関しては、分散を大きくすることができるので、ピッチパタンの繋がりを滑らかにすることができる。
実施形態3.
 第1の実施形態および第2の実施形態のピッチパタン生成装置は、いずれも、着目したアクセント句に関して状態情報を配列し、各状態情報に含まれている平均値や分散(周波数に関する平均値や分散)を変換する。第3の実施形態のピッチパタン生成装置は、状態情報を配列し、配列した状態情報を所定の基準で前側と後側に分ける。そして、第3の実施形態のピッチパタン生成装置は、配列された状態情報のうち、前側の配列情報、または、後側の配列情報、あるいはその両方を対象にして、周波数に関する平均値や分散を変換する。なお、ピッチパタン生成装置は、配列した状態情報のうち、前側の状態情報および後側の状態情報の両方に対して平均値等を変換する場合、前側の状態情報および後側の状態情報に対して、それぞれ単調関数を定め、変換係数を決定する。
 第3の実施形態の効果は、ピッチパタン補正単位がアクセント句である場合に特に大きい。従って、第3の実施形態では、ピッチパタン補正単位としてアクセント句を採用することが好ましいが、音素、音節、呼気段落、文等をピッチパタン補正単位としてもよい。
 以下、図1に示すブロック図を参照して、第3の実施形態のピッチパタン生成装置の例について説明する。状態情報補正部4以外の動作は、第1の実施形態と同様である。また、本実施形態でも、「周波数に関する平均値および分散」として、周波数対数値の平均値および分散を用いる場合を例にする。
 図15は、状態情報補正部4の処理の例を模式的に示す説明図である。以下の説明では、配列した状態情報を所定の基準で前側と後側に分け、後側の状態情報に含まれる平均値を変換する場合を例にする。状態情報補正部4は、状態配列部3によって配列された状態情報を、所定の基準で前側と後側に分ける。本例では、周波数対数値の平均値が最も高い状態の状態情報を基準として、前側と後側に分ける場合を例にする。図15に示す例では、左から3番目に示す状態で、周波数対数値の平均値が最も高い。従って、状態情報補正部4は、3番目に示す状態の状態情報を基準として、前側と後側に分ける。例えば、状態情報補正部4は、1番目および2番目の状態の状態情報を前側とし、3番目から6番目までの各状態の状態情報を後側とする。なお、基準とした状態情報(本例では3番目の状態の状態情報)は、前側に含めても後側に含めてもよい。
 なお、上記の例では、周波数対数値の平均値が最も高い状態の状態情報を基準として、前側の状態情報と後側の状態情報とに分ける場合を示したが、配列された状態情報を前側と後側に分ける基準は、上記の例に限定されない。他の例については後述する。
 そして、状態情報補正部4は、後側の状態情報を対象にして、変換係数を算出するための単調関数を定める。状態情報補正部4は、配列された各状態情報に、順番を示す値を割り当てる。この動作は第1の実施形態と同様である。そして、後側に該当する状態情報に割り当てた値の範囲を、単調関数の定義域とする。図15に示す例では、3~6が単調関数の定義域となる。また、後側の状態情報に含まれる平均値を変換対象とする場合、a1=0とする。a2に関しては、既に説明した方法と同様に後方タグを用いて定めればよい。そして、状態情報補正部4は、0(=a1)からa2までを値域とする。状態情報補正部4は、3~6を定義域とし、0~a2を値域とする単調関数を定める。
 そして、状態情報補正部4は、その単調関数が示す線上の値として、後側に振り分けた状態情報毎に、平均値変換用の変換係数を求める。具体的には、単調関数の変数に、後側に該当する各状態情報に割り当てた値(本例では、3,4,5,6)を代入することによって、平均値変換用の変換係数を算出する。
 さらに、状態情報補正部4は、その変換係数を用いて、後側に振り分けた状態情報毎に周波数対数値の平均値を変換する(図15参照)。また、前側に振り分けた状態情報に関しては、周波数対数値の平均値を変換しない(図15参照)。
 図16は、第3の実施形態の処理経過の例を示すフローチャートである。本実施形態においても、ピッチパタン生成装置は、以下に示すステップC1~C8の処理を、読み情報に含まれる各アクセント句(各ピッチパタン補正単位)に対して実行する。以下、説明を簡単にするために、読み情報に含まれる1つのアクセント句(ピッチパタン補正単位)に着目してステップC1~C8の処理を説明する。ピッチパタン生成装置は、同様の処理を、読み情報に含まれる他のアクセント句に対しても行えばよい。また、他の実施形態と同様の処理に関しては、適宜、省略する。
 状態配列部3は、読み情報内の着目しているアクセント句の読みに応じた音素を特定し、その音素に対応する状態情報を状態情報記憶部2から読み出す。状態配列部3は、そのアクセント句の読みに応じた音素の順番に従って、状態情報を配列する(ステップC1)。本例におけるステップC1は、ステップA1(図5参照)と同様である。
 次に、状態情報補正部4は、配列された状態情報を前側と後側とに分ける。そして、後方タグに基づいて、後側の状態情報に対する平均値変換用の単調関数を定める(ステップC2)。ステップC2では、状態情報補正部4は、配列された状態情報に対して、順番を表す値を割り当て、後側の状態情報に割り当てた値の範囲を単調関数の定義域とする。前述のように、図15に示す例では、定義域は3~6となる。また、値域を規定するa1,a2を定める。具体的には、a1=0とする。a2に関しては、既に説明した方法と同様に後方タグを用いて定めればよい。この結果、値域は0~a2となる。状態情報補正部4は、定めた定義域および値域により決定される単調関数を定める。なお、単調関数は、他の実施形態と同様に、一次関数であってもよく、あるいは、一次関数以外の単調関数であってもよい。後述のステップC5で求める単調関数に関しても同様である。
 そして、状態情報補正部4は、単調関数が示す線上(図15に示す例では、一次関数が示す直線上)の値として、後側に該当する状態情報毎に平均値変換用の変換係数を算出する(ステップC3)。具体的には、状態情報補正部4は、後側に該当する各状態情報に割り当てた値を単調関数の変数に代入することによって、後側に該当する状態情報毎に平均値変換用の変換係数を算出する。また、本例では、状態情報補正部4は、前側に振り分けた状態情報に関しては変換係数を求めない。
 次に、状態情報補正部4は、後側に該当する状態情報毎に、ステップC3で求めた変換係数を用いて、周波数対数値の平均値を変換する(ステップC4)。周波数対数値の平均値の変換の演算は他の実施形態と同様であり、例えば、平均値に変換係数を加算することよって平均値を変換すればよい。ただし、変換の演算は加算に限定されない。また、本例では、状態情報補正部4は、前側に振り分けた状態情報に含まれる周波数対数値の平均値に対しては変換を行わない。
 次に、状態情報補正部4は、後側の状態情報に関して、後方タグに基づいて分散変換用の単調関数を定める(ステップC5)。状態情報補正部4は、後側の状態情報に割り当てた値の範囲を単調関数の定義域とする。ステップC5では、値域を規定する値としてa1,a2の代わりに、分散変換用の単調関数決定のために用いるb1,b2を定めればよい。また、b1=0とすればよい。b2に関しては、既に説明した方法と同様に後方タグを用いて定めればよい。状態情報補正部4は、定めた定義域および値域により決定される単調関数を定める。例えば、図15に示す場合と同様に、定義域が3~6であるとする。この場合、状態情報補正部4は、定義域が3~6であり、値域が0~b2である単調関数を定める。
 続いて、状態情報補正部4は、単調関数が示す線上の値として、後側に該当する状態情報毎に分散変換用の変換係数を算出する(ステップC6)。具体的には、状態情報補正部4は、後側に該当する各状態情報に割り当てた値を単調関数の変数に代入することによって、後側に該当する状態情報毎に分散変換用の変換係数を算出する。また、本例では、状態情報補正部4は、前側に振り分けた状態情報に関しては変換係数を求めない。
 次に、状態情報補正部4は、後側に該当する状態情報毎に、ステップC6で求めた変換係数を用いて、周波数対数値の分散を変換する(ステップC7)。周波数対数値の分散の変換の演算は他の実施形態と同様であり、分散に変換係数を加算することよって分散を変換すればよい。ただし、変換の演算は加算に限定されない。また、本例では、状態情報補正部4は、前側に振り分けた状態情報に含まれる周波数対数値の分散に対しては変換を行わない。
 次に、ピッチパタン生成部5は、各状態情報における周波数対数値の平均値および分散を用いてピッチパタンを生成する(ステップC8)。平均値および分散を用いてピッチパタンを生成する処理は、他の実施形態と同様である。ただし、本例では、前側に該当する状態情報に含まれる平均値および分散は変換されていない。従って、変換されてない平均値および分散と、ステップC4,C7で変換された平均値および分散とを用いてピッチパタンを生成する。すなわち、式(3)におけるMの要素、式(4)におけるUの要素のうち、前側の状態情報に対応する要素に関しては、変換されていない値を用いればよい。
 また、上記の例では、後側に該当する状態情報に関して、周波数対数値の平均値および分散を変換する場合を例にして説明した。以下、前側に該当する状態情報に関して、周波数対数値の平均値および分散を変換する場合について説明する。図17は、図15に示す場合と同様に、配列された状態情報のうち、1番目および2番目の状態の状態情報を前側とし、3番目から6番目までの各状態の状態情報を後側とした場合を例示している。
 前側に該当する状態情報に関して平均値および分散を変換する場合、状態情報補正部4は、前側の状態情報を対象にして、変換係数を算出するための単調関数を定める。ここでは、平均値変換用の単調関数を定める場合を例にして説明する。状態情報補正部4は、前側に該当する状態情報に割り当てた値の範囲を、単調関数の定義域とする。図17に示す例では、1~2が定義域となる。また、状態情報補正部4は、平均値変換用の単調関数の値域を規定するためのa1,a2を定める。a1に関しては、既に説明した方法と同様に前方タグを用いて定めればよい。また、前側の状態情報に含まれる平均値を変換対象とする場合、a2=0とする。そして、状態情報補正部4は、a1から0(=a2)までを値域とする。状態情報補正部4は、定めた定義域および値域により決定される単調関数を定める。図17に示す例では、1~2を定義域とし、a1~0を値域とする単調関数を定めればよい。
 そして、状態情報補正部4は、その単調関数が示す線上の値として、前側に振り分けた状態情報毎に、平均値変換用の変換係数を求める。具体的には、単調関数の変数に、前側に該当する各状態情報に割り当てた値を代入することによって、平均値変換用の変換係数を算出する。また、本例では、状態情報補正部4は、後側に振り分けた状態情報に関しては変換係数を求めない。
 さらに、状態情報補正部4は、前側に該当する状態情報毎に、その状態情報に対応する変換係数を用いて、周波数対数値の平均値を変換する。周波数対数値の平均値の変換の演算は他の実施形態と同様であり、例えば、平均値に変換係数を加算することよって平均値を変換すればよい。また、本例では、状態情報補正部4は、後側に振り分けた状態情報に含まれる周波数対数値の平均値に対しては変換を行わない。
 また、状態情報補正部4は、前側の状態情報に関して、前方タグに基づいて分散変換用の単調関数を定める。状態情報補正部4は、前側の状態情報に割り当てた値の範囲を、分散変換用の単調関数の定義域とする。そして、状態情報補正部4は、分散変換用の単調関数の値域を規定する値として、上記のa1,a2の代わりにb1,b2を定めればよい。b1に関しては、既に説明した方法と同様に前方タグを用いて定めればよい。前側の状態情報に含まれる平均値を変換対象とする場合、b2=0とする。状態情報補正部4は、このように定めた定義域および値域により決定される単調関数を定める。
 状態情報補正部4は、その単調関数が示す線上の値として、前側に振り分けた状態情報毎に、分散変換用の変換係数を求める。具体的には、単調関数の変数に、前側に該当する各状態情報に割り当てた値を代入することによって、分散変換用の変換係数を算出する。また、本例では、状態情報補正部4は、後側に振り分けた状態情報に関しては変換係数を求めない。
 さらに、状態情報補正部4は、前側に該当する状態情報毎に、その状態情報に対応する変換係数を用いて、周波数対数値の分散を変換する。周波数対数値の分散の変換の演算は他の実施形態と同様であり、例えば、分散に変換係数を加算することよって分散を変換すればよい。また、本例では、状態情報補正部4は、後側に振り分けた状態情報に含まれる周波数対数値の分散に対しては変換を行わない。
 ピッチパタン生成部5は、各状態情報における周波数対数値の平均値および分散を用いてピッチパタンを生成すればよい。平均値および分散を用いてピッチパタンを生成する処理は、他の実施形態と同様である。ただし、式(3)におけるMの要素、式(4)におけるUの要素のうち、後側の状態情報に対応する要素に関しては、変換されていない値を用いればよい。
 また、以上の説明では、配列された状態情報を前側と後側とに分け、後側の状態情報に含まれる平均値および分散を変換する場合と、前側の状態情報に含まれる平均値および分散を変換する場合とについてそれぞれ説明した。後側の状態情報および前側の状態情報に関して、それぞれ上記のように単調関数を定めて、平均値および分散を変換してもよい。
 後方タグが特に関連する範囲は、配列された状態情報のうち、後側に配列された状態情報であると考えることとができる。同様に、前方タグが特に関連する範囲は、配列された状態情報のうち、前側に配列された状態情報であると考えることとができる。本実施形態によれば、後方タグに基づいて、その後続タグが特に関連する範囲に該当する状態情報(後側の状態情報)を対象に平均値や分散の変換を行い、他の状態情報(前側の状態情報)については平均値や分散の変換を行わなくて済むという効果が得られる。例えば、上記のように、周波数対数値の平均値が最も高い状態の状態情報を基準として状態情報を前側と後側に分けた場合、後続タグが特に関連する、ピッチの下り勾配部分に該当する状態情報を対象に変換を行い、他の状態情報については分散の変換を行わなくて済む。あるいは、前方タグに基づいて、その前方タグが特に関連する範囲に該当する状態情報(前側の状態情報)を対象に平均値や分散の変換を行い、他の状態情報(後側の状態情報)については平均値や分散の変換を行わなくて済むという効果が得られる。
 上記の例では、周波数対数値の平均値が最も高い状態の状態情報を基準として、配列された状態情報を前側と後側とに分ける場合を示した。配列された状態情報を前側と後側とに分ける基準として他の基準を用いてもよい。
 例えば、周波数の平均値は、アクセント句内において、2モーラ目で最も高くなる傾向がある。状態情報補正部4は、この傾向を利用して、2モーラ目の音素に対応する状態情報のうち、中央の状態情報を基準として、配列された情報を前側と後側に分けてもよい。2モーラ目の音素に対応する状態情報が偶数個存在する場合には、中央の2つの状態情報のいずれか一方を基準とすればよい。または2モーラ目の音素に対応する状態情報のうち、最後の状態情報を基準として、配列された情報を前側と後側に分けてもよい。この方法は、周波数平均値が最も高い状態を具体的に特定する代わりに、アクセント句内において2モーラ目の周波数平均値が最も高いとみなす方法である。なお、2モーラ目の音素に対応する状態情報のうち中央(または最後)の状態情報は、後側に含めても、前側に含めてもよい。
 他の基準について説明する。i番目の状態情報に含まれている周波数に関する平均値をp(i)とする。そして、p(i)-p(i+1)の絶対値が最大となるiを変曲点と呼ぶ。このとき、状態情報補正部4は、変曲点となるi番目に該当する状態情報を基準として、前側と後側に分けてもよい。すなわち、状態情報補正部4は、状態情報補正部4は、p(i)-p(i+1)の絶対値が最大となるiを特定する。そして、状態配列部3に配列された状態情報を、i番目の状態情報を基準として前側と後側とに分ければよい。基準とするi番目の状態情報は、後側に含めても前側に含めてもよい。なお、配列された状態情報のうち、最後の状態情報に関しては、次の状態情報がないので、p(i)-p(i+1)の計算対象から除外してよい。
 変曲点は、アクセントの直後に現れる。従って、配列された状態情報を、上記のように変曲点を基準として前側と後側とに分けることで、アクセントの後における平均値や分散を(周波数に関する平均値や分散)を変換したり、アクセントの前における平均値や分散を変換したりすることができる。
 また、例えば、後方タグに基づいて、アクセント句の最後の近辺においてのみ、周波数に関する平均値や分散を変換したい場合がある。このような場合には、状態情報補正部4は、アクセント句内において、最後から2モーラ目の音素に対応する状態情報のうち、中央の状態情報を基準として、配列された情報を前側と後側に分けてもよい。あるいは、最後のモーラの音素に対応する状態情報のうち、中央の状態情報を基準として、配列された情報を前側と後側に分けてもよい。なお、最後から2モーラ目の音素に対応する状態情報が偶数個存在する場合には、中央の2つの状態情報のいずれか一方を基準とすればよい。最後のモーラの音素に対応する状態情報が偶数個存在する場合にも同様である。このように基準を定めて、配列された状態情報を分けることで、アクセント句の最後の近辺においてのみ、平均値や分散を変換することができる。
 また、以上の第3の実施形態の説明では、第1の実施形態と同様に状態情報を配列して、その状態情報を前側と後側とに分ける場合を説明した。第3の実施形態のピッチパタン生成装置は、第2の実施形態と同様に、個々の状態に関してそれぞれ、その状態の継続時間長に応じた数だけ、その状態の状態情報を繰り返し配列してもよい。以下、図10に示すピッチパタン生成装置10を例に、第3の実施形態の他の例について説明する。状態情報補正部14以外の動作は、第2の実施形態と同様である。
 図18は、第3の実施形態において、1つの状態に対して1つ以上の状態情報を繰り返し配列する場合の例を示す説明図である。図12に示す場合と同様に、状態配列部13が40個の状態情報を配列したとする。この場合、状態情報補正部14は、例えば、周波数対数値の平均値が最も高い状態の状態情報を基準として、40個の状態情報を前側と後側とに分ければよい。図18に示す例では、3番目の状態の状態情報(すなわち、11~17番目の状態情報)において、周波数の平均値が最も高い。従って、例えば、状態情報補正部14は、図18に示す状態情報のうち、11~40番目の状態情報を後側の状態情報として分け、1~10番目の状態情報を前側の状態情報として分ければよい。なお、本例では、周波数が最も高い11~17番目の状態情報を後側に振り分ける場合を例示したが、これらの状態情報を前側に振り分けてもよい。
 ここでは、状態情報補正部14が後側の状態情報について周波数対数値の平均値および分散を変換する場合について説明する。この場合、後側の状態情報に対応する状態毎に、平均値変換用の変換係数、分散変換用の変換係数を求めて、平均値および分散を変換すればよい。この動作は、第2の実施形態において、状態毎に平均値変換用の変換係数、分散変換用の変換係数を求めて、平均値および分散を変換する動作と同様である。ただし、平均値変換用の単調関数および分散変換用の単調関数を定めるために用いる定義域は、後側の状態情報の最初の状態情報に割り当てた値から、後側の状態情報の最後の状態情報に割り当てた値までの範囲である。図18に示す例では、11~40である。そして、状態情報補正部14は、平均値変換用の単調関数を定める際に用いる値域を規定する値a1,a2のうち、a1に関してはa1=0とすればよい。a2に関しては、既に説明した方法と同様に後方タグを用いて定めればよい。状態情報補正部14は、分散変換用の単調関数を定める際に用いる値域を規定する値b1,b2のうち、b1に関してはb1=0とすればよい。b2に関しては、既に説明した方法と同様に後方タグを用いて定めればよい。状態情報補正部14は、これらの単調関数を用いて、第2の実施形態と同様に、状態毎に平均値変換用の変換係数、分散変換用の変換係数を求め、後側の状態情報に含まれる周波数対数値の平均値や分散を変換すればよい。なお、この場合、状態情報補正部14は、前側の状態情報に関しては、変換処理を行わなくてよい。
 次に、状態情報補正部14が前側の状態情報について周波数対数値の平均値および分散を変換する場合について説明する。この場合、前側の状態情報に対応する状態毎に、平均値変換用の変換係数、分散変換用の変換係数を求めて、平均値および分散を変換すればよい。この動作は、第2の実施形態において、状態毎に平均値変換用の変換係数、分散変換用の変換係数を求めて、平均値および分散を変換する動作と同様である。ただし、平均値変換用の単調関数および分散変換用の単調関数を定めるために用いる定義域は、前側の状態情報の最初の状態情報に割り当てた値から、前側の状態情報の最後の状態情報に割り当てた値までの範囲である。そして、状態情報補正部14は、平均値変換用の単調関数を定める際に用いる値域を規定する値a1,a2のうち、a2に関してはa2=0とすればよい。a1に関しては、既に説明した方法と同様に前方タグを用いて定めればよい。状態情報補正部14は、分散変換用の単調関数を定める際に用いる値域を規定する値b1,b2のうち、b2に関してはb2=0とすればよい。b1に関しては、既に説明した方法と同様に前方タグを用いて定めればよい。状態情報補正部14は、これらの単調関数を用いて、第2の実施形態と同様に、状態毎に平均値変換用の変換係数、分散変換用の変換係数を求め、前側の状態情報に含まれる周波数対数値の平均値や分散を変換すればよい。なお、この場合、状態情報補正部14は、後側の状態情報に関しては、変換処理を行わなくてよい。
 なお、後側の状態情報に関して変換を行う場合であっても、前側の状態情報に関して変換を行う場合であっても、状態情報補正部14は、第2の実施形態の変形例で示したように状態毎の継続時間長に応じて分散変換用の変換係数を定めてもよい。
 また、第3の実施形態においても、第1および第2の実施形態の変形例と同様に、平均値のみを変換し、分散に関しては変換を行わなくてもよい。例えば、図16に例示するフローチャートにおいて、ステップC5~C7の処理を実行しなくてもよい。この場合、ピッチパタン生成部5は、変換を行っていない分散をそのまま用いてピッチパタンを生成すればよい。
 また、第1から第3までの各実施形態において、アクセント句の状態情報に含まれる周波数に関する平均値に対して変換を行った後、状態情報補正部4,14は、さらに、各状態情報に対応する平均値に一定の定数を一律に加算してもよい。周波数に関する平均値に対して、一律に定数を加算することで、アクセント句の周波数を全体的に高くすることができる。
実施形態4.
 第4の実施形態では、第1から第3までの実施形態で説明した方法により作成されたピッチパタンを用いて音声合成を行う音声合成装置を示す。図19は、第4の実施形態の音声合成装置の例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付し、詳細な説明を省略する。
 本実施形態の音声合成装置は、解析辞書記憶部40と、言語処理部41と、ピッチパタン処理部30と、素片記憶部42と、波形記憶部44と、合成音声生成部48とを備える。以下、アクセント句をピッチパタン補正単位とする場合を例にして説明する。
 解析辞書記憶部40は、隣接するピッチパタン補正単位に対して、どのような場合にどのようなタグを付加するかを定めるルールを記憶する記憶装置である。
 言語処理部41には、音声合成として出力すべきテキスト情報が入力される。言語処理部41は、入力されたテキスト情報に対して、形態素解析を行って、そのテキスト情報の読みを表す文字列を作成し、アクセント句(ピッチパタン補正単位)毎に文字列を区切る。例えば、図3に例示するように、アクセント句の区切りを示す記号“/”により文字列を区切ればよい。
 また、言語処理部41は、解析辞書記憶部40に記憶されたルールを参照して、隣接するアクセント句の組に対してタグを決定し、文字列に追加する。この結果、例えば、図3に例示する読み情報を得る。なお、言語処理部41は、アクセントの位置を判定し、アクセントの位置を示すアクセント情報を読み情報に追加してもよい。
 言語処理部41は、生成した読み情報をピッチパタン処理部30の状態配列部3および状態情報補正部4に入力する。なお、ピッチパタン処理部30は、状態情報記憶部2と、状態配列部3と、状態情報補正部4と、ピッチパタン生成部5とを含む。これらの要素は、第1の実施形態と同様であり、説明を省略する。
 合成音声生成部48は、ピッチパタン生成部5によって生成されたピッチパタンに基づいて合成音声を生成する。合成音声生成部48は、例えば、素片選択部43と、波形接続部45とを備える。
 素片記憶部43は、例えば、音節毎に素片を記憶する記憶装置である。
 素片選択部43は、ピッチパタンおよび読み情報に基づいて、例えば、音節毎に素片を選択する。
 波形記憶部44は、音声合成に用いられる種々の波形を記憶する記憶装置である。
 波形接続部45は、素片選択部43によって選択された素片に応じた波形を波形記憶部44から読み出し、その波形を接続させることで合成音声を生成し、音声として出力する。
 以上のような構成により、入力されたテキスト情報に応じた合成音声を出力することができる。
 また、ピッチパタン処理部30は、第2の実施形態で示した状態情報記憶部2と、状態配列部13と、状態情報補正部14と、ピッチパタン生成部5とを含む構成であってもよい。この場合、図20に示すように、音声合成装置は、予め音素毎に学習された継続時間長を記憶する継続時間長記憶部46と、読み情報によって特定される音素毎に継続時間長記憶部から継続時間長を読み出す継続時間長読み出し部47とを備えていればよい。そして、継続時間長読み出し部47は、音素毎に読み出した継続時間長を状態配列部13に入力すればよい。
 また、図19および図20に例示する音声合成装置は、言語処理部41が生成した読み情報に対するユーザの編集操作が可能な構成であってもよい。例えば、言語処理部41が生成した読み情報をディスプレイ装置に表示させ、キーボード等の入力デバイスに入力された編集内容に従い、その読み情報に対する編集を行う編集手段(図示略)を備えていてもよい。このような構成によれば、ユーザは、例えば、読み情報に含まれるタグの値の調整等を行うことができる。
 次に、本発明の最小構成について説明する。図21は、本発明のピッチパタン生成装置の最小構成の例を示すブロック図である。本発明のピッチパタン生成装置は、状態情報記憶手段91と、状態情報配列手段92と、状態情報補正手段93と、ピッチパタン生成手段94とを備える。
 状態情報記憶手段91(例えば、状態情報記憶部2)は、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値(例えば、平均値)およびデータの広がり(例えば、分散)を表す状態情報を記憶する
 状態情報配列手段92(例えば、状態配列部3)は、ピッチパタン補正単位(例えば、アクセント句、あるいは、音素、音節、呼気段落、文等)毎の読みを示す情報(例えば、読み情報に含まれる、ピッチパタン補正単位毎の読みを示す文字列)に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、そのピッチパタン補正単位の読みによって特定される音素順に配列する。
 状態情報補正手段93(例えば、状態情報補正部4)は、少なくとも、ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報(例えば、前方タグ)と、ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報(例えば、後方タグ)とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数(例えば、平均値変換用の変換係数)を導出する代表値変換用単調関数(例えば、平均値変換用の単調関数)を定める。状態情報補正手段93は、その代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する。
 ピッチパタン生成手段94(例えば、ピッチパタン生成手段94)は、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成する。
 そのような構成により、HMMを用いる場合に、違和感のない音声合成結果が得られるようなピッチパタンを生成することができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を予め記憶し、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列し、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換し、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成することを特徴とするピッチパタン生成方法。
(付記2)状態情報を配列するときに、ピッチパタン補正単位の読みによって特定される音素の状態毎に、1つの状態情報を配列する付記1に記載のピッチパタン生成方法。
(付記3)状態情報を配列するときに、ピッチパタン補正単位の読みによって特定される音素の状態毎に、音素の状態の継続時間長に応じた数だけ前記状態の状態情報を繰り返し配列する付記1に記載のピッチパタン生成方法。
(付記4)ピッチパタン補正単位の読みによって特定される音素の各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記各状態に関して、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する付記1から付記3のうちのいずれかに記載のピッチパタン生成方法。
(付記5)所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、後方韻律制御情報を用いて、後側の状態情報に対応する各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、後側の状態情報が表す周波数に関する代表値を変換する付記1から付記3のうちのいずれかに記載のピッチパタン生成方法。
(付記6)所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、前方韻律制御情報を用いて、前側の状態情報に対応する各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、前側の状態情報が表す周波数に関する代表値を変換する付記1から付記3のうちのいずれかに記載のピッチパタン生成方法。
(付記7)少なくとも前方韻律制御情報と後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関するデータの広がりを変換するためのデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、前記データの広がりの変換用変換係数を用いて、配列した状態情報が表す周波数に関するデータの広がりを変換する付記1から付記6のうちのいずれかに記載のピッチパタン生成方法。
(付記8)ピッチパタン補正単位の読みによって特定される音素の各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、前記各状態に関して、前記データの広がりの変換用変換係数を用いて、配列した状態情報が表す周波数に関するデータの広がりを変換する付記7に記載のピッチパタン生成方法。
(付記9)所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、後方韻律制御情報を用いて、後側の状態情報に対応する各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、前記データの広がりの変換用変換係数を用いて、後側の状態情報が表す周波数に関するデータの広がりを変換する付記7に記載のピッチパタン生成方法。
(付記10)所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、前方韻律制御情報を用いて、前側の状態情報に対応する各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、
 前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、前記データの広がりの変換用変換係数を用いて、前側の状態情報が表す周波数に関するデータの広がりを変換する付記7に記載のピッチパタン生成方法。
(付記11)周波数に関する代表値が最大になる状態を基準として、配列した状態情報を前側の状態情報と後側の状態情報とに分ける付記5,6,9,10のうちのいずれかに記載のピッチパタン生成方法。
(付記12)次の状態との間で周波数に関する代表値の差の絶対値が最大になる状態を基準として、配列した状態情報を前側の状態情報と後側の状態情報とに分ける付記5,6,9,10のうちのいずれかに記載のピッチパタン生成方法。
(付記13)音素の状態の継続時間長に応じて、状態情報が表す周波数に関するデータの広がりを変換するためのデータの広がりの変換用変換係数を決定する付記1から付記6のうちのいずれかに記載のピッチパタン生成方法。
(付記14)音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段とを備えることを特徴とするピッチパタン生成装置。
(付記15)ピッチパタン補正単位毎の読みを示す情報と、隣接するピッチパタン補正単位間の韻律の関係性を制御するための韻律制御情報とを生成する言語処理手段と、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段と、前記ピッチパタンに基づいて合成音声を生成する合成音声生成手段とを備えることを特徴とする音声合成装置。
(付記16)音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段を備えたコンピュータに搭載されるピッチパタン生成プログラムであって、前記コンピュータに、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列処理、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正処理、および、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成処理を実行させるためのピッチパタン生成プログラム。
(付記17)音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶部と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列部と、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正部と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成部とを備えることを特徴とするピッチパタン生成装置。
(付記18)ピッチパタン補正単位毎の読みを示す情報と、隣接するピッチパタン補正単位間の韻律の関係性を制御するための韻律制御情報とを生成する言語処理部と、音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶部と、ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列部と、少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正部と、周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成部と、前記ピッチパタンに基づいて合成音声を生成する合成音声生成部とを備えることを特徴とする音声合成装置。
 この出願は、2011年7月25日に出願された日本特許出願2011-162400を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、ピッチパタンの生成するピッチパタン生成装置や、ピッチパタンを生成して音声合成を行う音声合成装置に好適に適用される。
 1,10 ピッチパタン生成装置
 2 状態情報記憶部
 3,13 状態配列部
 4,14 状態情報補正部
 5 ピッチパタン生成部

Claims (16)

  1.  音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を予め記憶し、
     ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列し、
     少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、
     前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、
     前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換し、
     周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成する
     ことを特徴とするピッチパタン生成方法。
  2.  状態情報を配列するときに、ピッチパタン補正単位の読みによって特定される音素の状態毎に、1つの状態情報を配列する
     請求項1に記載のピッチパタン生成方法。
  3.  状態情報を配列するときに、ピッチパタン補正単位の読みによって特定される音素の状態毎に、音素の状態の継続時間長に応じた数だけ前記状態の状態情報を繰り返し配列する
     請求項1に記載のピッチパタン生成方法。
  4.  ピッチパタン補正単位の読みによって特定される音素の各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、
     前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、
     前記各状態に関して、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する
     請求項1から請求項3のうちのいずれか1項に記載のピッチパタン生成方法。
  5.  所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、
     後方韻律制御情報を用いて、後側の状態情報に対応する各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、
     前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、
     前記代表値変換用変換係数を用いて、後側の状態情報が表す周波数に関する代表値を変換する
     請求項1から請求項3のうちのいずれか1項に記載のピッチパタン生成方法。
  6.  所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、
     前方韻律制御情報を用いて、前側の状態情報に対応する各状態に関して代表値変換用変換係数を導出する代表値変換用単調関数を定め、
     前記各状態に関して、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、
     前記代表値変換用変換係数を用いて、前側の状態情報が表す周波数に関する代表値を変換する
     請求項1から請求項3のうちのいずれか1項に記載のピッチパタン生成方法。
  7.  少なくとも前方韻律制御情報と後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関するデータの広がりを変換するためのデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、
     前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、
     前記データの広がりの変換用変換係数を用いて、配列した状態情報が表す周波数に関するデータの広がりを変換する
     請求項1から請求項6のうちのいずれか1項に記載のピッチパタン生成方法。
  8.  ピッチパタン補正単位の読みによって特定される音素の各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、
     前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、
     前記各状態に関して、前記データの広がりの変換用変換係数を用いて、配列した状態情報が表す周波数に関するデータの広がりを変換する
     請求項7に記載のピッチパタン生成方法。
  9.  所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、
     後方韻律制御情報を用いて、後側の状態情報に対応する各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、
     前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、
     前記データの広がりの変換用変換係数を用いて、後側の状態情報が表す周波数に関するデータの広がりを変換する
     請求項7に記載のピッチパタン生成方法。
  10.  所定の基準に基づいて、配列した状態情報を前側の状態情報と後側の状態情報とに分け、
     前方韻律制御情報を用いて、前側の状態情報に対応する各状態に関してデータの広がりの変換用変換係数を導出するデータの広がりの変換用単調関数を定め、
     前記各状態に関して、前記データの広がりの変換用単調関数に基づいてデータの広がりの変換用変換係数を算出し、
     前記データの広がりの変換用変換係数を用いて、前側の状態情報が表す周波数に関するデータの広がりを変換する
     請求項7に記載のピッチパタン生成方法。
  11.  周波数に関する代表値が最大になる状態を基準として、配列した状態情報を前側の状態情報と後側の状態情報とに分ける
     請求項5,6,9,10のうちのいずれか1項に記載のピッチパタン生成方法。
  12.  次の状態との間で周波数に関する代表値の差の絶対値が最大になる状態を基準として、配列した状態情報を前側の状態情報と後側の状態情報とに分ける
     請求項5,6,9,10のうちのいずれか1項に記載のピッチパタン生成方法。
  13.  音素の状態の継続時間長に応じて、状態情報が表す周波数に関するデータの広がりを変換するためのデータの広がりの変換用変換係数を決定する
     請求項1から請求項6のうちのいずれか1項に記載のピッチパタン生成方法。
  14.  音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、
     ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、
     少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、
     周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段とを備える
     ことを特徴とするピッチパタン生成装置。
  15.  ピッチパタン補正単位毎の読みを示す情報と、隣接するピッチパタン補正単位間の韻律の関係性を制御するための韻律制御情報とを生成する言語処理手段と、
     音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段と、
     ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列手段と、
     少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正手段と、
     周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成手段と、
     前記ピッチパタンに基づいて合成音声を生成する合成音声生成手段とを備える
     ことを特徴とする音声合成装置。
  16.  音素毎に学習された隠れマルコフモデルの状態を示す状態情報であって、周波数に関する代表値およびデータの広がりを表す状態情報を記憶する状態情報記憶手段を備えたコンピュータに搭載されるピッチパタン生成プログラムであって、
     前記コンピュータに、
     ピッチパタン補正単位毎の読みを示す情報に基づいて、ピッチパタン補正単位の読みによって特定される各音素の状態情報を、前記ピッチパタン補正単位の読みによって特定される音素順に配列する状態情報配列処理、
     少なくとも、前記ピッチパタン補正単位とその前のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である前方韻律制御情報と、前記ピッチパタン補正単位とその後のピッチパタン補正単位との間の韻律の関係性を制御するための韻律制御情報である後方韻律制御情報とのいずれかを用いて、状態情報が表す周波数に関する代表値を変換するための代表値変換用変換係数を導出する代表値変換用単調関数を定め、前記代表値変換用単調関数に基づいて代表値変換用変換係数を算出し、前記代表値変換用変換係数を用いて、配列した状態情報が表す周波数に関する代表値を変換する状態情報補正処理、および、
     周波数に関する代表値およびデータの広がりに基づいてピッチパタンを生成するピッチパタン生成処理
     を実行させるためのピッチパタン生成プログラム。
PCT/JP2012/004129 2011-07-25 2012-06-26 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム Ceased WO2013014858A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013525552A JP5999092B2 (ja) 2011-07-25 2012-06-26 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011162400 2011-07-25
JP2011-162400 2011-07-25

Publications (1)

Publication Number Publication Date
WO2013014858A1 true WO2013014858A1 (ja) 2013-01-31

Family

ID=47600736

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004129 Ceased WO2013014858A1 (ja) 2011-07-25 2012-06-26 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム

Country Status (2)

Country Link
JP (1) JP5999092B2 (ja)
WO (1) WO2013014858A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2004341259A (ja) * 2003-05-15 2004-12-02 Matsushita Electric Ind Co Ltd 音声素片伸縮装置およびその方法
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2004341259A (ja) * 2003-05-15 2004-12-02 Matsushita Electric Ind Co Ltd 音声素片伸縮装置およびその方法
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Also Published As

Publication number Publication date
JP5999092B2 (ja) 2016-09-28
JPWO2013014858A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
JP4469883B2 (ja) 音声合成方法及びその装置
US6499014B1 (en) Speech synthesis apparatus
US6625575B2 (en) Intonation control method for text-to-speech conversion
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPH04331997A (ja) 音声合成装置のアクセント成分制御方式
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JPWO2012063424A1 (ja) 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP2009133890A (ja) 音声合成装置及びその方法
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5999092B2 (ja) ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2009069179A (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP2010224418A (ja) 音声合成装置、方法およびプログラム
JP3576792B2 (ja) 音声情報処理方法
JP2755478B2 (ja) テキスト音声合成装置
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JPH1091191A (ja) 音声合成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12817808

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013525552

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12817808

Country of ref document: EP

Kind code of ref document: A1