JP2016118712A - Voice synthesis library generation device and voice synthesis device - Google Patents
Voice synthesis library generation device and voice synthesis device Download PDFInfo
- Publication number
- JP2016118712A JP2016118712A JP2014259287A JP2014259287A JP2016118712A JP 2016118712 A JP2016118712 A JP 2016118712A JP 2014259287 A JP2014259287 A JP 2014259287A JP 2014259287 A JP2014259287 A JP 2014259287A JP 2016118712 A JP2016118712 A JP 2016118712A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- library
- segment
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 78
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声素片の接続で音声を合成する技術に関する。 The present invention relates to a technology for synthesizing speech by connecting speech segments.
収録音声から採取された複数の音声素片を相互に接続して所望の音色の合成音声を合成する素片接続型の音声合成技術が知られている。例えば、特許文献1には、複数の定常音データを音声素片毎に事前に収録し、目標ピッチに応じて複数の定常音データ(音声素片)を選択して相互に補間することで目標ピッチの定常音データを生成する構成が開示されている。 2. Description of the Related Art A unit connection type speech synthesis technique for synthesizing synthesized speech of a desired tone color by connecting a plurality of speech units collected from recorded speech to each other is known. For example, in Patent Document 1, a plurality of stationary sound data is recorded in advance for each speech unit, and a plurality of stationary sound data (speech units) are selected according to a target pitch and interpolated with each other. A configuration for generating pitch steady sound data is disclosed.
ところで、多様な声質の音声を合成するためには、声質毎に音声素片のライブラリを別個に用意する必要がある。例えば、音韻(発音内容)の明瞭度が相違する2種類の音声の合成を想定すると、発声者が曖昧に発音した音声を収録して曖昧な音声のライブラリを作成する一方、発声者が明瞭に発音した音声を収録して明瞭な音声のライブラリを生成する必要があり、ライブラリの作成の負担が大きいという問題がある。特に、曖昧性または明瞭性の度合を一定に維持しながら音声を継続して発音することは容易ではないから、発声者に過大な負担を強いる結果となる。以上の事情を考慮して、本発明は、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される程度が高い合成音声を生成することを目的とする。 By the way, in order to synthesize speech of various voice qualities, it is necessary to prepare a library of speech segments for each voice quality. For example, assuming the synthesis of two types of speech that have different phoneme (pronunciation content) intelligibility, a library of ambiguous speech is created by recording speech that is pronounced vaguely by the speaker, while the speaker is clearly There is a problem that it is necessary to create a library of clear voices by recording pronunciation sounds, and the burden of creating the library is large. In particular, since it is not easy to continuously produce a sound while maintaining a constant degree of ambiguity or clarity, this results in an excessive burden on the speaker. In view of the above circumstances, an object of the present invention is to generate synthesized speech that is highly perceived by the listener as being ambiguous while reducing the burden of creating a speech synthesis library.
以上の課題を解決するために、本発明の第1態様に係る音声合成用ライブラリ生成装置は、音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部を具備する。以上の構成によれば、既存の第1ライブラリから第2ライブラリが生成されるから、第1ライブラリと第2ライブラリとを相異なる収録音から別個に用意する場合と比較して、音声合成用のライブラリを作成する負担を軽減することが可能である。また、特定母音以外の母音を含む音声素片について、第1ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第2ライブラリに含まれるから、受聴者に曖昧と知覚される合成音声を第2ライブラリの素片データから生成することが可能である。例えば「う」の音声は、口の開き具合が他の母音(「あ」「い」「え」「お」)と比較して小さく、音韻が曖昧であると受聴者に知覚され易いという傾向がある。以上の傾向を考慮すると、「う」を特定母音とした構成が好適である。 In order to solve the above problems, a speech synthesis library generating apparatus according to the first aspect of the present invention generates a second library from a first library for speech synthesis including segment data for each speech segment. A second library containing speech unit data of speech units obtained by replacing the vowels with the specific vowels in the first library for speech units containing vowels other than the specific vowels among a plurality of speech units. A generating unit for generating According to the above configuration, since the second library is generated from the existing first library, compared to the case where the first library and the second library are separately prepared from different recorded sounds, the second library is used for speech synthesis. It is possible to reduce the burden of creating a library. In addition, for speech units containing vowels other than specific vowels, the second library includes speech unit data in which the vowels are replaced with specific vowels in the first library, so that it is perceived as ambiguous by the listener. Can be generated from the segment data of the second library. For example, the voice of “U” tends to be perceived by listeners when the degree of mouth opening is small compared to other vowels (“A”, “I”, “E”, “O”) and the phoneme is ambiguous. There is. Considering the above tendency, a configuration in which “u” is a specific vowel is preferable.
第1態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、前記第1ライブラリにおける当該音声素片の素片データのうち前記特定子音の区間を示す素片データを含む第2ライブラリを生成する。以上の態様では、特定子音と母音とを含む音声素片について、第1ライブラリにおける当該音声素片の素片データのうち特定子音の区間を示す素片データを含む第2ライブラリが生成されるから、特定母音を含む音声素片に対応する素片データが第1ライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。 In a preferred example of the speech synthesis library generating device according to the first aspect, the generating unit is configured to generate a speech element including a specific consonant and a vowel whose acoustic characteristics approximate to the specific vowel in the first library. A second library including segment data indicating the segment of the specific consonant among the segment data is generated. In the above aspect, for the speech unit including the specific consonant and the vowel, the second library including the segment data indicating the segment of the specific consonant among the unit data of the speech unit in the first library is generated. Even if no segment data corresponding to a speech segment including a specific vowel exists in the first library, a synthesized speech that is perceived as ambiguous by the listener is generated using the segment data indicating the segment of the specific consonant. It is possible.
第1態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、第1子音と母音とを含む音声素片について、前記第1ライブラリのうち前記第1子音とは相違する第2子音と前記特定母音とを含む音声素片の素片データを含む第2ライブラリを生成する。以上の態様では、第1子音と母音とを含む音声素片について、第1ライブラリのうち第1子音とは相違する第2子音と特定母音とを含む音声素片の素片データを含む第2ライブラリが生成されるから、第1子音と特定母音を含む素片データが第1ライブラリに存在しない場合でも、第2子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。 In a preferred example of the speech synthesis library generating apparatus according to the first aspect, the generating unit is different from the first consonant in the first library with respect to a speech element including a first consonant and a vowel. A second library including segment data of speech segments including consonants and the specific vowel is generated. In the above aspect, for the speech unit including the first consonant and the vowel, the second including the segment data of the speech unit including the second consonant different from the first consonant and the specific vowel in the first library. Since the library is generated, even if no segment data including the first consonant and the specific vowel exists in the first library, the listener uses the segment data of the speech segment including the second consonant and the specific vowel. It is possible to generate synthesized speech that is perceived as ambiguous.
以上の課題を解決するために、本発明の第2態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部と、前記第1ライブラリのうち合成対象の発音文字に対応する音声素片の第1素片データと、前記第2ライブラリのうち当該音声素片の第2素片データとを選択する素片選択部と、前記第1素片データと前記第2素片データとを混合する素片混合部と、前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部とを具備する。第2態様では、特定母音以外の母音を含む音声素片について、第1ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第2ライブラリに含まれるから、第1態様と同様に、音声合成用のライブラリを作成する負担を軽減することが可能である。また、第1素片データと第2素片データとの混合後の素片データを利用して合成音声が生成されるから、混合の度合に応じて受聴者に曖昧(または明瞭)と知覚される合成音声を生成することが可能である。 In order to solve the above problems, a speech synthesizer according to a second aspect of the present invention is an element that generates a second library from a first library for speech synthesis that includes segment data for each speech segment. Generating a second library including speech unit data of speech units obtained by replacing the vowels with the specific vowels in the first library for speech units including vowels other than the specific vowels among the plurality of speech units. An element for selecting a first unit data of a speech unit corresponding to a phonetic character to be synthesized in the first library and a second unit data of the speech unit in the second library; A synthesis that generates a synthesized speech using a segment selection unit, a segment mixing unit that mixes the first segment data and the second segment data, and segment data after mixing by the segment mixing unit And a processing unit. In the second mode, for the speech unit containing vowels other than the specific vowel, the unit data of the speech unit obtained by replacing the vowel with the specific vowel in the first library is included in the second library. Similarly, it is possible to reduce the burden of creating a speech synthesis library. In addition, since synthesized speech is generated using the segment data after mixing the first segment data and the second segment data, it is perceived as ambiguous (or clear) by the listener according to the degree of mixing. It is possible to generate synthesized speech.
以上の課題を解決するために、本発明の第3態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用のライブラリから合成対象の発音文字に対応する音声素片の素片データを選択する要素であって、特定母音以外の母音を含む音声素片については、当該母音を前記特定母音に置換した音声素片の素片データを選択する素片選択部と、前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部とを具備する。第3態様では、特定母音以外の母音を含む音声素片については、当該母音を特定母音に置換した音声素片の素片データが既存の音声合成用のライブラリから選択されるから、相異なる声質に対応する複数のライブラリを事前に用意する構成と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。また、第1ライブラリから生成された第2ライブラリを記憶する必要がある第1態様と比較すると、第3態様では第2ライブラリの記憶が不要であるという利点もある。 In order to solve the above problems, the speech synthesizer according to the third aspect of the present invention provides a speech synthesis unit corresponding to a phonetic character to be synthesized from a speech synthesis library including segment data for each speech unit. An element for selecting element data, and for a speech element including a vowel other than a specific vowel, the element selection unit for selecting element data of a speech element obtained by replacing the vowel with the specific vowel, and And a synthesis processing unit that generates synthesized speech using the speech unit selected by the unit selection unit. In the third aspect, for speech units containing vowels other than specific vowels, the unit data of speech units obtained by replacing the vowels with specific vowels are selected from the existing library for speech synthesis. Compared with a configuration in which a plurality of libraries corresponding to the above are prepared in advance, it is possible to generate synthesized speech that is perceived as ambiguous by the listener while reducing the burden of creating a speech synthesis library. Further, compared with the first mode in which the second library generated from the first library needs to be stored, the third mode also has an advantage that the storage of the second library is unnecessary.
第3態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち前記特定子音の区間を示す素片データを選択する。以上の態様では、特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち特定子音の区間を示す素片データが選択されるから、特定母音を含む音声素片に対応する素片データが音声合成用のライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。 In a preferred example of the speech synthesizer according to the third aspect, the unit selection unit is configured to generate, for a speech unit including a specific consonant and a vowel whose acoustic characteristics approximate to the specific vowel, Of these, segment data indicating the segment of the specific consonant is selected. In the above aspect, for a speech unit including a specific consonant and a vowel whose acoustic characteristics approximate to the specific vowel, the segment data indicating the segment of the specific consonant is selected from the segment data of the speech unit. Generates synthesized speech that is perceived as ambiguous by the listener by using segment data indicating a specific consonant segment even if the segment data corresponding to the speech segment containing the specific vowel does not exist in the speech synthesis library The effect of being able to do is realized.
第3態様に係る音声合成装置の好適例において、前記素片選択部は、第1子音と母音とを含む音声素片について、前記第1子音とは相違する第2子音と前記特定母音とを含む音声素片のデータを選択する。以上の態様では、第1子音と母音とを含む音声素片について、第1子音とは相違する第2子音と特定母音とを含む音声素片のデータが選択されるから、第1子音と特定母音を含む素片データが音声合成用のライブラリに存在しない場合でも、第2子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。 In a preferred example of the speech synthesizer according to the third aspect, the unit selection unit obtains a second consonant different from the first consonant and the specific vowel for a speech unit including a first consonant and a vowel. Select the speech segment data to include. In the above aspect, since the speech unit including the second consonant and the specific vowel different from the first consonant is selected for the speech unit including the first consonant and the vowel, the first consonant and the specific are selected. Generates synthesized speech that is perceived as ambiguous by listeners using segment data of speech units including second consonants and specific vowels, even if segment data including vowels does not exist in the speech synthesis library The effect of being able to do is realized.
第3態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音以外の母音を含む音声素片について、当該音声素片の第1素片データと、当該母音を前記特定母音に置換した音声素片の第2素片データとを選択し、前記第1素片データと前記第2素片データとを混合する素片混合部を具備し、前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する。以上の態様では、第1素片データと第2素片データとが混合されるから、第2素片データのみを利用して合成音声を生成する構成と比較して、多様な声質の音声を生成できるという利点がある。 In a preferred example of the speech synthesizer according to the third aspect, the unit selection unit specifies the first unit data of the speech unit and the specific vowel for the speech unit including a vowel other than the specific vowel. Selecting a second unit data of a speech unit replaced with a vowel, and comprising a unit mixing unit that mixes the first unit data and the second unit data, and the synthesis processing unit includes: A synthesized speech is generated using the segment data after mixing by the segment mixing unit. In the above aspect, since the first unit data and the second unit data are mixed, the voice of various voice qualities is compared with the configuration in which the synthesized speech is generated using only the second unit data. There is an advantage that it can be generated.
第2態様および第3態様に係る音声合成装置の好適例において、合成対象の特徴量に応じた混合比を設定する変数設定部を具備し、前記素片混合部は、前記変数設定部が設定した混合比で前記第1素片データと前記第2素片データとを混合する。以上の構成では、合成対象の特徴量に応じて第1素片データと第2素片データとの混合比が設定されるから、例えば利用者が混合比を指示する構成と比較して利用者の負担を軽減することが可能である。特徴量の好例は音高である。例えば、高音域の音声ほど音韻が曖昧と知覚され易いという傾向を前提とすれば、合成対象の音高が高いほど前記第2素片データの比率が高くなるように変数設定部が前記混合比を設定する構成が好適である。 In a preferred example of the speech synthesizer according to the second aspect and the third aspect, the speech synthesizer includes a variable setting unit that sets a mixing ratio according to the feature quantity to be synthesized, and the variable setting unit sets the segment mixing unit The first segment data and the second segment data are mixed at the mixing ratio. In the above configuration, since the mixing ratio between the first segment data and the second segment data is set according to the feature quantity to be combined, for example, the user is compared with the configuration in which the user instructs the mixing ratio. It is possible to reduce the burden. A good example of the feature quantity is pitch. For example, on the premise of the tendency that the higher the sound range, the more likely the phoneme is perceived as ambiguous, the variable setting unit sets the mixing ratio so that the higher the pitch of the synthesis target, the higher the ratio of the second segment data. A configuration for setting is preferable.
以上の各態様に係るライブラリ生成装置および音声合成装置は、専用のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成用ライブラリ生成装置の動作方法(ライブラリ生成方法)や音声合成装置の動作方法(音声合成方法)としても特定される。 The library generation device and the speech synthesizer according to each of the above aspects are realized by dedicated hardware (electronic circuit), or by cooperation of a general-purpose arithmetic processing device such as a CPU (Central Processing Unit) and a program. Realized. The program of the present invention can be provided in a form stored in a computer-readable recording medium and installed in the computer. The recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included. For example, the program of the present invention can be provided in the form of distribution via a communication network and installed in a computer. The present invention is also specified as the operation method (library generation method) of the speech synthesis library generation device and the operation method (speech synthesis method) of the speech synthesis device according to each aspect described above.
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。
<First Embodiment>
FIG. 1 is a block diagram of a
図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
As illustrated in FIG. 1, the
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、第1ライブラリL1と合成情報Sとを記憶する。
The
第1ライブラリL1は、相異なる音声素片Pに対応する複数の素片データQの集合(音声合成用ライブラリ)である。第1実施形態における1個の音声素片Pは、2個の音素を連結した音素連鎖(ダイフォン)である。第1ライブラリL1の1個の音声素片Pの素片データQは、特定の発声者の収録音声のうち当該音声素片Pに対応する区間の音声波形を表すデータである。具体的には、各素片データQは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現され得る。本実施形態の第1ライブラリL1の各素片データQは、受聴者が音韻を明確に知覚し得る音声を表す。 The first library L1 is a set (speech synthesis library) of a plurality of segment data Q corresponding to different speech segments P. One speech element P in the first embodiment is a phoneme chain (diphone) in which two phonemes are connected. The unit data Q of one speech unit P in the first library L1 is data representing the speech waveform of the section corresponding to the speech unit P in the recorded speech of a specific speaker. Specifically, each piece of data Q can be expressed as a time series of a time domain speech waveform sample or a frequency domain spectrum time series calculated for each frame of the speech waveform. Each piece data Q of the first library L1 of the present embodiment represents a voice that allows the listener to clearly perceive the phoneme.
合成情報Sは、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に発音文字X1と発音期間X2と音高(例えばノートナンバー)X3とを時系列に指定する。発音文字X1は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。発音期間X2は、例えば発音の開始時刻と継続長(または終了時刻)とで規定される。 The synthesis information S is time-series data for specifying the singing voice of the synthesized music, and for each note constituting the synthesized music, the pronunciation character X1, the pronunciation period X2, and the pitch (for example, note number) X3 are designated in time series. . The pronunciation character X1 designates the pronunciation content of the speech to be synthesized (that is, the lyrics of the synthesized music). The sound generation period X2 is defined by, for example, a sound generation start time and duration (or end time).
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGMを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(生成部32,表示制御部33,素片選択部34,指示受付部35,合成処理部36)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
The arithmetic processing unit 10 (CPU) of FIG. 1 executes a program PGM stored in the
指示受付部35は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部33は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部33は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図2の編集画面40を表示装置14に表示させる。図2に例示される通り、編集画面40の音符列画像42は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
The
表示制御部33は、合成情報Sが指定する音符毎に音符図像54と発音文字X1とを編集画面40に配置する。音符図像54は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像54の位置は、合成情報Sが指定する音高X3に応じて設定され、時間軸の方向における音符図像54の位置および表示長は、合成情報Sが指定する発音期間X2に応じて設定される。発音文字X1は音符図像54の先頭の近傍に配置される。
The
利用者は、図2の編集画面40の音符列画像42を確認しながら入力装置16を適宜に操作することで、音符図像54の追加または移動や発音文字X1の追加または変更を指示することが可能である。表示制御部33は、指示受付部35が利用者から受付けた指示に応じて編集画面40(音符図像54や発音文字X1)を更新する。
The user may instruct addition or movement of the
図1の素片選択部34は、合成情報Sが指定する音符毎の発音文字X1に対応する音声素片Pの素片データQを第1ライブラリL1から順次に選択する。合成処理部36は、素片選択部34によって第1ライブラリL1から選択された素片データQと合成情報Sとを利用して音声信号Vを生成する。具体的には、合成処理部36は、素片選択部34が選択した素片データQが示す音声波形を、合成情報Sが指定する音高X3および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する。合成処理部36が生成した音声信号Vが放音装置18に供給されることで合成楽曲の歌唱音声が再生される。前述の通り、各素片データQは明瞭な発音の音声を表すから、第1ライブラリL1を利用して生成された音声信号Vの再生音は、受聴者により明瞭と知覚される。
The
図1の生成部32は、第1ライブラリL1を利用して生成される音声信号Vと比較して音韻が曖昧と知覚される合成音声を生成するための第2ライブラリL2を既存の第1ライブラリL1から生成する。第2ライブラリL2は、第1ライブラリL1と同様に、相異なる音声素片Pに対応する複数の素片データQの集合である。生成部32が生成した第2ライブラリL2は、図1に例示される通り、第1ライブラリL1とともに記憶装置12に格納されて合成処理部36による音声信号Vの生成に利用される。
1 generates a second library L2 for generating a synthesized speech in which the phoneme is perceived as ambiguous compared to the speech signal V generated using the first library L1. Generate from L1. Similar to the first library L1, the second library L2 is a set of a plurality of unit data Q corresponding to different speech units P. As illustrated in FIG. 1, the second library L2 generated by the
具体的には、生成部32は、受聴者が曖昧と知覚する傾向がある特定の母音(以下「特定母音」という)以外の母音を含む音声素片Pについて、第1ライブラリL1のうち当該母音を特定母音に置換した音声素片Pの素片データQを含む第2ライブラリL2を生成する。母音[M](う)は、発音時の口の開き度合が小さいこともあり、他の母音([a],[i],[e],[o])と比較して曖昧と知覚され易いという傾向がある。以上の傾向を考慮して、第1実施形態では、母音[M]を特定母音として例示する。なお、各音素の表記は、X-SAMPA(Extended Speech Assessment Method Phonetic Alphabet)に準拠している。符号「Sil」は無音(Silence)を意味する。また、以下の説明における符号「V」は母音(Vowel)を意味し、符号「C」は子音(Consonant)を意味する。
Specifically, the
図3は、生成部32による置換処理について具体的に説明するための図である。図3には、第1ライブラリL1および第2ライブラリL2について共通の音声素片Pに対応する素片データQの内容が図示されている。第1ライブラリL1における1個の音声素片Pは、2つの音素を連結した音素連鎖であるから、特定母音以外の母音を含む音声素片Pとしては、2個の母音を配列した音声素片と、母音および子音を含む音声素片との2種類が想定される。
FIG. 3 is a diagram for specifically explaining the replacement processing by the
(1)母音+母音:[V-V]
図3(a)は、第2ライブラリL2のうち2個の母音を配列した音声素片P[V-V]の素片データQの説明図である。図3(a)に例示される通り、第1ライブラリL1には、5種類の母音(あ,い,う,え,お)に対応する音声素片P([a-a],[i-i],[M-M],[e-e],[o-o])について、当該音声素片Pの音声波形を表す素片データQ([a-a],[i-i],[M-M],[e-e],[o-o])が記憶される。生成部32は、各音声素片P[V-V]([a-a],[i-i],[M-M],[e-e],[o-o])のうち特定母音以外の母音([a],[i],[e],[o])を特定母音[M]に置換した音声素片P[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]を複製し、第2ライブラリL2における当該音声素片P[V-V]の素片データQとして記憶する。例えば、第2ライブラリL2の音声素片[a-a]については、音素[a]を特定母音[M]に置換した音声素片[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]が複製される。なお、以上の説明では、同じ母音同士の組み合わせで構成される音声素片Pを例示したが、相異なる母音同士の組み合わせにより構成される音声素片P([a-i],[a-M],[a-e],[a-o],[i-a],[i-M],[i-e],[i-o],[M-a],[M-i],[M-e],[M-o],[o-a],[o-i],[o-M],[o-e])についても同様に、特定母音以外の母音([a],[i],[e],[o])を特定母音[M]に置換した音声素片P[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]を複製し、第2ライブラリL2における当該音声素片P[V-V]の素片データQとして記憶する。
なお、特定母音のみで構成される音声素片P[M-M]については、第1ライブラリL1のうち当該音声素片[M-M]の素片データQ[M-M]が第2ライブラリL2に複製される。
(1) Vowel + Vowel: [VV]
FIG. 3A is an explanatory diagram of the unit data Q of the speech unit P [VV] in which two vowels are arranged in the second library L2. As illustrated in FIG. 3 (a), the first library L1 includes speech segments P ([aa], [ii], [[] corresponding to five types of vowels (A, I, U, E, O)). As for MM], [ee], [oo]), segment data Q ([aa], [ii], [MM], [ee], [oo]) representing the speech waveform of the speech segment P is stored. Is done. The generating
Note that for the speech unit P [MM] composed only of specific vowels, the segment data Q [MM] of the speech unit [MM] in the first library L1 is copied to the second library L2.
(2)母音+子音または子音+母音:[C,V]([C-V],[V-C])
図3(b)は、第2ライブラリL2のうち母音と子音とを配列した音声素片P[C,V]の素片データQの説明図である。図3(b)に例示される通り、生成部32は、各音声素片P[C,V]のうち特定母音以外の母音を特定母音[M]に置換した音声素片[C,M]について第1ライブラリL1に記憶された素片データQ[C,M]を複製し、第2ライブラリL2における当該音声素片[C,V]の素片データQとして記憶する。例えば、第2ライブラリL2の音声素片P[s-a]については、母音[a]を特定母音[M]に置換した音声素片[s-M]について第1ライブラリL1に記憶された素片データQ[s-M]が第2ライブラリL2に複製される。
(2) Vowel + consonant or consonant + vowel: [C, V] ([CV], [VC])
FIG. 3B is an explanatory diagram of the unit data Q of the speech unit P [C, V] in which vowels and consonants are arranged in the second library L2. As illustrated in FIG. 3B, the
以上に説明した通り、図3(a)および図3(b)では、特定母音[M]を包含する音声素片Pの素片データQが第1ライブラリL1に存在する場合の処理を例示したが、特定母音[M]を含む特定の音声素片Pの素片データQが第1ライブラリL1に存在しない場合がある。以上の場合に実行される例外処理について説明する。 As described above, FIGS. 3 (a) and 3 (b) exemplify processing when the segment data Q of the speech segment P including the specific vowel [M] is present in the first library L1. However, the segment data Q of the specific speech segment P including the specific vowel [M] may not exist in the first library L1. The exception processing executed in the above case will be described.
(3)例外処理1
図3(c)に例示される通り、特定母音[M]に音響特性(例えば受聴者が知覚する音韻)が近似する子音(以下「特定子音」という)[w]に特定母音[M]以外の各母音が後続する音声素片P([w-a],[w-i],[w-e],[w-o])および素片データQ([w-a],[w-i],[w-e],[w-o])については第1ライブラリL1に記憶されている。他方、特定子音[w]に特定母音[M]以外の各母音が後続する音声素片P[w-M]よび素片データQ[w-M]については、第1ライブラリL1に記憶されない場合を想定する。
(3) Exception handling 1
As illustrated in FIG. 3 (c), consonants whose acoustic characteristics (for example, phonemes perceived by the listener) approximate to specific vowels [M] (hereinafter referred to as “specific consonants”) [w] other than specific vowels [M] Speech unit P ([wa], [wi], [we], [wo]) and unit data Q ([wa], [wi], [we], [wo])) followed by each vowel Is stored in the first library L1. On the other hand, it is assumed that the speech unit P [wM] and the segment data Q [wM] in which each vowel other than the specific vowel [M] follows the specific consonant [w] is not stored in the first library L1.
生成部32は、第1ライブラリL1において特定子音[w]と母音[V](図3(c)の例では[a])とを含む音声素片Pの素片データQ[w-V]のうち、特定子音[w]の区間を示す素片データQ[w]を当該音声素片P[w-V]について含む第2ライブラリL2を生成する。具体的には、図3(c)に例示されるように、第1ライブラリL1における音声素片P[w-a]の素片データQ[w-a]のうち特定子音[w]の区間を表す素片データQ[w]が、第2ライブラリL2における音声素片P[w-V]の素片データQとして複製される。
Of the segment data Q [wV] of the speech segment P, the generating
以上の説明から理解される通り、第1実施形態では、特定子音[w]と母音[V]とを含む音声素片P[w-V]について、第1ライブラリL1における音声素片Pの素片データQのうち特定子音[w]の区間の素片データQを含む第2ライブラリL2が生成される。したがって、特定母音[M]を含む音声素片Pの素片データQが第1ライブラリL1に存在しない場合でも、特定子音[w]の区間を示す素片データQ[w]を利用して、曖昧な発音に対応する合成音声を生成することが可能である。 As understood from the above description, in the first embodiment, for the speech unit P [wV] including the specific consonant [w] and the vowel [V], the unit data of the speech unit P in the first library L1. A second library L2 including the segment data Q of the specific consonant [w] section of Q is generated. Therefore, even when the segment data Q of the speech segment P including the specific vowel [M] does not exist in the first library L1, the segment data Q [w] indicating the section of the specific consonant [w] is used, It is possible to generate synthesized speech corresponding to ambiguous pronunciation.
(4)例外処理2
図3(d)に例示される通り、第1ライブラリL1には、子音(以下「第1子音」という)[h]と母音[a],[e],[o]とを含む音声素片P([h-a],[h-e],[h-o])については素片データQ([h-a],[h-e],[h-o])が記憶されるが、第1子音[h]とそれ以外の母音[i],[M]とを含む音声素片P([h-i],[h-M])については素片データQが記憶されない場合が想定される。他方、第1ライブラリL1には、第1子音[h]とは相違する子音(以下「第2子音」という)[p\]と母音[a],[M],[e],[o]とを含む音声素片P([p\-a],[p\-M],[p\-e],[p\-o])についての素片データQ([p\-a],[p\-M],[p\-e],[p\-o])が記憶される。
(4) Exception handling 2
As illustrated in FIG. 3D, the first library L1 includes speech units including consonants (hereinafter referred to as “first consonants”) [h] and vowels [a], [e], [o]. For P ([ha], [he], [ho]), segment data Q ([ha], [he], [ho]) is stored, but the first consonant [h] and other vowels For the speech unit P ([hi], [hM]) including [i] and [M], it is assumed that the unit data Q is not stored. On the other hand, the first library L1 contains consonants (hereinafter referred to as “second consonants”) [p \] and vowels [a], [M], [e], [o] that are different from the first consonant [h]. Segment data Q ([p \ -a], [p \ -M], [p \ -e], [p \ -o]) [p \ -M], [p \ -e], [p \ -o]) are stored.
生成部32は、第1ライブラリL1のうち第2子音[p\]と、特定母音[M]とを含む素片データQ[p\-M]を含む第2ライブラリL2を生成する。具体的には、図3(d)に例示されるように、第1ライブラリL1の素片データQ(例えば[p\-a])のうち第2子音[p\]と特定母音[M]とを含む音声素片P[p\-M]の素片データQ[p\-M]が、第2ライブラリL2の音声素片P[h-V]の素片データQとして複製される。
The
以上の説明から理解される通り、第1実施形態では、第1子音[h]と母音[V]とを含む音声素片Pについて、第1子音[h]とは相違する第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQを含む第2ライブラリL2が生成されるから、第1子音[h]と特定母音[M]とを含む素片データQが第1ライブラリL1に存在しない場合でも、第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQを利用して、曖昧な発音の合成音声を生成することが可能である。 As understood from the above description, in the first embodiment, the second consonant [p] that is different from the first consonant [h] for the speech segment P including the first consonant [h] and the vowel [V]. \] And the second library L2 including the segment data Q of the speech segment P including the specific vowel [M] is generated, so the segment data including the first consonant [h] and the specific vowel [M]. Even if Q does not exist in the first library L1, the synthesized speech with ambiguous pronunciation is generated using the segment data Q of the speech segment P including the second consonant [p \] and the specific vowel [M]. Is possible.
図3(a)から図3(d)では、母音[V]を含む音声素片Pについて説明した。子音[C]と無音[sil]とを配列した音声素片Pのように母音[V]を含まない音声素片P(例えば[Sil-k],[k-Sil]等)については、第1ライブラリL1のうち当該音声素片Pに対応する素片データQが第2ライブラリL2に複製される。 In FIG. 3A to FIG. 3D, the speech segment P including the vowel [V] has been described. For speech units P (for example, [Sil-k], [k-Sil], etc.) that do not contain a vowel [V], such as speech units P in which consonants [C] and silences [sil] are arranged, The segment data Q corresponding to the speech segment P in one library L1 is copied to the second library L2.
以上の説明から理解される通り、第1ライブラリL1と第2ライブラリL2とでは、素片データQが用意される音声素片Pの種類は共通する一方、各音声素片Pについて用意される素片データQが表す音声波形は相違し得る。以上の手順で生成された第2ライブラリL2は、第1ライブラリL1と同様に音声信号Vの生成に利用される。すなわち、発音文字X1に対応する音声素片Pの素片データQを素片選択部34が第2ライブラリL2から順次に選択し、素片選択部34が選択した各素片データQを合成処理部36が調整および連結することで、受聴者に曖昧と知覚される音声の音声信号Vが生成される。第1実施形態では、第1ライブラリL1を利用した明瞭な音声の合成と、第2ライブラリL2を利用した曖昧な音声の合成とが、例えば入力装置16に対する利用者からの指示に応じて択一的に実行される。
As understood from the above description, the first library L1 and the second library L2 share the same kind of speech element P for which the element data Q is prepared, but are prepared for each speech element P. The voice waveform represented by the piece data Q can be different. The second library L2 generated by the above procedure is used for generating the audio signal V in the same manner as the first library L1. That is, the
図4は、第1ライブラリL1を利用した音声合成と第2ライブラリL2を利用した音声合成との説明図である。図4(a)には、合成情報Sで指定された発音文字X1「まや」に対応して選択される音声素片Pの時系列が例示され、図4(b)には、第1ライブラリL1を利用した音声合成時に第1ライブラリL1から読み出される素片データQの時系列が例示され、図4(c)には、第2ライブラリL2を利用した音声合成時に第2ライブラリL2から読み出される素片データQの時系列が例示されている。 FIG. 4 is an explanatory diagram of speech synthesis using the first library L1 and speech synthesis using the second library L2. FIG. 4A illustrates a time series of the speech segment P selected corresponding to the phonetic character X1 “Maya” specified by the synthesis information S, and FIG. 4B illustrates the first library. The time series of the segment data Q read from the first library L1 at the time of speech synthesis using L1 is illustrated, and FIG. 4 (c) is read from the second library L2 at the time of speech synthesis using the second library L2. The time series of the segment data Q is illustrated.
第1ライブラリL1を利用した音声合成(明瞭な音声の合成)が指示された場合、素片選択部34は、図4(b)に例示された素片データQ([Sil-m],[m-a],[a-a],[a-j],[j-a],[a-a],[a-Sil])を第1ライブラリL1から順次に選択する。合成処理部36は、素片選択部34によって選択された素片データQを利用して、「まや(maya)」という発音文字X1が受聴者に明瞭に知覚される合成音声を生成する。
When speech synthesis (clear speech synthesis) using the first library L1 is instructed, the
他方、第2ライブラリL2を利用した音声合成(曖昧な音声の合成)が指示された場合、素片選択部34は、図4(c)の素片データQ([Sil-m],[m-M],[M-M],[M-j],[j-M],[M-M],[M-Sil])を第2ライブラリL2から順次に選択する。合成処理部36は、素片選択部34によって選択された素片データQを利用して、発音文字X1「まや(maya)」の発音を曖昧にしたと利用者に知覚され得る「むゆ(muyu)」という合成音声を生成する。
On the other hand, when speech synthesis using the second library L2 (synthesized ambiguous speech) is instructed, the
図5は、第1実施形態の生成部32が第2ライブラリL2を生成する処理のフローチャートである。例えば、第2ライブラリL2の生成が利用者から指定された場合に図5の処理が開始される。
FIG. 5 is a flowchart of processing in which the
生成部32は、任意の1個の音声素片(以下「対象素片」という)Pを選択し(SA1)、対象素片Pが母音を含むか否かを判定する(SA2)。対象素片Pが母音を含まない場合(SA2:NO)、生成部32は、対象素片Pについて第1ライブラリL1に記憶された素片データQを第2ライブラリL2の対象素片Pの素片データQとして複製する(SA3)。他方、対象素片Pが母音を含む場合(SA2:YES)、生成部32は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQが第1ライブラリL1に存在するか否かを判定する(SA4)。判定結果が肯定である場合(SA4:YES)、生成部32は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQを第1ライブラリL1から取得し、第2ライブラリL2における対象素片Pの素片データQとして記憶する(SA5)。他方、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQが第1ライブラリL1に存在しない場合(SA4:NO)、生成部32は、前述の例外処理1または例外処理2を実行することで、第2ライブラリL2のうち対象素片Pの素片データQを用意する(SA6)。以上の処理が、全種類の音声素片Pについて順次に反復されることで(SA7:NO)、音声素片P毎に素片データQを含む第2ライブラリL2が生成される。
The
以上に説明した通り、第1実施形態では、第1ライブラリL1の複数の音声素片Pのうち、特定母音[M]以外の母音([a],[i],[e],[o])を含む音声素片Pについて、当該母音を特定母音[M]に置換した音声素片Pの素片データQが第2ライブラリL2に複製される。すなわち、既存の第1ライブラリL1の音声素片Pの素片データQを利用して、曖昧な発音の合成音声に利用される第2ライブラリL2が生成される。したがって、明瞭な音声に対応する第1ライブラリL1と曖昧な音声に対応する第2ライブラリL2とを実際の収録音から個別に生成する場合と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。 As described above, in the first embodiment, vowels other than the specific vowel [M] ([a], [i], [e], [o]) among the plurality of speech units P in the first library L1. ), The segment data Q of the speech unit P in which the vowel is replaced with the specific vowel [M] is copied to the second library L2. That is, using the segment data Q of the speech segment P of the existing first library L1, the second library L2 used for the synthesized speech with ambiguous pronunciation is generated. Therefore, compared with the case where the first library L1 corresponding to clear speech and the second library L2 corresponding to ambiguous speech are individually generated from actual recorded sounds, the burden of creating a speech synthesis library is reduced. While mitigating, it is possible to generate synthesized speech that is perceived as ambiguous by the listener.
<第2実施形態>
第1実施形態では、第2ライブラリL2を既存の第1ライブラリL1から事前に生成して音声合成に利用した。第2実施形態では、合成情報Sに応じた音声信号Vを生成する場面において、第1実施形態で第1ライブラリL1から第2ライブラリL2を生成したのと同様の規則のもとで、素片選択部34が既存のライブラリLから素片データQを動的に選択することで、第2ライブラリL2を生成することなく曖昧な音声の音声信号Vを生成する。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
In the first embodiment, the second library L2 is generated in advance from the existing first library L1 and used for speech synthesis. In the second embodiment, in the scene in which the audio signal V corresponding to the synthesis information S is generated, the segment is used under the same rules as in the case where the second library L2 is generated from the first library L1 in the first embodiment. The
図6は、第2実施形態における音声合成装置100のブロック図である。第2実施形態では、第1実施形態の生成部32および第2ライブラリL2が省略される。図6のライブラリLは、第1実施形態の第1ライブラリL1に相当し、明瞭な音声の素片データQを音声素片P毎に包含する。利用者から明瞭な発音の合成音声の生成が指示された場合、第2実施形態の素片選択部34は、第1実施形態(図4(b)の例示)と同様に、発音文字X1に対応する各音声素片Pの素片データQをライブラリLから順次に選択する。他方、利用者から曖昧な発音の合成音声の生成が指示された場合、素片選択部34は、図3(a)から図3(d)を参照して前述した置換処理と実質的に同様の規則に則って、図4(c)に例示される素片データQをライブラリLから順次に選択する。素片選択部34による素片選択について具体的に説明する。
FIG. 6 is a block diagram of the
(1)母音+母音:[V-V]
素片選択部34は、発音文字X1に対応する音声素片Pが特定母音[M]以外の母音([a],[i],[e],[o])を含む場合、当該母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する。
(1) Vowel + Vowel: [VV]
When the speech segment P corresponding to the phonetic character X1 includes a vowel other than the specific vowel [M] ([a], [i], [e], [o]), the
(2)母音+子音または子音+母音:[C,V]([V-C],[C-V])
素片選択部34は、発音文字X1に対応する音声素片Pが特定母音[M]以外の母音([a],[i],[e],[o])と子音とを含む場合、特定母音[M]以外の母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する。
(2) Vowel + consonant or consonant + vowel: [C, V] ([VC], [CV])
When the speech segment P corresponding to the phonetic character X1 includes a vowel ([a], [i], [e], [o]) other than the specific vowel [M] and a consonant, The segment data Q of the speech segment P in which the vowels other than the specific vowel [M] are replaced with the specific vowel [M] is selected from the library L.
(3)例外処理1
発音文字X1に対応する音声素片Pが、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片P[w-V]である場合、素片選択部34は、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片P[w-V]の素片データQ[w-V]をライブラリLから選択し、当該素片データQ[w-V]のうち特定子音[w]の区間を示す素片データQ[w]を生成する。
(3) Exception handling 1
When the speech unit P corresponding to the phonetic character X1 is a speech unit P [wV] including the specific consonant [w] and the vowel [V] other than the specific vowel [M], the unit selection unit 34 A segment data Q [wV] of a speech segment P [wV] including a specific consonant [w] and a vowel [V] other than the specific vowel [M] is selected from the library L, and the segment data Q [wV] The segment data Q [w] indicating the interval of the specific consonant [w] is generated.
(4)例外処理2
発音文字X1に対応する音声素片Pが、第1子音[h]と特定母音[M]以外の母音[V]とを含む音声素片P[h-V]である場合、素片選択部34は、第1子音[h]とは相違する第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQをライブラリLから選択する。
(4) Exception handling 2
When the speech segment P corresponding to the phonetic character X1 is a speech segment P [hV] including the first consonant [h] and the vowel [V] other than the specific vowel [M], the
合成処理部36は、素片選択部34によって選択された音声素片Pの素片データQを利用して合成音声を生成する。第2実施形態では、第1実施形態と同様の規則のもとで素片データQが選択されるから、第1実施形態と同様に、発音が明瞭な合成音声と発音が曖昧な合成音声との双方を生成することが可能である。
The
図7は、第2実施形態の素片選択部34が素片データQを選択する処理のフローチャートである。例えば音声合成の開始が利用者から指示された場合に、合成情報Sで指定される各発音文字X1に対応する音声素片(対象素片)P毎に図7の処理が順次に実行される。
FIG. 7 is a flowchart of processing in which the
素片選択部34は、対象素片Pが特定母音[M]以外の母音を含むか否かを判定する(SB1)。対象素片Pが特定母音[M]以外の母音を含まない場合(SB1:NO)、素片選択部34は、当該対象素片Pの素片データQをライブラリLから選択する(SB2)。他方、対象素片Pが特定母音[M]以外の母音を含む場合(SB1:YES)、素片選択部34は、当該母音を特定母音[M]に置換した音声素片Pの素片データQがライブラリLに存在するか否かを判定する(SB3)。判定結果が肯定である場合(SB3:YES)、素片選択部34は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する(SB4)。他方、該当する素片データQがライブラリLに存在しない場合(SB3:No)、素片選択部34は、前述の例外処理1または例外処理2により素片データQを用意する(SB5)。以降については第1実施形態と同様であるので詳細な説明を省略する。
The
以上の説明から理解される通り、第2実施形態では、素片選択部34は、特定母音[M]以外の母音([a],[i],[e],[o])を含まない音声素片Pについて当該音声素片Pの素片データQを選択し、特定母音[M]以外の母音([a],[i],[e],[o])を含む音声素片Pについては、当該母音を特定母音[M]に置換した音声素片Pの素片データQを選択する。すなわち、明瞭な音声と曖昧な音声との各々に対応するライブラリを別個に用意する必要がない。したがって、第2実施形態においても第1実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。また、第2実施形態では第2ライブラリL2の生成および記憶が不要であるから、第1ライブラリL1と第2ライブラリL2との双方を記憶装置12に記憶する必要がある第1実施形態と比較して、記憶装置12に必要な容量が削減されるという利点もある。
As understood from the above description, in the second embodiment, the
<第3実施形態>
第2実施形態では、発音文字X1に対応する音声素片Pの各素片データQを相互に連結することで明瞭な音声の音声信号Vを生成する動作と、発音文字X1に対応する音声素片の母音を特定母音[M]に置換した音声素片の各素片データQを相互に連結することで曖昧な音声の音声信号Vを生成する動作とを選択的に実行した。第3実施形態では、発音文字X1に対応する各音声素片Pについて、前者の素片データQ(以下「第1素片データQ1」という)と後者の素片データQ(以下「第2素片データQ2」という)とが混合される。
<Third Embodiment>
In the second embodiment, the speech element V corresponding to the phonetic character X1 is connected to each other and the speech data V corresponding to the phonetic character X1 is generated. An operation of generating an ambiguous speech signal V by selectively connecting each segment data Q of speech units obtained by replacing a segment of vowels with a specific vowel [M] was performed. In the third embodiment, for each speech segment P corresponding to the phonetic character X1, the former segment data Q (hereinafter referred to as "first segment data Q1") and the latter segment data Q (hereinafter referred to as "second segment"). Is referred to as “single data Q2”).
図8は、第3実施形態の音声合成装置100のブロック図である。第3実施形態では、第2実施形態の構成に対して変数設定部37と素片混合部38とが付加される。第3実施形態の素片選択部34は、合成情報Sが指定する発音文字X1に対応する各音声素片Pについて、第1素片データQ1と第2素片データQ2とをライブラリLから選択する。前述の通り、第1素片データQ1は、発音文字X1に対応する各音声素片PについてライブラリLに記憶された素片データQであり、第2素片データQ2は、図7と同様の処理により、例えば発音文字X1に対応する音声素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQである。第1素片データQ1は明瞭に発音された音声素片Pの音声波形を表し、第2素片データQ2は当該音声素片Pを曖昧に発音した場合の音声波形を表す、とも換言され得る。
FIG. 8 is a block diagram of the
素片混合部38は、素片選択部34が1個の音声素片Pについて選択した第1素片データQ1と第2素片データQ2とを混合比Kに応じて混合することで素片データQを生成する。具体的には、素片混合部38は、以下の数式(1)で表現される通り、混合比Kに応じた加重値を適用した第1素片データQ1と第2素片データQ2との加重和を素片データQとして生成する。
数式(1)の記号αは所定の定数である。数式(1)から理解される通り、混合比Kが大きいほど、素片データQにおける第2素片データQ2の比率が増加し、結果的に音声信号Vの音声の音韻が聴感的に曖昧になる。合成処理部36は、素片混合部38による混合後の各素片データQを、第1実施形態と同様の方法で調整および連結することで音声信号Vを生成する。
The symbol α in the formula (1) is a predetermined constant. As understood from the equation (1), the larger the mixing ratio K is, the more the ratio of the second segment data Q2 in the segment data Q increases, resulting in the audible ambiguity of the speech of the speech signal V. Become. The
図8の変数設定部37は、合成対象の音声の特徴量に応じて第1素片データQ1と第2素片データQ2との混合比Kを設定する。ここで、高音域の音声ほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定する。以上の傾向を考慮して、第3実施形態の変数設定部37は、合成対象の音符に指定された音高X3を特徴量として、当該音高Xに応じた混合比Kを設定する。具体的には、音符の音高X3が高いほど混合比Kが増加する(すなわち音声信号Vの音声が曖昧になる)ように混合比Kが制御される。
The
図9は、変数設定部37による混合比Kの設定についての説明図である。図9に例示される編集画面40のうち音符列画像42では、利用者に指定された“あさやけの(asayakeno)”という発音文字X1が5個の音符に割当てられた場合が例示されている。第3実施形態では、時間軸上の特定の区間t内の音符毎に、第1素片データQ1と第2素片データQ2との混合比Kが設定される。区間tは、混合比Kの設定対象となる区間であり、例えば入力装置16に対する操作で利用者が選択した区間や合成楽曲の全区間等の任意の区間である。
FIG. 9 is an explanatory diagram for setting the mixture ratio K by the
図9の記号Rは、区間t内の音高X3の最大値NHと最小値NLとの差異(すなわち区間t内の音高X3の分布幅)を意味する(R=NH−NL)。変数設定部37は、以下の数式(2)の演算により、音符の音高X3に応じた混合比Kを区間t内の音符毎に算定する。
数式(2)の記号βは所定の定数(典型的には正数)である。数式(2)から理解される通り、音高X3が区間t内の最小値NLである音符(X3=NL)の混合比Kは最小値0となり、音高X3が区間t内の最大値NHである音符(X3=NH)の混合比Kは最大値βとなる。すなわち、混合比Kは、音高X3が高いほど増加するように最小値0と最大値βとの間の範囲内で音高X3に応じて変化する。図9に例示される通り、編集画面40の変数領域44には、音符毎の混合比Kが表示(グラフ表示)される。
The symbol R in FIG. 9 means the difference between the maximum value NH and the minimum value NL of the pitch X3 in the section t (that is, the distribution width of the pitch X3 in the section t) (R = NH-NL). The
The symbol β in the equation (2) is a predetermined constant (typically a positive number). As understood from the equation (2), the mixing ratio K of the notes (X3 = NL) whose pitch X3 is the minimum value NL in the interval t is the
以上の説明から理解される通り、第3実施形態では、発音文字X1に対応する音声素片Pについて、ライブラリLのうち当該音声素片の第1素片データQ1と、ライブラリLのうち母音を特定母音[M]に置換した音声素片Pの第2素片データQ2とが混合される。したがって、第1実施形態や第2実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。 As understood from the above description, in the third embodiment, for the speech unit P corresponding to the phonetic character X1, the first unit data Q1 of the speech unit in the library L and the vowel in the library L are used. The second unit data Q2 of the speech unit P replaced with the specific vowel [M] is mixed. Therefore, similarly to the first embodiment and the second embodiment, it is possible to generate a synthesized speech with an ambiguous pronunciation while reducing the burden of creating a speech synthesis library.
ところで、第1素片データQ1と第2素片データQ2とを混合する構成としては、例えば、利用者からの指示に応じた混合比Kで混合を実行する構成(以下「対比例」という)も採用され得る。しかし、対比例では、混合比Kを指示する利用者の負担が大きいという問題が発生し得る。第3実施形態では、合成対象の特徴量(具体的には各音符の音高X3)に応じて混合比Kが可変に設定されるから、対比例と比較して利用者の負担を軽減することが可能である。第1実施形態では特に、各音符の音高X3が高いほど第2素片データQ2の比率が増加するように混合比Kが設定されるから、高音域の音声ほど音韻が曖昧になるという傾向を再現した自然な合成音声を生成できるという利点がある。 By the way, as a configuration for mixing the first segment data Q1 and the second segment data Q2, for example, a configuration for executing mixing at a mixing ratio K in accordance with an instruction from the user (hereinafter referred to as “comparative”). Can also be employed. However, in contrast, there may be a problem that the burden on the user who indicates the mixture ratio K is large. In the third embodiment, since the mixing ratio K is variably set according to the feature quantity to be synthesized (specifically, the pitch X3 of each note), the burden on the user is reduced compared to the proportionality. It is possible. In particular, in the first embodiment, the mixing ratio K is set so that the ratio of the second segment data Q2 increases as the pitch X3 of each note is higher. There is an advantage that it is possible to generate natural synthesized speech that reproduces.
<第4実施形態>
第4実施形態では、第1ライブラリL1から第2ライブラリL2を事前に生成する第1実施形態の構成を前提として、第1ライブラリL1から選択された第1素片データQ1と、第2ライブラリL2から選択された音声素片Pの第2素片データQ2とを、第3実施形態と同様に混合して合成音声を生成する。
<Fourth embodiment>
In the fourth embodiment, on the premise of the configuration of the first embodiment in which the second library L2 is generated in advance from the first library L1, the first segment data Q1 selected from the first library L1 and the second library L2 The second unit data Q2 of the speech unit P selected from the above is mixed as in the third embodiment to generate a synthesized speech.
図10は、第4実施形態の音声合成装置100のブロック図である。図10の生成部32は、第1実施形態と同様の方法で既存の第1ライブラリL1から第2ライブラリL2を生成する。したがって、第4実施形態によれば第1実施形態と同様の効果が実現される。他方、素片選択部34は、合成対象の発音文字X1に対応する音声素片P毎に、第1ライブラリL1の第1素片データQ1と第2ライブラリL2の第2素片データQ2とを順次に選択する。
FIG. 10 is a block diagram of the
図10に例示されるように、第4実施形態では、第1実施形態の音声合成装置100に対して、第3実施形態と同様の変数設定部37と素片混合部38が追加される。変数設定部37は、第3実施形態と同様に、音符毎の特徴量である音高X3に応じて混合比Kを音符毎に設定する。具体的には、音高X3が高いほど混合比Kが増加するように、例えば数式(2)の演算で混合比Kが算定される。素片混合部38は、第3実施形態と同様に、素片選択部34が選択した第1素片データQ1と第2素片データQ2とを、変数設定部37が設定した混合比Kに応じて混合することで素片データQを生成する。したがって、第4実施形態によれば、第3実施形態と同様に、混合比Kを利用者が指示する対比例と比較して利用者の負担を軽減することが可能である。
As illustrated in FIG. 10, in the fourth embodiment, a
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<Modification>
Each of the above-described embodiments can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined.
(1)第3実施形態のように第1素片データQ1と第2素片データQ2との混合比Kを音符毎に設定する構成では混合比Kが音符毎に段階的(不連続)に変動し得る。そこで、各音符の混合比Kを補間することで混合比Kを時間的に連続に変化させる構成も好適である。例えば図11に例示されるように、各音符の発音期間X2の中間地点において当該音符の音高X3に応じた数値(数式(2)の演算値)となるように各音符の混合比Kを直線補間することで、複数の音符に亘って混合比Kを連続的に変化させてもよい。 (1) In the configuration in which the mixing ratio K between the first segment data Q1 and the second segment data Q2 is set for each note as in the third embodiment, the mixing ratio K is stepwise (discontinuous) for each note. Can vary. Therefore, a configuration in which the mixing ratio K is continuously changed in time by interpolating the mixing ratio K of each note is also suitable. For example, as illustrated in FIG. 11, the mixing ratio K of each note is set so that a numerical value corresponding to the pitch X3 of the note (calculated value of Equation (2)) is obtained at an intermediate point of the note generation period X2. The mixing ratio K may be continuously changed over a plurality of notes by linear interpolation.
また、例えば図12に例示される通り、音符の発音期間X2のうち一部の期間(以下「定常期間」という)σにおいて当該音符の音高X3に応じた混合比Kを維持し、各発音期間X2内の定常期間σの終点と直後の発音期間X2内の定常期間σの始点との間で混合比Kを補間(図12の例示では直線補間)することも可能である。定常期間σは、例えば発音期間X2の始点から所定長(例えば継続長の1/4)だけ経過した時点を始点とし、発音期間X2の終点から所定長だけ手前の時点を終点とする期間である。なお、図11や図12の例示では直線補間を例示したが、補間の具体的な方法は任意であり、例えば公知の曲線補間を利用してもよい。 For example, as illustrated in FIG. 12, the mixing ratio K corresponding to the pitch X3 of the note is maintained in a part of the note sound generation period X2 (hereinafter referred to as “steady period”) σ. It is also possible to interpolate the mixing ratio K between the end point of the stationary period σ in the period X2 and the starting point of the stationary period σ in the immediately following sounding period X2 (linear interpolation in the example of FIG. 12). The steady period σ is a period in which, for example, a point when a predetermined length (for example, ¼ of the continuation length) has elapsed from the start point of the sound generation period X2 is a start point, and a time point a predetermined length before the end point of the sound generation period X2 . In addition, although linear interpolation was illustrated in the illustration of FIG.11 and FIG.12, the specific method of interpolation is arbitrary, For example, you may utilize well-known curve interpolation.
(2)第3実施形態では、混合比Kの最大値βを所定の定数としたが、入力装置16に対する利用者からの指示に応じて最大値βを可変に設定することも可能である。また、第3実施形態では、音高X3が高いほど混合比Kが増加する構成を例示したが、音高X3の高低と混合比Kの大小との関係は以上の例示に限定されない。例えば、音高X3が高いほど混合比Kが減少する(合成音声が明瞭になる)ように混合比Kを算定することも可能である。
(2) In the third embodiment, the maximum value β of the mixing ratio K is set as a predetermined constant. However, the maximum value β can be variably set according to an instruction from the user to the
(3)混合比Kの算定に適用される特徴量は、第3実施形態で例示した音高X3に限定されない。例えば、各音符の音量に応じて混合比Kを設定する構成も採用され得る。例えば、音量が小さいほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定すると、音量が小さいほど混合比Kが増加するように変数設定部37が混合比Kを設定する構成が好適である。
(3) The feature amount applied to the calculation of the mixing ratio K is not limited to the pitch X3 exemplified in the third embodiment. For example, a configuration in which the mixing ratio K is set according to the volume of each note may be employed. For example, assuming that the sound volume perceived by the listener becomes ambiguous as the volume decreases, a configuration in which the
(4)合成対象の特徴量に応じて混合比Kを設定する第3実施形態や第4実施形態の構成にとって、生成部32が第1ライブラリL1から第2ライブラリL2を生成する第1実施形態の構成や、母音を特定母音[M]に置換した音声素片の素片データL2を素片選択部34が選択する第2実施形態の構成は必須ではない。例えば、相異なる声質の収録音から第1ライブラリL1および第2ライブラリL2が事前に用意された構成において、第1ライブラリL1から選択された第1素片データQ1と第2ライブラリL2から選択された第2素片データQ2とを例えば音高X3に応じた混合比Kで混合することも可能である。
(4) For the configurations of the third embodiment and the fourth embodiment in which the mixing ratio K is set according to the feature quantity to be synthesized, the first embodiment in which the
(5)第1実施形態では、生成部32が生成した第2ライブラリL2を利用して音声信号Vを生成する音声合成装置100を例示したが、既存の第1ライブラリL1から第1実施形態に例示した方法で第2ライブラリL2を生成する装置(音声合成用ライブラリ生成装置)としても本発明は実現され得る。音声合成用ライブラリ生成装置において、音声合成のための機能(素片選択部34,合成処理部36)の有無は不問である。
(5) In the first embodiment, the
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、32……生成部、33……表示制御部、34……素片選択部、35……指示受付部、36……合成処理部、37……変数設定部、38……素片混合部、40……編集画面、42……音符列画像、44……変数領域、54……音符図像。
DESCRIPTION OF
Claims (5)
を具備する音声合成用ライブラリ生成装置。 An element for generating a second library from a first library for speech synthesis that includes unit data for each speech unit, the speech unit including a vowel other than a specific vowel among a plurality of speech units A speech synthesis library generating apparatus comprising: a generating unit that generates a second library including speech segment data obtained by replacing the vowel with the specific vowel in one library.
前記第1ライブラリのうち合成対象の発音文字に対応する音声素片の第1素片データと、前記第2ライブラリのうち当該音声素片の第2素片データとを選択する素片選択部と、
前記第1素片データと前記第2素片データとを混合する素片混合部と、
前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部と
を具備する音声合成装置。 An element for generating a second library from a first library for speech synthesis that includes unit data for each speech unit, the speech unit including a vowel other than a specific vowel among a plurality of speech units A generating unit that generates a second library including unit data of a speech unit obtained by replacing the vowel with the specific vowel in one library;
A unit selection unit for selecting first unit data of a speech unit corresponding to a phonetic character to be synthesized in the first library and second unit data of the speech unit in the second library; ,
A unit mixing unit for mixing the first unit data and the second unit data;
A speech synthesizer comprising: a synthesis processing unit that generates synthesized speech using the segment data after mixing by the segment mixing unit.
前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部と
を具備する音声合成装置。 An element for selecting speech segment data corresponding to a phonetic character to be synthesized from a speech synthesis library including speech segment data for each speech segment, and for speech segments containing vowels other than specific vowels Is a segment selection unit that selects segment data of a speech segment in which the vowel is replaced with the specific vowel;
A speech synthesis apparatus comprising: a synthesis processing unit that generates synthesized speech using the speech unit selected by the unit selection unit.
前記第1素片データと前記第2素片データとを混合する素片混合部を具備し、
前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する
請求項3の音声合成装置。 The unit selection unit includes a first unit data of the speech unit and a second unit data of the speech unit obtained by replacing the vowel with the specific vowel for a speech unit including a vowel other than the specific vowel. And select
A unit mixing unit for mixing the first unit data and the second unit data;
The speech synthesis apparatus according to claim 3, wherein the synthesis processing unit generates synthesized speech using the segment data after mixing by the segment mixing unit.
前記素片混合部は、前記変数設定部が設定した混合比で前記第1素片データと前記第2素片データとを混合する
請求項2または請求項4の音声合成装置。
It has a variable setting unit that sets the mixing ratio according to the feature quantity to be combined,
The speech synthesis apparatus according to claim 2, wherein the unit mixing unit mixes the first unit data and the second unit data at a mixing ratio set by the variable setting unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014259287A JP6497065B2 (en) | 2014-12-22 | 2014-12-22 | Library generator for speech synthesis and speech synthesizer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014259287A JP6497065B2 (en) | 2014-12-22 | 2014-12-22 | Library generator for speech synthesis and speech synthesizer |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016118712A true JP2016118712A (en) | 2016-06-30 |
| JP6497065B2 JP6497065B2 (en) | 2019-04-10 |
Family
ID=56244244
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014259287A Active JP6497065B2 (en) | 2014-12-22 | 2014-12-22 | Library generator for speech synthesis and speech synthesizer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6497065B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005071664A (en) * | 2003-08-20 | 2005-03-17 | Sumitomo Wiring Syst Ltd | Terminal metal fitting |
| JP2010169889A (en) * | 2009-01-22 | 2010-08-05 | Yamaha Corp | Voice synthesis device and program |
| US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
-
2014
- 2014-12-22 JP JP2014259287A patent/JP6497065B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005071664A (en) * | 2003-08-20 | 2005-03-17 | Sumitomo Wiring Syst Ltd | Terminal metal fitting |
| US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
| JP2010169889A (en) * | 2009-01-22 | 2010-08-05 | Yamaha Corp | Voice synthesis device and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6497065B2 (en) | 2019-04-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9135909B2 (en) | Speech synthesis information editing apparatus | |
| JP6620462B2 (en) | Synthetic speech editing apparatus, synthetic speech editing method and program | |
| JP2013137520A (en) | Music data editing device | |
| JP2013011863A (en) | Voice synthesizer | |
| JP2017040867A (en) | Information processor | |
| JP2016090916A (en) | Voice synthesizer | |
| JP5625321B2 (en) | Speech synthesis apparatus and program | |
| JP2011128186A (en) | Voice synthesizer | |
| JP2018077283A (en) | Speech synthesis method | |
| JP6497065B2 (en) | Library generator for speech synthesis and speech synthesizer | |
| JP5092905B2 (en) | Singing synthesis apparatus and program | |
| JP5935545B2 (en) | Speech synthesizer | |
| JP5251381B2 (en) | Sound processing apparatus and program | |
| JP5552797B2 (en) | Speech synthesis apparatus and speech synthesis method | |
| EP2634769A2 (en) | Sound synthesizing apparatus, sound processing apparatus, and sound synthesizing method | |
| JP5102939B2 (en) | Speech synthesis apparatus and speech synthesis program | |
| JP5790860B2 (en) | Speech synthesizer | |
| JP5935831B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
| JP6286946B2 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP6372066B2 (en) | Synthesis information management apparatus and speech synthesis apparatus | |
| JPWO2019239972A1 (en) | Information processing methods, information processing devices and programs | |
| JP5782799B2 (en) | Speech synthesizer | |
| JP5310801B2 (en) | Speech synthesis apparatus and speech synthesis program | |
| JP2005195968A (en) | Pitch converting device | |
| JP5915264B2 (en) | Speech synthesizer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171023 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180919 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181129 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190212 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190225 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6497065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |