CN111798832B - 语音合成方法、装置和计算机可读存储介质 - Google Patents
语音合成方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111798832B CN111798832B CN201910266289.4A CN201910266289A CN111798832B CN 111798832 B CN111798832 B CN 111798832B CN 201910266289 A CN201910266289 A CN 201910266289A CN 111798832 B CN111798832 B CN 111798832B
- Authority
- CN
- China
- Prior art keywords
- vocoder
- parameter
- acoustic
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种语音合成方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:将文本划分为不同语言的片段;将不同语言的片段分别转换为对应的音素,生成文本的音素序列;将音素序列输入预先训练的语音合成模型,转换为声码器特征参数;将声码器特征参数输入声码器,生成语音。本公开的方案实现了支持多种语言的发音的端到端的语音合成系统,并且根据音素序列转换为声码器特征参数,相对于字符序列直接转换为声码器特征参数,能够使合成的语音更加的准确、流畅和自然。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种语音合成方法、装置和计算机可读存储介质。
背景技术
语音合成系统能够实现文本到语音的转换(Text To Speech,TTS),可以将文本通过一系列的算法操作转换为声音,实现机器模拟人进行发音的过程。
目前的语音合成系统,一般只能支持单独一种语言的发音。
发明内容
发明人发现:目前的语音合成系统一般只支持中文或只支持英文发音,无法实现多种语言的流畅发音。
本公开所要解决的一个技术问题是:如何实现支持多种语言发音的端到端的语音合成系统。
根据本公开的一些实施例,提供的一种语音合成方法,包括:将文本划分为不同语言的片段;将不同语言的片段分别转换为对应的音素,生成文本的音素序列;将音素序列输入预先训练的语音合成模型,转换为声码器特征参数;将声码器特征参数输入声码器,生成语音。
在一些实施例中,将文本划分为不同语言的片段包括:根据文本中字符的编码,识别文本中的不同语言的字符;将同一种语言的连续字符划分为该语言的片段。
在一些实施例中,生成文本的音素序列包括:确定文本的韵律结构;根据文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成文本的音素序列。
在一些实施例中,将音素序列输入预先训练的语音合成模型,转换为声码器特征参数包括:将音素序列输入语音合成模型中的声学参数预测模型,转换为声学特征参数;将声学特征参数输入语音合成模型中声码器参数转换模型,得到输出的声码器特征参数。
在一些实施例中,声学参数预测模型包括:编码器、解码器和注意力模型;将音素序列输入语音合成模型中的声学参数预测模型,转换为声学特征参数包括:确定当前时刻编码器输出的各个特征表示的注意力权重;判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值,如果是,则结束解码过程。其中,特征表示的注意力权重由注意力模型生成。
在一些实施例中,声学特征参数包括语音频谱参数;声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
在一些实施例中,在声学特征参数的频率小于声码器特征参数的频率的情况下,通过重复声学特征参数进行上采样,使声学特征参数的频率等于声码器特征参数的频率。
在一些实施例中,该方法还包括:训练语音合成模型;其中,训练方法包括:根据预设频率将训练文本对应的语音样本划分为不同的帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本;利用训练文本和对应的第一声学特征参数样本,对声学参数预测模型进行训练;利用训练完成的声学参数预测模型,将训练文本转换为第二声学特征参数样本;根据声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本;利用第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。
在一些实施例中,声学参数预测模型包括:编码器、解码器和注意力模型;将音素序列输入语音合成模型中的声学参数预测模型,转换为声学特征参数包括:将音素序列输入编码器,获得编码器输出各个元素对应的特征表示;将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型,获得上下文向量;将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层,获得解码器第二循环层输出的当前时刻的解码器隐状态;根据解码器输出的各个时刻的解码器隐状态和预测声学特征参数。
在一些实施例中,将不同语言的片段分别转换为对应的音素包括:将不同语言的片段分别进行文本归一化;将归一化后的不同语言的片段分别进行分词;将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素;其中,音素包括字符对应的音调。
根据本公开的另一些实施例,提供的一种语音合成装置,包括:语言识别模块,用于将文本划分为不同语言的片段;音素转换模块,用于将不同语言的片段分别转换为对应的音素,生成文本的音素序列;参数转换模块,用于将音素序列输入预先训练的语音合成模型,转换为声码器特征参数;语音生成模块,用于将声码器特征参数输入声码器,生成语音。
在一些实施例中,语言识别模块用于根据文本中字符的编码,识别文本中的不同语言的字符;将同一种语言的连续字符划分为该语言的片段。
在一些实施例中,音素转换模块用于确定文本的韵律结构;根据文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成文本的音素序列。
在一些实施例中,参数转换模块用于将音素序列输入语音合成模型中的声学参数预测模型,转换为声学特征参数;将声学特征参数输入语音合成模型中声码器参数转换模型,得到输出的声码器特征参数。
在一些实施例中,声学参数预测模型包括:编码器、解码器和注意力模型;参数转换模块用于确定当前时刻编码器输出的各个特征表示的注意力权重;判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值,如果是,则结束解码过程。其中,特征表示的注意力权重由注意力模型生成。
在一些实施例中,声学特征参数包括语音频谱参数;声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
在一些实施例中,在声学特征参数的频率小于声码器特征参数的频率的情况下,通过重复声学特征参数进行上采样,使声学特征参数的频率等于声码器特征参数的频率。
在一些实施例中,该装置还包括:模型训练模块,用于根据预设频率将训练文本对应的语音样本划分为不同的帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本;利用训练文本和对应的第一声学特征参数样本,对声学参数预测模型进行训练;利用训练完成的声学参数预测模型,将训练文本转换为第二声学特征参数样本;根据声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本;利用第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。
在一些实施例中,声学参数预测模型包括:编码器、解码器和注意力模型;参数转换模块用于将音素序列输入编码器,获得编码器输出各个元素对应的特征表示;将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型,获得上下文向量;将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层,获得解码器第二循环层输出的当前时刻的解码器隐状态;根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。
在一些实施例中,音素转换模块用于将不同语言的片段分别进行文本归一化;将归一化后的不同语言的片段分别进行分词;将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素;其中,音素包括字符对应的音调。
根据本公开的又一些实施例,提供的一种语音合成装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如前述任意实施例的语音合成方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的语音合成方法。
本公开中首先识别文本中的语言,将文本划分为不同语言的片段。针对不同语言的片段分别转换为对应的音素。文本的音素序列被输入语音合成模型转换为声码器特征参数,声码器根据声码器特征参数输出语音。本公开的方案实现了支持多种语言的发音的端到端的语音合成系统,并且根据音素序列转换为声码器特征参数,相对于字符序列直接转换为声码器特征参数,能够使合成的语音更加的准确、流畅和自然。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的语音合成方法的流程示意图。
图2示出本公开的一些实施例的语音合成模型的结构示意图。
图3示出本公开的另一些实施例的语音合成方法的流程示意图。
图4示出本公开的一些实施例的语音合成装置的结构示意图。
图5示出本公开的另一些实施例的语音合成装置的结构示意图。
图6示出本公开的又一些实施例的语音合成装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提出一种语音合成方法,下面结合图1进行描述。
图1为本公开语音合成方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S108。
在步骤S102中,将文本划分为不同语言的片段。
在一些实施例中,根据文本中字符的编码,识别文本中的不同语言的字符;将同一种语言的连续字符划分为该语言的片段。例如,文本中包含中文和英文字符的情况,可以获取文本中字符的Unicode码或其他编码,根据Unicode码识别文本中中文字符和英文字符,进而将文本划分为不同语言的片段。如果包含其他语言(例如,日语、法语等)的字符可以根据对应的编码形式进行识别。
下面以文本包含中文和英文为例,描述划分语言片段的具体实施例。(1)根据句子中字符的编码,确定句子中是否存在英文字符,如果不存在执行(2),否则执行(3)。(2)将句子标记为中文句子。(3)确定句子中是否存在中文字符,如果不存在执行(4),否则执行(7)。(4)判断句子是否只包含预设英文字符,预设英文字符可以包括计量单位、缩写和英文编号中至少一项,如果是,执行(5),否则执行(6)。(5)将该句子标记为中文句子。(6)将该句子标记为英文句子。(7)对句子划分中文片段和英文片段。
上述实施例中在句子中只包含预设英文字符的情况下,将句子标记为中文句子,便于后续按照中文将预设的英文字符进行归一化,例如12km/h这样的预设英文字符,可以后续进行归一化时转换为12千米每小时,后续发出的语音则是中文读法,更加符合中文用户的习惯。本领域技术人员可以理解,参考上述实施例,在句子中只包含一些特殊国际通用字符的情况下,可以根据发音需求将句子标记为预设语言,便于后续的文本归一化和语音合成的处理。
上述步骤(7)可以包括以下步骤。(i)判断当前字符的语言种类是否和上一字符相同,如果相同,执行(ii),否则执行(iv)。(ii)将当前字符移入当前片段集合。(iii)判断是否到达句尾,如果是,则执行(iv),否则执行(v),(iv)将当前片段集合中的字符标记语言种类,并从当前片段集合移出。(v)将下一字符更新为当前字符,并返回(i)重新开始执行。
在步骤S104中,将不同语言的片段分别转换为对应的音素,生成文本的音素序列。
在一些实施例中,将不同语言的片段分别进行文本归一化;将归一化后的不同语言的片段分别进行分词;将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素。文本中通常包含大量的不规范的缩写,例如12km/s、2019年等,必须通过归一化操作将这些不规范的文本转换为适合语音合成系统进行语音合成的规范文本。不同语言的片段需要分别进行文本归一化,可以分别根据不同语言的特殊字符对照表,将不规范的字符转换为规范字符,例如,将2019年转换为二零一九年,便于后续的音素转换。
由于不同语言的分词方式不同,例如,英文按照单词进行分词,而中文需要根据语义信息等进行分词。因此,将不同语言的片段分别进行分词。可以通过查询不同语言的预设的音素转换表,将分词转换为对应的音素(G2P)。一些预设的音素转换表里不存在的单词(OOV),例如拼写错误的单词、新创建的单词、网络单词等,可以通过神经网络等现有技术进行音素转换。预设的音素转换表可以包括多音字的音素对应关系,以便对多音字进行准确的音素转换。也可以通过其他方式识别多音字,或通过其他现有技术进行音素转换,不限于所举示例。
在一些实施例中,音素可以包括字符对应的音调,将音调作为音素的一部分,可以使合成的语音更加的准确和自然。一些语言例如英语等,没有音调,则不需要在音素序列里添加对应的音调标识。在一些实施例中,还可以对文本划分韵律结构,例如识别文本中的韵律词、韵律短语等。根据文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成文本的音素序列。韵律标识可以是韵律词或韵律短语对应的音素后添加的一个表示停顿的特殊标识。韵律结构的预测可以采用现有技术,在此不再赘述。
在步骤S106中,将音素序列输入预先训练的语音合成模型,转换为声码器特征参数。
根据上述实施例,文本的音素序列可以包括每个字符对应的音素(包括音调)、韵律标识,还可以包括一些特殊符号,例如表示输入的音素序列结束的符号<EOS>。语音合成模型的训练过程后续将进行描述。
在一些实施例中,语音合成模型可以包括声学参数预测模型和声码器参数转换模型。声学参数例如包括语音频谱参数,例如,梅尔频谱参数或线性谱参数等。声码器参数根据实际使用的声码器进行确定,例如,声码器采用world声码器,则声码器参数可以包括基频(fundamental frequency,F0)、广义梅尔倒谱系数(Mel-generalized Cepstral,MGC),频带非周期分量(band a periodical,BAP)等。将音素序列输入语音合成模型中的声学参数预测模型,可以转换为声学特征参数;将声学特征参数输入语音合成模型中声码器参数转换模型,可以得到输出的声码器特征参数。
声学特征参数预测模型采用Encoder-Decoder网络结构,包括:编码器、解码器和注意力(Attention)模型。输入的音素序列和输出的声学特征参数序列的长度可以是不匹配的,通常声学特征参数序列会比较长。基于Encoder-Decoder的神经网络结构可以进行灵活的特征预测,符合语音合成的特性。编码器可以包含三层一维卷积和双向LSTM(LongShort-Term Memory,长短期记忆网络)。三层一维卷积可以学习得到每个音素的局部上下文信息,双向LSTM编码则计算得到了每个音素的双向全局信息。编码器模块通过三层一维卷积和双向LSTM编码能够得到输入音素的非常具有表现力并且包含上下文信息的特征表示。
解码器例如包含两层全连接层和两层LSTM。两层全连接层可以采用Dropout技术防止神经网络过拟合现象的发生。注意力模型使得解码器在解码过程中可以学习到当前解码时刻需要将注意力关注到哪些输入的音素的内部表示上,通过注意力机制,解码器还可以学习到哪些输入的音素序列已经完成参数预测,以及当前时刻需要特别关注哪些音素序列。注意力模型得到了的编码器的上下文向量,在解码的过程中,通过结合这个上下文向量,可以更好的预测当前时刻需要得到的声学参数以及是否结束解码过程。
在一些实施例中,声学特征参数预测模型中可以执行以下步骤。将音素序列输入编码器,获得编码器输出各个元素对应的特征表示。将各个元素对应的特征表示、解码器中第一循环层(例如第一LSTM)当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型,获得上下文向量。将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层,获得解码器第二循环层输出的当前时刻的解码器隐状态;根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。例如将解码器隐状态序列进行线性变换得到声学特征参数。
例如,输入音素序列为X=[x1,x2,…,xj,…xM],编码器输出的特征表示序列为H=[h1,h2,…,hj,…hM],j表示输入音素序列中的各个元素所在的位置,M表示音素序列中元素的总个数。解码器输出的隐状态序列为S=[s1,s2,…,si,…],i表示解码器输出的时间步骤。音素序列中的韵律标识也会被转换为对应的隐状态,进而转换为解码器隐状态。
例如,上下文向量可以采用以下公式计算。
ei,j=vTtanh(Wsi+Vhj+Ufi,j+b) (1)
fi=F*αi-1 (2)
βi=softmax(ei) (3)
其中,i表示的是解码器的时间步骤,j表示编码器对应的音素序列中元素的位置。v,W,V,U,b是模型训练时学习到的参数,si表示解码器中第一循环层(例如第一LSTM)当前第i个时刻输出的解码器隐状态。hj表示第j个元素对应的特征表示,fi,j是fi中的向量,F是一个预设长度的卷积核,αi-1是第i-1时刻各个元素对应的累积注意力权重信息(Alignments),ei,j为数值,ei表示各个元素对应的组成的向量,βi为向量,βi,j表示βi中的数值,ci表示第i个时刻对应的上下文向量,M表示音素序列中元素的总个数。
在一些实施例中,确定当前时刻编码器输出的各个特征表示的注意力权重;判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重(即输入音素序列中所有元素对应的注意力权重)中的最大值,如果是,则结束解码过程。特征表示的注意力权重由注意力模型生成。例如预设元素为音素序列最后一个<EOS>符号。
上述判断是否停止解码的方法,可以使解码器根据实际需求停止解码。通过学习到的Alignments信息判断是否需要结束解码过程,如果解码的时候注意力模型已经将注意力转移到了最后符号,但是没有正确的预测结束解码过程,系统可以根据这个Alignments信息强制结束解码过程。上述辅助解码结束算法,能够很好的解决模型预测解码过程结束失败或者预测结束不正确的问题,避免声学参数预测模型会继续预测若干帧的声学特征出来,最终合成一些无法理解的语音,提高系统语音输出的准确性、流畅性和自然度。
在预测得到输入音素序列的声学特征参数之后,将声学特征参数(例如梅尔谱参数)输入声码器参数转换模型转换为声码器特征参数,然后就可以通过声码器进行语音合成。
声码器参数转换模型可以采用DNN-LSTM(深度神经网络-长短期记忆网络)的神经网络结构。该网络结构可以包含多层深度神经网络和长短期记忆网络构成。例如,如图2所示,该网络结构包含两层ReLU(激活函数)连接和一层LSTM。声学特征参数首先被输入DNN网络(例如ReLU),可以学习特征的非线性变换,学习神经网络内部特征表示,相当于一个特征学习的过程。DNN网络输出的特征被输入LSTM学习到声学特征参数的历史依赖信息,以便得到更加平滑的特征转换。发明人通过测试发现,当网络结构包含两层ReLU连接和一层LSTM时声码器参数转换效果更好。
在一些实施例中,在声学特征参数的频率小于声码器特征参数的频率的情况下,通过重复声学特征参数进行上采样,使声学特征参数的频率等于声码器特征参数的频率。例如,声学参数预测模型以15ms为一帧进行参数预测,但是声码器通常以5ms为一帧进行语音合成,这样就在时间频率上存在一个不匹配的问题,为了解决两个模型频率不一致的问题,需要将声学参数预测模型的输出进行上采样以匹配声码器模型的频率。可以通过重复声学参数预测模型的输出进行上采样,例如,将声学特征参数重复三次,1*80维的梅尔谱参数,重复三次可以得到3*80维的梅尔谱参数。发明人通过测试确定,相对于学习一个上采样神经网络,或差值等方式进行上采样,通过直接重复特征进行上采样就能够达到很好的效果。
在步骤S108中,将声码器特征参数输入声码器,生成语音。
上述实施例中的声码器参数转换模型可以与world声码器结合,相对于现有技术中wavenet(网络结构复杂,无法实时在线生成语音),通过简单的网络架构,可以加快计算速度实现实时语音生成,相对于现有技术中Griffin-lim模型,减少了叠音,提高了语音合成的效果。
上述实施例的方法中首先识别文本中的语言,将文本划分为不同语言的片段。针对不同语言的片段分别转换为对应的音素。文本的音素序列被输入语音合成模型转换为声码器特征参数,声码器根据声码器特征参数输出语音。上述实施例的方案实现了支持多种语言的发音的端到端的语音合成系统,并且根据音素序列转换为声码器特征参数,相对于字符序列直接转换为声码器特征参数,能够使合成的语音更加的准确、流畅和自然,进一步通过加入韵律结构、音调等生成音素序列,能够进一步提高语音合成效果。通过新的声码器特征参数转换模型,加快计算速度实现实时语音生成,减少了叠音,进一步提高了语音合成的效果。并且上述实施例中还提出了一种解码器结束方法,可以解决模型预测解码过程结束失败或者预测结束不正确的问题,避免声学参数预测模型最终合成一些无法理解的语音,进一步提高系统语音输出的准确性、流畅性和自然度。
在一些实施例中,训练语音合成模型的方法包括:将训练文本对应的语音样本根据声码器的合成频率转换为声码器特征参数样本;将训练文本输入待训练的语音合成模型,得到输出的声码器特征参数;将输出的声码器特征参数与对应的声码器特征参数样本进行比对,并根据比对结果调整待训练的语音合成模型的参数,直至完成训练。
为了进一步提高声码器参数转换模型的准确性,下面结合图2描述本公开的语音合成模型的训练方法的一些实施例。
图3为本公开语音合成方法另一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S310。
在步骤S302中,根据预设频率将训练文本对应的语音样本划分为不同帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本。
例如,可以将语音样本以15ms为一帧的频率进行划分,将每帧样本提取声学特征参数,生成第一声学特征参数样本(例如,梅尔谱参数)。
在步骤S304中,利用训练文本和对应的第一声学特征参数样本,对声学参数预测模型进行训练。
可以首先将训练文本划分为不同语言的片段,将不同语言的片段分别转换为对应的音素,生成训练文本的音素序列。音素序列可以包括音调、韵律标识等。将训练文本的音素序列输入声学参数预测模型,得到输出的声学特征参数。将输出的声学特征参数与第一声学特征参数样本进行比对,根据比对结果对声学参数预测模型中参数进行调整,直至满足目标函数,完成声学参数预测模型的训练。
在步骤S306中,利用训练完成的声学参数预测模型,将训练文本转换为第二声学特征参数样本。
将训练文本输入训练完成的声学参数预测模型,则可以得到第二声学特征参数样本。
在步骤S308中,根据声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本。
例如,可以将语音样本以5ms为一帧的频率进行划分,将每帧样本转换为声码器特征参数样本(例如,MGC、BAP、log F0)。步骤S308的执行顺序不受限制,只要在步骤S210之前即可。
在步骤S310中,利用第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。
例如,将第二声学特征参数样本输入声码器参数转换模型,得到输出的声码器特征参数。将输出的声码器特征参数与声码器特征参数样本进行比对,根据比对结果对声码器参数转换模型中参数进行调整,直至满足目标函数,完成声码器参数转换模型的训练。
上述实施例的方法采用声学预测模块预测得到的声学特征参数,作为训练数据进行声码器参数转换模型进行训练,可以提高声码器参数转换模型的准确度,使合成的语音更加准确、流畅和自然。这是因为,采用直接在语音文件上提取的真实的声学特征参数(例如,梅尔谱参数)训练声码器参数转换模型,那么在实际进行语音合成的时候就会存在模型的输入特征和训练特征不匹配的差异。具体因为在实际语音合成的过程中,输入的特征是声学参数预测模型预测得到的梅尔谱,声学参数预测模型在解码的过程中,随着解码步数的增加,预测得到的声学特征参数的误差会越来越大,但是声学参数转换模块训练过程却采用的声音文件真实的声学特征参数,训练得到的模型没有学习过预测得到的声学特征参数以及解码过程中存在误差累积的声学特征参数,所以输入特征和训练特征不匹配会导致声码器参数转换模型性能严重下降。
本公开还提供一种语音合成装置,下面结合图4进行描述。
图4为本公开语音合成装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:语言识别模块402,音素转换模块404,参数转换模块406,语音生成模块408。
语言识别模块402,用于将文本划分为不同语言的片段。
在一些实施例中,语言识别模块402用于根据文本中字符的编码,识别文本中的不同语言的字符;将同一种语言的连续字符划分为该语言的片段。
音素转换模块404,用于将不同语言的片段分别转换为对应的音素,生成文本的音素序列。
在一些实施例中,音素转换模块404用于确定文本的韵律结构;根据文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成文本的音素序列。
在一些实施例中,音素转换模块404用于将不同语言的片段分别进行文本归一化;将归一化后的不同语言的片段分别进行分词;将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素;其中,音素包括字符对应的音调。
参数转换模块406,用于将音素序列输入预先训练的语音合成模型,转换为声码器特征参数。
在一些实施例中,参数转换模块406用于将音素序列输入语音合成模型中的声学参数预测模型,转换为声学特征参数;将声学特征参数输入语音合成模型中声码器参数转换模型,得到输出的声码器特征参数。
在一些实施例中,声学参数预测模型包括:编码器、解码器和注意力模型。参数转换模块408用于确定当前时刻编码器输出的各个特征表示的注意力权重;判断音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值,如果是,则结束解码过程;其中,特征表示的注意力权重由注意力模型生成。
在一些实施例中,声学特征参数包括语音频谱参数;声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
在一些实施例中,在声学特征参数的频率小于声码器特征参数的频率的情况下,通过重复声学特征参数进行上采样,使声学特征参数的频率等于声码器特征参数的频率。
在一些实施例中,参数转换模块用于将音素序列输入编码器,获得编码器输出各个元素对应的特征表示;将各个元素对应的特征表示、解码器中第一循环层当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入注意力模型,获得上下文向量;将解码器中第一循环层当前时刻输出的解码器隐状态和上下文向量输入解码器的第二循环层,获得解码器第二循环层输出的当前时刻的解码器隐状态;根据解码器输出的各个时刻的解码器隐状态预测声学特征参数。
语音生成模块408,用于将声码器特征参数输入声码器,生成语音。
在一些实施例中,如图4所示,语音合成装置40还包括:模型训练模块410,用于根据预设频率将训练文本对应的语音样本划分为不同的帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本;利用训练文本和对应的第一声学特征参数样本,对声学参数预测模型进行训练;利用训练完成的声学参数预测模型,将训练文本转换为第二声学特征参数样本;根据声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本;利用第二声学特征参数样本和声码器特征参数样本对声码器参数转换模型进行训练。
本公开的实施例中的语音合成装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开语音合成装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的语音合成方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开语音合成装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (18)
1.一种语音合成方法,包括:
将文本划分为不同语言的片段;
将所述不同语言的片段分别转换为对应的音素,生成所述文本的音素序列,其中,所述音素序列包括每个字符对应的音素、韵律标识,音素包括字符对应的音调;
将所述音素序列输入预先训练的语音合成模型,转换为声码器特征参数,包括:将所述音素序列输入所述语音合成模型中的声学参数预测模型,转换为声学特征参数,将所述声学特征参数输入所述语音合成模型中声码器参数转换模型,得到输出的声码器特征参数,其中,所述声学参数预测模型包括:编码器、解码器和注意力模型,所述将所述音素序列输入所述语音合成模型中的声学参数预测模型,转换为声学特征参数包括:确定当前时刻所述编码器输出的各个特征表示的注意力权重,判断所述音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值,如果是,则结束解码过程,其中,所述特征表示的注意力权重由所述注意力模型生成;
将所述声码器特征参数输入声码器,生成语音。
2.根据权利要求1所述的语音合成方法,其中,
所述将文本划分为不同语言的片段包括:
根据所述文本中字符的编码,识别文本中的不同语言的字符;
将同一种语言的连续字符划分为该语言的片段。
3.根据权利要求1所述的语音合成方法,其中,所述生成所述文本的音素序列包括:
确定所述文本的韵律结构;
根据所述文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成所述文本的音素序列。
4.根据权利要求1所述的语音合成方法,其中,
所述声学特征参数包括语音频谱参数;
所述声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
5.根据权利要求1所述的语音合成方法,其中,
在所述声学特征参数的频率小于所述声码器特征参数的频率的情况下,通过重复所述声学特征参数进行上采样,使所述声学特征参数的频率等于所述声码器特征参数的频率。
6.根据权利要求1所述的语音合成方法,还包括:训练所述语音合成模型;其中,
所述训练方法包括:
根据预设频率将训练文本对应的语音样本划分为不同的帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本;
利用所述训练文本和对应的第一声学特征参数样本,对所述声学参数预测模型进行训练;
利用训练完成的声学参数预测模型,将所述训练文本转换为第二声学特征参数样本;
根据所述声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本;
利用所述第二声学特征参数样本和所述声码器特征参数样本对所述声码器参数转换模型进行训练。
7.根据权利要求1所述的语音合成方法,其中,
所述声学参数预测模型包括:编码器、解码器和注意力模型;
所述将所述音素序列输入所述语音合成模型中的声学参数预测模型,转换为声学特征参数包括:
将所述音素序列输入所述编码器,获得所述编码器输出各个元素对应的特征表示;
将所述各个元素对应的特征表示、所述解码器中第一循环层当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入所述注意力模型,获得上下文向量;
将所述解码器中第一循环层当前时刻输出的解码器隐状态和所述上下文向量输入所述解码器的第二循环层,获得所述解码器第二循环层输出的当前时刻的解码器隐状态;
根据所述解码器输出的各个时刻的解码器隐状态预测所述声学特征参数。
8.根据权利要求1所述的语音合成方法,其中,
将所述不同语言的片段分别转换为对应的音素包括:
将不同语言的片段分别进行文本归一化;
将归一化后的不同语言的片段分别进行分词;
将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素。
9.一种语音合成装置,包括:
语言识别模块,用于将文本划分为不同语言的片段;
音素转换模块,用于将所述不同语言的片段分别转换为对应的音素,生成所述文本的音素序列,其中,所述音素序列包括每个字符对应的音素、韵律标识,音素包括字符对应的音调;
参数转换模块,用于将所述音素序列输入预先训练的语音合成模型,转换为声码器特征参数,包括:将所述音素序列输入所述语音合成模型中的声学参数预测模型,转换为声学特征参数,将所述声学特征参数输入所述语音合成模型中声码器参数转换模型,得到输出的声码器特征参数,其中,所述声学参数预测模型包括:编码器、解码器和注意力模型,所述参数转换模块用于确定当前时刻所述编码器输出的各个特征表示的注意力权重,判断所述音素序列中预设元素对应的特征表示的注意力权重是否为各个注意力权重中的最大值,如果是,则结束解码过程,其中,隐状态的注意力权重由所述注意力模型生成;
语音生成模块,用于将所述声码器特征参数输入声码器,生成语音。
10.根据权利要求9所述的语音合成装置,其中,
所述语言识别模块用于根据所述文本中字符的编码,识别文本中的不同语言的字符;将同一种语言的连续字符划分为该语言的片段。
11.根据权利要求9所述的语音合成装置,其中,
所述音素转换模块用于确定所述文本的韵律结构;根据所述文本的韵律结构,在与字符对应的音素后添加韵律标识,以形成所述文本的音素序列。
12.根据权利要求9所述的语音合成装置,其中,
所述声学特征参数包括语音频谱参数;
所述声码器参数转换模型由多层深度神经网络和长短期记忆网络构成。
13.根据权利要求9所述的语音合成装置,其中,
在所述声学特征参数的频率小于所述声码器特征参数的频率的情况下,通过重复所述声学特征参数进行上采样,使所述声学特征参数的频率等于所述声码器特征参数的频率。
14.根据权利要求9所述的语音合成装置,还包括:
模型训练模块,用于根据预设频率将训练文本对应的语音样本划分为不同的帧,并将各帧提取声学特征参数,生成对应的第一声学特征参数样本;利用所述训练文本和对应的第一声学特征参数样本,对所述声学参数预测模型进行训练;利用训练完成的声学参数预测模型,将所述训练文本转换为第二声学特征参数样本;根据所述声码器的合成频率,将训练文本对应的语音样本转换为声码器特征参数样本;利用所述第二声学特征参数样本和所述声码器特征参数样本对所述声码器参数转换模型进行训练。
15.根据权利要求9所述的语音合成装置,其中,
所述声学参数预测模型包括:编码器、解码器和注意力模型;
所述参数转换模块用于将所述音素序列输入所述编码器,获得所述编码器输出各个元素对应的特征表示;将所述各个元素对应的特征表示、所述解码器中第一循环层当前时刻输出的解码器隐状态,以及上一时刻各个元素对应的累积注意力权重信息输入所述注意力模型,获得上下文向量;将所述解码器中第一循环层当前时刻输出的解码器隐状态和所述上下文向量输入所述解码器的第二循环层,获得所述解码器第二循环层输出的当前时刻的解码器隐状态;根据所述解码器输出的各个时刻的解码器隐状态预测所述声学特征参数。
16.根据权利要求9所述的语音合成装置,其中,
所述音素转换模块用于将不同语言的片段分别进行文本归一化;将归一化后的不同语言的片段分别进行分词;将不同语言的片段的分词,根据预设的音素转换表转换为对应的音素。
17.一种语音合成装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-8任一项所述的语音合成方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910266289.4A CN111798832B (zh) | 2019-04-03 | 2019-04-03 | 语音合成方法、装置和计算机可读存储介质 |
| US17/600,850 US11881205B2 (en) | 2019-04-03 | 2020-03-30 | Speech synthesis method, device and computer readable storage medium |
| EP20783784.0A EP3937165B1 (en) | 2019-04-03 | 2020-03-30 | Speech synthesis method and apparatus, and computer-readable storage medium |
| JP2021558871A JP7464621B2 (ja) | 2019-04-03 | 2020-03-30 | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 |
| PCT/CN2020/082172 WO2020200178A1 (zh) | 2019-04-03 | 2020-03-30 | 语音合成方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910266289.4A CN111798832B (zh) | 2019-04-03 | 2019-04-03 | 语音合成方法、装置和计算机可读存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111798832A CN111798832A (zh) | 2020-10-20 |
| CN111798832B true CN111798832B (zh) | 2024-09-20 |
Family
ID=72664952
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201910266289.4A Active CN111798832B (zh) | 2019-04-03 | 2019-04-03 | 语音合成方法、装置和计算机可读存储介质 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US11881205B2 (zh) |
| EP (1) | EP3937165B1 (zh) |
| JP (1) | JP7464621B2 (zh) |
| CN (1) | CN111798832B (zh) |
| WO (1) | WO2020200178A1 (zh) |
Families Citing this family (61)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116457870B (zh) * | 2020-10-21 | 2025-11-11 | 谷歌有限责任公司 | 并行化Tacotron:非自回归且可控的TTS |
| CN112331183B (zh) * | 2020-10-27 | 2022-03-18 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
| CN112365878B (zh) * | 2020-10-30 | 2024-01-23 | 广州华多网络科技有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
| CN112185340B (zh) * | 2020-10-30 | 2024-03-15 | 网易(杭州)网络有限公司 | 语音合成方法、语音合成装置、存储介质与电子设备 |
| CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
| CN112420016B (zh) * | 2020-11-20 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
| JP7487794B2 (ja) * | 2020-11-25 | 2024-05-21 | 日本電信電話株式会社 | ラベリング処理方法、ラベリング処理装置およびラベリング処理プログラム |
| CN112634865B (zh) * | 2020-12-23 | 2022-10-28 | 爱驰汽车有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
| CN113539231B (zh) * | 2020-12-30 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 音频处理方法、声码器、装置、设备及存储介质 |
| CN114765022A (zh) * | 2020-12-30 | 2022-07-19 | 大众问问(北京)信息科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
| CN112885328B (zh) | 2021-01-22 | 2024-06-28 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
| CN112951200B (zh) * | 2021-01-28 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
| CN112992177B (zh) * | 2021-02-20 | 2023-10-17 | 平安科技(深圳)有限公司 | 语音风格迁移模型的训练方法、装置、设备及存储介质 |
| CN112802449B (zh) * | 2021-03-19 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 音频合成方法、装置、计算机设备及存储介质 |
| CN113035228B (zh) * | 2021-03-23 | 2024-08-23 | 广州酷狗计算机科技有限公司 | 声学特征提取方法、装置、设备及存储介质 |
| WO2022203167A1 (en) * | 2021-03-25 | 2022-09-29 | Samsung Electronics Co., Ltd. | Speech recognition method, apparatus, electronic device and computer readable storage medium |
| CN115223539B (zh) * | 2021-03-30 | 2025-02-25 | 暗物智能科技(广州)有限公司 | 一种豪萨语语音合成方法及系统 |
| CN113761841B (zh) | 2021-04-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 将文本数据转换为声学特征的方法 |
| CN113763922B (zh) * | 2021-05-12 | 2025-08-12 | 腾讯科技(深圳)有限公司 | 音频合成方法和装置、存储介质及电子设备 |
| CN113345412A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备以及存储介质 |
| CN113362803B (zh) * | 2021-05-31 | 2023-04-25 | 杭州芯声智能科技有限公司 | 一种arm侧离线语音合成的方法、装置及存储介质 |
| CN113345415B (zh) * | 2021-06-01 | 2024-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
| CN113327576B (zh) * | 2021-06-03 | 2024-04-23 | 多益网络有限公司 | 语音合成方法、装置、设备及存储介质 |
| CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
| CN113409761B (zh) * | 2021-07-12 | 2022-11-01 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备以及计算机可读存储介质 |
| CN113724683B (zh) * | 2021-07-23 | 2024-03-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频生成方法、计算机设备及计算机可读存储介质 |
| CN113808571B (zh) * | 2021-08-17 | 2022-05-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备以及存储介质 |
| CN113838452B (zh) * | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
| CN113838453B (zh) * | 2021-08-17 | 2022-06-28 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备和计算机存储介质 |
| CN113707125B (zh) * | 2021-08-30 | 2024-02-27 | 中国科学院声学研究所 | 一种多语言语音合成模型的训练方法及装置 |
| CN114299910B (zh) * | 2021-09-06 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
| CN114049873B (zh) * | 2021-10-29 | 2025-07-08 | 北京搜狗科技发展有限公司 | 语音克隆方法、训练方法、装置和介质 |
| GB2612624B (en) * | 2021-11-05 | 2025-10-15 | Spotify Ab | Methods and systems for synthesising speech from text |
| CN114267376B (zh) * | 2021-11-24 | 2022-10-18 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
| CN114267375B (zh) * | 2021-11-24 | 2022-10-28 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
| CN114495899B (zh) * | 2021-12-29 | 2025-03-18 | 深圳市优必选科技股份有限公司 | 一种基于时长信息的音频合成方法、装置及终端设备 |
| CN114399991A (zh) * | 2022-01-27 | 2022-04-26 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
| CN114678005B (zh) * | 2022-04-11 | 2025-09-23 | 平安科技(深圳)有限公司 | 一种语音合成方法、结构、终端及存储介质 |
| CN115101041B (zh) * | 2022-05-09 | 2025-03-11 | 北京百度网讯科技有限公司 | 语音合成与语音合成模型的训练方法、装置 |
| CN115691476B (zh) * | 2022-06-06 | 2023-07-04 | 腾讯科技(深圳)有限公司 | 语音识别模型的训练方法、语音识别方法、装置及设备 |
| CN115132170B (zh) * | 2022-06-28 | 2025-06-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 语种分类方法、装置及计算机可读存储介质 |
| CN115223538B (zh) * | 2022-07-13 | 2025-07-25 | 深圳市腾讯计算机系统有限公司 | 声码器模型的训练方法、装置、设备、介质及程序产品 |
| US20240054989A1 (en) * | 2022-08-15 | 2024-02-15 | Tencent America LLC | Systems and methods for character-to-phone conversion |
| CN116665636B (zh) * | 2022-09-20 | 2024-03-12 | 荣耀终端有限公司 | 音频数据处理方法、模型训练方法、电子设备和存储介质 |
| US12518736B2 (en) * | 2022-11-09 | 2026-01-06 | Square Enix Co., Ltd. | Non-transitory computer-readable medium and voice generating system |
| CN116052636A (zh) * | 2023-01-13 | 2023-05-02 | 长城汽车股份有限公司 | 中文语音合成方法、装置、终端及存储介质 |
| CN118782018A (zh) * | 2023-04-03 | 2024-10-15 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
| CN116665641A (zh) * | 2023-06-07 | 2023-08-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频帧的基频预测方法、模型的训练方法及其装置 |
| US12469507B2 (en) | 2023-06-14 | 2025-11-11 | Microsoft Technology Licensing, Llc | Predictive context-based decoder correction |
| US12363319B2 (en) | 2023-06-14 | 2025-07-15 | Microsoft Technology Licensing, Llc | Object-based context-based decoder correction |
| US20250045524A1 (en) * | 2023-07-31 | 2025-02-06 | Paypal, Inc. | Systems and methods for establishing multilingual context-preserving chunk library |
| CN117475992A (zh) * | 2023-11-21 | 2024-01-30 | 支付宝(杭州)信息技术有限公司 | 语音合成方法、装置、设备及存储介质 |
| CN117765926B (zh) * | 2024-02-19 | 2024-05-14 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
| CN118486294B (zh) * | 2024-06-05 | 2025-03-25 | 内蒙古工业大学 | 一种基于分离对比学习的蒙古语未登录词读音增强方法 |
| CN118840996B (zh) * | 2024-06-27 | 2025-09-30 | 合肥智能语音创新发展有限公司 | 一种发音预测方法及相关装置 |
| CN118571236B (zh) * | 2024-08-05 | 2024-10-29 | 上海岩芯数智人工智能科技有限公司 | 一种基于音域范围的音频token化编码方法及装置 |
| CN119446114B (zh) * | 2024-09-30 | 2025-09-30 | 平安科技(深圳)有限公司 | 一种语音合成方法、装置、设备及其存储介质 |
| CN119724150B (zh) * | 2024-12-12 | 2025-11-14 | 安徽讯飞寰语科技有限公司 | 语音合成方法、系统、电子设备及存储介质 |
| CN120032621B (zh) * | 2025-01-16 | 2025-12-05 | 思必驰科技股份有限公司 | 面向vqtts模型的语音合成缺陷修正方法、设备及存储介质 |
| CN119724148B (zh) * | 2025-02-27 | 2025-06-17 | 科大讯飞股份有限公司 | 语音合成方法及相关装置、设备和存储介质 |
| CN120580987B (zh) * | 2025-06-23 | 2025-12-02 | 广州佰锐网络科技有限公司 | 一种基于深度学习的多语言tts实时合成方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
Family Cites Families (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
| JP2975586B2 (ja) * | 1998-03-04 | 1999-11-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声合成システム |
| US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
| AU2004318192A1 (en) * | 2004-04-06 | 2005-10-20 | Department Of Information Technology | A system for multiligual machine translation from English to Hindi and other Indian languages using pseudo-interlingua and hybridized approach |
| US20050267757A1 (en) * | 2004-05-27 | 2005-12-01 | Nokia Corporation | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
| TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
| US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
| EP2276023A3 (en) * | 2005-11-30 | 2011-10-05 | Telefonaktiebolaget LM Ericsson (publ) | Efficient speech stream conversion |
| WO2010142928A1 (en) | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
| US8478581B2 (en) * | 2010-01-25 | 2013-07-02 | Chung-ching Chen | Interlingua, interlingua engine, and interlingua machine translation system |
| US8688435B2 (en) * | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
| US9483461B2 (en) * | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9484014B1 (en) * | 2013-02-20 | 2016-11-01 | Amazon Technologies, Inc. | Hybrid unit selection / parametric TTS system |
| US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
| CN106297764B (zh) * | 2015-05-27 | 2019-07-30 | 科大讯飞股份有限公司 | 一种多语种混语文本处理方法及系统 |
| US9865251B2 (en) * | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
| TWI605350B (zh) * | 2015-07-21 | 2017-11-11 | 華碩電腦股份有限公司 | 文字轉語音方法以及多語言語音合成裝置 |
| RU2632424C2 (ru) * | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
| JP6819988B2 (ja) * | 2016-07-28 | 2021-01-27 | 国立研究開発法人情報通信研究機構 | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム |
| US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
| US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
| CN107945786B (zh) | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
-
2019
- 2019-04-03 CN CN201910266289.4A patent/CN111798832B/zh active Active
-
2020
- 2020-03-30 JP JP2021558871A patent/JP7464621B2/ja active Active
- 2020-03-30 WO PCT/CN2020/082172 patent/WO2020200178A1/zh not_active Ceased
- 2020-03-30 US US17/600,850 patent/US11881205B2/en active Active
- 2020-03-30 EP EP20783784.0A patent/EP3937165B1/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3937165A1 (en) | 2022-01-12 |
| US20220165249A1 (en) | 2022-05-26 |
| EP3937165A4 (en) | 2023-05-10 |
| CN111798832A (zh) | 2020-10-20 |
| WO2020200178A1 (zh) | 2020-10-08 |
| JP7464621B2 (ja) | 2024-04-09 |
| US11881205B2 (en) | 2024-01-23 |
| EP3937165B1 (en) | 2025-10-22 |
| EP3937165C0 (en) | 2025-10-22 |
| JP2022527970A (ja) | 2022-06-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111798832B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
| KR102246943B1 (ko) | 다중 언어 텍스트-음성 합성 방법 | |
| CN115547293B (zh) | 一种基于分层韵律预测的多语言语音合成方法及系统 | |
| KR102639322B1 (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
| CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
| CN107464559A (zh) | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 | |
| CN114464162B (zh) | 语音合成方法、神经网络模型训练方法、和语音合成模型 | |
| CN113628609A (zh) | 自动音频内容生成 | |
| CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
| CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
| CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
| CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
| Ma et al. | Tuning large language model for speech recognition with mixed-scale re-tokenization | |
| CN118800212A (zh) | 语音合成前端处理方法、装置、设备和存储介质 | |
| CN119517004A (zh) | 文本转换语音的方法、装置、设备及存储介质 | |
| CN114267330B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
| JP7357518B2 (ja) | 音声合成装置及びプログラム | |
| CN115938341A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
| CN118057522A (zh) | 语音合成方法、模型训练方法、装置、设备及存储介质 | |
| CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
| Jiang et al. | A method of phonemic annotation for Chinese dialects based on a deep learning model with adaptive temporal attention and a feature disentangling structure | |
| Zhang et al. | Chinese speech synthesis system based on end to end | |
| CN118298797A (zh) | 基于低资源的语音合成模型训练方法、装置、设备及介质 | |
| Le Maguer et al. | Agile MaryTTS Architecture for the Blizzard Challenge 2018 | |
| CN120708591A (zh) | 语音合成方法、装置和电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20210521 Address after: 100176 room 1004, 10th floor, building 1, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: Beijing Huijun Technology Co.,Ltd. Address before: 100086 8th Floor, 76 Zhichun Road, Haidian District, Beijing Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd. Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd. |
|
| TA01 | Transfer of patent application right | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |