[go: up one dir, main page]

CN107818792A - 音频转换方法及装置 - Google Patents

音频转换方法及装置 Download PDF

Info

Publication number
CN107818792A
CN107818792A CN201711020968.0A CN201711020968A CN107818792A CN 107818792 A CN107818792 A CN 107818792A CN 201711020968 A CN201711020968 A CN 201711020968A CN 107818792 A CN107818792 A CN 107818792A
Authority
CN
China
Prior art keywords
audio
information
converted
target
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711020968.0A
Other languages
English (en)
Inventor
齐路
颜钊
张姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201711020968.0A priority Critical patent/CN107818792A/zh
Publication of CN107818792A publication Critical patent/CN107818792A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种音频转换方法及装置,该音频转换方法包括:接收用户触发的音频转换请求,获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。本发明中,实现了对待转换音频的转换处理,提高了对音频信息的转换精准度,进而提升以及丰富了用户的使用体验感受。

Description

音频转换方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种音频转换方法及装置。
背景技术
在日常的生活交流中,一个人的声音往往就是他的身份名片,听到自己熟悉人的声音后,就可辨认出这个人。在辨认人时,不只是通过该声音的音色,还有该声音的语调语速,不同的人在说同一句话,会有着不同的语调、语速。
声音转换是声音信号处理领域近年来新兴的研究分支,声音转换技术是指在保持语义内容不变的情况下,通过改变一个原说话人的语音个性特征,使他说的话被听者认为是目标说话人说的话,由于可以将一个发音人的声音转换为另一个发音人的声音,使人听起来像是另一个人的声音,有着广泛的应用前景,如用户可以将自己说话的声音转换成所喜欢明星的声音,或转换成用户自己熟悉人说话的声音。
对于现有技术中的语音转换处理,通常是经过调整原说话人的语速或语调,从而实现将原说话人的声音转换为目标说话人的声音,虽然经过上述转换处理之后,可以使转换后的语音与目标说话人的语速、语调相对匹配,但其转换得到的语音相比较于目标说话人的声音,还是存在一定的差异,无法实现相对完美的语音转换。
发明内容
本发明提供音频转换方法及装置,以实现对待转换音频信息的转换处理,提高对音频信息的转换精准度,进而提升以及丰富用户的使用体验感受。
本发明提供了一种音频转换方法,包括:
接收用户触发的音频转换请求,获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
优选地,所述根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;
并根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
优选地,所述根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,还包括:
对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
其中,根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息以及得到的待转换声学特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息,包括:
对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息;
对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
优选地,所述根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的节奏转换处理模块对得到的待转换音素特征信息按照所述目标音频特征信息进行节奏转换,将所述待转换音素特征信息转换为与所述目标特征信息节奏相同的特征信息。
优选地,所述对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息,包括:
对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列,其中,该音素序列为由构成该待转换音频信息的各音素组成的序列。
优选地,在进行节奏转换之前,所述对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息,还包括:
对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素时长以及音素上下文特征信息;
其中,该音素时长为各音素在所构成的待转换音频信息的上下文信息中所占时长;
该音素上下文特征信息为各音素在所构成的待转换音频信息中所归属的上下文的特征信息。
优选地,还包括:
采集所述音频转换请求中携带的待转换音频信息;
并根据用户的指示信息将该音频转换请求中携带的待转换音频信息通过数据上传请求发送到服务器,以使所述服务器根据接收到的待转换音频信息对所述音频转换处理模块集合中的样本数据进行更新。
优选地,所述将该待转换音频信息通过数据上传请求发送到服务器时,包括如下任意一种发送条件:
实时向服务器发送数据上传请求;
每隔预设时间段向服务器发送数据上传请求;
待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。
优选地,还包括:
接收服务器发送的更新指示,所述更新指示中携带有音频转换处理模块集合的更新信息;
根据所述音频转换处理模块集合的更新信息更新存储的该预设的音频转换处理模块集合。
优选地,所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。
本发明还提供了一种音频转换装置,其特征在于,包括:
接收单元,用于接收用户触发的音频转换请求;
获取单元,用于获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
处理单元,用于对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
转换单元,用于根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
优选地,所述转换单元,具体用于根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;并根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
优选地,所述转换单元,具体用于:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述处理单元,还用于对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
其中,所述转换单元,具体用于根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息以及得到的待转换声学特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述处理单元,用于对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息;对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
优选地,所述转换单元,具体用于:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的节奏转换处理模块对得到的待转换音素特征信息按照所述目标音频特征信息进行节奏转换,将所述待转换特征音素信息转换为与所述目标特征信息节奏相同的特征信息。
优选地,所述处理单元,还用于对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列,其中,该音素序列为由构成该待转换音频信息的各音素组成的序列。
优选地,在所述转换单元进行节奏转换之前,所述处理单元,还用于对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素时长以及音素上下文特征信息;
其中,该音素时长为各音素在所构成的待转换音频信息的上下文信息中所占时长;
该音素上下文特征信息为各音素在所构成的待转换音频信息中所归属的上下文的特征信息。
优选地,还包括:
采集单元,用于采集所述音频转换请求中携带的待转换音频信息;
发送单元,用于根据用户的指示信息将该音频转换请求中携带的待转换音频信息通过数据上传请求发送到服务器,以使所述服务器根据接收到的待转换音频信息对所述音频转换处理模块集合中的样本数据进行更新。
优选地,所述发送单元将该待转换音频信息通过数据上传请求发送到服务器时,包括如下任意一种发送条件:
实时向服务器发送数据上传请求;
每隔预设时间段向服务器发送数据上传请求;
待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。
优选地,还包括:
所述接收单元,还用于接收服务器发送的更新指示,所述更新指示中携带有音频转换处理模块集合的更新信息;
更新单元,用于根据所述音频转换处理模块集合的更新信息更新存储的该预设的音频转换处理模块集合。
优选地,所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的方法。
本发明还提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的音频转换方法对应的操作。
与现有技术相比,本发明至少具有以下优点:
通过对获取到的待转换音频信息进行音素特征提取,使得对音频信息以较为精细的特征信息进行处理,提高了转换的精度,再通过预设的音频转换处理模块集合对该待转换音素特征信息进行音频转换,进一步提高了对待转换音频信息转换时的转换精准度,达到更为准确的对待转换音频信息的音频转换,从而将待转换音频信息转换为目标音频信息,进而提升以及丰富了用户的使用体验感受。
附图说明
图1是本发明提供的音频转换方法的流程示意图;
图2是本发明提供的音频转换处理的流程示意图;
图3是本发明提供的音色转换处理模块构建的流程示意图;
图4是本发明提供的音素识别模块构建的流程示意图;
图5是本发明提供的节奏转换处理模块构建的流程示意图;
图6是本发明提供的音频转换装置的结构示意图。
具体实施方式
本发明提出一种音频转换方法及装置,下面结合附图,对本发明具体实施方式进行详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明中,提供了音频转换方法,如图1、图2所示,包括:
步骤101,接收用户触发的音频转换请求。
在接收到该音频转换请求后,获取其中携带的待转换音频信息和目标音频标识信息。
其中,该待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。当然,上述待转换音频信息和目标音频标识信息的获取方式并不仅限于此种用户触发的音色转换请求的获取方式,对于其他任意的获取方式均在本发明的保护范围之内。
步骤102,对获取到的待转换音频信息进行音素特征提取,得到待转换音素特征信息。
在进行音素特征提取时,针对不同的转换处理过程分为两种不同的音素特征提取过程,该两种转换处理过程包括音色转换处理和节奏转换处理:
用于该音色转换处理过程中的音素特征提取,包括:
对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列,其中,该音素序列为由构成该待转换音频信息的各音素组成的序列。
进一步地,在该音色转换处理过程中,还包括声学特征的提取,即对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
更进一步地,所述对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息,包括:
对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)特征信息;
对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
用于该节奏转换处理过程中的音素特征提取,包括:
对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列、音素时长以及音素上下文特征信息;
其中,该音素序列为由构成该待转换音频信息的各音素组成的序列;
该音素时长为各音素在所构成的待转换音频信息的上下文信息中所占时长;
该音素上下文特征信息为各音素在所构成的待转换音频信息中所归属的上下文的特征信息。
步骤103,根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
本步骤中,所述根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,包括两个转换处理过程:
音色转换处理过程:根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;
节奏转换处理过程:根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
进一步地,在该音色转换处理过程中,所述根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;其中,该目标音频信息及其所包含的目标音频特征信息和目标音频标识信息存储于该预设的音色转换处理模块的数据库中。
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
上述根据预设的音色转换处理模块对得到的待转换特征信息进行音色转换,可以具体包括:
利用该音色转换处理模块对上述特征提取时提取到的各帧对应的MFCC特征信息以及音素序列进行音色转换处理,得到目标特征信息,并在该音色转换处理模块中将该得到的目标特征信息与该音色转换处理模块中存储的目标音频特征信息进行比对,根据二者的匹配程度确定是否得到与目标音频信息音色相同的目标特征信息。
更进一步地,对于本步骤中所涉及的音色转换处理模块,为通过训练深度卷积神经网络得到的一个用于音色转换的模块。其主要处理多媒体信息为音频信息的情况,如图3所示,其设计大体可以包括如下处理:
选取大量的原说话人的音频样本以及目标说话人的音频样本,分别进行音素识别模块的特征抽取处理,得到原说话人的音频帧特征以及目标说话人的音频帧特征;通过对得到的原说话人的音频帧特征以及目标说话人的音频帧特征进行神经网络的深度学习过程处理,从而构建音色转换处理模块。
对于上述音色转换处理模块构建中的音频特征抽取,是抽取到的声学特征信息和音素特征信息。
其中,在上述所构建的音色转换处理模块中的特征抽取处理过程中所使用的音素识别模块,其构建过程如图4所示,包括如下处理:
选取大量的音频样本,获取每个音频样本对应的文本信息,对音频样本进行语音特征抽取,得到对应的语音帧的特征信息;同时对各音频样本的文本信息进行音素特征的抽取,得到对应的音素的特征信息;通过对得到的语音帧的特征信息以及音素的特征信息进行神经网络的深度学习过程处理,从而构建出音素识别模块。
其中,上述音色转换处理模块和音素识别模块中所涉及的神经网络均可以为CNN((Convolutional Neural Network,卷积神经网络)、DNN(Deep Neural Network,深层神经网络)或RNN(Recurrent neural Network、循环神经网络)。
进一步地,在该节奏转换处理过程中,所述根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;其中,该目标音频信息及其所包含的目标音频特征信息和目标音频标识信息存储于该预设的节奏转换处理模块的数据库中。
根据预设的节奏转换处理模块对得到的待转换音素特征信息按照所述目标音频特征信息进行节奏转换,将所述待转换音素特征信息转换为与所述目标特征信息节奏相同的特征信息。
上述根据预设的节奏转换处理模块对得到的待转换特征信息进行节奏转换,可以具体包括:
利用该节奏转换处理模块对上述特征提取时提取到的音素序列、音素时长以及音素上下文特征信息进行节奏转换处理,在转换时参照其数据库中存储的目标音频信息所对应的目标音频特征信息(包括目标音频信息对应的音素序列、音素时长以及音素上下文特征信息),从而得到与该目标音频信息的目标音频特征信息相同的特征信息,也即将该待转换特征信息转换为与所述目标特征信息节奏相同的特征信息。
进一步地,对于本步骤中所涉及的节奏转换处理模块,为通过训练GMM(GaussianMixture Model,高斯混合模型)-HMM(Hidden Markov Model,隐马尔可夫模型)得到的一个用于节奏转换的模块。其主要处理多媒体信息为音频信息的情况,如图5所示,其设计大体可以包括如下处理:
选取大量的目标说话人的音频样本,获取每个音频样本对应的文本信息,对音频样本进行音素识别,得到对应的音素序列以及音素时长;同时对各音频样本的文本信息进行文本特征的转换,得到对应的音素上下文特征信息;通过对得到的音素序列、音素时长以及音素上下文特征信息进行GMM-HMM的训练过程处理,从而构建出节奏转换处理模块。
其中,在上述所构建的节奏转换处理模块中所使用的音素识别模块,其构建过程如上述音色转换处理模块中的特征抽取处理过程中所使用的音素识别模块的构建过程,故其构建过程此处不再详细阐述。
更进一步地,本发明还包括服务器侧对音频转换处理模块集合中的音色转换处理模块的数据库和节奏转换处理模块的数据库的更新处理,包括:
采集所述音频转换请求中携带的待转换音频信息;
并根据用户的指示信息将该音频转换请求中携带的待转换音频信息通过数据上传请求发送到服务器,以使所述服务器根据接收到的待转换音频信息对所述音频转换处理模块集合中音色转换处理模块和节奏转换处理模块的数据库中的样本数据进行更新,丰富扩大各数据库中的样本数据。
其中,在将该待转换音频信息通过数据上传请求发送到服务器时,包括如下任意一种发送条件:
实时向服务器发送数据上传请求;
每隔预设时间段向服务器发送数据上传请求;
待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。
本发明还包括终端侧对音频转换处理模块集合中的音色转换处理模块和节奏转换处理模块的更新处理,包括:
接收服务器发送的更新指示,所述更新指示中携带有音频转换处理模块集合的更新信息;
根据所述音频转换处理模块集合的更新信息更新存储的该预设的音频转换处理模块集合。
其中,上述服务器对音色转换处理模块和节奏转换处理模块的更新处理,可以是实时进行更新处理,也可以是每隔一段时间之后进行更新处理;同样的,对于服务器向终端下发更新指示而言,也可以是该服务器更新之后实时下发,或者每隔一段时间之后下发。
针对上述本发明所提供的音频转换方法,下面以两个实施例进行具体阐述。
在下述实施例阐述中,以终端为手机为例进行说明。
实施例一
手机终端接收到用户触发的一条音频转换请求信息,请求将一段语音转换为某个明星A的声音。根据该转换请求信息中携带的明星A声音的音频标识,提取该音频标识对应的目标音频特征信息;对该转换请求信息中携带的那段待转换语音进行音素特征提取,得到对应的待转换音素特征信息;
在音色转换处理模块中,对得到的待转换音频特征信息进行声学特征提取,得到MFCC特征信息,对得到的待转换音素特征信息以及MFCC特征信息进行音色转换,得到目标特征信息,将该目标特征信息与目标音频特征信息进行比对,确定这两者的匹配程度,当匹配程度大于70%时,确定二者匹配,得到与该目标音频特征信息对应的音频信息音色相同的特征信息,进而实现了在音色上将用户的语音转换成了明星A的声音;
在节奏转换处理模块中,对得到的待转换音素特征信息进行节奏转换,将该待转换音素特征信息转换为与该目标音频特征信息节奏相同的特征信息,进而实现了在节奏上将用户的语音转换成了明星A的声音。
通过将经过音色转换和节奏转换得到的声音进行组合,使得用户的语音完全转换成了明星A的声音。
其中,在进行该语音的转换处理时,还会同时将该语音携带于数据上传请求中发送到云端的服务器,从而使得服务器将该语音数据用于对各音频转换处理模块中的数据库的语音数据进行更新,丰富扩大了各音频转换处理模块的数据库中的样本数据,并在更新完成之后,通过该服务器实时向该手机终端下发针对各音频转换处理模块的更新指示,从而使得该手机终端根据接收到的更新指示对自身所存储的各音频转换处理模块进行数据更新。
实施例二
手机终端接收到用户触发的一条转换请求信息,请求将一段语音转换为某个明星B的声音。根据该转换请求信息中携带的明星B声音的音频标识,提取该音频标识对应的目标音频特征信息;对该转换请求信息中携带的那段待转换语音进行音素特征提取,得到对应的待转换音素特征信息;在音色转换处理模块中,对得到的待转换音频特征信息进行声学特征提取,得到MFCC特征信息,对得到的待转换音素特征信息以及MFCC特征信息进行音色转换,得到目标特征信息,将该目标特征信息与目标音频特征信息进行比对,确定这两者的匹配程度,当匹配程度小于70%时,确定二者不匹配,无法得到与该目标音频特征信息对应的音频信息音色相同的特征信息,从而无法实现将用户的语音转换成明星B的声音,需要重新对该语音的转换操作处理,以实现在音色上将用户的语音转换成了明星B的声音;
在节奏转换处理模块中,对得到的待转换音素特征信息进行节奏转换,将该待转换音素特征信息转换为与该目标音频特征信息节奏相同的特征信息,进而实现了在节奏上将用户的语音转换成了明星B的声音。
通过将经过音色转换和节奏转换得到的声音进行组合,使得用户的语音完全转换成了明星B的声音。
其中,在该语音的转换处理结束时,还会每隔预设时间段将该语音携带于数据上传请求中发送到云端的服务器,从而使得服务器将该用于对各音频转换处理模块中数据库的语音数据进行更新,丰富扩大了各音频转换处理模块的数据库中的样本数据,并在更新完成之后,通过该服务器实时向该手机终端下发针对各音频转换处理模块的更新指示,从而使得该手机终端根据接收到的更新指示对自身所存储的各音频转换处理模块进行数据更新。
基于上述本发明所提供的音频转换方法,本发明还提供了一种音频转换装置,如图6所示,包括:
接收单元61,用于接收用户触发的音频转换请求;
获取单元62,用于获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
处理单元63,用于对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
转换单元64,用于根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
优选地,所述转换单元64,具体用于根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;并根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
优选地,所述转换单元64,具体用于:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述处理单元63,还用于对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
其中,所述转换单元64,具体用于根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息以及得到的待转换声学特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述处理单元63,用于对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息;对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
优选地,所述转换单元64,具体用于:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的节奏转换处理模块对得到的待转换音素特征信息按照所述目标音频特征信息进行节奏转换,将所述待转换特征音素信息转换为与所述目标特征信息节奏相同的特征信息。
优选地,所述处理单元63,还用于对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列,其中,该音素序列为由构成该待转换音频信息的各音素组成的序列。
优选地,在所述转换单元64进行节奏转换之前,所述处理单元63,还用于对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素时长以及音素上下文特征信息;
其中,该音素时长为各音素在所构成的待转换音频信息的上下文信息中所占时长;
该音素上下文特征信息为各音素在所构成的待转换音频信息中所归属的上下文的特征信息。
优选地,还包括:
采集单元66,用于采集所述音频转换请求中携带的待转换音频信息;
发送单元66,用于根据用户的指示信息将该音频转换请求中携带的待转换音频信息通过数据上传请求发送到服务器,以使所述服务器根据接收到的待转换音频信息对所述音频转换处理模块集合中的样本数据进行更新。
优选地,所述发送单元66将该待转换音频信息通过数据上传请求发送到服务器时,包括如下任意一种发送条件:
实时向服务器发送数据上传请求;
每隔预设时间段向服务器发送数据上传请求;
待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。
优选地,还包括:
所述接收单元61,还用于接收服务器发送的更新指示,所述更新指示中携带有音频转换处理模块集合的更新信息;
更新单元67,用于根据所述音频转换处理模块集合的更新信息更新存储的该预设的音频转换处理模块集合。
优选地,所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的方法。
本发明还提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的音频转换方法对应的操作。
与现有技术相比,本发明至少具有以下优点:
通过对获取到的待转换音频信息进行音素特征提取,使得对音频信息以较为精细的特征信息进行处理,提高了转换的精度,再通过预设的音频转换处理模块集合对该待转换音素特征信息进行音频转换,进一步提高了对待转换音频信息转换时的转换精准度,达到更为准确的对待转换音频信息的音频转换,从而将待转换音频信息转换为目标音频信息,进而提升以及丰富了用户的使用体验感受。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本发明装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种音频转换方法,其特征在于,包括:
接收用户触发的音频转换请求,获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
2.如权利要求1所述的方法,其特征在于,所述根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;
并根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
3.如权利要求2所述的方法,其特征在于,所述根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
4.如权利要求3中任一项所述的方法,其特征在于,还包括:
对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
其中,根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息以及得到的待转换声学特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
5.如权利要求4所述的方法,其特征在于,所述对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息,包括:
对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息;
对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
6.如权利要求2所述的方法,其特征在于,所述根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的节奏转换处理模块对得到的待转换音素特征信息按照所述目标音频特征信息进行节奏转换,将所述待转换音素特征信息转换为与所述目标特征信息节奏相同的特征信息。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息,包括:
对所述待转换音频信息进行音素特征提取,得到该待转换音频信息的音素序列,其中,该音素序列为由构成该待转换音频信息的各音素组成的序列。
8.一种音频转换装置,其特征在于,包括:
接收单元,用于接收用户触发的音频转换请求;
获取单元,用于获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
处理单元,用于对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
转换单元,用于根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-7中任一项所述的方法。
10.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的音频转换方法对应的操作。
CN201711020968.0A 2017-10-25 2017-10-25 音频转换方法及装置 Pending CN107818792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711020968.0A CN107818792A (zh) 2017-10-25 2017-10-25 音频转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711020968.0A CN107818792A (zh) 2017-10-25 2017-10-25 音频转换方法及装置

Publications (1)

Publication Number Publication Date
CN107818792A true CN107818792A (zh) 2018-03-20

Family

ID=61603298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711020968.0A Pending CN107818792A (zh) 2017-10-25 2017-10-25 音频转换方法及装置

Country Status (1)

Country Link
CN (1) CN107818792A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348274A (zh) * 2018-09-12 2019-02-15 咪咕音乐有限公司 一种直播互动方法、装置及存储介质
CN110071938A (zh) * 2019-05-05 2019-07-30 广州虎牙信息科技有限公司 虚拟形象互动方法、装置、电子设备及可读存储介质
CN111508511A (zh) * 2019-01-30 2020-08-07 北京搜狗科技发展有限公司 实时变声方法及装置
CN111599343A (zh) * 2020-05-14 2020-08-28 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
WO2025161921A1 (zh) * 2024-02-04 2025-08-07 网易(杭州)网络有限公司 语音合成方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211557A (zh) * 2006-12-27 2008-07-02 三星电子株式会社 对音频信号进行后处理的方法和设备
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN103915093A (zh) * 2012-12-31 2014-07-09 安徽科大讯飞信息科技股份有限公司 一种实现语音歌唱化的方法和装置
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的系统和方法
CN107240401A (zh) * 2017-06-13 2017-10-10 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211557A (zh) * 2006-12-27 2008-07-02 三星电子株式会社 对音频信号进行后处理的方法和设备
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的系统和方法
CN103915093A (zh) * 2012-12-31 2014-07-09 安徽科大讯飞信息科技股份有限公司 一种实现语音歌唱化的方法和装置
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107240401A (zh) * 2017-06-13 2017-10-10 厦门美图之家科技有限公司 一种音色转换方法及计算设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348274A (zh) * 2018-09-12 2019-02-15 咪咕音乐有限公司 一种直播互动方法、装置及存储介质
CN111508511A (zh) * 2019-01-30 2020-08-07 北京搜狗科技发展有限公司 实时变声方法及装置
CN110071938A (zh) * 2019-05-05 2019-07-30 广州虎牙信息科技有限公司 虚拟形象互动方法、装置、电子设备及可读存储介质
CN111599343A (zh) * 2020-05-14 2020-08-28 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111599343B (zh) * 2020-05-14 2021-11-09 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
WO2025161921A1 (zh) * 2024-02-04 2025-08-07 网易(杭州)网络有限公司 语音合成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107767879A (zh) 基于音色的音频转换方法及装置
CN109256136B (zh) 一种语音识别方法和装置
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN104036774B (zh) 藏语方言识别方法及系统
CN113724718B (zh) 目标音频的输出方法及装置、系统
JP7255032B2 (ja) 音声認識
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN107818792A (zh) 音频转换方法及装置
CN106537493A (zh) 语音识别系统及方法、客户端设备及云端服务器
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN112562681B (zh) 语音识别方法和装置、存储介质
CN106548775B (zh) 一种语音识别方法和系统
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN109331470A (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
CN112863476B (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112242152B (zh) 语音交互的方法、装置、电子设备及存储介质
CN116403561A (zh) 一种有声书的制作方法、制作装置以及存储介质
CN114708869A (zh) 语音交互方法、装置及电器
CN114255736A (zh) 韵律标注方法及系统
CN112885326B (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
US11769491B1 (en) Performing utterance detection using convolution
CN116913245A (zh) 语音合成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320

RJ01 Rejection of invention patent application after publication