CN106935240A

CN106935240A - 基于人工智能的语音翻译方法、装置、终端设备和云端服务器

Info

Publication number: CN106935240A
Application number: CN201710183965.2A
Authority: CN
Inventors: 周奇; 刁伟卓; 徐鸣
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-07-07

Abstract

本申请提出一种基于人工智能的语音翻译方法、装置、终端设备和云端服务器，上述基于人工智能的语音翻译方法包括：接收用户通过终端设备输入的源语种的语音；将所述源语种的语音发送至云端服务器；接收所述云端服务器发送的目标语种的音频文件；播放所述目标语种的音频文件。本申请可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

Description

基于人工智能的语音翻译方法、装置、终端设备和云端服务器

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于人工智能的语音翻译方法、装置、终端设备和云端服务器。

背景技术

目前在出境游市场，翻译软件基本基于手机端，虽然可以解决一些场景的语言交流难题，但由于在境外使用场景时，语言翻译准确度低，而且出行时地图和/或拍照等应用(Application；以下简称：APP)使用的粘性更高，翻译APP由于需要切换APP调用，在即时性满足上有缺陷。同时，越来越多的中老年出游人群，对于手机软件使用教育成本较高，对于“傻瓜型”即按即用的翻译机存在强烈需求。

但是现有的翻译类硬件产品，基本是电子词典的变型，多为文字查询，语音实时翻译的产品很少，并且准确率较低。另外，现有的翻译类硬件产品多是解决语言学习需求，对于出境游场景的翻译支持度不高，翻译准确率较低。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于人工智能的语音翻译方法。该方法可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

本申请的第二个目的在于提出一种基于人工智能的语音翻译装置。

本申请的第三个目的在于提出一种终端设备。

本申请的第四个目的在于提出一种云端服务器。

本申请的第五个目的在于提出一种包含计算机可执行指令的存储介质。

为了实现上述目的，本申请第一方面实施例的基于人工智能的语音翻译方法，包括：接收用户通过终端设备输入的源语种的语音；将所述源语种的语音发送至云端服务器；接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；播放所述目标语种的音频文件。

本申请实施例的基于人工智能的语音翻译方法中，接收用户通过终端设备输入的源语种的语音之后，将上述源语种的语音发送至云端服务器，然后接收上述云端服务器发送的目标语种的音频文件，最后播放上述目标语种的音频文件，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

为了实现上述目的，本申请第二方面实施例的基于人工智能的语音翻译方法，包括：接收终端设备发送的源语种的语音；对所述源语种的语音进行语音识别，将所述源语种的语音转化为源语种的文本；确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种；将所述源语种的文本翻译成确定的目标语种的文本，对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件；将所述目标语种的音频文件发送给所述终端设备，以供所述终端设备播放。

本申请实施例的基于人工智能的语音翻译方法中，接收终端设备发送的源语种的语音之后，对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本，在确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，将上述源语种的文本翻译成确定的目标语种的文本，并对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件，最后将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

为了实现上述目的，本申请第三方面实施例的基于人工智能的语音翻译装置，设置在终端设备上，所述基于人工智能的语音翻译装置包括：接收模块，用于接收用户通过终端设备输入的源语种的语音；发送模块，用于将所述源语种的语音发送至云端服务器；所述接收模块，还用于接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；播放模块，用于播放所述目标语种的音频文件。

本申请实施例的基于人工智能的语音翻译装置中，接收模块接收用户通过终端设备输入的源语种的语音之后，发送模块将上述源语种的语音发送至云端服务器，然后接收模块接收上述云端服务器发送的目标语种的音频文件，最后播放模块播放上述目标语种的音频文件，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

为了实现上述目的，本申请第四方面实施例的基于人工智能的语音翻译装置，设置在云端服务器上，所述基于人工智能的语音翻译装置包括：接收模块，用于接收终端设备发送的源语种的语音；语音识别模块，用于对所述源语种的语音进行语音识别，将所述源语种的语音转化为源语种的文本；确定模块，用于确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种；翻译模块，用于将所述源语种的文本翻译成所述确定模块确定的目标语种的文本；语音合成模块，用于对所述翻译模块翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件；发送模块，用于将所述语音合成模块获得的目标语种的音频文件发送给所述终端设备，以供所述终端设备播放。

本申请实施例的基于人工智能的语音翻译装置中，接收模块接收终端设备发送的源语种的语音之后，语音识别模块对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本，在确定模块确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，翻译模块将上述源语种的文本翻译成确定的目标语种的文本，语音合成模块对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件，最后发送模块将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

为了实现上述目的，本申请第五方面实施例的终端设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；接收器，用于接收用户通过终端设备输入的源语种的语音；以及在发送器将所述源语种的语音发送至云端服务器之后，接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；所述发送器，用于将所述源语种的语音发送至云端服务器；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

为了实现上述目的，本申请第六方面实施例提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。

为了实现上述目的，本申请第七方面实施例的云端服务器，包括：一个或多个处理器；存储器，用于存储一个或多个程序；接收器，用于接收终端设备发送的源语种的语音；发送器，用于将目标语种的音频文件发送给所述终端设备，以供所述终端设备播放；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

为了实现上述目的，本申请第八方面实施例提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请基于人工智能的语音翻译方法一个实施例的流程图；

图2为本申请基于人工智能的语音翻译方法另一个实施例的流程图；

图3为本申请基于人工智能的语音翻译方法中终端设备一个实施例的示意图；

图4为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图5为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图6为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图7为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图8为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图9为本申请基于人工智能的语音翻译方法再一个实施例的流程图；

图10为本申请基于人工智能的语音翻译装置一个实施例的结构示意图；

图11为本申请基于人工智能的语音翻译装置另一个实施例的结构示意图；

图12为本申请基于人工智能的语音翻译装置再一个实施例的结构示意图；

图13为本申请基于人工智能的语音翻译装置再一个实施例的结构示意图；

图14为本申请终端设备一个实施例的结构示意图；

图15为本申请云端服务器一个实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

人工智能(Artificial Intelligence；以下简称：AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

图1为本申请基于人工智能的语音翻译方法一个实施例的流程图，如图1所示，上述基于人工智能的语音翻译方法可以包括：

步骤101，接收用户通过终端设备输入的源语种的语音。

步骤102，将上述源语种的语音发送至云端服务器。

具体地，终端设备可以通过脉冲编码调制(Pulse Code Modulation；以下简称：PCM)格式将上述源语种的语音上传至云端服务器。

步骤103，接收上述云端服务器发送的目标语种的音频文件，上述目标语种的音频文件是云端服务器对上述源语种的语音进行语音识别，确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的。

具体地，云端服务器发送给终端设备的目标语种的音频文件也是PCM格式的文件。

云端服务器对翻译成的目标语种的文本进行语音合成采用的是从文本到语音(Text To Speech；以下简称：TTS)服务。

步骤104，播放上述目标语种的音频文件。

上述基于人工智能的语音翻译方法中，接收用户通过终端设备输入的源语种的语音之后，将上述源语种的语音发送至云端服务器，然后接收上述云端服务器发送的目标语种的音频文件，最后播放上述目标语种的音频文件，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

图2为本申请基于人工智能的语音翻译方法另一个实施例的流程图，如图2所示，本申请图1所示实施例中步骤101可以为：

步骤201，接收用户在触发上述终端设备的翻译按键之后通过上述终端设备的麦克风输入的源语种的语音。

本实施例中，上述终端设备的翻译按键可以为上述终端设备上设置的机械按键，也可以为上述终端设备上设置的虚拟按键，本实施例对上述翻译案件的形态不作限定，但本实施例以上述翻译按键为上述终端设备上设置的机械按键为例进行说明。

其中，触发上述翻译按键的方式可以为长按，也可以为单次点击或双击等等，本实施例对触发上述翻译按键的方式不作限定，本实施例以触发上述翻译按键的方式为长按为例进行说明。

需要说明的是，本实施例中，上述终端设备的翻译按键的数量为1个，如图3所示，图3为本申请基于人工智能的语音翻译方法中终端设备一个实施例的示意图。

也就是说，本实施例的终端设备在硬件设计上，语音识别+翻译可以以一个机械键触发。用户使用时，只要长按翻译按键，向麦克风说出想要翻译的语音，例如：“我想去最近的地铁站”，然后松开翻译按键，上述终端设备将播放出“I want to go to the nearestsubway station”的语音结果，从而实现了语音的实时“一键”翻译。

图4为本申请基于人工智能的语音翻译方法再一个实施例的流程图，如图4所示，本申请图1所示实施例中，步骤103之前，还可以包括：

步骤401，获得上述用户设置的目标语种，将上述用户设置的目标语种上传至上述云端服务器，以便上述云端服务器对应保存上述终端设备的标识与上述目标语种，上述目标语种包括至少两种语种，上述至少两种语种中包括上述源语种。

具体地，用户在终端设备上设置目标语种之后，终端设备就可以获得上述用户设置的目标语种，然后终端设备将上述用户设置的目标语种上传至上述云端服务器，由云端服务器对应保存上述终端设备的标识与上述目标语种，其中，上述终端设备的标识为可以唯一标识上述终端设备的信息，例如：上述终端设备的设备号，本实施例对上述终端设备的标识的形式不作限定。

上述目标语种可以包括至少两种语种，上述至少两种语种中包括上述源语种，也就是说，本实施例中，终端设备可以在用户设置的至少两种目标语种中实现语音互译。举例来说，假设用户设置的目标语种为“中英”，那么用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说中文“我想去最近的地铁站”，然后松开翻译按键，通过本申请提供的基于人工智能的语音翻译方法，上述终端设备将播放出“I want to go to thenearest subway station”的语音结果；而如果用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说英文“I want to go to the nearest subway station”，然后松开翻译按键，通过本申请提供的基于人工智能的语音翻译方法，上述终端设备将播放出“我想去最近的地铁站”的语音结果。

同理，上述目标语种也可以为“中英日”，那么上述终端设备将在中文、英文和日文之间实现语音互译，用户如果输入一句中文，那么终端设备将依次播放这句中文的日文译文和英文译文，如果输入一句英文，那么终端设备将依次播放这句英文的中文译文和日文译文，以此类推，在此不再赘述。

通过上面的描述可以看出，本实施例中，无论是需要将中文翻译为英文，还是将英文翻译为中文，都是通过同一翻译按键触发源语种的语音的输入，这提高了本申请中终端设备的易用性，方便用户的使用。

图5为本申请基于人工智能的语音翻译方法再一个实施例的流程图，本实施例中，上述用户包括第一用户和第二用户，上述目标语种包括第一语种和第二语种；如图5所示，上述基于人工智能的语音翻译方法可以包括：

步骤501，接收第一用户通过终端设备输入的源语种的语音。

步骤502，将上述源语种的语音发送至云端服务器。

步骤503，接收上述云端服务器发送的第二语种的音频文件，上述第二语种的音频文件是云端服务器对上述源语种的语音进行语音识别和声纹识别，确定上述源语种的语音为第一用户通过上述终端设备输入的第一语种的语音，以及确定将上述第一语种的语音翻译为第二语种之后，将语音识别获得的文本翻译成第二语种的文本，以及对翻译成的第二语种的文本进行语音合成后获得的。

步骤504，播放上述第二语种的音频文件。

步骤505，接收第二用户通过上述终端设备输入的另一源语种的语音。

步骤506，将上述另一源语种的语音发送至云端服务器。

步骤507，接收上述云端服务器发送的第一语种的音频文件，上述第一语种的音频文件是云端服务器对上述另一源语种的语音进行语音识别和声纹识别，确定上述另一源语种的语音为第二用户通过上述终端设备输入的第二语种的语音，以及确定将上述第二语种的语音翻译为第一语种之后，将语音识别获得的文本翻译成上述第一语种的文本，以及对翻译成的第一语种的文本进行语音合成后获得的。

步骤508，播放上述第一语种的音频文件。

如上所述，本实施例可以实现多轮语音互译，仍以目标语种为中文和英文为例，在出入境海关、点餐结账、购物砍价和/或酒店入住离店等场景，第一用户可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段中文语音，然后按照本申请提供的基于人工智能的语音翻译方法，上述终端设备将获得上述中文语音对应的英文译文的语音，并播放出来，第二用户听了这段英文译文的语音之后，仍然可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段英文语音，然后按照本申请提供的基于人工智能的语音翻译方法，上述终端设备将获得上述英文语音对应的中文译文的语音，并播放出来，这样，第一用户与第二用户通过上述终端设备就可以实现顺畅沟通，可充分满足出境游等场景的翻译需求。

进一步地，本申请提供的基于人工智能的语音翻译方法中，还可以将上述终端设备的无线通信信号提供给另一终端设备，以供上述另一终端设备连接到互联网。具体地，上述终端设备的无线通信信号可以为无线保真(Wireless Fidel ity；以下简称：WiFi)信号，也就是说，本实施例中，上述终端设备还具备WiFi功能，用户可以通过无线网络查找并连接到上述终端设备提供的WiFi，满足手机和/或电脑等至少一台电子设备的上网需求，并且与手机蜂窝网络境外漫游相比价格更便宜，信号更稳定。

上述实施例中的终端设备将实时语音翻译功能与原有的随身WiFi功能相结合，既能畅享网络，又可以在需要时一键调用26国语种的语音实时翻译。在商务交流、多语言学习、出入境旅游和/或景点导览等场景可以高效满足用户的上网及翻译需求，提高了用户体验。

图6为本申请基于人工智能的语音翻译方法再一个实施例的流程图，如图6所示，上述基于人工智能的语音翻译方法可以包括：

步骤601，接收终端设备发送的源语种的语音。

具体地，上述源语种的语音为PCM格式。

步骤602，对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本。

步骤603，确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种。

步骤604，将上述源语种的文本翻译成确定的目标语种的文本，对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件。

具体地，可以通过TTS服务对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件。

步骤605，将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放。

上述基于人工智能的语音翻译方法中，接收终端设备发送的源语种的语音之后，对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本，在确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，将上述源语种的文本翻译成确定的目标语种的文本，并对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件，最后将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

图7为本申请基于人工智能的语音翻译方法再一个实施例的流程图，本实施例中，上述目标语种可以包括第一语种和第二语种；如图7所示，本申请图6所示实施例中，步骤603可以包括：

步骤701，对上述源语种的语音进行声纹识别，确定上述源语种的语音为第一用户通过上述终端设备输入的第一语种的语音。

步骤702，根据预先保存的上述终端设备的标识对应的目标语种，确定将上述第一语种的语音翻译为第二语种的音频文件。

也就是说，本实施例中，云端服务器通过声纹识别，确定上述源语种的语音为第一用户输入的第一语种的语音之后，根据上述终端设备的标识查找到上述终端设备的标识对应的目标语种包括第一语种和第二语种，由于源语种是第一语种，因此云端服务器可以确定需要将上述第一语种的语音翻译为第二语种的音频文件。

图8为本申请基于人工智能的语音翻译方法再一个实施例的流程图，如图8所示，可以包括：

步骤801，接收终端设备发送的源语种的语音。

步骤802，对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本。

步骤803，对上述源语种的语音进行声纹识别，确定上述源语种的语音为第一用户通过上述终端设备输入的第一语种的语音。

步骤804，根据预先保存的上述终端设备的标识对应的目标语种，确定将上述第一语种的语音翻译为第二语种的音频文件。

步骤805，将上述源语种的文本翻译成第二语种的文本，对翻译成的第二语种的文本进行语音合成，获得第二语种的音频文件。

步骤806，将上述第二语种的音频文件发送给上述终端设备，以供上述终端设备播放。

步骤807，接收终端设备发送的另一源语种的语音。

步骤808，对上述另一源语种的语音进行声纹识别，确定上述另一源语种的语音为第二用户通过上述终端设备输入的第二语种的语音。

步骤809，对上述第二语种的语音进行语音识别，将上述第二语种的语音转化为第二语种的文本。

步骤810，根据预先保存的上述终端设备的标识对应的目标语种，确定将上述第二语种的语音翻译为第一语种的音频文件。

步骤811，将上述第二语种的文本翻译成第一语种的文本，对上述第一语种的文本进行语音合成，获得第一语种的音频文件。

步骤812，将上述第一语种的音频文件发送给上述终端设备，以供上述终端设备播放。

如上所述，本实施例可以实现多轮语音互译，仍以目标语种为中文和英文为例，在出入境海关、点餐结账、购物砍价和/或酒店入住离店等场景，第一用户可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段中文语音，然后上述终端设备将这段中文语音发送给云端服务器，云端服务器按照本申请提供的基于人工智能的语音翻译方法将上述中文语音翻译为英文的音频文件，再将翻译好的英文的音频文件发送给终端设备，并由终端设备播放出来，第二用户听了这段英文语音之后，仍然可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段英文语音，然后上述终端设备将这段英文语音发送给云端服务器，云端服务器按照本申请提供的基于人工智能的语音翻译方法将上述英文语音翻译为中文的音频文件，再将翻译好的中文的音频文件发送给终端设备，并由终端设备播放出来，这样，第一用户与第二用户通过上述终端设备就可以实现顺畅沟通，可充分满足出境游等场景的翻译需求。

图9为本申请基于人工智能的语音翻译方法再一个实施例的流程图，如图9所示，本申请图6所示实施例中，步骤604之前，还可以包括：

步骤901，接收上述终端设备上传的目标语种，对应保存上述终端设备的标识与上述目标语种，上述目标语种包括至少两种语种，上述至少两种语种中包括上述源语种。

这样，步骤604可以为：

步骤902，根据上述终端设备的标识，调用上述终端设备的标识对应的目标语种的语料库，将上述源语种的文本翻译成确定的目标语种的文本，对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件。

本实施例中，终端设备获得上述用户设置的目标语种之后，可以将上述用户设置的目标语种上传至上述云端服务器，由云端服务器对应保存上述终端设备的标识与上述目标语种，其中，上述终端设备的标识为可以唯一标识上述终端设备的信息，例如：上述终端设备的设备号，本实施例对上述终端设备的标识的形式不作限定。

上述目标语种可以包括至少两种语种，上述至少两种语种中包括上述源语种，也就是说，本实施例可以在用户设置的至少两种目标语种中实现语音互译。举例来说，假设用户设置的目标语种为“中英”，那么用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说中文“我想去最近的地铁站”，然后松开翻译按键，通过本申请提供的基于人工智能的语音翻译方法，上述终端设备将播放出“I want to go to the nearest subwaystation”的语音结果；而如果用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说英文“I want to go to the nearest subway station”，然后松开翻译按键，通过本申请提供的基于人工智能的语音翻译方法，上述终端设备将播放出“我想去最近的地铁站”的语音结果。

同理，上述目标语种也可以为“中英日”，那么本实施例将在中文、英文和日文之间实现语音互译，用户如果输入一句中文，那么通过本申请提供的基于人工智能的语音翻译方法，终端设备将依次播放这句中文的日文译文和英文译文，如果输入一句英文，那么通过本申请提供的基于人工智能的语音翻译方法，终端设备将依次播放这句英文的中文译文和日文译文，以此类推，在此不再赘述。

图10为本申请基于人工智能的语音翻译装置一个实施例的结构示意图，本实施例中的基于人工智能的语音翻译装置可以设置在终端设备上实现本申请图1～图5所示实施例提供的方法。上述终端设备可以为集成了WiFi功能的翻译设备，本实施例对上述终端设备的形态不作限定。

如图10所示，上述基于人工智能的语音翻译装置可以包括：接收模块1001、发送模块1002和播放模块1003；

其中，接收模块1001，用于接收用户通过终端设备输入的源语种的语音；

发送模块1002，用于将上述源语种的语音发送至云端服务器；具体地，发送模块1002可以通过PCM格式将上述源语种的语音上传至云端服务器。

接收模块1001，还用于接收上述云端服务器发送的目标语种的音频文件，上述目标语种的音频文件是云端服务器对上述源语种的语音进行语音识别，确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；具体地，云端服务器发送给终端设备的目标语种的音频文件也是PCM格式的文件。

云端服务器对翻译成的目标语种的文本进行语音合成采用的是TTS服务。

播放模块1003，用于播放上述目标语种的音频文件。

上述基于人工智能的语音翻译装置中，接收模块1001接收用户通过终端设备输入的源语种的语音之后，发送模块1002将上述源语种的语音发送至云端服务器，然后接收模块1001接收上述云端服务器发送的目标语种的音频文件，最后播放模块1003播放上述目标语种的音频文件，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

图11为本申请基于人工智能的语音翻译装置另一个实施例的结构示意图，本实施例中，接收模块1001，具体用于接收用户在触发上述终端设备的翻译按键之后通过上述终端设备的麦克风输入的源语种的语音。本实施例中，上述终端设备的翻译按键可以为上述终端设备上设置的机械按键，也可以为上述终端设备上设置的虚拟按键，本实施例对上述翻译案件的形态不作限定，但本实施例以上述翻译按键为上述终端设备上设置的机械按键为例进行说明。

需要说明的是，本实施例中，上述终端设备的翻译按键的数量为1个，如图3所示。

进一步地，上述基于人工智能的语音翻译装置还可以包括：获得模块1004；

获得模块1004，用于在接收模块1001接收上述云端服务器发送的目标语种的音频文件之前，获得上述用户设置的目标语种；

发送模块1002，还用于将上述用户设置的目标语种上传至上述云端服务器，以便上述云端服务器对应保存上述终端设备的标识与上述目标语种，上述目标语种包括至少两种语种，上述至少两种语种中包括上述源语种。

具体地，用户在终端设备上设置目标语种之后，获得模块1004就可以获得上述用户设置的目标语种，然后发送模块1002将上述用户设置的目标语种上传至上述云端服务器，由云端服务器对应保存上述终端设备的标识与上述目标语种，其中，上述终端设备的标识为可以唯一标识上述终端设备的信息，例如：上述终端设备的设备号，本实施例对上述终端设备的标识的形式不作限定。

上述目标语种可以包括至少两种语种，上述至少两种语种中包括上述源语种，也就是说，本实施例可以在用户设置的至少两种目标语种中实现语音互译。举例来说，假设用户设置的目标语种为“中英”，那么用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说中文“我想去最近的地铁站”，然后松开翻译按键，播放模块1003将播放出“Iwant to go to the nearest subway station”的语音结果；而如果用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说英文“I want to go to the nearestsubway station”，然后松开翻译按键，播放模块1003将播放出“我想去最近的地铁站”的语音结果。

同理，上述目标语种也可以为“中英日”，那么上述终端设备将在中文、英文和日文之间实现语音互译，用户如果输入一句中文，那么播放模块1003将依次播放这句中文的日文译文和英文译文，如果输入一句英文，那么播放模块1003将依次播放这句英文的中文译文和日文译文，以此类推，在此不再赘述。

本实施例中，上述用户包括第一用户和第二用户，上述目标语种包括第一语种和第二语种；

上述目标语种的音频文件包括上述第二语种的音频文件，上述第二语种的音频文件是云端服务器对上述源语种的语音进行语音识别和声纹识别，确定上述源语种的语音为第一用户通过上述终端设备输入的第一语种的语音，以及确定将上述第一语种的语音翻译为第二语种之后，将语音识别获得的文本翻译成第二语种的文本，以及对翻译成的第二语种的文本进行语音合成后获得的；

接收模块1001，还用于在播放模块1003播放上述目标语种的音频文件之后，接收第二用户通过上述终端设备输入的另一源语种的语音；

发送模块1002，还用于将上述另一源语种的语音发送至云端服务器；

接收模块1001，还用于接收上述云端服务器发送的第一语种的音频文件，上述第一语种的音频文件是云端服务器对上述另一源语种的语音进行语音识别和声纹识别，确定上述另一源语种的语音为第二用户通过上述终端设备输入的第二语种的语音，以及确定将上述第二语种的语音翻译为第一语种之后，将语音识别获得的文本翻译成上述第一语种的文本，以及对翻译成的第一语种的文本进行语音合成后获得的；

播放模块1003，还用于播放上述第一语种的音频文件。

如上所述，本实施例的基于人工智能的语音翻译装置可以实现多轮语音互译，仍以目标语种为中文和英文为例，在出入境海关、点餐结账、购物砍价和/或酒店入住离店等场景，第一用户可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段中文语音，然后上述基于人工智能的语音翻译装置获得上述中文语音对应的英文译文的语音，并播放出来，第二用户听了这段英文译文的语音之后，仍然可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段英文语音，然后上述基于人工智能的语音翻译装置获得上述英文语音对应的中文译文的语音，并播放出来，这样，第一用户与第二用户通过上述基于人工智能的语音翻译装置就可以实现顺畅沟通，可充分满足出境游等场景的翻译需求。

进一步地，上述基于人工智能的语音翻译装置还可以包括：

无线信号提供模块1005，用于将上述终端设备的无线通信信号提供给另一终端设备，以供上述另一终端设备连接到互联网。

具体地，上述终端设备的无线通信信号可以为WiFi信号，也就是说，本实施例中，上述基于人工智能的语音翻译装置还具备WiFi功能，用户可以通过无线网络查找并连接到上述基于人工智能的语音翻译装置提供的WiFi，满足手机和/或电脑等至少一台电子设备的上网需求，并且与手机蜂窝网络境外漫游相比价格更便宜，信号更稳定。

上述实施例中的基于人工智能的语音翻译装置将实时语音翻译功能与原有的随身WiFi功能相结合，既能畅享网络，又可以在需要时一键调用26国语种的语音实时翻译。在商务交流、多语言学习、出入境旅游和/或景点导览等场景可以高效满足用户的上网及翻译需求，提高了用户体验。

图12为本申请基于人工智能的语音翻译装置再一个实施例的结构示意图，本实施例中的基于人工智能的语音翻译装置可以作为云端服务器，或者云端服务器的一部分实现本申请图6～图9实施例所示的基于人工智能的语音翻译方法。

如图12所示，上述基于人工智能的语音翻译装置可以包括：接收模块1201、语音识别模块1202、确定模块1203、翻译模块1204、语音合成模块1205和发送模块1206；

其中，接收模块1201，用于接收终端设备发送的源语种的语音；具体地，上述源语种的语音为PCM格式。

语音识别模块1202，用于对接收模块1201接收的源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本；

确定模块1203，用于确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种；

翻译模块1204，用于将上述源语种的文本翻译成确定模块1203确定的目标语种的文本；

语音合成模块1205，用于对翻译模块1204翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件；具体地，语音合成模块1205可以通过TTS服务对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件。

发送模块1206，用于将语音合成模块1205获得的目标语种的音频文件发送给上述终端设备，以供上述终端设备播放。

上述基于人工智能的语音翻译装置中，接收模块1201接收终端设备发送的源语种的语音之后，语音识别模块1202对上述源语种的语音进行语音识别，将上述源语种的语音转化为源语种的文本，在确定模块1203确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，翻译模块1204将上述源语种的文本翻译成确定的目标语种的文本，并由语音合成模块1205对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件，最后发送模块1206将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放，从而可以实现语音的实时翻译，满足出境游场景的翻译需求，并且翻译准确率较高。

图13为本申请基于人工智能的语音翻译装置再一个实施例的结构示意图，本实施例中，上述目标语种包括第一语种和第二语种；

确定模块1203，具体用于对上述源语种的语音进行声纹识别，确定上述源语种的语音为第一用户通过上述终端设备输入的第一语种的语音；以及根据预先保存的上述终端设备的标识对应的目标语种，确定将上述第一语种的语音翻译为上述第二语种的音频文件。

也就是说，本实施例中，确定模块1203通过声纹识别，确定上述源语种的语音为第一用户输入的第一语种的语音之后，根据上述终端设备的标识查找到上述终端设备的标识对应的目标语种包括第一语种和第二语种，由于源语种是第一语种，因此确定模块1203可以确定需要将上述第一语种的语音翻译为第二语种的音频文件。

本实施例中，上述目标语种的音频文件包括第二语种的音频文件；

接收模块1201，还用于在发送模块1206将上述目标语种的音频文件发送给上述终端设备，以供上述终端设备播放之后，接收终端设备发送的另一源语种的语音；

确定模块1203，还用于对上述另一源语种的语音进行声纹识别，确定上述另一源语种的语音为第二用户通过上述终端设备输入的第二语种的语音；

语音识别模块1202，还用于对上述第二语种的语音进行语音识别，将上述第二语种的语音转化为第二语种的文本；

确定模块1203，还用于根据预先保存的上述终端设备的标识对应的目标语种，确定将上述第二语种的语音翻译为第一语种的音频文件；

翻译模块1204，还用于将第二语种的文本翻译成第一语种的文本；

语音合成模块1205，还用于对上述第一语种的文本进行语音合成，获得第一语种的音频文件；

发送模块1206，还用于将上述第一语种的音频文件发送给上述终端设备，以供上述终端设备播放。

如上所述，本实施例可以实现多轮语音互译，仍以目标语种为中文和英文为例，在出入境海关、点餐结账、购物砍价和/或酒店入住离店等场景，第一用户可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段中文语音，然后上述终端设备将这段中文语音发送给基于人工智能的语音翻译装置，上述基于人工智能的语音翻译装置按照本申请提供的基于人工智能的语音翻译方法将上述中文语音翻译为英文的音频文件，再将翻译好的英文的音频文件发送给终端设备，并由终端设备播放出来，第二用户听了这段英文语音之后，仍然可以长按上述终端设备的翻译按键，通过上述终端设备的麦克风向上述终端设备输入一段英文语音，然后上述终端设备将这段英文语音发送给基于人工智能的语音翻译装置，上述基于人工智能的语音翻译装置按照本申请提供的基于人工智能的语音翻译方法将上述英文语音翻译为中文的音频文件，再将翻译好的中文的音频文件发送给终端设备，并由终端设备播放出来，这样，第一用户与第二用户通过上述终端设备就可以实现顺畅沟通，可充分满足出境游等场景的翻译需求。

进一步地，上述基于人工智能的语音翻译装置还可以包括：保存模块1207；

接收模块1201，还用于在翻译模块1204将上述源语种的文本翻译成确定的目标语种的文本之前，接收上述终端设备上传的目标语种；

保存模块1207，用于对应保存上述终端设备的标识与上述目标语种，上述目标语种包括至少两种语种，上述至少两种语种中包括上述源语种。

本实施例中，翻译模块1204，具体用于根据上述终端设备的标识，调用上述终端设备的标识对应的目标语种的语料库，将上述源语种的文本翻译成确定的目标语种的文本。

本实施例中，终端设备获得上述用户设置的目标语种之后，可以将上述用户设置的目标语种上传至上述基于人工智能的语音翻译装置，由保存模块1207对应保存上述终端设备的标识与上述目标语种，其中，上述终端设备的标识为可以唯一标识上述终端设备的信息，例如：上述终端设备的设备号，本实施例对上述终端设备的标识的形式不作限定。

上述目标语种可以包括至少两种语种，上述至少两种语种中包括上述源语种，也就是说，本实施例可以在用户设置的至少两种目标语种中实现语音互译。举例来说，假设用户设置的目标语种为“中英”，那么用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说中文“我想去最近的地铁站”，然后松开翻译按键，上述终端设备将播放出“Iwant to go to the nearest subway station”的语音结果；而如果用户在按住上述终端设备的唯一的翻译按键之后，向上述终端设备说英文“I want to go to the nearestsubway station”，然后松开翻译按键，上述终端设备将播放出“我想去最近的地铁站”的语音结果。

同理，上述目标语种也可以为“中英日”，那么本实施例将在中文、英文和日文之间实现语音互译，用户如果输入一句中文，那么本申请提供的基于人工智能的语音翻译装置将依次将这句中文翻译为日文和英文，然后由终端设备依次播放这句中文的日文译文和英文译文，如果输入一句英文，那么本申请提供的基于人工智能的语音翻译装置将依次将这句英文翻译为中文和日文，然后由终端设备依次播放这句英文的中文译文和日文译文，以此类推，在此不再赘述。

图14为本申请终端设备一个实施例的结构示意图，本实施例中的终端设备可以实现本申请图1～图5所示实施例提供的方法，上述终端设备可以包括：一个或多个处理器；存储器，用于存储一个或多个程序；接收器，用于接收用户通过终端设备输入的源语种的语音；以及在发送器将上述源语种的语音发送至云端服务器之后，接收上述云端服务器发送的目标语种的音频文件，上述目标语种的音频文件是云端服务器对上述源语种的语音进行语音识别，确定将上述源语种的语音翻译为至少两种目标语种中除上述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；发送器，用于将上述源语种的语音发送至云端服务器；当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现本申请图1～图5所示实施例提供的方法。

图14示出了适于用来实现本申请实施方式的示例性终端设备12的框图。图14显示的终端设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图14所示，终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该终端设备12交互的设备通信，和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图14所示，网络适配器20通过总线18与终端设备12的其它模块通信。应当明白，尽管图14中未示出，可以结合终端设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请图1～图5所示实施例提供的基于人工智能的语音翻译方法。

本申请还提供一种包含计算机可执行指令的存储介质，上述计算机可执行指令在由计算机处理器执行时用于执行本申请图1～图5所示实施例提供的基于人工智能的语音翻译方法。

上述包含计算机可执行指令的存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

图15为本申请云端服务器一个实施例的结构示意图，本实施例中的云端服务器可以实现本申请图6～图9所示实施例的流程，上述云端服务器可以包括：一个或多个处理器；存储器，用于存储一个或多个程序；接收器，用于接收终端设备发送的源语种的语音；发送器，用于将目标语种的音频文件发送给上述终端设备，以供上述终端设备播放；当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现本申请图6～图9所示实施例提供的基于人工智能的语音翻译方法。

图15示出了适于用来实现本申请实施方式的示例性云端服务器10的框图。图15显示的云端服务器10仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，云端服务器10以通用计算设备的形式表现。云端服务器10的组件可以包括但不限于：一个或者多个处理器或者处理单元160，系统存储器280，连接不同系统组件(包括系统存储器280和处理单元160)的总线180。

总线180表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

云端服务器10典型地包括多种计算机系统可读介质。这些介质可以是任何能够被云端服务器10访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器280可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)300和/或高速缓存存储器320。云端服务器10可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统340可以用于读写不可移动的、非易失性磁介质(图15未显示，通常称为“硬盘驱动器”)。尽管图15中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnly Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线180相连。存储器280可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块420的程序/实用工具400，可以存储在例如存储器280中，这样的程序模块420包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块420通常执行本申请所描述的实施例中的功能和/或方法。

云端服务器10也可以与一个或多个外部设备140(例如键盘、指向设备、显示器240等)通信，还可与一个或者多个使得用户能与该云端服务器10交互的设备通信，和/或与使得该云端服务器10能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口220进行。并且，云端服务器10还可以通过网络适配器200与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图15所示，网络适配器200通过总线180与云端服务器10的其它模块通信。应当明白，尽管图15中未示出，可以结合云端服务器10使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元160通过运行存储在系统存储器280中的程序，从而执行各种功能应用以及数据处理，例如实现本申请图6～图9所示实施例提供的基于人工智能的语音翻译方法。

本申请还提供一种包含计算机可执行指令的存储介质，上述计算机可执行指令在由计算机处理器执行时用于执行本申请图6～图9所示实施例提供的基于人工智能的语音翻译方法。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音翻译方法，其特征在于，包括：

接收用户通过终端设备输入的源语种的语音；

将所述源语种的语音发送至云端服务器；

接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；

播放所述目标语种的音频文件。

2.根据权利要求1所述的方法，其特征在于，所述接收用户通过终端设备输入的源语种的语音包括：

接收用户在触发所述终端设备的翻译按键之后通过所述终端设备的麦克风输入的源语种的语音。

3.根据权利要求1所述的方法，其特征在于，所述接收所述云端服务器发送的目标语种的音频文件之前，还包括：

获得所述用户设置的目标语种，将所述用户设置的目标语种上传至所述云端服务器，以便所述云端服务器对应保存所述终端设备的标识与所述目标语种，所述目标语种包括至少两种语种，所述至少两种语种中包括所述源语种。

4.根据权利要求1所述的方法，其特征在于，所述用户包括第一用户和第二用户；所述目标语种包括第一语种和第二语种；

所述目标语种的音频文件包括所述第二语种的音频文件，所述第二语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别和声纹识别，确定所述源语种的语音为第一用户通过所述终端设备输入的第一语种的语音，以及确定将所述第一语种的语音翻译为第二语种之后，将语音识别获得的文本翻译成第二语种的文本，以及对翻译成的第二语种的文本进行语音合成后获得的；

所述播放所述目标语种的音频文件之后，还包括：

接收第二用户通过所述终端设备输入的另一源语种的语音；

将所述另一源语种的语音发送至云端服务器；

接收所述云端服务器发送的第一语种的音频文件，所述第一语种的音频文件是所述云端服务器对所述另一源语种的语音进行语音识别和声纹识别，确定所述另一源语种的语音为第二用户通过所述终端设备输入的第二语种的语音，以及确定将所述第二语种的语音翻译为第一语种之后，将语音识别获得的文本翻译成所述第一语种的文本，以及对翻译成的第一语种的文本进行语音合成后获得的；

播放所述第一语种的音频文件。

5.根据权利要求1-4任意一项所述的方法，其特征在于，还包括：

将所述终端设备的无线通信信号提供给另一终端设备，以供所述另一终端设备连接到互联网。

6.一种基于人工智能的语音翻译方法，其特征在于，包括：

接收终端设备发送的源语种的语音；

对所述源语种的语音进行语音识别，将所述源语种的语音转化为源语种的文本；

确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种；

将所述源语种的文本翻译成确定的目标语种的文本，对翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件；

将所述目标语种的音频文件发送给所述终端设备，以供所述终端设备播放。

7.根据权利要求6所述的方法，其特征在于，所述目标语种包括第一语种和第二语种；

所述确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种包括：

对所述源语种的语音进行声纹识别，确定所述源语种的语音为第一用户通过所述终端设备输入的第一语种的语音；

根据预先保存的所述终端设备的标识对应的目标语种，确定将所述第一语种的语音翻译为所述第二语种的音频文件。

8.根据权利要求7所述的方法，其特征在于，所述目标语种的音频文件包括第二语种的音频文件；

所述将所述目标语种的音频文件发送给所述终端设备，以供所述终端设备播放之后，还包括：

接收终端设备发送的另一源语种的语音；

对所述另一源语种的语音进行声纹识别，确定所述另一源语种的语音为第二用户通过所述终端设备输入的第二语种的语音；

对所述第二语种的语音进行语音识别，将所述第二语种的语音转化为第二语种的文本；

根据预先保存的所述终端设备的标识对应的目标语种，确定将所述第二语种的语音翻译为第一语种的音频文件；

将所述第二语种的文本翻译成第一语种的文本，对所述第一语种的文本进行语音合成，获得第一语种的音频文件；

将所述第一语种的音频文件发送给所述终端设备，以供所述终端设备播放。

9.根据权利要求6-8任意一项所述的方法，其特征在于，所述将所述源语种的文本翻译成确定的目标语种的文本之前，还包括：

接收所述终端设备上传的目标语种，对应保存所述终端设备的标识与所述目标语种，所述目标语种包括至少两种语种，所述至少两种语种中包括所述源语种。

10.根据权利要求9所述的方法，其特征在于，所述将所述源语种的文本翻译成确定的目标语种的文本包括：

根据所述终端设备的标识，调用所述终端设备的标识对应的目标语种的语料库，将所述源语种的文本翻译成确定的目标语种的文本。

11.一种基于人工智能的语音翻译装置，设置在终端设备上，其特征在于，所述基于人工智能的语音翻译装置包括：

接收模块，用于接收用户通过终端设备输入的源语种的语音；

发送模块，用于将所述源语种的语音发送至云端服务器；

所述接收模块，还用于接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；

播放模块，用于播放所述目标语种的音频文件。

12.根据权利要求11所述的装置，其特征在于，

所述接收模块，具体用于接收用户在触发所述终端设备的翻译按键之后通过所述终端设备的麦克风输入的源语种的语音。

13.根据权利要求11所述的装置，其特征在于，还包括：获得模块；

所述获得模块，用于在所述接收模块接收所述云端服务器发送的目标语种的音频文件之前，获得所述用户设置的目标语种；

所述发送模块，还用于将所述用户设置的目标语种上传至所述云端服务器，以便所述云端服务器对应保存所述终端设备的标识与所述目标语种，所述目标语种包括至少两种语种，所述至少两种语种中包括所述源语种。

14.根据权利要求11所述的装置，其特征在于，所述用户包括第一用户和第二用户；所述目标语种包括第一语种和第二语种；

所述接收模块，还用于在所述播放模块播放所述目标语种的音频文件之后，接收第二用户通过所述终端设备输入的另一源语种的语音；

所述发送模块，还用于将所述另一源语种的语音发送至云端服务器；

所述接收模块，还用于接收所述云端服务器发送的第一语种的音频文件，所述第一语种的音频文件是所述云端服务器对所述另一源语种的语音进行语音识别和声纹识别，确定所述另一源语种的语音为第二用户通过所述终端设备输入的第二语种的语音，以及确定将所述第二语种的语音翻译为第一语种之后，将语音识别获得的文本翻译成所述第一语种的文本，以及对翻译成的第一语种的文本进行语音合成后获得的；

所述播放模块，还用于播放所述第一语种的音频文件。

15.根据权利要求11-14任意一项所述的装置，其特征在于，还包括：

无线信号提供模块，用于将所述终端设备的无线通信信号提供给另一终端设备，以供所述另一终端设备连接到互联网。

16.一种基于人工智能的语音翻译装置，设置在云端服务器上，其特征在于，所述基于人工智能的语音翻译装置包括：

接收模块，用于接收终端设备发送的源语种的语音；

语音识别模块，用于对所述源语种的语音进行语音识别，将所述源语种的语音转化为源语种的文本；

确定模块，用于确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种；

翻译模块，用于将所述源语种的文本翻译成所述确定模块确定的目标语种的文本；

语音合成模块，用于对所述翻译模块翻译成的目标语种的文本进行语音合成，获得目标语种的音频文件；

发送模块，用于将所述语音合成模块获得的目标语种的音频文件发送给所述终端设备，以供所述终端设备播放。

17.根据权利要求16所述的装置，其特征在于，所述目标语种包括第一语种和第二语种；

所述确定模块，具体用于对所述源语种的语音进行声纹识别，确定所述源语种的语音为第一用户通过所述终端设备输入的第一语种的语音；根据预先保存的所述终端设备的标识对应的目标语种，确定将所述第一语种的语音翻译为所述第二语种的音频文件。

18.根据权利要求17所述的装置，其特征在于，所述目标语种的音频文件包括第二语种的音频文件；

所述接收模块，还用于在所述发送模块将所述目标语种的音频文件发送给所述终端设备，以供所述终端设备播放之后，接收终端设备发送的另一源语种的语音；

所述确定模块，还用于对所述另一源语种的语音进行声纹识别，确定所述另一源语种的语音为第二用户通过所述终端设备输入的第二语种的语音；

所述语音识别模块，还用于对所述第二语种的语音进行语音识别，将所述第二语种的语音转化为第二语种的文本；

所述确定模块，还用于根据预先保存的所述终端设备的标识对应的目标语种，确定将所述第二语种的语音翻译为第一语种的音频文件；

所述翻译模块，还用于将所述第二语种的文本翻译成第一语种的文本；

所述语音合成模块，还用于对所述第一语种的文本进行语音合成，获得第一语种的音频文件；

所述发送模块，还用于将所述第一语种的音频文件发送给所述终端设备，以供所述终端设备播放。

19.根据权利要求16-18任意一项所述的装置，其特征在于，还包括：保存模块；

所述接收模块，还用于在所述翻译模块将所述源语种的文本翻译成确定的目标语种的文本之前，接收所述终端设备上传的目标语种；

所述保存模块，用于对应保存所述终端设备的标识与所述目标语种，所述目标语种包括至少两种语种，所述至少两种语种中包括所述源语种。

20.根据权利要求19所述的装置，其特征在于，

所述翻译模块，具体用于根据所述终端设备的标识，调用所述终端设备的标识对应的目标语种的语料库，将所述源语种的文本翻译成确定的目标语种的文本。

21.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

接收器，用于接收用户通过终端设备输入的源语种的语音；以及在发送器将所述源语种的语音发送至云端服务器之后，接收所述云端服务器发送的目标语种的音频文件，所述目标语种的音频文件是所述云端服务器对所述源语种的语音进行语音识别，确定将所述源语种的语音翻译为至少两种目标语种中除所述源语种之外的至少一种目标语种之后，将语音识别获得的文本翻译成确定的目标语种的文本，以及对翻译成的目标语种的文本进行语音合成后获得的；

所述发送器，用于将所述源语种的语音发送至云端服务器；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

22.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5中任一所述的方法。

23.一种云端服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

接收器，用于接收终端设备发送的源语种的语音；

发送器，用于将目标语种的音频文件发送给所述终端设备，以供所述终端设备播放；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求6-10中任一所述的方法。

24.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求6-10中任一所述的方法。