CN111210810A

CN111210810A - 模型训练方法和装置

Info

Publication number: CN111210810A
Application number: CN201911304920.1A
Authority: CN
Inventors: 刘洋; 唐大闰
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-29

Abstract

本发明公开了一种模型训练方法和装置。其中，该方法包括：获取原始语音样本，其中，原始语音样本用于训练原始识别模型；向原始语音样本中添加目标噪声，得到目标语音样本，其中，目标噪声为多个类型的噪声；使用原始语音样本与目标语音样本训练原始识别模型，得到目标识别模型，其中，目标识别模型的识别准确度大于第一阈值。本发明解决了相关技术中，模型训练效率低的技术问题。

Description

模型训练方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种模型训练方法和装置。

背景技术

相关技术中，在使用语音样本对模型进行训练的过程中，通常优质的语音样本很少。从而造成对模型进行训练的过程中，模型训练效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种模型训练方法和装置，以至少解决相关技术中，模型训练效率低的技术问题。

根据本发明实施例的一个方面，提供了一种模型训练方法，包括：获取原始语音样本，其中，上述原始语音样本用于训练原始识别模型；向上述原始语音样本中添加目标噪声，得到目标语音样本，其中，上述目标噪声为多个类型的噪声；使用上述原始语音样本与上述目标语音样本训练上述原始识别模型，得到目标识别模型，其中，上述目标识别模型的识别准确度大于第一阈值。

作为一种可选的示例，上述向上述原始语音样本中添加噪声，得到目标语音样本包括：获取多个类型的原始噪声；将上述多个类型的原始噪声中，每个类型的上述原始噪声加入到上述原始语音样本中，得到多个上述目标语音样本。

作为一种可选的示例，上述向上述原始语音样本中添加噪声，得到目标语音样本包括：获取目标噪声，其中，上述目标噪声为对多个类型的原始噪声进行合并得到的噪声；将上述原始语音样本拆分成M份，得到M个第一语音样本；为每一个上述第一语音样本添加第一噪声，得到M个上述目标语音样本，其中，上述第一噪声为从上述目标噪声中截取的长度与上述第一语音样本的长度相同的噪声。

作为一种可选的示例，上述向上述原始语音样本中添加噪声，得到目标语音样本包括：获取多个类型的原始噪声；按照每一个上述原始噪声的分贝，将上述多个类型的原始噪声划分为第一目标噪声与第二目标噪声，其中，上述第一目标噪声的分贝大于预定分贝，上述第二目标噪声的分贝小于或等于目标分贝；将上述原始语音样本拆分成M份，得到M个第一语音样本；为每一个上述第一语音样本添加第二噪声，得到M个第一目标语音样本，其中，上述第二噪声为从上述第一目标噪声中的一个噪声中截取的长度与上述第一语音样本的长度相同的噪声；为每一个上述第一语音样本添加第三噪声，得到M个第二目标语音样本，其中，上述第二噪声为从上述第二目标噪声中的一个噪声中截取的长度与上述第一语音样本的长度相同的噪声；将上述M个第一目标语音样本与上述M个第二目标语音样本确定为上述目标语音样本，得到2M个上述目标语音样本。

作为一种可选的示例，在上述使用上述目标语音样本训练上述原始识别模型，得到目标识别模型之后，上述方法还包括：获取待识别的目标语音；将上述目标语音输入到上述目标识别模型中，其中，上述目标识别模型用于识别上述目标语音的类型或内容；获取上述目标识别模型输出的识别结果，其中，上述识别结果中包括上述目标语音的类型或内容。

根据本发明实施例的另一方面，还提供了一种模型训练装置，包括：第一获取单元，用于获取原始语音样本，其中，上述原始语音样本用于训练原始识别模型；添加单元，用于向上述原始语音样本中添加目标噪声，得到目标语音样本，其中，上述目标噪声为多个类型的噪声；训练单元，用于使用上述原始语音样本与上述目标语音样本训练上述原始识别模型，得到目标识别模型，其中，上述目标识别模型的识别准确度大于第一阈值。

作为一种可选的示例，上述添加单元包括：第一获取模块，用于获取多个类型的原始噪声；第一添加模块，用于将上述多个类型的原始噪声中，每个类型的上述原始噪声加入到上述原始语音样本中，得到多个上述目标语音样本。

作为一种可选的示例，上述添加单元包括：第二获取模块，用于获取目标噪声，其中，上述目标噪声为对多个类型的原始噪声进行合并得到的噪声；第一拆分模块，用于将上述原始语音样本拆分成M份，得到M个第一语音样本；第二添加模块，用于为每一个上述第一语音样本添加第一噪声，得到M个上述目标语音样本，其中，上述第一噪声为从上述目标噪声中截取的长度与上述第一语音样本的长度相同的噪声。

作为一种可选的示例，上述添加单元包括：第三获取模块，用于获取多个类型的原始噪声；划分模块，用于按照每一个上述原始噪声的分贝，将上述多个类型的原始噪声划分为第一目标噪声与第二目标噪声，其中，上述第一目标噪声的分贝大于预定分贝，上述第二目标噪声的分贝小于或等于目标分贝；第二拆分模块，用于将上述原始语音样本拆分成M份，得到M个第一语音样本；第三添加模块，用于为每一个上述第一语音样本添加第二噪声，得到M个第一目标语音样本，其中，上述第二噪声为从上述第一目标噪声中的一个噪声中截取的长度与上述第一语音样本的长度相同的噪声；第四添加模块，用于为每一个上述第一语音样本添加第三噪声，得到M个第二目标语音样本，其中，上述第二噪声为从上述第二目标噪声中的一个噪声中截取的长度与上述第一语音样本的长度相同的噪声；确定模块，用于将上述M个第一目标语音样本与上述M个第二目标语音样本确定为上述目标语音样本，得到2M个上述目标语音样本。

作为一种可选的示例，上述装置还包括：第二获取单元，用于在上述使用上述目标语音样本训练上述原始识别模型，得到目标识别模型之后，获取待识别的目标语音；输入单元，用于将上述目标语音输入到上述目标识别模型中，其中，上述目标识别模型用于识别上述目标语音的类型或内容；第三获取单元，用于获取上述目标识别模型输出的识别结果，其中，上述识别结果中包括上述目标语音的类型或内容。

在本发明实施例中，采用了获取原始语音样本，其中，上述原始语音样本用于训练原始识别模型；向上述原始语音样本中添加目标噪声，得到目标语音样本，其中，上述目标噪声为多个类型的噪声；使用上述原始语音样本与上述目标语音样本训练上述原始识别模型，得到目标识别模型，其中，上述目标识别模型的识别准确度大于第一阈值的方式，由于在上述方式中，在获取到原始语音样本后，会将目标噪声添加到原始语音样本中，得到目标语音样本，从而可以使用原始语音样本与目标语音样本一起训练原始识别模型，提高了对原始识别模型的训练效率，进而解决了相关技术中，模型训练效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的模型训练方法的流程示意图；

图2是根据本发明实施例的一种可选的模型训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种模型训练方法，可选地，作为一种可选的实施方式，如图1所示，上述方法包括：

S102，获取原始语音样本，其中，原始语音样本用于训练原始识别模型；

S104，向原始语音样本中添加目标噪声，得到目标语音样本，其中，目标噪声为多个类型的噪声；

S106，使用原始语音样本与目标语音样本训练原始识别模型，得到目标识别模型，其中，目标识别模型的识别准确度大于第一阈值。

可选地，上述模型训练方法可以但不限于应用于可以计算数据的终端上，例如手机、平板电脑、笔记本电脑、PC机等终端上，终端可以通过网络与服务器进行交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。

可选地，本方案可以但不限于应用于训练语音识别模型的过程中。可选地，在现有技术中，在训练语音识别模型的过程中，由于优质的要语音样本数量较少，因此，训练语音识别模型的效率低。模型的识别准确度低。本方案中提出了一种模型训练方法，在获取到原始语音样本之后，首先获取多个类型的目标噪声，然后将目标噪声添加到原始语音样本中。得到目标语音样本。然后，使用原始语音样本与目标语音样本训练原始识别模型，得到目标识别模型。由于在上述过程中，通过对原始训练样本添加噪声，从而提高了训练样本的数量。再使用原始训练样本与目标训练样本训练原始识别模型，从而可以提高原始识别模型的识别准确度。

可选地，本方案中的噪声可以为各种类型的噪声。不同类型的噪声可以有不同的标记。如类型1，类型2等等。每一种类型的噪声可以有一个或者多个。

可选地，在获取到噪声之后，需要向原始语音样本中添加噪声，从而获取到目标语音样本。添加噪声的方法可以有多个。

一、获取多个类型的原始噪声；将多个类型的原始噪声中，每个类型的原始噪声加入到原始语音样本中，得到多个目标语音样本。例如，原始语音样本可以为一段1分钟的语音，而噪声有多个类型，如一共有三个类型的噪声。则可以将该1分钟的语音分别添加上每一个类型的噪声，得到三个目标语音样本。在添加时，如果噪声与原始语音样本的时间长度不同，则可以对噪声进行复制或者拉长或者截取或者压缩。如半分钟的噪声可以复制粘贴，得到一分钟的噪声，或者拉长为一分钟的噪声。而两分钟的噪声可以裁剪得到一分钟的噪声，或者缩短为一分钟的噪声。

二、获取目标噪声，其中，目标噪声为对多个类型的原始噪声进行合并得到的噪声；将原始语音样本拆分成M份，得到M个第一语音样本；为每一个第一语音样本添加第一噪声，得到M个目标语音样本，其中，第一噪声为从目标噪声中截取的长度与第一语音样本的长度相同的噪声。例如，对于噪声，有三个1分钟的噪声。将该三个一分钟的噪声合并为一个一分钟的噪声，或者拼接为一个三分钟的噪声，得到目标噪声。然后，在获取到原始语音样本后，如一个一分钟的语音，将该语音分成3份，每一份20秒。对每一份20秒的语音添加一段从目标噪声中随机截取的20秒的噪声。

三、获取多个类型的原始噪声；按照每一个原始噪声的分贝，将多个类型的原始噪声划分为第一目标噪声与第二目标噪声，其中，第一目标噪声的分贝大于预定分贝，第二目标噪声的分贝小于或等于目标分贝；将原始语音样本拆分成M份，得到M个第一语音样本；为每一个第一语音样本添加第二噪声，得到M个第一目标语音样本，其中，第二噪声为从第一目标噪声中的一个噪声中截取的长度与第一语音样本的长度相同的噪声；为每一个第一语音样本添加第三噪声，得到M个第二目标语音样本，其中，第二噪声为从第二目标噪声中的一个噪声中截取的长度与第一语音样本的长度相同的噪声；将M个第一目标语音样本与M个第二目标语音样本确定为目标语音样本，得到2M个目标语音样本。例如，对于三个1分钟的噪声，可以按照分贝大小，分为两个高分贝的1分钟的噪声，与一个低分贝的1分钟的噪声。然后，获取原始语音样本，将原始语音样本拆分成4个15秒的语音，对于每一个15秒的语音，都添加一个15秒的第一噪声和15秒的第二噪声。15秒的第一噪声可以从两个高分贝的1分钟的噪声中的一个中随机截取15秒，15秒的第二噪声可以从低分贝的1分钟的噪声中随机截取15秒。从而每一个15秒的语音都获取到两个添加有噪声的语音。

使用上述至少一种方法，可以在获取到原始语音样本之后，得到目标语音样本。使用目标语音样本训练原始识别模型，可以提高原始识别模型的训练效率。

以下对获取目标样本语音的方法进行举例：步骤1、录制真实场景下，使用者的语音，例如服务员佩戴录音设备按照话术服务顾客时，录音设备收集音频数据。这部分数据需要进行人工标注。这部分数据标记为“真实数据0(原始语音样本)”。步骤2、准备安静环境下已标注好的音频数据，该音频数据可以购买，或免费获取，音频内容与具体场景无关，标记为数据0。步骤3、噪音数据的收集模块，录音设备收集真实场景下，例如餐厅中的不同类型的噪声数据，将噪声数据标记为：“类型1”,“类型2”,…,“类型n”。

方法1：将步骤3类型1,2,…,n的噪声数据分别“混合”到数据0，形成数据1，2,…,n。真实数据0与数据0,1,2,3,….,n就是最后的训练数据。

方法2：将步骤3类型1,2,….,n的噪声数据合并，得到噪声数据M。将步骤2中的数据0随机划分为m份数据，m足够大，对于m份中的每一份数据，从噪声数据M中随机截取等时长的噪音混合到该数据中，当m份数据遍历完以后，得到数据1。再将以上过程重复n-1次，得到数据2,3,…n。真实数据0与数据0,1,….n就是最后的训练数据。

方法3：将步骤3中的噪音数据类型按照强背景噪音和弱背景噪音划分为数据A和数据B，划分标准根据噪音分贝设置，当噪音分贝大于经验阈值时为强背景噪音，小于经验阈值即为弱背景噪音。将步骤2中的数据0随机划分为m份，,足够大，对于m份中的每一份数据，从强背景噪音数据A中，随机选择等时长的噪音数据，混合到该份数据中，形成数据A1,A2,….,Am；同样方法地，从弱背景噪音数据B中，随机选择等时长的噪音数据，混合到m份数据中，形成数据B1,B2,….,Bm。将“真实数据0”与两份混合后的数据加起来形成最后的训练数据A1,A2,….Am,B1,B2,….,Bm。

本方案可以但不限于应用到任何训练语音识别模型的过程中。

例如，以识别语音内容，将语音转换为文字为例，获取原始语音之后，向原始语音添加噪声，得到目标语音，使用原始语音与目标语音训练原始识别模型，得到目标识别模型。再输入需要转文字的语音，实现语音转文字。

或者，以识别语音语调是哪一种方言为例，获取原始语音之后，向原始语音添加噪声，得到目标语音，使用原始语音与目标语音训练原始识别模型，得到目标识别模型。然后输入待识别的语音，由目标识别模型输出该语音是哪一种方言。

或者，以识别语音情绪为例，获取原始语音之后，向原始语音添加噪声，得到目标语音，使用原始语音与目标语音训练原始识别模型，得到目标识别模型。然后将待识别的语音输入到目标识别模型中，由目标识别模型输出对应的情绪。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述模型训练方法的模型训练装置。如图2所示，该装置包括：

(1)第一获取单元202，用于获取原始语音样本，其中，原始语音样本用于训练原始识别模型；

(2)添加单元204，用于向原始语音样本中添加目标噪声，得到目标语音样本，其中，目标噪声为多个类型的噪声；

(3)训练单元206，用于使用原始语音样本与目标语音样本训练原始识别模型，得到目标识别模型，其中，目标识别模型的识别准确度大于第一阈值。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取原始语音样本，其中，所述原始语音样本用于训练原始识别模型；

向所述原始语音样本中添加目标噪声，得到目标语音样本，其中，所述目标噪声为多个类型的噪声；

使用所述原始语音样本与所述目标语音样本训练所述原始识别模型，得到目标识别模型，其中，所述目标识别模型的识别准确度大于第一阈值。

2.根据权利要求1所述的方法，其特征在于，所述向所述原始语音样本中添加噪声，得到目标语音样本包括：

获取多个类型的原始噪声；

将所述多个类型的原始噪声中，每个类型的所述原始噪声加入到所述原始语音样本中，得到多个所述目标语音样本。

3.根据权利要求1所述的方法，其特征在于，所述向所述原始语音样本中添加噪声，得到目标语音样本包括：

获取目标噪声，其中，所述目标噪声为对多个类型的原始噪声进行合并得到的噪声；

将所述原始语音样本拆分成M份，得到M个第一语音样本；

为每一个所述第一语音样本添加第一噪声，得到M个所述目标语音样本，其中，所述第一噪声为从所述目标噪声中截取的长度与所述第一语音样本的长度相同的噪声。

4.根据权利要求1所述的方法，其特征在于，所述向所述原始语音样本中添加噪声，得到目标语音样本包括：

获取多个类型的原始噪声；

按照每一个所述原始噪声的分贝，将所述多个类型的原始噪声划分为第一目标噪声与第二目标噪声，其中，所述第一目标噪声的分贝大于预定分贝，所述第二目标噪声的分贝小于或等于目标分贝；

将所述原始语音样本拆分成M份，得到M个第一语音样本；

为每一个所述第一语音样本添加第二噪声，得到M个第一目标语音样本，其中，所述第二噪声为从所述第一目标噪声中的一个噪声中截取的长度与所述第一语音样本的长度相同的噪声；

为每一个所述第一语音样本添加第三噪声，得到M个第二目标语音样本，其中，所述第二噪声为从所述第二目标噪声中的一个噪声中截取的长度与所述第一语音样本的长度相同的噪声；

将所述M个第一目标语音样本与所述M个第二目标语音样本确定为所述目标语音样本，得到2M个所述目标语音样本。

5.根据权利要求1至4任意一项所述的方法，其特征在于，在所述使用所述原始语音样本与所述目标语音样本训练所述原始识别模型，得到目标识别模型之后，所述方法还包括：

获取待识别的目标语音；

将所述目标语音输入到所述目标识别模型中，其中，所述目标识别模型用于识别所述目标语音的类型或内容；

获取所述目标识别模型输出的识别结果，其中，所述识别结果中包括所述目标语音的类型或内容。

6.一种模型训练装置，其特征在于，包括：

第一获取单元，用于获取原始语音样本，其中，所述原始语音样本用于训练原始识别模型；

添加单元，用于向所述原始语音样本中添加目标噪声，得到目标语音样本，其中，所述目标噪声为多个类型的噪声；

训练单元，用于使用所述原始语音样本与所述目标语音样本训练所述原始识别模型，得到目标识别模型，其中，所述目标识别模型的识别准确度大于第一阈值。

7.根据权利要求6所述的装置，其特征在于，所述添加单元包括：

第一获取模块，用于获取多个类型的原始噪声；

第一添加模块，用于将所述多个类型的原始噪声中，每个类型的所述原始噪声加入到所述原始语音样本中，得到多个所述目标语音样本。

8.根据权利要求6所述的装置，其特征在于，所述添加单元包括：

第二获取模块，用于获取目标噪声，其中，所述目标噪声为对多个类型的原始噪声进行合并得到的噪声；

第一拆分模块，用于将所述原始语音样本拆分成M份，得到M个第一语音样本；

第二添加模块，用于为每一个所述第一语音样本添加第一噪声，得到M个所述目标语音样本，其中，所述第一噪声为从所述目标噪声中截取的长度与所述第一语音样本的长度相同的噪声。

9.根据权利要求6所述的装置，其特征在于，所述添加单元包括：

第三获取模块，用于获取多个类型的原始噪声；

划分模块，用于按照每一个所述原始噪声的分贝，将所述多个类型的原始噪声划分为第一目标噪声与第二目标噪声，其中，所述第一目标噪声的分贝大于预定分贝，所述第二目标噪声的分贝小于或等于目标分贝；

第二拆分模块，用于将所述原始语音样本拆分成M份，得到M个第一语音样本；

第三添加模块，用于为每一个所述第一语音样本添加第二噪声，得到M个第一目标语音样本，其中，所述第二噪声为从所述第一目标噪声中的一个噪声中截取的长度与所述第一语音样本的长度相同的噪声；

第四添加模块，用于为每一个所述第一语音样本添加第三噪声，得到M个第二目标语音样本，其中，所述第二噪声为从所述第二目标噪声中的一个噪声中截取的长度与所述第一语音样本的长度相同的噪声；

确定模块，用于将所述M个第一目标语音样本与所述M个第二目标语音样本确定为所述目标语音样本，得到2M个所述目标语音样本。

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于在所述使用所述目标语音样本训练所述原始识别模型，得到目标识别模型之后，获取待识别的目标语音；

输入单元，用于将所述目标语音输入到所述目标识别模型中，其中，所述目标识别模型用于识别所述目标语音的类型或内容；

第三获取单元，用于获取所述目标识别模型输出的识别结果，其中，所述识别结果中包括所述目标语音的类型或内容。