[go: up one dir, main page]

CN114328811A - 一种数据处理方法、装置、设备、存储介质和程序产品 - Google Patents

一种数据处理方法、装置、设备、存储介质和程序产品 Download PDF

Info

Publication number
CN114328811A
CN114328811A CN202111173239.5A CN202111173239A CN114328811A CN 114328811 A CN114328811 A CN 114328811A CN 202111173239 A CN202111173239 A CN 202111173239A CN 114328811 A CN114328811 A CN 114328811A
Authority
CN
China
Prior art keywords
accent
loss function
model
speech
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111173239.5A
Other languages
English (en)
Other versions
CN114328811B (zh
Inventor
邓克琦
曹松军
马龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111173239.5A priority Critical patent/CN114328811B/zh
Publication of CN114328811A publication Critical patent/CN114328811A/zh
Application granted granted Critical
Publication of CN114328811B publication Critical patent/CN114328811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备、存储介质和程序产品,由于第一语音训练样本中的多段子语音信息对应于同一口音类型用户,因此多段子语音信息具有相似的口音特征。基于此,基于人工智能技术,根据多段子语音信息口音特征之间的差异确定第一损失函数,根据待定口音类型与样本口音类型之间差异确定第二损失函数,基于第一损失函数和第二损失函数对初始口音分类模型进行参数调整,可以一方面使初始口音分类模型所确定出的口音类型更加准确,一方面可以使模型在训练的过程中,控制所确定出的子语音信息口音特征之间的差异在合理范围内,使口音特征确定的方式更加贴合真实的口音情况,提高口音分类模型训练的准确度和合理性。

Description

一种数据处理方法、装置、设备、存储介质和程序产品
技术领域
本申请涉及数据模型技术领域,特别是涉及一种数据处理方法、装置、设备、存储介质和程序产品。
背景技术
在现实生活中,每个人说话都会有自己独特的口音,例如不同国家的人在说中文时可能会带有自己国家语言的口音特色,从而讲出不同口音的中文。
为了能够更加准确的语音识别,在相关技术中,可以先对采集到的语音信息基于口音特点进行分类,将具有不同口音特点的语音信息输入到不同的语音识别模型中进行语音内容的识别。由此可见,对口音分类的准确度会直接影响到语音识别的准确度。
然而,相关技术中基于口音特点对语音信息进行分类的准确度较低,难以满足高精度的语音识别需求。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法、装置、设备、存储介质和程序产品,使训练得到的模型既能够输出较为准确的口音分类结果,也能够较为合理的对语音信息进行口音特征提取,提高了模型的合理性和准确性。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
第二方面,本申请实施例公开了一种数据处理装置,所述装置包括第一获取单元、第一确定单元、第二确定单元和第一调整单元:
所述第一获取单元,用于获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
所述第一确定单元,用于根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
所述第二确定单元,用于确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
所述第一调整单元,用于根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
在一种可能的实现方式中,所述第一语音训练样本与所述第二语音训练样本相同。
在一种可能的实现方式中,所述第一语音训练样本为语音训练样本集所包括的多个第一语音训练样本中的任意一个,所述多个第一语音训练样本所包括的多段子语音信息对应第一用户和第二用户,所述第一用户的口音类型与所述第二用户的口音类型不同。
在一种可能的实现方式中,所述多个第一语音训练样本对应于同一语种,不同口音类型的用户对应于不同的口音区域。
第三方面,本申请实施例公开了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的数据处理方法。
第四方面,本申请实施例公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面所述的数据处理方法。
第五方面,本申请实施例公开了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面中任意一项所述的数据处理方法
由上述技术方案可以看出,在训练初始口音分类模型时,由于该第一语音训练样本所包括的多段子语音信息对应于同一口音类型用户,因此该多段子语音信息在正常情况下应该具有相似的口音特征。基于此,在通过初始口音分类模型确定多段子语音信息分别对应的口音特征,以及第一样本语音信息对应的待定口音类型后,可以确定初始该第一语音训练样本对应的第一损失函数和第二损失函数,该第一损失函数是根据多段子语音信息分别对应的口音特征之间的差异确定的,该第二损失函数是根据待定口音类型与样本口音类型之间的差异确定的,从而,基于该第一损失函数和第二损失函数对该初始口音分类模型进行参数调整,可以一方面使该初始口音分类模型所确定出的口音类型更加准确,一方面可以使该模型在训练的过程中,控制所确定出的子语音信息口音特征之间的差异在合理范围内,使该口音特征确定的方式更加贴合真实的口音情况,提高口音分类模型训练的准确度和合理性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种口音分类场景的示意图;
图2为本申请实施例提供的一种实际应用场景中数据处理方法的示意图;
图3为本申请实施例提供的一种数据处理方法的流程图;
图4为本申请实施例提供的一种模型训练的示意图;
图5为本申请实施例提供的一种初始口音分类模型的示意图;
图6为本申请实施例提供的一种实际应用场景中数据处理方法的流程图;
图7为本申请实施例提供的一种模型的示意图;
图8为本申请实施例提供的一种应用场景的示意图;
图9为本申请实施例提供的一种数据处理装置的结构框图;
图10为本申请实施例提供的一种计算机设备的结构图;
图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
语音识别技术涉及到人们生活的方方面面,例如通过语音识别,人们可以通过说话的方式控制智能家居进行工作、控制车辆上的语音交互设备播放音乐,播报天气、路况信息等。其中,语音控制方式能够使用的前提是能够对语音的内容进行准确识别,而在现实生活中,不同用户在说话时往往具有不同的口音,例如同样在说中文,不同省份或不同国家的人说中文的口音都可能有所不同。因此,为了能够进行更加准确的语音识别,可以先基于口音特征对语音信息进行分类,对具有不同口音特征的语音信息进行有针对性的识别。例如图1所示,在获取待识别语音后,可以先输入到口音分类器中确定该待识别语音对应的口音类型,然后根据口音类型输入到对应的模型中进行语音识别。
在相关技术中,进行口音分类时,通常先通过口音分类模型分析待识别语音中的每一段语音分别对应的口音特征,然后对多段语音对应的口音特征进行平均化处理,将处理后的结果作为该待识别语音整体的口音类型。然而,在训练该口音分类模型的过程中,由于只关注于最终确定出的口音类型的准确度,忽视了对每一段语音的口音特征确定的合理性,导致可能会出现该口音分类模型针对与训练样本集的过拟合问题,即虽然对于训练样本集有较高的分类准确度,但是针对于同一口音类型用户的多段语音可能会确定出差异较大的口音特征,不符合真实情况下同一口音类型用户的语音往往具有相似口音特征的特点,导致该模型无法准确、合理的对口音特征进行提取,难以投入到实际口音分类应用中。
为了解决上述技术问题,本申请实施例提供了一种数据处理方法,处理设备在训练口音分类模型时,通过多个损失函数一方面可以对模型确定出的待定口音类型与样本口音类型之间的差异进行约束;另一方面可以对模型针对对应同一口音类型用户的多段子语音信息所确定出的口音特征之间的差异进行约束,从而贴合真实情况下同一口音类型用户的口音特点,使训练得到的模型既能够输出较为准确的口音分类结果,也能够较为合理的对语音信息进行口音特征提取,提高了模型的合理性和准确性。
可以理解的是,该方法可以应用于处理设备上,该处理设备为能够进行数据处理的处理设备,例如可以为具有数据处理功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为计算机、手机等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。
此外,本申请还涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请主要涉及其中的语音技术、自然语言处理技术和机器学习技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例中,对于口音特征的提取需要利用到语音技术以及自然语言处理技术;在模型训练的过程中,利用损失函数对模型参数进行调整,以及部分模型的预训练过程都可以用到机器学习技术。
为了便于理解本申请实施例提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种数据处理方法进行介绍。
参见图2,图2为本申请实施例提供的一种实际应用场景中数据处理方法的示意图,在该实际应用场景中,处理设备为服务器201。
在服务器201中具有初始口音分类模型,该初始口音分类模型可以用于对语音信息的口音类型进行分类。在对该初始口音分类模型进行训练时,服务器201可以先获取对应样本口音类型的第一语音训练样本,该第一语音训练样本包括对应于用户A、用户B和用户C的多段子语音信息,例如该多段子语音信息可以为三名用户所说的一段语音在不同时间段所对应的语音信息,其中这三名用户都具有相同的口音类型,即都对应于样本口音类型,该样本口音类型为该第一语音训练样本所对应的准确口音类型。例如,这三名用户可能都具有四川话口音。
如图2所示,通过该初始口音分类模型可以确定出多段子语音信息分别对应的口音特征,并基于该口音特征可以确定出该第一语音训练样本所对应的待定口音类型,例如该初始口音分类模型可以对多段子语音信息分别对应的口音特征进行平均化处理,从而分析出该第一语音训练样本对应的整体口译特点。服务器201可以根据通过该初始口音分类模型确定出的待定口音类型和样本口音类型之间的差异,确定第二损失函数,通过该第二损失函数对该初始口音分类模型进行参数调整,从而使该初始口音分类模型能够确定出更加准确的口音类型。
其中,由于该第一语音训练样本所包括的多段子语音信息都对应于同一口音类型的用户,因此在通常情况下该多段子语音信息应该具有相似的口音特征。基于此,在训练过程中,为了保障该初始分类模型在确定口音特征时的合理性,服务器201可以根据多段子语音信息分别对应的口音特征之间的差异确定第一损失函数,通过结合该第一损失函数和第二损失函数对该初始口音分类模型进行参数调整,可以在使该模型能够更加准确的进行口音分类的同时,使该模型针对对应同一口音类型用户的多段子语音信息能够确定出相似的口音特征,提高对于口音特征确定的合理性和准确性,从而训练得到的口音分类模型不仅对于该第一语音训练样本能够准确的进行口音分类,在投入到实际应用中,例如在确定待分类语音信息对应的口音类型时,可以得到较为准确、合理的分类结果,提高模型的实用性。
接下来,将结合附图,对本申请实施例提供的一种数据处理方法进行介绍。
参见图3,图3为本申请实施例提供的一种数据处理方法的流程图,该方法包括:
S301:获取对应样本口音类型的第一语音训练样本。
其中,第一语音训练样本可以为一段语音信息,例如可以为采集到的用户语音等,样本口音类型为该第一语音训练样本所对应的准确口音类型。该第一语音训练样本中包括对应同一口音类型用户的多段子语音信息,即该多段子语音信息为同一口音类型的用户所发出的语音信息。例如,该第一语音训练样本可以为几名同样具有四川话口音的用户所说的较长的多段语音信息,该多段子语音信息可以为该语音信息在不同时间区间上所对应的语音信息。
可以理解的是,根据实际的口音类型分类的需求不同,在选取语音训练样本时也可以有所不同。例如,当需要训练得到能够区分每一名用户独特口音类型的模型时,该第一语音训练样本可以为对应于同一用户的训练样本;当需要训练得到能够区分某一地域用户口音类型的模型时,该第一语音训练样本可以为对应于同一地域口音类型的一名或多名用户的训练样本,此处不作限定。
S302:根据第一语音训练样本和初始口音分类模型确定多段子语音信息分别对应的口音特征,以及第一语音训练样本对应的待定口音类型。
该初始口音分类模型可以用于确定语音信息对应的口音类型,该第一语音训练样本可以用于对该初始口音分类模型进行训练。在确定第一语音训练样本对应的口音类型时,该初始口音分类模型可以先确定该多段子语音信息分别对应的口音特征,该口音特征能够体现出子语音信息所对应用户的口音特点。例如可以先确定该第一语音训练样本中对应不同时间区间的多段子语音信息,然后确定出各段子语音信息分别对应的口音特征。
在确定出口音特征后,初始口音分类模型可以基于该口音特征确定出该第一语音训练样本中各部分语音信息的口音特点,由于该子语音信息是该第一语音训练样本的组成部分,因此可以对这些口音特点进行综合分析,确定出该第一语音训练样本整体所对应的待定口音类型,该待定口音类型即为该初始口音分类模型所确定出的分类结果。例如,该初始口音分类模型可以确定出各段子语音信息口音特征的平均特征值,该平均特征值能够体现出该第一语音训练样本整体的口音特点,从而基于该平均特征值能够确定出该第一语音训练样本对应的待定口音类型。
S303:确定第一语音训练样本对应的第一损失函数和第二损失函数。
上已述及,该样本口音类型为该第一语音训练样本对应的准确的口音类型,该待定口音类型为该初始口音分类模型所确定出的口音类型,因此,该待定口音类型与该样本口音类型之间的差异可以体现出该初始口音分类模型对于语音信息口音分类的准确度。为了使该初始口音分类模型所确定出的口音分类结果更加准确,处理设备可以根据该待定口音类型与样本口音类型之间的差异,确定该第一语音训练样本对应的第二损失函数,该第二损失函数可以用于使该初始口音分类模型在训练过程中,学习如何针对该第一语音训练样本确定出更加准确的口音分类结果。
可以理解的是,当只通过该第二损失函数进行模型训练时,虽然能够使最终确定出的口音分类结果更加准确,然而确并不关注该初始口音分类模型确定口音分类结果方式的合理性。上已述及,该模型在确定口音分类结果时,会先确定各段子语音信息分别对应的口音特征,通过对这些口音特征进行综合来确定该第一语音训练样本整体的待定口音类型。当只对最终分类结果进行修正,然而并不关注中间过程时,就可能导致该初始口音分类模型过于追求对该第一语音训练样本口音分类结果的准确度,出现了不合理的参数调整的过拟合现象。
例如,该初始口音分类模型可能针对每一段子语音信息所确定出的口音特征之间差异较大,但是在进行综合处理后,所确定出的待定口音类型却很贴近该样本口音类型。由于多段子语音信息对应于同一口音类型用户,而同一口音类型的用户的口音特点较为相似,因此在正常情况下,多段子语音信息应该具有较为相似的口音特征。由此可见,若只对模型最终输出的结果进行约束,会导致该模型在确定口音特征时出现不合理的特征确定结果,从而使该模型在针对该第一语音训练样本以外的语音信息进行口音分类时,容易出现由于口音特征确定异常导致最终口音分类结果准确度低的情况,模型的实用性较差;同时,由于该模型确定口音特征的能力较差,也无法应用到其他对口音特征具有需求的场景中,适用性较低。
基于此,在本申请实施例中,为了解决上述技术问题,处理设备还可以利用同一口音类型用户具有较为固定的口音特点这一原理,对该初始口音分类模型进行更加细化的模型训练。处理设备可以根据多段子语音信息分别对应的口音特征之间的差异,确定该第一语音训练样本对应的第一损失函数,该第一损失函数用于使该初始口音分类模型在训练过程中,学习如何针对该第一语音训练样本的多段子语音信息确定出更加合理、准确的口音特征。
S304:根据第一损失函数、第二损失函数对初始口音分类模型进行参数调整,得到口音分类模型。
参考上述第一损失函数和第二损失函数在模型训练过程中的作用,处理设备可以结合该第一损失函数和第二损失函数对该初始口音分类模型进行参数调整,从而可以使训练得到的口音分类模型在能够针对该第一语音训练样本得到较为准确的口音分类结果的同时,可以针对该第一语音训练样本所包括的多段子语音信息确定出较为合理的口音特征,将该口音特征之间的差异控制在合理的范围内,从而贴合同一口音类型用户在说话时的口音特点。通过这种方式进行模型训练,可以使该口音分类模型不仅适用于对训练样本进行口音分类,而且基于合理的口音类型确定参数,还可以适用于其他待分类语音信息,即可以用于确定待分类语音信息对应的口音类型。同时,由于该口音分类模型在确定口音特征时有较为准确的确定参数,因此也可以应用于其他多种需要进行口音特征确定的场景中,有较为优良的适用性。
由上述技术方案可以看出,基于该第一损失函数和第二损失函数对该初始口音分类模型进行参数调整,可以一方面使该初始口音分类模型所确定出的口音类型更加准确,一方面可以使该模型在训练的过程中,控制所确定出的子语音信息口音特征之间的差异在合理范围内,使该口音特征确定的方式更加贴合同一口音类型用户真实的口音情况,提高口音分类模型训练的准确度和合理性。
上已述及,通过该第一损失函数和第二损失函数,可以对该初始口音分类模型在口音特征确定和口音类型确定这两方面进行参数调整,以提高所得到的口音分类模型的合理性。接下来,将详细介绍具体的参数调节方式。
在一种可能的实现方式中,该初始口音分类模型可以包括初始特征提取子模型和初始特征分类子模型,该初始特征提取子模型用于确定多段子语音信息分别对应的口音特征,该初始特征分类子模型用于根据该口音特征确定待定口音类型。
针对该初始特征提取子模型,在进行参数调整时,为了使确定出的口音特征更加合理和准确,处理设备可以根据第一损失函数和该第二损失函数,对该初始特征提取子模型进行参数特征,得到特征提取子模型。从而,针对该第一语音训练样本,该特征提取子模型一方面可以使确定出的口音特征更加有助于确定出准确的口音类型,另一方面可以使确定出的口音特征之间的差异较为贴合同一口音类型用户的口音特点,提高口音特征的合理性,实现对于最终分类结果和特征合理性的两方面改进。针对该初始特征分类模型,由于该模型并不涉及对于口音特征的确定过程,因此,处理设备可以只采用该第二损失函数对该初始特征分类子模型进行参数调整,得到特征分类子模型,从而使该特征分类子模型能够对口音特征进行更加准确的分析处理,针对该第一语音训练样本能够确定出更加贴合该样本口音类型的待定口音类型。根据该特征提取子模型和特征分类子模型,处理设备设备可以确定该口音分类模型作为此次模型训练的训练结果。
由此可见,通过不同的损失函数对该初始口音分类模型的不同模型部分进行有针对性的训练,可以合理且有效的提高各个模型部分的准确度和合理性,进而提高训练得到的口音分类模型整体的分类效果。
其中,为了能够合理的利用多种损失函数对同一子模型进行参数调整,在一种可能的实现方式中,处理设备可以根据过往模型训练中的经验或依据相关人员的参数设定,为该第一损失函数和第二损失函数配置相应的权重参数。处理设备可以确定该第一损失函数对应的第一权重参数和第二损失函数对应的第二权重参数,该第一权重参数用于标识该第一损失函数对于初始特征提取子模型参数调整的影响程度,该第二权重参数用于标识该第二损失函数对于初始特征提取子模型参数调整的影响程度。
在进行模型训练时,处理设备可以根据该第一损失函数、第一权重参数、第二损失函数和第二权重参数来确定综合损失函数,并根据该综合损失函数对该初始特征提取子模型进行参数调整,得到特征提取子模型,从而能够通过权重参数对不同损失函数在参数调整中的影响程度进行合理控制,使最终得到的模型能够更加准确的进行特征提取,所提取的口音特征可以既贴合真实的用户口音特点,也能够有助于确定语音信息对应的口音类型。
除了进行参数调整的方式可以多样化以外,该初始口音分类模型中的各个子模型的具体模型类型也可以包括多种。例如,在一种可能的实现方式中,为了进一步提高模型训练的效率,降低模型训练所需的人工参与度,处理设备可以通过自监督学习的方式来得到该初始特征提取子模型。
其中,自监督学习是指模型在训练的过程中,能够自己从样本数据中提取中部分数据作为标签,通过该标签来分析模型输出结果的准确度从而进行相应的参数调整。在本申请实施例中,在根据第一语音训练样本和初始口音分类模型确定多段子语音信息分别对应的口音特征之前,处理设备可以先获取自监督学习模型和第二语音训练样本,该第二语音训练样本用于训练该自监督学习模型。
处理设备可以通过该自监督学习模型,先确定第二语音训练样本对应的目标语音信息,该目标语音信息对应于该第二语音训练样本中的目标语音部分,即,该自监督学习模型可以将该第二语音训练样本中目标语音部分的语音信息提取出来作为训练标签,基于不同的标签提取方式,该目标语音部分也可能有所不同,此处不作限定。
为了使该自监督学习模型能够学习到关于语音信息特征的提取方式,处理设备可以通过该自监督学习模型,根据去除该目标语音信息后的第二语音训练样本,确定该目标语音部分对应的待定语音信息。即,处理设备可以使该自监督学习模型在训练过程中,通过对该第二语音训练样本中除去该目标语音信息的剩余语音信息进行特征分析,预测出该目标语音部分所缺失的语音信息。处理设备可以根据目标语音信息和待定语音信息之间的差异,确定第三语音训练样本对应的第三损失函数。由于该目标语音信息为该目标语音部分所对应的真实语音信息,而该待定语音信息是该自监督学习模型通过对该第二语音训练样本剩下的语音信息部分的特征进行分析,所确定出的目标语音部分的语音信息,因此,该差异能够体现出该自监督学习模型对语音信息的特征进行分析的准确度。
从而,处理设备可以根据该第三损失函数对该自监督学习模型进行参数调整,使该自监督学习模型能够学习到如何更加准确的对语音信息进行特征分析,在参数调整后,由于得到的模型具有一定的特征分析能力,因此可以根据调整后的自监督学习模型来确定初始特征提取子模型,用于确定语音信息对应的口音特征。在整个训练过程中,都无需人工去标注样本对应的标签,只需自监督学习模型自身将样本中的部分语音信息确定为标签,然后基于剩下语音信息的特征去预测缺失部分的语音信息,从而学习到如何对语音信息的特征进行准确分析,降低了对人力的需求,提高了模型训练的便捷性。
如图4所示,图4为一种模型训练的示意图,该模型的输入为原始的语音波形(Rawwaveform)X,该模型主要包括如下三个部分:
1.特征编码器(Feature encoder):该部分可以由多层卷积神经网络(Convolutional Neural Networks,CNN)构成,负责将原始的语音波形提取隐式语音特征(Latent speech representations)Z。
2.语境网络(Context network):主要由多层编译器(Transformer)结构构成,特征编码器部分的输出Z经过激活函数(Gaussian Error Linerar Units,简称GELU)层,可以作为这部分的输入,最后输出语境表征(Context representations)C,该语境表征即为该模型通过输入的语音信息所确定出的被掩码部分的语音信息。
3.量化模块(Quantization module):对特征编码器输出的Z进行离散化,得到量化表征(Quantized representations)Q,Q可以作为标签(即监督信息)帮助该模型进行训练。
在实际训练过程中,首先会对Z进行掩码(masking)操作,即遮盖掉Z中Q对应的信息部分,然后输入到语境网络中,该语境网络可以基于Z中剩下的语音信息确定被掩码区间的信息,对于掩码区间t时刻的输出可以为ct,对应量化后的量化表征中的qt,Qt表示所有候选量化表征集合,包括qt以及k个干扰参数,该模型的损失函数可以表示为:
Figure BDA0003294143830000131
其中sim(a,b)=aTb/||a||||b||,表示两个向量之间的相关性,该损失函数能够基于Q与C之间的差异对该模型进行参数调整,从而使该模型能够对语音信息的特征进行更加准确的分析。
如图5所示,图5为本申请实施例提供的一种初始口音分类模型的示意图,在通过大量无需标注的语音数据对上述自监督学习模型进行预训练后,该自监督学习模型已经具备了一定的对语音信息中的特征进行准确提取的能力,处理设备可以将其中的特征编码器和语境网络层提取出来,作为初始口音分类模型中的初始特征提取子模型。处理设备可以在该子模型上添加一层线性层(Affine),该线性层可以用于基于相关参数对该子模型确定出的口音特征进行线性分类,例如可以基于口音特征确定出语音信息对应各种口音的概率,该线性分类的结果经过平均化(Mean)和归一化(Softmax)处理后可以确定为输入语音信息的待定口音类型,该线性层、平均层和归一层可以组成该模型中的初始特征分类子模型。处理设备可以根据该待定口音类型和样本口音类型之间的差异确定交叉熵损失函数LCE,作为进行参数调整的第二损失函数。
同时,由于该线性层是通过同一参数对该初始特征分类子模型输出的多段子语音信息的口音特征进行线性分类的,因此,多段子语音信息分别对应的线性分类结果之间的差异可以体现出口音特征之间的差异,通过该差异可以确定出第一损失函数进行参数调整。例如,在图5所示的模型结构中,多段子语音信息可以为按照语音帧划分的语音信息,假设口音类型共有N种,则可以在语境网络的基础上增加一层768*N的线性层,并且随机初始化该线性层的参数。假设第i帧子语音信息该线性层的输出为Ai,处理设备可以将多帧子语音信息对应的Ai求平均,进过归一化处理后得到待定口音类型,同时对多帧子语音信息对应的Ai在时间维度求标准差,得到
Figure BDA0003294143830000141
根据该标准差可以确定标准差约束损失函数LSDC,如下公式所示:
Figure BDA0003294143830000142
N为输入语音信息的总帧数,该标准差约束损失函数可以体现出多帧子语音信息之间口音特征的差异,因此该标准差约束损失函数可以作为本申请实施例中的第一损失函数。从而,该初始口音分类模型所对应的损失函数L可以表示为该交叉熵损失函数和标准差约束损失函数的和:
L=LSDC+LCE
该损失函数L可以用于对初始特征提取子模块进行参数调整,该交叉熵损失函数LCE可以用于对初始特征分类子模块中的线性层进行参数调整。
可以理解的是,在上述模型训练过程中,对于该初始特征提取子模型和初始特征分类子模型的参数调整都会用到该第二损失函数,在初始特征提取子模型中,该第二损失函数可以有助于使确定出的口音特征更加有助于确定出准确的口音类型,在该初始特征分类子模型中,该第二损失函数可以有助于使该子模型对口音特征的分类结果更加合理,而第一损失函数仅在对于初始特征提取子模型的参数调整上进行约束。由此可见,相对于第一损失函数来说,该第二损失函数在整体模型训练的过程起着较大的影响。
基于此,为了进一步提高模型训练的效率和准确度,在一种可能的实现方式中,在结合多种损失函数一同进行参数调节之前,处理设备可以先尽可能的降低该第二损失函数所对应的参数调整范围,即提高该第二损失函数在进行参数调整时的调整精度,从而提高对模型整体参数调节的精度。
其中,由于该第二损失函数是基于待定口音类型和样本口音类型之间的差异确定的,而该待定口音类型主要是基于初始特征分类子模型所分类得到的,因此,为了提高该第二损失函数的调整精度,处理设备在对该初始口音分类模型的训练过程中,可以先对该初始特征分类子模型训练预设次数,然后在结合该第一损失函数和第二损失函数,对该初始特征提取子模型和初始特征分类子模型进行综合参数调整,该预设次数可以为处理设备基于过往的模型训练数据所确定出的,也可以为相关人员基于模型训练经验所设定的,此处不作限制。
处理设备在基于该第一语音训练样本确定出该第一损失函数和第二损失函数后,可以先判断对该初始特征分类子模型的参数调整次数是否达到预设次数,响应于针对该初始特征分类子模型的参数调整次数达到预设次数,处理设备可以根据该第一损失函数和第二损失函数,对该初始特征提取子模型进行参数调整,得到该特征提取子模型。相应的,若处理设备判断还未达到预设次数,则可以只执行基于该第二损失函数对该初始特征分类子模型的参数调整,从而进一步提高该第二损失函数对应的参数调整精度,进而提高模型训练整体的训练效率。
同时,在该模型训练场景中,该初始特征提取子模型只依赖于自身的模型参数来进行口音特征的确定,其所需的语音样本并不存在精确与否的问题,因此该初始特征提取子模型可以进行一定的预训练过程,通常已经具有一定的模型精度,例如当通过自监督学习模型训练得到该初始特征提取子模型时,该初始特征提取子模型已经具有一定的针对语音信息的特征提取能力;而对于初始特征分类子模型来说,该子模型参数调整需要该初始特征提取子模型的输出特征,因此针对该初始口音分类模型来说,该初始特征分类子模型很难进行相应的预训练。因此,该初始特征分类子模型的精度通常要低于该初始特征提取子模型。
在该前提下,通过上述先对初始特征分类子模型进行预设次数的参数调整,再结合多种损失函数对整体模型进行参数调整,可以在一定程度上降低低精度模型对于高精度模型的负面影响,使整个模型训练过程中的参数调整都趋于正向的、有利于提高模型精度的方向进行调整,提高模型训练的效率。
例如,在保留自监督学习模型中的场景网络和特征编码器后,处理设备可以在场景网络上添加一层随机初始化的线性层,该场景网络和特征编码器的参数在经过自监督学习的预训练后已经具有一定的特征提取精度,而初始化的线性层相对来说的特征分类精度较低,因此,处理设备在训练的前期,可以先保持该场景网络和特征编码器中的模型参数不变,只更新该线性层中的参数,如此可以进行2000次的迭代,先提高该线性层的分类精度;训练的后期,再基于多种损失函数对该模型进行整体参数调节。
此外,在一种可能的实现方式中,为了使通过上述方式训练得到的初始特征提取子模型能够更加适用于在该初始口音分类模型中进行特征提取,处理设备可以采用相同的训练样本对该初始口音分类模型和该自监督学习模型进行参数调整,例如,该第一语音训练样本可以与该第二语音训练样本相同,从而降低不同的训练样本在训练模型的过程中带来的负面影响,例如可以降低该初始口音分类模型和该自监督学习模型学习到冲突的参数调整方向的可能性,在保障了模型训练准确度的同时,在一定程度上也可以提高模型训练的效率,同时降低训练所需的样本数据量。
可以理解的是,在现实生活中,由于用户所在的区域较为广泛,所生活的地域环境也较为复杂,因此存在多种口音类型。基于此,除了可以采用一致的训练样本外,为了使训练得到的模型能够在现实生活中有更加广泛的适用性,能够对多种口音类型的语音信息进行准确的识别分类,在一种可能的实现方式中,处理设备可以获取语音训练样本集,该第一语音训练样本为该语音训练样本集所包括的多个第一语音训练样本中的任意一个。即,该语音训练样本集中每一个第一语音训练样本都包括对应同一口音类型用户的多段子语音信息。同时,为了提高该模型对于多种口音类型的识别能力,该多个第一语音训练样本所包括的多段子语音信息可以对应于多种口音类型的用户,例如可以对应第一用户和第二用户,该第一用户的口音类型与第二用户的口音类型不同。当然,在保障口音类型多样性的基础上,一种口音类型的用户也可以包括多个,此处仅以最小的构成部分进行介绍。从而,可以基于该语音训练样本集,可以通过多种口音类型用户的语音信息对该初始口音分类模型进行训练,提高模型训练效果和模型在实际应用中的适用性。
其中,为了突出不同口音对于语音信息的影响,降低其他干扰因素对于口音分类模型的口音识别能力的干扰,在一种可能的实现方式中,该多个第一语音训练样本可以对应于同一语种,从而对应不同口音类型的语音训练样本实际上只有口音上的差异,不会有语种上的差异,模型在训练过程中可以更加专注的学习到不同口音之间的区别特点,实现对口音类型更加精准的分类。同时,为了使不同用户之间的口音类型有较为明显的区分,提高模型训练的有效性,处理设备可以限定不同口音类型的用户对应于不同的口音区域,不同的口音区域所对应的口音类型不同,即每一个口音区域的用户都具有自己独特的口音类型。例如,当该同一语种为中文时,该不同的口音区域可以为不同国家,例如英国人、中国人、日本人在说中文时都可能带有自己母语的口音特点,从而能够采集到不同口音类型中文的语音训练样本。
为了便于理解本申请实施例提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种数据处理方法进行介绍。
参见图6,图6为本申请实施例提供的一种实际应用场景中数据处理方法的流程图,在该实际应用场景中,处理设备可以为用于模型训练的服务器。
该方法包括:
S601:获取包括多个第一语音训练样本的语音训练样本集。
其中,每一个第一语音训练样本都对应于一名用户,不同第一语音训练样本中的多段子语音信息所对应的用户可以不同,不同的用户具有不同的口音特点。在该实际应用场景中,所采集的语音信息可以都为英文语音,不同的用户具有不同的国家背景,从而可以得到不同口音类型的英文语音,例如中式英语口音、美式英语口音、英式英语口音等。
S602:根据语音训练样本集训练自监督学习模型,得到初始特征提取子模型。
这里可以采用语音训练样本集中除去样本口音类型的语音训练样本进行训练,模型的参数设置如下:
特征编码器:使用7层CNN网络,每个CNN网络层有512个路线(Channel),对应步长分别是(5,2,2,2,2,2,2),对应的卷积核大小分别为(10,3,3,3,3,2,2)。
场景网络:使用12层编译器,模型维度为768,内部全连接层维度为3072,多头注意力(multi-head attention)使用8头。
训练过程中可以采用Adam作为优化函数,总共训练400K个迭代,前面8%的迭代使用热身(warming up)学习率,最大学习率为0.005,后面的迭代学习率会线性减小。
S603:判断口音分类精度是否达到预设值。
通过训练后的自监督学习模型中的特征编码器和场景网络,以及添加线性层进行特征分类,服务器可以得到初始口音分类模型。在每一次训练迭代的过程中,服务器可以判断是该模型的口音分类精度是否达到预设值,若否,则可以跳转至S604,若是,则可以跳转至S608,得到口音分类模型,完成训练。此外,服务器也可以判断是否利用该语音训练样本集中的每一个训练样本都进行过参数调整,并使该模型在训练过程中使用到全部的训练样本,提高模型训练的全面性。
S604:获取语音训练样本集中的一个第一语音训练样本,确定该第一语音训练样本对应的第一损失函数和第二损失函数。
该第一语音训练样本可以为未使用过的训练样本,也可以为使用过的训练样本进行重复训练,此处不作限定。服务器可以将该第一语音训练样本输入到初始口音分类模型中,得到其中多段子语音信息分别对应的口音特征,以及该第一语音训练样本对应的待定口音类型,根据该口音特征之间的差异可以确定第一损失函数,根据该待定口音类型与样本口音类型之间的差异可以确定第二损失函数。
S605:判断针对初始特征分类子模型的参数调整次数是否达到预设次数。
在该训练过程中,该预设次数可以为2000次,在前面2000个迭代保持初始特征提取子模型的参数不变,只更新初始特征分类子模型的模型参数,从2000次迭代开始,所有的模型参数都进行不断的调整,初始学习率可以设定为0.00002。
S606:根据第二损失函数,对初始特征分类子模型进行参数调整。
若未达到预设次数,则说明该初始特征分类子模型的精度还需进一步提高,服务器可以只基于该第二损失函数对初始特征分类子模型进行参数调整。
S607:根据第一损失函数和第二损失函数,对初始特征提取子模型进行参数调整,以及根据第二损失函数,对初始特征分类子模型进行参数调整。
若达到预设次数,则说明该初始特征子分类模型的精度已经可以用于进行整体模型训练过程。
在参数调整后,服务器可以重新执行S603的操作,判断是否完成模型训练。
为了与相关技术进行比对,服务器可以针对同一语音训练样本集,通过相关技术中的多种口音分类模型来进行测试,例如可以包括以下三种模型:
(1)使用i-vector特征向量的多步骤模型
如前面介绍,常用的技术方案包括多步骤方案和端到端方案。多步骤模型一般会首先对语音数据提取特征向量,比如i-vector、x-vector,然后接一个分类器来做最终的分类。为了对比,这里采用两种传统方法来做口音分类,分别是基于i-vector的口音分类器和基于x-vector的口音分类器。这两个模型的输入都是23维的语音特征,包括20维的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficientsmfcc,简称MFCC)和3维的音调参数Pitch。
基于i-vector的口音分类器的处理流程包括:
1、训练i-vector模型。
2、对语音数据提取600维的i-vector特征。
3、对i-vector特征进行后处理,包括均值归一化、LDA降维到50维、长度规整等处理。
4、训练逻辑斯蒂回归分类器进行分类。
(2)使用x-vector特征向量的多步骤模型
1、训练x-vector特征提取器。
2、对语音数据提取512维的x-vector特征。
3、对x-vector特征进行后处理,包括均值归一化、LDA降维到50维、长度规整等处理。
4、训练逻辑斯蒂回归分类器进行分类。
(3)只包含交叉熵损失函数的端到端模型。
端到端方案一般使用一个池化层(Pooling)将网络输出的帧级别向量转换为句子级别的向量,再使用一个线性层进行分类,最后使用交叉熵损失函数统一的训练整个网络。该模型可以如图7所示,具体模型训练流程包括:
1、预训练得到自监督学习模型。需要强调的是,相关技术中的端到端模型并不是采用自监督学习模型来进行口音特征提取,该方案是为了强调第一损失函数在模型训练中的作用,对相关技术中的端到端模型进行改进得到的。
2、与本申请技术方案相似,可以采用自监督学习模型中的语境网络和特征编码器进行特征提取,并在语境网络上加上句子级别的池化层,该池化层包括求平均以及标准差,然后得到的向量进行拼接。
3、在池化层上添加线性层用于进行口音分类。
4、根据待定口音类型和样本口音类型得到交叉熵损失函数进行模型训练。
在上述训练过程中,对自监督学习模型训练也可以采用960小时的语音库(librispeech)数据,使用的语音训练样本集可以为包含8种口音的英文,分别为俄罗斯、韩国、美国、葡萄牙、日本、印度、英国、中国,每种口音约为20小时的训练数据。具体内容如下:
Figure BDA0003294143830000201
Figure BDA0003294143830000211
训练结果如下表所示:
口音 x-vector i-vector AI0 AI1
AM 46.4 48.8 87.2 89.6
BR 66.0 72.1 67.7 83.2
CH 62.2 70.9 61.5 54.0
IN 77.4 87.4 63.0 65.2
JA 53.5 45.9 94.8 95.8
KO 56.1 58.1 74.7 70.2
PO 54.7 58.0 82.0 82.7
RU 59.9 64.3 51.4 52.6
所有口音 59.1 62.6 72.7 73.9
其中,AI0为只采用交叉熵损失函数进行训练的端到端模型,AI1为本申请中结合了能够体现出口音特征之间差异的标准差约束损失函数的端到端模型,由表可见,本申请所提供的方案在绝大多数口音类型的分类准确度上都要优于相关技术中的方案,具有显著的提高。
通过该方法训练得到的口音分类模型可以应用在多种场景中,例如可以包括如图8所示的智能语音、智能地图、智能视听等三大场景,细化的可以分为通勤、出游、语音互动等小场景中。语音识别的服务可以服务器车联网语音交互,以及音响、机器人等其他智能硬件。
基于上述实施例提供的一种数据处理方法,本申请实施例还提供了一种数据处理装置,参见图9,图9为本申请实施例提供的一种数据处理装置900的结构框图,该装置900包括第一获取单元901、第一确定单元902、第二确定单元903和第一调整单元904:
第一获取单元901,用于获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
第一确定单元902,用于根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
第二确定单元903,用于确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
第一调整单元904,用于根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
在一种可能的实现方式中,所述初始口音分类模型包括初始特征提取子模型和初始特征分类子模型,所述初始特征提取子模型用于确定所述多段子语音信息分别对应的所述口音特征,所述初始特征分类子模型用于根据所述口音特征确定所述待定口音类型,第一调整单元904具体用于:
根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到特征提取子模型;
根据所述第二损失函数,对所述初始特征分类子模型进行参数调整,得到特征分类子模型;
根据所述特征提取子模型和所述特征分类子模型,确定所述口音分类模型。
在一种可能的实现方式中,装置900还包括第三确定单元:
第三确定单元,用于确定所述第一损失函数对应的第一权重参数和所述第二损失函数对应的第二权重参数;
第一调整单元904具体用于:
根据所述第一损失函数、所述第一权重参数、所述第二损失函数、所述第二权重参数确定综合损失函数;
根据所述综合损失函数对所述初始特征提取子模型进行参数调整,得到特征提取子模型。
在一种可能的实现方式中,装置900还包括第二获取单元、第四确定单元、第五确定单元、第六确定单元和第二调整单元:
第二获取单元,用于获取自监督学习模型和第二语音训练样本;
第四确定单元,用于通过所述自监督学习模型,确定所述第二语音训练样本对应的目标语音信息,所述目标语音信息对应于所述第二语音训练样本中的目标语音部分;
第五确定单元,用于通过所述自监督学习模型,根据去除所述目标语音信息后的所述第二语音训练样本,确定所述目标语音部分对应的待定语音信息;
第六确定单元,用于根据所述目标语音信息和所述待定语音信息之间的差异,确定所述第二语音训练样本对应的第三损失函数;
第二调整单元,用于根据所述第三损失函数对所述自监督学习模型进行参数调整,并根据调整后的所述自监督学习模型确定所述初始特征提取子模型。
在一种可能的实现方式中,第一调整单元904具体用于:
响应于针对所述初始特征分类子模型的参数调整次数达到预设次数,根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到所述特征提取子模型。
在一种可能的实现方式中,所述第一语音训练样本与所述第二语音训练样本相同。
在一种可能的实现方式中,所述第一语音训练样本为语音训练样本集所包括的多个第一语音训练样本中的任意一个,所述多个第一语音训练样本所包括的多段子语音信息对应第一用户和第二用户,所述第一用户的口音类型与所述第二用户的口音类型不同。
在一种可能的实现方式中,所述多个第一语音训练样本对应于同一语种,不同口音类型的用户对应于不同的口音区域。
本申请实施例还提供了一种计算机设备,下面结合附图对该设备进行介绍。请参见图10所示,本申请实施例提供了一种设备,该设备还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(Wireless Fidelity,简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图10中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经RF电路710以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
手机还包括给各个部件供电的电源790(比如电池),优选的,电源可以通过电源管理系统与处理器780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器780还具有以下功能:
获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
本申请实施例还提供一种服务器,请参见图11所示,图11为本申请实施例提供的服务器800的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图11所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的数据处理方法中的任意一种实施方式。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任意一项实施例提供的数据处理方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (16)

1.一种数据处理方法,其特征在于,所述方法包括:
获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
2.根据权利要求1所述的方法,其特征在于,所述初始口音分类模型包括初始特征提取子模型和初始特征分类子模型,所述初始特征提取子模型用于确定所述多段子语音信息分别对应的所述口音特征,所述初始特征分类子模型用于根据所述口音特征确定所述待定口音类型,所述根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,包括:
根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到特征提取子模型;
根据所述第二损失函数,对所述初始特征分类子模型进行参数调整,得到特征分类子模型;
根据所述特征提取子模型和所述特征分类子模型,确定所述口音分类模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述第一损失函数对应的第一权重参数和所述第二损失函数对应的第二权重参数;
所述根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到特征分类子模型,包括:
根据所述第一损失函数、所述第一权重参数、所述第二损失函数、所述第二权重参数确定综合损失函数;
根据所述综合损失函数对所述初始特征提取子模型进行参数调整,得到特征提取子模型。
4.根据权利要求2所述的方法,其特征在于,在所述根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征之前,所述方法还包括:
获取自监督学习模型和第二语音训练样本;
通过所述自监督学习模型,确定所述第二语音训练样本对应的目标语音信息,所述目标语音信息对应于所述第二语音训练样本中的目标语音部分;
通过所述自监督学习模型,根据去除所述目标语音信息后的所述第二语音训练样本,确定所述目标语音部分对应的待定语音信息;
根据所述目标语音信息和所述待定语音信息之间的差异,确定所述第二语音训练样本对应的第三损失函数;
根据所述第三损失函数对所述自监督学习模型进行参数调整,并根据调整后的所述自监督学习模型确定所述初始特征提取子模型。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到特征提取子模型,包括:
响应于针对所述初始特征分类子模型的参数调整次数达到预设次数,根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到所述特征提取子模型。
6.根据权利要求4所述的方法,其特征在于,所述第一语音训练样本与所述第二语音训练样本相同。
7.根据权利要求1-6中任意一项所述的方法,其特征在于,所述第一语音训练样本为语音训练样本集所包括的多个第一语音训练样本中的任意一个,所述多个第一语音训练样本所包括的多段子语音信息对应第一用户和第二用户,所述第一用户的口音类型与所述第二用户的口音类型不同。
8.根据权利要求7所述的方法,其特征在于,所述多个第一语音训练样本对应于同一语种,不同口音类型的用户对应于不同的口音区域。
9.一种数据处理装置,其特征在于,所述装置包括第一获取单元、第一确定单元、第二确定单元和第一调整单元:
所述第一获取单元,用于获取对应样本口音类型的第一语音训练样本,所述第一语音训练样本包括对应同一口音类型用户的多段子语音信息;
所述第一确定单元,用于根据所述第一语音训练样本和初始口音分类模型确定所述多段子语音信息分别对应的口音特征,以及所述第一语音训练样本对应的待定口音类型,所述待定口音类型是基于所述口音特征确定的;
所述第二确定单元,用于确定所述第一语音训练样本对应的第一损失函数和第二损失函数,所述第一损失函数是根据所述多段子语音信息分别对应的口音特征之间的差异确定的,所述第二损失函数是根据所述待定口音类型与所述样本口音类型之间的差异确定的;
所述第一调整单元,用于根据所述第一损失函数、所述第二损失函数对所述初始口音分类模型进行参数调整,得到口音分类模型,所述口音分类模型用于确定待分类语音信息对应的口音类型。
10.根据权利要求9所述的装置,其特征在于,所述初始口音分类模型包括初始特征提取子模型和初始特征分类子模型,所述初始特征提取子模型用于确定所述多段子语音信息分别对应的所述口音特征,所述初始特征分类子模型用于根据所述口音特征确定所述待定口音类型,所述第一调整单元具体用于:
根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到特征提取子模型;
根据所述第二损失函数,对所述初始特征分类子模型进行参数调整,得到特征分类子模型;
根据所述特征提取子模型和所述特征分类子模型,确定所述口音分类模型。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括第三确定单元:
所述第三确定单元,用于确定所述第一损失函数对应的第一权重参数和所述第二损失函数对应的第二权重参数;
所述第一调整单元具体用于:
根据所述第一损失函数、所述第一权重参数、所述第二损失函数、所述第二权重参数确定综合损失函数;
根据所述综合损失函数对所述初始特征提取子模型进行参数调整,得到特征提取子模型。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括第二获取单元、第四确定单元、第五确定单元、第六确定单元和第二调整单元:
所述第二获取单元,用于获取自监督学习模型和第二语音训练样本;
所述第四确定单元,用于通过所述自监督学习模型,确定所述第二语音训练样本对应的目标语音信息,所述目标语音信息对应于所述第二语音训练样本中的目标语音部分;
所述第五确定单元,用于通过所述自监督学习模型,根据去除所述目标语音信息后的所述第二语音训练样本,确定所述目标语音部分对应的待定语音信息;
所述第六确定单元,用于根据所述目标语音信息和所述待定语音信息之间的差异,确定所述第二语音训练样本对应的第三损失函数;
所述第二调整单元,用于根据所述第三损失函数对所述自监督学习模型进行参数调整,并根据调整后的所述自监督学习模型确定所述初始特征提取子模型。
13.根据权利要求10所述的装置,其特征在于,所述第一调整单元具体用于:
响应于针对所述初始特征分类子模型的参数调整次数达到预设次数,根据所述第一损失函数和所述第二损失函数,对所述初始特征提取子模型进行参数调整,得到所述特征提取子模型。
14.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的数据处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的数据处理方法。
16.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-8任意一项所述的数据处理方法。
CN202111173239.5A 2021-10-08 2021-10-08 一种数据处理方法、装置、设备、存储介质和程序产品 Active CN114328811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111173239.5A CN114328811B (zh) 2021-10-08 2021-10-08 一种数据处理方法、装置、设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111173239.5A CN114328811B (zh) 2021-10-08 2021-10-08 一种数据处理方法、装置、设备、存储介质和程序产品

Publications (2)

Publication Number Publication Date
CN114328811A true CN114328811A (zh) 2022-04-12
CN114328811B CN114328811B (zh) 2025-06-27

Family

ID=81044912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111173239.5A Active CN114328811B (zh) 2021-10-08 2021-10-08 一种数据处理方法、装置、设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN114328811B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120319262A (zh) * 2025-06-17 2025-07-15 杭州星麦云商科技有限公司 基于多模态特征动态融合的数字人语音口型同步控制系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089164A1 (en) * 2016-09-28 2018-03-29 Microsoft Technology Licensing, Llc Entity-specific conversational artificial intelligence
WO2019118864A1 (en) * 2017-12-15 2019-06-20 Google Llc Training and/or using an encoder model to determine responsive action(s) for natural language input
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
CN112634867A (zh) * 2020-12-11 2021-04-09 平安科技(深圳)有限公司 模型训练方法、方言识别方法、装置、服务器及存储介质
CN112989108A (zh) * 2021-02-24 2021-06-18 腾讯科技(深圳)有限公司 基于人工智能的语种检测方法、装置及电子设备
US20210241041A1 (en) * 2020-01-31 2021-08-05 Element Ai Inc. Method of and system for joint data augmentation and classification learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089164A1 (en) * 2016-09-28 2018-03-29 Microsoft Technology Licensing, Llc Entity-specific conversational artificial intelligence
WO2019118864A1 (en) * 2017-12-15 2019-06-20 Google Llc Training and/or using an encoder model to determine responsive action(s) for natural language input
US20210241041A1 (en) * 2020-01-31 2021-08-05 Element Ai Inc. Method of and system for joint data augmentation and classification learning
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
CN112634867A (zh) * 2020-12-11 2021-04-09 平安科技(深圳)有限公司 模型训练方法、方言识别方法、装置、服务器及存储介质
CN112989108A (zh) * 2021-02-24 2021-06-18 腾讯科技(深圳)有限公司 基于人工智能的语种检测方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DENG K, CAO S, MA L: "Improving accent identification and accented speech recognition under a framework of self-supervised learning", ARXIV PREPRINT ARXIV, 15 September 2021 (2021-09-15), pages 1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120319262A (zh) * 2025-06-17 2025-07-15 杭州星麦云商科技有限公司 基于多模态特征动态融合的数字人语音口型同步控制系统

Also Published As

Publication number Publication date
CN114328811B (zh) 2025-06-27

Similar Documents

Publication Publication Date Title
CN110364144B (zh) 一种语音识别模型训练方法及装置
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
US12002138B2 (en) Speech-driven animation method and apparatus based on artificial intelligence
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
WO2021135611A1 (zh) 一种语音识别的方法、装置、终端以及存储介质
WO2021135577A9 (zh) 音频信号处理方法、装置、电子设备及存储介质
CN109670174B (zh) 一种事件识别模型的训练方法和装置
CN110634474B (zh) 一种基于人工智能的语音识别方法和装置
CN108833969A (zh) 一种直播流的剪辑方法、装置以及设备
CN111816168A (zh) 一种模型训练的方法、语音播放的方法、装置及存储介质
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN114360510A (zh) 一种语音识别方法和相关装置
CN114328811A (zh) 一种数据处理方法、装置、设备、存储介质和程序产品
WO2026011892A1 (zh) 一种模型训练方法和相关装置
CN111723783B (zh) 一种内容识别方法和相关装置
CN113761952A (zh) 一种文本翻译方法和相关装置
CN110853765A (zh) 一种基于环境可视的智能人机交互系统
CN119107962B (zh) 一种语音转换方法、装置、设备及计算机可读存储介质
CN119294407B (zh) 处理方法、智能终端及存储介质
HK40084314A (zh) 一种喇叭单体的检测方法、音频检测的方法以及相关装置
CN116959407A (zh) 一种读音预测方法、装置及相关产品
HK40018850A (zh) 一种基於人工智能的智能设备唤醒方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant