CN116229947A - 一种语音识别方法及语音识别装置 - Google Patents
一种语音识别方法及语音识别装置 Download PDFInfo
- Publication number
- CN116229947A CN116229947A CN202211624595.9A CN202211624595A CN116229947A CN 116229947 A CN116229947 A CN 116229947A CN 202211624595 A CN202211624595 A CN 202211624595A CN 116229947 A CN116229947 A CN 116229947A
- Authority
- CN
- China
- Prior art keywords
- data
- vocabulary
- model
- historical audio
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了语音识别方法及语音识别装置,能够基于增添的语言模型可对于声学模型输出的识别结果进行调整,提高语音识别模型的识别准确性。其中,语音识别方法包括:获取历史音频数据和对应的历史音频文本数据;对历史音频文本数据进行预处理,并抽取历史音频文本数据中词汇数据;基于预先存储的中文词典与英文词典以及G2P模型,确定词汇数据的音素标注,并构建词汇词典;基于历史音频数据和历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;获取待识别语音数据,将待识别语音数据输入语音识别模型,得到待识别语音数据的文本信息。
Description
【技术领域】
本申请实施例涉及语音识别技术领域,尤其涉及一种语音识别方法及语音识别装置。
【背景技术】
目前,随着经济的发展、科技的进步,人们生活日益全球化,使用混合语言交流的现象已经成为一种普遍现象。
现有技术中,用于识别中英文混合语言的语音识别模型通常是采用通用词典进行标注结合声学模型来进行训练得到,仅仅基于声学模型训练得到的语音识别模型虽然能够对于输入到语音进行正确音素的标注,但是在通过音素确认对应文本时文本准确性较低,例如,当存在对于某一音素标注下可对应多个词汇时,识别所得文本往往不太准确。
【发明内容】
本申请实施例提供了一种语音识别方法及语音识别装置,能够基于增添的语言模型可对于声学模型输出的识别结果进行调整,提高语音识别模型的识别准确性。
第一方面,本申请提供了一种语音识别方法,所述方法包括:
获取历史音频数据和对应的历史音频文本数据;
对所述历史音频文本数据进行预处理,并抽取所述历史音频文本数据中词汇数据;
基于预先存储的中文词典与英文词典以及G2P模型,确定所述词汇数据的音素标注,并构建词汇词典,其中,所述G2P模型是根据所述历史音频数据训练得到;
基于所述历史音频数据和所述历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;
获取待识别语音数据,将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息。
本申请实施例中,获取历史音频数据以及对应的历史音频文本数据,对于历史音频文本数据进行预处理以及进行词汇的拆分抽取,并基于预先存储的中文词典、英文词典以及G2P模型对于拆分出的词汇进行音素标注,通过将历史音频数据输入到声学模型中进行训练,以及将对应的音频文本数据的词汇数据输入到语言模型中进行训练,声学模型可以学习到历史音频数据中的发音特征,语言模型可以认为学习到音频文本数据的文本特征,从而训练出性能较高的语音识别模型;利用语音识别模型对待识别语音数据进行识别,得到待识别语音数据的文本信息。
可选的,对所述音频文本数据进行预处理包括:
对所述音频文本数据进行文本正则化处理。
本申请实施例中,需要对于音频文本数据进行正则化处理,即将原音频数据进行格式上的变化,使文本以规范的格式便于划分为一个个词汇,方便于后续进行训练学习。
可选的,所述抽取音频文本数据中词汇数据包括:
基于预先构建的分词工具对所述历史音频文本数据进行分词处理,基于分词后的所述历史音频文本数据,抽取所述历史音频文本数据中的词汇数据,形成包含所述历史音频文本数据的所有词汇数据的词汇列表。
本申请实施例中,基于预先构建的分词工具对历史音频文本数据进行分词处理,并基于分词后的历史音频文本数据进行词汇数据的抽取,得到包含历史音频文本数据所有词汇数据的词汇列表,基于预先构建的分词工具进行分词处理,能够提高分词处理的准确性,避免造成分词错误。
可选的,基于预先存储的中文词典与英文词典以及G2P模型,确定出所述词汇数据的音素标注包括:
基于所述中文词典以及所述历史音频数据中的中文音频数据对所述词汇列表中的中文词汇进行音素标注,以及基于所述英文词典以及所述历史音频数据中的英文音频数据对所述词汇列表中的英文词汇进行音素标注;
若所述词汇列表中存在英文词汇的音素标注失败,将标注失败的所述英文词汇输入到G2P模型中,获得标注失败的所述英文词汇对应的发音序列;
基于所述发音序列重新对标注失败的所述英文词汇进行音素标注。
本申请实施例中,基于预先存储的中文词典以及英文词典对划分的词汇列表中的词汇进行音素标注,对于词典未能成功标注的英文词汇采用G2P模型进行标注,保证用于训练的音频文本数据中的词汇均进行正确的标注并带入训练学习,以便于后续能够训练出性能较高的语音识别模型。
可选的,所述词汇词典的构建方法包括:
根据所述历史音频文本数据的词汇数据的音素标注、预先存储的中文词典与英文词典,生成词汇词典。
本申请实施例中,词汇词典由历史音频文本数据的词汇以及预先存储的词典构成,即词汇词典会根据历史音频文本数据的不同而产生差异,使得该词汇词典更加符合当前用户的使用特性,提高音素标注的准确性。
可选的,所述G2P模型的训练方法包括:
获取所述历史音频数据,对所述历史音频数据进行预处理;
提取预处理后的所述历史音频数据的特征向量;
将提取到的特征向量输入声学模型,得到所述历史音频数据对应的词汇表;
利用所述历史音频数据对应的词汇表训练G2P模型,得到训练好的G2P模型。
本申请实施例中,通过将历史音频数据输入到声学模型中得到对应词汇表,并通过所获得的词汇表来训练G2P模型,即使得G2P模型更加满足当前用户的使用特性,从而得到音素标注准确性较高G2P模型。
可选的,所述语音识别模型的生成方法包括:
基于所述历史音频数据训练声学模型,构建语言模型并基于历史音频文本数据的词汇数据训练所述语言模型;
根据训练好的所述语言模型和所述词汇词典,生成解码器;
基于所述解码器和训练好的所述语音模型,生成语音识别模型。
本申请实施例中,基于历史音频数据训练声学模型,基于历史音频文本数据训练语言模型,训练好的语言模型与词汇词典组成解码器,即用于将文本进行标注,解码器与训练好的声学模型组成语音识别模型,从而对于输入的语音进行正确文本翻译以及文本音素标注。
可选的,生成所述语音识别模型之后,所述方法还包括:
获取测试音频数据及对应的文本数据,抽取测试音频文本数据中测试词汇数据;
提取测试词汇数据的特征向量,输入到所述语音识别模型的解码器中,得到测试发音音素序列;
若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素或词汇,对所述语音识别模型进行修正。
本申请实施例中,生成语音识别模型后,还会基于测试音频数据及对应的文本数据进行测验,当对于测试文本数据进行标注的音素序列与该音频数据发音不一致时,认为语音模型的识别准确性较低,将对语音识别模型进行修正,从而提高该语音识别模型的识别能力。
可选的,对所述语音识别模型进行修正包括:
若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素,则获取正确的发音音素序列,并写入词汇词典,根据新的词汇词典更新所述语音识别模型;
若测试发音音素序列中存在测试音频数据中词汇发音不一致的词汇,则获取正确的发音音素序列及对应的词汇,并写入词汇词典;基于正确的发音音素序列对应的词汇数据再次训练语言模型,根据再次训练的语音模型更新所述语音识别模型。
本申请实施例中,当存在测试音频数据中词汇发音不一致的音素,则将正确的发音音素序列写入词汇词典,并根据新的词汇词典更新语音识别模型;当存在测试音频数据中词汇发音不一致的词汇,则将正确的发音音素序列及对应的词汇写入词汇词典,并基于正确的发音音素序列对应的词汇数据再次训练语言模型,基于再次训练后的语言模型构成新的语音识别模型,从而得到性能较高的语音识别模型。
可选的,所述将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息包括:
提取待识别语音数据的特征向量并输入至声学模型,生成待识别语音数据对应的音素序列;
将所述音素序列经语言模型和词汇词典构成的解码器进行解码,求出待识别语音数据的文本信息。
本申请实施例中,将待识别的语音数据输入到语音识别模型后,首先提取待识别语音数据的特征向量并输入到声学模型,生成待识别语音数据对应的音素序列,然后将音素序列经语言模型和词汇词典构成的解码器进行解码,得到待识别语音数据的文本信息,由于语音识别模型是基于历史音频数据以及对应文本数据训练所得,能够很好的对于音频数据进行识别,从而得到较为准确的文本信息。
第二方面,本申请实施提供了一种语音识别装置,所述装置包括:
通信器,用于接收历史音频数据与对应的历史音频文本数据、以及待识别语音数据:
处理器,耦接所述通信器,用于:对所述历史音频文本数据进行预处理,并抽取所述历史音频文本数据中词汇数据;基于预先存储的中文词典与英文词典以及G2P模型,确定所述词汇数据的音素标注,并构建词汇词典;基于所述历史音频数据和所述历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;获取待识别语音数据,将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1本申请实施例提供的一种语音识别方法的流程示意图;
图2本申请实施例提供的一种G2P模型训练方法的流程示意图;
图3为本申请实施例提供的一种音素标注方法的流程示意图;
图4为本申请实施例提供的一种语音识别模型的训练流程示意图;
图5本申请实施例提供的一种声学模型的训练流程示意图;
图6为本申请实施例提供的一种语言模型的训练流程示意图;
图7为本申请实施例提供的一种获取待识别语音数据的文本信息的流程示意图;
图8为本申请实施例提供的一种语音识别装置的结构示意图。
【具体实施方式】
为了更好的理解本说明书的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
随着经济的发展、科技的进步,人们生活日益全球化,使用混合语言交流的现象已经成为一种普遍现象。
经研究发现,相关技术中,用于识别中英文混合语言的语音识别模型通常是采用通用词典进行标注结合声学模型来进行训练得到,仅仅基于声学模型训练得到的语音识别模型虽然能够对于输入到语音进行正确音素的标注,但是在通过音素确认对应文本时文本准确性较低,例如,当存在对于某一音素标注下可对应多个词汇时,识别所得文本往往不太准确。
鉴于此,本申请实施例提供了一种语音识别方法,该方法中,获取历史音频数据以及对应的历史音频文本数据,对于历史音频文本数据进行预处理以及进行词汇的拆分抽取,并基于预先存储的中文词典、英文词典以及G2P模型对于拆分出的词汇进行音素标注,通过将历史音频数据输入到声学模型中进行训练,以及将对应的音频文本数据的词汇数据输入到语言模型中进行训练,声学模型可以学习到历史音频数据中的发音特征,语言模型可以认为学习到音频文本数据的文本特征,从而训练出性能较高的语音识别模型;利用语音识别模型对待识别语音数据进行识别,得到待识别语音数据的文本信息。
下面结合附图对本申请实施例提供的技术方案进行介绍。请参见图1,本申请实施例提供了一种语音识别方法,该方法的流程描述如下:
步骤101:获取历史音频数据和对应的历史音频文本数据。
本申请实施例中,可以获取所收集的大量的历史音频数据与对应的历史音频文本数据,该历史音频数据可以包括中文音频数据、英文音频数据、中英文混合音频数据以及录制的特定专有词汇的音频数据。
例如,历史音频数据可以为“今天天气非常nice”或是“please等我一下”,或者历史音频数据也可以为特定技术领域(制作业、服务业等)的中英文混合音频数据,此处不做特别限制。
步骤102:对历史音频文本数据进行预处理,并抽取历史音频文本数据中词汇数据,得到包含历史音频文本的所有词汇数据的词汇列表。
在一些实施例中,考虑到用于训练的历史音频文本数据的格式可能较为混乱或是排版较为零散时,直接进行词汇的抽取,会存在词汇抽取错误难以正确标注的问题。
因此,本申请实施例中,可以先对历史音频文本数据进行文本正则化处理,再进行词汇的抽取,提高对于词汇抽取的准确性。下面对文本正则化处理的具体内容进行详细说明。
处理机制一:本申请实施例中,可以针对于历史音频文本数据中的重复语句进行去重处理,避免对于相同的文本数据进行多次标注。
处理机制二:本申请实施例中,可以针对于历史音频文本数据中所包含的英文词汇进行大小写的统一处理,即将历史音频文本数据中所包含的英文词汇的大小写统一修改为大写或小写,便于进行词汇的正确识别抽取。
处理机制三:本申请实施例中,可以针对于历史音频文本数据中存在的录入错误的乱码进行删除处理,便于进行词汇的正确识别抽取。
处理机制四:本申请实施例中,可以针对于历史音频文本数据中存在的数字、特殊字符以及数字与特殊字符组合进行中文转换处理,例如,对历史音频文本数据中数字序列、日期、度量单位等按照读法转换成中文,便于对于词汇的正确识别抽取。
处理机制五:本申请实施例中,可以针对于历史音频文本数据中存在拼写错误的英文词汇进行修正处理,便于进行词汇的正确识别抽取。
处理机制六:本申请实施例中,可以针对于历史音频文本数据中所包含的标点符号按照其含义进行转换处理,对于有含义的标点符号,按照标点符号的读法转换成中文;对于无含义的标点符号映射为空白,便于进行词汇的正确识别抽取。
应根据历史音频文本数据的实际格式情况,选择采用上述六种机制中的至少一种或多种的组合。
例如,当历史音频文本数据为“The Weather Is so nice taday”可以采用上述的处理机制二与处理机制五,将上述音频数据处理为“the weather is so nice today”,便于进行词汇的正确识别抽取。
考虑到,在分词工具进行词汇的抽取时,可能会存在对于一些专有词汇的分词错误,将一个长词汇分为多个短词汇,造成抽取单词错误。因此,本申请实施例中,可以在分词工具中优先存储可能会涉及到的专有词汇,避免抽取错误提高词汇划分抽取的准确性。
作为一种可能的实施方式,可以基于预先构建的分词工具对预处理后的历史音频文本数据进行分词处理,并抽取分词后的历史音频文本数据的词汇数据,得到包含历史音频文本的所有词汇数据的词汇列表。其中,该预先构建的分词工具中至少自定义有目标领域的专业词汇,能够提高词汇抽取的准确性。
示例性的,可以采用jieba分词工具对于历史音频文本数据中的中文进行分词处理,并抽取中文词汇数据,采用NLTK分词工具对于历史音频文本数据中的英文进行分词处理,并抽取英文词汇数据,基于中文词汇数据和英文词汇数据,得到词汇列表。本申请实施例所采用的分词工具在此处不作特别限制。
步骤103:基于预先存储的中文词典和英文词典、以及G2P模型,确定词汇数据的音素标注,并构建词汇词典。其中,G2P模型是基于历史音频数据训练得到。
现有技术中,对于词汇数据进行音素标注的方法仅仅是基于通用词典与对应音频文本数据来进行标注,当存在于一些简写或是用户自定义词汇时,会存在无法正确进行音素标注的情况,不便于进行后续的模型训练。
因此,本申请实施例中,可以在音素标注方法中加入G2P模型,该G2P模型能够将不在中文词典和英文词典中的英文词汇转化为对应的音素。如包含多音字词汇,缩写词汇,含有中文口音的词汇,这些词汇经G2P模型转化为对应音素生成相应的发音,保证用于训练的音频数据中的词汇均进行准确的音素标注。
图2是本申请实施例提供的一种G2P模型训练方法的流程图。请参阅图2,在一种实施例中,G2P模型的训练方法包括:
步骤201:获取历史音频数据,该历史音频数据包括中文音频数据、英文音频数据、中英文混合音频数据以及录制的特定专有词汇的音频数据。
步骤202:对历史音频数据进行预处理及特征提取。
本申请实施例中,对历史音频数据进行预处理包括格式转换、增强处理、降噪及去回响中一种或多种组合。
本申请实施例中,对预处理后的历史音频数据进行特征提取,得到特征向量,该特征向量包括时域特征、频域特征及声学特征。
步骤203:将提取到的特征向量输入声学模型,得到历史音频数据对应的词汇表。
步骤204:利用历史音频数据对应的词汇表训练G2P模型。
作为一种可能的实施方式,对于抽取出的词汇数据,先基于预先存储的中文词典以及历史音频数据中的中文音频数据对词汇列表中的中文词汇进行音素标注,以及基于预先存储的英文词典以及历史音频数据中的英文音频数据对词汇列表中的英文词汇进行音素标注,当存在有英文词汇的音素标注失败,需要将标注失败的英文词汇输入到G2P模型中,能够获得标注失败的英文词汇对应的正确发音序列,基于该发音序列重新对标注失败的英文词汇进行音素标注。
示例性的,预先存储的中文词典可以为aishell标音词典,预先存储的英文词典可以为cmudict词典,此处不作特别限制。
图3是本申请实施例提供的音素标注的流程示意图。在一种实施例中,请参阅图3,词汇数据的音素标注包括:
步骤301:基于预先存储的中文词典以及历史音频数据中的中文音频数据对词汇列表中的中文词汇进行音素标注。
步骤302:基于预先存储的英文词典以及历史音频数据中的英文音频数据对词汇列表中的英文词汇进行音素标注。
本申请实施例中,基于预先存储的中文词典、英文词典以及词汇数据的音素标注,构建词汇词典,所构建的词汇词典包括所有单词的发音的词典,其用于训练声学模型和语音模型,可以根据实际的发音进行词典的增加和变更,用于改善中文母语语者的英文发音识别,作为标注词典的补充,使音素标注处于最有效状态。
步骤303:获取词汇列表中剩余的英文词汇并输入至G2P模型,得到剩余的英文词汇对应的发音序列,基于发音序列对剩余的英文词汇进行音素标注。
本申请实施例,采用中文词典、英文词典及G2P模型对词汇数据进行音素标注,对现有词典外的词汇进行发音补充,有效降低了单一语种词典在映射到其他语种时,相似发音的辨识混淆现象,保留合理发音,极大的降低人工标注的工作量。
步骤104:基于历史音频数据和历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型。其中,声学模型用于基于音频数据识别出对应的音素;语言模型用于基于音素识别出对应的文本数据。
本申请实施例中,语音识别模型是由声学模型与语言模型共同组成,其中,声学模型主要用于将输入的音频数据进行音素标注,并基于标注结果输出对应的文本数据,语言模型将声学模型输出的文本数据不断向音频数据的实际文本靠近调整,故基于声学模型与语言模型训练所得的语音识别模型的识别准确性较高。
下面对如何基于历史音频数据、历史音频文本数据的词汇数据和词汇词典获得语音识别模型进行详细说明。请参见图4,语音识别模型的训练流程描述如下:
步骤401:基于历史音频数据训练声学模型。
请参见图5,在一些实施例中,声学模型的训练流程描述如下:
步骤501:获取历史音频数据,该历史音频数据包括中文音频数据、英文音频数据、中英文混合音频数据以及录制的特定专有词汇的音频数据。
步骤502:对历史音频数据进行增强处理。
本申请实施例中,对历史音频数据进行增强处理,以增加用于训练的历史音频数据的数量。
步骤503:对增强处理后的历史音频数据进行特征提取,得到特征向量,包括时域特征、频域特征及声学特征。
步骤504:利用提取到的特征向量训练声学模型,得到训练好的声学模型。
本申请实施例中,基于卷积神经网络(CNN)和因子分解时眼神经网络(TDNN-F)构建声学模型。卷积神经网络(CNN)擅长提取局部特征,作用于空间上的抽象和泛化,并且能够在空间维度上提取更具有表现力的高维度特征。在因子分解时眼神经网络(TDNN-F)中,每一层都有着不同的时间分辨率,前一层的输出经过拼接之后作为当前层的输入。
利用音频数据的特征向量对声学模型进行训练的具体过程对于本领域技术人员是显而易见的,在此不再赘述。
步骤402:基于历史音频文本数据的词汇数据训练语言模型。
请参见图6,在一些实施例中,基于历史音频文本数据的词汇数据训练语言模型的训练流程描述如下:
步骤601,构建N-gram语言模型。
本申请实施例中,将历史音频文本数据的词汇数据设置权重,得到N元语言模型(N-gram)。
步骤602,利用历史音频文本数据的词汇数据训练语言模型,得到训练好的语言模型。
利用音频文本数据的词汇数据对语言模型进行训练的具体过程对于本领域技术人员是显而易见的,在此不再赘述。
步骤403:根据训练好的语言模型和词汇词典,生成解码器。
本申请实施例中,将训练好的语言模型和词汇词典进行合并组合,得到HCLG解码器。
步骤404:根据解码器和训练好的声学模型,生成语音识别模型。
本申请实施例中,将解码器和训练好的语音模型进行编译,得到语音识别模型。
考虑到,通过上述训练方法确定出语音识别模型后,该模型可能仍会存在识别不准确的情况出现。因此,本申请实施例中,将选取测试音频数据对于训练完成的语音识别模型中进行测试,并根据测试结果对于语音识别模型进行对应更新调整。
作为一种可能的实施方式,该方法还包括:
获取测试音频数据及对应的文本数据,抽取测试音频文本数据中测试词汇数据;提取测试词汇数据的特征向量,输入到语音识别模型的解码器中,得到测试发音音素序列;若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素或词汇,对语音识别模型进行修正。
在一些实施例中,若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素,则获取正确的发音音素序列,并写入词汇词典,根据新的词汇词典更新语音识别模型。
在一些实施例中,若测试发音音素序列中存在测试音频数据中词汇发音不一致的词汇,则获取正确的发音音素序列及对应的词汇,并写入词汇词典;基于正确的发音音素序列对应的词汇数据再次训练语言模型,根据再次训练的语音模型更新语音识别模型。
经过以上方法,可更新语言模型,即可得到包含新标音的语音识别模型,可用于辨识音频文件。
步骤105:获取待识别语音数据。
本申请实施例中,待识别语音数据可为中英文混合语音数据。
步骤106:将待识别语音数据输入到语音识别模型,得到待识别语音数据的文本信息。
本申请实施例中,将待识别语音数据输入到语音识别模型,该模型已经基于中英文混合音频数据以及对应的音频文本数据进行训练,能够很好的对于音频数据进行识别,从而使最终获得的中英文混合文本较为准确。
请参见图7,在一些实例中,将待识别语音数据输入到语音识别模型,获取待识别语音数据的文本信息流程描述如下:
步骤701:提取待识别语音数据的特征并输入至声学模型,生成音素序列。
步骤702:将音素序列经语言模型和词汇词典构成的解码器进行解码,求出待识别语音数据的文本信息。
本申请实施例中,通过上述的语音识别方法,获取历史音频数据以及对应的历史音频文本数据,对于历史音频文本数据进行预处理以及进行词汇的拆分抽取,得到历史音频文本数据的词汇数据,并基于预先存储的中文词典、英文词典以及G2P模型对于分词后的词汇进行音素标注,并构建词汇词典,通过将历史音频数据输入到声学模型中进行训练,以及将历史的音频文本数据的词汇数据输入到语言模型中进行训练,将训练好的语言模型和词汇词典构成的解码器,根据解码器和训练好的声学模型,生成语音识别模型;利用语音识别模型对待识别语音数据进行处理,得到待识别语音数据的文本信息,提高识别准确度,降低人工工作量。
请参见图8,基于同一发明构思,本申请实施例提供一种语音识别装置,该装置包括:通信器801与处理器802。
通信器801,用于接收历史音频数据、历史音频文数据及待识别语音数据:
处理器802,耦接通信器,用于:对历史音频文本数据进行预处理,并抽取历史音频文本数据中词汇数据;基于预先存储的中文词典与英文词典以及G2P模型,确定词汇数据的音素标注,并构建词汇词典;基于历史音频数据和历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;获取待识别语音数据,将待识别语音数据输入语音识别模型,得到待识别语音数据的文本信息。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (11)
1.一种语音识别方法,其特征在于,所述方法包括:
获取历史音频数据和对应的历史音频文本数据;
对所述历史音频文本数据进行预处理,并抽取所述历史音频文本数据中词汇数据;
基于预先存储的中文词典与英文词典以及G2P模型,确定所述词汇数据的音素标注,并构建词汇词典,其中,所述G2P模型是根据所述历史音频数据训练得到;
基于所述历史音频数据和所述历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;
获取待识别语音数据,将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息。
2.根据权利要求1所述的语音识别方法,其特征在于,对所述音频文本数据进行预处理包括:
对所述音频文本数据进行文本正则化处理。
3.根据权利要求1所述的语音识别方法,其特征在于,所述抽取音频文本数据中词汇数据包括:
基于预先构建的分词工具对所述历史音频文本数据进行分词处理,基于分词后的所述历史音频文本数据,抽取所述历史音频文本数据中的词汇数据,形成包含所述历史音频文本数据的所有词汇数据的词汇列表。
4.根据权利要求3所述的语音识别方法,其特征在于,基于预先存储的中文词典与英文词典以及G2P模型,确定所述词汇数据的音素标注包括:
基于所述中文词典以及所述历史音频数据中的中文音频数据对所述词汇列表中的中文词汇进行音素标注,以及基于所述英文词典以及所述历史音频数据中的英文音频数据对所述词汇列表中的英文词汇进行音素标注;
若所述词汇列表中存在英文词汇的音素标注失败,将标注失败的所述英文词汇输入到G2P模型中,获得标注失败的所述英文词汇对应的发音序列;
基于所述发音序列重新对标注失败的所述英文词汇进行音素标注。
5.根据权利要求1所述的语音识别方法,其特征在于,所述词汇词典的构建方法包括:
根据所述历史音频文本数据的词汇数据的音素标注、预先存储的中文词典与英文词典,生成词汇词典。
6.根据权利要求1所述的语音识别方法,其特征在于,所述G2P模型的训练方法包括:
获取所述历史音频数据,对所述历史音频数据进行预处理;
提取预处理后的所述历史音频数据的特征向量;
将提取到的特征向量输入声学模型,得到所述历史音频数据对应的词汇表;
利用所述历史音频数据对应的词汇表训练G2P模型,得到训练好的G2P模型。
7.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型的生成方法包括:
基于所述历史音频数据训练声学模型,构建语言模型并基于历史音频文本数据的词汇数据训练所述语言模型;
根据训练好的所述语言模型和所述词汇词典,生成解码器;
基于所述解码器和训练好的所述声学模型,生成语音识别模型。
8.根据权利要求1所述的语音识别方法,其特征在于,生成所述语音识别模型之后,所述方法还包括:
获取测试音频数据及对应的文本数据,抽取测试音频文本数据中测试词汇数据;
提取测试词汇数据的特征向量,输入到所述语音识别模型的解码器中,得到测试发音音素序列;
若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素或词汇,对所述语音识别模型进行修正。
9.根据权利要求8所述语音识别方法,其特征在于,对所述语音识别模型进行修正包括:
若测试发音音素序列中存在测试音频数据中词汇发音不一致的音素,则获取正确的发音音素序列,并写入词汇词典,根据新的词汇词典更新所述语音识别模型;
若测试发音音素序列中存在测试音频数据中词汇发音不一致的词汇,则获取正确的发音音素序列及对应的词汇,并写入词汇词典;基于正确的发音音素序列对应的词汇数据再次训练语言模型,根据再次训练的语音模型更新所述语音识别模型。
10.根据权利要求1所述语音识别方法,其特征在于,所述将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息包括:
提取待识别语音数据的特征向量并输入至声学模型,生成待识别语音数据对应的音素序列;
将所述音素序列经语言模型和词汇词典构成的解码器进行解码,求出待识别语音数据的文本信息。
11.一种语音识别装置,其特征在于,所述装置包括:
通信器,用于接收历史音频数据与对应的历史音频文本数据、以及待识别语音数据:
处理器,耦接所述通信器,用于:对所述历史音频文本数据进行预处理,并抽取所述历史音频文本数据中词汇数据;基于预先存储的中文词典与英文词典以及G2P模型,确定所述词汇数据的音素标注,并构建词汇词典;基于所述历史音频数据和所述历史音频文本数据的词汇数据,训练声学模型和语言模型,根据训练好的声学模型、训练好的语言模型及词汇词典,生成语音识别模型;获取待识别语音数据,将所述待识别语音数据输入所述语音识别模型,得到待识别语音数据的文本信息。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211624595.9A CN116229947A (zh) | 2022-12-16 | 2022-12-16 | 一种语音识别方法及语音识别装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211624595.9A CN116229947A (zh) | 2022-12-16 | 2022-12-16 | 一种语音识别方法及语音识别装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116229947A true CN116229947A (zh) | 2023-06-06 |
Family
ID=86588161
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202211624595.9A Pending CN116229947A (zh) | 2022-12-16 | 2022-12-16 | 一种语音识别方法及语音识别装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116229947A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118675504A (zh) * | 2024-08-22 | 2024-09-20 | 成都乐超人科技有限公司 | 基于物联网实现智能产品的语音控制方法及系统 |
| CN119446118A (zh) * | 2024-10-08 | 2025-02-14 | 广西民族大学 | 基于冷融合技术的端到端高效汉语-瑶语语音识别系统 |
| CN120727000A (zh) * | 2025-08-27 | 2025-09-30 | 红杉天枰科技集团有限公司 | 一种服务于水务领域的语音流机器人构建方法及系统 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
| WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
| CN110675855A (zh) * | 2019-10-09 | 2020-01-10 | 出门问问信息科技有限公司 | 一种语音识别方法、电子设备及计算机可读存储介质 |
| CN111402862A (zh) * | 2020-02-28 | 2020-07-10 | 问问智能信息科技有限公司 | 语音识别方法、装置、存储介质及设备 |
-
2022
- 2022-12-16 CN CN202211624595.9A patent/CN116229947A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
| WO2017114172A1 (zh) * | 2015-12-29 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
| CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
| CN110675855A (zh) * | 2019-10-09 | 2020-01-10 | 出门问问信息科技有限公司 | 一种语音识别方法、电子设备及计算机可读存储介质 |
| CN111402862A (zh) * | 2020-02-28 | 2020-07-10 | 问问智能信息科技有限公司 | 语音识别方法、装置、存储介质及设备 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118675504A (zh) * | 2024-08-22 | 2024-09-20 | 成都乐超人科技有限公司 | 基于物联网实现智能产品的语音控制方法及系统 |
| CN119446118A (zh) * | 2024-10-08 | 2025-02-14 | 广西民族大学 | 基于冷融合技术的端到端高效汉语-瑶语语音识别系统 |
| CN120727000A (zh) * | 2025-08-27 | 2025-09-30 | 红杉天枰科技集团有限公司 | 一种服务于水务领域的语音流机器人构建方法及系统 |
| CN120727000B (zh) * | 2025-08-27 | 2025-11-14 | 红杉天枰科技集团有限公司 | 一种服务于水务领域的语音流机器人构建方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
| US9195650B2 (en) | Translating between spoken and written language | |
| CN109241540B (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
| US10431201B1 (en) | Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms | |
| CN116229947A (zh) | 一种语音识别方法及语音识别装置 | |
| Sitaram et al. | Speech synthesis of code-mixed text | |
| CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
| US20240304178A1 (en) | Using text-injection to recognize speech without transcription | |
| US11817079B1 (en) | GAN-based speech synthesis model and training method | |
| US7966173B2 (en) | System and method for diacritization of text | |
| CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
| CN110852075A (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
| El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
| CN120148474A (zh) | 语音生成方法、装置、设备及介质 | |
| Ananthakrishnan et al. | Automatic diacritization of Arabic transcripts for automatic speech recognition | |
| Lin et al. | Hierarchical prosody modeling for Mandarin spontaneous speech | |
| CN115512689A (zh) | 一种基于音素对迭代融合的多语种音素识别方法 | |
| Besacier et al. | ASR and translation for under-resourced languages | |
| Zevallos et al. | Automatic speech recognition of quechua language using hmm toolkit | |
| Cherifi et al. | Arabic grapheme-to-phoneme conversion based on joint multi-gram model | |
| Kalyani et al. | Syllable analysis to build a dictation system in Telugu language | |
| CN115114933A (zh) | 用于文本处理的方法、装置、设备和存储介质 | |
| CN116229994B (zh) | 一种阿拉伯语方言的标符预测模型的构建方法和装置 | |
| Naqvi et al. | Code-mixed street address recognition and accent adaptation for voice-activated navigation services | |
| Gao | Unsupervised speech technology for low-resource languages |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |