一种语音评价方法及装置
技术领域
本发明涉及多媒体教学技术领域,尤其涉及一种用于多媒体教学中口语学习的语音评价方法及装置。
背景技术
语言作为一种交流工具,在生活和工作中占有非常重要的地位,不论是学生在学校学习的阶段还是人们在工作的阶段,口语学习都是人们非常重视的学习内容。而随着网络教学的不断普及,网络授课的方式因不受时间和授课地点的约束,受到广大用户的喜爱。因此,目前很多用户更愿意利用闲暇时间,通过网络进行语言学习。而用户在进行语言学习时,当学习到新的单词或短语而进行口语联系时,除了单纯对单词或短语进行发音练习之外,还会对包含该单词或短语的句子进行口语练习。
为解决上述问题,目前提出了根据语音预测模型对学员的语音进行评价。CN101197084A公开了一种自动化英语口语评测学习系统,其特征在于该系统包括有检测口语发音部分,所述的检测口语发音部分包括以下步骤:〔1〕标准发音人语料库的建立:1)寻找英语标准发音人;2)根据英语口语学习要求及音素平衡的原则设计第一录音文本;3)标准发音人对照录音文本进行录音;〔2〕口语评测语料库的收集:在模拟英语学习软件应用环境下,根据英语学习要求设计第二录音文本,同时寻找一般发音人,并对一般发音人的口语发音进行录音;〔3〕口语评测语料库的标注:专家详细标注每个单词中音素的发音是否正确;〔4〕标准语音声学模型的建立:基于标准发音人语料库中的录音及其相关联的文本,训练标准语音的声学模型;〔5〕计算语音的检错参数:1)提取语音的美尔倒谱系数参数;2)基于标准声学模型,以及评测语料库中的一般发音人录音及其文本对应的音素序列,将对一般发音人语音数据自动切分成以音素为单位的各个音段,同时基于标准模型计算得到各音段作为该音素的第一似然值;3)用标准声学模型对一般发音人语音的每个音段进行识别,同时基于标准声学模型计算得到该音段作为识别结果音素的第二似然值;4)将音段第一似然值除以第二似然值,得到该音段的似然比,作为该语音片段的检错参数;〔6〕建立检错参数向专家所标注发音错误的检错映射模型:在一批评测语音上,将各个音段评测参数和音段的共振峰序列与专家的详细标注进行关联,运用统计的方法得到上述参数与专家详细标注的对应关系,保存这些关系作为从检错参数到专家发音错误标注之间的检错映射模型。
CN101650886A公开了一种自动检测语言学习者朗读错误的方法,其特征在于,包含如下步骤:1)前端处理:对输入语音进行预处理,进行特征提取,所提取特征为MFCC特征矢量;2)构建精简搜索空间:将用户所要朗读的内容作为参考答案,并根据参考答案、发音字典、多发音模型和声学模型构建精简的搜索空间;3)构建朗读语言模型:根据参考答案构建用户的朗读语言模型,该语言模型描述用户在朗读该参考语句的时候可能朗读的上下文内容及其概率信息;4)搜索:在搜索空间中,根据声学模型、朗读语言模型和多发音模型搜索得到与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,做成识别结果序列;5)对齐:将所述参考答案与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。
现有技术中,当用户进行发音练习时,大多采用录音的方式,在用户跟读之后向用户播放录音,由用户自我评价发音是否准确;或者由老师进行在线教学,针对用户的发音给出指导和建议。这种方式只能让用户在主观上感知自己的发音情况,并不能给出有效准确的评价结果。近年来,网络教学的语音评价方法采用了与标准语音进行特征对比的方式,来评价用户的发音。例如,对输入语音进行预处理,进行特征提取;将用户所要朗读的内容作为参考答案,并根据参考答案、发音字典、多发音模型和声学模型构建精简的搜索空间;在搜索空间中,根据声学模型、朗读语言模型和多发音模型搜索得到与输入的特征矢量流最匹配的一条路径,作为用户的实际朗读结果内容,做成识别结果序列;将所述参考答案与识别结果进行对齐,得到用户多读、漏读、错读的检测结果。
上述评价方法虽然可以给出用户语音的发音评价结果,但给出的评价结果往往是用户所朗读的所有语音的分析结果,而有时用户可能更关注的是所学新单词或短语在整个句子或段落中的发音是否准确流畅,对于其他部分的发音并不是其关注的重点。
因此,有必要提供一种语音评价方法,当用户朗读整句或整段文章时,仅分析用户所关注的部分内容,给出相应的评价结果,从而在提高用户关注点的基础上,减少系统的数据分析量,节省系统资源。
发明内容
为此,本发明所要解决的技术问题是在口语练习过程中,所述口语练习,比如英语,如何向用户提供用户所关注内容的语音评价结果。
根据本发明的第一方面,提供一种语音评价方法,用于对用户所关注内容的语音进行语音评价,包括以下步骤:
步骤S101,输入语音获取,用于在用户进行语言学习的口语练习环节中,通过电子装置的录音设备获取用户的语音输入;
步骤S102,语音单元划分,用于对所录制的语音进行基本语音单元划分,形成语音单元序列;
步骤S103,音律特征获取,用于对所述语音单元序列进行分析,获取所述语音单元序列的音律特征;
步骤S104,待评价内容确定,用于对提取到的音律特征进行特征计算,如果计算结果满足预定条件,则将符合预定条件的语音单元作为待评价内容;
步骤S105,语音对比分析,用于获取待评价内容的音律特征,并将所述音律特征与语音预测模型预测的标准语音进行对比分析;
步骤S106,对比结果生成,将语音对比结果标注在用户语音文本上,提供给用户。
所述基本语音单元可以是音节、音素等,通过对所述语音的划分,得到所录制语音的基本语音单元,并形成语音单元序列。
所述语音单元序列的音律特征包括,韵律特征和音节特征,
所述韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长等;
所述音节特征包括各基本语音单元的发音。
在所述步骤S104中,对所述语音单元序列的音律特征的计算可以采用最优得分路径的计算方法,具体操作为:
将提取到的语音单元序列的音律特征,利用训练好的声学模型计算最优得分路径;
如果最优得分路径中包含要检测的待评价内容,则确定已检出待评价内容。
所述最优得分路径的计算公式是:
其中,
X代表所述语音单元序列的音律特征向量,W代表得分最大的最优词序列;
条件概率P(X|W)为声学模型得分,通过训练好的声学模型计算得到;
先验概率P(W)为语言模型得分,即为对不同的声学模型所加的Penalty。
所述待评价内容的音律特征还可以包括待评价内容的上下文内容的音律特征等。
所述步骤S105,进一步包括:
对所录制的用户语音进行基本语音单元划分;
从语音单元序列中提取对应待评价音律特征;
对于不同的音律特征加载对应的预测模型,预测出相应的标准发音;
将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
根据本发明的第二方面,提供一种语音评价装置,用于对用户所关注内容的语音进行语音评价,包括输入语音获取模块、信息存储模块、语音单元划分模块、音律特征获取模块、待评价内容确定模块、语音对比分析模块、评价模块以及对比结果生成模块,其中:
输入语音获取模块,用于获取用户的语音输入,并将录制的用户语音存储到信息存储模块中;
语音单元划分模块,用于对所录制语音进行基本语音单元划分,获得所述录制语音的语音单元序列;
音律特征获取模块,用于对所述语音单元序列进行特征提取,获取所述语音单元序列的音律特征;
待评价内容确定模块,用于对提取到的音律特征进行特征计算,如果计算结果满足预定条件,则将符合条件的语音单元作为待评价内容;
语音对比分析模块,用于获取待评价内容的音律特征,并将所述音律特征与语音预测模型预测的标准语音进行对比分析;
对比结果生成模块,用于将语音评价结果标注在用户语音文本上,提供给用户。
所述基本语音单元可以是音节、音素等,通过对所述语音的划分,得到所录制语音的基本语音单元及语音单元序列。
所述语音单元序列的音律特征包括韵律特征和音节特征,
韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长;
所述音节特征包括各基本语音单元的发音。
对于所述待评价内容确定模块,对语音单元序列的音律特征的计算可采用最优得分路径的计算方法,包括:
将提取得到的语音单元序列的音律特征,利用训练好的声学模型计算最优得分路径;
如果最优得分路径中包含要检测的待评价内容,则确定已检出待评价内容。
所述最优得分路径的计算公式是:
其中,
X代表所述语音单元序列的音律特征向量,W代表得分最大的最优词序列;
条件概率P(X|W)为声学模型得分,通过训练好的声学模型计算得到;
先验概率P(W)为语言模型得分,即为对不同的声学模型所加的Penalty。
所述待评价内容的音律特征还可以包括待评价内容的上下文内容的音律特征。
对于所述语音对比分析模块,利用语音预测模型进行语音评价的操作包括:
对所录制的用户语音进行基本语音单元划分;
从语音单元序列中提取对应待评价音律特征;
对于不同的音律特征加载对应的预测模型,预测出相应的标准发音;
将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
所述语音评价装置还包括显示模块,用于将带有语音评价结果标注的用户语音文本显示给用户。
根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述方法中的步骤。
通过本发明的语音评价方法和装置,当用户朗读整句或整段文章时,仅分析用户所关注的部分内容,给出相应的评价结果,从而在提高用户关注点的基础上,减少系统的数据分析量,节省系统资源。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是根据本发明的语音评价方法的流程图;和
图2是根据本发明的语音评价装置的示意图。
具体实施方式
在更加详细地讨论示例性实施例之前,应当注意到,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
在上下文中所称“语音评价装置”即为“计算机设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。
所述计算机设备包括用户设备和/或网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本领域技术人员应能理解,本发明中所述的“语音评价装置”可以仅是用户设备,即由用户设备来执行相应的操作;也可以是由用户设备与网络设备或服务器相集成来组成,即由用户设备与网络设备相配合来执行相应的操作。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,本领域技术人员应能理解,本发明可应用于移动端与非移动端,例如,当用户使用手机或PC时,均可利用本发明所述的方法或装置来进行提供与呈现。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1示出了本发明的语音评价方法的流程图。所述方法用于对用户所关注内容的语音进行语音评价。
首先,在步骤S101,输入语音获取,用于在用户进行语言学习的口语练习环节中,通过电子装置的录音设备获取用户的语音输入。
例如用户在学习了新的教学内容之后,如新的单词或短语,会进入发音练习阶段。在发音练习阶段,除了让用户对所学新内容进行单独的跟读练习之外,一般的教学过程还会让用户在真实语境中体验所学内容的运用,即给出一段包含该所学新内容的句子或短文,由用户进行朗读。例如,用户当前所学新内容为单词“platform”,用户在学习了所述单词的释义和发音之后,教学软件进一步给出包含所述单词的例句“The train nowstanding at platform 1is for Leeds”,供用户进行朗读练习。此时,用户更多地是关注在所述例句中,用户对所学新单词的发音是否标准流畅,以了解其所学内容的掌握情况,而并不太关注例句中其他单词的发音是否准确。因此,为了给出用户在所述例句中关于“platform”的发音评价,在用户开始朗读所述内容之前,启动教学设备的录音装置,使其进入录音状态,并在用户进行朗读时对用户语音进行录制并保存用户的语音。
在步骤S102,语音单元划分,用于对所录制的语音进行基本语音单元划分,形成基本基本语音单元序列。
所述基本语音单元可以是音节、音素等,通过对所述语音的划分,得到所录制语音的基本语音单元及语音单元序列。
不同的语音识别系统将基于不同的声学特征如基于MFCC(Mel-FrequencyCepstrum Coefficients,美尔倒谱系数)特征的声学模型、基于PLP(Perceptual LinearPredictive,感知线性预测)特征的声学模型等,或采用不同的声学模型如HMM-GMM(HiddenMarkov Model-Gaussian Mixture Model,隐马尔可夫模型-高斯混合模型)、基于DBN(Dynamic Beyesian Network,动态贝叶斯网络)的神经网络声学模型等,或采用不同的解码方式如Viterbi搜索,A*搜索等,对语音信号解码。
步骤S103,音律特征获取,用于对所述语音单元序列进行分析,获取所述语音单元序列的音律特征。
所述音律特征包括韵律特征和音节特征,韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长。所述音节特征包括各基本语音单元的发音。
步骤S104,待评价内容确定,用于对提取到的音律特征进行特征计算,如果计算结果满足预定条件,则将符合条件的语音单元作为待评价内容。
对音律特征的计算可采用最优得分路径的计算方法,将提取得到的音律特征,利用训练好的声学模型计算最优得分路径,如果最优得分路径中包含要检测的待评价内容,则确定已检出待评价内容。所述最优得分路径的计算公式是:
其中,X代表所述语音单元序列的音律特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的Penalty。
例如,通过对用户所朗读的例句“The train now standing at platform 1isfor Leeds”的最优得分路径计算,其中“platform”的计算得分最大,因此确定出为最优词序列,因此将“platform”作为待评价内容。
步骤S105,语音对比分析,用于获取待评价内容的音律特征,并将所述音律特征与语音预测模型预测的标准语音进行对比分析。
在所述步骤中,获取待评价内容的音律特征,例如获取“platform”的音律特征。将所述音律特征与语音预测模型预测的标准语音进行对比分析,给出用户关于所述待评价内容的评价结果。
为了进一步了解用户朗读所述带评价内容的流畅度情况,所述音律特征还可以包括待评价内容的上下文内容的音律特征。例如,当对“platform”进行发音评价时,“platform”的音律特征除了包括“platform”单词本身的音律特征,还包括其上下文内容的音律特征,即“at”、“1”的音律特征,通过对发音时长、停顿时间等因素的对比分析,给出关于朗读流畅度的评价结果。
利用语音预测模型进行语音评价的方法可采用现有的语音评价技术,即对所录制的用户语音进行基本语音单元划分,从语音单元序列中提取对应待评价音律特征,对于不同的音律特征加载对应的预测模型,预测出相应的标准发音,再将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
步骤S106,对比结果生成,用于将语音对比结果标注在用户语音文本上,提供给用户。
在所述步骤中,将步骤S105获得的与语音预测模型预测的标准语音对比的评价结果,采用可视化的方式标注在所述语音文本上,显示给用户。用户通过所显示的评价结果,了解所学新内容在整个段落中的发音是否准确、是否流畅。
图2示出了根据本发明实施例的语音评价装置的示意图。所述语音评价装置用于实现本发明的语音评价方法,所述语音评价装置包括,输入语音获取模块1、信息存储模块2、语音单元划分模块3、音律特征获取模块4、待评价内容确定模块5、语音对比分析模块6、对比结果生成模块7、显示模块8以及语音预测模型9。
用户在进行语言学习的口语练习环节中,通过语音评价装置的输入语音获取模块1获取用户的语音输入,并将所录制语音存入到信息存储模块2中。
例如,用户在学习了新的教学内容之后,如新的单词或短语,会进入发音练习阶段。在发音练习阶段,除了让用户对所学新内容进行单独的跟读练习之外,一般的教学过程还会让用户在真实语境中体验所学内容的运用,即给出一段包含所述所学新内容的句子或短文,由用户进行朗读。例如,用户当前所学新内容为单词“platform”,用户在学习了所述单词的释义和发音之后,教学软件进一步给出包含所述单词的例句“The train nowstanding at platform 1is for Leeds”,供用户进行朗读练习。此时,用户更多地是关注在所述例句中,用户对所学新单词的发音是否标准流畅,以了解其所学内容的掌握情况,而并不太关注例句中其他单词的发音是否准确。因此,为了给出用户在所述例句中关于“platform”的发音评价,在用户开始朗读所述内容之前,启动教学设备的输入语音获取模块1,使其进入录音状态,并在用户进行朗读时对用户语音进行录制并保存用户的语音。
语音单元划分模块3,用于用户对所录制的语音进行基本语音单元划分。
所述基本语音单元可以是音节、音素等,通过对所述语音的划分,得到所录制语音的基本语音单元及语音单元序列。
不同的语音识别系统将基于不同的声学特征如基于MFCC(Mel-FrequencyCepstrum Coefficients,美尔倒谱系数)特征的声学模型、基于PLP(Perceptual LinearPredictive,感知线性预测)特征的声学模型等,或采用不同的声学模型如HMM-GMM(HiddenMarkov Model-Gaussian Mixture Model,隐马尔可夫模型-高斯混合模型)、基于DBN(Dynamic Beyesian Network,动态贝叶斯网络)的神经网络声学模型等,或采用不同的解码方式如Viterbi搜索,A*搜索等,对语音信号解码。
音律特征获取模块4,用于对所述语音单元序列进行分析,获取所述语音单元序列的音律特征。
所述音律特征包括韵律特征和音节特征,韵律特征包括每个基本语音单元的边界特征、发音时长、相邻基本语音单元间的停顿时间以及整个语音单元序列的发音时长。所述音节特征包括各基本语音单元的发音。
待评价内容确定模块5,用于对提取到的音律特征进行特征计算,如果计算结果满足预定条件,则将符合条件的语音单元作为待评价内容。
对音律特征的计算可采用最优得分路径的计算方法,将提取得到的音律特征,利用训练好的声学模型计算最优得分路径,如果最优得分路径中包含要检测的待评价内容,则确定已检出待评价内容。所述最优得分路径的计算公式是:
其中,X代表所述语音单元序列的音律特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的Penalty。
例如,通过对用户所朗读的例句“The train now standing at platform 1isfor leeds.”的最优得分路径计算,其中“platform”的计算得分最大,因此确定出为最优词序列,因此将“platform”作为待评价内容。
语音对比分析模块6,用于获取待评价内容的音律特征,并将所述音律特征与语音预测模型9预测的标准语音进行对比分析。
语音对比分析模块6获取待评价内容的音律特征,例如获取“platform”的音律特征。将所述音律特征与语音预测模型9预测的标准语音进行对比分析,给出用户关于所述待评价内容的评价结果。
为了进一步了解用户朗读所述带评价内容的流畅度情况,所述音律特征还可以包括待评价内容的上下文内容的音律特征。例如,当对“platform”进行发音评价时,“platform”的音律特征除了包括“platform”单词本身的音律特征,还包括其上下文内容的音律特征,即“at”、“1”的音律特征,通过对发音时长、停顿时间等因素的对比分析,给出关于朗读流畅度的评价结果。
利用语音预测模型进行语音评价的方法可采用现有的语音评价技术,即对所录制的用户语音进行基本语音单元划分,从语音单元序列中提取对应待评价音律特征,对于不同的音律特征加载对应的预测模型,预测出相应的标准发音,再将用户语音的音律特征与标准发音的音律特征进行对比,得到相应的评价结果。
对比结果生成模块7,将语音对比结果标注在用户语音文本上,提供给用户。
为了对用户所读文本进行标注,对比结果生成模块7获取语音对比分析模块6所给出的语音评价结果,采用可视化的方式标注在用户所读文本之上,通过显示模块8显示给用户。用户通过所显示的评价结果,了解所学新内容在整个段落中的发音是否准确、是否流畅。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述程序可以存储于一计算机可读存储介质中,并由处理器执行。计算机可读存储介质可以包括:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。