CN107004405A

CN107004405A - 语音识别装置和语音识别方法

Info

Publication number: CN107004405A
Application number: CN201480084123.6A
Authority: CN
Inventors: 小川勇; 花泽利行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2017-08-01
Also published as: DE112014007265T5; JPWO2016098228A1; JP6230726B2; US20170287472A1; WO2016098228A1

Abstract

语音识别装置具有：嘴唇图像识别部(103)，其根据作为语音以外的信息的图像数据识别用户状态；非讲话区间判定部(104)，其根据识别出的用户状态判定用户是否正在讲话；语音区间检测阈值学习部(106)，其在判定为用户未在讲话的情况下，根据语音数据设定第1语音区间检测阈值，在判定为用户正在讲话的情况下，根据语音输入部转换后的语音数据设定第2语音区间检测阈值；语音区间检测部(107)，其使用所设定的阈值，根据语音数据检测表示用户的讲话的语音区间，在无法使用第2语音区间检测阈值检测语音区间的情况下，应用第1语音区间检测阈值检测语音区间；以及语音识别部(108)，其识别检测到的语音区间的语音数据，输出识别结果。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及从输入的语音中提取语音区间并对提取出的语音区间进行语音识别的语音识别装置和语音识别方法。

背景技术

近年来，在便携终端或导航装置中搭载有用于通过语音进行操作输入的语音识别装置。在输入到语音识别装置的语音信号中，不仅包含指示操作输入的用户讲出的语音，而且包含外部噪音等不是目标的声音。因此，需要从在噪音环境下输入的语音信号中适当提取用户讲话的区间(以下称作语音区间)并进行语音识别的技术，公开有各种技术。

例如，在专利文献1中公开有如下的语音区间检测装置，该语音区间检测装置从语音信号中提取语音区间检测用的音频特征量，从图像帧中提取语音区间检测用的图像特征量，生成将提取出的音频特征量和图像特征量合并而成的音频图像特征量，根据该音频图像特征量判定语音区间。

并且，在专利文献2中公开有如下的语音输入装置，该语音输入装置根据语音输入讲话者的嘴角图像的分析来判断有无讲话，确定讲话者的位置，将确定的位置处的嘴角的动作视为产生目标声音而不包含在噪声判定中。

并且，在专利文献3中公开有如下的数字列语音识别装置，该数字列语音识别装置根据变量i(例如i＝5)的值，依次变更语音区间相对于输入语音的切出的阈值，根据变更后的阈值进行语音区间的切出，求出多个识别候选，对根据求出的多个识别候选而得到的识别分数进行合计，决定最终的识别结果。

现有技术文献

专利文献

专利文献1：日本特开2011-59186号公报

专利文献2：日本特开2006-39267号公报

专利文献3：日本特开平8-314495号公报

发明内容

发明要解决的课题

但是，在上述专利文献1和专利文献2公开的技术中，需要与针对输入语音的语音区间检测和语音识别处理并行地，始终利用摄像部拍摄动态图像并根据嘴角图像的分析来判定有无讲话，存在运算量增大这样的课题。

并且，在上述专利文献3公开的技术中，针对用户的一次讲话，需要变更阈值而进行5次语音区间检测处理和语音识别处理，存在运算量增大这样的课题。

进而，在平板终端等处理性能较低的硬件上使用这些运算量较大的语音识别装置的情况下，存在直到得到语音识别结果为止的延迟时间较长这样的课题。并且，如果结合平板终端等的处理性能而削减图像识别处理或语音识别处理的运算量，则存在识别处理性能降低这样的课题。

本发明正是为了解决上述这种课题而完成的，其目的在于，提供如下的语音识别结果和语音识别方法：在处理性能较低的硬件上使用的情况下也能够缩短直到得到语音识别结果为止的延迟时间，并且抑制识别处理性能的降低。

用于解决课题的手段

本发明的语音识别装置具有：语音输入部，其取得采集到的语音，将该语音转换成语音数据；非语音信息输入部，其取得语音以外的信息；非语音操作识别部，其根据非语音信息输入部取得的语音以外的信息识别用户状态；非讲话区间判定部，其根据非语音操作识别部识别出的用户状态判定用户是否正在讲话；阈值学习部，其在非讲话区间判定部判定为用户未在讲话的情况下，根据语音输入部转换后的语音数据设定第1阈值，在非讲话区间判定部判定为用户正在讲话的情况下，根据语音输入部转换后的语音数据设定第2阈值；语音区间检测部，其使用阈值学习部设定的阈值，根据语音输入部转换后的语音数据检测表示用户的讲话的语音区间；以及语音识别部，其识别语音区间检测部检测到的语音区间的语音数据，输出识别结果，语音区间检测部在无法使用第2阈值检测语音区间的情况下，应用第1阈值检测语音区间。

发明效果

根据本发明，在处理性能较低的硬件上使用的情况下也能够缩短直到得到语音识别结果为止的延迟时间，并且抑制识别处理性能的降低。

附图说明

图1是示出实施方式1的语音识别装置的结构的框图。

图2是示出实施方式1的语音识别装置的处理、语音输入电平和CPU负荷的说明图。

图3是示出实施方式1的语音识别装置的动作的流程图。

图4是示出实施方式2的语音识别装置的结构的框图。

图5是示出实施方式2的语音识别装置的操作脚本存储部存储的操作脚本的一例的图。

图6是示出实施方式2的语音识别装置的处理、语音输入电平和CPU负荷的说明图。

图7是示出实施方式2的语音识别装置的动作的流程图。

图8是示出实施方式3的语音识别装置的结构的框图。

图9是示出实施方式3的语音识别装置的处理、语音输入电平和CPU负荷的说明图。

图10是示出实施方式3的语音识别装置的动作的流程图。

图11是示出搭载有本发明的语音识别装置的便携终端的硬件结构的图。

具体实施方式

下面，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是示出实施方式1的语音识别装置100的结构的框图。

语音识别装置100由触摸操作输入部(非语音信息输入部)101、图像输入部(非语音信息输入部)102、嘴唇图像识别部(非语音操作识别部)103、非讲话区间判定部104、语音输入部105、语音区间检测阈值学习部106、语音区间检测部107以及语音识别部108构成。

另外，下面，以借助触摸面板(未图示)进行用户的触摸操作的情况为例进行说明，但是，在使用触摸面板以外的输入单元的情况下、或使用利用触摸操作以外的输入方法的输入单元的情况下，也能够应用该语音识别装置100。

触摸操作输入部101检测用户对触摸面板的接触，取得检测到对触摸面板的接触的坐标值。图像输入部102取得由摄像机等摄像单元拍摄到的动态图像，将其转换成图像数据。嘴唇图像识别部103分析图像输入部102取得的图像数据，识别用户的嘴唇的动作。非讲话区间判定部104在触摸操作输入部101取得的坐标值存在于用于进行非讲话的操作的区域内的情况下，参照嘴唇图像识别部103的识别结果，判定用户是否正在讲话。在该判定中判定为用户未在讲话的情况下，非讲话区间判定部104指示语音区间检测阈值学习部106学习在语音区间检测中使用的阈值。非讲话区间判定部104在判定中使用的、用于进行讲话的操作的区域是配置有配置在触摸面板上的语音输入受理按钮等的区域，用于进行非讲话的操作的区域是配置有用于转变到下位画面的按钮等的区域。

语音输入部105取得由传声器等收音单元采集到的语音，将其转换成语音数据。语音区间检测阈值学习部106设定用于根据语音输入部105取得的语音来检测用户的讲话的阈值。语音区间检测部107根据语音区间检测阈值学习部106设定的阈值，根据语音输入部105取得的语音来检测用户的讲话。语音识别部108在语音区间检测部107检测到用户的讲话的情况下，识别语音输入部105取得的语音，输出作为语音识别结果的文本。

接着，参照图2和图3对实施方式1的语音识别装置100的动作进行说明。图2是示出实施方式1的语音识别装置100的输入操作的一例的说明图，图3是示出实施方式1的语音识别装置100的动作的流程图。

首先，图2的(a)在时间轴上示出用户进行第1触摸操作的时间A₁、表示触摸操作的输入超时的时间B₁、进行第2触摸操作的时间C₁、表示阈值学习完成的时间D₁以及表示语音输入超时的时间E₁。

图2的(b)示出输入到语音输入部105的语音的输入电平的时间变化。实线示出讲话语音F(F₁是讲话语音的开头，F₂是讲话语音的末尾)，单点划线示出噪音G。另外，语音输入电平的轴上所示的值H示出第1语音区间检测阈值，值I示出第2语音区间检测阈值。

图2的(c)示出语音识别装置100的CPU负荷的时间变化。区域J示出图像识别处理的负荷，区域K示出阈值学习处理的负荷，区域L示出语音区间检测处理的负荷，区域M示出语音识别处理的负荷。

在语音识别装置100发挥功能的状态下，触摸操作输入部101判定是否检测到对触摸面板的触摸操作(步骤ST1)。在进行该判定的状态下，当用户利用手指按下触摸面板的一部分时，触摸操作输入部101检测该触摸操作(步骤ST1：是)，取得检测到触摸操作的坐标值，将其输出到非讲话区间判定部104(步骤ST2)。非讲话区间判定部104取得在步骤ST2中输出的坐标值后，起动内置的定时器，开始计测从检测到触摸操作起的经过时间(步骤ST3)。

例如，当在步骤ST1中检测到图2的(a)所示的第1触摸操作(时间A₁)时，在步骤ST2中取得该第1触摸操作的坐标值，在步骤ST3中计测从检测到第1触摸操作起的经过时间。计测出的经过时间用于判定是否达到图2的(a)的触摸操作输入超时(时间B₁)。

非讲话区间判定部104指示语音输入部105开始输入语音，语音输入部105根据该指示而开始受理语音的输入(步骤ST4)，将取得的语音转换成语音数据(步骤ST5)。转换后的语音数据例如由对语音输入部105取得的语音信号进行数字化而得到的PCM(Pulse CodeModulation：脉冲编码调制)数据等构成。

并且，非讲话区间判定部104判定在步骤ST2中输出的坐标值是否是所设定的表示讲话的区域外的值(步骤ST6)。在坐标值是表示讲话的区域外的值的情况下(步骤ST6：是)，判断为是未伴有讲话的非讲话的操作，指示图像输入部102开始输入图像。图像输入部102根据该指示而开始受理动态图像输入(步骤ST7)，将取得的动态图像转换成动态图像数据等的数据信号(步骤ST8)。这里，动态图像数据例如由对图像输入部102取得的图像信号进行数字化而将其转换成连续的静态图像列而得到的图像帧等构成。下面，以图像帧为例进行说明。

嘴唇图像识别部103根据在步骤ST8中转换后的图像帧，对用户的嘴唇的动作进行图像识别(步骤ST9)。嘴唇图像识别部103根据在步骤ST9中识别出的图像识别结果判定用户是否正在讲话(步骤ST10)。作为步骤ST10的具体处理，例如嘴唇图像识别部103从图像帧中提取嘴唇图像，根据嘴唇的宽度和高度，通过公知技术计算出嘴唇的形状后，根据嘴唇形状的变化是否与预先设定的讲话时的嘴唇形状图案一致，判定是否正在讲话。在与嘴唇形状图案一致的情况下判定为正在讲话。

在嘴唇图像识别部103中判定为用户正在讲话的情况下(步骤ST10：是)，进入步骤ST12的处理。另一方面，在嘴唇图像识别部103中判定为用户未在讲话的情况下(步骤ST10：否)，非讲话区间判定部104指示语音区间检测阈值学习部106学习语音区间检测的阈值。语音区间检测阈值学习部106根据该指示，例如根据从语音输入部105输入的语音数据记录在规定时间内最大的语音输入电平的值(步骤ST11)。

进而，非讲话区间判定部104判定在步骤ST3中起动的定时器计测出的定时器值是否达到预先设定的超时阈值，即是否达到触摸操作输入的超时(步骤ST12)。具体而言，判定是否达到图2的时间B₁。在未达到触摸操作输入的超时的情况下(步骤ST12：否)，返回步骤ST9的处理，反复进行上述处理。另一方面，在达到触摸操作输入的超时的情况下(步骤ST12：是)，非讲话区间判定部104使语音区间检测阈值学习部106在存储区域(未图示)保存在步骤ST11中记录的语音输入电平的值作为第1语音区间检测阈值(步骤ST13)。在图2的例子中，保存从检测到第1触摸操作的时间A₁到触摸操作输入超时的时间B₁的时间内输入的语音数据中最大的语音输入电平的值即图2的(b)的值H，作为第1语音区间检测阈值。

接着，非讲话区间判定部104对图像输入部102输出停止受理图像输入的指示(步骤ST14)，对语音输入部105输出停止受理语音输入的指示(步骤ST15)。然后，流程图返回步骤ST1的处理，反复进行上述处理。

在通过上述步骤ST7～步骤ST15的处理来实施图像识别处理的期间内，仅语音区间检测阈值学习处理进行动作(参照图2的(c)的时间A₁～时间B₁的区域J(图像识别处理)和区域K(语音区间检测阈值学习处理))。

另一方面，在步骤ST6的判定处理中坐标值是表示讲话的区域内的值的情况下(步骤ST6：否)，判断为是伴有讲话的操作，非讲话区间判定部104指示语音区间检测阈值学习部106学习语音区间检测的阈值。语音区间检测阈值学习部106根据该指示，例如根据从语音输入部105输入的语音数据学习在规定时间内最大的语音输入电平的值，作为第2语音区间检测阈值进行保存(步骤ST16)。

在图2的例子中，保存从检测到第2触摸操作的时间C₁到阈值学习完成的时间D₁的时间内输入的语音数据中最大的语音输入电平的值即图2的(b)的值I，作为第2语音区间检测阈值。另外，设在学习第2语音区间检测阈值时，用户未在讲话。

接着，语音区间检测部107根据在步骤ST16中保存的第2语音区间检测阈值，判定是否能够根据在步骤ST16的语音区间检测阈值的学习完成后经由语音输入部105输入的语音数据检测语音区间(步骤ST17)。在图2的例子中，根据第2语音区间检测阈值即值I来检测语音区间。具体而言，将阈值学习完成的时间D₁之后输入的语音数据的语音输入电平高于第2语音区间检测阈值I的点判断为讲话的开头，将讲话的开头之后的语音数据中低于第2语音区间检测阈值即值I的点判断为讲话的末尾。

假设在语音数据中不存在噪音的情况下，如图2的讲话语音F所示，能够检测开头F₁和末尾F₂，在步骤ST17的判定处理中判定为能够检测语音区间(步骤ST17：是)。在能够检测语音区间的情况下(步骤ST17：是)，语音区间检测部107将检测到的语音区间输入到语音识别部108，语音识别部108进行语音识别，输出语音识别结果的文本(步骤ST21)。然后，语音输入部105根据从非讲话区间判定部104输入的语音输入的受理停止指示而停止受理语音输入(步骤ST22)，返回步骤ST1的处理。

另一方面，假设在语音数据中产生噪音的情况下，例如当在图2的讲话语音F中重叠有噪音G时，讲话语音F的开头F₁高于第2语音区间检测阈值即值I，因此，可正确进行检测，但是，讲话语音F的末尾F₂与噪音G重叠而不低于第2语音区间检测阈值的值I，因此，未正确进行检测，在步骤ST17的判定处理中判定为无法检测语音区间(步骤ST17：否)。在无法检测语音区间的情况下(步骤ST17：否)，语音区间检测部107参照预先设定的语音输入超时值，判定是否达到语音输入超时(步骤ST18)。更加详细地说明步骤ST18的处理时，语音区间检测部107对从检测到讲话语音F的开头F₁起的时间进行计测，判定计测值是否达到预先设定的语音输入超时的时间E₁。

在未达到语音输入超时的情况下(步骤ST18：否)，语音区间检测部107返回步骤ST17的处理，继续检测语音区间。另一方面，在达到语音输入超时的情况下(步骤ST18：是)，语音区间检测部107将在步骤ST13中保存的第1语音区间检测阈值设定成判定用的阈值(步骤ST19)。

语音区间检测部107根据在步骤ST19中设定的第1语音区间检测阈值，判定是否能够根据步骤ST16的语音区间检测阈值的学习完成后经由语音输入部105输入的语音数据检测语音区间(步骤ST20)。这里，在存储区域(未图示)中存储有在步骤ST16的学习处理后输入的语音数据，针对存储的语音数据，应用在步骤ST19中新设定的第1语音区间检测阈值来检测讲话语音的开头和末尾。

在图2的例子中，假设在产生噪音G的情况下，讲话语音F的开头F₁也高于第1语音区间检测阈值即值H，并且讲话语音F的末尾F₂也低于第1语音区间检测阈值即值H，因此，判定为能够检测语音区间(步骤ST20：是)。

在能够检测语音区间的情况下(步骤ST20：是)，进入步骤ST21的处理。另一方面，在应用第1语音区间检测阈值也无法检测语音区间的情况下(步骤ST20：否)，不进行语音识别，进入步骤ST22的处理，返回步骤ST1的处理。

在通过步骤ST17～步骤ST22的处理来实施语音识别处理的期间内，仅语音区间检测处理进行动作(参照图2的(c)的时间D₁～时间E₁的区域L(语音区间检测处理)和区域M(语音识别处理))。

如上所述，根据该实施方式1，构成为具有：非讲话区间判定部104，其通过触摸操作来检测非讲话的操作，仅在非讲话的操作时进行图像识别处理，判定用户的讲话；语音区间检测阈值学习部106，其在用户未在讲话的情况下学习语音数据的第1语音区间检测阈值；以及语音区间检测部107，其在应用通过触摸操作检测到讲话的操作后学习到的第2语音区间检测阈值检测语音区间失败的情况下，使用第1语音区间检测阈值再次进行语音区间检测。因此，在讲话操作时的学习区间内设定的第2语音区间检测阈值不是适当值的情况下，也能够使用第1语音区间检测阈值检测正确的语音区间。并且，能够进行控制以使图像识别处理和语音识别处理不会同时进行动作，在处理性能较低的平板终端等中应用该语音识别装置100的情况下，也能够缩短直到得到语音识别结果为止的延迟时间，能够抑制语音识别性能的降低。

并且，在上述实施方式1中，辅助了如下的结构：仅在非讲话的操作时，对由摄像机等拍摄到的动态图像数据进行图像识别处理，判定用户是否正在讲话，但是，也可以构成为使用由摄像机以外的单元取得的数据来判定用户的讲话。例如，也可以构成为在平板终端搭载有接近传感器的情况下，根据由该接近传感器取得的数据计算平板终端的传声器与用户的嘴唇之间的距离，在传声器与嘴唇之间的距离小于预先设定的阈值的情况下，判定为用户在讲话。

由此，能够抑制在语音识别处理未进行动作的状态下针对装置的处理负荷的增大，在处理性能较低的平板终端中能够提高语音识别性能，并且进行语音识别以外的处理。

进而，通过使用接近传感器，与使用摄像机的情况相比，能够抑制耗电，在电池寿命的制约较大的平板终端中能够提高便利性。

实施方式2

在上述实施方式1中，示出在检测到非讲话的操作的情况下嘴唇图像识别部103进行嘴唇图像的识别来判定用户的讲话的结构，在本实施方式2中，对根据用户的操作状态来判定讲话或非讲话的操作，在非讲话操作时学习语音输入电平的结构进行说明。

图4是示出实施方式2的语音识别装置200的结构的框图。

实施方式2的语音识别装置200构成为代替实施方式1所示的语音识别装置100的图像输入部102、嘴唇图像识别部103和非讲话区间判定部104而设置操作状态判定部(非语音操作识别部)201、操作脚本存储部202和非讲话区间判定部203。

下面，对与实施方式1的语音识别装置100的结构要素相同或相当的部分标注与在实施方式1中使用的标号相同的标号，省略或简化说明。

操作状态判定部201参照从触摸操作输入部101输入的用户对触摸面板的触摸操作的信息和表示操作脚本存储部202中存储的由于触摸操作而转变的操作状态的信息，判定用户的操作状态。这里，触摸操作的信息例如是检测到用户对触摸面板的接触的坐标值等。

操作脚本存储部202是存储由于触摸操作而转变的操作状态的存储区域。例如，作为操作画面，设置有初始画面、位于初始画面的下位层的用于供用户选择操作画面的操作画面选择画面、位于该操作画面选择画面的下位层的选择出的画面中的操作画面这3个画面。在用户在初始画面中进行触摸操作而转变到操作画面选择画面的情况下，存储表示操作状态从初始状态转变到操作画面选择状态的信息作为操作脚本。并且，在用户在操作画面选择画面中进行与选择按钮对应的触摸操作而转变到选择画面的操作画面的情况下，存储表示操作状态从操作画面选择状态转变到选择出的画面中的特定项目输入状态的信息作为操作脚本。

图5是示出实施方式2的语音识别装置200的操作脚本存储部202存储的操作脚本的一例的图。

在图5的例子中，操作脚本由操作状态、显示画面、转变条件、转变目的地的状态、表示是伴有讲话的操作还是非讲话的操作的信息构成。

首先，操作状态构成为，作为与上述“初始状态”和“操作画面选择状态”相当的具体例对应有“作业场所选择”，作为与上述“选择出的画面的操作状态”相当的具体例对应有“场所A的作业中”和“场所B的作业中”。进而，作为与上述“特定项目的输入状态”相当的具体例对应有“作业C实施中”等4个操作状态。

例如，在操作状态是“作业场所选择”的情况下，在操作画面中显示“作业场所选择”。在显示有“作业场所选择”的操作画面中进行了作为转变条件的“触摸作业场所A按钮”的情况下，转变到“场所A的作业中”的操作状态。另一方面，在进行了作为转变条件的“触摸作业场所B按钮”的情况下，转变到“场所B的作业中”的操作状态。示出“触摸作业场所A按钮”和“触摸作业场所B按钮”的操作是非讲话的操作。

并且，例如在操作状态是“作业C实施中”的情况下，在操作画面中显示“作业C”。在显示有“作业C”的操作画面中进行了作为转变条件的“触摸结束按钮”的情况下，转变到“场所A的作业中”的操作状态。示出“触摸结束按钮”的操作是非讲话的操作。

接着，参照图6和图7对实施方式2的语音识别装置200的动作进行说明。图6是示出实施方式2的语音识别装置200的输入操作的一例的说明图，图7是示出实施方式2的语音识别装置200的动作的流程图。另外，下面，对与实施方式1的语音识别装置100相同的步骤标注与在图3中使用的标号相同的标号，省略或简化说明。

首先，图6的(a)在时间轴上示出用户进行第1触摸操作的时间A₂、表示第1触摸操作的输入超时的时间B₂、进行第2触摸操作的时间A₃、表示第2触摸操作的输入超时的时间B₃、进行第3触摸操作的时间C₂、表示阈值学习完成的时间D₂以及表示语音输入超时的时间E₂。

图6的(b)示出输入到语音输入部105的语音的输入电平的时间变化。实线示出讲话语音F(F₁是讲话语音的开头，F₂是讲话语音的末尾)，单点划线示出噪音G。语音输入电平的轴上所示的值H示出第1语音区间检测阈值，值I示出第2语音区间检测阈值。

图6的(c)示出语音识别装置200的CPU负荷的时间变化。区域K示出阈值学习处理的负荷，区域L示出语音区间检测处理的负荷，区域M示出语音识别处理的负荷。

当用户利用手指按下触摸面板的一部分时，触摸操作输入部101检测该触摸操作(步骤ST1：是)，取得检测到触摸操作的坐标值，将其输出到非讲话区间判定部203和操作状态判定部201(步骤ST31)。非讲话区间判定部203取得在步骤ST31中输出的坐标值后，起动内置的定时器，开始计测从检测到触摸操作起的经过时间(步骤ST3)。进而，非讲话区间判定部203指示语音输入部105开始输入语音，语音输入部105根据该指示而开始受理语音的输入(步骤ST4)，将取得的语音转换成语音数据(步骤ST5)。

另一方面，操作状态判定部201取得在步骤ST31中输出的坐标值后，参照操作脚本存储部202来判定操作画面的操作状态(步骤ST32)。判定结果被输出到非讲话区间判定部203。非讲话区间判定部203参照在步骤ST31中输出的坐标值和在步骤ST32中输出的操作状态，判定触摸操作是否是未伴有讲话的非讲话的操作(步骤ST33)。在是非讲话的操作的情况下(步骤ST33：是)，非讲话区间判定部203指示语音区间检测阈值学习部106学习语音区间检测的阈值，语音区间检测阈值学习部106根据该指示，例如根据从语音输入部105输入的语音数据记录在规定时间内最大的语音输入电平的值(步骤ST11)。然后，进行步骤ST12、ST13、ST15的处理，返回步骤ST1的处理。

下面，示出2个在步骤ST33中判定为是非讲话的操作的情况下(步骤ST33：是)的例子。

首先，以示出操作状态从“初始状态”向“操作画面选择状态”转变的情况为例进行说明。在被输入图6的(a)的时间A₂所示的第1触摸操作的情况下，在初始画面中进行用户的第1触摸操作，当在该第1触摸操作中输入的坐标值在选择转移到特定操作画面的区域(例如进入操作画面选择的按钮)内的情况下，作为步骤ST32，操作状态判定部201参照操作脚本存储部202，取得表示操作状态从“初始状态”转变到“操作画面选择状态”的转变信息作为判定结果。

非讲话区间判定部203参照在步骤ST32中取得的操作状态，判定为“初始状态”下的触摸操作是用于进行画面转变的不需要讲话的非讲话的操作(步骤ST33：是)。在判定为是非讲话的操作的情况下，在达到第1触摸操作输入超时的时间B₂之前，仅语音区间阈值学习处理进行动作(参照图6的(c)的时间A₂～时间B₂的区域K(语音区间检测阈值学习处理))。

接着，以示出从“操作画面选择状态”向“选择画面中的操作状态”转变的情况为例进行说明。在被输入图6的(a)的时间B₂所示的第2触摸操作的情况下，在操作画面选择画面中进行用户的第2触摸操作，在该第2触摸操作中输入的坐标值在选择向特定操作画面的转移的区域(例如选择操作画面的按钮)内的情况下，作为步骤ST32，操作状态判定部201参照操作脚本存储部202，取得表示操作状态从“操作画面选择状态”转变到“选择画面中的操作状态”的转变信息作为判定结果。

非讲话区间判定部203参照在步骤ST32中取得的操作状态，判定为“操作画面选择状态”下的触摸操作是非讲话的操作(步骤ST33：是)。在判定为是非讲话的操作的情况下，在达到第2触摸操作输入超时的时间B₃之前，仅语音区间阈值学习处理进行动作(参照图6的(c)的时间A₃～时间B₃的区域K(语音区间检测阈值学习处理))。

另一方面，在是讲话的操作的情况下(步骤ST33：否)，非讲话区间判定部203指示语音区间检测阈值学习部106学习语音区间检测的阈值，语音区间检测阈值学习部106根据该指示，例如根据从语音输入部105输入的语音数据学习在规定时间内最大的语音输入电平的值，作为第2语音区间检测阈值进行保存(步骤ST16)。然后，进行与步骤ST17～步骤ST22相同的处理。

下面，示出在步骤ST33中判定为是讲话的操作的情况下(步骤ST33：否)的例子。

以示出从“选择画面中的操作状态”向“特定项目的输入状态”转变的情况为例进行说明。在被输入图6的(a)的时间C₂所示的第3触摸操作的情况下，在选择画面中的操作画面上进行用户的第3触摸操作，在该第3触摸操作中输入的坐标值在选择向特定操作项目的转移的区域(例如选择项目的按钮)内的情况下，作为步骤ST32，操作状态判定部201参照操作脚本存储部202，取得表示操作状态从“操作画面中的操作状态”转变到“特定项目的输入状态”的转变信息作为判定结果。

非讲话区间判定部203参照在步骤ST32中取得的操作状态，在是“选择画面中的操作状态”下的触摸操作且在步骤ST31中输出的坐标值在伴有讲话的特定项目的输入区域内的情况下，判定为是讲话的操作(步骤ST33：否)。在判定为是讲话的操作的情况下，在阈值学习完成的时间D₂之前，语音区间阈值学习处理进行动作，进而，在语音输入超时的时间E₂之前，语音区间检测处理和语音识别处理进行动作(参照图6的(c)的时间C₂～时间D₂的区域K(语音区间检测阈值学习处理)、时间D₂～时间E₂的区域L(语音区间检测处理)和区域M(语音识别处理))。

如上所述，根据该实施方式2，构成为具有操作状态判定部201，该操作状态判定部201根据操作脚本存储部202中存储的由于触摸操作而转变的操作状态和从触摸操作输入部101输入的触摸操作的信息来判定用户的操作状态；具有非讲话区间判定部203，该非讲话区间判定部203在判定为是非讲话的操作的情况下，指示语音区间检测阈值学习部106学习第1语音区间检测阈值。因此，不需要摄像机等摄像单元以检测非讲话的操作，不需要运算量较大的图像识别处理，因此，在处理性能较低的平板终端中应用该语音识别装置200的情况下，也能够抑制语音识别性能的降低。

并且，构成为在使用检测到讲话的操作后学习到的第2语音区间检测阈值检测语音区间失败的情况下，使用在非讲话的操作时学习到的第1语音区间检测阈值再次进行语音区间检测。因此，在讲话的操作时未能设定适当阈值的情况下，也能够检测正确的语音区间。

并且，不需要摄像机等输入单元以检测非讲话的操作，能够抑制输入单元的耗电。由此，在电池寿命的制约较大的平板终端等中能够提高便利性。

实施方式3

也可以组合上述实施方式1和实施方式2来构成语音识别装置。

图8是示出实施方式3的语音识别装置300的结构的框图。语音识别装置300构成为在图4所示的实施方式2的语音识别装置200中追加设置图像输入部102和嘴唇图像识别部103，并且将非讲话区间判定部203置换成非讲话区间判定部301。

在非讲话区间判定部301判定为是不伴有讲话的非讲话的操作的情况下，图像输入部102取得由摄像机等摄像单元拍摄到的动态图像，将其变更成图像数据，嘴唇图像识别部103分析取得的图像数据，识别用户的嘴唇的动作。在嘴唇图像识别部103中判定为用户未在讲话的情况下，非讲话区间判定部301指示语音区间检测阈值学习部106学习语音区间检测的阈值。

接着，参照图9和图10对实施方式3的语音识别装置300的动作进行说明。图9是示出实施方式3的语音识别装置300的输入操作的一例的说明图，图10是示出实施方式3的语音识别装置300的动作的流程图。另外，下面，对与实施方式2的语音识别装置200相同的步骤标注与在图7中使用的标号相同的标号，省略或简化说明。

首先，图9的(a)～图9的(c)的结构与实施方式2的图6所示的结构相同，不同之处仅在于，追加有图9的(c)中的示出图像识别处理的区域J。

在步骤ST33中，非讲话区间判定部301参照从触摸操作输入部101输出的坐标值和从操作状态判定部201输出的操作状态，判定触摸操作是否是未伴有讲话的非讲话的操作，在该处理之前与实施方式2相同，因此省略说明。在是非讲话的操作的情况下(步骤ST33：是)，非讲话区间判定部301进行实施方式1的图3所示的步骤ST11～步骤ST15的处理，返回步骤ST1的处理。即，在实施方式2的处理的基础上，追加进行图像输入部102和嘴唇图像识别部103的图像识别处理。另一方面，在是讲话的操作的情况下(步骤ST33：否)，进行步骤ST16～步骤ST22的处理，返回步骤ST1的处理。

在步骤ST33中判定为是非讲话的操作的情况下(步骤ST33：是)的例子是图9中的第1触摸操作和第2触摸操作。另一方面，在步骤ST33中判定为是讲话的操作的情况下(步骤ST33：否)的例子是图9中的第3触摸操作。另外，在图9的(c)中，在第1触摸操作和第2触摸操作中的语音区间检测阈值学习处理(参照区域K)的基础上，还进行图像识别处理(参照区域J)。其他与实施方式2所示的图6相同，因此省略详细说明。

如上所述，根据该实施方式3，构成为具有操作状态判定部201，该操作状态判定部201根据操作脚本存储部202中存储的由于触摸操作而转变的操作状态和从触摸操作输入部101输入的触摸操作的信息来判定用户的操作状态；具有非讲话区间判定部301，该非讲话区间判定部301仅在判定为是非讲话的操作的情况下，指示嘴唇图像识别部103进行图像识别处理，仅在判定为是非讲话的操作的情况下，指示语音区间检测阈值学习部106学习第1语音区间检测阈值。因此，能够进行控制以使处理负荷较大的图像识别处理和语音识别处理不会同时进行动作，并且，能够限制根据操作脚本进行图像识别处理的情况。并且，能够可靠地在用户未进行讲话时学习第1语音区间检测阈值。由此，在处理性能较低的平板终端等中应用该语音识别装置300的情况下，也能够提高语音识别性能。

并且，在上述实施方式3中，示出如下的结构：仅在非讲话的操作时，对由摄像机等拍摄到的动态图像进行图像识别处理，判定用户是否正在讲话，但是，也可以构成为使用由摄像机以外的单元取得的数据来判定用户的讲话。例如，也可以构成为在平板终端搭载有接近传感器的情况下，根据由该接近传感器取得的数据计算平板终端的传声器与用户的嘴唇之间的距离，在传声器与嘴唇之间的距离小于预先设定的阈值的情况下，判定为用户在讲话。

由此，能够抑制在语音识别处理未进行动作的状态下对装置的处理负荷的增大，在处理性能较低的平板终端中能够提高语音识别性能，并且进行语音识别以外的处理。

进而，通过使用接近传感器，与使用摄像机的情况相比，能够抑制耗电，在电池寿命的制约较大的平板终端中能够提高操作性。

另外，在上述实施方式1～实施方式3中，示出语音区间检测阈值学习部106设定的语音输入电平的阈值为一个的情况作为例子，但是，也可以构成为，每当检测非讲话操作时，语音区间检测阈值学习部106学习语音输入电平的阈值，设定学习到的多个阈值。

也可以构成为，在设定多个阈值的情况下，语音区间检测部107使用所设定的多个阈值，实施多次图3的流程图所示的步骤ST19和步骤ST20的语音区间检测处理，仅在检测到讲话语音区间的开头和末尾的情况下，输出结果作为检测到的语音区间。

由此，能够仅实施多次的语音区间检测处理，能够抑制处理负荷的增大，在处理性能较低的平板终端中应用该语音识别装置的情况下，也能够提高语音识别性能。

并且，在上述实施方式1～实施方式3中，示出如下结构：在图3的流程图所示的步骤ST20的判定处理中，在未检测到语音区间的情况下，不进行语音识别而停止语音的输入，但是，也可以构成为，在未检测到语音区间的情况下也进行语音识别并输出识别结果。

例如，也可以构成为，在检测到讲话语音的开头但未检测到末尾而成为语音输入超时的情况下，检测从检测到的讲话语音的开头到语音输入超时的语音区间作为语音区间，进行语音识别并输出识别结果。由此，在用户进行了讲话的操作的情况下必定输出语音识别结果作为响应，因此，用户能够容易地掌握语音识别装置的举动，能够提高语音识别装置的操作性。

并且，上述实施方式1～实施方式3构成为，在使用通过触摸操作检测到讲话的操作后学习到的第2语音区间检测阈值检测语音区间失败的情况下(例如产生超时的情况下)，使用通过触摸操作在非讲话的操作时学习到的第1语音区间检测阈值再次进行语音区间检测处理，输出语音识别结果。但是，也可以构成为，在检测语音区间失败的情况下也进行语音识别并输出识别结果，提示使用在非讲话的操作时学习到的第1语音区间检测阈值实施语音区间检测而得到的语音识别结果作为修正候选。由此，能够缩短直到最初输出语音识别结果为止的响应时间，能够提高语音识别装置的操作性。

上述实施方式1～实施方式3所示的语音识别装置100、200、300例如搭载于具有图11所示的硬件结构的平板终端等便携终端400中。图11的便携终端400由触摸面板401、传声器402、摄像机403、CPU404、ROM(Read Only Memory：只读存储器)405、RAM(Random AccessMemory：随机存取存储器)406以及存储器407构成。这里，执行语音识别装置100、200、300的硬件是图11所示的CPU404、ROM405、RAM406以及存储器407。

CPU404执行ROM405、RAM406以及存储器407中存储的程序，由此实现触摸操作输入部101、图像输入部102、嘴唇图像识别部103、非讲话区间判定部104、203、301、语音输入部105、阈值学习部106、语音区间检测部107、语音识别部108以及操作状态判定部201。并且，也可以由多个处理器协作来执行上述功能。

除了上述以外，本发明能够在其发明范围内进行各实施方式的自由组合、或各实施方式的任意结构要素的变形、或在各实施方式中省略任意结构要素。

产业上的可利用性

本发明的语音识别装置能够抑制处理负荷，因此，适用于平板终端或智能手机终端等不具有较高处理性能的设备，适合于进行迅速的语音识别结果的输出和高性能的语音识别。

标号说明

100、200、300：语音识别装置；101：触摸操作输入部；102：图像输入部；103：嘴唇图像识别部；104、203、301：非讲话区间判定部；105：语音输入部；106：语音区间检测阈值学习部；107：语音区间检测部；108：语音识别部；201：操作状态判定部；202：操作脚本存储部；400：便携终端；401：触摸面板；402：传声器；403：摄像机；404：CPU；405：ROM；406：RAM；407：存储器。

Claims

1.一种语音识别装置，其特征在于，所述语音识别装置具有：

语音输入部，其取得采集到的语音，将该语音转换成语音数据；

非语音信息输入部，其取得所述语音以外的信息；

非语音操作识别部，其根据所述非语音信息输入部取得的所述语音以外的信息识别用户状态；

非讲话区间判定部，其根据所述非语音操作识别部识别出的用户状态判定所述用户是否正在讲话；

阈值学习部，其在所述非讲话区间判定部判定为所述用户未在讲话的情况下，根据所述语音输入部转换后的语音数据设定第1阈值，在所述非讲话区间判定部判定为所述用户正在讲话的情况下，根据所述语音输入部转换后的语音数据设定第2阈值；

语音区间检测部，其使用所述阈值学习部设定的阈值，根据所述语音输入部转换后的语音数据检测表示用户的讲话的语音区间；以及

语音识别部，其识别所述语音区间检测部检测到的语音区间的语音数据，输出识别结果，

所述语音区间检测部在无法使用所述第2阈值检测所述语音区间的情况下，应用所述第1阈值检测所述语音区间。

2.根据权利要求1所述的语音识别装置，其特征在于，

非语音信息输入部取得所述用户进行了触摸操作输入的位置信息和拍摄到所述用户状态的图像数据，

所述非语音操作识别部根据所述非语音信息输入部取得的图像数据识别所述用户的嘴唇的动作，

所述非讲话区间判定部根据所述非语音信息输入部取得的位置信息和表示所述非语音操作识别部识别出的嘴唇的动作的信息，判定所述用户是否正在讲话。

3.根据权利要求1所述的语音识别装置，其特征在于，

所述非语音信息输入部取得所述用户进行了触摸操作输入的位置信息，

所述非语音操作识别部根据所述非语音信息输入部取得的位置信息和表示由于触摸操作输入而转变的所述用户的操作状态的转变信息，识别所述用户的操作输入的操作状态，

所述非讲话区间判定部根据所述非语音操作识别部识别出的操作状态和所述非语音信息输入部取得的位置信息，判定所述用户是否正在讲话。

4.根据权利要求1所述的语音识别装置，其特征在于，

所述非语音信息输入部取得所述用户进行了触摸操作输入的位置信息和拍摄到所述用户状态的图像数据，

所述非语音操作识别部根据所述非语音信息输入部取得的位置信息和表示由于触摸操作输入而转变的所述用户的操作状态的转变信息，识别所述用户的操作输入的操作状态，并且，根据所述非语音信息输入部取得的图像数据识别所述用户的嘴唇的动作，

所述非讲话区间判定部根据表示所述非语音操作识别部识别出的操作状态和嘴唇的动作的信息以及所述非语音信息输入部取得的位置信息，判定所述用户是否正在讲话。

5.根据权利要求1所述的语音识别装置，其特征在于，

所述语音区间检测部对从检测到所述语音区间的开始点起的时间进行计测，在该计测出的值达到所设定的超时时间也无法检测到所述语音区间的结束点的情况下，使用所述第2阈值检测从所述语音区间的开始点到所述超时时间的区间作为所述语音区间，进而使用所述第1阈值检测从所述语音区间的开始点到所述超时时间的区间作为修正候选语音区间，

所述语音识别部识别所述语音区间检测部检测到的所述语音区间的语音数据，输出识别结果，并且，识别所述修正候选语音区间的语音数据，输出识别结果修正候选。

6.一种语音识别方法，其特征在于，所述语音识别方法具有以下步骤：

语音输入部取得采集到的语音，将该语音转换成语音数据；

非语音信息输入部取得所述语音以外的信息；

非语音操作识别部根据所述语音以外的信息识别用户状态；

非讲话区间判定部根据所述识别出的用户状态判定所述用户是否正在讲话；

阈值学习部在判定为所述用户未在讲话的情况下，根据所述语音数据设定第1阈值，在判定为所述用户未在讲话的情况下，根据所述语音数据设定第2阈值；

语音区间检测部使用所述第1阈值或所述第2阈值，根据所述语音输入部转换后的语音数据检测表示用户的讲话的语音区间，并且，在无法使用所述第2阈值检测所述语音区间的情况下，应用所述第1阈值检测所述语音区间；以及

语音识别部识别所述检测到的语音区间的语音数据，输出识别结果。