CN102308277A

CN102308277A - 控制装置、控制方法和程序

Info

Publication number: CN102308277A
Application number: CN2010800066687A
Authority: CN
Inventors: 知念彻; 山本优树; 畠中光行
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-11
Filing date: 2010-12-02
Publication date: 2012-01-04
Anticipated expiration: 2030-12-02
Also published as: US20110295396A1; CN102308277B; US9053709B2; EP2386943A4; KR101669302B1; BRPI1007881A2; JP2011123751A; EP2386943A1; EP2386943B1; KR20120111917A; WO2011070971A1; JP5515709B2

Abstract

本发明涉及能够以更简单的配置改进可操作性的控制装置、控制方法和程序。再现诸如音乐的声音的再现设备(11)包括用户戴在耳朵上的耳机(21)和主体(22)。拾音单元(31)收集再现设备(11)周围的声音，并且判别单元34从所收集的声音提取特征量，并且确定声音是否对应于在拾音单元(11)被用户直接轻击时所生成的操作声音。控制器(35)根据判别单元(34)所执行的确定的结果执行处理。例如，当拾音单元(31-1)在预定的时间段内被轻击一次时，控制器(35)指示再现控制器(39)停止音乐的再现。在再现设备(11)中，可通过轻击拾音单元(31)的简单操作执行各种功能控制处理，而不需要按钮。本发明可应用于音乐播放器。

Description

控制装置、控制方法和程序

技术领域

本发明涉及一种控制装置、控制方法和程序，并且具体涉及能够以更简单的配置改进可操作性的控制装置、控制方法和程序。

背景技术

近年来，具有作为输入装置的麦克风的电子设备(诸如，音乐播放器、蜂窝电话和IC(集成电路)记录器)已得到广泛使用。近来，在这样的电子设备中，通过操作按钮和触摸面板来控制电子设备的功能(诸如，调高和调低音量、开始和停止再现、以及快进和快退)。

电子设备包括控制器，该控制器布置在连接用户戴上的耳机和电子设备主体的软线上，并且控制电子设备执行的音乐再现(例如，参见专利文献1)。在该电子设备中，控制器包括摄像装置。用户可通过操作控制器和电子设备主体来照相。

引用列表

专利文献

PTL 1：日本未审查专利申请公开第2003-52089号

发明内容

然而，当电子设备和控制器具有多种功能时，应针对功能设置多个按钮，相应地，电子设备的配置变得复杂。此外，当多个按钮布置在电子设备或控制器上时，应该使得按钮是小的，并且难以找到要操作的一个按钮，从而导致差的可操作性。

具体地，当在火车或公共汽车上或者在用户正在行走移动时使用电子设备时，用户应该通过从包或口袋取出电子设备主体或者通过观察控制器来操作按钮。因此，当电子设备设置有多个按钮时，可操作性退化。

本发明是鉴于这样的状况而作出的，并且以简单配置改进可操作性。

技术方案

根据本发明的实施例，提供了一种控制装置，其包括：拾音单元，其收集周围的声音；判别装置，用于使用拾音单元所收集的声音的最大值和有效值来确定拾音单元是否已被轻击；以及执行装置，用于当确定拾音单元已被轻击时，执行预定处理。

执行装置可根据判别装置所执行的确定的结果，确定拾音单元在预定的时间段内被轻击的次数，并且执行根据所确定的次数确定的处理。

判别装置可根据对最大值执行的阈值处理的结果以及对有效值执行的阈值处理的结果，确定拾音单元是否已被轻击。

在对最大值执行的阈值处理中所使用的阈值和在对有效值执行的阈值处理中所使用的阈值可预先通过判别分析或SVM来确定。

当比声音的预定频率高的频率的高频分量的最大值小于第一阈值时，判别装置可确定拾音单元未被轻击，而当比声音的高频分量低的频率的低频分量的最大值小于第二阈值时，判别装置可确定拾音单元未被轻击。

判别装置可确定通过在时间方向上划分高频分量而获得的多个区间内的有效值是否等于或小于针对各区间而确定的第三阈值，并且当高频分量的至少一个区间的有效值超过第三阈值时，确定拾音单元未被轻击，以及确定通过在时间方向上划分低频分量而获得的多个区间内的有效值是否等于或小于针对各区间而确定的第四阈值，并且当低频分量的至少一个区间的有效值小于第四阈值时，确定拾音单元未被轻击。

高频分量的区间可具有不同的长度，并且低频分量的区间可具有不同的长度。

判别装置可确定高频分量在时间方向上的特定位置处的绝对值是否变为最大，并且当在特定位置处的绝对值未变为最大时，确定拾音单元未被轻击。

判别装置可确定声音的过零值是否等于或小于第五阈值，并且当过零值超过第五阈值时，确定拾音单元未被轻击。

判别装置可确定高频分量在时间方向上的区间的有效值的线性和是否等于或小于第六阈值，并且当线性和超过第六阈值时，确定拾音单元未被轻击。

判别装置可确定高频分量在时间方向上的区间的有效值的线性和是否等于或小于第七阈值，并且当线性和超过第七阈值时，确定拾音单元未被轻击。

判别装置可确定低频分量在时间方向上的区间的有效值的线性和是否等于或小于第八阈值，并且当线性和超过第八阈值时，确定拾音单元未被轻击。

判别装置可确定低频分量在时间方向上的区间的有效值的线性和是否等于或小于第九阈值，并且当线性和超过第九阈值时，确定拾音单元未被轻击。

判别装置可确定高频分量在时间方向上的区间的有效值的对数值的线性和与低频分量在时间方向上的区间的有效值的对数值的线性和之和是否等于或小于第十阈值，并且当该和超过第十阈值时，确定拾音单元未被轻击。

执行装置可执行由多个拾音单元中已被轻击的拾音单元所确定的处理。

根据本发明的另一实施例，提供了一种包括以下步骤的控制方法或程序：使用拾音单元收集周围的声音；使用拾音单元所收集的声音的最大值和有效值，确定拾音单元是否已被轻击；以及当确定拾音单元已被轻击时，执行预定处理。

根据本发明的又一实施例，拾音单元收集周围的声音，判别装置使用拾音单元所收集的声音的最大值和有效值来确定拾音单元是否已被轻击，并且当确定拾音单元已被轻击时，执行装置执行预定处理。本发明的有利效果

根据本发明，以更简单的配置改进可操作性。

附图说明

图1是图示了根据本发明的实施例的再现设备的配置的图。

图2是图示了判别单元的配置的图。

图3是图示了再现控制处理的流程图。

图4包括图示了低通滤波器和高通滤波器的频率/幅度特性的图。

图5是图示了判别处理的流程图。

图6包括图示了高频最大值的出现概率的图。

图7包括图示了高频有效值的分布的图。

图8是图示了高频有效值的阈值的图。

图9包括图示了低频最大值的出现概率的图。

图10包括图示了低频有效值的分布的图。

图11是图示了低频有效值的阈值的图。

图12包括图示了过零值的出现概率的图。

图13是图示了计算机的配置的图。

具体实施方式

下文中，将参照附图描述本发明的实施例。

再现设备的配置

图1是图示了根据本发明的实施例的再现设备的配置的图。

用作再现诸如音乐的声音的移动音乐播放器的再现设备11包括用户戴在用户耳朵上的耳机21、以及连接至耳机21并由用户携带的主体22。

耳机21包括拾音单元31-1和31-2、以及扬声器32-1和32-2。

包括麦克风的拾音单元31-1和31-2收集再现设备11周围的声音，并且将所得到的音频信号提供给主体22。

扬声器32-1和32-2根据从主体22提供的、表示例如音乐的音频信号来再现声音。

注意，当不需要将拾音单元31-1和31-2相互区分开时，将拾音单元31-1和31-2简称为拾音单元31。类似地，当不需要将扬声器32-1和32-1相互区分开时，将扬声器32-1和32-2简称为扬声器32。

在再现设备11中，拾音单元31和扬声器32整体地构成用户戴在右耳和左耳上的耳机。然后，拾音单元31所收集并提供给主体22的声音被用于所谓的噪声消除以及声音(诸如，音乐)的再现控制。

具体地，当用户用手指的指腹(ball)等直接轻击拾音单元31时，主体22根据收集的声音识别用户对拾音单元31执行的轻击操作，并且根据该操作执行处理。

再现设备11的主体22包括A/D(模拟/数字)转换器33-1和33-2、判别单元34-1和34-2、控制器35、音频提供单元36、去噪处理器37、加法器38和再现控制器39。

A/D转换器33-1和33-2将作为从拾音单元31-1和31-2提供的模拟信号的音频信号转换成数字信号。A/D转换器33-1将已转换成数字信号的音频信号提供给判别单元34-1和去噪处理器37。同时，A/D转换器33-2将已转换成数字信号的音频信号提供给判别单元34-2和去噪处理器37。

判别单元34-1和34-2根据从A/D转换器33-1和33-2提供的声音，确定拾音单元31是否被直接轻击，并且将确定结果提供给控制器35。即，确定所收集的声音是否对应于用户轻击拾音单元31时所生成的声音。

注意，在下文中，当不需要特别将A/D转换器33-1和33-2相互区分开时，将A/D转换器33-1和33-2简称为A/D转换器33，并且当不需要特别将判别单元34-1和34-2相互区分开时，将判别单元34-1和34-2简称为判别单元34。

控制器35控制再现设备11的整体操作。例如，控制器35根据从判别单元34提供的确定结果指示音频提供单元36输出诸如音乐的声音，并且控制再现控制器39所再现的声音。

音频提供单元36记录诸如音乐的声音的数据，并且根据控制器35所发布的指令对声音数据进行解码，并且将数据提供给加法器38。去噪处理器37根据从A/D转换器33提供的声音来生成具有与在再现设备11周围所生成的声音的相位相反的相位的声音，并且将该声音提供给加法器38。

加法器38将从去噪处理器37提供的声音与从音频提供单元36提供的声音相加，并且将所得到的声音提供给再现控制器39。再现控制器39根据控制器35所发布的指令将从加法器38提供的声音提供给扬声器32-1和32-2，并且输出该声音。由于将具有与所收集的周围声音的相位相反的相位的声音与所再现的音乐的声音相加，因此，消除了周围的环境声音，并且用户用耳朵仅听见音乐。

判别单元的配置

此外，图1中所示的判别单元34具体如图2所示那样配置。

具体地，判别单元34包括低通滤波器处理器61、低频最大值计算单元62、低频有效值计算单元63、高通滤波器处理器64、高频最大值计算单元65、高频有效值计算单元66、过零值(zero-cross-value)计算单元67、以及判别处理器68。

低通滤波器处理器61对从A/D转换器33提供的音频信号执行滤波器处理以提取低频分量，并且将所得到的低频信号提供给低频最大值计算单元62和低频有效值计算单元63。

低频最大值计算单元62计算从低通滤波器处理器61提供的低频信号的最大值(下文中，也称为“低频最大值”)，并且将该最大值提供给判别处理器68。低频有效值计算单元63计算从低通滤波器处理器61提供的低频信号的有效值(下文中，也称为“低频有效值”)，并且将有效值提供给判别处理器68。

高通滤波器处理器64对从A/D转换器33提供的音频信号执行滤波器处理以提取高频分量，并且将所得到的高频信号提供给高频最大值计算单元65和高频有效值计算单元66。

高频最大值计算单元65计算从高通滤波器处理器64提供的高频信号的最大值(下文中，也称为“高频最大值”)，并且将该最大值提供给判别处理器68。高频有效值计算单元66计算从高通滤波器处理器64提供的高频信号的有效值(下文中，也称为“高频有效值”)，并且将有效值提供给判别处理器68。

过零值计算单元67计算从A/D转换器33提供的音频信号的过零值，并且将过零值提供给判别处理器68。判别处理器68使用从低频最大值计算单元62、低频有效值计算单元63、高频最大值计算单元65、高频有效值计算单元66和过零值计算单67提供的最大值、有效值和过零值，来识别所收集的声音。即，判别处理器68确定用户是否直接轻击拾音单元31，并且将确定结果提供给控制器35。

再现控制处理的说明

这里，当用户操作再现设备11以发布用于再现音乐的指令时，再现设备11开始音乐的再现。具体地，音频提供单元36根据控制器35所发布的指令将指定的音乐的声音(音频信号)提供给加法器38。此外，去噪处理器37使用从拾音单元31提供的声音来生成具有与通过A/D转换器33从拾音单元31提供的声音(环境声音)的相位不同的相位的声音，并且将所生成的声音提供给加法器38。

然后，加法器38将从音频提供单元36提供的声音与从去噪处理器37提供的声音彼此相加，并且再现控制器39将加法器38所获得的合成声音提供给扬声器32以将其输出。

例如，在这种状态下，用户将耳机21戴在用户的耳朵上，并且将主体22放到用户衣服的口袋内。然后，当操作下一音乐的再现或者音量控制时，用户通过手指的指腹直接轻击拾音单元31，以指示执行期望的处理。

在再现设备11中，为了根据这样的用户操作执行处理，当接通再现设备11时，检测对拾音单元31执行的用户操作，并且重复执行用于根据该操作执行处理的再现控制处理。

下文中，将参照图3所示的流程图描述再现设备11所执行的再现控制处理。

在步骤S11中，拾音单元31收集周围的声音，并且将所得到的音频信号提供给A/D转换器33。然后，A/D转换器33将作为从拾音单元31提供的模拟信号的音频信号转换成数字信号，并且将该数字信号提供给低通滤波器处理器61、高通滤波器处理器64和过零值计算单元67。

例如，A/D转换器33使用44.1kHz的采样频率对所提供的音频信号进行采样。然后，A/D转换器33对所获得的采样值进行归一化，以使得采样值包括在从-1到1的范围内，并且输出值x(n)(其中，“n”等于0，1，2，…)作为音频信号(其为数字信号)。

注意，被转换成数字信号的音频信号的值x(n)中的“n”表示时间索引，即，采样值的次序。

此外，采样频率不限于44.1kHz，只要采样频率等于或大于约16kHz即可。这是因为只要采样频率等于或大于约16kHz，就不会影响检测在拾音单元31被直接轻击时所生成的声音的功能。此外，当针对拾音单元31的拾音设置8kHz或更大的带宽时，可获得足够用于确定拾音单元31是否被直接轻击的音频信号。

在步骤S12中，低通滤波器处理器61使用低通滤波器执行滤波器处理，以从自A/D转换器33提供的音频信号中提取低频信号，并且将低频信号提供给低频最大值计算单元62和低频有效值计算单元63。

具体地，低通滤波器处理器61计算以下的表达式(1)，以从音频信号中提取低频信号xl(n)。

[表达式(1)]

xl (n) Σ_{i = 0}^{Nl - 1} x (n - i) \times hl (i) \cdot \cdot \cdot (1)

注意，表达式(1)中的“Nl”表示低通滤波器的抽头数目，并且“hl(i)”表示低通滤波器的系数。相应地，对在从最近的采样中所获得的音频信号的值x(n)到值x(n-Nl+1)的范围内时间上连续的Nl个音频信号进行加权相加，从而获得低频信号xl(n)。

在步骤S13中，高通滤波器处理器64使用高通滤波器执行滤波器处理，以从自A/D转换器33提供的音频信号中提取高频信号，并且将高频信号提供给高频最大值计算单元65和高频有效值计算单元66。

具体地，高通滤波器处理器64计算以下表达式(2)，以从音频信号中提取高频信号xh(n)。

[表达式(2)]

xh (n) = Σ_{i = 0}^{Nh - 1} x (n - i) \times hh (i) \cdot \cdot \cdot (2)

注意，在表达式(2)中，“Nh”表示高通滤波器的抽头数目，并且“hh(i)”表示高通滤波器的系数。相应地，对在从最近的采样中所获得的音频信号的值x(n)到值x(n-Nh+1)的范围内时间上连续的Nh个音频信号进行加权相加，从而获得高频信号xh(n)。

此外，表达式(1)和(2)中的系数hl(i)和hh(i)对应于FIR(有限脉冲响应)类型并具有线性相位，并且低通滤波器和高通滤波器的截止频率为5512.5Hz。即，在音频信号中，等于或低于5512.5Hz的频率分量对应于低频信号，而大于5512.5Hz的频率分量对应于高频信号。此外，低通滤波器的抽头数目Nl和高通滤波器的抽头数目Nh例如为128。

在这种情况下，低通滤波器和高通滤波器具有如图4所示的频率/幅度特性。注意，在图4中，在图中的上侧示出了低通滤波器的频率幅度特性，而在图中的下侧示出了高通滤波器的频率幅度特性。此外，在图4中，纵轴表示幅度(dB)，横轴表示归一化频率。

在图中的上侧示出的低通滤波器中，当归一化频率在从0到0.25的范围内时，幅度约为0，并且在归一化频率0.25的附近，幅度急剧变小。此外，在归一化频率等于或大于0.3的范围内，归一化频率越大，幅度越小。

另一方面，在图中的下侧示出的高通滤波器中，在归一化频率从0到约0.2的范围内，幅度约为-60dB，并且在归一化频率0.2的附近，幅度急剧变大。此外，在归一化频率等于或大于0.25的范围内，幅度约为0dB。如上所述，在高通滤波器中，阻带衰减量为-60dB。

注意，尽管已将高通滤波器的阻带衰减量为-60dB的情况描述为示例，但是可采用任意值作为阻带衰减量，只要阻带衰减量等于或小于约-40dB即可。只要阻带衰减量等于或小于约-40dB，就几乎不影响检测在拾音单元31被直接轻击时所生成的声音的功能。

此外，由于低通滤波器的阻带衰减量对检测在拾音单元31被直接轻击时所生成的声音的功能的影响可忽略，因此，可采用全通滤波器来替代低通滤波器。此外，尽管已将低通滤波器和高通滤波器的截止频率为5512.5Hz的情况描述为示例，但是可采用任何值作为截止频率，只要截止频率包括在从约2kHz到约10kHz的范围内即可。在这种情况下，几乎不影响检测在拾音单元31被直接轻击时所生成的声音的功能。

此外，可将IIR(无限脉冲响应)滤波器用作低通滤波器或高通滤波器。注意，在这种情况下，由于难以实现线性相位特性，因此，存在检测在拾音单元31被直接轻击时所生成的声音的功能退化的可能性。

返回参照图3所示的流程图，在提取低频信号和高频信号之后，处理从步骤S13进行到步骤S14。

在步骤S14中，低频最大值计算单元62根据从低通滤波器处理器61提供的低频信号计算低频最大值Pl(n)，并且将低频最大值Pl(n)提供给判别处理器68。具体地，低频最大值计算单元62计算以下表达式(3)，以获得低频最大值Pl(n)。

[表达式(3)]

pl(n)＝max(|xl(n)|，|xl(n-1)|，|xl(n-2)|，…，|xl(n-2047)| (3)

即，分别获得低频信号中最新的第n个值xl(n)到过去的第(n-2047)个值xl(n-2047)的绝对值，并且将这些绝对值当中的最大值(最大值范数)确定为低频最大值Pl(n)。

尽管在表达式(3)中，处理从当前时间n到过去时间(n-2047)的范围内的2048个样本的低频信号，并且计算出低频最大值Pl(n)，但是要处理的样本数目不受限制，只要要处理的样本数目等于或大于约512即可。只要在计算低频最大值Pl(n)时要处理的样本数目等于或大于约512，检测在拾音单元31被直接轻击时所生成的声音的功能就不受影响。

例如，当要处理512个样本的低频信号时，使用从过去时间(n-1536)到过去时间(n-2047)的范围内的512个样本的低频信号，并且将低频信号的绝对值当中的最大值确定为低频最大值Pl(n)。

在步骤S15中，低频有效值计算单元63根据从低通滤波器处理器61提供的低频信号计算低频有效值rmsl(n，m)(注意，m等于0，1，2或3)，并且将低频有效值rmsl(n，m)提供给判别处理器68。具体地，低频有效值计算单元63使用以下表达式(4)执行计算，以获得四个低频有效值rmsl(n，m)。

[表达式(4)]

rmsl (n, m) = \sqrt{((1 / 512) \times Σ_{i = 0}^{511} (xl {(n + i - 2047 + m \times 512)}^{2}))} \cdot \cdot \cdot (4)

即，低频有效值计算单元63将具有从当前时间n到过去时间(n-2047)的范围内的2048个样本的低频信号均等地划分成四个区间。通过划分而获得的四个区间LS0到LS3中的每一个包括低频信号的512个样本的值。

低频有效值计算单元63计算包括在每个区间LSm(其中，m等于0，1，2和3)内的低频信号的512个样本的值的均方根值(欧几里得范数)，并且将所获得的欧几里得范数确定为区间LSm中的对应区间的低频有效值rmsl(n，m)。

因此，区间LS3的低频有效值rmsl(n，3)对应于在低频信号从(时间(n)处的值×l(n))到(时间(n-511)处的值×l(n-511))的范围内的、低频信号在各时间处的值的均方根值。这样获得的低频有效值rmsl(n，m)用作音频信号的低频分量的各区间内的有效值。

注意，尽管已描述获得低频信号的均方根值的情况，但是可将低频信号的绝对值平均值(一次平均范数)确定为低频有效值，以改进检测在拾音单元31被轻击时所生成的声音的功能并且减少计算量。

此外，在表达式(4)的示例中，对包括在从当前时间n到过去时间(n-2047)的范围内的低频信号的2048个样本进行处理，从而获得低频有效值rmsl(n，m)。然而，要处理的样本数目并不受限，只要要处理的样本数目等于或大于约1024即可。只要要处理的样本数目等于或大于约1024，检测在拾音单元31被直接轻击时所生成的声音的功能就不受影响。

例如，当要处理低频信号的1024个样本时，将从当前时间n到过去时间(n-1023)的范围内的低频信号均等地划分成两个区间。然后，获得包括在低频信号的每个区间内的512个样本的值的均方根值作为低频有效值。

此外，尽管已描述了当要计算低频有效值时均等地划分要处理的区间(样本数目)的情况，但是可根据低频信号的波形的特征不均等地划分低频信号。在这种情况下，获得与低频信号的特征波形部分对应的小区间，并且相应地，可使用低频有效值改进检测在拾音单元31被直接轻击时所生成的声音的功能。

在步骤S16中，高频最大值计算单元65根据从高通滤波器处理器64提供的高频信号，获得高频最大值Ph(n)。具体地，高频最大值计算单元65计算以下表达式(5)以获得高频最大值Ph(n)。

[表达式(5)]

ph(n)＝max(|xh(n)|，|xh(n-1)|，(xh(n-2)|，…，|xh(n-2047)| (5)

具体地，获得与高频信号的当前时间n的值xh(n)到过去时间(n-2047)的值xh(n-2047)对应的绝对值，并且将绝对值当中的最大值(最大值范数)确定为高频最大值Ph(n)。

此外，高频最大值计算单元65将要处理的样本当中具有高频信号的最大绝对值的样本的时间(时间索引)hi连同高频最大值Ph(n)一起提供给判别处理器68。

在步骤S17中，高频有效值计算单元66根据从高通滤波器处理器64提供的高频信号来计算高频有效值rmsh(n，m)(其中，m＝0，1，2，…，或31)，并且将高频有效值rmsh(n，m)提供给判别处理器68。具体地，高频有效值计算单元66计算以下表达式(6)，以获得32个高频有效值rmsh(n，m)。

[表达式(6)]

rmsh (n, m) = \sqrt{((1 / 64) \times Σ_{i = 0}^{63} (xh {(n + i - 2047 + m \times 64)}^{2}))} \cdot \cdot \cdot (6)

具体地，高频有效值计算单元66将与从当前时间n到过去时间(n-2047)的范围内的2048个样本对应的高频信号均等地划分成32个区间。通过划分而获得的32个区间HS0到HS31中的每一个包括高频信号的连续64个样本的值。

高频有效值计算单元66获得包括在区间HSm(其中，m＝0，1，2，…或31)之一内的高频信号的64个样本的值的均方根值(欧几里得范数)，并且将所获得的均方根值确定为区间HSm的高频有效值rmsh(n，m)。

注意，尽管已描述获得高频信号的均方根值的情况，但是可将高频信号的绝对值平均值(一次平均范数)确定为高频有效值，以改进检测在拾音单元31被轻击时所生成的声音的功能并且减少计算量。

此外，在表达式(6)的示例中，处理高频信号在从当前时间n到过去时间(n-2047)的范围内的2048个样本，从而获得高频有效值rmsh(n，m)。然而，要处理的样本数目不受限制，只要要处理的样本数目等于或大于约1024即可。只要要处理的样本数目等于或大于约1024，检测在拾音单元31被直接轻击时所生成的声音的功能不受影响。

例如，当要处理高频信号的1024个样本时，将与从过去时间(n-1024)到过去时间(n-2047)的范围对应的高频信号均等地划分成16个区间。然后，将高频信号包括在每个区间内的64个样本的值的均方根值确定为高频有效值。

此外，描述了在要计算高频有效值时均等地划分区间(样本数目)的情况。然而，可根据高频信号的波形的特征不均等地划分高频信号。在这种情况下，获得了与高频信号的特征波形部分对应的小区间，并且相应地，可使用高频有效值来改进检测在拾音单元31被直接轻击时所生成的声音的功能。

在步骤S18中，过零值计算单元67根据从A/D转换器33提供的音频信号x(n)计算以下表达式(7)，以获得过零值zcr(n)，并且将过零值zcr(n)提供给判别处理器68。

[表达式(7)]

zcr (n) = (1 / 2048) Σ_{i = 0}^{2047} negative (x (n - i) \times x (n - i - 1)) \cdot \cdot \cdot (7)

注意，在表达式(7)中，“negative(A)”是当参数是负的时设置为1以及当参数不是负的时设置为0的函数。相应地，过零值zcr(n)表示在从当前时间n到过去时间(n-2048)的范围内与0交叉的音频信号(音频信号的波形)的比率。

通过执行上述处理，将低频最大值、低频有效值、高频最大值、高频有效值和过零值作为音频信号的特征的特征量提供给判别处理器68。注意，当不需要将低频最大值、低频有效值、高频最大值、高频有效值和过零值相互区分开时，下文中，在适当的情况下将低频最大值、低频有效值、高频最大值、高频有效值和过零值简称为“特征量”。

在步骤S19中，判别单元34执行确定处理，以确定拾音单元31所收集的声音是否对应于在用户通过手指的指腹直接轻击拾音单元31时所生成的声音，并且将确定结果提供给控制器35。

注意，尽管下文中将描述确定处理，但是在确定处理中，当音频信号的特征量满足预定条件时，输出表示拾音单元31已被直接轻击的确定结果，而当特征量不满足预定条件时，输出表示拾音单元31未被直接轻击的确定结果。下文中，在适当的情况下，将表示拾音单元31已被直接轻击的确定结果称为肯定的确定结果，而在适当的情况下，还将表示拾音单元31未被直接轻击的确定结果称为否定的确定结果。

当已执行确定处理时，将确定结果从判别单元34-1和34-2提供给控制器35。即，通过包括拾音单元31-1、A/D转换器33-1和判别单元34-1的组、以及包括拾音单元31-2、A/D转换器33-2和判别单元34-2的组分别执行步骤S11到步骤S19的处理。

在步骤S20中，控制器35根据从判别单元34的判别处理器68提供的确定结果，确定与用户指令对应的处理以便执行。

例如，在再现设备11中，根据在预定时间段内轻击拾音单元31的次数将特定处理预先分配给各拾音单元31。例如，当在预定时间段内仅轻击拾音单元31-1一次时，调高正再现的音乐的音量，当在预定时间段内仅轻击拾音单元31-2一次时，调低正再现的音乐的音量，以及当在预定时间段内仅轻击拾音单元31-1两次时，停止音乐的再现。

控制器35根据从判别单元34顺序地提供的确定结果，确定被轻击(操作)的拾音单元31之一和拾音单元31被轻击(操作)的次数，并且根据所确定的结果来确定要执行的预定处理。

相应地，当在预定时间段内从拾音单元31-1两次提供了肯定的确定结果并且从拾音单元31-2提供了否定的确定结果时，在上述的示例中，指定停止音乐的再现的处理。

注意，只要在再现设备11中执行处理，就可将诸如音量的调高和调低、音乐的再现和停止、快进、快退、设置的改变、或者电源关断的任意功能(处理)分配给对拾音单元31执行的操作。此外，例如，当在预定时间段内拾音单元31-1和31-2被交替地轻击时或者当拾音单元31-1和31-2被同时轻击时，可将处理分配给两个拾音单元31结合执行的操作。

在步骤S21中，控制器35执行步骤S20中所指定的处理，并且终止再现控制处理。

例如，当指定暂时停止音乐的再现的处理时，控制器35指示再现控制器39暂时停止音频从再现控制器39到扬声器32的提供。此外，例如当指定例如调高音量的处理时，控制器35指示再现控制器39调高从再现控制器39提供给扬声器32的音频的音量。

如上所述，再现设备11计算拾音单元31所收集的声音的特征量，根据特征量确定所收集的声音是否对应于在拾音单元31被直接轻击时所生成的声音，并且根据确定结果执行处理。

据此，以简单配置进一步改进了再现设备11的可操作性。即，在再现设备11中，针对所谓的噪声消除而提供的拾音单元31收集环境声音，获得声音的特征的特征量，并且根据特征量指定用户的操作。

因此，用户不需要从口袋取出再现设备，以使得用户直接触摸布置在再现设备主体上的按钮或触摸板，而再现设备11可仅通过轻击拾音单元31执行对音乐的再现等的控制。另外，由于根据拾音单元31所收集的声音指定用户的操作，因此，不需要将用于控制再现的按钮布置在再现设备11上，并且相应地，实现再现设备11的简单配置。

确定处理的描述

现在参照图5所示的流程图，将描述与在图3的步骤S19中所执行的处理对应的确定处理。注意，在判别单元34-1和34-2中的每一个中执行确定处理。

在步骤S51中，判别处理器68确定从高频最大值计算单元65提供的时间索引hi是否满足以下表达式(8)。

[表达式(8)]

hi＝n-hi_peak (8)

注意，在表达式(8)中，“hi_peak”表示预定常数，并且例如为1791。此外，时间索引hi对应于高频信号的绝对值变为最大的时间。相应地，在步骤S51中，确定在时间(n-hi_peak)处是否获得高频信号的最大绝对值。

在高频信号中，在用户直接轻击拾音单元31的时间处，应该获得高频信号的最大绝对值。因此，当确定在作为处理基准的当前时间n之前预定时间段(这里，hi_peak)的时间处具有最大值的音频信号对应于要经受关于对象是否对应于在拾音单元31被直接轻击时所生成的声音的确定的对象时，提高了确定准确度。即，将在用户直接轻击拾音单元31之前和之后的时间段内的音频信号的波形(即，具有特定相位的波形)确定为要处理，并且可更容易且更精确地执行声音的确定。

注意，由于只要预定时间hi_peak等于或大于约(1791-128)且等于或小于约(1791+128)，检测在拾音单元31被轻击时所生成的声音的功能就不受预定时间hi_peak影响，因此，时间hi_peak应该约为1791。

当在步骤S51中确定在时间(n-hi_peak)处未获得高频信号的最大绝对值时，在步骤S52中，判别处理器68将表示拾音单元31未被轻击的确定结果(即，否定的确定结果)提供给控制器35。然后，当输出确定结果时，终止确定处理，此后，处理进行到图3的步骤S20。

另一方面，当在步骤S51中确定在时间(n-hi_peak)处获得高频信号的最大绝对值时，在步骤S53中，判别处理器68确定从高频最大值计算单元65提供的高频最大值Ph(n)是否满足以下表达式(9)。

[表达式(9)]

ph(n)≥ph_low (9)

注意，在表达式(9)中，“ph_low”表示预定阈值。在步骤S53中，确定高频最大值Ph(n)是否等于或大于阈值ph_low。

当在步骤S53中确定高频最大值小于阈值ph_low时，在步骤S52中输出否定的确定结果，并且终止确定处理。此后，处理进行到图3的步骤S20。

当直接轻击拾音单元31时，收集的声音的高频分量会具有某一强度水平(幅度)。因此，当高频最大值小于阈值ph_low时，确定正处理的声音(音频信号)不对应于在拾音单元31被直接轻击时所生成的声音，因此，输出否定的确定结果。

另一方面，当在步骤S53中确定高频最大值等于或大于阈值ph_low时，判别处理器68确定从高频有效值计算单元66提供的高频有效值rmsh(n，m)是否满足以下表达式(10)。

[表达式(10)]

rmsh(n，m)≤rmsh_high(m) (10)

注意，在表达式(10)中，“rmsh_high(m)”(其中，m＝0，1，2，…，或31)是预定阈值。在步骤S54中，确定区间HSm的高频有效值rmsh(n，m)是否等于或小于阈值rmsh_high(m)。即，确定高频有效值rmsh(n，0)到rmsh(n，31)是否分别等于或小于阈值rmsh_high(0)到rmsh_high(31)。

当在步骤S54中确定高频有效值不等于或小于阈值rmsh_high(m)时，在步骤S52中输出否定的确定结果，并且终止处理。此后，处理进行到图3的步骤S20。

当拾音单元31被直接轻击时，收集的声音的高频分量具有如下特征：其中在拾音单元31被轻击的时间附近的有效值是大的而其它区间内的有效值没有如此大。根据该特征，针对各区间确定阈值rmsh_high(m)。然后，当区间的高频有效值中的至少一个超过阈值rmsh_high(m)中的对应阈值时，确定正处理的声音不对应于在拾音单元31被直接轻击时所生成的声音，并且输出否定的确定结果。

此外，当在步骤S54中确定高频有效值等于或小于阈值rmsh_high(m)时，在步骤S55中，判别处理器68确定从低频最大值计算单元62提供的低频最大值Pl(n)是否满足以下表达式(11)。

[表达式(11)]

pl(n)≥pl_low (11)

注意，在表达式(11)中，“pl_low”表示预定阈值。在步骤S55中，确定低频最大值Pl(n)是否等于或大于阈值pl_low。

当在步骤S55中确定低频最大值小于阈值pl_low时，在步骤S52中输出否定的确定结果，并且终止确定处理。此后，处理进行到图3的步骤S20。

当拾音单元31被直接轻击时，尤其当包括在拾音单元31中的麦克风的孔被轻击以被用户的手指的指腹覆盖时，收集的声音的低频分量应该具有某一强度水平(幅度)。因此，当低频最大值小于阈值pl_low时，确定正处理的声音不对应于在拾音单元31被直接轻击时所生成的声音，因此，输出否定的确定结果。

另一方面，当在步骤S55中确定低频最大值等于或大于阈值pl_low时，在步骤S56中，判别处理器68确定从低频有效值计算单元63提供的低频有效值rmsl(n，m)是否满足以下表达式(12)。

[表达式(12)]

rmsl(n，m)≥rmsl_low(m) (12)

注意，在表达式12中，“rmsl_low(m)”(其中，m＝0，1，2，或3)表示预定阈值。在步骤S56中，确定区间LSm的低频有效值rmsl(n，m)是否等于或大于阈值rmsl_low(m)。即，确定低频有效值rmsl(n，0)到低频有效值rmsl(n，3)是否分别等于或大于阈值rmsl_low(0)到阈值rmsl_low(3)。

当在步骤S56中确定低频有效值不等于或大于阈值rmsl_low(m)时，在步骤S52中输出否定的确定结果，并且终止确定处理。此后，处理进行到图3的步骤S20。

当拾音单元31被直接轻击时，所收集的声音的低频分量具有如下特征：其中在拾音单元31被轻击的时间之后的某一时间段内获得大的有效值，并且根据该特征预先确定区间的阈值rmsl_low(m)。然后，当区间的低频有效值中的至少一个小于阈值rmsl_low(m)中的对应阈值时，确定正处理的声音不对应于在拾音单元31被直接轻击时所生成的声音，并且输出否定的确定结果。

此外，当在步骤S56中确定低频有效值等于或大于阈值rmsl_low(m)时，判别处理器68确定从过零值计算单元67提供的过零值zcr(n)是否满足以下表达式(13)。

[表达式(13)]

zcr(n)≤zcr_high (13)

注意，在表达式(13)中，“zcr_high”表示预定阈值，并且在步骤S57中，确定过零值zcr(n)是否等于或小于阈值zcr_high。

当在步骤S57中确定过零值大于阈值zcr_high时，在步骤S52中输出否定的确定结果，并且终止确定处理。此后，处理进行到图3的步骤S20。

由于当拾音单元31被直接轻击时，所收集的声音包括大量低频分量，因此，所收集的声音的过零值应该稍小。因此，当过零值zcr(n)超过阈值zcr_high时，确定正处理的声音不对应于在拾音单元31被直接轻击时所生成的声音，并且输出否定的确定结果。

另一方面，当确定过零值zcr(n)等于或小于阈值zcr_high时，处理进行到步骤S58。

在步骤S58中，判别处理器68将表示拾音单元31被轻击的确定结果(即，肯定的确定结果)提供给控制器35。然后，当输出确定结果时，终止确定处理，此后，处理进行到图3的步骤S20。

如上所述，判别处理器68确定所收集的声音的特征的特征量是否满足在拾音单元31被直接轻击时生成声音时要满足的条件，由此确定所收集的声音是否对应于在拾音单元31被直接轻击时所生成的声音。由于确定所收集的声音的每个特征是否满足条件，因此，可更可靠地执行声音的判别。

高频最大值的阈值ph_low

这里，阈值ph_low、阈值rmsh_high(m)、阈值pl_low、阈值rmsl_low(m)和阈值zcr_high是使用多个样本获得的，并且被记录在判别处理器68中。

例如，在各种情况(例如，当用户在火车上或公共汽车上、或者当用户在行走时的情况)下，收集在拾音单元31被直接轻击时所生成的大量声音和在拾音单元31不被直接轻击时所生成的大量声音，将这样的声音用作用于肯定确定或否定确定的学习数据，并且获得包括特征量的特征空间内的确定界限作为阈值。

下文中将描述用于计算阈值的方法。

首先，将描述高频最大值Ph(n)的阈值ph_low。图6是图示了在用户在火车上或在公共汽车上、或者用户在行走的情况下高频最大值Ph(n)的出现概率的图。注意，在图中，横轴表示用作样本的声音的高频最大值(dB)，并且纵轴表示出现概率。

在图6中，在图的左侧示出了在拾音单元31未被轻击时所生成的声音(下文中，被称为“环境声音”)的出现概率，而在图的右侧示出在拾音单元31被直接轻击时所生成的声音(下文中，称为“操作声音”)的出现概率。

环境声音的高频最大值分布在-45dB附近的部分中，而操作声音的高频最大值分布在0dB附近的部分中。具有约0dB的高频最大值的环境声音几乎不存在。具体地，操作声音的高频最大值被分布在与比环境声音的高频最大值的值大的值对应的部分中。使用环境声音的高频最大值的统计分布与操作声音的高频最大值的统计分布之间的差，执行环境声音或操作声音的预测(判别)。

例如，为了将操作声音与环境声音判别开，使用线性判别式分析。当执行线性判别式分析、并且说明变量对应于高频最大值Ph(n)以及对象变量对应于两组环境声音与操作声音的数据时，获得通过表达式(14)表示的判别式。

[表达式(14)]

zph＝ph(n)-ph_low (14)

例如，当使用图6所示的样本时，获得0.0679作为常数项。常数项ph_low对应于图6所示的、环境声音的分布的中值点与操作声音的分布的中值点之间的中点。

在表达式(14)中，当判别点zph等于或大于0时，确定正处理的声音对应于操作声音，而当判别点zph小于0时，确定正处理的声音不是操作声音，即，正处理的声音是环境声音。该判别式的常数项ph_low被确定为高频最大值的阈值ph_low，并且被记录在判别处理器68中。

注意，在使用一个特征量(即，高频最大值Ph(n))、根据表达式(14)执行的判别中，将操作声音确定为环境声音的不充分检测或者将环境声音确定为操作声音的过度检测在许多情况下可能发生。

为了减小不充分检测的频率，通过在负方向上改变阈值ph_low(即，通过使阈值ph_low变小)来实现最优化。然而，在这种情况下，过度检测可能频繁地发生。另一方面，为了减小过度检测的频率，通过在正方向上改变阈值ph_low(即，通过使阈值ph_low变大)来实现最优化。然而，在这种情况下，不充分检测可能频繁地发生。

由于在判别处理器68所执行的判别处理中以多个阶段执行判别，如参照图5所述，因此，在使用高频最大值Ph(n)的判别中，在负方向上改变阈值ph_low以进行最优化，使得不充分检测的频率减小而过度检测的频率增大。然后，当在此后执行的使用高频有效值、低频最大值、低频有效值和过零值的判别中以逐步方式减小过度检测的频率时，更可靠地执行操作声音的判别。

高频有效值的阈值rmsh_high(m)

接下来，将描述高频有效值rmsh(n，m)的阈值rmsh_high(m)。图7是图示了在用户在火车或公共汽车上或者用户在行走的情况下的高频有效值rmsh(n，m)的图。

注意，在图中，横轴表示区间HSm，即，高频有效值rmsh(n，m)的变量m(其中，m＝0，1，2，…m，或31)，并且纵轴表示区间HSm的高频有效值(dB)。

在图7中，在图中的上侧示出环境声音的高频有效值，并且在图中的下侧示出操作声音的高频有效值。此外，图7中所示的高频有效值对应于满足时间索引hi等于“n-hi_peak”(如图5的步骤S51中所述)的条件的样本(声音)的高频有效值，其中“hi_peak”等于1791。

因此，环境声音和操作声音的高频有效值分布在与m等于2和3的区间附近的大的值对应的部分中。此外，操作声音的高频有效值分布在与m等于或小于2的区间和m等于或大于5的区间附近的小的值对应的部分中。

如上所述，操作声音的特征在于，在拾音单元31被直接轻击的时间附近的区间内的高频有效值是大的，而在其它区间内的高频有效值较小。另一方面，环境声音的高频有效值在任意区间内都具有一定水平。

环境声音的高频有效值rmsh(n，m)的统计分布与操作声音的高频有效值rmsh(n，m)的统计分布之间的差被用于预测(判别)环境声音或操作声音，以使得过度检测的频率减小。

例如，当将操作声音与环境声音判别开时，采用线性判别式分析。当将高频有效值rmsh(n，m)确定为说明变量并且将两组环境声音与操作声音的数据确定为对象变量时，获得等式(15)所示的判别式。

[表达式(15)]

zrmsh(m)＝-rmsh(n，m)+rmsh_high(m) (15)

例如，当使用了图7所示的样本时，获得图8所示的值作为变量m的常数项rmsh_high(m)，即，常数项rmsh_high(0)到rmsh_high(31)。在常数项当中，根据图7所示的操作声音的高频有效值，常数项rmsh_high(3)到rmsh_high(5)是特别大的值。

在表达式(15)中，当区间HS0到HS31内的全部判别点zrmsh(m)等于或大于0时，确定正处理的声音对应于操作声音，而当至少一个HSm对应于小于0的判别点zrmsh(m)时，确定正处理的声音是环境声音。将该判别式的常数项rmsh_high(m)确定为高频有效值的阈值并且记录在判别处理器68中。

注意，如同通过改变上述阈值ph_low执行的不充分检测和过度检测的最优化一样，可通过改变高频有效值的阈值rmsh_high(m)来执行不充分检测和过度检测的最优化。然而，由于阈值(常数项)的数目为32，因此，这样的改变是困难的。

另一方面，当执行线性判别式分析并且说明变量对应于32阶高频有效值rmsh(n，m)(其中，m＝0，1，2，…，或31)时，获得表达式(16)的判别式。

[表达式(16)]

zrmsh = Σ_{m = 0}^{31} (a_rmsh (m) \times rmsh (n, m)) + b_rmsh \cdot \cdot \cdot (16)

在表达式(16)中，“a_rmsh(m)”(其中，m＝0，1，2，…，或31)表示线性判别式系数，并且“b_rmsh”是线性判别式的常数项。然后，当表达式(16)中的判别点zrmsh等于或大于0时，将正处理的声音确定为操作声音，而当判别点zrmsh小于0时，将正处理的声音确定为环境声音。

当与表达式(15)的判别式的情况相比时，当使用了表达式(16)的判别式时，类似于通过改变阈值ph_low而执行的对不充分检测和过度检测的最优化，可通过改变常数项b_rmsh来容易地最优化不充分检测和过度检测。

当将常数项b_rmsh确定为阈值时，在图5的步骤S54中，将线性判别式系数a_rmsh(m)与高频有效值rmsh(n，m)的乘积之和与阈值(-b_rmsh)进行比较，以使得执行操作声音的判别。即，当与线性判别式系数相乘后的高频有效值之和超过-b_rmsh时，确定正处理的声音是环境声音。

此外，当如表达式(17)所示将在表达式(16)中作为说明变量的32阶高频有效值转换成对数尺度时，可进一步减小不充分检测和过度检测的频率。

[表达式(17)]

zrmsh = Σ_{m = 0}^{31} (al_rmsh (m) \times \log_{10} (rmsh (n, m))) + bl_rmsh \cdot \cdot \cdot (17)

注意，在表达式(17)中，“al_rmsh(m)”(其中，m＝0，1，2，…，或31)表示线性判别式系数，并且“bl_rmsh”表示线性判别式的常数项。此外，在表达式(17)的判别式中，当判别点zrmsh等于或大于0时，确定所生成的声音是操作声音，而当判别点zrmsh小于0时，确定所生成的声音是环境声音。

此外，在表达式(17)的判别式中，可通过改变常数项bl_rmsh来最优化不充分检测和过度检测。当将常数项bl_rmsh确定为阈值时，在图5的步骤S54中，将线性判别式系数与高频有效值rmsn(n，m)以10为底数的对数值的乘积之和与阈值(-bl_rmsh)进行比较，使得执行操作声音的判别。具体地，当线性判别式系数与高频有效值rmsn(n，m)的对数值的乘积之和超过-bl_rmsh时，确定正处理的声音是环境声音。

注意，根据计算量、不充分检测和过度检测之间的平衡，选择要使用的表达式(15)至表达式(17)当中的一个判别式。

低频最大值的阈值pl_low

接下来，将描述低频最大值Pl(n)的阈值pl_low。图9包括图示了在用户在火车上或在公共汽车上或者用户正在行走的情况下低频最大值的出现概率的图。注意，在图中，横轴表示用作样本的声音的低频最大值(dB)，而纵轴表示出现概率。

在图9中，在图中的左侧示出环境声音的出现概率，并且在图中的右侧示出操作声音的出现概率。

环境声音的低频最大值主要分布在作为中心的-28dB附近，而操作声音的低频最大值大多数分布在-10dB附近。即，操作声音的低频最大值分布在与比环境声音的低频最大值大的值对应的部分中。使用环境声音的高频最大值Pl(n)的统计分布与操作声音的高频最大值Pl(n)的统计分布之间的差，执行环境声音或操作声音的预测(判别)，以使得过度检测的频率减小。

例如，当将操作声音与环境声音判别开时，使用线性判别式分析。当执行线性判别式分析、并且说明变量对应于低频最大值Pl(n)以及对象变量对应于两组环境声音与操作声音的数据时，获得表达式(18)中所示的判别式。

[表达式(18)]

zpl＝pl(n)-pl_low (18)

例如，当使用图9所示的样本时，获得0.644以作为常数项pl_low。常数项pl_low对应于图9中所示的、环境声音的分布的中值点与操作声音的分布的中值点之间的中点。

在表达式(18)中，当判别点zpl等于或大于0时，确定正处理的声音对应于操作声音，而当判别点zpl小于0时，确定正处理的声音是环境声音。该判别式的常数项pl_low被确定为低频最大值的阈值pl_low并且被记录在判别处理器68中。注意，如同上述阈值ph_low的情况一样，可通过改变低频最大值的阈值pl_low来最优化不充分检测和过度检测。

低频有效值的阈值rmsl_low(m)

接下来，将描述低频有效值rmsl(n，m)的阈值rmsl_low(m)。

图10是图示了在用户在火车上或在公共汽车上或者用户正在行走的多种情况下的低频有效值rmsl(n，m)的图。注意，在图中，横轴表示区间LSm，即，低频有效值rmsl(n，m)的变量m(其中，m＝0，1，2，3)，以及纵轴表示区间LSm的低频有效值(dB)。

在图10中，在图中的上侧示出环境声音的低频有效值，而在图中的下侧示出操作声音的低频有效值。此外，图10中所示的低频有效值对应于满足时间索引hi等于“n-hi_peak”(在图5的步骤S51中所描述的)的条件的样本(声音)的低频有效值，其中，“hi_peak”等于1791。

因此，当m等于0时，环境声音和操作声音的低频有效值被分布在与大的值相对应的部分中。此外，操作声音的低频有效值在与m为0到3对应的全部区间内分布在与大的值相对应的部分中。

如上所述，操作声音的特征在于，低频有效值在拾音单元31被直接轻击之后逐渐减小。另一方面，在环境声音的低频有效值中，低频有效值在与m为2和3对应的区间内陡峭地减小。

使用在各区间内环境声音的低频有效值的统计分布与操作声音的低频有效值的统计分布之间的差，执行环境声音或操作声音的预测(判别)，以使得过度检测的频率减小。

例如，对于操作声音与环境声音的判别，使用线性判别式分析。当执行线性判别式分析、并且说明变量对应于低频有效值rmsl(n，m)以及对象变量对应于两组环境声音与操作声音的数据时，获得表达式(19)所表示的判别式。

[表达式(19)]

zrmsl(m)＝rmsl(n，m)-rmsl_low(m) (19)

例如，当使用了图10所示的样本时，获得图11所示的值作为关于变量m的常数项rmsl_low(m)，即，常数项rmsl_low(0)到rmsl_low(3)。在常数项当中，根据图10所示的操作声音的低频有效值，常数项rmsl_low(0)和rmsl_low(1)是特别大的值。

在表达式(19)中，当全部区间LS0到LS3的判别点zrmsl(m)等于或大于0时，确定正处理的声音对应于操作声音，而当区间LSm的至少一个判别点zrmsl(m)小于0时，确定正处理的声音为环境声音。该判别式的常数项rmsl_low(m)被确定为低频有效值的阈值rmsl_low(m)并且记录在判别处理器68中。

注意，可通过改变低频有效值的阈值rmsl_low(m)来最优化不充分检测和过度检测。然而，由于阈值(常数项)的数目为四，因此，该改变是困难的。

另一方面，当说明变量对应于四阶低频有效值rmsl(n，m)(其中，m＝0，1，2，或3)并且执行线性判别式分析时，获得表达式(20)所示的判别式。

[表达式(20)]

zrmsl = Σ_{m = 0}^{3} (a_rmsl (m) \times rmsl (n, m)) + b_rmsl \cdot \cdot \cdot (20)

在表达式(20)中，“a_rmsl(m)”(其中，m＝0，1，2或3)表示线性判别式系数，并且“b_rmsl”表示线性判别式的常数项。然后，当判别点zrmsl等于或大于0时，将正处理的声音确定为操作声音，而当判别点zrmsl小于判别点zrmsh时，将正处理的声音确定为环境声音。

当与表达式(19)的判别式相比时，在表达式(20)的判别式中，可通过改变常数项b_rmsl来更容易地最优化不充分检测和过度检测。

当将常数项b_rmsl被确定为阈值时，在图5的步骤S56中，将线性判别式系数a_rmsl(m)与低频有效值rmsl(n，m)的乘积之和与阈值(-b_rmsl)进行比较，并且执行操作声音的判别。具体地，当与线性判别式系数相乘后的低频有效值之和超过-b_rmsl时，确定正处理的声音是环境声音。

此外，当将四阶低频有效值rmsl(n，m)转换成表达式(21)表示的对数尺度时，可进一步减小不充分检测和过度检测的频率。

[表达式(21)]

zrmsl = Σ_{m = 0}^{3} (al_rmsl (m) \times \log_{10} (rmsl (n, m))) + bl_rmsl \cdot \cdot \cdot (21)

注意，在表达式(21)中，“al_rmsl(m)”(其中，m＝0，1，2，或3)表示线性判别式系数，并且“bl_rmsl”表示线性判别式的常数项。此外，在表达式(21)的判别式中，当判别点zrmsl等于或大于0时，确定所生成的声音是操作声音，而当判别点zrmsl小于0时，确定所生成的声音是环境声音。

此外，在表达式(21)的判别式中，可通过改变常数项bl_rmsl来更容易地最优化不充分检测和过度检测。当将常数项bl_rmsl被确定为阈值时，在图5的步骤S56中，将线性判别式系数al_rmsl(m)与低频有效值rmsl(n，m)以10为底数的对数值的乘积之和与阈值(-bl_rmsl)进行比较，使得执行操作声音的判别。具体地，当线性判别式系数与低频有效值rmsl(n，m)的对数值的乘积之和超过-bl_rmsl时，确定正处理的声音是环境声音。

此外，为了最优化不充分检测和过度检测，将32阶高频有效值rmsh(n，m)(其中，m＝0，1，2，…，31)和四阶低频有效值rmsl(n，m)(其中，m＝0，1，2，或3)确定为说明变量，并且可以执行线性判别式分析。在这种情况下，获得表达式(22)表示的判别式。

[表达式(22)]

zrms = Σ_{m = 0}^{31} (al_rmsh (m) \times \log_{10} (rmsh (n, m)))

+ Σ_{m = 0}^{3} (al_rmsl (m) \times \log_{10} (rmsl (n, m))) + bl_rms \cdot \cdot \cdot (22)

在表达式(22)中，“al_rmsh(m)”(其中，m＝0，1，2，…，或31)以及“al_rmsl(m)”(其中，m＝0，1，2，或3)表示线性判别式系数，并且“b_rmsl”表示线性判别式的常数项。此外，在表达式(22)的判别式中，当判别点zrms等于或大于0时，将正处理的声音确定为操作声音，而当判别点zrms小于0时，将正处理的声音确定为环境声音。

在表达式(22)的判别式中，可通过改变常数项bl_rms来更容易地最优化不充分检测和过度检测。当将bl_rms确定为阈值时，在图5的步骤S56中，获得线性判别式系数al_rmsh(m)与高频有效值rmsh(n，m)以10为底数的对数值的乘积之和、以及线性判别式系数al_rmsl(m)与低频有效值rmsl(n，m)以10为底数的对数值的乘积之和。然后，将所获得的两个和之和与阈值(-bl_rms)进行比较，使得执行操作声音的判别。具体地，当所获得的两个和之和超过-bl_rms时，确定正处理的声音为环境声音。在这种情况下，在声音的判别中考虑低频有效值和高频有效值之间的平衡。

注意，根据计算量、不充分检测和过度检测之间的平衡，选择要使用的表达式(19)到表达式(22)当中的一个判别式。

过零值的阈值zcr_high

最后，将描述过零值zcr(n)的阈值zcr_high。图12包括图示了在用户在火车上或在公共汽车上或者用户在行走时的情况下过零值的出现概率的图。注意，在图中，横轴表示用作样本的声音的过零值，并且纵轴表示出现概率。

在图12中，在图中的左侧示出环境声音的出现概率，并且在图中的右侧示出操作声音的出现概率。

环境声音的过零值主要分布在与较小值对应的部分中，而当与环境声音的过零值相比时，操作声音的过零值大多数分布在0附近的部分中。使用环境声音的过零值的统计分布与操作声音的过零值的统计分布之间的差，执行环境声音或操作声音的预测(判别)，使得减小过度检测的频率。

例如，当将操作声音与环境声音判别开时，使用线性判别式分析。当执行线性判别式分析、并且说明变量对应于过零值zcr(n)以及对象变量对应于两组环境声音与操作声音的数据时，获得表达式(23)表示的判别式。

[表达式(23)]

zzcr＝-zcr(n)+zcr_high (23)

例如，当使用图12所示的样本时，获得0.013作为常数项zcr_high。常数项zcr_high对应于图12中所示的、环境声音的分布的中值点与操作声音的分布的中值点之间的中点。

在表达式(23)中，当判别点zzcr等于或大于0时，确定正处理的声音对应于操作声音，而当判别点zzcr小于0时，确定正处理的声音是环境声音。该判别式的常数项zcr_high被确定为过零值的阈值zcr_high并且记录在判别处理器68中。注意，还可通过改变过零值的阈值zrc_high来最优化不充分检测和过度检测。

如上所述，由于获得了判别界限并且将判别界限用作阈值，因此，将在拾音单元31被直接轻击时所生成的操作声音与在拾音单元31未被轻击时所生成的环境声音判别开。

此外，在以上描述中，已描述使用线性判别式分析生成判别函数(判别式)的情况。然而，可使用非线性判别式，替选地，可使用线性SVM(支持向量机)或非线性SVM。根据判别功能(诸如，不充分检测和过度检测)、计算量等之间的平衡，确定用于生成用于获得阈值的判别函数的方法以及用于生成判别函数的特征量。

此外，已描述了如下情况：在用户在火车或公共汽车上或者用户正在行走的多种情况下收集操作声音和环境声音。然而，为了改进判别功能，可将环境声音限制为类似于操作声音的声音。在这种情况下，例如，仅将与约为0的判别点对应的环境声音确定为类似于操作声音的声音并且用作学习数据。

此外，在以上描述中，作为确定拾音单元31所收集的声音是否是操作声音并且根据确定结果执行操作的装置的示例，已描述作为移动音乐播放器的再现设备11。替选地，可使用IC记录器等。

可利用硬件或软件执行上述的一系列处理。当要利用软件执行该系列处理时，从嵌入专用硬件中的计算机或者例如能够通过安装各种程序执行各种功能的通用个人计算机中的程序记录介质安装包括在软件中的程序。

图13是图示了根据程序执行该系列处理的计算机的硬件配置的框图。

在计算机中，CPU(中央处理单元)201、ROM(只读存储器)202和RAM(随机存取存储器)通过总线204相互连接。

此外，输入/输出接口205连接至总线204。包括键盘、鼠标和麦克风的输入单元206、包括显示器和扬声器的输出单元207、包括硬盘和非易失性存储器的记录单元208、包括网络接口的通信单元209、驱动可拆卸介质211(诸如磁盘、光盘、磁光盘或半导体存储器)的驱动器210被连接至输入/输出接口205。

在如上所述配置的计算机中，CPU 201将记录在记录单元208中的程序通过输入/输出接口205和总线204载入RAM 203中，并且执行程序，由此执行上述的这系列处理。

要由计算机(CPU 201)执行的程序通过记录在可拆卸介质211中或者通过有线或无线传输介质(诸如局域网、因特网、或数字卫星广播)来提供，其中，可移动介质211是封装介质，诸如磁盘(包括软盘)、光盘(CD-ROM(致密盘-只读存储器)、DVD(数字通用盘)等)、光磁盘、或半导体存储器。

然后，可通过将可拆卸介质211安装到驱动器210中而将程序经由输入/输出接口205安装在记录单元208中。此外，程序可由通信单元209通过有线或无线传输介质来接收并且安装在记录单元208中。替选地，可预先将程序安装在ROM 202或记录单元208中。

注意，要由计算机执行的程序可按照本说明书中所述的顺序以时间序列方式来处理，可并行处理，或者可在诸如执行调用处理的定时的要求定时处理。

注意，本发明的实施例并不限于上述实施例，并且可在不背离本发明的范围的情况下进行各种修改。

附图标记列表

11再现设备

21耳机

22主体

31-1，31-2，31拾音单元

34-1，34-2，34判别单元

35控制器

39再现控制器

61低通滤波器处理器

62低频最大值计算单元

63低频有效值计算单元

64高通滤波器处理器

65高频最大值计算单元

66高频有效值计算单元

67过零值计算单元

68判别处理器

Claims

1.一种控制装置，包括：

拾音单元，其收集周围的声音；

判别装置，用于使用所述拾音单元所收集的声音的最大值和有效值来确定所述拾音单元是否已被轻击；以及

执行装置，用于当确定所述拾音单元已被轻击时，执行预定处理。

2.根据权利要求1所述的控制装置，

其中，所述执行装置根据所述判别装置所执行的确定的结果，确定所述拾音单元在预定的时间段内被轻击的次数，并且执行根据所确定的次数确定的处理。

3.根据权利要求1所述的控制装置，

其中，所述执行装置执行由多个所述拾音单元中已被轻击的所述拾音单元所确定的处理。

4.根据权利要求1所述的控制装置，

其中，所述判别装置根据对所述最大值执行的阈值处理的结果以及对所述有效值执行的阈值处理的结果，确定所述拾音单元是否已被轻击。

5.根据权利要求4所述的控制装置，

其中，在对所述最大值执行的所述阈值处理中使用的阈值和在对所述有效值执行的所述阈值处理中使用的阈值预先通过判别分析或支持向量机SVM来确定。

6.根据权利要求4所述的控制装置，

其中，当比所述声音的预定频率高的频率的高频分量的最大值小于第一阈值时，所述判别装置确定所述拾音单元未被轻击，而当比所述声音的所述高频分量低的频率的低频分量的最大值小于第二阈值时，所述判别装置确定所述拾音单元未被轻击。

7.根据权利要求6所述的控制装置，

其中，所述判别装置

确定通过在时间方向上划分所述高频分量而获得的多个区间内的有效值是否等于或小于针对各区间而确定的第三阈值，并且当所述高频分量的至少一个所述区间的有效值超过所述第三阈值时，确定所述拾音单元未被轻击，以及

确定通过在时间方向上划分所述低频分量而获得的多个区间内的有效值是否等于或小于针对各区间而确定的第四阈值，并且当所述低频分量的至少一个所述区间的有效值小于所述第四阈值时，确定所述拾音单元未被轻击。

8.根据权利要求7所述的控制装置，

其中，所述高频分量的所述区间具有不同的长度，并且所述低频分量的所述区间具有不同的长度。

9.根据权利要求7或权利要求8所述的控制装置，

其中，所述判别装置确定所述高频分量在时间方向上的特定位置处的绝对值是否变为最大，并且当在所述特定位置处的绝对值未变为最大时，确定所述拾音单元未被轻击。

10.根据权利要求9所述的控制装置，

其中，所述判别装置确定所述声音的过零值是否等于或小于第五阈值，并且当所述过零值超过所述第五阈值时，确定所述拾音单元未被轻击。

11.根据权利要求6所述的控制装置，

其中，所述判别装置确定所述高频分量在时间方向上的区间的有效值的线性和是否等于或小于第六阈值，并且当所述线性和超过所述第六阈值时，确定所述拾音单元未被轻击。

12.根据权利要求6所述的控制装置，

其中，所述判别装置确定所述高频分量在时间方向上的区间的有效值的线性和是否等于或小于第七阈值，并且当所述线性和超过所述第七阈值时，确定所述拾音单元未被轻击。

13.根据权利要求6所述的控制装置，

其中，所述判别装置确定所述低频分量在时间方向上的区间的有效值的线性和是否等于或小于第八阈值，并且当所述线性和超过所述第八阈值时，确定所述拾音单元未被轻击。

14.根据权利要求6所述的控制装置，

其中，所述判别装置确定所述低频分量在时间方向上的区间的有效值的线性和是否等于或小于第九阈值，并且当所述线性和超过所述第九阈值时，确定所述拾音单元未被轻击。

15.根据权利要求6所述的控制装置，

其中，所述判别装置确定所述高频分量在时间方向上的区间的有效值的对数值的线性和与所述低频分量在时间方向上的区间的有效值的对数值的线性和之和是否等于或小于第十阈值，并且当所述和超过所述第十阈值时，确定所述拾音单元未被轻击。

16.根据权利要求1所述的控制装置，

其中，所述拾音单元包括在耳机中。

17.一种控制装置的控制方法，其中，所述控制装置包括：

拾音单元，其收集周围的声音；

其中，所述拾音单元收集所述声音，

所述判别单元确定所述拾音单元是否被轻击，并且

所述执行装置根据所述判别装置所执行的确定的结果，执行预定处理。

18.一种程序，其使计算机执行包括以下步骤的处理：

使用拾音单元收集周围的声音；

使用所述拾音单元所收集的声音的最大值和有效值，确定所述拾音单元是否已被轻击；以及

当确定所述拾音单元已被轻击时，执行预定处理。