CN111034222B

CN111034222B - 拾音装置、拾音方法以及计算机程序产品

Info

Publication number: CN111034222B
Application number: CN201880054599.3A
Authority: CN
Inventors: 广濑良文; 中西雅浩; 足立祐介
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-08-30
Filing date: 2018-07-02
Publication date: 2024-08-02
Anticipated expiration: 2038-07-02
Also published as: JPWO2019044157A1; EP3678385B1; EP3678385A1; JP7233035B2; US11330367B2; WO2019044157A1; US20200137491A1; CN111034222A; EP3678385A4

Abstract

拾音装置是用于对从成为音源的物体输出的目的音进行拾音的装置，包含控制部，其基于摄像机的图像数据来生成表示物体的位置的物体位置信息，基于麦克风阵列的音响信号来生成表示音源的位置的音源位置信息，对物体位置信息设定与摄像机的拍摄状况相应的权重，基于物体位置信息、物体位置信息的权重和音源位置信息来决定对目的音进行拾音的方向。

Description

拾音装置、拾音方法以及计算机程序产品

技术领域

本公开涉及对目的音进行拾音的拾音装置、拾音方法以及程序。

背景技术

专利文献1公开了用于从记录有一人以上的参加者的谈话的数据中推定是哪个参加者在什么时候发声的推定装置。该推定装置通过将从由麦克风输出的音响信号得到的信息、和从由摄像机输出的影像信号得到的信息进行综合，来算出谈话参加者发声的概率。由此，即使是谈话参加者在没有发声的状况下进行了移动的情况，也能追踪谈话参加者的位置。

现有技术文献

专利文献

专利文献1：JP特许第5215826号公报

发明内容

本公开提供使目的音的拾音精度得以提升的拾音装置、拾音方法、以及程序。

本公开的一个方案的拾音装置用于对从成为音源的物体输出的目的音进行拾音，该拾音装置具有第1输入部、第2输入部和控制部。第1输入部接受由摄像机生成的图像数据的输入。第2输入部接受从麦克风阵列输出的音响信号的输入。控制部决定对目的音进行拾音的方向。控制部包含检测部、推定部、加权部和决定部。检测部基于图像数据来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息。推定部基于音响信号来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息。加权部对应于摄像机的拍摄状况来设定物体位置信息的权重。决定部基于物体位置信息、物体位置信息的权重和音源位置信息来决定对目的音进行拾音的方向。

这些概括性且特定的方案可以通过系统、方法以及计算机程序和它们的组合来实现。

根据本公开的拾音装置、拾音方法以及程序，由于对应于摄像机的拍摄状况以及麦克风阵列的音接收状况来决定拾音方向，因此目的音的拾音精度得到提升。

附图说明

图1是表示第1实施方式的拾音装置的结构的框图。

图2是表示第1实施方式的控制部的功能的框图。

图3A是用于说明仅使用麦克风阵列的情况下的拾音方向的图。

图3B是用于说明使用麦克风阵列和摄像机的情况下的拾音方向的图。

图4是表示第1实施方式中的拾音方法的流程图。

图5是用于说明脸位置的检测单位的区域的图。

图6是用于说明脸的识别的图。

图7是用于说明脸的概率的图。

图8是表示图像准确度的判定的流程图。

图9是用于说明音源位置的推定的图。

图10是用于说明音源的概率的图。

图11是表示音响准确度的判定的流程图。

图12是表示图像准确度和音响准确度的权重的图。

图13A是表示脸的概率的一例的图。

图13B是表示音源的概率的一例的图。

图13C是表示根据图13A和图13B算出的拾音方向的图。

图14A是表示脸的概率的其他示例的图。

图14B是表示音源的概率的其他示例的图。

图14C是表示根据图14A和图14B算出的拾音方向的图。

图15是表示第2实施方式的拾音装置的结构的框图。

图16是表示第3实施方式中的控制部的功能的框图。

图17是用于说明第4实施方式中的脸位置的检测单位的区域的图。

图18是表示其他实施方式的控制部的功能的框图。

图19是表示其他实施方式的控制部的功能的框图。

具体实施方式

(成为本公开的基础的见解)

在专利文献1的推定装置中，为了精度良好地算出谈话参加者发声的概率，从由摄像机输出的影像信号得到的信息和从由麦克风输出的音响信号得到的信息必须是准确的。因而，在从影像信号得到的信息和从音响信号得到的信息不准确的情况下，不能精度良好地算出谈话参加者发声的概率。

本公开提供拾音装置，即使是从由摄像机输出的影像信号得到的信息以及从由麦克风阵列输出的音响信号得到的信息的精度不佳的情况，也可提升目的音的拾音精度。具体地，本公开的拾音装置对从影像信号得到的信息设定与摄像机的拍摄状况相应的权重，并且对从音响信号得到的信息设定与麦克风阵列的音接收状况相应的权重。由此，本公开的拾音装置可精度良好地决定目的音的拾音方向。

(第1实施方式)

以下，参考附图来说明第1实施方式。在本实施方式中，对以人物的声音为目的音来进行拾音的示例进行说明。在本实施方式中，与摄像机的拍摄状况相应的权重基于表示人物的脸包含在图像数据中的确定性的准确度来设定。另外，与麦克风阵列的音接收状况相应的权重基于表示目的音包含在音响信号中的确定性的准确度来设定。所谓“准确度”，是确实性的程度。

1.拾音装置的结构

图1表示本公开的第1实施方式的拾音装置的结构。拾音装置1具备摄像机10、麦克风阵列20、控制部30、存储部40、输入输出接口部50以及总线60。拾音装置1例如对会议中的人的声音进行拾音。拾音装置1在一例中是将摄像机10、麦克风阵列20、控制部30、存储部40、输入输出接口部50以及总线60一体化而成的专用的拾音机。

另外，在其他示例中，拾音装置1可以不内置摄像机10和麦克风阵列20中的任意一方或两方。在该情况下，拾音装置1与外附的摄像机10或麦克风阵列20电连接。例如，拾音装置1可以是具备摄像机10的智能手机等电子设备，与具备麦克风阵列20的外部设备电连接并且机械连接。

摄像机10具备CCD图像传感器、CMOS图像传感器或NMOS图像传感器等。摄像机10生成作为影像信号的图像数据并输出。

麦克风阵列20具备多个麦克风。麦克风阵列20接收声波，将其变换成作为电信号的音响信号并输出。

控制部30基于从摄像机10得到的图像数据和从麦克风阵列20得到的音响信号来决定拾音方向。控制部30基于所决定的拾音方向来从音响信号取出目的音。控制部30能用半导体元件等实现。控制部30例如能由微型计算机、CPU、MPU、DSP、FPGA、ASIC构成。

存储部40存放从摄像机10得到的图像数据以及从麦克风阵列20得到的音响信号。存储部40例如能由硬盘(HDD)、SSD、RAM、DRAM、铁电体存储器、闪速存储器、磁盘、或它们的组合实现。

输入输出接口部50包含遵循给定的通信标准(例如LAN、WiFi、Bluetooth(注册商标)、USB、HDMI(注册商标))来进行与外部设备的通信的电路。

总线60是将摄像机10、麦克风阵列20、控制部30、存储部40以及输入输出接口部50电连接的信号线。

在控制部30将图像数据从存储部40取出时，控制部30相当于图像数据的输入部。在控制部30将音响信号从存储部40取出时，控制部30相当于音响信号的输入部。在输入输出接口部50从外附于拾音装置1的摄像机10输入图像数据时，输入输出接口部50相当于图像数据的输入部。在输入输出接口部50从外附于拾音装置1的麦克风阵列20输入音响信号时，输入输出接口部50相当于音响信号的输入部。

图2表示控制部30的功能。控制部30的功能可以仅由硬件构成，也可以通过将硬件和软件组合来实现。

控制部30包含物体位置检测部31、音源位置推定部32、加权部300、拾音方向决定部36以及波束形成部37。

物体位置检测部31从由摄像机10生成的图像数据v检测物体的位置。在本实施方式中，成为检测对象的物体是人的脸。物体位置检测部31输出表示检测出的物体的位置的信息即物体位置信息。具体地，物体位置信息是表示与动态图像1帧的量或静止图像1张的量相当的图像数据v内的多个区域各自的图像是脸的概率的信息。图像数据v内的各区域的坐标系的位置基于摄像机10的设计信息来与摄像机10的视角的水平角θ以及垂直角建立对应。

音源位置推定部32从由麦克风阵列20得到的音响信号s推定音源的位置。在本实施方式中，音源是发出声音的人。音源位置推定部32输出表示推定出的音源的位置的信息即音源位置信息。具体地，音源位置信息是表示在根据水平角θ以及垂直角确定的位置存在音源的概率的信息。

加权部300基于图像数据v来对物体位置信息即概率进行加权。另外，加权部300基于音响信号s来对音源位置信息即概率进行加权。

加权部300包含图像准确度判定部33、音响准确度判定部34以及权重设定部35。图像准确度判定部33基于图像数据v来判定图像准确度CMv。图像准确度CMv是表示脸包含在图像数据v中的确定性的准确度。即，图像准确度CMv表征物体位置信息即概率的可靠性。音响准确度判定部34基于音响信号s来判定音响准确度CMs。音响准确度CMs是表示作为目的音的声音包含在音响信号中的确定性的准确度。即，音响准确度CMs表征音源位置信息即概率的可靠性。

权重设定部35基于图像准确度CMv来设定物体位置信息的权重Wv。基于图像准确度CMv设定的物体位置信息的权重Wv成为与摄像机10的拍摄状况相应的值。权重设定部35基于音响准确度CMs来设定音源位置信息的权重Ws。基于音响准确度CMs而设定的音源位置信息的权重Ws是与麦克风阵列20的音接收状况相应的值。

拾音方向决定部36基于物体位置信息即概率及其权重Wv、和音源位置信息即概率及其权重Ws来决定拾音方向。

波束形成部37基于所决定的拾音方向来从音响信号s取出目的音。由此，能对减低了噪声的清晰的声音进行拾音。

图3A示意性示出仅使用麦克风阵列20的情况下的拾音方向。图3B示意性示出使用麦克风阵列20和摄像机10的情况下的拾音方向。如图3A所示那样，在仅根据从麦克风阵列20输出的音响信号来决定拾音方向的情况下，在周围的噪声(扬声器的音)比人的声音大时，会将噪声的方向作为音源的方向检测出。在该情况下，会对大的噪声进行拾音，而不能清晰地对人的声音进行拾音。但是，在图3B所示那样并用摄像机10的情况下，通过检测摄像机10的图像数据中所含的人的脸的位置，能将人存在的方向确定为音源的方向。

另一方面，对应于摄像机10的拍摄状况，从图像数据v得到的脸位置的检测的精度会发生变化。例如，在暗的环境中拍摄而生成的图像数据v中，有时会误检测脸的位置。因而，在本实施方式中，对脸的概率进行与摄像机10的拍摄状况相应的加权。另外，对应于麦克风阵列20的音接收状况，从音响信号s得到的音源位置的推定的精度也会改变。例如，若噪声过大，则有时就不能从音响信号s准确地推定目的音的音源的位置。因而，在本实施方式中，对音源的概率进行与麦克风阵列20的音接收状况相应的加权。然后，基于加权后的概率来决定拾音方向。

2.拾音装置的动作

图4表示控制部30的拾音动作。

物体位置检测部31基于由摄像机10生成的图像数据v来检测脸的位置(S1)。具体地，物体位置检测部31算出在图像数据v内以水平角θ以及垂直角确定的位置的图像是脸的概率脸的位置的检测方法是任意的。作为一例，将与动态图像1帧的量或静止图像1张的量相当的图像数据v分割成多个区域，判定各区域是否与脸的特征一致，由此进行脸的位置的检测(参考“Rapid Object Detection using a Boosted Cascade ofSimple Features”ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERNRECOGNITION 2001)。以下，对该脸检测的方法进行说明。

图5表示图像数据v中的脸位置的检测单位的区域物体位置检测部31将图像数据v分割成多个区域判定各区域的图像是否是脸。另外，在图5中，将图像数据v以格子状进行分割，将各自的轴与θ、建立对应，但在使用整周摄像机的情况下，也可以圆周状地将θ、建立对应。

图6表示脸的识别的一例。物体位置检测部31例如具备N个弱识别器310(弱识别器310(1)～310(N))。弱识别器310(1)～310(N)分别具有表示脸的特征的信息。表示脸的特征的信息在N个弱识别器310中分别不同。物体位置检测部31计算判定为区域是脸的次数具体地，物体位置检测部31最初通过第一个弱识别器310(1)来判定区域是否是脸。在弱识别器310(1)判定为区域不是脸的情况下，成为在第一个弱识别器310(1)判定为区域是脸的情况下，第二个弱识别器310(2)使用与第一个弱识别器310(1)不同的脸的特征的信息来判定区域是否是脸。在第二个弱识别器310(2)判定为区域是脸的情况下，第三个弱识别器310(3)判定区域是否是脸。如此地，对与动态图像1帧的量或静止图像1张的量相当的图像数据v，按每个区域使用N个弱识别器310来判定是否是脸。例如，在N个弱识别器310全部判定为区域是脸的情况下，判定为是脸的次数成为

检测脸时的区域的大小可以固定，也可以可变。例如，检测脸时的区域的大小可以按动态图像的1帧的量或静止图像1张的量的每个图像数据v来改变。

物体位置检测部31对图像数据v内的区域的全部进行是否是脸的判定。然后，物体位置检测部31通过下述式(1)来算出图像数据v内以水平角θ以及垂直角确定的位置的图像是脸的概率

[数学式1]

另外，在能仅以水平角θ检测脸的位置的情况下，也可以通过下述式(2)来算出脸的概率P(θ|v)。

[数学式2]

图7例示图像数据v内的以水平角θ确定的位置的图像是脸的概率P(θ|v)。概率P(θ|v)越高，表征在该水平角θ存在脸的可能性越高。

如图4所示那样，若由物体位置检测部31检测出脸的位置，则图像准确度判定部33判定表示脸包含在图像数据v中的确定性的图像准确度CMv(S2)。具体地，图像准确度判定部33基于由摄像机10生成的图像数据v来设定图像准确度CMv。另外，图像准确度CMv的判定(S2)可以在检测脸的位置(S1)之前进行。

图8表示图像准确度CMv的判定方法(S2的详细情况)的一例。在图8的示例中，图像准确度判定部33基于图像数据v的平均亮度Yave来判定图像准确度CMv。图像准确度判定部33首先算出图像数据v的平均亮度Yave(S201)。接下来，图像准确度判定部33将平均亮度Yave与推荐亮度(Ymin_base～Ymax_base)进行比较(S202)。推荐亮度具有从最小推荐亮度(Ymin_base)到最大推荐亮度(Ymax_base)的范围。表示推荐亮度的信息预先存放在存储部40。若平均亮度Yave比最小推荐亮度低(S203“是”)，则图像准确度判定部33就将图像准确度CMv设定为“Yave/Ymin_base”(S204)。若平均亮度Yave比最大推荐亮度高(S205“是”)，则图像准确度判定部33就将图像准确度CMv设定为“Ymax_base/Yave”(S206)。若平均亮度Yave处于推荐亮度的范围内(S205“否”)，则图像准确度判定部33就将图像准确度CMv设定为“1”(S207)。若平均亮度Yave比最小推荐亮度Ymin_base低，或比最大推荐亮度Ymax_base高，就会存在误检测脸的情况。因而，在平均亮度Yave处于推荐亮度的范围内时，将图像准确度CMv设定为最大值“1”，平均亮度Yave相比推荐亮度越高或越低，就使图像准确度CMv越低。

如图4所示那样，音源位置推定部32基于从麦克风阵列20输出的音响信号s来推定音源的位置(S3)。具体地，物体位置检测部31算出在以水平角θ以及垂直角确定的位置存在音源的概率音源的位置的推定方法是任意的。例如，音源的位置的推定能使用CSP(Cross-Power Spectrum Phase Analysis)法或MUSIC(Multiple SignalClassification)法来进行。以下，使用CSP法来说明推定音源的位置的示例。

图9示意地表示人的声音(声波)到达麦克风阵列20的麦克风20_i以及20_j的状态。对应于麦克风20_i与20_j间的距离d，在声波到达麦克风20_i以及20_j时产生时间差τ。

音源位置推定部32通过利用CSP系数(相关函数)的下述式(3)来算出在水平角θ存在音源的概率P(θ|s)。

[数学式3]

P(θ|s)＝CSP(τ)…(3)

在此，CSP系数能通过下述式(4)求取(电子信息通信学会论文杂志D-IIVol.J83-D-II No.8 pp.1713-1721，参考“基于利用麦克风阵列的CSP法的多音源位置推定”)。在式(4)中，n表示时间，S_i(n)表示由麦克风20_i接收的音响信号，S_j(n)表示由麦克风20_j接收的音响信号。在式(4)中，DFT表示离散傅立叶变换。另外，*表示共轭复数。

[数学式4]

时间差τ使用音速c、麦克风20_i、20_j间的距离d以及采样频率F_s通过下述式(5)来表征。

[数学式5]

因而，能如下述式(6)所示那样，通过将式(3)的CSP系数用式(5)从时间轴变换成方向轴，来算出在水平角θ存在音源的概率P(θ|s)。

[数学式6]

另外，在上述所示的概率P(θ|s)的算出方法中，示出了使用2个麦克风20i以及20j的示例，但也可以使用2个以上的麦克风来算出存在音源的概率P(θ|s)。另外，垂直角的存在音源的概率与水平角θ的概率P(θ|s)同样，能通过CSP系数和时间差τ算出。另外，能基于概率P(θ|s)以及概率来算出概率

图10例示了水平角θ存在音源的概率P(θ|s)。概率P(θ|s)越高，表征在该水平角θ存在目的音的音源的可能性越高。

如图4所示那样，若由音源位置推定部32推定出音源的位置，则音响准确度判定部34就判定表示声音包含在音响信号s中的确定性的音响准确度CMs(S4)。具体地，音响准确度判定部34基于从麦克风阵列20输出的音响信号s来设定音响准确度CMs。另外，音响准确度CMs的判定(S4)可以在推定音源的位置(S3)之前进行。

图11表示音响准确度CMs的判定方法(S4的详细情况)的一例。在图11的示例中，音响准确度判定部34判定麦克风阵列20接收到的音像声音的程度。具体地，音响准确度判定部34使用人的声音GMM(Gausian Mixture Model)和非声音GMM来算出音响准确度CMs。声音GMM和非声音GMM是预先学习而生成的模型。表示声音GMM和非声音GMM的信息存放在存储部40。

音响准确度判定部34首先算出音响信号s中的基于声音GMM的似然Lv(S401)。接下来，音响准确度判定部34算出音响信号s中的基于非声音GMM的似然Ln(S402)。然后，音响准确度判定部34将音响准确度CMs设定为“CMs＝Lv/Ln”(S403)。

如图4所示那样，权重设定部35基于图像准确度CMv来对脸的概率设定权重Wv，且基于音响准确度CMs来对音源的概率设定权重Ws(S5)。图12表示图像准确度CMv、音响准确度CMs与权重Wv、Ws的对应建立。如此地，通过单调增加函数，对应于准确度CMv、CMs来决定权重Wv、Ws。

如图4所示那样，若设定了权重Wv、Ws，则拾音方向决定部36就决定拾音方向(S6)。具体地，拾音方向决定部36使用脸的概率及其权重Wv、以及音源的概率及其权重Ws，通过下述式(7)来算出作为音源的人物存在的概率然后，通过下述式(8)，将概率成为最大的水平角θ、垂直角决定为拾音方向。另外，关于概率的对数，能通过下述式(9)来表现。

[数学式7]

[数学式8]

[数学式9]

图13A～图13C表示决定水平角θ时的一例。图13A表示脸的概率的一例。图13B表示音源的概率的一例。图13C表示根据图13A和图13B算出的拾音方向。在图像数据v的平均亮度Yave高的情况下，图像准确度CMv变高，物体位置信息的权重Wv变大。另外，若音响信号s中噪声大，则音响准确度CMs变小，音源位置信息的权重Ws变小。因而，在平均亮度Yave高的情况以及噪声大的情况下，使权重大的脸的概率P(θ|v)优先，来决定水平角θ。

图14A～图14C表示决定水平角θ时的其他示例。图14A表示脸的概率的其他示例。图14B表示音源的概率的其他示例。图14C表示根据图14A和图14B算出的拾音方向。在图像数据v的平均亮度Yave低的情况下，图像准确度CMv变低，物体位置信息的权重Wv变小。另外，若音响信号s中噪声小，则音响准确度CMs变大，音源位置信息的权重Ws变大。因而，在平均亮度Yave低的情况以及噪声小的情况下，使权重大的音源的概率P(θ|s)优先，来决定水平角θ。

如图4所示那样，波束形成部37基于所决定的拾音方向θ、来对音响信号s中所含的作为目的音的声音进行拾音(S7)。

另外，执行图4的步骤S1～S4的顺序是任意的。

3.效果以及补充

本公开的拾音装置1是用于对从成为音源的物体输出的目的音进行拾音拾音装置。拾音装置1具有：接受由摄像机10生成的图像数据v的输入的第1输入部(控制部30、或输入输出接口部50)；接受从麦克风阵列20输出的音响信号s的输入的第2输入部(控制部30、或输入输出接口部50)；和基于图像数据v以及音响信号s来决定进行拾音的方向θ、的控制部30。控制部30包含物体位置检测部31、音源位置推定部32、加权部300和拾音方向决定部36。物体位置检测部31基于图像数据v来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息音源位置推定部32基于音响信号s来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息加权部300对物体位置信息设定与摄像机10的拍摄状况相应的权重Wv，并且对音源位置信息设定与麦克风阵列20的音接收状况相应的权重Ws。拾音方向决定部36基于物体位置信息物体位置信息的权重Wv、音源位置信息和音源位置信息的权重Ws来决定进行拾音的方向θ、

如此地，由于使用与摄像机10的拍摄状况相应的权重Wv和与麦克风阵列20的音接收状况相应的权重Ws来决定进行拾音的方向θ、因此能使物体位置信息和音源位置信息的可靠性高的信息优先。因而，即使是物体位置信息或音源位置信息的精度不佳的情况，也能精度良好地决定目的音的拾音方向。由此，通过从由麦克风阵列20输出的音响信号s提取所决定的拾音方向的音，能精度良好地对目的音进行拾音。

具体地，加权部300基于表示物体包含在图像数据中的确定性的图像准确度CMv来设定物体位置信息的权重Wv，并且基于表示目的音包含在音响信号中的确定性的音响准确度CMs来设定音源位置信息的权重Ws。图像准确度CMv是与摄像机10的拍摄状况相应的值。另外，音响准确度CMs是与麦克风阵列20的音接收状况相应的值。因而，通过基于图像准确度CMv以及音响准确度CMs来设定权重Wv、Ws，能设定与摄像机10的拍摄状况以及麦克风阵列20的音接收状况相应的权重Wv、Ws。由此，能精度良好地决定目的音的拾音方向。

(第2实施方式)

本实施方式的拾音装置1基于传感器的输出来设定物体位置信息的权重Wv。

图15是表示第2实施方式的拾音装置的结构的框图。第2实施方式的拾音装置1具备传感器部70。传感器部70包含探测周围的明亮度的亮度传感器、探测到物体的距离的距离传感器以及加速度传感器当中的至少一者。第2实施方式的拾音装置1不具备图像准确度判定部33。权重设定部35基于传感器部70的输出来设定物体位置信息的权重Wv。例如，权重设定部35可以基于亮度传感器探测到的亮度来设定权重Wv，使得亮度越高则物体位置信息的权重Wv越大。权重设定部35可以基于距离传感器探测到的到物体的距离来设定权重Wv，使得距离越近则物体位置信息的权重Wv越大。在加速度大的情况下，有图像模糊的可能性，因此权重设定部35可以基于加速度传感器探测到的加速度来设定权重Wv，使得加速度越大则物体位置信息的权重Wv越小。

由于传感器部70的输出是与摄像机10的拍摄状况相应的值，因此在本实施方式中也能精度良好地决定目的音的拾音方向。

(第3实施方式)

本实施方式的拾音装置1从图像数据v检测发声区间来控制拾音。

图16表示第3实施方式中的控制部30的功能。第3实施方式的控制部30具备发声区间检测部38。发声区间检测部38例如具备表示嘴唇张开的状态的特征量的信息，基于该信息来判定图像数据v中嘴唇是否张开。由此，发声区间检测部38检测发声的开始时间点以及结束时间点。从发声的开始时间点到发声的结束时间点是发声区间。或者，也可以将音响信号s作为输入，基于音响特征来实施发声区间的检测。或者，也可以基于图像数据v以及音响信号s双方的特征量来实施发声区间的检测。

在图16中，拾音部80由物体位置检测部31、音源位置推定部32、图像准确度判定部33、音响准确度判定部34、权重设定部35、拾音方向决定部36以及波束形成部37构成。拾音部80在由发声区间检测部38检测出的发声区间内对目的音进行拾音。例如，物体位置检测部31可以从与发声区间对应的图像数据v检测脸的位置。拾音方向决定部36可以仅在检测出的发声区间中决定拾音方向。波束形成部37可以仅从与检测出的发声区间对应的音响信号s对目的音进行拾音。

另外，基于嘴唇的开闭的发声区间的检测也可以由物体位置检测部31来进行。例如，物体位置检测部31可以在检测出脸的区域内判定嘴唇的开闭。

(第4实施方式)

本实施方式的拾音装置1按图像数据v的多个区域的每一个区域对脸的概率P设定权重Wv。以下，参考图2以及图17来说明本实施方式。

物体位置检测部31将图像数据v分割成多个区域，判定各区域的图像是否是脸。即，物体位置检测部31算出各区域的图像是脸的概率P。

在本实施方式中，如图17所示那样，在多个区域当中2个以上的区域检测脸。即，在区域ra中包含发出声音的脸，在区域rb中包含未发出声音的脸。进而，摄像机10的拍摄状况按每个区域而不同。具体地，在多个区域当中区域ra的图像中，对应于摄像机10的拍摄状况，平均亮度过高或过低。例如，在光仅很强地照到区域ra的周边或光几乎未照到的情况下，会引起这样的状况。另一方面，在区域rb的图像中，平均亮度是适合检测脸的值。因此，尽管区域ra的图像中所含的人物发出声音，区域ra的图像中所含的脸的概率P也比区域rb的图像中所含的脸的概率P要低。由此，有时会将未发出声音的区域rb的人物误检测为发出声音。

因此，本实施方式的权重设定部35基于多个区域当中与检测出的脸的位置对应的区域ra的平均亮度来算出区域ra的图像准确度CMv。例如，在区域ra的平均亮度过高或过低的情况下，权重设定部35算出区域ra的图像准确度CMv，使得图像准确度CMv变低。并且，在区域ra的图像准确度CMv低的情况下，权重设定部35设定物体位置信息的权重Wv，使得区域ra的物体位置信息的权重Wv变高。即，权重设定部35基于区域ra的图像准确度CMv来设定区域ra的物体位置信息的权重Wv。

如以上那样，权重设定部35基于多个区域当中与人物的位置对应的区域ra的平均亮度来算出图像准确度CMv。因此，例如即使在区域ra的平均亮度对应于区域ra的拍摄状况而过高或过低的情况下，也能适当地算出在区域ra的图像中包含脸的概率。

另外，除了基于平均亮度以外，权重设定部35可以基于区域ra的图像的亮度的方差来算出图像准确度CMv。

另外，权重设定部35可以在区域ra中仅包含脸的一部分的情况下将图像准确度CMv设定得低。即，权重设定部35可以在区域ra中仅包含脸的一部分的情况下，基于图像准确度CMv来设定物体位置信息的权重Wv，使得区域ra的物体位置信息的权重Wv变高。由此，即使在图像v内发出声音的人物出现(牙齿)咬合，也能适当地算出发出声音的人物的脸的概率。

(其他实施方式)

如以上那样，作为本申请中公开的技术的例示，说明了第1～第4实施方式。但是，本公开中的技术并不限定于此，而是也能运用在适当进行了变更、置换、附加、省略等后得到的实施方式中。另外，还能将上述第1～第4实施方式中说明的各构成要素组合来形成新的实施方式。因此，以下例示其他实施方式。

在第1实施方式中，权重设定部35设定物体位置信息的权重Wv以及音源位置信息的权重Ws。但是，本公开并不限定于此。权重设定部35也可以仅设定物体位置信息的权重Wv或音源位置信息的权重Ws中的一方。即，加权部300可以仅包含图像准确度判定部33或音响准确度判定部34中的一方。参考图18和图19来说明该示例。

如图18所示那样，其他实施方式的加权部300不包含音响准确度判定部34。即，权重设定部35仅设定物体位置信息的权重Wv。在该情况下，拾音方向决定部36基于物体位置信息物体位置信息的权重Wv和音源位置信息来决定对目的音进行拾音的方向。具体地，拾音方向决定部36能通过将第1实施方式中的式(7)的权重Ws设定为1并使用式(7)，来决定对目的音进行拾音的方向。在这样的结构中，也能与第1实施方式的拾音装置1同样地通过使用物体位置信息的权重Wv来抑制与拍摄状况相应的误检测。

另外，如图19所示那样，其他实施方式的其他加权部300不包含图像准确度判定部33。即，权重设定部35仅设定音源位置信息的权重Ws。在该情况下，拾音方向决定部36基于物体位置信息音源位置信息和音源位置信息的权重Ws来决定对目的音进行拾音的方向。具体地，拾音方向决定部36能通过将第1实施方式中的式(7)的权重Wv设定为1并使用式(7)，来决定对目的音进行拾音的方向。在这样的结构中，也能与第1实施方式的拾音装置1同样地通过使用音源位置信息的权重Ws来抑制与麦克风阵列20的音接收状况相应的误检测。

在第1实施方式中说明了检测人的脸的示例，但在对人的声音进行拾音的情况下，检测对象的物体并不限于人的脸，只要是能作为人而辨识的部分即可。例如，要检测的物体也可以是人的身体或唇。

在第1实施方式中，基于图像数据v的平均亮度Yave来判定图像准确度CMv，但也可以用其他方法进行图像准确度CMv的判定。例如，可以基于图像数据v的亮度的方差来判定图像准确度CMv。具体地，例如若图像数据v的亮度的方差Ystd小于推荐方差Ystd_base，则图像准确度判定部33就将图像准确度CMv设定为“Ystd/Ystd_base”。若方差Ystd为推荐方差Ystd_base以上，则图像准确度判定部33就将图像准确度CMv设定为“1”。

作为图像准确度CMv的判定的另外其他方法，可以使用图像数据v的亮度直方图。例如，在亮度直方图集中在低亮度或高亮度时，将图像准确度CMv设定得低，在亮度直方图从低亮度广泛分散到高亮度时，将图像准确度CMv设定得高。

另外，也可以基于图像数据v的焦点是否对准来判定图像准确度CMv。

在第1实施方式中，根据基于声音GMM的似然Lv以及基于非声音GMM的似然Ln来判定音响准确度CMs，但也可以用其他方法进行音响准确度CMs的判定。例如，音响准确度判定部34可以用音源分离技术将音响信号s分离成声音和非声音，基于声音与非声音的功率比来算出音响准确度CMs。作为音源分离技术，例如可以使用盲音源分离(Blind SourceSeparation)。

在第1实施方式中，基于准确度CMv、CMs来设定权重Wv、Ws，但权重Wv、Ws也可以是与准确度CMv、CMs相同值。

在上述实施方式中，若图像准确度CMv和音响准确度CMs双方是例如给定值以下，则也可以将前次设定的拾音方向θ、决定为本次的拾音方向。

在上述实施方式中，说明了决定水平角θ以及垂直角来作为拾音方向的情况，但在能仅以水平角θ以及垂直角中的至少任意一方来确定发出目的音的物体的位置的情况下，可以仅决定水平角θ以及垂直角中的至少任意一方。

在上述实施方式中，将人的声音作为目的音来进行拾音，但目的音并不限于人的声音。例如，目的音也可以是车的音或动物的鸣叫声。在目的音是车的音的情况下，可以基于表示车的特征的信息来算出区域内的图像是车的概率另外，也可以基于车的音的GMM来设定音响准确度CMs。

(实施方式的概要)

(1)本公开的拾音装置是用于对从成为音源的物体输出的目的音进行拾音的拾音装置，具有：接受由摄像机生成的图像数据(v)的输入的第1输入部；接受从麦克风阵列输出的音响信号(s)的输入的第2输入部；和基于图像数据(v)以及音响信号(s)来决定对目的音进行拾音的方向的控制部。控制部包含检测部、推定部、加权部和决定部。检测部基于图像数据(v)来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息推定部基于音响信号(s)来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息加权部对物体位置信息设定与摄像机的拍摄状况相应的权重(Wv)。决定部基于物体位置信息物体位置信息的权重(Wv)和音源位置信息来决定对目的音进行拾音的方向

由此，通过考虑物体位置信息的可靠性，能精度良好地决定目的音的拾音方向。因而，通过从由麦克风阵列20输出的音响信号s提取所决定的拾音方向的音，能精度良好地对目的音进行拾音。

(2)在(1)的拾音装置的基础上，也可以是，加权部基于表示物体包含在图像数据中的确定性的图像准确度(CMv)来设定物体位置信息的权重。

由此，能对物体位置信息精度良好地设定与摄像机的拍摄状况相应的权重(Wv)。

(3)在(2)的拾音装置的基础上，也可以是，加权部基于图像数据的平均亮度或亮度的方差来算出图像准确度(CMv)。

由此，能精度良好地设定与拍摄时的照明环境相应的权重(Wv)。

(4)在(2)的拾音装置的基础上，也可以是，检测部将图像数据分割成多个区域，加权部基于多个区域当中与检测出的物体的位置对应的一个区域的平均亮度或亮度的方差来算出图像准确度。

由此，即使是区域的平均亮度对应于区域的拍摄状况而过高或过低的情况，也能适当地算出在区域的图像中包含物体的概率。

(5)在(1)～(4)的拾音装置的基础上，也可以是，加权部对应于麦克风阵列的音接收状况来设定音源位置信息的权重，决定部基于物体位置信息、物体位置信息的权重、音源位置信息和音源位置信息的权重来决定对目的音进行拾音的方向。

由此，通过使物体位置信息以及音源位置信息的可靠性高的信息优先，能精度良好地决定目的音的拾音方向。因而，通过从由麦克风阵列20输出的音响信号s提取所决定的拾音方向的音，能精度良好地对目的音进行拾音。

(6)在(5)的拾音装置的基础上，也可以是，加权部基于表示目的音包含在音响信号中的确定性的音响准确度(CMs)来设定音源位置信息的权重。

由此，另外，能对音源位置信息精度良好地设定与麦克风阵列的音接收状况相应的权重(Ws)。

(7)在(6)的拾音装置的基础上，也可以是，加权部基于音响信号中所含的目的音与非目的音的似然比或功率比来算出音响准确度(CMs)。

由此，能精度良好地设定与音接收时的周围的状况相应的权重(Ws)。

(8)(1)的拾音装置可以进一步具有传感器部，该传感器部包含探测周围的明亮度的亮度传感器、探测到物体的距离的距离传感器或加速度传感器当中的至少一者。加权部可以基于传感器部的输出来设定物体位置信息的权重(Ws)。

由此，能精度良好地设定与拍摄时的状况相应的权重(Wv)。

(9)(1)的拾音装置可以具备摄像机以及麦克风阵列当中的至少一方。

由此，例如通过在具备摄像机的拾音装置仅外附麦克风阵列，能精度良好地对目的音进行拾音。

(10)在(1)的拾音装置的基础上，也可以是，检测部检测人的身体、脸或唇来作为物体。

由此，能精度良好地对人的声音进行拾音。

(11)另外，本公开的其他拾音装置是用于对从成为音源的物体输出的目的音进行拾音的拾音装置，该拾音装置具有：接受由摄像机生成的图像数据(v)的输入的第1输入部；接受从麦克风阵列输出的音响信号(s)的输入的第2输入部；和基于图像数据(v)以及音响信号(s)来决定对目的音进行拾音的方向的控制部。控制部包含检测部、推定部、加权部和决定部。检测部基于图像数据(v)来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息推定部基于音响信号(s)来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息加权部对应于麦克风阵列的音接收状况来设定音源位置信息的权重。决定部基于物体位置信息音源位置信息和音源位置信息的权重(Ws)来决定对目的音进行拾音的方向

由此，通过考虑音源位置信息的可靠性，能精度良好地决定目的音的拾音方向。因而，通过从由麦克风阵列20输出的音响信号s提取所决定的拾音方向的音，能精度良好地对目的音进行拾音。

(12)本公开的拾音方法是用于对从成为音源的物体输出的目的音进行拾音的拾音方法，包含如下步骤：接受由摄像机生成的图像数据(v)的输入；接受从麦克风阵列输出的音响信号(s)的输入；基于图像数据(v)来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息基于音响信号(s)来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息对应于摄像机的拍摄状况来设定物体位置信息的权重(Wv)；和基于物体位置信息物体位置信息的权重(Wv)和音源位置信息来决定对目的音进行拾音的方向

(13)另外，本公开的其他拾音方法是用于对从成为音源的物体输出的目的音进行拾音的拾音方法，包含如下步骤：接受由摄像机生成的图像数据(v)的输入；接受从麦克风阵列输出的音响信号(s)的输入；基于图像数据(v)来检测物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的物体的位置的信息即物体位置信息基于音响信号(s)来推定音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的音源的位置的信息即音源位置信息对应于麦克风阵列的音接收状况来设定音源位置信息的权重(Ws)；和基于物体位置信息音源位置信息和音源位置信息的权重(Ws)来决定对目的音进行拾音的方向

(14)本公开的程序使计算机执行上述拾音方法。

本公开的全部权利要求所记载的拾音装置以及拾音方法可通过硬件资源例如处理器、存储器与程序的协作等来实现。

产业上的可利用性

本公开的拾音装置例如作为对会话中的人的声音进行拾音的装置是有用的。

附图标记的说明

1 拾音装置

10 摄像机

20 麦克风阵列

30 控制部

31 物体位置检测部

32 音源位置推定部

33 图像准确度判定部

34 音响准确度判定部

35 权重设定部

36 拾音方向决定部

37 波束形成部

38 发声区间检测部

40 存储部

50 输入输出接口部

60 总线

70 传感器部

300 加权部

Claims

1.一种拾音装置，用于对从物体输出的目的音进行拾音，所述拾音装置具有：

第1输入部，接受由摄像机生成的图像数据的输入；

第2输入部，接受包含从麦克风阵列输出的所述目的音和非目的音的音响信号的输入；和

控制部，决定对所述目的音进行拾音的方向，

所述控制部包含：

检测部，基于所述图像数据内的部分区域与所述物体的特征一致的概率来检测所述物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的所述物体的位置的信息即物体位置信息；

推定部，基于在所述音响信号内的给定的位置存在所述目的音或非目的音的音源的概率来推定所述音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的所述音源的位置的信息即音源位置信息；

加权部，对应于基于所述目的音的信息即第1信息的所述音响信号中所含的目的音的第1似然与基于所述非目的音的信息即第2信息的所述音响信号中所含的非目的音的第2似然之比来设定所述音源位置信息的权重；

决定部，基于所述物体位置信息、所述音源位置信息和所述音源位置信息的权重来决定对所述目的音进行拾音的方向。

2.根据权利要求1所述的拾音装置，其中，

所述加权部对应于基于所述第1似然与所述第2似然之比算出的表示所述目的音包含在所述音响信号中的确定性的音响准确度来设定所述音源位置信息的权重。

3.根据权利要求1所述的拾音装置，其中，

所述拾音装置包含：

存储部，保存所述第1信息和所述第2信息。

4.根据权利要求1～3中任一项所述的拾音装置，其中，

所述加权部对应于从所述图像数据检测所述物体的位置的精度发生变化的所述摄像机的拍摄状况来设定所述物体位置信息的权重，

所述决定部基于所述物体位置信息、所述物体位置信息的权重、所述音源位置信息和所述音源位置信息的权重来决定对所述目的音进行拾音的方向。

5.根据权利要求4所述的拾音装置，其中，

所述加权部基于表示所述物体包含在所述图像数据中的确定性的图像准确度来设定作为与所述摄像机的拍摄状况相应的值的、所述物体位置信息的权重。

6.根据权利要求5所述的拾音装置，其中，

所述加权部基于所述图像数据的平均亮度或亮度的方差来算出所述图像准确度。

7.根据权利要求5所述的拾音装置，其中，

所述检测部将所述图像数据分割成多个区域，

所述加权部基于所述多个区域当中与检测出的所述物体的位置对应的一个区域的平均亮度或亮度的方差来算出所述图像准确度。

8.根据权利要求1所述的拾音装置，其中，

所述拾音装置还具有：

传感器部，包含探测周围的明亮度的亮度传感器、探测到所述物体的距离的距离传感器或加速度传感器当中的至少一者，

所述加权部基于所述传感器部的输出来设定所述物体位置信息的权重。

9.根据权利要求1所述的拾音装置，其中，

所述拾音装置具备：

所述摄像机或所述麦克风阵列当中的至少一方。

10.根据权利要求1所述的拾音装置，其中，

所述检测部基于检测出人的身体、脸或唇作为所述物体的所述图像数据的所述部分区域来输出所述物体位置信息，

所述推定部基于作为所述第1信息的人的声音GMM包含在所述音响信号中的方向来输出所述音源位置信息。

11.一种拾音装置，用于对从物体输出的目的音进行拾音，所述拾音装置具有：

第1输入部，接受由摄像机生成的图像数据的输入；

控制部，决定对所述目的音进行拾音的方向，

所述控制部包含：

加权部，对应于从所述图像数据检测所述物体的位置的精度发生变化的所述摄像机的拍摄状况来设定所述物体位置信息的权重；和

决定部，基于所述物体位置信息、所述物体位置信息的权重和所述音源位置信息来决定对所述目的音进行拾音的方向，

12.根据权利要求11所述的拾音装置，其中，

所述检测部将所述图像数据分割成多个区域，

13.一种拾音方法，用于对从物体输出的目的音进行拾音，所述拾音方法包含如下步骤：

接受由摄像机生成的图像数据的输入；

接受包含从麦克风阵列输出的所述目的音和非目的音的音响信号的输入；

基于所述图像数据内的部分区域与所述物体的特征一致的概率来检测所述物体在水平方向或垂直方向中至少任意一个方向上的位置，输出表示检测出的所述物体的位置的信息即物体位置信息；

基于在所述音响信号内的给定的位置存在所述目的音或非目的音的音源的概率来推定所述音源在水平方向或垂直方向中至少任意一个方向上的位置，输出表示推定出的所述音源的位置的信息即音源位置信息；

对应于从所述图像数据检测所述物体的位置的精度发生变化的所述摄像机的拍摄状况来设定所述物体位置信息的权重；和

基于所述物体位置信息、所述物体位置信息的权重和所述音源位置信息来决定对所述目的音进行拾音的方向，

基于表示所述物体包含在所述图像数据中的确定性的图像准确度来设定作为与所述摄像机的拍摄状况相应的值的、所述物体位置信息的权重。

14.一种拾音方法，用于对从物体输出的目的音进行拾音，所述拾音方法包含如下步骤：

接受由摄像机生成的图像数据的输入；

对应于基于所述目的音的信息即第1信息的所述音响信号中所含的目的音的第1似然与基于所述非目的音的信息即第2信息的所述音响信号中所含的非目的音的第2似然之比来设定所述音源位置信息的权重；

基于所述物体位置信息、所述音源位置信息和所述音源位置信息的权重来决定对所述目的音进行拾音的方向。

15.一种计算机程序产品，包含用于使计算机执行权利要求13或14所述的拾音方法的程序。