CN104092936A

CN104092936A - 自动对焦方法及装置

Info

Publication number: CN104092936A
Application number: CN201410261049.2A
Authority: CN
Inventors: 唐明勇; 刘华一君; 周志农
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-06-12
Filing date: 2014-06-12
Publication date: 2014-10-08
Anticipated expiration: 2034-06-12
Also published as: CN104092936B

Abstract

本发明是关于一种自动对焦方法及装置，属于摄影技术领域。所述方法包括：在对焦过程中，采集所处环境的声音信息；根据声音信息分析声音信息的声源位置；对声源位置的目标物体进行自动对焦。本发明通过声源位置来对发声物体进行对焦；解决了目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，比如双手手持平板设备的状态、以遥控器控制电子设备的状态，上述自动对焦方法无法使用的问题；达到了在不方便操作电子设备的状态时也能正常对焦的效果。

Description

自动对焦方法及装置

技术领域

本发明涉及摄影技术领域，特别涉及一种自动对焦方法及装置。

背景技术

对焦是指通过照相机中的对焦机构变动物距和相距的位置，使被拍物体的成像清晰的过程。随着电子设备的快速发展，各种包含拍摄功能的电子设备使用的越来越频繁，人们对对焦功能的要求也越来越高。

相关技术提供的一种自动对焦方法，包括：电子设备在拍摄过程中，通过触摸屏显示取景画面；电子设备接收用户在触摸屏上的点击信号，对该点击信号在取景画面中所点击的物体进行自动对焦。

公开人在实现本公开的过程中，发现上述方式至少存在如下缺陷：上述自动对焦方法虽然对焦过程是自动的，但在选取对焦点的过程中，主要依赖用户的操作，当用户处于不方便操作电子设备的状态时，比如双手手持平板设备的状态、以遥控器控制电子设备的状态，上述自动对焦方法无法使用。同时，用户点击触摸屏也会带来电子设备的抖动，影响对焦过程。

发明内容

为了解决目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，该自动对焦方法无法使用的问题，本发明实施例提供了一种自动对焦方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供了一种自动对焦方法，所述方法包括：

在对焦过程中，采集所处环境的声音信息；

根据所述声音信息分析所述声音信息的声源位置；

对所述声源位置的目标物体进行自动对焦。

可选的，所述根据所述声音信息分析所述声音信息的声源位置，包括：

在所述声音信息为两个或者两个以上时，解析每个声音信息，得到所述声音信息的声音特征；

检测所述声音特征与预设声音信息的声音特征是否匹配；

如果所述声音特征与预设声音信息的声音特征匹配，则分析所述声音信息的声源位置。

可选的，所述方法，还包括：

获取所处环境所对应的场景模式；

从预设的至少一个声音信息中选择与所述场景模式匹配的声音信息，作为所述预设声音信息。

可选的，所述对所述声源位置的目标物体进行自动对焦，包括：

对所述声源位置进行初步对焦，获取图像信息；

在所述图像信息中识别所述声源位置处的目标物体；

检测所述目标物体是否为所述声音信息的发声物体；

如果所述目标物体是所述声音信息的发声物体，则对所述目标物体进行自动对焦。

可选的，所述对所述声源位置进行初步对焦，获取图像信息，包括：

在所述声源位置不在当前镜头范围内时，根据所述声源位置调整所述镜头的朝向和姿态；

通过调整后的所述镜头对所述声源位置进行初步对焦，并获取图像信息。

可选的，所述方法，还包括：

持续采集所述目标物体的声音信息；

根据持续采集的所述声音信息对所述目标物体进行跟踪对焦。

根据本发明实施例的第二方面，提供了一种自动对焦装置，所述装置包括：

声音获取模块，被配置为在对焦过程中，采集所处环境的声音信息；

声源位置模块，被配置为根据所述声音信息分析所述声音信息的声源位置；

图像获取模块，被配置为对所述声源位置的目标物体进行自动对焦。

可选的，所述声源位置模块，还包括：

声音解析单元、特征检测单元和声源位置单元；

所述声音解析单元，被配置为在所述声音信息为两个或者两个以上时，解析每个声音信息，得到所述声音信息的声音特征；

所述特征检测单元，被配置为检测所述声音特征与预设声音信息是否匹配；

所述声源位置单元，被配置为在所述声音特征与预设声音信息的声音特征匹配时，分析所述声音信息的声源位置。

可选的，所述装置，还包括：

场景匹配模块，被配置为获取所处环境所对应的场景模式，并从预设的至少一个声音信息中选择与所述场景模式匹配的声音信息，作为所述预设声音信息。

可选的，所述图像获取模块，还包括：初步对焦单元、图像识别单元、图像检测单元和自动对焦单元；

所述初步对焦单元，被配置为对所述声源位置进行初步对焦后，获取图像信息；

所述图像识别单元，被配置为在所述图像信息中识别所述声源位置处的目标物体；

所述图像检测单元，被配置为检测所述目标物体是否为所述声音信息的发声物体；

所述自动对焦单元，被配置为在所述目标物体是所述声音信息的发声物体时，对所述目标物体进行自动对焦。

可选地，所述初步对焦单元，包括：

镜头调整子单元，被配置为在所述声源位置不在当前镜头范围内时，根据所述声源位置调整所述镜头的朝向和姿态；

初步对焦子单元，被配置为通过调整后的所述镜头对所述声源位置进行初步对焦，并获取图像信息。

可选的，所述装置，还包括：跟踪对焦模块；

所述跟踪对焦模块，被配置为持续采集所述目标物体的声音信息，并根据持续采集的所述声音信息对所述目标物体进行跟踪对焦。

根据本发明实施例的第三方面，提供了一种自动对焦装置，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

在对焦过程中，采集所处环境的声音信息；

根据所述声音信息分析所述声音信息的声源位置；

对所述声源位置的目标物体进行自动对焦。

本公开实施例提供的技术方案可以包括以下有益效果：

当被拍摄物体可以发声时，通过声源位置来对发声物体进行对焦；解决了目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，自动对焦方法无法使用；以及用户点击触摸屏也会带来电子设备的抖动，影响对焦过程的问题；达到了在不方便操作电子设备的状态时也能正常对焦且对焦过程不会因为点击触摸屏带来设备抖动的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种自动对焦方法的流程图；

图2A是根据另一示例性实施例示出的一种自动对焦方法的流程图；

图2B是根据一示例性实施例示出的终端的外观示意图；

图2C是根据一示例性实施例示出的在自动对焦过程中录制预设声音信息的示意图；

图2D是根据一示例性实施例示出的在自动对焦过程中对声源进行二维定位的示意图；

图2E是根据一示例性实施例示出的的自动对焦过程的示意图；

图3A是根据另一示例性实施例示出的一种自动对焦方法的流程图；

图3B是根据一示例性实施例示出的在自动对焦过程中选择场景模式的示意图；

图3C是根据一示例性实施例示出的在自动对焦过程中选择预设声音信息的示意图；

图3D是根据一示例性实施例示出的在自动对焦过程中调整镜头方向和姿态的示意图；

图4是根据一示例性实施例示出的一种自动对焦装置的框图；

图5是根据另一示例性实施例示出的一种自动对焦装置的框图。

图6是根据另一示例性实施例示出的一种自动对焦装置的框图

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中所述的终端可以是拍照手机、照相机、摄像机和监控摄像头等一切有拍摄功能的电子产品。

图1是根据一示例性实施例示出的一种自动对焦方法的流程图，本实施例以自动对焦方法应用于终端中来举例说明。该自动对焦方法可以包括如下几个步骤：

在步骤102中，在对焦过程中，采集所处环境的声音信息；

在步骤104中，根据声音信息分析声音信息的声源位置；

在步骤106中，对声源位置的目标物体进行自动对焦。

综上所述，本实施例提供的自动对焦方法，在被拍摄物体可以发声时，通过声源位置来对发声物体进行对焦；解决了目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，比如双手手持平板设备的状态、以遥控器或声控方式控制电子设备的状态，上述自动对焦方法无法使用，同时，用户点击触摸屏也会带来电子设备的抖动，影响对焦过程的问题；达到了在不方便操作电子设备的状态时也能正常对焦且对焦过程不会因为点击触摸屏带来设备抖动的效果。

图2A是根据另一示例性实施例示出的一种自动对焦方法的方法流程图，本实施例以自动对焦方法应用于终端中来举例说明。该自动对焦方法可以包括如下几个步骤：

在步骤201中，在对焦过程中，采集所处环境的声音信息。

由于本实施例需要获取发声物体的声源位置，因而需要两个或两个以上在平面或空间不同朝向的检测点来获取声音信息，每个检测点可以是一个麦克风。

以终端为手机为例，结合参考图2B，其示出了一个手机20的外观示意图。该手机20的顶端有一个麦克风22，且该手机20的底端有另一个麦克风24。这2个麦克风可以形成两个检测点来获取手机20所处环境的声音信息。可选地，为了实现三维声源定位，该两个或两个以上的检测点可由设置在终端上的麦克风阵列实现，该麦克风阵列可以是三元麦克风阵列、四元麦克风阵列、五元麦克风阵列和六元麦克风阵列等。

在对焦的过程中，当终端接收到开始对焦指令后，两个或两个以上在平面或空间不同朝向的检测点开始采集所处环境的声音信息。

在步骤202中，解析声音信息，得到声音信息的声音特征。

由于终端所处环境的环境声音可能为两个或者两个以上的声音信息混杂而成。其中，一部分是对于对焦过程有效的声音信息，比如被拍物体发出的声音；而另一部分是对于对焦过程无效甚至干扰的声音信息，比如环境噪音。通常，终端只需要根据有效的声音信息进行对焦即可。为此，终端可以通过分析声音信息的声音特征来识别出本次对焦所采用的声音信息。

本实施例中获取的声音特征可以但不限于为倒谱特征，倒谱特征是对声音信息的对数功率谱进行反傅里叶变换后得到的特征，它可以进一步将声道特性和激励特性有效的分开，因此可以更好的揭示声音信息的本质特征。

终端在采集完所处环境的至少一个声音信息后，开始对每个声音信息进行解析，并获得每个声音信息的倒谱特征。

需要说明的是，只需要获取两个或两个以上的检测点中任意一个检测点获取的声音信息的倒谱特征即可。

在步骤203中，检测声音特征与预设声音信息的声音特征是否匹配。

预设声音信息可以是终端自身内置的声音信息，也可以是用户在终端中预先录制的声音信息。

比如，用户A经常使用终端拍摄自己儿子的图像或视频，则用户A可以将自己儿子的声音信息预先录制为预设声音信息。

又比如，用户B经常使用终端拍摄自己老师的讲课内容，则用户B可以将自己老师的声音信息预先录制为预设声音信息，如图2C所示，用户可以在相机设置界面21中点击录制按钮26来录制一段声音为预设声音信息。

在对焦过程中，终端可以检测获取到的声音特征与预设声音信息的声音特征是否匹配。如果声音特征与预设声音信息的声音特征匹配，则进入步骤204。

需要说明的是，如果从所处环境采集的声音信息为n个，预设声音信息为1个，则本步骤需要执行n次；如果从所处环境采集的声音信息为1个，预设声音信息为m个，则本步骤需要执行m次；如果从所处环境采集的声音信息为n个，预设声音信息为m个，则本步骤需要执行n*m次。

在步骤204中，如果声音特征与预设声音信息的声音特征匹配，则分析声音信息的声源位置。

如果获取的一个声音信息的声音识别模型中和预设声音信息的声音识别模型匹配，则终端分析该声音信息的声源位置。

本实施例可以通过两个或两个以上在平面或空间不同朝向的检测点获取同一声音信息的到达时间差，分析出声源位置。

声源位置可以包括声源方向和声源距离。声源方向是指声源相对于终端的方向，声源距离是指声源与终端之间的距离。

本步骤可以包括如下子步骤：

1、通过两个或两个以上在平面或空间不同朝向的检测点获取同一声音信息的时间差；

由于各个检测点的空间位置不同，则同一声音信息到达每个检测点的时间会各不相同，互相之间会存在时间差。

2、根据同一声音信息在不同检测点所对应的到达时间差，每个检测点之间的空间距离以及时延差算法来计算得到该声音信息相对于终端的声源方向和声源距离。

如图2D所示，以声源定位为二维定位为例，由于声源23与麦克风27a之间的距离a不同于声源23与麦克风27b之间的距离b，所以该声源23发出的声音在到达麦克风27a与麦克风27b的时间存在时间差，根据两个麦克风之间的距离c以及时延差算法可以计算出声源23与终端的声源方向α和声源距离d。当然，如果检测点为三个以上，还可以实现对声源定位的三维定位。

在步骤205中，对声源位置的目标物体进行自动对焦。

当确定出声源位置后，终端可以根据声源位置进行自动对焦。

比如，如图2E所示，声源位置处为一个小孩29，终端可以采集到小孩29的声音信息，并且在采集到的声音信息的声音特征与预设声音信息(小孩)的声音特征匹配时，对小孩29进行声源定位，从而获取到小孩29的声源位置。继而，终端可以根据小孩29的声源位置进行自动对焦，以便后续的拍照或者摄像。

图3A示出了本发明另一实施例提供的一种自动对焦方法的方法流程图，本实施例以自动对焦方法应用于终端中来举例说明。该自动对焦方法可以包括如下几个步骤：

在步骤301中，在对焦过程中，采集所处环境的声音信息。

可选地，为了实现三维声源定位，该两个或两个以上的检测点可由设置在终端上的麦克风阵列实现，该麦克风阵列可以是三元麦克风阵列、四元麦克风阵列、五元麦克风阵列和六元麦克风阵列等。

在步骤302中，解析声音信息，得到声音信息的声音特征。

在步骤303中，获取所处环境所对应的场景模式；

终端可以通过如下两种方法获取所处环境所对应的场景模式：

1)接收用户在预设的至少一个场景模式中所选择的场景模式；

也即，终端可以预先提供若干个场景模式，用户可以在预先提供的若干个场景模式中进行选择。然后，终端接收用户在预设的至少一个场景模式中所选择的场景模式。场景模式包括但不限于：儿童场景模式、聚会场景模式、赛车场场景模式、课堂场景模式、会议场景模式等。

例如，用户需要对人进行拍摄，则选择聚会场景模式；用户需要对汽车进行拍摄，则选择赛车场场景模式；用户需要对老师的讲课进行拍摄，则选择课堂场景模式，如图3B所示。

2)终端通过当前地理位置所处环境自动选择场景模式；

例如，终端经过GPS定位，确定当前地理位置处于一个聚会场所，则终端设定场景模式为聚会场景模式；终端经过GPS定位，确定当前地理位置在一座赛车场内，则终端设定场景模式为赛车场场景模式；终端经过GPS定位，确定当前地理位置在一座课堂内，则终端设定场景模式为课堂场景模式。

在步骤304中，从预设的至少一个声音信息中选择与场景模式匹配的声音信息，作为预设声音信息；

若终端预先存储有多个声音信息，此步骤可以确定终端将在步骤301中采集的声音信息与终端中预先存储的至少一个声音信息的哪一个进行匹配。

比如，终端提供了赛车场场景模式以及该赛车场场景模式下的若干个声音信息，每个声音信息与一种引擎声对应。

比如，用户A1经常使用终端拍摄自己儿子的图像或视频，则用户A1可以将自己儿子A2的声音信息预先录制为预设声音信息。

又比如，用户B1经常使用终端拍摄自己老师的讲课内容，则用户B1可以将自己老师B2的声音信息预先录制为预设声音信息。

表1

终端确定出当前场景模式后，从预设的至少一个声音信息中选择与当前场景模式匹配的声音信息作为本次匹配过程所使用的预设声音信息。

比如，当处于儿童场景模式时，终端选择儿子A2的声音信息作为本次匹配过程所使用的预设声音信息。

当处于赛车场场景模式时，终端可以显示如图3C所示出的用户界面32，接收用户在用户界面32选择的声音信息“大众2.0引擎”34，并将该声音信息34作为本次匹配过程所使用的预设声音信息。

当处于课堂场景模式时，终端选择教师B2的声音信息作为本次匹配过程所使用的预设声音信息。

本步骤可以实现对特定目标的对焦。比如，在一群儿童中，仅想对自己的孩子对焦，则预先存储自己孩子的声音信息，拍摄时将采集到的声音信息和预设的自己孩子的声音信息进行匹配。

在步骤305中，检测声音特征与预设声音信息的声音特征是否匹配；

终端检测声音特征与预设声音信息的声音特征是否匹配。

终端可以建立声音信息的声音识别模型，即根据声音信息的倒谱特征进行声音建模。

本实施例可以通过DTW(Dynamic Time Warping，动态时间归整)算法来检测声音特征与预设声音信息的声音特征是否匹配；即通过DTW算法来检测获取的声音信息的声音识别模型与预设声音信息的声音识别模型是否匹配。DTW算法全称为动态时间归整算法，是把时间归整和间距测量计算结合起来的一种非线性归整算法。

终端在建立了获取的声音信息与预设的声音信息的声音识别模型后，可以通过DTW算法来检测两个声音识别模型是否匹配。

需要说明的是，步骤303、步骤304和步骤305为可选步骤。

在步骤306中，如果声音特征与预设声音信息的声音特征匹配，则分析声音信息的声源位置；

如果获取的声音信息的声音识别模型中和预设声音信息的声音识别模型匹配，则分析声音信息的声源位置。

本实施例可以通过两个或两个以上在平面或空间不同朝向的检测点获取同一声音信息的时间差，来判断出声源位置。

声源位置可以包括声源方向和声源距离。声源方向是指声源相对于终端的位置，声源距离是指声源与终端之间的距离。

本步骤可以包括如下子步骤：

步骤307，对声源位置进行初步对焦，获取图像信息；

终端通过声源位置对发声物体进行初步的对焦，终端可以通过出声源位置得出目标物体和终端之间的距离，并通过这一距离调整镜头来进行对焦。

由于声源位置可能并不在当前镜头范围内，所以本步骤可以包括如下子步骤：

1、在声源位置不在当前镜头范围内时，根据声源位置调整镜头的朝向和姿态；

由于声源位置可能位于终端的侧面或者后面，此时，终端可以通过内部的机械结构调整镜头的朝向和姿态。

如图3D所示，终端包括一电控的旋转支架36。在获取到发声物体A的声源位置后，检测该发声物体A的声源位置是否为当前取景范围，如果该发声物体A不在当前取景范围，则终端计算出当前拍摄光轴与发声物体A所处位置的夹角x，并将此信息发送给旋转支架36，旋转支架36经过旋转使当前拍摄光轴与发声物体A重合，然后进行初步对焦。

2、通过调整后的镜头对声源位置进行初步对焦，并获取图像信息。

终端获取初步对焦的图像信息，此图像信息可以为镜头初步对焦时直接获取的整个图像信息，也可以是对焦区域的部分图像信息。

步骤308，在图像信息中识别声源位置处的目标物体；

终端通过图像识别技术识别出图像信息中的主体，将此主体作为目标物体。

步骤309，检测目标物体是否为声音信息的发声物体；

由于检测到的目标物体也可能是并非是声源真正的发声物体，所以终端还需要检测图像信息中目标物体是否为声音信息的发声物体。

作为一种实现方式，本步骤包括如下子步骤：

1、查询预先设置的与预设声音信息关联的图像信息；

比如，步骤305中，匹配的预设声音信息是老师，则与该预设声音信息关联的图像信息是该老师的照片；匹配的预设声音信息是小孩，则与该预设声音信息关联的图像信息是该小孩的照片；匹配的预设声音信息是汽车引擎声，则与该预设声音信息关联的图像信息是与该汽车引擎声对应汽车的照片。

2、检测与声音信息匹配的预设声音信息所关联的预设图像信息和目标物体的图像信息是否匹配；

3、如果匹配，则确定目标物体是声音信息的发声物体。

本实施例可以使用一种最常用的图像匹配方法：频域匹配算法，此方法把域中的数据通过时频变换，变换为频域的数据，然后通过一定的相似性度来确定两幅图之间的匹配参数。本实施例采用的时空变换可以是Fourier(傅里叶)变换，本实施例采用的相似性度量可以是相位相关度量。

终端可以将获取的图像信息经过Fourier变换，转换为频域的数据，再以相位相关度量检测预设图像信息与目标物体的图像信息的匹配程度，这里可以设定一个阈值，如果检测结果小于这个阈值，则认为预设图像信息与目标物体的图像信息匹配，确定该目标物体为发声物体，如果检测结果大于这个阈值，则认为预设图像信息与目标物体的图像信息不匹配。

步骤310，如果目标物体是声音信息的发声物体，则对目标物体进行自动对焦；

如果预设图像信息与目标物体的图像信息匹配，则对目标物体进一步对焦，如果不匹配，则不进行操作，并提示用户。

步骤311，持续采集目标物体的声音信息；

由于目标物体可能会发生移动，所以如果步骤310确定的目标物体是声音信息的发声物体，则终端持续采集发声物体的声音信息。

步骤312，根据持续采集的声音信息对目标物体进行跟踪对焦。

如果持续采集的声音信息经过步骤302至305检测出与预设声音信息匹配，则持续对目标物体进行跟踪对焦。

综上所述，当被拍摄物体可以发声时，本实施例通过声源位置来对发声物体进行对焦；解决了目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，比如双手手持平板设备的状态、以遥控器或声控方式控制电子设备的状态，上述自动对焦方法无法使用，同时，用户点击触摸屏也会带来电子设备的抖动，影响对焦过程的问题；达到了在不方便操作电子设备的状态时也能正常对焦且对焦过程不会因为点击触摸屏带来设备抖动的效果。

本实施例通过对声源位置进行预对焦，并分析预对焦获得的图像信息是否与获取的声音信息的声音特征匹配，增加了本实施例在对发声物体对焦时的准确性。

需要补充说明的是，通过将获取到的声音信息与预设声音信息匹配，并只在匹配的情况下，根据该声音信息进行对焦。可以使本方法实施例的实用性更强，使终端可以再较为嘈杂的环境中准确的对想要拍摄的物体进行对焦，例如在嘈杂的公园中自拍时，用户可以通过发声使终端只对自己进行对焦。

需要补充说明的是，步骤307对声源位置进行初步对焦时可以转动镜头方向，使声源位置在镜头的取景范围之内，转动的角度可以通过声源位置信息来确定，同样的，步骤312对目标物体进行跟踪对焦时，也可以通过转动镜头方向，使目标物体在镜头的取景范围之内，以达到更好的跟踪对焦的效果；此特点可以使本方法实施例灵活应用于监控摄像方面，例如终端作为监控摄像机时，通过此特点可以灵活准确的监控很大一片区域，具有一定的智能监控效果，只要采集到监控区域的声音，监控摄像机就会转动至发声方向，并进行对焦取景，起到了监控的作用；此特点也可使本方法实施例应用与对运动物体的跟踪拍摄方面，例如在赛车场，可以在赛道周边安置多部应用了本方法实施例的摄像机，将场景模式设定为赛车场场景，则摄像机可以自动的对经过的赛车进行跟踪对焦，并拍摄，大大节省了人力的需求。

需要补充说明的是，步骤312对目标物体进行跟踪对焦时，为提高跟踪对焦的准确性，随时可以通过步骤307至310对跟踪对焦的发声物体进行识别，确定当前跟踪对焦的目标物体是否正确，如果不正确，则从步骤301重新开始自动对焦过程；这一特点大大提高了本方法实施例跟踪对焦的可靠性；例如在演唱会上，可以在舞台周围安置数个应用了本方法实施例的摄像机，在演唱者进行表演时，这些摄像机可以较为精准的对演唱者进行跟踪对焦或拍摄，因为演唱会现场人员众多，较为混乱，一般的跟踪对焦很可能会出现错误，而本特点可以大大提高跟踪对焦的可靠性，确保跟踪对焦的目标一直为演唱者。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种自动对焦装置的框图。该自动对焦装置可以通过软件、硬件或者两者的结合成为终端的全部或部分。该自动对焦装置，包括：

声音获取模块410，被配置为在对焦过程中，采集所处环境的声音信息；

声源位置模块420，被配置为根据声音信息分析声音信息的声源位置；

图像获取模块430，被配置为对声源位置的目标物体进行自动对焦。

综上所述，当被拍摄物体可以发声时，本实施例通过声源位置来对发声物体进行对焦；解决了目前的触控式自动对焦方法由于需要用户通过触摸屏来控制对焦，而导致当用户处于不方便操作电子设备的状态时，比如双手手持平板设备的状态、以遥控器或声控方式控制电子设备的状态，上述自动对焦方法无法使用，同时，用户点击触摸屏也会带来电子设备的抖动，影响对焦过程的问题；达到了在不方便操作电子设备的状态时也能正常对焦的效果。

图5是根据一示例性实施例示出的一种自动对焦装置的框图。该自动对焦装置可以通过软件、硬件或者两者的结合成为终端的全部或部分。该自动对焦装置，包括：

可选的，声源位置模块420，还包括：

声音解析单元421、特征检测单元422和声源位置单元423；

声音解析单元421，被配置为解析声音信息，得到声音信息的声音特征；

特征检测单元422，被配置为检测声音特征与预设声音信息是否匹配；

声源位置单元423，被配置为在声音特征与预设声音信息的声音特征匹配时，分析声音信息的声源位置。

可选的，该装置，还包括：

场景匹配模块440，被配置为获取所处环境所对应的场景模式，并从预设的至少一个声音信息中选择与场景模式匹配的声音信息，作为预设声音信息。

可选的，图像获取模块430，还包括：初步对焦单元431、图像识别单元432、图像检测单元433和自动对焦单元434；

初步对焦单元431，被配置为对声源位置进行初步对焦后，获取图像信息；

图像识别单元432，被配置为在图像信息中识别声源位置处的目标物体；

图像检测单元433，被配置为检测目标物体是否为声音信息的发声物体；

自动对焦单元434，被配置为在所述目标物体是声音信息的发声物体时，则对目标物体进行自动对焦。

可选的，所述初步对焦单元431，包括：

镜头调整子单元431a，被配置为在所述声源位置不在当前镜头范围内时，根据所述声源位置调整所述镜头的朝向和姿态；

初步对焦子单元431b，被配置为通过调整后的所述镜头对所述声源位置进行初步对焦，并获取图像信息。

可选的，该装置，还包括：跟踪对焦模块450；

跟踪对焦模块450，被配置为持续采集目标物体的声音信息，并根据持续采集的声音信息对目标物体进行跟踪对焦。

图6是根据一示例性实施例示出的一种自动对焦装置600的框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到装置600的打开/关闭状态，组件的相对定位，例如所述组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例提供的自动对焦方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置600的处理器执行时，使得装置600能够执行上述实施例提供的自动对焦方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种自动对焦方法，其特征在于，所述方法包括:

在对焦过程中，采集所处环境的声音信息；

根据所述声音信息分析所述声音信息的声源位置；

对所述声源位置的目标物体进行自动对焦。

2.根据权利要求1所述的方法，其特征在于，所述根据所述声音信息分析所述声音信息的声源位置，包括：

检测所述声音特征与预设声音信息的声音特征是否匹配；

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

获取所处环境所对应的场景模式；

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述声源位置的目标物体进行自动对焦，包括：

对所述声源位置进行初步对焦，获取图像信息；

在所述图像信息中识别所述声源位置处的目标物体；

检测所述目标物体是否为所述声音信息的发声物体；

5.根据权利要求4所述的方法，其特征在于，所述对所述声源位置进行初步对焦，获取图像信息，包括：

6.根据权利要求1至3任一所述的方法，其特征在于，所述方法，还包括：

持续采集所述目标物体的声音信息；

7.一种自动对焦装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述声源位置模块，还包括：

声音解析单元、特征检测单元和声源位置单元；

9.根据权利要求8所述的装置，其特征在于，所述装置，还包括：

10.根据权利要求7至9任一所述的装置，其特征在于，所述图像获取模块，包括：初步对焦单元、图像识别单元、图像检测单元和自动对焦单元；

所述初步对焦单元，被配置为对所述声源位置进行初步对焦，获取图像信息；

11.根据权利要求10所述的装置，其特征在于，所述初步对焦单元，包括：

12.根据权利要求7至9任一所述的装置，其特征在于，所述装置，还包括：跟踪对焦模块；

13.一种自动对焦装置，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

在对焦过程中，采集所处环境的声音信息；

根据所述声音信息分析所述声音信息的声源位置；

对所述声源位置的目标物体进行自动对焦。