CN111105450A

CN111105450A - 用于视差估计的电子装置和方法

Info

Publication number: CN111105450A
Application number: CN201911036156.4A
Authority: CN
Inventors: 穆斯塔法·艾尔可哈米; 任昊宇; 杜宪志; 李正元
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2020-05-05
Anticipated expiration: 2039-10-29
Also published as: TW202016505A; KR102644273B1; US11055866B2; KR20200049502A; TWI834744B; CN111105450B; US20200134848A1

Abstract

在此公开用于视差估计的电子装置和方法。电子装置包括：第一相机，具有第一视场(FOV)；第二相机，具有比第一FOV窄的第二FOV；以及处理器，被配置为：使用第一相机捕获第一图像，第一图像具有联合FOV；使用第二相机捕获第二图像；确定第一图像与第二图像之间的重叠FOV；基于重叠FOV生成视差估计；生成联合FOV视差估计；并且将联合FOV视差估计与重叠FOV视差估计合并。

Description

用于视差估计的电子装置和方法

本申请是基于并要求于2018年10月29日在美国专利商标局提交并分配序号62/751,960的美国临时专利申请的优先权，和于2019年3月26日在美国专利商标局提交并分配序号16/365,167的美国专利申请的优先权，所述美国专利申请的全部内容通过引用包含于此。

技术领域

本公开总体涉及一种图像处理系统。特别地，本公开涉及使用具有不同视场的相机进行视差估计的方法和系统。

背景技术

最近对捕获的场景中的元素的真实世界深度的估计感兴趣。深度估计具有很多应用，诸如，将前景(近)对象从背景(远)对象分离的能力。准确的深度估计允许从场景中的背景分离感兴趣的前景对象。准确的前景-背景分离允许对捕获的图像进行处理以对效果(诸如，散景(Bokeh)效果)进行仿真。散景是背景的软失焦模糊，其通常通过在具有快速镜头和宽光圈的昂贵相机中使用正确的设置并且使相机更接近主体并且主体更远离背景进行掌握以仿真浅景深。

准确的深度估计允许对来自非专业摄影师或具有较小镜头的相机(诸如，移动电话相机)的图像进行处理，以获得具有聚焦于主体的散景效果的更美感愉快的图像。准确的深度估计的其它应用包括3D对象重建和虚拟现实(VR)应用(在VR应用中，根据期望的VR，期望改变背景或主体并且渲染它们)。从捕获的场景进行准确的深度估计的其它应用包括：汽车自动化、监视相机、自动驾驶应用，以及通过改进对象检测准确度和仅使用相机或从相机输入以及从多个传感器估计深度估计距相机的距离来增强安全性。

发明内容

根据一个实施例，提供一种电子装置。所述电子装置包括：第一相机，具有第一视场(FOV)；第二相机，具有比第一FOV窄的第二FOV；以及处理器，被配置为：使用第一相机捕获第一图像，第一图像具有联合FOV；使用第二相机捕获第二图像；确定第一图像与第二图像之间的重叠FOV；基于重叠FOV生成视差估计；生成联合FOV视差估计；以及将联合FOV视差估计与重叠FOV视差估计合并。

根据一个实施例，提供一种方法。所述方法包括：使用具有第一视场(FOV)的第一相机捕获第一图像，第一图像具有联合FOV；使用具有比第一FOV窄的第二FOV的第二相机捕获第二图像；确定第一图像与第二图像之间的重叠FOV；基于重叠FOV生成视差估计；生成联合FOV视差估计；以及将联合FOV视差估计与重叠FOV视差估计合并。

附图说明

从下面结合附图的具体实施方式，本公开的某些实施例的以上和其它方面、特征和优点将更加明显，其中：

图1是根据一个实施例的散景效果的示图；

图2是根据一个实施例的立体匹配系统的示图；

图3是根据一个实施例的使用具有相似FOV的两个图像针对图像应用散景效果的流程图；

图4是根据一个实施例的代表联合FOV和重叠FOV的图像的示图；

图5是根据一个实施例的用于生成联合FOV的视差的流程图；

图6是根据一个实施例的红-绿-蓝(RGB)-单图像视差估计(RGB-SIDE)网络的示图；

图7是根据一个实施例的远-宽立体匹配网络的示图；

图8是根据一个实施例的多任务远-宽立体匹配网络的示图；

图9是根据一个实施例的视差增强系统的示图；

图10、图11、图12和图13是根据一个实施例的用于生成将被合并和后处理的视差估计的系统的示图；

图14是根据一个实施例的视差合并和选择的示图；

图15是根据一个实施例的视差合并和选择的示图；

图16是根据一个实施例的当存在四个相机时的联合FOV和重叠FOV的示图；以及

图17是根据一个实施例的网络环境中的电子装置的框图。

具体实施方式

在下文中，参照附图详细描述本公开的实施例。应注意，尽管相同的元件在不同的附图中示出，但是相同的元件将由相同的参考标号表示。在下面的描述中，诸如详细配置和组件的具体细节仅被提供以帮助对本公开的实施例的总体理解。因此，本领域技术人员应清楚，在不脱离本公开的范围的情况下，可对在此描述的实施例进行各种改变和修改。此外，为了清楚和简洁，省略了对公知的功能和构造的描述。以下描述的术语是考虑到本公开中的功能而定义的术语，并且可根据用户、用户的意图或习惯而不同。因此，术语的定义应基于贯穿本说明书的内容来确定。

本公开可具有各种修改和各种实施例，以下参照附图详细描述其中的实施例。然而，应理解，本公开不限于实施例，而是包括在本公开的范围内的所有修改、等同物和替换。

尽管包括序数(诸如，第一、第二等)的术语可用于描述各种元件，但是结构元件不受该术语的限制。该术语仅用于将一个元件与另一个元件区分开。例如，在不脱离本公开的范围的情况下，第一结构元件可被称为第二结构元件。类似地，第二结构元件也可被称为第一结构元件。如在此使用的，术语“和/或”包括一个或多个相关项的任何组合和所有组合。

在此使用的术语仅用于描述本公开的各种实施例，而不意图限制本公开。除非上下文另有清楚指示，否则单数形式也意图包括复数形式。在本公开中，应理解，术语“包括”或“具有”指示存在特征、数量、步骤、操作、结构元件、部件或它们的组合，并且不排除存在或可能添加一个或多个其它特征、数量、步骤、操作、结构元件、部件或它们的组合。

除非不同地定义，否则在此使用的所有术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义，否则术语(诸如在通用字典中定义的那些术语)将被解释为具有与在相关技术领域的上下文的含义相同的含义，并且不被解释为具有理想化或过于形式化的含义。

根据一个实施例的电子装置可以是各种类型的电子装置中的一个。例如，电子装置可包括便携式通信装置(例如，智能电话)、计算机、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据公开的一个实施例，电子装置不限于以上描述的那些电子装置。

本公开中使用的术语不意图限制本公开，而是意图包括对应实施例的各种变化、等同物或替换。关于附图的描述，类似的参考标号可用于表示类似的或相关的元件。除非相关上下文清楚地另外指示，否则与项目对应的名词的单数形式可包括一个或多个事物。如在此使用的，诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每个可包括与短语中的相应一个一起列举的项目的所有可能的组合。如在此使用的，诸如“第1”、“第2”、“第一”以及“第二”的术语可用于将相应组件与另一组件区分开，而不意图在其它方面(例如，重要性或顺序)限制组件。意图是，如果一个元件(例如，第一元件)在具有或没有术语“可操作地”或“交流地”的情况下被称为“与另一元件(例如，第二元件)结合”、“结合到另一元件”“与另一元件连接”或“连接到另一元件”，则指示所述元件可直接(例如，有线地)、无线地或经由第三元件与另一元件结合。

如在此使用的，术语“模块”可包括以硬件、软件或固件实现的单元，并且可与其它术语(例如，“逻辑”、“逻辑块”、“部件”或“电路”)互换使用。模块可以是适于执行一个或多个功能的单个集成组件或者是它的最小单元或部件。例如，根据一个实施例，可以以专用集成电路(ASIC)的形式来实现模块。

本系统和方法提供了由具有不同视场(FOV)的两个相机捕获的场景中的元素的真实世界深度的估计。通过计算两个图像中的像素之间的视差(例如，水平位移)，可获得来自两个立体校正图像的深度的准确估计。

本系统和方法提供了两个图像的FOV的联合(union)中的所有元素的深度的估计。可提供两个相机，一个具有通常与低光学变焦或无光学变焦相关联的宽FOV，并且另一个具有通常与较大光学变焦相关联的较窄FOV。最近的移动装置配备了两个或更多个的相机。为了利用额外的相机，它们的镜头通常被选择为具有不同的光学变焦，以便所述装置在近对象和远对象两者都具有良好的分辨率。特别地，由于镜头和移动装置的物理约束，或者由于诸如自驱动应用的标定和安全目的，镜头的变焦水平可不被用户改变。

本系统和方法可扩展到多个(例如，多于两个)相机，以确定来自多个立体相机的视差。

例如，装置中的一个镜头被设置为1x变焦(例如，无放大率)并且具有广角FOV(例如，宽FOV)，而装置中的另一个镜头具有2x变焦(例如，具有2倍放大率)并且具有较窄的远摄FOV(例如，远FOV)。这两个FOV的联合是宽FOV。如在此公开的，尽管对应的像素将仅针对FOV的作为远FOV的交集(intersection)存在，但是执行针对FOV的联合的深度的估计，或者在所述情况下针对整个宽FOV的深度估计。

本公开的示例提供了可执行来自2个或更多个相机的FOV的联合(而非仅FOV的重叠交集)的深度估计的深度神经网络的统一架构、用于在多个任务上同时训练统一架构的方法，以及用于融合来自单图像视差估计和立体深度估计算法/处理的结果的方法。优点包括：针对跨越所有相机的全部FOV而不是仅从FOV的重叠交集进行深度估计，以及通过在整个宽FOV上而不是在交集FOV上应用散景来生成跨越整个宽FOV的美学上更好的图像，在具有固定的预设变焦(如宽1x变焦和远摄2x固定变焦)的双相机的情况下，所述交集FOV是较窄的远摄FOV。

图1是根据一个实施例的散景效果的示图。散景是通过使远主体失去焦点，同时使较近主体更清晰或聚焦来模糊图像中的背景主体的处理。图像100描绘了远FOV上的散景效果，而图像102描绘了宽FOV上的散景效果。重叠的FOV104对应于图像100的整个FOV。这个效果可通过使用具有大光圈(低f-stop数)和长焦距的昂贵镜头的更昂贵的相机来获得，以获得浅景深。由于图像传感器和镜头的尺寸和成本限制，在较便宜的小型相机或移动装置上的相机中很难找到这些镜头。

图2是根据一个实施例的立体匹配系统200的示图。没有准确深度估计的系统可依赖于从具有相同FOV的两个相机201和202捕获的两个校正图像之间的立体匹配，以确定两个对应像素之间的视差d(作为点P相对于相机201的水平距离x1和点P相对于相机202的水平距离x2之间的差的水平偏移)。针对每个像素，然后可通过相机基线b和焦距f的知识将视差转换为主体P的深度z的测量。

最近的电子装置配备了两个或更多个相机。两个相机的规格可分别为(f/1.7，26毫米，1x光学变焦)和(f/2.4，52毫米，2x光学变焦)。然而，第一相机具有较宽光圈，第二相机具有较长焦距和两倍的光学变焦。然而，第二相机的FOV在2x变焦(例如，远FOV)处仅仅是图像的中心部分。第一相机的FOV在1x变焦处是整个宽FOV。具有不同FOV的多个相机的一个原因是为了多样性，其中，较大光圈相机被用于在低光设置和较快快门下获得更好的图像，其中，2x变焦相机提供针对2x FOV的两倍光学变焦和较高分辨率图像。

立体视差匹配的一个应用是通过模糊背景在图像中产生散景效果，同时保持感兴趣的对象聚焦。然而，在这个情况下，立体匹配仅可针对在两个相机之间重叠的中心FOV进行。因此，如果用户选择将散景效果应用于捕获的图像，则仅可针对中心远FOV进行，产生图1的图像100。

图3是根据一个实施例的用于在图像上应用散景效果的流程图300。在302，确定两个图像之间的重叠FOV。例如，参照图1，重叠FOV 104对应于图像100的整个FOV。

在304，生成具有相同FOV和分辨率的两个图像。可通过用从具有较大FOV的图像102裁剪重叠FOV 104，并且在较高分辨率图像100中缩小重叠FOV来生成图像。

在306，确定两个图像之间的视差信息。视差信息可通过对在304生成的两个图像应用立体匹配算法/处理进行确定。针对重叠FOV 104，视差信息可对应于图像100与其在图像102中的对应像素之间的水平偏移。

在308，生成任一图像的深度信息。深度信息可通过适当的反演(inversion)和缩放来对来自306的视差信息进行变换而生成。

在310，应用散景算法/处理。散景算法/处理可模糊远对象并且聚焦于近对象，产生类似于图像100的结果，其中散景效果仅可应用于图像100的远FOV。

如在此所述，重叠FOV可指存在于使用的所有相机中的FOV，即使FOV处于不同的缩放。联合FOV可指在将缩放调整到参考图像的缩放之后通过将一个参考相机的FOV与另一个相机的FOV增加而产生的FOV。

图4是根据一个实施例的代表联合FOV和重叠FOV的图像的示图。图像400代表联合FOV，而图像402代表重叠FOV。图像400包括与图像402的重叠部分404。图像402被下采样二分之一以匹配重叠FOV的图像400的分辨率。感兴趣的对象通常不以图像402的远FOV为中心，并且不完全被图像402的远FOV捕获。因此，如在此公开的，可使用图像402的重叠FOV从图像400的联合FOV生成视差估计。

图5是根据一个实施例的用于生成联合FOV的视差的流程图500。在502，生成联合FOV的深度估计，并且生成联合FOV的视差估计。深度估计可通过使用利用单图像视差估计(SIDE)的场景理解进行生成。

图6是根据一个实施例的RGB-SIDE网络的示图。RGB-SIDE网络使用全卷积神经网络进行实现。针对全宽(full wide)FOV(例如，联合FOV 400)执行视差估计，其中，在FOV的某些部分中仅来自一个相机的信息可用。在600处输入联合FOV图像，并且在602处输出视差估计(即，单图像视差)。RGB-SIDE网络通过使用当前相机设置(例如，相机基线、相机焦距等)来估计逆深度(inverse depth)，并且在网络内隐含地将逆深度缩放为视差。在此过程中，基于回归的损耗函数可用作视差误差的测量，其中，针对每个像素，估计的视差与真实视差之间的距离给出用于随机梯度下降优化的误差代价函数。

由于RGB-SIDE网络需要理解场景以学习不同对象的相对于相机镜头的相对位置，因此立即处理全宽图像400。这个方案的优点是输出提供仅使用一个图像和一个块的针对全宽FOV的视差的估计。这个方案的缺点是缺乏准确度，其中，估计的视差或者估计深度非常粗糙，具有模糊边缘，并且容易产生大的误差。其原因是依赖于场景理解和对象之间的相对位置以及对象的尺寸来估计FOV中对象的深度。

在504，生成重叠FOV的视差估计。可通过使用立体匹配视差估计(SMDE)在两个图像(诸如，在图3的304生成的两个图像)之间生成视差估计。SMDE网络从两个输入图像估计视差。SMDE网络可使用神经网络估计视差。可利用多种类型的SMDE网络，诸如可应用于重叠FOV的远-宽SMDE网络(TW-SMNet)(TW-SMNet(T))或者可应用于联合FOV的远-宽SMDE网络(TW-SMNet)(TW-SMNet(W))，以及在TW-SMNet(W)上添加附加SIDE网络的多任务TW-SMNet(MT-TW-SMNet)。

图7是根据一个实施例的TW-SMNet的示图。在网络中，图像400和图像402两者分别在700和702被输入到网络中。TW-SMNet使用立体匹配来估计来自两个输入图像的视差。通过经典技术进行立体匹配包括沿相同水平线的校正图像中的匹配特征。深度神经网络还可通过生成在不同视差偏移的图像的特征图的偏移版本以构建称为代价量(cost volume)的量(volume)来执行立体匹配。立体匹配深度神经网络依赖于计算代价量，诸如，深度特征之间的距离，或者偏移的深度特征之间的相关性。

针对TW-SMNet(T)，使用立体匹配针对重叠区域仅提供视差估计。重叠部分404是图像400和图像402中的重叠FOV。这通过仅考虑宽FOV图像400中的重叠部分404并且将它与远FOV图像402立体匹配来进行。算法或神经网络被设计成仅使用重叠区域回归到真正的视差。这个方案将给出针对远区域中的视差估计的最好的准确度。

针对TW-SMNet(W)，算法/处理使用图像400的全宽FOV来估计针对联合FOV的视差。缩放图像402以匹配图像400中的重叠部分404的分辨率。然而，在这样的情况下表示重叠部分404外部的周围区域的缺失区域被零填充以达到全宽FOV的尺寸。来自这个块的输出是针对全宽FOV的视差图(disparity map)的估计。也就是说，可从立体匹配视差估计(SMDE)网络在零填充重叠FOV与联合FOV之间生成联合FOV视差估计。这个方案将给出针对远区域中的视差估计的不错的准确度，以及周围区域中的相当粗略的估计。

图8是根据一个实施例的MT-TW-SMNet的示图。在图8中，在800输入宽FOV图像400，并且在800输入远FOV图像402。附加SIDE网络被应用于在800输入的FOV图像400。

通过立体匹配针对视差估计对所述网络进行训练。在代价量804之前，将仅对图像400的基于SIDE的估计的附加头添加到网络。两个头一起训练，因此SIDE支路有助于共享层具有更好的场景理解能力。将网络立体匹配损耗相对于SIDE损耗进行正则化。因此，损失函数是考虑来自SIDE支路的视差估计的准确度和来自SMDE支路的视差估计的准确度的组合损失函数806，并且系统在808输出视差。也就是说，可从多任务立体匹配视差(MT-SMDE)和单图像视差估计网络在零填充重叠FOV与联合FOV之间生成联合FOV视差估计。这提高了周围区域(非重叠FOV)中的性能，在周围区域，由于这个区域中的立体图像中缺少对应的对象而不能进行立体匹配。然而，仅一个视差图从这个网络输出，其是来自SMDE支路的视差图和SMDE支路的视差图这两者的函数。这个网络可仅选择立体匹配视差图作为最终输出，这是由于它通常具有更好的准确度。

在506，增强联合FOV视差估计。图9是根据一个实施例的视差增强系统的示图。在图9中，在TW-SMNet 904的900输入宽FOV图像400，并且在生成并且输出视差的TW-SMNet904的902输入远FOV图像402。宽FOV图像400也在908被输入到SIDE RGB-视差(SIDE-RGBD)估计网络910，并且由TW-SMNet 904输出的视差被输入到SIDE-RGBD网络910的906。

在508，合并估计的视差。例如，合并在502或506获得的联合FOV视差估计和在504获得的重叠FOV视差估计。图10至图13是根据一个实施例的用于生成将被合并和后处理的视差估计的系统的示图。

图10描绘了RGB SIDE+TW-SMNet(T)系统1000。宽FOV图像1002被输入到RGB SIDE网络1006和TW-SMNet(T)1008，而远FOV图像1004被输入到TW-SMNet(T)1008。在1010合并产生的视差估计，并且在1012处理视差图。

图11描绘了RGBD SIDE+TW-SMNet系统1100。宽FOV图像1102被输入到RGBD SIDE网络1106和TW-SMNet 1108，而远FOV图像1104被输入到TW-SMNet 1108。在1110合并产生的视差估计，并且在1112处理视差图。

图12描绘了RGB SIDE+RGBD SIDE+TW-SMNet系统1200。宽FOV图像1202被输入到RGBD SIDE网络1206、RGB SIDE网络1208以及TW-SMNet 1210，而远FOV图像1204被输入到TW-SMNet 1210。来自RGB SIDE网络1208的视差估计被输入到RGBD SIDE网络1206。在1212合并来自RGBD SIDE网络1206和TW-SMNet 1210的产生的视差估计，并且在1214处理视差图。

图13描绘了RGB SIDE+RGBD SIDE+MT-TW-SMNet系统1300。宽FOV图像1302被输入到RGBD SIDE网络1306、RGB SIDE网络1308以及MT-TW-SMNet 1310，而远FOV图像1304被输入到MT-TW-SMNet 1310。来自RGB SIDE网络1308的视差估计被输入到RGBD SIDE网络1306。在1312合并来自RGBD SIDE网络1306和TW-SMNet 1310的产生的视差估计，并且在1314处理视差图。

视差合并可通过估计两个视差图d₁，d₂的重叠FOV(OL_FOV)之间的偏差(bias)b基于偏差调整而执行，如等式(1)：

其中，n是重叠FOV中的像素的数量，d₁(i，j)表示在视差图d₁中的坐标(i，j)处的视差，d₂(i，j)表示在视差图d₂中的坐标(i，j)处的视差。d₂的周围视差(surroundingdisparity)可基于b进行调整，然后可应用使用d₁的加权和或者视差选择。

视差合并可基于缩放调整而执行，其中，在两个视差图d₁，d₂的重叠FOV之间估计缩放差s，其中，n是重叠FOV中的像素的数量，如等式(2)：

d₂的周围视差可以基于s进行调整，然后可应用使用d₁的加权和或者视差选择。

在510，选择视差图。视差合并也可通过来自神经网络的学习的非线性函数实现，所述神经网络可通过堆叠沙漏网络进行实现。图14是根据一个实施例的视差合并和选择的示图。在图14中，SIDE视差1402和SMDE视差1404由视差合并网络进行合并。所述网络通过回归到地面真值视差进行训练。训练网络的一种方法是将视差量化为多个级别，并且学习针对每个级别输出软概率的分类器。回归输出1406是视差的期望值，其中，使用估计的概率计算期望。此外，输出的合并视差1406是由SIDE 1402和SMDE 1404获得的输入视差的非线性函数。

通过使用SMDE，重叠FOV的视差可能是最准确的。因此，选择器1408可进行挑选以选择合并视差1406用于周围区域，或者选择来自SMDE 1404的视差用于重叠的远FOV。

图15是根据一个实施例的视差合并和选择的示图。在图15中，可使用立体匹配(SM)(例如，通过使用TW-SMNet(T))只针对重叠区域进行更准确的视差估计。然而，对零填充的宽FOV进行的SM可使用用于全宽FOV的TW-SMNet(W)产生重叠区域和周围区域两者的视差估计，用于全宽FOV的TW-SMNet(W)可使用融合网络合并以产生周围区域的更准确的视差估计。然而，如果复杂度允许，则能通过利用视差块的第三输入来利用用于重叠远FOV的最佳算法/处理，所述视差块代表来自对重叠远区域进行的准确SM的视差估计。例如，SIDE视差1502和TW-SMNet(W)视差1504被合并到合并视差1508中，并且在TW-SMNet(T)视差1506与合并视差1508之间执行选择1510。

宽FOV和远FOV RGB图像特征也可被输入到视差合并块。从RGB图像提取的其它特征(诸如，边缘图或语义分割图)可进一步与不同的视差图连在一起作为输入特征。

在512，视差图被后处理以增强质量(例如，经由图10至图13的后处理块)。后处理块旨在提供视觉上令人愉快的视差图。即使在像在神经网络中那样使用非线性操作进行合并之后，也可观察到重叠FOV与非重叠FOV之间的边界周围的不连续性。后处理旨在平滑这种效应，所以边界效应不明显。它还用于调整期望应用的输出视差。

为了减少重叠区域边界周围的视差突然变化的效果而进行的后处理的一个示例是对视差进行平滑。然而，边缘通常代表一个对象，并且目标是用平滑的深度估计填充对象。一种方案是使用边缘保持平滑。边缘保持平滑可通过将滤波后的输出计算为可迭代地实现的加权平均值来实现。可利用诸如双边滤波器的局部滤波器。双边滤波器和其它局部滤波器的一个限制是它们可能无法解决在视差图中是保留还是平滑特定边缘的不明确性。可利用被称为边缘引导滤波的使用RGB图像作为平滑的引导，以保持RGB图像中的边缘。还可利用被称为快速全局平滑器(FGS)的对由数据约束和平滑先验定义的全局对象函数进行优化。因此，边界周围的FGS滤波值取决于整个视差图。在一个示例中，通过部署FGS，使用全局滤波器计算边界周围的滤波值。然后，只有合并视差中的边界周围的条带被滤波后的条带替换，其余条带部署原始合并值。

如上所述，本系统和方法仅利用两个相机。然而，这可容易地扩展到两个以上的相机。图16是根据一个实施例的当存在四个相机时的联合FOV和重叠FOV的示图。图16示出了边缘相机配置(verged camera configuration)1602，其中，暗区域1604示出了作为可从所有相机观看到的共有3D空间的重叠FOV，并且虚线区域1606示出了联合FOV。

一种简单的方法是，将每个参考图像进行校正并且分别与(相机的数量–1)个校正图像立体匹配。通过使用深度学习方法，能用于获得跨相机重叠的FOV 1604的非常准确的深度估计。因为相机相对于彼此的位置是固定的，所以任何一对校正图像之间的视差应转换成剩余对之间的特定值，这可用于获得重叠FOV 1604的更准确的结果。联合FOV 1606的部分将在两个相机之间重叠，但不是在所有相机之间重叠。这些相机对之间的SM可被用来获得在这个区域的视差的好的估计。联合FOV 1606中的仅由一个相机看到的区域将利用单图像视差估计。可选地，联合FOV 1606可利用所有输入图像，以及联合FOV 1606中的至少在相机之间重叠的部分的视差估计。以上描述的用于视差图与后处理平滑之间的融合的其它方法也适用于这个示例。

关于图16的可选示例是其中利用三个相机的系统。第一相机可具有远FOV，第二相机可具有宽FOV，第三相机可具有超宽FOV。如以上针对图5所述，针对来自远FOV的图像和来自宽FOV的图像，可将联合FOV视差估计与重叠FOV视差估计合并。可递归地重复这个方法以使用先前估计的宽FOV的深度，通过在超宽FOV与宽FOV之间的SM生成超宽FOV的深度估计。在这些示例中，超宽FOV可用作联合FOV，并且宽FOV可用作重叠FOV。

图17是根据一个实施例的网络环境中的电子装置1701的框图。参照图17，网络环境1700中的电子装置1701可经由第一网络1798(例如，短距离无线通信网络)与电子装置1702进行通信，或者经由第二网络1799(例如，长距离无线通信网络)与电子装置1704或服务器1708进行通信。电子装置1701可经由服务器1708与电子装置1704进行通信。电子装置1701可包括：处理器1720、存储器1730、输入装置1750、声音输出装置1755、显示装置1760、音频模块1770、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电源管理模块1788、电池1789、通信模块1790、用户识别模块(SIM)1796或天线模块1797。在一个实施例中，可从电子装置1701中省略多个组件中的至少一个(例如，显示装置1760或相机模块1780)，或者可在电子装置1701中添加一个或多个其它组件。在一个实施例中，多个组件中的一些可被实现为单个集成电路(IC)。例如，传感器模块1776(例如，指纹传感器、虹膜传感器或照度传感器)可被嵌入在显示装置1760(例如，显示器)中。

处理器1720可执行例如软件(例如，程序1740)以控制电子装置1701的与处理器1720结合的至少一个其它组件(例如，硬件或软件组件)，并且可执行各种数据处理或计算。作为数据处理或计算的至少部分，处理器1720可将从另一组件(例如，传感器模块1776或通信模块1790)接收的命令或数据加载到易失性存储器1732中，处理存储在易失性存储器1732中的命令或数据，并且将结果数据存储在非易失性存储器1734中。处理器1720可包括主处理器1721(例如，中央处理器(CPU)或应用处理器(AP))和辅助处理器1723(例如，图形处理器(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP))，辅助处理器1723可独立于主处理器1721进行操作，或者与主处理器1721协同操作。附加地或可选地，辅助处理器1723可适于比主处理器1721消耗更少的电力，或者执行特定功能。辅助处理器1723可被实现为与主处理器1721分离，或者作为主处理器1721的部分。

辅助处理器1723可在主处理器1721处于非活动(例如，睡眠)状态时代替主处理器1721，或者在主处理器1721处于活动状态(例如，执行应用)时与主处理器1721一起控制与电子装置1701的多个组件中的至少一个组件(例如，显示装置1760、传感器模块1776或通信模块1790)相关的功能或状态中的至少一些。根据一个实施例，辅助处理器1723(例如，图像信号处理器或通信处理器)可被实现为与辅助处理器1723功能上相关的另一组件(例如，相机模块1780或通信模块1790)的部分。

存储器1730可存储由电子装置1701的至少一个组件(例如，处理器1720或传感器模块1776)使用的各种数据。例如，各种数据可包括软件(例如，程序1740)和与其相关的命令的输入数据或输出数据。存储器1730可包括易失性存储器1732或非易失性存储器1734。

程序1740可作为软件存储在存储器1730中，并且可包括例如操作系统(OS)1742、中间件1744或应用1746。

输入装置1750可从电子装置1701的外部(例如，用户)接收将由电子装置1701的其它组件(例如，处理器1720)使用的命令或数据。例如，输入装置1750可包括麦克风、鼠标或键盘。

声音输出装置1755可将声音信号输出到电子装置1701的外部。例如，声音输出装置1755可包括扬声器或接收器。扬声器可用于一般目的(诸如，播放多媒体或记录)，接收器可用于接收来电呼叫。根据一个实施例，接收器可被实现为与扬声器分离或者作为扬声器的部分。

显示装置1760可在视觉上向电子装置1701的外部(例如，用户)提供信息。例如，显示装置1760可包括显示器、全息图装置或投影仪以及用于控制显示器、全息图装置和投影仪中的对应一个的控制电路。根据一个实施例，显示装置1760可包括适于检测触摸的触摸电路，或者适于测量由触摸引起的力的强度的传感器电路(例如，压力传感器)。

音频模块1770可将声音转换成电信号，反之亦然。根据一个实施例，音频模块1770可经由输入装置1750获得声音，或者经由声音输出装置1755或者直接(例如，有线地)或者无线地与电子装置1701结合的外部电子装置1702的耳机来输出声音。

传感器模块1776可检测电子装置1701的操作状态(例如，电力或温度)或电子装置1701外部的环境状态(例如，用户的状态)，然后生成与检测的状态对应的电信号或数据值。例如，传感器模块1776可包括姿态传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物计量传感器、温度传感器、湿度传感器或照度传感器。

接口1777可支持用于电子装置1701将直接(例如，有线地)或无线地与外部电子装置1702结合的一个或多个特定协议。根据一个实施例，例如，接口1777可包括高清多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。

连接端子1778可包括连接器，电子装置1701可经由连接器与外部电子装置1702物理连接。根据一个实施例，例如，连接端子1778可包括HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如，耳机连接器)。

触觉模块1779可将电信号转换为机械刺激(例如，振动或移动)或电刺激，机械刺激或电刺激可由用户经由触觉或动觉来识别。根据一个实施例，例如，触觉模块1779可包括马达、压电元件或电刺激器。

相机模块1780可捕获静止图像或运动图像。根据一个实施例，相机模块1780可包括一个或多个镜头、图像传感器、图像信号处理器或闪光灯。

电源管理模块1788可管理供应给电子装置1701的电力。例如，电源管理模块1788可被实现为电源管理集成电路(PMIC)的至少部分。

电池1789可向电子装置1701的至少一个组件供应电力。根据一个实施例，例如，电池1789可包括不可再充电的一次电池、可再充电的二次电池或燃料电池。

通信模块1790可支持在电子装置1701与外部电子装置(例如，电子装置1702、电子装置1704或服务器1708)之间建立直接(例如，有线)通信信道或无线通信信道，并且经由建立的通信信道执行通信。通信模块1790可包括可独立于处理器1720(例如，AP)进行操作并且支持直接(例如，有线)通信或无线通信的一个或多个通信处理器。根据一个实施例，通信模块1790可包括无线通信模块1792(例如，蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1794(例如，局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应的一个可经由第一网络1798(例如，短距离通信网络(诸如，Bluetooth^TM、无线保真(Wi-Fi)直连或红外数据协会(IrDA)标准)或第二网络1799(例如，长距离通信网络(诸如，蜂窝网络、因特网或计算机网络(例如，LAN或广域网(WAN))))与外部电子装置通信。这些各种类型的通信模块可被实现为单个组件(例如，单个IC)，或者可被实现为彼此分离的多个组件(例如，多个IC)。无线通信模块1792可使用存储在用户识别模块1796中的用户信息(例如，国际移动用户标识(IMSI))来识别和认证通信网络(诸如，第一网络1798或第二网络1799)中的电子装置1701。

天线模块1797可向电子装置1701的外部(例如，外部电子装置)发送信号或电力，或者从电子装置1701的外部(例如，外部电子装置)接收信号或电力。根据一个实施例，天线模块1797可包括一个或多个天线，例如，通信模块1790(例如，无线通信模块1792)可从所述天线选择适合于通信网络(诸如，第一网络1798或第二网络1799)中使用的通信方案的至少一个天线。然后，可经由选择的至少一个天线在通信模块1790与外部电子装置之间发送或接收信号或电力。

上述组件中的至少一些可经由外设间通信方案(例如，总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))相互结合并且在它们之间传递信号(例如，命令或数据)。

根据一个实施例，可经由与第二网络1799结合的服务器1708在电子装置1701与外部电子装置1704之间发送或接收命令或数据。电子装置1702和1704中的每个可以是与电子装置1701相同类型或不同类型的装置。将在电子装置1701处执行的操作的全部或一些可在外部电子装置1702、外部电子装置1704或外部电子装置1708中的一个或多个处执行。例如，如果电子装置1701应当自动或者响应于来自用户或另一装置的请求来执行功能或服务，则电子装置1701可请求一个或多个外部电子装置执行功能或服务的至少部分，而不执行功能或服务，或者电子装置1701除了执行功能或服务之外，还可请求一个或多个外部电子装置执行功能或服务的至少部分。接收请求的一个或多个外部电子装置可执行请求的功能或服务的至少部分或者与请求相关的附加功能或附加服务，并且将执行的结果传送到电子装置1701。电子装置1701可在对结果进行或不进行进一步处理的情况下提供结果，作为对请求的回复的至少部分。为此，例如，可使用云计算、分布式计算或客户机-服务器计算技术。

一个实施例可被实现为软件(例如，程序440)，软件包括存储在存储介质(例如，内部存储器1736或外部存储器1738)中的可由机器(例如，电子装置1701)读取的一个或多个指令。例如，电子装置1701的处理器可调用存储在存储介质中的一个或多个指令中的至少一个，并且在处理器的控制下使用或不使用一个或多个其它组件来执行它。因此，可操作机器以根据调用的至少一个指令执行至少一个功能。一个或多个指令可包括由编译器生成的代码或可由解释器执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。术语“非暂时性”指示存储介质是有形装置，并且不包括信号(例如，电磁波)，但是所述术语不区分数据半永久性地存储在存储介质中的情况和数据临时存储在存储介质中的情况。

根据一个实施例，可在计算机程序产品中包括并提供根据本公开的方法。计算机程序产品可在卖方与买方之间作为产品被交易。计算机程序产品可以以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式分发，或者经由应用商店(例如，PlayStore^TM)在线分发(例如，下载或上传)，或者直接在两个用户装置(例如，智能电话)之间分发。如果在线分发，则计算机程序产品的至少部分可临时生成或至少临时存储在机器可读存储介质(诸如，制造商的服务器、应用商店的服务器或中继服务器的存储器)中。

根据一个实施例，上述组件的每个组件(例如，模块或程序)可包括单个实体或多个实体。可省略上述组件中的一个或多个，或者可添加一个或多个其它组件。可选地或附加地，多个组件(例如，模块或程序)可被集成到单个组件中。在这种情况下，集成的组件仍然可以以与集成之前由多个组件中的对应组件执行功能的方式相同或相似的方式执行多个组件中的每个的一个或多个功能。可顺序地、并行地、重复地或启发式地执行由模块、程序或另一组件执行的操作，或者可以以不同的顺序执行或省略操作中的一个或多个，或者可添加一个或多个其它操作。

尽管在本公开的某些实施例已经被描述在本公开的具体实施方式中，但是在不脱离本公开的范围的情况下，可以以各种形式修改本公开。因此，本公开的范围不应仅基于描述的实施例来确定，而应基于所附权利要求及其等同物来确定。

Claims

1.一种电子装置，包括：

第一相机，具有第一视场；

第二相机，具有比第一视场窄的第二视场；以及

处理器，被配置为：

使用第一相机捕获第一图像，第一图像具有联合视场；

使用第二相机捕获第二图像；

确定第一图像与第二图像之间的重叠视场；

基于重叠视场生成重叠视场视差估计；

生成联合视场视差估计；以及

将联合视场视差估计与重叠视场视差估计合并。

2.根据权利要求1所述的电子装置，其中，使用利用重叠视场的立体匹配网络视差估计生成重叠视场视差估计。

3.根据权利要求1所述的电子装置，其中，处理器还被配置为：从第一图像裁剪确定的重叠视场，并且将来自第二图像的重叠视场缩放为与第一图像对应的分辨率。

4.根据权利要求3所述的电子装置，其中，处理器还被配置为使用重叠视场视差估计增强联合视场视差估计。

5.根据权利要求1所述的电子装置，其中，基于根据仅第一图像的第一视场和关于第一相机的相机基线和焦距的信息的深度估计来生成联合视场视差估计。

6.根据权利要求1所述的电子装置，其中，处理器还被配置为：基于联合视场视差估计和重叠视场视差估计中的重叠视场中的偏差和缩放标定，将联合视场视差估计与重叠视场视差估计合并。

7.根据权利要求1所述的电子装置，其中，基于从红-绿-蓝单图像视差估计网络的视差估计生成联合视场视差估计。

8.根据权利要求1所述的电子装置，其中，还从立体匹配视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。

9.根据权利要求1所述的电子装置，其中，还从多任务立体匹配视差和单图像视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。

10.根据权利要求1所述的电子装置，还包括：

第三相机，具有比第一视场宽的第三视场；

其中，处理器还被配置为：

使用第三相机捕获第三图像，第三图像具有第三视场；以及

基于第一图像的联合视场的深度估计来生成第三图像的深度估计。

11.一种用于视差估计的方法，包括：

使用具有第一视场的第一相机捕获第一图像，第一图像具有联合视场；

使用具有比第一视场窄的第二视场的第二相机捕获第二图像；

确定第一图像与第二图像之间的重叠视场；

基于重叠视场生成重叠视场视差估计；

生成联合视场视差估计；以及

将联合视场视差估计与重叠视场视差估计合并。

12.根据权利要求11所述的方法，其中，使用利用重叠视场的立体匹配网络视差估计来生成重叠视场视差估计。

13.根据权利要求11所述的方法，还包括：从第一图像裁剪确定的重叠视场，并且将来自第二图像的重叠视场缩放为与第一图像对应的分辨率。

14.根据权利要求13所述的方法，还包括：使用重叠视场视差估计增强联合视场视差估计。

15.根据权利要求11所述的方法，其中，基于根据仅第一图像的第一视场和关于第一相机的相机基线和焦距的信息的深度估计来生成联合视场视差估计。

16.根据权利要求11所述的方法，其中，基于联合视场视差估计和重叠视场视差估计中的重叠视场中的偏差和缩放标定执行将联合视场视差估计与重叠视场视差估计合并的步骤。

17.根据权利要求11所述的方法，其中，基于从红-绿-蓝单图像视差估计网络的视差估计生成联合视场视差估计。

18.根据权利要求11所述的方法，其中，还从立体匹配视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。

19.根据权利要求11所述的方法，其中，还从多任务立体匹配视差和单图像视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。

20.根据权利要求11所述的方法，还包括：

使用具有比第一视场宽的第三视场的第三相机捕获第三图像；以及