[go: up one dir, main page]

CN111105450A - 用于视差估计的电子装置和方法 - Google Patents

用于视差估计的电子装置和方法 Download PDF

Info

Publication number
CN111105450A
CN111105450A CN201911036156.4A CN201911036156A CN111105450A CN 111105450 A CN111105450 A CN 111105450A CN 201911036156 A CN201911036156 A CN 201911036156A CN 111105450 A CN111105450 A CN 111105450A
Authority
CN
China
Prior art keywords
view
disparity
field
image
overlapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911036156.4A
Other languages
English (en)
Other versions
CN111105450B (zh
Inventor
穆斯塔法·艾尔可哈米
任昊宇
杜宪志
李正元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111105450A publication Critical patent/CN111105450A/zh
Application granted granted Critical
Publication of CN111105450B publication Critical patent/CN111105450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/25Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/133Equalising the characteristics of different image components, e.g. their average brightness or colour balance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

在此公开用于视差估计的电子装置和方法。电子装置包括:第一相机,具有第一视场(FOV);第二相机,具有比第一FOV窄的第二FOV;以及处理器,被配置为:使用第一相机捕获第一图像,第一图像具有联合FOV;使用第二相机捕获第二图像;确定第一图像与第二图像之间的重叠FOV;基于重叠FOV生成视差估计;生成联合FOV视差估计;并且将联合FOV视差估计与重叠FOV视差估计合并。

Description

用于视差估计的电子装置和方法
本申请是基于并要求于2018年10月29日在美国专利商标局提交并分配序号62/751,960的美国临时专利申请的优先权,和于2019年3月26日在美国专利商标局提交并分配序号16/365,167的美国专利申请的优先权,所述美国专利申请的全部内容通过引用包含于此。
技术领域
本公开总体涉及一种图像处理系统。特别地,本公开涉及使用具有不同视场的相机进行视差估计的方法和系统。
背景技术
最近对捕获的场景中的元素的真实世界深度的估计感兴趣。深度估计具有很多应用,诸如,将前景(近)对象从背景(远)对象分离的能力。准确的深度估计允许从场景中的背景分离感兴趣的前景对象。准确的前景-背景分离允许对捕获的图像进行处理以对效果(诸如,散景(Bokeh)效果)进行仿真。散景是背景的软失焦模糊,其通常通过在具有快速镜头和宽光圈的昂贵相机中使用正确的设置并且使相机更接近主体并且主体更远离背景进行掌握以仿真浅景深。
准确的深度估计允许对来自非专业摄影师或具有较小镜头的相机(诸如,移动电话相机)的图像进行处理,以获得具有聚焦于主体的散景效果的更美感愉快的图像。准确的深度估计的其它应用包括3D对象重建和虚拟现实(VR)应用(在VR应用中,根据期望的VR,期望改变背景或主体并且渲染它们)。从捕获的场景进行准确的深度估计的其它应用包括:汽车自动化、监视相机、自动驾驶应用,以及通过改进对象检测准确度和仅使用相机或从相机输入以及从多个传感器估计深度估计距相机的距离来增强安全性。
发明内容
根据一个实施例,提供一种电子装置。所述电子装置包括:第一相机,具有第一视场(FOV);第二相机,具有比第一FOV窄的第二FOV;以及处理器,被配置为:使用第一相机捕获第一图像,第一图像具有联合FOV;使用第二相机捕获第二图像;确定第一图像与第二图像之间的重叠FOV;基于重叠FOV生成视差估计;生成联合FOV视差估计;以及将联合FOV视差估计与重叠FOV视差估计合并。
根据一个实施例,提供一种方法。所述方法包括:使用具有第一视场(FOV)的第一相机捕获第一图像,第一图像具有联合FOV;使用具有比第一FOV窄的第二FOV的第二相机捕获第二图像;确定第一图像与第二图像之间的重叠FOV;基于重叠FOV生成视差估计;生成联合FOV视差估计;以及将联合FOV视差估计与重叠FOV视差估计合并。
附图说明
从下面结合附图的具体实施方式,本公开的某些实施例的以上和其它方面、特征和优点将更加明显,其中:
图1是根据一个实施例的散景效果的示图;
图2是根据一个实施例的立体匹配系统的示图;
图3是根据一个实施例的使用具有相似FOV的两个图像针对图像应用散景效果的流程图;
图4是根据一个实施例的代表联合FOV和重叠FOV的图像的示图;
图5是根据一个实施例的用于生成联合FOV的视差的流程图;
图6是根据一个实施例的红-绿-蓝(RGB)-单图像视差估计(RGB-SIDE)网络的示图;
图7是根据一个实施例的远-宽立体匹配网络的示图;
图8是根据一个实施例的多任务远-宽立体匹配网络的示图;
图9是根据一个实施例的视差增强系统的示图;
图10、图11、图12和图13是根据一个实施例的用于生成将被合并和后处理的视差估计的系统的示图;
图14是根据一个实施例的视差合并和选择的示图;
图15是根据一个实施例的视差合并和选择的示图;
图16是根据一个实施例的当存在四个相机时的联合FOV和重叠FOV的示图;以及
图17是根据一个实施例的网络环境中的电子装置的框图。
具体实施方式
在下文中,参照附图详细描述本公开的实施例。应注意,尽管相同的元件在不同的附图中示出,但是相同的元件将由相同的参考标号表示。在下面的描述中,诸如详细配置和组件的具体细节仅被提供以帮助对本公开的实施例的总体理解。因此,本领域技术人员应清楚,在不脱离本公开的范围的情况下,可对在此描述的实施例进行各种改变和修改。此外,为了清楚和简洁,省略了对公知的功能和构造的描述。以下描述的术语是考虑到本公开中的功能而定义的术语,并且可根据用户、用户的意图或习惯而不同。因此,术语的定义应基于贯穿本说明书的内容来确定。
本公开可具有各种修改和各种实施例,以下参照附图详细描述其中的实施例。然而,应理解,本公开不限于实施例,而是包括在本公开的范围内的所有修改、等同物和替换。
尽管包括序数(诸如,第一、第二等)的术语可用于描述各种元件,但是结构元件不受该术语的限制。该术语仅用于将一个元件与另一个元件区分开。例如,在不脱离本公开的范围的情况下,第一结构元件可被称为第二结构元件。类似地,第二结构元件也可被称为第一结构元件。如在此使用的,术语“和/或”包括一个或多个相关项的任何组合和所有组合。
在此使用的术语仅用于描述本公开的各种实施例,而不意图限制本公开。除非上下文另有清楚指示,否则单数形式也意图包括复数形式。在本公开中,应理解,术语“包括”或“具有”指示存在特征、数量、步骤、操作、结构元件、部件或它们的组合,并且不排除存在或可能添加一个或多个其它特征、数量、步骤、操作、结构元件、部件或它们的组合。
除非不同地定义,否则在此使用的所有术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义,否则术语(诸如在通用字典中定义的那些术语)将被解释为具有与在相关技术领域的上下文的含义相同的含义,并且不被解释为具有理想化或过于形式化的含义。
根据一个实施例的电子装置可以是各种类型的电子装置中的一个。例如,电子装置可包括便携式通信装置(例如,智能电话)、计算机、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据公开的一个实施例,电子装置不限于以上描述的那些电子装置。
本公开中使用的术语不意图限制本公开,而是意图包括对应实施例的各种变化、等同物或替换。关于附图的描述,类似的参考标号可用于表示类似的或相关的元件。除非相关上下文清楚地另外指示,否则与项目对应的名词的单数形式可包括一个或多个事物。如在此使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每个可包括与短语中的相应一个一起列举的项目的所有可能的组合。如在此使用的,诸如“第1”、“第2”、“第一”以及“第二”的术语可用于将相应组件与另一组件区分开,而不意图在其它方面(例如,重要性或顺序)限制组件。意图是,如果一个元件(例如,第一元件)在具有或没有术语“可操作地”或“交流地”的情况下被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件”“与另一元件连接”或“连接到另一元件”,则指示所述元件可直接(例如,有线地)、无线地或经由第三元件与另一元件结合。
如在此使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并且可与其它术语(例如,“逻辑”、“逻辑块”、“部件”或“电路”)互换使用。模块可以是适于执行一个或多个功能的单个集成组件或者是它的最小单元或部件。例如,根据一个实施例,可以以专用集成电路(ASIC)的形式来实现模块。
本系统和方法提供了由具有不同视场(FOV)的两个相机捕获的场景中的元素的真实世界深度的估计。通过计算两个图像中的像素之间的视差(例如,水平位移),可获得来自两个立体校正图像的深度的准确估计。
本系统和方法提供了两个图像的FOV的联合(union)中的所有元素的深度的估计。可提供两个相机,一个具有通常与低光学变焦或无光学变焦相关联的宽FOV,并且另一个具有通常与较大光学变焦相关联的较窄FOV。最近的移动装置配备了两个或更多个的相机。为了利用额外的相机,它们的镜头通常被选择为具有不同的光学变焦,以便所述装置在近对象和远对象两者都具有良好的分辨率。特别地,由于镜头和移动装置的物理约束,或者由于诸如自驱动应用的标定和安全目的,镜头的变焦水平可不被用户改变。
本系统和方法可扩展到多个(例如,多于两个)相机,以确定来自多个立体相机的视差。
例如,装置中的一个镜头被设置为1x变焦(例如,无放大率)并且具有广角FOV(例如,宽FOV),而装置中的另一个镜头具有2x变焦(例如,具有2倍放大率)并且具有较窄的远摄FOV(例如,远FOV)。这两个FOV的联合是宽FOV。如在此公开的,尽管对应的像素将仅针对FOV的作为远FOV的交集(intersection)存在,但是执行针对FOV的联合的深度的估计,或者在所述情况下针对整个宽FOV的深度估计。
本公开的示例提供了可执行来自2个或更多个相机的FOV的联合(而非仅FOV的重叠交集)的深度估计的深度神经网络的统一架构、用于在多个任务上同时训练统一架构的方法,以及用于融合来自单图像视差估计和立体深度估计算法/处理的结果的方法。优点包括:针对跨越所有相机的全部FOV而不是仅从FOV的重叠交集进行深度估计,以及通过在整个宽FOV上而不是在交集FOV上应用散景来生成跨越整个宽FOV的美学上更好的图像,在具有固定的预设变焦(如宽1x变焦和远摄2x固定变焦)的双相机的情况下,所述交集FOV是较窄的远摄FOV。
图1是根据一个实施例的散景效果的示图。散景是通过使远主体失去焦点,同时使较近主体更清晰或聚焦来模糊图像中的背景主体的处理。图像100描绘了远FOV上的散景效果,而图像102描绘了宽FOV上的散景效果。重叠的FOV104对应于图像100的整个FOV。这个效果可通过使用具有大光圈(低f-stop数)和长焦距的昂贵镜头的更昂贵的相机来获得,以获得浅景深。由于图像传感器和镜头的尺寸和成本限制,在较便宜的小型相机或移动装置上的相机中很难找到这些镜头。
图2是根据一个实施例的立体匹配系统200的示图。没有准确深度估计的系统可依赖于从具有相同FOV的两个相机201和202捕获的两个校正图像之间的立体匹配,以确定两个对应像素之间的视差d(作为点P相对于相机201的水平距离x1和点P相对于相机202的水平距离x2之间的差的水平偏移)。针对每个像素,然后可通过相机基线b和焦距f的知识将视差转换为主体P的深度z的测量。
最近的电子装置配备了两个或更多个相机。两个相机的规格可分别为(f/1.7,26毫米,1x光学变焦)和(f/2.4,52毫米,2x光学变焦)。然而,第一相机具有较宽光圈,第二相机具有较长焦距和两倍的光学变焦。然而,第二相机的FOV在2x变焦(例如,远FOV)处仅仅是图像的中心部分。第一相机的FOV在1x变焦处是整个宽FOV。具有不同FOV的多个相机的一个原因是为了多样性,其中,较大光圈相机被用于在低光设置和较快快门下获得更好的图像,其中,2x变焦相机提供针对2x FOV的两倍光学变焦和较高分辨率图像。
立体视差匹配的一个应用是通过模糊背景在图像中产生散景效果,同时保持感兴趣的对象聚焦。然而,在这个情况下,立体匹配仅可针对在两个相机之间重叠的中心FOV进行。因此,如果用户选择将散景效果应用于捕获的图像,则仅可针对中心远FOV进行,产生图1的图像100。
图3是根据一个实施例的用于在图像上应用散景效果的流程图300。在302,确定两个图像之间的重叠FOV。例如,参照图1,重叠FOV 104对应于图像100的整个FOV。
在304,生成具有相同FOV和分辨率的两个图像。可通过用从具有较大FOV的图像102裁剪重叠FOV 104,并且在较高分辨率图像100中缩小重叠FOV来生成图像。
在306,确定两个图像之间的视差信息。视差信息可通过对在304生成的两个图像应用立体匹配算法/处理进行确定。针对重叠FOV 104,视差信息可对应于图像100与其在图像102中的对应像素之间的水平偏移。
在308,生成任一图像的深度信息。深度信息可通过适当的反演(inversion)和缩放来对来自306的视差信息进行变换而生成。
在310,应用散景算法/处理。散景算法/处理可模糊远对象并且聚焦于近对象,产生类似于图像100的结果,其中散景效果仅可应用于图像100的远FOV。
如在此所述,重叠FOV可指存在于使用的所有相机中的FOV,即使FOV处于不同的缩放。联合FOV可指在将缩放调整到参考图像的缩放之后通过将一个参考相机的FOV与另一个相机的FOV增加而产生的FOV。
图4是根据一个实施例的代表联合FOV和重叠FOV的图像的示图。图像400代表联合FOV,而图像402代表重叠FOV。图像400包括与图像402的重叠部分404。图像402被下采样二分之一以匹配重叠FOV的图像400的分辨率。感兴趣的对象通常不以图像402的远FOV为中心,并且不完全被图像402的远FOV捕获。因此,如在此公开的,可使用图像402的重叠FOV从图像400的联合FOV生成视差估计。
图5是根据一个实施例的用于生成联合FOV的视差的流程图500。在502,生成联合FOV的深度估计,并且生成联合FOV的视差估计。深度估计可通过使用利用单图像视差估计(SIDE)的场景理解进行生成。
图6是根据一个实施例的RGB-SIDE网络的示图。RGB-SIDE网络使用全卷积神经网络进行实现。针对全宽(full wide)FOV(例如,联合FOV 400)执行视差估计,其中,在FOV的某些部分中仅来自一个相机的信息可用。在600处输入联合FOV图像,并且在602处输出视差估计(即,单图像视差)。RGB-SIDE网络通过使用当前相机设置(例如,相机基线、相机焦距等)来估计逆深度(inverse depth),并且在网络内隐含地将逆深度缩放为视差。在此过程中,基于回归的损耗函数可用作视差误差的测量,其中,针对每个像素,估计的视差与真实视差之间的距离给出用于随机梯度下降优化的误差代价函数。
由于RGB-SIDE网络需要理解场景以学习不同对象的相对于相机镜头的相对位置,因此立即处理全宽图像400。这个方案的优点是输出提供仅使用一个图像和一个块的针对全宽FOV的视差的估计。这个方案的缺点是缺乏准确度,其中,估计的视差或者估计深度非常粗糙,具有模糊边缘,并且容易产生大的误差。其原因是依赖于场景理解和对象之间的相对位置以及对象的尺寸来估计FOV中对象的深度。
在504,生成重叠FOV的视差估计。可通过使用立体匹配视差估计(SMDE)在两个图像(诸如,在图3的304生成的两个图像)之间生成视差估计。SMDE网络从两个输入图像估计视差。SMDE网络可使用神经网络估计视差。可利用多种类型的SMDE网络,诸如可应用于重叠FOV的远-宽SMDE网络(TW-SMNet)(TW-SMNet(T))或者可应用于联合FOV的远-宽SMDE网络(TW-SMNet)(TW-SMNet(W)),以及在TW-SMNet(W)上添加附加SIDE网络的多任务TW-SMNet(MT-TW-SMNet)。
图7是根据一个实施例的TW-SMNet的示图。在网络中,图像400和图像402两者分别在700和702被输入到网络中。TW-SMNet使用立体匹配来估计来自两个输入图像的视差。通过经典技术进行立体匹配包括沿相同水平线的校正图像中的匹配特征。深度神经网络还可通过生成在不同视差偏移的图像的特征图的偏移版本以构建称为代价量(cost volume)的量(volume)来执行立体匹配。立体匹配深度神经网络依赖于计算代价量,诸如,深度特征之间的距离,或者偏移的深度特征之间的相关性。
针对TW-SMNet(T),使用立体匹配针对重叠区域仅提供视差估计。重叠部分404是图像400和图像402中的重叠FOV。这通过仅考虑宽FOV图像400中的重叠部分404并且将它与远FOV图像402立体匹配来进行。算法或神经网络被设计成仅使用重叠区域回归到真正的视差。这个方案将给出针对远区域中的视差估计的最好的准确度。
针对TW-SMNet(W),算法/处理使用图像400的全宽FOV来估计针对联合FOV的视差。缩放图像402以匹配图像400中的重叠部分404的分辨率。然而,在这样的情况下表示重叠部分404外部的周围区域的缺失区域被零填充以达到全宽FOV的尺寸。来自这个块的输出是针对全宽FOV的视差图(disparity map)的估计。也就是说,可从立体匹配视差估计(SMDE)网络在零填充重叠FOV与联合FOV之间生成联合FOV视差估计。这个方案将给出针对远区域中的视差估计的不错的准确度,以及周围区域中的相当粗略的估计。
图8是根据一个实施例的MT-TW-SMNet的示图。在图8中,在800输入宽FOV图像400,并且在800输入远FOV图像402。附加SIDE网络被应用于在800输入的FOV图像400。
通过立体匹配针对视差估计对所述网络进行训练。在代价量804之前,将仅对图像400的基于SIDE的估计的附加头添加到网络。两个头一起训练,因此SIDE支路有助于共享层具有更好的场景理解能力。将网络立体匹配损耗相对于SIDE损耗进行正则化。因此,损失函数是考虑来自SIDE支路的视差估计的准确度和来自SMDE支路的视差估计的准确度的组合损失函数806,并且系统在808输出视差。也就是说,可从多任务立体匹配视差(MT-SMDE)和单图像视差估计网络在零填充重叠FOV与联合FOV之间生成联合FOV视差估计。这提高了周围区域(非重叠FOV)中的性能,在周围区域,由于这个区域中的立体图像中缺少对应的对象而不能进行立体匹配。然而,仅一个视差图从这个网络输出,其是来自SMDE支路的视差图和SMDE支路的视差图这两者的函数。这个网络可仅选择立体匹配视差图作为最终输出,这是由于它通常具有更好的准确度。
在506,增强联合FOV视差估计。图9是根据一个实施例的视差增强系统的示图。在图9中,在TW-SMNet 904的900输入宽FOV图像400,并且在生成并且输出视差的TW-SMNet904的902输入远FOV图像402。宽FOV图像400也在908被输入到SIDE RGB-视差(SIDE-RGBD)估计网络910,并且由TW-SMNet 904输出的视差被输入到SIDE-RGBD网络910的906。
在508,合并估计的视差。例如,合并在502或506获得的联合FOV视差估计和在504获得的重叠FOV视差估计。图10至图13是根据一个实施例的用于生成将被合并和后处理的视差估计的系统的示图。
图10描绘了RGB SIDE+TW-SMNet(T)系统1000。宽FOV图像1002被输入到RGB SIDE网络1006和TW-SMNet(T)1008,而远FOV图像1004被输入到TW-SMNet(T)1008。在1010合并产生的视差估计,并且在1012处理视差图。
图11描绘了RGBD SIDE+TW-SMNet系统1100。宽FOV图像1102被输入到RGBD SIDE网络1106和TW-SMNet 1108,而远FOV图像1104被输入到TW-SMNet 1108。在1110合并产生的视差估计,并且在1112处理视差图。
图12描绘了RGB SIDE+RGBD SIDE+TW-SMNet系统1200。宽FOV图像1202被输入到RGBD SIDE网络1206、RGB SIDE网络1208以及TW-SMNet 1210,而远FOV图像1204被输入到TW-SMNet 1210。来自RGB SIDE网络1208的视差估计被输入到RGBD SIDE网络1206。在1212合并来自RGBD SIDE网络1206和TW-SMNet 1210的产生的视差估计,并且在1214处理视差图。
图13描绘了RGB SIDE+RGBD SIDE+MT-TW-SMNet系统1300。宽FOV图像1302被输入到RGBD SIDE网络1306、RGB SIDE网络1308以及MT-TW-SMNet 1310,而远FOV图像1304被输入到MT-TW-SMNet 1310。来自RGB SIDE网络1308的视差估计被输入到RGBD SIDE网络1306。在1312合并来自RGBD SIDE网络1306和TW-SMNet 1310的产生的视差估计,并且在1314处理视差图。
视差合并可通过估计两个视差图d1,d2的重叠FOV(OL_FOV)之间的偏差(bias)b基于偏差调整而执行,如等式(1):
Figure BDA0002251547830000091
其中,n是重叠FOV中的像素的数量,d1(i,j)表示在视差图d1中的坐标(i,j)处的视差,d2(i,j)表示在视差图d2中的坐标(i,j)处的视差。d2的周围视差(surroundingdisparity)可基于b进行调整,然后可应用使用d1的加权和或者视差选择。
视差合并可基于缩放调整而执行,其中,在两个视差图d1,d2的重叠FOV之间估计缩放差s,其中,n是重叠FOV中的像素的数量,如等式(2):
Figure BDA0002251547830000101
d2的周围视差可以基于s进行调整,然后可应用使用d1的加权和或者视差选择。
在510,选择视差图。视差合并也可通过来自神经网络的学习的非线性函数实现,所述神经网络可通过堆叠沙漏网络进行实现。图14是根据一个实施例的视差合并和选择的示图。在图14中,SIDE视差1402和SMDE视差1404由视差合并网络进行合并。所述网络通过回归到地面真值视差进行训练。训练网络的一种方法是将视差量化为多个级别,并且学习针对每个级别输出软概率的分类器。回归输出1406是视差的期望值,其中,使用估计的概率计算期望。此外,输出的合并视差1406是由SIDE 1402和SMDE 1404获得的输入视差的非线性函数。
通过使用SMDE,重叠FOV的视差可能是最准确的。因此,选择器1408可进行挑选以选择合并视差1406用于周围区域,或者选择来自SMDE 1404的视差用于重叠的远FOV。
图15是根据一个实施例的视差合并和选择的示图。在图15中,可使用立体匹配(SM)(例如,通过使用TW-SMNet(T))只针对重叠区域进行更准确的视差估计。然而,对零填充的宽FOV进行的SM可使用用于全宽FOV的TW-SMNet(W)产生重叠区域和周围区域两者的视差估计,用于全宽FOV的TW-SMNet(W)可使用融合网络合并以产生周围区域的更准确的视差估计。然而,如果复杂度允许,则能通过利用视差块的第三输入来利用用于重叠远FOV的最佳算法/处理,所述视差块代表来自对重叠远区域进行的准确SM的视差估计。例如,SIDE视差1502和TW-SMNet(W)视差1504被合并到合并视差1508中,并且在TW-SMNet(T)视差1506与合并视差1508之间执行选择1510。
宽FOV和远FOV RGB图像特征也可被输入到视差合并块。从RGB图像提取的其它特征(诸如,边缘图或语义分割图)可进一步与不同的视差图连在一起作为输入特征。
在512,视差图被后处理以增强质量(例如,经由图10至图13的后处理块)。后处理块旨在提供视觉上令人愉快的视差图。即使在像在神经网络中那样使用非线性操作进行合并之后,也可观察到重叠FOV与非重叠FOV之间的边界周围的不连续性。后处理旨在平滑这种效应,所以边界效应不明显。它还用于调整期望应用的输出视差。
为了减少重叠区域边界周围的视差突然变化的效果而进行的后处理的一个示例是对视差进行平滑。然而,边缘通常代表一个对象,并且目标是用平滑的深度估计填充对象。一种方案是使用边缘保持平滑。边缘保持平滑可通过将滤波后的输出计算为可迭代地实现的加权平均值来实现。可利用诸如双边滤波器的局部滤波器。双边滤波器和其它局部滤波器的一个限制是它们可能无法解决在视差图中是保留还是平滑特定边缘的不明确性。可利用被称为边缘引导滤波的使用RGB图像作为平滑的引导,以保持RGB图像中的边缘。还可利用被称为快速全局平滑器(FGS)的对由数据约束和平滑先验定义的全局对象函数进行优化。因此,边界周围的FGS滤波值取决于整个视差图。在一个示例中,通过部署FGS,使用全局滤波器计算边界周围的滤波值。然后,只有合并视差中的边界周围的条带被滤波后的条带替换,其余条带部署原始合并值。
如上所述,本系统和方法仅利用两个相机。然而,这可容易地扩展到两个以上的相机。图16是根据一个实施例的当存在四个相机时的联合FOV和重叠FOV的示图。图16示出了边缘相机配置(verged camera configuration)1602,其中,暗区域1604示出了作为可从所有相机观看到的共有3D空间的重叠FOV,并且虚线区域1606示出了联合FOV。
一种简单的方法是,将每个参考图像进行校正并且分别与(相机的数量–1)个校正图像立体匹配。通过使用深度学习方法,能用于获得跨相机重叠的FOV 1604的非常准确的深度估计。因为相机相对于彼此的位置是固定的,所以任何一对校正图像之间的视差应转换成剩余对之间的特定值,这可用于获得重叠FOV 1604的更准确的结果。联合FOV 1606的部分将在两个相机之间重叠,但不是在所有相机之间重叠。这些相机对之间的SM可被用来获得在这个区域的视差的好的估计。联合FOV 1606中的仅由一个相机看到的区域将利用单图像视差估计。可选地,联合FOV 1606可利用所有输入图像,以及联合FOV 1606中的至少在相机之间重叠的部分的视差估计。以上描述的用于视差图与后处理平滑之间的融合的其它方法也适用于这个示例。
关于图16的可选示例是其中利用三个相机的系统。第一相机可具有远FOV,第二相机可具有宽FOV,第三相机可具有超宽FOV。如以上针对图5所述,针对来自远FOV的图像和来自宽FOV的图像,可将联合FOV视差估计与重叠FOV视差估计合并。可递归地重复这个方法以使用先前估计的宽FOV的深度,通过在超宽FOV与宽FOV之间的SM生成超宽FOV的深度估计。在这些示例中,超宽FOV可用作联合FOV,并且宽FOV可用作重叠FOV。
图17是根据一个实施例的网络环境中的电子装置1701的框图。参照图17,网络环境1700中的电子装置1701可经由第一网络1798(例如,短距离无线通信网络)与电子装置1702进行通信,或者经由第二网络1799(例如,长距离无线通信网络)与电子装置1704或服务器1708进行通信。电子装置1701可经由服务器1708与电子装置1704进行通信。电子装置1701可包括:处理器1720、存储器1730、输入装置1750、声音输出装置1755、显示装置1760、音频模块1770、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电源管理模块1788、电池1789、通信模块1790、用户识别模块(SIM)1796或天线模块1797。在一个实施例中,可从电子装置1701中省略多个组件中的至少一个(例如,显示装置1760或相机模块1780),或者可在电子装置1701中添加一个或多个其它组件。在一个实施例中,多个组件中的一些可被实现为单个集成电路(IC)。例如,传感器模块1776(例如,指纹传感器、虹膜传感器或照度传感器)可被嵌入在显示装置1760(例如,显示器)中。
处理器1720可执行例如软件(例如,程序1740)以控制电子装置1701的与处理器1720结合的至少一个其它组件(例如,硬件或软件组件),并且可执行各种数据处理或计算。作为数据处理或计算的至少部分,处理器1720可将从另一组件(例如,传感器模块1776或通信模块1790)接收的命令或数据加载到易失性存储器1732中,处理存储在易失性存储器1732中的命令或数据,并且将结果数据存储在非易失性存储器1734中。处理器1720可包括主处理器1721(例如,中央处理器(CPU)或应用处理器(AP))和辅助处理器1723(例如,图形处理器(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP)),辅助处理器1723可独立于主处理器1721进行操作,或者与主处理器1721协同操作。附加地或可选地,辅助处理器1723可适于比主处理器1721消耗更少的电力,或者执行特定功能。辅助处理器1723可被实现为与主处理器1721分离,或者作为主处理器1721的部分。
辅助处理器1723可在主处理器1721处于非活动(例如,睡眠)状态时代替主处理器1721,或者在主处理器1721处于活动状态(例如,执行应用)时与主处理器1721一起控制与电子装置1701的多个组件中的至少一个组件(例如,显示装置1760、传感器模块1776或通信模块1790)相关的功能或状态中的至少一些。根据一个实施例,辅助处理器1723(例如,图像信号处理器或通信处理器)可被实现为与辅助处理器1723功能上相关的另一组件(例如,相机模块1780或通信模块1790)的部分。
存储器1730可存储由电子装置1701的至少一个组件(例如,处理器1720或传感器模块1776)使用的各种数据。例如,各种数据可包括软件(例如,程序1740)和与其相关的命令的输入数据或输出数据。存储器1730可包括易失性存储器1732或非易失性存储器1734。
程序1740可作为软件存储在存储器1730中,并且可包括例如操作系统(OS)1742、中间件1744或应用1746。
输入装置1750可从电子装置1701的外部(例如,用户)接收将由电子装置1701的其它组件(例如,处理器1720)使用的命令或数据。例如,输入装置1750可包括麦克风、鼠标或键盘。
声音输出装置1755可将声音信号输出到电子装置1701的外部。例如,声音输出装置1755可包括扬声器或接收器。扬声器可用于一般目的(诸如,播放多媒体或记录),接收器可用于接收来电呼叫。根据一个实施例,接收器可被实现为与扬声器分离或者作为扬声器的部分。
显示装置1760可在视觉上向电子装置1701的外部(例如,用户)提供信息。例如,显示装置1760可包括显示器、全息图装置或投影仪以及用于控制显示器、全息图装置和投影仪中的对应一个的控制电路。根据一个实施例,显示装置1760可包括适于检测触摸的触摸电路,或者适于测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块1770可将声音转换成电信号,反之亦然。根据一个实施例,音频模块1770可经由输入装置1750获得声音,或者经由声音输出装置1755或者直接(例如,有线地)或者无线地与电子装置1701结合的外部电子装置1702的耳机来输出声音。
传感器模块1776可检测电子装置1701的操作状态(例如,电力或温度)或电子装置1701外部的环境状态(例如,用户的状态),然后生成与检测的状态对应的电信号或数据值。例如,传感器模块1776可包括姿态传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物计量传感器、温度传感器、湿度传感器或照度传感器。
接口1777可支持用于电子装置1701将直接(例如,有线地)或无线地与外部电子装置1702结合的一个或多个特定协议。根据一个实施例,例如,接口1777可包括高清多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子1778可包括连接器,电子装置1701可经由连接器与外部电子装置1702物理连接。根据一个实施例,例如,连接端子1778可包括HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块1779可将电信号转换为机械刺激(例如,振动或移动)或电刺激,机械刺激或电刺激可由用户经由触觉或动觉来识别。根据一个实施例,例如,触觉模块1779可包括马达、压电元件或电刺激器。
相机模块1780可捕获静止图像或运动图像。根据一个实施例,相机模块1780可包括一个或多个镜头、图像传感器、图像信号处理器或闪光灯。
电源管理模块1788可管理供应给电子装置1701的电力。例如,电源管理模块1788可被实现为电源管理集成电路(PMIC)的至少部分。
电池1789可向电子装置1701的至少一个组件供应电力。根据一个实施例,例如,电池1789可包括不可再充电的一次电池、可再充电的二次电池或燃料电池。
通信模块1790可支持在电子装置1701与外部电子装置(例如,电子装置1702、电子装置1704或服务器1708)之间建立直接(例如,有线)通信信道或无线通信信道,并且经由建立的通信信道执行通信。通信模块1790可包括可独立于处理器1720(例如,AP)进行操作并且支持直接(例如,有线)通信或无线通信的一个或多个通信处理器。根据一个实施例,通信模块1790可包括无线通信模块1792(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1794(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应的一个可经由第一网络1798(例如,短距离通信网络(诸如,BluetoothTM、无线保真(Wi-Fi)直连或红外数据协会(IrDA)标准)或第二网络1799(例如,长距离通信网络(诸如,蜂窝网络、因特网或计算机网络(例如,LAN或广域网(WAN))))与外部电子装置通信。这些各种类型的通信模块可被实现为单个组件(例如,单个IC),或者可被实现为彼此分离的多个组件(例如,多个IC)。无线通信模块1792可使用存储在用户识别模块1796中的用户信息(例如,国际移动用户标识(IMSI))来识别和认证通信网络(诸如,第一网络1798或第二网络1799)中的电子装置1701。
天线模块1797可向电子装置1701的外部(例如,外部电子装置)发送信号或电力,或者从电子装置1701的外部(例如,外部电子装置)接收信号或电力。根据一个实施例,天线模块1797可包括一个或多个天线,例如,通信模块1790(例如,无线通信模块1792)可从所述天线选择适合于通信网络(诸如,第一网络1798或第二网络1799)中使用的通信方案的至少一个天线。然后,可经由选择的至少一个天线在通信模块1790与外部电子装置之间发送或接收信号或电力。
上述组件中的至少一些可经由外设间通信方案(例如,总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))相互结合并且在它们之间传递信号(例如,命令或数据)。
根据一个实施例,可经由与第二网络1799结合的服务器1708在电子装置1701与外部电子装置1704之间发送或接收命令或数据。电子装置1702和1704中的每个可以是与电子装置1701相同类型或不同类型的装置。将在电子装置1701处执行的操作的全部或一些可在外部电子装置1702、外部电子装置1704或外部电子装置1708中的一个或多个处执行。例如,如果电子装置1701应当自动或者响应于来自用户或另一装置的请求来执行功能或服务,则电子装置1701可请求一个或多个外部电子装置执行功能或服务的至少部分,而不执行功能或服务,或者电子装置1701除了执行功能或服务之外,还可请求一个或多个外部电子装置执行功能或服务的至少部分。接收请求的一个或多个外部电子装置可执行请求的功能或服务的至少部分或者与请求相关的附加功能或附加服务,并且将执行的结果传送到电子装置1701。电子装置1701可在对结果进行或不进行进一步处理的情况下提供结果,作为对请求的回复的至少部分。为此,例如,可使用云计算、分布式计算或客户机-服务器计算技术。
一个实施例可被实现为软件(例如,程序440),软件包括存储在存储介质(例如,内部存储器1736或外部存储器1738)中的可由机器(例如,电子装置1701)读取的一个或多个指令。例如,电子装置1701的处理器可调用存储在存储介质中的一个或多个指令中的至少一个,并且在处理器的控制下使用或不使用一个或多个其它组件来执行它。因此,可操作机器以根据调用的至少一个指令执行至少一个功能。一个或多个指令可包括由编译器生成的代码或可由解释器执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。术语“非暂时性”指示存储介质是有形装置,并且不包括信号(例如,电磁波),但是所述术语不区分数据半永久性地存储在存储介质中的情况和数据临时存储在存储介质中的情况。
根据一个实施例,可在计算机程序产品中包括并提供根据本公开的方法。计算机程序产品可在卖方与买方之间作为产品被交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者经由应用商店(例如,PlayStoreTM)在线分发(例如,下载或上传),或者直接在两个用户装置(例如,智能电话)之间分发。如果在线分发,则计算机程序产品的至少部分可临时生成或至少临时存储在机器可读存储介质(诸如,制造商的服务器、应用商店的服务器或中继服务器的存储器)中。
根据一个实施例,上述组件的每个组件(例如,模块或程序)可包括单个实体或多个实体。可省略上述组件中的一个或多个,或者可添加一个或多个其它组件。可选地或附加地,多个组件(例如,模块或程序)可被集成到单个组件中。在这种情况下,集成的组件仍然可以以与集成之前由多个组件中的对应组件执行功能的方式相同或相似的方式执行多个组件中的每个的一个或多个功能。可顺序地、并行地、重复地或启发式地执行由模块、程序或另一组件执行的操作,或者可以以不同的顺序执行或省略操作中的一个或多个,或者可添加一个或多个其它操作。
尽管在本公开的某些实施例已经被描述在本公开的具体实施方式中,但是在不脱离本公开的范围的情况下,可以以各种形式修改本公开。因此,本公开的范围不应仅基于描述的实施例来确定,而应基于所附权利要求及其等同物来确定。

Claims (20)

1.一种电子装置,包括:
第一相机,具有第一视场;
第二相机,具有比第一视场窄的第二视场;以及
处理器,被配置为:
使用第一相机捕获第一图像,第一图像具有联合视场;
使用第二相机捕获第二图像;
确定第一图像与第二图像之间的重叠视场;
基于重叠视场生成重叠视场视差估计;
生成联合视场视差估计;以及
将联合视场视差估计与重叠视场视差估计合并。
2.根据权利要求1所述的电子装置,其中,使用利用重叠视场的立体匹配网络视差估计生成重叠视场视差估计。
3.根据权利要求1所述的电子装置,其中,处理器还被配置为:从第一图像裁剪确定的重叠视场,并且将来自第二图像的重叠视场缩放为与第一图像对应的分辨率。
4.根据权利要求3所述的电子装置,其中,处理器还被配置为使用重叠视场视差估计增强联合视场视差估计。
5.根据权利要求1所述的电子装置,其中,基于根据仅第一图像的第一视场和关于第一相机的相机基线和焦距的信息的深度估计来生成联合视场视差估计。
6.根据权利要求1所述的电子装置,其中,处理器还被配置为:基于联合视场视差估计和重叠视场视差估计中的重叠视场中的偏差和缩放标定,将联合视场视差估计与重叠视场视差估计合并。
7.根据权利要求1所述的电子装置,其中,基于从红-绿-蓝单图像视差估计网络的视差估计生成联合视场视差估计。
8.根据权利要求1所述的电子装置,其中,还从立体匹配视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。
9.根据权利要求1所述的电子装置,其中,还从多任务立体匹配视差和单图像视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。
10.根据权利要求1所述的电子装置,还包括:
第三相机,具有比第一视场宽的第三视场;
其中,处理器还被配置为:
使用第三相机捕获第三图像,第三图像具有第三视场;以及
基于第一图像的联合视场的深度估计来生成第三图像的深度估计。
11.一种用于视差估计的方法,包括:
使用具有第一视场的第一相机捕获第一图像,第一图像具有联合视场;
使用具有比第一视场窄的第二视场的第二相机捕获第二图像;
确定第一图像与第二图像之间的重叠视场;
基于重叠视场生成重叠视场视差估计;
生成联合视场视差估计;以及
将联合视场视差估计与重叠视场视差估计合并。
12.根据权利要求11所述的方法,其中,使用利用重叠视场的立体匹配网络视差估计来生成重叠视场视差估计。
13.根据权利要求11所述的方法,还包括:从第一图像裁剪确定的重叠视场,并且将来自第二图像的重叠视场缩放为与第一图像对应的分辨率。
14.根据权利要求13所述的方法,还包括:使用重叠视场视差估计增强联合视场视差估计。
15.根据权利要求11所述的方法,其中,基于根据仅第一图像的第一视场和关于第一相机的相机基线和焦距的信息的深度估计来生成联合视场视差估计。
16.根据权利要求11所述的方法,其中,基于联合视场视差估计和重叠视场视差估计中的重叠视场中的偏差和缩放标定执行将联合视场视差估计与重叠视场视差估计合并的步骤。
17.根据权利要求11所述的方法,其中,基于从红-绿-蓝单图像视差估计网络的视差估计生成联合视场视差估计。
18.根据权利要求11所述的方法,其中,还从立体匹配视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。
19.根据权利要求11所述的方法,其中,还从多任务立体匹配视差和单图像视差估计网络在零填充重叠视场与联合视场之间生成联合视场视差估计。
20.根据权利要求11所述的方法,还包括:
使用具有比第一视场宽的第三视场的第三相机捕获第三图像;以及
基于第一图像的联合视场的深度估计来生成第三图像的深度估计。
CN201911036156.4A 2018-10-29 2019-10-29 用于视差估计的电子装置和方法 Active CN111105450B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862751960P 2018-10-29 2018-10-29
US62/751,960 2018-10-29
US16/365,167 2019-03-26
US16/365,167 US11055866B2 (en) 2018-10-29 2019-03-26 System and method for disparity estimation using cameras with different fields of view

Publications (2)

Publication Number Publication Date
CN111105450A true CN111105450A (zh) 2020-05-05
CN111105450B CN111105450B (zh) 2025-01-21

Family

ID=70327544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911036156.4A Active CN111105450B (zh) 2018-10-29 2019-10-29 用于视差估计的电子装置和方法

Country Status (4)

Country Link
US (1) US11055866B2 (zh)
KR (1) KR102644273B1 (zh)
CN (1) CN111105450B (zh)
TW (1) TWI834744B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233150A (zh) * 2020-09-09 2021-01-15 北京迈格威科技有限公司 图像处理和虚化方法、装置、电子设备及存储介质
CN112857756A (zh) * 2021-04-23 2021-05-28 广州市诺以德医疗科技发展有限公司 全息固定视差的立体视程度量化装置

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109040552B (zh) 2013-06-13 2021-06-22 核心光电有限公司 双孔径变焦数字摄影机
WO2015001440A1 (en) 2013-07-04 2015-01-08 Corephotonics Ltd. Miniature telephoto lens assembly
CN108718376B (zh) 2013-08-01 2020-08-14 核心光电有限公司 具有自动聚焦的纤薄多孔径成像系统及其使用方法
US9392188B2 (en) 2014-08-10 2016-07-12 Corephotonics Ltd. Zoom dual-aperture camera with folded lens
WO2016108093A1 (en) 2015-01-03 2016-07-07 Corephotonics Ltd. Miniature telephoto lens module and a camera utilizing such a lens module
CN112394467B (zh) 2015-04-16 2023-06-09 核心光电有限公司 紧凑型折叠式相机中的自动对焦和光学图像稳定
CN112672022B (zh) 2015-08-13 2022-08-02 核心光电有限公司 视频支持和切换/无切换动态控制的双孔径变焦摄影机
EP3758356B1 (en) 2016-05-30 2021-10-20 Corephotonics Ltd. Actuator
KR101939958B1 (ko) 2016-06-19 2019-01-17 코어포토닉스 리미티드 듀얼 애퍼처 카메라 시스템에서의 프레임 동기화
US10845565B2 (en) 2016-07-07 2020-11-24 Corephotonics Ltd. Linear ball guided voice coil motor for folded optic
KR102269547B1 (ko) 2016-12-28 2021-06-25 코어포토닉스 리미티드 확장된 광-폴딩-요소 스캐닝 범위를 갖는 폴디드 카메라 구조
EP4145206A1 (en) 2017-01-12 2023-03-08 Corephotonics Ltd. Compact folded camera
EP4357832B1 (en) 2017-03-15 2025-12-24 Corephotonics Ltd. Camera with panoramic scanning range
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
KR102104761B1 (ko) 2017-11-23 2020-04-27 코어포토닉스 리미티드 컴팩트 폴디드 카메라 구조
US12307350B2 (en) 2018-01-04 2025-05-20 Tesla, Inc. Systems and methods for hardware-based pooling
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN114609746A (zh) 2018-02-05 2022-06-10 核心光电有限公司 折叠摄像装置
CN113467031B (zh) 2018-02-12 2023-07-14 核心光电有限公司 具有光学图像稳定化的折叠摄像机、数字摄像机及方法
US11268829B2 (en) 2018-04-23 2022-03-08 Corephotonics Ltd Optical-path folding-element with an extended two degree of freedom rotation range
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
WO2020039302A1 (en) 2018-08-22 2020-02-27 Corephotonics Ltd. Two-state zoom folded camera
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CA3115784A1 (en) 2018-10-11 2020-04-16 Matthew John COOPER Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
KR101995344B1 (ko) * 2019-01-22 2019-07-02 김흥수 사각지역이 없는 듀얼 깊이 카메라 모듈
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN121309748A (zh) 2019-07-31 2026-01-09 核心光电有限公司 在相机摇摄或运动中创建背景模糊的方法
US11120280B2 (en) * 2019-11-15 2021-09-14 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
US11949976B2 (en) 2019-12-09 2024-04-02 Corephotonics Ltd. Systems and methods for obtaining a smart panoramic image
WO2021165764A1 (en) 2020-02-22 2021-08-26 Corephotonics Ltd. Split screen feature for macro photography
CN110992271B (zh) * 2020-03-04 2020-07-07 腾讯科技(深圳)有限公司 图像处理方法、路径规划方法、装置、设备及存储介质
WO2021220080A1 (en) 2020-04-26 2021-11-04 Corephotonics Ltd. Temperature control for hall bar sensor correction
US11127148B1 (en) * 2020-05-12 2021-09-21 Microsoft Technology Licensing, Llc Parallax correction for partially overlapping stereo depth images
KR20240096759A (ko) * 2020-05-17 2024-06-26 코어포토닉스 리미티드 전체 시야 레퍼런스 이미지 존재 하의 이미지 스티칭
TWI772806B (zh) * 2020-05-22 2022-08-01 國立陽明交通大學 場景理解系統及方法
KR102617779B1 (ko) 2020-05-30 2023-12-22 코어포토닉스 리미티드 슈퍼 매크로 이미지를 얻기 위한 시스템 및 방법
CN113840130B (zh) * 2020-06-24 2025-12-09 中兴通讯股份有限公司 深度图生成方法、设备及存储介质
US11637977B2 (en) 2020-07-15 2023-04-25 Corephotonics Ltd. Image sensors and sensing methods to obtain time-of-flight and phase detection information
CN119583939A (zh) 2020-07-15 2025-03-07 核心光电有限公司 移动电子装置
KR102778426B1 (ko) 2020-07-31 2025-03-06 코어포토닉스 리미티드 큰 스트로크 선형 위치 감지를 위한 홀 센서-자석 구조
WO2022034402A1 (en) 2020-08-12 2022-02-17 Corephotonics Ltd. Optical image stabilization in a scanning folded camera
AU2021236537A1 (en) * 2020-11-11 2022-05-26 Aurora Flight Sciences Corporation, a subsidiary of The Boeing Company Object tracking system including stereo camera assembly and methods of use
TWI888016B (zh) 2021-03-11 2025-06-21 以色列商核心光電有限公司 彈出式照相機系統
CN112950698B (zh) * 2021-03-18 2024-03-26 北京拙河科技有限公司 基于双目散焦图像的深度估计方法、装置、介质和设备
US12254644B2 (en) 2021-03-31 2025-03-18 Leica Camera Ag Imaging system and method
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
KR20240025049A (ko) 2021-06-08 2024-02-26 코어포토닉스 리미티드 슈퍼-매크로 이미지의 초점면을 틸팅하기 위한 시스템 및 카메라
CN113592751B (zh) * 2021-06-24 2024-05-07 荣耀终端有限公司 图像处理方法、装置和电子设备
WO2023002371A1 (en) 2021-07-21 2023-01-26 Corephotonics Ltd. Pop-out mobile cameras and actuators
EP4388510A1 (en) 2021-08-19 2024-06-26 Tesla, Inc. Vision-based system training with simulated content
US12462575B2 (en) 2021-08-19 2025-11-04 Tesla, Inc. Vision-based machine learning model for autonomous driving with adjustable virtual camera
CN115714899A (zh) * 2021-08-20 2023-02-24 北京小米移动软件有限公司 微距拍摄方法、装置、电子设备和存储介质
KR20230038120A (ko) 2021-09-10 2023-03-17 에스케이하이닉스 주식회사 단일 카메라를 사용하는 깊이 추정 장치 및 깊이 추정 방법
US12315180B2 (en) * 2021-11-26 2025-05-27 Electronics And Telecommunications Research Institute Depth estimation method and apparatus using learning model
CN121115373A (zh) 2022-03-24 2025-12-12 核心光电有限公司 薄型紧凑透镜光学图像稳定
WO2024107200A1 (en) * 2022-11-18 2024-05-23 Zeku, Inc. Multi-sensor image processing on mobile devices and method of operating the same
CN116503570B (zh) * 2023-06-29 2023-11-24 聚时科技(深圳)有限公司 图像的三维重建方法及相关装置
WO2025084568A1 (ko) * 2023-10-18 2025-04-24 삼성전자 주식회사 서로 다른 종류의 카메라들로부터 획득된 이미지를 처리하는 헤드 마운티드 디스플레이 장치 및 그 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130129194A1 (en) * 2011-11-21 2013-05-23 Robo-team Ltd. Methods and systems of merging depth data from a plurality of disparity maps
US20150055821A1 (en) * 2013-08-22 2015-02-26 Amazon Technologies, Inc. Multi-tracker object tracking
CN107636692A (zh) * 2015-07-07 2018-01-26 三星电子株式会社 图像捕获设备及操作其的方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009201637B2 (en) 2009-04-24 2011-08-11 Canon Kabushiki Kaisha Processing multi-view digital images
JP2012247364A (ja) 2011-05-30 2012-12-13 Panasonic Corp ステレオカメラ装置、ステレオカメラシステム、プログラム
US10848731B2 (en) * 2012-02-24 2020-11-24 Matterport, Inc. Capturing and aligning panoramic image and depth data
US9117277B2 (en) 2012-04-04 2015-08-25 Canon Kabushiki Kaisha Determining a depth map from images of a scene
WO2014031795A1 (en) * 2012-08-21 2014-02-27 Pelican Imaging Corporation Systems and methods for parallax detection and correction in images captured using array cameras
US9519972B2 (en) 2013-03-13 2016-12-13 Kip Peli P1 Lp Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
US10119808B2 (en) 2013-11-18 2018-11-06 Fotonation Limited Systems and methods for estimating depth from projected texture using camera arrays
WO2015081279A1 (en) * 2013-11-26 2015-06-04 Pelican Imaging Corporation Array camera configurations incorporating multiple constituent array cameras
EP2887311B1 (en) 2013-12-20 2016-09-14 Thomson Licensing Method and apparatus for performing depth estimation
CN103810685B (zh) 2014-02-25 2016-05-25 清华大学深圳研究生院 一种深度图的超分辨率处理方法
US20150334309A1 (en) * 2014-05-16 2015-11-19 Htc Corporation Handheld electronic apparatus, image capturing apparatus and image capturing method thereof
US9888229B2 (en) 2014-06-23 2018-02-06 Ricoh Company, Ltd. Disparity estimation for multiview imaging systems
US10074158B2 (en) 2014-07-08 2018-09-11 Qualcomm Incorporated Systems and methods for stereo depth estimation using global minimization and depth interpolation
US9712807B2 (en) 2014-09-08 2017-07-18 Intel Corporation Disparity determination for images from an array of disparate image sensors
US20160150219A1 (en) 2014-11-20 2016-05-26 Mantisvision Ltd. Methods Circuits Devices Assemblies Systems and Functionally Associated Computer Executable Code for Image Acquisition With Depth Estimation
CN107924572B (zh) 2015-04-17 2021-06-15 快图有限公司 使用阵列相机执行高速视频捕获和深度估计的系统和方法
US9942474B2 (en) 2015-04-17 2018-04-10 Fotonation Cayman Limited Systems and methods for performing high speed video capture and depth estimation using array cameras
EP3286914B1 (en) 2015-04-19 2019-12-25 FotoNation Limited Multi-baseline camera array system architectures for depth augmentation in vr/ar applications
US10326981B2 (en) 2015-05-15 2019-06-18 Semyon Nisenzon Generating 3D images using multi-resolution camera set
CN106612387B (zh) 2015-10-15 2019-05-21 杭州海康威视数字技术股份有限公司 一种组合深度图获得方法及深度相机
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network
US9900584B2 (en) 2016-04-27 2018-02-20 Semyon Nisenzon Depth map generation based on cluster hierarchy and multiple multiresolution camera clusters
US10223775B2 (en) * 2016-09-14 2019-03-05 Omnivision Technologies, Inc. Array camera image combination with feature-based ghost removal
JP6929047B2 (ja) * 2016-11-24 2021-09-01 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
WO2018136262A1 (en) * 2017-01-20 2018-07-26 Aquifi, Inc. Systems and methods for defect detection
US10671082B2 (en) * 2017-07-03 2020-06-02 Baidu Usa Llc High resolution 3D point clouds generation based on CNN and CRF models
US10297070B1 (en) * 2018-10-16 2019-05-21 Inception Institute of Artificial Intelligence, Ltd 3D scene synthesis techniques using neural network architectures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130129194A1 (en) * 2011-11-21 2013-05-23 Robo-team Ltd. Methods and systems of merging depth data from a plurality of disparity maps
US20150055821A1 (en) * 2013-08-22 2015-02-26 Amazon Technologies, Inc. Multi-tracker object tracking
CN107636692A (zh) * 2015-07-07 2018-01-26 三星电子株式会社 图像捕获设备及操作其的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID EIGEN等: ""Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture"", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 18 February 2016 (2016-02-18), pages 2650 - 2658 *
DINGRUI WAN等: ""Multiresolution and Wide-Scope Depth Estimation Using a Dual-PTZ-Camera System"", 《TRANSACTIONS ON IMAGE PROCESSING》, vol. 18, no. 3, 31 March 2009 (2009-03-31), pages 677 - 682 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233150A (zh) * 2020-09-09 2021-01-15 北京迈格威科技有限公司 图像处理和虚化方法、装置、电子设备及存储介质
CN112857756A (zh) * 2021-04-23 2021-05-28 广州市诺以德医疗科技发展有限公司 全息固定视差的立体视程度量化装置
CN112857756B (zh) * 2021-04-23 2021-08-06 广州市诺以德医疗科技发展有限公司 全息固定视差的立体视程度量化装置

Also Published As

Publication number Publication date
TW202016505A (zh) 2020-05-01
KR102644273B1 (ko) 2024-03-06
US11055866B2 (en) 2021-07-06
KR20200049502A (ko) 2020-05-08
TWI834744B (zh) 2024-03-11
CN111105450B (zh) 2025-01-21
US20200134848A1 (en) 2020-04-30

Similar Documents

Publication Publication Date Title
CN111105450B (zh) 用于视差估计的电子装置和方法
TWI808987B (zh) 將相機與陀螺儀融合在一起的五維視頻穩定化裝置及方法
CN109767383B (zh) 用于使用卷积神经网络的视频超分辨率的方法和设备
TWI822987B (zh) 用於確定影像的深度資訊的系統及方法
US11924550B2 (en) Method for processing image by using artificial neural network, and electronic device supporting same
KR20190032061A (ko) 이미지 보정을 수행하는 전자 장치 및 그 동작 방법
US11107198B2 (en) Method and apparatus for incorporating noise pattern into image on which bokeh processing has been performed
US11270420B2 (en) Method of correcting image on basis of category and recognition rate of object included in image and electronic device implementing same
US11363199B2 (en) Apparatus and method for estimating optical image stabilization motion
CN112840644B (zh) 利用相机或深度传感器中的至少一个获取深度信息的电子装置和方法
US10929961B2 (en) Electronic device and method for correcting images using external electronic device
CN111311533A (zh) 用于确定图像清晰度的设备和方法
EP3850826B1 (en) Electronic device for controlling frame rate of image sensor and method thereof
CN112927271A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
US11354777B2 (en) Image processing device and method of electronic device
KR20190019606A (ko) 심도 맵을 이용하여 객체를 합성하기 위한 장치 및 그에 관한 방법
KR20200113522A (ko) 제스처 입력에 따라 기능을 실행하는 전자 장치 및 이의 동작 방법
CN113362260A (zh) 图像优化方法及装置、存储介质及电子设备
CN114078113A (zh) 用于基于代价-体注意力的视差估计的系统和方法
KR20190067438A (ko) 이미지를 제공하기 위한 방법 및 이를 지원하는 전자 장치
CN113610724B (zh) 图像优化方法及装置、存储介质及电子设备
US20190349519A1 (en) Electronic device and image processing method therefor
US11341595B2 (en) Electronic device for providing image related to inputted information, and operating method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant