CN117813603A - 生成用于神经网络的扩充训练数据的系统和方法 - Google Patents
生成用于神经网络的扩充训练数据的系统和方法 Download PDFInfo
- Publication number
- CN117813603A CN117813603A CN202180101179.8A CN202180101179A CN117813603A CN 117813603 A CN117813603 A CN 117813603A CN 202180101179 A CN202180101179 A CN 202180101179A CN 117813603 A CN117813603 A CN 117813603A
- Authority
- CN
- China
- Prior art keywords
- images
- image
- training
- pose
- boundary value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种机器人系统,其能够用从初始图像数据集合成地扩充的多个图像来被训练,该机器人系统包括朝向该目的的训练系统。图像扩充系统在一种形式中包括神经网络,该神经网络被训练成使用生成性对抗网络来生成合成图像,该生成性对抗网络包括合成具有各种姿态的图像的能力以及对图像参数(例如光和颜色等)的调节。在另一种形式中,图像扩充系统包括使用仿射变换从其原始姿态投影或变换到多个不同姿态的图像集合,以及在产生各种潜在姿态的预期机器人移动的整个维度空间上前进的能力。
Description
技术领域
本公开总体上涉及车辆制造中的机器人操作,并且更具体地但不排他地涉及用于在最终装饰和组装机器人操作中训练神经网络的扩充训练集。
背景技术
在汽车组装的最终装饰和组装(FTA)阶段期间可以执行各种操作,包括例如门组装,驾驶舱组装和座椅组装,以及其它类型的组装。然而,由于各种原因,通常只有相对少量的FTA任务是自动的。例如,通常在FTA阶段期间,当操作者执行FTA操作时,经历FTA的(多个)车辆在以相对连续的方式移动(多个)车辆的(多个)线路上运输。然而,(多个)车辆的这种连续运动可导致或产生至少关于(多个)车辆的运动和/或位置和/或车辆的在FTA中涉及的部分的某些不规则性。此外,这种运动可导致车辆在FTA期间经受运动不规则性、振动和平衡问题,这可防止或不利于精确跟踪直接包含在FTA中的车辆的特定部件、部分或区域的能力。传统上,基于三维模型的计算机视觉匹配算法需要对初始值进行细微的调整,并且由于诸如改变光照条件、部件颜色改变和上述其它干扰之类的挑战而频繁地失去跟踪。因此,这种关于可重复性的变化和关注常常会妨碍在FTA操作中使用机器人运动控制。
因此,尽管目前市场上可以获得各种机器人控制系统,但是进一步的改进可以提供一种系统和装置来校准和调整机器人控制系统以适应这种运动不规则性。
发明内容
本公开的一个实施例是一种用于开发用于车辆制造操作中的神经网络的训练数据的扩充系统。其它实施例包括用于使用仿射变换或生成性对抗网络来生成扩充数据的装置,系统,设备,硬件,方法和组合。本申请的其它实施例,形式,特征,方面,益处和优点将从本文提供的描述和附图中变得显而易见。
附图说明
图1示出了根据本申请的所示实施例的示例性机器人系统的至少一部分的示意图。
图2示出了示例性机器人站的示意图,车辆通过该机器人站由自动或自动引导车辆(AGC)移动,并且该机器人站包括安装到机器人基座的机器人,该机器人基座可沿轨道或通过轨道移动。
图3示出了可用于控制机器人运动的传感器输入。
图4示出了具有移动组装基座和移动机器人基座的装配线。
图5示出了训练系统的一个实施例的流程图,其中生成器网络创建用于扩充训练集的现实图像。
图6示出了实现生成器网络的一个实施例的流程图。
图7示出了描述与机器人操作相关的图像采集的实施例。
图8示出了更新用于扩充数据集的超八分体创建的边界值的流程图。
图9示出了在扩充数据集的创建中对所选择的超八分体使用仿射变换的过程的一个实施例。
具体实施方式
为了促进对本发明原理的理解,现在将参考附图中示出的实施例,并且将使用特定语言来描述这些实施例。然而,应当理解,本发明的范围并不因此而受到限制。在所描述的实施例中的任何改变和进一步的修改,以及如在此描述的本发明的原理的任何进一步的应用被预期为对于本发明所涉及的领域的技术人员通常会想到的。
为了方便起见,在前面的描述中使用了某些术语,但这些术语并不是限制性的。诸如“上”,“下”,“顶”,“底”,“第一”和“第二”的词语表示附图中的方向。该术语包括以上具体指出的词语、其派生词和类似含义的词语。另外,词语“一”和“一个”被定义为包括一个或多个所引用的项目,除非特别指出。短语“至少一个”后面跟着两个或更多个项目的列表,诸如“A,B或C”,是指A,B或C中的任何单独的一个,以及其任何组合。
图1示出了示例性机器人系统100的至少一部分,该机器人系统包括至少一个机器人站102,该机器人站例如经由通信网络或链路118通信地耦合到至少一个管理系统104。管理系统104相对于机器人站102可以是本地的或远程的。此外,根据某些实施例,管理系统104可以是基于云的。此外,根据某些实施例,机器人站102还可以包括一个或多个补充数据库系统105,或者经由通信网络或链路118与一个或多个补充数据库系统105可操作地通信。补充数据库系统105可以具有各种不同的配置。例如,根据所示实施例,补充数据库系统105可以是但不限于基于云的数据库。
根据某些实施例,机器人站102包括具有一个或多个自由度的一个或多个机器人106。例如,根据某些实施例,机器人106可以具有例如六个自由度。根据某些实施例,末端执行器108可以耦合或安装到机器人106。末端执行器108可以是安装到机器人106的腕部或臂110上的工具、组件和/或部件。此外,腕部或臂110和/或末端执行器108的至少一部分可以通过机器人106和/或末端执行器108的操作相对于机器人106的其他部分可移动,例如通过管理系统104的操作者和/或通过被执行以操作机器人106的程序。
机器人106可以可操作地将末端执行器108定位和/或定向在机器人106的工作包络或工作空间的范围内的位置处,这可以适应机器人106利用末端执行器108来执行工作,包括例如抓握和保持一个或多个部件,零件,包装,设备,组件或产品以及其他项目(在此统称为“部件”)。机器人106可利用多种不同类型的末端执行器108,包括例如可抓取,抓紧或以其它方式选择性地保持和释放在车辆组装期间的最终装饰和组装(FTA)操作以及其它类型的操作中所利用的部件的工具。例如,机器人的末端执行器108可用于操纵主要部件(例如,车辆的构成部件,或在组装时的车辆本身)的组成部件(例如,车门)。
机器人106可以包括或电耦合到一个或多个机器人控制器112。例如,根据某些实施例,机器人106可以包括和/或电耦合到一个或多个控制器112,控制器112可以是或可以不是分立的处理单元,例如单个控制器或任何数量的控制器。控制器112可以被配置成提供多种功能,包括例如用于选择性地将电功率递送到机器人106,控制机器人106的运动和/或操作,和/或控制安装到机器人106的其他设备(包括例如末端执行器108)的操作,和/或未安装到机器人106但与机器人106的操作和/或与机器人106的操作和/或运动相关联的设备集成的设备的操作。此外,根据某些实施例,控制器112可以被配置成动态地控制机器人106本身的移动,以及机器人106所安装或联接到的其他装置的移动,包括例如在其他装置中,机器人106沿着轨道130或移动平台(例如AGV)的移动,或可替代地通过轨道130或移动平台的移动,机器人106经由机器人基座142安装到AGV,如图2所示。
控制器112可以采用各种不同的形式,并且可以被配置为执行程序指令以执行与操作机器人106相关联的任务,包括操作机器人106以执行各种功能,例如但不限于这里描述的任务以及其他任务。在一种形式中,控制器112是基于微处理器的,并且程序指令是以存储在一个或多个存储器中的软件的形式。备选地,控制器112中的一个或多个及由此执行的程序指令可呈软件、固件及硬件的任何组合的形式,包括状态机,且可反映分立器件和/或集成电路的输出,所述分立器件和/或集成电路可共同位于特定位置处或分布在一个以上位置上,包含被配置成实现与执行基于软件或固件的指令的基于处理器的控制器相同或类似的结果的任何数字和/或模拟装置。从控制器112确定和/或发送的操作、指令和/或命令(为了便于参考在此统称为'指令')可以基于存储在控制器112、其它计算机和/或可访问或与控制器112电通信的存储器中的非暂态计算机可读介质中的一个或多个模型。应了解,可将前述形式中的任一者描述为可用于执行指令的“电路”,无论所述电路是集成电路,软件,固件等。这样的指令在“电路”中表达以执行控制器112可以采取的动作(例如,发送命令,计算值等)。
根据所示实施例,控制器112包括可接受运动命令并提供实际运动数据的数据接口。例如,根据某些实施例,控制器112可通信地耦合到悬架式操纵台,例如示教悬架式操纵台,其可用于控制机器人106和/或末端执行器108的至少某些操作。
在一些实施例中,机器人站102和/或机器人106还可以包括一个或多个传感器132。传感器132可以包括各种不同类型的传感器和/或不同类型传感器的组合,包括但不限于视觉系统114,力传感器134,运动传感器,加速度传感器和/或深度传感器,以及其它类型的传感器。应当理解,并非所有实施例都需要包括所有传感器(例如,一些实施例可以不包括运动、力传感器等)。此外,可以集成由这些传感器132中的至少一些提供的信息,包括例如通过使用算法,使得机器人106的操作和/或移动以及其他任务可以至少通过传感器融合来引导。因此,至少如图1和图2所示,由一个或多个传感器132(例如,视觉系统114和力传感器134,以及其他传感器132)提供的信息可以由管理系统104的控制器120和/或计算构件124处理,使得由不同传感器132提供的信息可以以能够减小机器人106的运动和/或任务的执行中的不确定性程度的方式组合或集成。
根据所示实施例,视觉系统114可包括一个或多个视觉设备114a,其可用于观察机器人站102的至少一部分,包括但不限于观察部件、组件和/或车辆,以及可定位在机器人站102中或移动通过机器人站102的至少一部分的其它设备或组件。例如,根据某些实施例,视觉系统114可以提取定位或放置在机器人站102中的各种类型的视觉特征的信息,例如在车辆上和/或在自动引导车辆(AGV)上,该自动引导车辆在其他位置中移动车辆通过机器人站102,并且使用这样的信息等其他信息来至少辅助引导机器人106的移动,机器人106沿着轨道130或移动平台(例如机器人站102中的AGV(图2))的移动,和/或末端执行器108的移动。此外,根据某些实施例,视觉系统114可以被配置成获得和/或提供关于可用于校准机器人106的传感器132的一个或多个校准特征的位置、地点和/或取向的信息。
根据某些实施例,视觉系统114可以具有数据处理能力,该数据处理能力能够处理从视觉设备114a获得的数据或信息,这些数据或信息可以被传送到控制器112。备选地,根据某些实施例,视觉系统114可以不具有数据处理能力。相反,根据某些实施例,视觉系统114可以电耦合到机器人站102的计算构件116,该计算构件116适于处理从视觉系统114输出的数据或信息。另外,根据某些实施例,视觉系统114可以可操作地耦合到通信网络或链路118,使得由视觉系统114输出的信息可以由管理系统104的控制器120和/或计算构件124处理,如下所述。
视觉系统114的视觉设备114a的示例可包括(但不限于)一个或多个成像捕获设备,例如,可安装在机器人站102内的一个或一个以上二维、三维和/或RGB相机,包括(例如)大体安装在机器人106的工作区域上方或周围,安装到机器人106和/或安装在机器人106的末端执行器108上等其它位置。因此应当清楚,在一些形式中,相机可以相对于可移动机器人固定在适当的位置,但是在其它形式中,相机可以固定以与机器人一起移动。一些视觉系统114可以仅包括一个视觉设备114a。此外,根据某些实施例,视觉系统114可以是基于位置或基于图像的视觉系统。另外,根据某些实施例,视觉系统114可以利用运动控制或动态控制。
根据所示实施例,除了视觉系统114之外,传感器132还包括一个或多个力传感器134。力传感器134例如被配置为在组装过程中感测接触力,例如机器人106,末端执行器108和/或由机器人106保持的部件与机器人站102内的车辆136和/或其它部件或结构之间的接触力。在一些实施例中,来自(多个)力传感器134的这种信息可以与由视觉系统114提供的信息组合或集成,使得在车辆136的组装期间机器人106的运动至少部分地由传感器融合引导。
根据图1所示的示例性实施例,管理系统104可以包括至少一个控制器120,数据库122,计算构件124和/或一个或多个输入/输出(I/O)设备126。根据某些实施例,管理系统104可以被配置成提供机器人106的操作者直接控制,以及向机器人站102提供至少某些编程或其他信息和/或用于机器人106的操作。此外,管理系统104可以被构造成从机器人站102或管理系统104的操作者接收命令或其他输入信息,包括例如经由输入/输出设备126的操作或选择性接合/与输入/输出设备126的选择性接合而生成的命令。经由使用输入/输出设备126的这种命令可以包括但不限于通过接合或使用麦克风,键盘,触摸屏,操纵杆,触笔型装置和/或可由操作者操作、操纵和/或移动的感测装置等输入/输出设备而提供的命令。此外,根据某些实施例,输入/输出设备126可包括一个或多个监测器和/或显示器,该一个或多个监测器和/或显示器可以向操作者提供信息,包括例如与管理系统104的操作者所提供的命令或指令有关的信息,从补充数据库系统105和/或机器人站102接收的信息/向补充数据库系统105和/或机器人站102发送的信息,和/或在机器人106运行(或试图运行)程序或过程时生成的通知。例如,根据某些实施例,输入/输出设备126可以显示例如通过使用视觉系统114的至少视觉设备114a获得的图像,无论是实际的还是虚拟的。在一些形式中,管理系统104可以允许机器人106的自主操作,同时还向操作者提供诸如关闭或暂停命令等的功能特征。
根据某些实施例,管理系统104可以包括具有控制器120的任何类型的计算设备,例如膝上型计算机,台式计算机,个人计算机,可编程逻辑控制器(PLC)或移动电子设备,以及其他计算设备,其包括大小和操作足以存储和操纵数据库122的存储器和处理器,以及用于至少经由通信网络或链路118与机器人站102通信的一个或多个应用。在某些实施例中,管理系统104可以包括连接设备,该连接设备可以经由以太网WAN/LAN连接以及其它类型的连接与通信网络或链路118和/或机器人站102通信。在某些其他实施例中,管理系统104可以包括web服务器或web门户,并且可以使用通信网络或链路118经由因特网与机器人站102和/或补充数据库系统105通信。
管理系统104可以位于相对于机器人站102的各种位置。例如,管理系统104可以在与机器人站102相同的区域,相同的房间,相邻的房间,相同的建筑物,相同的工厂位置,或者备选地,在相对于机器人站102的远程位置。类似地,补充数据库系统105,如果有的话,也可以位于相对于机器人站102和/或相对于管理系统104的各种位置。因此,通信网络或链路118可以至少部分地基于机器人站102,管理系统104和/或补充数据库系统105的位置之间的物理距离(如果有的话)来构造。
根据所示实施例,通信网络或链路118包括一个或多个通信链路118(图1中的通信链路1-N)。另外,系统100可被操作以通过使用通信网络或链路118在机器人站102,管理系统104和/或补充数据库系统105之间维持相对可靠的实时通信链路。因此,根据某些实施例,系统100可以基于通信链路118的当前可用数据速率和/或传输时间来改变通信链路118的参数,包括例如对所利用的通信链路118的选择。
通信网络或链路118可以以各种不同的方式构造。例如,机器人站102,管理系统104和/或补充数据库系统105之间的通信网络或链路118可以通过使用多种不同类型的通信技术中的一种或多种来实现,包括但不限于,通过使用基于类似或不同类型和层的数据协议的基于光纤,无线电,电缆或无线的技术。例如,根据某些实施例,通信网络或链路118可以利用具有无线局域网(WLAN),局域网(LAN),蜂窝数据网络,蓝牙,ZigBee,点对点无线电系统,激光-光学系统和/或卫星通信链路以及其它无线工业链路或通信协议的以太网安装。
管理系统104的数据库122和/或补充数据库系统105的一个或多个数据库128可以包括各种信息,这些信息可以用于标识机器人106在其中操作的机器人站102内的元件。例如,如下面更详细地讨论的,数据库122,128中的一个或多个可以包括或存储在图像的检测,解释和/或解译中使用的信息或由视觉系统114检测到的其他信息,例如与传感器132的校准结合使用的特征,或与跟踪对象结合使用的特征,例如机器人空间中的部件组件或其他设备(例如,如下所述的标记物)。
附加地或备选地,这样的数据库122,128可以包括关于一个或多个传感器132的信息,包括例如关于力或力的范围的信息,所述力或力的范围至少在机器人106执行工作时通过使用位于机器人站102中的一个或多个不同位置处和/或沿着车辆136的一个或多个力传感器134而预期被检测。另外,数据库122,128中的信息还可以包括用于至少初始地校准一个或多个传感器132的信息,包括例如与第一校准特征相关联的第一校准参数和与第二校准特征相关联的第二校准参数。
管理系统104的数据库122和/或补充数据库系统105的一个或多个数据库128还可以包括有助于辨别机器人站102内的其他特征的信息。例如,由视觉系统114的一个或多个视觉设备114a捕获的图像可用于通过使用来自数据库122的信息来标识机器人站102内的FTA组件,包括采摘仓内的FTA组件以及可由机器人106用于执行FTA的其它组件。
图2示出了示例性机器人站102的示意图,车辆136通过该机器人站102由自动或自动引导车辆(AGV)138移动,并且该机器人站包括安装到机器人基座142的机器人106,该机器人基座142可沿轨道130或诸如AGV的移动平台移动或通过轨道130或诸如AGV的移动平台移动。虽然至少出于说明的目的,图2中描绘的示例机器人站102被示出为具有或邻近车辆136和相关联的AGV 138,但是机器人站102可以具有多种其他布置和元件,并且可以在多种制造,组装和/或自动化过程中使用。如图所示,AGV可沿着轨道144行进,或者可替代地在轮子上沿着地板行进,或者可以其它已知方式沿着组装路线行进。此外,虽然所描绘的机器人站102可以与机器人106的初始设置相关联,但是站102也可以与机器人106在组装和/或生产过程中的使用相关联。
另外,虽然图2所示的示例示出了单个机器人站102,但是根据其他实施例,机器人站102可以包括多个机器人站102,每个站102具有一个或多个机器人106。所示的机器人站102还可包括一个或多个AGV 138,供应线或输送器,感应输送器和/或一个或多个分类输送器,或与它们一起操作。根据所示的实施例,AGV 138可相对于一个或多个机器人站102定位和操作,以便运输例如车辆136,车辆136可接收车辆136的一个或多个部件,或以其它方式与车辆136的一个或多个部件组装或包括车辆136的一个或多个部件,车辆136的一个或多个部件包括例如门组件,驾驶舱组件和座椅组件,以及其它类型的组件和部件。类似地,根据所示实施例,轨道130可相对于一个或多个机器人106定位和操作,以便于由机器人106将部件组装到经由AGV 138移动的车辆136。此外,轨道130或诸如AGV的移动平台,机器人基座142和/或机器人可被操作,使得机器人106以至少大致跟随AGV 138的运动并因此跟随AGV138上的车辆136的运动的方式移动。此外,如前所述,机器人106的这种移动还可以包括至少部分地由一个或多个力传感器134提供的信息引导的移动。
图3是可以提供给机器人控制器112以便控制机器人106移动的传感器输入150-160的图示。例如,机器人组装系统可以设置有与双向控制器150B通信的双向控制传感器150A。还可以提供与力控制器152B通信的力传感器152A(或134)。还可以提供与视觉控制器154B(或114)通信的相机154A(或114A)。还可以提供与振动控制器156B通信的振动传感器156A。还可以提供与跟踪控制器158B通信的AGV跟踪传感器158A。还可以提供与补偿控制器160B通信的机器人基座运动传感器160A。各个传感器输入150-160中的每一个与机器人控制器112通信,并且可以融合在一起以控制机器人106的运动。
图4是其上安装有机器人106的机器人基座142的实施例的另一图示。机器人基座142可以沿着轨道130或与轮子一起沿着地板行进,以沿着由装配底座138(或AGV 138)限定的装配线移动。机器人106具有可相对于机器人基座142移动的至少一个可移动臂162,尽管机器人106优选具有通过关节连接的多个可移动臂162以提供高度的移动灵活性。
现在转到图5和图6,公开了一种系统(其可以由控制器120以某些形式实现)的实施例,该系统被构造成生成诸如车辆的部件组件和/或主要部件的现实图像。这种现实图像的生成可以在给定现实图像的期望姿态和/或颜色和光照参数之一或两者的情况下创建。图5示出了一个流程图,其中有限数量的现实世界训练图像与对应的参数(图像中的部件的6-D姿态坐标,颜色,光照等)配对,然后这些参数用于训练从生成性对抗网络(GAN)范例164构建的“生成器网络”。可以理解,6-D姿态坐标是相对于原点沿三个轴的三个平移,以及围绕这三个轴的三个旋转。
在166处将现实世界图像连同对应的图像参数(姿态,颜色,光照等)一起提供给系统。并非所有实施例都需要包括整套图像参数。一些形式可能仅包括姿态。在168处提供图像参数以开始生成器网络的处理或训练。图像参数在170处被提供给计算机生成的模型(在所示实施例中的计算机辅助设计模型,但是也可以设想其它模型类型),在172从该模型生成原始合成图像。
生成器网络在174处被构造成改变原始合成图像172,并且在176处提供细化的合成图像,该图像经由鉴别器网络178与来自166中的图像的现实世界图像进行比较,现实世界图像对应于在CAD模型170的生成中使用的相同图像参数。
鉴别器网络178是分类器,它试图确定细化的合成图像是否是现实的,并且被构造成在180处产生输出预测,从该输出预测可以将标记返回到生成器网络174。鉴别器网络178将循环通过所有训练图像,并且在某种意义上与生成器网络174竞争,以将“合成”图像标记为非现实的,但是生成器网络174始终改进其利用来自鉴别器网络178的标记反馈来改变原始合成图像的能力。可以使用阈值来确定生成器网络174何时被充分训练,使得它提供充分真实的细化合成图像。这种阈值的示例可以是但不限于鉴别器网络178的预测准确度和/或精度和/或回忆。
图6示出了来自图5所示的GAN过程的生成器网络174的实现,用以创建任意数量的现实合成图像。任何数量的期望的6D姿态坐标、颜色参数和光照参数182可以被预先定义,或者由考虑任何数量的期望设置的例程自动定义。以类似于图6中基于计算机的模型的方式,将期望参数提供给计算机模型170,并在172处输出原始合成图像。使用图5中描述的过程来训练的生成器网络174能够在184处仅基于期望的6D姿态坐标和诸如颜色和光照的图像属性来产生现实的合成图像。在可能不方便、昂贵或不可能获得现实图像的情况下,在姿态、颜色、光照等的图像参数的任何数目的组合上,任何数目的现实合成图像是可能的。
现在转到图7、图8和图9,描绘了用于从初始但有限的图像训练集合成地生成附加图像的另一系统和方法。图7示出了用于通过操作机器人来收集初始训练图像集的操作的流程图。图7所示的操作可以完成一次或多次,以收集初始训练图像集。简要地说,流程图从186开始,程序开始机器人组装,如果在188处没有完成组装,则在190处操作机器人向车辆移动。当机器人向车辆移动时,在192处收集图像。在一种形式中,可以用闪光同步相机收集图像。在194处,确定车辆的姿态并将其与所拍摄的车辆图像进行匹配。可以使用任何种类的技术来确定姿态,包括基于特征的对象跟踪和/或基于神经网络的姿态回归,仅举几个例子。在姿态与图像匹配之后,流程返回到188以确定组装是否完成。如果否,则在190处再次移动机器人,在192处收集图像,并且在194处使姿态与图像匹配。当在188处确定组装完成时,系统在196处停止。
图8描述了为与三个平移和三个旋转中的每一个相关的最大和最小姿态值确定边界值的过程。边界值的初始集合在196处被设置,并且随着图8中的操作的进行而被潜在地更新。可以基于系统的运动学分析来设置初始边界值,但是也可以考虑其他评估。在图7中收集的来自图像的初始训练集的所有图像,或者如果需要的子集,以串行方式循环通过图8中的操作。以一个图像为例,步骤198将从给定图像获得姿态数据,并且如果来自6-D姿态集合的任何姿态值在200处更极端(即6-D的姿态数据的任何姿态值大于与其相应轴相关联的最大边界值且小于与其相应轴相关联的最小边界值),然后在步骤202处将相关联的边界值重设为姿态中的值。如果姿态不是更极端,则操作前进到步骤204以确定来自图7的初始图像集的每个图像是否已经由图8的操作评估。如果还有更多的图像要被评估,则操作返回到步骤198。然而,如果已经处理了所有图像,则该过程在206处设置边界值,并且该过程前进到包括在图9中的步骤208。图8中的过程不需要在每个实施例中使用。一些实施例可以允许初始训练集在范围上不与用于图9中详述的过程的最大和最小边界值重叠。
图9所示的过程开始于步骤210,在该步骤中,来自图8的边界值最大值和最小值形式的信息与沿每个单独维度(每个平移和旋转轴)的分区的数目N的选择结合使用。为了简单起见,在所示实施例中,沿每个单独维度的分区数目都等于N,但是在一些形式中,任何单独维度可以具有不同数目的分区。此外,尽管可以设想分区将沿维度等间隔,但在一些非限制性实施例中,分区可以不等间隔。
另外,在边界值最大值和最小值的宽范围的一些实施例中,值N(即,分区的数目)可基于预定义的最大允许段大小来动态地确定。可以理解,分区用于形成每个维度的不同段,很像网格模式划分图的不同段。分割的轴形成用于旋转和平移中的每一个的三维网格,其结果可以被认为是“超八分体(hyper-octant)”,其在每个轴的一端具有最大边界值,在每个相应轴的相对端具有最小边界值,并且其间具有任意数量的分区。
一旦定义了超八分体,图9中的过程继续从训练图像的初始集合中选择图像/姿态配对。然后,图9前进到214以生成随机抽样(所示实施例中的均匀随机抽样,但也可考虑其它分布),每个超八分体中的单个目标点(目标姿态)。给定每个超八分体中的目标点,该过程然后利用仿射变换将在212处获得的原始图像/姿态配对转换成每个目标点(目标姿态)处的新图像/姿态配对。如果在给定原始图像的情况下不是所有目标点都已被用于生成新的图像/姿态配对,则该过程循环回到214,但是如果所有目标点(目标姿态)都已被耗尽,则该过程移动到220,在220中存储从原始图像/姿态配对的仿射变换得到的所有新的图像/姿态配对。一旦在220中完成了对原始图像的处理,则过程移动到222,在222中使用步骤214,216,218和220来确定来自训练图像的初始集合的任何其他图像是否仍有待变换。如果是,则过程返回212以获得另一图像/姿态配对。然而,如果所有图像已经耗尽,则过程前进到224,在224输出新的扩充训练集(例如,存储在数据库中)。一旦创建了整个扩充训练集,就可以在226处在扩充训练集上训练神经网络。
本申请的一个方面包括一种为神经网络扩充稀疏训练数据的方法,该方法包括:提供用于训练神经网络的第一训练图像集合,所述第一训练图像集合中的每个图像具有对应的姿态,所述姿态包括沿三个独立轴中的每个轴的平移值和围绕所述三个独立轴中的每个轴的旋转值;标识除所述第一训练图像集合之外要用于训练所述神经网络的期望的图像集合,所述期望的图像集合中的每个图像具有期望的姿态;以及基于所述第一训练图像集合、所述期望的附加图像集合以及所述期望的附加图像集合中的每个图像的姿态来合成地提供扩充的附加图像集合。
本申请的特征包括其中所述合成地提供包括将所述第一训练图像集合提供给生成性对抗网络以生成经训练的生成器网络。
本申请的另一特征包括其中提供第一训练图像集合还包括提供与第一图像集合的每个图像相关联的至少一个图像参数,其中至少一个图像参数包括姿态以及光照参数和颜色参数中的至少一个,并且其中第一训练图像集合的每个图像是二维(2D)图像。
本申请的又一特征包括其中所述至少一个图像参数包括姿态、光照参数和颜色。
本申请的又一特征包括其中期望的附加图像集合包括用于期望的附加图像集合中的每个图像的至少一个图像参数中的至少一个,并且还包括从基于计算机的模型为期望的附加图像集合中的每个图像生成原始合成图像,并且将经训练的生成器网络应用于每个原始合成图像以提供扩充的附加图像集合。
本申请的又一特征包括其中对第一训练图像集合的操作包括为三个旋转和三个平移中的每一个定义边界值最大值和边界值最小值,这三个旋转和三个平移一起定义与图像捕获相关联的六个维度。
本申请的又一特征包括其中定义边界值最大值和边界值最小值包括确保边界值最大值和边界值最小值与沿所有六个维度的所有图像的最大和最小方差一致。
本申请的另一个特征包括沿六个维度中的每一个创建多个分区,以形成沿每个轴在相应的边界值最大值和边界值最小值之间形成的多个超八分体。
本申请的又一特征包括从第一训练图像集合中获得图像及其相关联的姿态,其中该图像和相关联的姿态被认为是图像/姿态对;通过随机抽样在每个超八分体中生成目标点;以及计算从第一训练图像集合中的每个图像到多个超八分体中的每个超八分体的目标点的仿射变换,以形成扩充的训练集。
本申请的又一特征包括基于扩充训练集训练神经网络。
本申请的另一方面包括一种被构造成扩充神经网络的初始训练图像集的装置,所述装置包括:数据库,该数据库包括第一训练图像集合,扩充的附加图像集合将从该第一训练图像集合导出,该第一图像集合中的每个图像包括相关联的姿态,该姿态被定义为沿着三个轴中的每一个的平移和旋转;以及控制器,该控制器被构造成扩充所述第一训练图像集合,所述控制器包括指令以:定义除所述第一训练图像集合之外要用于训练所述神经网络的期望的图像集合,所述期望的图像集合中的每个图像具有期望的姿态;以及基于所述第一训练图像集合、所述期望的附加图像集合以及所述期望的附加图像集合中的每个图像的姿态,来合成扩充的附加图像集合。
本申请的特征包括其中控制器还被构造成针对三个旋转和三个平移中的每一个限定边界值最大值和边界值最小值,该三个旋转和三个平移一起限定与图像捕获相关联的六个维度。
本申请的另一特征包括其中控制器还被构造为将边界值最大值和边界值最小值调整为与第一训练图像集合中的所有图像沿所有六个维度的平移和旋转的最大和最小方差一致。
本申请的又一特征包括其中控制器还被构造成沿六个维度中的每一个定义多个分区,以形成沿每个轴在相应的边界值最大值和边界值最小值之间形成的多个超八分体。
本申请的又一特征包括其中控制器还被构造成从第一训练图像集合中获得图像及其相关联的姿态,其中该图像和相关联的姿态被认为是图像/姿态对,通过随机抽样在每个超八分体中生成目标点,并且计算从第一训练图像集合中的每个图像到多个超八分体中的每个超八分体的目标点的仿射变换,以形成扩充的训练集。
本申请的又一特征包括其中控制器还被构造成将扩充训练集传递到神经网络并基于扩充训练集训练神经网络。
本申请的又一特征包括其中控制器还被构造成将第一训练图像集合提供给生成性对抗网络以生成经训练的生成器网络。
本申请的另一特征包括其中来自第一训练图像集合的图像包括姿态和至少一个附加图像参数,其中至少一个附加图像参数包括光照参数和颜色参数中的至少一个,并且其中第一训练图像集合的每个图像是二维(2D)图像。
本申请的又一特征包括其中来自第一训练图像集合的每个图像包括姿态、光照参数和颜色参数。
本申请的又一特征包括其中期望的附加图像集合包括期望的附加图像集合中的每个图像的姿态、光照参数和颜色参数中的至少一个,并且其中控制器还被构造成从基于计算机的模型为期望的附加图像集合中的每个图像生成原始合成图像,并且将经训练的生成器网络应用于每个原始合成图像以提供扩充的附加图像集合。
虽然已经在附图和前面的描述中详细地图示和描述了本发明,但是其被认为是说明性的而不是限制性的,应当理解,仅仅示出和描述了优选实施例,并且期望保护落入本发明精神内的所有改变和修改。应当理解,虽然在上述说明中使用的诸如优选的,优选地,优选或更优选的词语表示这样描述的特征可能是更期望的,但是其可能不是必需的,并且缺少其的实施例可以被认为在本发明的范围内,该范围由所附权利要求限定。在阅读权利要求时,意图是当使用诸如“一”,“一个”,“至少一个”或“至少一部分”的词语时,除非在权利要求中明确地相反陈述,否则不意图将权利要求限制为仅一个项目。当使用语言“至少一部分”和/或“一部分”时,该项目可以包括一部分和/或整个项目,除非有相反的具体说明。除非另外规定或限制,否则术语“安装”,“连接”,“支撑”和“耦合”及其变化形式广泛使用且涵盖直接和间接安装,连接,支撑和耦合。此外,“连接”和“耦合”不限于物理或机械连接或耦合。
Claims (20)
1.一种扩充用于神经网络的稀疏训练数据的方法,所述方法包括:
提供用于训练神经网络的第一训练图像集合,所述第一训练图像集合中的每个图像具有对应的姿态,所述姿态包括沿三个独立轴中的每个轴的平移值和围绕所述三个独立轴中的每个轴的旋转值;
标识除所述第一训练图像集合之外要用于训练所述神经网络的期望的图像集合,所述期望的图像集合中的每个图像具有期望的姿态;以及
基于所述第一训练图像集合、所述期望的附加图像集合和所述期望的附加图像集合中的每个图像的姿态,来合成地提供扩充的所述附加图像集合。
2.根据权利要求1所述的方法,其中所述合成地提供包括将所述第一训练图像集合提供给生成性对抗网络,以生成经训练的生成器网络。
3.根据权利要求2所述的方法,其中提供所述第一训练图像集合还包括提供与所述第一图像集合中的每个图像相关联的至少一个图像参数,其中所述至少一个图像参数包括所述姿态以及光照参数和颜色参数中的至少一个,并且其中所述第一训练图像集合中的每个图像是二维(2D)图像。
4.根据权利要求3所述的方法,其中所述至少一个图像参数包括姿态、光照参数和颜色。
5.根据权利要求3所述的方法,其中所述期望的附加图像集合包括所述期望的附加图像集合中的每个图像的至少一个图像参数中的至少一个,并且所述方法还包括从基于计算机的模型为所述期望的附加图像集合中的每个图像生成原始合成图像,以及将所述经训练的生成器网络应用于所述原始合成图像中的每个图像以提供所述扩充的附加图像集合。
6.根据权利要求1所述的方法,其中对所述第一训练图像集合的操作包括为三个旋转和三个平移中的每一个定义边界值最大值和边界值最小值,所述三个旋转和所述三个平移一起定义与图像捕获相关联的六个维度。
7.根据权利要求6所述的方法,其中定义边界值最大值和边界值最小值包括确保所述边界值最大值和边界值最小值与沿所有六个维度的所有图像的最大和最小方差一致。
8.根据权利要求6所述的方法,还包括沿所述六个维度中的每一个创建多个分区,以形成沿每个轴在相应的边界值最大值和边界值最小值之间形成的多个超八分体。
9.根据权利要求8所述的方法,还包括从所述第一训练图像集合获得图像及其相关联的姿态,其中所述图像和相关联的姿态被认为是图像/姿态对,通过随机抽样在每个超八分体中生成目标点,以及计算从所述第一训练图像集合中的每个图像到所述多个超八分体中的每个超八分体的所述目标点的仿射变换以形成扩充的训练集合。
10.根据权利要求9所述的方法,其中还包括基于所述扩充的训练集合训练神经网络。
11.一种被构造成用于扩充神经网络的初始训练图像集合的装置,所述装置包括:
图像收集器,所述图像收集器包括第一训练图像集合,扩充的附加图像集合将从所述第一训练图像集合导出,所述第一图像集合中的每个图像包括被定义为沿着三个轴中的每个轴的平移和旋转的相关联姿态;以及
控制器,所述控制器被构造成扩充所述第一训练图像集合,所述控制器包括指令以:
定义除所述第一训练图像集合之外要用于训练所述神经网络的期望的图像集合,所述期望的图像集合中的每个图像具有期望的姿态;以及
基于所述第一训练图像集合、期望的附加图像集合和所述期望的附加图像集合中的每个图像的姿态,来合成扩充的附加图像集合。
12.根据权利要求11所述的装置,其中所述控制器还被构造成针对三个旋转和三个平移中的每一个定义边界值最大值和边界值最小值,所述三个旋转和所述三个平移一起定义与图像捕获相关联的六个维度。
13.根据权利要求12所述的装置,其中所述控制器还被构造成将所述边界值最大值和边界值最小值调整为与所述第一训练图像集合中的所有图像沿所有六个维度的平移和旋转的最大和最小方差一致。
14.根据权利要求12所述的装置,其中所述控制器还被构造成沿所述六个维度中的每一个定义多个分区,以形成沿每个轴在相应的边界值最大值和边界值最小值之间形成的多个超八分体。
15.根据权利要求12所述的装置,其中所述控制器还被构造成从所述第一训练图像集合获得图像及其相关联的姿态,其中所述图像和相关联的姿态被认为是图像/姿态对,通过随机抽样在每个超八分体中生成目标点,以及计算从所述第一训练图像集合中的每个图像到所述多个超八分体中的每个超八分体的所述目标点的仿射变换以形成扩充的训练集。
16.根据权利要求15所述的装置,其中所述控制器还被构造成将所述扩充的训练集传递给神经网络并基于所述扩充的训练集训练所述神经网络。
17.根据权利要求11所述的装置,其中所述控制器还被构造成将所述第一训练图像集合提供给生成性对抗网络,以生成经训练的生成器网络。
18.根据权利要求17所述的装置,其中来自所述第一训练图像集合的图像包括所述姿态和至少一个附加图像参数,其中所述至少一个附加图像参数包括光照参数和颜色参数中的至少一个,并且其中所述第一训练图像集合中的每个图像是二维(2D)图像。
19.根据权利要求18所述的装置,其中来自所述第一训练图像集合的每个图像包括所述姿态、光照参数和颜色参数。
20.根据权利要求18所述的装置,其中所述期望的附加图像集合包括所述期望的附加图像集合的每个图像的姿态、光照参数和颜色参数中的至少一个,并且其中所述控制器还被构造成从所述期望的附加图像集合的每个图像的基于计算机的模型生成原始合成图像,并且将所述经训练的生成器网络应用于所述原始合成图像中的每个图像以提供所述扩充的附加图像集合。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/US2021/037798 WO2022265644A1 (en) | 2021-06-17 | 2021-06-17 | System and method to generate augmented training data for neural network |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117813603A true CN117813603A (zh) | 2024-04-02 |
Family
ID=84527587
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202180101179.8A Pending CN117813603A (zh) | 2021-06-17 | 2021-06-17 | 生成用于神经网络的扩充训练数据的系统和方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20250014322A1 (zh) |
| EP (1) | EP4356267A4 (zh) |
| CN (1) | CN117813603A (zh) |
| WO (1) | WO2022265644A1 (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20250124534A1 (en) * | 2023-10-12 | 2025-04-17 | Bastian Solutions, Llc | Machine learning technique for enhancing object detection |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6807286B1 (en) * | 2000-04-13 | 2004-10-19 | Microsoft Corporation | Object recognition using binary image quantization and hough kernels |
| CN110826530B (zh) * | 2014-11-15 | 2023-06-30 | 北京旷视科技有限公司 | 使用机器学习进行面部检测 |
| CN106471525A (zh) * | 2014-12-24 | 2017-03-01 | 谷歌公司 | 增强神经网络以生成附加输出 |
| CN111230871B (zh) * | 2016-03-03 | 2023-04-07 | 谷歌有限责任公司 | 用于机器人抓握的深度机器学习方法和装置 |
| US11301733B2 (en) * | 2018-05-18 | 2022-04-12 | Google Llc | Learning data augmentation strategies for object detection |
| US10740643B2 (en) * | 2018-08-28 | 2020-08-11 | Sony Corporation | Automatic license plate recognition based on augmented datasets |
| US11205099B2 (en) * | 2019-10-01 | 2021-12-21 | Google Llc | Training neural networks using data augmentation policies |
| US11823415B2 (en) * | 2021-03-03 | 2023-11-21 | Nvidia Corporation | 3D pose estimation in robotics |
-
2021
- 2021-06-17 WO PCT/US2021/037798 patent/WO2022265644A1/en not_active Ceased
- 2021-06-17 CN CN202180101179.8A patent/CN117813603A/zh active Pending
- 2021-06-17 EP EP21946222.3A patent/EP4356267A4/en active Pending
- 2021-06-17 US US18/570,721 patent/US20250014322A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| EP4356267A4 (en) | 2025-03-12 |
| US20250014322A1 (en) | 2025-01-09 |
| WO2022265644A1 (en) | 2022-12-22 |
| EP4356267A1 (en) | 2024-04-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110573308B (zh) | 用于机器人设备的空间编程的基于计算机的方法及系统 | |
| Pan et al. | Augmented reality-based robot teleoperation system using RGB-D imaging and attitude teaching device | |
| CN110877334B (zh) | 用于机器人控制的方法和装置 | |
| JP6378783B2 (ja) | アーム型のロボットの障害物自動回避方法及び制御装置 | |
| Wang et al. | Real-time process-level digital twin for collaborative human-robot construction work | |
| EP3904015B1 (en) | System and method for setting up a robotic assembly operation | |
| CN111596614A (zh) | 基于云边协同的运动控制误差补偿系统及方法 | |
| Kim et al. | Digital twin for autonomous collaborative robot by using synthetic data and reinforcement learning | |
| JP2023526962A (ja) | ロボットデモンストレーション学習用スキルテンプレート | |
| US20240278434A1 (en) | Robotic Systems and Methods Used with Installation of Component Parts | |
| CN105945946A (zh) | 一种基于g代码编程的六轴机械手运动控制方法 | |
| EP3904014A1 (en) | System and method for robotic assembly | |
| CN118521640A (zh) | 工件识别打磨方法及装置 | |
| Nandikolla et al. | Teleoperation Robot Control of a Hybrid EEG‐Based BCI Arm Manipulator Using ROS | |
| CN117813603A (zh) | 生成用于神经网络的扩充训练数据的系统和方法 | |
| Larsen et al. | Full automatic path planning of cooperating robots in industrial applications | |
| EP4139890A1 (en) | Method and system for object tracking in robotic vision guidance | |
| Sahu et al. | Autonomous object tracking with vision based control using a 2DOF robotic arm | |
| CN115213893A (zh) | 用于在工作空间内定位传感器的方法和系统 | |
| Al-Junaid | ANN based robotic arm visual servoing nonlinear system | |
| CN117916742A (zh) | 用于基于神经网络输出来更新神经网络的训练的机器人系统和方法 | |
| Srivastava et al. | Framework for Recognition and Localization Methods for Object Manipulation Through Robotic Systems | |
| Zaki et al. | Trajectory planning of collaborative robotic contact-based applications | |
| JP2023023193A (ja) | 制御システム及び制御方法 | |
| CN121464021A (zh) | 用于补偿自主充电设备的操纵器的多个工作姿态中的偏差的方法和系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |