CN116457161B

CN116457161B - 信息处理装置及拣选装置

Info

Publication number: CN116457161B
Application number: CN202180074266.9A
Authority: CN
Inventors: 宫泽宣嗣; 原孝介; 臼井道太郎
Original assignee: Sumitomo Heavy Industries Ltd
Current assignee: Sumitomo Heavy Industries Ltd
Priority date: 2020-11-30
Filing date: 2021-11-25
Publication date: 2025-12-05
Anticipated expiration: 2041-11-25
Also published as: CN116457161A; WO2022114042A1; EP4252975A4; EP4252975A1

Abstract

本发明提供一种通过接触能够有效地推断出物体的姿势的信息处理装置及拣选装置。信息处理装置具备：存储部，存储表示物体(Q1)的形状及大小的物体信息；力觉传感器，在与任意面接触的情况下能够获取接触点的检测信息；移动控制部，使力觉传感器移动；及推断部，根据通过力觉传感器与物体的多次接触而获得的检测信息及物体信息来推断出物体(Q1)的姿势。而且，移动控制部以在上述多次接触中力觉传感器与物体的不同的面(s1、s2)接触的方式使力觉传感器移动。

Description

信息处理装置及拣选装置

技术领域

本发明涉及一种信息处理装置及拣选装置。

背景技术

在专利文献1中示出了一种根据物体的影像及与物体的接触位置的测量信息来识别物体的姿势的系统。

以往技术文献

专利文献

专利文献1：日本特开2017-136677号公报

发明内容

发明要解决的技术课题

关于透明及黑色的物体、表面为镜面的物体或者被布等覆盖的物体，仅根据影像难以识别物体的姿势。在专利文献1的系统中，通过同时使用基于与物体的接触的测量信息，能够识别被塑料袋或缓冲材料包裹的物体的位置。然而，在通过接触来推断物体的姿势的装置中，为了进行有效的推断，与物体接触的方式中存在改进的空间。

本发明的目的在于提供一种利用通过接触获得的检测信息能够有效地推断出物体的姿势的信息处理装置及拣选装置。

用于解决技术课题的手段

本发明所涉及的信息处理装置为推断出物体的姿势的信息处理装置，其具备：

存储部，存储表示所述物体的形状及大小的物体信息；

力觉传感器，通过接触来获取接触点的检测信息；

移动控制部，使所述力觉传感器移动；及

推断部，根据通过所述力觉传感器与所述物体的多次接触而获得的所述检测信息及所述物体信息来推断出所述物体的姿势，

所述移动控制部以在所述多次接触中所述力觉传感器与所述物体的不同的面接触的方式使所述力觉传感器移动。

本发明所涉及的拣选装置具备：

上述信息处理装置；及

取出机构，使用所述推断部的推断结果取出所述物体。

发明效果

根据本发明，提供一种能够利用接触有效地推断出物体的姿势的信息处理装置及拣选装置。

附图说明

图1是表示本发明的第1实施方式所涉及的拣选装置的框图。

图2是表示控制部所执行的拣选处理的顺序的一例的流程图。

图3A是推断物体的姿势的处理的第1例中的第1工序的说明图。

图3B是上述第1例中的第2工序的说明图。

图3C是上述第1例中的第3工序的说明图。

图3D是上述第1例中的第4工序的说明图。

图3E是上述第1例中的第4工序的说明图。

图4A是推断物体的姿势的处理的第2例中的第1工序的说明图。

图4B是上述第2例中的第2工序的说明图。

图4C是上述第2例中的第3工序的说明图。

图4D是上述第2例中的第4工序的说明图。

图4E是上述第2例中的第5工序的说明图。

图4F是上述第2例中的第6工序的说明图。

图5是表示基于第2实施方式的控制装置的功能的框图。

图6A是表示移动允许范围的一例的平面图。

图6B是包括可动臂的回转中心轴的剖视图。

图7是表示移动范围限制部及臂控制部所进行的处理的流程图。

图8A是表示可动臂的末端执行器的移动路径的候补的一例的平面图。

图8B是包括可动臂的回转中心轴的剖视图。

图9A是表示可动臂能够移动的总范围的一例的平面图。

图9B是包括可动臂的回转中心轴的剖视图。

图10是表示基于另一实施方式的机械手的显示部中显示的图像的图。

图11是基于又一实施例的系统的框图。

图12是基于第3实施方式的拣选装置的框图。

图13A是将定义作为对象物的例子的六角螺母的形状的CAD数据示于平面上的图。

图13B是将位于CAD模型的表面的多个参考点p示于平面上的图。

图14是表示多个代表参考点p_i的示意图。

图15是表示预先学习中使用的坐标转换的一例的示意图。

图16是表示位置姿势推断追加学习部执行追加学习的顺序的流程图。

图17是表示接触路径确定强化学习部执行强化学习的顺序的流程图。

图18是表示接触路径确定模仿学习部执行模仿学习的顺序的流程图。

图19是表示模仿学习时输出到输出装置的图形及图像的一例的图。

图20是表示追加学习应用模式下的拣选装置的动作的流程图。

图21是表示学习模式下的拣选装置的动作的流程图。

具体实施方式

(第1实施方式)

以下，参考附图，对本发明的第1实施方式进行详细说明。图1是表示本发明的第1实施方式所涉及的拣选装置的框图。第1实施方式所涉及的拣选装置1为推断形状及大小已知的物体的姿势并通过把持等从容纳部位取出该物体的装置。拣选装置1具备：摄影部21，获取物体的影像；力觉传感器22，通过与物体接触能够获取接触点的检测信息；驱动装置23，使力觉传感器22移动；机械手臂24，作为把持及输送物体的取出机构；及控制部10，控制上述各部分。拣选装置1相当于本发明所涉及的信息处理装置的一例。

摄影部21具有摄像元件及成像透镜，并且获取数字信号的影像。摄影部21只要能够获取可掌握物体的大致位置的影像即可。此外，摄影部21也可以是获取二维影像并且可以获得影像上的各点的进深信息的深度传感器。

在力觉传感器22的触头与任意面接触的情况下，力觉传感器22获取接触点的检测信息。检测信息包括接触点的位置信息和表示从接触点施加到触头的反作用力的朝向的信息(即，包括接触点的面的朝向(面的法线)的信息)。力觉传感器22在受到非常小的反作用力的阶段就停止，因而不会使接触的物体移动即可获取接触点的检测信息。

驱动装置23为能够使力觉传感器22(具体而言，其触头)沿任意路径移动的三维驱动装置。使力觉传感器22移动的驱动装置23和机械手臂24的驱动部也可以兼用。

控制部10为具备CPU(Central Processing Unit：中央处理器)；CPU展开数据的RAM(Random access memory：随机存取存储器)；存储有CPU所执行的控制程序的存储装置；以及与摄影部21、力觉传感器22、驱动装置23及机械手臂24之间收发信号的接口16。在控制部10中，CPU执行控制程序从而实现多个功能模块。多个功能模块包括：摄影控制部12，控制摄影部21；物体信息存储部11，存储表示物体的形状及大小的物体信息；移动控制部13，控制驱动装置23使力觉传感器22移动；推断部14，推断物体的姿势；及机械手控制部15，对机械手臂24进行驱动控制。

物体信息例如包括均匀地分布于物体的表面的多个点的位置数据(相对位置数据)。物体信息除了可以包括各点的位置数据以外，还可以包括各点的法线数据。法线数据表示与包括各点的面垂直且通过该点的法线的方向。另外，各点的法线数据也可以不预先提供而是由控制部10根据上述多个点的位置数据通过计算来求出。

推断部14根据摄影部21所获取的影像来推断物体的大致位置。基于影像的推断可以是能够使力觉传感器22与物体的某一部位接触的程度的精确度相对低的推断。具体的推断方法并不受限定，但是，例如推断部14可以根据影像进行图像识别处理从而以较大的允许误差推断出物体的中心点或物体所在的点。

而且，推断部14根据使力觉传感器22与物体接触一次或多次所获得的接触点的检测信息来推断出该物体的姿势。在此，物体的姿势为包括物体的位置及朝向的概念，但是本发明所涉及的姿势的推断也可以是仅对朝向的推断。在力觉传感器22的接触次数较少导致无法将物体的姿势缩小为一个的阶段中，推断部14根据接触点的检测信息来推断出姿势的多个候补。然后，每当力觉传感器22的接触次数增加时缩小姿势的候补，由此推断部14最终能够推断出一个姿势。

移动控制部13确定力觉传感器22与物体接触时的接触路径并使力觉传感器22以所确定的接触路径移动，以便推断部14能够有效地推断出物体的姿势。关于接触路径的确定方法，将在后面进行详细叙述。

机械手控制部15根据推断部14推断出的物体的姿势信息来驱动机械手臂24，使得机械手臂24把持及输送该姿势的物体。

<姿势的推断方法>

接着，对由推断部14推断物体的姿势的推断方法的具体一例进行说明。另外，由推断部14推断物体的姿势的推断方法并不只限于下述例子。在此，对推断部14使用式(1)的代价函数G(r，t)推断物体的姿势或姿势的多个候补的方法进行说明。

[数式1]

式中的各变量如下。

r：表示旋转的罗德里格斯的旋转表达

t：表示平移的矢量

K：推断时刻的总接触次数

k：接触次数的索引

M：表示物体信息中所包含的多个点的集合(以下，成为″点组M″)

m：表示点组M中所包含的各点的索引及位置(物体坐标系)

^rp_c，k：接触点的位置(机械手坐标系)

R(r)：以r作为要素的旋转矩阵

w：调整系数

^rf_k：力觉传感器22的检测信息中所包含的反作用力的方向(机械手坐标系)

n_m：点m处的法线的方向(物体坐标系)

上述机械手坐标系为以机械手臂24的基部为基准的坐标系，且意味着在机械手臂24的基部不移动的情况下坐标系的原点及三轴方向被固定的坐标系。物体坐标系为以物体为基准的坐标系，且意味着若物体的位置及朝向发生改变则根据该改变而坐标的原点及三轴方向相对于基准坐标系(例如地球的坐标系)旋转及平移的坐标系。旋转r及平移t为在机械手坐标系中表示物体的位置及朝向的量，例如，机械手坐标系的原点与物体坐标系的原点之差可以表示为平移t，旋转方向上的机械手坐标系的三个轴与物体坐标系的三个轴之差可以表示为旋转r。

上述调整系数为调整式(1)的右边中括号内的第1项目和第2项目影响代价函数的程度的系数。该第1项为如下要素：若在表示物体的表面的点组M中包括靠近接触点的点m则减小代价函数，点组M中的最靠近接触点的点m与接触点之间的距离越大则越加大代价函数。上述第2项为如下要素：若在点组M中有与接触点的面的朝向相同的法线方向的点m则减小代价函数，具有最接近接触点的面的朝向的法线的点m处的该法线与接触点的面的朝向越不同则越加大代价函数。绝对值标记表示矢量的长度，“〈a,b〉”表示矢量a与矢量b的内积。“min[]”表示各点m处的中括号内的值中的最小值。由此，连加号Σ内的值成为如下值，即，在点组M中包括靠近接触点的点且该点的法线方向接近接触点的面的朝向的情况下接近零，若不包括这样的点则从零朝向正的方向远离。

推断部14搜索代价函数G(r，t)的值成为零附近的小的值的自变量(平移r、旋转t)，从而将所搜索到的旋转及平移{r，t}推断为物体的姿势或物体的姿势的候补。

＜推断顺序＞

首先，推断部14根据从摄影部21获得的影像和表示物体的大小及形状的物体信息来设定搜索物体的姿势的初始区域。初始区域被设定为具有富余的大小，使得物体超出该区域的可能性几乎为零。例如，推断部14根据通过影像的图像识别获得的物体的中心点和物体信息来求出中心位于该中心点的物体的外接球，将外接球的直径加大与图像识别的推断精确度相对应的误差量，并将该外接球的内侧作为初始区域。

接着，推断部14将能够作为初始区域中所包含的物体的位置及朝向的所有姿势设为初始姿势的候补。各姿势由旋转r与平移t的组合来表示。因此，姿势的初始候补成为旋转及平移的组合{r，t}的集合。但是，若将平移或旋转的非常小的差异视为其他姿势，则初始姿势的候补会变得非常多。因此，推断部14适当设定平移的最小差异Δt和旋转的最小差异Δr，将平移或旋转的差异为最小差异Δt、Δr以上的姿势作为不同姿势来制作表示初始姿势的多个候补的集合I₀＝{(r，t)_i，i＝1、2……}。

另外，在存在载置物体的工作台等限制物体的姿势的要素的情况下，推断部14可以进行从姿势的多个初始候补(集合I₀)中排除因上述限制而不会产生的姿势的候补的处理。通过该处理，候补会减少，由此能够减少之后的推断处理的计算负荷，以更少的接触即可将候补缩小为一种。下面，示出了不进行该排除的例子。

若进行第一次力觉传感器22的接触，则表示接触点的位置和反作用力的方向(包含接触点的面的朝向)的检测信息会发送到推断部14。推断部14适用这些信息针对集合I₀＝{(r、t)_i，i＝1、2……}的所有要素计算代价函数G(r，t)。然后，提取代价函数G(r，t)成为接近零的阈值以下的集合I₀的要素作为姿势的候补。然后，若姿势的候补仅包括落入与上述阈值相对应的恒定的宽度中的连续的要素，则从这些连续的要素中提取使代价函数G(r，t)变得最小的要素作为物体的姿势的最终推断结果。连续的要素意味着以平移的最小差异Δt或旋转的最小差异Δr连续的多个要素。另一方面，若姿势的候补不仅仅是连续的要素，则意味着残留有姿势的多个候补，因此推断部14继续进行推断处理，等待下一次力觉传感器22的接触。

若进行下一次力觉传感器22的接触，则推断部14进行与第一次接触时相同的处理(将初始候补替换为在第一次接触中缩小的姿势的候补后的相同的处理)，从而进一步缩小物体的姿势的候补。然后，重复进行这样的处理，由此推断部14能够获得缩小为一个的物体的姿势作为最终推断结果。

＜接触路径的条件＞

移动控制部13在上述推断部14进行推断处理的过程中且在力觉传感器22与物体接触之前使力觉传感器22(具体而言，其触头)从任一朝向移动到任一位置并与物体接触或者计算其路径作为接触路径。接触路径根据以下第1～第3接触条件来确定。

第1接触条件如下：在多次接触的情况下和与以前接触的面不同的面接触。物体中的不同的面是指：以物体中所包含的峰部或V槽部为边界划分的各面。若为不具有曲面的物体，则各平面成为不同的面。与第1接触条件相对应的接触路径可以被确定为沿着与在以前的接触中检测到的接触点的法线交叉(例如正交)的方向前进的路径。

或者，与第1接触条件相对应的接触路径还可以被确定为根据由推断部14在现阶段推断出的物体的姿势的候补朝向以前未接触的面所在的可能性高的部位沿与该面交叉的方向前进的路径。

第2接触条件如下：在物体中存在不对称部位的情况下以高概率与不对称部位接触。物体的不对称部位例如是指：以物体的中心点、中心轴或中心面为基准的点对称、轴对称或面对称的程度低的部位。例如，若为螺栓，则头部侧边缘部和轴端部相当于不对称部位。并且，若是除了长度方向上的中央以外的规定部位的直径变小的销部件，则上述规定部位相当于不对称部位。关于这样的不对称部位，可以由移动控制部13根据上述的物体信息通过计算来求出，也可以预先包含在物体信息中。

关于与第2接触条件相对应的接触路径，在尚未与物体接触的阶段，可以由推断部14根据通过摄影部21的摄影获得的影像推断出的姿势和上述不对称面的信息来求出。

关于与第2接触条件相对应的接触路径，在进行了一次或多次接触的阶段，可以根据在现阶段推断出的姿势的多个候补来计算出不对称部位所在的可能性高的部位并求出朝向该部位的路径。

第3接触条件为如下：在进行了一次或多次接触的阶段，与通过推断部14的推断获得的姿势的多个候补中的物体的面的位置的不确定性程度高的面接触。

位置的不确定性程度高的面并不受特别限定，但是，例如可以如下求出。即，首先，移动控制部13计算出根据影像推断出的物体的中心点与姿势的多个候补的点组M中所包含的各点的距离，并选择该距离长且分散的n个代表点。然后，移动控制部13将以所选择的n个代表点各自的法线作为中心轴的相同形状及相同体积的圆柱设定为局部区域。而且，移动控制部13从姿势的多个候补中所包含的所有点组M中提取各局部区域中所包含的所有点，计算出这些点在轴向(沿着圆柱的中心轴的方向)上的位置的平均值及分散值。然后，移动控制部13从n个局部区域中求出分散值大的局部区域作为面的位置的不确定性程度高的部位，并求出该局部区域中所包含的面作为位置的不确定性程度高的面。

另外，在上述例子中，根据距根据影像推断出的物体的中心点的距离大的n个代表点来设定了n个局部区域，但是n个局部区域的设定方法并不只限于上述例。例如，也可以根据随机选择的n个代表点、各向同性分散的n个代表点等来设定n个局部区域。并且，在上述例子中，设定圆柱区域作为局部区域并且计算局部区域中所包含的各点的轴向上的位置分散，但是，局部区域也可以为球区域等任何形状，并且分散并不只限于轴向上的位置分散，例如也可以是局部区域中所包含的多个点从中央位置的分散等，分散的方向并不受限定。并且，在上述例子中，求出了各局部区域中所包含的点的分散值，但是求出不确定性程度的方法可以采用各种方法，例如，也可以计算出各局部区域中沿轴向最远离的两点间距离并求出该两点间距离大的区域作为包括不确定性程度高的面的区域等。并且，在上述例子中，设定了多个局部区域，并在该局部区域之间比较了表示不确定性的值，从而求出了包括不确定性程度高的面的区域，但是，也可以不设定局部区域，只要能够求出包括不确定性程度高的面的部位，则可以采用任何方法，即，求出姿势的多个候补的所有点组M的散乱程度高的部位作为包括不确定性程度高的面的部位等。

关于与第3接触条件相对应的接触路径的方向，只要计算朝向以上述方式求出的包括不确定性程度高的面的部位沿与该部位中所包含的面交叉的方向前进的路径即可。该方向可以设为不确定性程度高的局部区域中所包含的代表点的法线方向，也可以设为根据该局部区域中所包含的所有点的法线方向计算的方向(平均的方向等)。

＜接触路径的确定方法＞

满足上述第1～第3接触条件全部条件的接触路径有时会求出多种。或者，有时还会求出虽然与第1～第3接触条件中的任意一个或两个接触条件相对应但是不与其他接触条件相对应的接触路径。因此，移动控制部13从根据第1～第3接触条件求出的接触路径中适当选择一个接触路径，将所选择的接触路径确定为接下来使力觉传感器22移动的接触路径。

选择一个接触路径的方法例如可以采用对各接触路径赋予优先级并选择优先级高的接触路径的方法。优先级可以根据第1～第3接触条件而设为不同的值，也可以设为将与各接触条件匹配的可能性(概率)乘以该值而获得的值。或者，选择一个接触路径的方法可以采用任意方法，例如，也可以是随机选择等。

另外，在上述例子中，移动控制部13根据第1～第3接触条件全部条件来确定了接触路径，但是，移动控制部13也可以省去一个或两个接触条件而根据剩余的两个或一个接触条件来确定接触路径。

＜拣选处理＞

图2是表示控制部10所执行的拣选处理的顺序的一例的流程图。拣选是指取出物体。图2的拣选处理在摄影部21的视场角内包括拣选对象的物体的状态下开始。

若开始拣选处理，则首先，摄影控制部12经由摄影部21获取影像，并将所获得的影像发送到推断部14(步骤S1)。推断部14根据影像进行图像识别处理从而推断物体的中心位置，并根据中心位置和物体信息来设定富余地包含物体的上述的初始区域R0(参考图3A)(步骤S2)。

若设定了初始区域R0，则控制部10使处理进入到与物体接触从而缩小物体的姿势的候补的循环处理(步骤S3～S13)中。即，移动控制部13判别是否为第一次接触(步骤S3)，若为第一次接触，则进行计算出与第2接触条件(与不对称部位接触的可能性高的接触)匹配的接触路径并对该接触路径赋予优先级的处理(步骤S6)。作为该接触路径，根据在该时刻推断出的物体的姿势的候补和根据物体信息计算出的物体的具有不对称性的部位的计算结果计算出朝向位于该部位的面沿与该面交叉的方向前进的路径。附加于计算出的接触路径的优先级可以是为了区分第1～第3接触条件的优先级而对第2接触条件预先设定的值。或者，优先级也可以是对第2接触条件预先设定的值乘以表示该接触路径与接触条件匹配的可能性的值(例如概率)而获得的值。

另一方面，若在步骤S3的判别处理中判别为第二次以后的接触，则移动控制部13根据在该时刻推断出的物体的姿势的候补来计算出与第1接触条件(和与在上次以前接触的面不同的面的接触)匹配的接触路径(步骤S4)。而且，移动控制部13进行对该接触路径赋予优先级的处理(步骤S4)。作为该接触路径，假设有j个姿势的候补，则计算出在各候补中提取上次以前的接触中推断为尚未接触的面并朝向该面内的一个点或多个点沿与该点建立关联的法线方向前进的路径。作为接触路径的方向，可以计算与上次以前接触的面的法线交叉的方向。附加于该接触路径的优先级可以是为了区分第1～第3接触条件的优先级而对第1接触条件预先设定的值。或者，优先级也可以是对第1接触条件预先设定的值乘以表示该接触路径与接触条件匹配的可能性的值(例如概率)而获得的值。

接着，移动控制部13根据在该时刻推断出的物体的姿势的候补来计算出与第3接触条件(与位置的不确定性程度高的面的接触)匹配的接触路径，而且进行对接触路径赋予优先级的处理(步骤S5)。该接触路径的求出方法如上述。优先级可以是为了区分第1～第3接触条件的优先级而对第3接触条件预先设定的值。或者，优先级也可以是对第3接触条件预先设定的值乘以表示该路径与接触条件匹配的可能性的值(例如概率)而获得的值。若步骤S5的计算结束，则移动控制部13进行上述步骤S6的接触路径的计算及附加优先级的处理。

然后，移动控制部13判别是否已求出接触路径(步骤S7)，若为“是”，则提取所计算出的接触路径中优先级高的接触路径(步骤S8)。在进行该提取时，移动控制部13判别所计算出的多个接触路径能否汇集为同时满足多个接触条件的路径，若能够汇集，则可以将该多个接触路径的优先级相加并将其作为附加了相加结果的优先级的一个接触路径。

另一方面，若步骤S7的判别结果为“否”，则移动控制部13计算出能够与物体接触的任意接触路径(步骤S9)。例如，移动控制部13计算出从初始区域R0(图3A)的球面上的任意点朝向中心的接触路径。

若确定了接触路径，则移动控制部13使力觉传感器22沿着该接触路径移动，从而使力觉传感器22(其触头)与物体接触(步骤S10)。该接触为不会使物体移动的弱接触。然后，推断部14从力觉传感器22获取接触点的位置及面的朝向的信息(步骤S11)，并执行推断物体的姿势的推断处理(步骤S12)。如上所述，推断处理使用代价函数G(r，t)来进行。

然后，若获得了物体的姿势的推断结果，则推断部14判别姿势是否被缩小到一个(步骤S13)，若为“否”，则使处理返回到步骤S3。另一方面，若姿势已被缩小到一个，则控制部10退出推断姿势的循环处理(步骤S3～S13)，使处理进入到下一步处理。

若退出循环处理，则机械手控制部15根据推断出的物体的姿势(表示旋转及平移的参数{r，t})来计算出物体的位置及朝向、以及用机械手臂24抓取物体的动作顺序(步骤S14)。然后，机械手控制部15使机械手臂24按照计算出的动作顺序进行驱动，从而取出物体(步骤S15)。由此，一次拣选处理结束。

＜姿势的推断处理的第1例＞

接着，对在上述拣选处理中执行的物体的姿势的推断处理的具体的一例进行说明。图3A～图3D是用于说明该推断处理的第1例的第1工序～第4工序的说明图。图3E是从另一角度示出了第4工序的说明图。在第1例中，推断姿势的物体Q1为螺母且其载置于工作台上。

图3A表示力觉传感器22尚未与物体Q1接触的初始阶段。在该阶段中，在步骤S2中，推断部14根据影像来设定初始区域R0，并且在步骤S6中，移动控制部13根据物体Q1信息来求出物体Q1的外表面中的具有不对称性的部位的面，并计算出接触路径h1。在螺母的情况下，以螺孔的中心轴作为中心的旋转对称程度成为阈值以下，螺母的外周面被计算为具有不对称性的部位的面。另一方面，在第1例中，基于影像推断姿势的推断精确度较低，因此无法计算出与具有不对称性的面接触的路径，移动控制部13在步骤S9中计算出任意接触路径h1。任意选择的接触路径h1可以是从球状的初始区域R0的外周面上的一个点朝向初始区域R0的中心的路径。

图3B表示在步骤S10～S12中使力觉传感器22沿着接触路径h1移动之后根据第一次接触来进行了物体Q1的姿势的推断的阶段。通过该接触，检测接触点p1的位置和包括接触点p1的面s1的朝向(法线k1)，通过推断部14，根据这些检测信息来缩小使代价函数G(r，t)成为零附近的平移t及旋转r的候补。在图3B中，用双点划线表示包括被缩小的姿势的候补的范围。在双点划线的范围内包括：接触点p1相当于物体Q1的某一个面的点并且包含该点的面与法线k1垂直的所有姿势。推断部14求出占据该范围的多个姿势作为候补。另外，物体Q1超出了初始区域R0的候补可以从物体Q1的姿势的候补中排除，但是在图3A～图3E中示出了不排除的例子。

图3C表示在步骤S4～S8中计算出了第二次接触的接触路径h2的阶段。在该阶段中，移动控制部13根据通过上次接触获得的物体Q1的姿势的候补(由双点划线表示)来计算出与第1接触条件相对应的接触路径、与第2接触条件相对应的接触路径及与第3接触条件相对应的接触路径，并在其中提取了优先级高的接触路径h2。接触路径h2为沿着与第一次的接触面s1的法线交叉的方向前进的路径，因此与不同于第一次的接触面s1的面接触的可能性高，而且接触的面为具有不对称性的螺母的外周面的可能性例如比其他接触路径c1更高。而且，在物体Q1的姿势的候补中，有可能与接触路径h2交叉的面分散在宽范围X1内，另一方面，有可能与其他接触路径c1交叉的面分散在窄范围X2内。因此，作为接触路径h2，计算与位置的不确定性程度高的面接触的可能性高的路径。

图3D及图3E表示在步骤S10～S12中使力觉传感器22沿着接触路径h2移动之后根据第二次接触来进行了物体Q1的姿势的推断的阶段。通过第二次接触，检测出接触点p2的位置和包括接触点p2的面s2的朝向(法线k2)，推断部14根据通过第一次及第二次接触获得的检测信息来缩小使代价函数G(r，t)成为零附近的平移t及旋转r的候补。如图3E的平面图中的双点划线所示，通过第二次接触，缩小到了接触点p1、p2包含在物体Q1的两个面s1、s2并且螺母向与两个面s1、s2均平行的方向偏移的多个姿势候补(在图3E中由双点划线表示)。

如此，每当接触次数增加时，物体Q1的姿势的候补被缩小，推断部14最终能够将物体Q1的姿势推断为一个。

＜姿势的推断处理的第2例＞

图4A～图4F是用于说明推断物体的姿势的推断处理的第2例的第1工序～第6工序的说明图。在第2例中，示出了推断姿势的物体Q2为螺栓的例子。

在图4A中，在力觉传感器22尚未与物体Q2接触的初始阶段中，推断部14根据影像来设定初始区域R0(步骤S2)，并且移动控制部13根据物体Q2信息来求出物体Q2的外表面中的具有不对称性的面，并计算出与第2接触条件相对应的接触路径h11(步骤S6)。在螺栓的情况下，以在轴向上将螺栓分割为两个的中心面为基准的面对称的对称性程度成为阈值以下，求出螺栓头部的侧面s21和螺栓轴端部的侧面s11a作为具有不对称性的部位的面。另一方面，在图4A的例子中，基于影像推断物体Q2的姿势的初始推断精确度较低，因此计算出了朝向从具有不对称性的面脱离的轴部中央的侧面的接触路径h11。

在图4B中，力觉传感器22沿着接触路径h11移动(步骤S10)，从而进行基于第一次接触的检测(步骤S11)和基于该检测的物体Q2的姿势的推断(步骤S12)。通过该接触，检测出接触点p11的位置及包括接触点p11的面s11的朝向(法线k11)，推断部14根据这些检测信息来计算出代价函数G(r，t)并搜索物体Q2的多个姿势候补。在此，如图4B的双点划线所示，被缩小的姿势的候补包括面s11及接触点p11成为螺栓的头部侧面、头部上表面、轴部端面或轴部侧面及其中的某一个点的所有姿势。另外，物体Q2超出初始区域R0的候补可以从物体Q2的姿势的候补中排除，但是，在图4A～图4F中，示出了不排除的例子。

在图4C中，移动控制部13根据第1接触条件～第3接触条件来计算出优先级高的接触路径h12(步骤S4～S8)。接触路径h12为实现与不同于进行了第一次接触的面s11的面接触并且实现与位置的不确定性程度高的面的接触的路径。例如，物体Q2的姿势的候补(由双点划线表示)中的有可能与接触路径h12交叉的面分散在螺栓的轴部的长度以上上，另一方面，有可能与其他接触路径c12交叉的面分散在与螺栓的头部的宽度相当的范围内，前者的分散值更大，不确定性程度更高。

然后，如图4D所示，通过进行第二次接触(步骤S10)，检测出接触点p12的位置及包括接触点p12的面s12的朝向(法线k12)(步骤S11)，推断部14根据这些检测结果进一步缩小物体Q2的姿势的候补(步骤S12)。如图4D中的双点划线所示，通过第二次接触，候补被缩小到螺栓的头部和轴端部反转的两个姿势。另外，只要第一次接触在具有不对称性的螺栓的头部侧面s21或轴端部侧面s11a进行，则推断部14能够在第二次接触的阶段中将物体Q2的姿势缩小为一个。

在图4E中，移动控制部13计算出实现第1～第3接触条件的可能性高的接触路径h13(步骤S4～S8)。在该时刻的姿势的候补中，螺栓的头部侧面s21或轴端部侧面s11a为位置的不确定性程度高的面，并且螺栓的头部侧面s21及轴端部侧面s11a为具有不对称性的部位的面。因此，接触路径h13成为与第2接触条件及第3接触条件相对应的路径。而且，接触路径h13成为存在与不同于第一次接触的面s11以及第二次接触的面s12的面(螺栓头部侧面s21)接触的可能性的路径，还成为与第1接触条件相对应的路径。接触路径h13实际上与和第一次接触的面s11相同的面(即，轴端部侧面s11a)接触，但是，针对在该阶段中推断出的姿势的候补，与螺栓头部侧面s21接触的可能性为50％左右。

然后，如图4F所示，通过进行第三次接触(步骤S10)，检测出接触点p13的位置及包括接触点p13的面s11a的朝向(步骤S11)，并根据这些检测结果来将物体Q2的姿势的候补缩小为一个(步骤S12)。

如上所述，根据第1实施方式的拣选装置1，推断部14根据使力觉传感器22与物体多次接触而获得的检测信息和物体信息来推断出物体的姿势。因此，即使是被布等覆盖的物体、透明或黑色物体或具有镜面的物体等仅通过影像难以推断出姿势的物体，也能够推断出物体的姿势。

而且，根据第1实施方式的拣选装置1，移动控制部13计算出力觉传感器22的接触路径，以便在物体的不同的面进行力觉传感器22与物体的多次接触。因此，推断部14可以使用基于较少的接触的检测信息将物体的姿势的候补缩小为更少的候补，从而能够实现高效的姿势的推断。

而且，根据第1实施方式的拣选装置1，通过力觉传感器22的接触获取接触点的位置的信息和包括接触点的面的朝向的信息作为检测信息。而且，移动控制部13在第n次接触时计算出使力觉传感器22沿与第n次之前接触的接触点的面的法线交叉的方向移动的接触路径。通过这样的接触路径的前进方向的确定方法，移动控制部13能够计算出使力觉传感器22与物体的多次接触在物体的不同的面进行的力觉传感器22的接触路径。

而且，根据第1实施方式的拣选装置1，移动控制部13从在该时刻被缩小的物体的姿势的多个候补中计算出与位置的不确定性程度高的面接触的可能性高的接触路径(与第3接触条件相对应的接触路径)。因此，推断部14能够根据使力觉传感器22沿着该接触路径移动而获得的检测信息来将物体的姿势的候补缩小为更少的候补。因此，推断部14能够使用基于较少的接触的检测信息将物体的姿势缩小为一个，因而能够实现高效的姿势的推断。

而且，根据第1实施方式的拣选装置1，移动控制部13计算出与物体的不对称部位的面接触的接触路径(与第2接触条件相对应的接触路径)。因此，能够根据力觉传感器22沿着该接触路径移动而获得的物体的不对称面的检测信息来有效地确定物体的朝向。因此，推断部14能够使用基于较少的接触的检测信息来将物体的姿势缩小为一个，因而能够实现高效的姿势的推断。

而且，根据第1实施方式的拣选装置1，其具备获取物体的影像的摄影部21，推断部14根据由摄影部21获取的影像来推断出物体的大致位置，使第一次接触变得可能。即，推断部14根据影像来推断出能够与物体接触的位置。因此，即使在物体的位置在宽范围内不清楚的状态下，也能够根据影像来推断与物体接触的位置，并且通过接触能够推断出物体的姿势。由此，即使在物体的位置在宽范围内不清楚的状态下，也能够取出物体。

以上，对本发明的第1实施方式进行了说明。但是，本发明并不只限于上述第1实施方式。例如，在上述第1实施方式中，对使用均匀地分布在物体的外表面的点组M的信息和代价函数G(r，t)来推断出物体的姿势的方法进行了说明，但是并不只限于上述方法，只要能够根据通过接触检测到的信息来推断出物体的姿势，则可以采用任何方法。并且，如上所述，在上述第1实施方式中，示出了不考虑载置物体的工作台等限制物体的姿势的要素的存在的情况下推断姿势的推断处理的例子，但是，若存在限制物体的姿势的要素，则例如可以追加进行排除与该要素不相配的姿势的候补等的处理。

并且，在上述第1实施方式中，示出了物体信息存储部11(存储表示物体的形状及大小的物体信息的存储部)位于装置内的例子。但是，物体信息存储部11也可以采用设置于经由通信网络连接的服务器计算机并经由通信向装置发送物体信息的结构。并且，在上述第1实施方式中，示出了将本发明应用于从架子等处取出物体的拣选装置1的例子，但是，本发明的信息处理装置也可以不伴随取出物体的控制及动作，可以应用于推断物体的姿势的各种装置上。此外，在实施方式中示出的详细结构可以在不脱离本发明主旨的范围内进行适当变更。

(第2实施方式)

在使用工业用机械手或协作机械手等具有可动臂的机械手使由人进行的工作自动化时，需要示教机械手应进行的动作。机械手根据所示教的动作来进行模仿学习。例如，根据所示教的动作来构建深度学习模型(参考日本特开2020-110920号公报等)。机械手根据所构建的深度学习模型来确定可动臂的动作计划(例如，可动臂前端的动作路径)并根据所确定的动作路径来使可动臂进行动作。由此，能够再现所示教的动作。

若在示教时发生预想不到的状况，则存在可动臂进行预想不到的动作的可能性。例如，在可动臂因某种原因紧急停止从而需从停止位置重新开始动作的情况下，存在可动臂进行预想不到的动作的可能性。例如，在可动臂停止前的动作数据丢失并且从重启时的开始点与停止时的位置不同的状态开始移动的情况下或者在中止复位前动作而进行原点复位的情况下，有时会沿着意外的路径进行动作。并且，在通过模仿学习等机器学习生成机械手的可动臂的移动路径的情况下，若施加与所示教的输入不同的输入，则有时会生成意外的移动路径。例如，在向学习了根据包括对象物A的图像来生成移动路径B的机械手输入包括与所示教的对象物A不同的对象物C的图像时，可动臂有时沿意外的路径移动(例如，参考S.Levine et.al.,End-to-End Trading of Deep Visuomotor Policies,2016)。即使在可动臂进行了预想不到的动作的情况下，为了避免可动臂与工作人员或其他装置碰撞的危险，优选将可动臂有可能会移动的范围设为禁止进入区域。而且，优选在该范围内不设置其他装置。因此，会导致工厂内的空间的利用效率下降。

在第2实施方式中，提供不会导致空间的利用效率下降且即使在示教时发生预想不到的状况也能够避免危险的机械手的控制装置及系统。

参考图5～图9B，对基于本发明的第2实施方式的机械手的控制装置进行说明。机械手的控制装置相当于本发明所涉及的信息处理装置的一例。

图5是表示基于第2实施方式的控制装置110的功能的框图。基于第2实施方式的控制装置110控制可动臂120的动作。可动臂120例如为具有六自由度的多关节型机械手臂，其进行从容纳部位取出工件(例如，螺栓)并将其移送到规定位置的拣选动作。该机械手还具备输入部121、显示部122及照相机123。

控制装置110包括轨迹信息获取部111、模仿学习部112、允许范围确定部113、移动范围限制部114、臂控制部115及接口部116。轨迹信息获取部111、模仿学习部112、允许范围确定部113、移动范围限制部114及臂控制部115的功能例如通过由中央处理单元(CPU)执行程序来实现。接口部116具有在可动臂120、输入部121、显示部122及照相机123等与控制装置110之间进行数据或指令的输入输出的功能。

在可动臂120的各关节部设置有马达。控制装置110驱动关节部的马达，由此可动臂120进行动作。并且，在各关节部设置有检测马达的旋转角度的编码器及检测在关节部产生的转矩的转矩传感器。编码器及转矩传感器的检测结果输入到控制装置110。

在可动臂120的前端安装有末端执行器(作用部)120A。末端执行器120A能够把持工件。另外，也可以安装加工工具等作为末端执行器120A。

输入部121为用于在示教工作中供工作人员进行操作从而使可动臂120进行动作的操作装置，又被称为示教器。工作人员也可以直接操作可动臂120而进行示教工作。这样的示教方法被称为直接示教法。输入部121除了可以包括操作装置以外，还可以包括键盘、定点设备等。

显示部122在控制装置110的控制下用图形显示所示教的信息、允许可动臂120移动的允许范围等。

照相机123对可动臂120及拾取对象物(即，工件)的容纳部位进行拍摄。所拍摄的图像数据输入到控制装置110。

接着，对控制装置110的各部的功能进行说明。

轨迹信息获取部111获取表示通过示教提供的可动臂120的移动轨迹的轨迹信息。所获取的轨迹信息包括表示多个关节及末端执行器120A各自的移动轨迹的信息。动作的示教例如可以采用工作人员直接操作可动臂120的方法(直接示教法)、逐一示教可动臂120的各轴的动作的方法及远程进行的方法等。示教中的可动臂120的各关节或末端执行器120A的位置可以根据安装于各关节部的角度传感器的检测结果来求出。

模仿学习部112将由摄像装置拍摄工件而得的图像与通过示教提供的可动臂120的移动轨迹建立关联后进行存储并进行机器学习。作为机器学习，例如可以使用使用了神经网络的深度学习(deep learning)的方法。模仿学习部112将机器学习的结果存储为示教数据。另外，也可以代替由摄像装置拍摄工件而得的图像而将基于激光雷达扫描仪、距离照相机或毫米波传感器等各种传感器的工件的检测结果与通过示教提供的可动臂120的移动轨迹建立关联后进行存储并进行机器学习。

允许范围确定部113根据由轨迹信息获取部111获取的轨迹信息来确定可动臂120的移动允许范围。移动允许范围例如根据在示教中提供的多个关节及末端执行器120A的移动轨迹的集合的凸包来确定。凸包是指：包括所提供的集合的最小凸集。在第2实施方式中，“所提供的集合”相当于表示可动臂120的多个关节及末端执行器120A的轨迹的点集。允许范围确定部113使用根据多个移动轨迹的集合来求出包含该集合的凸包的算法来自动确定移动允许范围。在此，“自动确定”意味着在没有使用者介入的情况下确定。

作为一例，以与可动臂120的移动轨迹的凸包一致的方式确定移动允许范围。或者，可以将移动允许范围确定为包含可动臂120的移动轨迹的凸包。例如，可以将使凸包的表面朝向外侧移动规定距离后的面作为移动允许范围的表面。此外，也可以由配置成包含示教中提供的移动轨迹的集合的至少一个基本图形来定义移动允许范围。基本图形例如包括立方体、长方体、球、圆柱等。允许范围确定部113使用从多个移动轨迹的集合中确定由包含该集合的至少一个基本图形构成的移动允许范围的算法来自动确定移动允许范围。

图6A是表示移动允许范围的一例的平面图，图6B是包括可动臂120的回转中心轴的剖视图。在基台125安装有可动臂120的基部。可动臂120以固定于基台125的回转中心轴为中心进行回转。而且，可动臂120以基台125为基准进行伸缩，从而在三维空间改变姿势。图6A中的曲线表示示教中的末端执行器120A的移动轨迹131的一例。

根据示教中的末端执行器120A的移动轨迹131及其他关节的移动轨迹的凸包来确定移动允许范围130。例如，如图6A所示，移动允许范围130的俯视观察时的形状呈在回转中心的附近具有中心角的扇形。如图6B所示，垂直截面的形状例如呈将具有与水平方向及铅垂方向平行的边的长方形的一个角切割成三角形形状而成的五边形。切割成三角形形状的角为相对于可动臂120的基部位于对角位置的角。另外，图6A及图6B所示的移动允许范围130的形状为一例，移动允许范围130可以采用其他各种形状。

允许范围确定部113(图5)将所确定的移动允许范围130和可动臂120以能够识别两者之间的位置关系的方式用图形显示于显示部122。工作人员能够观看显示部122而获得与当前设定的移动允许范围130的位置、形状及大小有关的信息。

移动范围限制部114根据由照相机123获取的图像数据和模仿学习的结果来确定可动臂120的移动路径。臂控制部115使可动臂120沿着由移动范围限制部114确定的移动路径进行动作。更具体而言，根据移动路径上的坐标来求出驱动可动臂120的各关节的马达的旋转角度，并驱动各马达。

图7是表示移动范围限制部114及臂控制部115所进行的处理的流程图。首先，移动范围限制部114获取由照相机123拍摄工件而得的图像数据(步骤SS1)。根据所获取的图像数据及由模仿学习部112(图5)构建的学习模型来确定可动臂120的移动路径的候补(步骤SS2)。

移动范围限制部114判定移动路径的候补是否落入由允许范围确定部113(图5)确定的移动允许范围130内(图6A及图6B)(步骤SS3)。作为一例，作为候补举出的移动路径为末端执行器120A的移动路径。在末端执行器120A沿着该移动路径移动时的末端执行器120A及多个关节的全部位置均落入移动允许范围130内的情况下，判定为移动路径的候补落入移动允许范围130内。在末端执行器120A及多个关节中的至少一个位置超出至移动允许范围130外的情况下，判定为移动路径的候补未落入移动允许范围130内。

在移动路径的候补未落入移动允许范围130内的情况下，判定是否有移动路径的其他候补(步骤SS4)。在有移动路径的其他候补的情况下，将其他候补用作移动路径的候补(步骤SS2)。在没有移动路径的其他候补的情况下，报错并停止处理(步骤SS5)。即，移动范围限制部114具有在将可动臂120的移动范围限制于移动允许范围130内的条件下确定可动臂120的移动路径的功能。报错例如通过在显示部122显示错误信息来进行。

在步骤SS3中判定为移动路径的候补落入移动允许范围130内的情况下，臂控制部115(图5)使可动臂120根据移动路径的候补进行动作(步骤SS6)。由此，将工件从容纳部位取出，并移送到规定的位置。在残留有未处理的工件的情况下，重复进行从步骤SS1的处理(步骤SS7)。在未残留未处理的工件的情况下，结束处理。

接着，参考图8A～图9B，对上述第2实施方式的优异效果进行说明。

图8A是表示可动臂120的末端执行器120A的移动路径的候补132的一例的平面图，图8B是包括可动臂120的回转中心轴的剖视图。在求出移动路径的候补时的前提条件与示教时预想的条件大幅不同的情况下，移动路径的候补132会从预想的路径大幅脱离，有可能会产生不落入移动允许范围130内的情况。此时，在上述第2实施方式中，不会使可动臂120沿着移动路径的候补132进行动作。换言之，能够避免可动臂120脱离移动允许范围130而进行动作的情况发生。因此，通过使工作人员禁止进入移动允许范围130，能够避免可动臂120与工作人员的碰撞。

图9A是将可动臂120能够移动的总范围133的一例与通过基于第2实施方式的方法确定的移动允许范围130(图6A及图6B)进行了比较的平面图，图9B是包括可动臂120的回转中心轴的剖视图。以可动臂120的基部为中心并将可动臂120的最长长度作为半径的大致半圆球状的区域相当于可动臂120能够移动的总范围133。在没有限制可动臂120的移动范围的功能的情况下，即使在可动臂120进行了图8A及图8B所示的预想不到的动作的情况下，为了避免工作人员与可动臂120的碰撞，优选事先将能够移动的总范围133设定为禁止进入区域。而且，优选使机械手远离障碍物，例如在能够移动的总范围133内不配置障碍物(例如，壁面、顶棚等)。

相对于此，在上述第2实施方式中，可动臂120的移动范围限制在移动允许范围130内。移动允许范围130比可动臂120能够移动的总范围133(图9A及图9B)窄。因此，能够减小使工作人员禁止进入区域。而且，即使在能够移动的总范围133的内部，若在移动允许范围130的外侧，则可以配置障碍物。换言之，能够将机械手靠近障碍物设置。例如，即使在工厂内的某一位置的顶棚比可动臂120能够移动的总范围133的顶端部更低的情况下，但只要其比移动允许范围130更高，则能够在该部位设置机械手。因此，能够有效利用工厂内的空间。

并且，在上述第2实施方式中，只要将移动允许范围130固定地设定为禁止进入区域，则无需在可动臂120的附近配置用于检测工作人员进入的传感器等即可避免工作人员与可动臂120碰撞。

若用至少一个基本图形定义移动允许范围130，则能够削减在步骤SS3中进行移动路径的候补是否落入移动允许范围130内(图6A及图6B)的判定时的计算量。

接着，参考图10，对基于另一实施方式的机械手的控制装置进行说明。以下，省略对与参考图5～图9B进行说明的第2实施方式相同的结构的说明。在本实施方式中，使用者能够修正由允许范围确定部113(图5)确定的移动允许范围130(图6A及图6B)。

图10是表示显示于显示部122(图5)中的图像的图。允许范围确定部113根据示教中的可动臂120的移动轨迹将在当前时刻确定的移动允许范围130A和可动臂120以能够掌握两者之间的位置关系的方式显示于显示部122。例如，显示移动允许范围130A和可动臂120的俯视观察时的位置关系(图10的左侧图)及铅垂截面中的位置关系(图10的右侧图)。

使用者可以操作定点设备等输入部121来修正移动允许范围130A从而重新设定修正后的移动允许范围130B。该修正例如可以通过拖拽移动允许范围130A的外周线来进行。在图10中，示出了将修正前的移动允许范围130A沿着以回转中心轴为中心的半径方向拉伸的例子。

若使用者修正了移动允许范围130A之后点击或触摸“确定允许范围”按钮，则允许范围确定部113将修正后的移动允许范围130B设定为新的移动允许范围130。若使用者点击或触摸“返回”按钮，则允许范围确定部113不修正移动允许范围130A，结束修正顺序。

接着，对本实施方式的优异效果进行说明。

在本实施方式中，使用者可以根据可动臂120的周围状况来修正根据示教中的可动臂120的移动轨迹来确定的移动允许范围130A。例如，在将比修正前的移动允许范围130A更宽的区域确保为禁止进入区域的情况下，可以将比根据示教中的可动臂120的移动轨迹来确定的移动允许范围130A更宽的范围设定为移动允许范围130B。并且，在设置有可动臂120的工厂的顶棚充分高导致即使将可动臂120向上最大限度地拉伸也不会到达顶棚的情况下，可以解除移动允许范围130B的高度方向上的限制。

若使移动允许范围130变宽，则在步骤SS3(图7)的判定处理中移动路径的候补落入移动允许范围130内的概率会变高。由此，能够减少重新搜索移动路径的候补的频度。并且，能够获得报错的频度减小的优异效果。

相反，在可动臂120的附近新设置了其他装置的情况下，可以使移动允许范围130变窄，以便可动臂120不与新设置的装置碰撞。

接着，对上述第2实施方式的变形例进行说明。

在上述第2实施方式中，控制对象为协作机械手的可动臂120(图5)，但是也可以将其他可动臂作为控制对象。例如，可以将自动操纵挖土机的动臂、斗杆及附属装置(作用部)作为控制对象。此时，动臂、斗杆及附属装置相当于上述第2实施方式的可动臂120。

接着，参考图11，对基于又一实施方式的控制机械手的系统进行说明。以下，省略对与参考图5～图10进行说明的实施方式相同的结构的说明。

图11是基于本实施方式的系统的框图。基于本实施方式的系统包括：包含可动臂120及控制装置110的多个机械手140；LAN等网络160；以及控制服务器150。多个机械手140经由网络160与控制服务器150连接。基于图5所示的实施方式的控制装置110的一部分功能由控制服务器150实现。控制装置110和控制服务器150具有经由网络160进行各种指令或数据的收发的功能。

机械手140的各控制装置110包括轨迹信息获取部111、臂控制部115及接口部116。轨迹信息获取部111、臂控制部115及接口部116的功能分别与基于图5所示的实施方式的控制装置110的轨迹信息获取部111、臂控制部115及接口部116的功能相同。

控制服务器150包括轨迹信息接收部151、模仿学习部152、允许范围确定部153、移动范围限制部154、移动路径发送部155及显示部156。轨迹信息接收部151经由网络160接收由机械手140的轨迹信息获取部111获取的表示示教中的移动轨迹的轨迹信息。模仿学习部152、允许范围确定部153、移动范围限制部154及显示部156的功能分别与图5所示的控制装置110的模仿学习部112、允许范围确定部113、移动范围限制部114及机械手140的显示部122的功能相同。

即，移动范围限制部154执行图7所示的流程图的步骤SS1到步骤SS5的顺序。另外，在步骤SS1中，获取由机械手140的照相机123拍摄的图像数据。若在步骤SS3中判定为移动路径的候补落入移动允许范围内，则移动路径发送部155经由网络160向控制装置110的臂控制部115发送表示移动路径的候补的信息。臂控制部115根据所接收的表示移动路径的候补的信息来控制可动臂120。

接着，对图11所示的实施方式的优异效果进行说明。

在图11所示的实施方式中，也与图5～图9B所示的实施方式同样地，能够有效利用工厂内的空间。

接着，对上述实施方式的变形例进行说明。控制服务器150还可以代替基于图11所示的实施方式的系统的机械手140而构建控制自动操纵挖土机的系统。即，控制服务器150能够用于机械手140、自动操纵挖土机等施工机械的控制。并且，控制装置110与控制服务器150的功能分担并不只限于图11所示的实施方式。例如，可以由控制服务器150实现控制装置110的一部分功能，也可以由控制装置110实现控制服务器150的一部分功能。

上述各个实施方式为示例，理所当然，在不同的实施方式中示出的结构的一部分可以进行置换或组合。对于多个实施方式中的基于相同结构的相同的作用效果，并不在每一个实施方式中逐一提及。而且，本发明并不只限于上述实施方式。例如，可以进行各种变更、改进、组合等，这对本领域技术人员来说是显而易见的。

(第2实施方式的概要)

第2实施方式的装置及系统的概要如下。

[第2实施方式的概要1]

一种控制装置，其具备：

轨迹信息获取部，获取表示通过示教提供的可动臂的移动轨迹的轨迹信息；

允许范围确定部，根据由所述轨迹信息获取部获取的轨迹信息来确定所述可动臂的移动允许范围；及

移动范围限制部，将所述可动臂的移动范围限制在由所述允许范围确定部确定的移动允许范围内。

[第2实施方式的概要2]

根据第2实施方式的概要1所述的控制装置，其中，

所述可动臂包括至少一个关节和位于前端的作用部，

所述允许范围确定部针对所述作用部及所述关节各自的移动轨迹的集合确定移动允许范围。

[第2实施方式的概要3]

根据第2实施方式的概要1或2所述的控制装置，其还具备显示部，

所述允许范围确定部将表示所确定的移动允许范围的信息显示于所述显示部。

[第2实施方式的概要4]

根据第2实施方式的概要1至3中任一项所述的控制装置，其还具备供使用者操作的输入部，

若使用者操作所述输入部而修正了在当前时刻确定的移动允许范围，则所述允许范围确定部将修正后的范围重新确定为移动允许范围。

[第2实施方式的概要5]

根据第2实施方式的概要1至4中任一项所述的控制装置，其中，

所述允许范围确定部根据通过示教提供的移动轨迹的凸包来确定移动允许范围、或者用包含通过示教提供的移动轨迹的至少一个基本图形来确定移动允许范围。

[第2实施方式的概要6]

根据第2实施方式的概要5所述的控制装置，其中，

所述允许范围确定部在没有使用者介入的情况下确定移动允许范围。

[第2实施方式的概要7]

根据第2实施方式的概要1至6中任一项所述的控制装置，其还具备模仿学习部，所述模仿学习部将基于检测对象物的传感器的检测结果与通过示教提供的可动臂的移动轨迹建立关联后进行机器学习。

[第2实施方式的概要8]

一种系统，其具备：

轨迹信息接收部，从施工机械接收表示通过示教提供的可动臂的移动轨迹的轨迹信息；

允许范围确定部，根据由所述轨迹信息接收部接收的轨迹信息来确定所述可动臂的移动允许范围；

移动范围限制部，在将所述可动臂的移动范围限制在由所述允许范围确定部确定的移动允许范围内的条件下确定所述可动臂的移动路径；及

移动路径发送部，将表示由所述移动范围限制部确定的移动路径的信息发送到所述施工机械。

(第3实施方式)

在日本特开2017-136677号公报中公开了一种根据对象物的影像及与对象物的接触位置的测量结果来识别对象物的姿势并进行拣选的系统。在上述公报中公开的系统中，通过同时使用对象物的影像及基于与对象物的接触的测量信息，能够识别被塑料袋或缓冲材料包裹的对象物的位置。

在日本特开2020―82322号公报中公开了一种使用模拟器生成用于机器学习的学习用数据集并使用该学习用数据集来进行机器学习的拣选装置。

输入到实际的拣选动作中使用的学习模型的数据为实际环境中实际与对象物接触而收集的数据。难以在使用模拟器生成的学习用数据集中再现实际环境中与对象物接触的情况下产生的摩擦等。因此，难以提高学习模型的精确度。

在第3实施方式中，提供一种能够提高学习模型的精确度的拣选装置及学习装置。

参考图12～图21，对基于本发明的第3实施方式的拣选装置进行说明。

图12是基于第3实施方式的拣选装置的框图。基于第3实施方式的拣选装置具备控制装置210、拣选机构240、输出装置251、输入装置252及摄像装置253。拣选机构240包括多关节型机械手臂241、安装于其前端的把持部242及力觉传感器243。另外，力觉传感器243也可以安装于与使把持部242移动的多关节型机械手臂241不同的其他机械手臂上。控制装置210和力觉传感器243的组合相当于本发明所涉及的信息处理装置的一例。

摄像装置253对拣选的对象物进行拍摄从而获取图像数据。根据该图像数据可以掌握对象物的大致位置。由摄像装置253拍摄的图像数据输入到控制装置210。另外，也可以代替摄像装置253而使用以非接触方式获取用于求出对象物的位置或姿势的候补的信息的装置。例如，可以使用获取二维图像并且可以获得图像上的进深信息的深度传感器。

输入装置252用于向控制装置210输入各种数据或指令，例如通过键盘、定点设备、触控面板、通信装置、可移动媒体读取装置等来实现。输入到输入装置252的数据或指令等输入到控制装置210。输出装置251用于在控制装置210的控制下输出各种数据、图像、通知信息等，例如通过显示器、通信装置、可移动媒体写入装置等来实现。

多关节型机械手臂241在控制装置210的控制下能够将把持部242支承为任意姿势并且能够使把持部242沿任意路径移动。把持部242在控制装置210的控制下进行抓取对象物的动作及放开对象物的动作。而且，多关节型机械手臂241在控制装置210的控制下能够将力觉传感器243支承为任意姿势并且能够使力觉传感器243沿任意路径移动。

力觉传感器243具备触头，在触头与对象物的表面接触的情况下获取来自接触部位的反作用力的信息。接触信息包括确定接触点的位置的信息及确定来自接触点的反作用力的朝向的信息。反作用力的朝向与触头所接触的面的法线方向大致相等。力觉传感器243在受到了非常小的反作用力时停止，因此在不会使对象物移动的情况下能够获取接触信息。接触信息可用作推断对象物的位置及姿势的基本信息。

控制装置210由具备中央处理单元(CPU)、RAM、非易失性存储器及接口部等的计算机构成。在非易失性存储器中存储有供CPU执行的程序。后述的控制装置210的各种功能通过由CPU执行程序来实现。

接着，对控制装置210的各种功能进行说明。

[形状定义数据获取部]

形状定义数据获取部211获取定义成为拣选的对象的对象物的形状的形状定义数据。形状定义数据例如为CAD数据，其从输入装置252输入。形状定义数据获取部211将所获取的形状定义数据存储于RAM。

图13A是将定义作为对象物的例子的六角螺母的形状的CAD数据示于平面上的图。六角螺母的表面由多个三角形要素表示。将由CAD数据定义的三维形状称为CAD模型。

[预先学习部]

预先学习部212(图12)使用模拟器进行位置姿势推断学习模型231的学习。具体而言，根据由形状定义数据获取部211获取的形状定义数据来进行位置姿势推断学习模型231的学习。若从力觉传感器243输入有接触信息，则位置姿势推断学习模型231输出推断对象物的位置及姿势的结果。以下，对预先学习部212的功能进行说明。

预先学习部212根据形状定义数据来定义位于CAD模型的表面的多个参考点p。例如，定义数千个参考点p。

图13B是将定义在CAD模型的表面的多个参考点p显示于平面上的图。参考点p由黑色圆点表示。预先学习部212从多个参考点p中提取代表参考点p_i。在此，i为标注于代表参考点的序列号。例如，代表参考点p_i为5～210个左右。

图14是表示多个代表参考点p_i的示意图。预先学习部212针对代表参考点p_i分别求出代表参考点p_i所属的面的法线矢量f_i。可获得包括多个代表参考点p_i和法线矢量f_i的数据集合{p_i，f_i|i＝1，2，……k}。在此，k为代表参考点p_i的个数。将所获得的数据集合用表示平移t及旋转r的矢量进行坐标转换。通过平移t及旋转r，确定对象物的位置及姿势。在本说明书中，将定义平移t及旋转r的矢量称为位置姿势矢量{t，r}。

图15是表示预先学习中使用的坐标转换的一例的示意图。通过用由平移t及旋转r定义的位置姿势矢量对代表参考点p_i及法线矢量f_i进行坐标转换，可获得转换后的代表参考点p’_i及转换后的法线矢量f’_i。转换后的代表参考点p’_i及转换后的法线矢量f’_i例如由以多关节型机械手臂241的基部为基准的机械手坐标系表示。

预先学习部212(图12)将转换后的数据集合{p’_i，f’_i|i＝1，2，……k}和用于该转换的由平移t及旋转r定义的位置姿势矢量{t，r}作为一个学习用数据集来生成多个学习用数据集。此时，位置姿势矢量{t，r}随机生成。作为一例，将所生成的学习用数据集的个数设为百万个左右。

使用所生成的多个学习用数据集进行预先学习。例如，将转换后的数据集合{p’_i，f’_i|i＝1，2，……k}作为输入并将位置姿势矢量{t，r}作为输出来学习位置姿势推断学习模型231。具体而言，确定位置姿势推断学习模型231的神经网络的参数。转换后的数据集合{p’_i，f’_i|i＝1，2，……k}的各要素对应于由力觉传感器243获得的接触信息的接触位置及反作用力的方向。

[位置姿势候补输出部]

位置姿势候补输出部213获取由摄像装置253拍摄的对象物的图像数据并对图像数据进行分析，从而输出对象物的位置及姿势的多个候补。位置及姿势的多个候补分别由位置姿势矢量{t，r}确定。所输出的多个候补存储于RAM等。

[接触路径确定部]

接触路径确定部214使用位置姿势候补输出部213所输出的多个候补作为向接触路径确定学习模型232的输入来确定用于使力觉传感器243与对象物接触的力觉传感器243的接触路径。接触路径包括指定使力觉传感器243移动的路径及力觉传感器243的姿势的信息。

在接触路径确定学习模型232的学习尚未完毕的情况下，接触路径确定部214例如求出对象物的位置及姿势的多个候补的最小包围球，确定朝向最小包围球的中心的多个路径作为接触路径。

[接触信息获取部]

接触信息获取部215获取力觉传感器243与对象物接触的情况下的接触信息。接触信息包括接触位置的信息和表示力觉传感器243从对象物接受的反作用力的朝向的信息。将使力觉传感器243与对象物接触的动作称为接触动作。

[位置姿势推断部]

位置姿势推断部216将通过多次接触动作由接触信息获取部215获取的多个接触信息用作向位置姿势推断学习模型231的输入并推断出对象物的位置及姿势。

[拣选控制部]

拣选控制部217根据由位置姿势推断部216推断出的对象物的位置及姿势来控制拣选机构240，从而用把持部242拣选对象物。而且，拣选控制部217输出对象物的拣选成功与否的信息。拣选的成功与否可以根据拣选动作后的把持部242(图12)的多个卡爪的相对位置关系来判定。

[位置姿势推断追加学习部]

位置姿势推断追加学习部218使用通过实际的拣选动作获得的信息来进行位置姿势推断学习模型231的追加学习。实际的应用中是否进行追加学习可以由使用者指示。

图16是表示位置姿势推断追加学习部218执行追加学习的顺序的流程图。位置姿势推断追加学习部218判定拣选动作是否成功(步骤SA1)。在拣选动作失败的情况下，不进行位置姿势推断学习模型231的追加学习。在拣选动作成功的情况下，将位置姿势推断部216用于向位置姿势推断学习模型231的输入的多个接触信息及输入了该接触信息时输出的位置姿势矢量{t，r}储存为新的学习用数据集(步骤SA2)。

在储存完毕的学习用数据集的量为基准值以下的情况下，结束位置姿势推断追加学习(步骤SA3)。在储存完毕的学习用数据集的量超过了基准值的情况下，将所储存的学习用数据集的接触信息作为输入并将位置姿势矢量{t，r}作为输出追加学习位置姿势推断学习模型231。

[接触路径确定强化学习部]

接触路径确定强化学习部219(图12)进行接触路径确定学习模型232的强化学习。具体而言，生成接触路径确定学习模型232的神经网络的参数。以下，参考图17，对接触路径确定强化学习部219所进行的强化学习的顺序进行说明。

图17是表示接触路径确定强化学习部219执行强化学习的顺序的流程图。首先，接触路径确定强化学习部219从位置姿势候补输出部213获取对象物的位置及姿势的多个候补(步骤SB1)。根据多个候补来确定任意一个接触路径(步骤SB2)。例如，求出能够存在多个候补的区域的最小包围球，确定朝向该最小包围球的中心的任意一个路径作为接触路径。

若确定了接触路径，则使力觉传感器243沿该接触路径移动，进行接触动作(步骤SB3)。根据接触动作的结果来缩小候补，计算出报酬(步骤SB4)。例如，在位置及姿势的某个候补位于力觉传感器243在接触动作中并未接触而经过的区域时，该候补被舍弃。而且，位于以接触点为中心并将对象物的最大尺寸作为半径的球的外侧的候补也被舍弃。将通过一次接触动作而被舍弃的候补的数量作为报酬。

将步骤SB2到步骤SB4的顺序重复进行规定次数(步骤SB5)。之后，将在步骤SB1中获取的多个候补的集合作为输入并将合计报酬变高的多个接触路径作为输出来学习接触路径确定学习模型232(步骤SB6)。即，接触路径确定强化学习部219将对象物的位置及姿势的多个候补的集合设为“状态”、将基于多个接触路径的接触动作设为“行为”并将对象物的位置及姿势的候补减小的数量设为“报酬”而进行强化学习。

[接触路径确定模仿学习部]

接触路径确定模仿学习部220进行接触路径确定学习模型232的模仿学习。以下，参考图18及图19，对接触路径确定模仿学习部220所进行的模仿学习的顺序进行说明。

图18是表示接触路径确定模仿学习部220执行模仿学习的顺序的流程图。首先，接触路径确定模仿学习部220从位置姿势候补输出部213获取对象物的位置及姿势的多个候补以及成为输出了该候补的源的图像数据(步骤SC1)。获取这些数据之后，将多个候补的图形和图像重叠显示于输出装置251(步骤S C2)。

图19是表示输出到输出装置251的图形及图像的一例的图。显示有对象物的实际图像260，并且用虚线以与图像260重叠的方式显示有多个候补261。而且，显示有用于指定力觉传感器243的接触路径的接触路径指定用箭头262。使用者通过移动指针263来修正接触路径指定用箭头262的位置及方向，从而指定接触路径。另外，通过操作指针263，可以使图像260、表示多个候补261的图形及接触路径指定用箭头262三维地旋转。若完成了接触路径指定用箭头262的调整，则使用者点击或触摸确定按钮264从而指定接触路径(步骤SC3)。

若指定了接触路径，则接触路径确定模仿学习部220根据对象物的位置及姿势的多个候补及由使用者指定的接触路径来进行接触路径确定学习模型232的模仿学习(步骤SC4)。

[位置姿势推断学习模型评价部]

位置姿势推断学习模型评价部221(图12)进行位置姿势推断学习模型231的评价。具体而言，位置姿势推断部216使用位置姿势推断学习模型231推断出对象物的位置及姿势，并根据推断结果来求出拣选控制部217进行拣选动作时的拣选成功与否的频度。若把持失败的频度超出了基准值，则通知使用者以执行基于位置姿势推断追加学习部218的追加学习。该通知例如通过在输出装置251显示信息来进行。

[接触路径确定学习模型评价部]

接触路径确定学习模型评价部222进行接触路径确定学习模型232的评价。具体而言，针对各个对象物，接触路径确定学习模型评价部222对直至拣选成功为止使力觉传感器243接触的次数进行计数，若接触次数超出了基准值，则通知使用者以执行接触路径确定学习模型232的学习。该通知例如通过在输出装置251显示信息来进行。

基于第3实施方式的拣选装置在应用模式和学习模式中的任一模式下进行动作。应用模式包括追加学习应用模式和一般应用模式这两个模式。关于使拣选装置在哪个模式下进行动作，使用者通过操作输入装置252来对控制装置210进行指示。

[应用模式]

参考图20，对追加学习应用模式下的拣选装置的动作进行说明。图20是表示追加学习应用模式下的拣选装置的动作的流程图。

首先，使用者判定拣选的对象物是否为新的对象物(步骤SD1)。在对象物为新的对象物情况下，使用者操作输入装置252(图12)对控制装置210指示执行预先学习。若指示了执行预先学习，则形状定义数据获取部211获取形状定义数据(图13A)(步骤SD2)。预先学习部212(图12)根据所获取的形状定义数据来进行位置姿势推断学习模型231的预先学习(步骤SD3)。

在拣选的对象物不是新的对象物且已完成位置姿势推断学习模型231的预先学习的情况下或者在步骤SD3中的预先学习已结束的情况下，位置姿势候补输出部213(图12)获取对象物的图像数据，并进行图像分析，由此输出对象物的位置及姿势的多个候补(步骤SD4)。

若输出了多个候补，则接触路径确定部214(图12)确定力觉传感器243的规定的多个接触路径，接触信息获取部215进行规定的多次接触动作(步骤SD5)。所确定的接触路径的数量及接触动作的次数预先设定，例如为三次。之后，位置姿势推断部216(图12)根据通过接触动作获得的多个接触信息并使用位置姿势推断学习模型231推断出对象物的位置及姿势(步骤SD6)。

接着，拣选控制部217根据推断出的位置及姿势来控制拣选机构240，由此进行拣选动作(步骤SD7)。在拣选成功的情况下，位置姿势推断追加学习部218进行图16所示的追加学习(步骤SD9)。另外，图16的步骤SA1与图20的步骤SD8相同。

在步骤SD7中拣选失败的情况下，再次执行步骤SD5的接触动作。此时，通过上次为止的接触动作缩小了对象物的位置及姿势的候补，因此接触路径确定部214确定与上次为止的接触动作的接触路径不同的多个接触路径。接触信息获取部215根据新确定的多个接触路径来进行多次接触动作，并获取接触信息。在步骤SD6中，位置姿势推断部216使用通过上次为止的接触动作及这次的接触动作获取的所有接触信息来推断出对象物的位置及姿势。由于利用的接触信息的数量变多，因此对象物的位置及姿势的推断精确度变高。

在一般应用模式下应用拣选装置的情况下，不执行追加学习(步骤SD9)。

[学习模式]

接着，参考图21，对学习模式下的拣选装置的动作进行说明。图21是表示学习模式下的拣选装置的动作的流程图。

步骤SD1到步骤SD4的顺序与追加学习运行模式(图20)的步骤SD1到步骤SD4的顺序相同。在步骤SD4之后，控制装置210根据由使用者指示的学习方法来执行强化学习及模仿学习中的一种学习。使用者预先选择执行哪一种学习方法，并从输入装置252对控制装置210指示所选择的学习方法。

在选择了强化学习的情况下，接触路径确定强化学习部219(图12)按照图17所示的顺序执行强化学习(步骤SE1)。另外，在图17所示的步骤SB1中，接触路径确定强化学习部219获取在图21的步骤SD4中位置姿势候补输出部213(图12)所输出的位置及姿势的候补。

在选择了模仿学习的情况下，接触路径确定模仿学习部220(图12)按照图18所示的顺序执行模仿学习(步骤SE2)。在图18的步骤SC1中，接触路径确定模仿学习部220获取在图21的步骤SD4中位置姿势候补输出部213所获取的图像数据、以及位置姿势候补输出部213所输出的位置及姿势的候补。

控制装置210在进行强化学习或模仿学习之后执行与追加学习应用模式(图20)的步骤SD5到步骤SD9的顺序相同的顺序。

接着，对上述第3实施方式的优异效果进行说明。

在上述第3实施方式中，预先学习部212(图12)使用图13A所示的CAD数据生成多个学习用数据集。因此，无需进行对象物的准备及实际的拣选动作即可学习位置姿势推断学习模型231(图12)。

而且，位置姿势推断追加学习部218(图12)使用从实际的拣选动作中获取的数据集(接触信息和推断出的位置及姿势)来追加学习位置姿势推断学习模型231，因此能够构建符合实际环境的位置姿势推断学习模型231。例如，在力觉传感器243与对象物的表面接触的情况下力觉传感器243从对象物受到的反作用力的方向有时会受到摩擦等的影响而从表面的法线方向偏移。在预先学习中，如图14所示，假设反作用力的方向为对象物的表面的法线方向的情况下学习了位置姿势推断学习模型231，因此并未再现在实际环境中产生的摩擦等。因此，在使用了仅通过预先学习而学习的位置姿势推断学习模型231的情况下，推断精确度有时会下降。在上述第3实施方式中，使用从实际环境获得的数据集进行追加学习，因此能够提高位置姿势推断学习模型231的推断精确度。

接触路径确定部214使用通过强化学习及模仿学习中的至少一种学习方法学习的接触路径确定学习模型232来确定力觉传感器243的接触路径。因此，能够将用于使位置姿势推断部216高精确度地推断位置及姿势的最佳接触信息提供给位置姿势推断部216。而且，能够减少直至拣选成功为止的接触次数。由此，能够提高生产率(throughput)。

而且，通过在学习模式(图21)下使拣选装置进行动作，包括接触路径确定强化学习部219及接触路径确定模仿学习部220的接触路径确定学习部学习接触路径确定学习模型232。因此，能够使用接触路径确定学习模型232来确定直至拣选成功为止的接触次数进一步减少的优选的接触路径。

位置姿势推断学习模型评价部221对位置姿势推断学习模型231的推断精确度进行评价，并在推断精确度低的情况下通知使用者以进行追加学习。具体而言，在拣选失败的频度超出了基准值的情况下，通知使用者以进行追加学习。因此，使用者能够容易判断是否进行位置姿势推断学习模型231的追加学习。

而且，接触路径确定学习模型评价部222对使用接触路径确定学习模型232确定的接触路径的恰当性进行评价。具体而言，在直至拣选完成为止的接触次数多于基准值的情况下，判定为所确定的接触路径的恰当性低。此时，接触路径确定学习模型评价部222通知使用者以学习接触路径确定学习模型232。由此，使用者能够容易地判断是否学习接触路径确定学习模型232。

上述第3实施方式为示例，本发明并不只限于上述第3实施方式。例如，可以进行各种变更、改进、组合等，这对本领域技术人员来说是显而易见的。

(第3实施方式的概要)

第3实施方式的装置的概要如下。

[第3实施方式的概要1]

一种拣选装置，其具备：

力觉传感器，与对象物接触，并获得成为推断对象物的位置及姿势的基础的接触信息；

拣选机构，抓取对象物；及

控制装置，根据从所述力觉传感器获取的接触信息来控制所述拣选机构，

所述控制装置包括：

预先学习部，利用使用模拟器生成的学习用数据集来预先学习拣选动作的学习模型；

拣选控制部，通过使用预先学习的学习模型来控制所述力觉传感器及所述拣选机构来进行拣选动作；及

追加学习部，使用通过实际的拣选动作获得的数据集追加学习拣选动作的学习模型。

[第3实施方式的概要2]

根据第3实施方式的概要1所述的拣选装置，其中，

所述预先学习部预先学习根据定义对象物的形状的形状定义数据来推断对象物的位置及姿势的位置姿势推断学习模型，

所述控制装置还包括位置姿势推断部，所述位置姿势推断部将从所述力觉传感器获得的接触信息用作向所述位置姿势推断学习模型的输入来推断出对象物的位置及姿势，

所述拣选控制部根据由所述位置姿势推断部推断出的位置及姿势来控制所述拣选机构的动作，

所述追加学习部根据从所述力觉传感器获得的接触信息及基于所述拣选控制部的所述拣选机构的动作的成功与否来进行所述位置姿势推断学习模型的追加学习。

[第3实施方式的概要3]

根据第3实施方式的概要2所述的拣选装置，其中，

所述控制装置还包括位置姿势推断学习模型评价部，若在所述拣选机构的动作中失败的频度超出了基准值，则所述位置姿势推断学习模型评价部通知使用者以执行基于所述追加学习部的追加学习。

[第3实施方式的概要4]

根据第3实施方式的概要1至3中任一项所述的拣选装置，其中，

所述控制装置还包括：

位置姿势候补输出部，根据从对象物以非接触方式获取的信息来输出对象物的位置及姿势的多个候补；

接触路径确定部，使用将对象物的位置及姿势的多个候补作为输入并将所述力觉传感器的接触路径作为输出的接触路径确定学习模型并根据从所述位置姿势候补输出部输出的多个候补来确定所述力觉传感器的接触路径；及

接触路径确定学习部，使用从所述位置姿势候补输出部输出的对象物的位置及姿势的多个候补以及针对该多个候补确定的接触路径来学习所述接触路径确定学习模型。

[第3实施方式的概要5]

根据第3实施方式的概要4所述的拣选装置，其中，

所述接触路径确定学习部进行强化学习及模仿学习中的至少一种学习，所述强化学习将对象物的位置及姿势的多个候补的集合设为“状态”、将基于多个接触路径的接触动作设为“行为”并将对象物的位置及姿势的候补减小的数量设为“报酬”，所述模仿学习基于对象物的位置及姿势的多个候补以及使用者所指定的接触路径。

[第3实施方式的概要6]

根据第3实施方式的概要4或5所述的拣选装置，其中，

所述控制装置还具有接触路径确定学习模型评价部，所述接触路径确定学习模型评价部针对各个对象物对直至拣选成功为止使所述力觉传感器接触的次数进行计数，并在接触次数超出了基准值时通知使用者以执行所述接触路径确定学习模型的学习。

[第3实施方式的概要7]

根据第3实施方式的概要1至6中任一项所述的拣选装置，其中，

所述控制装置还具有形状定义数据获取部，所述形状定义数据获取部接受定义对象物的形状的形状定义数据的输入。

[第3实施方式的概要8]

一种学习装置，其利用使用模拟器生成的学习用数据集来预先学习拣选动作的学习模型，并且使用数据集追加学习拣选动作的学习模型，其中，所述数据集通过使用预先学习的学习模型控制与对象物接触而获得接触信息的力觉传感器及抓取对象物的拣选机构进行的拣选动作而获得。

以上，对第1实施方式～第3实施方式进行了说明。第1实施方式的结构、第2实施方式的结构以及第3实施方式的结构可以彼此组合。

产业上的可利用性

本发明能够利用于信息处理装置及拣选装置。

符号说明

1-拣选装置(信息处理装置)，10-控制部，11-物体信息存储部，12-摄影控制部，13-移动控制部，14-推断部，15-机械手控制部，16-接口，21-摄影部，22-力觉传感器，23-驱动装置，24-机械手臂(取出机构)，Q1、Q2-物体，R0-初始区域，h1、h2、h11～h13-接触路径，p1、p2、p11～p13-接触点，s11a、s21-具有不对称性的部位的面，110-控制装置，111-轨迹信息获取部，112-模仿学习部，113-允许范围确定部，114-移动范围限制部，115-臂控制部，116-接口部，120-可动臂，120A-末端执行器，121-输入部，122-显示部，123-照相机，125-基台，130-移动允许范围，130A-修正前的移动允许范围，130B-修正后的移动允许范围，131-示教中的移动轨迹，132-移动路径的候补，133-可动臂能够移动的总范围，140-机械手，150-控制服务器，151-轨迹信息接收部，152-模仿学习部，153-允许范围确定部，154-移动范围限制部，155-移动路径发送部，156-显示部，160-网络，210-控制装置，211-形状定义数据获取部，212-预先学习部，213-位置姿势候补输出部，214-接触路径确定部，215-接触信息获取部，216-位置姿势推断部，217-拣选控制部，218-位置姿势推断追加学习部，219-接触路径确定强化学习部，220-接触路径确定模仿学习部，221-位置姿势推断学习模型评价部，222-接触路径确定学习模型评价部，231-位置姿势推断学习模型，232-接触路径确定学习模型，240-拣选机构，241-多关节型机械手臂，242-把持部，243-力觉传感器，251-输出装置，252-输入装置，253-摄像装置，260-对象物的图像，261-位置及姿势的候补，262-接触路径指定用箭头，263-指针，264-确定按钮。

Claims

1.一种信息处理装置，其推断出物体的姿势，所述信息处理装置的特征在于，具备：

存储部，存储表示所述物体的形状及大小的物体信息；

力觉传感器，通过接触来获取接触点的检测信息；

移动控制部，使所述力觉传感器移动；及

所述推断部在完成所述多次接触之前针对所述物体的姿势推断出多个候补，

所述移动控制部使所述力觉传感器移动，以使所述力觉传感器在所述多次接触中与所述物体的不同的面接触，进而接触所述多个候补中所包含的面的位置的不确定性程度比所述多个候补中所包含的其他面更高的面。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述检测信息包括所述接触点的位置及包括所述接触点的面的法线的信息，

在所述多次接触中的第n次接触时，所述移动控制部使所述力觉传感器沿与包括所述第n次之前接触的接触点的面的法线交叉的方向移动。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

具备摄影部，所述摄影部获取物体的影像，

所述推断部根据所述影像来推断出能够与所述物体接触的位置。

4.根据权利要求1所述的信息处理装置，其特征在于，还具备：

5.根据权利要求1所述的信息处理装置，其特征在于，

还具备学习装置，所述学习装置利用使用模拟器生成的学习用数据集来预先学习拣选动作的学习模型，并使用数据集追加学习拣选动作的学习模型，其中，所述数据集通过使用预先学习的学习模型控制与对象物接触从而获得接触信息的所述力觉传感器及抓取对象物的拣选机构进行的拣选动作而获得。

6.一种拣选装置，其特征在于，具备：

权利要求1至3中任一项所述的信息处理装置；及

取出机构，使用所述推断部的推断结果取出所述物体。