CN111176114B

CN111176114B - 输出装置、控制装置、以及评价函数和机器学习结果的输出方法

Info

Publication number: CN111176114B
Application number: CN201911071925.4A
Authority: CN
Inventors: 恒木亮太郎; 猪饲聪史; 下田隆贵
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-11-09
Filing date: 2019-11-05
Publication date: 2023-02-17
Anticipated expiration: 2039-11-05
Also published as: US11592789B2; DE102019217130B4; CN111176114A; US20200150599A1; JP6849643B2; DE102019217130A1; JP2020077310A

Abstract

本发明提供一种输出装置、控制装置、以及评价函数和机器学习结果的输出方法，通过输出多个评价函数和各评价函数的机器学习结果，可以确认评价函数与学习结果之间的关系。输出装置具有：输出部，其输出机器学习装置中使用的多个评价函数、每一个评价函数的机器学习结果，其中，所述机器学习装置对控制伺服电动机的伺服控制装置的结构要素的参数进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴；信息取得部，其从所述伺服控制装置和所述机器学习装置中的至少一方，取得机器学习结果。

Description

输出装置、控制装置、以及评价函数和机器学习结果的输出方法

技术领域

本发明涉及输出装置、控制装置、以及评价函数和机器学习结果的输出方法，特别是涉及在机器学习装置中分别使用多个评价函数来进行机器学习，输出多个评价函数和各评价函数的机器学习结果的输出装置、包含该输出装置的控制装置、以及评价函数和机器学习结果的输出方法，其中，所述机器学习装置使用评价函数来对控制伺服电动机的伺服控制装置进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴。

背景技术

作为本发明相关联的技术，例如在专利文献1中记载了具有反馈控制部和调整部的控制装置，其中，所述反馈控制部将参考指令与外部控制对象输出的控制量之间的偏差输入到用规定的控制参数控制的控制器，并以控制器输出的操作量对控制对象进行控制，所述调整部根据机器学习过程中的学习内容调整控制参数。作为具有控制装置的机器控制系统，例如有通过控制旋转型电动机的驱动来控制滑块的直线移动的系统。作为控制参数，例如有位置环增益、速度环增益、速度环积分时间常数、转矩指令滤波器时间常数、陷波滤波器频率等。并且，还记载了在机器学习过程中使用强化学习。

现有技术文献

专利文献1：国际公开第2018/151215号小册子

在专利文献1中，根据使用了强化学习的机器学习过程中的学习内容，来调整控制参数。由于操作员等用户无法参与机器学习，因此有时会没有按照用户意愿来抑制因控制参数调整而得的偏差。例如，有时有的用户即使偏差不是足够小也要重视抑制高频振动，另一些用户则虽然还残留有高频振动但却重视充分减小偏差。

此外，在通过机器学习装置对控制伺服电动机的伺服控制装置的结构要素的参数进行机器学习时，通常情况下，由于没有显示机器学习装置所使用的评价函数，因此操作员无法知晓使用了怎样的评价函数而获得了怎样的学习效果，其中，所述伺服电动机用于驱动机床、机器人或工业机械的轴。

发明内容

本发明的目的在于提供一种输出装置、包含该输出装置的控制装置、以及评价函数和机器学习结果的输出方法，输出多个评价函数和各评价函数的机器学习结果，以便能够知晓评价函数与学习结果之间的关系。

(1)本发明涉及的输出装置(例如，后述的输出装置200、200A)具有：

输出部(例如，后述的控制部205与显示部209、控制部205与存储部206)，其输出机器学习装置(例如，后述的机器学习装置100)中使用的多个评价函数、每一个评价函数的机器学习结果，其中，所述机器学习装置对控制伺服电动机(例如，后述的伺服电动机400)的伺服控制装置(例如，后述的伺服控制装置300)的结构要素的参数进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴；以及

信息取得部(例如，后述的学习信息取得部201、伺服信息取得部207)，其从所述伺服控制装置和所述机器学习装置中的至少一方，取得所述机器学习结果。

(2)在上述(1)的输出装置中，可以是，所述输出部包含：显示部(例如，后述的显示部209)，其在显示画面显示所述多个评价函数、对每个评价函数取得的所述机器学习结果。

(3)在上述(1)或(2)的输出装置中，可以是，所述输出装置具有：信息输出部(例如，后述的伺服信息输出部208)，其向所述伺服控制装置输出从使用所述多个评价函数进行了机器学习的多个参数中根据所述多个评价函数的每一个评价函数的机器学习结果而选择出的参数。

(4)在上述(1)～(3)中任一项的输出装置中，可以是，所述输出装置具有：信息输出部(例如，后述的学习信息输出部202)，其向所述机器学习装置输出针对从所述多个评价函数中选择出的评价函数或与所述多个评价函数不同的评价函数的变更指示。

(5)在上述(1)～(4)中任一项的输出装置中，可以是，所述机器学习结果是所述伺服控制装置中的控制指令与根据该控制指令驱动所述伺服电动机时的反馈信息之间的偏差。

(6)在上述(4)或(5)的输出装置中，可以是，所述机器学习装置保存使用评价函数进行机器学习时搜索出的所述伺服控制装置的结构要素的参数、以及使用该参数使所述伺服控制装置动作而获得的学习结果，在根据所述变更指示变更所述评价函数来进行机器学习时，当选择了与所述参数相同的参数时，使用所保存的所述学习结果，通过变更后的评价函数求出评价函数值。

(7)在上述(4)～(6)中任一项的输出装置中，可以是，所述不同的评价函数是与所述多个评价函数中的任一个加权系数不同的评价函数。

(8)在上述(1)～(7)中任一项的输出装置中，可以是，所述多个评价函数包括由对如下函数分别进行了加权而得的和构成的评价函数：将位置偏差作为变量的函数、将位置偏差的微分值作为变量的函数、将转矩的微分值作为变量的函数。

(9)在上述(3)～(7)中任一项的输出装置中，可以是，所述伺服控制装置的结构要素的参数包括数学公式模型或滤波器的参数。

(10)在上述(9)的输出装置中，可以是，所述数学公式模型或所述滤波器包含在速度前馈处理部或位置前馈处理部中，所述参数包含滤波器的传递函数的系数。

(11)本发明涉及的控制装置具有：

上述(1)～(10)中任一项所述的输出装置；

伺服控制装置，其对用于驱动机床、机器人或工业机械的轴的伺服电动机进行控制；以及

机器学习装置，其对伺服控制装置进行机器学习。

(12)在上述(11)的控制装置中，可以是，所述输出装置包含在所述伺服控制装置与机器学习装置的一个装置中。

(13)本发明涉及的输出装置的评价函数和机器学习结果的输出方法，

输出在机器学习装置中分别使用多个评价函数进行机器学习而获得的、每一个评价函数的机器学习结果，其中，所述机器学习装置使用评价函数对控制伺服电动机的伺服控制装置进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴，

从所述机器学习装置和所述伺服控制装置中的至少一个取得所述机器学习结果。

发明效果

根据本发明，通过输出多个评价函数和各评价函数的机器学习结果，可以确认评价函数与学习结果之间的关系。结果，能够从输出装置对机器学习装置进行指示，由此，从多个评价函数中选择评价函数，或变更为其他评价函数。

附图说明

图1是表示本发明的第一实施方式的控制装置的一结构例的框图。

图2是表示本发明的第一实施方式的控制装置所包含的输出装置的一结构例的框图。

图3是表示显示由加权系数设定的多个评价函数、以及将基于用这些评价函数分别进行了学习的参数的位置偏差的时间响应叠加而得的图表的显示画面的一例的图。

图4是表示将表示多个评价函数和图表的画面进行并列显示的显示画面的一例的图，其中，该图表表示基于用这些评价函数分别进行了学习的参数的位置偏差的时间响应。

图5是表示被加工物的加工形状是八边形时的加工轨迹的一部分的图。

图6A是表示例示加工轨迹与位置偏差的时间响应之间的关系的特性图的一例的图。

图6B是表示加工轨迹与转矩的时间响应特性图的一例的图。

图7A是表示示例加工轨迹与位置偏差的时间响应之间的关系的特性图的一例的图。

图7B是表示加工轨迹与转矩的时间响应特性图的一例的图。

图8是表示显示图表的显示画面的一例的图，其中，该图表是将根据用多个评价函数分别进行了学习的参数而取得的位置偏差的时间响应曲线叠加而得的。

图9是表示显示图表的显示画面的一例的图，其中，该图表是将根据用多个评价函数分别进行了学习的参数而取得的位置偏差的时间响应曲线叠加而得的。

图10A是表示位置偏差的时间响应特性图的一例的图。

图10B是表示位置偏差的频率响应图的一例的图。

图11A是表示位置偏差的时间响应特性图的一例的图。

图11B是表示位置偏差的频率响应图的一例的图。

图12是表示将多个频率特性曲线叠加而得的图表的一例的图。

图13是表示从开始机器学习到结束机器学习为止的、以输出装置为中心的控制装置的动作的流程图。

图14是表示本发明的第一实施方式的控制装置中包含的伺服控制装置的一结构例的框图。

图15是用于对加工形状是八边形时的电动机的动作进行说明的图。

图16是用于对加工形状是八边形的每隔一个角置换为圆弧的形状时的电动机的动作进行说明的图。

图17是表示本发明的第一实施方式的机器学习装置的框图。

图18是表示本发明的第二实施方式的控制装置的一结构例的框图。

图19是表示本发明的第三实施方式的控制装置的一结构例的框图。

图20是表示其他结构的控制装置的框图。

符号说明

10、10A、10B、10C 控制装置

100 机器学习装置

200 输出装置

211 信息取得部

212 信息输出部

213 作图部

214 操作部

215 控制部

216 存储部

217 信息取得部

218 信息输出部

219 显示部

300 伺服控制装置

400 伺服电动机

500 调整装置

600 网络

具体实施方式

以下，使用附图对本发明的实施方式进行详细说明。

(第一实施方式)

图1是表示本发明的第一实施方式的控制装置的一结构例的框图。图1所示的控制装置10具有：机器学习装置100、输出装置200、伺服控制装置300、以及伺服电动机400。控制装置10驱动机床、机器人、或工业机械等。控制装置10可以与机床、机器人、或工业机械等分开设置，也可以包含在机床、机器人、或工业机械等中。

伺服控制装置300根据位置指令、速度指令等控制指令输出转矩指令，控制伺服电动机400的旋转。伺服控制装置300例如具有包含由机器学习装置100进行机器学习的系数在内的传递函数所表示的速度前馈处理部等结构要素。由机器学习装置100进行机器学习的、伺服控制装置300的结构要素并不特别限定于速度前进处理部，例如，可以是陷波滤波器。速度前馈处理部对输入的位置指令进行数学公式1(以下表示为数学式1)所示的传递函数F(s)的处理，将处理结果作为速度前馈项与转矩指令相加。数学公式1的系数a_i、b_j(0≤i≤m、0≤j≤n，m、n是自然数)的最佳值由机器学习装置100进行机器学习。伺服控制装置300的结构的详细情况在后面进行描述。

【数学式1】

伺服电动机400驱动机床、机器人或工业机械的轴。伺服电动机400例如包含在机床、机器人、工业机械中。伺服电动机400将检测位置或/和检测速度作为反馈信息输出给伺服控制装置300。伺服控制装置300求出位置指令与检测指令之差作为位置偏差，求出速度指令与检测速度之差作为速度偏差。

输出装置200例如取得位置指令、速度指令、转矩指令等控制指令、以及包含从伺服控制装置300输出的位置偏差、速度偏差等伺服信息，输出给机器学习装置100。此外，输出装置从伺服控制装置300取得伺服控制装置的速度前馈处理部的传递函数的系数(参数)，输出给机器学习装置100。

机器学习装置100为了根据预先设定的评价函数来进行机器学习从而使速度前馈处理部的传递函数的系数(参数)接近最佳值，而经由输出装置200将对速度前馈处理部的传递函数的系数进行了微调整而得的修正参数输出给伺服控制装置300。

伺服控制装置300根据修正参数来变更速度前馈处理部的传递函数的系数，从而驱动伺服电动机400。并且，输出装置200从伺服控制装置300取得位置指令、速度指令、转矩指令等控制指令、以及包含基于修正参数的位置偏差、速度偏差等伺服信息而输出给机器学习装置100。

控制装置10通过重复以上说明的动作，机器学习装置100求出速度前馈处理部的传递函数的系数的最佳值。

以上是控制装置10用于求出速度前馈处理部的传递函数的系数的最佳值的基本动作，但是在本实施方式中，输出装置200输出多个评价函数、利用基于各评价函数的各机器学习而获得的参数来驱动伺服控制装置所得的、位置偏差的时间响应或频率响应等学习结果。在使用显示装置输出位置偏差的时间响应或频率响应等学习结果的情况下，可以按评价函数将多个学习结果并列显示于显示画面，或叠加显示于显示画面，结果，用户容易比较每一个评价函数的学习结果。输出装置200输出的多个评价函数可以由用户设定，也可以由机床制造商预先设定多个评价函数。如后述那样，多个评价函数的一部分或者全部可以通过替换加权系数而变更为其他评价函数。来自输出装置200的输出方法例如是液晶显示装置的画面显示、使用了打印机等对纸的印刷、对存储器等存储部的存储、经由通信部的外部信号输出等。

在由用户选择能获得想要的学习结果的评价函数时，输出装置200将通过可以获得想要的学习结果的评价函数所获得的参数输出给伺服控制装置300。这样，可以从多个评价函数中选择规定的评价函数，以使作业员获得想要的学习结果。并且，输出装置200将选择出的评价函数的评价函数指示信息输出给机器学习装置100。评价函数指示信息包含评价函数的加权系数值、评价函数的识别信息等。机器学习装置100将选择出的评价函数设定为进行机器学习时使用的评价函数。

在从输出装置200输出的、位置偏差的时间响应或频率响应等学习结果中作业员没有获得想要的学习结果时，输出装置200根据用户的操作，变更多个评价函数的一部分或全部的评价函数。评价函数的变更例如是将评价函数的加权系数变更为其他值，或者变更评价函数的种类。

输出装置200为了设定或变更机器学习装置100所使用的、评价函数的加权系数或评价函数的种类，而对机器学习装置100输出评价函数指示信息。

机器学习装置100根据评价函数指示信息来设定或变更评价函数。并且，机器学习装置100使用设定或变更后的评价函数，例如为了使速度前馈处理部的传递函数的系数(参数)接近最佳值，而将对传递函数的系数进行了微调整而得的修正参数经由输出装置200输出给伺服控制装置300，由此进行学习。

输出装置200从根据修正参数进行了驱动的伺服控制装置300，取得位置偏差的伺服信息，将包含设定或变更的评价函数、位置偏差的时间响应或频率响应等学习结果在内的信息输出。

这样，用户可以设定或变更评价函数，以获得用户想要的学习结果。

另外，机器学习结果例如例示了位置偏差的时间响应或频率响应等，但是并不限定于此。例如，可以将设定为机器学习后的系数的、从速度前馈处理部的传递函数求出的频率响应，作为学习结果。

可以从传递函数解析频率响应的软件是公知的，例如可以使用https://jp.mathworks.com/help/signal/ug/frequency～renponse.htmlhttps://jp.mathworks.com/help/signal/ref/freqz.htmlhttps://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.signal.freqz.htmlhttps://wiki.octave.org/Control_package等。可以从频率响应求出衰减中心频率fc、带宽fw、衰减系数R。

关于机器学习结果，位置偏差的时间响应或频率响应可以通过图表来表示，也可以通过表格来表示。在机器学习结果是位置偏差的时间响应或频率响应的情况下，输出装置200可以从机器学习装置100或伺服控制装置300取得位置偏差。在机器学习结果是从速度前馈处理部的传递函数求出的频率响应的情况下，输出装置200可以从伺服控制装置300取得该传递函数。

以下，对上述第一实施方式的控制装置10的各结构进行进一步说明。

在以下的说明中，首先对输出装置200进行说明，之后对机器学习装置和伺服控制装置300进行说明。

<输出装置200>

输出装置200具有将多个评价函数、以及与各评价函数对应的位置偏差的时间响应等学习结果输出的输出功能。

此外，输出装置200具有进行机器学习装置100的动作控制(例如，针对机器学习装置的评价函数的变更指示、以及针对机器学习装置的程序启动指示等)的调整功能。

并且，输出装置200还具有从伺服控制装置300向机器学习装置100进行信息(例如，位置指令、速度指令、转矩指令等控制指令、位置偏差、以及速度前馈处理部的系数)中继、从机器学习装置100向伺服控制装置300进行信息(例如，速度前馈处理部的修正后的系数a_i、b_j)中继的中继功能。

动作控制以及信息中继经由后述的学习信息取得部201、伺服信息取得部207以及学习信息输出部202、伺服信息输出部208来进行。

图2是表示本发明的第一实施方式的控制装置10所包含的输出装置200的一结构例的框图。如图2所示，输出装置200具有：学习信息取得部201、学习信息输出部202、作图部203、操作部204、控制部205、存储部206、伺服信息取得部207、伺服信息输出部208、以及显示部209。

学习信息取得部201从机器学习装置100取得修正参数(例如，速度前馈处理部308的修正后的系数a_i，b_j)。

学习信息输出部202将位置指令、速度指令、转矩指令等控制指令、以及表示包含位置偏差、速度偏差、电流偏差等反馈的伺服状态的伺服信息、以及参数(例如，速度前馈处理部308的修正后的系数a_i，b_j)输出给机器学习装置100。

作图部203读出存储于存储部206的位置偏差的集合而制作显示于显示部209的时间响应特性图或频率响应特性图的图像信息。

操作部204是鼠标、键盘等，用于向控制部205输入指示和数据。

伺服信息取得部207从伺服控制装置300取得位置指令、速度指令、转矩指令等控制指令、以及表示包含位置偏差、速度偏差、电流偏差等反馈的伺服状态的伺服信息、以及参数(例如，速度前馈处理部308的修正后的系数a_i，b_j)。

伺服信息输出部208将从机器学习装置100输出的修正参数输出给伺服控制装置300的速度前馈处理部308。

显示部209是液晶显示装置、打印机等，用于输出评价函数、以及包含位置偏差的时间响应特性图的信息。

控制部205和显示部209是输出评价函数和表示位置偏差的时间响应的图的输出部，其中，位置偏差的时间响应是根据该评价函数进行了学习的参数(例如，速度前馈处理部的系数a_i，b_j)来驱动伺服控制装置300而取得的。也包含将输出存储于存储部206，此时，输出部是控制部205和存储部206。

能够显示于输出装置200的显示部209中、并可以供机器学习装置100使用的评价函数的示例如下。

评价函数f例如在用e表示位置偏差，用Tm表示转矩时，可以应用

【数学式2】

【数学式3】

【数学式4】

【数学式5】

min∫|e(t)|²dt

【数学式6】

min max{e(t)}

等。在数学公式2～数学公式6中，α、β以及γ是加权系数，min表示最小化，max表示最大值。

此外，除此之外，也可以应用以下的评价函数。

计算位置偏差的绝对值的积分值的函数

∫|e|dt

对位置偏差的绝对值进行时间加权来计算积分值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n是自然数)次幂的积分值的函数

∫e²ⁿdt(n是自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}

另外，上述数学公式2的评价函数是由分别对如下函数进行了加权而得的和构成的评价函数：以位置偏差为变量的函数、以位置偏差的微分值为变量的函数、以转矩的微分值为变量的函数。

控制部205将上述的评价函数的一部分或者全部、以及与各评价函数对应的位置偏差的时间响应等学习结果输出给显示部209。控制部205将评价函数指示信息输出给机器学习装置100，该评价函数指示信息用于根据来自用户的指示来设定或变更机器学习装置100所使用的评价函数的加权系数或评价函数的种类。

以下，根据具体例1～5对输出装置200进行更详细说明。

(具体例1：多个加权系数的值不同的多个评价函数的示例)

图3是表示对由加权系数设定的多个评价函数、以及将基于用这些评价函数分别进行了学习的参数的位置偏差的时间响应叠加而得的图表进行显示的显示画面的一例的图。

在本具体例中，对输出装置200输出评价函数(以下称为“权重W1～W3的评价函数”)和图表时的动作进行说明，其中，该评价函数对数学式2的评价函数中的加权系数α、β以及γ设定了权重值W1～W3，该图表中将根据用这些权重W1～W3的评价函数分别进行了学习的参数来驱动伺服控制装置300而取得的三个位置偏差的时间响应进行叠加。另外，评价函数的数量并不特别限定于三个，既可以是两个也可以是四个以上。

如图3所示，显示画面P包含栏P1、P2以及P3。

在栏P1中例如显示轴选择、参数确认、程序确认编辑、程序启动、机器学习中、结束判定的选择项目。

在栏P2中例如显示速度前馈等的调整对象、数据采取中等的状态(status)、表示当前为止的尝试次数相对于预先设定的该机器学习结束为止的尝试次数(以下，也称为“最大尝试次数”)的累积的尝试次数、以及选择学习中断的按钮。

在栏P3中例如显示数学式2所示的评价函数、表示该评价函数的加权系数α、β以及γ这三个设定例(权重W1～W3)的表格、将根据用该评价函数进行了学习的参数而取得的位置偏差的每一个权重W1～W3的时间响应叠加而得的图表。另外，在学习前不显示表示位置偏差的时间响应的图表。

如以下所说明那样，控制部205将数学式2所示的评价函数、表示该评价函数的加权系数α、β以及γ这三个设定例(权重W1～W3)的表格、表示根据用该评价函数进行了学习的参数而取得的位置偏差的每一个权重W1～W3的时间响应的图，显示于显示部209中。

由操作员等用户选择液晶显示装置等显示部209的图3所示的显示画面P的栏P1的“机器学习”，并且选择栏P3的表的、加权系数α、β以及γ的权重W1的列时，控制部205用粗体四边形来表示权重W1的列，将该列的加权系数α、β以及γ设为能够编辑的状态。接下来，由用户例如输入α＝1、β＝0、γ＝0，选择显示画面P的栏P3的“选择”。另外，这里加权系数α、β以及γ由用户输入，但是也可以预先设定。

控制部205经由学习信息输出部202对机器学习装置100发送数学式2的评价函数的识别信息、以及包含权重W1的加权系数(α＝1、β＝0、γ＝0)的评价函数指示信息。

机器学习装置100根据评价函数指示信息将评价函数变更为加权系数(α＝1、β＝0、γ＝0)的数学公式2的评价函数，根据该评价函数来开始机器学习。机器学习装置100为了使速度前馈处理部的传递函数的系数(参数)接近最佳值，一边对速度前馈处理部的传递函数的系数进行微调整，一边进行机器学习(尝试)，因此，按机器学习(尝试)，将该机器学习(尝试)所使用的修正参数以及尝试次数发送给输出装置200(学习信息取得部201)。

输出装置200(伺服信息输出部208)将从机器学习装置100接收到的修正参数输出给伺服控制装置300。

伺服控制装置300根据从输出装置200(伺服信息输出部208)接收到的修正参数来变更速度前馈处理部的传递函数的系数，驱动伺服电动机400，进行机器学习(尝试)。

在该尝试结束之后，输出装置200(伺服信息取得部207)从伺服控制装置300取得该尝试时的位置指令、速度指令、转矩指令等控制指令、以及包含基于修正参数的位置偏差、速度偏差、电流偏差等伺服信息，将位置偏差、速度偏差等存储于存储部206中。此外，输出装置200(学习信息输出部202)将所取得的伺服信息输出给机器学习装置100。

另外，机器学习装置100按该学习(尝试)将传递函数的系数(参数)、与使用该参数使伺服控制装置300动作而获得的伺服信息以及学习结果(位置偏差的时间响应或频率响应等)保存于存储部(未图示)中。通过这样，如以下所说明那样，在根据评价函数指示信息(变更指示)来变更评价函数而再次对传递函数的系数(参数)进行机器学习时，在该机器学习(尝试)时，当选择了与已经保存于存储部中的参数相同的参数时，不驱动伺服电动机400，而是使用所保存的伺服状态以及学习结果，通过变更之后的评价函数来求出评价函数值。由此，可以用相同的参数使伺服控制装置300动作而省去获得伺服状态和学习结果的动作，可以实现机器学习的高效化。

控制部205在图3所示的显示画面P的栏P2的调整对象项目中显示为速度前馈，在尝试次数没有达到规定的尝试次数时，在栏P2的状态项目中显示为数据采集中。并且，控制部205在栏P2的尝试次数项目中显示尝试次数相对于最大尝试次数之比。

在尝试次数没有达到规定的尝试次数时，控制部205继续上述的动作。

机器学习装置100通过加权系数(α＝1、β＝0、γ＝0)的数学公式2所示的评价函数来进行规定的尝试次数的学习，输出装置200(控制部205)根据来自机器学习装置100的尝试次数的信息，判断为尝试次数达到规定的尝试次数时，控制部205向作图部203转移控制。

作图部203读出存储于存储部206的位置偏差的集合来制作时间响应特性图的图像信息将其存储于存储部206中，向控制部205转移控制。

如图3所示控制部205将位置偏差的时间响应特性图显示于显示画面P的栏P3。

控制部205将具有图3所示的权重W1的时间响应曲线的特性图显示于显示画面P的栏P3，接下来，由用户例如选择显示画面P的栏P3的表的权重W2的列时，控制部205将表的粗体四边形所示的部分从权重W1的列向权重W2的列转移，将权重W2的列的加权系数α、β以及γ设为能够编辑的状态。

在由用户例如输入α＝1、β＝1、γ＝1，选择显示画面P的栏P3的“选择”时，控制部205经由学习信息输出部202对机器学习装置100发送数学公式2的评价函数的识别信息、以及包含该评价函数的权重W2的加权系数(α＝1、β＝1、γ＝1)的评价函数指示信息。

关于接收到评价函数指示信息之后的机器学习装置100、以及发送了评价函数指示信息之后的输出装置200的动作，除了机器学习装置100用加权系数(α＝1、β＝1、γ＝1)的数学公式2所示的评价函数进行规定的尝试次数的学习、在规定的尝试次数的机器学习结束之后，作图部203将权重W2的时间响应曲线与具有权重W1的时间响应曲线的特性图叠加来制作新的特性图的图像信息、以及控制部205将具有权重W1的时间响应曲线和权重W2的时间响应曲线的特性图显示于显示画面P的栏P3之外，与用于获得具有上述的权重W1的时间响应曲线的特性图的动作一样。

控制部205在将具有图3所示的权重W1和权重W2的时间响应曲线的特性图显示于显示画面P的栏P3，接着由用户例如选择显示画面P的栏P3的表的权重W3的列时，控制部205将表的粗体四边形所示的部位从权重W2的列向权重W3的列转移，将权重W3的列的加权系数α、β以及γ设为能够编辑的状态。

在由用户例如输入α＝1、β＝0.3、γ＝0.5，选择显示画面P的栏P3的“选择”时，控制部205经由学习信息输出部202对机器学习装置100发送数学式2的评价函数的识别信息、以及包含该评价函数的权重W3的加权系数(α＝1、β＝0.3、γ＝0.5)的评价函数指示信息。

接收到评价函数指示信息之后的机器学习装置100、以及发送了评价函数指示信息之后的输出装置200的动作，除了机器学习装置100用加权系数(α＝1、β＝0.3、γ＝0.5)的数学公式2所示的评价函数进行规定的尝试次数的学习、在规定的尝试次数的机器学习结束之后，作图部203将权重W3的时间响应曲线与具有权重W1和W2的时间响应曲线的特性图叠加来制作新的特性图的图像信息、控制部205将具有权重W1、W2以及W3的时间响应曲线的特性图显示于显示画面P的栏P3之外，与用于获得具有上述的权重W1的时间响应曲线的特性图的动作一样。

如上所述，具有权重W1、W2以及W3的时间响应曲线的特性图显示于显示画面P的栏P3，输出功能以及中继功能发挥作用。用户观察多个评价函数对应的位置偏差的时间响应，可以选择调整评价函数的权重。

另外，在图3所示的显示画面P中，也可以在表的W1、W2以及W3的加权系数α、β以及γ的输入全部结束之后选择“选择”按钮。此时，机器学习装置100例如以权重W1、W2以及W3的评价函数的顺序使用评价函数分别在到达规定的尝试次数之前进行机器学习，在各评价函数的机器学习达到规定的尝试次数时变更评价函数来进行机器学习。输出装置200在权重W1、W2以及W3的评价函数的所有机器学习结束时，将具有权重W1、W2以及W3时的位置偏差的时间响应曲线的特性图显示于显示画面P的栏P3。

通过这样，例如从显示于显示画面P的栏P3的权重W1、W2以及W3的时间响应曲线知晓以下的特性。

参照图3，可以知晓：权重W1相关的位置偏差的时间响应曲线相比于权重W2以及W3相关的位置偏差的时间响应曲线，低频的位置偏差得以抑制，特性图的位置偏差面积在权重W1～W3相关的位置偏差的时间响应曲线中最小。另一方面，可以知晓残留有位置偏差的高频振动。

此外，还可以知晓：权重W2相关的位置偏差的时间响应曲线相比于权重W1以及W3相关的位置偏差的时间响应曲线，高频的位置偏差得以抑制，特性图的位置偏差面积在权重W1～W3相关的位置偏差的时间响应曲线中最大。另一方面，还可以知晓曲线平滑、振动最得以抑制。

此外，还可以知晓：权重W3相关的位置偏差的时间响应曲线相比于权重W1以及W2相关的位置偏差的时间响应曲线，中频的位置偏差得以抑制，与权重W1相关的位置偏差的时间响应曲线相比，曲线平滑、震动降低。另一方面，可以知晓位置偏差面积略微有所增加。

如上所述，用户观察多个评价函数对应的位置偏差的时间响应，可以选择评价函数的权重。

由用户选择权重W1～W3中某一个的动作，除了选择显示画面P的栏P3的“决定”以外，为了显示特性图，与选择权重W1～W3中某一个的动作一样。

即，例如在选择权重W1的情况下，由用户选择显示画面P的栏P3的表的权重W1的列时，控制部205用粗体四边形来表示权重W1的列。由用户选择显示画面P的栏P3的“决定”时，控制部205将通过加权系数α＝1、β＝0、γ＝0的权重W1的数学公式2的评价函数进行机器学习而获得的速度前馈处理部的参数发送给伺服控制装置300。通过这样，以后伺服控制装置300利用该参数通过速度前馈处理部来进行伺服控制，由此，可以获得用户想要的伺服特性(位置偏差的时间响应等)。

此外，控制部205将权重W1的评价函数的识别信息发送给机器学习装置100。机器学习装置100通过将评价函数设定为权重W1的评价函数，例如在机器学习装置100执行再学习的情况下，可以使用权重W1的评价函数。

[变更加权系数的再学习]

针对用户变更成图3所示的显示画面P的栏P3所显示的三个不同权重值以外的权重值而进行再学习时的处理进行说明。

在由用户选择显示画面P的栏P3的表的权重W1的列时，控制部205用粗体四边形来表示权重W1的列，将该列的加权系数α、β以及γ设为能够编辑的状态。在由用户例如输入α＝1、β＝0.1、γ＝0.2，选择显示画面P的栏P3的“选择”时，控制部205经由学习信息输出部202对机器学习装置100发送数学公式2的评价函数的识别信息、以及包含该评价函数的权重W1的加权系数(α＝1、β＝0.1、γ＝0.2)的评价函数指示信息(成为变更指示)。

机器学习装置100根据评价函数指示信息将评价函数变更为加权系数(α＝1、β＝0.1、γ＝0.2)的数学公式2的评价函数，根据该评价函数开始机器学习。以后的处理，与用于获得具有上述权重W1的时间响应曲线的特性图的动作一样，省略说明。

这样，进行机器学习装置100的再学习。

(具体例2：加权和种类不同的多个评价函数的示例)

在具体例1中，说明了从由多个加权系数设定的多个评价函数中选择评价函数或修正加权系数的示例。具体例2用于说明从加权和种类不同的两个评价函数中选择评价函数的示例。

在具体例2中，使用图4来说明输出装置200将以下画面并列显示时的动作：表示数学公式2的评价函数以及例示根据用该评价函数进行了学习的参数取得的位置偏差的时间响应的图的画面、表示数学公式3的评价函数以及例示根据用该评价函数进行了学习的参数取得的位置偏差的时间响应的图的画面。

在本实施方式中，被加工物的加工形状使用图5所示那样的、学习用的加工程序来驱动伺服控制装置。为了将被加工物加工成图5所示的加工形状，需要在X轴方向驱动工作台的伺服电动机和伺服控制装置、以及在Y轴方向驱动工作台的伺服电动机和伺服控制装置。

在本实施方式中，机器学习装置100对用于在Y轴方向驱动工作台的伺服控制装置的速度前馈处理部的系数进行机器学习，如图4所示，输出装置200显示用于机器学习的两个评价函数、以及表示根据用各评价函数进行了学习的参数而取得的位置偏差的时间响应的图。

在图5中，在直线部L1处，在Y轴方向进行驱动的伺服电动机等速旋转，在点P1处减速，在直线部L2处以一定地减速后的速度旋转。

图4是将如下画面并列显示时的显示画面的一例的图：表示数学式2的评价函数以及例示根据用该评价函数进行了学习的参数而取得的位置偏差的时间响应的图的画面、表示数学公式3的评价函数以及例示根据用该评价函数进行了学习的参数而取得的位置偏差的时间响应的图的画面。

如图4所示，显示画面P包含栏P4以及栏P5。控制部205在栏P4中显示数学式3的评价函数、该评价函数的加权系数α和γ、以及表示根据用评价函数进行了学习的参数而取得的位置偏差的时间响应的图。此外，控制部205在显示栏P5中显示数学公式2所示的评价函数、该评价函数的加权系数α、β和γ、以及表示根据用评价函数进行了学习的参数而取得的位置偏差的时间响应的图。另外，在栏P4和栏P5中在学习前不显示表示位置偏差的时间响应的图。

在由操作员等用户使用操作部204选择图4所示的显示画面P的栏P4的框时，控制部205用粗体四边形来表示栏P4的框，将栏P4的加权系数α以及γ设为能够编辑。由用户例如输入α＝100、γ＝0，选择显示画面P的栏P4的“选择”。另外，加权系数α以及γ由用户输入，但也可以预先设定。

之后，与具体例1一样，控制部205经由学习信息输出部202对机器学习装置100发送数学公式3的评价函数的识别信息、以及包含该评价函数的权重W1的加权系数(α＝100、γ＝0)的评价函数指示信息。机器学习装置100使用加权系数(α＝100、γ＝0)的数学公式3的评价函数来进行机器学习。

伺服控制装置300根据机器学习过程中从机器学习装置100输出的修正参数来变更速度前馈处理部的传递函数的系数，驱动伺服电动机400。并且，输出装置200从伺服控制装置300取得位置指令、速度指令、转矩指令等控制指令以及包含基于修正参数的位置偏差、速度偏差等的伺服信息而输出给机器学习装置100，并且将位置偏差、速度偏差等存储于存储部206中。机器学习装置100按该学习(尝试)将传递函数的系数(参数)与使用该参数使伺服控制装置300动作而获得的伺服信息以及学习结果(位置偏差的时间响应或频率响应等)保存于存储部中(未图示)。

机器学习装置100在进行规定的尝试次数的学习时，输出装置200进行与具体例1相同的处理，将数学公式3的评价函数、该评价函数的加权系数α和γ、以及表示通过根据评价函数进行了学习的参数而取得的位置偏差的时间响应的图显示于图4的显示画面P的栏P4。

接下来，由用户使用操作部204选择图4所示的显示画面P的栏P5的框时，控制部205用粗体四边形来表示栏P5的框，将栏P5的加权系数α、β以及γ设为能够编辑。由用户例如输入α＝100、β＝10、γ＝40，选择显示画面P的栏P5的“选择”。另外，加权系数α、β以及γ由用户输入，但也可以预先设定。

之后的输出装置200和机器学习装置100的动作除了将数学公式2的评价函数、该评价函数的加权系数α、β和γ、以及表示通过根据该评价函数进行了学习的参数而取得的位置偏差的时间响应的图显示于显示画面P的栏P5之外，与上述的将数学公式3的评价函数、该评价函数的加权系数α和γ、以及表示位置偏差的时间响应的图等的信息显示于显示画面P的栏P4的动作一样。

使用图5和图6A以及图6B来说明图4的显示画面P的栏P4所显示的位置偏差的时间响应曲线。图6A和图6B表示图4的显示画面P的栏P4所示的位置偏差的时间响应特性、以及转矩的时间响应特性。图6A和图6B所示的L1、P1以及L2对应于图5的直线部L1、点P1、以及直线部L2。

显示画面P的栏P4所示的数学公式3的评价函数的加权系数是α＝100、β＝0，因此，对位置偏差给予较大的权重，图5的点P1处产生的较大的位置偏差如图6A所示在直线部L2处迅速衰减。但是，如图6B所示，有时使转矩在直线部L2处剧烈增减，因此，位置偏差残留有高频振动。

另一方面，显示画面P的栏P5所示的数学公式2的评价函数的加权系数是α＝100、β＝10、γ＝40，因此，对转矩微分值给予权重，如图7B所示在直线部L2处转矩平滑，如图7A所示，在直线部L2处位置偏差的高频信号减弱，但位置偏差的时间收敛变缓。

用户观察两个评价函数对应的位置偏差的时间响应，可以选择评价函数的种类以及权重。

关于评价函数的种类以及权重，由用户选择图4所示的评价函数的某一个的动作与具体例1所示的选择动作一样。

即，由用户例如选择数学公式3的评价函数时，用户使用操作部204选择显示画面P的栏P4的框时，控制部205用粗体四边形来表示栏P4的框。由用户选择显示画面P的栏P4的“决定”时，选择数学公式3的评价函数。在由用户变更加权系数α＝100、γ＝0的情况下，在加权系数的变更之后，由用户选择显示画面P的栏P4的“决定”。

控制部205在由用户选择显示画面P的栏P4的“决定”时，将根据加权系数α＝100、γ＝0的数学公式3的评价函数进行机器学习而获得的速度前馈处理部的参数发送给伺服控制装置300。伺服控制装置300通过设定为该参数的速度前馈处理部来进行伺服控制，由此，可以获得用户想要的伺服特性(位置偏差的时间响应等)。

此外，控制部205在由用户选择显示画面P的栏P4的“决定”时，将加权系数α＝100、γ＝0与数学公式3的评价函数的识别信息发送给机器学习装置100。机器学习装置100通过将评价函数设定为加权系数α＝100、γ＝0的数学公式3的评价函数，在用户想要接着通过机器学习装置100执行机器学习的情况下，机器学习装置100可以通过加权系数α＝100、γ＝0的数学公式3的评价函数来进行机器学习。

[再学习]

有时用户观察显示画面P的栏P4和栏P5的加权系数的评价函数对应的位置偏差的时间响应，想要变更评价函数的权重进行再学习。

用户例如在变更评价函数的权重来再学习显示画面P的栏P4的加权系数的评价函数对应的位置偏差的时间响应时，由用户选择显示画面P的栏P4的表的框时，控制部205用粗体四边形来表示框，将框内的加权系数α和γ设为能够编辑。由用户例如输入α＝100、γ＝20，选择显示画面P的栏P4的“选择”时，控制部205经由学习信息输出部202对机器学习装置100发送包含数学公式3的评价函数的识别信息、以及该评价函数的加权系数(α＝100、γ＝20)的评价函数指示信息(成为变更指示)。

机器学习装置100根据评价函数指示信息将评价函数变更为加权系数(α＝100、γ＝20)的数学公式3的评价函数，为了根据该评价函数来进行机器学习从而使速度前馈处理部的传递函数的系数(参数)接近最佳值，而将对速度前馈处理部的传递函数的系数进行了微调整所得的修正参数、尝试次数发送给输出装置200。控制部205将修正参数输出给伺服控制装置300。这样，进行机器学习装置100的再学习。

(具体例3：种类不同的多个评价函数的示例)

在具体例2中对选择加权、与评价函数的种类不同的两个评价函数中的某一个的示例进行了说明。

具体例3使用数学公式5的评价函数和数学公式6的评价函数，选择实现位置偏差的绝对值的二次方最小化的数学公式5的评价函数、或使位置偏差的最大值最小化的数学公式6的评价函数中的某一个。

图8是表示对数学公式5的评价函数(类型1)和数学公式6的评价函数(类型2)、以及将根据用各评价函数进行了学习的参数而取得的位置偏差的时间响应曲线叠加而得的图进行显示时的显示画面的一例的图。

关于评价函数的选择，当由用户使用操作部204在图8所示的四边形输入勾选标记(checkmark)时，控制部205判定为选择了输入了勾选标记的评价函数。机器学习装置100、输出装置200、以及伺服控制装置300的动作与具体例1一样，因此这里省略说明。

(具体例4：积分的时间范围不同的多个评价函数的示例)

在具体例2中对选择评价函数的种类和加权不同的两个评价函数中的某一个的示例进行了说明。

具体例4使用数学公式4的评价函数，从改变了位置偏差的绝对值的二次方的集合的时间范围(时刻t0～t1的范围)的多个评价函数中，选择评价函数。

图9是表示对数学公式4的评价函数、表示评价函数的时间范围t0与t1(情况1和情况2)的表、以及将根据用各评价函数进行了学习的参数而取得的位置偏差的时间响应曲线叠加所得的图进行显示时的显示画面的一例的图。

机器学习装置100、输出装置200、以及伺服控制装置300的动作与具体例1相同，因此这里省略说明。

(具体例5)

具体例1～具体例4对将位置偏差的时间响应特性显示于显示画面P的示例进行了说明，但也可以代替位置偏差的时间响应特性或与位置偏差的时间响应特性一起显示位置偏差的频率响应特性。图10B和图11B表示替换图4的栏P4的特性图对应的图10A的时间响应特性图以及栏P5的特性图对应的图11A的时间响应特性图而显示的频率响应特性图。

图10B表示机器学习装置100使用数学公式3的评价函数来进行学习，而从伺服控制装置300取得的位置偏差的频率响应特性图，图11B表示机器学习装置100使用数学公式2的评价函数来进行学习，而从伺服控制装置300取得的位置偏差的频率响应特性图。图10B所示的频率特性图表示高频偏差大，在80Hz、140Hz附近具有峰值。图11B所示的频率特性图表示低频偏差大，在25Hz、75Hz附近具有峰值。

此外，还能够将图10B所示的频率特性曲线与图11B所示的频率特性曲线叠加来进行显示。图12是将图10B所示的频率特性曲线与图11B所示的频率特性曲线叠加来进行显示的图。

以上，对显示部209的显示画面P所显示的显示画面的示例进行了说明，但作为具体例1～具体例5所示的显示画面或显示画面所显示的特性图的一例，本实施方式并不限定于此。也可以显示上述所例示的项目以外的信息。此外，也可以省略上述所例示的几个项目的信息显示。

此外，在上述说明中，控制部205将从伺服控制装置300取得的位置信息存储于存储部206中，机器学习装置100的尝试次数达到规定的尝试次数时，将评价函数以及表示位置偏差的时间响应的图等显示于显示部209中，但是不限于此。

例如，作为与尝试次数无关地进行显示的结构例存在以下示例。

结构例1：操作员(作业员)等用户进行了显示指示时，显示评价函数以及表示位置偏差的时间响应的图等。

结构例2：在机器学习的中断时显示评价函数以及表示位置偏差的时间响应的图等。

接下来，使用图13对输出装置200的动作进行说明。

图13是表示开始机器学习到结束机器学习为止的、以输出装置为中心的控制装置的动作的流程图。

在步骤S31中，输出装置200在由用户通过鼠标、键盘等操作部204选择例如图3所示的、显示部209的显示画面P的栏P1的“程序启动”时，控制部205将程序启动指示经由学习信息输出部202输出给机器学习装置100。并且，对伺服控制装置300输出通知将学习用的程序启动指示输出给机器学习装置100的学习用的程序启动指示通知。

在步骤S32中，输出装置200对将学习时的加工程序输出给伺服控制装置300的上位装置进行学习时的加工程序的启动指示。步骤S32可以在步骤S31之前，也可以与步骤S31同时进行。上位装置接收学习时的加工程序的启动指示时，制作位置指令输出给伺服控制装置300。

在步骤S33中，输出装置200将评价函数的加权系数的值、应该使用的评价函数的识别信息等评价函数指示信息发送给机器学习装置100。

在步骤S21中，机器学习装置100接收程序启动指示时，开始机器学习。然后，机器学习装置100从输出装置200接收评价函数指示信息时，根据所指示的加权系数、种类的评价函数来设定进行机器学习的评价函数。

在步骤S11中，伺服控制装置300控制伺服电动机400，将速度前馈处理部308的参数(系数a_i，b_j)、位置指令、以及包含位置偏差的伺服信息输出给输出装置200。然后，输出装置200将参数、位置指令、以及位置偏差输出给机器学习装置100。

在步骤S21中，机器学习装置100将使用被设定了的评价函数进行的机器学习动作过程中回报输出部2021所使用的尝试次数关联起来的状态S有关的评价函数值、最大尝试次数、尝试次数以及包含速度前馈处理部308的传递函数的系数a_i，b_j的修正信息(成为修正参数)在内的信息输出给输出装置200。输出装置200将速度前馈处理部308的传递函数的系数a_i，b_j的修正信息输出给伺服控制装置300。

重复执行步骤S11、以及步骤S21直到规定的尝试次数。

在步骤S34中，输出装置200在尝试次数达到规定的尝试次数、基于被设定了的评价函数的机器学习结束时，判断基于用户指定的多个评价函数的机器学习动作是否结束。在判断为基于多个评价函数的学习动作结束时，在步骤S35中，输出装置200在显示部209的显示画面P中显示多个评价函数和通过各评价函数进行了机器学习而获得的学习结果(例如，位置偏差的时间响应)。在判断为基于多个评价函数的学习动作没有结束时，返回步骤S33，将下一评价函数的评价函数指示输出给机器学习装置100。

在步骤S36中，在用户选择评价函数时，输出装置200将使用了选择出的评价函数的机器学习中优化后的、速度前馈处理部308的传递函数的系数a_i，b_j发送给伺服控制装置300。

在步骤S12中，伺服控制装置300将优化后的系数a_i，b_j设定(参数设定)为速度前馈处理部308的传递函数的系数。

接下来，对伺服控制装置300进行说明。

<伺服控制装置300>

图14是表示本发明的第一实施方式的控制装置所包含的伺服控制装置的一结构例的框图。

如图14所示，伺服控制装置300作为结构要素具有：减法器301、位置控制部302、加法器303、减法器304、速度控制部305、加法器306、积分器307、速度前馈处理部308、以及位置前馈处理部309。

将位置指令输出给减法器301、速度前馈处理部308、位置前馈处理部309以及输出装置200。

根据使伺服电动机400动作的程序，由上位装置来制作位置指令。伺服电动机400例如包含在机床中。在机床中，在搭载被加工物(工件)的工作台在X轴方向和Y轴方向上移动时，对X轴方向和Y轴方向分别设置图14所示的伺服控制装置300以及伺服电动机400。在使工作台在三轴以上的方向上移动时，对各轴方向设置伺服控制装置300以及伺服电动机400。

位置指令设定进给速度，以便成为由加工程序指定的加工形状。

减法器301求出位置指令值与位置反馈的检测位置之差，将该差作为位置偏差输出给位置控制部302以及输出装置200。

位置控制部302将位置增益Kp乘以位置偏差而得的值作为速度指令值输出给加法器303。

加法器303将速度指令值与位置前馈处理部309的输出值(位置前馈项)相加，作为前馈控制的速度指令值输出给减法器304。减法器304求出加法器303的输出与速度反馈的速度检测值之差，将该差作为速度偏差输出给速度控制部305。

速度控制部305将积分增益K1v乘以速度偏差而进行了积分所得的值、与比例增益K2v乘以速度偏差所得的值相加，作为转矩指令值输出给加法器306。

加法器306将转矩指令值与速度前馈处理部308的输出值(速度前馈项)相加，作为前馈控制的转矩指令值经由未图示的电流控制部输出给伺服电动机400来驱动伺服电动机400。

通过与伺服电动机400关联起来的、作为位置检测部的旋转编码器来检测伺服电动机400的旋转角度位置，速度检测值作为速度反馈而输入到减法器304。速度检测值通过积分器307被积分而成为位置检测值，位置检测值作为位置反馈输入到减法器301。

速度前馈处理部308对各位置指令进行速度前馈处理，将处理结果作为速度前馈项输出给加法器306。速度前馈处理部308的传递函数是上述数学公式1所示的传递函数F(s)。

另外，有时速度前馈处理部308可以通过电动机的反向特性(传递函数是Js²)和陷波滤波器来进行表示。

在通过电动机的反向特性(传递函数是Js²)和陷波滤波器表示速度前馈处理部308的情况下，数学公式1所示的传递函数F(s)为数学公式7的右边所示的数学公式模型，使用惯量J、中心角频率ω、分数带宽ζ(fractional bandwidth)、衰减系数R像数学公式7的右边那样进行表示。

【数学式7】

位置前馈处理部309对位置指令值进行微分而乘以常数α，将该处理结果作为位置前馈项，输出给加法器303。

图14所示的伺服电动机控制装置300将位置偏差输出给输出装置200，但是机器学习装置100作为评价函数，除了位置偏差之外，使用了速度偏差或转矩指令时，将成为减法器304的输出的速度偏差、或成为加法器306的输出的速度前馈控制的转矩指令输出给输出装置200。

如以上那样，构成伺服控制装置300。

接下来，对机器学习装置100进行说明。

<机器学习装置100>

机器学习装置100通过执行预先设定的加工程序(以下，也称为“学习时的加工程序”)，对速度前馈处理部308的传递函数的系数进行学习。

这里，由学习时的加工程序指定的加工形状例如是八边形、或八边形的每隔一个角置换为圆弧的形状等。另外，由学习时的加工程序指定的加工形状并不限定于这些加工形状，也可以是其他加工形状。

图15是用于对加工形状是八边形时的电动机的动作进行说明的图。图16是用于对加工形状是八边形的每隔一个角置换为圆弧的形状时的电动机的动作进行说明的图。在图15和图16中，工作台在X轴和Y轴方向上移动以便顺时针加工被加工物(工件)。

如图15所示，在加工形状为八边形时，在角的位置A1处，使工作台在Y轴方向上移动的电动机转速慢，使工作台在X轴方向上移动的电动机转速快。

在角的位置A2处，使工作台在Y轴方向上移动的电动机旋转方向反转，使工作台在X轴方向上移动的电动机从位置A1朝向位置A2和从位置A2朝向位置A3，以相同的旋转方向，等速旋转。

在角的位置A3处，使工作台在Y轴方向上移动的电动机转速快，使工作台在X轴方向上移动的电动机转速慢。

在角的位置A4处，使工作台在X轴方向上移动的电动机旋转方向反转，使工作台在Y轴方向上移动的电动机从位置A3朝向位置A4和从位置A4朝向下一个角的位置，以相同的旋转方向，等速旋转。

如图16所示，在加工形状是八边形的每隔一个角置换为圆弧的形状时，在角的位置B1处，使工作台在Y轴方向上移动的电动机转速慢，使工作台在X轴方向上移动的电动机转速快。

在圆弧的位置B2处，使工作台在Y轴方向上移动的电动机旋转方向反转，使工作台在X轴方向上移动的电动机从位置B1朝向位置B3以相同的旋转方向，等速旋转。与图15所示的加工形状为八边形的情况不同，使工作台在Y轴方向上移动的电动机朝向位置B2缓缓减速，在位置B2处停止旋转，通过位置B2时旋转速度缓缓增加，以便在位置B2的前后形成圆弧的加工形状。

在角的位置B3处，使工作台在Y轴方向上移动的电动机转速快，使工作台在X轴方向上移动的电动机转速慢。

在圆弧的位置B4处，使工作台在X轴方向上移动的电动机旋转方向反转，工作台以在X轴方向上直线反转的方式进行移动。此外，使工作台在Y轴方向上移动的电动机从位置B3朝向位置B4、和从位置B4朝向下一个角的位置以相同的旋转方向，等速旋转。使工作台在X轴方向上移动的电动机朝向位置B4缓缓减速，在位置B4处停止旋转，通过位置B4时旋转速度缓缓增加，以便在位置B4的前后形成圆弧的加工形状。

在本实施方式中，通过以上说明的、由学习时的加工程序指定的加工形状的位置A1与位置A3、以及位置B1与位置B3，评价在线性控制中变更转速时的振动，调查对位置偏差的影响，由此，进行速度前馈处理部308的传递函数的系数优化有关的机器学习。另外，在本实施方式中虽然没有使用，但是通过加工形状的位置A2与位置A4、以及位置B2与位置B4，对旋转方向反转时产生的惯性移动(因惯性而动作)进行评价，可以调查对位置偏差的影响。

传递函数的系数优化有关的机器学习并非特别限定于速度前馈处理部，例如也能够应用于位置前馈处理部、或在进行伺服控制装置的电流前馈时设置的电流前馈处理部。该情况下，位置前馈处理部、电流前馈处理部具有传递函数，例如，具有与数学公式1所示的传递函数F(s)相同的传递函数，其中，传递函数与速度前馈处理部一样具有系数。

接下来，对机器学习装置100进行更详细说明。

在以下的说明中，对机器学习装置100进行强化学习的情况进行说明，但是机器学习装置100进行的学习并不特别限定于强化学习，例如，本发明也能够应用于进行监督学习的情况。

在进行机器学习装置100所包含的各功能块的说明之前，首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习装置100)观测环境状态，选择某个行为，根据该行为环境发生变化。随着环境的变化，提供某种回报，智能体学习更好的行为选择(决策)。

监督学习表示完全的正确答案，而强化学习中的回报大多是基于环境的部分变化的片段值。因此，智能体学习选择行为使得到将来的回报合计为最大。

这样，在强化学习中通过学习行为，在行为给予环境的相互作用基础上学习适当的行为，即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中，可以获得例如选择用于降低位置偏差的行为信息这样的、影响未来的行为。

这里，作为强化学习可以使用任意的学习方法，在以下的说明中，以在某种环境状态S下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为A的价值Q(S、A)的方法。

Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。

但是，在最初开始Q学习的时间点，对于状态S与行为A的组合来说，完全不知晓价值Q(S、A)的正确值。因此，智能体在某种状态S下选择各种行为A，针对当时的行为A，根据给予的回报，选择更好的行为，由此，继续学习正确的价值Q(S、A)。

此外，想要使将来获得的回报的合计最大化，因此，目标是最终成为Q(S、A)＝E[Σ(γ^t)r_t]。这里，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边搜索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学式8(以下表示为数学式8)来表示。

【数学式8】

在上述的数学式8中，S_t表示时刻t的环境状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态S_t+1下，将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里，γ是0＜γ≤1的参数，称为折扣率。此外，α是学习系数，设α的范围为0＜α≤1。

上述的数学式8表示如下方法：根据尝试A_t的结果而反馈回来的回报r_t+1，更新状态S_t下的行为A_t的价值Q(S_t、A_t)。

该更新式表示了：若行为A_t导致的下一状态S_t+1下的最佳行为的价值max_a Q(S_t+1、A)比状态S_t下的行为A_t的价值Q(S_t、A_t)大，则增大Q(S_t、A_t)，反之如果小，则减小Q(S_t、A_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中，尽管该差因折扣率γ和回报r_t+1的存在形式而变化，但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。

这里，Q学习存在如下方法：制作针对所有状态行为对(S、A)的Q(S、A)的表格，来进行学习。但是，有时为了求出所有状态行为对的Q(S、A)的值状态数会过多，使得Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说，可以使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q来计算价值Q(S、A)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著[online]，[平成29年1月17日检索]，因特网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

机器学习装置100进行以上说明的Q学习。具体来说，机器学习装置100学习如下内容的价值Q：将指令以及反馈等伺服状态作为状态S，将该状态S有关的速度前馈处理部308的传递函数的各系数a_i、b_j的值的调整选择为行为A，其中，指令以及反馈包含伺服控制装置300中的、速度前馈处理部308的传递函数的各系数a_i、b_j(0≤i≤m，0≤j≤n，m、n是自然数)的值、以及通过执行学习时的加工程序而取得的伺服控制装置300的位置偏差、位置指令。

机器学习装置100观测包含指令以及反馈等伺服状态的状态信息S来决定行为A，其中，所述指令以及反馈包含根据速度前馈处理部308的传递函数的各系数a_i、b_j来执行学习时的加工程序而在所述的加工形状的位置A1与位置A3以及位置B1与位置B3处的、伺服控制装置300的位置指令以及位置偏差信息。机器学习装置100每当进行行为A时返回回报。机器学习装置100例如试错性地探索最佳的行为A以使到将来的回报合计为最大。通过这样，机器学习装置100能够对包含指令和反馈等伺服状态的状态S选择最佳的行为A(即，速度前馈处理部308的最佳系数a_i、b_j)，其中，所述指令和反馈包含根据速度前馈处理部308的传递函数的各系数a_i、b_j来执行学习时的加工程序而取得的伺服控制装置300的位置指令以及位置偏差。在位置A1与位置A3以及位置B1与位置B3处，X轴方向以及Y轴方向的伺服电动机的旋转方向不变，机器学习装置100可以学习线性动作时的速度前馈处理部308的传递函数的各系数a_i、b_j。

即，机器学习装置100根据学习到的价值函数Q，选择应用于某种状态S有关的速度前馈处理部308的传递函数的各系数a_i、b_j的行为A中的、Q值为最大那样的行为A，由此，能够选择通过执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即，速度前馈处理部308的系数a_i、b_j)。

图17是表示本发明的第一实施方式的机器学习装置100的框图。

为了进行上述的强化学习，如图17所示，机器学习装置100具有：状态信息取得部101、学习部102、行为信息输出部103、价值函数存储部104、以及优化行为信息输出部105。学习部102具有：回报输出部1021、价值函数更新部1022、以及行为信息生成部1023。

状态信息取得部101经由输出装置200从伺服控制装置300取得包含指令、反馈等伺服状态的状态S，其中，指令、反馈包含根据伺服控制装置300中的速度前馈处理部308的传递函数的各系数a_i、b_j来执行学习时的加工程序而取得的伺服控制装置300的位置指令和位置偏差。该状态信息S相当于Q学习中的环境状态S。回报输出部1021作为评价函数除了位置偏差之外，使用了速度偏差、转矩指令时，经由输出装置200从伺服控制装置300取得速度偏差以及转矩指令。

此外，状态信息取得部101从输出装置200取得用于从输出装置200变更评价函数的加权系数或评价函数的种类的指示信息。

状态信息取得部101对学习部102输出取得到的状态信息S和指示信息。

另外，最初开始Q学习的时间点的速度前馈处理部308的系数a_i、b_j预先由用户生成。在本实施方式中，通过强化学习将用户制作出的速度前馈处理部308的系数a_i、b_j的初始设定值调整为最佳。速度前馈处理部308的系数a_i、b_j例如作为初始设定值，设数学式1的a₀＝1，a₁＝0，a₂＝0，…，a_m＝0，b₀＝1，b₁＝0，b₂＝0，…，b_n＝0。此外，预先设定系数a_i、b_j的阶数m、n。即，对于a_i设0≤i≤m，对于b_j设0≤j≤n。

另外，在操作员预先调整机床时，可以将调整完的值作为初始值对系数a_i、b_j进行机器学习。

学习部102是在某种环境状态S下，学习选择某种行为A时的价值Q(S、A)的部分。

回报输出部1021是在某种状态S下计算选择了行为A时的回报的部分。这里，状态S下的状态变量即位置偏差的集合(位置偏差集合)通过PD(S)来表示，因行为信息A(速度前馈处理部308的各系数a_i、b_j的修正)而从状态S变化了的状态信息S’有关的状态变量即位置偏差集合通过PD(S’)来表示。此外，将状态S下的位置偏差的值设为根据预先设定的评价函数f(PD(S))而计算出的值。

最初开始Q学习的时间点的评价函数由用户预先设定。例如，机器学习装置100保存多个评价函数，例如数学式2～数学式6等多个评价函数，用户可以从所保存的多个评价函数中进行选择。此外，用户可以设定加权系数α、β和γ。加权系数α、β和γ也可以在最初开始Q学习的时间点，由机床制造商等设定为标准值。在对多个数学式2～数学式6的多个评价函数标注了识别信息时，用户选择识别信息。

例如具体例1～具体例5所说明那样，输出装置200为了获得位置偏差的时间响应，为了设定为由用户选择出的评价函数，以及想要再学习位置偏差的时间响应时，对机器学习装置100输出评价函数指示信息。评价函数指示信息包含评价函数的识别信息或评价函数的识别信息与加权系数。评价函数指示信息例如通过状态信息取得部101而取得，状态信息取得部101将评价函数指示信息输出给回报输出部1021。

回报输出部1021根据评价函数指示信息，设定或变更评价函数的加权系数或评价函数的种类。例如，回报输出部1021在接收到变更图3所示的评价函数f的加权系数α、β、γ的指示信息时，将加权系数α、β、γ变更为所指示的值。

在根据用行为信息A进行了修正的状态信息S’有关的修正后的速度前馈处理部308而进行了动作的伺服控制装置300的位置偏差的评价函数值f(PD(S’))比根据用行为信息A进行修正前的状态信息S有关的修正前的速度前馈处理部308而进行了动作的伺服控制装置300的位置偏差的评价函数值f(PD(S))大时，回报输出部1021使回报值为负值。

另一方面，在位置偏差的评价函数值f(PD(S’))比位置偏差的评价函数值f(PD(S))小时，回报输出部1021使回报值为正值。

此外，在位置偏差的评价函数值f(PD(S’))与位置偏差的评价函数值f(PD(S))相等时，回报输出部1021使回报值为零。

此外，执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))大时的负值，可以根据比例将负值设定得大。也就是说，可以根据位置偏差的值变大的程度使负值变大。反之，执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))小时的正值，可以根据比例将正值设定得大。也就是说，可以根据位置偏差的值变小的程度使正值变大。

价值函数更新部1022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报值来进行Q学习，由此，对价值函数存储部104存储的价值函数Q进行更新。

价值函数Q的更新既可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是如下学习方法：通过将某种行为A应用于当前状态S，每当状态S向新状态S’转移时，立即进行价值函数Q的更新。此外，批量学习是如下学习方法：通过重复将某种行为A应用于当前状态S，状态S向新状态S’转移，由此收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新。进而，小批量学习是在线学习与批量学习中间的学习方法，是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部1023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部1023在Q学习的过程中，为了进行修正伺服控制装置300的速度前馈处理部308的各系数a_i、b_j的动作(相当于Q学习中的行为A)，而生成行为信息A，对行为信息输出部103输出所生成的行为信息A。更具体来说，行为信息生成部1023例如对状态S所包含的速度前馈处理部的各系数使行为A所包含的速度前馈处理部308的各系数a_i、b_j加上或者减去增量(例如0.1左右)。

并且，可以采取如下策略：行为信息生成部1023在应用速度前馈处理部308的各系数a_i、b_j的增加或减少而向状态S’转移并返回了正回报(正值的回报)时，作为下一行为A’，选择针对速度前馈处理部308的各系数a_i、b_j与前次的动作同样地加上或减去增量等使位置偏差值更小那样的行为A’。

此外，反之还可以采取如下策略：当返回了负回报(负值的回报)时，行为信息生成部1023作为下一行为A’，例如选择针对速度前馈处理部的各系数a_i、b_j与前次的动作相反地减去或者加上增量等使位置偏差比前次的值小那样的行为A’。

此外，行为信息生成部1023也可以采取如下策略：通过在当前推定的行为A的价值中选择价值Q(S、A)最高的行为A’的贪婪算法，或者用某个较小的概率ε随机选择行为A’，除此之外选择价值Q(S、A)最高的行为A’的ε贪婪算法这样的众所周知的方法，来选择行为A’。

行为信息输出部103是针对输出装置200输出从学习部102输出的行为信息A以及评价函数的变更报告的部分。如上所述，伺服控制装置300根据经由输出装置200取得的行为信息，对当前状态S，即当前设定的速度前馈处理部308的各系数a_i、b_j进行微修正，而向下一状态S’(即，进行了修正的速度前馈处理部308的各系数)转移。

价值函数存储部104是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下，称为行为价值表)。存储于价值函数存储部104的价值函数Q通过价值函数更新部1022而被更新。此外，存储于价值函数存储部104的价值函数Q也可以在与其他机器学习装置100之间共享。如果在多个机器学习装置100之间共享价值函数Q，则能够通过各机器学习装置100分散地进行强化学习，因此，能够提升强化学习的效率。

优化行为信息输出部105根据价值函数更新部1022进行Q学习而进行了更新的价值函数Q，生成用于使速度前馈处理部308进行价值Q(S、A)为最大的动作的行为信息A(以下，称为“优化行为信息”)。

更具体来说，优化行为信息输出部105取得价值函数存储部104存储的价值函数Q。如上所述该价值函数Q是通过价值函数更新部1022进行Q学习而被更新的函数。并且，优化行为信息输出部105根据价值函数Q，生成行为信息，对输出装置200输出所生成的行为信息。该优化行为信息与行为信息输出部103在Q学习的过程中输出的行为信息一样，包含对速度前馈处理部308的各系数a_i、b_j进行修正的信息以及评价函数的变更信息。

像以上那样，通过利用本实施方式涉及的机器学习装置100，可以使伺服控制装置300的速度前馈处理部308的参数调整简化。

在以上说明的实施方式中，对机器学习装置100进行X轴方向以及Y轴方向的伺服电动机的旋转方向没有改变的线性动作时的、速度前馈处理部的系数优化有关的学习进行了说明。

但是，本实施方式并不限定于线性动作时的学习，也可以应用于非线性动作的学习。例如，为了齿隙校正，在进行速度前馈处理部的系数优化有关的学习时，将所述的加工形状的位置A2与位置A4和位置B2与位置B4处的、位置指令值与从积分器108输出的检测位置之差提取为位置偏差，可以将其作为判定信息给予回报来进行强化学习。

在位置A2与位置A4和位置B2与位置B4处，Y轴方向或X轴方向的伺服电动机的旋转方向反转成为非线性动作而产生齿隙，机器学习装置可以进行非线性动作时的前馈处理部的传递函数的系数学习。

以上，对第一实施方式的输出装置以及控制装置进行了说明，接下来对第二和第三实施方式的输出装置以及控制装置进行说明。

(第二实施方式)

在第一实施方式中，输出装置200与伺服控制装置300和机器学习装置100连接，进行了机器学习装置100与伺服控制装置300之间的信息中继、伺服控制装置300与机器学习装置100的动作控制。

在本实施方式中，对输出装置只与机器学习装置连接的情况进行说明。

图18是表示本发明的第二实施方式的控制装置的一结构例的框图。控制装置10A具有：机器学习装置100、输出装置200A、伺服控制装置300、以及伺服电动机400。

输出装置200A相比于图2所示的输出装置200，不具有信息取得部217以及信息输出部218。

由于输出装置200A不与伺服控制装置300连接，因此不进行机器学习装置100与伺服控制装置300之间的信息中继，不进行与伺服控制装置300之间的信息收发。具体来说，执行图13所示的步骤S31的学习程序启动指示、步骤S33的参数的物理量输出、以及步骤S35的再学习指示，但是不进行图13所示的其他动作(例如，步骤S32、S34)。这样，输出装置200A不与伺服控制装置300连接，因此，输出装置200A的动作减少，可以实现装置结构简化。

(第三实施方式)

在第一实施方式中，输出装置200与伺服控制装置300和机器学习装置100连接，但是在本实施方式中，对调整装置与机器学习装置100和伺服控制装置300连接，输出装置与调整装置连接的情况进行说明。

图19是表示本发明的第三实施方式的控制装置的一结构例的框图。控制装置10B具有：机器学习装置100、输出装置200A、伺服控制装置300、以及调整装置500。图19所示的输出装置200A与图18所示的输出装置200A的结构一样，但是信息取得部211和信息输出部212不与机器学习装置100连接，而是与调整装置500连接。

调整装置500是除去了图2的输出装置200的作图部203、操作部204、显示部209以及运算部2100的结构。

图19所示的输出装置200A与第二实施方式的图18所示的输出装置200A相同，除了图13所示的、步骤S31的学习程序启动指示、步骤S33的参数的物理量输出、以及步骤S34的参数的微调整指示之外，还进行步骤S35的再学习指示，但是这些动作经由调整装置500来进行。调整装置500对机器学习装置100与伺服控制装置300之间的信息进行中继。此外，调整装置500对输出装置200A进行的、针对机器学习装置100的学习程序启动指示等进行中继，分别将启动指示输出给机器学习装置100。

这样，与第一实施方式相比较，输出装置200的功能分给输出装置200A与调整装置500，因此，输出装置200A的动作少，可以实现装置结构简化。

以上对本发明有关的各实施方式进行了说明，上述的伺服控制装置、机器学习装置以及输出装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外，由上述伺服控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里，所谓通过软件来实现表示计算机通过读入程序来执行从而实现。

可以使用各种类型的非临时性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序供给到计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读记录介质的示例包含：磁记录介质(例如，磁盘、硬盘驱动器)、光-磁记录介质(例如，光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如，掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random accessmemory)。

上述实施方式是本发明的优选实施方式，但是并非将本发明的范围只限定于上述实施方式以及实施例，可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。

<输出装置包含在伺服控制装置或机器学习装置中的变形例>

在上述的实施方式中，对将机器学习装置100、输出装置200或200A、以及伺服控制装置300构成为控制装置10的第一实施方式以及第二实施方式、将输出装置200分为输出装置200A和调整装置500设置于控制装置而构成的第三实施方式进行了说明。在这些实施方式中，机器学习装置100、输出装置200或200A、伺服控制装置300、调整装置500通过分开的装置构成，但是也可以将这些装置中的一个与其他装置一体地构成。例如，可以通过机器学习装置100或伺服控制装置300来实现输出装置200或200A的功能的一部分或全部。

此外，也可以将输出装置200或200A设置于由机器学习装置100以及伺服控制装置300构成的控制装置的外部。

<系统结构的自由度>

图20是表示其他结构的控制装置的框图。如图20所示，控制装置10C具有n台机器学习装置100-1～100-n、输出装置200-1～200-n、以及n台伺服控制装置300-1～300-n、伺服电动机400-1～400-n以及网络600。另外，n是任意自然数。n台机器学习装置100-1～100-n分别与图17所示的机器学习装置100对应。输出装置200-1～200-n与图2所示的输出装置200或图18所示的输出装置200A对应。n台伺服控制装置300-1～300-n分别与图2所示的伺服控制装置300对应。图19所示的输出装置200A以及调整装置500与输出装置200-1～200-n对应。

这里，输出装置200-1与伺服控制装置300-1为一对一的组，能够通信地连接。关于输出装置200-2～200-n和伺服控制装置300-2～300-n，也与输出装置200-1和伺服控制装置300-1一样地连接。在图20中，输出装置200-1～200-n和伺服控制装置300-1～300-n的n个组经由网络600而连接，关于输出装置200-1～200-n和伺服控制装置300-1～300-n这n个组，各组的输出装置与伺服控制装置可以经由连接接口而直接连接。关于这些输出装置200-1～200-n和伺服控制装置300-1～300-n这n个组，例如可以在同一个工厂中设置多组，也可以分别设置于不同的工厂中。

另外，网络600例如是在工厂内构建的LAN(Local Area Network：局域网)、互联网、公共电话网、或者它们的组合。对于网络600中具体的通信方式是有线连接还是无线连接等没有特别限定。

在上述的图20的控制装置中，输出装置200-1～200-n与伺服控制装置300-1～300-n作为一对一的组以能够通信的方式进行连接，例如一台输出装置200-1可以经由网络600而与多台伺服控制装置300-1～300-m(m＜n或m＝n)能够通信地连接，与一台输出装置200-1连接的一台机器学习装置可以实施各伺服控制装置300-1～300-m的机器学习。

此时，可以将机器学习装置100-1的各功能作为适当分散到多个服务器的分散处理系统。此外，机器学习装置100-1的各功能也可以在云上利用虚拟服务器功能等来实现。

此外，当存在与多个相同型号名称、相同规格、或者相同系列的伺服控制装置300-1～300-n分别对应的多个机器学习装置100-1～100-n时，可以共享各机器学习装置100-1～100-n中的学习结果。这样，能够构建更理想的模型。

Claims

1.一种输出装置，其特征在于，具有：

输出部，其输出机器学习装置中使用的多个评价函数、每一个评价函数的机器学习结果，其中，所述机器学习装置从控制伺服电动机的伺服控制装置取得伺服信息，对该伺服控制装置的结构要素的参数进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴；以及

信息取得部，其从所述伺服控制装置和所述机器学习装置中的至少一方，取得所述机器学习结果。

2.根据权利要求1所述的输出装置，其特征在于，

所述输出部包含：显示部，其在显示画面显示所述多个评价函数、对每个评价函数取得的所述机器学习结果。

3.根据权利要求1或2所述的输出装置，其特征在于，

所述输出装置具有：信息输出部，其向所述伺服控制装置输出从使用所述多个评价函数进行了机器学习的多个参数中根据所述多个评价函数的每一个评价函数的机器学习结果而选择出的参数。

4.根据权利要求1或2所述的输出装置，其特征在于，

所述输出装置具有：信息输出部，其向所述机器学习装置输出针对从所述多个评价函数中选择出的评价函数或与所述多个评价函数不同的评价函数的变更指示。

5.根据权利要求1或2所述的输出装置，其特征在于，

所述机器学习结果是所述伺服控制装置中的控制指令与根据该控制指令驱动所述伺服电动机时的反馈信息之间的偏差。

6.根据权利要求4所述的输出装置，其特征在于，

所述机器学习装置保存使用评价函数进行机器学习时搜索出的所述伺服控制装置的结构要素的参数、以及使用该参数使所述伺服控制装置动作而获得的机器学习结果，在根据所述变更指示变更所述评价函数来进行机器学习时，当选择了与所述参数相同的参数时，使用所保存的所述机器学习结果，通过变更后的评价函数求出评价函数值。

7.根据权利要求4所述的输出装置，其特征在于，

所述不同的评价函数是与所述多个评价函数中的任一个加权系数不同的评价函数。

8.根据权利要求1或2所述的输出装置，其特征在于，

所述多个评价函数包括由对如下函数分别进行了加权而得的和构成的评价函数：将位置偏差作为变量的函数、将位置偏差的微分值作为变量的函数、将转矩的微分值作为变量的函数。

9.根据权利要求3所述的输出装置，其特征在于，

所述伺服控制装置的结构要素的参数包括数学公式模型或滤波器的参数。

10.根据权利要求9所述的输出装置，其特征在于，

所述数学公式模型或所述滤波器包含在速度前馈处理部或位置前馈处理部中，所述参数包含滤波器的传递函数的系数。

11.一种控制装置，其特征在于，具有：

权利要求1～10中任一项所述的输出装置；

机器学习装置，其对伺服控制装置进行机器学习。

12.根据权利要求11所述的控制装置，其特征在于，

所述输出装置包含在所述伺服控制装置与所述机器学习装置中的一个装置中。

13.一种输出装置的评价函数和机器学习结果的输出方法，其特征在于，

输出在机器学习装置中分别使用多个评价函数进行机器学习而获得的、每一个评价函数的机器学习结果，其中，所述机器学习装置从控制伺服电动机的伺服控制装置取得伺服信息，使用评价函数对该伺服控制装置进行机器学习，所述伺服电动机用于驱动机床、机器人或工业机械的轴，