CN116882511A

CN116882511A - 机器学习方法以及设备

Info

Publication number: CN116882511A
Application number: CN202310116616.4A
Authority: CN
Inventors: 栗永徽; 刘慎轩; 陈研文; 杨凯霖
Original assignee: Foxconn Technology Group Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Foxconn Technology Group Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2022-02-16
Filing date: 2023-02-15
Publication date: 2023-10-13
Also published as: TWI817896B; TW202334868A; US20230260260A1

Abstract

一种机器学习方法，包括：(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对；(b)根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失；(c)根据前景损失以及背景损失计算总损失；(e)当递归结束条件符合时，利用对比学习模型中的第一编码器进行机器学习模型的参数调整；以及(f)当递归结束条件未符合时，利用总损失调整第一编码器的参数，并利用调整后的第一编码器的参数以及预设倍数调整对比学习模型中的第二编码器的参数，进而再次执行步骤(a)至步骤(d)。借此，可精准呈现下游任务所需要的关键细节以减少训练样本以及训练标签的数量。

Description

机器学习方法以及设备

技术领域

本揭示是有关于一种机器学习方法以及设备。

背景技术

在现有技术中，当训练一个机器学习的模型时，除了所训练的模型架构会影响辨识与辨识能力外，最关键的是训练数据的完整度。对于相同模型架构而言，在训练数据库越多元且越完整的情况下，模型的辨识能力通常会越高(即，准确率越高)。然而，在实务上常常因为人力与数据有限，无法收集多元性且完整度高的数据库。进一步而言，就目前针对机器学习技术而言，针对各种下游任务，往往需要大量的训练样本以及训练标签，这会消耗大量的人力。因此，要如何精准呈现下游任务所需要的关键细节以减少训练样本以及训练标签的数量成为目前机器学习的关键议题。

发明内容

本揭示的一态样揭露一种机器学习方法，包括：(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对，其中该训练影像对应于该影像遮罩，该对比学习模型包括第一编码器以及第二编码器；(b)根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失；(c)利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失，其中该第一权重对应于该前景损失，且该第二权重对应于该背景损失；(d)根据该总损失判断是否已符合递归结束条件；(e)当该递归结束条件符合时，利用该第一编码器进行机器学习模型的参数调整；以及(f)当该递归结束条件未符合时，利用该总损失调整该第一编码器的参数，利用该调整后的第一编码器的参数以及预设倍数调整该第二编码器的参数，以及撷取新的训练影像以及与该新的训练影像对应的新的影像遮罩做为该训练影像以及该影像遮罩，进而再次执行步骤(a)至步骤(d)。

在一实施例中，第一编码器的参数与第二编码器的参数之间存在预设倍数，且第一编码器以及第二编码器具有相同的结构，其中对比学习模型包括数据扩增子模型，且步骤(a)包括：(a1)利用数据扩增子模型对训练影像以及影像遮罩进行第一几何变化，以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩；(a2)利用数据扩增子模型对训练影像以及影像遮罩进行第二几何变化，以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩，其中第二几何变化不同于第一几何变化；以及(a3)利用第一编码器根据第一几何变化影像产生第一影像特征图，并利用第二编码器根据第二几何变化影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一实施例中，步骤(a3)包括：利用数据扩增子模型对第一几何变化影像进行第一色彩变化以产生第一数据扩增影像；利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像，其中第二色彩变化不同于第一色彩变化；以及利用第一编码器根据第一数据扩增影像产生第一影像特征图，并利用第二编码器根据第二数据扩增影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一实施例中，对比学习模型还包括索引子模型，其中步骤(a3)还包括：利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转处理，以产生第一背景遮罩以及第二背景遮罩；利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整；利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理，并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理，进而产生前景特征图对；以及利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理，并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理，进而产生背景特征图对，以根据前景特征图对以及背景特征图对产生前景特征向量对以及背景特征向量对。

在一实施例中，对比学习模型还包括多层感知子模型，其中步骤(a3)还包括：利用多层感知子模型对前景特征图对进行线性转换以产生前景特征向量对，并对背景特征图对进行线性转换以产生背景特征向量对。

在一实施例中，与前景损失对应的第一权重大于与背景损失对应的第二权重，且加权损失运算相关于均方根损失运算。

本揭示的另一态样揭露一种机器学习设备，其包括影像撷取电路以及处理器。该影像撷取电路用以撷取训练影像；该处理器连接该影像撷取电路，并运行对比学习模型，其中该处理器用以进行下列操作：对该训练影像执行对象辨识处理以产生与该训练影像对应的影像遮罩；将该对比学习模型套用至该训练影像以及该影像遮罩以产生前景特征向量对以及背景特征向量对；根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失；利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失，其中该第一权重对应于该前景损失，且该第二权重对应于该背景损失；以及利用该总损失调整该对比学习模型中的第一编码器的参数，其中训练完成的该第一编码器用以进行机器学习模型的参数调整。

在一实施例中，第一编码器的参数与第二编码器的参数之间存在预设倍数，且第一编码器以及第二编码器具有相同的结构，其中对比学习模型包括数据扩增子模型，其中处理器还用以：利用数据扩增子模型对训练影像以及该影像遮罩进行第一几何变化，以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩；利用数据扩增子模型对训练影像以及影像遮罩进行第二几何变化，以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩，其中第二几何变化不同于第一几何变化；以及利用第一编码器根据第一几何变化影像产生第一影像特征图，并利用第二编码器根据第二几何变化影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一实施例中，处理器还用以：利用数据扩增子模型对第一几何变化影像进行第一色彩变化以产生第一数据扩增影像；利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像，其中第二色彩变化不同于第一色彩变化；以及利用第一编码器根据第一数据扩增影像产生第一影像特征图，并利用第二编码器根据第二数据扩增影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一实施例中，对比学习模型还包括多层感知子模型，其中对比学习模型还包括索引子模型，其中处理器还用以：利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转处理，以产生第一背景遮罩以及第二背景遮罩；利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整；利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理，并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理，进而产生前景特征图对；利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理，并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理，进而产生背景特征图对；以及利用多层感知子模型对前景特征图对进行线性转换以产生前景特征向量对，并对背景特征图对进行线性转换以产生背景特征向量对。

在一实施例中，前景损失对应的第一权重大于与背景损失对应的第二权重，且加权损失运算相关于均方根损失运算。

附图说明

图1是本揭示的机器学习设备的方框图。

图2是本揭示的机器学习方法的流程图。

图3是根据本揭示一些实施例的机器学习设备的方框图。

图4是根据本揭示一些实施例的对比学习模型的结构的示意图。

图5是根据本揭示一些实施例的执行数据扩增子模型的示意图。

图6是根据本揭示一些实施例的执行索引子模型的示意图。

具体实施方式

一并参照图1，图1是本揭示的机器学习设备100的方框图。于本实施例中，机器学习设备100包括影像撷取电路110以及处理器120。影像撷取电路110用以撷取训练影像img。处理器120连接影像撷取电路110。

在一些实施例中，机器学习设备100可由电脑、服务器或处理中心建立。在一些实施例中，影像撷取电路110可以是用以撷取影像的数据存取电路、摄影机或可以连续拍照的照相机。例如，数位单眼相机(Digital Single-Lens Reflex Camera，DSLR)、数位摄影机(Digital Video Camera，DVC)或近红外线相机(Near-infrared Camera，NIRC)等。在一些实施例中，处理器120可由处理单元、中央处理单元或计算单元实现。

在一些实施例中，机器学习设备100并不限于包括影像撷取电路110以及处理器120，机器学习设备100可以进一步包括操作以及应用中所需的其他元件，举例来说，机器学习设备100可还包括输出介面(例如，用于显示信息的显示面板)、输入介面(例如，触控面板、键盘、麦克风、扫描器或快闪存储器读取器)以及通信电路(例如，WiFi通信模型、蓝牙通信模型、无线电信网络通信模型等)。

如图1所示，处理器120基于相应的软体或韧体指令程序以执行对比学习模型CLM。在一些实施例中，处理器120还可基于相应的软体或韧体指令程序对训练影像img执行对象辨识处理，以产生与训练影像img对应的影像遮罩。举例而言，可将训练影像img中的具有对象的像素的数值设定为1，并将不具有对象的像素的数值设定为0，以产生二元遮罩(BinaryMask)，进而将此二元遮罩做为与训练影像img对应的影像遮罩。

值得注意的是，对象辨识处理可以是基于目前常用的用以辨识影像中的对象的各种机器学习(Machine Learning)算法(例如，各种语意分析(Semantic Analysis)算法或电脑视觉(Computer Vision)算法等)以进行处理，并没有针对对象辨识处理有特别的限制。此外，影像遮罩除了可以是二元遮罩，还可以是三自由度遮罩(3DOF Mask)或多自由度遮罩(Multiple DOF Mask)等。

在一些实施例中，对比学习模型CLM可用以对训练影像img以及影像遮罩进行前景(Foreground)特征以及背景(Background)特征的萃取，以产生前景特征向量对以及背景特征向量对，其中前景特征向量对包括第一前景特征向量以及第二前景特征向量，背景特征向量对包括第一背景特征向量以及第二背景特征向量，其中第一前景特征向量对应于第一背景特征向量，第二前景特征向量对应于第二背景特征向量。

如图1所示，处理器120还基于相应的软体或韧体指令程序以执行对比学习模型CLM中的第一编码器(Encoder)ENCODER1。值得注意的是，第一编码器ENCODER1可以是任意类型的影像编码器，并没有特别的限制。

于本实施例中，处理器120根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失。接着，处理器120利用第一权重以及第二权重对前景损失以及背景损失进行加权损失运算以产生总损失t_loss，其中第一权重对应于前景损失，且第二权重对应于背景损失。借此，处理器120根据总损失t_loss对第一编码器ENCODER1进行更新，详细作法将在后续段落详细说明。

一并参照图2，图2是本揭示的机器学习方法200的流程图。图2所示实施例的方法适用于图1的机器学习设备100，但不以此为限。为方便及清楚说明起见，下述同时参照图1以及图2，以机器学习设备100中各元件之间的作动关系来说明图2所示机器学习方法200的详细步骤。

在本实施例中，机器学习方法200包括步骤S210～S260，并可由处理器120执行。首先，于步骤S210中，将对比学习模型CLM套用至训练影像img以及影像遮罩以产生前景特征向量(Feature Vector)对以及背景特征向量对，其中训练影像img对应于影像遮罩。

在一些实施例中，对比学习模型CLM包括数据扩增(Data Augmentation)子模型。在一些实施例中，可利用数据扩增子模型将训练影像img以及影像遮罩转换为第一数据扩增影像、第二数据扩增影像、第一数据扩增遮罩以及第二数据扩增遮罩，其中第一数据扩增影像对应于第一数据扩增遮罩，且第二数据扩增影像对应于第二数据扩增遮罩。

在一些实施例中，对比学习模型CLM还可包括第二编码器。在一些实施例中，第一编码器ENCODER1的参数与第二编码器的参数之间存在预设倍数，且第一编码器ENCODER1以及第二编码器具有相同的结构，其中预设倍数可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。在一些实施例中，第一编码器ENCODER1以及第二编码器都可以是各种残差网络(Residual Network)或视觉几何组网络(Visual Geometry Group Network，VGG Network)等。举例而言，第一编码器ENCODER1的参数为第二编码器的参数的0.9倍，且第一编码器ENCODER1以及第二编码器都为ResNet50的结构。

在一些实施例中，利用数据扩增子模型对训练影像img以及影像遮罩进行第一几何变化(Geometric Transform)，以产生第一几何变化影像以及与第一几何变化影像对应的第一数据扩增遮罩。接着，可利用数据扩增子模型对训练影像img以及影像遮罩进行第二几何变化，以产生第二几何变化影像以及与第二几何变化影像对应的第二数据扩增遮罩，其中第二几何变化不同于第一几何变化。接着，可利用第一编码器ENCODER1根据第一几何变化影像产生第一影像特征图(Feature Map)，并利用第二编码器根据第二几何变化影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一些实施例中，第一几何变化以及第二几何变化可以是影像裁切、影像翻转、影像旋转、影像平移等与对象位置相关的影像处理。

在一些实施例中，利用数据扩增子模型对第一几何变化影像进行第一色彩变化(Color Transform)以产生第一数据扩增影像。接着，可利用数据扩增子模型对第二几何变化影像进行第二色彩变化以产生第二数据扩增影像，其中第二色彩变化不同于第一色彩变化。接着，可利用第一编码器ENCODER1根据第一几何变化影像产生第一影像特征图，并利用第二编码器根据第二几何变化影像产生第二影像特征图，以根据第一影像特征图以及第二影像特征图产生前景特征向量对以及背景特征向量对。

在一些实施例中，第一色彩变化以及第二色彩变化可以是影像模糊化处理、影像明度调整或影像彩度调整等与颜色相关的处理。

在一些实施例中，对比学习模型CLM还可包括索引(Indexer)子模型。在一些实施例中，可利用索引子模型对第一数据扩增遮罩以及第二数据扩增遮罩进行反转(Inversed)处理，以产生第一背景遮罩以及第二背景遮罩。接着，可利用索引子模型对第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩进行尺寸调整。接着，可利用索引子模型对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级(Element-Wise)相乘处理，并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理，进而产生前景特征图对。接着，可利用索引子模型对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理，并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理，进而产生背景特征图对，以根据前景特征图对以及背景特征图对产生前景特征向量对以及背景特征向量对。

在一些实施例中，尺寸调整可以是将第一数据扩增遮罩、第二数据扩增遮罩、第一背景遮罩以及第二背景遮罩调整为与第一影像特征图以及第二影像特征图相同的尺寸。

在一些实施例中，可对调整后的第一数据扩增遮罩以及第一影像特征图进行元素层级相乘处理以产生第一前景特征图，并对调整后的第二数据扩增遮罩以及第二影像特征图进行元素层级相乘处理以产生第二前景特征图，进而将第一前景特征图以及第二前景特征图做为前景特征图对。

在一些实施例中，可对调整后的第一背景遮罩以及第一影像特征图进行元素层级相乘处理以产生第一背景特征图，并对调整后的第二背景遮罩以及第二影像特征图进行元素层级相乘处理以产生第二背景特征图，进而将第一背景特征图以及第二背景特征图做为背景特征图对。

在一些实施例中，当第一数据扩增遮罩以及第二数据扩增遮罩为二元遮罩时，上述反转处理可将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值由1转换为0并将不具有对象的像素的数值由0转换为1，以产生第一背景遮罩以及第二背景遮罩。

值得注意的是，当第一数据扩增遮罩以及第二数据扩增遮罩为三元遮罩或多元遮罩时，可先将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值调整为1并将不具有对象的像素的数值调整为0。此外，可将第一数据扩增遮罩以及第二数据扩增遮罩中的具有对象的像素的数值调整为0并将不具有对象的像素的数值调整为1，以产生第一背景遮罩以及第二背景遮罩。

在一些实施例中，对比学习模型CLM还可包括多层感知(Multilayer Perceptron，MLP)子模型。在一些实施例中，可利用多层感知子模型对前景特征图对进行线性转换(Linear Transform)以产生前景特征向量对，并对背景特征图对进行线性转换以产生背景特征向量对。

在一些实施例中，针对前景特征图对，可对第一前景特征图以及第二前景特征图分别进行线性转换以产生第一前景特征向量以及第二前景特征向量，进而将第一前景特征向量以及第二前景特征向量做为前景特征向量对。接着，针对背景特征图对，可对第一背景特征图以及第二背景特征图分别进行线性转换以产生第一背景特征向量以及第二背景特征向量，进而将第一背景特征向量以及第二背景特征向量做为背景特征向量对。

在一些实施例中，多层感知子模型可以是线性层(Linear Layer)或全连接层(Fully Connection Layer)，并用以将多维的特征图线性转换为一维的特征向量。

再者，于步骤S220中，根据前景特征向量对以及背景特征向量对计算前景损失以及背景损失。在一些实施例中，针对前景特征向量对，可对第一前景特征向量以及第二前景特征向量进行相似度损失(Similar Loss)计算以产生前景损失。接着，针对背景特征向量对，可对第一背景特征向量以及第二背景特征向量进行相似度损失计算以产生背景损失。

在一些实施例中，上述相似度损失的计算如以下公式(1)所示。

其中z以及z′为两个特征向量，‖,‖₂为欧几里德范数(Euclidean Norm)的函式，以及分别为L2正规化(L2 Normalization)的z以及L2正规化的z′，以及L为L2正规化的z以及L2正规化的z′之间进行元素层级相乘处理后的所有元素的总和(即，相似度损失)。

换言之，只要将第一前景特征向量以及第二前景特征向量代入上述公式(1)就可计算出前景损失，且将第一背景特征向量以及第二背景特征向量代入上述公式(1)就可计算出背景损失。

再者，于步骤S230中，利用第一权重以及第二权重对前景损失以及背景损失进行加权损失运算以产生总损失t_loss，其中第一权重对应于前景损失，且第二权重对应于背景损失。在一些实施例中，与前景损失对应的第一权重大于与背景损失对应的第二权重(因为前景的特征比背景的特征重要)，且加权损失运算相关于均方根损失(Mean SquareError Loss，MSE Loss)运算。在一些实施例中，第一权重以及第二权重的总和为1，其中第一权重以及第二权重可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。举例而言，第一权重为0.7，且第二权重为0.3。在一些实施例中，总损失t_loss的公式如以下公式(2)。

t_loss＝2-2×(α×loss1+β×loss2)……公式(2)

其中α以及β分别为第一权重以及第二权重，且loss1以及loss2分别为前景损失以及背景损失。

再者，于步骤S240中，根据总损失判断是否已符合递归结束条件。当递归结束条件符合时，进入步骤S250。反之，当递归结束条件未符合时，进入步骤S260。在一些实施例中，递归结束条件为总损失小于预设的损失阈值或经过多个递归后的总损失收敛至特定数值(即，前景特征向量之间越像越好，且背景特征向量之间越像越好)，其中损失阈值可以是依据过往训练经验当中取得的平均值或是人工给定的预设值。

再者，于步骤S250中，利用对比学习模型CLM中的第一编码器ENCODER1进行机器学习模型的参数调整。在一些实施例中，此机器学习可以依照任意的下游任务(例如，影像分类)选择对应的神经网络架构，并没有特别的限制。换言之，在下游任务中，可将预训练好的第一编码器ENCODER1应用于任何机器学习模型的神经网络层中。如此一来，在机器学习模型的训练阶段中，仅仅需要非常少量的带有标签的数据，就能稍微地调整第一编码器ENCODER1的参数以完成机器学习模型的训练。

再者，于步骤S260中，利用总损失调整对比学习模型CLM中的第一编码器ENCODER1的参数，利用总损失以及预设倍数调整第二编码器的参数，以及撷取新的训练影像以及与新的训练影像对应的新的影像遮罩做为训练影像img以及影像遮罩，进而回到步骤S210以继续训练对比学习模型CLM。换言之，可不断撷取新的训练影像以及与新的训练影像对应的新的影像遮罩，并可利用这些新的训练影像以及这些新的影像遮罩完成对比学习模型CLM的训练。在一些实施例中，可根据总损失对对比学习模型CLM中的第一编码器ENCODER1进行反向传播(Back Propagation)运算，以调整第一编码器ENCODER1的参数。接着，可将调整后的第一编码器ENCODER1的参数以及预设倍数之间的乘积做为调整后的第二编码器的参数。

借由上述步骤，在预训练阶段中，机器学习设备100可直接将没有人工标签的数据运用于对比学习模型CLM，以利用训练影像以及与训练影像对应的影像遮罩所产生前景特征向量对以及背景特征向量对，计算出总损失，进而对对比学习模型CLM中的第一编码器ENCODER1进行更新。借此，将可精准呈现下游任务所需要的关键细节(即，对影像中的兴趣区会有更强的特征萃取的效果)。例如，提升医学影像清晰度、生物辨识成效，或是增进自驾车影像分割效果等。如此一来，可将预训练好的第一编码器ENCODER1应用于任何机器学习模型的神经网络层中，这将大大减少机器学习模型所需要的训练样本以及对应的训练标签。

一并参照图3，图3是根据本揭示一些实施例的机器学习设备100的方框图。于本实施例中，机器学习设备100包括影像撷取电路110以及处理器120。影像撷取电路110用以具有训练标签(Label)lbl的影像img’。处理器120连接影像撷取电路110。处理器120基于相应的软体或韧体指令程序以执行机器学习模型MLM，其中机器学习模型MLM包括预训练好的第一编码器ENCODER1。在此训练阶段中，处理器120利用少量的训练标签lbl以及少量的影像img’就能稍微调整第一编码器ENCODER1中的参数以将机器学习模型MLM训练完成。

一并参照图4，图4是根据本揭示一些实施例的对比学习模型CLM的结构的示意图。如图4所示，对比学习模型CLM包括数据扩增子模型DA_SM、第一编码器ENCODER1、第二编码器ENCODER2、索引子模型IDX_SM以及多层感知子模型MLP_SM。

首先，处理器120可将训练影像img以及与训练影像img对应的影像遮罩msk输入数据扩增子模型DA_SM，数据扩增子模型DA_SM可将影像遮罩msk以及训练影像img分别转换为第一数据扩增影像da_img1以及第一数据扩增遮罩da_msk1，并将训练影像img以及影像遮罩msk分别转换为第二数据扩增影像da_img2以及第二数据扩增遮罩da_msk2。详细而言，一并参照图5，图5是根据本揭示一些实施例的执行数据扩增子模型DA_SM的示意图。假设训练影像img为三通道影像(例如，224×224×3(RGB色彩空间))且影像遮罩msk为对应的单通道的二元遮罩(例如，224×224×1)，数据扩增子模型DA_SM可将训练影像img以及影像遮罩msk链接为四通道的链接影像cc_img(例如，224×224×4)，并对链接影像cc_img分别进行第一几何变化GT1以及第二几何变化GT2以产生第一几何变化链接影像gt_cc_img1以及第二几何变化链接影像gt_cc_img2。

再者，数据扩增子模型DA_SM可将四通道的第一几何变化链接影像gt_cc_img1拆成单通道的第一数据扩增遮罩da_msk1(例如，224×224×1)以及三通道的第一几何变化影像gt_img1(例如，224×224×3)，并将四通道的第二几何变化链接影像gt_cc_img2拆成单通道的第二数据扩增遮罩da_msk2(例如，224×224×1)以及三通道的第二几何变化影像gt_img2(例如，224×224×3)。

再者，数据扩增子模型DA_SM可将三通道的第一几何变化影像gt_img1以及三通道的第二几何变化影像gt_img2分别进行第一色彩变化CT1以及第二色彩变化CT2，以产生三通道的第一数据扩增影像da_img1以及三通道的第二数据扩增影像da_img2。

如图4所示，数据扩增子模型DA_SM可将第一数据扩增影像da_img1以及第二数据扩增影像da_img2分别输入第一编码器ENCODER1以及第二编码器ENCODER2，以分别产生第一影像特征图fm1_1～fm1_3以及第二影像特征图fm2_1～fm2_3。

值得注意的是，为方便说明第一编码器ENCODER1与第二编码器ENCODER2对第一数据扩增影像da_img1与第二数据扩增影像da_img2的处理以及各种后续的特征图的处理，在此仅仅是采用简单的例子，以说明经过第一编码器ENCODER1以及第二编码器ENCODER2的处理会产生特定数量的第一影像特征图以及第二影像特征图。

然而，实务上可能不会只产生三个第一影像特征图以及三个第二影像特征图。这完全取决于第一编码器ENCODER1以及第二编码器ENCODER2的架构。举例而言，在实务上，第一编码器ENCODER1以及第二编码器ENCODER2若采用Resnet50，第一编码器ENCODER1以及第二编码器ENCODER2将会分别产生2048个影像特征图。

借此，数据扩增子模型DA_SM可将第一影像特征图fm1_1～fm1_3以及对应的第一数据扩增遮罩da_msk1输入索引子模型IDX_SM以产生第一前景特征图ffm1_1～ffm1_3以及第一背景特征图bfm1_1～bfm1_3。此外，数据扩增子模型DA_SM可将第二影像特征图fm2_1～fm2_3以及对应的第二数据扩增遮罩da_msk2输入索引子模型IDX_SM以产生第二前景特征图ffm2_1～ffm2_3以及第二背景特征图bfm2_1～bfm2_3。

一并参照图6，图6是根据本揭示一些实施例的执行索引子模型IDX_SM的示意图。假设将影像特征图fm1～fm3以及对应的数据扩增遮罩da_msk输入索引子模型IDX_SM，索引子模型IDX_SM可对数据扩增遮罩da_msk进行尺寸调整，并对影像特征图fm1～fm3以及调整后的数据扩增遮罩da_msk分别执行背景处理以及前景处理以产生背景特征图bfm1～bfm3以及前景特征图ffm1～ffm3。

详细而言，针对背景处理，索引子模型IDX_SM可将调整后的数据扩增遮罩da_msk执行反转处理以产生背景遮罩ivt_msk，并对影像特征图fm1～fm3以及背景遮罩ivt_msk进行元素层级相乘处理以产生背景特征图bfm1～bfm3。此外，针对前景处理，索引子模型IDX_SM可对影像特征图fm1～fm3以及调整后的数据扩增遮罩da_msk进行元素层级相乘处理以产生前景特征图ffm1～ffm3。

借由相同的处理方式，数据扩增子模型DA_SM就可以根据第一影像特征图fm1_1～fm1_3以及对应的第一数据扩增遮罩da_msk1产生第一前景特征图ffm1_1～ffm1_3以及第一背景特征图bfm1_1～bfm1_3，并根据第二影像特征图fm2_1～fm2_3以及对应的第二数据扩增遮罩da_msk2产生第二前景特征图ffm2_1～ffm2_3以及第二背景特征图bfm2_1～bfm2_3。

如图4所示，数据扩增子模型DA_SM可将第一前景特征图ffm1_1～ffm1_3以及第二前景特征图ffm2_1～ffm2_3输入多层感知子模型MLP_SM以进行线性转换，进而产生第一前景特征向量FA1以及第二前景特征向量FA2，并将第一背景特征图bfm1_1～bfm1_3以及第二背景特征图bfm2_1～bfm2_3输入多层感知子模型MLP_SM以进行线性转换，进而产生第一背景特征向量BA1以及第二背景特征向量BA2。

借此，处理器120可根据第一前景特征向量FA1以及第二前景特征向量FA2计算前景损失loss1，并根据第一背景特征向量BA1以及第二背景特征向量BA2计算背景损失loss2。如此一来，处理器120可根据前景损失loss1以及背景损失loss2计算总损失，并利用总损失对第一编码器ENCODER1进行反向传播运算以更新第一编码器ENCODER1的参数。此外，处理器120可将预设倍数以及更新后的第一编码器ENCODER1的参数之间的乘积设定为第二编码器ENCODER2的参数。

如此一来，可不断更新第一编码器ENCODER1的参数以及第二编码器ENCODER2的参数直到递归结束条件符合才完成预训练阶段。

综上所述，本揭示实施例的机器学习方法以及设备可在对比学习模型中使用影像与遮罩的数据扩增以及背景与前景的特征萃取，以计算出前景损失以及背景损失，进而利用前景的权重以及背景的权重对前景损失以及背景损失进行加权损失运算以产生总损失。借此，可利用总损失更新对比学习模型中的第一编码器以及第二编码器，直到递归结束条件符合才将预训练完成的第一编码器应用于其他机器学习模型的神经网络层中。如此一来，将可精准呈现下游任务所需要的关键细节，这将大大减少所需要的训练样本以及对应的训练标签。

虽然本揭示的特定实施例已经揭露有关上述实施例，此些实施例不意欲限制本揭示。各种替代及改良可借由相关领域中的一般技术人员在本揭示中执行而没有从本揭示的原理及精神背离。因此，本揭示的保护范围由所附权利要求确定。

【符号说明】

100：机器学习设备

110：影像撷取电路

img：训练影像

120：处理器

CLM：对比学习模型

ENCODER1：第一编码器

t_loss：总损失

200：机器学习方法

S210～S260：步骤

img’：影像

lbl：训练标签

MLM：机器学习模型

msk：影像遮罩

DA_SM：数据扩增子模型

da_msk1：第一数据扩增遮罩

da_msk2：第二数据扩增遮罩

da_img1：第一数据扩增影像

da_img2：第二数据扩增影像

ENCODER2：第二编码器

fm1_1～fm1_3：第一影像特征图

fm2_1～fm2_3：第二影像特征图

IDX_SM：索引子模型

ffm1_1～ffm1_3：第一前景特征图

ffm2_1～ffm2_3：第二前景特征图

bfm1_1～bfm1_3：第一背景特征图

bfm2_1～bfm2_3：第二背景特征图

MLP_SM：多层感知子模型

FA1：第一前景特征向量

FA2：第二前景特征向量

BA1：第一背景特征向量

BA2：第二背景特征向量

loss1：前景损失

loss2：背景损失

cc_img：链接影像

GT1：第一几何变化

GT2：第二几何变化

gt_cc_img1：第一几何变化链接影像

gt_cc_img2：第二几何变化链接影像

gt_img1：第一几何变化影像

gt_img2：第二几何变化影像

CT1：第一色彩变化

CT2：第二色彩变化

fm1～fm3：影像特征图

da_msk：数据扩增遮罩

ivt_msk：背景遮罩

bfm1～bfm3：背景特征图

ffm1～ffm3：前景特征图。

Claims

1.一种机器学习方法，其特征在于，包括：

(a)将对比学习模型套用至训练影像以及影像遮罩以产生前景特征向量对以及背景特征向量对，其中该训练影像对应于该影像遮罩，该对比学习模型包括第一编码器以及第二编码器；

(b)根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失；

(c)利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失，其中该第一权重对应于该前景损失，且该第二权重对应于该背景损失；

(d)根据该总损失判断是否已符合递归结束条件；

(e)当该递归结束条件符合时，利用该第一编码器进行机器学习模型的参数调整；以及

(f)当该递归结束条件未符合时，利用该总损失调整该第一编码器的参数，利用该调整后的第一编码器的参数以及预设倍数调整该第二编码器的参数，以及撷取新的训练影像以及与该新的训练影像对应的新的影像遮罩做为该训练影像以及该影像遮罩，进而再次执行步骤(a)至步骤(d)。

2.根据权利要求1所述的机器学习方法，其中该第一编码器的参数与该第二编码器的参数之间存在该预设倍数，且该第一编码器以及该第二编码器具有相同的结构，其中该对比学习模型包括数据扩增子模型，且步骤(a)包括：

(a1)利用该数据扩增子模型对该训练影像以及该影像遮罩进行第一几何变化，以产生第一几何变化影像以及与该第一几何变化影像对应的第一数据扩增遮罩；

(a2)利用该数据扩增子模型对该训练影像以及该影像遮罩进行第二几何变化，以产生第二几何变化影像以及与该第二几何变化影像对应的第二数据扩增遮罩，其中该第二几何变化不同于该第一几何变化；以及

(a3)利用该第一编码器根据该第一几何变化影像产生第一影像特征图，并利用该第二编码器根据该第二几何变化影像产生第二影像特征图，以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。

3.根据权利要求2所述的机器学习方法，其中步骤(a3)包括：

利用该数据扩增子模型对该第一几何变化影像进行第一色彩变化以产生第一数据扩增影像；

利用该数据扩增子模型对该第二几何变化影像进行第二色彩变化以产生第二数据扩增影像，其中该第二色彩变化不同于该第一色彩变化；以及

利用该第一编码器根据该第一数据扩增影像产生该第一影像特征图，并利用该第二编码器根据该第二数据扩增影像产生该第二影像特征图，以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。

4.根据权利要求2所述的机器学习方法，其中该对比学习模型还包括索引子模型，其中步骤(a3)还包括：

利用该索引子模型对该第一数据扩增遮罩以及该第二数据扩增遮罩进行反转处理，以产生第一背景遮罩以及第二背景遮罩；

利用该索引子模型对该第一数据扩增遮罩、该第二数据扩增遮罩、该第一背景遮罩以及该第二背景遮罩进行尺寸调整；

利用该索引子模型对该调整后的第一数据扩增遮罩以及该第一影像特征图进行元素层级相乘处理，并对该调整后的第二数据扩增遮罩以及该第二影像特征图进行元素层级相乘处理，进而产生前景特征图对；以及

利用该索引子模型对该调整后的第一背景遮罩以及该第一影像特征图进行元素层级相乘处理，并对该调整后的第二背景遮罩以及该第二影像特征图进行元素层级相乘处理，进而产生背景特征图对，以根据该前景特征图对以及该背景特征图对产生该前景特征向量对以及该背景特征向量对。

5.根据权利要求4所述的机器学习方法，其中该对比学习模型还包括多层感知子模型，其中步骤(a3)还包括：

利用该多层感知子模型对该前景特征图对进行线性转换以产生该前景特征向量对，并对该背景特征图对进行线性转换以产生该背景特征向量对。

6.根据权利要求1所述的机器学习方法，其中与该前景损失对应的该第一权重大于与该背景损失对应的该第二权重，且该加权损失运算相关于均方根损失运算。

7.一种机器学习设备，其特征在于，包括：

影像撷取电路，用以撷取训练影像；

处理器，连接该影像撷取电路，并运行对比学习模型，其中该处理器用以进行下列操作：

对该训练影像执行对象辨识处理以产生与该训练影像对应的影像遮罩；

将该对比学习模型套用至该训练影像以及该影像遮罩以产生前景特征向量对以及背景特征向量对；

根据该前景特征向量对以及该背景特征向量对计算前景损失以及背景损失；

利用第一权重以及第二权重对该前景损失以及该背景损失进行加权损失运算以产生总损失，其中该第一权重对应于该前景损失，且该第二权重对应于该背景损失；以及

利用该总损失调整该对比学习模型中的第一编码器的参数，其中训练完成的该第一编码器用以进行机器学习模型的参数调整。

8.根据权利要求7所述的机器学习设备，其中该第一编码器的参数与该对比学习模型中的第二编码器的参数之间存在预设倍数，且该第一编码器以及该第二编码器具有相同的结构，其中该对比学习模型包括数据扩增子模型，其中该处理器还用以：

利用该数据扩增子模型对该训练影像以及该影像遮罩进行第一几何变化，以产生第一几何变化影像以及与该第一几何变化影像对应的第一数据扩增遮罩；

利用该数据扩增子模型对该训练影像以及该影像遮罩进行第二几何变化，以产生第二几何变化影像以及与该第二几何变化影像对应的第二数据扩增遮罩，其中该第二几何变化不同于该第一几何变化；以及

利用该第一编码器根据该第一几何变化影像产生第一影像特征图，并利用该第二编码器根据该第二几何变化影像产生第二影像特征图，以根据该第一影像特征图以及该第二影像特征图产生该前景特征向量对以及该背景特征向量对。

9.根据权利要求8所述的机器学习设备，其中该处理器还用以：

10.根据权利要求8所述的机器学习设备，其中该对比学习模型还包括多层感知子模型，其中该对比学习模型还包括索引子模型，其中该处理器还用以：

利用该索引子模型对该调整后的第一数据扩增遮罩以及该第一影像特征图进行元素层级相乘处理，并对该调整后的第二数据扩增遮罩以及该第二影像特征图进行元素层级相乘处理，进而产生前景特征图对；

利用该索引子模型对该调整后的第一背景遮罩以及该第一影像特征图进行元素层级相乘处理，并对该调整后的第二背景遮罩以及该第二影像特征图进行元素层级相乘处理，进而产生背景特征图对；以及

11.根据权利要求7所述的机器学习设备，其中与该前景损失对应的该第一权重大于与该背景损失对应的该第二权重，且该加权损失运算相关于均方根损失运算。