[go: up one dir, main page]

CN116824248A - 一种融入个性化标签的场景化图像识别方法及装置 - Google Patents

一种融入个性化标签的场景化图像识别方法及装置 Download PDF

Info

Publication number
CN116824248A
CN116824248A CN202310771392.0A CN202310771392A CN116824248A CN 116824248 A CN116824248 A CN 116824248A CN 202310771392 A CN202310771392 A CN 202310771392A CN 116824248 A CN116824248 A CN 116824248A
Authority
CN
China
Prior art keywords
sample
image
scene
information
differential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310771392.0A
Other languages
English (en)
Inventor
周源杰
林静
吴佳彧
陈建军
王利琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Public Information Industry Co ltd
Original Assignee
Zhejiang Public Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Public Information Industry Co ltd filed Critical Zhejiang Public Information Industry Co ltd
Priority to CN202310771392.0A priority Critical patent/CN116824248A/zh
Publication of CN116824248A publication Critical patent/CN116824248A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融入个性化标签的场景化图像识别方法及装置,涉及计算机视觉领域,该方法包括:获取目标场景图像;将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。本发明可以较为清晰、准确地对不同场景化下的图像进行识别,并且特别适用于场景存在部分差异的场景识别。

Description

一种融入个性化标签的场景化图像识别方法及装置
技术领域
本发明涉及计算机视觉领域,具体涉及一种融入个性化标签的场景化图像识别方法及装置。
背景技术
计算机视觉中的图像识别是一个从图像空间映射到特征空间,再从特征空间映射到类别空间的过程。如何选择和使用这些特征,严重依赖于样本重组且分布均衡的训练数据,数据集中需要包含各种场景化的数据,但数据规模会呈指数级增长,给图像识别带来了巨大挑战。
在实际的应用中,数据不平衡和数据复杂性广泛存在,尤其在一些特殊场景下,由于安装角度、高度、距离,光照条件和一些特殊条件等影响,导致图像识别模型无法做到精准识别,模型性能大大折扣。
发明内容
有鉴于此,本发明实施例提供了一种融入个性化标签的场景化图像识别方法及装置,以解决现有模型对于特殊场景无法做到精准识别的问题。
根据第一方面,本发明实施例提供了一种融入个性化标签的场景化图像识别方法,所述方法包括:
获取目标场景图像;
将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
结合第一方面,在第一方面第一实施方式中,所述场景化图像识别模型包括:
特征提取层、特征融合层、相似度计算层以及多中心分类层;
所述特征提取层用于对目标场景图像进行特征提取;
所述特征融合层用于融合从目标场景图像中提取得到的至少一个差异化特征向量;差异化特征向量包括目标场景自身元素和/或目标场景中用户行为产生的元素的元素信息以及位置信息,且,差异化特征向量的数量与目标场景具有的差异化的元素数量相对应;
所述相似度计算层用于确定由至少一个差异化特征向量融合得到的差异化信息以及预设数据库中存储的样本差异化信息之间的相似度;样本差异化信息是融合样本场景对应的至少一个样本差异化特征向量得到的,样本差异化特征向量是从样本图像中提取得到的;
所述多中心分类层用于基于相似度对差异化信息进行分类。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息,具体包括:
将所述目标场景图像输入至所述特征提取层中,得到由所述特征提取层输出的所述目标场景图像对应的至少一个所述差异化特征向量;
将至少一个所述差异化特征向量输入至所述特征融合层中,得到由所述特征融合层输出的所述差异化信息;
将所述差异化信息输入至所述相似度计算层中,得到由所述相似度计算层输出的所述差异化信息与各个所述样本差异化特征向量之间的相似度;
将所述相似度与所述差异化信息输入至所述多中心分类层中,得到由所述多中心分类层输出的所述目标场景对应的场景信息。
结合第一方面第一实施方式,在第一方面第三实施方式中,所述场景化图像识别模型通过以下步骤训练得到:
获取所述样本图像;
从所述样本图像中提取至少一个样本差异化向量,融合至少一个样本差异化向量,得到所述样本图像对应的样本差异化信息;样本差异化特征向量包括样本图像对应的样本场景自身元素和/或样本场景中用户行为产生的元素的元素信息以及位置信息,且,样本差异化特征向量的数量与样本场景具有的差异化的元素数量相对应;
将样本图像作为训练使用的输入数据,将样本差异化信息作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的所述场景化图像识别模型。
结合第一方面,在第一方面第四实施方式中,所述场景化图像识别模型包括:
特征提取模型和个性化标签模型;
所述特征提取模型用于对目标场景图像进行特征提取;
特征连接层、相似度计算层、多中心分类层以及后验验证层;
所述特征连接层用于融合连接所述特征提取模型提取得到的至少一个差异化特征向量;差异化特征向量包括目标场景自身元素和/或目标场景中用户行为产生的元素的元素信息以及位置信息,且,差异化特征向量的数量与目标场景具有的差异化的元素数量相对应;
所述相似度计算层用于确定由至少一个差异化特征向量融合得到的差异化信息以及预设数据库中存储的样本差异化信息之间的相似度;样本差异化信息是融合样本场景对应的至少一个样本差异化特征向量得到的,样本差异化特征向量是从样本图像中提取得到的;
所述多中心分类层用于基于相似度对差异化信息进行分类;
所述后验验证层用于基于对差异化信息的分类结果进行验证后得到的后验概率,对所述多中心分类层进行更新。
结合第一方面第四实施方式,在第一方面第五实施方式中,所述将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息,具体包括:
将所述目标场景图像输入至所述特征提取模型中,得到由所述特征提取模型输出的所述目标场景图像对应的至少一个所述差异化特征向量;
将至少一个所述差异化特征向量输入至所述特征连接层中,得到由所述特征连接层输出的所述差异化信息;
将所述差异化信息输入至所述相似度计算层中,得到由所述相似度计算层输出的所述差异化信息与各个所述样本差异化特征向量之间的相似度;
将所述相似度与所述差异化信息输入至所述多中心分类层中,得到由所述多中心分类层输出的所述目标场景对应的场景信息。
结合第一方面第四实施方式,在第一方面第六实施方式中,所述场景化图像识别模型通过以下步骤训练得到:
预训练得到所述特征提取模型;
获取所述样本图像以及样本图像标注的个性化标签;
将所述样本图像输入至所述特征提取模型中,得到由所述特征提取模型输出的至少一个样本差异化向量;
将样本差异化向量作为训练使用的输入数据,将个性化标签作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的所述个性化标签模型。
根据第三方面,本发明实施例还提供一种融入个性化标签的场景化图像识别装置,所述装置包括:
获取模块,用于获取目标场景图像;
识别模块,用于将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
根据第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述融入个性化标签的场景化图像识别方法的步骤。
根据第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述融入个性化标签的场景化图像识别方法的步骤。
本发明的融入个性化标签的场景化图像识别方法及装置,通过训练好的场景化图像识别模型提取目标场景图像中由用户行为以及场景的特殊元素作为目标场景的差异化信息,将差异化信息作为识别过程的重要参考因素,将不同场景之间的差异扩大化,针对不同业务系统可形成个性化标签的场景识别模型,可以提高场景识别的准确率,极大地提升了在实际应用场景中的识别效果,可以较为清晰、准确地对不同场景化下的图像进行识别,并且特别适用于场景存在部分差异的场景识别。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明提供的融入个性化标签的场景化图像识别方法的流程示意图;
图2示出了本发明提供的融入个性化标签的场景化图像识别方法中场景化图像识别模型的结构示意图之一;
图3示出了本发明提供的融入个性化标签的场景化图像识别方法中场景化图像识别模型的结构示意图之二;
图4示出了本发明提供的融入个性化标签的场景化图像识别装置的结构示意图;
图5示出了本发明提供的融入个性化标签的场景化图像识别方法的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
计算机视觉中的图像识别模型在实际的应用中,由于数据不平衡和数据复杂性,尤其在一些特殊场景下,由于安装角度、高度、距离,光照条件和一些特殊条件等影响,导致利用采集到的这些图像数据图像作为离线数据训练得到图像识别模型无法做到精准识别,图像识别模型的性能大大折扣,无法完成既定的图像识别任务。
为了解决上述问题,在本实施例中提供了一种融入个性化标签的场景化图像识别方法。本发明实施例的融入个性化标签的场景化图像识别方法可用于电子设备中,电子设备包括但不局限于电脑、移动终端等,图1是根据本发明实施例的融入个性化标签的场景化图像识别方法的流程示意图,如图1所示,该方法包括如下步骤:
S10、获取目标场景图像。目标场景图像即为待识别的目标场景的待处理(识别)图像信息,会在之后进行实时在线分析。
在本发明实施例中,目标场景图像可以是电子设备从外界获取到的,例如通过预先布置好的摄像装置进行图像采集,电子设备再从外部的摄像装置中获取得到,也可以预先存储在电子设备中等等。在此对目标场景图像的具体获取形式并不做任何限制,只需保证电子设备能够获取到目标场景图像即可。
S20、将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息。场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
其中,场景信息为目标场景具体所在/所处的场景。
虽然部分场景具有非常相似的视觉上外观,但是每个场景仍然可能存在部分差异,造成差异的原因可能是由于用户行为而产生的差异性信息,也可能是场景自身的特殊元素定义的,也有可能是有用户行为以及场景的特殊元素等多重因素定义的。这些差异性具体可以表现在两种类型相同的场景之间具有一些细微差异,例如A场景具有特殊的警告标识、B场景需要用户穿着/佩戴特殊的服饰/佩戴物、C场景需要用户位于指定的区域等。
对于特殊的场景,可以基于其区别于其他场景的特殊元素进行定义,这些特殊元素即为上述的差异化信息。因此,该场景化图像识别模型可以用于智慧社区门禁识别、明厨亮灶工服识别、美丽乡村卡口识别等存在差异性的场景化图像识别。
本发明的融入个性化标签的场景化图像识别方法,通过训练好的场景化图像识别模型提取目标场景图像中由用户行为以及场景的特殊元素作为目标场景的差异化信息,将差异化信息作为识别过程的重要参考因素,将不同场景之间的差异扩大化,针对不同业务系统可形成个性化标签的场景识别模型,可以提高场景识别的准确率,极大地提升了在实际应用场景中的识别效果,可以较为清晰、准确地对不同场景化下的图像进行识别,并且特别适用于场景存在部分差异的场景识别。
下面结合图2对本发明的融入个性化标签的场景化图像识别方法,该场景化图像识别模型具体的模型架构包括:
特征提取层、特征融合层、相似度计算层以及多中心分类层。
特征提取层用于提取目标场景图像的至少一个差异化特征向量,差异化特征向量包括了目标场景自身元素和/或目标场景中用户行为产生的元素的元素信息以及位置信息,可以理解的是元素信息以及位置信息均为场景的差异化信息,对于一个场景,该场景具有多少个差异化的元素,就会提取得到对应数量的差异化特征向量。对于给定的目标场景图像或者样本图像x,通过特征提取层,提取出H×W×D的特征向量:
其中,x表示输入的图像,可以为目标场景图像或者样本图像;表示提取得到的差异化特征向量,也是特征提取层的输出或者说该特征提取层提取到的特征信息;θ表示特征提取层f(·)的特征提取参数;H×W表示特征提取层输出的特征图的大小;D表示在特征提取层中的通道数。
特征提取层可以表示为具有H×W×D个元素的3阶张量,特征提取层包括了二维的特征映射,使得特征提取层提取得到的特征信息中具有局部视觉信息和空间信息。
在本发明实施例中,特征提取层为场景化图像识别模型用于输出标签信息的指定层,即场景化图像识别模型指定该特征提取层的输出作为输入数据的标签信息也就是个性化标签。
更具体的,在本发明实施例中特征提取层包括四层第一卷积层和三层第一池化层,相邻的第一卷积层之间通过第一池化层进行连接。每一个第一卷积层均包括依次连接的第二卷积层、归一化层(Bathch Normalization,BN)和激活层(Relu),通过一组卷积、归一化以及激活层的处理,得到相应的特征信息。
优选的,第二卷积层采用3×3尺寸的卷积核。
考虑到优化特征提取层的性能,在本发明实施例中,采集样本场景包括了侧视、仰视、俯视等视角的图像集,应为通用的样本图像集,丰富样本图像,并且使得特征提取层/特征提取模型在之后的训练过程性能得到保证。
特征融合层用于融合至少一个差异化特征向量,得到目标场景的差异化信息。提取到的差异化特征向量具有位置信息等信息,基于上述信息,可以将至少一个差异化特征向量进行汇集拼接,得到差异化信息,差异化信息中包含了各个差异化的元素、元素的类别、元素之间的空间距离等。可以理解的是,当提取得到的差异化特征向量仅为一个时,特征融合层输出的还是该差异化特征向量。
相似度计算层用于计算差异化信息之间的相似度,对于给定的两个比较对象以及通过相似度计算层计算这两个比较对象之间的相似度(相似向量):
其中,表示之间的相似度,并且通过softmax函数将相似度控制到0-1之间;表示相似度计算层F(·)的相似度参数;N表示对应网络的节点个数。
最终通过相似度计算层还可以得到相似度矩阵Slc∈RN×N
多中心分类层用于基于相似度,确定目标场景的场景信息、多中心分类层采用多中心最近邻类均值分类器进行分类,利用k-means聚类方式,得到多个类别中心集合,每一个类别对应了一种场景信息。
该多中心分类层输出的即为该场景化图像识别模型的输出。
相应的,图2所示的场景化图像识别模型通过以下步骤训练得到:
A10、获取样本图像。
同样的,在本发明实施例中,样本图像可以是电子设备从外界获取到的,例如通过预先布置好的摄像装置进行图像采集,电子设备再从外部的摄像装置中获取得到,也可以预先存储在电子设备中等等。在此对样本图像的具体获取形式并不做任何限制,只需保证电子设备能够获取到样本图像即可。
A20、从样本图像中提取至少一个样本差异化向量,融合至少一个样本差异化向量,得到样本图像对应的样本差异化信息。通过特征提取层进行标签信息的提取。
A30、将样本图像作为训练使用的输入数据,将样本差异化信息作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的场景化图像识别模型。
下面结合图3对本发明的融入个性化标签的场景化图像识别方法,该场景化图像识别模型具体的模型架构包括:
特征提取模型以及个性化标签模型。
作为本发明实施例的一些优选实施方式,会先通过样本图像预训练一个用于特征提取的特征提取模型。其中,该特征提取模型具体的结构详细如见图2所示的特征提取层。
个性化标签模型的模型架构则包括特征连接层、相似度计算层、多中心分类层以及后验验证层、
其中,特征连接层、相似度计算层、多中心分类层具体的结构详细如见图2所示的特征融合层、相似度计算层、多中心分类层。
在训练个性化标签模型时,会对该模型训练使用的样本图像进行标签标注,得到样本图像对用的个性化标签。个性化标签可以是采用例如特征提取模型等模型提取得到,也可以基于人工标注的方式得到。
在之后的多中心分类层中:
其中,S表示类别的中心的集合;表示类别的中心;c表示每一类别的中心个数;nO表示参加预训练的特征提取模型的样本图像的数量;nN表示进行标签标注得到个性化标签的样本图像的数量。
在本发明实施例中,在训练场景化图像识别模型的过程中,还会不断验证场景化图像识别模型的性能即准确率。
具体的,后验验证层会计算每一个类别的后验概率,基于每一类别的后验概率对场景化图像识别模型进行优化以及校正。
其中,P(i|z)表示第i个类别的后验概率;表示特征z(经过特征提取模型提取到的特征)到的欧式距离;表示样本图像预测的标签;yi表示样本图像的标签;表示样本图像的分类结果;M表示样本图像的总数,为nO+nN
基于特征提取模型与个性化标签模型的场景化图像识别模型模型,与业务系统解耦,可以将两个模型封装成独立组件,适合对接任何业务系统,且,不通过实时的相似度学习算法进行场景化图像识别,对服务器配置要求更低,同时识别效率更高。极大地提升了图像在实际应用场景中的识别效果,可以较为清晰、准确地对不同场景化下的图像进行识别,只需训练基础的特征提取模型,在特征提取模型上进行场景化训练即可,加快了模型的重建流程。
相应的,图3所示的场景化图像识别模型通过以下步骤训练得到:
B10、预训练得到特征提取模型,
B20、获取样本图像以及样本图像标注的个性化标签。个性化标签可以是采用例如特征提取模型等模型提取得到,也可以基于人工标注的方式得到。
B30、将样本图像输入至特征提取模型中,得到由特征提取模型输出的至少一个样本差异化向量;
B40、将样本差异化向量作为训练使用的输入数据,将个性化标签作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的个性化标签模型。
下面对本发明实施例提供的融入个性化标签的场景化图像识别装置进行描述,下文描述的融入个性化标签的场景化图像识别装置与上文描述的融入个性化标签的场景化图像识别方法可相互对应参照。
为了解决上述问题,在本实施例中提供了一种融入个性化标签的场景化图像识别装置。本发明实施例的融入个性化标签的场景化图像识别装置可用于电子设备中,电子设备包括但不局限于电脑、移动终端等,图4是根据本发明实施例的融入个性化标签的场景化图像识别装置的结构示意图,如图4所示,该装置包括:
获取模块10,用于获取目标场景图像。目标场景图像即为待识别的目标场景的待处理(识别)图像信息,会在之后进行实时在线分析。
在本发明实施例中,目标场景图像可以是电子设备从外界获取到的,例如通过预先布置好的摄像装置进行图像采集,电子设备再从外部的摄像装置中获取得到,也可以预先存储在电子设备中等等。在此对目标场景图像的具体获取形式并不做任何限制,只需保证电子设备能够获取到目标场景图像即可。
识别模块20,用于将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息。场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
其中,场景信息为目标场景具体所在/所处的场景。
虽然部分场景具有非常相似的视觉上外观,但是每个场景仍然可能存在部分差异,造成差异的原因可能是由于用户行为而产生的差异性信息,也可能是场景自身的特殊元素定义的,也有可能是有用户行为以及场景的特殊元素等多重因素定义的。这些差异性具体可以表现在两种类型相同的场景之间具有一些细微差异,例如A场景具有特殊的警告标识、B场景需要用户穿着/佩戴特殊的服饰/佩戴物、C场景需要用户位于指定的区域等。
因此,该场景化图像识别模型可以用于智慧社区门禁识别、明厨亮灶工服识别、美丽乡村卡口识别等存在差异性的场景化图像识别。
本发明的融入个性化标签的场景化图像识别装置,通过训练好的场景化图像识别模型提取目标场景图像中由用户行为以及场景的特殊元素作为目标场景的差异化信息,将差异化信息作为识别过程的重要参考因素,将不同场景之间的差异扩大化,针对不同业务系统可形成个性化标签的场景识别模型,可以提高场景识别的准确率,极大地提升了在实际应用场景中的识别效果,可以较为清晰、准确地对不同场景化下的图像进行识别,并且特别适用于场景存在部分差异的场景识别。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行融入个性化标签的场景化图像识别方法,该方法包括:
获取目标场景图像;
将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的融入个性化标签的场景化图像识别方法,该方法包括:
获取目标场景图像;
将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的融入个性化标签的场景化图像识别方法,该方法包括:
获取目标场景图像;
将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种融入个性化标签的场景化图像识别方法,其特征在于,所述方法包括:
获取目标场景图像;
将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
2.根据权利要求1所述的融入个性化标签的场景化图像识别方法,其特征在于,所述场景化图像识别模型包括:
特征提取层、特征融合层、相似度计算层以及多中心分类层;
所述特征提取层用于对目标场景图像进行特征提取;
所述特征融合层用于融合从目标场景图像中提取得到的至少一个差异化特征向量;差异化特征向量包括目标场景自身元素和/或目标场景中用户行为产生的元素的元素信息以及位置信息,且,差异化特征向量的数量与目标场景具有的差异化的元素数量相对应;
所述相似度计算层用于确定由至少一个差异化特征向量融合得到的差异化信息以及预设数据库中存储的样本差异化信息之间的相似度;样本差异化信息是融合样本场景对应的至少一个样本差异化特征向量得到的,样本差异化特征向量是从样本图像中提取得到的;
所述多中心分类层用于基于相似度对差异化信息进行分类。
3.根据权利要求2所述的融入个性化标签的场景化图像识别方法,其特征在于,所述将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息,具体包括:
将所述目标场景图像输入至所述特征提取层中,得到由所述特征提取层输出的所述目标场景图像对应的至少一个所述差异化特征向量;
将至少一个所述差异化特征向量输入至所述特征融合层中,得到由所述特征融合层输出的所述差异化信息;
将所述差异化信息输入至所述相似度计算层中,得到由所述相似度计算层输出的所述差异化信息与各个所述样本差异化特征向量之间的相似度;
将所述相似度与所述差异化信息输入至所述多中心分类层中,得到由所述多中心分类层输出的所述目标场景对应的场景信息。
4.根据权利要求2所述的融入个性化标签的场景化图像识别方法,其特征在于,所述场景化图像识别模型通过以下步骤训练得到:
获取所述样本图像;
从所述样本图像中提取至少一个样本差异化向量,融合至少一个样本差异化向量,得到所述样本图像对应的样本差异化信息;样本差异化特征向量包括样本图像对应的样本场景自身元素和/或样本场景中用户行为产生的元素的元素信息以及位置信息,且,样本差异化特征向量的数量与样本场景具有的差异化的元素数量相对应;
将样本图像作为训练使用的输入数据,将样本差异化信息作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的所述场景化图像识别模型。
5.根据权利要求1所述的融入个性化标签的场景化图像识别方法,其特征在于,所述场景化图像识别模型包括:
特征提取模型和个性化标签模型;
所述特征提取模型用于对目标场景图像进行特征提取;
特征连接层、相似度计算层、多中心分类层以及后验验证层;
所述特征连接层用于融合连接所述特征提取模型提取得到的至少一个差异化特征向量;差异化特征向量包括目标场景自身元素和/或目标场景中用户行为产生的元素的元素信息以及位置信息,且,差异化特征向量的数量与目标场景具有的差异化的元素数量相对应;
所述相似度计算层用于确定由至少一个差异化特征向量融合得到的差异化信息以及预设数据库中存储的样本差异化信息之间的相似度;样本差异化信息是融合样本场景对应的至少一个样本差异化特征向量得到的,样本差异化特征向量是从样本图像中提取得到的;
所述多中心分类层用于基于相似度对差异化信息进行分类;
所述后验验证层用于基于对差异化信息的分类结果进行验证后得到的后验概率,对所述多中心分类层进行更新。
6.根据权利要求5所述的融入个性化标签的场景化图像识别方法,其特征在于,所述将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息,具体包括:
将所述目标场景图像输入至所述特征提取模型中,得到由所述特征提取模型输出的所述目标场景图像对应的至少一个所述差异化特征向量;
将至少一个所述差异化特征向量输入至所述特征连接层中,得到由所述特征连接层输出的所述差异化信息;
将所述差异化信息输入至所述相似度计算层中,得到由所述相似度计算层输出的所述差异化信息与各个所述样本差异化特征向量之间的相似度;
将所述相似度与所述差异化信息输入至所述多中心分类层中,得到由所述多中心分类层输出的所述目标场景对应的场景信息。
7.根据权利要求5所述的融入个性化标签的场景化图像识别方法,其特征在于,所述场景化图像识别模型通过以下步骤训练得到:
预训练得到所述特征提取模型;
获取所述样本图像以及样本图像标注的个性化标签;
将所述样本图像输入至所述特征提取模型中,得到由所述特征提取模型输出的至少一个样本差异化向量;
将样本差异化向量作为训练使用的输入数据,将个性化标签作为训练使用的标签,采用机器学习方式,生成用于得到目标场景图像对应的场景信息的所述个性化标签模型。
8.一种融入个性化标签的场景化图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标场景图像;
识别模块,用于将目标场景图像输入至训练好的场景化图像识别模型中,得到由场景化图像识别模型输出的目标场景相应的场景信息;场景化图像识别模型是由样本图像以及样本图像对应的样本差异化信息训练得到的,且,样本差异化信息为样本图像对应的个性化标签,样本差异化信息是基于样本场景自身元素和/或样本场景中用户行为产生的元素得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述融入个性化标签的场景化图像识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述融入个性化标签的场景化图像识别方法的步骤。
CN202310771392.0A 2023-06-27 2023-06-27 一种融入个性化标签的场景化图像识别方法及装置 Pending CN116824248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310771392.0A CN116824248A (zh) 2023-06-27 2023-06-27 一种融入个性化标签的场景化图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310771392.0A CN116824248A (zh) 2023-06-27 2023-06-27 一种融入个性化标签的场景化图像识别方法及装置

Publications (1)

Publication Number Publication Date
CN116824248A true CN116824248A (zh) 2023-09-29

Family

ID=88125322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310771392.0A Pending CN116824248A (zh) 2023-06-27 2023-06-27 一种融入个性化标签的场景化图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN116824248A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118779490A (zh) * 2024-09-13 2024-10-15 北京妙音数科股份有限公司 基于人工智能的多场景自适应视频内容识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764208A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN113705597A (zh) * 2021-03-05 2021-11-26 腾讯科技(北京)有限公司 一种图像处理方法、装置、计算机设备以及可读存储介质
CN113920415A (zh) * 2021-09-27 2022-01-11 奥比中光科技集团股份有限公司 一种场景识别方法、装置、终端和介质
CN114049584A (zh) * 2021-10-09 2022-02-15 百果园技术(新加坡)有限公司 一种模型训练和场景识别方法、装置、设备及介质
CN115526254A (zh) * 2022-09-26 2022-12-27 中国农业银行股份有限公司 场景识别系统、方法、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764208A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN113705597A (zh) * 2021-03-05 2021-11-26 腾讯科技(北京)有限公司 一种图像处理方法、装置、计算机设备以及可读存储介质
CN113920415A (zh) * 2021-09-27 2022-01-11 奥比中光科技集团股份有限公司 一种场景识别方法、装置、终端和介质
CN114049584A (zh) * 2021-10-09 2022-02-15 百果园技术(新加坡)有限公司 一种模型训练和场景识别方法、装置、设备及介质
CN115526254A (zh) * 2022-09-26 2022-12-27 中国农业银行股份有限公司 场景识别系统、方法、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118779490A (zh) * 2024-09-13 2024-10-15 北京妙音数科股份有限公司 基于人工智能的多场景自适应视频内容识别方法及系统

Similar Documents

Publication Publication Date Title
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN117670820B (zh) 一种塑料薄膜生产缺陷检测方法及系统
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN112686812A (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN105138998B (zh) 基于视角自适应子空间学习算法的行人重识别方法及系统
CN113743251B (zh) 一种基于弱监督场景的目标搜索方法及装置
CN111967429A (zh) 一种基于主动学习的行人重识别模型训练方法及装置
CN116258937A (zh) 基于注意力机制的小样本分割方法、装置、终端及介质
CN112927783B (zh) 图像检索方法及装置
CN111967527B (zh) 一种基于人工智能牡丹品种识别方法及识别系统
CN110598019A (zh) 重复图像识别方法及装置
CN113553975B (zh) 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
CN115019052B (zh) 图像识别方法、装置、电子设备及存储介质
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN113920302A (zh) 基于交叉注意力机制的多头弱监督目标检测方法
CN109685830A (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN117152459B (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN115862055B (zh) 基于对比学习和对抗训练的行人重识别方法及装置
CN116824248A (zh) 一种融入个性化标签的场景化图像识别方法及装置
CN114419529B (zh) 一种基于分布空间对齐的跨模态行人再识别方法及系统
US20200050899A1 (en) Automatically filtering out objects based on user preferences
CN119904374B (zh) 图像增强方法、装置、电子设备和存储介质
CN113628113B (zh) 一种图像拼接方法及其相关设备
CN115761397A (zh) 模型训练方法、图像分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination