[go: up one dir, main page]

CN114429567A - 图像分类、图像分类模型的训练方法、装置、设备及介质 - Google Patents

图像分类、图像分类模型的训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN114429567A
CN114429567A CN202210097757.1A CN202210097757A CN114429567A CN 114429567 A CN114429567 A CN 114429567A CN 202210097757 A CN202210097757 A CN 202210097757A CN 114429567 A CN114429567 A CN 114429567A
Authority
CN
China
Prior art keywords
classification
level
image
target image
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210097757.1A
Other languages
English (en)
Other versions
CN114429567B (zh
Inventor
蔡德
韩骁
肖凯文
叶虎
马兆轩
周彦宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210097757.1A priority Critical patent/CN114429567B/zh
Publication of CN114429567A publication Critical patent/CN114429567A/zh
Application granted granted Critical
Publication of CN114429567B publication Critical patent/CN114429567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像分类、图像分类模型的训练方法、装置、设备及介质,属于人工智能技术领域。该图像分类方法包括:获取目标图像;基于目标图像,获取第一分类层级与关联层级之间的关联信息;基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果;其中,关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。此种方式,在获取目标图像在第一分类层级下分别对应的分类结果的过程中,不仅考虑了图像本身,还考虑了第一分类层级与关联层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,进而提高图像分类的准确性。

Description

图像分类、图像分类模型的训练方法、装置、设备及介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像分类、图像分类模型的训练方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,对图像进行分类的方式越来越多,如,对图像进行结构化分类。在对图像进行结构化分类的过程中,需要获取图像在至少两个分类层级下分别对应的分类结果。
相关技术中,图像在每个分类层级下对应的分类结果均直接基于图像获取。在此种方式下,分类结果的获取过程仅考虑了图像本身,考虑的信息较局限,分类结果的可靠性较差,图像分类的准确性较低。
发明内容
本申请实施例提供了一种图像分类、图像分类模型的训练方法、装置、设备及介质,可用于提高图像分类的准确性。所述技术方案如下:
一方面,本申请实施例提供了一种图像分类方法,所述方法包括:
获取目标图像;
基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;
基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果;
其中,所述第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
还提供了一种图像分类模型的训练方法,所述方法包括:
获取样本图像和所述样本图像在至少两个分类层级下分别对应的分类标签;
调用图像分类模型获取所述样本图像在所述至少两个分类层级下分别对应的分类结果,所述样本图像在第一分类层级下对应的分类结果基于所述样本图像在关联层级下对应的分类结果以及所述第一分类层级与所述关联层级之间的关联信息获取;
基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取目标损失;利用所述目标损失对所述图像分类模型进行训练,得到目标图像分类模型;
其中,所述第一分类层级为所述至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
另一方面,提供了一种图像分类装置,所述装置包括:
第一获取单元,用于获取目标图像;
第二获取单元,用于基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果;
其中,所述第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
在一种可能实现方式中,所述第二获取单元,用于基于所述目标图像,获取在所述目标图像归属所述关联层级对应的任一候选类别的前提条件下,所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率;基于所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率,获取所述第一分类层级与所述任一候选类别之间的关联子信息;基于所述第一分类层级分别与所述关联层级对应的各个候选类别之间的关联子信息,获取所述第一分类层级与所述关联层级之间的关联信息。
在一种可能实现方式中,所述第二获取单元,用于对所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率进行归一化处理,得到所述目标图像与所述第一分类层级对应的各个候选类别的归一化匹配概率;基于所述目标图像与所述第一分类层级对应的各个候选类别的归一化匹配概率,获取所述第一分类层级与所述任一候选类别之间的关联子信息。
在一种可能实现方式中,所述第二获取单元,用于对所述目标图像进行特征提取,得到所述目标图像在所述第一分类层级下对应的图像特征;基于所述目标图像在所述第一分类层级下对应的图像特征,获取在所述目标图像归属所述任一候选类别的前提条件下,所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率。
在一种可能实现方式中,不同的分类层级的粒度不同,所述与所述第一分类层级满足关联条件的分类层级为在粒度从细到粗的顺序下位于所述第一分类层级前参考数量位的分类层级。
在一种可能实现方式中,所述参考数量为一个,所述满足选取条件的分类层级为所述至少两个分类层级中除最细粒度的分类层级外的分类层级,所述第二获取单元,还用于按照所述至少两个分类层级的粒度从细到粗的顺序,依次获取所述目标图像在所述至少两个分类层级下分别对应的分类结果。
在一种可能实现方式中,所述第二获取单元,还用于对所述目标图像在所述最细粒度的分类层级下对应的图像特征进行分类,得到所述目标图像在所述最细粒度的分类层级下对应的分类结果。
在一种可能实现方式中,所述第二获取单元,用于调用目标图像分类模型基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;调用所述目标图像分类模型基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果。
在一种可能实现方式中,所述目标图像为用于进行生物学分类的图像,所述至少两个分类层级为至少两个生物学分类层级;或者,所述目标图像为用于进行医学分类的图像,所述至少两个分类层级为至少两个医学分类层级。
还提供了一种图像分类模型的训练装置,所述装置包括:
第一获取单元,用于获取样本图像和所述样本图像在至少两个分类层级下分别对应的分类标签;
第二获取单元,用于调用图像分类模型获取所述样本图像在所述至少两个分类层级下分别对应的分类结果,所述样本图像在第一分类层级下对应的分类结果基于所述样本图像在关联层级下对应的分类结果以及所述第一分类层级与所述关联层级之间的关联信息获取;
第三获取单元,用于基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取目标损失;
训练单元,用于利用所述目标损失对所述图像分类模型进行训练,得到目标图像分类模型;
其中,所述第一分类层级为所述至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
在一种可能实现方式中,所述第三获取单元,用于基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取第一损失;基于所述第一分类层级与所述关联层级之间的关联信息,获取所述第一分类层级对应的第二损失;基于所述第一损失以及满足选取条件的各个分类层级对应的第二损失,获取所述目标损失。
在一种可能实现方式中,所述样本图像在至少两个分类层级下分别对应的分类标签从标签树中提取得到;所述装置还包括:
构建单元,用于基于所述至少两个分类层级的粒度的排列顺序,以及各个已标注图像在所述至少两个分类层级下分别对应的分类标签,构建所述标签树,所述各个已标注图像包括所述样本图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的图像分类方法或图像分类模型的训练方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的图像分类方法或图像分类模型的训练方法。
另一方面,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现上述任一所述的图像分类方法或图像分类模型的训练方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案,在获取目标图像在第一分类层级下分别对应的分类结果的过程中,不仅考虑了图像本身,还考虑了第一分类层级与关联层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,进而提高图像分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种图像分类方法的流程图;
图3是本申请实施例提供的一种获取目标图像在至少两个分类层级下分别对应的分类结果的过程的示意图;
图4是本申请实施例提供的一种可视化呈现的结果的示意图;
图5是本申请实施例提供的一种图像分类模型的训练方法的流程图;
图6是本申请实施例提供的一种标签树的示意图;
图7是本申请实施例提供的一种图像分类装置的示意图;
图8是本申请实施例提供的一种图像分类模型的训练装置的示意图;
图9是本申请实施例提供的一种服务器的结构示意图;
图10是本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在示例性实施例中,本申请实施例提供的图像分类方法以及图像分类模型的训练方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理(如,图像分类、图像分割等)、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three-Dimension,三维)技术、虚拟现实、增强现实、地图构建、自动驾驶、智慧交通等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图1示出了本申请实施例提供的实施环境的示意图。该实施环境包括:终端11和服务器12。
本申请实施例提供的图像分类方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的图像分类方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
本申请实施例提供的图像分类模型的训练方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的图像分类模型的训练方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
需要说明的是,图像分类方法的执行设备与图像分类模型的训练方法的执行设备可以相同,也可以不同,本申请实施例对此不加以限定。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(Pocket PC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种图像分类方法,该图像分类方法由计算机设备执行,该计算机设备可以为终端11,也可以为服务器12,本申请实施例对此不加以限定。如图2所示,本申请实施例提供的图像分类方法包括如下步骤201和步骤202。
在步骤201中,获取目标图像。
目标图像是指任一待分类的图像。本申请实施例中,对目标图像进行分类的目的是获取目标图像在至少两个分类层级下分别对应的分类结果。示例性地,获取目标图像在至少两个分类层级下分别对应的分类结果的过程还可以称为对目标图像进行结构化分类的过程。也就是说,目标图像是一种能够进行结构化分类的图像。
结构化分类是一种图像分类方法,图像分类是计算机视觉中的基本任务。结构化分类旨在确定图像在不同分类层级下归属的类别,比如,按照生物学分类法,每一种鸟在界门纲目科属种这七个分类层级中各归属一个类别,结构化分类会对某一种鸟的图像在这七个分类层级下分别进行分类,并得到图像在7个分类层次下分别对应的分类结果,进而确定图像在7个分类层次归属的类别。结构化分类能够将分类层次之间的结构化关系考虑进去,从而更好的学习分类层次对应的类别之间的相关性。
至少两个分类层级是指对目标图像进行结构化分类所参考的分类层级,本申请实施例对至少两个分类层级的设置方式不加以限定,可以根据目标图像的类型灵活设置,也可以根据实际的应用场景灵活调整等。不同分类层级的粒度不同,较粗粒度的分类层级用于对目标图像进行较粗粒度的分类,较细粒度的分类层级用于对目标图像进行较细粒度的分类。
每个分类层级均对应有至少一个候选类别,任一分类层级对应的至少一个候选类别是指在结构化分类场景下归属于该任一分类层级的类别。至少两个分类层级对应的候选类别根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,粗粒度的分类层级对应的候选类别的数量不大于细粒度的分类层级对应的候选类别的数量。示例性地,在粒度从细到粗的顺序下,相邻的两个分类层级中的较细粒度的分类层级对应的每个候选类别均为较粗粒度的分类层级对应的一个候选类别下的细分类别。
在示例性实施例中,目标图像为用于进行生物学分类的图像,此种情况下,至少两个分类层级为至少两个生物学分类层级。示例性地,生物学分类层级的数量为7个,该7个生物学分类层级在粒度从细到粗的顺序下依次为:种、属、科、目、纲、门、界。当然,至少两个生物学分类层级还可以为其他情况,本申请实施例对此不加以限定。
在示例性实施例中,目标图像为用于进行医学分类的图像,此种情况下,至少两个分类层级为至少两个医学分类层级。示例性地,医学分类层级的数量为2个,该2个医学分类层级在粒度从细到粗的顺序下依次为:医学疾病小类、医学疾病大类。当然,至少两个医学分类层级还可以为其他情况,本申请实施例对此不加以限定。
需要说明的是,以上所述目标图像为用于进行生物学分类的图像以及目标图像为用于进行医学分类的图像仅为示例性举例,本申请实施例并不局限于此,在一些实施例中,目标图像还可以为其他类型的图像。
本申请实施例对获取目标图像的方式不加以限定,示例性地,目标图像可以由计算机设备采集得到。示例性地,目标图像可以由图像采集设备发送给计算机设备。示例性地,目标图像可以由计算机设备从图像库中提取得到。示例性地,目标图像可以由计算机设备从网络上爬取得到等。
在步骤202中,基于目标图像,获取第一分类层级与关联层级之间的关联信息;基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果。
其中,第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。
在获取目标图像后,对目标图像进行结构化分类,以获取目标图像在至少两个分类层级下分别对应的分类结果。在本申请实施例中,在对目标图像进行结构化分类的过程中,获取目标图像在第一分类层级下对应的分类结果的过程包括:基于目标图像,获取第一分类层级与关联层级之间的关联信息;基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果。也就是说,获取目标图像在第一分类层级下对应的分类结果的过程不仅考虑了目标图像本身,还考虑了分类层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,进而提高图像分类的准确性。
第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,满足选取条件的分类层级是指需要通过考虑与关联层级之间的关联信息,获取目标图像对应的分类结果的分类层级。满足选取条件根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。
在示例性实施例中,满足选取条件的分类层级是指存在关联层级的全部分类层级。在示例性实施例中,满足选取条件的分类层级是指存在关联层级的全部分类层级中的指定的一个或多个分类层级。
第一分类层级的关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。满足关联条件根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。
在示例性实施例中,不同的分类层级的粒度不同,与第一分类层级满足关联条件的分类层级可以是指在粒度从细到粗的顺序下位于第一分类层级前参考数量位的分类层级。也就是说,第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前参考数量位的分类层级。此种情况下,第一分类层级的关联层级的粒度比第一分类层级的粒度细。
参考数量根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,参考数量为一个,或者,参考数量为两个,再或者,参考数量为三个等。本申请实施例以参考数量为一个为例进行说明。参考数量为其他数量的情况下的图像分类方式的原理与参考数量为一个的情况下的图像分类方式的原理类似。
对于参考数量为一个的情况,第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前一位的分类层级,也就是说,第一分类层级的关联层级为在粒度从细到粗的顺序下与该第一分类层级相邻的较细粒度的分类层级。
在示例性实施例中,以参考数量为一个、满足选取条件的分类层级为存在关联层级的全部分类层级为例,由于除最细粒度的分类层级外的每个分类层级均存在关联层级,所以满足选取条件的分类层级为至少两个分类层级中除最细粒度的分类层级外的分类层级。也就是说,第一分类层级为至少两个分类层级中除最细粒度的分类层级外的任一分类层级。
在示例性实施例中,目标图像在任一分类层级下对应的分类结果包括目标图像与该任一分类层级对应的各个候选类别的匹配概率。本申请实施例对目标图像在任一分类层级下对应的分类结果的表示形式不加以限定,示例性地,目标图像在任一分类层级下对应的分类结果利用矩阵或向量表示。
需要说明的是,步骤202的实现过程可以通过运行预先编辑的计算机程序实现,也可以通过调用目标图像分类模型实现。本申请实施例以调用目标图像分类模型实现步骤202为例进行说明。也就是说,调用目标图像分类模型基于目标图像,获取第一分类层级与关联层级之间的关联信息;调用目标图像分类模型基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果。
目标图像分类模型为训练好的图像分类模型,目标图像分类模型能够获取目标图像在至少两个分类层级下分别对应的分类结果。在将目标图像输入目标图像分类模型后,目标图像模型能够获取目标图像在至少两个分类层级下分别对应的分类结果。获取目标图像在至少两个分类层级下分别对应的分类结果的过程为目标图像分类模型的内部处理过程,与目标图像分类模型的结构有关,本申请实施例对目标图像分类模型的结构不加以限定,只要保证获取目标图像在第一分类层级下对应的分类结果的过程为步骤202所述的过程即可。
示例性地,在第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前一位的分类层级、第一分类层级为至少两个分类层级中除最细粒度的分类层级外的任一分类层级的情况下,目标图像分类模型可以包括分类模型和转移模型。示例性地,分类模型用于获取目标图像在最细粒度的分类层级下对应的分类结果,转移模型的数量与除最细粒度的分类层级外的其他分类层级的数量相同,转移模型与除最细粒度的分类层级外的其他分类层级一一对应。任一转移模型用于预测该任一转移模型对应的分类层级与关联层级之间的关联信息,并根据关联信息以及目标图像在关联层级下对应的分类结果,确定目标图像在该任一转移模型对应的分类层级下的分类结果。
示例性地,分类模型还用于提取目标图像的图像特征。示例性地,分类模型可以为任何一种能够提取图像的特征并且能够输出分类结果的模型,示例性地,分类模型可以为一种ResNet(Residual Neural Network,残差神经网络)模型。
目标图像分类模型通过对图像分类模型进行训练得到,训练得到目标图像分类模型的过程详见图5所示的实施例,此处暂不赘述。
示例性地,第一分类层级与关联层级之间的关联信息用于指示在目标图像在关联层级下对应的分类结果的基础上获取目标图像在第一分类层级下对应的分类结果所依据的信息。第一分类层级与关联层级之间的关联信息是在目标图像的影响下确定出的关联信息。需要说明的是,在不同的图像的影响下确定出的第一分类层级与关联层级之间的关联信息可能有所不同,但确定出的关联信息指示出的第一分类层级对应的候选类别与关联层级对应的候选类别之间的关联关系是类似的。
在一种可能实现方式中,基于目标图像,获取第一分类层级与关联层级之间的关联信息的过程包括以下步骤1至步骤3。
步骤1:基于目标图像,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。
在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率是在目标图像的基础上获取的一种条件概率,能够表明第一分类层级对应的各个候选类别与关联层级对应的任一候选类别之间的关联,也即表明第一分类层级与关联层级对应的任一候选类别之间的关联。
示例性地,基于目标图像,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率的实现过程可以为:对目标图像进行特征提取,得到目标图像在第一分类层级下对应的图像特征;基于目标图像在第一分类层级下对应的图像特征,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。此种方式下,获取不同的分类层级与关联层级之间的关联信息所依据的图像特征不同。
示例性地,对目标图像进行特征提取,得到目标图像在第一分类层级下对应的图像特征的过程包括:对目标图像进行特征提取,得到目标图像在各个分类层级下分别对应的图像特征;从目标图像在各个分类层级下分别对应的图像特征中提取目标图像在第一分类层级下对应的图像特征。
示例性地,目标图像在较粗粒度的分类层级下对应的图像特征可视为目标图像的较粗粒度的特征,目标图像在较细粒度的分类层级下对应的图像特征可视为目标图像的较细粒度的特征。目标图像的较粗粒度的特征能够为对目标图像进行较粗粒度的分类提供数据支持,目标图像的较细粒度的特征能够为对目标图像进行较细粒度的分类提供数据支持。
示例性地,对于步骤202通过调用目标图像分类模型实现的情况,对目标图像进行特征提取的过程也为目标图像分类模型的处理过程。也就是说,调用目标图像分类模型对目标图像进行特征提取,得到目标图像在至少两个分类层级下分别对应的图像特征。在将目标图像输入目标图像分类模型后,目标图像分类模型可以对目标图像进行特征提取,以得到目标图像在至少两个分类层级下分别对应的图像特征。目标图像在任一分类层级下对应的图像特征为获取目标图像在任一分类层级下对应的分类结果所依据的信息。
在获取目标图像在第一分类层级下对应的图像特征后,基于目标图像在第一分类层级下对应的图像特征,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。
示例性地,对于步骤202通过调用目标图像分类模型实现的情况,上述基于目标图像在第一分类层级下对应的图像特征,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率的过程通过调用目标图像分类模型实现。
需要说明的是,以上所述基于目标图像在第一分类层级下对应的图像特征,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率的实现过程仅为基于目标图像,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率的实现过程的一种示例性描述,本申请实施例并不局限于此。
在示例性实施例中,基于目标图像,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率的实现过程还可以为:对目标图像进行特征提取,得到目标图像的通用图像特征;基于通用图像特征,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。此种方式下,获取不同的分类层级与关联层级之间的关联信息的过程均依据通用图像特征。
步骤2:基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。
该步骤2中的目标图像与第一分类层级对应的各个候选类别的匹配概率是指在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。由于目标图像与第一分类层级对应的各个候选类别的匹配概率能够表明第一分类层级与关联层级对应的任一候选类别之间的关联,所以在获取目标图像与第一分类层级对应的各个候选类别的匹配概率后,基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。
示例性地,基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息的方式可以为:直接基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。示例性地,将目标图像与第一分类层级对应的各个候选类别的匹配概率构成的矩阵或向量作为第一分类层级与任一候选类别之间的关联子信息。
示例性地,基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息的方式还可以为:对目标图像与第一分类层级对应的各个候选类别的匹配概率进行归一化处理,得到目标图像与第一分类层级对应的各个候选类别的归一化匹配概率;基于目标图像与第一分类层级对应的各个候选类别的归一化匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。
示例性地,归一化处理的过程利用激活函数实现,例如,该激活函数为softmax(一种激活函数)。对目标图像与第一分类层级对应的各个候选类别的匹配概率进行归一化处理,能够保证目标图像与第一分类层级对应的各个候选类别的归一化匹配概率之和为1,从而提高获取的关联子信息的可靠性。
示例性地,基于目标图像与第一分类层级对应的各个候选类别的归一化匹配概率,获取第一分类层级与任一候选类别之间的关联子信息的方式可以为:将目标图像与第一分类层级对应的各个候选类别的归一化匹配概率构成的矩阵或向量作为第一分类层级与任一候选类别之间的关联子信息。
示例性地,在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的归一化匹配概率可以构成一个列向量,通过在列方向上施加softmax激活函数,能够使列向量满足归一化条件。示例性地,细粒度的类别在建模时可能属于任何一个粗粒度的类别,此种方式能够保证细粒度的类别属于各个粗粒度的类别的概率之和为1。
步骤3:基于第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息,获取第一分类层级与关联层级之间的关联信息。
根据步骤1和步骤2的方式,能够获取第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息。关联子信息的数量与关联层级对应的候选类别的数量相同。
在获取第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息后,基于第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息,获取第一分类层级与关联层级之间的关联信息。示例性地,第一分类层级与关联层级对应的每个候选类别之间的关联子信息均为一个列矩阵或列向量,将第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息构成的矩阵或向量作为第一分类层级与关联层级之间的关联信息。
由于第一分类层级与关联层级之间的关联信息基于第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息获取得到,目标图像在关联层级下对应的分类结果包括目标图像与关联层级对应的各个候选类别的匹配概率,所以,能够基于目标图像在关联层级下对应的分类结果以及第一分类层级与关联层级之间的关联信息确定目标图像在第一分类层级下对应的分类结果。
示例性地,第一分类层级与关联层级之间的关联信息可以利用矩阵表示,利用矩阵表示的关联信息可以称为关联矩阵,示例性地,关联矩阵还可以称为转移矩阵。关联矩阵中的元素数量为第一分类层级对应的候选类别的数量与关联层级对应的候选类别的数量的乘积。
示例性地,假设至少两个分类层级的数量为K(K为不小于2的整数),在粒度从细到粗的顺序下排列的K个分类层级对应的候选类别的数量分别为(C1,C2,…CK)。假设第一分类层级为在粒度从细到粗的顺序下位于第k(k为不小于2且不大于K的整数)位的分类层级,参考数量为一个,则第一分类层级的关联层级为在粒度从细到粗的顺序下位于第(k-1)位的分类层级,第一分类层级对应的候选类别的数量为Ck,关联层级对应的候选类别的数量为Ck-1,则第一分类层级与关联层级之间的关联矩阵可以为一个尺寸为Ck*Ck-1的矩阵,也即Ck行Ck-1列的矩阵。该关联矩阵可以利用公式1表示:
Figure BDA0003491626320000151
其中,x表示目标图像;
Figure BDA0003491626320000161
表示第一分类层级与关联层级之间的关联矩阵;
Figure BDA0003491626320000162
表示
Figure BDA0003491626320000163
中位于第i行第j列的矩阵元素,其中,i为不小于1且不大于Ck的整数,j为不小于1且不大于Ck-1的整数。
Figure BDA0003491626320000164
的表达式如公式2所示:
Figure BDA0003491626320000165
其中,p(sk=i|sk-1=j;x)表示在目标图像x归属关联层级sk-1对应的第j个候选类别的前提条件下,目标图像x与第一分类层级sk对应的第i个候选类别的匹配概率(或归一化匹配概率)。
示例性地,对于结构化分类任务,假设分类层级的数量为K,该K个分类层级分别表示为(s1,s2,...,sK),每一个分类层级分别对应有(C1,C2,...CK)个候选类别。假设从1增加到K时,分类层级逐渐变得粗粒度,则结构化分类其实就是要学习和建模如公式3所示的概率分布:
p(s1,s2,...,sK|x) (公式3)
其中,p(sk|x)表示目标图像x在第k个分类层级sk下的概率分布,也即样本图像x在第k个分类层级sk下对应的分类结果。
本申请实施例,对于第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前一位的分类层级的情况,目标图像在第k个分类层级下对应的分类结果是建模成统计意义上依赖于目标图像在第(k-1)个分类层级下对应的细粒度的分类结果和目标图像x的,因此目标图像x在第k个分类层级下对应的分类结果可以利用下述公式4表示:
Figure BDA0003491626320000166
其中,p(sk-1|x)表示目标图像x在第(k-1)个分类层级sk-1下的概率分布,也即目标图像x在第(k-1)个分类层级sk-1下对应的分类结果;
Figure BDA0003491626320000167
描述从第(k-1)个分类层级转移到第k个分类层级的转移概率,也即定义了从细粒度到粗粒度的转移过程概率。公式4可以理解为一种结构化的标注方式,目标图像x在第k个分类层级下对应的分类结果是根据目标图像x在第(k-1)个分类层级下对应的分类结果和目标图像x本身的信息结合起来预测得到的。
上述公式4定义了一种从细粒度到粗粒度的学习过程,根据细粒度的预测逐渐去学习粗粒度的预测,而其中的核心是转移概率
Figure BDA0003491626320000171
的学习。本申请实施例中,将转移概率
Figure BDA0003491626320000172
表示成公式1所示的关联矩阵。
示例性地,假设第一分类层级与关联层级之间的关联信息为公式1表示的关联矩阵,目标图像在关联层级下对应的分类结果利用
Figure BDA0003491626320000173
表示,则目标图像在第一分类层级下对应的分类结果
Figure BDA0003491626320000174
能够基于公式5计算得到:
Figure BDA0003491626320000175
其中,
Figure BDA0003491626320000176
Figure BDA0003491626320000177
均为矩阵,
Figure BDA0003491626320000178
的尺寸为Ck*Ck-1
Figure BDA0003491626320000179
的尺寸为Ck-1*1,
Figure BDA00034916263200001710
的尺寸为Ck*1。
示例性地,在第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前一位的分类层级、第一分类层级为至少两个分类层级中除最细粒度的分类层级外的任一分类层级的情况下,由于目标图像在粗粒度的分类层级下对应的分类结果基于目标图像在细粒度的分类层级下对应的分类结果获取得到,所以,目标图像在至少两个分类层级下分别对应的分类结果按照至少两个分类层级的粒度从细到粗的顺序依次获取。也就是说,按照至少两个分类层级的粒度从细到粗的顺序,依次获取目标图像在至少两个分类层级下分别对应的分类结果。
在按照至少两个分类层级的粒度从细到粗的顺序,依次获取目标图像在至少两个分类层级下分别对应的分类结果的过程中,在获取目标图像在最细粒度的分类层级下对应的分类结果后,依次将在粒度从细到粗的顺序下位于第2位、第3位、…、第K位的分类层级作为第一分类层级,根据步骤202的方式,依次获取目标图像在位于第2位、第3位、…、第K位的分类层级下对应的分类结果。在获取目标图像在位于第K位的分类层级下对应的分类结果后,得到目标图像在至少两个分类层级下对应的分类结果。其中,K为分类层级的数量,K为不小于2的整数。
示例性地,获取目标图像在最细粒度的分类层级下对应的分类结果的过程包括:对目标图像在最细粒度的分类层级下对应的图像特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果。由于至少两个分类层级中不存在最细粒度的分类层级的关联层级,所以可以直接通过对目标图像在最细粒度的分类层级下对应的图像特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果。示例性地,目标图像在最细粒度的分类层级下对应的分类结果包括目标图像与最细粒度的分类层级对应的各个候选类别的匹配概率。
需要说明的是,对目标图像在最细粒度的分类层级下对应的图像特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果的过程可视为未考虑任何关联信息,也可视为考虑了最细粒度的分类层级与自身之间的关联信息。最细粒度的分类层级与自身之间的关联信息为一种单位矩阵,该单位矩阵的尺寸为C1*C1
示例性地,对于步骤202通过调用目标图像分类模型实现的情况,上述对目标图像在最细粒度的分类层级下对应的图像特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果的过程通过调用目标图像分类模型实现。
在一些实施例中,还可以通过对目标图像的通用特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果。
示例性地,假设分类层级的数量为3个,该3个分类层级在粒度从细到粗的顺序下依次为分类层级1、分类层级2和分类层级3。则在本申请实施例中,最细粒度的分类层级为分类层级1,除最细粒度的分类层级外的其他分类层级为分类层级2和分类层级3。分类层级2的关联层级为分类层级1,分类层级3的关联层级为分类层级2。
在对目标图像进行结构化分类的过程中,依次获取目标图像在分类层级1下对应的分类结果、目标图像在分类层级2下对应的分类结果以及目标图像在分类层级3下对应的分类结果。其中,目标图像在分类层级1下对应的分类结果通过对目标图像在分类层级1下对应的图像特征进行分类得到;目标图像在分类层级2下对应的分类结果基于目标图像在分类层级1下对应的分类结果以及分类层级2与分类层级1之间的关联信息确定;目标图像在分类层级3下对应的分类结果基于目标图像在分类层级2下对应的分类结果以及分类层级3与分类层级2之间的关联信息确定。
在示例性实施例中,在第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前一位的分类层级、第一分类层级为至少两个分类层级中除最细粒度的分类层级外的任一分类层级的情况下,获取目标图像在至少两个分类层级下分别对应的分类结果的过程如图3所示。在图3中,分类层级的数量为3个,该3个分类层级在粒度从细到粗的顺序下依次为分类层级1、分类层级2和分类层级3。也就是说,分类层级1为最细粒度的分类层级。将目标图像x输入目标图像分类模型,目标图像分类模型对目标图像x进行特征提取,得到目标图像x在分类层级1下对应的图像特征301、目标图像x在分类层级2下对应的图像特征302以及目标图像x在分类层级3下对应的图像特征303。
对目标图像x在分类层级1下对应的图像特征301进行分类,基于得到的结果和分类层级1与自身之间的关联信息304,获取目标图像x在分类层级1下对应的分类结果305。分类层级1对应的候选类别的数量为8个,分类层级1与自身之间的关联信息304为一个尺寸为8*8的矩阵。目标图像x在分类层级1下对应的分类结果305包括目标图像x与分类层级1对应的8个候选类别的匹配概率。
基于目标图像x在分类层级2下对应的图像特征302,获取分类层级2与分类层级1之间的关联信息306,基于分类层级2与分类层级1之间的关联信息306以及目标图像x在分类层级1下对应的分类结果305,确定目标图像x在分类层级2下对应的分类结果307。分类层级2对应的候选类别的数量为4个,分类层级2与分类层级1之间的关联信息306为一个尺寸为4*8的矩阵。目标图像x在分类层级2下对应的分类结果307包括目标图像x与分类层2级对应的4个候选类别的匹配概率。
基于目标图像x在分类层级3下对应的图像特征303,获取分类层级3与分类层级2之间的关联信息308,基于分类层级3与分类层级2之间的关联信息308以及目标图像x在分类层级2下对应的分类结果307,确定目标图像x在分类层级3下对应的分类结果309。分类层级3对应的候选类别的数量为2个,分类层级3与分类层级2之间的关联信息308为一个尺寸为2*4的矩阵。目标图像x在分类层级3下对应的分类结果309包括目标图像x与分类层级3对应的2个候选类别的匹配概率。
根据图3可知,分类层级1对应的每个候选类别均为分类层级2对应的一个候选类别的细分类别,分类层级2对应的每个候选类别均为分类层级3对应的一个候选类别的细分类别。
需要说明的是,以上所述按照至少两个分类层级的粒度从细到粗的顺序,依次获取目标图像在至少两个分类层级下分别对应的分类结果的过程仅为对目标图像进行结构化分类的过程的一种示例性描述,本申请实施例并不局限于此。
在示例性实施例中,以参考数量为两个,也即第一分类层级的关联层级为在粒度从细到粗的顺序下位于第一分类层级前两位的分类层级、第一分类层级为任一存在关联层级的分类层级为例,在对目标图像进行结构化分类的过程中,假设K个分类层级按照粒度从细到粗的顺序依次排列,则在获取目标图像在第(k-2)个分类层级下对应的分类结果后,即可基于目标图像在第(k-2)个分类层级下对应的分类结果以及第k个分类层级与第(k-2)个分类层级之间的关联信息,获取目标图像在第k个分类层级下对应的分类结果。获取目标图像在第k个分类层级下对应的分类结果的过程可以在获取目标图像在第(k-1)个分类层级下对应的分类结果的过程之前执行,也可以在之后执行,还可以并列执行等。其中,k为不小于3且不大于K的整数,K为不小于3的整数。
在示例性实施例中,在获取目标图像在至少两个分类层级下分别对应的分类结果之后,还包括:基于目标图像在至少两个分类层级下分别对应的分类结果,确定目标图像在至少两个分类层级下分别归属的目标类别。目标图像在任一分类层级下归属的目标类别可视为在结构化分类的过程中确定的该目标图像在该任一分类层级下所属的类别。
目标图像在任一分类层级下归属的目标类别基于目标图像在该任一分类层级下对应的分类结果确定。示例性地,目标图像在该任一分类层级下对应的分类结果包括目标图像与任一分类层级对应的各个候选类别的匹配概率,则目标图像在任一分类层级下归属的目标类别基于任一分类层级对应的各个候选类别中与目标图像的匹配概率最高的候选类别确定。
示例性地,若任一分类层级对应的各个候选类别中与目标图像的匹配概率最高的候选类别的数量为一个,则将该一个候选类别作为目标图像在该任一分类层级下归属的目标类别。示例性地,若任一分类层级对应的各个候选类别中与目标图像的匹配概率最高的候选类别的数量为多个,则从该多个候选类别中任选一个候选类别作为目标图像在该任一分类层级下归属的目标类别。
在示例性实施例中,参考获取目标图像在任一分类层级下归属的目标类别的方式,能够确定目标图像在至少两个分类层级下分别归属的目标类别。在示例性实施例中,在确定目标图像在至少两个分类层级下分别归属的目标类别后,可以将目标图像在至少两个目标分类层级下分别归属的目标类别与目标图像进行对应存储,以便于直接提取使用。
在示例性实施例中,在获取目标图像在至少两个分类层级下分别对应的分类结果之后,还可以根据目标图像在至少两个分类层级下分别对应的分类结果,可视化呈现至少两个分类层级分别对应的激活区域。任一分类层级对应的激活区域用于指示在获取目标图像在该任一分类层级下对应的分类结果的过程中重点关注的目标图像中的图像区域。通过可视化呈现至少两个分类层级分别对应的激活区域,可以增加对目标图像分类模型的判断的可解释性。
示例性地,可视化呈现至少两个分类层级分别对应的激活区域的过程可以利用CAM(Class Activation Mapping,类激活图)、Grad-CAM(Gradient-weighted ClassActivation Mapping,梯度-权重类激活图)等方式实现。
示例性地,可视化呈现的结果如图4所示。根据图4可知,不同分类层级(在粒度从细到粗的顺序下依次为种、科、目)对应的激活区域具有层级化的关系,不同大类的目标在粗粒度分类层次上往往有着相同的激活区域,而在细粒度分类层次上关注的激活区域往往会有变化,这种包含有结构化判别信息的激活区域有利于更好的分析模型学习到的判读区域,从而增加模型判读的可解释性。
在本申请实施例中,由于考虑了不同分类层级之间的关联信息,所以在确定目标图像所属的类别时,即使确定出的类别不是准确的类别,但是确定出的类别也会较大程度为与准确的类别在语义上相关的类别,从而能够减轻模型预测错误的严重程度。
本申请实施例提供的图像分类方法,在获取目标图像在第一分类层级下分别对应的分类结果的过程中,不仅考虑了图像本身,还考虑了第一分类层级与关联层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,进而提高图像分类的准确性。
基于上述图1所示的实施环境,本申请实施例提供一种图像分类模型的训练方法,该图像分类模型的训练方法由计算机设备执行,该计算机设备可以为终端11,也可以为服务器12,本申请实施例对此不加以限定。如图5所示,本申请实施例提供的图像分类模型的训练方法包括如下步骤501至步骤503。
在步骤501中,获取样本图像和样本图像在至少两个分类层级下分别对应的分类标签。
样本图像是指更新图像分类模型的参数一次所依据的图像,样本图像的数量为一个或多个,本申请实施例对此不加以限定。样本图像是指具有结构化分类标签的图像,本申请实施例对样本图像的获取方式不加以限定,示例性地,从结构化图像库或结构化图像数据集中提取样本图像。示例性地,从网络上爬取样本图像等。
样本图像的结构化标签是指样本图像在至少两个分类层级下分别对应的分类标签,样本图像在任一分类层级下对应的分类标签用于指示样本图像在该任一分类层级下归属的真实类别。样本图像在至少两个分类层级下对应的分类标签用于为图像分类模型的训练过程提供监督信息。
示例性地,样本图像在至少两个分类层级下分别对应的分类标签由标注人员根据经验标注得到。在示例性实施例中,样本图像在至少两个分类层级下分别对应的分类标签与样本图像对应存储,在获取样本图像的同时,能够获取样本图像在至少两个分类层级下分别对应的分类标签。
需要说明的是,本申请实施例中涉及的至少两个分类层级与图2所示的实施例中涉及的至少两个分类层级相同,本申请实施例中涉及的至少两个分类层级对应的候选类别与图2所示的实施例中涉及的至少两个分类层级对应的候选类别也相同,以保证图像分类模型的分类效果。
在示例性实施例中,样本图像在至少两个分类层级下分别对应的分类标签从标签树中提取得到。标签树利用树状结构存储各个已标注图像在至少两个分类层级下分别对应的分类标签,以节省存储空间,以及提高提取效率。
示例性地,在从标签树中提取样本图像在至少两个分类层级下分别对应的分类标签之前,需要先构建标签树。示例性地,构建标签树的过程包括:基于至少两个分类层级的粒度的排列顺序,以及各个已标注图像在至少两个分类层级下分别对应的分类标签,构建标签树。其中,各个已标注图像包括样本图像。
已标注图像是指已经标注了在至少两个分类层级下分别对应的分类标签的图像。示例性地,标签树中的根节点用于存储各个已标注图像在最粗粒度的分类层级下对应的分类标签,标签树中的叶子节点用于存储各个已标注图像的标识信息。示例性地,已标注图像的标识信息可以是指已标注图像本身,也可以是指已标注图像的存储地址等,本申请实施例对此不加以限定。标签树中的根节点和叶子节点之间的各层节点分别用于存储各个已标注图像在从第二粗粒度的分类层级到最细粒度的分类层级下对应的分类标签。
示例性地,基于至少两个分类层级的粒度的排列顺序,以及各个已标注图像在至少两个分类层级下分别对应的分类标签,构建标签树的过程通过遍历每个已标注图像实现,遍历每个已标注图像的原理相同,本申请实施例以遍历任一已标注图像的过程为例进行说明。
示例性地,以至少两个分类层级的数量为K(K为不小于2的整数),且K个分类层级的粒度的排列顺序为从粗到细的顺序为例,遍历任一已标注图像的过程包括:查找标签树的已有根节点中是否存在用于存储该任一已标注图像在排在第1位的分类层级(也即最粗粒度的分类层级)下对应的分类标签的根节点。
若不存在用于存储该任一已标注图像在排在第1位的分类层级下对应的分类标签的根节点,则创建一个用于存储该任一已标注图像在排在第1位的分类层级下对应的分类标签的根节点,然后创建该根节点的一个用于存储该任一已标注图像在排在第2位的分类层级下对应的分类标签的子节点,接下来创建该子节点的一个用于存储该任一已标注图像在排在第3位的分类层级下对应的分类标签的子节点,以此类推,在创建了用于存储该任一已标注图像在排在第K位的分类层级(也即最细粒度的分类层级)下对应的分类标签的子节点后,创建该子节点的一个用于存储该任一已标注图像的标识信息的子节点(该子节点即为标签树的一个叶子节点)。
若存在用于存储该任一已标注图像在排在第1位的分类层级下对应的分类标签的根节点,则查找该根节点的子节点中是否存在用于存储该任一已标注图像在排在第2位的分类层级下对应的分类标签的子节点。若不存在用于存储该任一已标注图像在排在第2位的分类层级下对应的分类标签的子节点,则创建该根节点的一个用于存储该任一已标注图像在排在第2位的分类层级下对应的分类标签的子节点,后续的流程参见不存在用于存储该任一已标注图像在排在第1位的分类层级下对应的分类标签的根节点的情况下的相关流程,此处不再赘述。
若存在用于存储该任一已标注图像在排在第2位的分类层级下对应的分类标签的子节点,则查找该子节点的子节点中是否存在用于存储该任一已标注图像在排在第3位的分类层级下对应的分类标签的子节点。根据上述介绍的流程进行类推,直至确定标签树中已存储有该任一已标注图像在各个分类层级下分别对应的分类标签以及该任一已标注图像的标识信息,完成遍历该任一已标注图像的过程。
在完成遍历各个已标注图像的过程后,得到标签树。在示例性实施例中,在构建标签树之后,还可以根据新的已标注图像在至少两个分类层级下分别对应的分类标签,对标签树进行更新。
示例性地,以至少两个分类层级在粒度从细到粗的顺序下依次为种、科、目为例,标签树如图6所示。图6所示的标签树用于存储4个与鸟相关的已标注图像在种、科、目这三个分类层级下分别对应的分类标签。从图6所示的标签树中,能够提取该4个与鸟相关的已标注图像中的每个图像在种、科、目这三个分类层级下分别对应的分类标签。例如,从图6所示的标签树中,能够提取到从左到右的第一个图像在种、科、目这三个分类层级下对应的分类标签分别为“岩鹪鹩”、“鹪鹩科”和“雀形目”。
在步骤502中,调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果,样本图像在第一分类层级下对应的分类结果基于样本图像在关联层级下对应的分类结果以及第一分类层级与关联层级之间的关联信息获取。
其中,第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。
在获取样本图像后,调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果。样本图像在任一分类层级下对应的分类结果包括样本图像与该任一分类层级对应的各个候选类别的匹配概率。
在示例性实施例中,不同的分类层级的粒度不同,关联层级为在粒度从细到粗的顺序下位于第一分类层级前参考数量位的分类层级。
在示例性实施例中,参考数量为一个,满足选取条件的分类层级为至少两个分类层级中除最细粒度的分类层级外的分类层级。也就是说,第一分类层级为至少两个分类层级中除最细粒度的分类层级外的任一分类层级。
示例性地,调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果的过程为:调用图像分类模型按照至少两个分类层级的粒度从细到粗的顺序,依次获取样本图像在至少两个分类层级下分别对应的分类结果。
在示例性实施例中,调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果的过程包括:调用图像分类模型对样本图像进行特征提取,得到样本图像在至少两个分类层级下分别对应的图像特征;基于样本图像在至少两个分类层级下分别对应的图像特征,获取样本图像在至少两个分类层级下分别对应的分类结果。
在示例性实施例中,调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果的过程包括:调用图像分类模型对样本图像进行特征提取,得到样本图像的通用图像特征;基于通用图像特征,获取样本图像在至少两个分类层级下分别对应的分类结果。
示例性地,获取样本图像在最细粒度的分类层级下对应的分类结果的过程包括:对样本图像在最细粒度的分类层级下对应的图像特征进行分类,得到样本图像在最细粒度的分类层级下对应的分类结果。
示例性地,获取样本图像在第一分类层级下对应的分类结果的过程包括:基于样本图像,获取第一分类层级与关联层级之间的关联信息;基于样本图像在关联层级下对应的分类结果以及第一分类层级与关联层级之间的关联信息,确定样本图像在第一分类层级下对应的分类结果。也就是说,第一分类层级与关联层级之间的关联信息基于样本图像在第一分类层级下对应的图像特征得到。
示例性地,基于样本图像,获取第一分类层级与关联层级之间的关联信息的过程包括:基于样本图像,获取在样本图像归属关联层级对应的任一候选类别的前提条件下,样本图像与第一分类层级对应的各个候选类别的匹配概率;基于样本图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息;基于第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息,获取第一分类层级与关联层级之间的关联信息。
示例性地,基于样本图像,获取在样本图像归属关联层级对应的任一候选类别的前提条件下,样本图像与第一分类层级对应的各个候选类别的匹配概率的过程包括:对样本图像进行特征提取,得到样本图像在第一分类层级下对应的图像特征;基于样本图像在第一分类层级下对应的图像特征,获取在样本图像归属关联层级对应的任一候选类别的前提条件下,样本图像与第一分类层级对应的各个候选类别的匹配概率。
示例性地,基于样本图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息的过程包括:对样本图像与第一分类层级对应的各个候选类别的匹配概率进行归一化处理,得到样本图像与第一分类层级对应的各个候选类别的归一化匹配概率;基于样本图像与第一分类层级对应的各个候选类别的归一化匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。
该步骤502中的相关过程的实现方式参见图2所示的实施例中的步骤202,此处不再加以赘述。
需要说明的是,对于样本图像的数量为多个的情况,该步骤502的实现过程为:调用图像分类模型获取每个样本图像在至少两个分类层级下分别对应的分类结果。
在步骤503中,基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取目标损失;利用目标损失对图像分类模型进行训练,得到目标图像分类模型。
在获取样本图像在至少两个分类层级下分别对应的分类结果后,基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取目标损失。目标损失为更新图像分类模型的参数所依据的损失。
在一种可能实现方式中,基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取目标损失的过程包括:基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取第一损失;基于第一损失,获取目标损失。
第一损失用于衡量样本图像在至少两个分类层级下分别对应的分类结果与样本图像在至少两个分类层级下分别对应的分类标签之间的差异。示例性地,第一损失越小,说明图像分类模型预测得到的样本图像在至少两个分类层级下分别对应的分类结果,越贴近样本图像在至少两个分类层级下分别对应的分类标签,也即说明图像分类模型的分类效果越好。也就是说,第一损失的优化目标为最小化。
示例性地,基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取第一损失的过程包括:基于样本图像在任一分类层级下对应的分类结果和样本图像在该任一分类层级下对应的分类标签,获取该任一分类层级对应的第一子损失;基于各个分类层级分别对应的第一子损失,获取第一损失。
示例性地,任一分类层级对应的第一子损失是指样本图像在该任一分类层级下对应的分类结果和样本图像在该任一分类层级下对应的分类标签之间的交叉熵损失,或者,均方误差损失等。
示例性地,对于样本图像的数量为一个的情况,基于各个分类层级分别对应的第一子损失,获取第一损失的方式包括:将在该一个样本图像的基础上获取的各个分类层级分别对应的第一子损失之和(或加权和)作为第一损失。
示例性地,对于样本图像的数量为多个的情况,基于各个分类层级分别对应的第一子损失,获取第一损失的方式包括:将在任一样本图像的基础上获取的各个分类层级分别对应的第一子损失之和(或加权和)该任一样本图像对应的分类损失;将各个样本图像分别对应的分类损失之和(或加权和)作为第一损失。
示例性地,以样本图像的数量为N(N为不小于1的整数)个为例,第一损失基于公式6计算得到:
Figure BDA0003491626320000271
其中,LcE表示第一损失;N表示样本图像的数量,也即更新图像分类模型的参数一次所依据的样本图像的数量,可以称为batch size(批量大小);K(K为不小于2的整数)表示分类层级的数量;
Figure BDA0003491626320000274
表示第n个样本图像在第k个分类层级下对应的分类结果;
Figure BDA0003491626320000272
表示第n个样本图像在第k个分类层级下对应的分类标签;GE(,)表示交叉熵损失函数。其中,n为不小于1且不大于N的整数,k为不小于1且不大于K的整数。
示例性地,假设K个分类层级是按照粒度从细到粗的顺序依次排列的,满足选取条件的各个分类层级为除最细粒度的分类层级外的各个分类层级,由于除最细粒度的分类层级外,样本图像在其他分类层级下对应的分类结果均可以基于样本图像在其他分类层级的关联层级下对应的分类结果和其他分类层级与关联层级之间的关联信息确定,所以,公式6还可以利用下述公式7表示:
Figure BDA0003491626320000273
其中,
Figure BDA0003491626320000281
表示第n个样本图像在最细粒度的分类层级下对应的分类结果;
Figure BDA0003491626320000282
表示第n个样本图像在最细粒度的分类层级下对应的分类标签;
Figure BDA0003491626320000283
表示在第n个样本图像的基础上获取的第k个分类层级与该第k个分类层级的关联层级之间的关联信息;
Figure BDA0003491626320000284
表示第n个样本图像在第(k-1)个分类层级下对应的分类结果;
Figure BDA0003491626320000285
表示第n个样本图像在第k个分类层级下对应的分类结果;
Figure BDA0003491626320000286
表示第n个样本图像在第k个分类层级下对应的分类标签。其中,n为不小于1且不大于N的整数,k为不小于2且不大于K的整数。其他参数的含义参见公式6。
在获取第一损失后,基于第一损失,获取目标损失。在示例性实施例中,基于第一损失,获取目标损失的方式包括:将第一损失作为目标损失。此种方式下,获取目标损失的效率较高。
在示例性实施例中,基于第一损失,获取目标损失的方式包括:基于第一分类层级与关联层级之间的关联信息,确定第一分类层级对应的第二损失;基于第一损失以及满足选取条件的各个分类层级对应的第二损失,获取目标损失。
第一分类层级对应的第二损失用于对第一分类层级与关联层级之间的关联信息进行正则化约束。关联信息能够建模不同分类层级之间的关系,但是同一分类层级对应的不同候选类别的关系还没有明确建模,因此,可以通过对关联信息进行约束,从而使同一分类层级对应的候选类别建立起来联系。本申请实施例中,通过对关联信息进行正则化约束,让图像分类模型直接学习同一分类层级对应的候选类别的关联性,而不是预先定义同一分类层级对应的候选类别之间的关系,效果较好。
示例性地,基于第一分类层级与关联层级之间的关联信息,确定第一分类层级对应的第二损失的过程包括:将第一分类层级与关联层级之间的关联信息带来的信息熵作为第一分类层级对应的第二损失。
示例性地,以第一分类层级为第k(k为不小于2且不大于K的整数)个分类层级、第一分类层级与关联层级之间的关联信息利用矩阵表示(也即关联信息为关联矩阵)为例,第一分类层级对应的第二损失基于公式8计算得到:
Figure BDA0003491626320000287
其中,lk表示第k个分类层级对应的第二损失;Ck-1表示基于样本图像x获取的第k个分类层级与关联层级之间的关联矩阵的列数;
Figure BDA0003491626320000291
表示在样本图像x的基础上获取的第k个分类层级与关联层级之间的关联矩阵中的第j列矩阵元素构成的列向量;<,>表示两个向量的点乘运算。
示例性地,参考获取第一分类层级对应的第二损失的方式,能够获取满足选取条件的各个分类层级对应的第二损失。然后基于第一损失以及满足选取条件的各个分类层级对应的第二损失,获取目标损失。
示例性地,基于第一损失以及满足选取条件的各个分类层级对应的第二损失,获取目标损失的过程为:基于满足选取条件的各个分类层级对应的第二损失,获取第三损失;基于第一损失和第三损失,获取目标损失。
示例性地,对于样本图像的数量为一个的情况,基于满足选取条件的各个分类层级对应的第二损失,获取第三损失的过程包括:将在该一个样本图像的基础上获取的满足选取条件的各个分类层级对应的第二损失之和(或加权和)作为第三损失。
示例性地,对于样本图像的数量为多个的情况,基于满足选取条件的各个分类层级对应的第二损失,获取第三损失的过程包括:将在任一样本图像的基础上获取的满足选取条件的各个分类层级对应的第二损失之和(或加权和)作为该任一样本图像对应的层级损失;将各个样本图像对应的层级损失之和(或加权和)作为第三损失。
示例性地,以满足选取条件的各个分类层级为除最细粒度的分类层级外的各个分类层级、样本图像的数量为N(N为不小于1的整数)个为例,第三损失基于公式9计算得到:
Figure BDA0003491626320000292
其中,LConf表示第三损失;
Figure BDA0003491626320000293
表示在第n个样本图像的基础上获取的第k个分类层级与关联层级之间的关联矩阵中的第j列矩阵元素构成的列向量。需要说明的是,对于基于公式9计算第三损失的情况,第三损失越大,说明关联信息带来的信息熵越大,也即对关联信息的正则化约束效果越好,也就是说,第三损失的优化目标为最大化。
基于公式9计算得到的第三损失能够对关联信息进行正则化约束,从而避免关联信息退化到平凡解上,还能够减轻基于交叉熵损失函数计算得到的第一损失带来的过度自信判读的问题。
在获取第三损失后,基于第三损失和第一损失,获取目标损失。本申请实施例对基于第三损失和第一损失获取目标损失的实现方式不加以限定。示例性地,目标损失的优化目标为最小化。
示例性地,以第一损失基于公式7计算得到,第三损失基于公式9计算得到的情况,目标损失基于公式10计算得到:
L=LCE+λLConf (公式10)
其中,L表示目标损失;LCE表示第一损失;LConf表示第三损失;λ表示超参数,用于平衡第一损失和第三损失。示例性地,由于基于公式9计算得到的第三损失的优化目标为最大化,所以λ为一个负数,以保证获取的目标损失的优化目标为最小化。示例性地,第一损失还可以称为交叉熵损失,第二损失还可以称为混淆正则损失。
在获取目标损失后,利用目标损失对图像分类模型进行训练,以得到目标图像分类模型。示例性地,利用目标损失对图像分类模型进行训练,得到目标图像分类模型的过程包括:利用目标损失反向更新一次图像分类模型的参数,得到更新后的图像分类模型;判断更新后的图像分类模型是否满足训练终止条件;若更新后的图像分类模型满足训练终止条件,则将更新后的图像分类模型作为目标图像分类模型。
若更新后的图像分类模型不满足训练终止条件,则基于步骤501至步骤503的方式获取新的目标损失,利用新的目标损失反向更新一次更新后的图像分类模型的参数,以此类推,直至得到满足训练终止条件的图像分类模型,将满足训练终止条件的图像分类模型作为目标图像分类模型。
训练终止条件根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。在示例性实施例中,图像分类模型满足训练终止条件包括但不限于以下任一种:获取图像分类模型时已经执行的参数更新次数(也可以称为迭代次数)达到最大迭代次数、获取图像分类模型所依据的目标损失收敛、获取图像分类模型所依据的目标损失小于损失阈值。最大迭代次数以及损失阈值根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。
示例性地,以图像分类模型的结构为图像分类模型包括分类模型和转移模型为例,对图像分类模型进行训练的过程依据下述算法实现。
Input:Training data D,batch size N,max iteration T//输入训练数据集D,批量大小N,最大迭代次数T
Output:Classification Network parametersωand Transition Networkparametersθ//输出分类模型的参数ω和转移模型的参数θ
1:Initialize the parametersωandθ.//初始化参数ω和参数θ
2:for t=1to T do//对于迭代次数不大于T的情况
3:
Figure BDA0003491626320000311
//从训练数据集D中提取N个训练数据,每个训练数据包括一个样本图像xn和该样本图像对应的标签yn
where
Figure BDA0003491626320000312
//样本图像对应的标签yn包括样本图像在K个分类层级下分别对应的分类标签
4:Forward to compute the prediction scores for the finest-grainedhierarchy,and compute the prediction scores of other coarser-grainedaccording to Eq.(5).//获取样本图像在最细粒度的分类层级下对应的分类结果,以及基于公式5获取样本图像在除最细粒度的分类层级外的其他分类层级下对应的分类结果
5:Updateωandθaccording to Eq.(10).//利用基于公式10计算得到的目标损失更新参数ω和参数θ
6:end for//结束
Return:optimal parametersω*andθ*//返回优化好的参数ω*和θ*
由具有上述优化好的参数ω*的分类模型和具有上述优化好的参数θ*的转移模型构成的图像分类模型即为训练好的目标图像分类模型。
在获取目标图像分类模型之后,可以调用目标图像分类模型,获取待进行结构化分类的目标图像在至少两个分类层级下分别对应的分类结果,该实现过程参见图2所示的实施例,此处不再加以赘述。
在本申请实施例提出一种基于关联矩阵(或称为转移矩阵)的深度学习结构化分类方法。该方法的图像分类模型包括两部分,第一部分是分类模型,第二部分是转移模型。首先用分类模型在最细粒度的分类层次进行分类,然后按照分类层级的结构逐渐学习下一分类层级与关联层级之间的关联矩阵,将图像在上一分类层级下对应的分类结果和关联矩阵结合就可以得到图像在下一分类层级下对应的分类结果。关联矩阵可以明确地建模不同分类层级之间的关联关系,从而可以更好地指导模型学习具有结构化标签的数据集。此外,本申请实施例对关联矩阵提出一种混淆损失的正则约束项,从而让模型进一步学习同一分类层级对应的候选类别之间的相互关系。
本申请实施例提供的方法可以应用于各种具有结构化类别的数据集分类上,如各种用于生物学分类的自然图像数据集,用于进行医学分类的医学图像数据集等。基于本申请实施例提供的方法,能够充分利用数据集中的结构化信息,能够更准确的确定在不同分类层级下归属的类别,同时减少预测错误的严重程度。
本申请实施例提供的图像分类模型的训练方法,样本图像在第一分类层级下对应的分类结果是基于样本图像在第一分类层级的关联层级下对应的分类结果和第一分类层级与关联层级之间的关联信息确定的,也就是说,在获取分类结果的过程中,不仅考虑了样本图像本身,还考虑了分类层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,从而提高图像分类模型的训练效果。
示例性地,本申请实施例提供的图像分类方法可以应用在医学领域,在医学领域,目标图像是指用于进行医学分类的图像,该用于进行医学分类的图像还可以称为医学图像;至少两个分类层级是指至少两个医学分类层级。
此种情况下,图像分类方法包括:获取医学图像;基于医学图像,获取第一医学分类层级与关联层级之间的关联信息;基于医学图像在关联层级下对应的分类结果以及关联信息,获取医学图像在第一医学分类层级下对应的分类结果。
其中,第一医学分类层级为至少两个医学分类层级中的满足选取条件的任一医学分类层级,关联层级为至少两个医学分类层级中与第一医学分类层级满足关联条件的医学分类层级。
上述图像分类方法的实现过程参见图2所示的实施例,此处不再赘述。
示例性地,本申请实施例提供的图像分类方法可以应用在生物学领域,在生物学领域,目标图像是指用于进行生物学分类的图像,该用于进行生物学分类的图像还可以称为生物学图像;至少两个分类层级是指至少两个生物学分类层级。
此种情况下,图像分类方法包括:获取生物学图像;基于生物学图像,获取第一生物学分类层级与关联层级之间的关联信息;基于生物学图像在关联层级下对应的分类结果以及关联信息,获取生物学图像在第一生物学分类层级下对应的分类结果。
其中,第一生物学分类层级为至少两个生物学分类层级中的满足选取条件的任一生物学分类层级,关联层级为至少两个生物学分类层级中与第一生物学分类层级满足关联条件的生物学分类层级。
上述图像分类方法的实现过程参见图2所示的实施例,此处不再赘述。
参见图7,本申请实施例提供了一种图像分类装置,该装置包括:
第一获取单元701,用于获取目标图像;
第二获取单元702,用于基于目标图像,获取第一分类层级与关联层级之间的关联信息;基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果;
其中,第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。
在一种可能实现方式中,第二获取单元702,用于基于目标图像,获取在目标图像归属关联层级对应的任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率;基于目标图像与第一分类层级对应的各个候选类别的匹配概率,获取第一分类层级与任一候选类别之间的关联子信息;基于第一分类层级分别与关联层级对应的各个候选类别之间的关联子信息,获取第一分类层级与关联层级之间的关联信息。
在一种可能实现方式中,第二获取单元702,用于对目标图像与第一分类层级对应的各个候选类别的匹配概率进行归一化处理,得到目标图像与第一分类层级对应的各个候选类别的归一化匹配概率;基于目标图像与第一分类层级对应的各个候选类别的归一化匹配概率,获取第一分类层级与任一候选类别之间的关联子信息。
在一种可能实现方式中,第二获取单元702,用于对目标图像进行特征提取,得到目标图像在第一分类层级下对应的图像特征;基于目标图像在第一分类层级下对应的图像特征,获取在目标图像归属任一候选类别的前提条件下,目标图像与第一分类层级对应的各个候选类别的匹配概率。
在一种可能实现方式中,不同的分类层级的粒度不同,与第一分类层级满足关联条件的分类层级为在粒度从细到粗的顺序下位于第一分类层级前参考数量位的分类层级。
在一种可能实现方式中,参考数量为一个,满足选取条件的分类层级为至少两个分类层级中除最细粒度的分类层级外的分类层级,第二获取单元702,还用于按照至少两个分类层级的粒度从细到粗的顺序,依次获取目标图像在至少两个分类层级下分别对应的分类结果。
在一种可能实现方式中,第二获取单元702,还用于对目标图像在最细粒度的分类层级下对应的图像特征进行分类,得到目标图像在最细粒度的分类层级下对应的分类结果。
在一种可能实现方式中,第二获取单元702,用于调用目标图像分类模型基于目标图像,获取第一分类层级与关联层级之间的关联信息;调用目标图像分类模型基于目标图像在关联层级下对应的分类结果以及关联信息,获取目标图像在第一分类层级下对应的分类结果。
在一种可能实现方式中,目标图像为用于进行生物学分类的图像,至少两个分类层级为至少两个生物学分类层级;或者,目标图像为用于进行医学分类的图像,至少两个分类层级为至少两个医学分类层级。
本申请实施例提供的图像分类装置,在获取目标图像在第一分类层级下分别对应的分类结果的过程中,不仅考虑了图像本身,还考虑了第一分类层级与关联层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,进而提高图像分类的准确性。
参见图8,本申请实施例提供了一种图像分类模型的训练装置,该装置包括:
第一获取单元801,用于获取样本图像和样本图像在至少两个分类层级下分别对应的分类标签;
第二获取单元802,用于调用图像分类模型获取样本图像在至少两个分类层级下分别对应的分类结果,样本图像在第一分类层级下对应的分类结果基于样本图像在关联层级下对应的分类结果以及第一分类层级与关联层级之间的关联信息获取;
第三获取单元803,用于基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取目标损失;
训练单元804,用于利用目标损失对图像分类模型进行训练,得到目标图像分类模型;
其中,第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,关联层级为至少两个分类层级中与第一分类层级满足关联条件的分类层级。
在一种可能实现方式中,第三获取单元803,用于基于样本图像在至少两个分类层级下分别对应的分类结果以及样本图像在至少两个分类层级下分别对应的分类标签,获取第一损失;基于第一分类层级与关联层级之间的关联信息,获取第一分类层级对应的第二损失;基于第一损失以及满足选取条件的各个分类层级对应的第二损失,获取目标损失。
在一种可能实现方式中,样本图像在至少两个分类层级下分别对应的分类标签从标签树中提取得到;该装置还包括:
构建单元,用于基于至少两个分类层级的粒度的排列顺序,以及各个已标注图像在至少两个分类层级下分别对应的分类标签,构建标签树,各个已标注图像包括样本图像。
本申请实施例提供的图像分类模型的训练装置,样本图像在第一分类层级下对应的分类结果是基于样本图像在第一分类层级的关联层级下对应的分类结果和第一分类层级与关联层级之间的关联信息确定的,也就是说,在获取分类结果的过程中,不仅考虑了样本图像本身,还考虑了分类层级之间的关联信息,考虑的信息较丰富,有利于提高分类结果的可靠性,从而提高图像分类模型的训练效果。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以使该计算机设备实现上述任一种图像分类方法或图像分类模型的训练方法。该计算机设备可以为服务器,也可以为终端。接下来,对服务器和终端的结构分别进行介绍。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)901和一个或多个存储器902,其中,该一个或多个存储器902中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器901加载并执行,以使该服务器实现上述各个方法实施例提供的图像分类方法或图像分类模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
图10是本申请实施例提供的一种终端的结构示意图。该终端可以是:PC、手机、智能手机、PDA、可穿戴设备、PPC、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行,以使该终端实现本申请中方法实施例提供的图像分类方法或图像分类模型的训练方法。
在一些实施例中,终端还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007和电源1008中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
电源1008用于为终端中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。当电源1008包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器1009。该一个或多个传感器1009包括但不限于:加速度传感器1010、陀螺仪传感器1011、压力传感器1012、光学传感器1013以及接近传感器1014。
加速度传感器1010可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1010可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1010采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1010还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1011可以检测终端的机体方向及转动角度,陀螺仪传感器1011可以与加速度传感器1010协同采集用户对终端的3D动作。处理器1001根据陀螺仪传感器1011采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1012可以设置在终端的侧边框和/或显示屏1005的下层。当压力传感器1012设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1001根据压力传感器1012采集的握持信号进行左右手识别或快捷操作。当压力传感器1012设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1013用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1013采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1013采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1014,也称距离传感器,通常设置在终端的前面板。接近传感器1014用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1014检测到用户与终端的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1014检测到用户与终端的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以使计算机实现上述任一种图像分类方法或图像分类模型的训练方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令由处理器加载并执行,以使计算机实现上述任一种图像分类方法或图像分类模型的训练方法。
需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以上示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种图像分类方法,其特征在于,所述方法包括:
获取目标图像;
基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;
基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果;
其中,所述第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像,获取第一分类层级与关联层级之间的关联信息,包括:
基于所述目标图像,获取在所述目标图像归属所述关联层级对应的任一候选类别的前提条件下,所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率;
基于所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率,获取所述第一分类层级与所述任一候选类别之间的关联子信息;
基于所述第一分类层级分别与所述关联层级对应的各个候选类别之间的关联子信息,获取所述第一分类层级与所述关联层级之间的关联信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率,获取所述第一分类层级与所述任一候选类别之间的关联子信息,包括:
对所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率进行归一化处理,得到所述目标图像与所述第一分类层级对应的各个候选类别的归一化匹配概率;
基于所述目标图像与所述第一分类层级对应的各个候选类别的归一化匹配概率,获取所述第一分类层级与所述任一候选类别之间的关联子信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标图像,获取在所述目标图像归属所述关联层级对应的任一候选类别的前提条件下,所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率,包括:
对所述目标图像进行特征提取,得到所述目标图像在所述第一分类层级下对应的图像特征;
基于所述目标图像在所述第一分类层级下对应的图像特征,获取在所述目标图像归属所述任一候选类别的前提条件下,所述目标图像与所述第一分类层级对应的各个候选类别的匹配概率。
5.根据权利要求1-4任一所述的方法,其特征在于,不同的分类层级的粒度不同,所述与所述第一分类层级满足关联条件的分类层级为在粒度从细到粗的顺序下位于所述第一分类层级前参考数量位的分类层级。
6.根据权利要求5所述的方法,其特征在于,所述参考数量为一个,所述满足选取条件的分类层级为所述至少两个分类层级中除最细粒度的分类层级外的分类层级,所述方法还包括:
按照所述至少两个分类层级的粒度从细到粗的顺序,依次获取所述目标图像在所述至少两个分类层级下分别对应的分类结果。
7.根据权利要求6所述的方法,其特征在于,所述按照所述至少两个分类层级的粒度从细到粗的顺序,依次获取所述目标图像在所述至少两个分类层级下分别对应的分类结果,包括:
对所述目标图像在所述最细粒度的分类层级下对应的图像特征进行分类,得到所述目标图像在所述最细粒度的分类层级下对应的分类结果。
8.根据权利要求1-4、6-7任一所述的方法,其特征在于,所述基于所述目标图像,获取第一分类层级与关联层级之间的关联信息,包括:
调用目标图像分类模型基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;
所述基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果,包括:
调用所述目标图像分类模型基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果。
9.根据权利要求1-4、6-7任一所述的方法,其特征在于,所述目标图像为用于进行生物学分类的图像,所述至少两个分类层级为至少两个生物学分类层级;或者,所述目标图像为用于进行医学分类的图像,所述至少两个分类层级为至少两个医学分类层级。
10.一种图像分类模型的训练方法,其特征在于,所述方法包括:
获取样本图像和所述样本图像在至少两个分类层级下分别对应的分类标签;
调用图像分类模型获取所述样本图像在所述至少两个分类层级下分别对应的分类结果,所述样本图像在第一分类层级下对应的分类结果基于所述样本图像在关联层级下对应的分类结果以及所述第一分类层级与所述关联层级之间的关联信息获取;
基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取目标损失;利用所述目标损失对所述图像分类模型进行训练,得到目标图像分类模型;
其中,所述第一分类层级为所述至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
11.根据权利要求10所述的方法,其特征在于,所述基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取目标损失,包括:
基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取第一损失;
基于所述第一分类层级与所述关联层级之间的关联信息,获取所述第一分类层级对应的第二损失;
基于所述第一损失以及满足选取条件的各个分类层级对应的第二损失,获取所述目标损失。
12.根据权利要求10或11所述的方法,其特征在于,所述样本图像在至少两个分类层级下分别对应的分类标签从标签树中提取得到;所述方法还包括:
基于所述至少两个分类层级的粒度的排列顺序,以及各个已标注图像在所述至少两个分类层级下分别对应的分类标签,构建所述标签树,所述各个已标注图像包括所述样本图像。
13.一种图像分类装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标图像;
第二获取单元,用于基于所述目标图像,获取第一分类层级与关联层级之间的关联信息;基于所述目标图像在所述关联层级下对应的分类结果以及所述关联信息,获取所述目标图像在所述第一分类层级下对应的分类结果;
其中,所述第一分类层级为至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
14.一种图像分类模型的训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取样本图像和所述样本图像在至少两个分类层级下分别对应的分类标签;
第二获取单元,用于调用图像分类模型获取所述样本图像在所述至少两个分类层级下分别对应的分类结果,所述样本图像在第一分类层级下对应的分类结果基于所述样本图像在关联层级下对应的分类结果以及所述第一分类层级与所述关联层级之间的关联信息获取;
第三获取单元,用于基于所述样本图像在所述至少两个分类层级下分别对应的分类结果以及所述样本图像在所述至少两个分类层级下分别对应的分类标签,获取目标损失;
训练单元,用于利用所述目标损失对所述图像分类模型进行训练,得到目标图像分类模型;
其中,所述第一分类层级为所述至少两个分类层级中的满足选取条件的任一分类层级,所述关联层级为所述至少两个分类层级中与所述第一分类层级满足关联条件的分类层级。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至9任一所述的图像分类方法,或者如权利要求10至12任一所述的图像分类模型的训练方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至9任一所述的图像分类方法,或者如权利要求10至12任一所述的图像分类模型的训练方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现如权利要求1至9任一所述的图像分类方法,或者如权利要求10至12任一所述的图像分类模型的训练方法。
CN202210097757.1A 2022-01-27 2022-01-27 图像分类、图像分类模型的训练方法、装置、设备及介质 Active CN114429567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210097757.1A CN114429567B (zh) 2022-01-27 2022-01-27 图像分类、图像分类模型的训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210097757.1A CN114429567B (zh) 2022-01-27 2022-01-27 图像分类、图像分类模型的训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114429567A true CN114429567A (zh) 2022-05-03
CN114429567B CN114429567B (zh) 2024-11-22

Family

ID=81313706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210097757.1A Active CN114429567B (zh) 2022-01-27 2022-01-27 图像分类、图像分类模型的训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114429567B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150078655A1 (en) * 2013-09-18 2015-03-19 Canon Kabushiki Kaisha Devices, systems, and methods for large-scale linear discriminant analysis of images
US20160307072A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained Image Classification by Exploring Bipartite-Graph Labels
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
US20190102658A1 (en) * 2017-10-03 2019-04-04 Institute For Information Industry Hierarchical image classification method and system
CN109685110A (zh) * 2018-11-28 2019-04-26 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
CN111814554A (zh) * 2020-06-09 2020-10-23 同济大学 基于粒度及关联信息的物体类别识别模型构建方法及应用
CN112088380A (zh) * 2018-06-07 2020-12-15 法弗人工智能有限公司 图像分割
CN113569895A (zh) * 2021-02-20 2021-10-29 腾讯科技(北京)有限公司 图像处理模型训练方法、处理方法、装置、设备及介质
CN113887581A (zh) * 2021-09-15 2022-01-04 广州小鹏自动驾驶科技有限公司 图像识别模型的训练方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150078655A1 (en) * 2013-09-18 2015-03-19 Canon Kabushiki Kaisha Devices, systems, and methods for large-scale linear discriminant analysis of images
US20160307072A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained Image Classification by Exploring Bipartite-Graph Labels
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
US20190102658A1 (en) * 2017-10-03 2019-04-04 Institute For Information Industry Hierarchical image classification method and system
CN112088380A (zh) * 2018-06-07 2020-12-15 法弗人工智能有限公司 图像分割
CN109685110A (zh) * 2018-11-28 2019-04-26 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
CN111814554A (zh) * 2020-06-09 2020-10-23 同济大学 基于粒度及关联信息的物体类别识别模型构建方法及应用
CN113569895A (zh) * 2021-02-20 2021-10-29 腾讯科技(北京)有限公司 图像处理模型训练方法、处理方法、装置、设备及介质
CN113887581A (zh) * 2021-09-15 2022-01-04 广州小鹏自动驾驶科技有限公司 图像识别模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIU-SHEN WEI ET AL.: "Fine-Grained Image Analysis With Deep Learning: A Survey", 《ARXIV:2111.06119V2 [CS.CV]》, 19 November 2021 (2021-11-19), pages 1 - 20 *
李红光等: "面向目标分类识别的多任务学习算法综述", 《航空学报》, 28 April 2021 (2021-04-28), pages 1 - 18 *

Also Published As

Publication number Publication date
CN114429567B (zh) 2024-11-22

Similar Documents

Publication Publication Date Title
CN111897964B (zh) 文本分类模型训练方法、装置、设备及存储介质
US20210264227A1 (en) Method for locating image region, model training method, and related apparatus
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN111368525B (zh) 信息搜索方法、装置、设备及存储介质
CN111552888A (zh) 内容推荐方法、装置、设备及存储介质
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN113392180A (zh) 文本处理方法、装置、设备及存储介质
CN115223248A (zh) 手部姿态识别方法、手部姿态识别模型的训练方法及装置
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN115168643A (zh) 音频处理方法、装置、设备及计算机可读存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN114282587A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114757247B (zh) 分类预测模型的训练方法、分类预测方法、装置和设备
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
CN117011571A (zh) 图像分类模型的训练方法、装置及设备
CN114399030B (zh) 推荐模型的训练方法、媒体信息推荐方法、装置及设备
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN111737415B (zh) 实体关系抽取方法、实体关系学习模型的获取方法及设备
CN114281937A (zh) 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置
CN112527104A (zh) 确定参数确定方法、装置、设备及存储介质
CN114429567B (zh) 图像分类、图像分类模型的训练方法、装置、设备及介质
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备
HK40071027B (zh) 图像分类、图像分类模型的训练方法、装置、设备及介质
HK40071027A (zh) 图像分类、图像分类模型的训练方法、装置、设备及介质
US20250322276A1 (en) Model interpretability information generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071027

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant