[go: up one dir, main page]

CN107851198A - 媒体分类 - Google Patents

媒体分类 Download PDF

Info

Publication number
CN107851198A
CN107851198A CN201680044503.6A CN201680044503A CN107851198A CN 107851198 A CN107851198 A CN 107851198A CN 201680044503 A CN201680044503 A CN 201680044503A CN 107851198 A CN107851198 A CN 107851198A
Authority
CN
China
Prior art keywords
value
recall
score
precision
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680044503.6A
Other languages
English (en)
Inventor
H·T·塔德塞
A·查克拉博蒂
D·J·朱利安
H·M·斯托克曼
O·德罗伊
K·E·A·范德桑德
V·S·R·安纳普莱蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107851198A publication Critical patent/CN107851198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7796Active pattern-learning, e.g. online learning of image or video features based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

通过确定阈值和/或缩放因子来改进多标记分类。选择用于多标记分类的阈值包括:对与第一标记相关联的一组标记得分进行排序以创建经排序列表。从各得分值计算出对应于一组候选阈值的精确率值和召回率值。基于目标精确率值或召回率值来从这些候选阈值中为第一标记选择阈值。还为用于多标记分类的激活函数选择缩放因子,其中计算一范围内的得分度量。在得分度量不在该范围内时调节该缩放因子。

Description

媒体分类
相关申请的交叉引用
本申请要求于2015年7月31日提交的题为“MEDIA CLASSIFICATION(媒体分类)”的美国临时专利申请No.62/199,865的权益,其公开内容通过援引全部明确纳入于此。
背景
领域
本公开的某些方面一般涉及机器学习,尤其涉及改进用于媒体分类且具体而言用于标记媒体文件(包括图片文件)的系统和方法。
背景技术
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。
深度学习架构(诸如深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,依此类推。深度神经网络可被训练以识别特征阶层并且因此它们已被越来越多地用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播微调。
其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学习工具。支持向量机包括对数据进行归类的分离超平面(例如,决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的裕量。换言之,超平面应该具有到训练示例的最大的最小距离。
尽管这些解决方案在数个分类基准上达到了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。
概述
在一个方面,公开了一种选择用于多标记分类的阈值的方法。该方法包括:对与第一标记相关联的一组标记得分进行排序以创建经排序列表。该方法还包括:从多个得分值计算出对应于一组候选阈值的精确率值和召回率值。该方法还包括:至少部分地基于目标精确率值或目标召回率值来从这些候选阈值中为第一标记选择阈值。
另一方面公开了一种为用于多标记分类的激活函数选择缩放因子的方法。该方法包括:计算一范围内的得分度量;以及在得分度量不在该范围内时该调节该缩放因子。
在另一方面,公开了一种用于在无线通信中选择用于多标记分类的阈值的设备。该设备包括:用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表的装置。该设备还包括:用于从多个得分值计算出对应于一组候选阈值的精确率值和召回率值的装置。该设备还包括:用于至少部分地基于目标精确率值或目标召回率值来从这些候选阈值中为第一标记选择阈值的装置。
另一方面公开了一种用于为用于多标记分类的激活函数选择缩放因子的设备。该设备包括:用于计算一范围内的得分度量的装置;以及用于在得分度量不在该范围内时调节该缩放因子的装置。
在另一方面,公开了一种用于在无线通信中选择用于多标记分类的阈值的装置。该装置具有存储器以及耦合到该存储器的至少一个处理器。该(些)处理器被配置成:对与第一标记相关联的一组标记得分进行排序以创建经排序列表。该(些)处理器还被配置成:从多个得分值计算出对应于一组候选阈值的精确率值和召回率值。该(些)处理器还被配置成:至少部分地基于目标精确率值或目标召回率值来从这些候选阈值中为第一标记选择阈值。
另一方面公开了一种用于在无线通信中为激活函数选择缩放因子的装置。该装置具有存储器以及耦合到该存储器的至少一个处理器。该(些)处理器被配置成:计算一范围内的得分度量;以及在得分度量不在该范围内时调节该缩放因子。
在另一方面,公开了一种用于选择用于多标记分类的阈值的非瞬态计算机可读介质。该非瞬态计算机可读介质在其上记录有非瞬态程序代码,这些程序代码在由(诸)处理器执行时使该(些)处理器执行对与第一标记相关联的一组标记得分进行排序以创建经排序列表的操作。该程序代码还使该(些)处理器从多个得分值计算出对应于一组候选阈值的精确率值和召回率值。该程序代码还使该(些)处理器至少部分地基于目标精确率值或目标召回率值来从这些候选阈值中为第一标记选择阈值。
另一方面公开了一种用于为激活函数选择缩放因子的非瞬态计算机可读介质。该计算机可读介质在其上记录有非瞬态程序代码,这些程序代码在由(诸)处理器执行时使该(些)处理器执行计算一范围内的得分度量并在得分度量不在该范围内时调节该缩放因子。
这已较宽泛地勾勒出本公开的特征和技术优势以便下面的详细描述可以被更好地理解。本公开的附加特征和优点将在下文描述。本领域技术人员应该领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简要说明
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。
图2解说了根据本公开的各方面的系统的示例实现。
图3A是解说根据本公开的各方面的神经网络的示图。
图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图4是解说根据本公开的各方面的可将人工智能(AI)功能模块化的示例性软件架构的框图。
图5是解说根据本公开的各方面的智能手机上的AI应用的运行时操作的框图。
图6是解说示例性二进制分类过程的框图。
图7是解说精确率和召回率的概念的示图。
图8A是解说根据本公开的各方面的分类过程的总体示例的示图。
图8B是解说根据本公开的各方面的分类过程的示例性斜率选择函数的框图。
图8C是解说根据本公开的各方面的分类过程的示例性阈值选择函数的框图。
图9是解说根据本公开的各方面的针对标记的得分的曲线图。
图10是解说根据本公开的各方面的利用F量度的阈值选择的曲线图。
图11是解说根据本公开的各方面的用于选择用于多标记分类的阈值的方法的流程图。
图12是解说根据本公开的各方面的用于为激活函数选择缩放因子的方法的流程图。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
本公开的各方面涉及用于标记媒体文件的系统和方法。媒体文件的数据库可将每个所存储媒体文件与一个或多个标记进行关联。此外,函数基于媒体文件来针对每个标记计算得分。例如,对于湖中的船的照片,该函数可针对标记“船”和“湖”计算出高得分,并且可针对数据库中的其余标记(例如,“汽车”和“仓房”)计算出低得分。该函数可以是神经网络,并且这些得分可以是该神经网络的输出层的激活水平。
本公开的一个方面涉及一种在逐标记基础上选择用于标记系统的分类器阈值的方法。对于湖中的船的图像的示例,计算出的“船”的得分可以为0.8,而“湖”的得分可以为0.9。可以分开地确定:数据库中实际上其中有船(并被如此标记)的图像可靠地具有为0.6或更高的得分,并且其中包含湖(并被如此标记)的图像可靠地具有为0.8或更高的得分。这意味着,数据库中函数(神经网络)针对“湖”计算得分为0.7的图像多半不包含湖,而具有针对“船”计算出得分为0.7的图像多半包含船。关于数据库的这些信息可随后被应用于在每标记基础上为分类器系统设定不同的阈值。在该示例中,关于“船”的阈值可被设定在0.6,而关于“湖”的阈值可被设定在0.8。
本公开的另一方面涉及对神经网络的最终层中的得分的计算的修改。跨图像的数据库,原始函数(神经网络)可以针对给定标记计算一组得分,其可被表征为具有非常窄的分布。例如,所有值可在允许范围在-1.0和1.0之间时落在0.7和0.9之间。由于这一点,以上所公开的阈值设定操作可能不能向新图像提供足够的泛化。例如,如果湖的图像趋于被评分在0.8-0.9的值,但是不包含湖的图像针对湖已频繁地计算出0.75-0.79之间的得分,则标记系统的性能将对阈值在0.8处的准确放置非常敏感。
此外,函数(神经网络)可能被预期因图像的正常变动而对新的包含湖的图像计算出刚好低于0.8的得分。类似地,不包含湖的新图像可能有计算出的刚好高于0.8的得分。因此,将关于“湖”的阈值设定在0.8可能产生许多假否定和假肯定结果。为了缓解这种敏感性,本公开的各方面涉及对神经网络的最终层的激活函数的修改。作为这种修改的结果,给定标记的得分的分布可跨诸图像的分布具有更宽、更均匀的分布。本公开的各方面提供了改进的泛化,因为计算出的肯定和否定示例的得分可以更展布开。
图1解说了根据本公开的某些方面的使用片上系统(SOC)100进行前述的媒体文件标记的示例实现,SOC 100可包括通用处理器(CPU)或多核通用处理器(CPU)102。变量(例如,神经信号和突触权重)、与计算设备相关联的系统参数(例如,带有权重的神经网络)、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU 102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、专用存储器块118中,或可跨多个块分布。在通用处理器102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。
SOC 100还可包括为具体功能定制的附加处理块(诸如GPU 104、DSP 106、连通性块110(其可包括第四代长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一种实现中,NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)、和/或导航120(其可包括全球定位系统)。
SOC可基于ARM指令集。在本公开的某些方面,指令被加载到至少一个处理器(诸如通用处理器102)中,该至少一个处理器被耦合到存储器。这些指令可包括:用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表的代码。被加载到通用处理器102中的这些指令还可包括:用于从一组得分值计算出对应于一组候选阈值的精确率值和召回率值的代码。另外,被加载到通用处理器102中的这些指令还可包括:用于基于目标精确率值或目标召回率值来从这些候选阈值中为第一标记选择阈值的代码。
在本公开的另一方面,被加载到通用处理器102中的这些指令可包括:用于计算一范围内的得分度量的代码。另外,被加载到通用处理器102中的这些指令可包括:用于在得分度量不在该范围内时调节该缩放因子的代码。
图2解说了根据本公开的某些方面的系统200的示例实现。如图2中所解说的,系统200可具有可执行本文所描述的方法的各种操作的多个局部处理单元202。每个局部处理单元202可包括局部状态存储器204和可存储神经网络的参数的局部参数存储器206。另外,局部处理单元202可具有用于存储局部模型程序的局部(神经元)模型程序(LMP)存储器208、用于存储局部学习程序的局部学习程序(LLP)存储器210、以及局部连接存储器212。此外,如图2中所解说的,每个局部处理单元202可与用于为该局部处理单元的各局部存储器提供配置的配置处理器单元214对接,并且与提供各局部处理单元202之间的路由的路由连接处理单元216对接。
深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征,或许与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反,深度学习架构可学习以表示与人类工程师可能会设计的相似的特征,但它是通过训练来学习的。此外,深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习去识别输入流中的简单特征(诸如边)。如果向第一层呈递听觉数据,则第一层可学习去识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。更高层可学习去表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动交通工具的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式来组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出被传达给相同层中的另一神经元。递归架构可有助于识别在时间上展开的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
参照图3A,神经网络的各层之间的连接可以是全连接的(302)或局部连接的(304)。在全连接网络302中,给定层中的神经元可以将其输出传达给下一层中的每一神经元。替换地,在局部连接网络304中,给定层中的神经元可连接至下一层中有限数目的神经元。卷积网络306可以是局部连接的,并且进一步是其中与给定层中的每个神经元相关联的连接强度被共享的特殊情形(例如,308)。更一般化地,网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,310、312、314和316)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如,被设计成识别来自车载相机的视觉特征的网络300可发展具有不同性质的高层神经元,这取决于它们与图像下部关联还是与图像上部关联。例如,与图像下部相关联的神经元可学习以识别车道标记,而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。
DCN可以用受监督式学习来训练。在训练期间,DCN可被呈递图像326(诸如限速标志的经剪裁图像),并且可随后计算“前向传递(forward pass)”以产生输出328。输出328可以是对应于特征(诸如“标志”、“60”、和“100)的值向量。”网络设计者可能希望DCN在输出特征向量中针对其中一些神经元输出高得分,例如与经训练的网络300的输出328中所示的“标志”和“60”对应的那些神经元。在训练之前,DCN产生的输出很可能是不正确的,并且由此可计算实际输出与目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标更紧密地对准。
为了正当地调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的反向传递(“backward pass”)。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,DCN可被呈递新图像326并且在网络中的前向传递可产生输出328,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。
深卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的,其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层318、320以及322中形成特征图,该特征图(例如,320)中的每个元素从先前层(例如,318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步来处理。来自毗邻神经元的值可被进一步池化324(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的泛化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图3B是解说示例性深度卷积网络350的框图。深卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3B所示,该示例性深度卷积网络350包括多个卷积块(例如,C1和C2)。每个卷积块可配置有卷积层、归一化层(LNorm)、和池化层。卷积层可包括一个或多个卷积滤波器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块,但本公开不限于此,而是,根据设计偏好,任何数目的卷积块可被包括在深度卷积网络350中。归一化层可被用于对卷积滤波器的输出进行归一化。例如,归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。
例如,深度卷积网络的平行滤波器组可任选地基于ARM指令集被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中,平行滤波器组可被加载到SOC 100的DSP 106或ISP 116上。另外,DCN可访问其他可存在于SOC上的处理块,诸如专用于传感器114和导航120的处理块。
深卷积网络350还可包括一个或多个全连接层(例如,FC1和FC2)。深卷积网络350可进一步包括逻辑回归(LR)层。深卷积网络350的每一层之间是要被更新的权重(未示出)。每一层的输出可以用作深卷积网络350中后续层的输入以从第一卷积块C1处提供的输入数据(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。
图4是解说可使人工智能(AI)功能模块化的示例性软件架构400的框图。使用该架构,应用402可被设计成可使得SOC 420的各种处理块(例如CPU 422、DSP 424、GPU 426和/或NPU 428)在该应用402的运行时操作期间执行支持计算。
AI应用402可配置成调用在用户空间404中定义的功能,例如,这些功能可提供对指示该设备当前操作位置的场景的检测和识别。例如,AI应用402可取决于识别出的场景是办公室、报告厅、餐馆、还是室外环境(诸如湖泊)而以不同方式配置话筒和相机。AI应用402可向与在场景检测应用编程接口(API)406中定义的库相关联的经编译程序代码作出请求以提供对当前场景的估计。该请求可最终依赖于配置成基于例如视频和定位数据来提供场景估计的深度神经网络的输出。
运行时引擎408(其可以是运行时框架的经编译代码)可进一步可由AI应用402访问。例如,AI应用402可使得运行时引擎请求以特定时间间隔的场景估计或由应用的用户接口检测到的事件触发的场景估计。在使得运行时引擎估计场景时,运行时引擎可进而发送信号给在SOC 420上运行的操作系统410(诸如Linux内核412)。操作系统410进而可使得在CPU 422、DSP 424、GPU426、NPU 428、或其某种组合上执行计算。CPU 422可被操作系统直接访问,而其他处理块可通过驱动器(诸如用于DSP 424、GPU 426、或NPU 428的驱动器414-418)被访问。在示例性示例中,深度神经网络可被配置成在处理块的组合(诸如CPU 422和GPU 426)上运行,或可在NPU 428(如果存在的话)上运行。
图5是解说智能手机502上的AI应用的运行时操作500的框图。AI应用可包括预处理模块504,该预处理模块504可被配置(例如,使用JAVA编程语言被配置)成转换图像506的格式并随后对该图像进行剪裁和/或调整大小(508)。经预处理的图像可接着被传达给分类应用510,该分类应用510包含场景检测后端引擎512,该场景检测后端引擎512可以被(例如,使用C编程语言)配置成基于视觉输入来检测和分类场景。场景检测后端引擎512可被配置成进一步通过缩放(516)和剪裁(518)来预处理(514)该图像。例如,该图像可被缩放和剪裁以使所得到的图像是224像素×224像素。这些维度可映射到神经网络的输入维度。神经网络可由深度神经网络块520配置以使得SOC100的各种处理块进一步借助深度神经网络来处理图像像素。深度神经网络的结果可随后被取阈(522)并被传递通过分类应用510中的指数平滑块524。经平滑的结果可接着使得智能手机502的设置和/或显示改变。
用于分类的缩放因子和阈值选择
本公开的各方面涉及媒体分类且具体而言用于标记媒体文件(包括图片文件)。各方面涉及二进制和多标记分类。具体而言,在一解说性示例中,三个单独的样本图像包含着不同颜色的足球。第一图像仅包含蓝色足球,第二图像仅包含绿色足球,而第三图像仅包含红色的足球。每个图像可基于该图像中的足球的颜色来标记。这一指派标记的过程被称为分类。在另一情形中,单个图像包含若干种颜色的足球。对于相同的任务,该图像使用多种颜色来标记。这被称为多标记分类。
在机器学习中,分类器提供每个标记的得分和决策函数。该决策函数检查该得分是否在某一阈值以上。对于单标记分类器,考虑所有标记的得分来确定哪个标记是正确的。
对于多标记分类,每个标记都可能是正确的,而不论其他标记的得分如何。因此,这些阈值对于确定哪些标记属于一对象而言是关键的。使用输出具有非常高得分的假肯定或者具有非常低得分的假否定的分类器来工作使得找到正确阈值的问题变得困难。本公开的各方面涉及改进用于分类的缩放因子和阈值选择。
图6是解说二进制分类过程的示例流程图600。在一个示例中,分类过程包括训练阶段601以及预测阶段602。在训练阶段601,图像被输入到特征提取器610中。本领域技术人员将领会,任何类型的多媒体文件(包括声音或图像)可被输入到特征提取器中。在该解说性示例中,每个图像都被传递通过特征提取器610以获得该图像的特征和分类。在该示例中,该图像的二进制分类被获得。该二进制分类可以是肯定响应或否定响应。替换地,该输出可以是“是”或“否”标记。学习函数612学习特定训练概念或元素的特征。
接着,在预测阶段602,该图像被传递通过特征提取器620。各特征被馈送到分类器622,并且基于由学习函数612利用的学习模型,分类器622输出得分。决策函数624接收该得分。在一个方面,决策函数624确定该得分是大于还是小于0。当该得分大于0时,且阈值为0(或没有阈值)时,输出为“是”。否则,该输出为“否”。该决策函数可以基于由二进制分类器利用的全局阈值(例如,0)。
附加准则(诸如精确率和召回率)可被用于确定分类器的性能。精确率是真肯定的数目(例如,项目被正确地标记为属于肯定分类的数目)除以被标记为属于肯定分类的元素的总数(例如,真肯定和假肯定的总和,这些假肯定是被不正确地标记为属于该分类的项目)。召回率是真肯定的数目除以实际上属于肯定分类的元素的总数(例如,真肯定和假否定的总和,这些假否定是没有被标记为属于肯定分类、但本应被标记为属于肯定分类的项目)。图7解说了精确率和召回率的概念、以及F量度(F measure)公式(其基于精确率和召回率)。
以下是媒体分类的解说性示例。机器被配置成执行标记样本图像中的足球的任务。具体而言,该机器利用分类器,该分类器将图像取为输入并针对该图像输出标记(例如,颜色)的列表。在该示例中,该机器被给予三个具有蓝色球的图像、三个具有绿色球的图像、以及四个具有红色球的图像。该分类器将标记'红色'仅输出给这些图像中的两个具有红色球的图像,并错误地输出给一具有绿色球的图像。精确率是被正确地标记为'红色'的图像的数目除以被标记为'红色'的图像的总数。在该示例中,标记'红色'的精确率为2/3。召回率是被正确地标记为红色的图像的数目除以本应当被标记为'红色'的图像的总数。在先前示例中,召回率为2/4=1/2。
最优阈值是精确率和召回率两者都为1的一个阈值。这很少发生,因为假肯定和假否定影响了准确度。精确率和召回率在被指派给一标记的对象的数目等于应当被指派给该标记的对象的数目时是相等的。在先前示例中,将四个图像标记为'红色'将使精确率和召回率相等。标记多于四个图像将最有可能减小精确率,因为将更有可能将错误的图像标记为红色。标记少于四个图像将可能减小召回率,因为这将在经正确标记的图像被移除的情况下减小分子。因此,在精确率与召回率之间存在折衷。换言之,更高的精确率是以召回率为代价来获得的,反之亦然。
图8A是解说根据本公开的各方面的分类过程800的总体示例的框图。该分类过程包括训练阶段801以及预测阶段802。在训练阶段801,特征提取器810接收每个图像和/或媒体文件,并输出收到图像的特征和二进制分类。学习函数812学习特定训练概念或元素的具体特征。
在预测阶段802,特征提取器820接收每个图像,并将该图像的特征输出给分类器822。基于收到特征和训练模型,分类器822将原始得分输出给激活函数824。激活函数824将该得分归一化以落入某一范围内,例如,该范围可以在0与1之间,或者在1和-1之间的范围中。附加地,斜率选择函数830确定供激活函数824使用的缩放因子(例如,斜率)。可以改变各个参数以影响供激活函数824使用的因子(将在以下讨论)。激活函数824可以是logistic函数、tan-h函数、或线性归一化函数。
由激活函数824输出的经归一化得分由决策函数826接收。阈值选择函数840确定供决策函数826使用的阈值。在一些方面,阈值选择函数840确定除零以外的阈值。将在以下更详细地讨论阈值选择函数840。
图8B解说了斜率选择函数830的示例。斜率选择函数830使用图像数据集来针对特定概念/标记创建原始得分的列表。为了获得期望的得分分布,斜率选择函数830确定缩放因子(例如,斜率)。具体而言,提供来自图像数据库的原始得分832。将激活函数833应用于原始得分832。随后在框835对这些得分进行排序。在一个示例中,还对经排序得分作曲线图。在框837,计算位于一特定范围内的得分百分比。另外,还建立目标百分比。该目标百分比指示位于某一值范围内的图像百分数。一旦该目标百分比被满足,缩放因子838就被设为产生该数目的在该范围内的图像的量。例如,如果该目标百分比为90%,则一旦90%的图像位于特定范围内,缩放因子838就被设为给出该量的在该范围内的图像的值。
另外,在该目标百分比不被满足时,调节缩放因子。例如,可以在框839将该缩放因子递增地调节值α。在框833,经调节的缩放因子836由激活函数来应用,并且该过程被重复。缩放因子被重复地递增地调节,直到达到目标百分比。在另一方面,斜率选择函数830利用目标斜率,而非目标百分比。例如,特定斜率可以“a”与“b”之间的范围为目标。任选地,在另一方面,并非递增缩放因子,交替搜索功能可以通过定义最小和最大缩放因子来利用。具体而言,例如,缩放因子可以通过将最小缩放因子与最大缩放因子之差除以2来调节以确定新缩放因子。在另一任选方面,在迭代遍历不同缩放因子时,仅使用范围端点。另外,在另一方面,缩放因子可以通过使用范围端点处的激活函数的倒数来近似。
如图8C中所示,阈值选择函数840可被用来调节阈值。改进的准确度可以通过将阈值调节到除零以外的值来观察到。另外,精确率与召回率之间的折衷可以通过调节阈值来实现。例如,可以调节该阈值来以召回率为代价获得期望精确率,反之亦然。此外,调节该阈值移除了周围环境的值(反映图像中在感兴趣的具体对象周围的对象)。例如,如果图像包含以蓝天为背景的草坪上的树和椅子,则可以训练分类器来将树、草和天空看作共同的周围环境。调节阈值移除与树和草相关联的周围环境值,从而允许与椅子相关联的值。
在一个方面,该阈值可以通过对每个标记的得分进行排序、在进行排序之后计算精确率和召回率、以及随后执行计算以选择阈值来确定。图8C解说了确定阈值的阈值选择函数840的示例。首先,对于特定标记,获得所有输入的经归一化得分。排序函数842对经归一化得分进行排序并且可任选地创建经排序列表。例如,这些得分可以按降序来排序。使用经排序的得分列表,计算函数844通过以每个得分为阈值来计算精确率和召回率。换言之,针对对应的一组候选阈值中的每一者计算精确率值和召回率值。可随后从这些候选阈值之中选择阈值。这种选择可至少部分地基于目标精确率值和/或目标召回率值。
替换地,并非使用每个得分,而是可以使用连贯得分的平均值作为所设定阈值。在计算出精确率和召回率之后,基于该精确率和召回率,由选择函数846选择阈值。该选择函数分析阈值及相关联的精确率值和/或召回率值的组合。
替换地,在另一方面,阈值可以基于对应于最大F得分(F-score)的值。这可能例如在不存在精确率值在目标精确率以上的值时、在召回率值在目标召回率值以上时、或者在精确率或召回率在精确率值的目标被满足时过低时发生。附加地,该阈值可以基于使用倾向于精确率或召回率的β值的F得分来选择。
图9是解说具体标记(例如,“天空”)的得分的曲线图900。分类器可被训练成学习图像中的不同概念。使数千个图像运行通过分类器,'天空'的经排序和经归一化的得分在线901处被示出。每个得分具有-1.0与1.0之间的可能值。精确率和召回率随后被计算出并分别在线902和903处标绘。精确率线902和召回率线903在曲线图的右侧上的0.0到1.0的不同标度上。线904是阈值线。线904指示所选阈值,其是虚线与经排序得分线901相交处的分类器得分。沿线901的每个得分可被选作候选阈值,并且分析垂直阈值线(例如,904)来确定该候选阈值的精确率和召回率。
可以使用各种方法来选择该阈值,诸如但不限于目标精确率和最大F量度例如,在目标精确率中,选择精确率刚好在该目标精确率以上的得分。例如,该阈值可以通过以90%的精确率为目标来选择。
在一些场景中,该阈值可能不满足目标百分比,并且利用回退方法。例如,图8C的F量度函数848可以利用F量度公式,并且基于对应于最大F得分的值来选择阈值。该F量度公式如下:
其中i是图像计数。计算argmax(Fβ)来确定得分列表的索引。该位置处的得分便是阈值。β(beta)参数提供了倾向于召回率或精确率的一种方式。在β大于1(β>1)时,更多的强调被放在召回率上。调节F量度提供关于精确率和/或召回率的反馈。替换地,可以操纵F量度公式中的β值来影响精确率值或召回率值。图10是解说使用F量度的阈值选择的曲线图1000。线1005、1006和1007是使用F量度的不同β值的结果。
任选地,在一替换方面,利用偏置值,而非阈值。具体而言,并非使用阈值,而是这些阈值可以通过添加偏置或者通过基于这些阈值来对得分进行归一化来被嵌入到这些得分中。另外,在一任选方面,并非使用实际得分,而是每概念的得分可被编码,以使得这些得分不表示每个概念的得分。
在另一种配置中,模型被配置成用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表。该模型还被配置成用于从一组得分值(例如,多个得分值)计算对应于一组候选阈值的精确率值和召回率值。附加地,该模型被配置成用于基于目标精确率或目标召回率来从这些候选阈值中为第一标记选择阈值。该模型包括用于排序的装置、用于计算的装置、和/或用于选择的装置。在一个方面,该排序装置、计算装置、和/或选择装置可以是被配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一种配置中,前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何装置。
在另一种配置中,模型被配置成用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表。该模型还被配置成用于计算一范围内的得分度量并被配置成用于在得分度量不在该范围内时调节缩放因子。该模型包括用于计算度量的装置和/或用于调节的装置。在一个方面,该度量计算装置和/或调节装置可以是被配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一种配置中,前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何装置。
附加地,该模型还可包括用于递增缩放因子的装置和/或用于划分的装置。在一个方面,该递增装置和划分装置可以是被配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一种配置中,前述装置可以是被配置成执行由前述装置所叙述的功能的任何模块或任何装置。
根据本公开的某些方面,每个局部处理单元202可被配置成基于网络的一个或多个期望功能特征来确定网络的参数,以及随着所确定的参数被进一步适配、调谐和更新来使这一个或多个功能特征朝着期望的功能特征发展。
图11解说了用于选择用于多标记分类的阈值的方法1100。在框1102,该过程对与第一标记相关联的一组标记得分进行排序以创建经排序列表。在框1104,该过程从一组得分值计算出对应于一组候选阈值的精确率值和召回率值。此外,在框1106,该过程基于目标精确率或目标召回率来从这些候选阈值中为第一标记选择阈值。
图12解说了用于为激活函数选择缩放因子的方法1200。在框1202,该过程计算一范围内的得分度量。在框1204,该过程在得分度量不在该范围内时调节缩放因子。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或其他数据结构中查找)、探知及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外,“确定”可包括解析、选择、选取、确立及类似动作。
如本文中所使用的,引述一列项目中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其它此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM等。软件模块可包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。
本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束,总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可被用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆等)也可被连接至总线。总线还可链接各种其他电路(诸如定时源、外围设备、稳压器、功率管理电路等),这些电路在本领域中是众所周知的,因此将不再赘述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理系统中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理系统外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或补充地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算系统的一部分。
处理系统可以被配置为通用处理系统,该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路系统链接在一起。替换地,该处理系统可以包括一个或多个神经元形态处理器以用于实现本文所述的神经元模型和神经系统模型。作为另一替换方案,处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。
机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。随后可将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。
如果在软件中实现,则各功能可以作为一条或更多条指令或代码存储在非瞬态计算机可读介质上或在其上进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可包括瞬态计算机可读介质(例如,信号)。上述的组合应当也被包括在计算机可读介质的范围内。
因此,某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如,此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地,本文所述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供,以使得一旦将该存储装置耦合至或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供本文所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims (32)

1.一种选择用于多标记分类的阈值的方法,包括:
对与第一标记相关联的一组标记得分进行排序以创建经排序列表;
从多个得分值计算对应于一组候选阈值的精确率值和召回率值;以及
至少部分地基于目标精确率值或目标召回率值来从所述候选阈值中为所述第一标记选择阈值。
2.如权利要求1所述的方法,其特征在于,所述阈值在以下任一情况下至少部分地基于对应于最大F得分的值:
不存在精确率值在所述目标精确率值以上或召回率值在所述目标召回率值以上的值;或者
所述精确率值在目标召回率值被满足时过低或所述召回率值在所述目标精确率值被满足时过低。
3.如权利要求2所述的方法,其特征在于,所述选择至少部分地基于使用倾向于精确率或召回率的β值的F得分。
4.一种为用于多标记分类的激活函数选择缩放因子的方法,包括:
计算一范围内的得分度量;以及
在所述得分度量不在所述范围内时调节所述缩放因子。
5.如权利要求4所述的方法,其特征在于,所述激活函数包括logistic函数、tan-h函数、或线性归一化函数。
6.如权利要求4所述的方法,其特征在于,所述得分度量包括百分比。
7.如权利要求4所述的方法,其特征在于,所述得分度量包括斜率。
8.如权利要求4所述的方法,其特征在于,调节所述缩放因子包括以下操作之一:
将所述缩放因子递增一值;以及
将最小缩放因子与最大缩放因子之差除以2。
9.一种用于在无线通信中选择用于多标记分类的阈值的装置,包括:
存储器;以及
耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:
对与第一标记相关联的一组标记得分进行排序以创建经排序列表;
从多个得分值计算出对应于一组候选阈值的精确率值和召回率值;以及
至少部分地基于目标精确率值或目标召回率值来从所述候选阈值中为所述第一标记选择阈值。
10.如权利要求9所述的装置,其特征在于,所述阈值在以下任一情况下至少部分地基于对应于最大F得分的值:
不存在精确率值在所述目标精确率值以上或召回率值在所述目标召回率值以上的值;或者
所述精确率值在目标召回率值被满足时过低或所述召回率值在所述目标精确率值被满足时过低。
11.如权利要求10所述的装置,其特征在于,所述至少一个处理器被配置成至少部分地基于使用倾向于精确率或召回率的β值的F得分来选择。
12.一种用于在无线通信中为激活函数选择缩放因子的装置,包括:
存储器;以及
耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置成:
计算一范围内的得分度量;以及
在所述得分度量不在所述范围内时调节所述缩放因子。
13.如权利要求12所述的装置,其特征在于,所述激活函数包括logistic函数、tan-h函数、或线性归一化函数。
14.如权利要求12所述的装置,其特征在于,所述得分度量包括百分比。
15.如权利要求12所述的装置,其特征在于,所述得分度量包括斜率。
16.如权利要求12所述的装置,其特征在于,所述至少一个处理器被配置成通过以下操作中的至少一者来调节所述缩放因子:
将所述缩放因子递增一值;以及
将最小缩放因子与最大缩放因子之差除以2。
17.一种用于选择用于多标记分类的阈值的非瞬态计算机可读介质,所述非瞬态计算机可读介质在其上记录有非瞬态程序代码,所述程序代码包括:
用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表的程序代码;
用于从多个得分值计算出对应于一组候选阈值的精确率值和召回率值的程序代码;以及
用于至少部分地基于目标精确率值或目标召回率值来从所述候选阈值中为所述第一标记选择阈值的程序代码。
18.如权利要求17所述的非瞬态计算机可读介质,其特征在于,所述阈值在以下任一情况下至少部分地基于对应于最大F得分的值:不存在精确率值在所述目标精确率值以上或召回率值在所述目标召回率值以上的值;或者所述精确率值在目标召回率值被满足时过低或所述召回率值在所述目标精确率值被满足时过低。
19.如权利要求18所述的非瞬态计算机可读介质,其特征在于,所述程序代码被配置成至少部分地基于使用倾向于精确率或召回率的β值的F得分来选择。
20.一种用于为激活函数选择缩放因子的非瞬态计算机可读介质,所述非瞬态计算机可读介质在其上记录有非瞬态程序代码,所述程序代码包括:
用于计算一范围内的得分度量的程序代码;以及
用于在所述得分度量不在所述范围内时调节所述缩放因子的程序代码。
21.如权利要求20所述的非瞬态计算机可读介质,其特征在于,所述激活函数包括logistic函数、tan-h函数、或线性归一化函数。
22.如权利要求20所述的非瞬态计算机可读介质,其特征在于,所述得分度量包括百分比。
23.如权利要求20所述的非瞬态计算机可读介质,其特征在于,所述得分度量包括斜率。
24.如权利要求20所述的非瞬态计算机可读介质,其特征在于,所述程序代码被配置成通过以下操作中的至少一者来调节所述缩放因子:
将所述缩放因子递增一值;以及
将最小缩放因子与最大缩放因子之差除以2。
25.一种用于在无线通信中选择用于多标记分类的阈值的设备,包括:
用于对与第一标记相关联的一组标记得分进行排序以创建经排序列表的装置;
用于从多个得分值计算出对应于一组候选阈值的精确率值和召回率值的装置;以及
用于至少部分地基于目标精确率值或目标召回率值来从所述候选阈值中为所述第一标记选择阈值的装置。
26.如权利要求25所述的设备,其特征在于,所述阈值在以下任一情况下至少部分地基于对应于最大得分的值:不存在精确率值在所述目标精确率值以上或召回率值在所述目标召回率值以上的值;或者所述精确率值在目标召回率值被满足时过低或所述召回率值在所述目标精确率值被满足时过低。
27.如权利要求26所述的设备,其特征在于,所述用于选择的装置至少部分地基于使用倾向于精确率或召回率的β值的F得分。
28.一种在无线通信中为用于多标记分类的激活函数选择缩放因子的设备,包括:
用于计算一范围内的得分度量的装置;以及
用于在所述得分度量不在所述范围内时调节所述缩放因子的装置。
29.如权利要求28所述的设备,其特征在于,所述激活函数包括logistic函数、tan-h函数、或线性归一化函数。
30.如权利要求28所述的设备,其特征在于,所述得分度量包括百分比。
31.如权利要求28所述的设备,其特征在于,所述得分度量包括斜率。
32.如权利要求28所述的设备,其特征在于,所述用于调节缩放因子的装置包括以下各项之一:
用于将所述缩放因子递增一值的装置;以及
用于将最小缩放因子与最大缩放因子之差除以2的装置。
CN201680044503.6A 2015-07-31 2016-07-19 媒体分类 Pending CN107851198A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562199865P 2015-07-31 2015-07-31
US62/199,865 2015-07-31
US14/859,082 2015-09-18
US14/859,082 US20170032247A1 (en) 2015-07-31 2015-09-18 Media classification
PCT/US2016/043016 WO2017023539A1 (en) 2015-07-31 2016-07-19 Media classification

Publications (1)

Publication Number Publication Date
CN107851198A true CN107851198A (zh) 2018-03-27

Family

ID=57882582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680044503.6A Pending CN107851198A (zh) 2015-07-31 2016-07-19 媒体分类

Country Status (7)

Country Link
US (1) US20170032247A1 (zh)
EP (1) EP3329425A1 (zh)
JP (1) JP2018528521A (zh)
KR (1) KR20180036709A (zh)
CN (1) CN107851198A (zh)
BR (1) BR112018002025A2 (zh)
WO (1) WO2017023539A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925736A (zh) * 2021-07-20 2022-08-19 王树松 对象分类方法、装置、设备及存储介质
CN116940938A (zh) * 2021-03-06 2023-10-24 伊顿智能动力有限公司 用于增强记录分类的方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2946807T3 (es) * 2015-09-01 2023-07-26 Dream It Get It Ltd Recuperación de unidad de medios y procesos relacionados
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US10678828B2 (en) 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
US20180005111A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Generalized Sigmoids and Activation Function Learning
US11176423B2 (en) 2016-10-24 2021-11-16 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
AU2016277542A1 (en) * 2016-12-19 2018-07-05 Canon Kabushiki Kaisha Method for training an artificial neural network
US12314827B2 (en) 2017-02-14 2025-05-27 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for transmitting and receiving data using machine learning classification
US11195096B2 (en) * 2017-10-24 2021-12-07 International Business Machines Corporation Facilitating neural network efficiency
CN107909097B (zh) * 2017-11-08 2021-07-30 创新先进技术有限公司 样本库中样本的更新方法及装置
CN110287317A (zh) * 2019-06-06 2019-09-27 昆明理工大学 一种基于cnn-dbn的层次多标签医疗问题分类方法
DE102019209463A1 (de) * 2019-06-27 2020-12-31 Robert Bosch Gmbh Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
US11783177B2 (en) 2019-09-18 2023-10-10 International Business Machines Corporation Target class analysis heuristics
WO2021095222A1 (ja) * 2019-11-15 2021-05-20 三菱電機株式会社 閾値生成装置、閾値生成方法、及び閾値生成プログラム
JP7485085B2 (ja) * 2020-02-13 2024-05-16 日本電気株式会社 情報処理装置、方法及びプログラム
US11616760B1 (en) * 2020-02-20 2023-03-28 Meta Platforms, Inc. Model thresholds for digital content management and selection
JP2021131485A (ja) * 2020-02-20 2021-09-09 富士通株式会社 認識方法、認識プログラム及び認識装置
JP7396944B2 (ja) * 2020-03-26 2023-12-12 株式会社奥村組 管渠損傷特定装置、管渠損傷特定方法および管渠損傷特定プログラム
JP7320472B2 (ja) * 2020-03-26 2023-08-03 株式会社奥村組 構造物損傷特定装置、構造物損傷特定方法および構造物損傷特定プログラム
JP7655318B2 (ja) * 2020-05-27 2025-04-02 コニカミノルタ株式会社 学習装置
US11790043B2 (en) * 2020-07-17 2023-10-17 Blackberry Limited System and method for configuring a classifier to achieve a target error rate
CN113392868B (zh) * 2021-01-14 2025-05-30 腾讯科技(深圳)有限公司 一种模型训练的方法、相关装置、设备及存储介质
JP7782320B2 (ja) * 2022-03-08 2025-12-09 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
DE112022006518T5 (de) * 2022-03-25 2024-11-28 Mitsubishi Electric Corporation Informationsverarbeitungseinrichtung und informationsverarbeitungsverfahren
US20230418909A1 (en) * 2022-06-24 2023-12-28 Microsoft Technology Licensing, Llc Automatic thresholding for classification models

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116940938A (zh) * 2021-03-06 2023-10-24 伊顿智能动力有限公司 用于增强记录分类的方法
CN114925736A (zh) * 2021-07-20 2022-08-19 王树松 对象分类方法、装置、设备及存储介质
CN114925736B (zh) * 2021-07-20 2025-05-06 王树松 对象分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20180036709A (ko) 2018-04-09
US20170032247A1 (en) 2017-02-02
EP3329425A1 (en) 2018-06-06
BR112018002025A2 (pt) 2018-09-18
JP2018528521A (ja) 2018-09-27
WO2017023539A1 (en) 2017-02-09

Similar Documents

Publication Publication Date Title
CN108027899B (zh) 用于提高经训练的机器学习模型的性能的方法
CN107851198A (zh) 媒体分类
CN107533669B (zh) 滤波器特异性作为用于神经网络的训练准则
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
KR102595399B1 (ko) 미지의 클래스들의 검출 및 미지의 클래스들에 대한 분류기들의 초기화
US11334789B2 (en) Feature selection for retraining classifiers
KR102806514B1 (ko) 뉴럴 네트워크들에서의 러닝을 트랜스퍼하기 위한 장치들 및 방법들
US11423323B2 (en) Generating a sparse feature vector for classification
US20170011281A1 (en) Context-based priors for object detection in images
CN107430703A (zh) 对细调特征的顺序图像采样和存储
CN108140142A (zh) 选择性反向传播
CN107533665A (zh) 经由偏置项在深度神经网络中纳入自顶向下信息
US10002136B2 (en) Media label propagation in an ad hoc network
CN120917459A (zh) 无遗忘的动态类增量学习

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180327