CN111902829A - 信息处理设备、信息处理方法和程序 - Google Patents
信息处理设备、信息处理方法和程序 Download PDFInfo
- Publication number
- CN111902829A CN111902829A CN201880091630.0A CN201880091630A CN111902829A CN 111902829 A CN111902829 A CN 111902829A CN 201880091630 A CN201880091630 A CN 201880091630A CN 111902829 A CN111902829 A CN 111902829A
- Authority
- CN
- China
- Prior art keywords
- data
- marking
- unit
- person
- tagging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
提供一种信息处理设备,信息处理方法和程序,作为提高用于机器学习的数据集质量的一种手段,通过它们,可以基于生成数据集的过程来估计标记负责人。该信息处理设备设置有执行以下功能的控制单元:用于将临时标记添加到用于机器学习的输入数据中的指定位置的临时标记处理;用于根据标记负责人对临时标记进行的校正输入来生成标记数据的处理;以及通过将由标记负责人校正的标记数据与预先获得的正确标记数据进行比较,来计算标记人员的标记准确性的处理。
Description
技术领域
本公开涉及一种信息处理设备,信息处理方法和计算机程序。
背景技术
近年来,由于通信技术的发展,通过因特网将诸如各种设备和传感器之类的“事物”连接到云的物联网(IoT)已经变得很普遍,从而使得每天能够收集大量数据。因此,对用于分析如此大量的数据的机器学习的需求正在增长。
例如,近年来,已经开发了与称为深度学习的多层神经网络有关的技术,并且以下专利文献1公开了可以更有效地执行神经网络的学习的机制。
在作为机器学习方法的监督学习中,诸如图像,文档和语音之类的数据以及指示数据内容的标记等被组合以用于学习和估计。具体地,假设标记是教师数据,学习与数据的相关性,并且通过将根据数据估计标记的结果与实际标记进行比较来进行估计。下述专利文献2公开了一种自动校正作为教师数据的数据集的标记以提高用于监督学习的标记的质量的技术。
引文列表
专利文献
专利文献1:JP 2017-194782 A
专利文献2:JP 2015-87903 A
发明内容
技术问题
然而,为了实现高准确性的机器学习,需要学习大量的高准确性数据。由于近年来通信技术的发展,收集了大量的数据,并且从其创建大量的高准确性数据集需要巨大的时间成本和人工成本。另外,数据的准确性可以根据创建数据集的创建者的技能而改变。
因此,本公开提供了一种信息处理设备,信息处理方法和计算机程序,其可以基于生成数据集的处理来估计标记负责人,以提高用于机器学习的数据集的质量。
解决问题
根据本公开,提供了一种信息处理设备,其包括:控制单元,被配置为将临时标记添加到用于机器学习的输入数据上的预定位置,根据标记负责人对临时标记的校正输入,生成标记数据,并根据标记负责人校正后的标记数据与预先获取的正确答案标记数据之间的比较,计算标记负责人的标记准确性。
根据本公开,提供了一种包括由处理器执行的处理的信息处理方法,该方法包括:将临时标记添加在用于机器学习的输入数据的预定位置的临时标记添加处理;根据标记负责人对临时标记的校正输入来生成标记数据的处理;以及比较由标记负责人校正的标记数据与预先获取的正确答案标记数据,以及计算标记负责人的标记准确性处理。
根据本公开,提供了一种计算机程序,该程序使计算机用作控制单元,该控制单元配置为执行:将临时标记添加在用于机器学习的输入数据的预定位置的临时标记添加处理;根据标记负责人对临时标记的校正输入来生成标记数据的处理;以及比较由标记负责人校正的标记数据与预先获取的正确答案标记数据,以及计算标记负责人的标记准确性处理。
发明的有益效果
如上所述,根据本公开,使得能够基于产生用于改善机器学习的数据集的质量的数据集的过程来估计标记负责人。
上述效果未必是限制性的,除上述效果之外,或代替上述效果,可以显示本文公开的任何效果或可以基于本说明书把握的另一效果。
附图说明
[图1]是用于说明根据本公开的实施例的信息处理系统的概要的图。
[图2]是示出图像上的标记的示例的图。
[图3]是用于说明在传感器数据上进行标记的示例的图。
[图4]是用于说明标记的典型工作流程的图。
[图5]是示出根据本实施例的信息处理设备的配置的示例的框图。
[图6]是示出由根据本实施例的信息处理设备的控制单元实现的功能配置的示例的图。
[图7]是示出根据本实施例的优先级估计单元的具体功能配置的示例的图。
[图8]是示出由根据本实施例的信息处理设备执行的操作处理的主要过程的示例的流程图。
[图9]是用于说明根据本实施例的数据收集的第一示例的概要的图。
[图10]是示出根据本实施例的数据收集的第一示例的操作处理的示例的流程图。
[图11]是用于说明根据本实施例的数据收集的第二示例的概要的图。
[图12]是示出根据本实施例的数据收集的第二示例(分类处理2a)的操作处理的示例的流程图。
[图13]是示出根据本实施例的数据收集的第二示例的操作处理(分类处理2b)的修改的流程图。
[图14]是示出根据本实施例的数据收集的第三示例(分类处理3)的操作处理的示例的流程图。
[图15]是用于说明根据本实施例的通过使行车记录仪和多模式(例如,心跳)彼此协作来在驾驶时收集异常状况数据的图。
[图16]是用于说明标记标准的图。
[图17]是示出根据本实施例的针对标记负责人的候选者的标记准确性计算处理的过程的示例的流程图。
[图18]是示出根据本实施例的计算标记负责人的平均误差的示例(良好示例)的图。
[图19]是示出根据本实施例的计算标记负责人的平均误差的示例(不合适的示例)的图。
[图20]是示出根据本实施例的标记准确性转变计算处理的过程的示例的流程图。
[图21]是用于说明根据本实施例的使用预标记的标记数据的质量改善的图。
[图22]是示出根据本实施例的使用预标记创建标记数据的处理过程的示例的流程图。
[图23]是示出根据本实施例的基于预标记校正的,用于标记负责人的标记准确性计算处理的过程的示例的流程图。
[图24]是示出根据本实施例的标记负责人的简档画面的示例的图。
[图25]是示出根据本实施例的表示每天平均标记数量的跟踪记录和过去的标记准确性的曲线图的图。
[图26]是示出根据本实施例的标记准确性计算处理的过程的示例的流程图。
[图27]是示出根据本实施例的标记速度计算处理的过程的示例的流程图。
[图28]是示出根据本实施例的标记成本计算处理的过程的示例的流程图。
[图29]是示出根据本实施例的适合度信息计算处理的过程的示例的流程图。
[图30]是示出根据本实施例的老化稳定性信息计算处理的过程的示例的流程图。
具体实施方式
下面参考附图详细描述本公开的优选实施例。在整个本说明书和附图中,具有基本相同的功能配置的构成元件由相同的附图标记表示,并且将不进行重复描述。
将按照以下顺序进行描述。
1.根据本公开的一个实施例的信息处理系统的概述
标记的具体示例
标记的工作流程
背景
2.配置示例
3.操作处理
4.相应的示例
4-1.标记目标数据的收集
4-2.标记数据的质量改善
4-3.可视化标记负责人的技能
5.结论
1.根据本公开的一个实施例的信息处理系统的概述
图1是用于说明根据本公开的实施例的信息处理系统的概要的图。如图1所示,与根据本实施例的信息处理系统有关的信息处理设备1可以从连接到网络的各种设备,传感器等(例如,车载设备301,CE设备302,相机终端303,电视设备304,可穿戴设备305,移动设备306和另一个IoT终端307)或网络上的服务器等(例如,服务服务器308,数据库服务器309和另一个服务器310)收集大量数据。信息处理设备1可以基于大量收集的数据来执行机器学习,或者可以创建将被用作机器学习中的教师数据的数据集(标记)。
通常,“标记”是指向诸如图像,文档,语音或生物医学信号之类的数据添加指示数据内容的标记(标记预定点)。标记的数据称为“数据集”,并且例如在“监督学习”中作为机器学习方法用作教师数据。如上所述,为了实现机器学习中的高准确性,需要大量的教师数据。
进行这种添加标记(标记)的工作的负责人在本文中被称为标记负责人。标记负责人例如通过使用信息处理设备1在诸如图像的原始数据上标记预定点。用于标记的应用程序可以是商业应用程序或自制工具。标记时需要一定的标准。通过统一标准,可以生成准确性更高的数据。例如,在标记图像的“面部区域”的情况下,优选地在统一“脸部区域”的范围的标准后,对大量数据进行标记,具体来说,是在头发散开的情况下的范围,人戴帽子的情况下的范围,或遮挡脸部的情况下的范围。下面描述典型标记的特定示例。
标记的具体示例
图2示出了在图像上进行标记的示例。如图2中所示,例如,标记的示例包括在反映人的原始图像400上,将面部区域封闭在如图像410所表示的矩形中,将标记添加到由图像420所表示的眼睛的位置,将整个身体封闭在以图像430所表示的矩形中,并将标记添加到由图像440表示的骨架。
其他示例包括例如将手区域封闭在矩形中,或将标记添加到反映手的原始图像上的指尖位置。其他示例还包括将反映碟子的原始图像上的每个项目(例如,具体是白米饭,油炸蔬菜等)封闭在矩形上。其他示例还包括在反映对象的原始图像(例如房间的照片)上绘制对象区域。
标记的目标不限于图像数据,并且可以是语音信号(例如,麦克风收集的语音)或生物医学信号(例如,心跳,脉搏,血压,出汗率,例如,肌电图值,脑电波等)。例如,在语音信号的波形中,可以选择发声点。在心跳的波形中,可以选择指示预定反应的点。或者,标记的目标可以是例如加速度传感器,陀螺仪传感器,地磁传感器等的感测数据。例如,如图3所示,可以在上下班时在三轴加速度数据500上选择被确定为指示移动的点(参考图3的右侧所示的数据510)。
标记的工作流程
对于如上所述的标记(数据集的生成),常规上,可以假设一些工作流程,例如由委托方在托运中执行的形式以及利用临时雇员的形式。图4示出了标记的工作流程的示例。工作流程的形式的示例包括在图4的上排示出的商务委托的情况,在其的中排示出的众包的情况以及在其的下排示出的临时雇员的情况。将不描述详细的过程,但是例如在商业委托的情况下,委托人20准备作为预先准备所需的数据(图像等),准备/创建标记工具,制定标记标准并选择标记受托人,然后请求受托人21执行标记。受托人21选择标记负责人,并且在被要求收集数据的情况下,准备所需的数据(图像等),并检查工时和交货日期。在从受托人21交付之前,委托人20可以适当地向受托人21给出加标记过程的指令,用于训练的标记内容的检查,更正请求,进度确认等。标记负责人属于受托人21,因此,委托人20可以直接向标记负责人给出标记过程等指令。
另一方面,在众包的情况下,委托人20经由众包公司(Crowdsourcing company)22向标记负责人23提出请求,使得基本上,委托人20不会直接与标记负责人23联系。因此,很难要求使用详细的标准进行标记或使用公司自己的工具进行标记。
在临时雇员的情况下,可以直接向每个雇员租赁公司派出的委托人20和标记负责人24(临时雇员)指示用于标记内容,标记程序和标记标准的指令,但是增加了委托人20的负担,例如工时和交货日期的管理。
背景
在任何工作流程中,数据的准确性都可能根据标记负责人的技能而改变,并且在某些情况下,根据请求表,不能直接向标记负责人发出指令,因此优选的是,委托人(或在选择标记负责人时的受托人)可以掌握对标记负责人的估计,以提高用于机器学习的数据集的质量。
在标记负责人的一侧,优选地高效地执行标记,因为花费大量时间来标记大量数据。
因此,本实施例支持有效地生成数据集(自动生成预标记),并基于生成数据集的过程对标记负责人进行估计,以实现用于机器学习的数据集的质量提高。
2.配置示例
图5是示出根据本实施例的信息处理设备1的配置的示例的框图。如图5所示,信息处理设备1包括控制单元10,通信单元11,输入单元12,输出单元13和存储单元14。
控制单元10用作算术处理设备和控制设备,并根据各种计算机程序控制信息处理设备1中的整个操作。例如,控制单元10由诸如中央处理单元(CPU)和微处理器的电路实现。控制单元10可以包括:只读存储器(ROM),其存储要使用的计算机程序,算术参数等,以及随机存取存储器(RAM),其临时地存储适当地变化的参数等。
通信单元11以有线或无线方式通信地连接到外部设备,并且向/从外部设备发送/接收数据。例如,通信单元11经由有线/无线局域网(LAN),Wi-Fi(登记商标),蓝牙(登记商标),便携式通信网络(长期演进(LTE),第三代移动对象通信方案(3G)等连接套网络,并且可以通过网络向/从外部设备发送/接收数据。
输入单元12从用户检测输入到信息处理设备1的操作,并将该操作输入输出到控制单元10。输入单元12可以是例如触摸传感器,压力传感器或接近传感器。可替代地,输入单元12可以具有诸如按钮,开关,操纵杆等的物理构造。
输出单元13具有从信息处理设备1向用户(在这种情况下,是标记负责人)输出信息的功能。例如,输出单元13是显示设备,其输出各种操作画面,菜单画面等,诸如在网络等上收集的原始数据(标记目标数据)的显示画面,以及标记画面。例如,输出单元13由诸如液晶显示器(LCD)和有机电致发光(EL)显示器的显示设备实现。
存储单元14由存储用于控制单元10执行的处理的计算机程序,算术参数等的只读存储器(ROM)和临时存储参数等随情况变化的参数的随机存取存储器(RAM)来实现。
信息处理设备1的功能配置
随后,下面参考图6描述由根据本实施例的信息处理设备1的控制单元10实现的功能配置。图6是示出由根据本实施例的信息处理设备1的控制单元10实现的功能配置的示例的图。
如图6所示,信息处理设备1用作正确答案标记数据获取单元100,估计设备学习单元101,标记目标数据获取单元102,对象列表生成单元103,预标记添加单元104,优先级估计单元105,对象列表分类单元106,对象列表呈现单元107,标记添加单元108,标记准确性计算单元109,简档生成单元110,标记数据权重估计单元111以及输出标记数据选择单元112。
信息处理设备1可以基于由简档信息获取单元120获取的标记负责人的简档数据,来生成由简档生成单元110生成的每个标记负责人的简档,并将其累积在存储单元14中。可以根据需要将获取的简档数据累积在存储单元14中。例如,可以由管理员(估计每个标记负责人所获得的结果的人)经由简档输入画面手动输入标记负责人的简档数据。具体地,例如,手动输入多年的经验,奖品的记录,特别记录等。将ID提供给标记负责人,并且可以使用该ID管理每个标记负责人的简档数据。简档生成单元110还可以基于由标记负责人生成标记数据的处理来生成简档。例如,可以将由标记准确性计算单元109计算出的标记准确性添加到简档数据中。简档生成单元110还可以计算标记负责人的标记速度(标记速度),标记成本(单位成本),适合度等级(例如,基于标记负责人的标记准确性,标记速度等),老化稳定性(例如,基于标记错误平均值的年度变化)等(即评估标记负责人),作为标记负责人的简档数据。稍后将参考图24至图30描述细节。所生成的简档数据被累积在存储单元14中,并且在进行标记请求时被标记请求者适当地称为指示谁将接收请求的指示符。
标记准确性计算单元109将从正确答案标记数据获取单元100获取的正确答案标记数据与从标记添加单元108输出的由标记负责人生成的标记数据进行比较,以计算标记准确性。稍后将参考图17至图23描述细节。
标记数据权重估计单元111对具有高准确性的标记施加权重,并将标记权重数据输出到输出标记数据选择单元112和估计设备学习单元101。例如,基于从简档生成单元110获取的诸如标记负责人的标记准确性的简档数据,标记数据权重估计单元111可以增加要应用到由标记负责人(被高度评价)创建的标记数据的权重。标记数据权重估计单元111可以将由标记负责人校正并从标记添加单元108获取的标记数据(例如,通过标记负责人纠正通过机器学习自动添加的预标记数据(临时标记数据)而获得的数据)视为具有高准确性的标记数据,并且可以增加要应用于其的权重。
输出标记数据选择单元112可以在将例如由标记负责人生成并从标记添加单元108获取的标记数据输出到请求者等时适当地选择输出数据。例如,输出标记数据选择单元112可以基于从标记数据权重估计单元111获取的标记权重数据,优先选择准确性更高的数据。可替代地,信息处理设备1可以输出所有标记数据而不选择它们中的任何一条,并且不使用输出标记数据选择单元112。信息处理设备1可以将标记数据与标记目标数据(其是作为被添加标记的目标的数据,并由标记目标数据获取单元102获取)一起输出。
估计设备学习单元101基于从标记目标数据获取单元102获取的标记目标数据和从正确答案标记数据获取单元100获取的正确答案标记数据(教师数据)来进行机器学习。机器学习的算法不受限制,并且可以适当地使用现有算法。标记目标数据获取单元102和正确答案标记数据获取单元100例如从输入单元12和通信单元11获取用于学习由标记负责人,请求者等输入的标记添加(预标记添加)的数据集。估计设备学习单元101还可以使用从标记数据权重估计单元111输出的标记权重数据来进行似然学习,以提高机器学习的准确性。
预标记添加单元104使用由估计设备学习单元101生成的估计设备,对从标记目标数据获取单元102输出的标记目标数据进行标记。本文中,通过机器学习进行的标记被称为“预标记(临时标记)添加”,并且所生成的数据被称为“预标记数据”。
对象列表生成单元103基于从标记目标数据获取单元102输出的标记目标数据(对象)来生成对象列表。为了生成对象列表,可以使用通过机器学习生成的预定估计设备。例如,在收集“家庭照片”的图像数据的情况下,可以预先学习大量“家庭照片”的正确答案图像数据,并且“家庭照片”的图像数据可以从标记目标数据中提取。
对象列表分类单元106基于预定标准对由对象列表生成单元103生成的对象列表进行分类,并将对象列表输出至对象列表呈现单元107。例如,对象列表分类单元106基于优先级估计单元105获得的估计结果,适当地对对象进行排序。
优先级估计单元105估计每个对象(标记目标数据)的优先级,并将估计结果输出到对象列表分类单元106。具体地,如图7所示,优先级估计单元105用作不必要图像估计单元1051,异常估计单元1052,重复数据检测单元1053和数据质量估计单元1054。稍后将参考图9至图14描述细节。例如,不必要图像估计单元1051使用已经学习了少量不必要图像(由标记负责人等输入)的不必要图像估计设备从标记目标数据估计不必要数据。作为示例,本实施例描述了标记目标数据(对象)是图像数据,并且从标记目标数据估计不必要图像的情况。因此,控制单元10在向被检查的标记负责人(或数据收集器,例如委托人)呈现优先显示不必要图像的对象列表之后,重复执行从标记目标数据中排除不必要图像的处理,并使得有效数据得以有效地保留。
异常估计单元1052对标记目标数据(例如,图像数据)执行异常检测,并且估计具有高异常值的数据,即稀有数据(其是各种新型图像中的一种,以及例如,很难由NG图像估计设备确定)。在异常检测中,例如,将高优先级设置为与收集关键字相关联的累积图像数据不同的图像(例如,“家庭照片”)。可选地,在异常检测中,在用于生成由对象列表生成单元103使用的对象列表的估计设备中,将具有接近于边界值的值的图像设置为高优先级,或者将在使用具有似然性的估计设备的情况下被估计具有低似然性的图像设置为高优先级。因此,控制单元10在向被检查的标记负责人呈现优先显示异常图像的对象列表之后,反复执行从标记目标数据中排除不必要图像的处理,并有效地保留期望的数据。可选地,对象列表分类单元106可以基于异常估计单元1052获得的估计结果和不必要图像估计单元1051获得的估计结果,创建优先显示标记负责人要检查的不必要图像和异常图像的对象列表。
重复数据检测单元1053将标记目标数据中的数据彼此进行比较以检测重复数据。重复数据检测单元1053将检测到的重复数据的片段设置为低优先级,除了由数据质量估计单元1054估计为具有最高质量(例如,高图像质量、大图像大小等)的其中一个。因此,降低了在重复数据中具有低质量的数据的优先级,并且相对地,在对象列表中优先呈现了重复数据中具有高质量的数据(与具有低质量的数据相比),从而避免了重复数据的过度学习(标记负责人将标记添加到重复图像中),并提高了标记速度。可以通过匹配检索来检测重复数据,或者可以将尺寸稍有不同的图像或者将其末端被削片的图像检测为重复数据。在添加了与已经添加了标记的数据重复并且具有高质量的数据的情况下,重复数据检测单元1053可以将标记复制到具有更高质量的数据以添加到对象列表(或者添加了标记的标记数据)。重复数据检测单元1053可以将低质量的数据移动到要从对象列表中排除的预定的重复文件夹(存储重复数据的文件夹)。在排除时,可以将作为排除目标的图像呈现给标记负责人以获得排除许可。
优先级估计单元105可以基于从预标记添加单元104输出的预标记置信度数据,对对象列表中包括的每个对象设置优先级。例如,预标记的置信度数据是通过机器学习执行的标记(预标记)的可靠性,并且是指示根据标记目标数据的噪声水平而计算出的预标记添加中误差的估计宽度的值(例如,图像质量和大小,以及在声音数据的情况下,噪声的大小,声音的小声等)。通过生成优先显示要向标记负责人呈现的低置信度数据(即,执行预标记的数据,该预标记包含可能性很高的错误)的对象列表,标记负责人可以集中查看具有低置信度的数据,在其上添加标记,并有效地提高标记数据的准确性。
由上述优先级估计单元105执行的设置优先级的各个方法可以适当地相互切换或组合。
对象列表呈现单元107经由输出单元13将由对象列表分类单元106分类的对象列表呈现给标记负责人。对象列表呈现单元107还可以同时呈现由预标记添加单元104创建的预标记数据。
标记添加单元108接受由标记负责人经由输入单元12输入的标记,以由对象列表呈现单元107呈现对象列表。标记添加单元108还接受由标记负责人经由输入单元12输入的标记校正以进行预标记。标记数据(包括预标记的收集数据)被输出到输出标记数据选择单元112,并且被发送到请求者等。标记数据可以输出到估计设备学习单元101以进行机器学习,输出到标记准确性计算单元109以计算标记负责人的准确性,或者输出到标记数据权重估计单元111以估计标记数据的权重。标记数据也可以累积在存储单元14中。
上面已经具体描述了根据本实施例的信息处理设备1的配置。图5至图7所示的信息处理设备1的配置仅是示例,并且本实施例不限于此。例如,信息处理设备1的配置的至少一部分可以被包括在外部设备中,或者控制单元10的功能的至少一部分可以由服务器等实现。
3.操作处理
随后,下面参考附图具体描述由根据本实施例的信息处理系统执行的操作处理。图8是示出由根据本实施例的信息处理设备1执行的操作处理的主要过程的示例的流程图。
如图8所示,首先,信息处理设备1进行由标记目标数据获取单元102收集标记目标数据的处理(步骤S103)。可以通过基于检索关键字在网络上进行检索来收集标记目标数据,或者可以从预定服务器,设备等中收集标记目标数据。
接下来,信息处理设备1通过标记添加单元108对收集的标记目标数据执行标记(标记负责人进行标记添加)(步骤S106)。标记包括例如预标记的校正。所收集的标记目标数据可以由对象列表分类单元106适当地分类,并且由对象列表呈现单元107呈现给标记负责人。
随后,信息处理设备1通过输出标记数据选择单元112输出标记数据(步骤S109)。
信息处理设备1可以基于标记负责人的标记结果,通过标记准确性计算单元109来计算标记负责人的准确性(步骤S112),并显示标记负责人的简档,例如标记准确性信息(步骤S115)。
上面已经描述了根据本实施例的操作处理的示例。图8所示的操作处理仅是示例,并且本公开不限于图8所示的示例。例如,本公开不限于图7所示的步骤的顺序。至少一些步骤可以并行处理,或者可以以相反的顺序处理。例如,步骤S109,S112和S115处的处理可以并行处理,或者可以以相反的顺序处理。
不必执行图8所示的所有处理。另外,图8所示的所有处理不必由单个设备执行。图8所示的各处理不一定按时间顺序进行。例如,虽然可以连续执行步骤S103,S106和S112的处理,但是在请求者做出请求的情况下,例如,可以在预定定时执行步骤S109和S115的处理。
4.相应的示例
随后,下面参考附图详细描述本实施例的各个示例。
4-1.收集标记目标数据
首先,下面参照图9至图15描述可以更有效地收集大量数据以实现高准确性的机器学习所需的高准确性的系统。本示例中描述的大量数据的有效收集可以由优先级估计单元105和对象列表分类单元106来实现。
即,例如,通过优先识别和排除收集时混入的呈现的NG图像,优先显示不同类型的图像或识别重复图像,本系统可以排除不必要的图像,并且能够从大量具有高准确性的数据中仅高地效收集所需图像。
数据收集的第一示例
图9是用于说明数据收集的第一示例的概要的图。如图9的左图所示,假定当信息处理设备1的标记目标数据获取单元102使用关键字“家庭照片”从网络检索图像时,获取了大量数据,例如,使得标记负责人(数据收集器)首先选择少量要学习的NG图像。接下来,如图9的中间图所示,优先级估计单元105的不必要图像估计单元1051基于学习结果(NG图像估计设备)从标记目标数据中选择NG图像,并且使用户确认是否排除NG图像。在图9所示的示例中,拾取了四个NG图像,但是,呈现预定数量的NG图像,例如30、50或100个NG图像(具体地,确定为具有高可能性的NG图像的较高秩中的预定数量的图像)。随后,如图9的右图所示,在标记负责人中混合的所呈现的NG图像中存在正确答案图像的情况下,从NG图像中选择要排除的正确答案图像,并确定NG图像。通过重复这样的处理,可以提高NG图像识别设备的准确性,可以有效地排除“家庭照片”以外的图像(NG图像),并且可以收集期望的数据。
图10是示出数据收集的第一示例(分类处理1)的操作处理的示例的流程图。如图10所示,首先,信息处理设备1通过标记目标数据获取单元102获取标记目标数据(步骤S203)。关于图9所示的示例,收集了可以是“家庭照片”的多个数据。
接下来,不必要图像估计单元1051通过分类器(NG图像估计设备)执行分类处理(步骤S206)。关于图9所示的示例,基于“与家庭照片的相似度”进行评分。
随后,对象列表分类单元106基于由不必要图像估计单元1051获得的估计结果,执行标记目标数据(对象)的重新排列处理(以得分的升序)(步骤S209)。关于图9所示的示例,其“与家庭照片的相似度”低的数据被排列在较高等级中。
然后,对象列表呈现单元107将重新布置的对象列表显示为标记画面(步骤S212)。对于图9所示的示例,优先显示其“与家庭照片的相似度”低的数据,并且标记负责人确认是否将该数据排除为NG图像。
数据收集的第二示例
图11是用于说明数据收集的第二示例的概要的图。如在图11的左图中所示,例如,当信息处理设备1的标记目标数据获取单元102使用关键字“家庭照片”检索大图像时,如图11的中间图所示,执行异常程度确定,并且呈现对象列表74,其中具有稀有特征的数据被排列在较高等级中。因此,可以有效地排除NG图像。在异常程度确定中,可以对各种类型的新颖图像(例如,NG图像估计设备难以确定的图像)设置高优先级。
图12是示出数据收集的第二示例(分类处理2a)的操作处理的示例的流程图。如图12所示,首先,信息处理设备1通过标记目标数据获取单元102获取标记目标数据(步骤S223)。关于图11所示的示例,收集了可以是“家庭照片”的多个数据。
接下来,异常估计单元1052在正常范围内执行学习处理(步骤S226)。具体地,例如,异常估计单元1052分析所收集的多条数据的波动状态。
随后,异常估计单元1052确定每条数据的异常程度(步骤S229)。具体地,例如,异常估计单元1052对收集到的数据中的稀有数据给予高分。
接下来,对象列表分类单元106基于由异常估计单元1052获得的估计结果,对标记目标数据(对象)进行重新排列处理(按照异常程度分数)(步骤S232)。关于图11所示的示例,将具有稀有特性的数据作为“家庭照片”重新排列为较高等级。
然后,对象列表呈现单元107将重新布置的对象列表显示为标记画面(步骤S235)。关于图11所示的示例,优先显示具有稀有特征的数据作为“家庭照片”(或者实际上不是家庭照片),并且标记负责人可以优先确认NG图像。
异常估计单元1052还可以通过参考从预标记添加单元104输出的预标记置信度数据来执行重新布置处理。下面参考图13描述本示例的修改。
图13是示出数据收集的第二示例的操作处理的修改(分类处理2b)的流程图。如图13所示,首先,信息处理设备1通过标记目标数据获取单元102获取标记目标数据(步骤S243)。关于图11所示的示例,收集了可以是“家庭照片”的多个数据。
接下来,由预标记添加单元104执行预标记分类处理(步骤S246)。预标记添加单元104在与预标记分类处理同时计算每个数据的预标记置信度数据,并将预标记置信度数据输出到异常估计单元1052。关于图11所示的示例,将预标记置信度数据记为“与家庭照片的相似度”。
随后,对象列表分类单元106基于由异常估计单元1052根据预标记置信度数据设置的优先级,对标记目标数据(对象)进行重新排列处理(以预标记置信度的升序)(步骤S249)。关于图9所示的示例,以“与家庭照片的相似度”的得分(置信度)的升序排列数据。
然后,对象列表呈现单元107将重新布置的对象列表显示为标记画面(步骤S252)。关于图11所示的示例,优先显示预标记分类器不清楚的“与家庭照片的相似度”数据,并且标记负责人可以按照分类器获得的得分的升序对数据进行有效的标记。
数据收集的第三示例
通过识别重复图像,并在重复图像中将低优先级设置给具有低质量的图像,优先级估计单元105使得不显示相同图像,能够避免过度学习,并且能够提高数据收集的效率。
图14是示出数据收集的第三示例(分类处理3)的操作处理的示例的流程图。如图14所示,首先,重复数据检测单元1053计算标记目标数据的特征量(步骤S263),并检索特征量差等于或小于预定值的数据(步骤S266)。因此,列出了“具有彼此接近的特征量”的多个数据。
接下来,重复数据检测单元1053执行匹配确定处理(步骤S269)。例如,重复数据检测单元1053对列出的每条数据和目标数据执行匹配确定处理,并且使列表中具有最高匹配度指示符的数据成为匹配目标数据。
随后,重复数据检测单元1053确定最高匹配度指示符是否等于或大于标准值(步骤S272)。
接下来,如果最高匹配度等于或大于标准值(步骤S272中为是),则由数据质量估计单元1054执行质量比较处理(步骤S278)。在质量比较处理中,例如,在图像的情况下,基于分辨率,数据大小,噪声量等对数据质量进行比较。
随后,确定目标数据的质量是否更高(步骤S281)。在这种情况下,将一对图像质量指标相互比较以确定目标数据的质量是否更高。
接下来,如果目标数据的质量较高(步骤S281为是),则重复数据检测单元1053执行数据替换处理(步骤S284)。在数据替换处理中,将目标数据登记为可检索作为标记目标数据,并且从标记目标数据中排除作为比较目标的数据(在这种情况下,具有较低质量的数据)。此时,目标数据可以继承添加到数据中的标记信息作为比较目标。在继承时,可以执行校正处理,以使得例如在图像数据的分辨率不同的情况下,可以将线性变换应用于坐标值标记以移动到对应的坐标。
另一方面,如果最高匹配度不等于或大于标准值(在步骤S272中为“否”),则重复数据检测单元1053将要检索的目标数据登记为标记目标数据(步骤S275)。
后面用于收集和检查异常状况数据的系统
在其他数据收集方法中,例如,存在难以收集的数据,例如其发生频率较低的数据。在这种情况下,可以从已经记录的数据中提取这样的数据。例如,如果忽略,由于驾驶时行车记录仪的图像与心跳等多峰模式之间的协作,可以添加仅从图像中几乎检测不到的确定的延迟,接近错过等作为异常状况的候选,因此能够检测到新异常的迹象。
图15是用于通过使行车记录仪和多模式(例如,心跳)相互配合来说明行驶时的异常状况数据的收集的图。如图15中所示,例如,在对来自多模式的异常条件数据进行标记的情况下,自动保存假定为异常状态的点之前和之后几秒钟的数据(图像和多模式数据)。因此,通过与心跳的配合,仅从图像就可以收集几乎确定为异常的驾驶中的诸如睡着之类的差错。
例如,以后用于收集和检查异常状态数据的系统不仅在通过行车记录仪和多模式进行图像驱动时收集异常状态数据,而且稍后还可以检查在工厂生产线上发生故障的点(例如,作为生产线停止之前和之后的工作记录,诸如工作的监视图像,操作员的心跳数据等的多种数据相互关联以自动保存)。另外,猪场等中具有传染病的动物(例如,运动缓慢的动物)的运动等也可以稍后检查(在发生传染性疾病之前和之后,自动保存拍摄的图像,用于检测运动的传感器数据等)。可以将标记应用于时间,可以将标记应用于图像,或者可以将标记应用于诸如心跳数据的传感器数据。在所有情况下,都可以使用多模式跨模式提高标记的准确性。
4-2.标记数据的质量改善
通常,在提出标记要求时提出特定的标准很重要。例如,如图16所示,对于用于将人物图像800的“面部区域”封闭在矩形中的标记,在确定诸如“将从头部顶部到下巴的范围,以及从左耳到右耳的水平范围在矩形范围内”之类的标准之后,提出了请求。在这种情况下,例如,包括头发的凸出部分或发饰的标记数据偏离标准。偏离标准的数据被认为是准确性低的标记数据。在当前情况下,标记数据是否符合标准由请求者或受托人的管理部门目视检查,并且负担很重,因此,假设请求者或受托人的管理部侧考虑选择可以最高准确性地创建标记数据的标记负责人(即,偏离标准的数据量很小)。
此外,还要求将尽可能高效地创建具有高准确性的标记数据的系统呈现给标记负责人。
因此,本示例可以提供一种系统,该系统将由标记负责人(候选人)创建的标记数据和正确答案标记之间的差异转换为呈现给请求者等的数字形式,作为对标记负责人的评价。本示例还可以提供一种系统,利用该系统,在使用系统创建标记数据的过程中,可以在评估标记负责人的同时,使用标记负责人一侧的预标记来高效地创建具有高准确性的标记数据。下面参考图17至图23提供具体描述。
用于标记负责人的候选者的标记准确性计算处理(与正确答案标记的区别)
图17是示出针对标记负责人的候选者的标记准确性计算处理的过程的示例的流程图。如图17所示,信息处理设备1的标记准确性计算单元109获取标记负责人的候选者的标记数据(步骤S303),并获取比较目标标记数据(由标准标记创建者创建的正确答案标记,由多个标记负责人添加的标记的平均值,学习之后的估计器的输出值等)(步骤S306)。
接下来,标记准确性计算单元109获取(计算)错误统计(例如,平均错误量,错误标准偏差,落入预定上限错误范围内的标记比率等)(步骤S309),并记录错误统计(步骤S312)。例如,错误统计与要记录在存储单元14中的标记负责人的ID相关联。
反馈后标记负责人的平均误差的计算
通过计算训练标记(可以视为试验)之后的标记负责人的平均误差,可以确定标记负责人的适合度。图18和图19示出了计算标记负责人的平均误差的示例。参考图18所示的某个负责人的平均误差,波动和差异很小,并且标记技术稳定,因此可以说这是一个很好的示例。参考图19所示的另一负责人的平均误差,与正确答案的差异较大,并且取决于标记时机的波动较大,因此可以说该人员不适合标记。
图20是示出标记准确性转变计算处理的过程的示例的流程图。如图20所示,简档生成单元110从存储单元14提取标记准确性信息(步骤S323),并且计算标记准确性转变的统计信息(步骤S326)。在存储单元14中,累积了由标记负责人创建的标记数据和参考标记的配对列表,同时针对每个标记工作时段进行分类。简档生成单元110针对各个工作时段的成对列表中的每对计算平均误差和误差标准偏差。
随后,简档生成单元110将标记准确性转变显示为图表(步骤S329)。例如,简档生成单元110将针对每个工作时段计算的平均误差和误差标准偏差显示为曲线图(参考图18和图19)。
使用预标记改善标记数据的质量
图21是用于说明使用预标记的标记数据的质量提高的图。如图21所示,首先,以少量的标记数据进行学习(将标记811添加到眼睛的位置的人像810,将标记821添加到眼睛的位置的人像820等),并且预标记由学习设备创建。随后,标记负责人对预标记进行微调,以执行其他学习。仅需要标记负责人进行微调,以便可以更有效地执行标记。由于标记负责人对标记数据进行了细微调整的附加学习(具有高准确性的标记数据),因此可以提高学习用具的准确性。
图22是示出了使用预标记创建标记数据的处理过程的示例的流程图。如图22所示,首先,预标记添加单元104通过标记目标数据获取单元102获取标记目标数据(步骤S333),并进行预标记计算处理(自动生成粗标记数据)(步骤S336)。
随后,控制单元10使预标记的数据经由输出单元13显示给标记负责人(步骤S339),并且接受由标记添加单元108进行的由标记负责人进行的标记校正(通过标记负责人的操作将数据校正为正确的标记信息)(步骤S342)。
随后,控制单元10登记标记数据(步骤S345),并由估计设备学习单元101执行附加学习处理(步骤S348)。
重复上述步骤S336至S348的处理(步骤S351)。
因此,可以提高标记的准确性。通过比较使用上述预标记的标记,即,由标记负责人执行的校正内容与正确答案数据,可以同时计算标记负责人的标记准确性。以下参考图23提供描述。
图23是示出基于预标记校正的,用于标记负责人的标记准确性计算处理的过程的示例的流程图。如图23所示,首先,标记准确性计算单元109从标记添加单元108获取由标记负责人获得的预标记的校正结果数据(步骤S363),并从正确答案标记数据获取单元100等获取参考标记数据(由标准标记创建者创建的正确答案标记,由多个标记负责人添加的标记的平均值,学习之后的估计器的输出值等)(步骤S366)。
接下来,标记准确性计算单元109计算错误的统计信息(步骤S369),并且计算标记准确性信息(步骤S372)。例如,标记准确性计算单元109获得参考数据和标记数据之间的误差,并获得整个列表的统计信息。
然后,标记准确性计算单元109登记标记负责人的标记准确性信息(步骤S375)。
标记数据的权重估计
信息处理设备1使标记数据权重估计单元111自动对由标记负责人(具有高准确性的标记)校正的标记数据施加权重,并使估计设备学习单元101执行附加学习以使得能够学习具有高准确性的标记(似然学习)。标记负责人还可以检查不正确的数据。可以目视检查预标记,并且可以确定标记的错误是允许和接受的。可以使用这种未校正的数据执行附加学习,但是在这种情况下不对其施加权重(或者,可以将5倍权重应用于校正后的标记,并且可以将1倍权重应用于预标记)。
标记数据的置信度
信息处理设备1还可以通过预标记添加单元104计算通过机器学习创建的标记(预标记)的“置信度”。通过将反映标记数据的置信度的对象列表呈现给标记负责人,使得能够对置信度低的数据集中进行标记校正或检查。
4-3.可视化标记负责人的技能
根据本实施例的信息处理设备1可以通过由简档生成单元110生成要加标记的负责人的简档以呈现给请求者等来可视化标记负责人的技能。
图24是示出了标记负责人的简档画面的示例的图。如图24所示,例如,简档画面600显示多年的标记经验,标记的结果数量,平均标记速度,专业领域,他/她自己想要的领域,老化稳定性,奖品记录,特别记录,表示标记结果的比率的图表610和评价等级611。在估计等级611中,例如,以五个阶段的等级(例如,从A到E)或得分来表示基于标记准确性,标记速度,适合度和成本(单位成本)作为指标的标记负责人的等级。稍后将描述具体的计算处理。
可以执行对标记技能等的认证检查,并且可以使其结果出现在简档画面600上。
通过以这种方式可视化标记负责人的技能,可以获得在请求标记时被请求的公司或个人的指示符。可以预先找到标记负责人的技能,从而可以容易地估计用于标记的工时和检查。负责标记负责人的公司可以呼吁引入人力资源。
通过更新简档,可以一目了然地发现从过去(倾向)和当前技能的过渡。例如,如图25所示,可以将表示每天的平均标记数量的跟踪记录和过去的标记准确性的图表表示为简档的示例。因此,不仅可以掌握高技能的人,而且还可以掌握可能会提高其技能的人。
随后,以下参考一些附图描述每条简档信息的计算处理。
标记准确性计算处理
图26是示出标记准确性计算处理的过程的示例的流程图。如图26所示,首先,标记准确性计算单元109从存储单元14检索由目标标记负责人创建的标记数据(步骤S403)。过去的标记数据被累积在存储单元14中。标记准确性计算单元109例如获取在某个标记负责人的预定时段内被标记的预定类型的数据的列表。
接下来,标记准确性计算单元109获取与所获取的标记列表相对应的参考标记数据(步骤S406)。例如,标记准确性计算单元109针对上述列表检索参考数据,并且获得对应列表(不列出没有对应的数据)。
随后,标记准确性计算单元109计算错误的统计信息(步骤S409)。例如,标记准确性计算单元109获得参考数据和标记数据之间的误差,并获得整个列表的统计信息。
接下来,标记准确性计算单元109计算标记准确性信息(步骤S412)。例如,标记准确性计算单元109将标记准确性信息与预定标准值进行比较,以将其分类为A至E的五个等级。标记准确性计算单元109可以将标准值之间的中间数值线性内插以成为中间分数(例如,B接近A)。
然后,标记准确性计算单元109在存储单元14中登记标记负责人的准确性信息(步骤S415)。例如,标记准确性计算单元109将计算出的统计量和等级信息与要登记到数据库中的标记负责人的ID相关联(还登记登记日期)。
标记速度计算处理
图27是示出标记速度计算处理的过程的示例的流程图。如图27所示,首先,简档生成单元110检索由标记负责人创建的标记数据(步骤S423)。例如,简档生成单元110从存储单元14获取在某个标记负责人的预定时间段内已经被标记的预定类型的数据的列表。
接下来,简档生成单元110获取标记所需的时间信息(步骤S426)。例如,简档生成单元110针对上述列表获取标记所需的时间信息。
随后,简档生成单元110计算每天的标记数量(步骤S429)。例如,简档生成单元110将所获取的时间信息相加,再除以标记的数量。
接下来,简档生成单元110计算标记速度信息(步骤S432)。例如,简档生成单元110将标记速度信息与预定标准值进行比较,以将其分类为A至E的五个等级。简档生成单元110可将标准值之间的中间数值线性内插为中间分数(例如,B接近A)。
然后,简档生成单元110登记标记负责人的标记速度信息(步骤S435)。例如,简档生成单元110将所获得的标记速度信息和等级信息登记在存储单元14中。
标记成本计算处理
图28是示出标记成本计算处理的过程的示例的流程图。简档生成单元110获取目标标记负责人的标记速度信息(步骤S443),并且获取目标标记负责人的每日单位成本信息(步骤S446)。例如,简档生成单元110从存储单元14获取每天特定标记负责人的标记数量,并每天从存储单元14获取同一标记负责人的劳动单位成本信息。
然后,简档生成单元110计算标记成本信息(步骤S449),并登记标记负责人的标记成本信息(步骤S452)。例如,简档生成单元110将劳动单位成本除以每天的标记数量以计算每个标记的单位成本。
适合度信息计算处理
图29是示出适合度信息计算处理的过程的示例的流程图。如图29所示,例如,简档生成单元110从存储单元14获取特定的标记负责人的各种等级信息等,诸如标记准确性信息(例如,准确性等级),标记速度信息(例如,速度等级)和标记负责人的意愿信息(例如,关于标记负责人自己,他/她的老板等的标记输入意愿的信息)(步骤S463),并计算适合度信息(步骤S466)。为了计算适合度信息,例如,可以通过将各种等级值乘以预定权重来计算加权平均等级信息,或者可以使用针对每个等级值设置的截止值将加权平均等级向下修正为适合度等级信息。用于计算适合度信息的各种等级信息不限于上述示例。
然后,简档生成单元110登记标记负责人的适合度等级信息(步骤S469)。
老化稳定性信息计算处理
图30是示出老化稳定性信息计算处理的过程的示例的流程图。如图30所示,简档生成单元110获取每个标记负责人的误差平均值的年度变化,并且创建误差平均值的年度变化的列表(步骤S473)。
接下来,简档生成单元110基于年度变化进行分类处理(即,基于平均误差的年度变化对列表进行分类)(步骤S476),并计算每个标记负责人的分类结果的百分数(步骤S479)。例如,简档生成单元110使通过将列表中的等级除以所有用户的数量而获得的数值成为百分数。。
然后,简档生成单元110为每个标记负责人登记百分数(步骤S482)。
5.结论
如上所述,利用根据本公开的实施例的信息处理系统,可以基于生成数据集的过程作为用于机器学习的数据集的质量改进来估计标记负责人。
上面已经参考附图详细描述了本公开的优选实施例,但是本技术不限于此。本公开领域的普通技术人员可以显然想到在权利要求中描述的技术思想的范围内的各种变化或修改的示例,当然,这些变化或修改被假定为被本公开的技术范围所涵盖。
例如,可以创建用于使结合在上述信息处理设备1中的诸如CPU,ROM和RAM之类的硬件表现出信息处理设备1的功能的计算机程序。还提供了一种存储计算机程序的计算机可读存储介质。
这里描述的效果仅仅是说明或示例,而不是限制。即,根据本公开的技术除了上述效果之外或代替上述效果,还可以基于本文的描述展现本领域技术人员可以想到的其他效果。
本技术还可以采用如下配置。
(1)
一种信息处理设备,包括:
控制单元,被配置为
将临时标记添加到用于机器学习的输入数据的预定位置,
根据由标记负责人对所述临时标记的校正输入来生成标记数据,并且
基于由所述标记负责人校正的标记数据与预先获取的正确答案标记数据之间的比较,来计算所述标记负责人的标记准确性。
(2)
根据(1)的信息处理设备,其中,所述控制单元生成呈现所述标记准确性的信息的简档画面。
(3)
根据(1)或(2)所述的信息处理设备,其中
所述控制单元
基于机器学习来添加临时标记,并且
基于根据所述校正输入而生成的标记数据执行所述机器学习的附加学习,以再次添加临时标记。
(4)
根据(3)所述的信息处理设备,其中,所述控制单元对根据所述校正输入而生成的标记数据施加预定权重,并且执行机器学习的附加学习。
(5)
根据(1)至(4)中任一项所述的信息处理设备,其中,所述控制单元将根据所述校正输入而生成的标记数据输出到请求者。
(6)
根据(1)至(5)中的任一项所述的信息处理设备,其中,所述控制单元根据所述标记负责人的所述标记准确性来选择要输出到请求者的标记数据。
(7)
根据(1)至(6)中任一项所述的信息处理设备,其中,所述控制单元基于由所述标记负责人校正的标记数据与预先获取的所述正确答案标记数据之间的误差来计算所述标记准确性。
(8)
根据(1)至(6)中任一项所述的信息处理设备,其中,所述控制单元为所收集的标记目标数据设置预定优先级,并且对要作为标记目标呈现给所述标记负责人的对象列表分类。
(9)
根据(8)所述的信息处理设备,其中,所述控制单元使用预先已进行学习的机器学习设备,将错误答案图像或异常值高的图像设定为高优先级。
(10)
一种包括处理器执行的处理的信息处理方法,该处理包括:
将临时标记添加到用于机器学习的输入数据的预定位置的临时标记添加处理;
根据由标记负责人对所述临时标记的校正输入来生成标记数据的处理;以及
比较由所述标记负责人校正的标记数据与预先获取的正确答案标记数据并且计算所述标记负责人的标记准确性的处理。
(11)
一种用于使计算机用作控制单元的计算机程序,该控制单元被配置为执行:
将临时标记添加到用于机器学习的输入数据的预定位置的临时标记添加处理;
根据由标记负责人对所述临时标记的校正输入来生成标记数据的处理;以及
比较由所述标记负责人校正的标记数据与预先获取的正确答案标记数据并且计算所述标记负责人的标记准确性的处理。
参考标志列表
1 信息处理设备
10 控制单元
11 通信单元
12 输入单元
13 输出单元
14 存储单元
100 正确答案标记数据获取单元
101 估计设备学习单元
102 标记目标数据获取单元
103 对象列表生成单元
104 预标记添加单元
105 优先级估计单元
106 对象列表分类单元
107 对象列表呈现单元
108 标记添加单元
109 标记准确性计算单元
110 简档生成单元
111 标记数据权重估计单元
112 输出标记数据选择单元
120 简档信息获取单元
1051 不必要图像估计单元
1052 异常估计单元
1053 重复数据检测单元
1054 数据质量估计单元。
Claims (11)
1.一种信息处理设备,包括:
控制单元,被配置为
将临时标记添加于用于机器学习的输入数据上的预定位置,
根据由标记负责人对所述临时标记的校正输入来生成标记数据,并且
基于由所述标记负责人校正的标记数据与预先获取的正确答案标记数据之间的比较,来计算所述标记负责人的标记准确性。
2.根据权利要求1所述的信息处理设备,其中,所述控制单元生成呈现所述标记准确性的信息的简档画面。
3.根据权利要求1所述的信息处理设备,其中,
所述控制单元
基于机器学习来添加临时标记,并且
基于根据所述校正输入而生成的标记数据执行所述机器学习的附加学习,以再次添加临时标记。
4.根据权利要求3所述的信息处理设备,其中,所述控制单元对根据所述校正输入而生成的标记数据施加预定权重,并且执行机器学习的附加学习。
5.根据权利要求1所述的信息处理设备,其中,所述控制单元将根据所述校正输入而生成的标记数据输出到请求者。
6.根据权利要求1所述的信息处理设备,其中,所述控制单元根据所述标记负责人的所述标记准确性来选择要输出到请求者的标记数据。
7.根据权利要求1所述的信息处理设备,其中,所述控制单元基于由所述标记负责人校正的标记数据与预先获取的所述正确答案标记数据之间的误差来计算所述标记准确性。
8.根据权利要求1所述的信息处理设备,其中,所述控制单元为所收集的标记目标数据设置预定优先级,并且对要作为标记目标呈现给所述标记负责人的对象列表分类。
9.根据权利要求8所述的信息处理设备,其中,所述控制单元使用预先已进行学习的机器学习设备,将错误答案图像或异常值高的图像设定为高优先级。
10.一种信息处理方法,包括由处理器执行的多条处理,所述处理包括:
将临时标记添加于用于机器学习的输入数据的预定位置的临时标记添加处理;
根据由标记负责人对所述临时标记的校正输入来生成标记数据的处理;以及
比较由所述标记负责人校正的标记数据与预先获取的正确答案标记数据并且计算所述标记负责人的标记准确性的处理。
11.一种计算机程序,用于使计算机用作控制单元,所述控制单元被配置为执行:
将临时标记添加于用于机器学习的输入数据的预定位置的临时标记添加处理;
根据由标记负责人对所述临时标记的校正输入来生成标记数据的处理;以及
比较由所述标记负责人校正的标记数据与预先获取的正确答案标记数据并且计算所述标记负责人的标记准确性的处理。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018-063868 | 2018-03-29 | ||
| JP2018063868 | 2018-03-29 | ||
| PCT/JP2018/047313 WO2019187421A1 (ja) | 2018-03-29 | 2018-12-21 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111902829A true CN111902829A (zh) | 2020-11-06 |
Family
ID=68061180
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880091630.0A Pending CN111902829A (zh) | 2018-03-29 | 2018-12-21 | 信息处理设备、信息处理方法和程序 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12175779B2 (zh) |
| CN (1) | CN111902829A (zh) |
| WO (1) | WO2019187421A1 (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7213138B2 (ja) * | 2019-05-10 | 2023-01-26 | 株式会社日立システムズ | 学習データ作成支援システムおよび学習データ作成支援方法 |
| WO2021192061A1 (ja) * | 2020-03-24 | 2021-09-30 | 日本電気株式会社 | 認証制御装置、認証システム、認証制御方法及び記録媒体 |
| CN112612957B (zh) * | 2020-12-24 | 2023-09-29 | 北京百度网讯科技有限公司 | 兴趣点的推荐方法、兴趣点推荐模型的训练方法、装置 |
| WO2023032317A1 (ja) * | 2021-09-02 | 2023-03-09 | ソニーグループ株式会社 | プログラム、情報処理装置、情報処理方法 |
| CN119251652B (zh) * | 2024-12-06 | 2025-03-07 | 科大讯飞股份有限公司 | 一种数据审核交互方法及相关装置 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009110064A (ja) * | 2007-10-26 | 2009-05-21 | Toshiba Corp | 分類モデル学習装置および分類モデル学習方法 |
| CN102867025A (zh) * | 2012-08-23 | 2013-01-09 | 百度在线网络技术(北京)有限公司 | 一种获取图片标注数据的方法和装置 |
| CN104133769A (zh) * | 2014-08-02 | 2014-11-05 | 哈尔滨理工大学 | 基于心理学行为分析的众包欺诈检测方法 |
| JP2015166975A (ja) * | 2014-03-04 | 2015-09-24 | 富士ゼロックス株式会社 | 注釈情報付与プログラム及び情報処理装置 |
| CN105608318A (zh) * | 2015-12-18 | 2016-05-25 | 清华大学 | 众包标注整合方法 |
| CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
| CN107705034A (zh) * | 2017-10-26 | 2018-02-16 | 医渡云(北京)技术有限公司 | 众包平台实现方法及装置、存储介质和电子设备 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7725414B2 (en) * | 2004-03-16 | 2010-05-25 | Buzzmetrics, Ltd An Israel Corporation | Method for developing a classifier for classifying communications |
| US8732181B2 (en) * | 2010-11-04 | 2014-05-20 | Litera Technology Llc | Systems and methods for the comparison of annotations within files |
| JP2012243180A (ja) * | 2011-05-23 | 2012-12-10 | Sony Corp | 学習装置および方法、並びにプログラム |
| US20130091161A1 (en) * | 2011-10-11 | 2013-04-11 | International Business Machines Corporation | Self-Regulating Annotation Quality Control Mechanism |
| US10642928B2 (en) * | 2013-06-03 | 2020-05-05 | International Business Machines Corporation | Annotation collision detection in a question and answer system |
| JP2015087903A (ja) | 2013-10-30 | 2015-05-07 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
| JP2017194782A (ja) | 2016-04-19 | 2017-10-26 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
| US11531909B2 (en) * | 2017-06-30 | 2022-12-20 | Abeja, Inc. | Computer system and method for machine learning or inference |
| US10977562B2 (en) * | 2017-08-07 | 2021-04-13 | International Business Machines Corporation | Filter for harmful training samples in active learning systems |
-
2018
- 2018-12-21 CN CN201880091630.0A patent/CN111902829A/zh active Pending
- 2018-12-21 US US17/040,027 patent/US12175779B2/en active Active
- 2018-12-21 WO PCT/JP2018/047313 patent/WO2019187421A1/ja not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009110064A (ja) * | 2007-10-26 | 2009-05-21 | Toshiba Corp | 分類モデル学習装置および分類モデル学習方法 |
| CN102867025A (zh) * | 2012-08-23 | 2013-01-09 | 百度在线网络技术(北京)有限公司 | 一种获取图片标注数据的方法和装置 |
| JP2015166975A (ja) * | 2014-03-04 | 2015-09-24 | 富士ゼロックス株式会社 | 注釈情報付与プログラム及び情報処理装置 |
| CN104133769A (zh) * | 2014-08-02 | 2014-11-05 | 哈尔滨理工大学 | 基于心理学行为分析的众包欺诈检测方法 |
| CN106156025A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种数据标注的管理方法及装置 |
| CN105608318A (zh) * | 2015-12-18 | 2016-05-25 | 清华大学 | 众包标注整合方法 |
| CN107705034A (zh) * | 2017-10-26 | 2018-02-16 | 医渡云(北京)技术有限公司 | 众包平台实现方法及装置、存储介质和电子设备 |
Non-Patent Citations (1)
| Title |
|---|
| YOSHISAKU: "an active-learning-based annotation tool for activity recognition systems", IPSJ SIG TECHNICAL REPORT, vol. 111, no. 134, pages 17 - 24 * |
Also Published As
| Publication number | Publication date |
|---|---|
| US12175779B2 (en) | 2024-12-24 |
| US20210019656A1 (en) | 2021-01-21 |
| WO2019187421A1 (ja) | 2019-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111902829A (zh) | 信息处理设备、信息处理方法和程序 | |
| JP6946081B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
| RU2648836C2 (ru) | Системы, способы и компьютерочитаемые носители для выявления вероятного влияния медицинского состояния на пациента | |
| US20190236497A1 (en) | System and method for automated model selection for key performance indicator forecasting | |
| US20220125360A1 (en) | Method and computer program for determining psychological state through drawing process of counseling recipient | |
| US12524715B2 (en) | Wait time prediction | |
| WO2014034005A1 (ja) | 知的生産性分析装置、プログラム | |
| JP5830780B2 (ja) | 業務分析装置、業務分析システム及び業務分析方法 | |
| US20170372020A1 (en) | Systems and methods of adaptive management of caregivers | |
| TWI818176B (zh) | 計劃制定輔助裝置和計劃制定輔助方法 | |
| US20240047046A1 (en) | Virtual augmentation of clinical care environments | |
| CN111370113A (zh) | 一种基于物联云的远程心理辅导系统及方法 | |
| JP2024040203A (ja) | 人物検出装置、人物追跡装置、人物追跡システム、人物検出方法、人物追跡方法、人物検出プログラム及び人物追跡プログラム | |
| JP6605407B2 (ja) | 人材育成支援システム | |
| CN113706111B (zh) | 医疗机构流程数据的处理方法、装置、设备及介质 | |
| JP2019053629A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| WO2021111558A1 (ja) | 情報処理装置、制御方法及び記憶媒体 | |
| US20140344253A1 (en) | Terminal device, external device, information processing method, program, and information processing system | |
| CN117711567B (zh) | 基于ai学习的近视防控系统及方法 | |
| US20230255531A1 (en) | Stress coping management apparatus, stress coping management method, and computer-readable recording medium | |
| CN112488647A (zh) | 考勤系统及方法、存储介质及电子设备 | |
| CN118379540A (zh) | 一种数据标注方法、装置、设备及可读存储介质 | |
| JP2020194218A (ja) | 正解データ作成支援システムおよび正解データ作成支援方法 | |
| CN115762728A (zh) | 一种医用药剂的存储柜提醒方法及装置 | |
| CN114005173A (zh) | 数据处理方法及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |