标注数据处理方法和标注数据处理系统
技术领域
本发明涉及数据处理领域,具体涉及一种标注数据处理方法和标注数据处理系统。
背景技术
机器进行训练(或说学习)通常需要大量的标注数据作为训练集,标注数据的数据量越大对训练的效果越有帮助,因此如何高效准确地进行数据标注已经成为了一个亟待解决的问题。现有的数据标注系统的数据标注流程通常为:发布包含一个或多个标注单元的标注任务、进行人工标注、进行人工质量检查等。现有的数据标注系统完全依靠人工质量检查来控制标注准确性,因此从人工标注完成到质量检查之间的时间间隔可能非常长,难以及时纠正标注人员的错误。
发明内容
鉴于上述问题,提出了本发明以便提供一种至少部分地解决上述问题的标注数据处理方法和标注数据处理系统。
根据本发明的一个方面,提供了一种标注数据处理方法,包括:步骤S110:计算与标注任务相关的多个标注结果的相似度;步骤S120:将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则转至步骤S130,如果相似度小于相似度阈值,则转至步骤S140;步骤S130:确定多个标注结果通过质量检测;以及步骤S140:确定多个标注结果未通过质量检测。
根据本发明的另一方面,提供一种标注数据处理系统,包括计算装置、相似度比较装置、第一执行装置和第二执行装置。计算装置用于计算与标注任务相关的多个标注结果的相似度。相似度比较装置用于将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则启动第一执行装置,如果相似度小于相似度阈值,则启动第二执行装置。第一执行装置用于确定多个标注结果通过质量检测。第二执行装置用于确定多个标注结果未通过质量检测。
根据本发明提供的标注数据处理方法和标注数据处理系统,由于利用相似度自动检测标注结果的质量,因此使得标注人员有可能及时获知标注结果的质量,进而有可能及时纠正标注错误,可以有效提高标注准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出根据本发明一个实施例的标注数据处理方法的流程图;
图2示出根据本发明另一个实施例的标注数据处理方法的流程图;
图3示出根据本发明另一个实施例的标注数据处理方法的流程图;以及
图4示出根据本发明一个实施例的标注数据处理系统的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的一个方面,提供了一种标注数据处理方法。图1示出了根据本发明一个实施例的标注数据处理方法100的流程图。
如图1所示,标注数据处理方法100包括以下步骤。
步骤S110:计算与标注任务相关的多个标注结果的相似度。本文所述的标注任务是指包括待标注对象以及标注要求的任务。待标注对象也可以称为“标注单元”,其可以是一个或一组图像、视频或音频等。标注要求是指示标注人员如何对标注单元进行标注的信息。例如,标注单元可以是一个包含若干人脸的图像,标注要求可以是指示框出图像中的所有人脸或标注出人脸上的几个关键点等的信息。标注人员在接受标注任务之后,可以在图像中框出人脸或标注人脸关键点等。包含经标注的人脸的图像可以用在与各类人脸识别应用相关的机器训练中。当然,以上仅是标注任务中的标注单元和标注要求的示例,其并非对本发明的限制。下面描述标注单元和标注要求的其他几个示例。标注单元还可以是包含其他内容的图像,例如是包含文字(商标标识或车牌号码等)、动物、物品等内容的图像。相应地,标注要求可以是指示标注出图像中的所有文字、动物或物品的信息。标注单元还可以是包含人物的图像,标注要求是指示确定图像中人物的性别、种族或年龄等的信息。标注单元还可以是一组图像,包括一个包含参照物的图像和多个待选图像,标注要求可以是指示从所有待选图像中选出特定待选图像的信息,该特定待选图像包含与参照物相同或相近的物体。标注单元还可以是一段音频,标注要求是指示输入音频中出现的文字的信息。标注单元还可以是一个问题和一组选项,标注要求是指示从一组选项中选择与问题相对应的适当选项的信息。
标注结果是指标注人员基于标注要求对标注单元进行标注之后获得的结果数据。例如,标注结果可以包括关于标注人员所标注出的若干人脸关键点的信息,诸如每个人脸关键点在图像中的位置等。根据本发明的实施例,一个标注任务可以由多个标注人员接受并参与。每个标注人员可以针对一个标注任务提供一个标注结果,因此,可以获得与标注任务相关的多个标注结果。随后,可以计算这些标注结果之间的相似度。对于不同类型的标注结果来说,相似度的计算方法可能不同。下面以两个标注结果为例描述相似度的计算方法。可以利用一个数值来描述两个标注结果之间的相似度,其包含但不局限于以下几种方法:
若标注任务为在图像上标注若干点,则可以计算两个标注结果中的对应点之间的欧氏距离的总和作为两个标注结果的相似度;
若标注任务为在图像上标注若干多边形,则可以计算两个标注结果中的多边形相交面积与相并面积之比(IOU)作为两个标注结果的相似度;
若标注任务为在多个选项中选择一个选项,则两个标注结果一致相似度为1,两个标注结果不一致相似度为0;
若标注任务为在多个选项中选择多于一个的选项,则可以计算两个标注结果中的公共的已选选项(即已选选项的交集)的数量与两个标注结果中的所有已选选项(即已选选项的并集)的数量之比作为两个标注结果的相似度。
参考以上关于两个标注结果的相似度的描述,可以理解多于两个的标注结果的相似度的计算方式,其可以采用常规技术实现,在此不再赘述。
步骤S120:将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则转至步骤S130,如果相似度小于相似度阈值,则转至步骤S140。相似度阈值可以是任何合适的值,例如,相似度阈值可以大于或等于80%,例如是85%、90%或95%等,其可以根据需要而定,本发明不对此进行限制。相似度阈值可以在初始设定为默认值,随后可以根据实际需要自动进行调整。对于不同的标注任务来说,相似度阈值可以相同或不同。例如,对于相对简单的标注任务,相似度阈值可以较大,相反,对于相对复杂的标注任务,相似度阈值可以较小。可以将同一个标注任务的多个标注结果进行比对,计算它们之间的相似度,随后,判断多个标注结果之间的相似度是否大于或等于上述相似度阈值,如图1所示。根据相似度与相似度阈值之间的大小关系选择执行步骤S130还是执行步骤S140。
步骤S130:确定多个标注结果通过质量检测。如果上述多个标注结果的相似度大于或等于相似度阈值,则说明多个标注人员对同一标注单元进行的标注都是比较相似的,因此这多个标注结果有可能均是准确性较高的标注结果。因此,可以将这种情况视为这些标注结果都是对标注单元的正确标注,是标注任务的正确处理结果。这样,可以认为这多个标注结果的质量是能够保证的,确定它们通过质量检测。
步骤S140:确定多个标注结果未通过质量检测。如果上述多个标注结果之间的相似度小于相似度阈值,则说明多个标注人员对同一标注单元进行的标注相差较大,因此,对这多个标注结果来说,其中存在错误标注的可能性很大。因此,可以将这种情况视为这些标注结果不是对标注单元的正确标注,也就是认为这多个标注结果的质量无法保证,确定它们未通过质量检测。可以理解的是,本文所述的质量检测是通过相似度来检测标注结果的质量,其可以从一定程度上反映标注结果的质量,在质量检测之后还可以进一步通过人工方式来验证标注结果的质量。通过相似度来自动检测标注结果的质量的方式效率较高,并且可以提高标注准确性。
根据本发明提供的标注数据处理方法,由于利用相似度自动检测标注结果的质量,因此使得标注人员有可能及时获知标注结果的质量,进而有可能及时纠正标注错误,可以有效提高标注准确性。
图2示出根据本发明另一个实施例的标注数据处理方法200的流程图。图2所示的步骤S110、步骤S120、步骤S130和步骤S140与图1相似,不再赘述。在本实施例中,在步骤S110之前,标注数据处理方法200可以进一步包括以下步骤。
步骤S102:获取与标注任务相关的特定数目的标注结果。标注人员可以通过一些交互装置向标注数据处理系统发起请求,标注数据处理系统可以从所维护的待标注队列中选择适用于该标注人员的标注任务并将该标注任务发送给该标注人员。随后,可以获取标注人员标注结束后获得的标注结果。
步骤S104:判断特定数目是否等于与标注任务相关的数目阈值,如果特定数目等于数目阈值,则转至步骤S106,否则转至步骤S102。不同的标注任务可以对应不同的数目阈值,即与不同的数目阈值相关。对于相对简单的标注任务来说,标注人员对标注单元进行标注时不太容易出现错误,因此可以要求较少的标注人员进行标注。因此,简单的标注任务可以对应较小的数目阈值。相反,对于复杂的标注任务来说,标注人员对标注单元进行标注时出现错误的概率可能较大,因此可以要求较多的标注人员进行标注。因此,复杂的标注任务可以对应较大的数目阈值。对于新的标注任务,初始的数目阈值可以较小,例如为2,随后可以根据实际需要对数目阈值进行调整。对于一个标注任务来说,每当标注人员提供一个标注结果,就可以将该标注结果存储起来。可以判断所存储的标注结果的数目是否达到数目阈值,对于未达到数目阈值的标注结果不执行步骤S110,而是重新执行步骤S102,对于达到数目阈值的标注结果开始执行步骤S110。
步骤S106:将特定数目的标注结果确定为多个标注结果并转至步骤S110。如上所述,当标注结果的数目达到数目阈值时,即当接受并参与同一标注任务的标注人员达到所需数目时,可以开始执行步骤S110。另外,还可以维护质量检测队列,可以将标注结果的数目等于数目阈值的标注任务移除出待标注队列并加入质量检测队列,暂时不再向其他标注人员发送该标注任务。
上述通过数目阈值来控制接受并参与同一标注任务的标注人员的方法可以合理地利用标注人力,尽量避免多余的、无意义的标注,从而可以有效地提高人力利用率。
图3示出根据本发明另一个实施例的标注数据处理方法300的流程图。图3所示的步骤S102、步骤S104、步骤S106、步骤S110、步骤S120和步骤S130与图1相似,不再赘述。在本实施例中,步骤S140可以包括步骤S1402和步骤S1404。步骤S1402即为上述的确定多个标注结果未通过质量检测步骤。除步骤S1402之外,步骤S140可以进一步包括步骤S1404,即增大数目阈值并转至步骤S102。
当确定多个标注结果未通过质量检测时,可以增大数目阈值,并获取更多个标注结果用于进行质量检测。标注结果的数目增多,使得所有标注结果的相似度有可能增大,整体的质量有可能提高。数目阈值每次增大的量可以根据需要而定,本发明不对此进行限制。可以理解,在增大数目阈值并获取新的标注结果的时候,可以将标注任务移除出质量检测队列并重新加入待标注队列。同时,可以引入新的标注人员,其中,每个标注人员仅标注一次。此外,还可以保留上一次进行质量检测的多个标注结果中的任何一个或多个,或者可以全部采用新的标注结果。如上所述,对于新的标注任务来说,数目阈值可以在初始设定得较小,例如为2。对于相对简单的标注任务,有可能无需增大数目阈值或仅增大较少次数目阈值即可通过质量检测。因此对于较为简单的标注任务来说,可能最终通过质量检测时进行的标注次数较少,从而可以尽量减少针对简单的标注任务的重复标注,节省标注人力。而对于相对复杂的标注任务,可以一直增大数目阈值,增大获取的标注结果的数目直至通过质量检测,这样,可以提高复杂标注任务的标注结果的最终质量,提高标注准确性。因此,根据本发明提供的这种自动调整数目阈值的方法,可以尽量高效的利用标注人力,同时可以通过合理的多人重复标注,达到提升标注质量的目的。这与现有技术不同。在现有的数据标注方法中,为了提升标注准确性,通常需要成倍增加对同一个标注任务的标注次数。然而,每个标注任务适合进行多少次标注是无法确定也无法进行合理调整的,只能根据理论或经验进行估计。因此,这很有可能导致针对某些标注任务选择了不合适的标注次数,从而浪费人力或降低标注准确性。
可选地,步骤S140可以进一步包括:发送多个标注结果,以由检查人员进行检查;接收检查反馈信息;以及发送检查反馈信息,以告知标注人员。在多个标注结果的相似度较小,使得标注结果未通过质量检测的情况下,可以将多个标注结果发送给检查人员进行检查。检查人员在对标注结果进行检查之后,可以提供检查反馈信息(即检查意见)。例如,在对人脸进行标注的标注任务中,有可能有的标注人员在较大的范围内标注人脸,有的标注人员在较小的范围内标注人脸,检查人员可以指出哪些标注人员的标注更符合要求并指出合适的标注范围应当是多大,这样的信息就是检查反馈信息。可以理解,检查人员对标注结果进行检查的过程也可以视为是一个标注过程,其中,标注单元为标注结果,标注要求可以为,例如,指出标注结果的不合理之处。因此,检查人员也可以视为标注人员。可以通过交互装置将检查反馈信息反馈给标注数据处理系统,标注数据处理系统将检查反馈信息反馈给所有参与该标注任务的标注人员,以由标注人员进行参考,从而指导标注人员提供更准确的标注结果。
可选地,步骤S130可以进一步包括:对多个标注结果进行平均,以获得与标注任务相关的平均标注结果。平均标注结果用于抽查。当多个标注结果通过质量检测时,可以确定平均标注结果,并将平均标注结果存储起来用于之后由抽查人员进行抽查。可以理解的是,标注数据处理系统同样可以维护抽查队列,可以将通过质量检测的标注任务移除出上述质量检测队列并存储起来,之后可以从所存储的标注任务中选择部分标注任务进行抽查。
平均标注结果的确定方式包含但不局限于以下几种:
若标注任务为在图像上标注若干点,则可以计算多个标注结果中的对应点的中间点作为平均标注结果;
若标注任务为在一段视频中的每帧图像上标注若干点,则可以分别计算多个标注结果中的对应图像中的对应点的中间点作为平均标注结果;
若标注任务为在图像上标注若干多边形,则可以计算多个标注结果中的对应多边形的相交部分或对应多边形上的对应点的中间点作为平均标注结果,应当注意,对于通过标注多边形上的若干点来标注多边形的标注任务来说,不同标注人员的标注顺序可能不一致(例如有的标注人员顺时针标注,有的标注人员逆时针标注),在这种情况下,可以首先按照各标注人员的标注顺序将每个标注人员标注出的多边形上的点对应起来,再计算平均标注结果;
若标注任务为在多个选项中选择一个选项,则多个标注结果应当都一致,都是唯一的正确选项,选择该选项作为平均标注结果;
若标注任务为在多个选项中选择多于一个的选项,则可以选择多个标注结果中的公共的已选选项或者多个标注结果中的所有已选选项作为平均标注结果,可以理解的是,选择公共的已选选项作为平均标注结果可以使最终标注结果的准确性较高,选择多个标注结果中的所有已选选项作为平均标注结果使最终标注结果的准确性较低,可以根据需要选择合适的方案;
若标注任务为输入一段特定的文字,则可以将多个标注结果中包含的所有文字作为平均标注结果;
若标注任务为标注图像中的人物的年龄范围,则可以计算多个标注结果中的年龄范围的公共范围(即年龄范围的交集)或总的范围(即年龄范围的并集)作为平均标注结果;
若标注任务为标注图像中的人脸朝向、人头方位或角度等,则可以计算多个标注结果中的人脸朝向、人头方位或角度等的平均值作为平均标注结果。
可选地,标注数据处理方法可以进一步包括:从标注任务集合中选择标注任务子集合;发送与标注任务子集合中的每个标注任务相关的平均标注结果,以由抽查人员进行抽查;接收抽查反馈信息;以及基于抽查反馈信息确定标注任务集合是否通过抽查。当多个标注结果通过质量检测时,可以将多个标注结果的平均标注结果及与其对应的标注任务存储起来。随后,可以从所存储的所有标注任务中选择一批标注任务组合在一起,形成标注任务集合。可以将标注任务集合中的所有标注任务加入抽查队列。随后从标注任务集合中选择标注任务子集合用于抽查。标注任务子集合的选择方式可以根据需要而定,本发明不对此进行限制。例如,可以从标注任务集合中随机抽样一定比例的标注任务作为标注任务子集合。该比例可预先设定,例如设定为10%~50%等,由于抽查需要耗费抽查人员的时间成本,因此可以根据实际需要确定抽样的比例。随后,将与标注任务子集合中的每个标注任务相关的平均标注结果发送给抽查人员进行人工审核。通过抽查,可以进一步确定与标注任务相关的平均标注结果是否合格,从而进一步提高标注准确性。
可选地,标注任务集合中的标注任务是标注类型相同并且标注时间在预设时段内的标注任务。标注类型相同是指标注任务中的标注要求是相同的,只是标注单元不同。例如,对于人脸标注来说,如果不同标注任务中的人脸图像是不同的,但是标注要求相同,例如均要求标出人脸上的20个关键点,则可以认为这些标注任务属于同一标注类型的标注任务。还例如,如果标注单元为不同的包含人物的图像,标注要求均为标注出图像中的人物的年龄范围,则这样的标注任务也属于同一标注类型的标注任务。标注时间是指接收到标注结果的时间,也就是标注人员提供其标注结果的时间。由于实际标注情况可能会随着时间变化,其可能是不稳定的,因此标注时间应该比较接近,会比较具有参考价值。
可选地,确定标注任务集合是否通过抽查包括:基于抽查反馈信息获得抽查通过率;以及将抽查通过率与通过率阈值相比较,如果抽查通过率大于或等于通过率阈值,则确定标注任务集合通过抽查,如果抽查通过率小于通过率阈值,则确定标注任务集合未通过抽查。在确定标注任务集合是否通过抽查之后,标注数据处理方法可以进一步包括:如果标注任务集合通过抽查,则基于抽查反馈信息确定与标注任务集合中的每个标注任务相关的最终标注结果;以及如果标注任务集合未通过抽查,则增大相似度阈值并转至步骤S120。
抽查反馈信息是抽查人员提供的信息,其可以包括直接指示抽查通过率的值的信息,例如指出某次抽查的抽查通过率是多少。抽查反馈信息还可以包括指出接受抽查的每个平均标注结果是否存在错误和/或错误如何纠正的信息。之后,可以根据接受抽查的所有平均标注结果的正确和错误情况来计算抽查通过率。通过率阈值可以是任何合适的值,例如通过率阈值可以大于或等于90%并且小于或等于99%。如果抽查通过率小于通过率阈值,则说明整个标注任务集合未通过抽查,可以将该标注任务集合中的所有标注任务从抽查队列中移除并重新加入质量检测队列,并且增大这些标注任务的相似度阈值,使得对这些标注任务的标注准确性的要求变得更高。如果抽查通过率大于或等于通过率阈值,则说明整个标注任务集合通过抽查,可以认为该标注任务集合中的所有标注任务已完成。随后,可以基于抽查反馈信息确定最终标注结果。例如,如果抽查过程中未发现错误,则可以直接将与标注任务集合中的每个标注任务相关的平均标注结果作为最终标注结果,如果抽查过程中发现错误,则可以在过滤掉抽查中发现的错误标注后获得最终标注结果。
可选地,在步骤S110之前,标注数据处理方法可以进一步包括:接收与标注人员相关的标识信息;基于标识信息从待标注队列中选择标注任务,标注任务与标注人员相对应;以及发送标注任务,以由标注人员提供与标注任务相关的标注结果;以及接收标注人员提供的标注结果作为多个标注结果之一。如上文所述,可以维护待标注队列,其包括若干标注任务。标注数据处理系统可以通过交互装置,例如用户交互接口,将标注任务发送给标注人员。标注数据处理系统与标注人员的交互可以进一步利用例如应用程序(APP)实现。标注人员可以打开该APP,输入其标识信息。标识信息可以是任何能够用于标识标注人员的身份的信息,例如标注人员的账户名及密码等。标注数据处理系统可以基于该标识信息识别标注人员的身份,进而向其发送适合其的标注任务。例如,标注人员已经接受并完成的标注任务将不再发送给该标注人员。此外,可以理解的是,标注人员也可以主动发起请求,例如请求希望参与的标注任务的类型,标注数据处理系统可以根据其请求选择并发送适合该标注人员的标注任务。
如上文所述,检查人员对标注结果进行检查的过程也可以视为是一个标注过程,检查人员也可以视为标注人员。因此,可选地,上述标注人员和检查人员可以是同一组人。也就是说,同一人既可以是标注人员也可以是检查人员,其可以根据需要灵活转换。这样可以防止出现标注人员和检查人员比例不匹配的问题,从而可以避免标注人员非常繁忙而检查人员非常空闲的状态或标注人员非常空闲而检查人员非常繁忙的状态。该实现方案中的各步骤与上文所述的标注数据处理方法中的步骤基本一致,但在进行质量检测时,需要注意针对同一标注任务选择不同的人进行标注和质量检测,即防止同一标注任务的标注人员和检查人员为同一人。
根据本发明另一方面,提供一种标注数据处理系统。图4示出根据本发明一个实施例的标注数据处理系统400的示意性框图。如图4所示,标注数据处理系统400包括计算装置410、相似度比较装置420、第一执行装置430和第二执行装置440。
计算装置410用于计算与标注任务相关的多个标注结果的相似度。相似度比较装置420用于将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则启动第一执行装置430,如果相似度小于相似度阈值,则启动第二执行装置440。第一执行装置430用于确定多个标注结果通过质量检测。第二执行装置440用于确定多个标注结果未通过质量检测。
计算装置410、相似度比较装置420、第一执行装置430和第二执行装置440中的任何一个或多个可以采用任何合适的硬件、软件和/或固件实现,例如通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理(DSP)等实现。计算装置410、相似度比较装置420、第一执行装置430和第二执行装置440中的任何一个或多个可以与标注数据处理系统400中的其他装置集成在一起或采用单独的装置来实现。计算装置410和相似度比较装置420之间可以采用直接或间接的方式连接,例如通过有线或无线方式连接。相似度比较装置420和第一执行装置430或第二执行装置440之间可以也采用直接或间接的方式连接,例如通过有线或无线方式连接。
根据本发明提供的标注数据处理系统,由于利用相似度自动检测标注结果的质量,因此使得标注人员有可能及时获知标注结果的质量,进而有可能及时纠正标注错误,可以有效提高标注准确性。
可选地,标注数据处理系统400可以进一步包括获取装置、判断装置和标注结果确定装置(未示出)。获取装置用于获取与标注任务相关的特定数目的标注结果。判断装置用于判断特定数目是否等于与标注任务相关的数目阈值,如果特定数目等于数目阈值,则启动标注结果确定装置,否则启动获取装置。标注结果确定装置用于将特定数目的标注结果确定为多个标注结果并启动计算装置。与上述计算装置410、相似度比较装置420、第一执行装置430和第二执行装置440类似地,获取装置、判断装置和标注结果确定装置中的任何一个或多个可以采用任何合适的硬件、软件和/或固件实现。
可选地,第二执行装置440可以进一步用于增大数目阈值并启动获取装置。当确定多个标注结果未通过质量检测时,可以增大数目阈值,并获取更多个标注结果用于进行质量检测。可以理解的是,由于如上文所述的,在由检查人员对标注结果进行人工检查并给出检查反馈信息的过程中,对检查人员的检查精度的要求并不太高,而对标注人员的标注准确性的要求更高一些,因此可以省略人工检查,通过增大数目阈值的方式,直接利用质量检测来保证标注质量。对于多个标注结果相差较大的标注任务可以要求增大数目阈值,即增加标注次数。对于多个标注结果明显一致的或是大多数标注结果较为相近的标注任务,可以直接对多个标注结果进行平均以获得平均标注结果,如上文所述。这样,可以尽量高效的利用标注人力,同时可以通过合理的多人重复标注,达到提升标注质量的目的。
可选地,第二执行装置440可以进一步包括标注结果发送模块、检查反馈接收模块和检查反馈发送模块。标注结果发送模块用于发送多个标注结果,以由检查人员进行检查。检查反馈接收模块用于接收检查反馈信息。检查反馈发送模块用于发送检查反馈信息,以告知标注人员。在多个标注结果的相似度较小,使得标注结果未通过质量检测的情况下,可以将多个标注结果发送给检查人员进行检查。检查人员在对标注结果进行检查之后,可以提供检查反馈信息。由检查人员进行人工检查可以与利用相似度检测标注结果的质量的方式结合起来,以进一步提高标注结果的准确性。
可选地,第一执行装置430可以进一步用于对多个标注结果进行平均,以获得与标注任务相关的平均标注结果。平均标注结果可以用于抽查。当多个标注结果通过质量检测时,可以确定平均标注结果,并将平均标注结果存储起来用于之后由抽查人员进行抽查。上文已经举例描述了平均标注结果的确定方式,在此不再赘述。
可选地,标注数据处理系统400可以进一步包括子集合选择装置、第一发送装置、第一接收装置和抽查通过确定装置(未示出)。子集合选择装置用于从标注任务集合中选择标注任务子集合。第一发送装置用于发送与标注任务子集合中的每个标注任务相关的平均标注结果,以由抽查人员进行抽查。第一接收装置,用于接收抽查反馈信息。抽查通过确定装置,用于基于抽查反馈信息确定标注任务集合是否通过抽查。可以理解,标注数据处理系统400可以包括存储装置(未示出),用于存储通过质量检测的标注任务。可以从所存储的所有标注任务中选择一批标注任务组合在一起,形成标注任务集合。随后可以从标注任务集合中选择,例如随机抽样一部分标注任务作为标注任务子集合用于抽查。通过抽查,可以进一步确定与标注任务相关的平均标注结果是否合格,从而进一步提高标注准确性。
可选地,标注任务集合中的标注任务是标注类型相同并且标注时间在预设时段内的标注任务。标注类型相同并且标注时间比较相近的标注任务之间会比较具有互相参考的价值和意义。
可选地,抽查通过确定装置可以包括通过率获得模块和通过率比较模块。通过率获得模块用于基于抽查反馈信息获得抽查通过率。通过率比较模块用于将抽查通过率与通过率阈值相比较,如果抽查通过率大于或等于通过率阈值,则确定标注任务集合通过抽查,如果抽查通过率小于通过率阈值,则确定标注任务集合未通过抽查。标注数据处理系统400可以进一步包括最终标注结果确定装置和相似度增大装置(未示出)。最终标注结果确定装置,用于如果标注任务集合通过抽查,则基于抽查反馈信息确定与标注任务集合中的每个标注任务相关的最终标注结果。相似度增大装置,用于如果标注任务集合未通过抽查,则增大相似度阈值并启动相似度比较装置。
抽查通过率可以直接由抽查人员给出或根据抽查人员对标注结果的正确和错误评价来确定,本发明不对此进行限制。通过抽查通过率可以确定标注任务集合是否通过抽查,即与标注任务集合中的每个标注任务相关的平均标注结果是否合格或说满足要求,并进而可以选择确定最终标注结果或选择增大相似度阈值并重新进行质量检测。
可选地,标注数据处理系统400可以进一步包括第二接收装置、标注任务选择装置、第二发送装置和第三接收装置(未示出)。第二接收装置用于接收与标注人员相关的标识信息。标注任务选择装置用于基于标识信息从待标注队列中选择标注任务,标注任务与标注人员相对应。第二发送装置用于发送标注任务,以由标注人员提供与标注任务相关的标注结果。第三接收装置用于接收标注人员提供的标注结果作为多个标注结果之一。如上文所述,标注数据处理系统400可以根据标注人员的标识信息选择适合该标注人员的标注任务并将标注任务发送给该标注人员,在此不再对其进行赘述。
上文已经结合图1至图3描述了本发明提供的标注数据处理方法的各步骤的实施方式及其优点等,本领域普通技术人员通过阅读上文关于标注数据处理方法的详细描述,能够理解上述标注数据处理系统400的结构、运行方式以及优点,因此这里不再赘述。
在此提供的方法和装置不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的标注数据处理系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。