CN116206311A - 一种快速标注ocr错误的方法 - Google Patents
一种快速标注ocr错误的方法 Download PDFInfo
- Publication number
- CN116206311A CN116206311A CN202310306782.0A CN202310306782A CN116206311A CN 116206311 A CN116206311 A CN 116206311A CN 202310306782 A CN202310306782 A CN 202310306782A CN 116206311 A CN116206311 A CN 116206311A
- Authority
- CN
- China
- Prior art keywords
- data
- sorting
- ocr
- thumbnail
- quickly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及教育技术领域,且公开了一种快速标注OCR错误的方法,包括以下步骤:1)、读取小题数据:读取一个小题的OCR识别数据;2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;5)、导出数据。本发明通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注,在对同一小题的识别数据进行排序时可采用四种不同的排序方式,排序方式可选择,整体排序准确度提高。
Description
技术领域
本发明涉及教育技术领域,尤其涉及一种快速标注OCR错误的方法。
背景技术
ocr识别错误数据对后续的ocr修复、训练都有很大帮助。但是要很快找到ocr识别错误的数据却是比较麻烦的;
传统的标注方法是需要人工一个个依次标注,比较缓慢,整体效率有待提高。
为此,我们提出一种快速标注OCR错误的方法。
发明内容
本发明主要是解决上述现有技术所存在的技术问题,提供一种快速标注OCR错误的方法。
为了实现上述目的,本发明采用了如下技术方案,一种快速标注OCR错误的方法,包括以下步骤:
1)、读取小题数据:读取一个小题的OCR识别数据;
2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;
3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;
4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;
5)、导出数据。
作为优选,所述步骤一中在进行识别时,单次OCR识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存。
作为优选,所述步骤二中排序时仅限于同一小题内数据进行排序,排序方式有四种。
作为优选,所述步骤2中的排序方式包括以下:a.按与答案接近的程度进行排序;
b.按照机器批阅结果进行排序;
c.按文字词汇正确的程度进行排序;
d.按文字的置信程度进行排序。
作为优选,所述步骤三中同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片。
作为优选,所述步骤四中在对数据进行数据框选时采用人工框选的方式。
有益效果
本发明提供了一种快速标注OCR错误的方法。具备以下有益效果:
(1)、该一种快速标注OCR错误的方法,读取一个小题的OCR识别数据,识别后的字符转换为计算机文字并进行储存,然后采用特定的方式对识别转换的小题数据进行特定的综合排序,排序时仅限于同一小题内数据进行排序,识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示,同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,人工观察快速查看缩略图找出ocr异常的数据进行选中,在同一个小题内,考生的书写内容不会有太多可能的写法,通过让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,这样即可很快的找出有错误的ocr数据,并且进行标注。
(2)、该一种快速标注OCR错误的方法,通过在对同一小题的识别数据进行排序时可采用四种不同的排序方式,在识别时可选择不同的排序方式进行排序,排序方式可选择,根据不同排序方式对应的排序结果可进行对比,整体排序准确度提高。
(3)、该一种快速标注OCR错误的方法,通过在对让同一个小题内的数据进行排序,然后使用缩略图以观察错误数据,缩略图可从人员一次察看多张数据图片,整体效率更快速便捷。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍。显而易见的,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其他的实施附图。
图1为本发明处理步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种快速标注OCR错误的方法,包括以下步骤:
1)、读取小题数据:读取一个小题的OCR识别数据,单次OCR识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存;
2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序,排序时仅限于同一小题内数据进行排序,排序方式有四种:
a.按与答案接近的程度进行排序,与答案越接近的数据越靠前,与答案越偏离的数据越靠后。
b.按照机器批阅结果进行排序
c.按文字词汇正确的程度进行排序,文字词汇正确度越高的数据越靠前,文字词汇正确度越低的数据越靠后。
d.按文字的置信程度进行排序;
3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示,同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片,便于后期人工快速查看整体小题数据;
4)、快速框选错误:人工观察快速查看缩略图找出ocr异常的数据进行选中,经过压缩处理后显示的缩略图可供人员一次察看多张数据图片,框选错误更加快速便捷;
5)、导出数据。
本发明的工作原理:读取一个小题的OCR识别数据,单次OCR识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存,然后采用特定的方式对识别转换的小题数据进行特定的综合排序,排序时仅限于同一小题内数据进行排序,识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示,同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片,便于后期人工快速查看整体小题数据,人工观察快速查看缩略图找出ocr异常的数据进行选中,经过压缩处理后显示的缩略图可供人员一次察看多张数据图片,框选错误更加快速便捷,导出数据,错误标注完毕。
Claims (6)
1.一种快速标注OCR错误的方法,其特征在于:包括以下步骤:
1)、读取小题数据:读取一个小题的OCR识别数据;
2)、小题数据排序:采用特定的方式对识别转换的小题数据进行特定的综合排序;
3)、显示缩略图:识别出的数据对应特定的数据图像,将排序后的数据对应的图像进行压缩处理,处理后的图像进行缩略图显示;
4)、快速框选错误:查看缩略图找出ocr异常的数据并进行选中;
5)、导出数据。
2.根据权利要求1所述的一种快速标注OCR错误的方法,其特征在于:所述步骤一中在进行识别时,单次OCR识别仅限于同一小题内,识别后的字符转换为计算机文字并进行储存。
3.根据权利要求1所述的一种快速标注OCR错误的方法,其特征在于:所述步骤二中排序时仅限于同一小题内数据进行排序,排序方式有四种。
4.根据权利要求3所述的一种快速标注OCR错误的方法,其特征在于:所述步骤2中的排序方式包括以下:a.按与答案接近的程度进行排序;
b.按照机器批阅结果进行排序;
c.按文字词汇正确的程度进行排序;
d.按文字的置信程度进行排序。
5.根据权利要求1所述的一种快速标注OCR错误的方法,其特征在于:所述步骤三中同一小题内的所有数据图片进行经过压缩处理后的得到对应的小图,对应的小图即为缩略图,缩略图显示可供相关人员一次察看多个数据照片。
6.根据权利要求1所述的一种快速标注OCR错误的方法,其特征在于:所述步骤四中在对数据进行数据框选时采用人工框选的方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310306782.0A CN116206311A (zh) | 2023-03-27 | 2023-03-27 | 一种快速标注ocr错误的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310306782.0A CN116206311A (zh) | 2023-03-27 | 2023-03-27 | 一种快速标注ocr错误的方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116206311A true CN116206311A (zh) | 2023-06-02 |
Family
ID=86509615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310306782.0A Pending CN116206311A (zh) | 2023-03-27 | 2023-03-27 | 一种快速标注ocr错误的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116206311A (zh) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010061471A (ja) * | 2008-09-04 | 2010-03-18 | Fuji Xerox Co Ltd | 文字認識装置およびプログラム |
| CN102262614A (zh) * | 2010-05-31 | 2011-11-30 | 汉王科技股份有限公司 | 纵向校对方法和装置 |
| CN109492635A (zh) * | 2018-09-20 | 2019-03-19 | 第四范式(北京)技术有限公司 | 获取标注数据的方法、装置、设备及存储介质 |
| CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
| CN112906499A (zh) * | 2021-01-29 | 2021-06-04 | 联想(北京)有限公司 | 文本信息识别方法及装置 |
| CN113051457A (zh) * | 2019-12-26 | 2021-06-29 | 成都牧云人人工智能科技有限公司 | 一种图文提取方法及终端 |
| CN114694152A (zh) * | 2022-04-01 | 2022-07-01 | 江苏行声远科技有限公司 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
-
2023
- 2023-03-27 CN CN202310306782.0A patent/CN116206311A/zh active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010061471A (ja) * | 2008-09-04 | 2010-03-18 | Fuji Xerox Co Ltd | 文字認識装置およびプログラム |
| CN102262614A (zh) * | 2010-05-31 | 2011-11-30 | 汉王科技股份有限公司 | 纵向校对方法和装置 |
| CN109492635A (zh) * | 2018-09-20 | 2019-03-19 | 第四范式(北京)技术有限公司 | 获取标注数据的方法、装置、设备及存储介质 |
| CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
| CN113051457A (zh) * | 2019-12-26 | 2021-06-29 | 成都牧云人人工智能科技有限公司 | 一种图文提取方法及终端 |
| CN112906499A (zh) * | 2021-01-29 | 2021-06-04 | 联想(北京)有限公司 | 文本信息识别方法及装置 |
| CN114694152A (zh) * | 2022-04-01 | 2022-07-01 | 江苏行声远科技有限公司 | 基于三源ocr结果的印刷文本可信度融合方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102600475B1 (ko) | 제품 결함 검출 학습을 위한 딥러닝 기반 데이터 증강 방법 | |
| CN107391703B (zh) | 图像库的建立方法及系统、图像库和图像分类方法 | |
| CN104835098A (zh) | 一种病历电子数据识别方法及系统 | |
| CN112115301B (zh) | 一种基于课堂笔记的视频标注方法及系统 | |
| CN113010711B (zh) | 一种基于深度学习的影视海报自动生成方法与系统 | |
| CN116090560B (zh) | 基于教材的知识图谱建立方法、装置及系统 | |
| CN108876195A (zh) | 一种智能化的教师教学质量评测系统 | |
| CN111814798A (zh) | 题目数字化处理方法和可读存储介质 | |
| CN119598971A (zh) | 一种基于深度学习和版面分析的pdf提取方法和系统 | |
| CN114596259A (zh) | 无参考的视频质量确定方法、装置、设备和存储介质 | |
| CN114202518B (zh) | 一种基于深度学习的交互式图像标注方法 | |
| CN109993153A (zh) | 一种基于边缘计算的人工智能阅卷系统 | |
| CN116206311A (zh) | 一种快速标注ocr错误的方法 | |
| CN115482535A (zh) | 一种试卷自动批改方法、存储介质及设备 | |
| CN113505665B (zh) | 基于视频的学生在校情绪判读方法以及装置 | |
| CN114118010A (zh) | 一种文件转换方法、计算机设备和存储介质 | |
| CN117671709B (zh) | 一种图像中表格线条去除方法及系统 | |
| CN118888075A (zh) | 一种法医鉴定报告的审查系统及方法 | |
| CN111382749A (zh) | 一种基于二维结构特征的青铜器铭文图像自动识别方法 | |
| CN117315665A (zh) | 一种基于原笔迹识别的题目自动批阅方法及系统 | |
| CN115565178A (zh) | 一种字体识别的方法及装置 | |
| CN120148059B (zh) | 一种制造装备非标零件bom表智能检查方法及系统 | |
| CN107886808B (zh) | 一种盲文方辅助标注方法及系统 | |
| CN112686253A (zh) | 一种用于电子白板的屏幕文字提取系统及方法 | |
| CN113723543B (zh) | 一种自动裁题展示方法、装置、计算机设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |