CN112868001A - 文档检索装置、文档检索程序、文档检索方法 - Google Patents
文档检索装置、文档检索程序、文档检索方法 Download PDFInfo
- Publication number
- CN112868001A CN112868001A CN201980065122.XA CN201980065122A CN112868001A CN 112868001 A CN112868001 A CN 112868001A CN 201980065122 A CN201980065122 A CN 201980065122A CN 112868001 A CN112868001 A CN 112868001A
- Authority
- CN
- China
- Prior art keywords
- document
- keyword
- document information
- character string
- information group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种文档检索装置,具有:文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;相似关键字选择部,根据与所述输入关键字之间的相似度,从由基于所述输入关键字生成的通配符字符串所组成的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述文档数据库的检索;以及输出部,输出针对所述文档数据库的、基于所述输入关键字的检索结果和基于所述相似关键字的检索结果。
Description
技术领域
本发明涉及一种文档(document)检索装置、文档检索程序、文档检索方法。
背景技术
以经济高度成长期为中心的时代的技术开发中所制作的技术文档包括在纸质介质上通过手写而制作的文档。这些手写的技术文档是技术和技能的宝库,同时也可用于解决目前正在面对的技术课题。然而,就纸质文档的形态而言,存在由于被保存在仓库内因此获取较费时间、由于需要一页一页地对纸质文档进行确认因此找到理想的技术信息较费人力等的难点,另外还存在无法充分利用所保存的技术文档的问题。
另一方面,近年来,通过光学读取装置等将纸质文档等所包含的字符信息变换为图像数据作为电子数据,再对该图像数据实施光学字符识别(Optical CharacterRecognition:OCR)处理,从而将图像数据中包含的字符信息作为字符数据而提取,由此可对纸质文档等所包含的字符信息进行电子文件化。此外,针对上述手写的技术文档进行电子文件化,以可迅速地对其进行检索、阅览等的要求也日益提高。
现有技术中,针对手写的技术文档进行字符识别时的精度不足,因此正在对识别精度提高进行积极研究。例如,专利文献1中公开了一种技术,以提供一种通过降低检索噪音从而提高检索精度为目的。其中具有识别错误评价部,在与检索关键字不完全一致的情况下,可对检索结果字符串中发生识别错误的可能性进行判断,并具有对识别错误发生的可能性进行判断的过程。专利文献2中公开了一种使用索引表对原始文档内的字符进行识别的技术,通过连续的2个字符的组,可对置信度进行计算,该置信度用于表示上述字符在原始文档的一部分中存在的概率。
<现有技术文献>
<专利文献>
专利文献1:日本发明专利第3669626号公报
专利文献2:日本发明专利第5594134号公报
发明内容
<本发明要解决的问题>
在字符信息的错误识别较多的情况下,会发生即使对通过光学字符识别处理而获得的电子文件进行数字检索也找不到结果(无法命中)的问题。另一方面,如果通过模糊检索等在较大范围内进行检索,则可降低无法命中的可能性,并能提高检索的全面性,但需要牺牲检索的正确性。专利文献1和2中都没有给出提高检索的正确性的启示。
鉴于上述问题并且为了解决上述问题,本发明的目的在于提高关键字检索的命中率(hit rate),并防止错误检测。
<用于解决问题的手段>
本发明具有如下所述的构成。
[1]一种文档检索装置,具有:文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;相似关键字选择部,根据与所述输入关键字之间的相似度,从由基于所述输入关键字生成的通配符字符串所组成的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述文档数据库的检索;以及输出部,输出针对所述文档数据库的、基于所述输入关键字的检索结果和基于所述相似关键字的检索结果。
[2]根据[1]所述的文档检索装置,还具有:非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;以及字符串检索部,通过所述通配符字符串组对所述非符合文档信息组进行检索,获取非符合文档信息组中存在的通配符字符串组,其中,在所述相似关键字选择部中,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字。
[3]根据[1]所述的文档检索装置,还具有:非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组,其中,所述相似关键字选择部使所述文档检索部执行基于所述相似关键字的所述非符合文档信息组的检索,输出部输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
[4]一种文档检索装置,具有:文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;字符串检索部,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取非符合文档信息组中存在的通配符字符串组;相似关键字选择部,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述非符合文档信息组的检索;以及输出部,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
[5]根据[1]至[4]中任一项所述的文档检索装置,具有:相似度获取部,参照保存有特定领域的关键字组的关键字数据库,针对所述通配符字符串组中包含的各字符串,分别获取与所述输入关键字之间的相似度和与所述特定领域的关键字之间的相似度,其中,所述相似关键字选择部将所述通配符字符串组中包含的字符串或非符合文档信息组中存在的通配符字符串组中包含的字符串之中的、与所述输入关键字之间的相似度最高的字符串选择为相似关键字。
[6]根据[2]至[5]中任一项所述的文档检索装置,具有:条件判定部,判定被选择为所述相似关键字的字符串的相似度是否满足预定条件,其中,在所述被选择的字符串的相似度不满足所述预定条件的情况下,所述相似关键字选择部将所述被选择的字符串之中的、相似度满足所述预定条件的字符串作为高相似关键字,所述文档检索部通过所述高相似关键字对所述非符合文档信息组进行检索,所述输出部输出基于所述高相似关键字的检索结果。
[7]根据[2]至[5]中任一项所述的文档检索装置,具有:非相似关键字选择部,将所述通配符字符串组中包含的字符串或所述非符合文档信息组中存在的通配符字符串组中包含的字符串之中的、与所述输入关键字之间的相似度并非最高的字符串之中的、与输入关键字之间的相似度为预定阈值以上的字符串选择为非相似关键字,其中,所述文档检索部通过所述非相似关键字对所述非符合文档信息组进行检索,所述输出部将基于所述非相似关键字的检索结果、与基于所述输入关键字的检索结果和基于所述相似关键字的检索结果一起输出。
[8]根据[1]至[5]中任一项所述的文档检索装置,其中,所述输出部将作为基于所述输入关键字的检索结果的文档信息和作为基于所述相似关键字的检索结果的文档信息作为一览显示于终端装置。
[9]根据[6]所述的文档检索装置,其中,所述输出部将作为基于所述输入关键字的检索结果的文档信息和作为基于所述高相似关键字的检索结果的文档信息作为一览显示于终端装置。
[10]根据[7]所述的文档检索装置,其中,所述输出部将作为基于所述非相似关键字的检索结果的文档信息、与作为基于所述输入关键字的检索结果的文档信息和作为基于所述相似关键字的检索结果的文档信息一起作为一览显示于终端装置。
[11]根据[8]至[10]中任一项所述的文档检索装置,其中,在所述文档信息中,所述文本数据与用于确定所述文档图像数据的识别信息相关联,所述输出部在所述一览中接受所述文档信息的选择,并且参照文档图像数据库,使与被选择的所述文档信息的识别信息相对应的文档图像数据和所述一览一起进行显示,该文档图像数据库中以相关联的方式保存有所述文档图像数据和所述文档图像数据的识别信息。
[12]一种文档检索程序,使计算机执行以下处理:文档检索处理,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;文档信息组提取处理,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;字符串检索处理,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取所述非符合文档信息组中存在的通配符字符串组;相似关键字选择处理,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且通过所述文档检索处理,执行基于所述相似关键字的所述非符合文档信息组的检索;以及输出处理,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
[13]一种由计算机进行的文档检索方法,由所述计算机执行以下步骤:文档检索步骤,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;文档信息组提取步骤,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;字符串检索步骤,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取所述非符合文档信息组中存在的通配符字符串组;相似关键字选择步骤,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且在所述文档检索步骤中,执行基于所述相似关键字的所述非符合文档信息组的检索;以及输出步骤,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
<发明的效果>
不仅能够提高关键字检索的命中率,而且能够防止错误检测。
附图说明
[图1]第一实施方式的文档检索系统的系统构成的一例的示意图。
[图2]第一实施方式的文档检索装置的硬件构成的说明图。
[图3]第一实施方式的文档图像数据库的一例的示意图。
[图4]第一实施方式的文档数据库的一例的示意图。
[图5]第一实施方式的特定领域关键字数据库的一例的示意图。
[图6]第一实施方式的文档检索装置的功能说明图。
[图7A]对第一实施方式的文档检索装置的动作进行说明的第一流程图。
[图7B]对第一实施方式的文档检索装置的动作进行说明的第二流程图。
[图8]对第一实施方式中的相似关键字的选择进行说明的说明图。
[图9]对第一实施方式的文档ID的一览的显示例进行表示的第一图。
[图10]对第一实施方式的文档ID的一览的显示例进行表示的第二图。
[图11]第二实施方式的文档检索装置的功能说明图。
[图12A]对第二实施方式的文档检索装置的动作进行说明的第一流程图。
[图12B]对第二实施方式的文档检索装置的动作进行说明的第二流程图。
[图13]对第二实施方式的文档ID的一览的显示例进行表示的第二图。
[图14]第三实施方式的文档检索装置的功能说明图。
[图15A]对第三实施方式的文档检索装置的动作进行说明的第一流程图。
[图15B]对第三实施方式的文档检索装置的动作进行说明的第二流程图。
[图16]对第三实施方式的文档ID的一览的显示例进行表示的图。
具体实施方式
本发明的文档检索装置具有文档检索部、相似关键字选择部、以及输出部。输入关键字被输入后,上述文档检索部通过上述输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到。相似关键字选择部根据与上述输入关键字之间的相似度从由基于上述输入关键字生成的通配符字符串而构成的通配符字符串组中选择相似关键字,并使上述文档检索部执行基于上述相似关键字的上述文档数据库的检索。输出部输出针对上述文档数据库的、基于上述输入关键字的检索结果和基于上述相似关键字的检索结果。
本发明的文档检索装置还可具有非符合文档信息组提取部。上述非符合文档信息组提取部从上述文档数据库中提取非符合文档信息组,该非符合文档信息组是作为基于上述输入关键字的检索结果的文档信息组以外的文档信息组。在此情况下,在相似关键字选择部中,也可根据与上述输入关键字之间的相似度,从上述非符合文档信息组中存在的通配符字符串组中选择相似关键字。
另外,在此情况下,通过使用上述被选择的相似关键字预先对作为基于上述输入关键字的检索结果的文档信息组进行检索,当对后述的检索结果的一览进行显示时,即使是在作为基于上述输入关键字的检索结果的文档信息组所包含的文档内,除了输入关键字的位置以外,还可对作为相似关键字而被进行了字符识别处理的位置也进行加强显示(highlight display)等的显示,此为优选。
在本发明的文档检索装置具有上述非符合文档信息组提取部的情况下,相似关键字选择部也可使上述文档检索部执行基于上述相似关键字的上述非符合文档信息组的检索。在此情况下,输出部可输出针对上述文档数据库的基于上述输入关键字的检索结果和针对上述非符合文档信息组的基于上述相似关键字的检索结果。
作为本发明的文档检索装置的实施方式,还可根据与上述输入关键字之间的相似度,从上述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并使上述文档检索部执行基于上述相似关键字的上述非符合文档信息组的检索。在此情况下,输出部可输出针对上述文档数据库的基于上述输入关键字的检索结果和针对上述非符合文档信息组的基于上述相似关键字的检索结果。
以下,通过列举示例对本发明进行具体的说明。
(第一实施方式)
以下,参照附图对第一实施方式进行说明。图1是第一实施方式的文档检索系统的系统构成的一例的示意图。
本实施方式的文档检索系统100具有文档检索装置200。文档检索系统100还具有终端装置300,文档检索装置200和终端装置300可经由网络连接。终端装置300除了通信接口装置等以外还具有键盘等的输入装置和液晶显示器等的输出装置。
本实施方式的文档检索装置200具有文档图像数据库210、文档数据库220、特定领域关键字数据库230、以及检索处理部240。
文档图像数据库210对通过光学读取装置等所读取的纸质文档的图像数据进行保存。需要说明的是,纸质文档例如为通过手写而制作的纸质文档等。作为手写的纸质文档,可列举出与特定技术领域相关的技术文档,包括在纸质介质上通过手写而制作的记录本、报告书等、包含手写字符信息的设计图、照片等、附加了手写字符信息的测量记录纸等。或者,纸质文档为活字印刷纸质文档等。作为活字印刷纸质文档,可列举出特定技术领域的技术文档,包括在纸质介质上进行了活字印刷的报告书、设计图等。此外,就作为对象的纸质文档而言,也可混合存在手写纸质文档和活字印刷纸质文档。文档数据库220对文档信息进行保存,该文档信息包含通过对文档图像数据库210中保存的图像数据实施OCR(OpticalCharacter Recognition:OCR)处理而获取的字符信息。特定领域关键字数据库230对与特定领域相关的关键字组进行保存。在上述纸质文档为特定技术领域的技术文档的情况下,特定领域关键字数据库230对与特定技术领域相关的关键字组进行保存。需要说明的是,上述“纸质介质”不仅包括纸,也包括塑料膜、布、板、皮、壁等。
预先创建本实施方式的文档图像数据库210、文档数据库220、以及特定领域关键字数据库230。
从终端装置300或后述的输入装置24等接受了关键字的输入后,本实施方式的检索处理部240对文档数据库220进行检索,由此确定由包含了输入的关键字的文档信息所组成的字符信息组A,并将其作为检索结果。在以下的说明中,将输入至文档检索装置200的关键字称为“输入关键字”。
另外,本实施方式的检索处理部240还从文档数据库220中确定文档信息组notA,该文档信息组notA是除了作为基于输入关键字的检索结果的文档信息组以外的文档信息组(以下,记为非符合文档信息组。)。接下来,检索处理部240根据所确定的文档信息组notA和特定领域关键字数据库230中保存的各关键字以及输入关键字,获取与输入关键字相似的相似关键字,并通过所获取的相似关键字对上述非符合文档信息组notA进行检索。
之后,检索处理部240将作为基于输入关键字的文档数据库220的检索结果的文档信息组A和作为基于相似关键字的非符合文档信息组notA的检索结果的文档信息组A’输出至终端装置300。
如此,本实施方式中,执行完基于输入关键字的检索之后,通过使用参照非符合文档信息组notA而获取的相似关键字,可再次对非符合文档信息组notA进行检索。
因此,本实施方式中,例如即使在进行OCR处理时对文档数据库220中保存的文档信息内的与输入关键字一致的单词进行了错误识别的情况下,通过进行基于相似关键字的检索,也存在能从非符合文档信息组中提取文档的可能性。
因此,根据本实施方式,不仅能够提高关键字检索的命中率,而且能够防止错误检测。
需要说明的是,在图1的例中,文档图像数据库210、文档数据库220、及特定领域关键字数据库230设于文档检索装置200,但并不限定于此。文档图像数据库210、文档数据库220、及特定领域关键字数据库230也可分别设于能与文档检索装置200进行通信的外部装置。此外,还可将文档图像数据库210、文档数据库220、及特定领域关键字数据库230的一部分设于文档检索装置200。
接下来,参照图2对本实施方式的文档检索装置200的硬件构成进行说明。图2是第一实施方式的文档检索装置的硬件构成的说明图。
本实施方式的文档检索装置200是一种包含图像输入装置和计算机并对文档信息进行处理的装置。换言之,本实施方式的文档检索装置200是一种具有CPU(CentralProcessing Unit)21、主存储装置22、辅助存储装置23、输入装置24、输出装置25、通信接口(I/F)装置26、及驱动装置27且各自通过总线(bus)进行了连接的信息处理装置。
CPU21是对文档检索装置200的动作进行控制的主控制部,通过读取并执行主存储装置22内保存的文档检索程序,可实现后述的各种功能。
当文档检索装置200起动时,主存储装置22从辅助存储装置23读取并保存文档检索程序。辅助存储装置23对所安装的文档检索程序进行保存,同时还对上述各数据库等所需的文件(file)、数据等进行保存。
输入装置24是用于进行各种信息的输入的装置,例如可通过键盘、指示装置(pointing device)等实现。输出装置25是用于进行各种信息的输出的装置,例如可通过显示器等实现。通信接口装置26包括LAN卡等,用于与网络进行连接。
用于实现本实施方式的检索处理部240的文档检索程序是控制文档检索装置200的各种程序的至少一部分。文档检索程序例如可通过存储介质28的分配(deliver)或从网络下载等的方式来进行提供。用于记录文档检索程序的存储介质28可使用诸如CD-ROM、软盘、光磁盘等的对信息采用光学、电或磁的方式进行记录的存储介质、诸如ROM、快闪存储器(flash memory)等的对信息以电的方式进行记录的半导体存储器等的各种类型的存储介质。
此外,记录有文档检索程序的存储介质28被放入驱动装置27后,文档检索程序可从存储介质28经由驱动装置27而被安装于辅助存储装置23。从网络下载的文档检索程序可经由通信接口装置26而被安装至辅助存储装置23。
接下来,参照图3至图5对本实施方式的各数据库进行说明。本实施方式的各数据库例如可设于辅助存储装置23等的存储区域。
图3是第一实施方式的文档图像数据库的一例的示意图。本实施方式的文档图像数据库210中,作为信息的项目,具有文档ID、文档名、及文档图像数据,项目“文档ID”和其他项目之间进行了关联。
项目“文档ID”的值是用于确定文档文件的识别信息。本实施方式的项目“文档ID”的值例如可由手写文档图像的创建年月日信息和附加于年月日信息的编号而构成。
项目“文档名”的值表示文档名。项目“文档图像数据”的值是光学读取装置对纸质文档进行读取而获得的图像数据。本实施方式的文档图像数据例如可被保存为pdf文件,也可被保存为图像数据。
以下的说明中,将文档图像数据库210中包含项目“文档ID”的值和其他项目的值的信息称为文档图像信息。
需要说明的是,文档图像数据库210还包含图3所示项目以外的项目。具体而言,例如,作为文档图像数据库210的项目,还可包括文档图像信息保存于文档图像数据库210的年月日、进行文档图像信息的保存处理的负责人的姓名等。
图4是第一实施方式的文档数据库的一例的示意图。本实施方式的文档数据库220中,作为信息的项目,包括文档ID、文档名、及文本数据,项目“文档ID”与其他项目之间进行了关联。
项目“文档ID”的值和项目“文档名”的值与文档图像数据库210相同,因此对其说明进行了省略。
以下的说明中,将文档数据库220中包含项目“文档ID”的值和其他项目的值的信息称为文档信息。
项目“文本数据”的值表示作为对文档图像数据库210中通过对应的文档ID所确定的文档图像数据进行OCR处理时的结果而获取的文本数据。
图4的例中,与作为文本数据的“201801.txt”相对应的文档ID为“1”。因此可知,文本数据“201801.txt”是通过OCR处理从文档图像数据库210内与文档ID“1”相关联的文档图像数据“201801.pdf”中所提取的字符信息。
图5是第一实施方式的特定领域关键字数据库的一例的示意图。本实施方式的特定领域关键字数据库230中预先保存了某特定领域的关键字。
某特定领域例如可为与文档图像数据库210中保存的文档图像数据的内容相对应的技术领域。此外,也可按照多个技术领域的每个领域来设置特定领域关键字数据库230。
图5的例中,作为化学领域的关键字,保存有日文“酸化”(氧化)、日文“水素化”(氢化)、日文“水酸基”(羟基)等。
接下来,参照图6对本实施方式的文档检索装置200的功能进行说明。图6是第一实施方式的文档检索装置的功能说明图。
就本实施方式的文档检索装置200而言,CPU21读取并执行辅助存储装置23中保存的文档检索程序,由此可实现后述的各部分的功能。
本实施方式的文档检索装置200的检索处理部240具有输入接受部241、文档检索部242、非符合文档信息组提取部243、检索字符串生成部244、字符串检索部245、相似度获取部246、相似关键字选择部247、文档一览获取部248、及输出部249。
输入接受部241接受相对于文档检索装置200的输入。具体而言,输入接受部241接受来自上述输入装置24的输入关键字的输入。
接受了输入关键字后,文档检索部242通过输入关键字对文档数据库220进行检索,从而对文本数据内包含输入关键字的文档信息组A进行确定。
此外,文档检索部242还使用通过相似关键字选择部247所选择的相似关键字对不含输入关键字的文档信息组notA(非符合文档信息组)进行检索,由此对文本数据内含有相似关键字的文档信息进行确定。换言之,相似关键字选择部247可使文档检索部242执行基于其所选择的相似关键字的非符合文档信息组notA的检索。
非符合文档信息组提取部243在文档数据库220中提取除了通过文档检索部242的检索而确定的文档信息组A以外的非符合文档信息组notA。
检索字符串生成部244生成以输入关键字中所包含的字符的一部分作为任意字符的多种模式(pattern)的字符串。
具体而言,例如在输入关键字为日文“水酸化”的情况下,检索字符串生成部244可基于日文“水酸化”生成日文“○酸化”、日文“水○化”、日文“水酸○”、日文“○○化”、日文“水○○”、日文“○酸○”(○表示任意的字符)等的检索字符串。需要说明的是,就作为任意字符的字符的数量而言,检索字符串生成部244最多将其设为比输入关键字的字符数量少1个字符的数量。即,检索字符串至少包含输入关键字所含的字符中的至少1个字符。以下的说明中,将通过检索字符串生成部244所生成的检索字符串称为通配符字符串。并将由基于这些输入关键字生成的通配符字符串所构成的字符串组称为通配符字符串组。如果为日文,则也可将通过使输入关键字变换为汉字的旧体字、异体字、省略字等时所获得的字符串作为通配符字符串。
字符串检索部245使用通配符字符串对文档数据库进行检索,由此获得命中的通配符字符串组(单词组)。或者,字符串检索部245也可使用通配符字符串对由非符合文档信息组提取部243所提取的文档信息组notA进行检索,由此获取命中的通配符字符串组(单词组)。
上述命中的通配符字符串组即为非符合文档信息组中存在的通配符字符串组。以下,就字符串检索部245而言,作为使用通配符字符串对由非符合文档信息组提取部243所提取的非符合文档信息组notA进行检索从而获取命中的通配符字符串组(单词组)的字符串检索部来对其进行说明。
相似度获取部246获取通过基于字符串检索部245的检索而获取的命中的通配符字符串组中所含的各通配符字符串与输入关键字之间的相似度和与特定领域关键字数据库230中保存的各关键字之间的相似度。
换言之,相似度获取部246获取通过基于字符串检索部245的检索而获取的非符合文档信息组notA中存在的通配符字符串的、与表示输入关键字的字符串进行比较的结果的相似度和与表示特定领域关键字数据库230中保存的关键字的字符串进行比较的结果的相似度。
分别求出通过基于字符串检索部245的检索而获取的字符串组中所含的各通配符字符串与输入关键字及特定领域关键字之间的相似度。相似度的判定方法有多种。最单纯的一种为通过一致的字符的数量进行判断的方法。此外,还可为通过字符的顺序是否一致、汉字的部首是否一致、通过机器学习或深度学习等而进行的相似度判断等。图8中示出了相似度判断的一例。
相似关键字选择部247对通过字符串检索部245所获取的各通配符字符串与输入关键字及特定领域关键字数据库230中保存的关键字之间的各相似度进行比较,由此,将这些相似度中的与输入关键字之间的相似度为最大的情况下的该通配符字符串选择为相似关键字。也可选择多个相似关键字。在与输入关键字之间的相似度并非最大的情况下,不将该通配符字符串选择为相似关键字。
即,相似关键字选择部247从非符合文档信息组notA中存在的通配符字符串组中确定与输入关键字相似的相似关键字。
文档一览获取部248从文档数据库220分别获取通过文档检索部242所确定的文档信息组A和A’的一览。具体而言,文档一览获取部248可获取文档ID作为文档信息的一览。
输出部249将通过文档一览获取部248所获取的文档信息组A和A’的一览分别输出至上述输出装置25。具体而言,输出部249使文档信息(文档ID)的一览显示于输出装置25。
此外,输出装置25上所显示的文档信息的一览中的某文档数据被进行了选择后,输出部249获取文档图像数据库210内与所选择的文档信息中所含的文档ID相对应的文档图像数据,并将其显示于输出装置25。
接下来,参照图7A和图7B对本实施方式的文档检索装置200的动作进行说明。图7A是对第一实施方式的文档检索装置的动作进行说明的第一流程图,图7B是对第一实施方式的文档检索装置的动作进行说明的第一流程图。
在本实施方式的文档检索装置200的检索处理部240中,通过输入接受部241接受了输入关键字的输入后(步骤S701),通过文档检索部242进行基于输入关键字的文档数据库220的检索(步骤S702)。
接下来,文档检索部242进行是否存在命中的文档信息的判定(步骤S703)。具体而言,文档检索部242对文本数据内包含输入关键字的文档信息是否被保存于文档数据库220进行判定。
步骤S703中,在不存在符合的文档信息的情况下,检索处理部240进入后述的步骤S706。
步骤S703中,在存在符合的文档信息的情况下,检索处理部240通过文档检索部242获取符合的文档信息组A的文档ID(步骤S704)。
接下来,检索处理部240通过非符合文档信息组提取部243从文档数据库220中提取除了在步骤S704中获取了文档ID的文档信息以外的非符合文档信息组notA(步骤S705)。
接下来,检索处理部240通过检索字符串生成部244根据输入关键字生成通配符字符串(步骤S706)。需要说明的是,这里检索字符串生成部244可生成基于输入关键字所能生成的全部的模式的通配符字符串。
接下来,检索处理部240通过字符串检索部245使用各通配符字符串分别进行针对通过非符合文档信息组提取部243所提取的非符合文档信息组notA的检索(步骤S707),然后进入图7B的步骤S708。
图7B中,字符串检索部245在步骤S707之后按照每个通配符字符串获取作为检索结果的字符串(步骤S708)。即,这里通过多个通配符字符串可分别获取作为对非符合文档信息组notA进行检索的结果的、命中的通配符字符串组。
接下来,检索处理部240通过相似度获取部246进行步骤S708中所提取的、命中的通配符字符串与输入关键字之间的比较和与特定领域关键字数据库230中保存的各关键字之间的比较,由此分别获得相似度(步骤S709)。
因此,这里可按照命中的通配符字符串组中所含的每个通配符字符串获取表示与输入关键字之间的比较结果的相似度和表示与特定领域关键字数据库230中保存的各关键字之间的比较结果的相似度。
接下来,相似关键字选择部247对命中的通配符字符串组中所含的通配符字符串中的、通过与特定领域关键字数据库230中保存的各关键字之间的相似度进行比较而知的与输入关键字之间的相似度最高的通配符字符串进行选择,并将其作为输入关键字的相似关键字(步骤S710)。需要说明的是,也可选择多个相似关键字。关于步骤S710的处理的详细内容将在后面进行叙述。
接下来,检索处理部240通过文档检索部242使用所选择的相似关键字对上述非符合文档信息组notA进行检索(步骤S711)。
接下来,文档检索部242通过输入关键字或相似关键字中的至少任意一个对是否存在命中的文档信息进行判定(步骤S712)。具体而言,文档检索部242对文本数据内包含与输入关键字或相似关键字中的至少任意一个一致的字符串的文档信息是否被保存于文档数据库220进行判定。
步骤S712中,在不存在符合的文档信息的情况下,检索处理部240通过输出部249将表示不存在符合的文档信息的通知输出至终端装置300(步骤S713),并结束处理。
步骤S712中,在存在符合的文档信息的情况下,当存在文本数据内包含与相似关键字一致的字符串的文档信息时,文档检索部242获取该文档信息的文档ID(步骤S714)。
接下来,检索处理部240通过输出部249将由步骤S704和步骤S714所获取的文档ID的一览显示于输出装置25(步骤S715),并结束处理。
接下来,参照图8对选择相似关键字的处理进行具体的说明。图8是对第一实施方式中的相似关键字的选择进行说明的图。
图8的例中,示出了从输入装置24输入日文字符串“水酸化”作为输入关键字,并且特定领域关键字数据库230中作为特定领域的关键字除了日文字符串“水酸化”以外还保存了日文字符串“酸化”、“水素化”及“水酸基”的情况。
此外,图8的例中,还示出了作为基于通配符字符串的文档信息组的检索结果的、命中的通配符字符串组,获取了日文字符串“水変使”、“力酸ヒ”、“秘酸化”、“氷酒化”、“水酸可”、“水来イ”及“水酒化”的情况。
这里,本实施方式的相似度获取部246将命中的通配符字符串组中所含的各通配符字符串分别与输入关键字及特定领域的关键字进行比较。即,输入关键字和特定领域的关键字是与命中的通配符字符串组的各通配符字符串进行比较的关键字。
例如,在将字符串“水変使”与表示输入关键字的字符串“水酸化”进行比较的情况下,字符“水”一致,字符“化”的部首也一致,但字符“変”和字符“酸”不一致。因此,就这2个字符串的比较结果而言,第1个字符为表示一致的“○(相似度33%)”,第2个字符为表示不一致的“×”(相似度0%)”,第3个字符为表示部首一致的“△”(相似度17%)。之后,根据比较结果,可使字符串“水変使”和字符串“水酸化”的相似度为50%。
本实施方式中,同样地对字符串“水変使”与特定领域的关键字“酸化”、字符串“水変使”与特定领域的关键字“水素化”、以及字符串“水変使”与特定领域的关键字“水酸基”也进行了比较,并获取了相似度。
由此可知,与字符串“水変使”之间的相似度最高的字符串为特定领域的关键字“水素化”。因此,字符串“水変使”并非通过与特定领域关键字数据库230中保存的各关键字之间的相似度进行比较而知的与输入关键字之间的相似度最高的字符串,因此不将其选择为相似关键字。
此外,在将字符串“氷酒化”与表示输入关键字的字符串“水酸化”进行比较的情况下,字符“水”与字符“酸”不一致,但字符的形状相似。因此,就这2个字符串的比较结果而言,第1个字符和第2个字符为表示相似的“△(相似度17%)”,第3个字符为表示一致的“○(相似度33%)”。之后,根据该比较结果,可使字符串“氷酒化”与字符串“水酸化”的相似度为67%。
本实施方式中,同样地对字符串“氷酒化”与特定领域的关键字“酸化”、字符串“氷酒化”与特定领域的关键字“水素化”、以及字符串“氷酒化”与特定领域的关键字“水酸基”也分别进行了比较,并获取了相似度。
由此,通过进行与特定领域关键字数据库230中保存的各关键字之间的相似度的比较可知,与字符串“氷酒化”之间的相似度最高的字符串为输入关键字“水酸化”。因此,字符串“氷酒化”作为与输入关键字之间的相似度最高的字符串而被选择为相似关键字。
此外,在将字符串“水酒化”与表示输入关键字的字符串“水酸化”进行比较的情况下,字符“酸”不一致,但字符的形状相似。因此,就这2个字符串的比较结果而言,第2个字符为表示相似的“△”(相似度17%),第1个字符和第3个字符为表示一致的“○”(相似度33%)。之后,根据该比较结果,可使字符串“水酒化”与字符串“水酸化”的相似度为84%(在存在2个相似度33%的情况下,合计为67%)。与上述字符串“氷酒化”的情况同样地,通过进行与特定领域关键字数据库230中保存的各关键字之间的相似度的比较可知,与字符串“水酒化”之间的相似度最高的字符串为输入关键字“水酸化”。因此,字符串“水酒化”也作为与输入关键字之间的相似度最高的字符串而被选择为相似关键字。
接下来,对本实施方式的输出装置25的文档ID的一览的显示例进行说明。图9是对第一实施方式的文档ID的一览的显示例进行表示的第一图。
图9所示的画面301为输出装置25上所显示的画面的一例。画面301上显示了通过输出部249所输出的文档ID的一览302。
文档ID的一览302中显示了文档ID和文档名与用于进行包含该文档ID的文档信息的检索的检索关键字之间进行了关联的信息。画面301上与文档ID相关联地进行了显示的检索关键字为输入关键字和相似关键字中的一个。
图9的例中,可知文档ID“1”的文档信息和文档ID“3”的文档信息为通过输入关键字“水酸化”而提取的文档信息。此外,图9的例中,文档ID“2”的文档信息和文档ID“5”的文档信息为通过相似关键字“氷酒化”而提取的文档信息,文档ID“11”的文档信息和文档ID“12”的文档信息为通过相似关键字“水酒化”而提取的文档信息。
此外,本实施方式中,在文档ID的一览302中通过光标(pointer)P、终端装置300的利用者的手指等选择了文档信息后,还可显示与所选择的文档信息相对应的文档图像数据。
图9中,文档ID“1”的文档ID被进行了选择,在文档ID的一览302的旁边显示了文档图像数据库210中与文档ID“1”进行了关联的文档图像数据303。
如此,本实施方式中,在作为检索结果的文档ID的一览中选择了文档ID后,可显示与所选择的文档ID相对应的文档图像数据。
图10是对第一实施方式的文档ID的一览的显示例进行表示的第二图。图10所示的画面301A上分别显示了作为基于输入关键字的检索结果的文档ID的一览302A和作为基于相似关键字的检索结果的文档ID的一览302B。
一览302A和一览302B中,文档ID和文档名相关联地被进行了显示。
此外,画面301A上还显示了表示一览302A为输入关键字“水酸化”的检索结果的消息101、表示一览302B为相似关键字“氷酒化”的检索结果的消息102A、以及表示一览303B为相似关键字“水酒化”的检索结果的消息102B。
另外,一览302B和一览303B中还分别显示了表示与输入关键字及相似关键字之间的相似度的消息95A和95B。
如此,本实施方式中,通过显示与相似关键字及输入关键字之间的相似度,可向终端装置300的利用者呈现基于相似关键字的检索结果的可靠性。
如上所述,根据本实施方式,针对通过手写等所制作的纸质文档上所示的信息,可简单且迅速地进行检索和阅览。此外,根据本实施方式,基于输入关键字还可导出相似关键字,并且基于相似关键字的检索结果也与基于输入关键字的检索结果一起地被进行了显示,因此不仅可提高关键字检索的命中率,而且能够防止错误检测。
(第二实施方式)
以下,参照附图对第二实施方式进行说明。第二实施方式中,为选择相似关键字时的相似度设定了条件,这点与第一实施方式不同。因此,以下的第二实施方式的说明中,仅对与第一实施方式不同的不同点进行说明,对与第一实施方式相同的功能构成等赋予了与第一实施方式的说明中所使用的符号相同的符号,并对其说明进行了省略。
图11是第二实施方式的文档检索装置的功能说明图。本实施方式的文档检索装置200A具有检索处理部240A。
检索处理部240A除了具备第一实施方式的检索处理部240所具有的各部分以外,相似关键字选择部247A内还具有预定的阈值信息250。
就相似关键字选择部247A所保存的预定的阈值信息250而言,输入装置24和终端装置300的利用者可在任意的时机任意地对其进行设定。
本实施方式中,设定了相似关键字中的与输入关键字之间的相似度为预定阈值以上的字符串作为高相似关键字这样的条件。
在使与输入关键字之间的相似度更高的字符串为高相似关键字的情况下,就作为检索结果的文档信息而言,错误检测变得更少的可能性较高。换言之,与输入关键字之间的相似度的阈值设得越高,越可提高命中的文档信息的精度。
如此,本实施方式中,通过使输入装置24和终端装置300的利用者任意设定对高相似关键字进行选择的预定的阈值信息250,可输出与利用者的期望相应的检索结果。
以下,参照图12A和图12B对本实施方式的文档检索装置200A的动作进行说明。图12A是对第二实施方式的文档检索装置的动作进行说明的第一流程图,图12B是对第二实施方式的文档检索装置的动作进行说明的第二流程图。
图12A的步骤S1201至图12B的步骤S1210的处理与图7A的步骤S701至步骤S710的处理相同,因此对其说明进行了省略。
步骤S1210之后,相似关键字选择部247A将相似关键字中的、作为相似关键字而被选择的字符串与输入关键字之间的相似度为预定阈值以上的相似关键字选择为高相似关键字(步骤S1211)。
这里,例如,作为条件,作为相似关键字而被选择的字符串中的被选择的字符串与输入关键字之间的相似度为75%,在作为条件设定了相似度为70%以上的情况下,可使该相似关键字为高相似关键字。
接下来,检索处理部240A通过文档检索部242并使用高相似关键字对上述非符合文档信息组notA进行检索(步骤S1212)。
接下来,文档检索部242对是否存在通过输入关键字或高相似关键字中的至少任意一个进行检索时而命中的文档信息进行判定(步骤S1213)。
步骤S1214至步骤S1216的处理与图7B的步骤S713至步骤S715的处理相同,因此对其说明进行了省略。
以下,参照图13对本实施方式的终端装置300的显示例进行说明。图13是对第二实施方式的文档ID的一览的显示例进行表示的第二图。
图13所示的画面301B上,显示了作为基于输入关键字“水酸化”的检索结果的文档ID的一览302A。
此外,图13的例中,还显示了条件信息98,其表示通过预定的阈值信息50所设定的条件。根据条件信息98可知,预定的阈值信息250中设定了将“相似度为70%以上”的字符串选择为高相似关键字这样的条件。
此外,画面301B上还显示了表示作为高相似关键字而选择了“水酒化”的消息103和表示基于高相似关键字“水酒化”的检索结果的文档ID的一览302C。
另外,一览302C中还显示了表示输入关键字与相似关键字之间的相似度的消息95C。
另外,本实施方式中,还可显示用于输入预定的阈值信息250所保持的条件信息的输入栏99和用于对基于输入栏99中所设定的条件的再检索的执行进行指示的操作按钮104。
例如,本实施方式中,在输入栏99中输入了将相似度80%以上的字符串作为高相似关键字这样的条件,并对操作按钮104进行了操作的情况下,可从图12B的步骤S1210开始再次进行处理。
如此,本实施方式中,可进行与阅览检索结果的输出装置25的利用者的期望相应的再检索。
(第三实施方式)
以下参照附图对第三实施方式进行说明。第三实施方式中,将因与输入关键字之间的相似度并非最高因而未被选择为相似关键字的通配符字符串中的、输入关键字与通配符字符串之间的相似度为预定阈值以上的字符串作为非相似关键字,并使用输入关键字、相似关键字、及非相似关键字分别对文档数据库220进行了检索,这点与第一实施方式不同。因此,以下的第三实施方式的说明中,仅对与第一实施方式不同的不同点进行说明,对与第一实施方式相同的功能构成赋予了与第一实施方式的说明中所使用的符号相同的符号,并对其说明进行了省略。
图14是第三实施方式的文档检索装置的功能说明图。本实施方式的文档检索装置200B具有检索处理部240B。本实施方式的检索处理部240B除了具备第一实施方式的检索处理部240所具有的各部分以外,还具备对预定的阈值信息252进行保持的非相似关键字选择部251。
本实施方式的非相似关键字选择部251将通配符字符串组的各通配符字符串中与输入关键字之间的相似度并非最高的字符串(即,未被选择为相似关键字的通配符字符串)中的、与输入关键字之间的相似度为预定阈值以上的字符串选择为非相似关键字。
图15A是对第三实施方式的文档检索装置的动作进行说明的第一流程图,图15B是对第三实施方式的文档检索装置的动作进行说明的第二流程图。图15A的步骤S1501至图15B的步骤S1509的处理与图7A的步骤S701至图7B的步骤S709的处理相同,因此对其说明进行了省略。
当步骤S1509中,分别获得了各通配符字符串与输入关键字及特定领域的关键字之间的相似度之后,通过相似关键字选择部247对相似关键字进行选择,并通过非相似关键字选择部251对非相似关键字进行选择(步骤S1510)。
接下来,检索处理部240B通过文档检索部242分别使用相似关键字和非相似关键字对不含输入关键字的非符合文档信息组notA进行检索(步骤S1511)。
接下来,文档检索部242对是否存在与输入关键字、相似关键字及非相似关键字中的至少任意一个一致的文档信息进行判定(步骤S1512)。
在与输入关键字之间相似度较高的通配符字符串被选择为上述非相似关键字的情况下,作为检索结果的文档信息为包含与输入关键字之间的关联性较低的信息的内容的可能性较高。因此,在此情况下,作为检索结果而提取的文档信息为与输入关键字的关联性较高的信息的可能性变低,但却存在能提取各种文档信息的可能性。换言之,相似度的阈值设定得越低,越可提高命中的文档信息的全面性。
图15的步骤S1513至步骤S1515的处理与图7的步骤S713至步骤S715的处理相同,因此对其说明进行了省略。
接下来,参照图16对本实施方式的显示例进行说明。图16是对第三实施方式的文档ID的一览的显示例进行表示的图。
图16所示的画面301C上显示了作为基于输入关键字的检索结果的文档ID的一览302A和表示一览302A为输入关键字“水酸化”的检索结果的消息101。
此外,画面301C上还显示了作为基于相似关键字的检索结果的文档ID的一览302B和302D、分别表示一览302B为相似关键字“氷酒化”的检索结果和一览302D为相似关键字“水酒化”的检索结果的消息102A和消息B、以及分别表示与输入关键字及相似关键字之间的相似度的消息95D和95E。
另外,画面301C上还显示了作为基于非相似关键字的检索结果的文档ID的一览302E、表示一览302E为非相似关键字“水来イ”的检索结果的消息103、以及表示输入关键字和非相似关键字之间的相似度的消息163。
本实施方式中,这样就可一起地显示作为基于相似关键字的检索结果的一览302B、302D以及作为基于非相似关键字的检索结果的一览302E。换言之,本实施方式中,可一起对精度优先的检索结果和全面性优先的检索结果进行显示。
本实施方式中,如此,通过显示基于2个不同的观点进行检索所得的结果,可让阅读检索结果的终端装置300的利用者能对各自的检索结果进行观察比较。
这样,通过使阅览者对检索结果进行观察比较,例如可对所保管的纸质文档的状态等进行掌握。
例如,在通过使全面性优先的检索结果与精度优先的检索结果进行比较而发现制作年月较早的纸质文档的文档信息较多的情况下,可认为存在将纸质文档作为文档图像数据时的纸质文档的状态不良的可能性、目前仅作为一个意思而表现的文言过去曾有多种表现的可能性等。
此外,例如在精度优先的检索结果中特定保管条件下保管的纸质文档的文档信息较多的情况下,可认为存在通过该保管条件可良好地维持纸质文档的保存状态的可能性。
本实施方式中,如此即可将纸质文档的状态、文言表现的波动等的各种可能性呈现给阅览者。
本发明并不限定于上述具体公开的实施方式,只要不脱离权利要求书的范围,还可进行各种变形或改变。
本国际申请以2018年10月4日提交的日本发明专利申请第2018-189438号作为要求优先权的基础,本国际申请援引日本发明专利申请第2018-189438号的全部内容。
符号说明
100 文档检索系统
200、200A、200B 文档检索装置
210 文档图像数据库
220 文档数据库
230 特定领域关键字数据库
240、240A、240B 检索处理部
241 输入接受部
242 文档检索部
243 非符合文档信息组提取部
244 检索字符串生成部
245 字符串检索部
246 相似度获取部
247 相似关键字选择部
248 文档一览获取部
249 输出部
250 条件判定部
251 非相似关键字选择部
300 终端装置
Claims (13)
1.一种文档检索装置,具有:
文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;
相似关键字选择部,根据与所述输入关键字之间的相似度,从由基于所述输入关键字生成的通配符字符串所组成的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述文档数据库的检索;以及
输出部,输出针对所述文档数据库的、基于所述输入关键字的检索结果和基于所述相似关键字的检索结果。
2.根据权利要求1所述的文档检索装置,还具有:
非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;以及
字符串检索部,通过所述通配符字符串组对所述非符合文档信息组进行检索,获取非符合文档信息组中存在的通配符字符串组,
其中,在所述相似关键字选择部中,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字。
3.根据权利要求1所述的文档检索装置,还具有:
非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组,
其中,所述相似关键字选择部使所述文档检索部执行基于所述相似关键字的所述非符合文档信息组的检索,
输出部输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
4.一种文档检索装置,具有:
文档检索部,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;
非符合文档信息组提取部,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;
字符串检索部,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取非符合文档信息组中存在的通配符字符串组;
相似关键字选择部,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且使所述文档检索部执行基于所述相似关键字的所述非符合文档信息组的检索;以及
输出部,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
5.根据权利要求1至4中任一项所述的文档检索装置,具有:
相似度获取部,参照保存有特定领域的关键字组的关键字数据库,针对所述通配符字符串组中包含的各字符串,分别获取与所述输入关键字之间的相似度和与所述特定领域的关键字之间的相似度,
其中,所述相似关键字选择部将所述通配符字符串组中包含的字符串或非符合文档信息组中存在的通配符字符串组中包含的字符串之中的、与所述输入关键字之间的相似度最高的字符串选择为相似关键字。
6.根据权利要求2至5中任一项所述的文档检索装置,具有:
条件判定部,判定被选择为所述相似关键字的字符串的相似度是否满足预定条件,
其中,在所述被选择的字符串的相似度不满足所述预定条件的情况下,所述相似关键字选择部将所述被选择的字符串之中的、相似度满足所述预定条件的字符串作为高相似关键字,
所述文档检索部通过所述高相似关键字对所述非符合文档信息组进行检索,
所述输出部输出基于所述高相似关键字的检索结果。
7.根据权利要求2至5中任一项所述的文档检索装置,具有:
非相似关键字选择部,将所述通配符字符串组中包含的字符串或所述非符合文档信息组中存在的通配符字符串组中包含的字符串之中的、与所述输入关键字之间的相似度并非最高的字符串之中的、与输入关键字之间的相似度为预定阈值以上的字符串选择为非相似关键字,
其中,所述文档检索部通过所述非相似关键字对所述非符合文档信息组进行检索,
所述输出部将基于所述非相似关键字的检索结果、与基于所述输入关键字的检索结果和基于所述相似关键字的检索结果一起输出。
8.根据权利要求1至5中任一项所述的文档检索装置,其中,
所述输出部将作为基于所述输入关键字的检索结果的文档信息和作为基于所述相似关键字的检索结果的文档信息作为一览显示于终端装置。
9.根据权利要求6所述的文档检索装置,其中,
所述输出部将作为基于所述输入关键字的检索结果的文档信息和作为基于所述高相似关键字的检索结果的文档信息作为一览显示于终端装置。
10.根据权利要求7所述的文档检索装置,其中,
所述输出部将作为基于所述非相似关键字的检索结果的文档信息、与作为基于所述输入关键字的检索结果的文档信息和作为基于所述相似关键字的检索结果的文档信息一起作为一览显示于终端装置。
11.根据权利要求8至10中任一项所述的文档检索装置,其中,
在所述文档信息中,所述文本数据与用于确定所述文档图像数据的识别信息相关联,
所述输出部在所述一览中接受所述文档信息的选择,并且参照文档图像数据库,使与被选择的所述文档信息的识别信息相对应的文档图像数据和所述一览一起进行显示,该文档图像数据库中以相关联的方式保存有所述文档图像数据和所述文档图像数据的识别信息。
12.一种文档检索程序,使计算机执行以下处理:
文档检索处理,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;
文档信息组提取处理,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;
字符串检索处理,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取所述非符合文档信息组中存在的通配符字符串组;
相似关键字选择处理,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且通过所述文档检索处理,执行基于所述相似关键字的所述非符合文档信息组的检索;以及
输出处理,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
13.一种由计算机进行的文档检索方法,由所述计算机执行以下步骤:
文档检索步骤,通过输入关键字对文档数据库进行检索,该文档数据库中保存有文档信息,该文档信息包含通过字符识别处理从文档图像数据中提取的文本数据,该文档图像数据通过对纸质文档进行图像化而得到;
文档信息组提取步骤,从所述文档数据库中提取非符合文档信息组,该非符合文档信息组是除了作为基于所述输入关键字的检索结果的文档信息组以外的文档信息组;
字符串检索步骤,通过基于所述输入关键字生成的通配符字符串对所述非符合文档信息组进行检索,获取所述非符合文档信息组中存在的通配符字符串组;
相似关键字选择步骤,根据与所述输入关键字之间的相似度,从所述非符合文档信息组中存在的通配符字符串组中选择相似关键字,并且在所述文档检索步骤中,执行基于所述相似关键字的所述非符合文档信息组的检索;以及
输出步骤,输出针对所述文档数据库的基于所述输入关键字的检索结果和针对所述非符合文档信息组的基于所述相似关键字的检索结果。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018189438 | 2018-10-04 | ||
| JP2018-189438 | 2018-10-04 | ||
| PCT/JP2019/038016 WO2020071252A1 (ja) | 2018-10-04 | 2019-09-26 | 文書検索装置、文書検索プログラム、文書検索方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN112868001A true CN112868001A (zh) | 2021-05-28 |
| CN112868001B CN112868001B (zh) | 2024-04-26 |
Family
ID=70055057
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201980065122.XA Active CN112868001B (zh) | 2018-10-04 | 2019-09-26 | 文档检索装置、文档检索程序、文档检索方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US11755659B2 (zh) |
| JP (1) | JP6884930B2 (zh) |
| CN (1) | CN112868001B (zh) |
| TW (1) | TWI794547B (zh) |
| WO (1) | WO2020071252A1 (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20230229683A1 (en) * | 2020-07-22 | 2023-07-20 | Showa Denko K.K. | Document search device, document search system, document search program, and document search method |
| CN113176979B (zh) * | 2021-05-24 | 2022-11-04 | 深圳赛安特技术服务有限公司 | 应用程序异常监控方法、装置、计算机设备及存储介质 |
| CN116935405A (zh) * | 2023-06-21 | 2023-10-24 | 北京东方龙马软件发展有限公司 | 基于ocr和nlp提取客户文档扫描件内服务条款方法 |
Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08115330A (ja) * | 1994-10-14 | 1996-05-07 | Hitachi Ltd | 類似文書検索方法および装置 |
| JP2001134617A (ja) * | 1999-08-25 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 文書検索装置および記録媒体 |
| US20020041713A1 (en) * | 2000-06-06 | 2002-04-11 | Taro Imagawa | Document search and retrieval apparatus, recording medium and program |
| CN1612154A (zh) * | 2003-10-29 | 2005-05-04 | 株式会社日立制作所 | 文档检索·阅览方法以及文档检索·阅览装置 |
| US20070250482A1 (en) * | 2006-04-25 | 2007-10-25 | Nortel Networks Limited | Method and apparatus for document matching |
| US20080071765A1 (en) * | 2006-09-19 | 2008-03-20 | Netlogic Microsystems, Inc. | Regular expression searching of packet contents using dedicated search circuits |
| US20090300011A1 (en) * | 2007-08-09 | 2009-12-03 | Kazutoyo Takata | Contents retrieval device |
| JP2010102676A (ja) * | 2008-10-23 | 2010-05-06 | Hiroshima Dia System Co Ltd | 複数の単語より構成される検索文字列のあいまい検索方法 |
| CN101779202A (zh) * | 2007-06-15 | 2010-07-14 | 东洋工程株式会社 | 文档管理装置、方法和程序 |
| CN101842787A (zh) * | 2007-09-14 | 2010-09-22 | 谷歌公司 | 在查询结果中建议替选查询 |
| CN102203774A (zh) * | 2008-11-03 | 2011-09-28 | 微软公司 | 使用概括的句子搭配的检索 |
| CN107220343A (zh) * | 2017-05-26 | 2017-09-29 | 福州大学 | 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法 |
Family Cites Families (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3307336B2 (ja) | 1998-09-02 | 2002-07-24 | 日本電気株式会社 | 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体 |
| US6470336B1 (en) * | 1999-08-25 | 2002-10-22 | Matsushita Electric Industrial Co., Ltd. | Document image search device and recording medium having document search program stored thereon |
| JP3669626B2 (ja) | 2000-06-06 | 2005-07-13 | 松下電器産業株式会社 | 検索装置、記録媒体およびプログラム |
| JP2004171316A (ja) * | 2002-11-21 | 2004-06-17 | Hitachi Ltd | Ocr装置及び文書検索システム及び文書検索プログラム |
| JP4208566B2 (ja) | 2002-12-26 | 2009-01-14 | キヤノン株式会社 | 文書画像検索装置及びその方法、文書画像検索システム、プログラム |
| JP4502114B2 (ja) * | 2003-06-24 | 2010-07-14 | セイコーインスツル株式会社 | データベース検索装置 |
| US7475061B2 (en) * | 2004-01-15 | 2009-01-06 | Microsoft Corporation | Image-based document indexing and retrieval |
| US7894670B2 (en) * | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
| US8620083B2 (en) * | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
| US20060069675A1 (en) * | 2004-09-30 | 2006-03-30 | Ogilvie John W | Search tools and techniques |
| JP2006139659A (ja) | 2004-11-15 | 2006-06-01 | Fujitsu Ltd | 単語認識装置、単語認識方法、単語認識プログラム |
| US7761464B2 (en) * | 2006-06-19 | 2010-07-20 | Microsoft Corporation | Diversifying search results for improved search and personalization |
| US7689613B2 (en) * | 2006-10-23 | 2010-03-30 | Sony Corporation | OCR input to search engine |
| JP5173721B2 (ja) * | 2008-10-01 | 2013-04-03 | キヤノン株式会社 | 文書処理システム及びその制御方法、プログラム、記憶媒体 |
| CN102782680B (zh) * | 2010-02-26 | 2016-01-20 | 乐天株式会社 | 信息处理装置、信息处理方法、记录了信息处理程序的记录介质 |
| US9094647B2 (en) * | 2010-11-29 | 2015-07-28 | James Williamson | AMOLED television frame |
| JP5594134B2 (ja) | 2010-12-28 | 2014-09-24 | 富士通株式会社 | 文字列検索装置,文字列検索方法および文字列検索プログラム |
| DE102011011881A1 (de) * | 2011-02-21 | 2012-08-23 | Thyssenkrupp Uhde Gmbh | Verfahren zur Beseitigung von N2O und NOX aus dem Prozess zur Salpetersäureherstellung |
| US20130198244A1 (en) * | 2011-07-29 | 2013-08-01 | Kevin Albrecht | Systems and methods for monitoring document transmission |
| US9916383B1 (en) * | 2013-07-12 | 2018-03-13 | Aplix Research, Inc. | Systems and methods for document analytics |
| AU2013214496A1 (en) * | 2013-08-12 | 2015-02-26 | Infotext Holdings Pty Ltd | A Search Method |
| US9626594B2 (en) | 2015-01-21 | 2017-04-18 | Xerox Corporation | Method and system to perform text-to-image queries with wildcards |
| US10204177B2 (en) * | 2015-11-30 | 2019-02-12 | International Business Machines Corporation | Matching an ordered set of strings containing wild cards |
| US10445355B2 (en) * | 2016-04-07 | 2019-10-15 | RELX Inc. | Systems and methods for providing a visualizable results list |
| JP6813591B2 (ja) * | 2016-11-25 | 2021-01-13 | 日本電信電話株式会社 | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム |
| US10482344B2 (en) * | 2018-01-04 | 2019-11-19 | Wipro Limited | System and method for performing optical character recognition |
| CN113378061B (zh) * | 2021-07-02 | 2023-05-30 | 抖音视界有限公司 | 一种信息搜索方法、装置、计算机设备及存储介质 |
-
2019
- 2019-09-26 JP JP2020550371A patent/JP6884930B2/ja active Active
- 2019-09-26 WO PCT/JP2019/038016 patent/WO2020071252A1/ja not_active Ceased
- 2019-09-26 US US17/282,036 patent/US11755659B2/en active Active
- 2019-09-26 CN CN201980065122.XA patent/CN112868001B/zh active Active
- 2019-10-02 TW TW108135688A patent/TWI794547B/zh active
-
2023
- 2023-06-22 US US18/339,544 patent/US12086189B2/en active Active
Patent Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08115330A (ja) * | 1994-10-14 | 1996-05-07 | Hitachi Ltd | 類似文書検索方法および装置 |
| JP2001134617A (ja) * | 1999-08-25 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 文書検索装置および記録媒体 |
| US20020041713A1 (en) * | 2000-06-06 | 2002-04-11 | Taro Imagawa | Document search and retrieval apparatus, recording medium and program |
| CN1612154A (zh) * | 2003-10-29 | 2005-05-04 | 株式会社日立制作所 | 文档检索·阅览方法以及文档检索·阅览装置 |
| US20070250482A1 (en) * | 2006-04-25 | 2007-10-25 | Nortel Networks Limited | Method and apparatus for document matching |
| US20080071765A1 (en) * | 2006-09-19 | 2008-03-20 | Netlogic Microsystems, Inc. | Regular expression searching of packet contents using dedicated search circuits |
| CN101779202A (zh) * | 2007-06-15 | 2010-07-14 | 东洋工程株式会社 | 文档管理装置、方法和程序 |
| US20090300011A1 (en) * | 2007-08-09 | 2009-12-03 | Kazutoyo Takata | Contents retrieval device |
| CN101842787A (zh) * | 2007-09-14 | 2010-09-22 | 谷歌公司 | 在查询结果中建议替选查询 |
| JP2010102676A (ja) * | 2008-10-23 | 2010-05-06 | Hiroshima Dia System Co Ltd | 複数の単語より構成される検索文字列のあいまい検索方法 |
| CN102203774A (zh) * | 2008-11-03 | 2011-09-28 | 微软公司 | 使用概括的句子搭配的检索 |
| CN107220343A (zh) * | 2017-05-26 | 2017-09-29 | 福州大学 | 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法 |
Non-Patent Citations (2)
| Title |
|---|
| 段崇聪;: "一种基于相似度排序的密文模糊搜索方案", 信息技术与信息化, no. 06, 15 June 2015 (2015-06-15) * |
| 范兵;吉立新;于洪涛;: "基于Office OCR组件的文档图象检索研究", 通信技术, no. 06, 10 June 2009 (2009-06-10) * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2020071252A1 (ja) | 2020-04-09 |
| TW202025073A (zh) | 2020-07-01 |
| US20230342400A1 (en) | 2023-10-26 |
| US12086189B2 (en) | 2024-09-10 |
| CN112868001B (zh) | 2024-04-26 |
| JPWO2020071252A1 (ja) | 2021-09-02 |
| TWI794547B (zh) | 2023-03-01 |
| JP6884930B2 (ja) | 2021-06-09 |
| US11755659B2 (en) | 2023-09-12 |
| US20210374189A1 (en) | 2021-12-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6178417B1 (en) | Method and means of matching documents based on text genre | |
| US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
| JP5037627B2 (ja) | 顔認識を用いた画像の識別 | |
| JP7149721B2 (ja) | 情報処理装置、文字認識エンジン最適化方法及びプログラム | |
| US12086189B2 (en) | Document search device, document search program, and document search method | |
| WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
| CN103778141A (zh) | 一种混合pdf图书目录自动抽取算法 | |
| EP1745396B1 (en) | Document information mining tool | |
| CN119477206A (zh) | 一种基于rfid技术的智能档案柜管理方法 | |
| US11797551B2 (en) | Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method | |
| CN117763175A (zh) | 一种融合异构知识的多策略图像检索方法及系统 | |
| CN112559324A (zh) | 一种基于应用内视觉挖掘的软件测试用例生成方法 | |
| Yurtsever et al. | Figure search by text in large scale digital document collections | |
| CN120234420A (zh) | 基于语义向量库和大语言模型的文档抄袭判断方法及系统 | |
| JP2005107931A (ja) | 画像検索装置 | |
| CN113449195B (zh) | 一种智能知识推送方法及系统 | |
| JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
| JP2006251975A (ja) | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 | |
| CN112965998A (zh) | 一种化合物数据库建立及检索方法及系统 | |
| CN118467669B (zh) | 索引构建方法、字段搜索方法、装置、设备及介质 | |
| JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
| WO2023286340A1 (ja) | 情報処理装置および情報処理方法 | |
| CN121478943A (zh) | 一种公文文档数据智能管理方法及系统 | |
| JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 | |
| TR2022019474A2 (tr) | Keli̇me kökleri̇ni̇n doğru tespi̇t edi̇lmesi̇ni̇ sağlayan bi̇r si̇stem |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| CB02 | Change of applicant information |
Address after: Tokyo, Japan Applicant after: Lishennoco Co.,Ltd. Address before: Tokyo, Japan Applicant before: Showa electrical materials Co.,Ltd. |
|
| CB02 | Change of applicant information | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20230704 Address after: Tokyo, Japan Applicant after: Showa electrical materials Co.,Ltd. Address before: Tokyo, Japan Applicant before: SHOWA DENKO Kabushiki Kaisha |
|
| TA01 | Transfer of patent application right | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |