[go: up one dir, main page]

TWI794547B - 文書檢索裝置、文書檢索程式、文書檢索方法 - Google Patents

文書檢索裝置、文書檢索程式、文書檢索方法 Download PDF

Info

Publication number
TWI794547B
TWI794547B TW108135688A TW108135688A TWI794547B TW I794547 B TWI794547 B TW I794547B TW 108135688 A TW108135688 A TW 108135688A TW 108135688 A TW108135688 A TW 108135688A TW I794547 B TWI794547 B TW I794547B
Authority
TW
Taiwan
Prior art keywords
document
keyword
mentioned
similar
information group
Prior art date
Application number
TW108135688A
Other languages
English (en)
Other versions
TW202025073A (zh
Inventor
奥野好成
南拓也
武田領子
堀田創
Original Assignee
日商昭和電工股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商昭和電工股份有限公司 filed Critical 日商昭和電工股份有限公司
Publication of TW202025073A publication Critical patent/TW202025073A/zh
Application granted granted Critical
Publication of TWI794547B publication Critical patent/TWI794547B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種文書檢索裝置,具有:文書檢索部,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得;相似關鍵詞選擇部,根據與上述輸入關鍵詞之間的相似度,從由基於上述輸入關鍵詞而生成的通配符字符串所組成的通配符字符串群中選擇相似關鍵詞,使上述文書檢索部執行基於上述相似關鍵詞的上述文書資料庫的檢索;及輸出部,輸出針對上述文書資料庫的、基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果。

Description

文書檢索裝置、文書檢索程式、文書檢索方法
本發明涉及文書檢索裝置、文書檢索程式、文書檢索方法。
以經濟高度成長期為中心的時代的技術開發中所作成的技術文書包括在紙媒體上藉由手寫(手書)而作成的文書。這些手寫的技術文書是技術和技能的寶庫,同時也可用於解決目前正在面對的技術課題。然而,就紙文書的形態而言,存在由於被保存在倉庫內故獲取較費時間、由於需要一頁一頁地對紙文書進行確認故找到理想的技術資訊較費人力等的難點,另外還存在無法充分利用所保存的技術文書的問題。 另一方面,近年來,藉由光學讀取裝置等將紙文書等所包含的字符資訊變換為圖像資料作為電子資料,再對該圖像資料實施光學字符識別(Optical Character Recognition:OCR)處理,從而將圖像資料中包含的字符資訊作為字符資料而提取,據此可對紙文書等所包含的字符資訊進行文書電子化。此外,針對上述手寫的技術文書進行文書電子化,以可迅速地對其進行檢索、閱覽等的要求也日益提高。 現有技術中,針對手寫的技術文書進行字符識別時的精度不足,故正在銳意進行提高識別精度的研究。例如,專利文獻1中公開了一種技術,以提供一種藉由降低檢索噪音(noise)從而提高檢索精度為目的。其中具有識別錯誤評價部,在與檢索關鍵詞不完全一致的情況下,可對檢索結果字符串中發生識別錯誤的可能性進行判斷,並具有對識別錯誤發生的可能性進行判斷的過程。專利文獻2中公開了一種使用索引表對原始文書內的字符進行識別的技術,藉由連續的2個字符的組,可對置信度進行計算,該置信度用於表示上述字符在原始文書的一部分中存在的概率。 [先前技術文獻] [專利文獻] [專利文獻1](日本)專利第3669626號公報 [專利文獻2](日本)專利第5594134號公報
[發明欲解決的課題] 在字符資訊的錯誤識別較多的情況下,會發生即使對藉由光學字符識別處理而獲得的電子文書進行數字(digital)檢索也找不到結果(無法命中)的問題。另一方面,如果藉由模糊檢索等在較大範圍內進行檢索,則可降低無法命中的可能性,並能提高檢索的列舉性,但需要犧牲檢索的正確性。專利文獻1和2中都沒有給出提高檢索的正確性的啟示。 本發明是鑑於上述問題且為了解決上述問題而提出的,其目的在於,提高關鍵詞檢索的命中率(hit rate),並防止錯誤檢測。 [用於解決課題的手段] 本發明具有如下所述的構成。 [1]一種文書檢索裝置,具有: 文書檢索部,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得; 相似關鍵詞選擇部,根據與上述輸入關鍵詞之間的相似度,從由基於上述輸入關鍵詞而生成的通配符字符串所組成的通配符字符串群中選擇相似關鍵詞,使上述文書檢索部執行基於上述相似關鍵詞的上述文書資料庫的檢索;及 輸出部,輸出針對上述文書資料庫的、基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果。 [2]根據上述[1]所述的文書檢索裝置,還具有: 非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群;及 字符串檢索部,藉由上述通配符字符串群對上述非對應資訊群進行檢索,獲取非對應資訊群中存在的通配符字符串群, 其中,上述相似關鍵詞選擇部中,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞。 [3]根據上述[1]所述的文書檢索裝置,還具有: 非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群, 其中,上述相似關鍵詞選擇部使上述文書檢索部執行基於上述相似關鍵詞的上述非對應資訊群的檢索, 輸出部輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。 [4]一種文書檢索裝置,具有: 文書檢索部,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得; 非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群; 字符串檢索部,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對應資訊群中存在的通配符字符串群; 相似關鍵詞選擇部,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,使上述文書檢索部執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及 輸出部,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。 [5]根據上述[1]至[4]的任一項所述的文書檢索裝置,具有: 相似度獲取部,參照保存有特定領域的關鍵詞群的關鍵詞資料庫,分別獲取關於上述通配符字符串群中包含的各字符串的、與上述輸入關鍵詞之間的相似度和與上述特定領域的關鍵詞之間的相似度, 其中,上述相似關鍵詞選擇部將上述通配符字符串群中包含的字符串或非對應資訊群中存在的通配符字符串群中包含的字符串中的、與上述輸入關鍵詞之間的相似度為最高的字符串選擇為相似關鍵詞。 [6]根據上述[2]至[5]的任一項所述的文書檢索裝置,具有: 條件判定部,判定被選擇為上述相似關鍵詞的字符串的相似度是否滿足預定條件, 其中,在上述被選擇的字符串的相似度滿足上述預定條件的情況下,上述相似關鍵詞選擇部將上述被選擇的字符串中的、相似度滿足上述預定條件的字符串作為高相似關鍵詞, 上述文書檢索部藉由上述高相似關鍵詞對上述非對應資訊群進行檢索, 上述輸出部輸出基於上述高相似關鍵詞的檢索結果。 [7]根據上述[2]至[5]的任一項所述的文書檢索裝置,具有: 非相似關鍵詞選擇部,將上述通配符字符串群中包含的字符串或上述非對應資訊群中存在的通配符字符串群中包含的字符串中的、與上述輸入關鍵詞之間的相似度為最高的字符串中的、與輸入關鍵詞之間的相似度為預定閾值以上的字符串選擇為非相似關鍵詞, 其中,上述文書檢索部藉由上述非相似關鍵詞對上述非對應資訊群進行檢索, 上述輸出部與基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果一起輸出基於上述非相似關鍵詞的檢索結果。 [8]根據上述[1]至[5]的任一項所述的文書檢索裝置,其中, 上述輸出部將作為基於上述輸入關鍵詞的檢索結果的文書資訊和作為基於上述相似關鍵詞的檢索結果的文書資訊作為一覽顯示於終端裝置。 [9]根據上述[6]所述的文書檢索裝置,其中, 上述輸出部將作為基於上述輸入關鍵詞的檢索結果的文書資訊和作為基於上述高相似關鍵詞的檢索結果的文書資訊作為一覽顯示於終端裝置。 [10]根據上述[7]所述的文書檢索裝置,其中, 上述輸出部將作為基於上述非相似關鍵詞的檢索結果的文書資訊與作為基於上述輸入關鍵詞的檢索結果的文書資訊和作為基於上述相似關鍵詞的檢索結果的文書資訊一起作為一覽顯示於終端裝置。 [11]根據上述[8]至[10]的任一項所述的文書檢索裝置,其中, 上述文書資訊中,上述文本資料與確定上述文書圖像資料的識別資訊進行了關聯, 上述輸出部在上述一覽中接受上述文書資訊的選擇,並參照文書圖像資料庫,使與被選擇的上述文書資訊的識別資訊相關聯的文書圖像資料和上述一覽一起進行顯示,該文書圖像資料庫中以相互關聯的方式保存有上述文書圖像資料和上述文書圖像資料的識別資訊。 [12]一種文書檢索程序,使電腦執行: 文書檢索處理,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得; 文書資訊群提取處理,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群; 字符串檢索處理,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對應資訊群中存在的通配符字符串群; 相似關鍵詞選擇處理,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,藉由上述文書檢索處理,執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及 輸出處理,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。 [13]一種基於電腦的文書檢索方法,其中,該電腦執行: 文書檢索步驟,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得; 文書資訊群提取步驟,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群; 字符串檢索步驟,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對應資訊群中存在的通配符字符串群; 相似關鍵詞選擇步驟,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,在上述文書檢索步驟中,執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及 輸出步驟,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。 [發明的效果] 不僅能夠提高關鍵詞檢索的命中率,而且還可防止錯誤檢測。
本發明的文書檢索裝置具有文書檢索部、相似(也稱“類似”)關鍵詞選擇部、及輸出部。輸入關鍵詞被輸入後,上述文書檢索部藉由上述輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得。相似關鍵詞選擇部根據與上述輸入關鍵詞之間的相似度(也稱“類似度”)從由基於上述輸入關鍵詞而生成的通配符字符串而構成的通配符字符串群中選擇相似關鍵詞,並使上述文書檢索部執行基於上述相似關鍵詞的上述文書資料庫的檢索。輸出部輸出針對上述文書資料庫的、基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果。 本發明的文書檢索裝置還可具有非對應文書資訊群提取部。上述非對應文書資訊群提取部從上述文書資料庫中提取非對應文書資訊群,該非對應文書資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群。此情況下,相似關鍵詞選擇部中,也可根據與上述輸入關鍵詞之間的相似度,從上述非對應文書資訊群中存在的通配符字符串群中選擇相似關鍵詞。 另外,此情況下,藉由使用上述被選擇的相似關鍵詞預先對作為基於上述輸入關鍵詞的檢索結果的文書資訊群進行檢索,當對後述的檢索結果的一覽進行顯示時,即使是在作為基於上述輸入關鍵詞的檢索結果的文書資訊群所包含的文書內,除了輸入關鍵詞的位置之外,還可對作為相似關鍵詞而被進行了字符識別處理的位置也進行加強顯示(highlight display)等的顯示,為優選。 在本發明的文書檢索裝置具有上述非對應文書資訊群提取部的情況下,相似關鍵詞選擇部也可使上述文書檢索部執行基於上述相似關鍵詞的上述非對應文書資訊群的檢索。此情況下,輸出部可輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應文書資訊群的基於上述相似關鍵詞的檢索結果。 作為本發明的文書檢索裝置的實施方式,還可根據與上述輸入關鍵詞之間的相似度,從上述非對應文書資訊群中存在的通配符字符串群中選擇相似關鍵詞,並使上述文書檢索部執行基於上述相似關鍵詞的上述非對應文書資訊群的檢索。此情況下,輸出部可輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應文書資訊群的基於上述相似關鍵詞的檢索結果。 以下,藉由列舉實例對本發明進行具體的說明。 (第一實施方式) 以下,參照圖示對第一實施方式進行說明。圖1是第一實施方式的文書檢索系統的系統構成的一例的示意圖。 本實施方式的文書檢索系統100具有文書檢索裝置200。文書檢索系統100還具有終端裝置300,文書檢索裝置200和終端裝置300可經由網絡連接。終端裝置300除了通信接口裝置等之外還具有鍵盤等的輸入裝置和液晶顯示器等的輸出裝置。 本實施方式的文書檢索裝置200具有文書圖像資料庫210、文書資料庫220、特定領域關鍵詞資料庫230、及檢索處理部240。 文書圖像資料庫210對藉由光學讀取裝置等所讀取的紙文書的圖像資料進行保存。需要說明的是,紙文書例如為藉由手寫而作成的紙文書等。作為手寫的紙文書,可列舉出與特定技術領域相關的技術文書,包括在紙媒體上藉由手寫而作成的記錄本、報告書等、包含手寫字符資訊的設計圖、照片等、附加了手寫字符資訊的測量記錄紙等。或者,紙文書為活字印刷紙文書等。作為活字印刷紙文書,可列舉出特定技術領域的技術文書,包括在紙媒體上進行了活字印刷的報告書、設計圖等。此外,就作為對象的紙文書而言,也可混合存在手寫紙文書和活字印刷紙文書。文書資料庫220對文書資訊進行保存,該文書資訊包含藉由對文書圖像資料庫210中保存的圖像資料實施OCR(Optical Character Recognition:OCR)處理而獲取的字符資訊。特定領域關鍵詞資料庫230對與特定領域相關的關鍵詞群進行保存。在上述紙文書為特定技術領域的技術文書的情況下,特定領域關鍵詞資料庫230對與特定技術領域相關的關鍵詞群進行保存。需要說明的是,上述「紙媒體」不僅指紙質,也包括塑料膜、布、板、皮、壁等。 可預先作成本實施方式的文書圖像資料庫210、文書資料庫220、及特定領域關鍵詞資料庫230。 從終端裝置300、後述的輸入裝置24等接受了關鍵詞的輸入後,本實施方式的檢索處理部240對文書資料庫220進行檢索,由此確定由包含了輸入的關鍵詞的文書資訊所組成的字符資訊群A,並將其作為檢索結果。以下的說明中,將輸入至文書檢索裝置200的關鍵詞稱為“輸入關鍵詞”。 另外,本實施方式的檢索處理部240還從文書資料庫220中確定文書資訊群notA,其係作為基於輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群(以下,記為非對應文書資訊群。)。接下來,檢索處理部240根據所確定的文書資訊群notA和特定領域關鍵詞資料庫230中保存的各關鍵詞以及輸入關鍵詞,獲取與輸入關鍵詞相似的相似關鍵詞,並藉由所獲取的相似關鍵詞對上述非對應文書資訊群notA進行檢索。 之後,檢索處理部240將作為基於輸入關鍵詞的文書資料庫220的檢索結果的文書資訊群A和作為基於相似關鍵詞的非對應文書資訊群notA的檢索結果的文書資訊群A’輸出至終端裝置300。 如此,本實施方式中,執行完基於輸入關鍵詞的檢索之後,藉由使用參照非對應文書資訊群notA而獲取的相似關鍵詞,可再次對非對應文書資訊群notA進行檢索。 因此,本實施方式中,例如即使在進行OCR處理時對文書資料庫220中保存的文書資訊內的與輸入關鍵詞一致的單詞進行了錯誤識別的情況下,藉由進行基於相似關鍵詞的檢索,也存在能從非對應文書資訊群中提取文書的可能性。 為此,根據本實施方式,不僅能夠提高關鍵詞檢索的命中率,而且還可防止錯誤檢測。 需要說明的是,圖1的例中,文書圖像資料庫210、文書資料庫220、及特定領域關鍵詞資料庫230設於文書檢索裝置200,但並不限定於此。文書圖像資料庫210、文書資料庫220、及特定領域關鍵詞資料庫230也可分別設於能與文書檢索裝置200進行通信的外部裝置。此外,還可將文書圖像資料庫210、文書資料庫220、及特定領域關鍵詞資料庫230的一部分設於文書檢索裝置200。 接下來,參照圖2對本實施方式的文書檢索裝置200的硬體構成進行說明。圖2是第一實施方式的文書檢索裝置的硬體構成的說明圖。 本實施方式的文書檢索裝置200是一種包含圖像輸入裝置和電腦並對文書資訊進行處理的裝置。換言之,本實施方式的文書檢索裝置200是一種具有CPU(Central Processing Unit)21、主存儲裝置22、補助存儲裝置23、輸入裝置24、輸出裝置25、通信接口(I/F)裝置26、及驅動裝置27且各自藉由匯流排(bus)進行了連接的資訊處理裝置。 CPU21是對文書檢索裝置200的動作進行控制的主控制部,藉有讀取並執行主存儲裝置22內保存的文書檢索程式,可實現後述的各種功能。 當文書檢索裝置200起動時,主存儲裝置22從補助存儲裝置23讀取並保存文書檢索程式。補助存儲裝置23對所安裝的文書檢索程式進行保存,同時還對上述各資料庫等所需的文件(file)、資料等進行保存。 輸入裝置24是用於進行各種資訊的輸入的裝置,例如可藉由鍵盤、指點裝置(pointing device)等實現。輸出裝置25是用於進行各種資訊的輸出的裝置,例如可藉由顯示器等實現。通信接口裝置26包括LAN卡等,用於與網絡進行連接。 用於實現本實施方式的檢索處理部240的文書檢索程式是控制文書檢索裝置200的各種程式的至少一部分。文書檢索程式例如可藉由存儲介質28的配布(deliver)或從網絡下載等的方式來進行提供。用於記錄文書檢索程式的存儲介質28可使用諸如CD-ROM、軟盤、光磁盤等的對資訊採用光學、電或磁的方式進行記錄的存儲介質、諸如ROM、快閃記憶體(flash memory)等的對資訊以電的方式進行記錄的半導體存儲器等的各種類型的存儲介質。 此外,記錄有文書檢索程式的存儲介質28被放入驅動裝置27後,文書檢索程式可從存儲介質28經由驅動裝置27而被安裝於補助存儲裝置23。從網絡下載的文書檢索程式可經由通信接口裝置26而被安裝至補助存儲裝置23。 接下來,參照圖3至圖5對本實施方式的各資料庫進行說明。本實施方式的各資料庫例如可設於補助存儲裝置23等的存儲區域。 圖3是第一實施方式的文書圖像資料庫的一例的示意圖。本實施方式的文書圖像資料庫210中,作為資訊的項目,具有文書ID、文書名、及文書圖像資料,項目「文書ID」和其他項目之間進行了關聯。 項目「文書ID」的值是用於確定文書文件的識別資訊。本實施方式的項目「文書ID」的值例如可由手寫文書圖像的作成年月日資訊和附加於年月日資訊的編號而構成。 項目「文書名」的值表示文書名。項目「文書圖像資料」的值是光學讀取裝置對紙文書進行讀取而獲得的圖像資料。本實施方式的文書圖像資料例如可被保存為pdf文件,也可被保存為圖像資料。 以下的說明中,將文書圖像資料庫210中包含項目「文書ID」的值和其他項目的值的資訊稱為文書圖像資訊。 需要說明的是,文書圖像資料庫210還包含圖3所示項目之外的項目。具體而言,例如,作為文書圖像資料庫210的項目,還可包括文書圖像資訊保存於文書圖像資料庫210的年月日、進行文書圖像資訊的保存處理的負責人的姓名等。 圖4是第一實施方式的文書資料庫的一例的示意圖。本實施方式的文書資料庫220中,作為資訊的項目,包括文書ID、文書名、及文本資料,項目「文書ID」與其他項目之間進行了關聯。 項目「文書ID」的值和項目「文書名」的值與文書圖像資料庫210相同,故對其說明進行了省略。 以下的說明中,將文書資料庫220中包含項目「文書ID」的值和其他項目的值的資訊稱為文書資訊。 項目「文本資料」的值表示作為對文書圖像資料庫210中藉由對應的文書ID所確定的文書圖像資料進行OCR處理時的結果而獲取的文本資料。 圖4的例中,與作為文本資料的「201801.txt」相對應(相關聯)的文書ID為「1」。故可知,文本資料「201801.txt」是藉由OCR處理從文書圖像資料庫210內與文書ID「1」相關聯的文書圖像資料「201801.pdf」中所提取的字符資訊。 圖5是第一實施方式的特定領域關鍵詞資料庫的一例的示意圖。本實施方式的特定領域關鍵詞資料庫230中預先保存了某特定領域的關鍵詞。 某特定領域例如可為與文書圖像資料庫210中保存的文書圖像資料的內容相對應的技術領域。此外,也可按照複數個技術領域的每個領域來設置特定領域關鍵詞資料庫230。 圖5的例中,作為化學領域的關鍵詞,保存有「氧化」、「氫化」、「氫氧基」等。 接下來,參照圖6對本實施方式的文書檢索裝置200的功能進行說明。圖6是第一實施方式的文書檢索裝置的功能說明圖。 就本實施方式的文書檢索裝置200而言,CPU21讀取並執行補助存儲裝置23中保存的文書檢索程式,藉此可實現後述的各部分的功能。 本實施方式的文書檢索裝置200的檢索處理部240具有輸入接受部241、文書檢索部242、非對應文書資訊群提取部243、檢索字符串生成部244、字符串檢索部245、相似度獲取部246、相似關鍵詞選擇部247、文書一覽獲取部248、及輸出部249。 輸入接受部241接受相對於文書檢索裝置200的輸入。具體而言,輸入接受部241接受來自上述輸入裝置24的輸入關鍵詞的輸入。 接受了輸入關鍵詞後,文書檢索部242藉由輸入關鍵詞對文書資料庫220進行檢索,從而對文本資料內包含輸入關鍵詞的文書資訊群A進行確定。 此外,文書檢索部242還使用藉由相似關鍵詞選擇部247所選擇的相似關鍵詞對不含輸入關鍵詞的文書資訊群notA(非對應文書資訊群)進行檢索,由此對文本資料內含有相似關鍵詞的文書資訊進行確定。換言之,相似關鍵詞選擇部247可使文書檢索部242執行基於其所選擇的相似關鍵詞的非對應文書資訊群notA的檢索。 非對應文書資訊群提取部243提取文書資料庫220中藉由文書檢索部242的檢索而確定的文書資訊群A之外的非對應文書資訊群notA。 檢索字符串生成部244生成使輸入關鍵詞中所包含的字符的一部分作為任意字符的複數種模式(pattern)的字符串。 具體而言,例如在輸入關鍵詞為「水酸化」的情況下,檢索字符串生成部244可基於「水酸化」生成「○酸化」、「水○化」、「水酸○」、「○○化」、「水○○」、「○酸○」(○表示任意的字符)等的檢索字符串。需要說明的是,就作為任意字符的字符的數量而言,檢索字符串生成部244最多將其設為比輸入關鍵詞的字符數量少1個字符的數量。即,檢索字符串至少包含輸入關鍵詞所含的字符中的至少1個字符。以下的說明中,將藉由檢索字符串生成部244所生成的檢索字符串稱為通配符字符串。並將由基於這些輸入關鍵詞而生成的通配符字符串所構成的字符串群稱為通配符字符串群。如果為日文(Japanese),則也可將藉由使輸入關鍵詞變換為漢字的舊體字、異體字、省略字等時所獲得的字符串作為通配符字符串。 字符串檢索部245使用通配符字符串對文書資料庫進行檢索,據此獲得命中的通配符字符串群(單詞群)。或者,字符串檢索部245也可使用通配符字符串對由非對應文書資訊群提取部243所提取的文書資訊群notA進行檢索,由此獲取命中的通配符字符串群(單詞群)。 上述命中的通配符字符串群即為非對應文書資訊群中存在的通配符字符串群。以下,就字符串檢索部245而言,作為使用通配符字符串對由非對應文書資訊群提取部243所提取的非對應文書資訊群notA進行檢索從而獲取命中的通配符字符串群(單詞群)的字符串檢索部來對其進行說明。 相似度獲取部246獲取藉由基於字符串檢索部245的檢索而獲取的命中的通配符字符串群中所含的各通配符字符串與輸入關鍵詞之間的相似度和與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的相似度。 換言之,相似度獲取部246獲取藉由基於字符串檢索部245的檢索而獲取的非對應文書資訊群notA中存在的通配符字符串的、與表示輸入關鍵詞的字符串進行比較的結果的相似度和與表示特定領域關鍵詞資料庫230中保存的關鍵詞的字符串進行比較的結果的相似度。 分別求出藉由基於字符串檢索部245的檢索而獲取的字符串群中所含的各通配符字符串與輸入關鍵詞及特定領域關鍵詞之間的相似度。相似度的判定方法有多種。最單純的一種為藉由一致的字符的數量進行判斷的方法。此外,還可為藉由字符的順序是否一致、漢字的部首是否一致、機器學習、深度學習(deep learning)等而進行的相似度判斷等。圖8中示出了相似度判斷的一例。 相似關鍵詞選擇部247對藉由字符串檢索部245所獲取的各通配符字符串與輸入關鍵詞及特定領域關鍵詞資料庫230中保存的關鍵詞之間的各相似度進行比較,據此,將這些相似度中的與輸入關鍵詞之間的相似度為最大的情況下的該通配符字符串選擇為相似關鍵詞。也可選擇複數個相似關鍵詞。在與輸入關鍵詞之間的相似度不為最大的情況下,不將該通配符字符串選擇為相似關鍵詞。 即,相似關鍵詞選擇部247從非對應文書資訊群notA中存在的通配符字符串群中確定與輸入關鍵詞相似的相似關鍵詞。 文書一覽獲取部248從文書資料庫220分別獲取藉由文書檢索部242所確定的文書資訊群A和A’的一覽。具體而言,文書一覽獲取部248可獲取文書ID作為文書資訊的一覽。 輸出部249將藉由文書一覽獲取部248所獲取的文書資訊群A和A’的一覽分別輸出至上述輸出裝置25。具體而言,輸出部249使文書資訊(文書ID)的一覽顯示於輸出裝置25。 此外,輸出裝置25上所顯示的文書資訊的一覽中的某文書資料被進行了選擇後,輸出部249獲取文書圖像資料庫210內與所選擇的文書資訊中所含的文書ID相對應的文書圖像資料,並將其顯示在輸出裝置25上。 接下來,參照圖7A和圖7B對本實施方式的文書檢索裝置200的動作進行說明。圖7A是對第一實施方式的文書檢索裝置的動作進行說明的第一流程圖,圖7B是對第一實施方式的文書檢索裝置的動作進行說明的第一流程圖。 就本實施方式的文書檢索裝置200的檢索處理部240而言,藉由輸入接受部241接受了輸入關鍵詞的輸入後(步驟S701),藉由文書檢索部242進行基於輸入關鍵詞的文書資料庫220的檢索(步驟S702)。 接下來,文書檢索部242進行是否存在命中的文書資訊的判定(步驟S703)。具體而言,文書檢索部242對文本資料內包含輸入關鍵詞的文書資訊是否被保存於文書資料庫220進行判定。 步驟S703中,在對應的文書資訊不存在的情況下,檢索處理部240進入後述的步驟S706。 步驟S703中,在對應的文書資訊存在的情況下,檢索處理部240藉由文書檢索部242獲取對應的文書資訊群A的文書ID(步驟S704)。 接下來,檢索處理部240藉由非對應文書資訊群提取部243從文書資料庫220內提取除了在步驟S704中獲取了文書ID的文書資訊之外的非對應文書資訊群notA(步驟S705)。 接下來,檢索處理部240藉由檢索字符串生成部244根據輸入關鍵詞生成通配符字符串(步驟S706)。需要說明的是,這裡檢索字符串生成部244可生成基於輸入關鍵詞所能生成的全部的模式的通配符字符串。 接下來,檢索處理部240藉由字符串檢索部245使用各通配符字符串分別進行針對藉由非對應文書資訊群提取部243所提取的非對應文書資訊群notA的檢索(步驟S707),然後進入圖7B的步驟S708。 圖7B中,字符串檢索部245在步驟S707之後按照每個通配符字符串獲取作為檢索結果的字符串(步驟S708)。即,這裡藉由複數個通配符字符串可分別獲取作為對非對應文書資訊群notA進行檢索的結果的、命中的通配符字符串群。 接下來,檢索處理部240藉由相似度獲取部246進行步驟S708中所提取的、命中的通配符字符串與輸入關鍵詞之間的比較和與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的比較,據此分別獲得相似度(步驟S709)。 因此,這裡可按照命中的通配符字符串群中所含的每個通配符字符串獲取表示與輸入關鍵詞之間的比較結果的相似度和表示與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的比較結果的相似度。 接下來,相似關鍵詞選擇部247對命中的通配符字符串群中所含的通配符字符串中的、藉由與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的相似度進行比較而知的與輸入關鍵詞的相似度為最高的通配符字符串進行選擇,並將其作為輸入關鍵詞的相似關鍵詞(步驟S710)。需要說明的是,也可選擇複數個相似關鍵詞。關於步驟S710的處理的詳細內容將在後面進行敘述。 接下來,檢索處理部240藉由文書檢索部242使用所選擇的相似關鍵詞對上述非對應文書資訊群notA進行檢索(步驟S711)。 接下來,文書檢索部24藉由輸入關鍵詞或相似關鍵詞的至少任意一個對是否存在命中的文書資訊進行判定(步驟S712)。具體而言,文書檢索部242對文本資料內包含與輸入關鍵詞或相似關鍵詞的至少任意一個一致的字符串的文書資訊是否被保存於文書資料庫220進行判定。 步驟S712中,在對應的文書資訊不存在的情況下,檢索處理部240藉由輸出部249將表示對應的文書資訊不存在的通知輸出至終端裝置300(步驟S713),並結束處理。 步驟S712中,在對應的文書資訊存在的情況下,當文本資料內包含與相似關鍵詞一致的字符串的文書資訊存在時,文書檢索部242獲取該文書資訊的文書ID(步驟S714)。 接下來,檢索處理部240藉由輸出部249將由步驟S704和步驟S714所獲取的文書ID的一覽顯示於輸出裝置25(步驟S715),並結束處理。 接下來,參照圖8對選擇相似關鍵詞的處理進行具體的說明。圖8是對第一實施方式中的相似關鍵詞的選擇進行說明的圖。 圖8的例中,示出了從輸入裝置24輸入字符串「水酸化」作為輸入關鍵詞,並且特定領域關鍵詞資料庫230中作為特定領域的關鍵詞除了字符串「水酸化」之外還保存了字符串「酸化」、「水素化」及「水酸基」的情況。 此外,圖8的例中,還示出了作為基於通配符字符串的文書資訊群的檢索結果的、命中的通配符字符串群,獲取了字符串「水変使」、「力酸ヒ」、「秘酸化」、「氷酒化」、「水酸可」、「水來イ」及「水酒化」的情況。 這裡,本實施方式的相似度獲取部246將命中的通配符字符串群中所含的各通配符字符串分別與輸入關鍵詞及特定領域的關鍵詞進行比較。即,輸入關鍵詞和特定領域的關鍵詞是與命中的通配符字符串群的各通配符字符串進行比較的關鍵詞。 例如,在將字符串「水変使」與表示輸入關鍵詞的字符串「水酸化」進行比較的情況下,字符「水」一致,字符「化」的部首也一致,但字符「変」和字符「酸」不一致。因此,就這2個字符串的比較結果而言,第1個字符為表示一致的「○(相似度33%)」,第2個字符為表示不一致的「×」(相似度0%)」,第3個字符為表示部首一致的「△」(相似度17%)。之後,根據比較結果,可使字符串「水変使」和字符串「水酸化」的相似度為50%。 本實施方式中,同樣地對字符串「水変使」與特定領域的關鍵詞「酸化」、字符串「水変使」與特定領域的關鍵詞「水素化」、以及字符串「水変使」與特定領域的關鍵詞「水酸基」也進行了比較,並獲取了相似度。 據此可知,與字符串「水変使」之間的相似度為最高的字符串為特定領域的關鍵詞「水素化」。因此,字符串「水変使」並非藉由與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的相似度進行比較而知的與輸入關鍵詞之間的相似度為最高的字符串,故不將其選擇為相似關鍵詞。 此外,在將字符串「氷酒化」與表示輸入關鍵詞的字符串「水酸化」進行比較的情況下,字符「水」與字符「酸」不一致,但字符的形狀相似。因此,就這2個字符串的比較結果而言,第1個字符和第2個字符為表示相似的「△(相似度17%)」,第3個字符為表示一致的「○(相似度33%)」。之後,根據該比較結果,可使字符串「氷酒化」與字符串「水酸化」的相似度為67%。 本實施方式中,同樣地對字符串「氷酒化」與特定領域的關鍵詞「酸化」、字符串「氷酒化」與特定領域的關鍵詞「水素化」、以及字符串「氷酒化」與特定領域的關鍵詞「水酸基」也分別進行了比較,並獲取了相似度。 據此,藉由進行與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的相似度的比較可知,與字符串「氷酒化」之間的相似度為最高的字符串為輸入關鍵詞「水酸化」。因此,字符串「氷酒化」作為與輸入關鍵詞之間的相似度為最高的字符串而被選擇為相似關鍵詞。 此外,在將字符串「水酒化」與表示輸入關鍵詞的字符串「水酸化」進行比較的情況下,字符「酸」不一致,但字符的形狀相似。因此,就這2個字符串的比較結果而言,第2個字符為表示相似的「△」(相似度17%),第1個字符和第3個字符為表示一致的「○」(相似度33%)。之後,根據該比較結果,可使字符串「水酒化」與字符串「水酸化」的相似度為84%(在存在2個相似度33%的情況下,合計為67%)。與上述字符串「氷酒化」的情況同樣地,藉由進行與特定領域關鍵詞資料庫230中保存的各關鍵詞之間的相似度的比較可知,與字符串「水酒化」之間的相似度為最高的字符串為輸入關鍵詞「水酸化」。因此,字符串「水酒化」也作為與輸入關鍵詞之間的相似度為最高的字符串而被選擇為相似關鍵詞。 接下來,對本實施方式的輸出裝置25的文書ID的一覽的顯示例進行說明。圖9是對第一實施方式的文書ID的一覽的顯示例進行表示的第一圖。 圖9所示的畫面301為輸出裝置25上所顯示的畫面的一例。畫面301上顯示了藉由輸出部249所輸出的文書ID的一覽302。 文書ID的一覽302中顯示了文書ID和文書名與用於進行包含該文書ID的文書資訊的檢索的檢索關鍵詞之間進行了關聯的資訊。畫面301上與文書ID相關聯地進行了顯示的檢索關鍵詞為輸入關鍵詞和相似關鍵詞中的一個。 圖9的例中,可知文書ID「1」的文書資訊和文書ID「3」的文書資訊為藉由輸入關鍵詞「水酸化」而提取的文書資訊。此外,圖9的例中,文書ID「2」的文書資訊和文書ID「5」的文書資訊為藉由相似關鍵詞「氷酒化」而提取的文書資訊,文書ID「11」的文書資訊和文書ID「12」的文書資訊為藉由相似關鍵詞「水酒化」而提取的文書資訊。 此外,本實施方式中,在文書ID的一覽302中藉由光標(pointer)P、終端裝置300的利用者的手指等選擇了文書資訊後,還可顯示與所選擇的文書資訊相對應的文書圖像資料。 圖9中,文書ID「1」的文書ID被進行了選擇,在文書ID的一覽302的旁邊顯示了文書圖像資料庫210中與文書ID「1」進行了關聯的文書圖像資料303。 如此,本實施方式中,在作為檢索結果的文書ID的一覽中選擇了文書ID後,可顯示與所選擇的文書ID相對應(相關聯)的文書圖像資料。 圖10是對第一實施方式的文書ID的一覽的顯示例進行表示的第二圖。圖10所示的畫面301A上分別顯示了作為基於輸入關鍵詞的檢索結果的文書ID的一覽302A和作為基於相似關鍵詞的檢索結果的文書ID的一覽302B。 一覽302A和一覽302B中,文書ID和文書名相關聯地被進行了顯示。 此外,畫面301A上還顯示了表示一覽302A為輸入關鍵詞「水酸化」的檢索結果的消息101、表示一覽302B為相似關鍵詞「氷酒化」的檢索結果的消息102A、以及表示一覽303B為相似關鍵詞「水酒化」的檢索結果的消息102B。 另外,一覽302B和一覽303B中還分別顯示了表示與輸入關鍵詞及相似關鍵詞之間的相似度的消息95A和95B。 如此,本實施方式中,藉由顯示與相似關鍵詞及輸入關鍵詞之間的相似度,可向終端裝置300的利用者呈現基於相似關鍵詞的檢索結果的信賴性。 如上所述,根據本實施方式,針對藉由手寫等所作成的紙文書上所示的資訊,可簡單且迅速地進行檢索和閱覽。此外,根據本實施方式,基於輸入關鍵詞還可導出相似關鍵詞,並且基於相似關鍵詞的檢索結果也與基於輸入關鍵詞的檢索結果一起地被進行了顯示,故不僅可提高關鍵詞檢索的命中率,而且還可防止錯誤檢測。 (第二實施方式) 以下,參照圖示對第二實施方式進行說明。第二實施方式中,為選擇相似關鍵詞時的相似度設定了條件,這點與第一實施方式不同。因此,以下的第二實施方式的說明中,僅對與第一實施方式不同的不同點進行說明,對與第一實施方式相同的功能構成等賦予了與第一實施方式的說明中所使用的符號相同的符號,並對其說明進行了省略。 圖11是第二實施方式的文書檢索裝置的功能說明圖。本實施方式的文書檢索裝置200A具有檢索處理部240A。 檢索處理部240A除了具備第一實施方式的檢索處理部240所具有的各部分之外,相似關鍵詞選擇部247A內還具有預定的閾值資訊250。 就相似關鍵詞選擇部247A所保存的預定的閾值資訊250而言,輸入裝置24和終端裝置300的利用者可在任意的時機任意地對其進行設定。 本實施方式中,設定了相似關鍵詞中的與輸入關鍵詞之間的相似度為預定閾值以上的字符串作為高相似關鍵詞這樣的條件。 在使與輸入關鍵詞之間的相似度更高的字符串為高相似關鍵詞的情況下,就作為檢索結果的文書資訊而言,錯誤檢測變得更少的可能性較高。換言之,與輸入關鍵詞之間的相似度的閾值設得越高,越可提高命中的文書資訊的精度。 如此,本實施方式中,藉由使輸入裝置24和終端裝置300的利用者任意設定對高相似關鍵詞進行選擇的預定的閾值資訊250,可輸出與利用者的期望相應的檢索結果。 以下,參照圖12A和圖12B對本實施方式的文書檢索裝置200A的動作進行說明。圖12A是對第二實施方式的文書檢索裝置的動作進行說明的第一流程圖,圖12B是對第二實施方式的文書檢索裝置的動作進行說明的第二流程圖。 圖12A的步驟S1201至圖12B的步驟S1210的處理與圖7A的步驟S701至步驟S710的處理相同,故對其說明進行了省略。 步驟S1210之後,相似關鍵詞選擇部247A將相似關鍵詞中的、作為相似關鍵詞而被選擇的字符串與輸入關鍵詞之間的相似度為預定閾值以上的相似關鍵詞選擇為高相似關鍵詞(步驟S1211)。 這裡,例如,作為條件,作為相似關鍵詞而被選擇的字符串中的被選擇的字符串與輸入關鍵詞之間的相似度為75%,在作為條件設定了相似度為70%以上的情況下,可使該相似關鍵詞為高相似關鍵詞。 接下來,檢索處理部240A藉由文書檢索部242並使用高相似關鍵詞對上述非對應文書資訊群notA進行檢索(步驟S1212)。 接下來,文書檢索部242對是否存在藉由輸入關鍵詞或高相似關鍵詞的至少任意一個進行檢索時而命中的文書資訊進行判定(步驟S1213)。 步驟S1214至步驟S1216的處理與圖7B的步驟S713至步驟S715的處理相同,故對其說明進行了省略。 以下,參照圖13對本實施方式的終端裝置300的顯示例進行說明。圖13是對第二實施方式的文書ID的一覽的顯示例進行表示的第二圖。 圖13所示的畫面301B上,顯示了作為基於輸入關鍵詞「水酸化」的檢索結果的文書ID的一覽302A。 此外,圖13的例中,還顯示了條件資訊98,其表示藉由預定的閾值資訊50所設定的條件。根據條件資訊98可知,預定的閾值資訊250中設定了將「相似度が70%以上」的字符串選擇為高相似關鍵詞這樣的條件。 此外,畫面301B上還顯示了表示作為高相似關鍵詞而選擇了「水酒化」的消息103和表示基於高相似關鍵詞「水酒化」的檢索結果的文書ID的一覽302C。 另外,一覽302C中還顯示了表示輸入關鍵詞與相似關鍵詞之間的相似度的消息95C。 另外,本實施方式中,還可顯示用於輸入預定的閾值資訊250所保持的條件資訊的輸入欄99和用於對基於輸入欄99中所設定的條件的再檢索的執行進行指示的操作按鈕(button)104。 例如,本實施方式中,在輸入欄99中輸入了將相似度80%以上的字符串作為高相似關鍵詞這樣的條件,並對操作按鈕104進行了操作的情況下,可從圖12B的步驟S1210開始再次進行處理。 如此,本實施方式中,可進行與閱覽檢索結果的輸出裝置25的利用者的期望相應的再檢索。 (第三實施方式) 以下參照圖示對第三實施方式進行說明。第三實施方式中,將因與輸入關鍵詞之間的相似度不為最高故未被選擇為相似關鍵詞的通配符字符串中的、輸入關鍵詞與通配符字符串之間的相似度為預定閾值以上的字符串作為非相似關鍵詞,並使用輸入關鍵詞、相似關鍵詞、及非相似關鍵詞分別對文書資料庫220進行了檢索,這點與第一實施方式不同。因此,以下的第三實施方式的說明中,僅對與第一實施方式不同的不同點進行說明,對與第一實施方式相同的功能構成賦予了與第一實施方式的說明中所使用的符號相同的符號,並對其說明進行了省略。 圖14是第三實施方式的文書檢索裝置的功能說明圖。本實施方式的文書檢索裝置200B具有檢索處理部240B。本實施方式的檢索處理部240B除了具備第一實施方式的檢索處理部240所具有的各部分之外,還具備對預定的閾值資訊252進行保持的非相似關鍵詞選擇部251。 本實施方式的非相似關鍵詞選擇部251將通配符字符串群的各通配符字符串中與輸入關鍵詞之間的相似度不為最高的字符串(即,未被選擇為相似關鍵詞的通配符字符串)中的、與輸入關鍵詞之間的相似度為預定閾值以上的字符串選擇為非相似關鍵詞。 圖15A是對第三實施方式的文書檢索裝置的動作進行說明的第一流程圖,圖15B是對第三實施方式的文書檢索裝置的動作進行說明的第二流程圖。圖15A的步驟S1501至圖15B的步驟S1509的處理與圖7A的步驟S701至圖7B的步驟S709的處理相同,故對其說明進行了省略。 步驟S1509中,分別獲得了各通配符字符串與輸入關鍵詞及特定領域的關鍵詞之間的相似度後,藉由相似關鍵詞選擇部247對相似關鍵詞進行選擇,並藉由非相似關鍵詞選擇部251對非相似關鍵詞進行選擇(步驟S1510)。 接下來,檢索處理部240B藉由文書檢索部242分別使用相似關鍵詞和非相似關鍵詞對不含輸入關鍵詞的非對應文書資訊群notA進行檢索(步驟S1511)。 接下來,文書檢索部242對是否存在與輸入關鍵詞、相似關鍵詞及非相似關鍵詞中的至少任意一個一致的文書資訊進行判定(步驟S1512)。 在與輸入關鍵詞之間相似度較高的通配符字符串被選擇為上述非相似關鍵詞的情況下,作為檢索結果的文書資訊為包含與輸入關鍵詞之間的關連性較低的資訊的內容的可能性較高。因此,此情況下,作為檢索結果而提取的文書資訊為與輸入關鍵詞的關連性較高的資訊的可能性變低,但卻存在能提取各種文書資訊的可能性。換言之,相似度的閾值設定得越低,越可提高命中的文書資訊的列舉性。 圖15的步驟S1513至步驟S1515的處理與圖7的步驟S713至步驟S715的處理相同,故對其說明進行了省略。 接下來,參照圖16對本實施方式的顯示例進行說明。圖16是對第三實施方式的文書ID的一覽的顯示例進行表示的圖。 圖16所示的畫面301C上顯示了作為基於輸入關鍵詞的檢索結果的文書ID的一覽302A和表示一覽302A為輸入關鍵詞「水酸化」的檢索結果的消息101。 此外,畫面301C上還顯示了作為基於相似關鍵詞的檢索結果的文書ID的一覽302B和302D、分別表示一覽302B為相似關鍵詞「氷酒化」的檢索結果和一覽302D為相似關鍵詞「水酒化」的的檢索結果的消息102A和消息B、以及分別表示與輸入關鍵詞及相似關鍵詞之間的相似度的消息95D和95E。 另外,畫面301C上還顯示了作為基於非相似關鍵詞的檢索結果的文書ID的一覽302E、表示一覽302E為非相似關鍵詞「水來イ」的檢索結果的消息103、以及表示輸入關鍵詞和非相似關鍵詞之間的相似度的消息163。 本實施方式中,這樣就可一起地顯示作為基於相似關鍵詞的檢索結果的一覽302B、302D以及作為基於非相似關鍵詞的檢索結果的一覽302E。換言之,本實施方式中,可一起對精度優先的檢索結果和列舉性優先的檢索結果進行顯示。 本實施方式中,如此,藉由顯示基於2個不同的觀點進行檢索所得的結果,可讓閱讀檢索結果的終端裝置300的利用者能對各自的檢索結果進行觀察比較。 這樣,藉由使閱覽者對檢索結果進行觀察比較,例如可對所保管的紙文書的狀態等進行掌握。 例如,在藉由使列舉性優先的檢索結果與精度優先的檢索結果進行比較而發現作成年月較古的紙文書的文書資訊較多的情況下,可認為存在將紙文書作為文書圖像資料時的紙文書的狀態不良的可能性、目前僅作為一個意思而使用的文言過去曾有多種表現(意思)的可能性等。 此外,例如在精度優先的檢索結果中特定保管條件下保管的紙文書的文書資訊較多的情況下,可認為存在藉由該保管條件可良好地維持紙文書的保存狀態的可能性。 本實施方式中,如此即可將紙文書的狀態、文言表現的波動等的各種可能性呈現給閱覽者。 本發明並不限定於上述具體公開的實施方式,只要不脫離申請專利範圍的範圍,還可進行各種變形和/或變更。 此外,本國際申請主張基於2018年10月4日申請的日本國專利申請第2018-189438號的優先權,並將日本國專利申請第2018-189438號的內容全部援引於本國際申請。
100:文書檢索系統 200,200A,200B:文書檢索裝置 210:文書圖像資料庫 220:文書資料庫 230:特定領域關鍵詞資料庫 240,240A,240B:檢索處理部 241:輸入接受部 242:文書檢索部 243:非對應文書資訊群提取部 244:檢索字符串生成部 245:字符串檢索部 246:相似度獲取部 247:相似關鍵詞選擇部 248:文書一覽獲取部 249:輸出部 250:條件判定部 251:非相似關鍵詞選擇部 300:終端裝置
[圖1]第一實施方式的文書檢索系統的系統構成的一例的示意圖。 [圖2]第一實施方式的文書檢索裝置的硬體構成的說明圖。 [圖3]第一實施方式的文書圖像資料庫的一例的示意圖。 [圖4]第一實施方式的文書資料庫的一例的示意圖。 [圖5]第一實施方式的特定領域關鍵詞資料庫的一例的示意圖。 [圖6]第一實施方式的文書檢索裝置的功能說明圖。 [圖7A]對第一實施方式的文書檢索裝置的動作進行說明的第一流程圖。 [圖7B]對第一實施方式的文書檢索裝置的動作進行說明的第二流程圖。 [圖8]對第一實施方式中的相似關鍵詞的選擇進行說明的說明圖。 [圖9]對第一實施方式的文書ID的一覽的顯示例進行表示的第一圖。 [圖10]對第一實施方式的文書ID的一覽的顯示例進行表示的第二圖。 [圖11]第二實施方式的文書檢索裝置的功能說明圖。 [圖12A]對第二實施方式的文書檢索裝置的動作進行說明的第一流程圖。 [圖12B]對第二實施方式的文書檢索裝置的動作進行說明的第二流程圖。 [圖13]對第二實施方式的文書ID的一覽的顯示例進行表示的第二圖。 [圖14]第三實施方式的文書檢索裝置的功能說明圖。 [圖15A]對第三實施方式的文書檢索裝置的動作進行說明的第一流程圖。 [圖15B]對第三實施方式的文書檢索裝置的動作進行說明的第二流程圖。 [圖16]對第三實施方式的文書ID的一覽的顯示例進行表示的圖。
200:文書檢索裝置
210:文書圖像資料庫
220:文書資料庫
230:特定領域關鍵詞資料庫
240:檢索處理部
241:輸入接受部
242:文書檢索部
243:非對應文書資訊群提取部
244:檢索字符串生成部
245:字符串檢索部
246:類似度獲取部
247:類似關鍵詞選擇部
248:文書一覽獲取部
249:輸出部

Claims (15)

  1. 一種文書檢索裝置,具有:文書檢索部,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得;相似關鍵詞選擇部,根據與上述輸入關鍵詞之間的相似度,從由基於上述輸入關鍵詞而生成的通配符字符串所組成的通配符字符串群中選擇相似關鍵詞,使上述文書檢索部執行基於上述相似關鍵詞的上述文書資料庫的檢索;及輸出部,輸出針對上述文書資料庫的、基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果。
  2. 根據申請專利範圍第1項所述的文書檢索裝置,還具有:非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群;及字符串檢索部,藉由上述通配符字符串群對上述非對應資訊群進行檢索,獲取非對應資訊群中存在的通配符字符串群,其中,上述相似關鍵詞選擇部中,根據與上述輸入關 鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞。
  3. 根據申請專利範圍第1項所述的文書檢索裝置,還具有:非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群,其中,上述相似關鍵詞選擇部使上述文書檢索部執行基於上述相似關鍵詞的上述非對應資訊群的檢索,輸出部輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。
  4. 一種文書檢索裝置,具有:文書檢索部,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得;非對應資訊群提取部,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群;字符串檢索部,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對 應資訊群中存在的通配符字符串群;相似關鍵詞選擇部,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,使上述文書檢索部執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及輸出部,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。
  5. 根據申請專利範圍第1項至第4項中任一項所述的文書檢索裝置,具有:相似度獲取部,參照保存有特定領域的關鍵詞群的關鍵詞資料庫,分別獲取關於上述通配符字符串群中包含的各字符串的、與上述輸入關鍵詞之間的相似度和與上述特定領域的關鍵詞之間的相似度,其中,上述相似關鍵詞選擇部將上述通配符字符串群中包含的字符串或非對應資訊群中存在的通配符字符串群中包含的字符串中的、與上述輸入關鍵詞之間的相似度為最高的字符串選擇為相似關鍵詞。
  6. 根據申請專利範圍第2項至第4項中任一項所述的文書檢索裝置,具有:條件判定部,判定被選擇為上述相似關鍵詞的字符串的相似度是否滿足預定條件, 其中,在上述被選擇的字符串的相似度滿足上述預定條件的情況下,上述相似關鍵詞選擇部將上述被選擇的字符串中的、相似度滿足上述預定條件的字符串作為高相似關鍵詞,上述文書檢索部藉由上述高相似關鍵詞對上述非對應資訊群進行檢索,上述輸出部輸出基於上述高相似關鍵詞的檢索結果。
  7. 根據申請專利範圍第2項至第4項中任一項所述的文書檢索裝置,具有:非相似關鍵詞選擇部,將上述通配符字符串群中包含的字符串或上述非對應資訊群中存在的通配符字符串群中包含的字符串中的、與上述輸入關鍵詞之間的相似度為最高的字符串中的、與輸入關鍵詞之間的相似度為預定閾值以上的字符串選擇為非相似關鍵詞,其中,上述文書檢索部藉由上述非相似關鍵詞對上述非對應資訊群進行檢索,上述輸出部與基於上述輸入關鍵詞的檢索結果和基於上述相似關鍵詞的檢索結果一起輸出基於上述非相似關鍵詞的檢索結果。
  8. 根據申請專利範圍第1項至第4項中任一項所述的文書檢索裝置,其中,上述輸出部將作為基於上述輸入關鍵詞的檢索結果的 文書資訊和作為基於上述相似關鍵詞的檢索結果的文書資訊作為一覽顯示於終端裝置。
  9. 根據申請專利範圍第6項所述的文書檢索裝置,其中,上述輸出部將作為基於上述輸入關鍵詞的檢索結果的文書資訊和作為基於上述高相似關鍵詞的檢索結果的文書資訊作為一覽顯示於終端裝置。
  10. 根據申請專利範圍第7項所述的文書檢索裝置,其中,上述輸出部將作為基於上述非相似關鍵詞的檢索結果的文書資訊與作為基於上述輸入關鍵詞的檢索結果的文書資訊和作為基於上述相似關鍵詞的檢索結果的文書資訊一起作為一覽顯示於終端裝置。
  11. 根據申請專利範圍第8項所述的文書檢索裝置,其中,上述文書資訊中,上述文本資料與確定上述文書圖像資料的識別資訊進行了關聯,上述輸出部在上述一覽中接受上述文書資訊的選擇,並參照文書圖像資料庫,使與被選擇的上述文書資訊的識別資訊相關聯的文書圖像資料和上述一覽一起進行顯示,該文書圖像資料庫中以相互關聯的方式保存有上述文書圖 像資料和上述文書圖像資料的識別資訊。
  12. 根據申請專利範圍第9項所述的文書檢索裝置,其中,上述文書資訊中,上述文本資料與確定上述文書圖像資料的識別資訊進行了關聯,上述輸出部在上述一覽中接受上述文書資訊的選擇,並參照文書圖像資料庫,使與被選擇的上述文書資訊的識別資訊相關聯的文書圖像資料和上述一覽一起進行顯示,該文書圖像資料庫中以相互關聯的方式保存有上述文書圖像資料和上述文書圖像資料的識別資訊。
  13. 根據申請專利範圍第10項所述的文書檢索裝置,其中,上述文書資訊中,上述文本資料與確定上述文書圖像資料的識別資訊進行了關聯,上述輸出部在上述一覽中接受上述文書資訊的選擇,並參照文書圖像資料庫,使與被選擇的上述文書資訊的識別資訊相關聯的文書圖像資料和上述一覽一起進行顯示,該文書圖像資料庫中以相互關聯的方式保存有上述文書圖像資料和上述文書圖像資料的識別資訊。
  14. 一種文書檢索程序,使電腦執行:文書檢索處理,藉由輸入關鍵詞對文書資料庫進行檢 索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得;文書資訊群提取處理,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的檢索結果的文書資訊群之外的文書資訊群;字符串檢索處理,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對應資訊群中存在的通配符字符串群;相似關鍵詞選擇處理,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,藉由上述文書檢索處理,執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及輸出處理,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。
  15. 一種基於電腦的文書檢索方法,其中,該電腦執行:文書檢索步驟,藉由輸入關鍵詞對文書資料庫進行檢索,該文書資料庫中保存有文書資訊,該文書資訊包含藉由字符識別處理從文書圖像資料中提取的文本資料,該文書圖像資料藉由對紙文書進行圖像化而得;文書資訊群提取步驟,從上述文書資料庫中提取非對應資訊群,該非對應資訊群係作為基於上述輸入關鍵詞的 檢索結果的文書資訊群之外的文書資訊群;字符串檢索步驟,藉由基於上述輸入關鍵詞而生成的通配符字符串對上述非對應資訊群進行檢索,獲取上述非對應資訊群中存在的通配符字符串群;相似關鍵詞選擇步驟,根據與上述輸入關鍵詞之間的相似度,從上述非對應資訊群中存在的通配符字符串群中選擇相似關鍵詞,在上述文書檢索步驟中,執行基於上述相似關鍵詞的上述非對應資訊群的檢索;及輸出步驟,輸出針對上述文書資料庫的基於上述輸入關鍵詞的檢索結果和針對上述非對應資訊群的基於上述相似關鍵詞的檢索結果。
TW108135688A 2018-10-04 2019-10-02 文書檢索裝置、文書檢索程式、文書檢索方法 TWI794547B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018189438 2018-10-04
JP2018-189438 2018-10-04

Publications (2)

Publication Number Publication Date
TW202025073A TW202025073A (zh) 2020-07-01
TWI794547B true TWI794547B (zh) 2023-03-01

Family

ID=70055057

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108135688A TWI794547B (zh) 2018-10-04 2019-10-02 文書檢索裝置、文書檢索程式、文書檢索方法

Country Status (5)

Country Link
US (2) US11755659B2 (zh)
JP (1) JP6884930B2 (zh)
CN (1) CN112868001B (zh)
TW (1) TWI794547B (zh)
WO (1) WO2020071252A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230229683A1 (en) * 2020-07-22 2023-07-20 Showa Denko K.K. Document search device, document search system, document search program, and document search method
CN113176979B (zh) * 2021-05-24 2022-11-04 深圳赛安特技术服务有限公司 应用程序异常监控方法、装置、计算机设备及存储介质
CN116935405A (zh) * 2023-06-21 2023-10-24 北京东方龙马软件发展有限公司 基于ocr和nlp提取客户文档扫描件内服务条款方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076292A (ja) * 1998-09-02 2000-03-14 Nec Corp 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
JP2001134617A (ja) * 1999-08-25 2001-05-18 Matsushita Electric Ind Co Ltd 文書検索装置および記録媒体
JP2004213091A (ja) * 2002-12-26 2004-07-29 Canon Inc 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2006139659A (ja) * 2004-11-15 2006-06-01 Fujitsu Ltd 単語認識装置、単語認識方法、単語認識プログラム
TWI285849B (en) * 2002-11-21 2007-08-21 Hitachi Ltd Optical character recognition device, document searching system, and document searching program
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115330A (ja) * 1994-10-14 1996-05-07 Hitachi Ltd 類似文書検索方法および装置
US6470336B1 (en) * 1999-08-25 2002-10-22 Matsushita Electric Industrial Co., Ltd. Document image search device and recording medium having document search program stored thereon
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP3669626B2 (ja) 2000-06-06 2005-07-13 松下電器産業株式会社 検索装置、記録媒体およびプログラム
JP4502114B2 (ja) * 2003-06-24 2010-07-14 セイコーインスツル株式会社 データベース検索装置
JP4461769B2 (ja) * 2003-10-29 2010-05-12 株式会社日立製作所 文書検索・閲覧手法及び文書検索・閲覧装置
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US7894670B2 (en) * 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US20060069675A1 (en) * 2004-09-30 2006-03-30 Ogilvie John W Search tools and techniques
US8312016B2 (en) * 2006-04-25 2012-11-13 Rockstar Consortium Us Lp Method and apparatus for document matching
US7761464B2 (en) * 2006-06-19 2010-07-20 Microsoft Corporation Diversifying search results for improved search and personalization
US7539032B2 (en) * 2006-09-19 2009-05-26 Netlogic Microsystems, Inc. Regular expression searching of packet contents using dedicated search circuits
US7689613B2 (en) * 2006-10-23 2010-03-30 Sony Corporation OCR input to search engine
JPWO2008152823A1 (ja) * 2007-06-15 2010-08-26 東洋エンジニアリング株式会社 文書管理装置、方法およびプログラム
JP4436894B2 (ja) * 2007-08-09 2010-03-24 パナソニック株式会社 コンテンツ検索装置
US8595252B2 (en) * 2007-09-14 2013-11-26 Google Inc. Suggesting alternative queries in query results
JP5173721B2 (ja) * 2008-10-01 2013-04-03 キヤノン株式会社 文書処理システム及びその制御方法、プログラム、記憶媒体
JP2010102676A (ja) * 2008-10-23 2010-05-06 Hiroshima Dia System Co Ltd 複数の単語より構成される検索文字列のあいまい検索方法
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
CN102782680B (zh) * 2010-02-26 2016-01-20 乐天株式会社 信息处理装置、信息处理方法、记录了信息处理程序的记录介质
US9094647B2 (en) * 2010-11-29 2015-07-28 James Williamson AMOLED television frame
JP5594134B2 (ja) 2010-12-28 2014-09-24 富士通株式会社 文字列検索装置,文字列検索方法および文字列検索プログラム
DE102011011881A1 (de) * 2011-02-21 2012-08-23 Thyssenkrupp Uhde Gmbh Verfahren zur Beseitigung von N2O und NOX aus dem Prozess zur Salpetersäureherstellung
US20130198244A1 (en) * 2011-07-29 2013-08-01 Kevin Albrecht Systems and methods for monitoring document transmission
US9916383B1 (en) * 2013-07-12 2018-03-13 Aplix Research, Inc. Systems and methods for document analytics
AU2013214496A1 (en) * 2013-08-12 2015-02-26 Infotext Holdings Pty Ltd A Search Method
US10204177B2 (en) * 2015-11-30 2019-02-12 International Business Machines Corporation Matching an ordered set of strings containing wild cards
US10445355B2 (en) * 2016-04-07 2019-10-15 RELX Inc. Systems and methods for providing a visualizable results list
JP6813591B2 (ja) * 2016-11-25 2021-01-13 日本電信電話株式会社 モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
CN107220343B (zh) * 2017-05-26 2020-09-01 福州大学 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
US10482344B2 (en) * 2018-01-04 2019-11-19 Wipro Limited System and method for performing optical character recognition
CN113378061B (zh) * 2021-07-02 2023-05-30 抖音视界有限公司 一种信息搜索方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076292A (ja) * 1998-09-02 2000-03-14 Nec Corp 文書検索方法および文書検索装置並びに文書検索プログラムを記録した記録媒体
JP2001134617A (ja) * 1999-08-25 2001-05-18 Matsushita Electric Ind Co Ltd 文書検索装置および記録媒体
TWI285849B (en) * 2002-11-21 2007-08-21 Hitachi Ltd Optical character recognition device, document searching system, and document searching program
JP2004213091A (ja) * 2002-12-26 2004-07-29 Canon Inc 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2006139659A (ja) * 2004-11-15 2006-06-01 Fujitsu Ltd 単語認識装置、単語認識方法、単語認識プログラム
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム

Also Published As

Publication number Publication date
WO2020071252A1 (ja) 2020-04-09
CN112868001A (zh) 2021-05-28
TW202025073A (zh) 2020-07-01
US20230342400A1 (en) 2023-10-26
US12086189B2 (en) 2024-09-10
CN112868001B (zh) 2024-04-26
JPWO2020071252A1 (ja) 2021-09-02
JP6884930B2 (ja) 2021-06-09
US11755659B2 (en) 2023-09-12
US20210374189A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
JP5424001B2 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
JP5037627B2 (ja) 顔認識を用いた画像の識別
US6178417B1 (en) Method and means of matching documents based on text genre
JP5751253B2 (ja) 情報抽出システム、方法及びプログラム
US12086189B2 (en) Document search device, document search program, and document search method
JP2014112283A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN119477206A (zh) 一种基于rfid技术的智能档案柜管理方法
CN113474767B (zh) 文件检索装置、文件检索系统、文件检索程序及文件检索方法
JP2005151127A5 (zh)
CN112559324A (zh) 一种基于应用内视觉挖掘的软件测试用例生成方法
JP5790820B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
JP2005107931A (ja) 画像検索装置
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2023057658A (ja) 情報処理装置、情報を提供するためにコンピューターによって実行される方法、および、プログラム
JP2003108576A (ja) データベース管理装置およびデータベース管理方法
CN119647406B (zh) 文本生成方法、装置、电子设备及计算机可读存储介质
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2006190060A (ja) データベース検索方法、データベース検索プログラムおよび原稿処理機
WO2023286340A1 (ja) 情報処理装置および情報処理方法
JP2006146578A (ja) 検索装置、検索方法、及びプログラム
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2009129105A (ja) 文書蓄積装置及び類似文書検索装置及びプログラム