[go: up one dir, main page]

WO2007060073A1 - Method and apparatus for automatically checking documents - Google Patents

Method and apparatus for automatically checking documents Download PDF

Info

Publication number
WO2007060073A1
WO2007060073A1 PCT/EP2006/067777 EP2006067777W WO2007060073A1 WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1 EP 2006067777 W EP2006067777 W EP 2006067777W WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1
Authority
WO
WIPO (PCT)
Prior art keywords
fact
facts
entity
document
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/EP2006/067777
Other languages
German (de)
French (fr)
Inventor
Arthur Pease
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Publication of WO2007060073A1 publication Critical patent/WO2007060073A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.
  • Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.
  • the object underlying the invention is now a method and a device for automatic
  • the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.
  • "Engineers” as well as semantic equivalents of this rule such as factum “on the employee list of” + company name + location + “are in”
  • Comparable facts could, for example, all facts with the following information
  • a further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.
  • OCR optical character recognition
  • a final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents
  • Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.
  • the method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

The invention essentially involves at least one specified fact being extracted from a document using a tool for extracting information according to particular rules for identifying facts, for a respective specified fact a reference database being searched for a relevant fact, which can be used uniformly and is assumed to be correct, using particular rules for identifying comparable facts, and then the specified fact being automatically or upon request replaced by the fact which can be used uniformly and is assumed to be correct, if such a fact has been found.

Description

Beschreibungdescription

Verfahren und Vorrichtung zur automatischen Überprüfung von DokumentenMethod and device for automatically checking documents

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text- Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.The invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.

Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.

Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z. B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.Of course, the correctness of the facts and data used in the preparation of the document will not be verified. The creator of a document so far often uses an information network, for. For example, the Internet, for a manual review of the facts used in the document. However, this is time-consuming and, for example, problems arise due to inconsistent, non-current or too inaccurate information.

Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z. B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.From the publication IEEE Computer Society, IT Pro November | December are known as "information extraction tools" or IE tools that find in a "sea of text" certain information. This happens because these tools have certain entities, such as persons, organizations, names, locations, times, amounts of money; certain relations between these entities, such as "busy at", "woman of", "owner of" or "born in" and events such as For example, "meeting,""contracting," or "buying company." Such IE tools use linguistic conventions as well Interpretation and referencing rules and are often also capable of learning.

Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischenThe object underlying the invention is now a method and a device for automatic

Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.Specify review of image / text documents in such a way that the above-mentioned disadvantages are avoided.

Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.This object is achieved with respect to the method by features of claim 1 and with respect to the device by the features of claim 5.

Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens .The further claims relate to advantageous embodiments of the method according to the invention.

Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.Essentially, the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.

Nachfolgend wird die Erfindung anhand bevorzugterThe invention will be described below with reference to preferred

Anwendungsbeispiele näher erläutert.Application examples explained in more detail.

In einem Textdokument wird mit Hilfe eines Werkzeugs zurIn a text document, using a tool becomes

Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenesInformation extraction according to certain rules for recognizing facts from a document at least one specified

Faktum extrahiert.Fact extracted.

Solche Regeln zur Extraktion eines Faktums sind z.B.: Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt (e) " + Zahl + „Mitarbeiter" | „Ingenieure" sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt"! „aufgeführt"! „eingetragen" .Such rules for extracting a fact include: Fact = time + company name + location "busy" + number + "employee" | "Engineers" as well as semantic equivalents of this rule such as factum = "on the employee list of" + company name + location + "are in" | "were in" time + number + "persons" | engineers + "called"! "Listed"! "Registered".

und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.and also all syntactically correct equivalents of all these semantically equivalent rules.

Sobald also bspw. der Satz oder SatzteilSo as soon as, for example, the sentence or phrase

„2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht."2004 Siemens USA employed 63000 employees" is entered, this fact is recognized as a fact with the help of the above-mentioned rule and for this specified fact in a reference database with the help of certain rules for the recognition of comparable facts a relevant uniformly to be used and as correctly assumed fact searched ,

Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden AngabenComparable facts could, for example, all facts with the following information

Firmenname = SiemensCompany name = Siemens

Ortsangabe = USA Zeitangabe = 2004Location = USA Time = 2004

Beschäftigte = beliebigEmployees = any

sein und in der Referenzdatenbank gesucht und gefunden werden :be and be searched and found in the reference database:

Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.As a result, for example, the following comparable facts appear from which the user can then select.

Mitarbeiter = 64000 Ingenieure = 30000Employee = 64000 Engineers = 30000

Kaufleute = 10000 Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.Merchants = 10000 On the basis of the statement "employee" in the entered sentence or phrase, however, an automatic replacement of the specified value "63000" by the uniformly used and correctly assumed value "64000" of the reference database could also take place here, for example.

Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss .In addition to the replacement of individual words but also the replacement of multiple words is possible up to the entire input fact, if, for example, the order of the words must be changed.

In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.In documents, the meaning of a number is usually easily recognizable by a practically immediately following designation and can be used to extract facts.

Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.A further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.

Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichs- verfahren oder aber direkt mit Hilfe der strukturiertenA final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents

Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.

Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung. The method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.

Claims

Patentansprüche claims 1. Verfahren zur Überprüfung von Dokumenten,1. Method for verifying documents - bei dem mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,in which at least one specified fact is extracted by means of an information extraction tool according to certain rules for recognizing facts from a document, - bei dem jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird undin which, in each case, for a given fact in a reference database, with the aid of certain rules for the recognition of comparable facts, a relevant, uniformly used and correctly accepted fact is sought, and - bei dem dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.- in which then the specified fact is automatically or on request replaced by the uniformly used and accepted as the correct fact. 2. Verfahren nach Anspruch 1,2. The method according to claim 1, - bei dem ein Faktum mindestens aus einer ersten Entität/Ereignis-Angabe, einer zweiten Entität/Ereignis- Angabe und einer Relation zwischen beiden besteht,- where a fact consists of at least a first entity / event, a second entity / event, and a relation between the two, - bei dem Fakten dadurch erkannt werden, dass bestimmte Entität/Ereignis-Angaben aus einer vorgegebenen Liste von Entität/Ereignis-Angaben und Relationen aus einer Liste von vorgegebenen Relationen in einer bestimmten Weise im Dokument auftreten,in which facts are recognized by the fact that certain entity / event information from a given list of entity / event information and relations arises from a list of given relations in a particular way in the document, - bei dem vergleichbare Fakten durch gleiche Paare von ersten Entität/Ereignis-Angaben und Relationen erkannt werden undin which comparable facts are recognized by equal pairs of first entity / event indications and relations and - bei dem die zweiten Entität/Ereignis-Angaben der vergleichbaren Fakten des Dokuments und der Referenzdatenbank mit Hilfe von Toleranzregeln untersucht werden, ob einein which the second entity / event information of the comparable facts of the document and the reference database are examined by means of tolerance rules, whether a Ersetzung des jeweiligen Faktums zu erfolgen hat oder nicht.Replacement of the respective fact has to be done or not. 3. Verfahren nach Anspruch 2, bei dem eine Entität/Ereignis-Angabe entweder ein Name oder Beschreibungsparameter einer Bilddatei ist, die weitere Entität/Ereignis-Angabe den Namen des im dem Bild dargestellten Objektes darstellt und die Relation diesen Umstand zum Ausdruck bringt. 3. The method of claim 2, wherein an entity / event indication is either a name or description parameter of an image file, the further entity / event indication represents the name of the object represented in the image, and the relation expresses that fact. 4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Dokument bereits während seiner Erstellung immer wieder neu überprüft wird.4. The method according to any one of the preceding claims, wherein the document is already checked again during its creation. 5. Vorrichtung zur Überprüfung von Dokumenten,5. Device for checking documents - bei der ein Werkzeugs zur Informationsextraktion derart vorhanden ist, dass nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,in which an information extraction tool is present in such a way that, according to certain rules for recognizing facts from a document, at least one specified fact is extracted, - bei der eine Referenzdatenbank derart vorhanden ist, mit Hilfe bestimmter Regeln zur Erkennung vergleichbarer Fakten zu einem angegebenen Faktum ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird undin which a reference database exists in such a way, by means of certain rules for the recognition of comparable facts for a given fact, a relevant uniformly used and accepted as correct fact is sought, and - bei der eine Programmeinheit zur Textersetzung derart vorhanden ist, dass das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird. - In which a program unit for text replacement is present such that the specified fact is automatically or on request replaced by the uniformly used and accepted as correct fact.
PCT/EP2006/067777 2005-11-28 2006-10-26 Method and apparatus for automatically checking documents Ceased WO2007060073A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005056713.4 2005-11-28
DE102005056713A DE102005056713A1 (en) 2005-11-28 2005-11-28 Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct

Publications (1)

Publication Number Publication Date
WO2007060073A1 true WO2007060073A1 (en) 2007-05-31

Family

ID=37698253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/067777 Ceased WO2007060073A1 (en) 2005-11-28 2006-10-26 Method and apparatus for automatically checking documents

Country Status (2)

Country Link
DE (1) DE102005056713A1 (en)
WO (1) WO2007060073A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US20030120477A1 (en) * 2001-10-23 2003-06-26 Kruk Jeffrey M. System and method for managing a procurement process

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US20030120477A1 (en) * 2001-10-23 2003-06-26 Kruk Jeffrey M. System and method for managing a procurement process

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CLEMENTE, B.E. ET AL.: "Mapping the Course, Marking the Trail", IT PROFESSIONAL, vol. 7, 1 November 2005 (2005-11-01), pages 10 - 15, XP002420092 *

Also Published As

Publication number Publication date
DE102005056713A1 (en) 2007-05-31

Similar Documents

Publication Publication Date Title
DE69330633T2 (en) Method and apparatus for comparing semantic patterns for retrieving texts
DE69829074T2 (en) IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA
DE3788488T2 (en) Language translation system.
DE10342594B4 (en) Method and system for collecting data from a plurality of machine readable documents
DE69424350T2 (en) Context-sensitive method of finding information about a word in an electronic dictionary
DE69429881T2 (en) METHOD AND DEVICES FOR PROCESSING A BILINGUAL DATABASE
EP1135767B1 (en) Method and layout for forming classes for a language model based on linguistic classes
DE3587009T2 (en) TRANSLATION SYSTEM.
DE69725883T2 (en) PARSER FOR NATURAL LANGUAGE WITH DICTIONARY-BASED PARTIAL PROBABILITIES
DE102004046252A1 (en) Device for separating composite words and spell checking
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
DE10308550A1 (en) System and method for automatic data checking and correction
DE10393736T5 (en) Automatic evaluation of overly repetitive word usage in an essay
DE602004003609T2 (en) Solution of segmentation ambiguity in grammatical position
EP0813734B1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed
DE102007042971A1 (en) Speech recognition method and speech recognition device
DE102020205394A1 (en) Computer-implemented method and apparatus for creating a knowledge graph
DE102009031872A1 (en) Method and device for automatically searching for documents in a data memory
DE102009009123A1 (en) A method and system for translating a first language text into at least one other language and a computer program product
WO2007060073A1 (en) Method and apparatus for automatically checking documents
DE4213533C2 (en) Method and computer system for decomposing compound words
DE102016114265A1 (en) Method for at least partially machine transferring a word sequence written in a source language into a word sequence of a target language
DE10112587A1 (en) Computer-assisted determination of similarity between character strings by describing similarly in terms of conversion cost values
DE102016125162B4 (en) Method and device for the automatic processing of texts
DE10010232A1 (en) Method and device for speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06819146

Country of ref document: EP

Kind code of ref document: A1