WO2007060073A1 - Method and apparatus for automatically checking documents - Google Patents
Method and apparatus for automatically checking documents Download PDFInfo
- Publication number
- WO2007060073A1 WO2007060073A1 PCT/EP2006/067777 EP2006067777W WO2007060073A1 WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1 EP 2006067777 W EP2006067777 W EP 2006067777W WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- fact
- facts
- entity
- document
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Definitions
- the invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.
- Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.
- the object underlying the invention is now a method and a device for automatic
- the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.
- "Engineers” as well as semantic equivalents of this rule such as factum “on the employee list of” + company name + location + “are in”
- Comparable facts could, for example, all facts with the following information
- a further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.
- OCR optical character recognition
- a final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents
- Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.
- the method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
Description
Beschreibungdescription
Verfahren und Vorrichtung zur automatischen Überprüfung von DokumentenMethod and device for automatically checking documents
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text- Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.The invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.
Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.
Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z. B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.Of course, the correctness of the facts and data used in the preparation of the document will not be verified. The creator of a document so far often uses an information network, for. For example, the Internet, for a manual review of the facts used in the document. However, this is time-consuming and, for example, problems arise due to inconsistent, non-current or too inaccurate information.
Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z. B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.From the publication IEEE Computer Society, IT Pro November | December are known as "information extraction tools" or IE tools that find in a "sea of text" certain information. This happens because these tools have certain entities, such as persons, organizations, names, locations, times, amounts of money; certain relations between these entities, such as "busy at", "woman of", "owner of" or "born in" and events such as For example, "meeting,""contracting," or "buying company." Such IE tools use linguistic conventions as well Interpretation and referencing rules and are often also capable of learning.
Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischenThe object underlying the invention is now a method and a device for automatic
Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.Specify review of image / text documents in such a way that the above-mentioned disadvantages are avoided.
Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.This object is achieved with respect to the method by features of claim 1 and with respect to the device by the features of claim 5.
Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens .The further claims relate to advantageous embodiments of the method according to the invention.
Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.Essentially, the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.
Nachfolgend wird die Erfindung anhand bevorzugterThe invention will be described below with reference to preferred
Anwendungsbeispiele näher erläutert.Application examples explained in more detail.
In einem Textdokument wird mit Hilfe eines Werkzeugs zurIn a text document, using a tool becomes
Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenesInformation extraction according to certain rules for recognizing facts from a document at least one specified
Faktum extrahiert.Fact extracted.
Solche Regeln zur Extraktion eines Faktums sind z.B.: Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt (e) " + Zahl + „Mitarbeiter" | „Ingenieure" sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt"! „aufgeführt"! „eingetragen" .Such rules for extracting a fact include: Fact = time + company name + location "busy" + number + "employee" | "Engineers" as well as semantic equivalents of this rule such as factum = "on the employee list of" + company name + location + "are in" | "were in" time + number + "persons" | engineers + "called"! "Listed"! "Registered".
und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.and also all syntactically correct equivalents of all these semantically equivalent rules.
Sobald also bspw. der Satz oder SatzteilSo as soon as, for example, the sentence or phrase
„2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht."2004 Siemens USA employed 63000 employees" is entered, this fact is recognized as a fact with the help of the above-mentioned rule and for this specified fact in a reference database with the help of certain rules for the recognition of comparable facts a relevant uniformly to be used and as correctly assumed fact searched ,
Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden AngabenComparable facts could, for example, all facts with the following information
Firmenname = SiemensCompany name = Siemens
Ortsangabe = USA Zeitangabe = 2004Location = USA Time = 2004
Beschäftigte = beliebigEmployees = any
sein und in der Referenzdatenbank gesucht und gefunden werden :be and be searched and found in the reference database:
Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.As a result, for example, the following comparable facts appear from which the user can then select.
Mitarbeiter = 64000 Ingenieure = 30000Employee = 64000 Engineers = 30000
Kaufleute = 10000 Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.Merchants = 10000 On the basis of the statement "employee" in the entered sentence or phrase, however, an automatic replacement of the specified value "63000" by the uniformly used and correctly assumed value "64000" of the reference database could also take place here, for example.
Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss .In addition to the replacement of individual words but also the replacement of multiple words is possible up to the entire input fact, if, for example, the order of the words must be changed.
In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.In documents, the meaning of a number is usually easily recognizable by a practically immediately following designation and can be used to extract facts.
Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.A further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.
Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichs- verfahren oder aber direkt mit Hilfe der strukturiertenA final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents
Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.
Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung. The method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.
Claims
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102005056713.4 | 2005-11-28 | ||
| DE102005056713A DE102005056713A1 (en) | 2005-11-28 | 2005-11-28 | Document e.g. image document, verifying method, involves searching information accepted as correct and to be used uniformly by given information in reference database, and replacing given information by information accepted as correct |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2007060073A1 true WO2007060073A1 (en) | 2007-05-31 |
Family
ID=37698253
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2006/067777 Ceased WO2007060073A1 (en) | 2005-11-28 | 2006-10-26 | Method and apparatus for automatically checking documents |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102005056713A1 (en) |
| WO (1) | WO2007060073A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6523031B1 (en) * | 1997-11-21 | 2003-02-18 | International Business Machines Corporation | Method for obtaining structured information exists in special data format from a natural language text by aggregation |
| US20030120477A1 (en) * | 2001-10-23 | 2003-06-26 | Kruk Jeffrey M. | System and method for managing a procurement process |
-
2005
- 2005-11-28 DE DE102005056713A patent/DE102005056713A1/en not_active Ceased
-
2006
- 2006-10-26 WO PCT/EP2006/067777 patent/WO2007060073A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6523031B1 (en) * | 1997-11-21 | 2003-02-18 | International Business Machines Corporation | Method for obtaining structured information exists in special data format from a natural language text by aggregation |
| US20030120477A1 (en) * | 2001-10-23 | 2003-06-26 | Kruk Jeffrey M. | System and method for managing a procurement process |
Non-Patent Citations (1)
| Title |
|---|
| CLEMENTE, B.E. ET AL.: "Mapping the Course, Marking the Trail", IT PROFESSIONAL, vol. 7, 1 November 2005 (2005-11-01), pages 10 - 15, XP002420092 * |
Also Published As
| Publication number | Publication date |
|---|---|
| DE102005056713A1 (en) | 2007-05-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69330633T2 (en) | Method and apparatus for comparing semantic patterns for retrieving texts | |
| DE69829074T2 (en) | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA | |
| DE3788488T2 (en) | Language translation system. | |
| DE10342594B4 (en) | Method and system for collecting data from a plurality of machine readable documents | |
| DE69424350T2 (en) | Context-sensitive method of finding information about a word in an electronic dictionary | |
| DE69429881T2 (en) | METHOD AND DEVICES FOR PROCESSING A BILINGUAL DATABASE | |
| EP1135767B1 (en) | Method and layout for forming classes for a language model based on linguistic classes | |
| DE3587009T2 (en) | TRANSLATION SYSTEM. | |
| DE69725883T2 (en) | PARSER FOR NATURAL LANGUAGE WITH DICTIONARY-BASED PARTIAL PROBABILITIES | |
| DE102004046252A1 (en) | Device for separating composite words and spell checking | |
| DE112018005272T5 (en) | SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE | |
| DE10308550A1 (en) | System and method for automatic data checking and correction | |
| DE10393736T5 (en) | Automatic evaluation of overly repetitive word usage in an essay | |
| DE602004003609T2 (en) | Solution of segmentation ambiguity in grammatical position | |
| EP0813734B1 (en) | Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed | |
| DE102007042971A1 (en) | Speech recognition method and speech recognition device | |
| DE102020205394A1 (en) | Computer-implemented method and apparatus for creating a knowledge graph | |
| DE102009031872A1 (en) | Method and device for automatically searching for documents in a data memory | |
| DE102009009123A1 (en) | A method and system for translating a first language text into at least one other language and a computer program product | |
| WO2007060073A1 (en) | Method and apparatus for automatically checking documents | |
| DE4213533C2 (en) | Method and computer system for decomposing compound words | |
| DE102016114265A1 (en) | Method for at least partially machine transferring a word sequence written in a source language into a word sequence of a target language | |
| DE10112587A1 (en) | Computer-assisted determination of similarity between character strings by describing similarly in terms of conversion cost values | |
| DE102016125162B4 (en) | Method and device for the automatic processing of texts | |
| DE10010232A1 (en) | Method and device for speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
| DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 06819146 Country of ref document: EP Kind code of ref document: A1 |