[go: up one dir, main page]

WO2007060073A1 - Verfahren und vorrichtung zur automatischen überprüfung von dokumenten - Google Patents

Verfahren und vorrichtung zur automatischen überprüfung von dokumenten Download PDF

Info

Publication number
WO2007060073A1
WO2007060073A1 PCT/EP2006/067777 EP2006067777W WO2007060073A1 WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1 EP 2006067777 W EP2006067777 W EP 2006067777W WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1
Authority
WO
WIPO (PCT)
Prior art keywords
fact
facts
entity
document
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/EP2006/067777
Other languages
English (en)
French (fr)
Inventor
Arthur Pease
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Publication of WO2007060073A1 publication Critical patent/WO2007060073A1/de
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.
  • Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.
  • the object underlying the invention is now a method and a device for automatic
  • the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.
  • "Engineers” as well as semantic equivalents of this rule such as factum “on the employee list of” + company name + location + “are in”
  • Comparable facts could, for example, all facts with the following information
  • a further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.
  • OCR optical character recognition
  • a final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents
  • Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.
  • the method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.

Description

Beschreibung
Verfahren und Vorrichtung zur automatischen Überprüfung von Dokumenten
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text- Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.
Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.
Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z. B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.
Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z. B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.
Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischen
Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.
Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.
Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens .
Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.
Nachfolgend wird die Erfindung anhand bevorzugter
Anwendungsbeispiele näher erläutert.
In einem Textdokument wird mit Hilfe eines Werkzeugs zur
Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes
Faktum extrahiert.
Solche Regeln zur Extraktion eines Faktums sind z.B.: Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt (e) " + Zahl + „Mitarbeiter" | „Ingenieure" sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt"! „aufgeführt"! „eingetragen" .
und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.
Sobald also bspw. der Satz oder Satzteil
„2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht.
Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden Angaben
Firmenname = Siemens
Ortsangabe = USA Zeitangabe = 2004
Beschäftigte = beliebig
sein und in der Referenzdatenbank gesucht und gefunden werden :
Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.
Mitarbeiter = 64000 Ingenieure = 30000
Kaufleute = 10000 Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.
Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss .
In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.
Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.
Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichs- verfahren oder aber direkt mit Hilfe der strukturierten
Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.
Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung.

Claims

Patentansprüche
1. Verfahren zur Überprüfung von Dokumenten,
- bei dem mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,
- bei dem jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und
- bei dem dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.
2. Verfahren nach Anspruch 1,
- bei dem ein Faktum mindestens aus einer ersten Entität/Ereignis-Angabe, einer zweiten Entität/Ereignis- Angabe und einer Relation zwischen beiden besteht,
- bei dem Fakten dadurch erkannt werden, dass bestimmte Entität/Ereignis-Angaben aus einer vorgegebenen Liste von Entität/Ereignis-Angaben und Relationen aus einer Liste von vorgegebenen Relationen in einer bestimmten Weise im Dokument auftreten,
- bei dem vergleichbare Fakten durch gleiche Paare von ersten Entität/Ereignis-Angaben und Relationen erkannt werden und
- bei dem die zweiten Entität/Ereignis-Angaben der vergleichbaren Fakten des Dokuments und der Referenzdatenbank mit Hilfe von Toleranzregeln untersucht werden, ob eine
Ersetzung des jeweiligen Faktums zu erfolgen hat oder nicht.
3. Verfahren nach Anspruch 2, bei dem eine Entität/Ereignis-Angabe entweder ein Name oder Beschreibungsparameter einer Bilddatei ist, die weitere Entität/Ereignis-Angabe den Namen des im dem Bild dargestellten Objektes darstellt und die Relation diesen Umstand zum Ausdruck bringt.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Dokument bereits während seiner Erstellung immer wieder neu überprüft wird.
5. Vorrichtung zur Überprüfung von Dokumenten,
- bei der ein Werkzeugs zur Informationsextraktion derart vorhanden ist, dass nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,
- bei der eine Referenzdatenbank derart vorhanden ist, mit Hilfe bestimmter Regeln zur Erkennung vergleichbarer Fakten zu einem angegebenen Faktum ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und
- bei der eine Programmeinheit zur Textersetzung derart vorhanden ist, dass das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.
PCT/EP2006/067777 2005-11-28 2006-10-26 Verfahren und vorrichtung zur automatischen überprüfung von dokumenten Ceased WO2007060073A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005056713.4 2005-11-28
DE102005056713A DE102005056713A1 (de) 2005-11-28 2005-11-28 Verfahren und Vorrichtung zur automatischen Überprüfung von Dokumenten

Publications (1)

Publication Number Publication Date
WO2007060073A1 true WO2007060073A1 (de) 2007-05-31

Family

ID=37698253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/067777 Ceased WO2007060073A1 (de) 2005-11-28 2006-10-26 Verfahren und vorrichtung zur automatischen überprüfung von dokumenten

Country Status (2)

Country Link
DE (1) DE102005056713A1 (de)
WO (1) WO2007060073A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US20030120477A1 (en) * 2001-10-23 2003-06-26 Kruk Jeffrey M. System and method for managing a procurement process

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
US20030120477A1 (en) * 2001-10-23 2003-06-26 Kruk Jeffrey M. System and method for managing a procurement process

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CLEMENTE, B.E. ET AL.: "Mapping the Course, Marking the Trail", IT PROFESSIONAL, vol. 7, 1 November 2005 (2005-11-01), pages 10 - 15, XP002420092 *

Also Published As

Publication number Publication date
DE102005056713A1 (de) 2007-05-31

Similar Documents

Publication Publication Date Title
DE69330633T2 (de) Verfahren und Apparat zum Vergleichen von semantischen Mustern für das Wiederauffinden von Texten
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE3788488T2 (de) Sprachenübersetzungssystem.
DE10342594B4 (de) Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE69424350T2 (de) Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch
DE69429881T2 (de) Verfahren und vorrichtungen zur verarbeitung einer zweisprachigen datenbank
EP1135767B1 (de) Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
DE3587009T2 (de) Uebersetzungssystem.
DE69725883T2 (de) Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE10393736T5 (de) Automatische Evaluierung von übermässig wiederholter Wortverwendung in einem Essay
DE602004003609T2 (de) Lösung der Segmentierungsmehrdeutigkeit bei der Grammatikerstellung
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE102007042971A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE102020205394A1 (de) Computerimplementiertes Verfahren und Vorrichtung zum Erstellen eines Knowledge Graph
DE102009031872A1 (de) Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
DE102009009123A1 (de) Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt
WO2007060073A1 (de) Verfahren und vorrichtung zur automatischen überprüfung von dokumenten
DE4213533C2 (de) Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
DE102016114265A1 (de) Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
DE10010232A1 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06819146

Country of ref document: EP

Kind code of ref document: A1