WO2007060073A1

WO2007060073A1 - Verfahren und vorrichtung zur automatischen überprüfung von dokumenten

Info

Publication number: WO2007060073A1
Application number: PCT/EP2006/067777
Authority: WO
Inventors: Arthur Pease
Original assignee: Siemens AG; Siemens Corp
Current assignee: Siemens AG; Siemens Corp
Priority date: 2005-11-28
Filing date: 2006-10-26
Publication date: 2007-05-31
Anticipated expiration: 2008-05-28
Also published as: DE102005056713A1

Abstract

Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.

Description

Beschreibung

Verfahren und Vorrichtung zur automatischen Überprüfung von Dokumenten

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text- Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.

Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.

Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z. B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.

Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z. B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.

Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischen

Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.

Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.

Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens .

Nachfolgend wird die Erfindung anhand bevorzugter

Anwendungsbeispiele näher erläutert.

In einem Textdokument wird mit Hilfe eines Werkzeugs zur

Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes

Faktum extrahiert.

Solche Regeln zur Extraktion eines Faktums sind z.B.: Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt (e) " + Zahl + „Mitarbeiter" | „Ingenieure" sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt"! „aufgeführt"! „eingetragen" .

und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.

Sobald also bspw. der Satz oder Satzteil

„2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht.

Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden Angaben

Firmenname = Siemens

Ortsangabe = USA Zeitangabe = 2004

Beschäftigte = beliebig

sein und in der Referenzdatenbank gesucht und gefunden werden :

Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.

Mitarbeiter = 64000 Ingenieure = 30000

Kaufleute = 10000 Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.

Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss .

In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.

Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.

Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichs- verfahren oder aber direkt mit Hilfe der strukturierten

Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.

Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung.

Claims

Patentansprüche

1. Verfahren zur Überprüfung von Dokumenten,

- bei dem mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,

- bei dem jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und

- bei dem dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.

2. Verfahren nach Anspruch 1,

- bei dem ein Faktum mindestens aus einer ersten Entität/Ereignis-Angabe, einer zweiten Entität/Ereignis- Angabe und einer Relation zwischen beiden besteht,

- bei dem Fakten dadurch erkannt werden, dass bestimmte Entität/Ereignis-Angaben aus einer vorgegebenen Liste von Entität/Ereignis-Angaben und Relationen aus einer Liste von vorgegebenen Relationen in einer bestimmten Weise im Dokument auftreten,

- bei dem vergleichbare Fakten durch gleiche Paare von ersten Entität/Ereignis-Angaben und Relationen erkannt werden und

- bei dem die zweiten Entität/Ereignis-Angaben der vergleichbaren Fakten des Dokuments und der Referenzdatenbank mit Hilfe von Toleranzregeln untersucht werden, ob eine

Ersetzung des jeweiligen Faktums zu erfolgen hat oder nicht.

3. Verfahren nach Anspruch 2, bei dem eine Entität/Ereignis-Angabe entweder ein Name oder Beschreibungsparameter einer Bilddatei ist, die weitere Entität/Ereignis-Angabe den Namen des im dem Bild dargestellten Objektes darstellt und die Relation diesen Umstand zum Ausdruck bringt.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Dokument bereits während seiner Erstellung immer wieder neu überprüft wird.

5. Vorrichtung zur Überprüfung von Dokumenten,

- bei der ein Werkzeugs zur Informationsextraktion derart vorhanden ist, dass nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,

- bei der eine Referenzdatenbank derart vorhanden ist, mit Hilfe bestimmter Regeln zur Erkennung vergleichbarer Fakten zu einem angegebenen Faktum ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und

- bei der eine Programmeinheit zur Textersetzung derart vorhanden ist, dass das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.