WO2007060073A1 - Verfahren und vorrichtung zur automatischen überprüfung von dokumenten - Google Patents
Verfahren und vorrichtung zur automatischen überprüfung von dokumenten Download PDFInfo
- Publication number
- WO2007060073A1 WO2007060073A1 PCT/EP2006/067777 EP2006067777W WO2007060073A1 WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1 EP 2006067777 W EP2006067777 W EP 2006067777W WO 2007060073 A1 WO2007060073 A1 WO 2007060073A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- fact
- facts
- entity
- document
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Definitions
- the invention relates to a method and a device for checking documents, in which an image / text document, in particular already during its creation, is automatically checked for its correctness and then marks or eliminates possibly automatically contained errors in the document become.
- Such a method or such a device is well known from modern word processing programs in the form of a spelling and grammar check, so a syntax check.
- the object underlying the invention is now a method and a device for automatic
- the invention consists in extracting from a document at least one specified fact using an information extraction tool according to certain rules for identifying facts, each relating to a specified fact in a reference database with the aid of certain rules for recognizing comparable facts uniformly used and accepted as correct fact is searched for and then the specified fact is automatically or if desired replaced by the uniformly to be used and accepted as correct fact, if one was found.
- "Engineers” as well as semantic equivalents of this rule such as factum “on the employee list of” + company name + location + “are in”
- Comparable facts could, for example, all facts with the following information
- a further embodiment of the invention is that text information displayed on images, for example, be determined with OCR (optical character recognition) and thus the correctness of this information in accompanying accompanying texts is checked.
- OCR optical character recognition
- a final embodiment of the invention consists in that persons and / or objects displayed on image documents are processed with the aid of image recognition / comparison methods or else directly with the help of the structured documents
- Information of modern image description files are determined and compared with data from a reference database, in order to then check the correctness of relevant information in accompanying text and, where appropriate, to exchange images or facts in texts appropriately.
- the method according to the invention advantageously takes place largely keeping pace during the creation of a text and a respective preceding syntactic check.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
Abstract
Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.
Description
Beschreibung
Verfahren und Vorrichtung zur automatischen Überprüfung von Dokumenten
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Überprüfung von Dokumenten, bei dem/der ein Bild-/Text- Dokument, insbesondere bereits während seiner Erstellung, automatisch auf seine Korrektheit hin überprüft wird und dann evtl. automatisch enthaltene Fehler im Dokument markiert oder beseitigt werden.
Ein solches Verfahren bzw. eine solche Vorrichtung ist aus modernen Textverarbeitungsprogrammen in Form einer Rechtschreibungs- und Grammatiküberprüfung, also einer Syntax-Prüfung, hinlänglich bekannt.
Die Richtigkeit der bei der Erstellung des Dokuments verwendeten Fakten bzw. Daten wird dadurch natürlich nicht überprüft. Der Ersteller eines Dokuments benutzt hierfür bislang häufig ein Informationsnetz, z. B. das Internet, zu einer manuellen Überprüfung der im Dokument verwendeten Fakten. Dies ist jedoch zeitaufwändig und es treten bspw. Probleme durch inkonsistente, nicht aktuelle oder zu ungenaue Angaben auf.
Aus der Veröffentlichung IEEE Computer Society, IT Pro November | Dezember sind so genannte „Information Extraktion Tools" bzw. IE-Werkzeuge bekannt, die in einem „Meer von Text" bestimmte Informationen finden. Dies geschieht dadurch, dass diese Werkzeuge bestimmte Entitäten, wie beispielsweise Personen, Organisationen, Namen, Orte, Zeiten, Geldbeträge; bestimmte Relationen zwischen diesen Entitäten, wie beispielsweise „beschäftigt bei", „Frau von", „Eigentümer von" oder „geboren in" und Ereignisse, wie z. B. „Meeting", „Vertragsabschluss" oder „Kauf von Firma" erkennen. Solche IE-Werkzeuge nutzen linguistische Konventionen sowie
Interpretations- und Referenzierungsregeln und sind häufig auch lernfähig.
Die Erfindung zu Grunde liegende Aufgabe besteht nun darin ein Verfahren und eine Vorrichtung zur automatischen
Überprüfung von Bild-/Text-Dokumenten derart anzugeben, dass die oben angegebenen Nachteile vermieden werden.
Diese Aufgabe wird erfindungsgemäß hinsichtlich des Verfahrens durch Merkmale des Anspruchs 1 und hinsichtlich der Vorrichtung durch die Merkmale des Anspruchs 5 gelöst.
Die weiteren Ansprüche betreffen vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens .
Die Erfindung besteht im Wesentlichen darin, dass mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird, jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird, falls ein solches gefunden wurde.
Nachfolgend wird die Erfindung anhand bevorzugter
Anwendungsbeispiele näher erläutert.
In einem Textdokument wird mit Hilfe eines Werkzeugs zur
Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes
Faktum extrahiert.
Solche Regeln zur Extraktion eines Faktums sind z.B.:
Faktum = Zeitangabe + Firmenname + Ortsangabe „beschäftigt (e) " + Zahl + „Mitarbeiter" | „Ingenieure" sowie auch semantische Äquivalente dieser Regel wie bspw. Faktum = „auf der Mitarbeiterliste von" + Firmenname + Ortsangabe + „sind in" | „waren in" Zeitangabe + Zahl + „Personen" | Ingenieure + „genannt"! „aufgeführt"! „eingetragen" .
und auch alle syntaktisch korrekten Äquivalente aller dieser semantisch äquivalenten Regeln.
Sobald also bspw. der Satz oder Satzteil
„2004 Siemens USA beschäftigte 63000 Mitarbeiter" eingegeben wird, wird dieser als Faktum mit Hilfe der oben genannten Regel erkannt und zu diesem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht.
Vergleichbare Fakten könnten hier bspw. alle Fakten mit folgenden Angaben
Firmenname = Siemens
Ortsangabe = USA Zeitangabe = 2004
Beschäftigte = beliebig
sein und in der Referenzdatenbank gesucht und gefunden werden :
Als Ergebnis erscheinen bspw. folgende vergleichbaren Fakten aus denen der Anwender dann auswählen kann.
Mitarbeiter = 64000 Ingenieure = 30000
Kaufleute = 10000
Aufgrund der Angabe „Mitarbeiter" im eingegebenen Satz oder Satzteil könnte hier aber bspw. auch gleich eine automatische Ersetzung des angegebenen Wertes „63000" durch den einheitlich zu verwendenden und als richtig angenommenen Wert „64000" der Referenzdatenbank erfolgen.
Neben der Ersetzung einzelner Wörter ist aber auch die Ersetzung mehrerer Wörter bis hin zum gesamten eingegebenen Faktum möglich, wenn bspw. die Reihenfolge der Worte geändert werden muss .
In Dokumenten ist die Bedeutung einer Zahl meist durch eine praktisch ummittelbare folgende Benennungsangabe gut erkennbar und zur Extraktion von Fakten vorteilhaft nutzbar.
Eine weitere Ausgestaltung der Erfindung besteht darin, dass auf Bildern dargestellte Textinformationen bspw. mit OCR (optical character recognition) ermittelt werden und damit die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten überprüft wird.
Eine letzte Ausgestaltung der Erfindung besteht darin, dass auf Bilddokumenten dargestellten Personen und/oder Gegenstände mit Hilfe von Bilderkennungs-/Vergleichs- verfahren oder aber direkt mit Hilfe der strukturierten
Angaben moderner Bildbeschreibungsdateien ermittelt und mit Daten einer Referenzdatenbank verglichen werden, um dann die Korrektheit diesbezüglicher Angaben in zugehörigen Begleittexten zu überprüfen und ggf. Bilder bzw. Fakten in Texten entsprechend passend auszutauschen.
Das erfindungsgemäße Verfahren erfolgt vorteilhafter Weise weitgehend schritthaltend während der Erstellung eines Textes und einer jeweils vorausgehenden syntaktischen Überprüfung.
Claims
1. Verfahren zur Überprüfung von Dokumenten,
- bei dem mit Hilfe eines Werkzeugs zur Informationsextraktion nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,
- bei dem jeweils zu einem angegebenen Faktum in einer Referenzdatenbank mit Hilfe von bestimmten Regeln zur Erkennung vergleichbarer Fakten ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und
- bei dem dann das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.
2. Verfahren nach Anspruch 1,
- bei dem ein Faktum mindestens aus einer ersten Entität/Ereignis-Angabe, einer zweiten Entität/Ereignis- Angabe und einer Relation zwischen beiden besteht,
- bei dem Fakten dadurch erkannt werden, dass bestimmte Entität/Ereignis-Angaben aus einer vorgegebenen Liste von Entität/Ereignis-Angaben und Relationen aus einer Liste von vorgegebenen Relationen in einer bestimmten Weise im Dokument auftreten,
- bei dem vergleichbare Fakten durch gleiche Paare von ersten Entität/Ereignis-Angaben und Relationen erkannt werden und
- bei dem die zweiten Entität/Ereignis-Angaben der vergleichbaren Fakten des Dokuments und der Referenzdatenbank mit Hilfe von Toleranzregeln untersucht werden, ob eine
Ersetzung des jeweiligen Faktums zu erfolgen hat oder nicht.
3. Verfahren nach Anspruch 2, bei dem eine Entität/Ereignis-Angabe entweder ein Name oder Beschreibungsparameter einer Bilddatei ist, die weitere Entität/Ereignis-Angabe den Namen des im dem Bild dargestellten Objektes darstellt und die Relation diesen Umstand zum Ausdruck bringt.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Dokument bereits während seiner Erstellung immer wieder neu überprüft wird.
5. Vorrichtung zur Überprüfung von Dokumenten,
- bei der ein Werkzeugs zur Informationsextraktion derart vorhanden ist, dass nach bestimmten Regeln zur Erkennung von Fakten aus einem Dokument mindestens ein angegebenes Faktum extrahiert wird,
- bei der eine Referenzdatenbank derart vorhanden ist, mit Hilfe bestimmter Regeln zur Erkennung vergleichbarer Fakten zu einem angegebenen Faktum ein betreffendes einheitlich zu verwendendes und als richtig angenommenes Faktum gesucht wird und
- bei der eine Programmeinheit zur Textersetzung derart vorhanden ist, dass das angegebene Faktum automatisch oder auf Wunsch durch das einheitlich zu verwendende und als richtig angenommene Faktum ersetzt wird.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102005056713.4 | 2005-11-28 | ||
| DE102005056713A DE102005056713A1 (de) | 2005-11-28 | 2005-11-28 | Verfahren und Vorrichtung zur automatischen Überprüfung von Dokumenten |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2007060073A1 true WO2007060073A1 (de) | 2007-05-31 |
Family
ID=37698253
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2006/067777 Ceased WO2007060073A1 (de) | 2005-11-28 | 2006-10-26 | Verfahren und vorrichtung zur automatischen überprüfung von dokumenten |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102005056713A1 (de) |
| WO (1) | WO2007060073A1 (de) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6523031B1 (en) * | 1997-11-21 | 2003-02-18 | International Business Machines Corporation | Method for obtaining structured information exists in special data format from a natural language text by aggregation |
| US20030120477A1 (en) * | 2001-10-23 | 2003-06-26 | Kruk Jeffrey M. | System and method for managing a procurement process |
-
2005
- 2005-11-28 DE DE102005056713A patent/DE102005056713A1/de not_active Ceased
-
2006
- 2006-10-26 WO PCT/EP2006/067777 patent/WO2007060073A1/de not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6523031B1 (en) * | 1997-11-21 | 2003-02-18 | International Business Machines Corporation | Method for obtaining structured information exists in special data format from a natural language text by aggregation |
| US20030120477A1 (en) * | 2001-10-23 | 2003-06-26 | Kruk Jeffrey M. | System and method for managing a procurement process |
Non-Patent Citations (1)
| Title |
|---|
| CLEMENTE, B.E. ET AL.: "Mapping the Course, Marking the Trail", IT PROFESSIONAL, vol. 7, 1 November 2005 (2005-11-01), pages 10 - 15, XP002420092 * |
Also Published As
| Publication number | Publication date |
|---|---|
| DE102005056713A1 (de) | 2007-05-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69330633T2 (de) | Verfahren und Apparat zum Vergleichen von semantischen Mustern für das Wiederauffinden von Texten | |
| DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
| DE3788488T2 (de) | Sprachenübersetzungssystem. | |
| DE10342594B4 (de) | Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten | |
| DE69424350T2 (de) | Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch | |
| DE69429881T2 (de) | Verfahren und vorrichtungen zur verarbeitung einer zweisprachigen datenbank | |
| EP1135767B1 (de) | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen | |
| DE3587009T2 (de) | Uebersetzungssystem. | |
| DE69725883T2 (de) | Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten | |
| DE102004046252A1 (de) | Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung | |
| DE112018005272T5 (de) | Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur | |
| DE10308550A1 (de) | System und Verfahren zur automatischen Daten-Prüfung und -Korrektur | |
| DE10393736T5 (de) | Automatische Evaluierung von übermässig wiederholter Wortverwendung in einem Essay | |
| DE602004003609T2 (de) | Lösung der Segmentierungsmehrdeutigkeit bei der Grammatikerstellung | |
| EP0813734B1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
| DE102007042971A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
| DE102020205394A1 (de) | Computerimplementiertes Verfahren und Vorrichtung zum Erstellen eines Knowledge Graph | |
| DE102009031872A1 (de) | Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher | |
| DE102009009123A1 (de) | Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt | |
| WO2007060073A1 (de) | Verfahren und vorrichtung zur automatischen überprüfung von dokumenten | |
| DE4213533C2 (de) | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern | |
| DE102016114265A1 (de) | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache | |
| DE10112587A1 (de) | Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element | |
| DE102016125162B4 (de) | Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten | |
| DE10010232A1 (de) | Verfahren und Vorrichtung zur Spracherkennung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
| DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 06819146 Country of ref document: EP Kind code of ref document: A1 |