DE60005293T2

DE60005293T2 - Method and device for processing electronic documents

Info

Publication number: DE60005293T2
Application number: DE60005293T
Authority: DE
Inventors: Alexander Goerke; Matthias Rabald; Pal Rujan
Original assignee: SER Solutions Inc
Current assignee: SER Solutions Inc
Priority date: 2000-02-23
Filing date: 2000-02-23
Publication date: 2004-07-01
Anticipated expiration: 2020-02-24
Also published as: AU2007202382B2; WO2001063467A1; ES2208164T3; CA2401172C; JP4782346B2; DE60005293D1; AU2001233736A1; EP1259903A1; EP1128278B1; JP2003524258A; US20080040660A1; EP1128278A1; CA2401172A1; AU2007202382A1; AU2009208162A1

Description

Verwandte Anmeldungenrelative Registrations

Die vorliegende Anmeldung nimmt Bezug auf die europäische Patentanmeldung mit der Nummer 99 108 354.4, die am 28. April 1999 eingereicht wurde.The present application refers to the European Patent application number 99 108 354.4, filed April 28, 1999 was submitted.

Gebiet der ErfindungTerritory of invention

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten elektronischer Dokumente, insbesondere zum Extrahieren von bestimmten Elementen von elektronischen Textdokumenten.The present invention relates to a method and an apparatus for processing electronic Documents, especially for extracting certain elements of electronic text documents.

Beschreibung verwandter Technologiedescription related technology

Die elektronische Datenverarbeitung (EDV) wird heutzutage immer wichtiger, um mit der riesigen Menge von Dokumenten fertig zu werden, die von Institutionen wie großen Firmen, Verwaltungsbüros oder Ähnlichem bearbeitet werden müssen. Es ist heute üblich, dass die Dokumente in elektronischer Form vorliegen, die beispielsweise das Ergebnis eines Scanning-Prozesses und danach eines optischen Zeichenerkennungsprozesses (OCR) sind, um geschriebene Dokumente in eine elektronische Form zu konvertieren.Electronic data processing (EDP) is becoming increasingly important these days to deal with the huge amount coping with documents from institutions like big companies, Administrative offices or the like must be processed. It is common today that the documents are in electronic form, for example the result of a scanning process and then an optical one Character recognition process (OCR) are about written documents convert to an electronic form.

Falls eine große Menge von solchen Dokumenten bearbeitet werden muss, beispielsweise, um spezifische Daten, die darin enthalten sind, in geordneter Weise wie beispielsweise in einer Datenbank zu speichern, dann ist es wünschenswert, dass bestimmte Teile von Informationen (Elemente des Dokuments), wie beispielsweise das Geburtsdatum, der Geburtsort, oder Ähnliches, von solchen elektronischen Dokumenten auf automatische Weise extrahiert werden können. Wenn beispielsweise eine Firma automatisch ein großes Volumen von Lebensläufen verarbeiten möchte, dann könnte es wünschenswert sein, diese Daten auf automatische Weise von den elektronischen Dokumenten zu extrahieren. Auch für andere Zwekke wie beispielsweise die Extraktion von Buchhaltungsinformationen für ERP-Systeme kann die Extraktion von Daten aus Textdokumenten wünschenswert sein. Es gibt viele Anwendungen, die vorstellbar sind, für welche es wünschenswert sein kann, dass eine bestimmte Textinformation oder ein Textelement oder bestimmte Zahlen oder Zahleninformationen aus einem Textdokument extrahiert werden können. Das Textdokument kann beispielsweise ein beliebiges Dokument sein, das bestimmte Daten von Interesse enthält, die extrahiert werden sollen, da sie zu einer bestimmten Informationskategorie, die extrahiert werden soll, gehören.If a large amount of such documents needs to be edited, for example, to get specific data are contained in an orderly manner such as in a database, then it is desirable that certain Parts of information (elements of the document), such as the date of birth, place of birth, or the like, of such electronic Documents can be extracted automatically. If for example, a company automatically processes a large volume of resumes would like to, then could it desirable be this data automatically from the electronic Extract documents. Also for other purposes such as Extracting accounting information for ERP systems can extract data from text documents desirable his. There are many applications imaginable for which it desirable that can be a certain text information or a text element or certain numbers or number information from a text document can be extracted. The text document can be any document, for example, that contains certain data of interest to be extracted, as it relates to a specific category of information that is extracted should be included.

Herkömmliche Extraktionssysteme, die bestimmte spezifische Daten von elektronischen Textdokumenten extrahieren können, arbeiten so, dass sie eine bestimmte feste Position in einem Dokument aufsuchen, von der angenommen wird, dass die gewünschten Daten dort lokalisiert sind.Conventional extraction systems, the specific specific data of electronic text documents can extract work in such a way that they find a certain fixed position in a document, which is assumed to locate the desired data there are.

Solche Arten von Suchalgorithmen arbeiten nicht sehr gut, da sie stark von Dokumenten abhängig sind, die ein bestimmtes vordefiniertes Format aufweise, wobei jedoch die gewünschten Daten nicht immer am selben Platz angeordnet sind.Such types of search algorithms don't work very well because they're heavily dependent on documents which have a certain predefined format, however the desired Data is not always in the same place.

US-5,191,525 beschreibt ein System zum automatischen Verarbeiten von Papierdokumenten basierend auf einer automatischen Extraktion und zum Verarbeiten von Daten, die in diesen Dokumenten enthalten sind. Für diesen Zweck werden die Dokumente zuerst in ein elektronisches Format konvertiert. Das System kann verschiedene Typen von Dokumenten bearbeiten, und zuerst muss der Typ des Dokuments identifiziert werden. Für diesen Zweck sind verschiedene geographische Identifikationsgebiete vorgesehen, die ein spezifisches Identifikationswort oder -worte enthalten, basierend auf welchen die Identifikation des Dokumententyps durchgeführt wird. Nachdem der Typ identifiziert wurde, wird basierend auf Wissen über die Zusammensetzung dieses Typs von Dokument ein Herausschneiden von graphischen Datenbereichen, die von dem graphischen Bild extrahiert werden, durchgeführt. Diese Bereiche werden zum Erkennungssubsystem gesandt und gemäß dem schon wohl bekannten Wissen über den Typ des Dokuments enthalten sie einen bestimmten Typ von Daten, der dann für die weitere Verarbeitung dieses Dokuments verwendet werden kann. Das System hängt somit von a-priori-Wissen über die Zusammensetzung der individuellen Dokumente ab, insbesondere über den Ort, wo ein bestimmter Typ von Daten innerhalb eines bestimmten Dokumententyps erwartet werden kann.US 5,191,525 describes a system for automatic processing of paper documents based on automatic extraction and processing of data are contained in these documents. For this purpose, the documents first converted to an electronic format. The system can edit different types of documents, and first the Type of document to be identified. There are several for this purpose Geographical identification areas provided that a specific Contain identification word or words based on which the identification of the document type is carried out. After the guy is identified was based on knowledge of the composition of this Type of document cutting out graphic data areas, extracted from the graphic image. These areas are sent to the recognition subsystem and according to the already well known Know about the type of document they contain a certain type of data, then for the further processing of this document can be used. The system hangs thus from a priori knowledge of the composition of the individual documents, especially via the Location where a certain type of data within a certain document type can be expected.

Es ist daher eine Aufgabe der vorliegenden Erfindung, die herkömmlichen Verfahren zur Extraktion bestimmter Teile von Daten von Textdokumenten zu verbessern.It is therefore an object of the present invention the conventional Process for extracting certain parts of data from text documents too improve.

Zusammenfassung der ErfindungSummary the invention

Gemäß einem Aspekt schafft die vorliegende Erfindung ein Verfahren und eine Vorrichtung zur Erzeugung eines Layout-Dokuments, das ein Element des Textdokuments repräsentiert und als Eingabe für eine Klassifiziervorrichtung verwendet werden kann. Aufgrund des besonderen Typs des Layout-Dokuments, das gemäß diesem Aspekt der vorliegenden Erfindung erzeugt wird, ist die Klassifiziervorrichtung in der Lage, eine verbesserte Klassifikation eines Textelements, das durch das Layout-Dokument repräsentiert wird, durchzuführen. Dadurch wird eine verbesserte Extraktion von bestimmten Textelementen von Textdokumenten möglich.In one aspect, it creates The present invention a method and an apparatus for producing a layout document that represents an element of the text document and as input for one Classifying device can be used. Because of the special Type of layout document that is in accordance with this aspect of the present invention is generated, the classifying device is able to improved classification of a text element by the layout document represents will perform. This will improve extraction of certain text elements of text documents possible.

Gemäß einem Aspekt der vorliegenden Erfindung wird ein Layout-Dokument basierend auf Elementen eines elektronischen Textdokuments erzeugt, wobei das Layout eine Repräsentation von Elementen des Dokuments zusammen mit Repräsentationen ihrer entsprechenden Position enthält. Durch Erzeugung eines solchen Layout-Dokuments, das als Eingabe für eine Klassifiziervorrichtung wie beispielsweise ein neuronales Netz verwendet werden kann, wird es möglich, die Elemente eines Dokuments zusammen mit ihren geometrischen Kontextelementen (ihrer Nachbarschaft/Umgebung) zu evaluieren und dabei nicht nur das Format oder den Inhalt eines Elements selbst auszunutzen, sondern auch weitere Informationen, um zu evaluieren, ob das Element zu einer bestimmten Kategorie gehört oder nicht. Durch Berücksichtigung nicht nur eines Elements oder seines Formats selbst, sondern statt dessen auch seines Umgebungsbereichs bzw. der Elemente, die in dem Umgebungsbereich enthalten sind, erhält eine Klassifiziervorrichtung weitere Hinweise dahingehend, ob ein Textelement zu einer bestimmten Kategorie gehört oder nicht. Diese weiteren Hinweise, die durch den Umgebungsbereich und die darin enthaltenen Textelemente gegeben werden, können von einer Klassifiziervorrichtung erkannt oder gelernt werden, beispielsweise einem neuronalen Netz, und dadurch kann ein trainiertes neuronales Netz eine verbesserte Klassifikation und somit eine verbesserte Extraktion von Elementen von Textdokumenten erzielen.According to one aspect of the present invention, a layout document is based on elements of an electronic text document testifies, where the layout contains a representation of elements of the document together with representations of their corresponding position. By creating such a layout document that can be used as input to a classifier such as a neural network, it becomes possible to evaluate the elements of a document along with their geometric context elements (their neighborhood / environment) and not just the format or to take advantage of the content of an element itself, but also other information to evaluate whether the element belongs to a certain category or not. By taking into account not only an element or its format itself, but instead also its surrounding area or the elements contained in the surrounding area, a classification device receives further information as to whether or not a text element belongs to a certain category. These further indications, which are given by the surrounding area and the text elements contained therein, can be recognized or learned by a classification device, for example a neural network, and a trained neural network can thereby achieve an improved classification and thus an improved extraction of elements from text documents ,

Gemäß einem weiteren Aspekt der vorliegenden Erfindung werden Layouts für eine Vielzahl von Elementen, die zu einer bestimmte Kategorie gehören, erzeugt, und die so erzeugten Layouts werden dann verwendet, um die Klassifiziervorrichtung zu trainieren, um Elemente dieser Kategorie zu erkennen. Vorzugsweise ist die Klassifiziervorrichtung ein neuronales Netz, das durch die Layouts, die für eine Vielzahl von Elementen erzeugt wurden, trainiert wird, und durch Eingabe in die Vorrichtung während der Trainingsphase, ob die Elemente, für die die Layouts erzeugt wurden, zu einer bestimmten Kategorie gehören oder nicht. Ein so trainiertes neuronales Netz oder eine Klassifiziervorrichtung kann weiter zur Klassifizierung von unbekannten Textelementen verwendet werden sowie zur Durchführung einer Extraktion von Elementen aus unbekannten Texten.According to another aspect of present invention, layouts for a variety of elements, that belong to a certain category, and those that are created Layouts are then used to train the classifier, to recognize elements of this category. The classification device is preferably a neural network through the layouts that are used for a variety created by elements, trained, and by input into the device during the Training phase, whether the elements for which the layouts were created belong to a certain category or not. So trained neural network or a classification device can further for classification are used by unknown text elements and to carry out a Extract elements from unknown texts.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Klassifiziervorrichtung, die trainiert wurde, verwendet, um zu evaluieren, ob ein unbekanntes Element zu einer bestimmten Kategorie gehört oder nicht, und zwar basierend auf einem Layout-Dokument, das für dieses Element generiert wurde, um dadurch Elemente aus einem Dokument zu extrahieren, die zu einer bestimmten Kategorie gehören.According to another aspect of The present invention becomes a classifier that trains was used to evaluate whether an unknown item too belongs to a certain category or not, based on a layout document that is for this Element was generated to thereby create elements from a document extract that belong to a certain category.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung werden Kandidaten identifiziert, die gemäß einem Suchkriterium möglicherweise zu der Kategorie, zu der die extrahierten Daten gehören sollen, gehören. Vorzugsweise kann ein Suchkriterium ein Format eines Elements sein, ein Wortsuchkriterium, ein fehlertolerantes Wortsuchkriterium oder eine Kombination solcher Kriterien. Für jeden dieser Kandidaten kann dann ein Layout-Dokument erzeugt werden, und zwar basierend auf dem Kandidaten selbst, seiner Position in dem elektronischen Dokument und basierend auf weiteren Elementen des elektronischen Dokuments und ihrer Position in dem Dokument. Vorzugsweise werden diejenigen Elemente bei Erzeugung des Layout-Dokuments in Betracht gezogen, die innerhalb eines oder mehrerer vordefinierter Gebiete liegen, vorzugsweise in der Nähe oder in der Umgebung des Kandidaten.According to another aspect of In the present invention, candidates are identified who according to a Search criteria possibly the category to which the extracted data should belong, belong. Preferably, a search criterion can be a format of an element, a word search criterion, a fault tolerant word search criterion or one Combination of such criteria. For each of these candidates can then create a layout document based on the candidate himself, his position in the electronic document and based on other elements of the electronic document and its position in the document. Those elements are preferred when the layout document is generated considered within one or more predefined ones Areas, preferably near or in the vicinity of the Candidates.

Basierend auf einem solchen Layout-Dokument wird dann beurteilt, ob der Kandidat tatsächlich zu der gewünschten Kategorie gehört oder nicht.Based on such a layout document it is then judged whether the candidate actually did the job Category belongs or not.

Gemäß einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird die Entscheidung, ob ein Kandidat zu der gewünschten Kategorie gehört, durch Verwendung einer Klassifiziervorrichtung durchgeführt, die vorzugsweise ein neuronales Netz ist. Das neuronale Netz kann durch Verwendung von Layout-Dokumenten von Kandidaten trainiert worden sein und ferner durch Eingabe von Informationen in das neuronale Netz, ob diese Kandidaten zu der gewünschten Kategorie gehören oder nicht.According to another preferred embodiment The present invention makes the decision of whether a candidate to the desired category heard, by using a classifier is preferably a neural network. The neural network can be used by of layout documents have been trained by candidates and also by entering Information in the neural network whether these candidates to the desired Belong to category or Not.

Gemäß einem weiteren bevorzugten Ausführungsbeispiel wird die Entscheidung, ob ein Kandidat zu der gewünschten Kategorie gehört oder nicht, durch Verwendung eines Verfahrens oder einer Vorrichtung wie in der europäischen Patentanmeldung mit der Anmeldenummer 99 108 354.4 beschrieben durchgeführt, die am 28. April 1999 eingereicht wurde und deren Priorität für die vorliegende Anmeldung beansprucht wurde und die hiermit durch Bezugnahme in die Anmeldung aufgenommen wird.According to another preferred embodiment will be the decision of whether a candidate should be the one you want Category belongs or not, using a method or device like in European Patent application with the application number 99 108 354.4 described that on April 28, 1999 and its priority for the present Application was claimed and which are hereby incorporated by reference in registration will begin.

Kurze Beschreibung der ZeichnungenShort description of the drawings

1 zeigt ein Computersystem, das verwendet werden kann, ein Ausführungsbeispiel gemäß der vorliegenden Erfindung zu implementieren; 1 shows a computer system that can be used to implement an embodiment according to the present invention;

2 illustriert ein Beispiel für ein Textdokument, von dem Elemente extrahiert werden sollen; 2 illustrates an example of a text document from which elements are to be extracted;

3 zeigt ein Beispiel eines Arbeitsdokuments, das aus einem Textdokument erzeugt wurde; 3 shows an example of a working document created from a text document;

4 zeigt ein Beispiel eines Benutzerinterfaces für die Definition des Layoutgebiets; 4 shows an example of a user interface for the definition of the layout area;

5a zeigt ein Beispiel für ein Layoutgebiet; 5a shows an example of a layout area;

5b zeigt ein Beispiel für ein Layout-Dokument; 5b shows an example of a layout document;

6 zeigt ein Beispiel eines Kodierschemas für das Kodieren einer Kandidaten-Box; 6 shows an example of a coding scheme for coding a candidate box;

7 zeigt ein Beispiel für das Kodieren von Elementpositionen des Layout-Dokuments; 7 shows an example of the coding of element positions of the layout document;

8 zeigt ein Beispiel einer Lernphase einer Klassifiziervorrichtung; 8th shows an example of a learning phase of a classifying device;

9 zeigt ein Beispiel einer Extraktionsphase einer Klassifiziervorrichtung. 9 shows an example of an extraction phase of a classifying device.

Detaillierte Beschreibung der bevorzugten Ausführungsbeispieledetailed Description of the preferred embodiments

Die vorliegende Erfindung kann durch ein Computersystem wie in 1 gezeigt implementiert werden.The present invention can be accomplished by a computer system as in 1 shown to be implemented.

1 zeigt schematisch den Aufbau eines Computersystems, das in Verbindung mit dem bevorzugten Ausführungsbeispiel der Erfindung verwendet werden kann. Der Computer 100 enthält eine CPU 110, einen Speicher 120; und eine I/O-Einheit 130. Der Computer 100 ist in der Lage, Programme auszuführen, indem Computer befehle durch die CPU 110 ausgeführt werden, die die CPU von dem Speicher 120 geholt hat und die in einer Speichereinrichtung 150 wie beispielsweise einer CD-ROM oder einer Floppydisk gespeichert waren. Die I/O-Einheit 120 ist mit einer Tastatur 160 und einer Maus 170 verbunden, um einen Benutzer in die Lage zu versetzen, Daten in den Computer einzugeben, und sie ist ferner mit einem Drucker 180 verbunden, um Dokumente als Ausdrucke auszugeben. Der Computer 100 ist ferner mit einer Anzeigeeinheit 140 wie einem Monitor verbunden. Es ist ferner zu verstehen, dass die Computerkonfiguration, die in 1 gezeigt ist, nur eine exemplarische Konfiguration ist und andere Computerkonfigurationen wie Parallelverarbeitungs-Computer, neuronale Netz-Computer mit gesonderter Hardware oder irgendwelche anderen Computersysteme, die in der Lage sind, das unten erklärte Verfahren auszuführen, in Verbindung mit der vorliegenden Erfindung benutzt werden können. 1 shows schematically the structure of a computer system that can be used in connection with the preferred embodiment of the invention. The computer 100 contains a CPU 110 , a memory 120 ; and an I / O unit 130 , The computer 100 is able to run programs by computer commands through the CPU 110 run the CPU from memory 120 fetched and in a storage facility 150 such as a CD-ROM or a floppy disk. The I / O unit 120 is with a keyboard 160 and a mouse 170 connected to enable a user to input data into the computer, and it is also connected to a printer 180 connected to output documents as printouts. The computer 100 is also with a display unit 140 connected like a monitor. It is further understood that the computer configuration described in 1 is only an exemplary configuration and other computer configurations, such as parallel processing computers, neural network computers with separate hardware, or any other computer systems capable of performing the method explained below, can be used in connection with the present invention.

Die vorliegende Erfindung wird nachfolgend in Verbindung mit der Extraktion eines Geburtsdatums (date of birth) aus einem Lebenslauf (curriculum vitae) wie in 2 gezeigt beschrieben. Es wird sofort von dem Fachmann verstanden, dass die Beschreibung der vorliegenden Erfindung in Zusammenhang mit der Extraktion eines Geburtsdatums eines Lebenslaufs lediglich für erläuternde Zwecke dient und das gleiche Verfahren und die Vorrichtung wie nachfolgend beschrieben auch für jegliche andere Textdokumente, von denen bestimmte Teile von Informationen extrahiert werden sollen, wie beispielsweise eine Kontonummer eines Kontoblatts, die Preise von Rechnungen, zur Extraktion von Werten, die eine Lagerhaltung in einer Fabrik von entsprechenden Blättern, und Ähnlichem verwendet werden können.The present invention will hereinafter be used in connection with extracting a date of birth from a curriculum vitae as in 2 shown described. It will be immediately understood by those skilled in the art that the description of the present invention in connection with the extraction of a date of birth of a resume is for illustrative purposes only, and the same method and apparatus as described below for any other text documents, some of which are pieces of information are to be extracted, such as an account number of an account sheet, the prices of invoices, for extracting values that can be used in a factory of corresponding sheets, and the like.

Der Lebenslauf ist in dem Computer auf einem Datenträger in elektronischer Form gespeichert, er kann das Ergebnis eines Editierprozesses unter Verwendung eines Textverarbeitungsprogramms sein, oder das elektronische Dokument kann das Ergebnis eines Scanning-Prozesses und einer anschließenden optischen Zeichenerkennung sein. An Stelle eines Lebenslaufs kann jegliches andere Dokument, von dem ein Element mit einer bestimmten Bedeutung oder fallend in eine bestimmte Kategorie extrahiert werden soll, verwendet werden.The resume is in the computer on a disk Stored in electronic form, it can be the result of an editing process using a word processor, or that Electronic document can be the result of a scanning process and a subsequent one optical character recognition. Instead of a resume any other document of which an element has a specific meaning or should be extracted falling into a certain category, be used.

Zunächst wird das elektronische Dokument analysiert, um die individuellen Dokumente, aus denen es besteht, zu erhalten. "Element" bedeutet hier irgendeine Sequenz von Zeichen, die von anderen Elementen durch einen Begrenzer wie beispielsweise eine Leerstelle, einen Tabulator, einen Unterstrich, oder irgendein anderes Datenelement, das als Trennzeichen interpretiert werden kann, getrennt ist. Der einfachste Weg zur Aufsplittung von Text in einzelne Elemente ist durch Identifizierung derjenigen Textteile als Elemente, die voneinander durch ein Leerzeichen getrennt sind, abhängig von dem Zweck der Analyse können jedoch auch andere Kriterien in Betracht gezogen werden wie beispielsweise der genannte Unterstrich, ein Bindestrich, ein neuer Absatz, oder andere Elemente des elektronischen Dokuments, die so betrachtet werden können, dass sie ein Element von dem anderen trennen. Ein weiteres Kriterium, das in Betracht gezogen werden kann, wenn individuelle Elemente identifiziert werden, könnte die geometrische Distanz zwischen den individuellen Textzeichen sein. Beispielsweise könnte ein Schwellwert definiert sein, jenseits von dem ein Abstand zwischen zwei Zeichen so interpretiert wird, dass die zwei Zeichen unterschiedliche Elemente sind. Im vorliegenden Beispiel nehmen wir an, dass ein Element irgendein einzelnes Zeichen oder eine Sequenz von Zeichen sein kann, die von anderen "Elementen" durch ein Leerzeichen getrennt sind.First, the electronic Document parses to the individual documents that make it up exists to get. "Element" means any here Sequence of characters separated from other elements by a delimiter such as a space, a tab, an underscore, or any other data element that interprets as a delimiter can be separated. The easiest way to split Text in individual elements is by identifying those parts of the text as elements separated by a space, dependent can from the purpose of analysis however, other criteria may also be considered, such as the underscore, a hyphen, a new paragraph, or other elements of the electronic document viewed like this can be that they separate one element from the other. Another criterion that can be considered if individual items could be identified the geometric distance between the individual text characters his. For example a threshold must be defined beyond which there is a distance between two characters is interpreted so that the two characters are different Elements are. In the present example we assume that a Element of any single character or a sequence of characters can be that of other "elements" by a space are separated.

Im vorliegenden Beispiel eines Textdokuments wie in 2 gezeigt wären die ersten beiden Elemente "curriculum" und "vitae", andere Elemente wären "Tel:", "Fax:", etc. wie sofort von dem Fachmann verstanden wird. Diese Elemente werden beispielsweise durch einen Parser identifiziert, der einfach nach Leerzeichen sucht.In the present example of a text document as in 2 the first two elements "curriculum" and "vitae" would be shown, other elements would be "Tel:", "Fax:", etc. as is immediately understood by the person skilled in the art. These elements are identified, for example, by a parser that simply looks for spaces.

Abgesehen von dem Erhalten der Elemente selbst wird auch ihre entsprechende Position in dem Dokument erhalten, beispielsweise durch Berechnung der X- und Y-Koordinaten, an denen das Element in dem Dokument angeordnet ist. Die Position wird später zur Erzeugung des Layout-Dokuments verwendet.Aside from getting the items themselves will also get their corresponding position in the document, for example, by calculating the X and Y coordinates at which the element is arranged in the document. The position later becomes Generation of the layout document used.

Nachdem die individuellen Elemente des elektronischen Textdokuments identifiziert wurden, werden diese Elemente in einem so genannten "Arbeitsdokument" gespeichert. In dem Arbeitsdokument wird jedes Element, das identifiziert wurde, zusammen mit Information über seine Position in dem elektronischen Dokument gespeichert. Beispielsweise kann das Element "curriculum" zusammen mit seinen X- und Y-Koordinaten gespeichert werden, die seine Position in dem elektronischen Dokument identifizieren. Das Arbeitsdokument ist ein bequemes Werkzeug zur Speicherung aller Elemente, die identifiziert wurden, zusammen mit ihrer entsprechenden Position, so dass für die Erzeugung des Layout-Dokuments, das später im Detail erläutert wird, Bezug genommen werden kann auf das Arbeitsdokument. Ein Beispiel eines Arbeitsdokuments, das aus einem Textdokument erzeugt wurde, ist in 3 gezeigt. Die Tags Tagt, Tagt, etc. enthalten die Positionsinformationen der entsprechenden Elemente. Diese Information kann in irgendeiner Form repräsentiert werden, beispielsweise durch direktes Speichern der X- und Y-Koordinaten der Elemente in den Tags. Die Elemente in 3 können beispielsweise die individuellen Worte sein, die in einem Textdokument identifiziert wurden, oder irgendwelche anderen Zeichensequenzen, die durch das vorher erläuterte Verfahren als Elemente erkannt wurden, und die Tags enthalten dann Informationen über die Position dieser Elemente, wie beispielsweise, wo sie bezüglich ihrer X- und Y-Koordinaten lokalisiert sind. Die Tags können ferner Indikationen des Schriftstils der Elemente, der Fonts, enthalten, ob sie unterstrichen sind oder nicht, oder irgendwelche ähnliche Informationen. Beispielsweise kann für ein fettgedrucktes Element im entsprechenden Tag die Zeichensequenz "bf' enthalten sein, die repräsentiert, dass das Element in fettgedruckten Zeichen (bold faced characters) gedruckt ist, eine andere Zeichensequenz kann repräsentieren, dass das Element unterstrichen ist, oder Ähnliches.After the individual elements of the electronic text document have been identified, these elements are stored in a so-called "working document". In the working document, each item that has been identified is stored along with information about its location in the electronic document. For example, the element "curriculum" can be stored along with its X and Y coordinates that identify its position in the electronic document. The working document is a convenient tool for storing all elements that have been identified, together with their corresponding position, so that reference can be made to the working document for the generation of the layout document, which will be explained in detail later. An example of a working document that consists of a Text document generated is in 3 shown. The tags Tagt, Tagt, etc. contain the position information of the corresponding elements. This information can be represented in any form, for example by directly storing the X and Y coordinates of the elements in the tags. The elements in 3 can be, for example, the individual words identified in a text document or any other character sequences recognized as elements by the previously explained method, and the tags then contain information about the position of these elements, such as where they are with respect to their X - and Y coordinates are localized. The tags may also contain indications of the font style of the elements, the fonts, whether they are underlined or not, or any similar information. For example, for a bold element in the corresponding tag, the character sequence "bf 'may be included, which represents that the element is printed in bold faced characters, another character sequence may represent that the element is underlined, or the like.

Die Position eines Elements kann beispielsweise das Gravitationszentrum eines Elements sein, das auf der Grundlage seiner individuellen Pixelwerte berechnet wurde, oder es kann irgendwelche andere geometrische Informationen repräsentieren, die die Lokalisierung des Elements repräsentieren. Beispielsweise kann eine Umrahmung (box) konstruiert werden, die das Element umgibt, und der Durch schnitt zwischen den maximalen und minimalen X-Koordinaten der Box kann aus X-Koordinate für die Positionen verwendet werden und der Durchschnitt des Maximums und des Minimums der Y-Position der Box kann als Y-Koordinate des Elements verwendet werden, wenn seine Position im Text durch ein entsprechendes Tag im Arbeitsdokument repräsentiert wird.The position of an element can for example, the center of gravity of an element that was calculated based on its individual pixel values, or it can represent any other geometric information, that represent the location of the element. For example a frame (box) is constructed surrounding the element, and the average between the maximum and minimum X coordinates the box can be made from X coordinate for the positions are used and the average of the maximum and the minimum of the Y position of the box can be used as the Y coordinate of the Elements are used when its position in the text is indicated by a corresponding day is represented in the working document.

Das Arbeitsdokument enthält eine Liste von identifizierten Elementen zusammen mit Tags, die ihre jeweilige Position und möglicherweise auch weitere Informationen wie vorher erwähnt enthalten, wie beispielsweise Informationen über die Fonts der Elemente, ihren Stil, ob sie unterstrichen sind oder nicht, etc.The working document contains one List of identified elements along with their tags current position and possibly also include other information as previously mentioned, such as information about the fonts of the elements, their style, whether they are underlined or not, etc.

Auf diese Weise wird das Arbeitsdokument erzeugt und enthält eine Liste von den individuellen Elementen des elektronischen Textdokuments zusammen mit ihrer entsprechenden Position und möglicherweise anderer Informationen. Auch nichttextuelle Elemente können in dem Arbeitsdokument enthalten sein, wie beispielsweise horizontale oder vertikale Linien oder Gitter, die in dem elektronischen Dokument enthalten sind, die dann ebenso in dem Arbeitsdokument in einer Form gespeichert werden, die ihre Position und ihr Aussehen (horizontal, vertikal, Linie, Gitter, oder Ähnliches) gemäß einem Kodierungsschema repräsentieren. Beispielsweise kann eine horizontale Linie in einem Arbeitsdokument durch die Zeichensequenz AAAA repräsentiert werden, eine vertikale Linie kann durch die Zeichensequenz BBBB repräsentiert werden, wobei jede dann gefolgt wird von einem Tag, das die Position der Linie angibt. Das so erzeugte Arbeitsdokument kann dann zur Identifizierung von Kandidatenelementen verwendet werden, die möglicherweise das Element, das extrahiert werden soll, sein können. Zu diesem Zweck wird das Arbeitsdokument (oder möglicherweise auch das "Quelldokument", basierend auf dem das Arbeitsdokument erzeugt wurde) geparst, um diejenigen Elemente zu identifizieren, die ein bestimmtes Suchkriterium wie beispielsweise ein Formatkriterium erfüllen. In diesem Schritt des Extrahierens eines Kandidaten werden alle Elemente analysiert, um mögliche Kandidaten für die gewünschten zu extrahierenden Elemente zu finden. Vorzugsweise werden nicht nur individuelle Elemente gesucht, sondern auch Kombinationen von Elementen, so dass das Verfahren mit Leerzeichen zwischen den individuellen Elementen fertig wird. Wenn beispielsweise nach einer Bankkontonummer gesucht wird, von der angenommen wird, dass sie acht Stellen hat, so kann eine Suche nach einer Nummer durchgeführt werden, die acht Stellen hat, die entweder repräsentiert werden als "99999999" oder als "999 999 99" oder als "9 9 9 9 9 9 9 9", oder in irgendeiner anderen Kombination. Die Suche nach solch einer Bankkontonummer kann daher beispielsweise durchgeführt werden, indem nach einer Zahl mit acht Stellen gesucht wird. Abhängig von dem Informationsinhalt, den das zu extrahierende Element haben soll, kann ein anderes Format als Suchkriterium verwendet werden. Mögliche Suchkriterien sind Suchen nach regulären Ausdrücken (wie beispielsweise eine Formatsuche, bei der nach einem bestimmten Format wie etwa einer Zeichenkette, einer Folge von Zahlen, die möglicherweise auch eine bestimmte Gesamtzahl von Ziffern enthält, gesucht wird), oder Ähnliches. Ein anderes Suchkriterium könnte sein, dass eine Suche nach einem simplen vordefinierten Element durchgeführt wird, indem ein String-Vergleich durchgeführt wird. Beispielsweise kann eine Suche nach dem Wort "birth" (Geburt) durchgeführt werden, und jedes Element, das dieses Suchkriterium erfüllt, würde dann als Kandidat auftauchen.In this way the working document is created and contains a list of the individual elements of the electronic text document along with their corresponding position and possibly other information. Even non-textual elements can be included in the working document, such as horizontal or vertical lines or grids in the electronic document are contained, which are then also in the working document in a Shape, its position and appearance (horizontal, vertical, line, grid, or similar) according to one Represent coding scheme. For example, a horizontal line in a working document are represented by the character sequence AAAA, a vertical Line can be represented by the character sequence BBBB, each then is followed by a day indicating the position of the line. The The working document generated in this way can then be used to identify candidate elements that may be can be the element to be extracted. For this purpose the working document (or possibly also the "source document" based on which the Working document was created) parsed to those elements too identify a specific search criteria such as meet a format criterion. In this step of extracting a candidate, everyone will be Elements analyzed for possible Candidates for the ones you want to find extracting elements. Preferably not only individual elements searched, but also combinations of elements, so the procedure with spaces between the individual Elements. If, for example, after a bank account number what is believed to have eight digits, so a search can be performed for a number that has eight digits has that are either represented as "99999999" or as "999 999 99" or as "9 9 9 9 9 9 9 9", or in any one other combination. The search for such a bank account number can therefore be carried out, for example, by following a Number with eight digits is searched. Depending on the information content that the element to be extracted can have a different format can be used as search criteria. Possible search criteria are searches according to regular Express (such as a format search where a specific Format such as a string, a sequence of numbers that possibly also contains a certain total number of digits, is searched), or the like. Another search criteria could be be that a search for a simple predefined element carried out is done by performing a string comparison. For example a search for the word "birth" is carried out, and any element that met this search criteria would then appear as a candidate.

Ein anderes mögliches Suchkriterium könnte es sein, eine sogenannte Bestimmungssuche durchzuführen, was bedeutet, dass ein Element gesucht wird, das an einer bestimmten Position (links/rechts/oben/unten) bezüglich eines Kandidaten angeordnet ist, der durch ein anderes Suchkriterium gefunden wurde. Wenn z.B. ein Suchkriterium eine Suche nach dem Wort "birth" sein würde, dann könnte eine Bestimmungssuche für ein Element durchgeführt werden, das rechts von dem Element "birth" angeordnet ist, und in diesem Fall wäre der resultierende Kandidat das Element, das rechts von dem Element "birth" angeordnet ist. Im Beispiel von 2 würde mit einer solchen Bestimmungssuche das Element "May 5, 1960" als Kandidat auftauchen.Another possible search criterion could be to carry out a so-called determination search, which means that an element is sought which is arranged at a specific position (left / right / up / down) with respect to a candidate who was found by another search criterion. For example, if a search criterion was a search for the word "birth", then a search could be performed for an element located to the right of the "birth" element, and in this case the resulting candidate would be the element to the right of the element "birth" is arranged. In the example of 2 the element "May 5, 1960" would appear as a candidate with such a search for a destination.

Ein weiteres Suchkriterium könnte es sein, eine Suche nach allen Elementen durchzuführen, die auch in einer Datenbank vorliegen.Another search criterion could be be to perform a search for all items, including those in a database available.

Die Suche nach Kandidaten ist vorzugsweise fehlertolerant in der Art, dass Präfixe/Suffixe ignoriert werden können, um typische Fehler von optischer Zeichenerkennung zu ignorieren, oder um solche Elemente wie "," und "." zu ignorieren. Beispielsweise könnte im Fall von 2 eine Wortsuche für das Wort "birth" durch Verwendung einer solchen fehlertoleranten Suche durchgeführt werden, z.B. unter Verwendung einer Wildcard. Eine Suche würde dann für das Element "birth*" durchgeführt werden, so dass das Element "birth:" als Kandidat auftauchen würde. Mit der Bestimmungssuche könnte dann das tatsächliche Datum, das rechts von dem Element "birth" angeordnet ist, als Kandidat ermittelt werden.The search for candidates is preferably fault tolerant in such a way that prefixes / suffixes can be ignored in order to ignore typical errors in optical character recognition, or for elements such as "," and "." to ignore. For example, in the case of 2 a word search for the word "birth" can be carried out using such a fault-tolerant search, for example using a wildcard. A search would then be performed for the "birth *" element so that the "birth:" element would appear as a candidate. With the determination search, the actual date, which is arranged to the right of the "birth" element, could then be determined as a candidate.

Abhängig von der Art, mit der die Kandidatensuche durchgeführt wird, werden mehr oder weniger Kandidaten für die zu extrahierenden Elemente identifiziert.Depending on the way in which Candidate search performed more or fewer candidates for the elements to be extracted are identified.

Andere Suchverfahren könnten beispielsweise eine Trigramm-Suche einschließen, was bedeutet, dass Kombinationen von drei Zeichen gesucht werden. Dies ist auch eine Methode zur Durchführung einer fehlertoleranten Suche. Wenn beispielsweise ein Tippfehler in einem Kandidaten auftaucht, dann würde eine Trigramm-Suche nichtsdestotrotz solch einen Kandidaten erhalten, da mehrere Zeichensequenzen, die in dem Kandidaten enthalten sind, als korrekte Trigramme erkannt würden. Eine weitere fehlertolerante Suchmethode wäre es, die Levenshtein-Distanz zu verwenden, die eine Repräsentation der Tastendrucke ist, die auf einer Tastatur nötig sind, um eine Zeichensequenz in eine andere umzuwandeln. Basierend auf der Levenshtein-Distanz könnte ebenfalls eine fehlertolerante Suche durchgeführt werden.Other search methods could, for example include a trigram search, which means combinations of three characters are searched. This is also a method of performing fault tolerant Search. For example, if a typo appears in a candidate, then would nevertheless get a trigram search such a candidate because several character sequences contained in the candidate would be recognized as correct trigrams. Another fault-tolerant search method would be the Levenshtein distance to use, which is a representation of the Is key presses that are needed on a keyboard to complete a character sequence to convert to another. Based on the Levenshtein distance could also a fault-tolerant search can be carried out.

Vorzugsweise wird die Kandidatensuche durch Suche des Arbeitsdokuments nach Elementen, die das verwendete Suchkriterium erfüllen, durchgeführt. Dabei kann die Analyse des Dokuments in Elemente, die bereits durchgeführt wurde, verwendet werden. Im Prinzip kann jedoch auch eine Suche nach Kandidaten direkt auf dem Textdokument durchgeführt werden.The candidate search is preferably carried out by Search the working document for elements that match the search criteria fulfill, carried out. The analysis of the document in elements that have already been carried out can be used. In principle, however, can also search for candidates be carried out directly on the text document.

Die Suche dient dazu, Kandidatenelemente zu erhalten, die möglicherweise die Information enthalten, nach der gesucht wird. Es ist sofort erkennbar, dass abhängig von den Informationen, die gesucht werden, die Suchkriterien entsprechend angepasst werden müssen. Wenn eine Bankkontonummer gesucht wird, dann wird vorzugsweise ein Formatkriterium verwendet, das ein möglicherweise bekanntes Zahlenformat der Kontonummer verwendet. Wenn dagegen ein Geburtsort gesucht wird, dann ist die Suche nach Zeichenketten vielversprechender als die Suche nach Zahlen. Die Anpassung der Suchkriterien (Formatsuche, Wortsuche, Datenbanksuche, Bestimmungssuche, oder eine Kombination davon) an das bestimmte Stück Information, das gesucht wird, kann vom Fachmann abhängig von den Umständen entsprechend gewählt werden.The search is used to find candidate elements get that possibly contain the information that is being searched for. It is instant recognizable that dependent of the information that is searched for according to the search criteria need to be adjusted. If a bank account number is searched, then preferably one Format criterion used, which is a possibly known number format the account number used. On the other hand, if a place of birth is sought then the search for strings is more promising than that Search for numbers. The adaptation of the search criteria (format search, Word search, database search, destination search, or a combination of that) to the particular piece Information that is sought can depend on the person skilled in the art the circumstances chosen accordingly become.

Wenn die gefundenen Kandidaten später in einer Trainingsprozedur für eine Klassifiziervorrichtung verwendet werden sollen, wie dies im Detail später beschrieben wird, dann ist es bevorzugt, wenn sie irgendwie dem Benutzer angezeigt oder initiiert werden, und wenn der Benutzer in der Lage ist zu bestätigen, ob die gefundenen Kandidaten mit dem Suchkriterium übereinstimmen oder nicht. Dadurch kann die Klassifiziervorrichtung wie später erläutert wird trainiert werden. Die Anzeige der Kandidaten kann beispielsweise durch "Highlighten" von ihnen im durchsuchten Textdokument geschehen, um dann dem Benutzer eine Bestätigung oder ein Verwerfen der Kandidaten durch einen Mausklick zu ermöglichen. Die Formatsuche oder fehlertolerante Elementensuche liefern Kandidaten für zu extrahierende Elemente. Das Ergebnis der Kandidatensuche ist bereits ganz gut in Bezug auf Korrektheit, da es auf inhärenten Eigenschaften der Elemente, die gesucht werden, basiert, wie etwa ihrem Format oder ihrem tatsächlichen Informationsinhalt. Die Kandidaten können jedoch dann weiter ausgewertet werden bezüglich dessen, ob sie zu einer bestimmten Kategorie gehören, indem andere Elemente als die Kandidaten selbst berücksichtigt werden, wie dies nachfolgend beschrieben wird.If the candidates found later in a Training procedure for a classifier should be used, as in Detail later it is preferred if they somehow do that Users are displayed or initiated and if the user is able to confirm whether the candidates found match the search criteria or not. This enables the classifying device to be explained later be trained. The display of the candidates can, for example searched by "highlighting" them in the Text document happen to then give the user a confirmation or Allow candidates to be rejected by clicking the mouse. The format search or fault-tolerant element search provide candidates for too extracting elements. The result of the candidate search is already complete good in terms of correctness because it is based on inherent properties of the elements, that are searched for, such as their format or their actual Information content. However, the candidates can then continue to be evaluated be regarding of whether they belong to a particular category by adding other items than the candidates considered themselves as described below.

Für jeden der Kandidaten wird dann ein sogenanntes Layout-Dokument erzeugt, das nicht nur eine Repräsentation des Kandidaten und seiner Position in dem elektronischen Dokument enthält, sondern auch von anderen Elementen, die das Kan didatenelement umgeben, sowie ihrer jeweiligen Position. Daher ist das Layout-Dokument eine elektronische Repräsentation des Kandidaten und seiner Position in dem elektronischen Dokument selbst, sowie auch von anderen Elementen in dem elektronischen Dokument und ihrer entsprechenden Position. Vorzugsweise wird ein Layout-Dokument, das für einen bestimmten Kandidaten generiert wird, für ein bestimmtes Gebiet, das diesen Kandidaten umgibt, erzeugt. Dieses Gebiet (oder eine entsprechende Mehrzahl von Gebieten) kann entweder vordefiniert sein oder vom Benutzer definiert werden.For each of the candidates is then created a so-called layout document, not just a representation of the candidate and his position in the electronic document contains but also of other elements that surround the candidate element, as well as their respective position. The layout document is therefore an electronic representation of the candidate and his position in the electronic document itself, as well as other elements in the electronic document and their corresponding position. A layout document, that for a particular candidate is generated for a particular area that surrounds this candidate. This area (or equivalent Majority of areas) can either be predefined or from User defined.

Ein Beispiel der Definition eines solchen Umgebungsgebiets durch ein Benutzerinterface ist in 4 gezeigt. 4 zeigt, wie insgesamt vier Kästen (boxes), die den Kandidaten umgeben, von einem Benutzer definiert werden können. Eine erste Box umgibt den Kandidaten in alle Richtungen, eine zweite Box repräsentiert die Nachbarschaft links des Kandidaten, eine dritte Box repräsentiert die Nachbarschaft rechts des Kandidaten, und eine vierte Box repräsentiert die Nachbarschaft über dem Kandidaten. Optional kann auch eine fünfte Box, die die Nachbarschaft unter dem Kandidaten repräsentiert, verwendet werden. Der Benutzer kann die Dimension der Größe der Boxen beispielsweise durch Eingabe von Werten, die ihre Größe in Dots per Inch oder in einer anderen Einheit, wie etwa Pixels, Millimeter, oder Ähnlichem repräsentieren, eingeben. In dem Beispiel von 4 kann die Größe der Boxen vom Benutzer dimensioniert werden, sie können jedoch auch vordefiniert sein. Das Gebiet zur Erzeugung des Layout-Dokuments kann vom Benutzer abhängig von der spezifischen Kategorie eines Elements, das ein Benutzer zu extrahieren wünscht, definiert werden.An example of the definition of such a surrounding area by a user interface is in 4 shown. 4 shows how a total of four boxes surrounding the candidate can be defined by a user. A first box surrounds the candidate in all directions, a second box represents the neighborhood to the left of the candidate, a third box represents the neighborhood to the right of the candidate, and a fourth box represents the neighborhood above the candidate. Optionally, a fifth box, which represents the neighborhood among the candidate, be used. The user can enter the dimension of the size of the boxes, for example, by entering values that represent their size in dots per inch or in another unit, such as pixels, millimeters, or the like. In the example of 4 The size of the boxes can be dimensioned by the user, but they can also be predefined. The area for generating the layout document can be defined by the user depending on the specific category of an element that a user wishes to extract.

Zur Erzeugung des Layout-Dokuments werden alle Elemente, die bezüglich ihrer Position in dem elektronischen Dokument in die Boxen, die das Gebiet des Layout-Dokuments definieren, zur Erzeugung des Layout-Dokuments berücksichtigt. Für diesen Zweck kann Bezug genommen werden auf das Arbeitsdokument, in dem alle Elemente zusammen mit ihren entsprechenden Positionen gespeichert sind.To create the layout document are all elements related to their position in the electronic document in the boxes that the area of the layout document define, taken into account for the generation of the layout document. For this Purpose can be referred to the working document in which all elements are saved together with their corresponding positions.

Im Folgenden wird angenommen, dass der Prozess des Erhaltens eines Kandidatenelements das Element May 5, 1960 des Dokuments aus 2 als Kandidat ergeben hat. Dies kann beispielsweise das Ergebnis einer Formatsuche sein, die nach einer Kombination von drei individuellen Elementen in Reihe sucht, wobei die drei Elemente zwei ganze Zahlen (repräsentieren Tag und Jahr) und eine weitere Zahl oder ein Wort, das den Monat repräsentiert, enthalten sollen. Das Suchergebnis wäre dann die Reihe der drei Elemente. Auch andere Suchkriterien könnten vorgestellt werden, die zum Ergebnis May 5, 1960 als Kandidaten führen, wie etwa eine Bestimmungssuche, die nach drei Elementen neben dem Element "birth" sucht, was ebenfalls in May 5, 1960 als Kandidaten resultieren würde. Irgendwelche anderen Suchen nach regulären Ausdrücken könnten ebenfalls in einem Kandidaten wie May 5, 1960 resultieren, wie beispielsweise die Suche nach einem regulären Ausdruck, der drei Elemente enthält, wobei zwei der drei Elemente Zahlen und das dritte ein Wort oder eine Nummer sind, wobei eine der Zahlen im Bereich zwischen 1 und 31 liegt. Es ist sofort erkennbar für den Fachmann, dass viele Definitionen von Suchkriterien möglich sind, die zu Kandidaten für ein Stück Information führen, das ein "Datum" sein soll.In the following it is assumed that the process of obtaining a candidate element is element May 5, 1960 of the document 2 as a candidate. For example, this can be the result of a format search that searches for a combination of three individual elements in series, where the three elements should contain two integers (representing day and year) and another number or word that represents the month. The search result would then be the series of the three elements. Other search criteria could also be presented that lead to the result May 5, 1960 as a candidate, such as a destination search that searches for three elements next to the element "birth", which would also result in May 5, 1960 as a candidate. Any other regular expression searches could also result in a candidate such as May 5, 1960, such as searching for a regular expression that contains three elements, two of the three elements being numbers and the third being a word or number, one being the numbers range from 1 to 31. It is immediately apparent to those skilled in the art that many definitions of search criteria are possible that lead to candidates for a piece of information that is supposed to be a "date".

Nachdem ein oder mehrere Kandidaten durch die obige Suchprozedur wie beschrieben erhalten wurden, wird dann für jeden der Kandidaten ein Layout-Dokument erzeugt, das eine Repräsentation des Kandidaten sowie seines Umgebungsgebiets ist. Zur Erzeugung des Layout-Dokuments werden zunächst die Elemente, die innerhalb des Gebiets liegen, das zur Erzeugung des Layout-Dokuments verwendet wird, identifiziert und dann basierend auf diesen Elementen das Layout-Dokument erzeugt. Es enthält eine Repräsentation des Kandidaten sowie der Elemente, die innerhalb dieses Gebiets liegen, zusammen mit den entsprechenden Positionen dieser Elemente.After one or more candidates go through the above search procedure obtained as described is then for each the candidate a layout document that creates a representation of the candidate and his surrounding area. For generation of the layout document first the elements that lie within the area that is to be created of the layout document is used, identified and then based on these elements created the layout document. It contains a representation the candidate and the elements that are within this area, along with the corresponding positions of these elements.

5a zeigt ein Beispiel eines Layoutgebiets im Fall des Textdokuments aus 2. Der Kandidat hier ist "May 5, 1960", und die gestrichelte Linie in 5a definiert das Layoutgebiet, das den Kandidaten umgibt. Alle Elemente des Dokuments aus 2, bzw. aus 5a, die in dieses Gebiet fallen, werden zur Erzeugung des Layout-Dokuments verwendet. Das in 5a gezeigte Gebiet kann das Ergebnis einer Benutzerdefinition unter Verwendung eines Interfaces wie dem aus 4 sein, oder es kann auch vordefiniert sein. 5a shows an example of a layout area in the case of the text document 2 , The candidate here is "May 5, 1960", and the dashed line in 5a defines the layout area surrounding the candidate. All elements of the document 2 , or off 5a that fall within this area are used to create the layout document. This in 5a The area shown can be the result of a user definition using an interface like that 4 or it can also be predefined.

Ein Beispiel für das Layout-Dokument, das für den Kandidaten "May 5, 1960" erzeugt wurde und das entsprechende Layoutgebiet wie im Beispiel von der 5a gezeigt ist in 5b gezeigt. Die erste Linie des Layout-Dokuments entspricht dem Element "May 5, 1960" selbst. Es wird im Layout-Dokument durch die Zeichensequenz "DDMMYY" repräsentiert, da gemäß der besonderen Implementation des vorliegenden Ausführungsbeispiels erkannt wird, dass sein Format einem "Datum" entspricht. Es ist jedoch nicht nötig, sondern lediglich eine bevorzugte Option bei der Erzeugung des Layout-Dokuments, dass ein erkennbares Element, von dem das Format erkennbar ist, im Layout-Dokument durch eine entsprechende Repräsentation dieses Formats ersetzt wird, wie hier durch DDMMYY als Repräsentation des Formats "Datum". Die Zeichensequenz rechts der Sequenz "DDMMYY" repräsentiert die Position dieses Elements im elektronischen Dokument, wie später genauer erläutert wird.An example of the layout document created for the candidate "May 5, 1960" and the corresponding layout area as in the example from the 5a is shown in 5b shown. The first line of the layout document corresponds to the element "May 5, 1960" itself. It is represented in the layout document by the character sequence "DDMMYY", since according to the particular implementation of the present exemplary embodiment it is recognized that its format is a "date" equivalent. However, it is not necessary, but only a preferred option when generating the layout document, that a recognizable element, of which the format is recognizable, is replaced in the layout document by a corresponding representation of this format, as here by DDMMYY as representation of the format "date". The character sequence to the right of the "DDMMYY" sequence represents the position of this element in the electronic document, as will be explained in more detail later.

Die erste Linie des Layout-Dokuments in 5b entspricht daher dem Kandidatenelement "May 5, 1960". Die Position des Kandidaten im elektronischen Dokument aus 2 und auch seine Größe wird durch die Zeichensequenz "MXMYWLHM" repräsentiert, wie aus der nachfolgenden Erläuterung klarer werden wird.The first line of the layout document in 5b therefore corresponds to the candidate element "May 5, 1960". The position of the candidate in the electronic document 2 and its size is also represented by the character sequence "MXMYWLHM", as will become clearer from the explanation below.

Zur Erläuterung, wie die Position des Kandidatenelements in dem elektronischen Dokument im Layout-Dokument durch die Zeichensequenz "MXMYWLHM" repräsentiert wird, wird auf 6 Bezug genommen. 6 zeigt eine sogenannte Kandidatenbox, d.h. das begrenzende Rechteck des Kandidatenelements. Abhängig von der Größe des Kandidatenelements (z.B. abhängig vom Font) kann auch die Größe der Kandidatenbox variieren und kann im Layout-Dokument unter Verwendung des Kodierschemas für die Boxgröße wie schematisch illustriert in dem rechten Teil von 6 repräsentiert werden. Basierend auf diesem Kodierschema wird die Boxgröße als "WLHM" kodiert, was bedeutet, dass die Kandidatenbox eine große Breite "lange width" (WL) aufweist, sowie eine mittlere Höhe "medium height" (HM), wie aus 6 erkennbar ist. Diese Kodiersequenz führt dann zu den letzten vier Zeichen WLHM in der ersten Linie des Layout-Dokuments aus 5b. Es wird sofort verstanden, dass welche tatsächlichen Werte durch welche Kodiersequenz repräsentiert werden, in anderen Worten, welche Werte als "klein" und welche als "groß" kodiert werden, von der besonderen Implementierung abhängt und lediglich eine Frage der Auswahl für den Fachmann ist.To explain how the position of the candidate element in the electronic document in the layout document is represented by the character sequence "MXMYWLHM", is given on 6 Referred. 6 shows a so-called candidate box, ie the bounding rectangle of the candidate element. Depending on the size of the candidate element (eg depending on the font) the size of the candidate box can also vary and can be in the layout document using the coding scheme for the box size as illustrated schematically in the right part of 6 be represented. Based on this coding scheme, the box size is encoded as "WLHM", which means that the candidate box has a large width "long width" (WL), and a medium height "medium height" (HM), as from 6 is recognizable. This coding sequence then executes the last four characters WLHM in the first line of the layout document 5b , It is immediately understood that which actual values are represented by which coding sequence, in other words which values as "small" and which are encoded as "large" depends on the particular implementation and is only a matter of choice for the person skilled in the art.

Daher wird, wie aus der ersten Linie des Layout-Dokuments aus 5b erkennbar, nicht nur die Position der Kandidatenbox (die die Positionen des Kandidaten selbst repräsentiert) in dem Dokument kodiert wie später erläutert wird, sondern auch die Größe der Kandidatenbox (repräsentierend die Größe des Kandidaten). Die Repräsentation der Größe der Kandidatenbox durch eine entsprechende Kodiersequenz wird schematisch im unteren Teil auf der rechten Seite der 6 illustriert. Eine Kandidatenbox, die eine geringe Kandidatenbreite in X-Richtung aufweist, wird als "WS" (für "width small", geringe Breite) kodiert, eine Kandidatenbox mittlerer Größe wird kodiert als "WM" (für "width medium", mittlere Breite), eine Kandidatenbox mit großer Ausdehnung in X-Richtung wird kodiert als "WL" (für "width lange", große Breite), und eine extra große Kandidatenbox mit einer extra großen Größe in X-Richtung wird kodiert als "WX" (für "width extra lange", extra große Breite). Auf ähnliche Weise ist die Frage, welche Werte welchen Kodiersequenzen zugeordnet sind, eine Frage der Auswahl für den Fachmann.Therefore, as from the first line of the layout document 5b recognizable, not only the position of the candidate box (which represents the positions of the candidate himself) in the document, as will be explained later, but also the size of the candidate box (representing the size of the candidate). The representation of the size of the candidate box by a corresponding coding sequence is shown schematically in the lower part on the right side of the 6 illustrated. A candidate box that has a small candidate width in the X direction is encoded as "WS" (for "width small", a medium-sized candidate box is encoded as "WM" (for "width medium", medium width) , a candidate box with a large dimension in the X direction is coded as "WL" (for "width long", large width), and an extra large candidate box with an extra large size in the X direction is coded as "WX" (for " width extra long ", extra large width). Similarly, the question of which values are assigned to which coding sequences is a matter of choice for the person skilled in the art.

Ähnlich der Breite wird auch die Höhe der Kandidatenbox durch eine der Sequenzen "NS", "HM", "HL", oder durch "HX" kodiert. Für den Fall der 5b mit dem Kandidaten May 5, 1960, wird die Kandidatenbox kodiert als "WLHM", was bedeutet, dass sie eine große Ausdehnung in X-Richtung hat und eine mittlere Ausdehnung in Y-Richtung.Similar to the width, the height of the candidate box is encoded by one of the sequences "NS", "HM", "HL", or by "HX". In the event of 5b with the candidate May 5, 1960, the candidate box is encoded as "WLHM", which means that it has a large dimension in the X direction and a medium dimension in the Y direction.

Die Position der Kandidatenbox in X- und Y-Richtung wird kodiert wie schematisch illustriert im linken Teil der 6. Für diesen Zweck werden bestimmte Gebiete des Dokuments aus 2 bestimmten Kodiersequenzen zugeordnet, wie in 6 im linken Teil gezeigt. Abhängig von dem Gebiet, in dem die Kandidatenbox angeordnet ist, wird die X- und Y-Position der Kandidatenbox kodiert entweder als "LL", "MX", "RR" (für die X-Position) und als "TT", "MY", oder "BB" (für die Y-Position).The position of the candidate box in the X and Y directions is encoded as illustrated schematically in the left part of the 6 , For this purpose, certain areas of the document are used 2 assigned to certain coding sequences, as in 6 shown in the left part. Depending on the area in which the candidate box is located, the X and Y position of the candidate box is encoded either as "LL", "MX", "RR" (for the X position) and as "TT", " MY ", or" BB "(for the Y position).

Im vorliegenden Fall von 5a für die Kandidatenbox May 5, 1960, ist es so, dass die Kandidatenbox bezüglich ihrer Lokalisierung in X-Richtung mittel ist, was bedeutet, dass sie nicht sehr weit rechts im Dokument liegt und nicht sehr weit links im Dokument, sondern eher in der Mitte des Dokuments bezüglich ihrer X-Position. Solch eine Lokalisierung wird durch die Zeichensequenz "MX" kodiert, wie aus dem linken Teil von 6 erkennbar ist. Die Y-Position der Kandidatenbox wird kodiert durch die Sequenz "MY", da sie bezüglich ihrer Y-Position vergleichsweise in der Mitte des Dokuments liegt. Daraus kann die Positionskodierung "MXMY" wie in der ersten Linie des Layout-Dokuments gezeigt, für die Kandidatenbox erhalten werden. Kombinieren der Repräsentation der Formatrepräsentation des Kandidaten, der Position der Kandidatenbox und der Größe der Kandidatenbox resultiert in der Zeichensequenz, die in der ersten Linie von 5b gezeigt ist.In the present case of 5a for the May 5, 1960 candidate box, the candidate box is medium in location in the X direction, which means that it is not very far to the right in the document and not very far to the left in the document, but rather in the middle of the document in terms of its X position. Such localization is encoded by the character sequence "MX", as from the left part of 6 is recognizable. The Y position of the candidate box is encoded by the sequence "MY", since it is comparatively in the middle of the document with respect to its Y position. From this, the position coding "MXMY" as shown in the first line of the layout document can be obtained for the candidate box. Combining the representation of the candidate's format representation, the position of the candidate box, and the size of the candidate box results in the character sequence in the first line of 5b is shown.

Es ist zu verstehen, dass die Kodierung aus 6 für die Kandidatenbox lediglich exemplarisch ist und andere Kodierungen, andere Zuordnungen zwischen Position und Code und andere Aufspaltungen des Dokuments in entsprechende Gebiete genauso gut verwendet werden können. Die Granularität der Größe und der Position der Kandidatenbox können feiner oder grober als in 6 sein, abhängig von der besonderen Implementierung, wie leicht vom Fachmann verstanden wird.It is understood that the coding is made 6 is only exemplary for the candidate box and other codes, other assignments between position and code and other splits of the document into corresponding areas can be used just as well. The granularity of the size and position of the candidate box can be finer or coarser than in 6 be, depending on the particular implementation, as easily understood by the skilled person.

Ganz ähnlich sind die Kodiersequenzen, die hier verwendet wurden, völlig arbiträr, hier bedeutet "LL" einfach "ganz weit links", "MX" bedeutet "ziemlich in der Mitte in X-Richtung", und "RR" bedeutet "ganz weit rechts im Dokument in X-Richtung". Auf ähnliche Weise bedeutet "TT" "ganz oben", "MY" bedeutet "ziemlich in der Mitte", und "BB" bedeutet "ganz unten im Dokument bezüglich Y-Richtung". Andere Kodiersequenzen können jedoch genauso gut verwendet werden, wie vom Fachmann erkannt wird. Auch können anstelle von Großbuchstaben DDMMYY andere Zeichensequenzen verwendet werden, um das erkannte Format eines "Datums" zu repräsentieren.The coding sequences are very similar, that were used here completely arbitrary, here "LL" simply means "far left", "MX" means "pretty much in the middle in X direction", and "RR" means "far right in the document in the X direction ". Similar ones Wise means "TT" at the very top, "MY" means "pretty much in the middle", and "BB" means "at the very bottom of the document in terms of Y direction ". Others Coding sequences can however, are used as well as recognized by those skilled in the art. Also can instead of capital letters DDMMYY other character sequences are used to identify the recognized To represent the format of a "date".

Nachdem die Kandidatenbox wie oben erläutert kodiert wurde, werden dann die anderen Elemente, die in das Gebiet des Layout-Dokuments wie unter Bezugnahme auf 5a erläutert fallen, dann auch kodiert und in das Layout-Dokument integriert.After the candidate box has been encoded as explained above, the other elements appearing in the area of the layout document as referenced to 5a explained, then also encoded and integrated into the layout document.

Das in 5b gezeigte Layout-Dokument wurde erzeugt basierend auf einem Gebiet, das in 5a durch die gestrichelte Linie gezeigt wird. Wie bereits vorher erläutert, kann das Umgebungsgebiet auch anders auf ein kleineres Gebiet gesetzt werden, abhängig von den Präferenzen des Benutzers und der Rechenlast, die vom verwendeten Computer verarbeitet werden kann, und es kann natürlich auch größer gesetzt werden. Daher ist das Layout, das hier verwendet wird, als exemplarisches Beispiel zu verstehen, und andere Gebietsdefinitionen können genauso gut verwendet werden. Natürlich ist, je größer das verwendete Gebiet, um so mehr Information im Layout-Dokument, das aus diesem Gebiet erzeugt wird, enthalten, und daher ist es möglich, dass mit einem vergrößerten Gebiet die Genauigkeit der weiteren Evaluierung des Layout-Dokuments erhöht wird. Dies kann jedoch von der besonderen Implementierung und dem besonderen Zweck abhängen, und es können ebenso gut mit kleinen Layoutgebieten gute Resultate erzielt werden.This in 5b The layout document shown was generated based on an area that is in 5a is shown by the dashed line. As previously explained, the surrounding area can also be set to a smaller area differently, depending on the preferences of the user and the computing load that can be processed by the computer used, and of course it can also be set larger. Therefore, the layout used here is meant to be an example, and other area definitions can be used as well. Of course, the larger the area used, the more information is contained in the layout document generated from that area, and therefore it is possible that with an enlarged area, the accuracy of further evaluation of the layout document is increased. However, this may depend on the particular implementation and purpose, and good results can also be achieved with small layout areas.

Die zweite Zeile des Layout-Dokuments aus 5b ist eine Repräsentation der Faxnummer 07029 8125, die in 5a gezeigt ist und in das Layoutgebiet fällt. Da gemäß der besonderen Implementierung des vorliegenden Ausführungsbeispiels erkannt wird, dass die zwei Elemente 07029 und 8125, die in das Layoutgebiet fallen, aus ganzen Zahlen bestehen, werden sie in dem Layout-Dokument durch eine Kodiersequenz repräsentiert, die der Repräsentation von ganzen Zahlen zugewiesen ist, nämlich Großbuchstaben IIQQ.The second line of the layout document 5b is a representation of fax number 07029 8125, which is in 5a is shown and falls within the layout area. Since, according to the particular implementation of the present exemplary embodiment, it is recognized that the two elements 07029 and 8125, which fall within the layout area, consist of integers, they are represented in the layout document by a coding sequence, that of the representation tation of integers, namely capital letters IIQQ.

Die zweite und die dritte Zeile des Layout-Dokuments in 5d repräsentieren jeweils die Vorwahl 07029 und die Nummer 8125. Die Kodiersequenz IIQQ, die eine ganze Zahl repräsentiert, wird dann jeweils gefolgt von einer Kodiersequenz, die die relative Position der ganzen Zahl in dem Textdokument aus 2 bezüglich des Kandidatenelements angibt.The second and third lines of the layout document in 5d each represent the area code 07029 and the number 8125. The coding sequence IIQQ, which represents an integer, is then each followed by a coding sequence, which specifies the relative position of the integer in the text document 2 regarding the candidate element.

Zum Kodieren der relativen Position kann irgendein Kodierschema verwendet werden, das besondere, das hierin verwendet wird, wird schematisch in 7 erläutert. Zum Zweck der Kodierung diskreter Bereiche von Distanzen, die relativen Positionen in X- und Y-Richtung entsprechen, werden entsprechende Kodiersequenzen zugeordnet, wie "NR" für near (nahe), "FF" für far (weit), "HEE" für angeordnet an gleicher Position in horizontaler Richtung, "VFF" für angeordnet an gleicher Position in vertikaler Richtung, usw. Das besondere Kodierschema wird in 7 illustriert, aber es ist zu verstehen, dass dies lediglich ein Beispiel ist und leicht modifiziert werden kann. So können beispielsweise die Kodiersequenzen unterschiedlich sein, die Aufteilung in bestimmte Bereiche kann unterschiedlich sein, die Zahlenbereiche können unterschiedlich sein, usw.Any coding scheme can be used to encode the relative position, the particular one used herein is shown schematically in FIG 7 explained. For the purpose of coding discrete areas of distances that correspond to relative positions in the X and Y directions, corresponding coding sequences are assigned, such as “NR” for near, “FF” for far (far), “HEE” for at the same position in the horizontal direction, "VFF" for arranged at the same position in the vertical direction, etc. The special coding scheme is in 7 illustrated, but it is to be understood that this is only an example and can be easily modified. For example, the coding sequences can be different, the division into certain areas can be different, the number ranges can be different, etc.

Aus 7 in Verbindung mit 5b wird verstanden, dass die zweite Zeile des Layout-Dokuments aus 5b basiert auf dem Fakt, dass die Vorwahl 07029 links nahe (LNR) und oben nahe (ANR) der Kandidatenbox ist, was zu einer Positionskodiersequenz LNRANR wie in der zweiten Zeile von 5b gezeigt und an den Ganzzahlencode IIQQ angehängt.Out 7 combined with 5b it is understood that the second line of the layout document 5b is based on the fact that area code 07029 is left near (LNR) and above near (ANR) the candidate box, resulting in a position coding sequence LNRANR as in the second line of 5b shown and appended to the integer code IIQQ.

Da die Nummer 8125 horizontal gleich aber nahe über dem Kandidaten angeordnet ist, führt dies zu der dritten Zeile in 5b, die lautet IIQQHEEANR.Since the number 8125 is horizontally the same but close to the candidate, this leads to the third line in 5b , which is IIQQHEEANR.

Die verbleibenden drei Elemente "date", "of' und "birth:", die in das Layoutgebiet fallen, werden in den letzten drei Zeilen des Layout-Dokuments aus 5b zusammen mit ihren entsprechenden Positionskodiersequenzen repräsentiert, die sofort in Verbindung mit 7 verstanden werden. Alle Elemente sind vertikal gleich dem Kandidaten (VEE), aber an unterschiedlichen horizontalen Distanzen von dem Kandidaten.The remaining three elements "date", "of 'and" birth: "that fall within the layout area are made in the last three lines of the layout document 5b together with their corresponding position coding sequences, which are immediately associated with 7 be understood. All elements are vertically the same as the candidate (VEE) but at different horizontal distances from the candidate.

Es wird sofort verstanden, dass anstelle der relativen Positionskodierung auch absolute Positionen der Elemente innerhalb des Layoutgebiets für die Erzeugung des Layout-Dokuments verwendet werden können.It is immediately understood that instead the relative position coding also absolute positions of the elements within the layout area for the generation of the layout document can be used.

Weiter ist es auch möglich, dass, wenn das Layout-Dokument erzeugt wird, andere solche Elemente, für die das Format erkennbar ist, nicht nur beispielsweise so als wenn das Element das Format eines "Datum" aufweist, im Layout-Dokument durch eine entsprechende Kodiersequenz kodiert werden. Während dies hier lediglich für das Datum in der ersten Zeile und die ganzen Zahlen in zweiter und dritter Zeile des Layout-Dokuments gezeigt wurden, kann eine solche Ersetzung auch für andere erkennbare Elemente wie etwa beispielsweise Postleitzahlen (ZIP-Codes) (könnten durch eine Datenbankabfrage erkannt werden) und die durch eine bestimmte Zeichensequenz wie ZZZ oder Ähnliches repräsentiert werden, durchgeführt werden. Die entsprechende Erkennung kann entweder basieren auf Formaterkennung oder einer Datenbankabfrage (in der beispielsweise alle Postleitzahlen gespeichert sind).It is also possible that when the layout document is created, other such elements for which the Format is recognizable, not just for example as if the item has the format of a "date" in the layout document be encoded by an appropriate coding sequence. During this here only for the date on the first line and the integers on the second and third line of the layout document was shown, such Replacement also for other recognizable elements such as postcodes (ZIP codes) (could can be recognized by a database query) and by a specific one Character sequence like ZZZ or similar be represented carried out become. The corresponding recognition can either be based on format recognition or a database query (in which, for example, all postcodes are saved).

Wie oben erläutert, wird ein Layout-Dokument erzeugt, das Informationen über den Kandidaten selbst, seine Position im Dokument und ferner Informationen über andere Elemente des Dokuments und ihre Position im Dokument enthält. Die Positionsinformationen werden im vorliegenden Beispiel repräsentiert durch Ersetzung von Koordinatenwerten durch Zeichensequenzen, die eine Position gemäß einem bestimmten Kodierschema repräsentieren, das verwendet wird, um Orte oder Gebiete, in die das elektronische Element für Kodierzwecke aufgeteilt wurde, und denen entsprechende Zeichenkodes zugewiesen wurden, zu definieren. Ähnlich können Zahlenkodes genauso gut zur Kodierung der Position der Elemente des elektronischen Dokuments verwendet werden. Irgendein Kodierschema, das die Position und/oder das Format der Elemente repräsentiert, kann zur Erzeugung des Layout-Dokuments verwendet werden. Das Layout-Dokument kann auch weitere In formationen über nicht-textuelle Elemente des Dokuments, das analysiert werden soll, wie beispielsweise Linien oder Gitter in dem Dokument, enthalten. Die Information kann auch leicht durch eine geometrische Analyse des Dokuments erhalten werden, und dann können die Linien oder Gitter, die in einem Dokument vorhanden sind, in dem Layout-Dokument durch entsprechende Kodiersequenzen kodiert werden, vorzugsweise auch durch Repräsentierung ihrer entsprechenden Position, möglicherweise auch ihres Stils und weiterer Informationen.As explained above, a layout document that generates information about the candidate himself, his position in the document and further information about others Contains elements of the document and their position in the document. The Position information is represented in the present example by replacing coordinate values with character sequences that a position according to a represent certain coding scheme that is used to identify places or areas in which the electronic element for coding purposes has been divided and assigned corresponding character codes were to define. Similar can number codes equally good for coding the position of the elements of the electronic Document can be used. Any coding scheme that the position and / or the format of the elements represents can be used for generation of the layout document. The layout document can also more information about non-textual elements of the document to be analyzed such as lines or grids in the document. The information can also be easily obtained through a geometric analysis of the document, and then the lines or grids, that exist in a document in the layout document Corresponding coding sequences are encoded, preferably also through representation their corresponding position, possibly also their style and other information.

Vorzugsweise enthält das Kodierschema, das zur Erzeugung des Layout-Dokuments verwendet wird, eine Positionskodierung, die basiert darauf, dass diskrete Gebiete von Lokalisierungsinformationen entsprechenden Positionskodes wie vorher erläutert zugewiesen sind. Weiter werden vorzugsweise Stilinformationen oder Formatinformationen, die erkannt werden können, wie etwa das Format oder der Stil von Elementen, auch im Layout-Dokument durch entsprechende Kodiersequenzen repräsentiert. Es ist jedoch möglich, lediglich einige dieser Elemente eines Kodierschemas zur Erzeugung eines Layout-Dokuments zu verwenden.Preferably, the coding scheme contains that for Creation of the layout document is used, a position coding that is based on that corresponding to discrete areas of location information Position codes as previously explained are assigned. Further, style information or Format information that can be recognized, such as the format or the Style of elements, also in the layout document by appropriate Coding sequences represented. However, it is possible just some of these elements of a coding scheme for generation of a layout document.

Die im Layout-Dokument angegebene Position kann eine Repräsentation der geometrischen Position basierend auf Koordinatenwerten sein, wie etwa den X- und Y-Koordinatenwerten, die vorher erläutert wurden. Es ist jedoch auch möglich, dass die Positionsinformation für ein Element in dem Layout-Dokument die relative Position zwischen dem Kandidaten und diesem Element repräsentiert, wie etwa die Anzahl von Elementen, die zwischen diesem Element und dem Kandidaten auftauchen. Dadurch wird es auch möglich, die relative Position zwischen dem Kandidaten und anderen Elementen in dem Layoutgebiet zu kodieren, und zwar durch die Distanz zwischen ihnen durch die Anzahl von Worten, die zwischen ihnen auftauchen. Solch ein Kodierschema könnte beispielsweise nützlich sein, wenn das zu verarbeitende Textdokument tatsächlich nicht viel eines Layouts aufweist, wie etwa eine E-Mail-Nachricht. Alternativ kann jedoch für eine E-Mail ein virtuelles Layout berechnet und für die weitere Verarbeitung verwendet werden anstelle der relativen Position der Elemente wie vorher erläutert.The position specified in the layout document can be a representation of the geometric position based on coordinate values, such as the X and Y coordinate values that were previously explained. However, it is also possible that the position information for an element in the lay out document represents the relative position between the candidate and this element, such as the number of elements that appear between this element and the candidate. This also makes it possible to encode the relative position between the candidate and other elements in the layout area, by the distance between them, by the number of words that appear between them. Such an encoding scheme could be useful, for example, when the text document to be processed does not actually have much of a layout, such as an email message. Alternatively, however, a virtual layout can be calculated for an email and used for further processing instead of the relative position of the elements as previously explained.

Je mehr Informationen in dem Layout-Dokument über die Kandidaten und ihre umgebenden Elemente enthalten ist, desto genauer kann das Layout-Dokument und das nachfolgende Verarbeitungsergebnis sein. Je detaillierter das Layout-Dokument jedoch ist, um so mehr Verarbeitungsleistung ist nötig, um das Layout-Dokument zu erzeugen und es weiterzuverarbeiten, um zu einer Entscheidung zu kommen. Deshalb kann abhängig von der gewünschten Genauigkeit der Entscheidungsprozedur der Benutzer oder ein Programmierer das Gebiet zur Erzeugung des Layout-Dokuments sowie die bei Erzeugung des Layout-Dokuments verwendeten Informationen bestimmen.The more information in the layout document about the Candidates and their surrounding elements are included, the more accurate can the layout document and the subsequent processing result his. However, the more detailed the layout document, the more processing power is necessary, around the layout document generate and process it to make a decision get. Therefore can be dependent of the desired Accuracy of the decision-making procedure of the user or a programmer the area for creating the layout document and the area for creating it of the information used in the layout document.

Vorgehend wurde das Erhalten von Kandidaten und die nachfolgende Erzeugung eines Layout-Dokuments für den Kandidaten erläutert. Wenn es nun beispielsweise gewünscht wird, dass ein bestimmtes Stück Information, nämlich das Geburtsdatum, aus dem Dokument aus 2 extrahiert wird, dann wird eine Kandidatensuche auf dem Dokument durchgeführt, um Kandidaten für ein Datum zu erhalten. Im Fall von 2 wird eine Suche nach einem regulären Ausdruck oder eine Formatsuche wie vorher erläutert durchgeführt und würde zwei Kandidaten liefern, die gemäß dem verwendeten Suchkriterium das Geburtsdatum sein könnten, nämlich May 5, 1960 und May 17, 1979. Für beide Kandidaten wird dann ein Layout-Dokument wie vorher erläutert erzeugt und dieses Layout-Dokument wird in eine Klassifiziervorrichtung eingegeben, die trainiert wurde, die Layout-Dokumente von tatsächlichen Geburtsdaten im Gegensatz zu Layout-Dokumenten zu erkennen, die zwar Daten sind, aber keine Geburtsdaten. Solch eine Erkennung wird möglich, da das aus einem Geburtsdatum erzeugte Layout-Dokument weitere Hinweise enthält, die es möglich machen, sie als Layout-Dokumente zu erkennen, die von Geburtsdaten stammen anstelle von anderen Daten. So ist es beispielsweise häufig, dass das Wort "birth" in der Nachbarschaft des Geburtsdatums auftaucht, und wenn ein Layout-Dokument vorliegt, bei dem dieser Begriff enthalten ist, so ist dies ein weiterer Hinweis, dass dieses Layout-Dokument aus einem Geburtsdatum erzeugt wurde. Auf ähnliche Weise können andere Elemente, die in der Nachbarschaft des Geburtsdatums auftauchen, auch als Hinweis interpretiert werden, wie etwa der Begriff "place" oder der Begriff "of' wie im Beispiel aus 5b. Wenn jedoch bei spielsweise mehrere Geburtsdaten in der Spalte einer Tabelle angeordnet sind, wobei der Kopf der Spalte den Begriff "birth" enthält, dann kann durch Kodierung der Position des Begriffs "birth" wie vorher erläutert dies von einer Klassifiziereinrichtung als Hinweis verwendet werden, dass die Daten in dieser Spalte tatsächlich Geburtsdaten sind. Im Allgemeinen kann das Umgebungsgebiet der Nachbarschaft eines Kandidaten, für den ein Layout-Dokument erzeugt wurde, als Hinweis für den tatsächlichen Informationsinhalt eines solchen Kandidaten durch eine Klassifiziervorrichtung verwendet werden. Durch Berücksichtigung der Hinweise, die durch ein solches Umgebungsgebiet oder eine Nachbarschaft gegeben werden, kann ein Satz von Kandidaten, der aus einem Dokument gemäß einem Suchkriterium extrahiert wurde, weiter ausgewertet werden dahingehend, ob diese Kandidaten tatsächlich die gesuchte Information enthalten.The process of obtaining candidates and subsequently creating a layout document for the candidate was explained above. If, for example, it is now desired that a certain piece of information, namely the date of birth, be taken from the document 2 extracted, then a candidate search is performed on the document to obtain candidates for a date. In case of 2 a search for a regular expression or a format search is carried out as previously explained and would deliver two candidates, which could be the date of birth according to the search criterion used, namely May 5, 1960 and May 17, 1979. A layout document is then created for both candidates as previously explained, and this layout document is input to a classifier that has been trained to recognize the layout documents from actual birth dates as opposed to layout documents that are dates but not birth dates. Such recognition is possible because the layout document created from a date of birth contains further information that makes it possible to recognize it as layout documents that originate from birth dates instead of other dates. For example, it is common for the word "birth" to appear in the vicinity of the date of birth, and if there is a layout document that contains this term, this is a further indication that this layout document generates from a date of birth has been. Similarly, other elements that appear in the vicinity of the date of birth can also be interpreted as a reference, such as the term "place" or the term "of" as in the example 5b , However, if, for example, several birth dates are arranged in the column of a table, the head of the column containing the term "birth", then by coding the position of the term "birth" as previously explained, this can be used by a classifier as an indication that the dates in this column are actually dates of birth. In general, the surrounding area of the vicinity of a candidate for which a layout document has been created can be used as an indication of the actual information content of such a candidate by a classifier. By taking into account the indications given by such a surrounding area or neighborhood, a set of candidates that has been extracted from a document according to a search criterion can be further evaluated as to whether these candidates actually contain the information sought.

Natürlich kann das Layout-Dokument auch direkt für alle Elemente eines Textdokuments erzeugt werden, und dann kann jedes Element basierend auf dem so generierten Layout-Dokument ausgewertet werden, ob es zu einer bestimmten gewünschten Kategorie gehört oder nicht. Die Verwendung einer Kandidatensuche vorher reduziert jedoch die Rechenkosten, die entstehen würden, wenn ein Layout-Dokument für jedes Element des Textdokuments erzeugt werden müsste.Of course, the layout document also directly for all elements of a text document can be generated, and then each element is evaluated based on the layout document generated in this way, whether it is to a certain desired Category belongs or not. The use of a candidate search was previously reduced however, the computing cost that would arise if a layout document for each Element of the text document would have to be generated.

Nachfolgend wird der Extraktionsprozess und der Trainingsprozess unter Verwendung einer Klassifiziervorrichtung im Detail beschrieben.The extraction process and the training process using a classifier described in detail.

Nachdem das Layout-Dokument erzeugt wurde, kann es zum Trainieren eines neuronalen Netzes oder irgendeiner anderen computerisierten Vorrichtung verwendet werden, das entscheiden kann, ob ein bestimmtes Dokument zu einer bestimmten Kategorie gehört oder einer Klasse oder nicht. Für diesen Zweck werden die Layout-Dokumente von Kandidaten in das neuronale Netz oder eine andere Entscheidungsvorrichtung (Klassifiziervorrichtung) eingegeben, und zwar zusammen mit der Information, ob das Layout-Dokument einem korrekten Kandidaten entspricht oder nicht, was bedeutet, ob der Kandidat den gewünschten Informationsinhalt aufweist oder nicht.After the layout document has been created, it can be used to train a neural network or any other other computerized device that can decide whether a certain document belongs to a certain category or a class or not. For This is the purpose of the candidate's layout documents in the neural Network or other decision device (classifying device) entered, together with the information whether the layout document corresponds to a correct candidate or not, which means whether the candidate the desired Has information content or not.

Ein Training eines solchen neuronalen Netzes wird schematisch in 8 dargestellt.Training of such a neural network is shown schematically in 8th shown.

Ein elektronisches Dokument wird wie oben erläutert analysiert, um Elemente eines Textdokuments und ihre entsprechenden Positionen zu erhalten. Vorzugsweise wird dann ein textbasiertes Dokument, ein Arbeitsdokument erzeugt. Dann wird ein Filtern durchgeführt, um daraus einen Satz von Kandidaten zu erhalten, die möglicherweise mit einer bestimmten Kategorie übereinstimmen könnten. Vorzugsweise wird das erhaltene Set korrigiert, entweder basierend auf manueller Eingabe durch den Benutzer oder automatisch, z.B. durch Überprüfung, ob der erhaltene Kandidat eine Wahrscheinlichkeit einer Korrektheit jenseits eines bestimmten Schwellwerts aufweist. Für eine manuelle Korrektur in der Trainingsphase können die Kandidaten in dem Dokument gehighlighted werden und der Benutzer kann dann für einige oder alle von ihnen bestätigen, ob sie korrekte Kandidaten sind oder nicht. Die vorgenannte manuelle oder automatische Selektion von korrekten Resultaten führt dann zu einem Satz von korrekten Ergebnissen und zu einem Satz von falschen Ergebnissen. Für jedes der Elemente des Satzes der korrekten Ergebnisse und für jedes der Elemente des Satzes von falschen Ergebnissen werden dann Layout-Dokumente erzeugt. Danach werden die für den Satz von falschen Ergebnissen erzeugten Layout-Dokumente und die für den Satz von korrekten Ergebnissen erzeugten Layout-Dokumente verwendet, um das neuronale Netz zu trainieren. Wenn kein Kandidat erkannt wird, kann der Benutzer auch selbst einen Kandidaten auswählen, ihn highlighten (beispielsweise durch die Maus) und dann als Trainingsinput verwenden.An electronic document is analyzed as explained above to obtain elements of a text document and their corresponding positions. A text-based document, a working document, is then preferably generated. Filtering is then carried out in order to obtain a set of candidates who may have a be agreed category could match. The set obtained is preferably corrected, either based on manual input by the user or automatically, for example by checking whether the candidate received has a probability of being correct beyond a certain threshold value. For manual correction in the training phase, the candidates can be highlighted in the document and the user can then confirm for some or all of them whether they are correct candidates or not. The aforementioned manual or automatic selection of correct results then leads to a set of correct results and a set of incorrect results. Layout documents are then generated for each of the elements of the set of correct results and for each of the elements of the set of incorrect results. Thereafter, the layout documents created for the set of incorrect results and the layout documents generated for the set of correct results are used to train the neural network. If no candidate is recognized, the user can also select a candidate himself, highlight him (for example with the mouse) and then use it as a training input.

Ein Extraktionsprozess, er ein Netzwerk verwendet, das wie in 8 gezeigt trainiert wurde, ist in 9 gezeigt. Ein Satz von Kandidaten wird ähnlich wie in 8 erhalten, für jeden von ihnen wird ein Layout-Dokument erzeugt wie vorher erläutert. Die Layouts werden dann als Inputs für das trainierte neuronale Netz verwendet, welches dann entscheidet, ob die Kandidaten zu der gewünschten Kategorie gehören oder nicht.An extraction process, it uses a network that is as in 8th shown is trained in 9 shown. A set of candidates is similar to that in 8th received, a layout document is created for each of them as previously explained. The layouts are then used as inputs for the trained neural network, which then decides whether the candidates belong to the desired category or not.

Eine Ausgabe des Netzwerks kann in den korrekt extrahierten Kandidaten bestehen oder beispielsweise auch in einer Gewichtung, die die Wahrscheinlichkeit der Korrektheit für jeden Kandidaten gewichtet. Die extrahierten Kandidaten können auch direkt importiert oder exportiert in ein anderes elektronisches Dokument werden, wie etwa eine Datenbank, eine MS-Excel-Datei, eine Tabelle, ein Word-Dokument oder irgendein anderes Dokument, das für eine weitere elektronische Verarbeitung oder Ähnliches geeignet ist.An output of the network can be found in the correctly extracted candidate or, for example also in a weighting that indicates the likelihood of correctness for each Candidate weighted. The extracted candidates can also be used directly imports or exports to another electronic document like a database, an MS Excel file, a table, a word document or any other document that is for another electronic Processing or similar suitable is.

Der Extraktionsprozess, der die Identifikation der Kandidaten und die Erzeugung des Layout-Dokuments einschließt, kann wie oben im Detail beschrieben ausgeführt werden. Für alle gefundenen Kandidaten wird dann das entsprechende erzeugte Layout-Dokument in eine Klassifiziervorrichtung oder eine Entscheidungsvorrichtung eingegeben, die nicht notwendigerweise, wenn auch bevorzugt, ein neuronales Netzwerk ist, und dann wird für jeden Kandidaten eine Entscheidung getroffen, ob er zu der korrekten Kategorie gehört oder nicht.The extraction process that identifies the Includes candidates and the creation of the layout document as described in detail above. For everyone found The corresponding generated layout document then becomes a candidate into a classifying device or a decision device entered, which is not necessarily, although preferably, a neural network, and then a decision is made for each candidate hit whether it belongs to the correct category or not.

Eine besonders geeignete Vorrichtung zur Klassifizierung des erzeugten Layout-Dokuments dahingehend, ob es zu der gewünschten Kategorie gehört oder nicht, wird in der europäischen Patentanmeldung 99 108 354.4 beschrieben, deren ganzer Inhalt hiermit durch Bezugnahme in die vorliegende Anmeldung aufgenommen ist. Die darin beschriebene Vorrichtung ist in der Lage, Text-Dokumente durch ihre Repräsentation mittels Vektoren zu klassifizieren, wobei die Werte der Vektorkomponenten jeweils der Frequenz entsprechen, mit der ein bestimmtes Wort oder ein Term in dem Dokument auftaucht. Solch ein Vektor, der ein Dokument repräsentiert, spannt einen n-dimensionalen Vektorraum auf, und mehrere Dokumente zusammen spannen auch einen bestimmten Vektorraum auf. Die Klassifikation wird durchgeführt durch Berechnung einer Hyperebene, die den Vektorraum in mindestens zwei Subebenen aufteilt, wodurch eine Klassifikation in so viele Klassen, wie Unterräume vorliegen, durchgeführt werden kann. Ein Lern- oder Trainierprozess besteht in der Ausbildung des Vektorraums und der entsprechenden trennenden Hyperebene für einen Satz von Trainingsdokumenten. Ein unbekanntes Dokument kann dann klassifiziert werden, indem berechnet wird, ob der entsprechende Vektor in den einen oder anderen Unterraum fällt. Da mit dem vorgehend beschriebenen Verfahren es möglich ist, die Elemente eines Textdokuments durch ein Layout-Dokument zu repräsentieren, das Hinweise über ihre Umgebungsgebiete gibt, und da das Layout-Dokument selbst wiederum ein Textdokument ist, kann der in der vorgenannten europäischen Patentanmeldung beschriebene Klassifizierapparat für Klassifizierzwecke verwendet werden. Eine vorzugsweise Implementierung der Vorrichtung zur Klassifikation, die in der Patentanmeldung beschrieben ist, besteht in einem neuronalen Netz, wie etwa in einem Perceptron. Weitere Details, wie die Entscheidungsvorrichtung implementiert werden kann, können aus dieser Anmeldung entnommen werden und werden daher nicht weiter hier im Detail beschrieben.A particularly suitable device to classify the generated layout document according to whether it belongs to the desired Category belongs or not, is in the European Patent application 99 108 354.4, the entire content of which is hereby described is incorporated by reference into the present application. The device described therein is able to read text documents through its representation classified by means of vectors, the values of the vector components each correspond to the frequency with which a particular word or a term appears in the document. Such a vector, which is a document represents, spans an n-dimensional vector space, and several documents together also span a certain vector space. The classification is carried out by calculating a hyperplane that contains the vector space in at least splits two sub-levels, making one classification into so many Classes, like subspaces are available can be. A learning or training process consists of training of the vector space and the corresponding separating hyperplane for one Set of training documents. An unknown document can then can be classified by calculating whether the corresponding Vector falls into one or the other subspace. As with the previously described Procedure it possible is to represent the elements of a text document by a layout document, that hints about their surrounding areas there, and since the layout document itself in turn is a text document, can in the aforementioned European patent application described classification apparatus can be used for classification purposes. A preferred implementation of the classification device, which is described in the patent application consists of a neural Mesh, such as in a perceptron. More details like the decision device can be implemented are taken from this application and will therefore not continue described here in detail.

Es soll jedoch verstanden werden, dass irgendein anderes neuronales Netz oder ein anderes Computerverfahren oder eine Vorrichtung, die in der Lage ist, Dokumente dahingehend zu evaluieren (klassifizieren), ob sie zu einer bestimmten Kategorie gehören oder nicht, zum Training von Layout-Dokumenten und dann zum Treffen der Entscheidung, ob ein Kandidat (oder sein entsprechendes Layout-Dokument) als korrekt extrahiert anzusehen ist oder nicht, verwendet werden kann. Es soll ferner verstanden werden, dass auch irgendeine andere Layout-Dokument-Repräsentation in Verbindung mit der vorliegenden Erfindung verwendet werden kann, nicht nur die Layout-Dokumente, bei denen die Positionen durch Sign-Sequenzen repräsentiert werden. Es ist beispielsweise auch gut möglich, dass die Positionen durch absolute Zahlen kodiert werden, die die Positionen (Koordinaten) repräsentieren, oder durch Winkel und Entfernungen (Polarkoordinaten).However, it should be understood that any other neural network or computer method or a device capable of documents to evaluate (classify) whether they belong to a certain category or not, for training layout documents and then for meeting the Decide whether a candidate (or their corresponding layout document) is correct extracted or not, can be used. It should further understood that any other layout document representation cannot be used in connection with the present invention only the layout documents in which the positions are represented by sign sequences become. For example, it is also possible that the positions are encoded by absolute numbers that represent the positions (coordinates) represent, or by angles and distances (polar coordinates).

Es wird vom Fachmann verstanden, dass die vorgenannte detaillierte Beschreibung lediglich ein exemplarisches Ausführungsbeispiel der vorliegenden Erfindung beschreibt, andere Ausführungsbeispiele liegen ebenfalls im Können des allgemeinen Wissens des Fachmanns. Es ist ferner sofort erkennbar für den Fachmann, dass das Verfahren der vorliegenden Erfindung durch irgendein Computersystem, irgendeinen Allzweckcomputer oder durch irgendeine Spezialhardware, die eine vor ne beschriebene Methode ausführt, implementiert werden kann. Eine Vorrichtung gemäß der vorliegenden Erfindung kann daher in irgendeinem Computersystem bestehen, das das Verfahren der vorliegenden Erfindung ausführt, wobei das Verfahren beispielsweise in einem Computersystem wie in 1 gezeigt, bestehen kann. Soweit bestimmte Vorrichtungselemente oder Vorrichtungskomponenten hier oder in den angefügten Ansprüchen erwähnt sind, so können sie durch einen Computer oder einen Teil eines Computers implementiert werden, der Computerprogramme oder Teile von Computerprogrammen trägt oder ausführt. Soweit die vorliegende Erfindung auf ein Computerprogramm oder ein Computerprogrammprodukt bezogen ist, ist es für den Fachmann offensichtlich, dass ein Datenträger oder irgendein Computerelement wie ein Speicher oder eine Übertragungsleitung oder Ähnliches, das Computerprogrammbefehle aufnehmen kann, ein Ausführungsbeispiel der vorliegenden Erfindung bilden kann, soweit es Computerprogrammbefehle aufnimmt, die einen Computer in die Lage versetzen, ein Verfahren gemäß der vorliegenden Erfindung auszuführen. Der Fachmann wird auch erkennen, dass viele Computerprogramme geschrieben werden können, die gemäß den Prinzipien der vorliegenden Erfindung wie vorgehend beschrieben arbeiten, so dass irgendwelche Computerprogramme, die gemäß dem Verfahren der Erfindung wie vorstehend beschrieben arbeiten, als unter den Schutzbereich der vorliegenden Erfindung fallend anzusehen sind. Darüber hinaus kann eine Datenstruktur, die die Struktur eines Layout-Dokuments wie beschrieben repräsentiert, auch ein Ausführungsbeispiel der Erfindung sein, unabhängig davon, ob sie auf einem Speichermedium, einem Datenträger, einer Übertragungsleitung, einem Speicher wie einem ROM, einem RAM, oder Ähnlichem, ausgebildet ist. Weiter kann die vorliegende Erfindung in einer Klein-Server-Architektur verwendet werden, was bedeutet, dass Teile eines Computerprogramms, die die vorliegende Erfindung implementieren, auf dem Server und andere Teile auf dem Client ausgeführt werden.It is understood by those skilled in the art that the foregoing detailed description is merely a describes exemplary embodiment of the present invention, other embodiments are also within the ability of the general knowledge of those skilled in the art. It will also be immediately apparent to those skilled in the art that the method of the present invention can be implemented by any computer system, general purpose computer, or by any special hardware that implements a method described above. An apparatus according to the present invention may therefore be in any computer system that carries out the method of the present invention, the method being, for example, in a computer system as in FIG 1 shown can exist. As far as certain device elements or device components are mentioned here or in the appended claims, they can be implemented by a computer or a part of a computer that carries or executes computer programs or parts of computer programs. As far as the present invention relates to a computer program or a computer program product, it is obvious to a person skilled in the art that a data carrier or any computer element such as a memory or a transmission line or the like, which can receive computer program instructions, can form an embodiment of the present invention as far as it is Receives computer program instructions that enable a computer to perform a method according to the present invention. Those skilled in the art will also recognize that many computer programs can be written that operate in accordance with the principles of the present invention as described above, so that any computer programs that operate in accordance with the method of the invention as described above are considered to be within the scope of the present invention are. In addition, a data structure representing the structure of a layout document as described can also be an embodiment of the invention, regardless of whether it is on a storage medium, a data carrier, a transmission line, a memory such as a ROM, a RAM, or the like , is trained. Furthermore, the present invention can be used in a small server architecture, which means that parts of a computer program implementing the present invention are executed on the server and other parts on the client.

Soweit Vorrichtungskomponenten in der vorliegenden Beschreibung oder den angefügten Ansprüchen erwähnt sind, so können sie durch einen Computer realisiert werden, der ein Computerprogramm oder bestimmte Programmbefehle ausführt, oder sie können durch irgendeine Spezialhardware implementiert werden, die die Funktion dieser Komponente ausführt, wie etwa ein elektronischer Schaltkreis, ein Special-Purpose-Computer, oder Ähnliches.As far as device components in the present description or the appended claims, they can be realized by a computer that is a computer program or executes certain program instructions, or they can by any special hardware will be implemented that will function this component executes like an electronic circuit, a special purpose computer, or similar.

Weitere Modifikationen und Anwendungen der vorliegenden Erfindung werden für den Fachmann erkennbar, und es wird verstanden, dass die vorliegende Erfindung lediglich durch exemplarische Ausführungsbeispiele erläutert wurde, die nicht als limitierend für den Schutzbereich der vorliegenden Erfindung zu verstehen sind. Insbesondere soll verstanden werden, dass das Beispiel des Extrahierens eines Geburtsdatums lediglich ein exemplarisches Beispiel ist und die vorstehend erläuterte Methode zur Extraktion irgendwelcher Informationselemente aus einem Textdokument verwendet werden kann, die zu einer bestimmten Kategorie gehören, wie sofort von dem Fachmann erkannt wird.Further modifications and applications of the present invention are for recognizable to those skilled in the art, and it is understood that the present Invention was only explained by exemplary embodiments, which are not as limiting for the scope of the present invention should be understood. In particular, it should be understood that the example of extracting a Date of birth is just an example and that explained above Method for extracting any information elements from a Text document can be used that belongs to a certain category belong, as is immediately recognized by the specialist.

Claims

Computer-implemented method for generation an input to be used by a classifier on an electronic document that contains a variety of elements comprises the process being characterized by: Analyze the electronic document to put one or more of the elements together with information about maintain their respective positions in the document; Produce of an electronic layout document that is used as the input of the classifier to be used, the electronic layout document comprising: a representation a variety of elements obtained in the analyzing step along with information that is absolute and / or relative Represent position in the electronic document.

The method of claim 1, wherein the layout document having: a representation a first element from a plurality of elements of the text document along with information that is absolute and / or relative Represent position in the electronic document; and a representation composed of others from the multitude of elements of the text document with information indicating their absolute and / or relative position represent in the electronic document, with the others Elements within a predefined or custom Area that is adjacent to and / or surrounds the first element.

The method of claim 1 or 2, further comprising: searching for items that match a particular search criteria to obtain candidates for items that fall within a particular category in terms of information content; and Generate a layout document for one or more of the candidate elements.

The method of claim 3, wherein the step of Searching candidates further one or more of the following steps having: Search for items in the document that have a specific Meet format criteria; Search for words in the document that meet a specific string comparison criterion fulfill; Performing one fault-tolerant word search; Do a search for a Element which has a predetermined relative position with respect to a has found candidate; Perform a database query to search for elements that are stored in a database Words match.

A method according to any one of claims 1 to 4, which is distant does one or more of the following: Represent the position of an element in the layout document by a corresponding one Character sequence based on a predefined position coding scheme; Represent of elements that have a recognizable predefined format, by a character sequence based on a predefined format coding scheme; Represent of elements that have a recognizable meaning by a character sequence based on a predefined meaning coding scheme.

The method of claim 5, wherein the recognized format one or more of the following: Vertical and / or horizontal lines in the document; Floating point numbers; Dates; whole Numbers; ZIP codes.

Method according to one of the preceding claims, wherein the area, which is taken into account for the generation of the layout document, one or more geometric surfaces whose dimensions can be predefined or set by the user can be.

A method according to any one of claims 1 to 7, which further comprises: using the electronic layout document as one Input for a classifier for training the classifier or for evaluating the input by the classifying device.

Method of extracting one or more Elements from an electronic document that relate to a specific one include predefined category the method being characterized in that it comprises: Search for candidate elements in the document based on one or several predefined search criteria; Generate a layout document according to one of the previous claims for each Candidate element obtained by the search step; and Judge, whether the candidate belongs to the category based on the information content of the layout document.

Method for training a classification device, to train the device to recognize if an element of a document belongs to a certain category or not, the method being characterized in that it comprises: Search for candidate elements in the document based on one or several predefined search criteria; Generate a layout document according to one of the previous claims for each Candidate element obtained by the search step; and Enter of the layout document into the classifier to the classifier to train, along with information that determines whether the candidate belongs to the particular category or not.

The method of claim 9 or 10, wherein the classifying device is a neural network.

Device for generating an input from a Classifier to be used based on a electronic document comprising a plurality of elements, the Device is characterized by: an analyzer for Analyze the electronic document to one or more of the Items along with information about their location to get in the document; a generator for generating a electronic layout document that as the input of the classifier to be used, the electronic layout document comprising: a representation a variety of elements obtained in the analyzing step along with information that is absolute and / or relative Represent position in the electronic document.

The apparatus of claim 12, wherein the layout document comprises: a representation of a first element from a plurality of elements of the text document together with information reflecting its absolute and / or relative position in the electronic document present; and a representation of others of the plurality of elements of the text document along with information representing their absolute and / or relative position in the electronic document, the other elements being within a predefined or user-defined area that is adjacent to the first element and / or this surrounds.

The apparatus of claim 12 or 13, which further having: a viewfinder to search for items that a meet certain search criteria to find candidates for items to get which ones their information content falls into a certain category; and the Generator for generating a layout document for one or more of the candidate elements.

The apparatus of claim 14, wherein the viewfinder is for Searching for candidates also one or more of the following characteristics having: an item finder to search for items in the document that meets a certain format criterion; one Word searcher to search for words in the document that match a particular Meet string comparison criterion; one Word finder to perform a fault-tolerant word search; an element finder to perform a Search for an item that has a predetermined relative position with respect to a found candidate; one Database querier to perform a database query to search for elements that are included in a Database stored words match.

Apparatus according to any one of claims 12 to 15, wherein the layout document is further on one or more of the following characteristics is adapted: Represent the position of an element in the layout document by a corresponding one Character sequence based on a predefined position coding scheme; Represent of elements that have a recognizable predefined format, by a character sequence based on a predefined format coding scheme; Represent of elements that have a recognizable meaning by a character sequence based on a predefined meaning coding scheme.

The apparatus of claim 16, wherein the recognized Format of one or more of the following includes: Vertical and / or horizontal lines in the document; Floating point numbers; Dates; whole Numbers; ZIP codes.

Device according to one of claims 12 to 17, wherein the area which is considered to generate the layout document, one or several geometric surfaces whose dimensions can be predefined or set by the user can be.

The apparatus of any one of claims 12 to 18, which further having: the classifier, which is the electronic layout document as an input to train the classifier or used to evaluate the input by the classifier.

Device for extracting one or more Items that belong to a certain predefined category an electronic document, the device being characterized is through: a finder to find candidate elements in the document based on one or more predefined ones Search criteria; a generator for generating a layout document according to one of the preceding claims for each Candidate element obtained in the search step; and one Judge to judge whether the candidate element belongs to the category heard, based on the information content of the layout document.

Classifying device which can be trained to to recognize whether an element of a document is related to a particular Category belongs or not, the device being characterized by one Finder based on finding candidate elements in the document on one or more pre-defined search criteria; one Generator for generating a layout document according to a of the preceding claims for each Candidate element obtained from the seeker; and a Setup for entering the layout document along with information whether the candidate belongs to the particular category or not into the classifier to the classifier to train.

Apparatus according to claim 20 or 21, wherein the Classifier is a neural network.

Computer program, which program code executable by a computer program , characterized in that it is adapted to cause the computer to carry out a method according to any one of claims 1 to 11.

Data structure for use as input in a Classifying device, wherein the data structure is characterized is, that you was obtained in that a Procedure according to a of claims 1 to 11 executed has been.