DE60005293T2 - Method and device for processing electronic documents - Google Patents
Method and device for processing electronic documents Download PDFInfo
- Publication number
- DE60005293T2 DE60005293T2 DE60005293T DE60005293T DE60005293T2 DE 60005293 T2 DE60005293 T2 DE 60005293T2 DE 60005293 T DE60005293 T DE 60005293T DE 60005293 T DE60005293 T DE 60005293T DE 60005293 T2 DE60005293 T2 DE 60005293T2
- Authority
- DE
- Germany
- Prior art keywords
- document
- elements
- candidate
- search
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Description
Verwandte Anmeldungenrelative Registrations
Die vorliegende Anmeldung nimmt Bezug auf die europäische Patentanmeldung mit der Nummer 99 108 354.4, die am 28. April 1999 eingereicht wurde.The present application refers to the European Patent application number 99 108 354.4, filed April 28, 1999 was submitted.
Gebiet der ErfindungTerritory of invention
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Verarbeiten elektronischer Dokumente, insbesondere zum Extrahieren von bestimmten Elementen von elektronischen Textdokumenten.The present invention relates to a method and an apparatus for processing electronic Documents, especially for extracting certain elements of electronic text documents.
Beschreibung verwandter Technologiedescription related technology
Die elektronische Datenverarbeitung (EDV) wird heutzutage immer wichtiger, um mit der riesigen Menge von Dokumenten fertig zu werden, die von Institutionen wie großen Firmen, Verwaltungsbüros oder Ähnlichem bearbeitet werden müssen. Es ist heute üblich, dass die Dokumente in elektronischer Form vorliegen, die beispielsweise das Ergebnis eines Scanning-Prozesses und danach eines optischen Zeichenerkennungsprozesses (OCR) sind, um geschriebene Dokumente in eine elektronische Form zu konvertieren.Electronic data processing (EDP) is becoming increasingly important these days to deal with the huge amount coping with documents from institutions like big companies, Administrative offices or the like must be processed. It is common today that the documents are in electronic form, for example the result of a scanning process and then an optical one Character recognition process (OCR) are about written documents convert to an electronic form.
Falls eine große Menge von solchen Dokumenten bearbeitet werden muss, beispielsweise, um spezifische Daten, die darin enthalten sind, in geordneter Weise wie beispielsweise in einer Datenbank zu speichern, dann ist es wünschenswert, dass bestimmte Teile von Informationen (Elemente des Dokuments), wie beispielsweise das Geburtsdatum, der Geburtsort, oder Ähnliches, von solchen elektronischen Dokumenten auf automatische Weise extrahiert werden können. Wenn beispielsweise eine Firma automatisch ein großes Volumen von Lebensläufen verarbeiten möchte, dann könnte es wünschenswert sein, diese Daten auf automatische Weise von den elektronischen Dokumenten zu extrahieren. Auch für andere Zwekke wie beispielsweise die Extraktion von Buchhaltungsinformationen für ERP-Systeme kann die Extraktion von Daten aus Textdokumenten wünschenswert sein. Es gibt viele Anwendungen, die vorstellbar sind, für welche es wünschenswert sein kann, dass eine bestimmte Textinformation oder ein Textelement oder bestimmte Zahlen oder Zahleninformationen aus einem Textdokument extrahiert werden können. Das Textdokument kann beispielsweise ein beliebiges Dokument sein, das bestimmte Daten von Interesse enthält, die extrahiert werden sollen, da sie zu einer bestimmten Informationskategorie, die extrahiert werden soll, gehören.If a large amount of such documents needs to be edited, for example, to get specific data are contained in an orderly manner such as in a database, then it is desirable that certain Parts of information (elements of the document), such as the date of birth, place of birth, or the like, of such electronic Documents can be extracted automatically. If for example, a company automatically processes a large volume of resumes would like to, then could it desirable be this data automatically from the electronic Extract documents. Also for other purposes such as Extracting accounting information for ERP systems can extract data from text documents desirable his. There are many applications imaginable for which it desirable that can be a certain text information or a text element or certain numbers or number information from a text document can be extracted. The text document can be any document, for example, that contains certain data of interest to be extracted, as it relates to a specific category of information that is extracted should be included.
Herkömmliche Extraktionssysteme, die bestimmte spezifische Daten von elektronischen Textdokumenten extrahieren können, arbeiten so, dass sie eine bestimmte feste Position in einem Dokument aufsuchen, von der angenommen wird, dass die gewünschten Daten dort lokalisiert sind.Conventional extraction systems, the specific specific data of electronic text documents can extract work in such a way that they find a certain fixed position in a document, which is assumed to locate the desired data there are.
Solche Arten von Suchalgorithmen arbeiten nicht sehr gut, da sie stark von Dokumenten abhängig sind, die ein bestimmtes vordefiniertes Format aufweise, wobei jedoch die gewünschten Daten nicht immer am selben Platz angeordnet sind.Such types of search algorithms don't work very well because they're heavily dependent on documents which have a certain predefined format, however the desired Data is not always in the same place.
US-5,191,525 beschreibt ein System zum automatischen Verarbeiten von Papierdokumenten basierend auf einer automatischen Extraktion und zum Verarbeiten von Daten, die in diesen Dokumenten enthalten sind. Für diesen Zweck werden die Dokumente zuerst in ein elektronisches Format konvertiert. Das System kann verschiedene Typen von Dokumenten bearbeiten, und zuerst muss der Typ des Dokuments identifiziert werden. Für diesen Zweck sind verschiedene geographische Identifikationsgebiete vorgesehen, die ein spezifisches Identifikationswort oder -worte enthalten, basierend auf welchen die Identifikation des Dokumententyps durchgeführt wird. Nachdem der Typ identifiziert wurde, wird basierend auf Wissen über die Zusammensetzung dieses Typs von Dokument ein Herausschneiden von graphischen Datenbereichen, die von dem graphischen Bild extrahiert werden, durchgeführt. Diese Bereiche werden zum Erkennungssubsystem gesandt und gemäß dem schon wohl bekannten Wissen über den Typ des Dokuments enthalten sie einen bestimmten Typ von Daten, der dann für die weitere Verarbeitung dieses Dokuments verwendet werden kann. Das System hängt somit von a-priori-Wissen über die Zusammensetzung der individuellen Dokumente ab, insbesondere über den Ort, wo ein bestimmter Typ von Daten innerhalb eines bestimmten Dokumententyps erwartet werden kann.US 5,191,525 describes a system for automatic processing of paper documents based on automatic extraction and processing of data are contained in these documents. For this purpose, the documents first converted to an electronic format. The system can edit different types of documents, and first the Type of document to be identified. There are several for this purpose Geographical identification areas provided that a specific Contain identification word or words based on which the identification of the document type is carried out. After the guy is identified was based on knowledge of the composition of this Type of document cutting out graphic data areas, extracted from the graphic image. These areas are sent to the recognition subsystem and according to the already well known Know about the type of document they contain a certain type of data, then for the further processing of this document can be used. The system hangs thus from a priori knowledge of the composition of the individual documents, especially via the Location where a certain type of data within a certain document type can be expected.
Es ist daher eine Aufgabe der vorliegenden Erfindung, die herkömmlichen Verfahren zur Extraktion bestimmter Teile von Daten von Textdokumenten zu verbessern.It is therefore an object of the present invention the conventional Process for extracting certain parts of data from text documents too improve.
Zusammenfassung der ErfindungSummary the invention
Gemäß einem Aspekt schafft die vorliegende Erfindung ein Verfahren und eine Vorrichtung zur Erzeugung eines Layout-Dokuments, das ein Element des Textdokuments repräsentiert und als Eingabe für eine Klassifiziervorrichtung verwendet werden kann. Aufgrund des besonderen Typs des Layout-Dokuments, das gemäß diesem Aspekt der vorliegenden Erfindung erzeugt wird, ist die Klassifiziervorrichtung in der Lage, eine verbesserte Klassifikation eines Textelements, das durch das Layout-Dokument repräsentiert wird, durchzuführen. Dadurch wird eine verbesserte Extraktion von bestimmten Textelementen von Textdokumenten möglich.In one aspect, it creates The present invention a method and an apparatus for producing a layout document that represents an element of the text document and as input for one Classifying device can be used. Because of the special Type of layout document that is in accordance with this aspect of the present invention is generated, the classifying device is able to improved classification of a text element by the layout document represents will perform. This will improve extraction of certain text elements of text documents possible.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Layout-Dokument basierend auf Elementen eines elektronischen Textdokuments erzeugt, wobei das Layout eine Repräsentation von Elementen des Dokuments zusammen mit Repräsentationen ihrer entsprechenden Position enthält. Durch Erzeugung eines solchen Layout-Dokuments, das als Eingabe für eine Klassifiziervorrichtung wie beispielsweise ein neuronales Netz verwendet werden kann, wird es möglich, die Elemente eines Dokuments zusammen mit ihren geometrischen Kontextelementen (ihrer Nachbarschaft/Umgebung) zu evaluieren und dabei nicht nur das Format oder den Inhalt eines Elements selbst auszunutzen, sondern auch weitere Informationen, um zu evaluieren, ob das Element zu einer bestimmten Kategorie gehört oder nicht. Durch Berücksichtigung nicht nur eines Elements oder seines Formats selbst, sondern statt dessen auch seines Umgebungsbereichs bzw. der Elemente, die in dem Umgebungsbereich enthalten sind, erhält eine Klassifiziervorrichtung weitere Hinweise dahingehend, ob ein Textelement zu einer bestimmten Kategorie gehört oder nicht. Diese weiteren Hinweise, die durch den Umgebungsbereich und die darin enthaltenen Textelemente gegeben werden, können von einer Klassifiziervorrichtung erkannt oder gelernt werden, beispielsweise einem neuronalen Netz, und dadurch kann ein trainiertes neuronales Netz eine verbesserte Klassifikation und somit eine verbesserte Extraktion von Elementen von Textdokumenten erzielen.According to one aspect of the present invention, a layout document is based on elements of an electronic text document testifies, where the layout contains a representation of elements of the document together with representations of their corresponding position. By creating such a layout document that can be used as input to a classifier such as a neural network, it becomes possible to evaluate the elements of a document along with their geometric context elements (their neighborhood / environment) and not just the format or to take advantage of the content of an element itself, but also other information to evaluate whether the element belongs to a certain category or not. By taking into account not only an element or its format itself, but instead also its surrounding area or the elements contained in the surrounding area, a classification device receives further information as to whether or not a text element belongs to a certain category. These further indications, which are given by the surrounding area and the text elements contained therein, can be recognized or learned by a classification device, for example a neural network, and a trained neural network can thereby achieve an improved classification and thus an improved extraction of elements from text documents ,
Gemäß einem weiteren Aspekt der vorliegenden Erfindung werden Layouts für eine Vielzahl von Elementen, die zu einer bestimmte Kategorie gehören, erzeugt, und die so erzeugten Layouts werden dann verwendet, um die Klassifiziervorrichtung zu trainieren, um Elemente dieser Kategorie zu erkennen. Vorzugsweise ist die Klassifiziervorrichtung ein neuronales Netz, das durch die Layouts, die für eine Vielzahl von Elementen erzeugt wurden, trainiert wird, und durch Eingabe in die Vorrichtung während der Trainingsphase, ob die Elemente, für die die Layouts erzeugt wurden, zu einer bestimmten Kategorie gehören oder nicht. Ein so trainiertes neuronales Netz oder eine Klassifiziervorrichtung kann weiter zur Klassifizierung von unbekannten Textelementen verwendet werden sowie zur Durchführung einer Extraktion von Elementen aus unbekannten Texten.According to another aspect of present invention, layouts for a variety of elements, that belong to a certain category, and those that are created Layouts are then used to train the classifier, to recognize elements of this category. The classification device is preferably a neural network through the layouts that are used for a variety created by elements, trained, and by input into the device during the Training phase, whether the elements for which the layouts were created belong to a certain category or not. So trained neural network or a classification device can further for classification are used by unknown text elements and to carry out a Extract elements from unknown texts.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Klassifiziervorrichtung, die trainiert wurde, verwendet, um zu evaluieren, ob ein unbekanntes Element zu einer bestimmten Kategorie gehört oder nicht, und zwar basierend auf einem Layout-Dokument, das für dieses Element generiert wurde, um dadurch Elemente aus einem Dokument zu extrahieren, die zu einer bestimmten Kategorie gehören.According to another aspect of The present invention becomes a classifier that trains was used to evaluate whether an unknown item too belongs to a certain category or not, based on a layout document that is for this Element was generated to thereby create elements from a document extract that belong to a certain category.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung werden Kandidaten identifiziert, die gemäß einem Suchkriterium möglicherweise zu der Kategorie, zu der die extrahierten Daten gehören sollen, gehören. Vorzugsweise kann ein Suchkriterium ein Format eines Elements sein, ein Wortsuchkriterium, ein fehlertolerantes Wortsuchkriterium oder eine Kombination solcher Kriterien. Für jeden dieser Kandidaten kann dann ein Layout-Dokument erzeugt werden, und zwar basierend auf dem Kandidaten selbst, seiner Position in dem elektronischen Dokument und basierend auf weiteren Elementen des elektronischen Dokuments und ihrer Position in dem Dokument. Vorzugsweise werden diejenigen Elemente bei Erzeugung des Layout-Dokuments in Betracht gezogen, die innerhalb eines oder mehrerer vordefinierter Gebiete liegen, vorzugsweise in der Nähe oder in der Umgebung des Kandidaten.According to another aspect of In the present invention, candidates are identified who according to a Search criteria possibly the category to which the extracted data should belong, belong. Preferably, a search criterion can be a format of an element, a word search criterion, a fault tolerant word search criterion or one Combination of such criteria. For each of these candidates can then create a layout document based on the candidate himself, his position in the electronic document and based on other elements of the electronic document and its position in the document. Those elements are preferred when the layout document is generated considered within one or more predefined ones Areas, preferably near or in the vicinity of the Candidates.
Basierend auf einem solchen Layout-Dokument wird dann beurteilt, ob der Kandidat tatsächlich zu der gewünschten Kategorie gehört oder nicht.Based on such a layout document it is then judged whether the candidate actually did the job Category belongs or not.
Gemäß einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird die Entscheidung, ob ein Kandidat zu der gewünschten Kategorie gehört, durch Verwendung einer Klassifiziervorrichtung durchgeführt, die vorzugsweise ein neuronales Netz ist. Das neuronale Netz kann durch Verwendung von Layout-Dokumenten von Kandidaten trainiert worden sein und ferner durch Eingabe von Informationen in das neuronale Netz, ob diese Kandidaten zu der gewünschten Kategorie gehören oder nicht.According to another preferred embodiment The present invention makes the decision of whether a candidate to the desired category heard, by using a classifier is preferably a neural network. The neural network can be used by of layout documents have been trained by candidates and also by entering Information in the neural network whether these candidates to the desired Belong to category or Not.
Gemäß einem weiteren bevorzugten Ausführungsbeispiel wird die Entscheidung, ob ein Kandidat zu der gewünschten Kategorie gehört oder nicht, durch Verwendung eines Verfahrens oder einer Vorrichtung wie in der europäischen Patentanmeldung mit der Anmeldenummer 99 108 354.4 beschrieben durchgeführt, die am 28. April 1999 eingereicht wurde und deren Priorität für die vorliegende Anmeldung beansprucht wurde und die hiermit durch Bezugnahme in die Anmeldung aufgenommen wird.According to another preferred embodiment will be the decision of whether a candidate should be the one you want Category belongs or not, using a method or device like in European Patent application with the application number 99 108 354.4 described that on April 28, 1999 and its priority for the present Application was claimed and which are hereby incorporated by reference in registration will begin.
Kurze Beschreibung der ZeichnungenShort description of the drawings
Detaillierte Beschreibung der bevorzugten Ausführungsbeispieledetailed Description of the preferred embodiments
Die vorliegende Erfindung kann durch
ein Computersystem wie in
Die vorliegende Erfindung wird nachfolgend in
Verbindung mit der Extraktion eines Geburtsdatums (date of birth)
aus einem Lebenslauf (curriculum vitae) wie in
Der Lebenslauf ist in dem Computer auf einem Datenträger in elektronischer Form gespeichert, er kann das Ergebnis eines Editierprozesses unter Verwendung eines Textverarbeitungsprogramms sein, oder das elektronische Dokument kann das Ergebnis eines Scanning-Prozesses und einer anschließenden optischen Zeichenerkennung sein. An Stelle eines Lebenslaufs kann jegliches andere Dokument, von dem ein Element mit einer bestimmten Bedeutung oder fallend in eine bestimmte Kategorie extrahiert werden soll, verwendet werden.The resume is in the computer on a disk Stored in electronic form, it can be the result of an editing process using a word processor, or that Electronic document can be the result of a scanning process and a subsequent one optical character recognition. Instead of a resume any other document of which an element has a specific meaning or should be extracted falling into a certain category, be used.
Zunächst wird das elektronische Dokument analysiert, um die individuellen Dokumente, aus denen es besteht, zu erhalten. "Element" bedeutet hier irgendeine Sequenz von Zeichen, die von anderen Elementen durch einen Begrenzer wie beispielsweise eine Leerstelle, einen Tabulator, einen Unterstrich, oder irgendein anderes Datenelement, das als Trennzeichen interpretiert werden kann, getrennt ist. Der einfachste Weg zur Aufsplittung von Text in einzelne Elemente ist durch Identifizierung derjenigen Textteile als Elemente, die voneinander durch ein Leerzeichen getrennt sind, abhängig von dem Zweck der Analyse können jedoch auch andere Kriterien in Betracht gezogen werden wie beispielsweise der genannte Unterstrich, ein Bindestrich, ein neuer Absatz, oder andere Elemente des elektronischen Dokuments, die so betrachtet werden können, dass sie ein Element von dem anderen trennen. Ein weiteres Kriterium, das in Betracht gezogen werden kann, wenn individuelle Elemente identifiziert werden, könnte die geometrische Distanz zwischen den individuellen Textzeichen sein. Beispielsweise könnte ein Schwellwert definiert sein, jenseits von dem ein Abstand zwischen zwei Zeichen so interpretiert wird, dass die zwei Zeichen unterschiedliche Elemente sind. Im vorliegenden Beispiel nehmen wir an, dass ein Element irgendein einzelnes Zeichen oder eine Sequenz von Zeichen sein kann, die von anderen "Elementen" durch ein Leerzeichen getrennt sind.First, the electronic Document parses to the individual documents that make it up exists to get. "Element" means any here Sequence of characters separated from other elements by a delimiter such as a space, a tab, an underscore, or any other data element that interprets as a delimiter can be separated. The easiest way to split Text in individual elements is by identifying those parts of the text as elements separated by a space, dependent can from the purpose of analysis however, other criteria may also be considered, such as the underscore, a hyphen, a new paragraph, or other elements of the electronic document viewed like this can be that they separate one element from the other. Another criterion that can be considered if individual items could be identified the geometric distance between the individual text characters his. For example a threshold must be defined beyond which there is a distance between two characters is interpreted so that the two characters are different Elements are. In the present example we assume that a Element of any single character or a sequence of characters can be that of other "elements" by a space are separated.
Im vorliegenden Beispiel eines Textdokuments
wie in
Abgesehen von dem Erhalten der Elemente selbst wird auch ihre entsprechende Position in dem Dokument erhalten, beispielsweise durch Berechnung der X- und Y-Koordinaten, an denen das Element in dem Dokument angeordnet ist. Die Position wird später zur Erzeugung des Layout-Dokuments verwendet.Aside from getting the items themselves will also get their corresponding position in the document, for example, by calculating the X and Y coordinates at which the element is arranged in the document. The position later becomes Generation of the layout document used.
Nachdem die individuellen Elemente
des elektronischen Textdokuments identifiziert wurden, werden diese
Elemente in einem so genannten "Arbeitsdokument" gespeichert. In
dem Arbeitsdokument wird jedes Element, das identifiziert wurde,
zusammen mit Information über
seine Position in dem elektronischen Dokument gespeichert. Beispielsweise
kann das Element "curriculum" zusammen mit seinen
X- und Y-Koordinaten gespeichert werden, die seine Position in dem
elektronischen Dokument identifizieren. Das Arbeitsdokument ist
ein bequemes Werkzeug zur Speicherung aller Elemente, die identifiziert
wurden, zusammen mit ihrer entsprechenden Position, so dass für die Erzeugung
des Layout-Dokuments, das später
im Detail erläutert
wird, Bezug genommen werden kann auf das Arbeitsdokument. Ein Beispiel
eines Arbeitsdokuments, das aus einem Textdokument erzeugt wurde,
ist in
Die Position eines Elements kann beispielsweise das Gravitationszentrum eines Elements sein, das auf der Grundlage seiner individuellen Pixelwerte berechnet wurde, oder es kann irgendwelche andere geometrische Informationen repräsentieren, die die Lokalisierung des Elements repräsentieren. Beispielsweise kann eine Umrahmung (box) konstruiert werden, die das Element umgibt, und der Durch schnitt zwischen den maximalen und minimalen X-Koordinaten der Box kann aus X-Koordinate für die Positionen verwendet werden und der Durchschnitt des Maximums und des Minimums der Y-Position der Box kann als Y-Koordinate des Elements verwendet werden, wenn seine Position im Text durch ein entsprechendes Tag im Arbeitsdokument repräsentiert wird.The position of an element can for example, the center of gravity of an element that was calculated based on its individual pixel values, or it can represent any other geometric information, that represent the location of the element. For example a frame (box) is constructed surrounding the element, and the average between the maximum and minimum X coordinates the box can be made from X coordinate for the positions are used and the average of the maximum and the minimum of the Y position of the box can be used as the Y coordinate of the Elements are used when its position in the text is indicated by a corresponding day is represented in the working document.
Das Arbeitsdokument enthält eine Liste von identifizierten Elementen zusammen mit Tags, die ihre jeweilige Position und möglicherweise auch weitere Informationen wie vorher erwähnt enthalten, wie beispielsweise Informationen über die Fonts der Elemente, ihren Stil, ob sie unterstrichen sind oder nicht, etc.The working document contains one List of identified elements along with their tags current position and possibly also include other information as previously mentioned, such as information about the fonts of the elements, their style, whether they are underlined or not, etc.
Auf diese Weise wird das Arbeitsdokument erzeugt und enthält eine Liste von den individuellen Elementen des elektronischen Textdokuments zusammen mit ihrer entsprechenden Position und möglicherweise anderer Informationen. Auch nichttextuelle Elemente können in dem Arbeitsdokument enthalten sein, wie beispielsweise horizontale oder vertikale Linien oder Gitter, die in dem elektronischen Dokument enthalten sind, die dann ebenso in dem Arbeitsdokument in einer Form gespeichert werden, die ihre Position und ihr Aussehen (horizontal, vertikal, Linie, Gitter, oder Ähnliches) gemäß einem Kodierungsschema repräsentieren. Beispielsweise kann eine horizontale Linie in einem Arbeitsdokument durch die Zeichensequenz AAAA repräsentiert werden, eine vertikale Linie kann durch die Zeichensequenz BBBB repräsentiert werden, wobei jede dann gefolgt wird von einem Tag, das die Position der Linie angibt. Das so erzeugte Arbeitsdokument kann dann zur Identifizierung von Kandidatenelementen verwendet werden, die möglicherweise das Element, das extrahiert werden soll, sein können. Zu diesem Zweck wird das Arbeitsdokument (oder möglicherweise auch das "Quelldokument", basierend auf dem das Arbeitsdokument erzeugt wurde) geparst, um diejenigen Elemente zu identifizieren, die ein bestimmtes Suchkriterium wie beispielsweise ein Formatkriterium erfüllen. In diesem Schritt des Extrahierens eines Kandidaten werden alle Elemente analysiert, um mögliche Kandidaten für die gewünschten zu extrahierenden Elemente zu finden. Vorzugsweise werden nicht nur individuelle Elemente gesucht, sondern auch Kombinationen von Elementen, so dass das Verfahren mit Leerzeichen zwischen den individuellen Elementen fertig wird. Wenn beispielsweise nach einer Bankkontonummer gesucht wird, von der angenommen wird, dass sie acht Stellen hat, so kann eine Suche nach einer Nummer durchgeführt werden, die acht Stellen hat, die entweder repräsentiert werden als "99999999" oder als "999 999 99" oder als "9 9 9 9 9 9 9 9", oder in irgendeiner anderen Kombination. Die Suche nach solch einer Bankkontonummer kann daher beispielsweise durchgeführt werden, indem nach einer Zahl mit acht Stellen gesucht wird. Abhängig von dem Informationsinhalt, den das zu extrahierende Element haben soll, kann ein anderes Format als Suchkriterium verwendet werden. Mögliche Suchkriterien sind Suchen nach regulären Ausdrücken (wie beispielsweise eine Formatsuche, bei der nach einem bestimmten Format wie etwa einer Zeichenkette, einer Folge von Zahlen, die möglicherweise auch eine bestimmte Gesamtzahl von Ziffern enthält, gesucht wird), oder Ähnliches. Ein anderes Suchkriterium könnte sein, dass eine Suche nach einem simplen vordefinierten Element durchgeführt wird, indem ein String-Vergleich durchgeführt wird. Beispielsweise kann eine Suche nach dem Wort "birth" (Geburt) durchgeführt werden, und jedes Element, das dieses Suchkriterium erfüllt, würde dann als Kandidat auftauchen.In this way the working document is created and contains a list of the individual elements of the electronic text document along with their corresponding position and possibly other information. Even non-textual elements can be included in the working document, such as horizontal or vertical lines or grids in the electronic document are contained, which are then also in the working document in a Shape, its position and appearance (horizontal, vertical, line, grid, or similar) according to one Represent coding scheme. For example, a horizontal line in a working document are represented by the character sequence AAAA, a vertical Line can be represented by the character sequence BBBB, each then is followed by a day indicating the position of the line. The The working document generated in this way can then be used to identify candidate elements that may be can be the element to be extracted. For this purpose the working document (or possibly also the "source document" based on which the Working document was created) parsed to those elements too identify a specific search criteria such as meet a format criterion. In this step of extracting a candidate, everyone will be Elements analyzed for possible Candidates for the ones you want to find extracting elements. Preferably not only individual elements searched, but also combinations of elements, so the procedure with spaces between the individual Elements. If, for example, after a bank account number what is believed to have eight digits, so a search can be performed for a number that has eight digits has that are either represented as "99999999" or as "999 999 99" or as "9 9 9 9 9 9 9 9", or in any one other combination. The search for such a bank account number can therefore be carried out, for example, by following a Number with eight digits is searched. Depending on the information content that the element to be extracted can have a different format can be used as search criteria. Possible search criteria are searches according to regular Express (such as a format search where a specific Format such as a string, a sequence of numbers that possibly also contains a certain total number of digits, is searched), or the like. Another search criteria could be be that a search for a simple predefined element carried out is done by performing a string comparison. For example a search for the word "birth" is carried out, and any element that met this search criteria would then appear as a candidate.
Ein anderes mögliches Suchkriterium könnte es
sein, eine sogenannte Bestimmungssuche durchzuführen, was bedeutet, dass ein
Element gesucht wird, das an einer bestimmten Position (links/rechts/oben/unten)
bezüglich
eines Kandidaten angeordnet ist, der durch ein anderes Suchkriterium gefunden
wurde. Wenn z.B. ein Suchkriterium eine Suche nach dem Wort "birth" sein würde, dann
könnte
eine Bestimmungssuche für
ein Element durchgeführt
werden, das rechts von dem Element "birth" angeordnet ist, und in diesem Fall
wäre der
resultierende Kandidat das Element, das rechts von dem Element "birth" angeordnet ist.
Im Beispiel von
Ein weiteres Suchkriterium könnte es sein, eine Suche nach allen Elementen durchzuführen, die auch in einer Datenbank vorliegen.Another search criterion could be be to perform a search for all items, including those in a database available.
Die Suche nach Kandidaten ist vorzugsweise
fehlertolerant in der Art, dass Präfixe/Suffixe ignoriert werden
können,
um typische Fehler von optischer Zeichenerkennung zu ignorieren,
oder um solche Elemente wie "," und "." zu ignorieren. Beispielsweise könnte im
Fall von
Abhängig von der Art, mit der die Kandidatensuche durchgeführt wird, werden mehr oder weniger Kandidaten für die zu extrahierenden Elemente identifiziert.Depending on the way in which Candidate search performed more or fewer candidates for the elements to be extracted are identified.
Andere Suchverfahren könnten beispielsweise eine Trigramm-Suche einschließen, was bedeutet, dass Kombinationen von drei Zeichen gesucht werden. Dies ist auch eine Methode zur Durchführung einer fehlertoleranten Suche. Wenn beispielsweise ein Tippfehler in einem Kandidaten auftaucht, dann würde eine Trigramm-Suche nichtsdestotrotz solch einen Kandidaten erhalten, da mehrere Zeichensequenzen, die in dem Kandidaten enthalten sind, als korrekte Trigramme erkannt würden. Eine weitere fehlertolerante Suchmethode wäre es, die Levenshtein-Distanz zu verwenden, die eine Repräsentation der Tastendrucke ist, die auf einer Tastatur nötig sind, um eine Zeichensequenz in eine andere umzuwandeln. Basierend auf der Levenshtein-Distanz könnte ebenfalls eine fehlertolerante Suche durchgeführt werden.Other search methods could, for example include a trigram search, which means combinations of three characters are searched. This is also a method of performing fault tolerant Search. For example, if a typo appears in a candidate, then would nevertheless get a trigram search such a candidate because several character sequences contained in the candidate would be recognized as correct trigrams. Another fault-tolerant search method would be the Levenshtein distance to use, which is a representation of the Is key presses that are needed on a keyboard to complete a character sequence to convert to another. Based on the Levenshtein distance could also a fault-tolerant search can be carried out.
Vorzugsweise wird die Kandidatensuche durch Suche des Arbeitsdokuments nach Elementen, die das verwendete Suchkriterium erfüllen, durchgeführt. Dabei kann die Analyse des Dokuments in Elemente, die bereits durchgeführt wurde, verwendet werden. Im Prinzip kann jedoch auch eine Suche nach Kandidaten direkt auf dem Textdokument durchgeführt werden.The candidate search is preferably carried out by Search the working document for elements that match the search criteria fulfill, carried out. The analysis of the document in elements that have already been carried out can be used. In principle, however, can also search for candidates be carried out directly on the text document.
Die Suche dient dazu, Kandidatenelemente zu erhalten, die möglicherweise die Information enthalten, nach der gesucht wird. Es ist sofort erkennbar, dass abhängig von den Informationen, die gesucht werden, die Suchkriterien entsprechend angepasst werden müssen. Wenn eine Bankkontonummer gesucht wird, dann wird vorzugsweise ein Formatkriterium verwendet, das ein möglicherweise bekanntes Zahlenformat der Kontonummer verwendet. Wenn dagegen ein Geburtsort gesucht wird, dann ist die Suche nach Zeichenketten vielversprechender als die Suche nach Zahlen. Die Anpassung der Suchkriterien (Formatsuche, Wortsuche, Datenbanksuche, Bestimmungssuche, oder eine Kombination davon) an das bestimmte Stück Information, das gesucht wird, kann vom Fachmann abhängig von den Umständen entsprechend gewählt werden.The search is used to find candidate elements get that possibly contain the information that is being searched for. It is instant recognizable that dependent of the information that is searched for according to the search criteria need to be adjusted. If a bank account number is searched, then preferably one Format criterion used, which is a possibly known number format the account number used. On the other hand, if a place of birth is sought then the search for strings is more promising than that Search for numbers. The adaptation of the search criteria (format search, Word search, database search, destination search, or a combination of that) to the particular piece Information that is sought can depend on the person skilled in the art the circumstances chosen accordingly become.
Wenn die gefundenen Kandidaten später in einer Trainingsprozedur für eine Klassifiziervorrichtung verwendet werden sollen, wie dies im Detail später beschrieben wird, dann ist es bevorzugt, wenn sie irgendwie dem Benutzer angezeigt oder initiiert werden, und wenn der Benutzer in der Lage ist zu bestätigen, ob die gefundenen Kandidaten mit dem Suchkriterium übereinstimmen oder nicht. Dadurch kann die Klassifiziervorrichtung wie später erläutert wird trainiert werden. Die Anzeige der Kandidaten kann beispielsweise durch "Highlighten" von ihnen im durchsuchten Textdokument geschehen, um dann dem Benutzer eine Bestätigung oder ein Verwerfen der Kandidaten durch einen Mausklick zu ermöglichen. Die Formatsuche oder fehlertolerante Elementensuche liefern Kandidaten für zu extrahierende Elemente. Das Ergebnis der Kandidatensuche ist bereits ganz gut in Bezug auf Korrektheit, da es auf inhärenten Eigenschaften der Elemente, die gesucht werden, basiert, wie etwa ihrem Format oder ihrem tatsächlichen Informationsinhalt. Die Kandidaten können jedoch dann weiter ausgewertet werden bezüglich dessen, ob sie zu einer bestimmten Kategorie gehören, indem andere Elemente als die Kandidaten selbst berücksichtigt werden, wie dies nachfolgend beschrieben wird.If the candidates found later in a Training procedure for a classifier should be used, as in Detail later it is preferred if they somehow do that Users are displayed or initiated and if the user is able to confirm whether the candidates found match the search criteria or not. This enables the classifying device to be explained later be trained. The display of the candidates can, for example searched by "highlighting" them in the Text document happen to then give the user a confirmation or Allow candidates to be rejected by clicking the mouse. The format search or fault-tolerant element search provide candidates for too extracting elements. The result of the candidate search is already complete good in terms of correctness because it is based on inherent properties of the elements, that are searched for, such as their format or their actual Information content. However, the candidates can then continue to be evaluated be regarding of whether they belong to a particular category by adding other items than the candidates considered themselves as described below.
Für jeden der Kandidaten wird dann ein sogenanntes Layout-Dokument erzeugt, das nicht nur eine Repräsentation des Kandidaten und seiner Position in dem elektronischen Dokument enthält, sondern auch von anderen Elementen, die das Kan didatenelement umgeben, sowie ihrer jeweiligen Position. Daher ist das Layout-Dokument eine elektronische Repräsentation des Kandidaten und seiner Position in dem elektronischen Dokument selbst, sowie auch von anderen Elementen in dem elektronischen Dokument und ihrer entsprechenden Position. Vorzugsweise wird ein Layout-Dokument, das für einen bestimmten Kandidaten generiert wird, für ein bestimmtes Gebiet, das diesen Kandidaten umgibt, erzeugt. Dieses Gebiet (oder eine entsprechende Mehrzahl von Gebieten) kann entweder vordefiniert sein oder vom Benutzer definiert werden.For each of the candidates is then created a so-called layout document, not just a representation of the candidate and his position in the electronic document contains but also of other elements that surround the candidate element, as well as their respective position. The layout document is therefore an electronic representation of the candidate and his position in the electronic document itself, as well as other elements in the electronic document and their corresponding position. A layout document, that for a particular candidate is generated for a particular area that surrounds this candidate. This area (or equivalent Majority of areas) can either be predefined or from User defined.
Ein Beispiel der Definition eines
solchen Umgebungsgebiets durch ein Benutzerinterface ist in
Zur Erzeugung des Layout-Dokuments werden alle Elemente, die bezüglich ihrer Position in dem elektronischen Dokument in die Boxen, die das Gebiet des Layout-Dokuments definieren, zur Erzeugung des Layout-Dokuments berücksichtigt. Für diesen Zweck kann Bezug genommen werden auf das Arbeitsdokument, in dem alle Elemente zusammen mit ihren entsprechenden Positionen gespeichert sind.To create the layout document are all elements related to their position in the electronic document in the boxes that the area of the layout document define, taken into account for the generation of the layout document. For this Purpose can be referred to the working document in which all elements are saved together with their corresponding positions.
Im Folgenden wird angenommen, dass
der Prozess des Erhaltens eines Kandidatenelements das Element May
5, 1960 des Dokuments aus
Nachdem ein oder mehrere Kandidaten durch die obige Suchprozedur wie beschrieben erhalten wurden, wird dann für jeden der Kandidaten ein Layout-Dokument erzeugt, das eine Repräsentation des Kandidaten sowie seines Umgebungsgebiets ist. Zur Erzeugung des Layout-Dokuments werden zunächst die Elemente, die innerhalb des Gebiets liegen, das zur Erzeugung des Layout-Dokuments verwendet wird, identifiziert und dann basierend auf diesen Elementen das Layout-Dokument erzeugt. Es enthält eine Repräsentation des Kandidaten sowie der Elemente, die innerhalb dieses Gebiets liegen, zusammen mit den entsprechenden Positionen dieser Elemente.After one or more candidates go through the above search procedure obtained as described is then for each the candidate a layout document that creates a representation of the candidate and his surrounding area. For generation of the layout document first the elements that lie within the area that is to be created of the layout document is used, identified and then based on these elements created the layout document. It contains a representation the candidate and the elements that are within this area, along with the corresponding positions of these elements.
Ein Beispiel für das Layout-Dokument, das für den Kandidaten "May 5, 1960" erzeugt wurde und das
entsprechende Layoutgebiet wie im Beispiel von der
Die erste Linie des Layout-Dokuments
in
Zur Erläuterung, wie die Position des
Kandidatenelements in dem elektronischen Dokument im Layout-Dokument
durch die Zeichensequenz "MXMYWLHM" repräsentiert
wird, wird auf
Daher wird, wie aus der ersten Linie
des Layout-Dokuments aus
Ähnlich
der Breite wird auch die Höhe
der Kandidatenbox durch eine der Sequenzen "NS", "HM", "HL", oder durch "HX" kodiert. Für den Fall
der
Die Position der Kandidatenbox in
X- und Y-Richtung wird kodiert wie schematisch illustriert im linken
Teil der
Im vorliegenden Fall von
Es ist zu verstehen, dass die Kodierung
aus
Ganz ähnlich sind die Kodiersequenzen, die hier verwendet wurden, völlig arbiträr, hier bedeutet "LL" einfach "ganz weit links", "MX" bedeutet "ziemlich in der Mitte in X-Richtung", und "RR" bedeutet "ganz weit rechts im Dokument in X-Richtung". Auf ähnliche Weise bedeutet "TT" "ganz oben", "MY" bedeutet "ziemlich in der Mitte", und "BB" bedeutet "ganz unten im Dokument bezüglich Y-Richtung". Andere Kodiersequenzen können jedoch genauso gut verwendet werden, wie vom Fachmann erkannt wird. Auch können anstelle von Großbuchstaben DDMMYY andere Zeichensequenzen verwendet werden, um das erkannte Format eines "Datums" zu repräsentieren.The coding sequences are very similar, that were used here completely arbitrary, here "LL" simply means "far left", "MX" means "pretty much in the middle in X direction", and "RR" means "far right in the document in the X direction ". Similar ones Wise means "TT" at the very top, "MY" means "pretty much in the middle", and "BB" means "at the very bottom of the document in terms of Y direction ". Others Coding sequences can however, are used as well as recognized by those skilled in the art. Also can instead of capital letters DDMMYY other character sequences are used to identify the recognized To represent the format of a "date".
Nachdem die Kandidatenbox wie oben
erläutert
kodiert wurde, werden dann die anderen Elemente, die in das Gebiet
des Layout-Dokuments wie unter Bezugnahme auf
Das in
Die zweite Zeile des Layout-Dokuments
aus
Die zweite und die dritte Zeile des
Layout-Dokuments in
Zum Kodieren der relativen Position
kann irgendein Kodierschema verwendet werden, das besondere, das
hierin verwendet wird, wird schematisch in
Aus
Da die Nummer 8125 horizontal gleich
aber nahe über
dem Kandidaten angeordnet ist, führt
dies zu der dritten Zeile in
Die verbleibenden drei Elemente "date", "of' und "birth:", die in das Layoutgebiet
fallen, werden in den letzten drei Zeilen des Layout-Dokuments aus
Es wird sofort verstanden, dass anstelle der relativen Positionskodierung auch absolute Positionen der Elemente innerhalb des Layoutgebiets für die Erzeugung des Layout-Dokuments verwendet werden können.It is immediately understood that instead the relative position coding also absolute positions of the elements within the layout area for the generation of the layout document can be used.
Weiter ist es auch möglich, dass, wenn das Layout-Dokument erzeugt wird, andere solche Elemente, für die das Format erkennbar ist, nicht nur beispielsweise so als wenn das Element das Format eines "Datum" aufweist, im Layout-Dokument durch eine entsprechende Kodiersequenz kodiert werden. Während dies hier lediglich für das Datum in der ersten Zeile und die ganzen Zahlen in zweiter und dritter Zeile des Layout-Dokuments gezeigt wurden, kann eine solche Ersetzung auch für andere erkennbare Elemente wie etwa beispielsweise Postleitzahlen (ZIP-Codes) (könnten durch eine Datenbankabfrage erkannt werden) und die durch eine bestimmte Zeichensequenz wie ZZZ oder Ähnliches repräsentiert werden, durchgeführt werden. Die entsprechende Erkennung kann entweder basieren auf Formaterkennung oder einer Datenbankabfrage (in der beispielsweise alle Postleitzahlen gespeichert sind).It is also possible that when the layout document is created, other such elements for which the Format is recognizable, not just for example as if the item has the format of a "date" in the layout document be encoded by an appropriate coding sequence. During this here only for the date on the first line and the integers on the second and third line of the layout document was shown, such Replacement also for other recognizable elements such as postcodes (ZIP codes) (could can be recognized by a database query) and by a specific one Character sequence like ZZZ or similar be represented carried out become. The corresponding recognition can either be based on format recognition or a database query (in which, for example, all postcodes are saved).
Wie oben erläutert, wird ein Layout-Dokument erzeugt, das Informationen über den Kandidaten selbst, seine Position im Dokument und ferner Informationen über andere Elemente des Dokuments und ihre Position im Dokument enthält. Die Positionsinformationen werden im vorliegenden Beispiel repräsentiert durch Ersetzung von Koordinatenwerten durch Zeichensequenzen, die eine Position gemäß einem bestimmten Kodierschema repräsentieren, das verwendet wird, um Orte oder Gebiete, in die das elektronische Element für Kodierzwecke aufgeteilt wurde, und denen entsprechende Zeichenkodes zugewiesen wurden, zu definieren. Ähnlich können Zahlenkodes genauso gut zur Kodierung der Position der Elemente des elektronischen Dokuments verwendet werden. Irgendein Kodierschema, das die Position und/oder das Format der Elemente repräsentiert, kann zur Erzeugung des Layout-Dokuments verwendet werden. Das Layout-Dokument kann auch weitere In formationen über nicht-textuelle Elemente des Dokuments, das analysiert werden soll, wie beispielsweise Linien oder Gitter in dem Dokument, enthalten. Die Information kann auch leicht durch eine geometrische Analyse des Dokuments erhalten werden, und dann können die Linien oder Gitter, die in einem Dokument vorhanden sind, in dem Layout-Dokument durch entsprechende Kodiersequenzen kodiert werden, vorzugsweise auch durch Repräsentierung ihrer entsprechenden Position, möglicherweise auch ihres Stils und weiterer Informationen.As explained above, a layout document that generates information about the candidate himself, his position in the document and further information about others Contains elements of the document and their position in the document. The Position information is represented in the present example by replacing coordinate values with character sequences that a position according to a represent certain coding scheme that is used to identify places or areas in which the electronic element for coding purposes has been divided and assigned corresponding character codes were to define. Similar can number codes equally good for coding the position of the elements of the electronic Document can be used. Any coding scheme that the position and / or the format of the elements represents can be used for generation of the layout document. The layout document can also more information about non-textual elements of the document to be analyzed such as lines or grids in the document. The information can also be easily obtained through a geometric analysis of the document, and then the lines or grids, that exist in a document in the layout document Corresponding coding sequences are encoded, preferably also through representation their corresponding position, possibly also their style and other information.
Vorzugsweise enthält das Kodierschema, das zur Erzeugung des Layout-Dokuments verwendet wird, eine Positionskodierung, die basiert darauf, dass diskrete Gebiete von Lokalisierungsinformationen entsprechenden Positionskodes wie vorher erläutert zugewiesen sind. Weiter werden vorzugsweise Stilinformationen oder Formatinformationen, die erkannt werden können, wie etwa das Format oder der Stil von Elementen, auch im Layout-Dokument durch entsprechende Kodiersequenzen repräsentiert. Es ist jedoch möglich, lediglich einige dieser Elemente eines Kodierschemas zur Erzeugung eines Layout-Dokuments zu verwenden.Preferably, the coding scheme contains that for Creation of the layout document is used, a position coding that is based on that corresponding to discrete areas of location information Position codes as previously explained are assigned. Further, style information or Format information that can be recognized, such as the format or the Style of elements, also in the layout document by appropriate Coding sequences represented. However, it is possible just some of these elements of a coding scheme for generation of a layout document.
Die im Layout-Dokument angegebene Position kann eine Repräsentation der geometrischen Position basierend auf Koordinatenwerten sein, wie etwa den X- und Y-Koordinatenwerten, die vorher erläutert wurden. Es ist jedoch auch möglich, dass die Positionsinformation für ein Element in dem Layout-Dokument die relative Position zwischen dem Kandidaten und diesem Element repräsentiert, wie etwa die Anzahl von Elementen, die zwischen diesem Element und dem Kandidaten auftauchen. Dadurch wird es auch möglich, die relative Position zwischen dem Kandidaten und anderen Elementen in dem Layoutgebiet zu kodieren, und zwar durch die Distanz zwischen ihnen durch die Anzahl von Worten, die zwischen ihnen auftauchen. Solch ein Kodierschema könnte beispielsweise nützlich sein, wenn das zu verarbeitende Textdokument tatsächlich nicht viel eines Layouts aufweist, wie etwa eine E-Mail-Nachricht. Alternativ kann jedoch für eine E-Mail ein virtuelles Layout berechnet und für die weitere Verarbeitung verwendet werden anstelle der relativen Position der Elemente wie vorher erläutert.The position specified in the layout document can be a representation of the geometric position based on coordinate values, such as the X and Y coordinate values that were previously explained. However, it is also possible that the position information for an element in the lay out document represents the relative position between the candidate and this element, such as the number of elements that appear between this element and the candidate. This also makes it possible to encode the relative position between the candidate and other elements in the layout area, by the distance between them, by the number of words that appear between them. Such an encoding scheme could be useful, for example, when the text document to be processed does not actually have much of a layout, such as an email message. Alternatively, however, a virtual layout can be calculated for an email and used for further processing instead of the relative position of the elements as previously explained.
Je mehr Informationen in dem Layout-Dokument über die Kandidaten und ihre umgebenden Elemente enthalten ist, desto genauer kann das Layout-Dokument und das nachfolgende Verarbeitungsergebnis sein. Je detaillierter das Layout-Dokument jedoch ist, um so mehr Verarbeitungsleistung ist nötig, um das Layout-Dokument zu erzeugen und es weiterzuverarbeiten, um zu einer Entscheidung zu kommen. Deshalb kann abhängig von der gewünschten Genauigkeit der Entscheidungsprozedur der Benutzer oder ein Programmierer das Gebiet zur Erzeugung des Layout-Dokuments sowie die bei Erzeugung des Layout-Dokuments verwendeten Informationen bestimmen.The more information in the layout document about the Candidates and their surrounding elements are included, the more accurate can the layout document and the subsequent processing result his. However, the more detailed the layout document, the more processing power is necessary, around the layout document generate and process it to make a decision get. Therefore can be dependent of the desired Accuracy of the decision-making procedure of the user or a programmer the area for creating the layout document and the area for creating it of the information used in the layout document.
Vorgehend wurde das Erhalten von
Kandidaten und die nachfolgende Erzeugung eines Layout-Dokuments
für den
Kandidaten erläutert.
Wenn es nun beispielsweise gewünscht
wird, dass ein bestimmtes Stück
Information, nämlich
das Geburtsdatum, aus dem Dokument aus
Natürlich kann das Layout-Dokument auch direkt für alle Elemente eines Textdokuments erzeugt werden, und dann kann jedes Element basierend auf dem so generierten Layout-Dokument ausgewertet werden, ob es zu einer bestimmten gewünschten Kategorie gehört oder nicht. Die Verwendung einer Kandidatensuche vorher reduziert jedoch die Rechenkosten, die entstehen würden, wenn ein Layout-Dokument für jedes Element des Textdokuments erzeugt werden müsste.Of course, the layout document also directly for all elements of a text document can be generated, and then each element is evaluated based on the layout document generated in this way, whether it is to a certain desired Category belongs or not. The use of a candidate search was previously reduced however, the computing cost that would arise if a layout document for each Element of the text document would have to be generated.
Nachfolgend wird der Extraktionsprozess und der Trainingsprozess unter Verwendung einer Klassifiziervorrichtung im Detail beschrieben.The extraction process and the training process using a classifier described in detail.
Nachdem das Layout-Dokument erzeugt wurde, kann es zum Trainieren eines neuronalen Netzes oder irgendeiner anderen computerisierten Vorrichtung verwendet werden, das entscheiden kann, ob ein bestimmtes Dokument zu einer bestimmten Kategorie gehört oder einer Klasse oder nicht. Für diesen Zweck werden die Layout-Dokumente von Kandidaten in das neuronale Netz oder eine andere Entscheidungsvorrichtung (Klassifiziervorrichtung) eingegeben, und zwar zusammen mit der Information, ob das Layout-Dokument einem korrekten Kandidaten entspricht oder nicht, was bedeutet, ob der Kandidat den gewünschten Informationsinhalt aufweist oder nicht.After the layout document has been created, it can be used to train a neural network or any other other computerized device that can decide whether a certain document belongs to a certain category or a class or not. For This is the purpose of the candidate's layout documents in the neural Network or other decision device (classifying device) entered, together with the information whether the layout document corresponds to a correct candidate or not, which means whether the candidate the desired Has information content or not.
Ein Training eines solchen neuronalen
Netzes wird schematisch in
Ein elektronisches Dokument wird wie oben erläutert analysiert, um Elemente eines Textdokuments und ihre entsprechenden Positionen zu erhalten. Vorzugsweise wird dann ein textbasiertes Dokument, ein Arbeitsdokument erzeugt. Dann wird ein Filtern durchgeführt, um daraus einen Satz von Kandidaten zu erhalten, die möglicherweise mit einer bestimmten Kategorie übereinstimmen könnten. Vorzugsweise wird das erhaltene Set korrigiert, entweder basierend auf manueller Eingabe durch den Benutzer oder automatisch, z.B. durch Überprüfung, ob der erhaltene Kandidat eine Wahrscheinlichkeit einer Korrektheit jenseits eines bestimmten Schwellwerts aufweist. Für eine manuelle Korrektur in der Trainingsphase können die Kandidaten in dem Dokument gehighlighted werden und der Benutzer kann dann für einige oder alle von ihnen bestätigen, ob sie korrekte Kandidaten sind oder nicht. Die vorgenannte manuelle oder automatische Selektion von korrekten Resultaten führt dann zu einem Satz von korrekten Ergebnissen und zu einem Satz von falschen Ergebnissen. Für jedes der Elemente des Satzes der korrekten Ergebnisse und für jedes der Elemente des Satzes von falschen Ergebnissen werden dann Layout-Dokumente erzeugt. Danach werden die für den Satz von falschen Ergebnissen erzeugten Layout-Dokumente und die für den Satz von korrekten Ergebnissen erzeugten Layout-Dokumente verwendet, um das neuronale Netz zu trainieren. Wenn kein Kandidat erkannt wird, kann der Benutzer auch selbst einen Kandidaten auswählen, ihn highlighten (beispielsweise durch die Maus) und dann als Trainingsinput verwenden.An electronic document is analyzed as explained above to obtain elements of a text document and their corresponding positions. A text-based document, a working document, is then preferably generated. Filtering is then carried out in order to obtain a set of candidates who may have a be agreed category could match. The set obtained is preferably corrected, either based on manual input by the user or automatically, for example by checking whether the candidate received has a probability of being correct beyond a certain threshold value. For manual correction in the training phase, the candidates can be highlighted in the document and the user can then confirm for some or all of them whether they are correct candidates or not. The aforementioned manual or automatic selection of correct results then leads to a set of correct results and a set of incorrect results. Layout documents are then generated for each of the elements of the set of correct results and for each of the elements of the set of incorrect results. Thereafter, the layout documents created for the set of incorrect results and the layout documents generated for the set of correct results are used to train the neural network. If no candidate is recognized, the user can also select a candidate himself, highlight him (for example with the mouse) and then use it as a training input.
Ein Extraktionsprozess, er ein Netzwerk
verwendet, das wie in
Eine Ausgabe des Netzwerks kann in den korrekt extrahierten Kandidaten bestehen oder beispielsweise auch in einer Gewichtung, die die Wahrscheinlichkeit der Korrektheit für jeden Kandidaten gewichtet. Die extrahierten Kandidaten können auch direkt importiert oder exportiert in ein anderes elektronisches Dokument werden, wie etwa eine Datenbank, eine MS-Excel-Datei, eine Tabelle, ein Word-Dokument oder irgendein anderes Dokument, das für eine weitere elektronische Verarbeitung oder Ähnliches geeignet ist.An output of the network can be found in the correctly extracted candidate or, for example also in a weighting that indicates the likelihood of correctness for each Candidate weighted. The extracted candidates can also be used directly imports or exports to another electronic document like a database, an MS Excel file, a table, a word document or any other document that is for another electronic Processing or similar suitable is.
Der Extraktionsprozess, der die Identifikation der Kandidaten und die Erzeugung des Layout-Dokuments einschließt, kann wie oben im Detail beschrieben ausgeführt werden. Für alle gefundenen Kandidaten wird dann das entsprechende erzeugte Layout-Dokument in eine Klassifiziervorrichtung oder eine Entscheidungsvorrichtung eingegeben, die nicht notwendigerweise, wenn auch bevorzugt, ein neuronales Netzwerk ist, und dann wird für jeden Kandidaten eine Entscheidung getroffen, ob er zu der korrekten Kategorie gehört oder nicht.The extraction process that identifies the Includes candidates and the creation of the layout document as described in detail above. For everyone found The corresponding generated layout document then becomes a candidate into a classifying device or a decision device entered, which is not necessarily, although preferably, a neural network, and then a decision is made for each candidate hit whether it belongs to the correct category or not.
Eine besonders geeignete Vorrichtung zur Klassifizierung des erzeugten Layout-Dokuments dahingehend, ob es zu der gewünschten Kategorie gehört oder nicht, wird in der europäischen Patentanmeldung 99 108 354.4 beschrieben, deren ganzer Inhalt hiermit durch Bezugnahme in die vorliegende Anmeldung aufgenommen ist. Die darin beschriebene Vorrichtung ist in der Lage, Text-Dokumente durch ihre Repräsentation mittels Vektoren zu klassifizieren, wobei die Werte der Vektorkomponenten jeweils der Frequenz entsprechen, mit der ein bestimmtes Wort oder ein Term in dem Dokument auftaucht. Solch ein Vektor, der ein Dokument repräsentiert, spannt einen n-dimensionalen Vektorraum auf, und mehrere Dokumente zusammen spannen auch einen bestimmten Vektorraum auf. Die Klassifikation wird durchgeführt durch Berechnung einer Hyperebene, die den Vektorraum in mindestens zwei Subebenen aufteilt, wodurch eine Klassifikation in so viele Klassen, wie Unterräume vorliegen, durchgeführt werden kann. Ein Lern- oder Trainierprozess besteht in der Ausbildung des Vektorraums und der entsprechenden trennenden Hyperebene für einen Satz von Trainingsdokumenten. Ein unbekanntes Dokument kann dann klassifiziert werden, indem berechnet wird, ob der entsprechende Vektor in den einen oder anderen Unterraum fällt. Da mit dem vorgehend beschriebenen Verfahren es möglich ist, die Elemente eines Textdokuments durch ein Layout-Dokument zu repräsentieren, das Hinweise über ihre Umgebungsgebiete gibt, und da das Layout-Dokument selbst wiederum ein Textdokument ist, kann der in der vorgenannten europäischen Patentanmeldung beschriebene Klassifizierapparat für Klassifizierzwecke verwendet werden. Eine vorzugsweise Implementierung der Vorrichtung zur Klassifikation, die in der Patentanmeldung beschrieben ist, besteht in einem neuronalen Netz, wie etwa in einem Perceptron. Weitere Details, wie die Entscheidungsvorrichtung implementiert werden kann, können aus dieser Anmeldung entnommen werden und werden daher nicht weiter hier im Detail beschrieben.A particularly suitable device to classify the generated layout document according to whether it belongs to the desired Category belongs or not, is in the European Patent application 99 108 354.4, the entire content of which is hereby described is incorporated by reference into the present application. The device described therein is able to read text documents through its representation classified by means of vectors, the values of the vector components each correspond to the frequency with which a particular word or a term appears in the document. Such a vector, which is a document represents, spans an n-dimensional vector space, and several documents together also span a certain vector space. The classification is carried out by calculating a hyperplane that contains the vector space in at least splits two sub-levels, making one classification into so many Classes, like subspaces are available can be. A learning or training process consists of training of the vector space and the corresponding separating hyperplane for one Set of training documents. An unknown document can then can be classified by calculating whether the corresponding Vector falls into one or the other subspace. As with the previously described Procedure it possible is to represent the elements of a text document by a layout document, that hints about their surrounding areas there, and since the layout document itself in turn is a text document, can in the aforementioned European patent application described classification apparatus can be used for classification purposes. A preferred implementation of the classification device, which is described in the patent application consists of a neural Mesh, such as in a perceptron. More details like the decision device can be implemented are taken from this application and will therefore not continue described here in detail.
Es soll jedoch verstanden werden, dass irgendein anderes neuronales Netz oder ein anderes Computerverfahren oder eine Vorrichtung, die in der Lage ist, Dokumente dahingehend zu evaluieren (klassifizieren), ob sie zu einer bestimmten Kategorie gehören oder nicht, zum Training von Layout-Dokumenten und dann zum Treffen der Entscheidung, ob ein Kandidat (oder sein entsprechendes Layout-Dokument) als korrekt extrahiert anzusehen ist oder nicht, verwendet werden kann. Es soll ferner verstanden werden, dass auch irgendeine andere Layout-Dokument-Repräsentation in Verbindung mit der vorliegenden Erfindung verwendet werden kann, nicht nur die Layout-Dokumente, bei denen die Positionen durch Sign-Sequenzen repräsentiert werden. Es ist beispielsweise auch gut möglich, dass die Positionen durch absolute Zahlen kodiert werden, die die Positionen (Koordinaten) repräsentieren, oder durch Winkel und Entfernungen (Polarkoordinaten).However, it should be understood that any other neural network or computer method or a device capable of documents to evaluate (classify) whether they belong to a certain category or not, for training layout documents and then for meeting the Decide whether a candidate (or their corresponding layout document) is correct extracted or not, can be used. It should further understood that any other layout document representation cannot be used in connection with the present invention only the layout documents in which the positions are represented by sign sequences become. For example, it is also possible that the positions are encoded by absolute numbers that represent the positions (coordinates) represent, or by angles and distances (polar coordinates).
Es wird vom Fachmann verstanden,
dass die vorgenannte detaillierte Beschreibung lediglich ein exemplarisches
Ausführungsbeispiel
der vorliegenden Erfindung beschreibt, andere Ausführungsbeispiele
liegen ebenfalls im Können
des allgemeinen Wissens des Fachmanns. Es ist ferner sofort erkennbar
für den
Fachmann, dass das Verfahren der vorliegenden Erfindung durch irgendein
Computersystem, irgendeinen Allzweckcomputer oder durch irgendeine
Spezialhardware, die eine vor ne beschriebene Methode ausführt, implementiert
werden kann. Eine Vorrichtung gemäß der vorliegenden Erfindung
kann daher in irgendeinem Computersystem bestehen, das das Verfahren
der vorliegenden Erfindung ausführt,
wobei das Verfahren beispielsweise in einem Computersystem wie in
Soweit Vorrichtungskomponenten in der vorliegenden Beschreibung oder den angefügten Ansprüchen erwähnt sind, so können sie durch einen Computer realisiert werden, der ein Computerprogramm oder bestimmte Programmbefehle ausführt, oder sie können durch irgendeine Spezialhardware implementiert werden, die die Funktion dieser Komponente ausführt, wie etwa ein elektronischer Schaltkreis, ein Special-Purpose-Computer, oder Ähnliches.As far as device components in the present description or the appended claims, they can be realized by a computer that is a computer program or executes certain program instructions, or they can by any special hardware will be implemented that will function this component executes like an electronic circuit, a special purpose computer, or similar.
Weitere Modifikationen und Anwendungen der vorliegenden Erfindung werden für den Fachmann erkennbar, und es wird verstanden, dass die vorliegende Erfindung lediglich durch exemplarische Ausführungsbeispiele erläutert wurde, die nicht als limitierend für den Schutzbereich der vorliegenden Erfindung zu verstehen sind. Insbesondere soll verstanden werden, dass das Beispiel des Extrahierens eines Geburtsdatums lediglich ein exemplarisches Beispiel ist und die vorstehend erläuterte Methode zur Extraktion irgendwelcher Informationselemente aus einem Textdokument verwendet werden kann, die zu einer bestimmten Kategorie gehören, wie sofort von dem Fachmann erkannt wird.Further modifications and applications of the present invention are for recognizable to those skilled in the art, and it is understood that the present Invention was only explained by exemplary embodiments, which are not as limiting for the scope of the present invention should be understood. In particular, it should be understood that the example of extracting a Date of birth is just an example and that explained above Method for extracting any information elements from a Text document can be used that belongs to a certain category belong, as is immediately recognized by the specialist.
Claims (24)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP00103810A EP1128278B1 (en) | 2000-02-23 | 2000-02-23 | Method and apparatus for processing electronic documents |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE60005293D1 DE60005293D1 (en) | 2003-10-23 |
| DE60005293T2 true DE60005293T2 (en) | 2004-07-01 |
Family
ID=8167944
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE60005293T Expired - Lifetime DE60005293T2 (en) | 2000-02-23 | 2000-02-23 | Method and device for processing electronic documents |
Country Status (8)
| Country | Link |
|---|---|
| US (1) | US20080040660A1 (en) |
| EP (2) | EP1128278B1 (en) |
| JP (1) | JP4782346B2 (en) |
| AU (3) | AU2001233736A1 (en) |
| CA (1) | CA2401172C (en) |
| DE (1) | DE60005293T2 (en) |
| ES (1) | ES2208164T3 (en) |
| WO (1) | WO2001063467A1 (en) |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
| EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| ATE537507T1 (en) * | 2001-08-27 | 2011-12-15 | Bdgb Entpr Software Sarl | METHOD FOR AUTOMATICALLY INDEXING DOCUMENTS |
| AU2012258320B2 (en) * | 2001-08-27 | 2016-01-14 | Kofax International Switzerland Sàrl | A method for automatically indexing documents |
| DE102004062784A1 (en) | 2004-12-21 | 2006-07-20 | Hiflex Software Gmbh | Method for triggering a cost posting |
| US7853595B2 (en) | 2007-01-30 | 2010-12-14 | The Boeing Company | Method and apparatus for creating a tool for generating an index for a document |
| US8094976B2 (en) | 2007-10-03 | 2012-01-10 | Esker, Inc. | One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data |
| US8108764B2 (en) | 2007-10-03 | 2012-01-31 | Esker, Inc. | Document recognition using static and variable strings to create a document signature |
| JP5412903B2 (en) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | Document image processing apparatus, document image processing method, and document image processing program |
| US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
| US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
| US8321357B2 (en) | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
| US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
| JP5387378B2 (en) * | 2009-12-15 | 2014-01-15 | 富士通株式会社 | Character identification device and character identification method |
| US9002102B2 (en) * | 2012-12-21 | 2015-04-07 | Hewlett-Packard Development Company, L.P. | Generating training documents |
| US9213893B2 (en) * | 2013-05-23 | 2015-12-15 | Intuit Inc. | Extracting data from semi-structured electronic documents |
| US10482323B2 (en) * | 2017-08-22 | 2019-11-19 | Autonom8, Inc. | System and method for semantic textual information recognition |
Family Cites Families (103)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4731861A (en) * | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
| JPS61217863A (en) * | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | electronic dictionary |
| US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
| EP0320266A3 (en) * | 1987-12-11 | 1992-03-11 | Hewlett-Packard Company | View composition in a data base management system |
| US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
| US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
| US5344132A (en) * | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
| FR2660085A1 (en) * | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | DATA PROCESSING DEVICE AND METHOD FOR SELECTING DATA WORDS CONTAINED IN A DICTIONARY. |
| JP3329806B2 (en) * | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | Neural network construction device |
| US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
| CA2077274C (en) * | 1991-11-19 | 1997-07-15 | M. Margaret Withgott | Method and apparatus for summarizing a document without document image decoding |
| JP2579397B2 (en) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | Method and apparatus for creating layout model of document image |
| US5245672A (en) * | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
| US5434953A (en) * | 1992-03-20 | 1995-07-18 | Xerox Corporation | Use of fast textured reduction for discrimination of document image components |
| US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
| US5491758A (en) * | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
| US5649068A (en) * | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
| GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
| US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
| US5537491A (en) * | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
| US5742806A (en) * | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
| NZ248751A (en) * | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
| US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
| JP2618832B2 (en) * | 1994-06-16 | 1997-06-11 | 日本アイ・ビー・エム株式会社 | Method and system for analyzing logical structure of document |
| US5574802A (en) * | 1994-09-30 | 1996-11-12 | Xerox Corporation | Method and apparatus for document element classification by analysis of major white region geometry |
| US5689620A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
| US5956419A (en) * | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
| US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
| US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
| US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
| US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
| US5889886A (en) * | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
| US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
| US5864855A (en) * | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
| JP2987099B2 (en) * | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | Document creation support system and term dictionary |
| US5787201A (en) * | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
| US5937084A (en) * | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
| US5835638A (en) * | 1996-05-30 | 1998-11-10 | Xerox Corporation | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols |
| US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
| US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
| DE19627472A1 (en) * | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Database system |
| US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
| US5745889A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
| WO1998012616A2 (en) * | 1996-09-23 | 1998-03-26 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
| US6275610B1 (en) * | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
| US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
| JPH10240958A (en) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | Management information extraction apparatus and method for extracting management information from images |
| US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
| US6353840B2 (en) * | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
| US6665841B1 (en) * | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
| US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
| US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
| US6115708A (en) * | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
| JP3422924B2 (en) * | 1998-03-27 | 2003-07-07 | 富士通株式会社 | CHARACTER RECOGNITION DEVICE, CHARACTER RECOGNITION METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD |
| US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
| US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
| US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
| US6324551B1 (en) * | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
| US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
| US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
| US6622134B1 (en) * | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
| US6661908B1 (en) * | 1999-01-13 | 2003-12-09 | Computer Associates Think, Inc. | Signature recognition system and method |
| US6477551B1 (en) * | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
| EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
| US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
| US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
| US6501855B1 (en) * | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
| US6785810B1 (en) * | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
| US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
| US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
| US6188010B1 (en) * | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
| DE19952769B4 (en) * | 1999-11-02 | 2008-07-17 | Sap Ag | Search engine and method for retrieving information using natural language queries |
| US6694053B1 (en) * | 1999-12-02 | 2004-02-17 | Hewlett-Packard Development, L.P. | Method and apparatus for performing document structure analysis |
| US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
| AU2001243459A1 (en) * | 2000-03-09 | 2001-09-17 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies |
| US6741724B1 (en) * | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
| US20070033252A1 (en) * | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
| JP2001318948A (en) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | Document search method and apparatus, and medium storing processing program therefor |
| AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
| US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
| US6944340B1 (en) * | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
| EP1182577A1 (en) * | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
| US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
| US20020156816A1 (en) * | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
| US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
| ATE537507T1 (en) * | 2001-08-27 | 2011-12-15 | Bdgb Entpr Software Sarl | METHOD FOR AUTOMATICALLY INDEXING DOCUMENTS |
| JP4006239B2 (en) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | Document search method and search system |
| JP4366108B2 (en) * | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | Document search apparatus, document search method, and computer program |
| JP2005043977A (en) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | Method and apparatus for calculating similarity between documents |
| US7805446B2 (en) * | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
| US8570586B2 (en) * | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
| US7472121B2 (en) * | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
| US8090743B2 (en) * | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
| WO2007149004A1 (en) * | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
| US7945627B1 (en) * | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
| US7610281B2 (en) * | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
| US7720721B1 (en) * | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
| WO2008097194A1 (en) * | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
| US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
| US20080212877A1 (en) * | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
| US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
| US20090198677A1 (en) * | 2008-02-05 | 2009-08-06 | Nuix Pty.Ltd. | Document Comparison Method And Apparatus |
| JP4538507B2 (en) * | 2008-05-02 | 2010-09-08 | シャープ株式会社 | Image collation method, image collation apparatus, image data output processing apparatus, program, and storage medium |
-
2000
- 2000-02-23 EP EP00103810A patent/EP1128278B1/en not_active Expired - Lifetime
- 2000-02-23 DE DE60005293T patent/DE60005293T2/en not_active Expired - Lifetime
- 2000-02-23 ES ES00103810T patent/ES2208164T3/en not_active Expired - Lifetime
-
2001
- 2001-02-02 WO PCT/EP2001/001132 patent/WO2001063467A1/en not_active Ceased
- 2001-02-02 US US10/204,756 patent/US20080040660A1/en not_active Abandoned
- 2001-02-02 EP EP01905729A patent/EP1259903A1/en not_active Withdrawn
- 2001-02-02 JP JP2001562361A patent/JP4782346B2/en not_active Expired - Lifetime
- 2001-02-02 CA CA2401172A patent/CA2401172C/en not_active Expired - Lifetime
- 2001-02-02 AU AU2001233736A patent/AU2001233736A1/en not_active Abandoned
-
2007
- 2007-05-25 AU AU2007202382A patent/AU2007202382B2/en not_active Expired
-
2009
- 2009-08-14 AU AU2009208162A patent/AU2009208162A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| AU2007202382B2 (en) | 2009-06-04 |
| WO2001063467A1 (en) | 2001-08-30 |
| ES2208164T3 (en) | 2004-06-16 |
| CA2401172C (en) | 2012-01-24 |
| JP4782346B2 (en) | 2011-09-28 |
| DE60005293D1 (en) | 2003-10-23 |
| AU2001233736A1 (en) | 2001-09-03 |
| EP1259903A1 (en) | 2002-11-27 |
| EP1128278B1 (en) | 2003-09-17 |
| JP2003524258A (en) | 2003-08-12 |
| US20080040660A1 (en) | 2008-02-14 |
| EP1128278A1 (en) | 2001-08-29 |
| CA2401172A1 (en) | 2001-08-30 |
| AU2007202382A1 (en) | 2007-06-14 |
| AU2009208162A1 (en) | 2009-09-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE60005293T2 (en) | Method and device for processing electronic documents | |
| DE69528023T2 (en) | System and method for automatic interpretation of input printouts using new a posteriori probability mass and optimally trained data processing networks | |
| DE69724755T2 (en) | Finding titles and photos in scanned document images | |
| DE69033079T2 (en) | Editing text in an image | |
| DE69610243T2 (en) | Method for training an identification system with character patterns | |
| DE69730930T2 (en) | Method and device for character recognition | |
| DE3650554T2 (en) | Storage and retrieval procedures for image data | |
| DE69523970T2 (en) | Document storage and retrieval system | |
| EP1665132B1 (en) | Method and system for collecting data from a plurality of machine readable documents | |
| DE60208223T2 (en) | ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL | |
| DE60217299T2 (en) | HOLISTIC-ANALYTICAL DETECTION OF HAND-WRITTEN TEXT | |
| DE69229537T2 (en) | Document processing method and apparatus | |
| DE69426479T2 (en) | Optical multi-font character recognition with a connection box approach | |
| DE19953608B4 (en) | Apparatus and method for recognizing a font of a text in a document processing system | |
| DE102011079443A1 (en) | Learning weights of typed font fonts in handwriting keyword retrieval | |
| DE69226609T2 (en) | Method and device for document image processing | |
| DE69421117T2 (en) | Device for image information processing and reproduction | |
| DE102011005579A1 (en) | Image processing apparatus, image processing method and storage medium | |
| DE102005032744A1 (en) | Index extraction of documents | |
| DE69616246T2 (en) | Automatic procedure for identifying omission words in the image of a document without using the OCR | |
| DE3716787A1 (en) | CHARACTER RECOGNITION METHOD | |
| DE102021209171A1 (en) | SYSTEM FOR CHOOSING A LEARNING MODEL | |
| DE10317917A1 (en) | System and method for delimiting and classifying regions within a graphic image | |
| DE102007052622A1 (en) | Method for image analysis, in particular for a mobile radio device | |
| DE4119091A1 (en) | Recognising row of characters e.g. for speech analysis - processing optically scanned data on basis of probability value |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8328 | Change in the person/name/address of the agent |
Representative=s name: WEICKMANN & WEICKMANN, 81679 MUENCHEN |