DE102023127343A1 - Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods - Google Patents
Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods Download PDFInfo
- Publication number
- DE102023127343A1 DE102023127343A1 DE102023127343.4A DE102023127343A DE102023127343A1 DE 102023127343 A1 DE102023127343 A1 DE 102023127343A1 DE 102023127343 A DE102023127343 A DE 102023127343A DE 102023127343 A1 DE102023127343 A1 DE 102023127343A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- features
- document
- feature
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/168—Smoothing or thinning of the pattern; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
Die Erfindung betrifft Verfahren und eine Vorrichtung, die die Teil- oder vollautomatische Verarbeitung von Dokumenten erlauben, selbst wenn diese geknickt oder gefaltet waren und somit nicht mehr glatt sind. Abtastbilder, die durch Abtasten der Dokumente erzeugt werden, können automatisch Dokumentenklassen zugeordnet werden und dementsprechend klassenspezifisch verarbeitet und insbesondere ausgelesen werden. Dies erlaubt insbesondere die Verarbeitung von maschinengedruckten Dokumenten, in welche Personen handschriftlichen Text eingefügt haben. The invention relates to methods and a device that allow the partially or fully automatic processing of documents, even if they were bent or folded and are therefore no longer smooth. Scanned images generated by scanning the documents can be automatically assigned to document classes and processed and, in particular, read out accordingly in a class-specific manner. This allows, in particular, the processing of machine-printed documents into which people have inserted handwritten text.
Description
Die Erfindung betrifft ein Verfahren zum Erstellen einer Datenbank für Dokumentenklassen und ein Verfahren zum Abtasten und Verarbeiten eines Dokumentes sowie eine Vorrichtung zum Ausführen dieser Verfahren.The invention relates to a method for creating a database for document classes and a method for scanning and processing a document as well as a device for carrying out these methods.
Es gibt Verfahren zum Erkennen ähnlicher Bilder auf Basis von Merkmalen. Es sind sogenannte „Content Based Image Retrieval (CBIR)“ - Systeme bekannt, die ähnliche Bilder in großen Bilddatenbanken finden. Solche CBIR-Verfahren gehen beispielsweise aus
Verfahren zum Entzerren von Bildern verwenden manchmal eine Merkmals-Zuordnung (englisch: Feature Matching). Bei einer Merkmals-Zuordnung werden grundsätzlich Merkmale in zwei Bildern, welche einen zumindest bereichsweise gleichen Inhalt zeigen sollen, extrahiert und einander zugeordnet. Ist eines der beiden Bilder ein Referenzbild, dann können aufgrund dieser Zuordnung der Merkmale die Bildpunkte des Bildes, das nicht das Referenzbild ist, derart verschoben werden, dass sie genauso oder in einer ähnliche Anordnung wie im Referenzbild angeordnet sind. Ist das Referenzbild nicht verzerrt, dann ist nach dieser Verschiebung der Bildpunkte das Nicht-Referenzbild entzerrt. Das Zuordnen von Merkmalen geht beispielsweise aus R. C. Gonzalez „Digital Image Processing“, 4. Ausgabe Pearson, Seite 915, 916 hervor.Methods for correcting image distortion sometimes use feature matching. In feature matching, features are extracted from two images that are intended to show at least some of the same content and then matched to one another. If one of the two images is a reference image, then based on this match of features, the pixels of the image that is not the reference image can be shifted so that they are arranged in the same way or in a similar order to that in the reference image. If the reference image is not distorted, then after this shift of the pixels the non-reference image is corrected. The matching of features is described, for example, in R. C. Gonzalez "Digital Image Processing", 4th edition Pearson, pages 915, 916.
Eine solche Merkmals-Zuordnung kann in der Bildverarbeitung für unterschiedlichste Anwendungen eingesetzt werden. Eine Sie kann zum Beispiel zum Bilder-Stitching oder zum Stabilisieren von Videosignalen verwendet werden. Sie kann auch verwendet werden, um bestimmte Objekte in einem Videosignal zu verfolgen oder 3D-Modelle aus mehreren Bildern zu erzeugen. Beim Entzerren eines Eingangsbildes bezüglich eines Referenzbildes werden aus den paarweise zugeordneten Merkmalen Bestimmlokale Verschiebungen bestimmt, welche sowohl lineare Verschiebungen als auch Rotationen umfassen können. Diese Verschiebungen werden über den gesamten Bildbereich interpoliert, sodass ein „dichtes Verschiebungsfeld“ für jeden Bildpunkt entsteht, wie es beispielsweise in Lee Seungyong, Georg Wolberg and Sung Yong Shin „Scattered Data Interpolation with Multilevel B-Splines" IEEE Transactions on Visualisation and Computer Graphics 3.3 (1997); Seiten 228 bis 244 beschrieben ist.Such feature mapping can be used for a wide variety of applications in image processing. For example, it can be used for image stitching or for stabilizing video signals. It can also be used to track specific objects in a video signal or to generate 3D models from multiple images. When rectifying an input image with respect to a reference image, local displacements are determined from the paired features, which can include both linear displacements and rotations. These displacements are interpolated across the entire image domain, creating a "dense displacement field" for each pixel, as described, for example, in Lee Seungyong, Georg Wolberg, and Sung Yong Shin, "Scattered Data Interpolation with Multilevel B-Splines," IEEE Transactions on Visualization and Computer Graphics 3.3 (1997), pages 228 to 244.
Aus der
Es gibt noch weitere Typen von Merkmalen, wie zum Beispiel ORB-Merkmale oder SURF-Merkmale (
Aus der
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Erstellen einer Datenbank für Dokumentenklassen, ein Verfahren zum Abtasten und Verarbeiten eines Dokumentes sowie eine Vorrichtung zum Ausführen dieser Verfahren zu schaffen, mit welcher eine zuverlässige Zuordnung von optisch abgetasteten Dokumenten zu entsprechenden Dokumentenklassen möglich ist. Insbesondere soll die Zuordnung möglichst eindeutig sein. Die Vorrichtung soll auch einfach bedienbar sein.The present invention is based on the object of creating a method for creating a database for document classes, a method for scanning and processing a document and a device for carrying out these methods, with which a reliable assignment It is possible to assign optically scanned documents to corresponding document classes. In particular, the assignment should be as clear as possible. The device should also be easy to use.
Nach einem ersten Aspekt betrifft die vorliegende Erfindung ein Verfahren zum Erstellen einer Datenbank für Dokumentenklassen, wobei eine jede Dokumentenklasse durch mehrere Merkmale definiert ist. Bei diesem Verfahren werden mehrere Exemplare eines zu klassifizierenden Dokumententyps mit einer Abtastvorrichtung abgetastet, wobei von jedem Exemplar des Dokumententyps (= Dokument) ein Abtastbild erzeugt wird. Jedes Abtastbild wird zu einem digitalen Referenzbild des zu klassifizierenden Dokumententyps ausgerichtet. Die derart ausgerichteten Abtastbilder werden einander überlagert, wobei die einzelnen Bildpunkte gemittelt werden, sodass ein Prototypbild erzeugt wird. Aus dem Prototypbild werden erneut Merkmale bestimmt, welche in der Datenbank als die die Dokumentenklasse definierenden Datenbankmerkmale eingetragen werden.According to a first aspect, the present invention relates to a method for creating a database for document classes, wherein each document class is defined by a plurality of features. In this method, a plurality of copies of a document type to be classified are scanned with a scanning device, wherein a scan image is generated for each copy of the document type (= document). Each scan image is aligned with a digital reference image of the document type to be classified. The scan images aligned in this way are superimposed on one another, wherein the individual pixels are averaged, thus generating a prototype image. From the prototype image, features are again determined, which are entered in the database as the database features defining the document class.
Mit dem Verfahren werden mehrere Exemplare eines Dokumententyps, also mehrere Dokumente, abgetastet und die hierdurch erzeugten Abtastbilder werden zueinander ausgerichtet, überlagert und gemittelt. Hierdurch ergibt sich ein Prototypbild, das prototypisch für den Dokumententyp ist. Da das Prototypbild durch optisches Abtasten mit einer Abtastvorrichtung erzeugt worden ist, gibt das Prototypbild den Dokumententyp so wieder, wie er von der Abtastvorrichtung wahrgenommen wird. Mit anderen Worten bedeutet dies, dass das Prototypbild auch durch das Abtastverfahren und die Abtastvorrichtung bedingte Eigenschaften aufweist und so nicht exakt mit dem digitalen Referenzbild übereinstimmen muss. Ein solches Prototypbild ist einem mit der Abtastvorrichtung abgetasteten Bild eines solchen Dokuments damit ähnlicher als das digitale Referenzbild. Die aus dem Prototypbild extrahierten Merkmale sind somit für die Abtastbilder, die mit der Abtastvorrichtung von diesen Dokumenten erzeugt werden, spezifischer als die entsprechenden Merkmale, welche alleine aus dem digitalen Referenzbild erzeugt werden. Hierdurch wird eine Datenbank gebildet, die die einzelnen Dokumentklassen sehr zuverlässig mit Datenbankmerkmalen definiert.The method involves scanning multiple copies of a document type, i.e., multiple documents, and aligning, superimposing, and average the resulting scanned images. This produces a prototype image that is prototypical for the document type. Since the prototype image was generated by optical scanning with a scanning device, the prototype image reproduces the document type as perceived by the scanning device. In other words, this means that the prototype image also exhibits properties determined by the scanning method and the scanning device and thus does not have to exactly match the digital reference image. Such a prototype image is therefore more similar to an image of such a document scanned with the scanning device than to the digital reference image. The features extracted from the prototype image are therefore more specific to the scanned images generated from these documents with the scanning device than the corresponding features generated from the digital reference image alone. This creates a database that very reliably defines the individual document classes using database features.
Möchte man Dokumente automatisch bearbeiten, dann sollten die Dokumente eindeutig einer Dokumentenklasse zugeordnet werden können, denn nur so ist sichergestellt, dass der Inhalt der Dokumente zuverlässig und korrekt automatisch extrahiert werden kann. Der Zweck einer Datenbank für Dokumentenklassen ist es, Dokumente zu identifizieren und der Dokumentenklasse zuzuordnen. Zu den einzelnen Dokumentenklassen können weitere Informationen vorliegen, welche das Extrahieren der in den Dokumente enthaltenen Informationen erleichtern. Diese weiteren Informationen beschreiben z.B. Felder mit Ankreuzkästchen, Felder mit maschinenlesbaren Texten oder Zahlen. Dies funktioniert jedoch nur zuverlässig, wenn ein bestimmtes Dokument korrekt einer Dokumentenklasse zugeordnet wird. Bei einer Fehlzuordnung würden Anweisungen zum Extrahieren aus einer nicht korrekten Dokumentenklasse verwendet werden, welche dann für das jeweilige Dokument nicht geeignet sind. Die vom Prototypbild abgeleiteten Merkmale erlauben eine solche eindeutige Zuordnung eines Dokumentes zu einer bestimmten Dokumentenklasse.If you want to process documents automatically, then the documents should be clearly assigned to a document class, as this is the only way to ensure that the document content can be reliably and correctly extracted automatically. The purpose of a database for document classes is to identify documents and assign them to the document class. Additional information may be available for the individual document classes, which makes it easier to extract the information contained in the documents. This additional information describes, for example, fields with checkboxes, fields with machine-readable text or numbers. However, this only works reliably if a specific document is correctly assigned to a document class. In the event of an incorrect assignment, instructions for extracting from an incorrect document class would be used, which would then be unsuitable for the respective document. The features derived from the prototype image allow such a clear assignment of a document to a specific document class.
Vorzugsweise wird zum Erstellen einer bestimmten Datenbankjeweils ein Typ von Abtastvorrichtung oder eine einzige bestimmte Abtastvorrichtung verwendet. Hierdurch sind die Datenbankmerkmale spezifisch für den Typ von Abtastvorrichtung bzw. für die einzige bestimmte Abtastvorrichtung. Abtastvorrichtungen zum optischen Abtasten von Dokumenten können sich erheblich unterscheiden, sodass entsprechend unterschiedliche Abtastbilder hierdurch erzeugt werden, selbst wenn das gleiche Dokument mit unterschiedlichen Abtastvorrichtungen abgetastet wird. Die Unterschiede können in der Farb- bzw. Helligkeitsempfindlichkeit und in der Schärfe, mit welcher die einzelnen Bildpunkt erfasst werden liegen. Bei Verwendung eines einzigen Typs von Abtastvorrichtung oder Verwendung einer einzigen bestimmten Abtastvorrichtung werden solche Abweichungen reduziert bzw. ausgeschlossen und die Dokumente können zuverlässig erfasst werden.Preferably, one type of scanning device or a single specific scanning device is used to create a specific database. This means that the database characteristics are specific to the type of scanning device or to the single specific scanning device. Scanning devices for optically scanning documents can differ considerably, so that correspondingly different scanned images are produced, even if the same document is scanned with different scanning devices. The differences can lie in the color or brightness sensitivity and in the sharpness with which the individual pixels are captured. By using a single type of scanning device or a single specific scanning device, such deviations are reduced or eliminated and the documents can be captured reliably.
Das Ausrichten eines jeden Abtastbildes kann mittels einer Merkmalszuordnung oder mittels anderer Verfahren, wie zum Beispiel einem Verfahren nach dem optischen Fluss (englisch: Optical Flow) ausgeführt werden Dadurch, dass die einzelnen Abtastbilder zum digitalen Referenzbild ausgerichtet werden, können sie grundsätzlich in einer beliebigen Position in der Abtastvorrichtung angeordnet sein. Durch das automatische Ausrichten werden die Abtastbilder in Deckung mit dem digitalen Referenzbild gebracht. Das Ausrichten mittels einer Merkmalszuordnung erlaubt eine sehr präzise Ausrichtung der Abtastbilder zum digitalen Referenzbild.The alignment of each scanned image can be performed using feature mapping or other methods, such as an optical flow method. Because the individual scanned images are aligned to the digital reference image, they can essentially be arranged in any position within the scanning device. Automatic alignment brings the scanned images into register with the digital reference image. Alignment using feature mapping allows for very precise alignment of the scanned images to the digital reference image.
Die Datenbankmerkmale können jeweils einen Merkmalsvektor, der das jeweilige Merkmal beschreibt, und Koordinaten umfassen, die den Ort des jeweiligen Merkmals definieren, wobei der Merkmalsvektor aus dem Prototypbild und die entsprechenden Koordinaten aus dem Referenzbild gewonnen werden. Dadurch, dass die Merkmale aus dem Prototypbild gewonnen werden, beschreiben sie die einzelnen Merkmale, wie sie die jeweilige Abtastvorrichtung erkennt bzw. sieht. Durch die Zuordnung der Koordinaten aus dem Referenzbild zu den jeweiligen Merkmalen werden hingegen die exakten Koordinaten des Referenzbildes verwendet, da die entsprechenden Koordinaten der Merkmale im Prototypbild aufgrund der Mittelung der Vielzahl von Bildern etwas verschwommen bzw. unpräzise sein können. Hierdurch wird eine optimale Kombination an Information in den Merkmalen erhalten, wodurch die Qualität der Merkmale sehr hoch ist.The database features can each comprise a feature vector describing the respective feature and coordinates defining the location of the respective feature, with the feature vector being obtained from the prototype image and the corresponding coordinates from the reference image. By obtaining the features from the prototype image, they describe the individual features as they are recognized or seen by the respective scanning device. By assigning the However, the exact coordinates of the reference image are used to determine the coordinates of the respective features, since the corresponding coordinates of the features in the prototype image may be somewhat blurred or imprecise due to the averaging of the multiple images. This results in an optimal combination of information in the features, resulting in a very high quality of the features.
Bei der Mittelung der Bildpunkte der mehreren zu dem Referenzbild ausgerichteten Abtastbilder werden die Bildpunkte der überlagerten Abtastbilder mit den gleichen Koordinaten gemittelt. Mit dem Ausdruck „Mittelung der Bildpunkte“ ist gemeint, dass Farbwerte und/oder Helligkeitswerte der jeweiligen Bildpunkte einer Mittelung unterzogen werden. Die Mittelung kann mittels einer gleichgewichteten Mittelung aller Bildpunkte, die dieselben Koordinaten aufweisen, ausgeführt werden. Die einzelnen Bildpunkte können auch unterschiedlich gewichtet sein. So kann es bspw. zweckmäßig sein, wenn die Verteilung der Farbwerte und/oder Helligkeitswerte der Bildpunkte analysisiert wird und Werte, die stark vom Mittelwert abweichen, ausgeschlossen werden.. Die Mittelung kann auch durch Bestimmung eines Medianwertes der Bildpunkte mit den gleichen Koordinaten in den überlagerten Abtastbildern erfolgen.When averaging the pixels of the multiple scans aligned to the reference image, the pixels of the superimposed scans with the same coordinates are averaged. The term "pixel averaging" means that the color values and/or brightness values of the respective pixels are averaged. Averaging can be carried out by equally weighting all pixels that have the same coordinates. The individual pixels can also be weighted differently. For example, it can be useful to analyze the distribution of the color values and/or brightness values of the pixels and exclude values that deviate significantly from the mean. Averaging can also be carried out by determining a median value for the pixels with the same coordinates in the superimposed scans.
Vorzugsweise werden bestimmte vorab definierte Bereiche der ausgerichteten Abtastbilder nicht berücksichtigt. Dies sind vor allem Bereiche mit in den jeweiligen Exemplaren des Dokumententyps unterschiedlichem Inhalt. Typische Beispiele für solche Bereiche sind Felder, in welche Nutzer des Dokuments bestimmte individuelle Informationen, wie zum Beispiel ihren Namen oder ihre Adresse einfügen sollen. Die Schriftzeichen, die diese Informationen darstellen, unterscheiden sich von Dokument zu Dokument. Es macht wenig Sinn, diese Schriftzeichen als ein die Dokumentklasse klassifizierendes Merkmal zu verwenden. Dieses Nicht-Berücksichtigen bedeutet, dass zumindest in diesen Bereichen keine Merkmale extrahiert werden.Preferably, certain predefined areas of the aligned scan images are excluded. These are primarily areas with different content in the respective copies of the document type. Typical examples of such areas are fields in which document users are asked to enter certain individual information, such as their name or address. The characters that represent this information differ from document to document. It makes little sense to use these characters as a feature classifying the document class. This exclusion means that, at least in these areas, no features are extracted.
Bestimmten vorab definierten Bereichen können Bedeutungen zugeordnet sein. Diese Bedeutungen können in einer Datenbank hinterlegt sein und beim Auswerten des Inhalts des Dokumentes verwendet werden, indem den in diesen Bereichen enthaltene Information die jeweilige Bedeutung zugeordnet wird oder diese Information im Wissen deren Bedeutung ausgewertet wird.Meanings can be assigned to certain predefined areas. These meanings can be stored in a database and used when evaluating the content of the document by assigning the respective meaning to the information contained in these areas or by evaluating this information with knowledge of its meaning.
Die „bestimmten Bereiche“ die nicht berücksichtigt werden und denen bestimmte Bedeutungen zugeordnet werden, können die selben Bereiche sein. Sie können sich aber auch unterscheiden oder nur zum Teil die selben Bereiche sein.The "specific areas" that are not considered and to which specific meanings are assigned may be the same areas. But they may also be different or only partially the same areas.
Die Nicht-Berücksichtigung dieser Bereiche kann bereits vor der Überlagerung z.B. durch Ausschneiden der entsprechenden Bereiche in den noch nicht ausgerichteten Abtastbildern erfolgen. Genauso ist es möglich, diese Bereiche erst dann auszuschneiden, wenn die einzelnen Abtastbilder einander überlagert sind. Das „Ausschneiden“ dieser Bereiche erfolgt beispielsweise durch Zuordnen eines vorbestimmten Farbwertes zu diesen Bildpunkten, wie zum Beispiel eines Farbwertes, der die Farbe Weiß, oder eines Farbwertes, der die Farbe Schwarz darstellt.These areas can be excluded before the overlay, for example, by cutting out the corresponding areas in the not-yet-aligned scan images. It is also possible to cut out these areas only once the individual scan images are superimposed. These areas can be "cut out," for example, by assigning a predetermined color value to these pixels, such as a color value representing the color white or a color value representing the color black.
Zum Ausrichten der Abtastbilder zu dem digitalen Referenzbild können folgende Schritte jeweils ausgeführt werden:
- - Entzerren und Ausrichten des jeweiligen Abtastbildes mittels einer Merkmalszuordnung (= erste Merkmalszuordnung), wobei Merkmale des Abtastbildes, welche jeweils einen Merkmalsvektor umfassen, zu korrespondierenden Merkmalen des Referenzbildes des Dokuments zugeordnet werden und entsprechend dieser Merkmalszuordnung eine Homographie-Matrix ermittelt wird, mit der alle Bildpunkte des jeweiligen Abtastbildes zur Ausbildung eines Homographie-Bildes abgebildet werden,
- - Hinzufügen der Koordinaten der Merkmale im Homographie-Bild zu den jeweiligen Merkmalsvektoren und
- - Hinzufügen der Koordinaten der Merkmale im Referenzbild zu den jeweiligen Merkmalsvektoren und,
- - erneutes Zuordnen der Merkmale des Homographie-Bildes zu korrespondierenden Merkmalen des Referenzbildes des Dokuments (= zweite Merkmalszuordnung), wobei bei der Zuordnung die den Merkmalsvektoren zugeordneten Koordinaten berücksichtigt werden,
- - Entzerren des Homographie-Bildes nach Maßgabe der Zuordnung der Merkmale des Homographie-Bildes zu den Merkmalen des Referenzbildes.
- - Rectifying and aligning the respective scanned image by means of a feature assignment (= first feature assignment), whereby features of the scanned image, each comprising a feature vector, are assigned to corresponding features of the reference image of the document and, in accordance with this feature assignment, a homography matrix is determined with which all pixels of the respective scanned image are mapped to form a homography image,
- - Adding the coordinates of the features in the homography image to the respective feature vectors and
- - Adding the coordinates of the features in the reference image to the respective feature vectors and,
- - re-assigning the features of the homography image to corresponding features of the reference image of the document (= second feature assignment), whereby the coordinates assigned to the feature vectors are taken into account during the assignment,
- - Rectification of the homography image according to the assignment of the features of the homography image to the features of the reference image.
Die aufgrund der ersten Merkmalszuordnung erzeugte Homographie-Matrix erlaubt eine globale perspektivische Verzerrungskorrektur. Das Abtastbild wird mittels der Homographie-Matrix durch Rotation, Translation und einer globalen perspektivischen Entzerrung korrigiert. Hierdurch kann das Dokument an sich beliebig bezüglich der optischen Abtastvorrichtung, mit welcher das optische Abtasten ausgeführt wird, angeordnet werden. Durch die Homographie-Abbildung wird das Abtastbild soweit gedreht und verschoben, dass es bezüglich der Ausrichtung im Wesentlichen mit der Ausrichtung des digitalen Referenzbildes übereinstimmt. Im Homographie-Bild sind Verzerrungen, welche lokal unterschiedlich ausgeprägt sind, wie sie beispielsweise durch Knicken und Falten des Dokuments entstehen, nicht korrigiert. Eine solche Homographie-Abbildung erlaubt keine Korrektur von lokal unterschiedlichen Verzerrungen.The homography matrix generated from the first feature assignment allows for global perspective distortion correction. The scanned image is corrected using the homography matrix through rotation, translation, and global perspective distortion correction. This allows the document to be positioned arbitrarily with respect to the optical scanning device used for optical scanning. Homography mapping rotates and shifts the scanned image until its orientation essentially matches that of the digital reference image. Distortions that vary locally are included in the homography image. pronounced distortions, such as those caused by bending and folding of the document, are not corrected. Such homography mapping does not allow for the correction of locally varying distortions.
Bei der zweiten Merkmalszuordnung durch die Zuordnung der Merkmale des Homographie-Bildes zu den Merkmalen des Referenzbildes werden sowohl die Koordinaten der Merkmale des Homographie-Bildes als auch die Koordinaten der Merkmale des Referenzbildes mit berücksichtigt. Bei einer solchen Zuordnung wird der Abstand der entsprechenden Merkmalsvektoren bestimmt. Je geringer der Abstand ist, desto besser gilt die Zuordnung. Als Merkmalspaare der Merkmale des Homographie-Bildes und der Merkmale des Referenzbildes werden somit diejenigen Merkmalspaare ausgewählt, die den geringsten Abstand besitzen. Durch Berücksichtigung der Koordinaten der Merkmale ist somit der Abstand der Merkmale des Homographie-Bildes zu den entsprechenden Merkmalen im Referenzbild gering, wenn die entsprechenden Merkmale in den beiden Bildern jeweils an der gleichen oder an einer ähnlichen Position angeordnet sind. Hierdurch können Merkmale eindeutig zugeordnet werden, auch wenn in den entsprechenden Bildern gleiche oder ähnliche Merkmale wiederholt auftreten. Durch die örtliche Zuordnung dieser Merkmale können gleiche oder ähnliche Merkmale eindeutig voneinander unterschieden werden. Eine solche örtliche Zuordnung macht jedoch nur Sinn, wenn das Abtastbild im Wesentlichen genauso ausgerichtet ist; wie das Referenz Bild. Ist zum Beispiel das Abtastbild um einen Winkel von mehr als 45° gegenüber dem Referenzbild gedreht, dann besitzen die einander zuzuordnenden Merkmale völlig unterschiedliche Koordinaten und die Koordinaten hätten keinerlei Aussagekraft für die Ähnlichkeit bzw. Zuordnung der Merkmale. Erst die Ausrichtung des Abtastbildes durch die Abbildung mittels der Homographie-Matrix zum Homographie-Bild erlaubt die sinnvolle Verwendung der Koordinaten der Merkmale als Bestandteil der Merkmalsvektoren, da durch die Abbildung mittels der Homographie-Matrix das Abtastbild zu dem Referenzbild ausgerichtet wird.In the second feature assignment, by assigning the features of the homography image to the features of the reference image, both the coordinates of the features of the homography image and the coordinates of the features of the reference image are taken into account. During such an assignment, the distance between the corresponding feature vectors is determined. The smaller the distance, the better the assignment. The feature pairs with the smallest distance are selected as feature pairs of the features of the homography image and the features of the reference image. By taking the coordinates of the features into account, the distance between the features of the homography image and the corresponding features in the reference image is small if the corresponding features are arranged in the same or a similar position in both images. This allows features to be clearly assigned, even if identical or similar features occur repeatedly in the corresponding images. By spatially assigning these features, identical or similar features can be clearly distinguished from one another. However, such a spatial assignment only makes sense if the scanned image is aligned in essentially the same way as the reference image. For example, if the scanned image is rotated by an angle of more than 45° relative to the reference image, the features to be assigned to each other would have completely different coordinates, and the coordinates would have no meaningful significance for the similarity or assignment of the features. Only the alignment of the scanned image by mapping it to the homography image using the homography matrix allows the meaningful use of the feature coordinates as components of the feature vectors, since the mapping using the homography matrix aligns the scanned image to the reference image.
Nach der zweiten Merkmalszuordnung sind die Merkmale des Homographie-Bildes und des Referenzbildes einander so präzise zugeordnet, dass das Homographie-Bild nach der Maßgabe der zweiten Merkmalszuordnung sehr präzise entzerrt werden kann, wobei auch lokal unterschiedliche Entzerrungen, wie sie durch Knicken und Falten eines Dokuments verursacht werden, möglich sind.After the second feature assignment, the features of the homography image and the reference image are assigned to each other so precisely that the homography image can be rectified very precisely according to the second feature assignment, whereby locally different rectifications, such as those caused by bending and folding of a document, are also possible.
Das Entzerren des Homographie-Bildes wird vorzugsweise mit einer Freiform-Entzerrungsmethode durchgeführt, indem beispielsweise ein Verschiebungsfeld interpoliert wird, wie es oben erläutert ist (siehe Diskussion von Lee, Seungyong, et al.).The rectification of the homography image is preferably performed using a freeform rectification method, for example, by interpolating a displacement field as explained above (see discussion by Lee, Seungyong, et al.).
Die Merkmal sind vorzugsweise skalierungs- und/oder rotationsinvariante Merkmale.The features are preferably scaling and/or rotation invariant features.
Vorzugsweise werden die Abtastbilder vor der Überlagerung entzerrt, wobei das Entzerren mittels einer Merkmalszuordnung und/oder mittels einer Zuordnung von Bildausschnitten erfolgen kann. Hierbei kann sowohl eine Entzerrung mittels Merkmalszuordnung als auch eine Entzerrung mittels Zuordnung von Bildausschnitten in Kombination erfolgen, sodass bestimmte Bereiche der Abtastbilder durch eine Merkmalszuordnung und andere Bereiche durch eine Zuordnung von Bildausschnitten entzerrt werden. Mit diesen Entzerrungsmethoden ist jeweils eine Freiform-Entzerrung möglich.Preferably, the scanned images are rectified before superimposition, whereby the rectification can be performed by means of feature assignment and/or by means of image section assignment. Both rectification by means of feature assignment and rectification by means of image section assignment can be performed in combination, so that certain areas of the scanned images are rectified by means of feature assignment and other areas by means of image section assignment. These rectification methods each enable freeform rectification.
Nach einem weiteren Aspekt betrifft die vorliegende Erfindung ein Verfahren zum Abtasten und Verarbeiten eines Dokumentes umfassend die Schritte
- - Abtasten eines Dokuments mit einer optischen Abtastvorrichtung, wobei ein Abtastbild des Dokuments erzeugt wird,
- - Klassifizieren des Abtastbildes zu einer Dokumentenklasse, wobei aus dem Abtastbild Merkmale extrahiert werden, und diese Merkmale mit Datenbankenmerkmalen einer Merkmalsdatenbank, die mehrere Dokumentenklassen definieren, verglichen werden, wobei das Abtastbild der Dokumentenklasse zugeordnet wird, zu der die beste Übereinstimmung mit den Datenbankmerkmalen der jeweiligen Dokumentenklasse erzielt wird.
- - scanning a document with an optical scanning device, whereby a scanned image of the document is generated,
- - Classifying the scanned image into a document class, wherein features are extracted from the scanned image and these features are compared with database features of a feature database that defines a plurality of document classes, wherein the scanned image is assigned to the document class for which the best match with the database features of the respective document class is achieved.
Das Klassifizieren der Dokumente mittels einer Merkmalszuordnung erlaubt eine präzise und korrekte Zuordnung. Dies gilt insbesondere, wenn eine Merkmalsdatenbank verwendet wird, wie sie oben erläutert ist.Classifying documents using feature mapping allows for precise and accurate classification. This is especially true when using a feature database, as described above.
Die derart klassifizierten Dokumente können mit der digitalen Referenz registriert werden. Die digitale Referenz kann Anweisungen enthalten, nach welchen bestimmte Informationen des Dokuments auszulesen und entsprechend zu verarbeiten sind. Diese Anweisungen können zum Beispiel Anweisungen umfassen, in welchem angegeben ist, was für ein Typ von Information (zum Beispiel Name, Adresse, Telefonnummer,...) an bestimmten Bereichen im Dokument enthalten sein soll. Diese Informationen können dann automatisch ausgelesen und entsprechend ihrer Bedeutung verarbeitet werden.Documents classified in this way can be registered with the digital reference. The digital reference can contain instructions according to which specific information from the document is to be read and processed accordingly. These instructions can, for example, include instructions specifying what type of information (e.g., name, address, telephone number, etc.) should be included in specific areas of the document. This information can then be automatically read and processed according to its meaning.
Vorzugsweise wird als Abtastvorrichtung jeweils ein Typ von Abtastvorrichtung oder eine einzige bestimmte Abtastvorrichtung verwendet. Insbesondere wird der jeweils eine Typ von Abtastvorrichtung oder die eine einzige bestimmte Abtastvorrichtung verwendet, die auch zum Erstellen der Merkmalsdatenbank verwendet worden ist. Hierdurch wird die Qualität einer gleichmäßigen Abtastung hochgehalten, wodurch die Qualität der Zuordnung entsprechend hoch ist.Preferably, a type of scanning device or a A single specific scanning device is used. In particular, the same type of scanning device or the same specific scanning device that was also used to create the feature database is used. This maintains the quality of uniform scanning, which in turn ensures a correspondingly high quality of the assignment.
Die Erfindung wird beispielhaft nachfolgend näher anhand der Zeichnungen erläutert. Die Zeichnung zeigen in:
-
1a ein Ausführungsbeispiel einer Abtastvorrichtung zum optischen Abtasten von Dokumenten in einer grob schematisch vereinfachten Darstellung, -
1b eine Abtasteinheit der Abtastvorrichtung aus1A und ein Abtastelement und eine Beleuchtungseinrichtung in ihrer geometrischen Zuordnung zum Abtastbereich, -
2 ein Verfahren zum Erstellen einer Datenbank für Dokumentenklassen in einem Flussdiagramm, -
3 ein Abtastbild und ein digitales Referenzbild eines Dokuments, jeweils nach bestimmten Bearbeitungsschritten, und -
4 ein Verfahren zum Abtasten und Verarbeiten eines Dokuments mit einer Datenbank, die mitdem Verfahren nach 2 erzeugt worden ist, in einem Flussdiagramm.
-
1a an embodiment of a scanning device for optically scanning documents in a roughly schematic simplified representation, -
1b a scanning unit of the scanning device1A and a scanning element and an illumination device in their geometric assignment to the scanning area, -
2 a method for creating a database for document classes in a flowchart, -
3 a scanned image and a digital reference image of a document, each after certain processing steps, and -
4 a method for scanning and processing a document with a database which is compatible with the method according to2 has been generated, in a flowchart.
Die Erfindung wird nachfolgend anhand einer Vorrichtung zum optischen Abtasten von Dokumenten näher erläutert (
Im vorliegenden Ausführungsbeispiel ist die Auswerteeinheit 3 durch einen herkömmlichen Arbeitsplatzrechner bzw. Personal Computer 4 mit einer Eingabeeinheit 5 und einer Anzeigeeinheit 6 ausgebildet. Die Eingabeeinheit 5 ist eine Computertastatur und die Anzeigeeinheit 6 ein Computerbildschirm.In the present embodiment, the
Die Auswerteeinheit 3 kann jedoch auch durch einen beliebigen anderen Mehrzweckrechner, wie zum Beispiel ein Computer-Tablet oder ein Smartphone, ausgebildet sein oder vollständig in die Abtasteinheit 2 integriert sein.However, the
Im vorliegenden Ausführungsbeispiel ist die Auswerteeinheit 3 in Form eines quaderförmigen Körpers mit einer Grundplatte 7, zwei Seitenwandungen 8, 9 und einer Deckenwandung 10 ausgebildet. Die Grundplatte 7 und die Wandungen 8-10 begrenzen einen Hohlraum, wobei die Grundplatte 7 einen Abtastbereich 11 bildet, auf dem ein abzutastendes Dokument 12 angeordnet werden kann. In der Deckenwandung 10 sind ein Abtastelement 13 und eine Beleuchtungseinrichtung 14 angeordnet (
Das Abtastelement 13 ist eine Digitalkamera mit einem zweidimensionalen Kamerachip und einem Objektiv. Die Kamera ist mit ihrer Blickrichtung in Richtung zum Abtastbereich 11 ausgerichtet, sodass der gesamte Abtastbereich von der Kamera optisch abgetastet werden kann.The
Die Beleuchtungseinrichtung 14 weist als Leuchtmittel Leuchtdioden auf und ist so ausgebildet, dass sie weißes Licht abgeben kann. Hierzu können Leuchtdioden vorgesehen sein, die weißes Licht abgeben oder es können unterschiedlich farbige Leuchtdioden vorgesehen sein, die gemeinsam weißes Licht erzeugen. Bei mehreren unterschiedlich farbigen Leuchtdioden besteht die Möglichkeit, diese so anzusteuern, dass sie auch Licht mit unterschiedlichen Farbbereichen bzw. Spektralbereichen abgeben können, indem die Lichtintensität der unterschiedlich farbigen Leuchtdioden entsprechend eingestellt wird. Die Beleuchtungseinrichtung kann Reflektoren aufweisen (nicht dargestellt), die vorzugsweise so ausgebildet sind, dass das Licht möglichst diffus auf den Abtastbereich 11 gelenkt wird. Eine solche Beleuchtung wird auch als Dunkelfeldbeleuchtung bezeichnet. Wenn vor allem oder ausschließlich nicht-spiegelnde Dokumente abgetastet werden sollen, dann kann es auch Sinn machen, eine Hellfeldbeleuchtung vorzusehen, da mit einer Hellfeldbeleuchtung bei gleicher Lichtstärke der Lichtquelle eine höhere Lichtintensität am Abtastbereich 11 als mit einer Dunkelfeldbeleuchtung erzielt wird.The
Die Oberfläche des Abtastbereichs 11 ist vorzugsweise matt mit einer gleichmäßigen Farbe (insbesondere Weiß) ausgebildet.The surface of the
Die in den Innenraum weisenden Flächen der Seitenwandungen 8, 9 sind vorzugsweise auch matt ausgebildet und weisen eine helle Farbe, insbesondere weiße Farbe, auf, sodass das von der Beleuchtungseinrichtung abgegebene und von den Seitenwandungen 8, 9 reflektierte Licht möglichst diffus in den Abtastbereich 11 gelenkt wird.The surfaces of the
Die Auswerteeinheit 3 ist mittels einer Datenleitung 15 zum bidirektionalen Übertragen von Daten mit der Abtasteinheit 2 derart verbunden, so dass die Auswerteeinheit 3 sowohl das Abtastelement 13, als auch die Beleuchtungseinrichtung 14 ansteuern und die mit dem Abtastelement 13 erfassten Daten auslesen kann. Die Auswerteeinheit 3 dient somit nicht nur zum Auswerten von von der Kamera 13 erfassten Bildern, sondern auch zum Steuern des gesamten Prozesses.The
Im Rahmen der Erfindung können auch andere Abtastvorrichtungen verwendet werden, wie zum Beispiel Abtastvorrichtungen, welche eine Zeilenkamera verwenden, die parallel zu einem abzutastenden Dokument während des Abtastvorganges bewegt wird, wie es zum Beispiel von Kopiergeräten bekannt ist, oder auch eine Digitalkamera, welche beispielsweise mit einem Stativ in einer bestimmten örtlichen Beziehung zu einem Auswertebereich angeordnet ist. Es ist auch nicht notwendig, dass die Abtasteinheit eine Beleuchtungseinrichtung aufweist, denn grundsätzlich könnte auch mit Umgebungslicht ein Dokument entsprechend abgetastet werden.Other scanning devices can also be used within the scope of the invention, such as scanning devices that use a line-scan camera that moves parallel to a document to be scanned during the scanning process, as is known, for example, from copiers, or even a digital camera that is arranged, for example, on a tripod in a specific spatial relationship to an evaluation area. It is also not necessary for the scanning unit to have an illumination device, since, in principle, a document could also be scanned using ambient light.
Die Abtasteinheit 2 gemäß dem vorliegenden Ausführungsbeispiel weist einen bestimmten, feststehenden geometrischen Bezug zwischen dem Abtastelement, 13, der Beleuchtungseinrichtung 14 und dem Abtastbereich 11 auf. Zudem sind durch die rohrförmige Ausbildung der Abtastvorrichtung 1 mit den beiden Seitenwandungen, der Deckenwandung und der Grundplatte 7 Störeinflüsse durch Umgebungslicht gering, und trotzdem ist der Abtastbereich 11 von zwei Seiten einfach zugänglich, sodass ein abzutastendes Dokument 12 von einem Benutzer einfach im Abtastbereich 11 platziert werden kann.The
Derartige Abtastvorrichtungen 1 sind vor allem zum Abtasten von Ausweisdokumenten, wie zum Beispiel Personalausweis, Führerschein oder dergleichen, oder zum Abtasten von bestimmten Formularen, wie zum Beispiel Lottoscheinen, Anmeldeformularen oder dergleichen, geeignet.
Die oben erläuterte Abtastvorrichtung stellt ein mögliches Ausführungsbeispiel dar. Sie kann aber auf unterschiedlichste Weise angewandelt werden, sofern eine Kamera und ein Abtastbereich vorgesehen wird. So ist es bspw. möglich, an Stelle der Seitenwände einen einzelnen, vertikal verlaufenden, stangenförmige Träger zwischen dem Abtastbereich und der Deckenwandung vorzusehen.The scanning device described above represents one possible embodiment. However, it can be adapted in a variety of ways, provided a camera and a scanning area are provided. For example, it is possible to provide a single, vertically extending, rod-shaped support between the scanning area and the ceiling wall instead of the side walls.
Nachfolgend wird ein Verfahren zum Erstellen einer Datenbank für Dokumentenklassen erläutert, das anhand von mit der oben erläuterten Abtastvorrichtung 1 abgetasteten Dokumenten ausgeführt wird.A method for creating a database for document classes is explained below, which is carried out using documents scanned with the
Das Verfahren beginnt im Schritt S1 (
Im Schritt (S2) werden mehrere Dokumente 12 von dem Abtastelement 13 abgetastet. Hierzu wird zunächst ein Dokument 12 auf den Abtastbereich 11 der Abtasteinheit 2 gelegt. Das Dokument 12 wird durch die Beleuchtungseinrichtung 14 beleuchtet, um alle Details des Dokuments 12 genau erfassen zu können und um möglichst gleichmäßige Abtastbedingungen beim Abtasten unterschiedlicher Dokumente zu erhalten. Sobald das Dokument 12 an seinem Platz liegt und korrekt ausgeleuchtet wird, initiiert ein Nutzer den Abtastvorgang, beispielsweise indem er eine Taste an der Abtasteinheit 2 oder an der Eingabeeinheit 5 betätigt.In step (S2),
Dieser Vorgang wird für mehrere Dokumente, d. h. n Dokumente 12 wiederholt, sodass n Abtastbilder von den jeweiligen Dokumenten erzeugt werden.This process is repeated for several documents, i.e. n documents 12, so that n scan images are generated from the respective documents.
Bei der Abtastvorrichtung 1 werden die einzelnen Dokumente manuell auf den Abtastbereich 11 gelegt. Es ist selbstverständlich auch möglich, eine automatische Zuführung zum Zuführen der Dokumente in den Abtastbereich 11 vorzusehen, sodass das Abtasten mehrerer Dokumente vollautomatisch erfolgen kann.In the
Das Auslösen eines Abtastvorgangs kann auch automatisch gestartet werden, ohne dass eine Taste betätigt werden muss. Es kann beispielsweise ein Näherungssensor vorgesehen sein, der feststellt, dass sich ein Gegenstand im Abtastbereich 11 befindet, woraufhin zunächst eine erste vorläufige optische Abtastung erfolgt, um zu prüfen, ob der Gegenstand ruhig im Abtastbereich 11 liegt, d.h. dass er nicht bewegt wird. Ist dies der Fall, dann kann er mit der Beleuchtungseinrichtung 14 beleuchtet werden und die eigentliche optische Abtastung ausgeführt werden.A scanning process can also be initiated automatically, without having to press a button. For example, a proximity sensor can be provided to detect that an object is located in the
Im vorliegenden Ausführungsbeispiel ist das Abtastelement 13 als eine Kamera ausgebildet, welche einen zweidimensionalen Kamerachip und ein Objektiv aufweist. Die Kamera ist mit ihrer Blickrichtung auf den Abtastbereich 11 ausgerichtet, so dass möglichst der gesamte Abtastbereich und damit das gesamte Dokument 12 mit einer einzelnen Aufnahme erfasst werden kann. Das so erzeugte Abtastbild 16 enthält eine Darstellung des Dokuments 12, die zunächst beliebig gedreht und/oder verzerrt sein kann (
Nach der Erfassung des Abtastbildes 16 werden die Daten, die das Abtastbild 16 darstellen, über die Datenleitung 15 an die Auswerteeinheit 3 übermittelt. Mit der Auswerteeinheit 3 werden die Abtastbilder 16 ausgewertet.After the
Bei dieser Auswertung wird eine erste Merkmalszuordnung (englisch: Feature Matching) eines Abtastbildes eines ersten Dokuments ausgeführt (Schritt S3). Hierbei werden Merkmale, welche auch als Features, Keypoints oder Schlüsselpunkte bezeichnet werden, in dem Abtastbild 16 mit einem sogenannten SIFT-Algorithmus (Scale-Invariant Feature Transform-Algorithmus) identifiziert und extrahiert.During this evaluation, a first feature matching of a scanned image of a first document is performed (step S3). Here, features, also referred to as features or keypoints, are identified and extracted in the scanned
Hierbei werden Merkmale identifiziert, die gegenüber einer Maßstabsveränderung unveränderlich, d.h. invariant, sind. Dies wird beispielsweise ausgeführt, indem ein Skalenraum erzeugt wird, der im Wesentlichen eine Reihe von Bildern mit unterschiedlichem Maßstab (=unterschiedliche Skalen) bzw. Auflösung umfasst, wobei diese Bilder aus dem Abtastbild 16 berechnet werden. Für jeden Maßstab wird das Abtastbild 16 mit Gaußfilter mit zunehmendem Sigma-Wert gefaltet, um eine Reihe von unscharfen Bildern zu erzeugen. Die Gauß-Differenz (DOG = Difference Of Gaußian) wird dann durch Subtraktion zweier aufeinanderfolgender unscharfer Bilder berechnet. Das Ergebnis ist eine Serie von DOG-Bildern. Mögliche Merkmalspunkte werden als lokale Minima oder Maxima in den DOG-Bildern identifiziert, indem jedes Pixel mit seinen Nachbarn im aktuellen Abtastbild 16 und den Nachbarn in den Skalen-Bildern verglichen wird.This involves identifying features that are unchanging, i.e. invariant, with respect to a change in scale. This is carried out, for example, by generating a scale space that essentially comprises a series of images with different scales (= different scales) or resolutions, whereby these images are calculated from the
Ein Merkmalspunkt gibt die Koordinaten eines zentralen Punktes eines Merkmals an.A feature point specifies the coordinates of a central point of a feature.
Potentielle Merkmalspunkte werden durch eine Anpassung einer quadratischen Funktion an die lokalen Bildmuster um die potentiellen Merkmalspunkte herum verifiziert. Merkmale, die einen geringen Kontrast aufweisen oder schlecht auf einer Kante lokalisiert sind, werden verworfen. Merkmale mit geringem Kontrast reagieren empfindlich auf Rauschen. Merkmalspunkte entlang von Kanten sind räumlich nicht stabil.Potential feature points are verified by fitting a quadratic function to the local image patterns around the potential feature points. Features with low contrast or poorly localized to an edge are discarded. Low-contrast features are sensitive to noise. Feature points along edges are spatially unstable.
Eine finale Position der Merkmalspunkte wird durch ein Maximum oder Minimum der angepassten quadratischen Funktion bestimmt. Jedem identifizierten Merkmalspunkt werden ein oder mehrere Orientierungen zugewiesen, die auf der lokalen Gradientenrichtung des Abtastbildes 16 passieren. Dies gewährleistet die Rotationsinvarianz. Hierzu wird für die Umgebung des Merkmalspunktes die Gradientengröße und die Orientierung berechnet. Ein Orientierungs-Histogramm mit 36 Säulen, die 360° abdecken, wird aus der Gradientenorientierung von Stichpunkten innerhalb einer Region und dem Schlüsselpunkt erstellt. Die Maxima in diesem Histogramm bestimmen die Ausrichtung des Merkmalspunktes. Die höchste Spitze im Histogramm und jedes weitere lokale Maximum, das innerhalb von 80 % der höchsten Spitze liegt, wird verwendet, um die Orientierung zuzuweisen. Nachdem die Merkmalspunkte identifiziert und die Orientierung zugewiesen wurde, wird für jedes Merkmal ein Deskriptor, auch Merkmalsvektor genannt, erstellt, um das lokale Aussehen des Merkmals zu erfassen.A final position of the feature points is determined by a maximum or minimum of the fitted quadratic function. Each identified feature point is assigned one or more orientations that pass 16 on the local gradient direction of the scan image. This ensures rotation invariance. For this purpose, the gradient magnitude and orientation are calculated for the neighborhood of the feature point. An orientation histogram with 36 columns covering 360° is created from the gradient orientation of key points within a region and the key point. The maxima in this histogram determine the orientation of the feature point. The highest peak in the histogram and any subsequent local maximums that lie within 80% of the highest peak are used to assign the orientation. After the feature points have been identified and the orientation assigned, a descriptor, also called a feature vector, is created for each feature to capture the local appearance of the feature.
Der Deskriptor ist ein eindeutiger Fingerabdruck für jeden Merkmalspunkt und ermöglicht so einen Abgleich zwischen zwei Bildern, da die entsprechenden Merkmalspunkte in den jeweiligen Bildern einander zugeordnet werden können. Der Deskriptor kann als ein Histogramm der Gradientenorientierung in einem Bereich um den Merkmalspunkt betrachtet werden, das eine oberste Darstellung der lokalen Bildtextur liefert.The descriptor is a unique fingerprint for each feature point, enabling matching between two images, as the corresponding feature points in the respective images can be mapped to each other. The descriptor can be viewed as a histogram of the gradient orientation in a region around the feature point, providing a top-level representation of the local image texture.
Zur Erstellung eines Deskriptors wird zunächst die Region um den Schlüsselpunkt beispielsweise in ein 4 × 4-Raster von Unterregionen unterteilt. Für jede Unterregion wird die Gradientenstärke in Ausrichtung der Bildpunkte berechnet. Anschließend wird für jede Unterregion ein Orientierungs-Histogramm mit 8 Säulen bzw. Bins erstellt, was insgesamt 128 Säulen bzw. Dimensionen entspricht. Die Histogrammwerte erfassen die dominante Gradientenrichtung in der lokalen Nachbarschaft des Merkmalspunktes. Die Histogrammwerte bilden die Elemente des Deskriptors bzw. Vektors. Dieser Deskriptor wird normalisiert, um seine Robustheit gegenüber Beleuchtung und Kontrastschwankungen zu erhöhen. Der normalisierte Vektor ist der Deskriptor für die Merkmalspunkte und liefert eine invariante Darstellung der lokalen Bildstruktur.To create a descriptor, the region around the keypoint is first divided into a 4 × 4 grid of subregions, for example. For each subregion, the gradient strength is calculated in the orientation of the pixels. An orientation histogram with 8 columns or bins is then created for each subregion, corresponding to a total of 128 columns or dimensions. The histogram values capture the dominant gradient direction in the local neighborhood of the feature point. The histogram values form the elements of the descriptor or vector. This descriptor is normalized to increase its robustness to lighting and contrast variations. The normalized vector is the descriptor for the feature points and provides an invariant representation of the local image structure.
Diese Merkmalserkennung wird auch bei einem digitalen Referenzbild 17 durchgeführt. Das digitale Referenzbild ist eine perfekte digitale Darstellung wesentlicher Elemente des Dokuments 12. Die einzelnen Dokumente 12 können zusätzlich Informationen, welche insbesondere von einem Benutzer des Dokuments manuell oder maschinell hinzugefügt worden sind, enthalten. Im Übrigen stimmt der Inhalt des Dokuments 12 weitestgehend mit dem digitalen Referenzbild 17 überein.This feature recognition is also performed on a
Anschließend erfolgt die eigentliche Zuordnung der Merkmalspunkte des Abtastbildes 16 und des Referenzbildes 17, indem sie miteinander verglichen werden, wobei beim Vergleich der Merkmalspunkte zwischen dem Abtastbild 16 und dem Referenzbild 17 anhand der Deskriptoren ein Abstand (zum Beispiel euklidischer Abstand) zwischen den entsprechenden Vektoren bestimmt wird und die Merkmalspunkte der beiden Bilder einander zugeordnet werden, deren Abstand am geringsten ist. Dies kann beispielsweise derart ausgeführt werden, dass zunächst Abstände zwischen Merkmalspunkten, welche unter einem bestimmten Schwellenwert liegen, als potentielle Übereinstimmungen bewertet werden. Danach kann ein Ratio-Test durchgeführt werden, bei dem der Abstand eines Merkmalspunktes des Abtastbildes 16 zum zweitnächsten Merkmalspunkt des Referenzbildes 17 berechnet wird. Das Verhältnis der Abstände des nächstliegenden und des zweitnächstgelegenen Merkmalspunktes wird dann berechnet. Liegt das Verhältnis unter einem bestimmten Schwellenwert, zum Beispiel 0,8, wird die Übereinstimmung als gültig betrachtet. Nachdem die Übereinstimmung zwischen Merkmalen des Abtastbildes 16 und dem Referenzbild 17 gefunden wurden, wird der Vorgang durch den Abgleich von Merkmalspunkten des Referenzbildes 17 mit dem Abtastbild 16 wiederholt. Es können nur die Merkmalspunkte beibehalten werden, die in beiden Richtungen übereinstimmen.The actual assignment of the feature points of the scanned
Anschließend können die beibehaltenen Merkmalspunkte noch gefiltert werden, um Ausreißer, die zum Beispiel durch Rauschen entstanden sind, zu entfernen. Hierzu kann beispielsweise der sogenannte RANSAC-Algorithmus (Random Sample Consensus) verwendet werden, um Ausreißer und Fehler festzustellen. Andere Algorithmen zur Erkennung von Ausreißern sind hierbei aber auch möglich.The retained feature points can then be filtered to remove outliers caused, for example, by noise. For this purpose, the so-called RANSAC (Random Sample Consensus) algorithm can be used to detect outliers and errors. However, other algorithms for outlier detection are also possible.
Das Zuordnen von Merkmalen zweier Bilder ist an sich bekannt. Es können auch andere bekannte Zuordnungsmethoden verwendet werden, sofern sie eine zuverlässige Zuordnung ähnlicher Merkmale bewirken.Matching features between two images is well known. Other known matching methods can also be used, provided they reliably match similar features.
Die Merkmalszuordnung wird genutzt, um eine Homographie-Matrix zu berechnen. Die Homographie-Matrix erlaubt eine perspektivische Entzerrung des Abtastbildes und eine Ausrichtung auf das Referenzbild. Durch Anwenden der Homographie-Matrix auf das Abtastbild 16 wird das Abtastbild bezüglich des Referenzbildes 17 ausgerichtet (gedreht bzw. verschoben) und auch entzerrt, sodass ein Homographie-Bild 18 entsteht (
Zur Berechnung der Homografie-Matrix wird eine direkte lineare Transformation (DLT) verwendet. Sie erfordert mindestens vier übereinstimmende, nicht-kollineare Merkmale aus dem Abtastbild 16 und dem Referenzbild 17. Es können jedoch auch mehr Übereinstimmungen verwendet werden, wobei hier dann eine Lösung der kleinsten Quadrate berechnet wird. Aufgrund von Rauschen, falschen Übereinstimmungen und anderen Faktoren stimmen nicht alle Übereinstimmungen perfekt überein, sodass die Homographie-Matrix mit Verfahren wie dem oben erwähnten RANSAC-Algorithmus bestimmt werden muss. Der RANSAC-Algorithmus wählt wiederholt eine zufällige Teilmenge übereinstimmender Merkmalspunkte aus und berechnet die Homographie-Matrix. Es wird anschließend bestimmt, wie viele Übereinstimmungen mit dieser berechneten Homografie-Matrix übereinstimmen, und die Homografie-Matrix mit der höchsten Anzahl von Übereinstimmungen wird als Endergebnis ausgewählt.A direct linear transform (DLT) is used to calculate the homography matrix. It requires at least four matching, non-collinear features from the
Bei der Merkmalsbestimmung im Schritt S3 können bestimmte vorab definierte Bereiche ausgeblendet werden. Dies sind in der Regel Bereiche, die individuelle Informationen in den einzelnen Dokumenten aufweisen und somit nicht einander zuordbar sind. Das Ausblenden kann bspw. dadurch erfolgen, dass die Farbwerte und/oder Helligkeitswerte dieser Bereiche auf jeweils einen bestimmten Wert gesetzt werden, der bspw. der Farbe Weiß entspricht. Diese Ausblendbereiche können somit anhand der Merkmale definiert sein.During feature determination in step S3, certain predefined areas can be hidden. These are usually areas that contain individual information in the individual documents and are therefore not assignable to one another. Hiding can be achieved, for example, by setting the color and/or brightness values of these areas to a specific value, which corresponds, for example, to the color white. These hidden areas can thus be defined based on the features.
Sobald die Homographie-Matrix bestimmt ist, wird sie verwendet, um das Abtastbild 16 in das Homografie-Bild 18 zu transformieren. Hierzu wird jeder Bildpunkt im Abtastbild 16 mit der Homographie-Matrix multipliziert, um den transformierten Punkt im Homografie-Bild 18 zu erhalten. Dieser Schritt des Abbildens stellt die oben erwähnte perspektivische Entzerrung dar (Schritt S4). Bei diesem perspektivischen Entzerren kann ein Abtastbild 16 in der Größe und Ausrichtung an das Referenzbild 17 angepasst werden, wobei einzelne Teile des aufgenommenen Abtastbildes 16 abgeschnitten werden können. Dies ist hierbei jedoch so ausgelegt, dass die Informationsinhalte des Abtastbildes 16, die das Dokument 12 betreffen, nicht abgeschnitten werden. Hierbei wird beispielsweise eine Kantenerkennung durchgeführt, um die Kanten des Dokuments 12 zu erkennen. Das Abtastbild 16 wird nun so beschnitten, dass alle Kanten des Dokuments 12 noch im Abtastbild 16 verbleiben.Once the homography matrix is determined, it is used to transform the scanned
Nach der Transformation kann es im Homografie-Bild 18 Bereiche geben, die keine entsprechenden Bildpunkte des verzerrten Abtastbildes aufweisen. Diese Bereiche werden durch benachbarte Bildpunkte oder andere Inpainting-Techniken aufgefüllt.After the transformation, there may be 18 regions in the homography image that do not contain corresponding pixels from the distorted scan image. These regions are filled with neighboring pixels or other inpainting techniques.
Gemäß diesem Ausführungsbeispiel wird das Homographie-Bild 18 durch entsprechende bekannte Algorithmen geschärft. Es sind Algorithmen zur Kontrastanpassung oder zur Glättung von Artefakten, die bei der Transformation entstanden sind, bekannt, die hier angewandt werden können. Nun werden die (Orts-)Koordinaten der Merkmale sowohl im Homographie-Bild 18 als auch im Referenzbild 17 zu den jeweiligen Deskriptoren hinzugefügt. Dieses Hinzufügen der Koordinaten wird als Stamping bezeichnet (Schritt S5).According to this embodiment, the
Im anschließenden Schritt S6 werden die Merkmale des Homografie-Bildes 18 erneut zu korrespondierenden Merkmalen des Referenzbildes 17 zugeordnet, wobei die Zuordnung die den Deskriptoren zugeordneten Koordinaten berücksichtigt (zweite Merkmalszuordnung). Die Deskriptoren umfassen beispielsweise 130 Dimensionen, wovon 128 dieser Dimensionen aus einem 4 x 4 Raster von Unterregionen mit je 8 Säulen bzw. Bins stammen (siehe oben). Die zusätzlichen zwei Dimensionen sind die Koordinaten. Diese zwei zusätzlichen Dimensionen können genauso gewichtet sein wie alle anderen Dimensionen zuanmme. Es macht jedoch auch Sinn, die zwei zusätzlichen Dimensionen (= Koordinaten) stärker zu gewichten, beispielsweise mit einem Gewichtungsfaktor, der zumindest die fünffache Gewichtung oder zumindest die zehnfache Gewichtung der Koordinaten gegenüber den anderen Dimensionen bewirkt. Die Koordinaten können auch derart stark gewichtet werden, dass sie das gleiche Gewicht haben, wie die restlichen 128 Dimensionen. Die Koordinaten können also mit dem gleichen Gewicht wie die anderen Dimensionen in den Vergleich der Merkmale zur Zuordnung derselben eingehen.In the subsequent step S6, the features of the
Durch die Berücksichtigung der Koordinaten wird der Ort der Merkmale wesentlich stärker als bei der ersten Merkmalszuordnung berücksichtigt, was dazu führt, dass tatsächlich nur die im Referenzbild und Abtastbild nahe beieinanderliegenden Merkmale einander zugeordnet werden. Dies ist hier zuverlässig möglich, da zuvor eine perspektivische Entzerrung durchgeführt worden ist, bei der das Referenzbild und das Abtastbild zueinander ausgerichtet worden sind, sodass die entsprechenden Merkmale sich in den jeweiligen Bildern an ähnlichen Orten befinden. Ohne diese Ausrichtung können die beiden Bilder, beispielsweise um 90° zueinander verdreht, angeordnet sein, wodurch sich miteinander korrespondierende Merkmale an ganz unterschiedlichen Orten befinden würden. Die Berücksichtigung der Ortskoordinaten im Merkmalsvektor würde erhebliche Fehlzuordnungen verursachen.By taking the coordinates into account, the location of the features is considered much more closely than in the first feature assignment, which means that only the features that are close to each other in the reference image and the scanned image are actually assigned to each other. This is reliably possible here because a perspective correction was previously performed, in which the reference image and the scanned image were aligned with each other so that the corresponding features are located in similar locations in the respective images. Without this alignment, the two images can be arranged, for example, rotated by 90° to each other, which would result in corresponding features being located in completely different locations. Taking the location coordinates into account in the feature vector would cause significant misassignments.
Aufgrund der neu zugeordneten Merkmale werden Verschiebevektoren zwischen einander zugeordneten Merkmalen des Homographie-Bildes 18 als auch des Referenzbildes 17 berechnet, was auch als Vectoring bezeichnet wird.Based on the newly assigned features, displacement vectors are calculated between assigned features of the
Es kann sein, dass zusammenhängende Bereiche der Dokumente keine oder nur sehr wenige Merkmale aufweisen, sodass bezüglich dieser Bereiche keine Verschiebevektoren aufgrund der Merkmalszuordnung vorhanden sind. Hier macht es Sinn, Bildausschnitte des Homografie-Bildes 18 und des Referenzbildes 17 einander zuzuordnen und einen entsprechenden Verschiebevektor für die einander zugeordneten Bildausschnitte zu bestimmen. Das Zuordnen von Bildausschnitten wird auch als Template-Matching bezeichnet.It may be that contiguous areas of the documents have no or very few features, so that no displacement vectors exist for these areas due to the feature assignment. In this case, it makes sense to assign image sections of the
Aus den Verschiebevektoren der Merkmalszuordnung und der Zuordnung der Bildausschnitte wird ein Verschiebevektorfeld erzeugt. Hierbei gehen die Verschiebevektoren entweder unmittelbar oder gemittelt bzw. interpoliert in das Verschiebevektorfeld ein. Für Bereiche, in welchen keine Verschiebevektoren vorhanden sind, werden entsprechende Verschiebevektoren interpoliert.A displacement vector field is generated from the displacement vectors of the feature assignment and the assignment of the image sections. The displacement vectors are included in the displacement vector field either directly or in an averaged or interpolated form. For regions where no displacement vectors are present, corresponding displacement vectors are interpolated.
Mithilfe dieses Verschiebevektorfeldes wird das Homografie-Bild 18 einer Freiform-Entzerrung unterzogen. Hierbei werden zunächst Kontrollpunkte mittels des Verschiebevektorfeldes gewählt, die möglichst gleichmäßig über dem Homographie-Bild 18 und dem Referenzbild 17 verteilt sind. Die Verbindung zwischen den Kontrollpunkten ist in diesen Bildern durch die Verschiebevektoren gegeben. Anhand der Kontrollpunkte wird ein System linearer Gleichungen aufgestellt. Dieses Gleichungssystem wird gelöst, um Gewichtungen für jeden Kontrollpunkt zu ermitteln. Diese Gewichtungen bestimmen die Stärke und Richtung der Transformation eines jeden Kontrollpunkts.Using this displacement vector field, the
Für einen jeden Bildpunkt im Homographie-Bild 18 wird eine neue Position in einem Transformations-Bild 19 auf Grundlage der Gewichtungen und einer radialen Basisfunktion der Kontrollpunkte errechnet. Die Bildpunktwerte werden direkt übertragen, wenn sie perfekt mit dem Raster des Transformations-Bildes 19 übereinstimmen. Da dies in den meisten Fällen nicht der Fall ist, werden die Bildpunktwerte für das Transformations-Bild 19 interpoliert. Dies kann beispielsweise mit einer bilinearen oder bikubischen Interpolation ausgeführt werden.For each pixel in the
Um eine Überanpassung zu vermeiden, insbesondere wenn viele Kontrollpunkte verwendet werden, kann ein regulärer Realisierungsterm zur Transformation hinzugefügt werden. Dadurch werden die Transformation geglättet und hochfrequente Verformungen vermieden. Es können noch weitere Nachbearbeitungsschritte am Transformations-Bild 19 ausgeführt werden, beispielsweise indem es geschärft, beschnitten oder eine andere Bildanpassung zur Verbesserung der Qualität durchgeführt wird. Das Transformations-Bild 19 ist somit ein freiformentzerrtes Abtastbild. Mit den oben anhand der Schritte S3 bis S7 erläuterten Verfahren wird das Abtastbild 16 bezüglich des Referenzbildes 17 ausgerichtet und entzerrt, wobei eine bildpunktgenaue Übereinstimmung erzielt werden kann.To avoid overfitting, especially when many control points are used, a regular realization term can be added to the transformation. This smooths the transformation and avoids high-frequency deformations. Further post-processing steps can be performed on the
Im Schritt S8 wird geprüft, ob ein Abtastbild eines weiteren Dokuments vorhanden ist, das bezüglich des Referenzbildes 17 auszurichten und zu entzerren ist. Wenn dies der Fall ist, geht der Verfahrensablauf auf den Schritt S3 über und die Ausrichtung und Entzerrung des weiteren Abtastbildes 16 wird durchgeführt.In step S8, a check is made to determine whether a scanned image of another document is present that is to be aligned and rectified with respect to the
Wird im Schritt S8 festgestellt, dass die Abtastbilder aller Dokumente ausgerichtet und entzerrt sind, dann geht der Verfahrensablauf auf den Schritt S9 über, in dem die derart ausgerichteten und entzerrten Abtastbilder einander überlagert werden. Hierbei werden die Bildpunkte an den gleichen Orten der ausgerichteten Abtastbilder 19 gemittelt und der so erzeugte Mittelungswert an dem entsprechenden Ort in einem Prototypbild als Punktwert eingetragen. Der Mittelungswert kann ein Mittelwert, ein Medianwert oder auch ein Mittelwert sein, bei dem die Bildpunktwerte der unterschiedlichen ausgerichteten Abtastbilder 19 unterschiedlich stark gewichtet sind. Das Prototypbild stellt somit eine Abbildung des Dokuments 12 dar, welche entzerrt und bezüglich des Referenzbildes 17 ausgerichtet ist und das Dokument 12 so zeigt, wie es von der Abtastvorrichtung 1 erfasst wird. Das Prototypbild enthält also anders als das Referenzbild die Auswirkungen der optischen Abtastung durch die Abtastvorrichtung 1. Im Prototypbild können im Vergleich zum Referenzbild gewisse Unschärfen enthalten sein und/oder Helligkeiten und/oder Farben können abweichen. Die Abweichungen können gering sein, jedoch können auch geringe Abweichungen bei der weiteren Bearbeitung Fehler verursachen.If it is determined in step S8 that the scanned images of all documents are aligned and rectified, the process flow proceeds to step S9, in which the scanned images aligned and rectified in this way are superimposed on one another. Here, the pixels at the same locations of the aligned
Aus dem so erzeugten Prototypbild werden Merkmale des Bildes extrahiert. Die Merkmale sind vorzugsweise SIFT-Merkmale. Es können jedoch auch andere Typen von Merkmalen, wie zum Beispiel ORB-Merkmale oder SURF-Merkmale verwendet werden. Vorzugsweise sind die Merkmale skalierungs- und/oder rotationsinvariante Merkmale.Features are extracted from the resulting prototype image. The features are preferably SIFT features. However, other types of features, such as ORB features or SURF features, can also be used. Preferably, the features are scale- and/or rotation-invariant features.
Die Merkmale umfassen zumindest einen Deskriptor bzw. Merkmalsvektor und Koordinaten, die den Ort der Merkmale im Bild definieren. Vorzugsweise wird der Deskriptor bzw. Merkmalsvektor anhand des Prototypbildes und die zugehörige Koordinate anhand des Referenzbildes bestimmt. Hierdurch erhält man eine Beschreibung des Merkmals, wie es von der Abtastvorrichtung 1 gesehen wird, wobei als Ort der exakte Ort des Referenzbildes verwendet wird. Die so erzeugten Merkmale werden in einer Datenbank gespeichert, wobei die Merkmale eines solchen Prototypbildes eine Dokumentenklasse repräsentieren. Die übereinstimmenden Darstellungen in den Dokumenten einer Dokumentenklasse sind in dem jeweiligen Prototypbild enthalten. Die hieraus abgeleiteten Merkmale gelten somit für alle Dokumente einer Dokumentenklasse. Sie sind somit repräsentativ für eine bestimmte Dokumentenklasse.The features comprise at least one descriptor or feature vector and coordinates that define the location of the features in the image. Preferably, the descriptor or feature vector is determined based on the prototype image and the associated coordinate is determined based on the reference image. This provides a description of the feature as seen by the
Das Verfahren wird mit dem Schritt S11 beendet.The method is terminated with step S11.
Dieses Verfahren kann für unterschiedliche Dokumentenklassen wiederholt werden, wobei jeweils mehrere Exemplare der Dokumente einer Dokumentenklasse abgetastet und die Abtastbilder entsprechend dem obigen Verfahren zur Extrahierung der Merkmale ausgewertet werden. Eine solche Datenbank kann zum Klassifizieren von Dokumenten verwendet werden, wie es anhand eines beispielhaften Verfahrens nachfolgend erläutert wird (
Bei diesem Verfahren kann ein Dokument einer beliebigen Dokumentenklasse mit der Abtastvorrichtung 1 abgetastet werden. (Schritt S13).In this method, a document of any document class can be scanned with the scanning device 1 (step S13).
Aus dem so erzeugten Abtastbild werden Merkmale extrahiert und diese Merkmale werden mit den Merkmalsgruppen der unterschiedlichen Dokumentenklassen verglichen. Der Vergleich kann beispielsweise durch Berechnung eines Abstandes, insbesondere des euklidischen Abstandes, erfolgen. Das Dokument wird dann der Dokumentenklasse zugeordnet, bei der die geringste Abweichung zu den entsprechenden Merkmalen vorliegt.Features are extracted from the resulting scanned image, and these features are compared with the feature groups of the different document classes. The comparison can be performed, for example, by calculating a distance, particularly the Euclidean distance. The document is then assigned to the document class with the smallest deviation from the corresponding features.
Im nächsten Schritt wird das Abtastbild mit dem digitalen Referenzbild der entsprechenden Dokumentenklasse registriert, d.h. in Übereinstimmung gebracht. Dies kann in ähnlicher Weise wie mit den Schritten S3 bis S7 des oben erläuterten Verfahrens ausgeführt werden. Vorzugsweise sind in der Datenbank Bearbeitungshinweise zu den einzelnen Dokumentenklassen enthalten, wie die einzelnen Dokumente zu bearbeiten sind. Diese Bearbeitungshinweise umfassen typischerweise Anweisungen, welche Bereiche des Dokuments auszulesen sind und welche Information darin enthalten ist. So können die Bereiche, in welchen ein Name, Vorname, eine Adresse, eine Telefonnummer, eine E-Mail-Adresse oder dergleichen enthalten sein sollen, definiert sein, wobei auch der Typ der jeweiligen Information entsprechend hinterlegt ist. Dies erlaubt das zuverlässige Auslesen vorbestimmter Informationsgehalte und deren Weiterverarbeitung. Aufgrund der Registrierung des Abtastbildes mit dem digitalen Referenzbild sind die entsprechenden Anweisungen, die anhand des Referenzbildes definiert sind, unmittelbar auf dem jeweiligen Bereich des Abtastbildes anwendbar.In the next step, the scanned image is registered with the digital reference image of the corresponding document class, i.e., aligned. This can be carried out in a similar manner to steps S3 to S7 of the method explained above. The database preferably contains processing instructions for the individual document classes, specifying how the individual documents are to be processed. These processing instructions typically include instructions as to which areas of the document are to be read out and what information they contain. For example, the areas in which a surname, first name, address, telephone number, email address, or the like are to be contained can be defined, with the type of respective information also being stored accordingly. This allows for the reliable reading of predetermined information content and its further processing. Due to the registration of the scanned image with the digital reference image, the corresponding instructions defined based on the reference image can be directly applied to the respective area of the scanned image.
Im Schritt S16 werden die entsprechenden Informationen aus dem Abtastbild anhand dieser Anweisungen ausgelesen und der Weiterverarbeitung zugeführt.In step S16, the corresponding information is read from the scanned image based on these instructions and passed on for further processing.
Das Verfahren wird mit dem Schritt S17 beendet.The method is terminated with step S17.
Die oben erläuterten Verfahren und die oben erläuterte Vorrichtung erlauben die Teil- oder vollautomatische Verarbeitung von Dokumenten, selbst wenn diese geknickt oder gefaltet waren und somit nicht mehr glatt sind. Die Dokumente können Dokumentenklassen zugeordnet werden und dementsprechend klassenspezifisch verarbeitet und insbesondere ausgelesen werden. Dies erlaubt insbesondere die Verarbeitung von maschinengedruckten Dokumenten, in welche Personen handschriftlichen Text eingefügt haben.The methods and device described above allow for the partially or fully automatic processing of documents, even if they were bent or folded and are therefore no longer smooth. The documents can be assigned to document classes and processed and, in particular, read out accordingly. This allows, in particular, the processing of machine-generated printed documents in which people have inserted handwritten text.
BezugszeichenlisteList of reference symbols
- 11
- Abtastvorrichtungscanning device
- 22
- Abtasteinheitscanning unit
- 33
- AuswerteeinheitEvaluation unit
- 44
- ArbeitsplatzrechnerWorkstation computer
- 55
- EingabeeinheitInput unit
- 66
- AnzeigeeinheitDisplay unit
- 77
- GrundplatteBase plate
- 88
- Seitenwandungside wall
- 99
- Seitenwandungside wall
- 1010
- DeckenwandungCeiling wall
- 1111
- AbtastbereichScanning range
- 1212
- Dokumentdocument
- 1313
- Abtastelementscanning element
- 1414
- BeleuchtungseinrichtungLighting equipment
- 1515
- Datenleitungdata line
- 1616
- AbtastbildScanning image
- 1717
- ReferenzbildReference image
- 1818
- HomographiebildHomography image
- 1919
- TransformationsbildTransformation image
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES CONTAINED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents submitted by the applicant was generated automatically and is included solely for the convenience of the reader. This list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturCited patent literature
- US 6, 711, 293 B1 [0005]US 6,711,293 B1 [0005]
-
EP 1 594 078 B1 [0007]
EP 1 594 078 B1 [0007]
Zitierte Nicht-PatentliteraturCited non-patent literature
- X. Wangming et. al. (Dezember 2008), „Application of Image SIFT Features to the Context of CBIR“, in „2008 International Conference on Computer Science and Software Engineering“ (Ausgabe 4, Seiten 552-555 [0002]X. Wangming et. al. (December 2008), “Application of Image SIFT Features to the Context of CBIR,” in “2008 International Conference on Computer Science and Software Engineering” (Issue 4, pages 552-555 [0002]
- K. R. Reddy et. al. (2016), „A Comparative Study of SIFT and PCA for Content-Based Image Retrieval, Inter. Refereed J. Ing. Sci. (IRJES) 5 (11), 12-19 [0002]K.R. Reddy et. al. (2016), "A Comparative Study of SIFT and PCA for Content-Based Image Retrieval, Inter. Refereed J. Ing. Sci. (IRJES) 5 (11), 12-19 [0002]
- Rublee Ethan et.al. „ORB: An Efficient Alternative to SIFT or SURF“ 2011 International Conference on Computer Vision, IEEE 2011 [0006]Rublee Ethan et al. “ORB: An Efficient Alternative to SIFT or SURF” 2011 International Conference on Computer Vision, IEEE 2011 [0006]
Claims (14)
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023127343.4A DE102023127343A1 (en) | 2023-10-06 | 2023-10-06 | Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods |
| PCT/EP2024/077817 WO2025073816A1 (en) | 2023-10-06 | 2024-10-02 | Method for creating a database for document classes, method for scanning and processing a document, and device for carrying out these methods |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102023127343.4A DE102023127343A1 (en) | 2023-10-06 | 2023-10-06 | Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE102023127343A1 true DE102023127343A1 (en) | 2025-04-10 |
Family
ID=93013639
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE102023127343.4A Pending DE102023127343A1 (en) | 2023-10-06 | 2023-10-06 | Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102023127343A1 (en) |
| WO (1) | WO2025073816A1 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6711293B1 (en) * | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
| EP1575002A1 (en) * | 2004-03-11 | 2005-09-14 | De La Rue International Limited | Bank note simulation |
| EP1594078B1 (en) * | 2004-04-27 | 2008-11-05 | Microsoft Corporation | Multi-image feature matching using multi-scale oriented patches |
| DE102011077895A1 (en) * | 2011-06-21 | 2012-12-27 | Bundesdruckerei Gmbh | Method and device for creating a document reference data record based on a document |
| DE102015111120A1 (en) * | 2015-07-09 | 2017-01-12 | Chromasens Gmbh | Method and device for scanning surfaces with a stereo camera |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10628702B1 (en) * | 2017-09-27 | 2020-04-21 | Government of the United States as represented by Director, National Security Agency | Method of matching a query image to a template image and extracting information from the query image |
| US11574492B2 (en) * | 2020-09-02 | 2023-02-07 | Smart Engines Service, LLC | Efficient location and identification of documents in images |
| DE102021002672A1 (en) * | 2021-05-21 | 2022-11-24 | Giesecke+Devrient Currency Technology Gmbh | Method and device for checking documents of value and method and device for generating checking parameters for the checking method |
-
2023
- 2023-10-06 DE DE102023127343.4A patent/DE102023127343A1/en active Pending
-
2024
- 2024-10-02 WO PCT/EP2024/077817 patent/WO2025073816A1/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6711293B1 (en) * | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
| EP1575002A1 (en) * | 2004-03-11 | 2005-09-14 | De La Rue International Limited | Bank note simulation |
| EP1594078B1 (en) * | 2004-04-27 | 2008-11-05 | Microsoft Corporation | Multi-image feature matching using multi-scale oriented patches |
| DE102011077895A1 (en) * | 2011-06-21 | 2012-12-27 | Bundesdruckerei Gmbh | Method and device for creating a document reference data record based on a document |
| DE102015111120A1 (en) * | 2015-07-09 | 2017-01-12 | Chromasens Gmbh | Method and device for scanning surfaces with a stereo camera |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2025073816A1 (en) | 2025-04-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69734855T2 (en) | Apparatus and method for extracting an object in an image | |
| DE69226846T2 (en) | Procedure for determining word boundaries in the text | |
| DE69606029T2 (en) | DETERMINING THE LOCATION AND ORIENTATION OF A TAX MARKER | |
| DE102007035884B4 (en) | Line noise suppression device, method and program | |
| DE60114469T2 (en) | Method and device for determining interesting images and for image transmission | |
| DE102009036474B4 (en) | Image data compression method, pattern model positioning method in image processing, image processing apparatus, image processing program and computer-readable recording medium | |
| DE102016120775B4 (en) | System and method for detecting lines in an image with a vision system | |
| DE102009036467B4 (en) | Pattern model positioning method in image processing, image processing apparatus, image processing program and computer-readable recording medium | |
| DE69918349T2 (en) | Robust procedure for determining the locations of registration marks | |
| DE102017220307B4 (en) | Device and method for recognizing traffic signs | |
| DE102016013274A1 (en) | IMAGE PROCESSING DEVICE AND METHOD FOR RECOGNIZING AN IMAGE OF AN OBJECT TO BE DETECTED FROM ENTRY DATA | |
| DE102013112040B4 (en) | System and method for finding saddle-point like structures in an image and determining information therefrom | |
| DE112010004767T5 (en) | Point cloud data processing device, point cloud data processing method and point cloud data processing program | |
| DE112010002677T5 (en) | METHOD AND DEVICE FOR DETERMINING FORM CONFORMITY IN THREE DIMENSIONS | |
| DE60020038T2 (en) | Method for processing a numerical image | |
| DE112013004103T5 (en) | Method and apparatus for generating a disparity card | |
| DE102006055758B4 (en) | Method for calibrating cameras and projectors | |
| DE102017220752A1 (en) | Image processing apparatus, image processing method and image processing program | |
| DE69820578T2 (en) | Methods and means for comparing documents based on the spatial layout | |
| DE69129908T2 (en) | METHOD FOR IMPROVING BRIGHTNESS | |
| DE60019119T2 (en) | System and method for object recognition | |
| DE102019115224A1 (en) | SYSTEM AND METHOD FOR FINDING AND CLASSIFYING LINES IN A PICTURE THROUGH A LAYERING SYSTEM | |
| EP3158543A1 (en) | Method for detecting a viewing-angle-dependent feature of a document | |
| DE102023127343A1 (en) | Method for creating a database for document classes and methods for scanning and processing a document and a device for carrying out these methods | |
| EP3259703A1 (en) | Mobile device for capturing a text range on an identification document |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| R163 | Identified publications notified |