DE60109278T2

DE60109278T2 - Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera

Info

Publication number: DE60109278T2
Application number: DE60109278T
Authority: DE
Inventors: Kongqiao Wang; Jari Kangas
Original assignee: Nokia Oyj; Nokia Inc
Current assignee: Nokia Oyj; Nokia Inc
Priority date: 2001-06-26
Filing date: 2001-06-26
Publication date: 2006-03-30
Anticipated expiration: 2021-06-27
Also published as: US7327882B2; DE60109278D1; CN1395220A; US20030035580A1; EP1271403B1; CN1174344C; EP1271403A1

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Lokalisieren von Zeichen. Sie betrifft ebenfalls das Lokalisieren von Zeichen in einem Bild einer Digitalkamera mit einer minimierten Verwendung von Rechenleistung. Spezifischer betrifft die Erfindung einen einfachen und robusten, auf verbundenen Komponenten basierenden Algorithmus zur Lokalisierung von Zeichen in einer Szene von digitalen Bildern.
Zeichen und Deskriptoren sind Schlüsselobjekte in solchen Bereichen wie Bilder- oder Video-Datenbanken etc. Sie sind allgegenwärtig in Kennzeichen, Anzeigetafeln, Anschlag- bzw. Plakattafeln, Videosequenzen, Textdokumenten und so weiter. Daher sind Zeichen-Extraktion bzw. -Gewinnung und -Erkennung sehr wichtig und haben viele Anwendungen. Beispielsweise wird die Verwendbarkeit von Informationsvorrichtungen wie mobilen Telefonen mit Hilfe von optischer Zeichenerkennungs-(OCR)Technologie verbessert. Videosequenzen können auf Basis der erkannten Zeichen, die in einem oder einigen Rahmen vorhanden sind, automatisch mit Indizes versehen oder etikettiert bzw. beschriftet werden. Die Lokalisierung der Zeichen und deren Extraktion aus Bildern, besonders aus Szenenbildern hat sich aufgrund der folgenden Gründe als schwierig erwiesen.
Erstens sind die Zeichen in einem Bild mit anderen Objekten wie beispielsweise Bauträgern bzw. strukturellen Stäben, Firmenzeichen und Verschmierungen eingebettet.
Zweitens können die Zeichen in jeder Farbe gezeichnet oder gedruckt sein, und die Hintergrundfarbe kann sich nur leicht von der der Zeichen unterscheiden.
Drittens können die Schrift, die Größe und das Format der Zeichen unterschiedlich sein; und schließlich kann die Beleuchtung ungleichmäßig sein.
Frühere Versuche, diese Aufgaben zu lösen, sind in S. Antani, et al, „A robust extraction of text in video" Processing sof IEEE 15^th International Conference on Pattern Recognition, 831–834 beschrieben. S. Antani, et al. nutzen die zeitliche Redundanz von Videosignalen, um eine unbeschränkte Vielzahl von Text aus einem Vielzweck-Video festzustellen und zu extrahieren. Dies wurde durch Kombinieren von Sub-Pixel-Interpolation bzw. Sub-Bildpunkt-Interpolation an einzelnen Rahmen, Integration über mehrere Rahmen über die Zeit, Filtern zur Extraktion von Zeichen und auf Erkennung basierter Zeichenunterteilung durchgeführt.
Ein anderer Versuch, diese Aufgaben zu lösen, wird in Yu Zhang, et al. "Automatical caption localization in compressed video" IEEE Transactions on PAMI 22(4): 385–392, 2000 beschrieben. Yu Zang et. al stellen auf der Basis der Information der Intensitätenvariation, in der bereichs- bzw. domänendiskreten-Kosinustransformation schnelle Texterfassungsverfahren in JPEG komprimierten Bildern und I-Rahmen von MPEG-komprimierten Videos vor.
Jiangying Zhou; Lopresi D.; „Extracting Text from WWW images", PROCEEDINGS OF THE 4TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICADR) ULM, GERMANY, Aug. 18.–20. 1997, LOS ALAMITOS IEEE, Comp. SOC., Seiten 248–252, offenbart Farbanhäufung bzw. color-clustering mittels eines Minimal Spannenden Baums (minimum spanning tree) in dem 3D-Farbraum; wobei die verbundenen Komponenten, die den Farbanhäufungen (color clusters) entsprechen, gemäß ihrer Gestalt in Text und „Nichttext" klassifiziert werden.
Die meisten der vorstehend genannten Versuche sind jedoch auf begrenzte Zeichen oder einen beherschbaren bzw. wählbaren Hintergrund ausgerichtet. Alle vorstehenden Ansätze für Algorithmen zur Mustererkennung haben gemein, dass sie eine gewaltige Rechenleistung erfordern. Sie sind daher aufgrund der geringen Rechenleistung oder geringen Batteriekapazität nicht zur Verwendung in mobilen Vorrichtungen wie beispielsweise mobilen Endgeräte, mobilen Kameras, Mobiltelefonen oder Handcomputern geeignet.
Es ist eine Aufgabe der vorliegenden Erfindung, ein robustes Verfahren zum Lokalisieren bzw. Auffinden von Zeichen in Szenenbildern mit einem komplexen Hintergrund bereitzustellen, das als ein fester Teil eines OCR-Systems bzw. optischen Zeichenerkennungssystems, eines visuellen Übertragungssystems, basierend auf Bereichen von Interesse (ROI), etc. verwendet werden kann.
Es ist eine andere Aufgabe der vorliegenden Erfindung, die erforderliche Rechenleistung zu verringern, um das Verfahren zur Lokalisierung von Zeichen zu beschleunigen.
Es ist eine andere Aufgabe der vorliegenden Erfindung, die erforderliche Rechenleistung zu verringern, um den Stromverbrauch des Algorithmus zum Lokalisieren von Zeichen zu verringern, um es mobilen Vorrichtungen zu ermöglichen, dieses Verfahren in mobilen Vorrichtungen auszuführen.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Lokalisieren von Zeichen in digitalen Bildern bereitgestellt, das ein Bildüberlagerungsverfahren bzw. ein Verfahren des Gruppierens eines Bildes in verschiedene Lagen verwendet. Das Verfahren ist gekennzeichnet durch Schritte von zuerst einem Umwandeln der digitalen Daten des digitalen Bildes in normierte digitale Farb-Bilddaten und in digitale Grauwert-Bilddaten, gefolgt von einem Verwerfen redundanter Komponenten der normierten digitalen Farb-Bilddaten und normierten digitalen Farb-Bilddaten. Dann werden binäre Bildlagen aus den nicht verworfenen Grauwert-Bilddaten und normierten Farb-Bilddaten gemäß einem Überlagerungsverfahren erzeugt, gefolgt von einem Erkennen von verbundenen Komponenten, die Zeichen darstellen können, in den binären Bildlagen.
Das Verfahren nutzt primär vier verschiedene Prinzipien zur Lokalisierung von Zeichen: Erstens normierte Farbräume, zweitens Verwerfen redundanter Elemente in dem Farbraum, drittens ein Farb-Überlagerungsverfahren und viertens einen Algorithmus, um verbundene Komponenten in den jeweiligen Farblagen zu erkennen. Dadurch ist es nicht wichtig, welcher Farbraum verwendet wird. Die Tatsache, dass das menschliche Auge lediglich Licht mit einer Wellenlänge zwischen etwa 390 und 770 nm wahrnehmen kann, sollte nicht zu der Einschränkung eines Vision-Systems bzw. Sichtsystems auf diesen beschränkten Wellenlängenbereich führen. Dieses Verfahren kann auf alle Wellenlängenbereiche und alle Farbräume angewendet werden, die in Bildsystemen angewendet werden. Die Prinzipien dieser Erfindung können auf Bilder von Infrarot-(IR) oder Ultraviolett-(UV)Kameras angewendet werden, solange diese Bilder „Farbbilder" sind. Der gewählte Farbraum kann ein auf drei Komponenten basierender Farbraum wie rot-blau-grün (RGB), Farbton Sättigung Intensität (HSI), Cyan Magenta Gelb (CMY), Cyan Magenta Gelb Schwarz (CMYB), commission illumination d'eclairage (CIE), YIQ und so weiter sein. Selbst alternative Farbräume mit mehreren Komponenten, die einen Bereich von Wellenlängen umfassen können, der für das menschliche Auge unsichtbar ist, können für die Erfindung verwendet werden. Das Schlüsselmerkmal der vorliegenden Erfindung ist die Verwendung von Daten eines digitalisierten Farbbildes, das Transformieren der Farbdaten des Bildes in einen normierten Farbraum und das Verwerfen von redundanten Elementen des sich ergebenden Datensatzes. Die normierten Farbdaten sind unabhängig von Schatten in dem Bild und die Dimensionen des Farbraums können um mindestens eine verringert werden. Das Verfahren kann sogar die Grauwert-Bilddaten verwerfen, wenn sie nur redundante Daten enthalten. Das Verfahren kann weiter einen zusätzlichen Schritt umfassen, um die normierten Farbdaten daraufhin zu überprüfen, ob der Farbraum um eine zusätzliche Dimension verringert werden kann, beispielsweise, ob ein Histogramm keine erkennbaren Extremwerte umfasst oder der Überlagerungsalgorithmus nur eine Lage feststellt.
Es ist anzumerken, dass das Verfahren ebenfalls mit Schwarzweiß-Bildern verwendet werden kann. Es ist nicht wichtig, ob das digitale Bild in einem Farbbild-Format oder in einem Grauwert-Format vorliegt. Das Verfahren kann einen zusätzlichen Schritt umfassen, um das Bildformat zu überprüfen und um die Farbnormierung zu überspringen, um Rechenressourcen zu sparen. Wahlweise werden die normierten digitalen Farbdaten erzeugt und verworfen, wenn der Algorithmus die Redundanz oder den Null-Informationsgehalt der normierten Farbdaten überprüft bzw. feststellt. Die redundanten Farblagen werden spätestens während des Überlagerungsverfahrens verworfen, da keine Lage von den normierten Farbdaten eines Schwarzweiß-Bildes erzeugt werden kann.
In 2 wird das Verfahren der Verringerung der Dimensionen unter Bezugnahme auf den RGB-Farbraum beschrieben.
Vorzugsweise werden die binären Bilddaten durch Berechnen von Histogrammen, die die Frequenzverteilungsfunktion der digitalen Grauwert-Bilddaten und der normierten digitalen Farb-Bilddaten darstellen, und Erzeugen von binären Bildlagen gemäß den Extremwerten erzeugt, die in den berechneten Histogrammen vorliegen.
Farb-Überlagerung bzw. color-layering, auch Farb-Anhäufung bzw. color-clustering genannt, ist eine wichtige Aufgabe der Bildanalyse. Es ist ein Vorgang des Gruppierens eines Farbbildes in verschiedene Lagen oder Anhäufungen bzw. Cluster. Es wird darauf hingewiesen, dass alle Pixel bzw. Bildpunkte in jeder Lage eine einheitliche bzw. gleichmäßige Farbe haben sollten.
Das Verfahren ist nicht auf Histogramm-basierte Lagen- bzw. Überlagerungsalgorithmen beschränkt. Jeder alternative Lagen- bzw. Überlagerungsalgorithmus, der geeignet ist, merkmalsbezogene Lagen zu erzeugen, kann geeignet sein. Ein Beispiel für ein Überlagerungsverfahren wird Farb-Quantisierung genannt. In diesem Verfahren wird jede Komponente des Bildes beispielsweise von 256 auf weniger Niveaus bzw. Ebenen bzw. Werte, beispielsweise auf 4 verringert. Dann werden verschiedene quantisierte Farbniveaus gruppiert, um eine Farblage zu erhalten.
Vorzugsweise werden die Histogramme bearbeitet, um irgendwelche durch Rauschen bedingte Extremwerte in den Histogrammen zu entfernen, bevor die binären Bildlagen erzeugt werden. Die Verwendung der Bearbeitung der Histogramme wird in der Beschreibung der 3 und 4 beschrieben.
Vorteilhaft nutzen die Erkennungsalgorithmen zum Erkennen von verbundenen Komponenten einen auf einem Schwarz-Nachbarschaftsgraphen bzw. Schwarzgrenzen-Graphen (black adjacency graph) (BAG) basierenden Algorithmus an den binären Bildlagen, um verbundene Komponenten (CC) zu erkennen, die in dem digitalen Farbbild enthaltene Zeichen darstellen können.
Das Verfahren der vorliegenden Erfindung ist nicht auf die Verwendung eines Algorithmus beschränkt, der auf BAG basiert. Jeder Algorithmus, der verbundene Komponenten sucht, ist geeignet, beispielsweise bildpunktbasiertes Gegenstandsanhäufen (pixel based object clustering) siehe Mark M W, "A lip-tracking system based on morphological processing and block matching techniques", Signal Processing: Image Communication, 1994, 6: 335–348.
Vorteilhafterweise werden die oberen, unteren, linken und rechten Grenzen der verbundenen Komponenten als Zeichenbox bzw. Bounding Box in den binären Bildlagen registriert. Die Zeichenboxen werden beispielsweise in 6 dargestellt.
Vorzugsweise werden die binären Bildlagen auf eine einzelne Ebene abgebildet.
Bevorzugt wird jede Zeichenbox gemäß vorbestimmter Größenwerte und Positionen der Zeichenbox in den binären Bildlagen oder der einzelnen Ebene verworfen oder beibehalten. Entsprechend den Merkmalen der Zeichenboxen, verbundenen Komponenten (CC) oder Zeichen, können die CCs mit einer zu großen Fläche oder die CCs, die mit der Grenze des untersuchten Bildes verbunden sind, gelöscht werden. Es ist anzumerken, dass keine Betrachtung der CCs sinnvoll ist, die mit der Grenze des Bildes verbunden sind, obwohl sie Zeichen oder Teile von Zeichen sein können, da die Betrachter ein größeres Interesse an den Zeichen haben, die in den Zentren von Bildern vorliegen. Die mit der Grenze verbundenen CCs können nur einen Abschnitt eines Zeichens oder einer Reihe von Zeichen darstellen, sodass ein möglicherweise nachfolgender Zeichenerkennungsalgorithmus oder ein möglicherweise nachfolgende Ausrichtungs- und Zusammenfassungs- bzw. Verschmelzungs-Analyse-(alignment and merging Analysis)Verfahren falsche Ergebnisse erzeugen kann.
Vorteilhaft werden die Zeichenboxen einem Ausrichtungs- und Zusammenfassungs-Analyse-(AMA)Verfahren unterworfen, um die Größen und Positionsverhältnisse der Zeichenboxen zu bestimmen, um verschiedene Zeichenboxen zusammenzufassen und um alle Zeichenboxen zu verwerfen, die in Größe und/oder Position nicht in Beziehung zueinander stehen. Das AMA-Verfahren wird in 6 beschrieben. In der Figur steht jede mit einer Zahl bezeichnete Box für eine Box einer verbundenen Komponente (CC) oder eine Zeichenbox, die ein ganzes Zeichen oder ein Teil eines Zeichens sein kann. Die verbundenen Komponentenkeime bzw. verbundene Komponentensaat (CCS) gibt die Größe von potenziellen zu lokalisierenden Zeichen vor. Nach der AMA kann der Algorithmus vier Klassen von potenziellen Zeichen lokalisieren, d.h. ganze Zeichen, verschmolzene Zeichen, reduzierte bzw. geschrumpfte bzw. flache Zeichen und schmale Zeichen, beispielsweise sind die Zeichen "
" bzw. "
" ein ganzes und ein verschmolzenes Zeichen, "
" jedoch ist ein schmales bzw. geschrumpftes bzw. flaches Zeichen und die Zahl "1" oder der große Buchstabe "I" sind ein schmales Zeichen.
Vorzugsweise werden die Inhalte der Zeichenboxen einer Identifikation eines Zeichenbereichsalgorithmus unterworfen, um zu bestimmen, ob sie ein Zeichen enthalten oder nicht. Für eine detaillierte Beschreibung eines Beispiels eines Zeichenidentifikationsalgorithmus wird auf 7 verwiesen.
Bevorzugt werden die digitalisierten Farb-Bilddaten vorbearbeitet, bevor sie in die normierten digitalen Farbdaten umgewandelt werden. Das Vorverarbeiten bzw. Vorbearbeiten der Bilddaten kann verwendet werden, um fehlerhafte Komponenten oder Rauschen zu entfernen.
Vorteilhafterweise wird das Vorverarbeiten mittels eines anisotropen Diffusionsverfahrens ausgeführt, das auf einem gewichteten Medianfilter (WMFAD) basiert. Das WMFAD-Verfahren kann verwendet werden, um Rauschen der Kamera in den eingegebenen Farbszenenbildern zu entfernen. Es kann auf Farbbilder ausgedehnt werden. Es besitzt nicht nur die Vorteile des herkömmlichen anisotropen Diffusionsverfahrens (TAD), sondern kann ebenfalls kleine Merkmale mit hohem Kontrast, etwa Schlieren bzw. Schmierungen in einer natürlichen Szene, effektiv entfernen. Die Prinzipien des TAD- und WMFAD-Verfahrens werden in 1 dargestellt und beschrieben.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Computerprogramm zum Ausführen des Verfahrens zum Lokalisieren von Zeichen in Bildern bereitgestellt, das Programmkodemittel umfasst, um alle Schritte der vorstehenden Beschreibung auszuführen, wenn das Programm auf einem Computer oder einer Netzwerkvorrichtung ausgeführt wird.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt bereitgestellt, das auf einem computerlesbaren Medium gespeicherte Programmcodemittel umfasst, um das Verfahren zum Lokalisieren von Zeichen in Bildern der vorstehenden Beschreibung auszuführen, wenn das Programm auf einem Computer oder einer Netzwerkvorrichtung ausgeführt wird.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Ausführen eines Verfahrens gemäß eines der Ansprüche 1 bis 9 bereitgestellt. Die nützlichen Merkmale können beispielsweise in Kameras oder Camcordern enthalten sein.
Vorzugsweise ist die Vorrichtung ein mobiles Endgerät. Dieses mobile Endgerät kann in anderen Vorrichtungen wie beispielsweise einem Mobiltelefon enthalten sein, um beispielsweise zusätzliche Merkmale zu bieten. Beispielsweise kann ein mobiles Telefon mit einer integrierten Kamera das erfindungsgemäße Merkmal der Zeichenlokalisierung verwenden, um beispielsweise ein FAX oder eine SM (Kurznachricht) aus einem geschriebenen Text zu erzeugen. Durch die Verwendung einer Kamera ist es nicht notwendig, einen eingebauten oder separaten Scanneranschluss in das mobile Endgerät zu integrieren. Zusätzlich kann ein derartiges mobiles Telefon sehr klein gebaut werden. Um eine derartige optische Zeichenerkennungs-(OCR)/Scannerfunktion zu verbessern, kann das mobile Telefon mindestens eine Laserdiode aufnehmen, um einen gewählten Abschnitt des gescannten Gegenstandes sichtbar zu machen. Der Strahl der Laserdiode kann ebenfalls verwendet werden, um dem optischen System des mobilen Endgeräts eine Autofokus- bzw. eine automatische Scharfstellungs-Funktion bereitzustellen.
Im Folgenden wird die Erfindung unter Bezugnahme auf die beigefügte Zeichnung im Detail beschrieben, wobei:
1 ein TAD-Vorverarbeitungsverfahren beschreibt;
2 die Verringerung der Dimensionen des Farbraums aufgrund der Verwendung eines normierten Farbraumes darstellt;
3 und 4 Beispiele für ein Reduzierungsverfahren in dem Farb-Überlagerungsverfahren sind;
5 die Prinzipien der Erzeugung von binären Lagen aus den in den Histogrammextrema enthaltenen Information darstellt;
6 die Prinzipien eines auf verbundenen Komponenten basierenden Ausrichtungs- und Zusammenfassungs-Analyse-(AMA)Verfahrens dar stellt; und
7 ein Beispiel für eine Identifikation von Zeichenbereichen ist.
1 beschreibt das TAD-Verfahren zum Glätten von Störungen in dem digitalen Farbbild. Alle Szenenbilder einer digitalen Kamera sind vollständig mit Rauschen behaftet. Es gibt zwei Hauptarten von Rauschen, eines ist das stochastische Rauschen, das hauptsächlich durch die Kamera selbst verursacht wird, und das andere ist „Salz und Pfeffer"-Rauschen aufgrund von Schmierern bzw. Schmieren in der natürlichen Szene. Vor dem Farb-Überlagerungsverfahren sollten sie soweit wie möglich entfernt werden, da sonst keine guten Ergebnisse der Farb-Überlagerung erhalten werden können. Eine Möglichkeit, um „Salz und Pfeffer"-Rauschen zu verringern, besteht darin, eine anisotrope Diffusion an Szenenbildern anzuwenden. Die 4-verbundene diskrete Approximation (4-connected, discrete approximation) der herkömmlichen anisotropen Diffusion (TAD) wird durch I(t + 1) = I(t) + λΣ DcD∇DI(t) D ∊ {N, E, S, W} (1)umgesetzt, wobei ∇ ein Gradient-Operator,
(wobei K eine Konstante ist) der Leitkoeffizient ist, der sich im Raum verändert, und der gewählt wird, um in großen homogenen Bereichen groß zu sein, um das Glätten zu fördern, und an Kanten klein zu sein, um Strukturen aufrecht zu erhalten (1).
Dadurch, dass die anisotrope Diffusion vollständig auf lokalen Gradienten basiert, wird ein Filter erzeugt, der in der Lage ist, ein Bild zu glätten, während Kantenbereiche aufrechterhalten werden. Es ist jedoch unmöglich, kleine Merkmale mit hohem Kontrast zu entfernen. Diese Eigenschaft macht die anisotrope Diffusion zur Entfernung von einigen spezifischen Rauscharten, wie „Pfeffer und Salz Rauschen", ungeeignet. Um dieses Problem zu lösen, wurde eine auf einem gewichteten Median basierende, anisotrope Diffusion (WMFAD) verwendet, und auf Farbbilder ausgeweitet.
Die Intensitätskomponente Y wird berechnet, und dann wird unter Verwendung eines gewichteten Medianfilters gefiltert, um den Median (Y) zu erhalten.
Der anisotrope Diffusionskoeffizient wird auf der Basis des Median (Y) berechnet. Basierend auf demselben Leitkoeffizienten wird das anisotrope Diffusionsverfahren an den Komponenten des Farbbilds, beispielsweise den drei R-, G-, bzw. B-Komponenten des Farbbildes bzw. dem geglätteten Farbbild ausgeübt.
Die Ersetzung eines neuen nichtlinearen Leitkoeffizienten in (1) führt zu dem WMFAD-Verfahren:
wobei Y die Komponente der Beleuchtung des bearbeiteten Farbbildes; und Median (Y) das Ergebnis des Filterns mit dem gewichteten Median nach Y durch die Maske:
ist.
Durch Ausüben des WMFAD-Verfahrens auf jeweils die Komponenten, beispielsweise die drei Komponenten (Rot, Grün und Blau) des Farbbildes, d.h. es sei I ∊ {R, G, B}, wird die Vorbearbeitung des Farbbildes umgesetzt.
2 stellt die Verringerung der Dimensionen des Farbraumes aufgrund der Verwendung eines normierten Farbraums dar. Farb-Überlagerung, auch als Farbgruppierung bezeichnet, ist eine wichtige Aufgabe in der Bildanalyse. Es ist ein Fortschritt, Farbbilder in verschiedene Lagen oder Anhäufungen zu gruppieren. Es ist anzumerken, dass all die Bildpunkte in jeder Lage eine homogene bzw. einheitliche Farbe haben sollten. Zur Erleichterung der Zeichenerfassung in Szenenbildern verwendet das Verfahren zum Lokalisieren von Zeichen ein Farb-Überlagerungsverfahren, um alle Bildpunkte in einem Szenenbild zu gruppieren. Als ein Ergebnis werden die Zeichen und der Hintergrund jeweils in verschiedene Lagen gruppiert.
Die verschiedenen Farbräume, die heute verwendet werden, schließen ein: Rot Blau Grün (RGB), normiertes RGB (rgb), Farbton Sättigung Intensität (HSI), Cyan Magenta Gelb (CMY), Cyan Magenta Gelb Schwarz (CMYB), commission illumination d'eclairage (CIE), YIQ und so weiter. RGB, normiertes RGB (rgb) werden jedoch oft verwendet. Der RGB-Raum ist ein Grundfarben-Raum. Jede der Komponenten in dem RGB-Raum kann direkt von dem Bitmap-Bildformat erhalten werden und sie sind stark korreliert und nicht voneinander unabhängig. Der HSI-Raum ist im Hinblick auf die menschliche Farbwahrnehmung bemerkenswert populär. Er charakterisiert Farbe in Ausdrücken von Farbton-, Sättigungs-, und Intensitätskomponenten, wobei eine typische Definition gegeben ist durch:
Dabei verwendet arctan (y/x) die Zeichen von sowohl y als auch x, um den Quadranten zu bestimmen, in dem der Winkel liegt, der sich ergibt. Allgemein wird der Farbton als der Winkel zwischen einer Referenzlinie und dem Farbpunkt in dem RGB gedacht bzw. angesehen. Die nichtlineare Transformation von RGB nach HIS hat jedoch die ungünstige Eigenschaft einer nicht entfernbaren bzw. nicht hebbaren Singularität auf der Achse des HSI Farbzylinders, an der R = G = B (Sättigung = 0) ist, die bei der Rechnung zu Unannehmlichkeiten führt. Der normierte RGB (rgb) ist auch auf den RGB-Raum zurückzuführen.
Die Transformationsformel ist:
Von der vorstehenden Transformationsformel kann bemerkt werden, dass eine der drei Komponenten r, g, b redundant ist, und dass jeweils zwei dieser drei Komponenten den ganzen Farbraum beschreiben können. Daher komprimiert die Umwandlung bzw. die Transformation von drei Dimensionen auf zwei Dimensionen (wie in 2 gezeigt), was zur Farbraumverarbeitung nützlich ist. Aus Sicht der Bildverarbeitung kann, obwohl der normierte RGB (rgb) Raum nicht der menschlichen Sehwahrnehmung entspricht, er den Effekt der Beleuchtung abschwächen. 2 zeigt die Transformation von dem 3D-RGB-Raum über eine 2D-rgb-Fläche, die als der Raum für Farbüberlagerung verwendet wird. Es ist ersichtlich, dass dieses Prinzip auf jeden anderen Farbraum angewendet werden kann. Es ist weiter ersichtlich, dass anstelle der rg-Fläche jede andere Farbfläche, beispielsweise die gb- oder die rb-Fläche gewählt werden kann.
3 und 4 stellen ein Prinzip eines auf Histogrammen basierenden Farb-Überlagerungsalgorithmus dar. Für ein Grauwertbild, das aus den Bereichen mit sanften bzw. schwachen Änderungen zusammengesetzt ist, entsprechen diese Bereiche des Bildes oft den Höhepunkten bzw. Maximalwerten seines Histogramms. Falls diese Maximalwerte richtig festgestellt und segmentiert bzw. aufgeteilt werden, können die Bereiche des Bildes durch die entsprechenden Täler oder Höhepunkte erfolgreich aufgeteilt werden. Tatsächlich ist jedoch jedes Bild durch Rauschen verunreinigt. Rauschen trägt immer zu Rausch-Höhepunkten bzw. Spitzen bei, die sich mit realen Höhepunkten überschneiden, was eine Bildaufteilung unzuverlässig macht. 3 zeigt ein Histogramm eines Bildes. Durch das Histogramm ist das Bild tatsächlich aus vier Bereichen mit sanften Übergängen zusammengesetzt, auf Grund von Rauschverzerrung werden jedoch neun Täler V1 bis V9 (zehn Höhepunkte) zur Lokalisierung in dem Histogramm festgestellt. Falls das Bild durch die neun Täler in Lagen aufgeteilt bzw. überlagert wird, werden zehn anstelle von vier Lagen erhalten. 3 ist ein Histogramm, bei dem sich die Rauschextrema mit den Realen eines Tals überschneiden. 4 ist eine Beschreibung der linken und rechten Höhe eines Tals. Viele Techniken zur Entfernung von Rauschextremwerten wurden bisher entwickelt, wie beispielsweise eine fingerabdruckbasierte Maßstab-Raumfilterstrategie (fingerprint-based scale space filtering strategy). In diesem Dokument wird ein einfacher aber robuster Algorithmus für diese Aufgabe vorgestellt.
Der Algorithmus ist wie folgt (unter Bezugnahme auf 3) in vier Schritte gegliedert:
Schritt 1: Initialisierung. Die linken und rechten Höhen bzw. Anhöhen jedes Tals werden (wie in 3 gezeigt) berechnet. Ein Schwellwert wird für die linken und rechten Höhen des Tals gesetzt.
Schritt 2: Entfernen der Rauschtäler. Jedes Tal, dessen linke und rechte Höhe beide kleiner als der gesetzte Schwellwert sind, wie V6 und V8, wird entfernt. Diese Art der Rauschtäler wird als die erste Klasse von Rauschtälern bestimmt. Jedes Tal, dessen rechte oder linke Höhe (wie in 4 dargestellt) kleiner als der gesetzte Schwellwert ist, wie V1, V3, V4, V7 und V9, wird entfernt. Diese Art Täler können als die zweite Klasse von Rauschtälern bestimmt werden.
Schritt 3: Erzeugen von neuen Tälern: Wenn ein oder mehrere Rauschtäler der ersten Klasse (kein anderes Tal, keine anderen Täler) zwischen zwei Rauschtälern der zweiten Klasse vorhanden sind, wird ein neues Tal, wie V10, das in der Mitte der zwei Rauschtäler der zweiten Klasse angeordnet ist, erzeugt werden.
Schritt 4: das Ende. Die verbleibenden Täler (wie V2 und V5) und das neu erzeugte Tal (wie V10) bzw. die neu erzeugten Täler werden für die Bildüberlagerung als die Realen angesehen.
Es wird bemerkt, dass das neu erzeugte Tal bzw. die neu erzeugten Täler nicht korrekt sein können, was sich jedoch nicht signifikant auf das Ergebnis der Überlagerung auswirkt.
Zusätzlich ist zu bemerken, dass ein analoger Algorithmus verwendet werden kann, um das Histogramm zu glätten, in dem die Anzahl der Höchstwerte bzw. Höhen in dem Histogramm verringert wird.
5 stellt die Prinzipien der Erzeugung von binären Lagen bzw. Binärlagen aus der Information dar, die in den Extrema des Histogramms enthalten sind. Die Erklärung des Farb-Überlagerns wird auf der Basis der vorstehenden Beschreibung des Histogrammerzeugungs- und Extremwertverringerungs-Verfahrens leicht einfacher. Für jedes Farbbild müssen seine normierten Komponenten, beispielsweise normierte RGB (rgb) vorher berechnet werden. Tatsächlich werden nur zwei Komponenten benötigt, wobei hier die r- und g-Komponenten gewählt sind. Dann werden jeweils die Histogramme von r und g gezählt. Schließlich kann durch Anwenden des vorstehenden Verfahrens zum Entfernen von Rauschextrema an jedem der beiden Histogramme das Farbbild in mehrere Anhäufungen (Farblagen genannt) durch:
gruppiert werden.
Dabei sind x und y die Zeilen und Spalten des Bildes, u ist ein Index für gruppierte Lagen oder Anhäufungen, und "∩" ist der logische UND Operator. 5 zeigt ein Beispiel, in dem zwei Täler für die r-Komponente und nur ein Tal für die g-Komponente vorliegen, sodass das Bild in sechs Lagen gruppiert wird (wobei jedes Rechteck für eine Lage oder eine Anhäufung steht). Das Rechteck, das wenige Bildpunkte aufweist, kann nicht als eine gültige Lage erachtet werden. In einem zusätzlichen Schritt des Algorithmus kann die Anzahl der Bildpunkte in einer Lage in Bezug auf einen absoluten oder relativen Schwellwert überprüft werden. Das Rechteck oder die jeweilige Lage kann verworfen werden, wenn sie unterhalb des Schwellwertes liegt. Wahlweise wird die Anzahl von Bildpunkten, die in jedem Rechteck enthalten sind, gezählt, und nur Rechtecke, in denen die gezählte Anzahl von Bildpunkten größer ist als ein vorbestimmter Schwellwert zu gültigen Lagen erklärt. In 5 wird die normierte Farbfläche durch die Täler gruppiert. Es ist möglich, eine Lage durch einen Maximalwert eines Höchstwerts und gemäß beispielsweise der Koordinaten der Halbwertsbreiten der Höchstwerte zu bestimmen. Es ist möglich, eine Lage ebenfalls durch einen Maximalwert eines Höchstwerts und gemäß beispielsweise des halben Abstandes zu dem benachbarten Höchstwert zu bestimmen. Es ist hervorhebenswert, dass ein gutes Ergebnis des Bild-Überlagerungsverfahrens unter der Voraussetzung nicht erhalten werden kann, dass die Zeichen (Vordergrund) und der Hintergrund alle grau sind, beispielsweise, wenn die Zeichen schwarz sind, während der Hintergrund weiß ist, da die verschiedenen Grauwerte die gleiche normierte Farbe aufweisen d.h. r = 1/3 und g = 1/3. Ihre Intensitäten sind jedoch üblicherweise völlig verscheiden. Wie hervorgehoben, wird das aus dem entsprechenden Farbbild transformierte bzw. umgewandelte Grauwertbild in Bezug auf die Täler in seinem Grau-Histogramm überlagert. Zur Bequemlichkeit wurden alle diese Graulagen und Farblagen Binärlagen abgetastet bzw. genannt. Nach dem Überlagerungsverfahren wird ein Bild in verschiedene Farblagen gruppiert. Tatsächlich ist jede Lage ein binäres Bild, was bedeutet, dass jeder Bildpunkt jeder Binärlage einen Informationsgehalt von 1 Bit aufweist, beispielsweise sind die Bildpunkte der Binärlagen schwarz oder weiß.
6 zeigt die Prinzipien eines auf verbunden Komponenten basierenden Ausrichtungs- und Zusammenfassungs-Analyse-(AMA)Verfahrens. Nach dem Überlagerungsvorgang wird das Farbbild in verschiedene Binärlagen gruppiert. Tatsächlich ist jede Binärlage ein binäres Bild wie die in 7 dargestellte Punktmatrix. Um potenzielle Zeichen zu erkennen, ist eine Analyse jedes verbundenen schwarzen Bereichs (auch verbundene Komponente genannt) in der Farblage notwendig. Ein gewöhnlicher Analyseansatz ist der Schwarz-Nachbarschaftsgraph (BAG). Das analysierte binäre Bild wird als ein BAG vorgelegt. Eine auf BAG basierende CC-Analyse kann sowohl die Gestalt- als auch die Strukturinformation jeder CC mit geringem Berechnungsaufwand erhalten. Das Ergebnis einer auf BAG basierten CC-Analyse ist eine Liste von verbunden Komponenten (CCs) für jede Farblage. Die oberen, unteren linken und rechten Grenzen können registriert bzw. eingetragen werden. Gemäß den Merkmalen der Zeichen können die CCs zuerst bestimmt werden, die einen zu großen Bereich aufweien, oder die mit der Grenze des analysierten Bildes verbunden sind. Es wird bemerkt, dass keine Betrachtung der CCs sinnvoll ist, die mit der Grenze des Bildes verbunden sind, auch wenn sie Zeichen oder Teile von Zeichen sein können, da Beobachter öfter ein größeres Interesse an den Zeichen haben, die in dem Zentralbereich von Bildern existieren. Manchmal sind die Zeichenboxen einiger CCs miteinander verbunden, wobei jeder von ihnen einen Teil desselben Zeichens ist (vorausgesetzt sie bilden ein Zeichen), es kann daher nützlich sein, diese CCs durch die Bedingung
zusammenzufassen.
Dabei sind S1 und S2 die Bereiche jeweils zweier verbundener CC Zeichenboxen, und S ist ihr überlappender Bereich. Th1 ist ein vorbestimmter oder berechneter absoluter oder relativer Schwellwert. Die zwei CC Zeichenboxen werden zusammengefasst, um eine neue zusammengefasste Zeichenbox zu erzeugen, die der Einfachheit wegen ebenfalls als eine CC Zeichenbox betrachtet wird. Schließlich werden die CCs mit einem zu kleinem Bereich gelöscht.
In vielen Sprachen, speziell in Chinesisch und Japanisch, sind Zeichen normalerweise aus einem oder mehreren Strichen bzw. Zügen zusammengesetzt, und die verschiedenen Striche, die ein Zeichen bilden, sind oft nicht miteinander verbunden. Daher enthält ein Zeichen oft mehr als eine CC Zeichenbox. In jeder Farblage müssen einige benachbarte CCs richtig zusammengefasst werden, um ein ungekürztes Zeichen zu erhalten. Wenn beliebige zwei benachbarte Zeichen weit auseinander liegen, können die CCs über einige Abstandsschwellwerte, die durch die Lokalisierung bzw. Anordnung oder die Größenbeziehung unter den CCs bestimmt sind, richtig zusammengefasst werden, um die ganzen Zeichen zu erhalten. Wenn jedoch beliebige zwei benachbarten Zeichen sehr nahe beieinander liegen, kann das vorstehende einfache Zusammenfassungsschema nicht verwendet werden, um ein gutes Resultat zu erhalten.
In der realen Welt jedoch werden Zeichen intuitiv in Reihen oder Spalten vorliegen, und die Zeichen, die in einer Reihe oder Spalte ausgerichtet sind, dieselbe Größe aufweisen. Die folgenden robusten Ausrichtungs- und Zusammenfassungs-Analyse-(AMA)Verfahren nutzen diese beiden typischen Merkmale.
Der Schlüssel zur Ausrichtungs- und Zusammenfassungs-Analyse in Farblagen liegt darin, die richtige verbundene Komponentensaat bzw. „Saat-Verbundene-Komponenten" CCSs auszuwählen. Nachdem die CCSs ausgewählt wurden, werden sie als Referenz betrachtet, und andere potenzielle Zeichen können in der Farblage durch die Zeichengröße und ihre Ausrichtungsverhältnis ausfindig gemacht werden. Falls ein CC ein ganzes Zeichen ist, sollten seine Höhe (CCH) und seine Breite (CCW) die Formeln erfüllen:
Worin Th₂ und Th₃ vorbestimmte oder berechnete absolute oder relative Schwellwerte sind. Für chinesische und japanische Zeichen können Th₂ und Th₃ gleich sein.
In jeder Farblage können die CCs, die die vorstehenden Formeln erfüllen, als CCSs bestimmt werden. Diese CCSs werden als die vorgegebenen potenziellen Zeichen erachtet, und irgendwelche anderen CCs sind möglicherweise nur Teile von möglichen bzw. potenziellen Zeichen.
Das AMA-Verfahren besteht aus zwei Teilen: Zeilenanalyse und Spaltenanalyse. Da beide Arten der Analyse in der Methodik sehr ähnlich sind, werden nur die Einzelheiten der Zeilenanalyse angegeben. In einer Farblage wird die Lage jedes CC(k) durch die Zeichenbox RECT(k) (wie in 6 gezeigt) registriert bzw. eingetragen. Während der AMA-Zeilenanalyse werden die potenziellen Zeichen, mit jedem CCS als Referenz, in den linken und rechten Seiten der CCS jeweils durch einige Regeln herausgesucht, wie beispielsweise der Ausrichtung zu den CCS, dem durch die CCS bestimmten Bereich, etc., dann werden, in der CCS-Reihe von links nach rechts alle gesuchten Kandidaten (einschließlich der CCS) zum Registrieren wieder angeordnet. Die Anzahl der Kandidaten wird an jeden Kandidaten als sein Zeilenausrichtungswert verteilt.
Eine mögliche Ausführungsform einer AMA-Zeilenanalyse kann unter Bezugnahme auf 6 wie folgt beschrieben werden:

(A) In jeder Farblage, wird der Zentralpunkt (CP) bzw. Mittelpunkt jedes CC berechnet (nur für die Zeichenbox 1 dargestellt);
(B) Unter Bezugnahme auf ein CCS(k), wird der Bereich der potenziellen Zeichen durch die Bedingungen entschieden: Oberes_Max = RECT(k, Oben) – k1·RECT(k, Höhe), Oberes_Min = RECT(k, Oben) + k1·RECT(k, Höhe), Unteres_Max = RECT(k, Unten) + k1·RECT(k, Höhe), Unteres_Min = RECT(k, Unten) – k1·RECT(k, Höhe), Max_Breite = (1 + k2)·RECT(k, Breite), Min_Breite = (1 – k2)·RECT(k, Breite), (0 < k1, k2 < 0.5);
(C) Von RECT(k, rechts) zu der rechten Grenze des Bildes, Oberes_Max bis Unteres_Max, werden alle CC-Boxen, deren Mittelpunkte in dem Bereich liegen, gesucht bzw. untersucht. Unter der Annahme, dass ihre Mittelpunkte CP(i), i = 0, 1, 2, ..., n, sind. Wenn i gleich 1 gesetzt wird, beginnt das Ausrichtungs- und Zusammenfassungs-Analyse-Verfahren;
(D) Der RECT(i), dessen Mittelpunkt CP(i) ist, wird eingegeben;
(E) Falls der RECT(i) die Bedingungen Oberes_Max < RECT(i, Oben) < Oberes_Min, Unteres_Min < RECT(i, Unten) < Unteres_Max, Min_Breite < RECT(i, Breite) < Max_Breite,erfüllt, dann wird er als ein ganzes potenzielles Zeichen registriert, und i wird um eins erhöht, es wird sich zu Schritt (D) gewandt bzw. zu Schritt (D) übergegangen und der nächste Kandidat untersucht; oder zu (F) übergegangen;
(F) RECT(i) und RECT(i + 1) werden zusammengefasst, um die zusammengefasste Zeichenbox MRECT(i, i + 1) zu erhalten;
(G) Wenn MRECT(i, i + 1) eine der folgenden Bedingungen erfüllt: MRECT(i, i + 1, Oben) < Oberes_Max, MRECT(i, i + 1, Unten) > Unteres_Max, MRECT(i, i + 1, Breite) > Max_Breite,dann gehe über zu (H); falls MRECT(i, i + 1) die Bedingungen Oberes_Max < MRECT(i, i + 1, Oben) < Oberes_Min, Unteres_Min < MRECT(i, i + 1, Unten) < Unteres_Max, Min_Breite < MRECT(i, i + 1, Breite) < Max_Breite,erfüllt, dann ist MRECT(i, i + 1) ein zusammengefasstes potenzielles Zeichen. Nachdem i um eins erhöht wurde, gehe über zu (D); der nächste Kandidat wird untersucht; oder lasse RECT(i + 1)←MRECT(i, i + 1), Nachdem i um 1 erhöht wurde gehe über zu (f), und fahre fort, die nachfolgende CC Box zusammenzufassen.
(H) In der zusammengefassten Zeichenbox MRECT(i, i + 1) ist, falls eine CC-Box RECT(x), vorhanden ist, die die Bedingungen Oberes_Max < RECT(x, Oben) < Oberes_Min, Unteres_Min < RECT(x, Unten) < Unteres_Max, RECT(x, Breite) < 3·RECT(x, Höhe),erfüllt, ist die CC ein schmales potenzielles Zeichen, so wie die Nummer „1", der lateinische Buchstabe „I" und so weiter; falls die Zeichenbox RECT(x) die Bedingungen Oberes_Min < RECT(i, Oben), RECT(i, Unten) < Unteres_Min, Min_Breite < RECT(i, Breite) < Max_Breite, RECT(i, Höhe) < 3·RECT(i, Breite),erfüllt, dann ist die CC ein flaches potenzielles Zeichen, beispielsweise das Zeichen „
". Falls i = n, gehe über zu (I), falls nicht, gehe übe zu (D), und der nächste Kandidat wird gesucht bzw. untersucht.
(I) Das vorstehende Verfahren wurde ergriffen bzw. übernommen, um alle die CC Zeichenboxen die in der linken Seite der CCS Zeichenbox liegen zu analysieren, wobei einige potenzielle Zeichen ebenfalls erhalten werden können. Alle potenziellen Zeichen (einschließlich der CCS) müssen von rechts nach links wieder angeordnet werden, und die Anzahl der potenziellen Zeichen wird gezählt. Die Anzahl ist der Zeilenausrichtungswert der potenziellen Zeichen;
(J) Falls die AMA-Zeilenanalyse jedes CCS in der CC-Lage beendet ist, beende das Zeilenanalyseverfahren der Farblage; andernfalls gehe über zu (B), und beginne die AMA-Zeilenanalyse der neuen CCS Zeichenbox. Wie in 6 wird die Zeichenbox Nr. 0 als eine CCS registriert. Nach seiner AMA-Zeilenanalyse können ein zusammengefügtes potenzielles Zeichen (gebildet aus der Box Nr. 5) und ein schmales potenzielles Zeichen (gebildet aus der Box Nr. 6) untersucht werden. Ihre Ausrichtungswerte sind 4. Die restlichen Boxen (Nr. 4, 7, 8, 9, 10) sind keine Zeichen oder Teile von Zeichen. Die AMA-Spaltenanalyse ist ihrer Zeilenanalyse ähnlich. Der einzige Unterschied besteht in der Verteilung der Ausrichtungswerte der potenziellen Zeichen. Wenn ein potenzielles Zeichen nach seiner AMA-Zeilenanalyse mit einem Ausrichtungswert ALIGN1 verteilt ist, und die ALIGN2 potenziellen Zeichen in der potenziellen Zeichenspalte nach ihrer Spaltenanalyse gesucht werden, ist der Ausrichtungswert der potenziellen Zeichen nicht ALIGN2, sondern der größere der Werte ALIGN1 und ALIGN2.

Nach der AMA-Analyse weist jedes potenzielle Zeichen in seiner Binärlage einen Ausrichtungswert auf. Vor der Identifikation aller potenziellen Zeichen kann die Vorauswahl ausgenutzt werden, um einige „Zeichenfehlalarme" zu verwerfen.
Erstens sollte, falls die Boxbereiche zweier potenzieller Zeichen und ihrer überlappender Bereiche S1, S2 bzw. S sind und sie
erfüllen (wobei k₄ ein bestimmter Schwellwert ist), das potenzielle Zeichen mit dem kleinen Ausrichtungswert verworfen werden.
Zweitens, falls ein potenzielles Zeichen, dessen Ausrichtungswert lediglich 1 ist, isoliert ist, sollte es verworfen werden und andererseits, falls ein potenzielles Zeichen mit einem Ausrichtungswert von eins mit anderen Zeichen verbunden ist, deren Ausrichtungswerte größer als eins sind, sollte es behalten werden.
Es ist zu bemerken, dass die Zeilen und Spalten, die in der AMA verwendet werden zusammengeheftet oder geneigt werden können, um eine fehlerhafte Einstellung der Kamera, Effekte verschwindender Zeilen und optische Verzerrungen zu kompensieren.
7 ist ein Beispiel für die Identifizierung von Zeichenbereichen. Die Identifikation von Zeichenbereichen besteht aus dem Analysieren aller potenziellen Zeichen, die von der vorhergehenden Phase lokalisiert wurden, um Zeichenfehlalarme zu eliminieren. Um dies zu erreichen, kann eine Kombination verschiedener heuristischer Techniken verwendet werden. Die folgenden Kriterien werden nacheinander angewendet:

(1) Falls der Kandidatenbereich ein Zeichen einschließt, sollte der Bereich genug Kontrast aufweisen, d.h., das Histogramm sollte einen gute bimodale Verteilung mit zwei Höchstwerten aufweisen, die den Intensitäten des Zeichens und des Hintergrunds entsprechen. Ein einfaches Mittel, um den Kontrast zu messen, besteht darin, das kumulative Histogramm zu erstellen und zwei Grauwerte festzulegen: „Niedrig" = der Grauwert, unter dem 10% der Gesamtanzahl der Bildpunkte liegen; „Hoch" = der Grauwert, unter dem 90% der Gesamtanzahl der Bildpunkte liegen. Der Unterschied zwischen Hoch und Niedrig kann verwendet werden, um den Kontrast des Kandidatenbereichs zu überprüfen. In der realen Identifikation können zwei Schwellwerte für den Kontrast des Kandidatenbereichs gesetzt bzw. festgelegt werden; der größere für die ganzen und zusammengefassten potenziellen Zeichen, und der kleinere für die schmalen und flachen potenziellen Zeichen.
(2) Die Struktur von Zeichen, die aus einem oder mehreren Strichen zusammengesetzt sind, beispielsweise horizontalen Strichen, vertikalen Strichen und so weiter können verwendet werden, um einige Zeichenfehlalarme zu eliminieren. Falls der Kandidatenbereich binärisiert wurde, gehören die schwarzen Bildpunkte zu dem Zeichen und die weißen Bildpunkte gehören zu dem Hintergrund oder umgekehrt, wie in 7 erkannt werden kann. Der Bereich wird von links nach rechts, von oben nach unten gescannt und alle Segmente werden untersucht. Ein horizontales Segment ist als eine Ansammlung von aufeinander folgenden schwarzen Bildpunkten in einer Reihe bestimmt. In jeder Reihe wird, falls ein horizontales Segment mit einer Länge > (5/6)·W vorliegt (wobei W die Breite des Bereichs ist), die Reihe mit 1 oder mit 0 markiert. Nachdem das Abtasten bzw. Scannen beendet ist, sucht der Algorithmus von oben nach unten nach aufeinander folgenden Zeilen bzw. Reihen, die mit 1 markiert sind. Allgemein wird die Anzahl der aufeinander folgenden mit 1 markierten Reihen als die Breite eines horizontalen Strichs betrachtet. Für ein ganzes oder zusammengefasstes Zeichen sollte die Anzahl der mit 1 markierten Zeilen nicht groß sein, etwa kleiner als (1/3)·H (wobei H die Höhe des Zeichenbereichs ist), dazwischen sind nicht viele horizontale Striche in einem Zeichenbereich, wenn der Kandidat echt ist. Für ein schmales bzw. flaches Zeichen sollte die Anzahl von aufeinander folgenden Reihen im Vergleich zu der Höhe des Kandidatenbereichs sehr groß, etwa mehr als (4/6)·H sein, da nur ein horizontaler Strich in einem schmalen bzw. flachen Zeichen vorliegt. Entsprechend denselben Regeln kann der Algorithmus auch alle vertikalen Segmente in dem Kandidatenbereich untersuchen. Ein vertikales Segment kann als eine Sammlung von aufeinander folgenden schwarzen Bildpunkten in einer Spalte erachtet werden. Dann werden Schemata verwendet, die zu den Vorstehenden ähnlich sind, um die ganzen, zusammengefassten oder schmalen potenziellen Zeichen zu identifizieren.
(3) Zeichen werden intuitiv in Reihen oder Spalten angeordnet. In dieser Stufe der groben Erfassung von Zeichen verwendet das Verfahren den AMA-Algorithmus, um alle potenziellen Zeichen in jeder Farblage zu lokalisieren (wie in 6 beschrieben und dargestellt). Nachdem die Zeichenboxen der potenziellen Zeichen in allen Farblagen in dieselbe Ebene abgebildet wurden, sollte die Ausrichtungseigenschaft nicht geändert werden. In diesem Schritt verwendet das Verfahren das Ausrichtungsschema des AMA-Algorithmus, um alle potenziellen Zeichen auszurichten und ihre Ausrichtungswerte zu berechnen. Falls der Ausrichtungswert eines Kandidaten genau 1 ist und er isoliert ist, wird er als ein Zeichenfehlalarm betrachtet.
(4) Die Zeichenerkennung ist nützlich um einige Zeichenfehlalarme zu eliminieren. Wenn ein potenzielles Zeichen nicht erkannt werden kann, ist es sicher kein echtes Zeichen. An dieser Stufe verwendet das Verfahren den von der Zeichenerkennungsausrüstung berechneten Erkennungsabstand, um das potenzielle Zeichen zu identifizieren. Der Erkennungsabstand beschreibt die Ähnlichkeit zwischen einem potenziellen Zeichen und echten Zeichen. Je größer dieser Abstand ist, desto unwahrscheinlicher wird der Kandidat echt sein.

Die vorstehend vorgelegten Ausführungsformen sollten als beispielhaft, nicht jedoch als beschränkend erachtet werden. Daher sind die Möglichkeiten der Implementierung und Verwendung der Erfindung nur durch die beigefügten Ansprüche beschränkt.

Claims

Verfahren zum Lokalisieren von Zeichen in digitalen Bildern, wobei ein Bild-Überlagerungsverfahren verwendet wird, aufweisend die Schritte: – Umwandeln der digitalen Daten des digitalen Bildes in normierte digitale Farb-Bilddaten und in digitale Grauwert-Bilddaten, – Verwerfen redundanter Farbkomponenten der normierten digitalen Farb-Bilddaten, – Erzeugen von binären Bildlagen aus den nicht-verworfenen digitalen Grauwert- und normierten Farb-Bilddaten, gemäß einem histogrammbasierten Gruppierungsverfahren; – Verwenden eines Erkennungsalgorithmus auf den binären Bildlagen, um verbundene Komponenten zu erkennen, die Zeichen oder Teile von Zeichen darstellen können, die in dem digitalen Bild enthalten sind.
Verfahren gemäß Anspruch 1, wobei die binären Bildlagen erzeugt werden durch: – Berechnen von Histogrammen, die die Frequenzverteilungsfunktion der digitalen Grauwert-Bilddaten und der normierten digitalen Farb-Bilddaten darstellen, und – Erzeugen binärer Bildlagen gemäß Extremwerten, die in den berechneten Histogrammen vorhanden sind.
Verfahren gemäß Anspruch 2, wobei die Histogramme bearbeitet werden, um Störungsextremwerte in den Histogrammen zu entfernen, bevor die binären Bildlagen erzeugt werden.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei der Erkennungsalgorithmus zum Erkennen der verbundenen Komponenten ein Algorithmus ist, der auf einem Schwarz-Nachbarschaftsgraph basiert.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei die oberen, unteren, linken und rechten Grenzen der verbundenen Komponenten als Bounding-Boxen in den binären Bildlagen registriert werden.
Verfahren gemäß einem der vorstehenden Ansprüche, wobei die binären Bildlagen auf eine einzelne Ebene abgebildet werden.
Verfahren gemäß Anspruch 5, wobei jede Bounding-Box gemäß vorbestimmter Größenwerte und Positionen der Bounding-Box in den binären Bildlagen oder der einzelnen Ebene, verworfen oder gehalten wird.
Verfahren gemäß einem der Ansprüche 5 bis 7, wobei die Bounding-Boxen einem Ausrichtungs- und Vereinigungs-Analyseverfahren unterworfen werden, um die Größen- und Positionsverhältnisse der Bounding-Boxen zu bestimmen, um verschiedene Bounding-Boxen zu vereinigen, und um alle Bounding-Boxen zu verwerfen, die nicht in Größe und/oder Position in Beziehung stehen.
Verfahren gemäß einem der Ansprüche 5 bis 8, wobei die Inhalte der Bounding-Boxen einer Identifikation eines Zeichenerkennungs-Algorithmus unterworfen werden, um zu bestimmen, ob die Bounding-Box ein Zeichen enthält oder nicht.
Verfahren gemäß einem der vorstehenden Ansprüche, weiter umfassend die Schritte von: – Vorverarbeiten der digitalisierten Bilddaten, bevor sie in die normierten digitalen Farbdaten und in digitale Grauwert-Bilddaten umgewandelt werden.
Verfahren gemäß Anspruch 10, wobei das Vorverarbeiten ein anisotropes Diffusionsverfahren ist, das auf einem gewichteten Medianfilter basiert.
Computerprogramm zum Ausführen eines Verfahren zum Lokalisieren von Zeichen in Bildern, umfassend Programmcodemittel zum Ausführen aller Schritte eines der Ansprüche 1 bis 11, wenn das Programm auf einem Computer, einer Netzwerkvorrichtung, einem mobilen Endgerät oder einer Kameravorrichtung ausgeführt wird.
Computerprogramm-Produkt, umfassend auf einem computerlesbaren Medium gespeicherte Programmcodemittel zum Ausführen des Verfahrens eines der Ansprüche 1 bis 11, wenn das Programm auf einem Computer, einer Netzwerkvorrichtung, einem mobilen Endgerät oder einer Kameravorrichtung ausgeführt wird.
Vorrichtung, die angepasst ist, ein Verfahren gemäß eines der Ansprüche 1 bis 11 auszuführen.
Vorrichtung gemäß Anspruch 14, wobei die Vorrichtung ein mobiles Endgerät ist.