DE69230392T2

DE69230392T2 - Verfahren und Gerät zur Bildverarbeitung

Info

Publication number: DE69230392T2
Application number: DE69230392T
Authority: DE
Inventors: Masami Kugai; Tadanori Nakatsuka; Toru Niki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1991-08-29
Filing date: 1992-08-28
Publication date: 2000-05-11
Anticipated expiration: 2012-08-29
Also published as: DE69230392D1; US5703962A; EP0531060A3; EP0531060A2; EP0531060B1

Description

Die Erfindung betrifft ein Bildverarbeitungsverfahren und eine Bildverarbeitungsvorrichtung, welche Dokumentinformationen ausgeben können, die durch Erkennen von zugeführten Bildinformationen erhalten wurden.
Bisher wurden bei der Durchführung einer Editierverarbeitung, wie beispielsweise einer Korrektur oder dergleichen, für Dokumentinformationen, die durch Erkennen von zugeführten Bildinformationen erhalten wurden, verschiedene Verfahren zum Anzeigen der Bildinformationen zusätzlich zu den Dokumentinformationen in Betracht gezogen.
Einige solcher Verfahren werden in Bezug auf das Verwenden eines optischen Zeichenlesers (nachstehend als "OCR" abgekürzt) erklärt. In einem OCR wird ein Dokument durch einen Bildscanner oder dergleichen gelesen und ein Dokumentbild auf einer Monitorbildfläche eines Personal Computers oder dergleichen angezeigt. Ein in dem Dokumentbild zu erkennender Bereich wird durch eine Zeigeeinrichtung zugewiesen, eine Zeichenerkennung wird durchgeführt, und eine Zeichenkette als Ergebnis der Erkennung wird auf der Monitorbildfläche in einem in dem Personal Computer verfügbaren Zeichensatz als Text angezeigt. Nachfolgend wird eine Korrekturverarbeitung durchgeführt, da in dem Ergebnis der Erkennung unvermeidbar eine Fehlerkennung enthalten ist. Es ist einfacher, die Korrekturverarbeitung während des Vergleichens eines Textbildrahmens mit einem auf der Monitorbildfläche angezeigten Abbildungsbildrahmens als durch Vergleichen des Textbildrahmens mit dem Originaldokumentpapier durchzuführen.
Fig. 37 ist ein Diagramm, das ein herkömmliches Verfahren veranschaulicht. In Fig. 37 ist eine Monitorbildfläche 4-J1 eines Personal Computers gezeigt, die 640 · 400 Punkte umfaßt. Ein Bildrahmen 4-J2 zeigt einen Text oder ein Bild an. Ein Bezugs zeichen 4-J3 repräsentiert ein erkanntes (oder fehlerkanntes) Zeichen, das in einem Zeichensatz des Personal Computers angezeigt ist und in dem vorliegenden Beispiel vereinfacht durch repräsentiert wird. Ein Bitbild 4-J4 repräsentiert ein Zeichenbild des Originaldokumentbilds. In dem vorliegenden Beispiel wird ein Wechseln zwischen dem Textbildrahmen und dem Abbildungsbildrahmen unter Verwendung eines Schalters, wie beispielsweise einer Funktionstaste oder dergleichen, durchgeführt. Nur ein Teil des Abbildungsbildrahmens wird angezeigt, da es unmöglich ist, das gesamte (etwa 3400 · 4800 Punkte umfassende) Bild anzuzeigen, wenn ein DIN A4 großes Dokument mit einer Auflösung von 400 Punkten pro Zoll (dpi; dots per inch) gelesen wird. Um einen anderen Abschnitt des Bilds anzuzeigen, kann eine (nicht gezeigte) Bildlaufleiste bzw. ein Roll- oder Scrollbalken durch eine Zeigeeinrichtung zugewiesen werden, oder kann eine auf einer Tastatur reservierte Rahmenscrolltaste gedrückt werden. In dem Textbildrahmen werden Zeichen als Ergebnis der Erkennung in einem 16 · 16 Punkte umfassenden Zeichensatz angezeigt, um einen Text zu bilden, und können Editiervorgänge, wie beispielsweise Einfügen, Löschen, Ersetzen oder dergleichen, durchgeführt werden. Der Textbildrahmen kann auf dieselbe Art und Weise wie der Abbildungsbildrahmen gescrollt werden. Der Bediener korrigiert eine Fehlerkennung durch Vergleichen des Texts mit dem Bild, während er zwischen den beiden Bildrahmen wechselt. Dieses Verfahren ist jedoch unbequem, da es unmöglich ist, gleichzeitig den Text und das Bild zu betrachten. Um dieses Problem zu überwinden, wurde ein Verfahren in Betracht gezogen, in welchem der Text und das Bild durch Anzeigen sowohl des Texts als auch des Bilds auf einer Abbildungsfläche gleichzeitig sichtbar sind. Bei diesem Verfahren wird jedoch eine Abweichung zwischen dem Textbildrahmen und dem Abbildungsbildrahmen durch einen Scrollvorgang während der Korrekturverarbeitung erzeugt. Infolgedessen muß dann, wenn ein Bildrahmen gescrollt wurde, auch der andere Bildrahmen gescrollt werden, so daß daher ein beschwerlicher Betriebsablauf notwendig ist, um eine korrekte Entsprechung zwischen den beiden Bildrahmen bereitzustellen.
Bei der herkömmlichen Technik des Anzeigens sowohl der Textdaten als auch der Bilddaten ist es, falls das Originalbild bildende Zeichen klein sind, schwierig, einzelne Zeichen zu unterscheiden, wenn die Bilddaten angezeigt werden.
Weiter ist ein Bereich, in dem die Bilddaten angezeigt werden können, begrenzt, so daß es daher beschwerlich ist, einen gewünschten Abschnitt der Textdaten in dem begrenzten Bereich anzuzeigen. Infolgedessen ist es in manchen Fällen einfacher, das Originaldokument zu betrachten.
Bei einem anderen herkömmlichen Absatz, wie in Fig. 39 gezeigt, wird eine Zeile jedes der Text- und Abbildungsbildrahmen angezeigt, so daß ein Bild der entsprechenden Zeile des Texts über dem Text angezeigt wird. Dieser Ansatz hat noch immer den Nachteil, daß ein Scrollvorgang in seitlicher Richtung durchgeführt werden muß. Außerdem muß ein Text korrigiert werden, während nicht nur die betroffene Zeile, sondern der gesamte Satz betrachtet wird. Falls beispielsweise im wesentlichen dieselbe Zeichenkette in zwei oder mehr Abschnitten erscheint, ist bei diesem Ansatz eine Korrektur solcher Abschnitte unbequem.
Wie obenstehend erklärt wurde, muß bei jedem der vorstehend beschriebenen Ansätze der Bediener, um den Abschnitt des Originalbilds entsprechend dem zu korrigierenden Abschnitt in dem Text anzuzeigen, den entsprechenden Abschnitt herausfinden, während er einen Scrollvorgang durchführt. Demgemäß ist es, wenn eine Verarbeitung wie beispielsweise eine Erkennung oder dergleichen für das Originalbild durchgeführt wird und ein Korrekturvorgang durchgeführt wird, während verarbeitete Daten mit dem Originalbild verglichen werden, erwünscht, eine Last auf den Korrekturvorgang durch Erleichtern des Vorgangs des Vergleichens der verarbeiteten Daten mit dem Originalbild zu verringern.
Nachstehend wird eine Erklärung einer herkömmlichen Verarbeitung von der Zufuhr von Bildinformation bis zu der Ausgabe von Textdaten im Fall eines OCR unter Bezugnahme auf ein in Fig. 40 gezeigtes Ablaufdiagramm bereitgestellt.
Das heißt, in Schritt S3-501 wird ein bildtragendes Original von einem Scanner gelesen, und wird ein analoges elektrisches Signal erhalten. In Schritt S3-502 wird das Signal einer Binärkodeverarbeitung unterworfen, um in binäre digitale Daten (nachstehend als Bild bezeichnet) umgewandelt zu werden. In Schritt S3-503 wird ein Abbildungsfenster-Bildrahmen zum Anzeigen eines Bilds auf einer in der Vorrichtung bereitgestellten Anzeige geöffnet und das Bild wie in Fig. 41 gezeigt angezeigt. Typisch kann eine Vielzahl von Fensterbildrahmen gleichzeitig auf der Anzeige angezeigt werden. In dem Fall von Fig. 41 jedoch wird ein Abbildungsfenster 4-101 auf der gesamten Bildfläche der Anzeige angezeigt.
In Schritt S3-504 weist der Bediener der Vorrichtung einen zu erkennenden Bereich (nachstehend als Erkennungsbereich bezeichnet), beispielsweise einen durch ein Bezugszeichen 4-102 in Fig. 41 angegebenen Bereich, mittels einer Zeigeeinrichtung, wie etwa einer Maus oder dergleichen, zu, während er das auf der Anzeige angezeigte Bild betrachtet. In Schritt S3-505 wird ein Ergebnisfenster zum Anzeigen eines Erkennungsergebnisses eines in dem Erkennungsbereich enthaltenen Zeichenbilds geöffnet. In Schritt S3-506 wird eine Zeichensegmentierungsverarbeitung zum individuellen Herausnehmen von Zeichen in dem Zeichenbild innerhalb des zugewiesenen Erkennungsbereichs ausgeführt. In Schritt S3-507 wird eine Erkennungsverarbeitung für jeweilige Bilder der segmentierten Zeichen ausgeführt. Schließlich wird in Schritt S3-508 das Erkennungsergebnis in dem Ergebnisfenster angezeigt.
Zusätzlich zu der vorstehend beschriebenen allgemeinen Zeichenerkennungsverarbeitungsprozedur führt der Bediener, falls ein Foto, eine Zeichnung, ein Kopfbereich oder dergleichen in dem zugeführten bildtragenden Original enthalten ist und daher der Erkennungsbereich nicht in Form eines durch die Maus zugewiesenen Rechtecks segmentiert werden kann, vor der Bereichzuweisung durch die Maus in Schritt S3-504 beispielsweise einen Vorgang des Löschens eines unnötigen Abschnitts des in dem Bildfenster 4-101 angezeigten Bilds durch.
Zum Beispiel wird, falls gewünscht wird, eine Zeichenerkennung für ein in einem durch ein Bezugszeichen 4-103 angegebenen Bereich innerhalb des in dem in Fig. 42 gezeigten Bildfenster 4-101 angezeigtes Zeichenbild durchzuführen, die Zuweisung eines rechteckigen Bereichs durch die Maus ein Problem verursachen, da ein in einem oberen linken Abschnitt der Bildfläche angegebener Kopfbereich "elektrostatic induction" in dem zugewiesenen rechteckigen Bereich enthalten ist. Demgemäß führt der Bediener einen Vorgang des Löschens des Abschnitts "electrostatic induction" aus dem angezeigten Bild durch, und wird eine Zuweisung eines rechteckigen Bereichs mittels der Maus nach Erhalten eines durch das in Fig. 43 gezeigte Bezugszeichen 4-103 angegebenen Bilds durchgeführt.
Bei dem vorstehend beschriebenen herkömmlichen Ansatz stimmen jedoch, da das Ergebnisfenster auf der Grundlage einer vorbestimmten Anfangswertgröße angezeigt wird, die Anzahlen von Zeichen und Linien in dem Erkennungsbereich nicht mit der Größe des Ergebnisfensters überein. Infolgedessen können unnötige Abschnitte angezeigt werden, so daß es schwierig ist, das Ergebnis der Erkennung zu sehen.
Solche Probleme werden im einzelnen unter Bezugnahme auf Ergebnisfenster 4-104 mit verschiedenen Größen, die in Fig. 44 bis 46 gezeigt sind, und die in solchen Ergebnisfenstern 4-104 angezeigten Erkennungsergebnisse erklärt. Die in Fig. 44 bis 46 gezeigten Erkennungsergebnisse werden aus dem Zeichenbild erhalten, das in dem Erkennungsbereich 4-102 enthalten ist, der aus dem Bild in dem in Fig. 41 gezeigten Bildfenster 4-101 zugewiesen ist. In Fig. 44 bis 46 repräsentiert ein Bezugszeichen 4-104 ein Ergebnisfenster, und repräsentiert ein Bezugszeichen 4-105 ein Betriebsarteinstellfenster zum Einstellen verschiedener Arten von für Erkennungsvorgänge notwendigen Betriebsarten.
In dem Fall von Fig. 44 wird ein unnötiger Abschnitt erzeugt, da die Größe des Ergebnisfensters 4-104 verglichen mit den Anzahlen von Zeichen und Linien in dem Erkennungsbereich 4-102 zu groß ist. Andererseits ist es in dem Fall von Fig. 45 eher schwierig, die Inhalte des Satzes einzufangen, da die Größe des Ergebnisfensters 4-104 zu klein ist und daher ein erzwungener Zeilenvorschub aufgrund der Begrenzung der Fenstergröße zu einem originalen Zeilenvorschub hinzugefügt wird. Um ein derartiges Problem zu überwinden, kann ein Verfahren in Betracht gezogen werden, bei dem der originale Zeilenvorschub vernachlässigt wird und nur ein auf die Fenstergröße eingestellter Zeilenvorschub eingefügt wird, wie in Fig. 46 gezeigt. Bei diesem Ansatz jedoch verbleibt, da sich die Position des Zeilenvorschubs von der des ursprünglichen Satzes unterscheidet, noch eine gewisse Schwierigkeit beim Betrachten des Satzes, welche eine Störung in Vorgängen des Bestätigens und Korrigierens des Erkennungsergebnisses verursacht.
Wenn gewünscht ist, einen anderen Bereich als ein Rechteck aus einem ein Foto, eine Zeichnung, einen Kopfbereich oder dergleichen enthaltenden bildtragenden Original zu erkennen, ist ein zusätzlicher Vorgang zum Löschen eines unnötigen Abschnittes notwendig. Daher ist viel Zeit zum Eingeben eines Zeichenbilds notwendig und besteht immer eine Möglichkeit einer fehlerhaften Löschung eines notwendigen Abschnittes zusammen mit einem unnötigen Abschnitt.
Die Erfindung stellt ein Bildverarbeitungsverfahren bereit, umfassend die Schritte:
Segmentieren von Zeichenbildern aus einem Dokumentbild;
Erkennen der segmentierten Zeichenbilder als Text;
Speichern von Zeichenpositionen entsprechend den segmentierten Zeichenbildern;
Anzeigen sowohl des Dokumentbilds als auch des erkannten Texts;
Angeben einer Position eines gewünschten Zeichenmusters in dem in dem Anzeigeschritt angezeigten erkannten Text;
Identifizieren eines Zeichenbilds innerhalb des Dokumentbilds entsprechend dem gewünschten Zeichenmuster unter Verwendung der gespeicherten Zeichenpositionen; und
Durchführen einer Anzeigesteuerung, um die Anzeige des Dokumentbilds derart zu ändern, daß das identifizierte Zeichenbild so angezeigt wird, daß es von den anderen Zeichenbildern unterscheidbar ist.
Die Erfindung stellt darüber hinaus eine Bildverarbeitungsvorrichtung bereit, umfassend:
eine Segmentiereinrichtung zum Segmentieren von Zeichenbildern aus einem Dokumentbild;
eine Erkennungseinrichtung zum Erkennen der segmentierten Zeichenbilder als Text;
eine Speichereinrichtung zum Speichern von Zeichenpositionen entsprechend den segmentierten Zeichenbildern;
eine Anzeigeeinrichtung zum Anzeigen sowohl des Dokumentbilds als auch des erkannten Texts;
eine Angabeeinrichtung zum Angeben einer Position eines gewünschten Zeichenmusters in dem durch die Anzeigeeinrichtung angezeigten Text;
eine Identifiziereinrichtung zum Identifizieren eines Zeichenbilds innerhalb des Dokumentbilds entsprechend dem gewünschten Zeichenmuster unter Verwendung der gespeicherten Zeichenpositionen; und
eine Anzeigesteuereinrichtung zum Steuern der Anzeigeeinrichtung dahingehend, daß die Anzeige des Dokumentbilds derart geändert wird, daß das identifizierte Zeichenbild so angezeigt wird, daß es von den anderen Zeichenbildern unterscheidbar ist.
Nachstehend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, in welchen:
Fig. 1 ein Blockdiagramm ist, das die vereinfachte Konfiguration einer Zeichenerkennungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung zeigt;
Fig. 2 ein Diagramm ist, das ein mittels der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zu lesendes Dokumentoriginal zeigt;
Fig. 3 ein erstes Diagramm ist, das eine Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 4 ein zweites Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 5 ein drittes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 6 ein viertes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 7 ein fünftes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 8 ein sechstes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 9 ein siebtes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 10 ein achtes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 11 ein neuntes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 12 ein zehntes Diagramm ist, das die Anzeigevorrichtung der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 13 ein Ablaufdiagramm ist, das eine Verarbeitung in der Zeichenerkennungsvorrichtung des ersten Ausführungsbeispiels zeigt;
Fig. 14 ein Ablaufdiagramm ist, das eine zweite Verarbeitung in Schritt 134 in dem in Fig. 13 gezeigten Ablaufdiagramm zeigt;
Fig. 15 ein Ablaufdiagramm, das eine dritte Verarbeitung in Schritt 134 in dem in Fig. 13 gezeigten Ablaufdiagramm zeigt;
Fig. 16 ein Ablaufdiagramm ist, das eine vierte Verarbeitung in Schritt 134 in dem in Fig. 13 gezeigten Ablaufdiagramm zeigt;
Fig. 17 ein Ablaufdiagramm ist, das eine fünfte Verarbeitung in Schritt 134 in dem in Fig. 13 gezeigten Ablaufdiagramm zeigt;
Fig. 18 ein Blockdiagramm ist, das die vereinfachte Konfiguration einer Zeichenerkennungsvorrichtung gemäß einem zweiten Ausführungsbeispiel der Erfindung zeigt;
Fig. 19 ein erstes Ablaufdiagramm ist, das eine Verarbeitung in dem zweiten Ausführungsbeispiel zeigt;
Fig. 20 ein zweites Ablaufdiagramm ist, das eine Verarbeitung in dem zweiten Ausführungsbeispiel zeigt;
Fig. 21 ein Diagramm ist, das ein Beispiel einer Anzeige in dem zweiten Ausführungsbeispiel zeigt;
Fig. 22 ein Diagramm ist, das eine Beziehung zwischen Zeichenbildern und Zeichenpositionen darstellt;
Fig. 23 ein Blockdiagramm ist, das die vereinfachte Konfiguration einer Zeichenerkennungsvorrichtung gemäß einem dritten Ausführungsbeispiel der Erfindung zeigt;
Fig. 24 ein Ablaufdiagramm einer Verarbeitung zum Zuweisen eines Bereichs durch ein einzelnes Rechteck in dem zweiten Ausführungsbeispiel ist;
Fig. 25 ein Diagramm ist, das ein Beispiel einer Anzeige in einem Ergebnisfenster in Übereinstimmung mit der in Fig. 24 gezeigten Verarbeitung darstellt;
Fig. 26 ein Diagramm ist, das ein Beispiel eines stapelartig angeordneten Mehrfachfensters darstellt;
Fig. 27 ein Ablaufdiagramm einer Verarbeitung zum Zuweisen eines Bereichs durch einen eine Vielzahl von Liniensegmenten umfassenden Wandbereich in dem zweiten Ausführungsbeispiel ist;
Fig. 28 ein erstes Diagramm ist, das die Zuweisung eines Erkennungsbereichs darstellt;
Fig. 29 ein zweites Diagramm ist, das die Zuweisung eines Erkennungsbereichs darstellt;
Fig. 30 ein drittes Diagramm ist, das die Zuweisung eines Erkennungsbereichs darstellt;
Fig. 31 ein Diagramm ist, das einen Liniensegmentiervorgang darstellt;
Fig. 32 ein Diagramm ist, das einen Zeichensegmentiervorgang darstellt;
Fig. 33 ein Diagramm ist, das einen Linien- und Zeichensegmentiervorgang bei Bereichzuweisung durch ein Polygon darstellt;
Fig. 34 ein erstes Diagramm ist, das eine Bereichzuweisung durch eine Vielzahl von Rechtecken darstellt;
Fig. 35 ein zweites Diagramm ist, das die Bereichzuweisung durch die Vielzahl von Rechtecken darstellt;
Fig. 36 ein Diagramm ist, das einen Linien- und Zeichensegmentiervorgang in einem durch die Vielzahl von Rechtecken zugewiesenen Bereich darstellt;
Fig. 37 ein Diagramm ist, das ein erstes Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem zweiten Ausführungsbeispiel zeigt;
Fig. 38 ein Diagramm ist, das ein zweites Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem zweiten Ausführungsbeispiel zeigt;
Fig. 39 ein Diagramm ist, das ein drittes Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem zweiten Ausführungsbeispiel zeigt;
Fig. 40 ein Ablaufdiagramm ist, das einen herkömmlichen Ansatz in dem dritten Ausführungsbeispiel darstellt;
Fig. 41 ein Diagramm ist, das ein erstes Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt;
Fig. 42 ein Diagramm ist, das ein zweites Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt;
Fig. 43 ein Diagramm ist, das ein drittes Anzeigebeispiel zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt;
Fig. 44 ein Diagramm ist, das ein erstes Beispiel des Anzeigens eines Ergebnisses zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt.
Fig. 45 ein Diagramm ist, das ein zweites Beispiel des Anzeigens eines Ergebnisses zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt; und
Fig. 46 ein Diagramm ist, das ein drittes Beispiel des Anzeigens eines Ergebnisses zum Darstellen eines herkömmlichen Ansatzes in dem dritten Ausführungsbeispiel zeigt.

Erstes Ausführungsbeispiel

Erklärung der Zeichenerkennungsvorrichtung (Fig. 1)

Fig. 1 ist ein Blockdiagramm, das die vereinfachte Konfiguration einer Zeichenerkennungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung zeigt. In Fig. 1 ist eine Zeichenerkennungsvorrichtung 1 des ersten Ausführungsbeispiels gezeigt. Eine Eingabeeinheit 2, umfassend einen Scanner oder der gleichen, liest und nimmt ein Dokumentbild auf und führt Originalbilddaten als beispielsweise binäre digitale Daten zu. Eine zentrale Verarbeitungseinheit (nachstehend als CPU bezeichnet) 3 zur Berechnungsverarbeitung steuert die gesamte Vorrichtung 1. Ein ROM (Nurlesespeicher) 4 speichert Steuerprogramme zum Verarbeiten von in Figuren nach Fig. 13 gezeigten Ablaufdiagrammen und verschiedene Arten von Daten, die durch die CPU 3 auszuführen sind. Ein RAM (Speicher mit wahlfreiem Zugriff) 5 wird als Arbeitsbereiche für die CPU 3 verwendet und beinhaltet auch einen Bereich zum Speichern von Dokumentbilddaten, die von der Eingabeeinheit 2 zugeführt wurden, sowie einen Bereich zum Speichern der Positionen und Größen von Zeichenmustern, die aus den zugeführten Dokumentbilddaten durch eine Vorverarbeitungseinheit 7 segmentiert wurden. Eine Entsprechungsbild-Anzeigevorrichtung 6 schreibt ein auf einer Bildanzeigevorrichtung 14 angezeigtes Bild in Übereinstimmung mit der Position und der Größe eines Zeichenmusters, das einem durch eine Erkennungsergebnis-Anzeigevorrichtung 15 ausgewählten Zeichen entspricht, neu. Die Vorverarbeitungseinheit 7 segmentiert das Muster eines einzelnen Zeichens in dem in dem RAM 5 gespeicherten Dokumentbild und führt verschiedene Arten von Normalisierungsvorgängen aus. Eine Erkennungseinheit 8 extrahiert geometrische Merkmale aus dem durch die Vorverarbeitungseinheit 7 vorverarbeiteten Muster und führt eine Zeichenerkennung des Dokumentbilds durch Vergleichen der extrahierten Merkmale mit einem in einem Wörterbuch 9 für die Erkennung gespeicherten Standardmuster durch. Eine Anzeigeeinheit 10 umfaßt eine Bildanzeigeeinheit 14 zum Anzeigen eines zugeführten Dokumentbilds und eine Erkennungsergebnis-Anzeigeeinheit 15, und steuert die Anzeige der Vorrichtung. Das Erkennungsergebnis kann durch die Steuerung der Erkennungsergebnis-Anzeigevorrichtung 15 korrigiert werden, während die Anzeige betrachtet wird. Ein Systembus 11 beinhaltet einen Datenbus von der CPU 3, einen Adreßbus, einen Steuersignalbus und dergleichen. Eine Schnittstelleneinheit 12 steuert eine Schnittstelle mit einer externen Ausgabeeinrichtung, wie beispielsweise einem Drucker 13 oder dergleichen.

Erklärung des Dokumentbilds (Fig. 2)

Fig. 2 zeigt ein Beispiel des der Zeichenerkennungsvorrichtung 1 des vorliegenden Ausführungsbeispiels zugeführten Dokumentbilds. In Fig. 2 ist ein durch die Eingabeeinheit 2 zu lesendes Dokumentbild 21 gezeigt. Der Benutzer ordnet die Erkennung für einen Abschnitt 22 innerhalb des Dokumentbilds 21 an. Ein Bezugszeichen 23 repräsentiert einen in einem in Fig. 3 gezeigten Bildfenster angezeigten Abschnitt. Ein Bezugszeichen 24 repräsentiert einen in einem in Fig. 5 gezeigten Bildfenster angezeigten Abschnitt.

Erklärung des Abbildungsfensters und des Erkennungsergebnisfensters (Fig. 3-12)

Jede der Fig. 3 bis 12 zeigt ein Abbildungsfenster und ein Erkennungsergebnisfenster, die auf der Bildfläche eines Personal Computers oder dergleichen angezeigt werden. Das Abbildungsfenster und das Erkennungsergebnisfenster werden durch die Steuerung der Bildanzeigeeinheit 14 bzw. der Erkennungsergebnis- Anzeigeeinheit 15 angezeigt.
Fig. 3 zeigt ein Abbildungsfenster und ein Erkennungsergebnisfenster nach Ausführung der Erkennung. In Fig. 3 sind ein Abbildungsfenster 31, ein Erkennungsergebnisfenster 32, jeweils Schalter 33 zum Scrollen des auf dem entsprechenden Fenster angezeigten Abschnitts und jeweils Schalter 34 zum Angeben einer näherungsweisen Position des in dem entsprechenden Fenster angezeigten Abschnitts in Bezug auf das gesamte Bild gezeigt. Ein Bezugszeichen 35 repräsentiert ein durch eine Zeichenauswahleinrichtung ausgewähltes Zeichen. Das Zeichen wird durch die Bewegung eines Cursors und die Anweisung zur Zeichenauswahl durch die Zeichenauswahleinrichtung ausgewählt.
Fig. 4 ist ein Diagramm, welches angibt, daß ein Zeichen "/\" durch die Zeichenauswahleinrichtung ausgewählt ist. Ein Bezugszeichen 41 repräsentiert das durch die Zeichenauswahleinrichtung ausgewählte Zeichen.
Fig. 5 ist ein Diagramm, welches zeigt, daß das Abbildungsfenster durch die Entsprechungsbild-Anzeigevorrichtung 6 neu geschrieben wird, so daß das Bild des dem Zeichen "/\" entsprechenden Abschnitts sichtbar wird, nachdem das Zeichen "/\" durch die Zeichenauswahleinrichtung ausgewählt worden ist.
Fig. 6-8 sind Diagramme, welche zeigen, daß das Abbildungsfenster durch die entsprechende Bildanzeigevorrichtung 6 neu geschrieben wird, so daß das Bild eines dem Zeichen "/\" entsprechenden Abschnitts sichtbar wird, nachdem das Zeichen "/\" durch die Zeichenauswahleinrichtung ausgewählt worden ist, und der Abschnitt entsprechend dem Zeichen "/\" angezeigt wird. Bezugszeichen 61, 71 und 81 repräsentieren den dem auf dem Bildschirm, in einem Rahmen bzw. in Umkehrung angezeigten Zeichen "/\" entsprechenden Abschnitt.
Fig. 9 zeigt das Abbildungsfenster und das Erkennungsergebnisfenster nach Ausführen der Erkennung.
Fig. 10 ist ein Diagramm, welches zeigt, daß nach Auswählen eines Zeichens " " 101 durch die Zeichenauswahleinrichtung nur ein dem Zeichen " " entsprechender Abschnitt 102 in Umkehrung ohne Neuschreiben des Bilds angezeigt wird, da das Bild, das den dem Zeichen " " entsprechenden Abschnitt enthält, bereits angezeigt wird.
Fig. 11 zeigt das Abbildungsfenster und das Erkennungsergebnisfenster nach der Erkennung. In dem Abbildungsfenster wird das Dokumentbild mit reduzierter Größe angezeigt, so daß das gesamte Bild sichtbar ist.
Fig. 12 ist ein Diagramm, welches zeigt, daß nach Auswählen des Zeichens " " durch die Zeichenauswahleinrichtung das Abbildungsfenster in vergrößerter Größe angezeigt wird, so daß der dem Zeichen " " entsprechende Abschnitt leicht sichtbar ist.

Erklärung des ersten Ausführungsbeispiels (Fig. 3, 4, 5, 13 und 14)

Fig. 13 ist ein Ablaufdiagramm, das den Betriebsablauf der CPU 3 in dem ersten Ausführungsbeispiel darstellt. Das Steuerprogramm zum Ausführen dieser Verarbeitung ist in dem ROM 4 gespeichert.
Zunächst wird in Schritt S131 das durch den Bediener aufgelegte Dokumentbild 21 durch die Eingabeeinheit (Scanner) 2 gelesen und zugeführt und in dem Speicher 5 gespeichert. Der Prozeß schreitet dann zu Schritt S132 fort, in dem die Vorverarbeitung durch die Vorverarbeitungseinheit 7 und die Zeichenerkennung durch die Erkennungseinheit 8 durchgeführt werden. Die Ergebnisse (die Position und die Größe des Zeichens, das Ergebnis der Erkennung) dieser Betriebsabläufe werden in dem Speicher 5 gespeichert. Der Prozeß schreitet dann zu Schritt S133 fort, in dem das Ergebnis der Erkennung durch die Bildanzeigevorrichtung 14 der Anzeigeeinheit 10 angezeigt wird. Das Ergebnis der Erkennung wird in dem Erkennungsergebnisfenster 32 angezeigt. Das Dokumentbild 21 wird so in dem Abbildungsfenster 31 angezeigt, daß der obere linke Abschnitt des erkannten Abschnitts 22 sichtbar ist (Normaleinstellung). Der Prozeß schreitet dann zu Schritt S134 fort, in dem das Dokumentbild 21 durch die Entsprechungsbild-Anzeigeeinheit 6 neu so angezeigt wird, daß der dem durch die Zeichenauswahleinrichtung ausgewählten Zeichen 41 entsprechende Bildabschnitt sichtbar ist. Dies entspricht dem Bild, das in dem in Fig. 5 gezeigten Abbildungsfenster angezeigt wird.
Fig. 14 ist ein Ablaufdiagramm, das die Verarbeitung des Anzeigens des entsprechenden Bilds in dem in Fig. 13 gezeigten Schritt S134 zeigt.
Zunächst werden in Schritt S141 die Position und die Größe des durch die Zeichenauswahleinrichtung ausgewählten Zeichens aus dem Speicher 5 ermittelt. Nachfolgend wird in Schritt S142 das Bild neu so angezeigt, daß der entsprechende Abschnitt an dem oberen linken Abschnitt des Abbildungsfensters positioniert wird (vgl. Fig. 5).
Die Erklärung der Verarbeitung zum Ausgeben von Zeichen und dergleichen an dem Drucker 13 wird weggelassen.
Wie der vorangehenden Erklärung entnehmbar ist, ist es in dem ersten Ausführungsbeispiel möglich, eine Zeichenerkennungsvorrichtung bereitzustellen, die für den Benutzer einfach zu verwenden ist, da ein Originalbild eines durch den Benutzer zu korrigierenden Abschnitts automatisch angezeigt werden kann.
Fig. 15 ist ein Ablaufdiagramm, das die Verarbeitung zeigt, wenn das entsprechende Bild in dem in Fig. 13 gezeigten Schritt S134 angezeigt wird. In Fig. 15 wird nach den in Fig. 14 gezeigten Schritten S141 und S142 in Schritt S151 der entsprechende Abschnitt auf dem Bildschirm 61 angezeigt, wie in Fig. 6 gezeigt. Das heißt, zusätzlich zu der vorstehend beschriebenen Verarbeitung wird der Bildabschnitt des durch die Zeichenauswahleinrichtung ausgewählten Zeichens eindeutig gezeigt.
Obwohl in Fig. 6 der Bildabschnitt des ausgewählten Zeichens auf dem Bildschirm angezeigt wird, kann dieselbe Wirkung durch Anzeigen des Bildabschnitts in dem Zeichenrahmen 71 oder in der Umkehrung 81, wie in Fig. 7 bzw. 8 gezeigt, erhalten werden.
In dem Ablaufdiagramm von Fig. 16 ist eine Ermittlung (Schritt S161), ob der entsprechende Abschnitt bereits in dem Abbildungsfenster angezeigt wird, zwischen die in dem Ablaufdiagramm von Fig. 14 gezeigten Schritte S141 und S142 eingefügt. Falls der entsprechende Abschnitt wie in Fig. 9 gezeigt angezeigt wird und daher in Schritt S161 als bereits in dem Abbildungsfenster angezeigt ermittelt wird, wird in Schritt S151 nur die Umgekehrungsanzeige des entsprechenden Abschnitts durchgeführt (vgl. Fig. 10). Falls das Ergebnis der Ermittlung in Schritt S161 negativ ist, wird das Bild neu so angezeigt, daß der entsprechende Abschnitt in Schritt S142 im oberen linken Abschnitt des Abbildungsfensters positioniert wird, auf dieselbe Art und Weise wie in dem Ablaufdiagramm von Fig. 15. Nachfolgend wird in Schritt S151 der entsprechende Abschnitt auf dem Bildschirm angezeigt.
In dem Ablaufdiagramm von Fig. 17 wird zwischen den in dem Ablaufdiagramm von Fig. 14 gezeigten Schritten S141 und S142 eine Vergrößerung/Verkleinerung des angezeigten Bilds (Schritt S171) auf eine leicht sichtbare Größe durchgeführt.
Zunächst werden in Schritt S141 die Position und die Größe des durch die Zeichenauswahleinrichtung ausgewählten Zeichens aus dem Speicher 5 ermittelt. In Schritt S171 wird das angezeigte Bild auf eine leicht sichtbare Größe vergrößert oder verkleinert. Die Anweisung zum Vergrößern/Verkleinern wird mittels einer Tastatur oder einer Maus durchgeführt. Dieser Betriebsablauf wird durchgeführt, weil normalerweise nach dem Lesen eines Bilds durch die Eingabeeinheit 2 das gesamte Dokumentbild in vielen Fällen in einer reduzierten Größe angezeigt wird und ein zu erkennender Bereich zugewiesen ist, so daß daher das Bild zu klein ist, um erkennbar zu sein, falls der entsprechende Abschnitt in dem Abbildungsfenster angezeigt wird. Nachfolgend wird in Schritt S142 das Bild neu so angezeigt, daß der entsprechende Abschnitt in dem oberen linken Abschnitt des Abbildungsfensters positioniert wird. In Schritt S151 wird der entsprechende Abschnitt in Umkehrung angezeigt.
Wie vorstehend erklärt wurde, wird es gemäß dem vorliegenden Ausführungsbeispiel möglich, das Originalbild des durch den Benutzer zu korrigierenden Abschnitts automatisch anzuzeigen. Infolgedessen braucht, wenn ein Dokumentoriginal gelesen, erkannt und korrigiert wird, der Benutzer keine Korrektur durch direktes Bezugnehmen auf das Originaldokument oder Ermitteln des entsprechenden Abschnitts in dem Originalbild durchzuführen. Daher ist die Vorrichtung des Ausführungsbeispiels einfach zu verwenden und sind die Betriebseigenschaften bei der Zeichenerkennung verbessert.
Natürlich kann eine Einrichtung zum Festlegen verschiedener Arten von unter Bezugnahme auf Fig. 6-12 erklärten Funktionen auf Ausgangszustände als Standardeinstellungen und Anweisen eines Wechsels zwischen den Funktionen bereitgestellt sein, so daß eine gewünschte Verarbeitung in Übereinstimmung mit der Anweisung durchgeführt werden kann.

Zweites Ausführungsbeispiel

Fig. 18 ist ein Blockdiagramm, das die Konfiguration einer Zeichenerkennungsvorrichtung gemäß einem zweiten Ausführungsbeispiel der Erfindung zeigt. In Fig. 18 sind eine CPU 2-1 zum Ausführen von Verarbeitungsprozeduren des vorliegenden Ausführungsbeispiels, ein Bus 2-2, eine CRT (Kathodenstrahlröhre) 2-3 zum Anzeigen von Texten und Bildern, eine Videoschnittstelle 2-4 zwischen der CPU 2-1 und der CRT 2-3, ein VRAM 2-5 zum Speichern von auf der CRT 2-3 anzuzeigenden Texten und Bildern, ein Bildscanner 2-6 zum Zuführen von Bildern, eine Scannerschnittstelle 2-7, eine Zeigeeinrichtung 2-8 zum Zuweisen von Koordinaten auf der CRT 2-3, eine Schnittstelle 2-9 für die Zeigeeinrichtung 2-8, ein Programmspeicher 2-10 zum Speichern von Verarbeitungsprozeduren der CPU 2-1, ein Arbeits-RAM 2-11 zum Speichern von operationellen Bereichen, Dokumentbildern und dergleichen für die Verarbeitungsprozeduren, und eine Erkennungseinheit 2-12 zum Erkennen von Zeichen gezeigt.
Fig. 19 ist ein Ablaufdiagramm, das Prozesse der Zeichenerkennung zeigt. Fig. 20 ist ein Ablaufdiagramm, das Prozesse einer gleichlaufenden Bewegung von Bildern zeigt. Diese Verarbeitungsprozeduren sind in dem Programmspeicher 2-10 gespeichert und werden von der CPU 2-1 ausgeführt. Die Prozesse werden nachstehend in ihrer Reihenfolge erklärt.
In Schritt S2-101 wird das Dokument durch den Bildscanner 2-6 gelesen, und werden binär kodierte Dokumentbilddaten (ein Bild) D1 in dem Arbeits-RAM 2-11 gespeichert. In Schritt S2-102 wird eine Segmentierung von Zeichen durch Verarbeiten der Dokumentbilddaten D1 durchgeführt. Das heißt, zunächst wird eine. Projektion in der seitlichen Richtung (der x-Achsenrichtung) durchgeführt, und erfolgt das Segmentieren von Zeichenlinien durch Teilen der projizierten Bilder an Beabstandungen zwischen den Bildern. Nachfolgend wird für jede Linie eine Projektion in der vertikalen Richtung (der y-Achsenrichtung) durchgeführt, und erfolgt das Segmentieren von Zeichen durch Teilen der projizierten Bilder an Beabstandungen zwischen den Bildern. Auf diese Art und Weise kann das Bild jedes Zeichens mit seinem um schreibenden Rechteck segmentiert werden, wodurch die geteilten Bilder einzelner Zeichen erhalten werden können. Die Koordinaten des oberen linken Punkts des umschreibenden Rechtecks jedes Zeichens (die x-y-Koordinaten, wenn der obere linke Abschnitt des Originaldokumentbilds zum Ursprung gemacht wird, bezeichnet als Zeichenposition) können ebenfalls erhalten werden. Das segmentierte Zeichenbild und die Position des Zeichens werden in dem Arbeits-RAM 11 als Segmentierungsdaten D2 gespeichert.
Fig. 22 ist ein Diagramm, das vereinfacht die Beziehung zwischen dem vorstehend beschriebenen segmentierten Zeichenbild und der Position des Zeichens zeigt. Wie Fig. 22 entnehmbar ist, ist die Position des Zeichens repräsentiert durch (400, 800) als Daten in Einheiten eines Punkts, die den oberen linken Abschnitt des Originaldokumentbilds zum Ursprung machen. Diese Daten repräsentieren die Ausgabeposition eines Punkts und können beispielsweise in 1/128 des vorstehend beschriebenen Werts repräsentiert sein, vorausgesetzt, daß eine Entsprechung zwischen dem repräsentierten Wert und der tatsächlichen Position vorhanden ist. Somit werden die Position des Zeichens und das Zeichenbild in dem Arbeits-RAM 2-11 als die Segmentierungsdaten D2 gespeichert. Wie noch zu beschreiben ist, werden die Segmentierungsdaten D2 und Erkennungsdaten D3 so in dem Arbeits-RAM 2-11 gespeichert, daß sie einander entsprechen.
Nachfolgend wird in Schritt S2-103 das Zeichenbild an die Erkennungseinheit 2-12 übertragen, welche erkennt, welches Zeichen das übertragene Bild repräsentiert, und einen Zeichenkode als ein Ergebnis der Erkennung in dem Arbeits-RAM 211 als Erkennungsdaten D3 speichert. Ein bekanntes Verfahren, wie beispielsweise ein Richtungsindex-Histogramm-Verfahren oder dergleichen, wird als Erkennungsalgorithmus verwendet. Jedoch ist die Wahl des Algorithmus nicht auf ein solches Verfahren beschränkt. Zu dieser Zeit wird eine Eins-zu-Eins-Entsprechung zwischen den Segmentierungsdaten D2 und den Erkennungsdaten D3 für jedes Zeichen bereitgestellt. Nachfolgend werden in Schritt S2-104 die Erkennungsdaten in dem Textbildrahmen der CRT 2-3 angezeigt, wie in Fig. 21 gezeigt. In diesem Fall wird darüber hinaus die Position des in dem Textbildrahmen angezeigten Zei chens der Adresse der entsprechenden Erkennungsdaten entsprechend gemacht. Durch Vergleichen dieser Entsprechung mit der vorstehend beschriebenen Entsprechung kann die Position des Zeichens in dem Textbildrahmen der Position des Zeichens in dem Originalbild entsprechen (Koordinatenumwandlungseinrichtung). Wie in Fig. 21 gezeigt, ist die Bildfläche der CRT 2-3 in einen linkshälftigen Abschnitt und einen rechtshälftigen Abschnitt als Textbildrahmen bzw. Abbildungsbildrahmen unterteilt. Das Dokumentbild wird in dem Abbildungsbildrahmen so angezeigt, daß der obere linke Abschnitt des Dokuments in dem oberen linken Abschnitt des Bilds positioniert ist, wenn das Bild gelesen worden ist.
Nach Abschluß von Schritt S104 ist die Vorrichtung in einem WARTE-Zustand (Schritt S2-201), in dem auf die Eingabe von Koordinaten gewartet wird. Es sei angenommen, daß das Zeichen " " in dem in Fig. 21 gezeigten Textbildrahmen durch die Zeigeeinrichtung 2-8 zugewiesen wird. Zu dieser Zeit wird eine Zeigeeinrichtungsunterbrechung erzeugt, um den WARTE-Zustand zu beenden. Der Prozeß schreitet dann zu Schritt S2-202 fort, in dem die zugewiesenen Koordinaten gelesen werden. Falls den Koordinaten kein Zeichen zugewiesen ist (die Ermittlung in Schritt S2-203), kehrt der Prozeß zu Schritt S2-201 zurück, um einen WARTE-Zustand wieder aufzunehmen. Falls den Koordinaten ein Zeichen zugewiesen ist, schreitet der Prozeß zu Schritt S2- 204 fort. In Schritt S2-204 wird ermittelt, welchen Erkennungsdaten D3 das zugewiesene Zeichen entspricht, während die Daten D3 in aufsteigender Richtung durchsucht werden. Welchen Segmentierungsdaten D2 das zugewiesene Zeichen entspricht, wird ebenfalls ermittelt. Da die Koordinaten (die Position) des Zeichens in dem Originalbild in den Segmentierungsdaten D2 gespeichert sind, werden die Koordinaten des Ursprungs für die Bildanzeige auf die gespeicherte Position des Zeichens eingestellt. In Schritt S2-205 wird das Bild auf der Grundlage der neuen Koordinaten des Ursprungs für die Bildanzeige neu angezeigt.
Somit wird wie in Fig. 21 gezeigt ein Zustand, in dem das dem Zeichen " " in dem Textbildrahmen entsprechende Originalbild nicht angezeigt wird, durch einen Zustand ersetzt, in dem sich das das Zeichen " " enthaltende Originalbild in dem oberen linken Abschnitt des Abbildungsbildrahmens befindet.
Der Prozeß schreitet dann zu Schritt S2-206 fort, in dem eine Editierverarbeitung, wie beispielsweise Einfügen, Löschen, Ersetzen oder dergleichen, für das zugewiesene Zeichen in dem Textbildrahmen durchgeführt wird.
In Übereinstimmung mit der Editierverarbeitung für das Zeichen indem Textbildrahmen kann eine Verarbeitung wie beispielsweise Verschieben oder dergleichen für den entsprechenden Abbildungsbildrahmen als Bilddatenblock durchgeführt werden, und kann eine Verarbeitung wie beispielsweise Einfügen oder dergleichen unter Verwendung des Zeichenmusterbilds in dem Textbildrahmen durchgeführt werden.
Die Erfindung kann natürlich in einer Vorrichtung oder einem System erzielt werden, oder durch Bereitstellen eines Programms für die Vorrichtung oder das System.
Obwohl eine Erklärung eines Falls bereitgestellt wurde, in welchem dann, wenn ein Zeichen zugewiesen wird, der Abschnitt entsprechend dem Zeichen in dem Bild des Originals neu so angezeigt wird, daß er in dem oberen linken Abschnitt des Abbildungsbildrahmens positioniert ist, ist der entsprechende Abschnitt nicht auf die Positionierung in dem oberen linken Abschnitt des Bildrahmens beschränkt, sondern kann im Zentrum des Bildrahmens oder an einer beliebigen anderen Position positioniert werden.
Obwohl in dem vorliegenden Ausführungsbeispiel ein seitlich geschriebenes Dokument dargestellt wurde, kann dieselbe Wirkung natürlich für ein vertikal geschriebenes Dokument erhalten werden.
Aus dem Originalbild gebildete Verarbeitungsdaten sind nicht auf Zeichenerkennung beschränkt, sondern können beliebige Daten sein, welche dem Bild entsprechen können.
Wie vorstehend beschrieben wurde,
(1) kann erfindungsgemäß ein Korrekturvorgang durch Vergleichen des Textbilds mit dem Originalbild effizient durchgeführt werden.
(2) Braucht nicht notwendigerweise das gesamte Originalbild auf der Monitorbildfläche angezeigt zu werden, sondern kann nur ein Teil des Bilds angezeigt werden. Eine preisgünstige Überwachungseinrichtung kann verwendet werden, wodurch die Kapazität des Speichers reduziert werden kann.
(3) Da der Vergleich des verarbeiteten Bilds (des Texts) mit dem Originalbild unter Vergrößern des Originalbilds in einen leicht erkennbaren Zustand durchgeführt werden kann, kann das Originalbild exakt erfaßt werden.

Drittes Ausführungsbeispiel

Fig. 23 ist ein Blockdiagramm, das die Konfiguration eines optischen Zeichenlesers (OCR) gemäß einem dritten Ausführungsbeispiel der Erfindung zeigt. In Fig. 23 projiziert ein Scanner 3-1 Licht auf ein bildtragendes Original, liest durch das Original reflektiertes Licht und gibt ein analoges elektrisches Signal aus. Ein Binärkodierschaltung 32 führt eine Digitalumwandlung des von dem Scanner 3-1 ausgegebenen elektrischen Signals in ein binäres Signal entsprechend dem Schwarzweißbild des Originals durch. Eine Maus 3-3 arbeitet als eine Zeigeeinrichtung zum Eingeben von Koordinaten für beispielsweise eine Bereichzuweisung in einem Bildfenster. Eine Mausschnittstellenschaltung 34 überträgt das Signal von der Maus 3-3 an andere die Vorrichtung bildende Komponenten. Eine CPU 3-5 steuert die gesamte Vorrichtung und führt eine Zeichensegmentierungsverarbeitung, Erkennungsverarbeitung und dergleichen aus. Ein ROM 3-6 speichert Steuerprogramme und verschiedene Arten von durch die CPU 3-5 auszuführenden Verarbeitungsprogrammen, ein Wörterbuch für die Erkennung und dergleichen. Ein RAM 3-7 wird beispielsweise als Arbeitsbereiche für die Entwicklung von Zeichenbildern und die Zeichenerkennungsverarbeitung verwendet.
Eine Anzeige 3-8 zeigt Eingangsbilder und Erkennungsergebnisse an. Darüber hinaus sind eine Anzeigeschnittstellenschaltung 3-9 und ein CPU-Bus 3-10 zum Verbinden von jeweiliger Komponenten der Vorrichtung gezeigt.

Bereichzuweisung durch ein einzelnes Rechteck

Nachstehend wird unter Bezugnahme auf das in Fig. 24 gezeigte Ablaufdiagramm eine Erklärung einer Zeichenerkennungsverarbeitung bereitgestellt, die unter Verwendung der Zeichenerkennungsvorrichtung mit der vorstehend beschriebenen Konfiguration ausgeführt wird. Dieselben Verarbeitungsschritte wie jene, die bereits in dem herkömmlichen Ansatz unter Bezugnahme auf Fig. 40 erklärt wurden, sind durch dieselben Schrittbezugszeichen angegeben, so daß eine Erklärung derselben weggelassen wird.
In Schritten S3-501-S3-504 werden die Eingabe eines bildtragenden Originals, die Binärkodierverarbeitung, die Bildanzeige und die Zuweisung eines Erkennungsbereichs mittels der Maus in Übereinstimmung mit dem herkömmlichen Verfahren durchgeführt.
Nachfolgend wird in Schritt S3-10 die Zeichensegmentierungsverarbeitung aus dem zugewiesenen Erkennungsbereich durchgeführt, und werden rechteckige Bereiche, die jeweiligen Zeichen entsprechen, herausgenommen. In Schritt S3-15 werden die maximale Anzahl von Zeichen und die Anzahl von Linien in dem Erkennungsbereich in Übereinstimmung mit dem Ergebnis der Zeichensegmentierungsverarbeitung berechnet. Die Größe des Ergebnisfensters, das zum Anzeigen von Zeichen als Erkennungsergebnis notwendig ist und keinen unnötigen Leerraum hat, wird aus den vorstehend beschriebenen Werten ermittelt. In Schritt S3-20 wird das Ergebnisfenster mit der ermittelten Größe geöffnet.
In Schritten S3-507-S3-508 wird die Erkennungsverarbeitung in Übereinstimmung mit dem herkömmlichen Verfahren durchgeführt und das Ergebnis der Erkennung in dem Ergebnisfenster angezeigt.
Gemäß der vorstehend beschriebenen Verarbeitung kann eine Anzeige mit einer geeigneten Beziehung zwischen der Größe des Ergebnisfensters und der Menge angezeigter Zeichen als das Ergebnis der Zeichenerkennung erhalten werden, wie in Fig. 25 gezeigt. In Fig. 25 repräsentiert ein Bezugszeichen 3-11 das Bildfenster, repräsentiert ein Bezugszeichen 3-13 das Ergebnisfenster, und repräsentiert ein Bezugszeichen 3-14 ein Betriebsarteinstellfenster zum Einstellen verschiedener Arten von Betriebsarten, die für den Betriebsablauf der OCR notwendig sind. In dem Ergebnisfenster 3-13 angezeigte Zeichen werden aus dem Zeichenbild erhalten, das in dem Erkennungsbereich 4-102 enthalten ist, der aus dem in dem in Fig. 41 gezeigten Bildfenster 4-101 angezeigten Bild zugewiesen wurde.
Obwohl in der vorangehenden Erklärung die Verarbeitung für ein seitlich geschriebenes Dokument dargestellt worden ist, kann dieselbe Verarbeitung natürlich auf ein senkrecht geschriebenes Dokument angewandt werden.
Darüber hinaus kann, obwohl in der vorangehenden Erklärung die Mehrfachfenster-Bildfläche einen nach dem Überlappungsprinzip angeordnetes Mehrfachfenster umfaßt, in welchem jeweilige Fenster einander überlappen, kann natürlich ein nach dem Stapelprinzip angeordnetes Mehrfachfenster, in welchem sich Fenster nicht überlappen, verwendet werden, wie in Fig. 26 gezeigt. In Fig. 26 repräsentiert ein Bezugszeichen 3-15 ein Fenster zum Einstellen verschiedener Arten von Verarbeitungsbetriebsarten, repräsentiert ein Bezugszeichen 3-16 ein Bildfenster, und repräsentiert ein Bezugszeichen 3-17 ein Ergebnisfenster. In Fig. 26 ist die Höhe des Ergebnisfensters fest, während seine Breite in Übereinstimmung mit der maximalen Anzahl von Zeichen innerhalb des Erkennungsbereichs festgelegt ist.
Betriebsabläufe wie beispielsweise eine Verschiebung, eine Neudimensionierung (Vergrößerung, Verkleinerung oder dergleichen), Platzierung vor einem anderen Fenster, Platzierung hinter einem anderen Fenster und dergleichen können natürlich frei für jedes Fenster durch Betätigen der Maus durchgeführt werden.
Gemäß dem vorliegenden Ausführungsbeispiel ist es, da die Größe des Ergebnisfensters in Übereinstimmung mit der maximalen Anzahl von Zeichen und der Anzahl von Linien, die in dem zugewiesenen Erkennungsbereich enthalten sind, festgelegt ist, möglich, ein Ergebnisfenster zu erhalten, welches für die Menge angezeigter Zeichen als das Ergebnis der Zeichenerkennung geeignet ist, und daher eine geeignete Anzeige durchzuführen, welche keine Schwierigkeit hinsichtlich der Sichtbarkeit des angezeigten Satzes bereitstellt.

Bereichzuweisung durch einen eine Vielzahl von Liniensegmenten umfassenden geschlossenen Bereich

Es wurde eine Erklärung der Verarbeitung zum Ermitteln einer geeigneten Größe des Ergebnisfensters in Übereinstimmung mit der maximalen Anzahl von Zeichen und der Anzahl von Linien, die in dem zugewiesenen Erkennungsbereich enthalten sind, bereitgestellt. Als nächstes wird eine Erklärung einer Verarbeitung, bei welcher ein Erkennungsbereich mit einer komplizierten Form anders als ein Rechteck zugewiesen werden kann, unter Bezugnahme auf das in Fig. 27 gezeigte Ablaufdiagramm bereitgestellt. In Fig. 27 sind dieselben Verarbeitungsschritte wie jene, die bereits in dem herkömmlichen Ansatz erklärt wurden, durch dieselben Schrittbezugszeichen angegeben, so daß eine Erklärung derselben weggelassen wird.
In Schritten S3-501-S3-503 werden die Eingabe eines bildtragenden Originals, die Binärkodierverarbeitung und die Bildanzeige in Übereinstimmung mit dem herkömmlichen Verfahren durchgeführt.
Nachfolgend wird in Schritt S3-30 der Erkennungsbereich unter Verwendung der Maus 3-3 zugewiesen. In dem vorliegenden Ausführungsbeispiel werden Liniensegmente in dem Abbildungsfenster- Bildrahmen durch Betätigen der Maus 3-3 gezeichnet, wird ein Polygon durch Verbinden der Liniensegmente gebildet, und wird ein von dem Polygon umgebener Bereich als Erkennungsbereich betrachtet. Die Betriebsabläufe des Zuweisens des Erkennungsbe reichs werden im einzelnen unter Bezugnahme auf in Fig. 28-30 dargestellte Anzeigebildflächen erklärt.
Fig. 28 ist ein Diagramm, das einen Zustand zeigt, in welchem das von dem Scanner 1 zugeführte bildtragende Original nach Beendigung der Verarbeitung von Schritt S-503 in dem Abbildungsfenster 3-41 angezeigt wird. In Fig. 28 sind Liniensegmente 3-42 und 3-43 bereits geschrieben und zeigen an, daß ein Polygon zum Zuweisen des Erkennungsbereichs im Begriff ist, gezeichnet zu werden. Die Zuweisung von Liniensegmenten erfolgt durch die Maus 3-3. Durch Durchführen eines einzelnen Klickvorgangs der Taste der Maus 3-3 nach Bewegen eines Cursors 3-40 an eine gewünschte Position wird der Anfangspunkt oder der Endpunkt eines das Polygon bildenden Liniensegments festgelegt.
Fig. 29 zeigt einen Zustand, in welchem der Zeichenvorgang des Polygons ausgehend von dem in Fig. 28 gezeigten Zustand weiter fortgeschritten ist und das letzte Liniensegment festzulegen ist. In Fig. 29 wurden Liniensegmente 3-44, 3-45 und 3-46 durch fortsetzen jeweiliger einzelner Klickvorgänge der Taste der Maus 3-3 während des Bewegens des Cursors 3-40 an gewünschte Positionen gezeichnet. Um das Polygon zu vervollständigen, wird nach Bewegen des Cursors 3-40 an die gewünschte Position die Taste der Maus 3-3 zweimal geklickt (Doppelklicken). In Übereinstimmung mit diesem Betriebsablauf wird in dem Fall von Fig. 29 zum Beispiel die Position des Cursors 3-40 mit dem Anfangspunkt 3-51, an dem die Erzeugung des Polygons mit einer geraden Linie begonnen wurde, verbunden, um das in Fig. 30 gezeigte Polygon 3-61 zu vervollständigen. Dieses Polygon 3-61 wird als der Erkennungsbereich betrachtet.
Nach dem so erfolgenden Abschließen der Zuweisung des Erkennungsbereichs schreitet der Prozeß zu Schritt S3-35 fort, in dem die Zeichensegmentierungsverarbeitung innerhalb des zugewiesenen Bereichs ausgeführt wird und rechteckige Bereiche für jeweilige Zeichen herausgenommen werden. Diese Verarbeitung wird genauer unter Bezugnahme auf Fig. 31 und 32 erklärt. Obwohl bereits viele Verfahren zum Segmentieren von Zeichen bekannt sind, wird die Zeichensegmentierungsverarbeitung unter Verwendung eines Histogramms schwarzer Bildelemente durchgeführt, die in dem vorliegenden Ausführungsbeispiel durch Projektion erhalten wurden. Es kann natürlich ein beliebiges anderes Segmentierungsverfahren wie beispielsweise eine Umrißliniennachverfolgung oder dergleichen verwendet werden.
Zu Zwecken der Vereinfachung der Erklärung wird angenommen, daß der zugewiesene Erkennungsbereich ein in Fig. 31 gezeigter rechteckiger Bereich 3-71 ist. Wenn ein die x-Achse in der seitlichen Richtung und die y-Achse in der vertikalen Richtung wie in Fig. 31 gezeigt umfassendes x-y-Koordinatensystem betrachtet wird, können Koordinaten innerhalb dieses rechteckigen Bereichs durch a&sub0; < x < a&sub1; und b&sub0; < y < b&sub1; ausgedrückt werden.
Falls zunächst schwarze Bildelemente in der x-Richtung innerhalb des Rechtecks 3-71 projiziert werden, wird ein Histogramm 3-72 in der Richtung der y-Achse erhalten. Die Werte der y- Koordinaten der Anfangspunkte und der Endpunkte jeweiliger Linien werden als YS1, YE1, YS2, YE2, ... gemäß dem Histogramm 3-72 berechnet.
Nachfolgend wird, wenn schwarze Bildelemente in der y-Richtung für jede Linie projiziert werden, d. h. innerhalb eines durch a&sub0; < x < a und YSn < y < YEn für die n-te Linie definierten Rechtecks wie in Fig. 32 gezeigt, ein Histogramm 73 in der Richtung der x-Richtung erhalten. Die x-Koordinaten der Anfangspunkte und der Endpunkte der jeweiligen Zeichen werden als XS1, XE1, XS2, XE2, ... gemäß dem Histogramm 3-73 berechnet.
Der vorstehend beschriebene Ansatz kann auch auf den Erkennungsbereich mit der Form eines in Fig. 33 gezeigten Polygons angewandt werden. In dem Fall des in Fig. 33 gezeigten Polygons 3-74 werden die Koordinaten eines durch das Polygon umgebenen Bereichs ausgedrückt durch:
XS(y) < X < XE(Y) (1)
und YS(x) < y < YE(x) (2).
Demgemäß kann, falls die Projektion in der x-Richtung und der y-Richtung nur innerhalb eines Bereichs durchgeführt wird, der die Bedingungen der Ausdrücke (1) und (2) erfüllt, die Segmentierung von Linien und Zeichen in einem gewünschten Bereich realisiert werden.
Schließlich wird in Schritten S3-507 und S3-508 die Erkennungsverarbeitung für das segmentierte Zeichenbild in Übereinstimmung mit dem herkömmlichen Verfahren durchgeführt und das Ergebnis der Erkennung in dem Ergebnisfenster angezeigt.
Wie vorstehend beschrieben wurde, ist es in Übereinstimmung mit dem Ausführungsbeispiel, da ein durch freies Kombinieren einer Vielzahl von Liniensegmenten erhaltenes Polygon zu dem Erkennungsbereich wird, möglich, einen Erkennungsbereich mit einer komplizierten äußeren Form zuzuweisen, der nicht auf einfache Art und Weise durch eine Maus zugewiesen werden kann. Gemäß einem derartigen Ansatz ist es auch dann, wenn ein Foto, eine Zeichnung, ein Kopfabschnitt oder dergleichen vorhanden ist, möglich, einen Erkennungsbereich unter einfachem Entfernen des unnötigen Fotos oder dergleichen auszuwählen.
Obwohl in der vorangehenden Erklärung eine Maus als Zeigeeinrichtung verwendet wird, kann auch eine beliebige andere Art von Zeigeeinrichtung verwendet werden. Obwohl eine Erklärung eines Falls bereitgestellt wurde, in welchem ein einzelner Klickvorgang und ein Doppelklickvorgang einer Maustaste zum Definieren eines Liniensegments bzw. eines Polygons verwendet werden, wenn das Polygon erzeugt wird, können diese Klickvorgänge geändert werden, oder kann ein Liniensegment oder ein Polygon definiert werden, wenn die Maustaste losgelassen wird.

Bereichzuweisung durch eine Vielzahl von Rechtecken

Es wurde eine Erklärung eines Falls bereitgestellt, in welchem ein Polygon durch Kombinieren einer Vielzahl von Liniensegmenten gebildet und ein von dem Polygon umgebener Bereich zu einem Erkennungsbereich gemacht wird. Als nächstes wird eine Erklärung eines Falls bereitgestellt, in welchem ein Erkennungsbereich durch Kombinieren einfacher Rechtecke gebildet wird. Verglichen zu dem Fall in der vorangehenden Erklärung liegt ein Merkmal dieses Ansatzes in der Prozedur des Bildens eines Erkennungsbereichs. Da die übrige Verarbeitung sowohl dem vorhergehenden Ansatz als auch dem gegenwärtigen Ansatz gemeinsam ist, wird nur die Prozedur des Bildens eines Erkennungsbereichs unter Bezugnahme auf Fig. 34-36 erklärt.
Der in Fig. 42 gezeigte und in dem herkömmlichen Ansatz erklärte Bereich 4-103 wird als der zu erkennende Bereich betrachtet. Zunächst wird ein in Fig. 34 gezeigter rechteckiger Bereich 3- 81 mittels der Maus 3-3 zugewiesen. Der rechteckige Bereich 3-81 wird definiert durch zunächst Klicken der Maustaste unter Einstellung des Mauscursors auf das obere linke Ende des rechteckigen Bereichs 3-81, und erneutes Klicken der Maustaste nach Bewegen der Maus zu dem unteren rechten Ende des rechteckigen Bereichs 3-81. Nachfolgend wird ein rechteckiger Bereich 3-82 zugewiesen durch Betätigen der Maus 3-3 auf dieselbe Art und Weise wie vorstehend beschrieben. In dem gegenwärtigen Ansatz wird ein Polygon durch kontinuierliches Zuweisen einer Vielzahl von rechteckigen Bereichen mittels der Maus und Zusammensetzen der zugewiesenen rechteckigen Bereiche gebildet. Zum Beispiel werden in dem Fall von Fig. 34 Liniensegmente 3-83 und 3-84 in einem Abschnitt, in dem die rechteckigen Bereiche 3-81 und 3-82 überlappen, vernachlässigt. Infolgedessen wird ein in Fig. 35 gezeigtes Polygon 3-85 als der Erkennungsbereich betrachtet. Somit wird schließlich ein in Fig. 36 gezeigter Erkennungsbereich 86 erhalten.
Mit anderen Worten ausgedrückt besteht das Zusammensetzen von rechteckigen Bereichen darin, daß nur die am weitesten außen liegenden Abschnitte von zugewiesene Rechtecke bildenden Liniensegmenten belassen werden. Eine derartige Zusammensetzungsverarbeitung wird jedes Mal durchgeführt, wenn ein rechteckiger Bereich mit einem Überlappungsabschnitt zugewiesen wird, so daß nur die am weitesten außen liegenden Liniensegmente immer als Grenzlinien des Erkennungsbereichs erhalten bleiben.
Gemäß dem vorstehend beschriebenen Ansatz ist es möglich, eine Vielzahl von rechteckigen Bereichen unter Verwendung einer Maus zuzuweisen und ein durch Zusammensetzen der zugewiesenen recht eckigen Bereiche gebildetes Polygon zu dem Erkennungsbereich zu machen.
Die Erfindung kann auf ein eine Vielzahl von Vorrichtungen umfassendes System oder auf eine eine einzelne Einheit umfassende Vorrichtung angewandt werden. Die Erfindung kann natürlich auf einen Fall angewandt werden, in welchem der Gegenstand der Erfindung durch Bereitstellen von Programmen für ein System oder eine Vorrichtung erreicht wird.

Claims

1. Bildverarbeitungsverfahren, umfassend die Schritte:

Segmentieren von Zeichenbildern aus einem Dokumentbild;

Erkennen der segmentierten Zeichenbilder als Text;

Speichern von Zeichenpositionen entsprechend den segmentierten Zeichenbildern;

Anzeigen sowohl des Dokumentbilds als auch des erkannten Texts;

Angeben einer Position eines gewünschten Zeichenmusters in dem in dem Anzeigeschritt angezeigten erkannten Text;

Identifizieren eines Zeichenbilds innerhalb des Dokumentbilds entsprechend dem gewünschten Zeichenmuster unter Verwendung der gespeicherten Zeichenpositionen; und

Durchführen einer Anzeigesteuerung, um die Anzeige des Dokumentbilds derart zu ändern, daß das identifizierte Zeichenbild so angezeigt wird, daß es von den anderen Zeichenbildern unterscheidbar ist (6, S142, S151).

2. Bildverarbeitungsverfahren nach Anspruch 1, bei dem der Speicherschritt die Positionen von Ausgabepunkten des Dokumentbilds speichert.

3. Bildverarbeitungsvorrichtung, umfassend:

eine Segmentiereinrichtung (7) zum Segmentieren von Zeichenbildern aus einem Dokumentbild;

eine Erkennungseinrichtung (8) zum Erkennen des segmentierten Zeichenbilds als Text;

eine Speichereinrichtung (5) zum Speichern von Zeichenpositionen entsprechend den segmentierten Zeichenbildern;

eine Anzeigeeinrichtung (10) zum Anzeigen sowohl des Dokumentbilds als auch des erkannten Texts;

eine Angabeeinrichtung (2) zum Angeben einer Position eines gewünschten Zeichenmusters in dem durch die Anzeigeein richtung (10) angezeigten Text;

eine Identifiziereinrichtung (3) zum Identifizieren eines Zeichenbilds innerhalb des Dokumentbilds entsprechend dem gewünschten Zeichenmuster unter Verwendung der gespeicherten Zeichenpositionen; und

eine Anzeigesteuereinrichtung (6) zum Steuern der Anzeigeeinrichtung (10) dahingehend, daß die Anzeige des Dokumentbilds derart geändert wird, daß das identifizierte Zeichenbild so angezeigt wird, daß es von den anderen Zeichenbildern unterscheidbar ist.

4. Bildverarbeitungsvorrichtung nach Anspruch 3, bei der die Speichereinrichtung die Positionen von Ausgabepunkten der Bildinformation speichert.