DE60318448T2

DE60318448T2 - Verfahren zur verarbeitung von poststücken unter verwendung von sprachsynthesen

Info

Publication number: DE60318448T2
Application number: DE60318448T
Authority: DE
Inventors: Francis Bourgeois
Original assignee: Solystic SAS
Current assignee: Solystic SAS
Priority date: 2002-06-19
Filing date: 2003-06-12
Publication date: 2009-01-02
Anticipated expiration: 2023-06-13
Also published as: AU2003253068A1; CA2487130A1; EP1526926A1; US20050119898A1; ATE382438T1; JP2005529743A; FR2841160A1; WO2004000472A1; FR2841160B1; EP1526926B1; DE60318448D1; ES2297215T3; WO2004000472A8

Description

Die Erfindung betrifft ein Verfahren zur Behandlung von Postgegenständen, in dem ein Bild eines Postgegenstandes auf einer Video-Kodierungsstelle dargestellt ist und auf Grundlage dieser Darstellung ein Bediener aufgefordert wird, eine Information zur Postadresse durch die Video-Kodierungsstelle bereit zu stellen, wie aus US-A-5,558,232 , US-A-4,921,107 oder US-A-5,677,834 bekannt.
Ein automatisches Sortierverfahren von Postgegenständen vom Typ Brief, flaches Objekt oder Paket umfasst im Allgemeinen die Erfassung eines Digitalbildes von jedem Gegenstand. Eine Behandlung zur optischen Zeichenerkennung wird danach auf dieses Bild angewendet, um die auf dem Postgegenstand dargestellte Adresse des Empfängers zu identifizieren. Diese Behandlung zur Erkennung kann misslingen, das heißt eine Lösung liefern, die eine sehr schwache Vertrauensrate hat oder mehrere Lösungen, unter denen eine Wahl nicht möglich war. Was hier Lösung genannt wird, entspricht zum Beispiel einem Teil der nicht erkannten Empfängeradresse: Name der Straße, Name der Firma oder der Person, Hausnummer, Postfachnummer.
In einem solchen Fall des Scheiterns wird das Digitalbild des Gegenstandes auf einem Bildschirm der Video-Kodierungsstelle dargestellt, damit ein Bediener eine Adresseninformation liefert, das heißt, damit er eine der vorgeschlagenen Lösungen bestätigt. Um dies zu tun, werden das Bild und die Lösungen gleichzeitig angezeigt, damit der Bediener seine Auswahl durchführt, indem er jede Lösung mit der im Bild dargestellten Adresse vergleicht. Im Hinblick auf den erhöhten Bearbeitungsdurchsatz auf einer Sortieranlage ist ein solcher Vorgang mühsam für den Bediener, da er für jeden Postgegenstand mehrere Lesevorgänge am Bildschirm durchführen muss, um seine Adresseninformation zu liefern.
Die Aufgabe der Erfindung ist es, eine Verbesserung der bestehenden Video-Kodierungsverfahren vorzuschlagen, um den Komfort des Bedieners zu verbessern und die Bearbeitungszeiten zu reduzieren.
Zu diesem Zweck hat die Erfindung ein Verfahren zur Behandlung von Postgegenständen zum Gegenstand, in dem ein Bild eines Postgegenstandes auf einer Video-Kodierungsstelle dargestellt ist und auf Grundlage dieser Darstellung ein Bediener aufgefordert wird, eine Information zur Postadresse durch die Video-Kodierungsstelle bereit zu stellen, dadurch gekennzeichnet, dass der Bediener durch die Stimmsynthese aufgefordert wird. Mit diesem Verfahren liest der Bediener die im Bild erscheinende Adresse zur gleichen Zeit, in der ihm eine Lösung durch Stimmsynthese ausgegeben wird. Vorteilhafterweise wird dem Bediener die Lösung durch einen Kopfhörer vorgeschlagen. In dem Fall, in dem mehrere Lösungen möglich sind, werden sie dem Bediener nacheinander ausgegeben vorgeschlagen.
Die Erfindung wird jetzt detaillierter beschrieben werden und in Bezug auf die einzige Figur, eine schematische Darstellung einer Video-Kodierungsstelle, in der das Verfahren gemäß der Erfindung realisiert ist.
Die Idee auf der Grundlage der Erfindung ist es, die Stimmsynthese zu benutzen, damit der Bediener die im Bild erscheinende Adresse liest, die ihm zur gleichen Zeit, in der ihm eine Lösung durch Stimmsynthese ausgegeben wird, präsentiert wird.
Im Besonderen lässt die einzige Figur eine Video-Kodierungsstelle 1 hervortreten, die mit einem computergestützten Verwaltungssystem einer Postsortieranlage verbunden ist, diese Stelle umfasst einen Bildschirm 2, um einem Bediener 4 Digitalbilder 3 von Postgegenständen anzuzeigen. Diese Video-Kodierungsstelle erhält vom computergestützten Verwaltungssystem eine oder mehrere Lösungen, die aus einer auf das Bild 3 angewendeten Behandlung zur optischen Zeichenerkennung resultieren. Gemäß der Erfindung werden dem Bediener die Lösungen durch Sprachausgabe der Stimmsynthese vorgeschlagen, so dass der Bediener 4 seine Adresseninformation im Vergleich der ihm im Bild 3 präsentierten Adresse mit der Lösung, die ihm ausgegeben wird, die vorgeschlagene Lösung bestätigt oder aufhebt. Vorteilhafterweise ist die Stelle so angeordnet, dass der Bediener die ihm ausgegebene Lösung durch Bedienung nur einer Taste der Tastatur 5 bestätigen kann.
Die Video-Kodierungsstelle könnte einen mit der Zentraleinheit 7 verbundenen Kopfhörer 6 beinhalten, um den Arbeitskomfort des Bedieners 4 zu verbessern. Die Verwendung eines solchen Kopfhörers 6 ermöglicht es, die verschiedenen, im gleichen Video-Kodierungsraum vorhandenen Video-Kodierungsstellen zur Nutzung der Stimmsynthese auf jeder Stelle auszustatten, ohne dass sich die Bediener gegenseitig stören.
Im Beispiel der einzigen Figur ist die Video-Kodierungsstelle ein mit einem Kopfhörer 6 durch eine Soundkarte verbundener Computer, der mit einem Programm zur Stimmsynthese ausgestattet ist. Diese Video-Kodierungsstelle, die an das Verwaltungssystem der Sortieranlage angeschlossen ist, ist so geeignet, die aus der Erkennungsbehandlung hervorgegangenen Lösungen, die aus Textnachrichten bestehen, in durch den Bediener im Kopfhörer 6 hörbare Schallsignale umzuwandeln. Solche Programme zur Stimmsynthese sind auf dem Markt derzeit verfügbar. Vorteilhafterweise wird das zur Stimmsynthese gewählte Programm fähig sein, in mehreren Sprachen zu arbeiten. In der Tat können die Empfängeradressen in einem zweisprachigen Land wie zum Beispiel Belgien in Französisch oder in Niederländisch geschrieben sein. Es ist daher unerlässlich, dass das Programm zur Stimmsynthese die Wiedergabe in Abhängigkeit der durch die Behandlung zur optischen Zeichenerkennung gegebenen Ergebnisse, in Französisch oder in Niederländisch durchführt.
Im Fall eines Scheiterns der optischen Zeichenerkennungsverarbeitung kann diese letztere eine Vielzahl von möglichen Lösungen mit einer mit jeder von ihnen verbundenen Vertrauensrate zurücksenden. In diesem Fall werden dem Bediener die verschiedenen Lösungen nacheinander ausgegeben, bis er die Richtige bestätigt, um die aus der Behandlung hervorgegangene Zweideutigkeit aufzulösen. Vorteilhafterweise werden die verschiedenen Lösungen in nach dem Vertrauen absteigender Rangfolge ausgegeben, damit die erste ausgegebene Lösung die größte Wahrscheinlichkeit hat, die Richtige zu sein. In dem Fall, in dem der Bediener alle vorgeschlagenen Lösungen aufhebt, könnte das Verwaltungssystem vorteilhafterweise so ausgelegt sein, dem Bediener vorzuschlagen, die Adresse, die er im Bild liest, manuell zu erfassen.
Um die Geschwindigkeit der Informationsaufnahme durch den Bediener zu verbessern, kann die Adresse oder der Adressenbereich, der nicht durch die Behandlung erkannt wurde, eingerahmt oder gar vom Originalbild extrahiert werden. Wieder bezogen auf die einzige Figur, entspricht das Digitalbild 3 einem Adressenblock, in dem ein Wort, das dem Namen der Spur 8 entspricht, von einer Punktierung umfasst ist, um dem Bediener anzuzeigen, dass es sich um den Teil handelt, der zu identifizieren bleibt. Also fasst sich die Aufzählung der verschiedenen Lösungen zu einer Aufzählung einer Vielzahl von Spurnamen zusammen, was einen zusätzlichen Zeitgewinn in der Video-Kodierung verschafft.
Die Erfindung kann ebenfalls durch die kodierte manuelle Erfassung auf einer Video-Kodierungsstelle angewendet werden. Die kodierte manuelle Erfassung wird zum Beispiel in dem Fall benutzt, in dem keine der als Ergebnis der Behandlung zur optischen Zeichenerkennung vorgeschlagenen Lösungen durch den Bediener bestätigt wurde. Um die Erfassungszeiten zu reduzieren, erfasst der Bediener auf seiner Tastatur nur einen Teil der nicht erkannten Adressenzeile, auch Extrakt genannt. Ein Verwaltungssystem schreibt diesem Extrakt dann einen Wert zu, aber es kommt vor, dass mehrere Lösungen ein und demselben Extrakt entsprechen. In diesem Fall ist die Video-Kodierungsstelle so ausgelegt, den Bediener durch Stimmsynthese aufzufordern, in dem sie ihm nacheinander die verschiedenen Lösungen ausgibt, die dem Extrakt, welches er erfasst hat, entsprechen. Besonders werden dann die verschiedenen Lösungen eine nach der anderen aufgezählt, bis der Bediener die bestätigt, die er zu erfassen wünscht, in dem er zum Beispiel die Tastatur der Stelle benutzt.
In der Praxis ist die in der Figur dargestellte Video-Kodierungsstelle 1 mit einer Multitasking-Softwareanwendung gesteuert, die das Betriebssystem „Windows NT.2000" nutzt. Diese Anwendung gehört zu einer umfassenderen Gesamtheit, die einen Bildhost und ein Überwachungssystem umfasst, die zu dem aus Sortiermaschinen (Briefe, flache Objekte, Pakete), Systemen zur optischen Zeichenerkennung OCR, Strichcodelesern etc., bestehenden Sortiersystem gehören.
Das Überwachungssystem ist eine graphische Softwareanwendung vom Typ „Windows", welche Fenster und Menü-Popups besitzt, um einerseits die Bildbestände und die Basis der Bildhost-Ergebnisse zu kontrollieren und zu verwalten und andererseits die Verbindungen und die Einsätze der Bediener der Video-Kodierung an den Kodierungs-Tasks zu verwalten.
Der Bildhost erhält als Eingabe die durch die Systeme zur optischen Zeichenerkennung OCR nicht vollständig aufgelösten Bilder, die oberhalb vom Sortierprozess angesiedelt ist. In dem Fall, dass die Bilder nicht vollständig aufgelöst sind, übermitteln die OCR-Systeme dem Bildhost die Teilresultate, die sie erfolgreich bestimmt haben. Der Bildhost speichert die zu behandelnden Bilder in verschiedenen Bildfiles, dies erfolgt gemäß den erzielten Ergebnissen (keine Information, Postleitzahl, mehrere Straßenannahmen, bestimmte Straße, aber keine bestimmte Hausnummer ...). Diese Organisation ermöglicht es dann, den Kodierkonsolen spezifische Bildfiles zuzuweisen, um das Video-Kodieren effektiver zu machen. Der Bildhost übermittelt den Kodierkonsolen diese Bilder und erhält dafür die Ergebnisse. Diese ermöglichen dem Bildhost, eine Entscheidung über die Fortsetzung oder den Abbruch der Bildbearbeitung zu treffen. Der Bildhost speichert diese Ergebnisse in einer Basis von Ergebnissen zur Ausgabe an die Sortiermaschinen. Die verschiedenen Elemente des Video-Kodierungssystems (Überwachungssoftware, Kodierungskonsole, Bildhost) kommunizieren untereinander durch Nachrichtenaustausch mit Hilfe des Kommunikationsprotokolls „TCP/IP".
Auf der Video-Kodierungsstelle 1 ist eine durch die Video-Kodierungssoftware benutzte Postdatenbasis in den Kodierungs-Tasks zur Auflösung der Adressen installiert. Diese Postbasis ist identisch mit der, die auf den oberhalb angesiedelten OCR-Systemen benutzt wird. Die Stimmsynthese ist eine integrierte Funktion in der Anwendersoftware der Video-Kodierung in der Form einer Bibliothek, die es unter anderem ermöglicht, die Stichprobenhäufigkeit, die verwendete Sprache, das Kommunikationsprotokoll der Soundkarte zu regeln.
Wenn sich ein Bediener auf einer Konsole der Video-Kodierung einloggt, wird seine Eingabeaufforderung an das Überwachungssystem übertragen, und wenn die Eingabeaufforderung akzeptiert ist, überträgt das Überwachungssystem über einen Kommunikationskanal die Liste der verwendeten Bildfiles (und somit die Kodierungstasks) durch den Supervisor an die Konsole. Die Video-Kodierungssoftware auf der Konsole übermittelt dann durch einen anderen Kommunikationskanal die Anfragen an den Bildhost, um die nicht vollständig aufgelösten Adressenbilder mit den Daten, die die Ergebnisse der automatischen Erkennung durch OCR betreffen, wiederherzustellen. Diese Daten enthalten klassischerweise die folgenden Informationen:

• die Koordinaten im Bild der Blockbestandteile der Adresse: Beförderungszeile, geographische Zeile, Empfängerzeile ...
• die automatisch erkannten Informationen in diesen Blöcken: Postleitzahl, Stadt, Straße, Liste der Straßen. Diese Informationen sind größtenteils in Textform dargestellt.
• Die Informationen über die Art des durch Video-Kodierung zu realisierenden Tasks (Erfassung des Extrakts des Straßennamens, Bestätigung des Straßennamens ...)

Nach der Anzeige des Bildes auf dem Bildschirm 2 der Video-Kodierungsstelle, entnimmt die Video-Kodierungssoftware die Informationen, die die Art des durchzuführenden Tasks betreffen und wertet die Koordinaten der Adressenblocks aus, um einen Rahmen um eine Adresseninformation zu zeichnen (in der Figur mit gestrichelter Linie gezeigt), die eine Bearbeitung durch Video-Kodierung benötigt. Diese Information ist in der Video-Kodierungssoftware in Textform verfügbar und wird der Bibliothek der Stimmsynthese durch eine ihrer Zugangsfunktionen übermittelt, um in akustischer Form über den Kopfhörer 6 wiederhergestellt zu werden.
Parallel zur Übermittlung des Textes an die Bibliothek der Stimmsynthese, sucht die Video-Kodierungsstelle die Tasten der Tastatur 5 ab, die während des Verfahrens der Stimmsynthese durch den Bediener gedrückt wurden.
Mit dieser zusätzlichen Funktion der Stimmsynthese kann man wegen der Parallelität der Bildanzeigen-Tasks und der Angabe der zu bestätigenden Lösungen in Stimmform den Durchsatz der Video-Kodierung in einer sehr bedeutsamen Weise erhöhen. So kann man den Durchsatz der Video-Kodierung im Hinblick auf Systeme, die die Stimmsynthese nicht nutzen, um ungefähr 10% steigern.

Claims

Verfahren zur Behandlung von Postgegenständen, in dem ein Bild (3) eines Postgegenstandes auf einer Video-Kodierungsstelle (1) dargestellt ist und auf Grundlage dieser Darstellung ein Bediener (4) aufgefordert wird, eine Information zur Postadresse durch die Video-Kodierungsstelle bereit zu stellen, dadurch gekennzeichnet, dass der Bediener (4) durch eine Stimmsynthese, aufgefordert wird.
Verfahren gemäß Anspruch 1, in dem der Bediener (4) durch eine Stimmsynthese durch einen Kopfhörer (6) aufgefordert wird.
Verfahren gemäß Anspruch 1 oder 2, in dem der Bediener durch eine Stimmsynthese zur Auflösung der Zweideutigkeit in der Postadresse eines Postgegenstandes aufgefordert wird.
Verfahren gemäß Anspruch 1, 2 oder 3, in dem der Bediener eine Adressinformation durch Bedienung nur einer Taste einer Tastatur (5) der Video-Kodierungsstelle bereitstellt.
Verfahren gemäß den Ansprüchen 3 und 4, in dem der Bediener eine Lösung, die ihm durch Stimmsynthese ausgegeben wird, bestätigt, indem er auf besagte Taste der besagten Tastatur (5) drückt.