DE19624987A1

DE19624987A1 - Automatisches Sprachumsetzungsverfahren

Info

Publication number: DE19624987A1
Application number: DE19624987A
Authority: DE
Inventors: Peter Dr Toma
Original assignee: Individual
Current assignee: Individual
Priority date: 1996-06-22
Filing date: 1996-06-22
Publication date: 1998-01-02

Description

Die Erfindung betrifft ein Verfahren zur automatischen Um setzung eines gesprochenen Textes von einer ersten Sprache in wenigstens eine andere oder in einen geschriebenen Text, wobei der gesprochene Text mittels eines Mikrofons in elektrische Signalfolgen umgewandelt und diese einem Computer in digitalisierter Form zugeführt werden, wo sie durch ein Spracherkennungssystem mit gespeicherten digitalen Signalfolgen verglichen und so Sprachelementen der ersten Sprache zugeordnet werden, und wobei die Sprachelemente der ersten Sprache mittels einer Über setzungseinrichtung Sprachelementen der wenigstens einen anderen Sprache oder Schreibtextelementen zugeordnet werden, um dann direkt in akustischer oder geschriebener Form oder durch einen Datenträger zur Ausgabe zu gelangen.

Sprachübersetzungsverfahren sind beispielsweise aus der EP-A-12 777 oder aus der EP-B-274 281 bekannt. Diese bekannten Verfahren beruhen im wesentlichen darauf, einzelne Worte zu erkennen und je weils in die gewünschte andere Sprache umzusetzen. Da häufig von ihrem Sinngehalt her sehr unterschiedliche Worte gleich ausgesprochen werden, so daß eine korrekte Zuordnung durch die Übersetzungseinrichtung selten möglich ist und gewöhnlich Probleme durch die oft andere Satz stellung und grammatikalischen Regeln der anderen Sprache auftreten, läßt die Qualität der Übersetzung zu wünschen übrig. Zwar sind bei den bekannten Verfahren bereits Grammatikregel-Korrektureinrichtungen vorgesehen, jedoch verbessern solche Korrekturen die Gesamtqualität der Über setzung nicht in ausreichendem Maße, so daß das Ergebnis immer noch unbefriedigend bleibt. Aus diesem Grunde haben sich derartige automatische Sprachübersetzungsverfahren und Sprachumsetzer noch nicht am Markt durchsetzen können.

Eine Aufgabe der vorliegenden Erfindung besteht darin, ein automatisches Sprachumsetzungsverfahren zu schaffen, durch das Sprachübersetzung von wesentlich höherer Qualität er zielt werden können.

Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Signalpausen in den dem Computer in digitaler Form zu geführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen zugeordnet werden, wobei der ersten Klasse zugeordnete kürzere Signalpausen zur Unterteilung der Signalfolgen in einzelne Worte und der zweiten Klasse zugeordnete längere Signal pausen zur Unterteilung der Signalfolgen in einzelne Sätze oder Satzteile verwendet werden, daß das Spracherkennungs system jeweils zunächst versucht, eine zwischen zwei Signalpausen der zweiten Klasse erkannte Signalfolge längeren Sprachelementen der ersten Sprache zuzuordnen, und daß nur bei einem vergeblichen Versuch anschließend die zwischen Signalpausen der ersten Klasse innerhalb der beiden Signalpausen der zweiten Klasse erkannten Signal folgen kürzeren Sprachelementen zugeordnet werden.

Der wesentliche Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß nach Möglichkeit ganze Sätze oder zu mindest Satzteile als Einheit erkannt und übersetzt werden. Vor allem hierdurch wird eine wesentlich bessere Übersetzungsqualität erreicht, da die ganzen Sätze bzw. Satzteile nach dem Sinngehalt übersetzt werden können, so daß Fehler beispielsweise durch starke grammatikalische Unterschiede oder unterschiedliche Satz- und Wort stellungen in den verschiedenen Sprachen entfallen. Nur wenn das Spracherkennungssystem nur die einem Satz oder Satzteil entsprechende lange Signalfolge nicht erkennt, wird die längere Signalfolge durch die kürzeren Signal pausen der ersten Klasse in kürzere Signalfolgen unter teilt, die im wesentlichen einzelnen Worten entsprechen, und diese werden dann gemäß den bisherigen Verfahren erkannt und zugeordnet. Selbstverständlich erfordert das erfindungsgemäße Verfahren gegenüber den bekannten Ver fahren einen wesentlich größeren Speicherplatzbedarf, da nicht nur Worte, sondern auch Satzteile und Sätze ge speichert werden müssen, die eine große Vielzahl von Wortkombinationen enthalten können. Entsprechend dem sehr hohen Speicherbedarf ist auch eine relativ große Ver arbeitungsgeschwindigkeit notwendig. Bei der heutigen Computergeneration stellen jedoch diese Kriterien kein wesentliches Problem mehr dar.

Durch die in den Unteransprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im Anspruch 1 angegebenen Verfahrens möglich.

Zweckmäßigerweise erfolgt eine Zuordnung auch dann, wenn eine zwischen Signalpausen erkannte Signalfolge mit wenigstens einem gespeicherten Sprachelement eine große Ähnlichkeit aufweist, da völlig identische Überein stimmungen relativ selten sein dürften. Bei großer Ähn lichkeit zwischen der erkannten Signalfolge und mehreren gespeicherten Signalfolgen erfolgt in vorteilhafter Weise eine Auswahl mittels einer Kompatibilitäts-Codeprüfung, die auf grammatikalischen und/oder semantischen Regeln der ersten Sprache beruht. Indem während der Spracheingabe aus den eingegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet und gespeichert werden, wird die Kompatibilitäts- Codeprüfung nach Art eines lernenden Systems ausgebildet. Bei dieser Kompatibilitäts-Codeprüfung kann zur Verbesse rung der Übersetzungsqualität auch noch die Kompatibilität mit benachbarten Signalfolgen berücksichtigt werden.

Um zu verhindern, daß Personen mit schlechter Aussprache oder schlechter Kenntnis der einzugebenden Sprache oder einen Dialekt sprechende Personen falsche Kompatibilitäts- Codes erzeugen, kann die Bildung und Speicherung neuer Kompatibilitäts-Codes wahlweise zugelassen oder verhindert werden, z. B. mittels eines Umschalters oder eines Eingabe befehls. Diese Zulassung oder Verhinderung kann sich auch im Lernbetrieb auf das Einspeichern neuer Worte, Satzteile und Sätze beziehen.

Um eine noch feiner abgestufte Spracherkennung zu er reichen, können die Signalpausen der zweiten Klasse wiederum bezüglich ihrer zeitlichen Länge wenigstens zwei Unterklassen zugeordnet werden, wobei das Sprach erkennungssystem wiederum entsprechend zunächst versucht, Signalfolgen zwischen längeren Signalpausen der ersten Unterklasse längeren Sprachelementen zuzuordnen, z. B. ganzen Sätzen, und nur bei vergeblichem Versuch die Signalfolgen zwischen kürzeren Signalpausen der zweiten Unterklasse zu analysieren versucht, die dann beispiels weise Satzteilen entsprechen. Hierdurch wird eine Unter teilung der eingegebenen Signalfolgen mittels der Pausen erkennung in Sätze, Satzteile und Worte erreicht. Selbst verständlich kann prinzipiell auch eine noch feinere Unterteilung durchgeführt werden.

Bei nicht befriedigend zuzuordnenden Signalfolgen wird eine vorteilhafte Hilfslösung dadurch erreicht, daß Teil signalfolgen gesucht werden, die Kernbegriffen zugeordnet werden können, wie Hauptwörtern, Adjektiven und Verben, und daß anschließend die Umgebung eines solchen erkannten Kernbegriffs, die z. B. aus Präpositionen, Pronomen, Ad jektiven u. dgl. besteht, analysiert und anhand einer Gram matikregelprüfung und/oder Grammatikregelzuordnung der Kernbegriff in seiner grammatikalischen Form erkannt und entsprechenden Sprachelementen zugeordnet wird, oder daß ein entsprechendes Sprachelement aufgebaut wird. Hierdurch kann in vielen Fällen auch bei schlechter Spracheingabe oder sprachunüblich gebildeten Sätzen noch der richtige Sinngehalt erfaßt und übersetzt werden.

Da das erfindungsgemäße Verfahren eine sehr große Zahl von gespeicherten Worten, Satzteilen und Sätzen benötigt, werden in vorteilhafter Weise jeweils neu eingegebene Signalfolgen in einem Lernvorgang zur Korrektur und/oder Erweiterung der gespeicherten Signalfolgen (Wörterbuch) eingesetzt. Hierdurch wird dieses "Wörterbuch" ständig erweitert, was zu einer immer höheren Übersetzungsqualität führt. Im einfachsten Fall kann mit einer relativ geringen Anzahl von gespeicherten Signalfolgen begonnen werden, die sich dann durch das lernende System ständig erweitern.

In einer praktischen Ausgestaltung wird beim Lernvorgang jede eingegebene Signalfolge automatisch, verbal oder über eine Tastatur mit einer Zuordnungsnummer versehen und zu sammen mit dieser binär gespeichert. Jeder Zuordnungs nummer wird dann eine entsprechende Signalfolge in der wenigstens einen weiteren Sprache zugeordnet, so daß auf diese relativ einfache Weise bei der Übersetzung die Zu ordnung zum entsprechenden Begriff in der anderen Sprache erfolgen kann.

Zur Erleichterung der Suche nach gespeicherten Signal folgen, die der jeweils neu eingegebenen Signalfolge ent sprechen oder dieser ähnlich sind, werden die neu ge speicherten Signalfolgen jeweils Ähnlichkeitsbereichen zugeordnet, die ähnlichen Signalfolgen angehören. Die Zu ordnung zu Ähnlichkeitsbereichen erfolgt dann zweck mäßigerweise anhand der jeweiligen Binärfolgen.

Da sich Kinderstimmen, Frauenstimmen und Männerstimmen und die entsprechenden Signalfolgen für dieselben Sprach einheiten oft deutlich unterscheiden, was zu Verwechslungen und Fehlinterpretationen führen könnte, sind die nach Art eines Wörterbuchs gespeicherten Signalfolgen in vorteil hafter Weise in mehreren separaten Bereichen gespeichert, wobei die Bereiche einer Kinderstimmen und/oder einer Frauenstimme und/oder einer Männerstimme zugeordnet sind, wobei beim Lernvorgang und/oder Erkennungsvorgang der je weilige Bereich automatisch oder manuell vorgewählt wird.

Ein Blockschaltbild einer Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens ist in der Zeichnung darge stellt und in der nachfolgenden Beschreibung zusammen mit dem erfindungsgemäßen Verfahren ausführlich beschrieben.

Ein Mikrofon 10 oder eine sonstige Wandlungseinrichtung zur Umwandlung von Schallsignalen in elektrische Signale ist über einen Analog-Digital-Wandler 11 mit dem Sprach eingang eines Sprachcomputers 12 verbunden, bei dem es sich beispielsweise um einen PC handeln kann. Zur Er läuterung des Sprachcomputers 12 wurde eine Darstellung gewählt, die die erforderlichen Funktionen und Funktions einheiten für die Sprachübersetzung betont, während tat sächlich selbstverständlich der übliche Aufbau vorliegt, der im wesentlichen einen Mikroprozessor, einen Festwert speicher, einen Arbeitsspeicher, eine Eingabetastatur, einen Bildschirm und Datenträger-Laufwerke enthält. Die dargestellten Funktionsblöcke werden real durch Funktionen des Mikroprozessors in Verbindung mit den übrigen, daran angeschlossenen Elementen des Computers realisiert.

Die dem Analog-Digital-Wandler 11 zugeführten analogen Signalfolgen, die den ins Mikrofon eingegebenen Sprech folgen entsprechen, werden als digitale bzw. binäre Signalfolgen einer Spracherkennungseinrichtung 13 zuge führt. Diese ist mit einem Speicher 14 großen Speicher inhalts verbunden, in dem binäre Signalfolgen abgelegt sind, die Wörtern, Satzteilen und Sätzen entsprechen. Weiterhin ist der Spracherkennungseinrichtung 13 eine Sprechpausenerkennungseinrichtung 15 zugeordnet.

Zur Spracherkennung werden zunächst durch die Sprech pausenerkennungseinrichtung 15 die Signalpausen der der Spracherkennungseinrichtung 13 zugeführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge in drei Klassen klassifiziert. Selbstverständlich kann in einer einfacheren Version auch eine Klassifizierung in nur zwei Klassen oder bei aufwendigeren Ausführungen in eine noch größere Zahl von Klassen erfolgen. Die einer ersten Klasse zugeordneten sehr kurzen Signalpausen trennen die Ein gangssignalfolge in Abschnitte auf, die einzelnen Worten entsprechen, während längere Signalpausen einer zweiten Klasse zugeordnet werden und die Signalfolge in längere Abschnitte aufteilen, die Satzteilen oder ganzen Sätzen entsprechen. Dabei wird die zweite Klasse nochmals in zwei Unterklassen unterteilt, wobei mittlere Signalpausen zur Aufteilung der Signalfolge in Satzteile der einen Unter klasse und noch längere Signalpausen zur Unterteilung der Signalfolge in ganze Sätze der zweiten Unterklasse zuge ordnet werden. Dabei wird von der Überlegung ausgegangen, daß gemäß üblichen Sprechgewohnheiten zwischen ganzen Sätzen längere Sprechpausen, zwischen Satzteilen kürzere Sprechpausen und zwischen einzelnen Worten noch kürzere Sprechpausen gemacht werden.

Die Sprechpausen werden automatisch analysiert und jeder Sprache separat zugeordnet. Dazu werden zunächst durch das Mikrofon 10 größere gesprochene Texte eingelesen und digi talisiert. Dabei werden die Sprechpausen automatisch erfaßt, automatisch in die zwei bzw. drei Klassen unterteilt und für die jeweilige Sprache gespeichert. Diese gespeicherten klassifizierten Sprechpausen werden dann imfolgenden bei der Erkennung von gesprochenen Texten verwendet.

Zunächst werden die ganzen Sätzen zugeordneten längsten Signalfolgeabschnitte mit im Speicher 14 gespeicherten Signalfolgen verglichen. Sollte dort eine identische Signalfolge gespeichert sein, so wurde der gesamte Satz erkannt, und eine dieser gespeicherten Signalfolge zuge ordnete Zuordnungsnummer wird einer Übersetzungseinrich tung 16 zugeführt, der im Ausführungsbeispiel zwei Fremd sprachenspeicher 17 und 18 zugeordnet sind. In diesen sind jeweils Signalfolgen gespeichert, die Wörtern, Satzteilen und ganzen Sätzen in zwei Fremdsprachen entsprechen. Auch hier ist es selbstverständlich möglich, nur einen Fremd sprachenspeicher 17 vorzusehen, wenn eine Übersetzung nur in eine Fremdsprache erfolgen soll. Ebenso kann auch eine größere Anzahl von Fremdsprachenspeichern vorgesehen sein, wenn Übersetzungen in eine größere Zahl von Fremdsprachen erforderlich sind. Zur Sprachausgabe kann entweder eine Fremdsprache ausgewählt werden, in die übersetzt werden soll, oder es können mehrere Fremdsprachen vorgewählt werden, wenn eine simultane oder sequentielle Sprach ausgabe in mehreren Fremdsprachen erwünscht ist. Mit Hilfe der Zuordnungsnummer wird nun der den Fremdsprachen ent sprechende ganze Satz angewählt und aus dem Speicher aus gegeben. Die Ausgabe kann als Schrift auf einen Drucker 19 oder Bildschirm erfolgen, oder die Ausgangssignalfolge wird einem Speichermedium zugeführt und dort gespeichert, beispielsweise auf einer Diskette eines Disketten- Laufwerks 20, auf einer beschreibbaren CD od. dgl. Schließ lich kann auch noch eine direkte Sprachausgabe dadurch erfolgen, daß die Ausgangssignalfolge über einen Digital- Analog-Wandler 21 einem Lautsprecher 22 oder einem Kopf hörer zugeführt wird. Die verschiedenen Sprachausgabe- Möglichkeiten können simultan oder alternativ genutzt werden.

Kann eine einem ganzen Satz entsprechende lange Eingangs signalfolge nicht eindeutig gespeicherten Signalfolgen zugeordnet werden, so werden sehr ähnliche Signalfolgen im Speicher 14 gesucht. Diese sehr ähnlichen Signalfolgen werden einer Kompatibilitäts-Codeprüfung in der Sprach erkennungseinrichtung 13 unterzogen, wobei die einzelnen Signalfolgen auf grammatikalische und/oder semantische Regeln der Eingangssprache untersucht werden. Dabei kann auch eine Überprüfung derjenigen Signalfolgeabschnitte erfolgen, die dem zu überprüfenden Signalfolgeabschnitt vorangehen oder nachfolgen, um feststellen zu können, bei welcher der sehr ähnlichen gespeicherten Signalfolgen die größte Wahrscheinlichkeit besteht, daß ihre Bedeutung der der zu untersuchenden Signalfolge am nächsten kommt. Wird auf diese Weise eine der sehr ähnlichen Signalfolgen aus gewählt, so erfolgt in der bereits beschriebenen Weise eine Übersetzung in wenigstens eine der möglichen Fremd sprachen anhand der Zuordnungsnummer.

Werden auch eine der zu untersuchenden Signalfolge sehr ähnliche gespeicherte Signalfolgen zugeordnet, die jeweils ganzen Sätzen entsprechen, so wird die zu untersuchende Signalfolge anhand der Signalpausen mittlerer Länge in größere Abschnitte unterteilt, die Satzteilen oder zu mindest längeren Ausdrücken entsprechen. Nun wiederholt sich der bereits beschriebene Vorgang, das heißt, zunächst werden jeweils zu jedem Abschnitt identische gespeicherte Signalfolgen gesucht und dann eine Auswahl zwischen ähn lichen getroffen. Ist dieses Verfahren bei einem oder mehreren dieser Abschnitte nicht möglich, so wird der jeweilige Abschnitt mit Hilfe der sehr kleinen Signal pausen wiederum in kleine Abschnitte unterteilt, die im wesentlichen einzelnen Worten entsprechen. Nun wiederholt sich das Verfahren erneut, das heißt, es werden zunächst identische gespeicherte Signalfolgen zu dem zu unter suchenden kleinen Signalfolgeabschnitt gesucht und dann ähnliche Signalfolgen.

Bei zu analysierenden Eingangssignalfolgeabschnitten mittlerer und kleinerer Länge (Satzteile, Wortkombina tionen und Worte), die schwer zu identifizieren sind, erfolgt eine Suche nach jeweils einem Kernbegriff, also beispielsweise nach einem Hauptwort, Adjektiv oder Verb. Anschließend werden dann die übrigen, in der Umgebung angeordneten Teilelemente, wie Präpositionen, Pronomen, Artikel u. dgl., analysiert und die erkannten Begriff einer Grammatikregelprüfung bzw. Grammatikregelzuordnung unter zogen. Dabei wird der Kernbegriff in seiner grammatika lischen Form erkannt und einem entsprechenden Sprach element zugeordnet, oder es wird ein entsprechendes Sprachelement anhand dieser grammatikalischen Regeln auf gebaut.

Das beschriebene Verfahren arbeitet als lernendes System. Dies bedeutet, daß bei einer Spracheingabe die durch Sprechpausen längerer oder kürzerer Art unterteilten Signalfolgeabschnitte neu in den Speicher 14 einge speichert werden. Dies kann automatisch immer erfolgen oder aber gezielt nur dann, wenn die entsprechende Lernfunktion eingeschaltet ist. Den eingespeicherten Signalfolgeabschnitten wird dann wiederum automatisch oder durch die Bedienungsperson eine Zuordnungsnummer zuge teilt. Bei nicht automatischer Zuordnung erfolgt diese durch Sprecheingabe der Zuordnungsnummer oder durch Tastatureingabe. Die mit einer Zuordnungsnummer versehenen einzuspeichernden Signalfolgeabschnitte werden Ähnlich keitsgruppen zugeordnet. Dies erfolgt nach festlegbaren definierten Regeln, wie eng die einzugebende binäre Signalfolge der einer Gruppe kommt. Selbstverständlich kann auch eine Zuordnung zu mehreren Gruppen erfolgen. Diese Ähnlichkeits-Gruppenzuordnung erleichtert das Auf finden ähnlicher Signalfolgen bei der Zuordnung einer neuen eingegebenen und zu prüfenden Signalfolge.

Es ist selbstverständlich noch erforderlich, dem unter einer bestimmten Zuordnungsnummer eingegebenen Signal folgeabschnitt der ersten Sprache, also der Eingangs sprache, entsprechende Worte, Satzteile oder Sätze in den jeweils anderen Sprachen zuzuordnen, was über die Zuord nungsnummer erfolgt. Die entsprechenden fremdsprachlichen Begriffe müssen dann noch in den Fremdsprachenspeichern 17, 18 abgelegt werden. Die Eingabe dieser fremdsprach lichen Begriffe kann selbstverständlich ebenfalls über das Mikrofon 10 erfolgen, wobei der Sprachcomputer für diesen Fallin den Fremdsprachen-Eingabemodus umgeschaltet wird. Bei einer komfortablen Ausführung der beschriebenen An ordnung kann der Speicher 14 noch in drei Bereiche unter teilt sein, wobei der erste Bereich einer Kinderstimme, der zweite Bereich einer Frauenstimme und der dritte Bereich einer Männerstimme zugeordnet ist. Bei der Eingabe erfolgt dann jeweils eine entsprechende Einstellung manu ell oder automatisch, so daß beider lernenden Sprach eingabe und bei der Spracherkennung einer Kinderstimme nur der entsprechende erste Speicherbereich des Speichers 14 wirksam wird. Das heißt, neu eingegebene Begriffe durch die Kinderstimme werden nur in diesem Bereich abgelegt, und eine Überprüfung der eingegebenen Signalfolgen erfolgt nur anhand von gespeicherten Signalfolgen dieses ersten Bereichs. Entsprechendes gilt für den zweiten Bereich bei Frauenstimmen und den dritten Bereich bei Männerstimmen. Auch hier kann eine gröbere oder feinere Unterteilung realisiert werden.

Bei neu eingegebenen Wortfolgen bzw. entsprechenden Signalfolgen werden im Lernmodus nicht nur die durch Sprechpausen in unterschiedlicher Weise unterteilten Signalfolgeabschnitte gespeichert, sondern die Kompatibi litäts-Codeprüfung wird ebenfalls dem Lernmodus unter zogen, das heißt, auf Grund der Analyse der eingegebenen Signalfolgen werden neue Kompatibilitäts-Codes gebildet und vorhandene gegebenenfalls korrigiert und ergänzt. Diese neuen oder ergänzten Kompatibilitäts-Codes werden dann der Kompatibilitäts-Code-Prüfeinrichtung zugefügt, so daß sie bei künftigen Kompatibilitäts-Codeprüfungen be rücksichtigt werden. Hierdurch wird auch die Kompatibili täts-Codeprüfung durch Lernvorgänge ständig erweitert und verbessert.

Um zu verhindern, daß durch schlechte oder fehlerhafte Sprechweise Kompatibilitäts-Codes in unerwünschter Weise verändert oder hinzugefügt werden oder daß entsprechend unerwünschte Worte, Satzteile oder ganze Sätze im Lern modus gespeichert werden, kann der Lernmodus wahlweise zugelassen oder verhindert werden. Dies bedeutet, daß bei einer Spracheingabe durch eine korrekt sprechende Person der Lernmodus zugelassen wird, während er bei anderen Personen abgeschaltet werden kann, die beispielsweise eine mundartlich bestimmte Sprechweise oder eine schlechte Aussprache haben oder deren Muttersprache nicht die Ein gabesprache ist.

Da Fremdsprachen häufig eine völlig unterschiedliche Wort folge und Wortanordnung besitzen, besteht die Gefahr, daß bei wörtlicher Übersetzung die Übersetzungsqualität ab sinkt. Werden ganze Sätze (Signalfolgen zwischen zwei langen Sprechpausen) als Einheit übersetzt, so stellt dies kein Problem dar. Können dagegen Sätze oder Satzteile nicht zugeordnet werden und wird es dadurch erforderlich, eine Wort-für-Wort-Übersetzung vorzunehmen, so werden in der Übersetzungseinrichtung 16 die jeweiligen Wortfolgen oder auch kurzen Satzteile analysiert und mittels einer Korrekturvorrichtung gemäß gespeicherten semantischen oder grammatikalischen Regeln der jeweiligen Sprache in korrek ter Form umgruppiert.

Anstelle einer Ausgabe und Umsetzung in einer andere Sprache kann die Spracherkennung auch zur Ausgabe von Texten in der Basissprache dienen, beispielsweise um einen gesprochenen Text in einen geschriebenen Text automatisch umzuwandeln.

Claims

1. Verfahren zur automatischen Umsetzung eines gesprochenen Textes von einer ersten Sprache in wenigstens eine andere oder in einen geschriebenen Text der ersten oder wenigstens einen anderen Sprache, wobei der gesprochene Text mittels eines Mikrofons in elektrische Signalfolgen umgewandelt und diese einem Computer in digitalisierter Form zugeführt werden, wo sie durch ein Spracherkennungssystem mit gespeicherten digitalen Signal folgen verglichen und so Sprachelementen der ersten Sprache zugeordnet werden, und wobei die Sprachelemente der ersten Sprache mittels einer Übersetzungseinrichtung Sprachelementen der wenigstens einen anderen Sprache oder Schreibtextelementen zugeordnet werden, um dann direkt in akustischer oder geschriebener Form oder durch einen Datenträger zur Ausgabe zu gelangen, dadurch gekenn zeichnet, daß die Signalpausen in den dem Computer (12) in digitaler Form zugeführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen zugeordnet werden, wobei der ersten Klasse zugeordnete kürzere Signalpausen zur Unterteilung der Signalfolgen in einzelne Worte und der zweiten Klasse zugeordnete längere Signalpausen zur Unterteilung der Signalfolgen in einzelne Sätze oder Satzteile verwendet werden, daß das Sprach erkennungssystem (13) jeweils zunächst versucht, eine zwischen zwei Signalpausen der zweiten Klasse erkannte Signalfolge längeren Sprachelementen der ersten Sprache zuzuordnen, und daß nur bei einem vergeblichen Versuch an schließend die zwischen Signalpausen der ersten Klasse innerhalb der beiden Signalpausen der zweiten Klasse erkannten Signalfolgen kürzeren Sprachelementen zugeordnet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eine Zuordnung auch dann erfolgt, wenn eine zwischen Signalpausen erkannte Signalfolge mit wenigstens einem gespeicherten Sprachelement (gespeicherte Signalfolge) eine große Ähnlichkeit aufweist.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei großer Ähnlichkeit zwischen der erkannten Signal folge und mehreren gespeicherten Signalfolgen eine Auswahl mittels einer Kompatibilitäts-Codeprüfung erfolgt, die auf grammatikalischen und/oder semantischen Regeln der ersten Sprache beruht.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei der Kompatibilitäts-Codeprüfung auch die Kompati bilität mit benachbarten Signalfolgen berücksichtigt wird.

5. Verfahren nach Anspruch 3 oder 4, dadurch gekenn zeichnet, daß während der Spracheingabe aus den ein gegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet und gespeichert werden, um bei der zukünftigen Kompati bilitäts-Codeprüfung berücksichtigt werden zu können.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Bildung und Speicherung neuer Kompatibilitäts- Codes wahlweise zugelassen oder verhindert wird.

7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Signalpausen der zweiten Klasse wiederum bezüglich ihrer zeitlichen Länge wenig stens zwei Unterklassen zugeordnet werden, wobei das Spracherkennungssystem (13) wiederum entsprechend zunächst versucht, Signalfolgen zwischen längeren Signalpausen der ersten Unterklasse längeren Sprachelementen zuzuordnen und nur bei vergeblichem Versuch die Signalfolgen zwischen kürzeren Signalpausen der zweiten Unterklasse zu analy sieren versucht.

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in nicht befriedigend zuzu ordnenden Signalfolgen Teilsignalfolgen gesucht werden, die Kernbegriffen zugeordnet werden können, daß anschließend die Umgebung eines solchen erkannten Kernbegriffs analy siert und anhand einer Grammatikregelprüfung und/oder Grammatikregelzuordnung der Kernbegriff in seiner gramma tikalischen Form erkannt und einem entsprechenden Sprach element zugeordnet wird oder ein entsprechendes Sprach element aufgebaut wird.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß Kernbegriffe Hauptwörter, Adjektive und Verben sind, während die Umgebung durch Präpositionen, Pronomen, Artikel u. dgl. bestimmt ist.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß jeweils neu eingegebene Signalfolgen in einem Lernvorgang zur Korrektur und/oder Erweiterung der gespeicherten Signalfolgen (Wörterbuch) eingesetzt werden.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß beim Lernvorgang jede eingegebene Signalfolge automatisch, verbal oder über eine Tastatur mit einer Zuordnungsnummer versehen und zusammen mit dieser binär gespeichert wird, und daß jeder Zuordnungsnummer eine ent sprechende Signalfolge in der wenigstens einen weiteren Sprache zugeordnet wird.

12. Verfahren nach Anspruch 10 oder 11, dadurch gekenn zeichnet, daß die neu gespeicherten Signalfolgen jeweils Ahnlichkeitsbereichen zugeordnet werden, denen ähnliche Signalfolgen angehören.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Zuordnung zu Ahnlichkeitsbereichen anhand der jeweiligen Binärfolge der binären Signalfolge erfolgt.

14. Verfahren nach einem der Ansprüche 10 bis 13, dadurch gekennzeichnet, daß der Lernmodus wahlweise zugelassen oder verhindert wird.

15. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die nach Art eines Wörterbuchs gespeicherten Signalfolgen in mehreren separaten Bereichen gespeichert sind, wobei die Bereiche einer Kinderstimme und/oder einer Frauenstimme und/oder einer Männerstimme zugeordnet sind, und wobei beim Lernvorgang und/oder Er kennungsvorgang der jeweilige Bereich automatisch oder manuell vorgewählt wird.

16. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Übersetzungseinrichtung (16) in Abhängigkeit der jeweiligen Sprache, in die über setzt werden soll, eine Umgruppierung der erkannten Worte und/oder Satzteile gemäß gespeicherten semantischen und/ oder grammatikalischen Regeln der jeweiligen Sprache vornimmt.

17. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in einem Sprechpausen- Prüfmodus vor einem ersten Einspeichermodus auftretende Sprechpausen automatisch analysiert und bezüglich ihrer zeitlichen Länge wenigstens kurze und lange Sprechpausen definiert werden.