[go: up one dir, main page]

DE19624987A1 - Automatisches Sprachumsetzungsverfahren - Google Patents

Automatisches Sprachumsetzungsverfahren

Info

Publication number
DE19624987A1
DE19624987A1 DE19624987A DE19624987A DE19624987A1 DE 19624987 A1 DE19624987 A1 DE 19624987A1 DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A1 DE19624987 A1 DE 19624987A1
Authority
DE
Germany
Prior art keywords
signal
language
assigned
signal sequences
pauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19624987A
Other languages
English (en)
Inventor
Peter Dr Toma
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19624987A priority Critical patent/DE19624987A1/de
Publication of DE19624987A1 publication Critical patent/DE19624987A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zur automatischen Um­ setzung eines gesprochenen Textes von einer ersten Sprache in wenigstens eine andere oder in einen geschriebenen Text, wobei der gesprochene Text mittels eines Mikrofons in elektrische Signalfolgen umgewandelt und diese einem Computer in digitalisierter Form zugeführt werden, wo sie durch ein Spracherkennungssystem mit gespeicherten digitalen Signalfolgen verglichen und so Sprachelementen der ersten Sprache zugeordnet werden, und wobei die Sprachelemente der ersten Sprache mittels einer Über­ setzungseinrichtung Sprachelementen der wenigstens einen anderen Sprache oder Schreibtextelementen zugeordnet werden, um dann direkt in akustischer oder geschriebener Form oder durch einen Datenträger zur Ausgabe zu gelangen.
Sprachübersetzungsverfahren sind beispielsweise aus der EP-A-12 777 oder aus der EP-B-274 281 bekannt. Diese bekannten Verfahren beruhen im wesentlichen darauf, einzelne Worte zu erkennen und je­ weils in die gewünschte andere Sprache umzusetzen. Da häufig von ihrem Sinngehalt her sehr unterschiedliche Worte gleich ausgesprochen werden, so daß eine korrekte Zuordnung durch die Übersetzungseinrichtung selten möglich ist und gewöhnlich Probleme durch die oft andere Satz­ stellung und grammatikalischen Regeln der anderen Sprache auftreten, läßt die Qualität der Übersetzung zu wünschen übrig. Zwar sind bei den bekannten Verfahren bereits Grammatikregel-Korrektureinrichtungen vorgesehen, jedoch verbessern solche Korrekturen die Gesamtqualität der Über­ setzung nicht in ausreichendem Maße, so daß das Ergebnis immer noch unbefriedigend bleibt. Aus diesem Grunde haben sich derartige automatische Sprachübersetzungsverfahren und Sprachumsetzer noch nicht am Markt durchsetzen können.
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein automatisches Sprachumsetzungsverfahren zu schaffen, durch das Sprachübersetzung von wesentlich höherer Qualität er­ zielt werden können.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die Signalpausen in den dem Computer in digitaler Form zu­ geführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen zugeordnet werden, wobei der ersten Klasse zugeordnete kürzere Signalpausen zur Unterteilung der Signalfolgen in einzelne Worte und der zweiten Klasse zugeordnete längere Signal­ pausen zur Unterteilung der Signalfolgen in einzelne Sätze oder Satzteile verwendet werden, daß das Spracherkennungs­ system jeweils zunächst versucht, eine zwischen zwei Signalpausen der zweiten Klasse erkannte Signalfolge längeren Sprachelementen der ersten Sprache zuzuordnen, und daß nur bei einem vergeblichen Versuch anschließend die zwischen Signalpausen der ersten Klasse innerhalb der beiden Signalpausen der zweiten Klasse erkannten Signal­ folgen kürzeren Sprachelementen zugeordnet werden.
Der wesentliche Vorteil des erfindungsgemäßen Verfahrens besteht darin, daß nach Möglichkeit ganze Sätze oder zu­ mindest Satzteile als Einheit erkannt und übersetzt werden. Vor allem hierdurch wird eine wesentlich bessere Übersetzungsqualität erreicht, da die ganzen Sätze bzw. Satzteile nach dem Sinngehalt übersetzt werden können, so daß Fehler beispielsweise durch starke grammatikalische Unterschiede oder unterschiedliche Satz- und Wort­ stellungen in den verschiedenen Sprachen entfallen. Nur wenn das Spracherkennungssystem nur die einem Satz oder Satzteil entsprechende lange Signalfolge nicht erkennt, wird die längere Signalfolge durch die kürzeren Signal­ pausen der ersten Klasse in kürzere Signalfolgen unter­ teilt, die im wesentlichen einzelnen Worten entsprechen, und diese werden dann gemäß den bisherigen Verfahren erkannt und zugeordnet. Selbstverständlich erfordert das erfindungsgemäße Verfahren gegenüber den bekannten Ver­ fahren einen wesentlich größeren Speicherplatzbedarf, da nicht nur Worte, sondern auch Satzteile und Sätze ge­ speichert werden müssen, die eine große Vielzahl von Wortkombinationen enthalten können. Entsprechend dem sehr hohen Speicherbedarf ist auch eine relativ große Ver­ arbeitungsgeschwindigkeit notwendig. Bei der heutigen Computergeneration stellen jedoch diese Kriterien kein wesentliches Problem mehr dar.
Durch die in den Unteransprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im Anspruch 1 angegebenen Verfahrens möglich.
Zweckmäßigerweise erfolgt eine Zuordnung auch dann, wenn eine zwischen Signalpausen erkannte Signalfolge mit wenigstens einem gespeicherten Sprachelement eine große Ähnlichkeit aufweist, da völlig identische Überein­ stimmungen relativ selten sein dürften. Bei großer Ähn­ lichkeit zwischen der erkannten Signalfolge und mehreren gespeicherten Signalfolgen erfolgt in vorteilhafter Weise eine Auswahl mittels einer Kompatibilitäts-Codeprüfung, die auf grammatikalischen und/oder semantischen Regeln der ersten Sprache beruht. Indem während der Spracheingabe aus den eingegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet und gespeichert werden, wird die Kompatibilitäts- Codeprüfung nach Art eines lernenden Systems ausgebildet. Bei dieser Kompatibilitäts-Codeprüfung kann zur Verbesse­ rung der Übersetzungsqualität auch noch die Kompatibilität mit benachbarten Signalfolgen berücksichtigt werden.
Um zu verhindern, daß Personen mit schlechter Aussprache oder schlechter Kenntnis der einzugebenden Sprache oder einen Dialekt sprechende Personen falsche Kompatibilitäts- Codes erzeugen, kann die Bildung und Speicherung neuer Kompatibilitäts-Codes wahlweise zugelassen oder verhindert werden, z. B. mittels eines Umschalters oder eines Eingabe­ befehls. Diese Zulassung oder Verhinderung kann sich auch im Lernbetrieb auf das Einspeichern neuer Worte, Satzteile und Sätze beziehen.
Um eine noch feiner abgestufte Spracherkennung zu er­ reichen, können die Signalpausen der zweiten Klasse wiederum bezüglich ihrer zeitlichen Länge wenigstens zwei Unterklassen zugeordnet werden, wobei das Sprach­ erkennungssystem wiederum entsprechend zunächst versucht, Signalfolgen zwischen längeren Signalpausen der ersten Unterklasse längeren Sprachelementen zuzuordnen, z. B. ganzen Sätzen, und nur bei vergeblichem Versuch die Signalfolgen zwischen kürzeren Signalpausen der zweiten Unterklasse zu analysieren versucht, die dann beispiels­ weise Satzteilen entsprechen. Hierdurch wird eine Unter­ teilung der eingegebenen Signalfolgen mittels der Pausen­ erkennung in Sätze, Satzteile und Worte erreicht. Selbst­ verständlich kann prinzipiell auch eine noch feinere Unterteilung durchgeführt werden.
Bei nicht befriedigend zuzuordnenden Signalfolgen wird eine vorteilhafte Hilfslösung dadurch erreicht, daß Teil­ signalfolgen gesucht werden, die Kernbegriffen zugeordnet werden können, wie Hauptwörtern, Adjektiven und Verben, und daß anschließend die Umgebung eines solchen erkannten Kernbegriffs, die z. B. aus Präpositionen, Pronomen, Ad­ jektiven u. dgl. besteht, analysiert und anhand einer Gram­ matikregelprüfung und/oder Grammatikregelzuordnung der Kernbegriff in seiner grammatikalischen Form erkannt und entsprechenden Sprachelementen zugeordnet wird, oder daß ein entsprechendes Sprachelement aufgebaut wird. Hierdurch kann in vielen Fällen auch bei schlechter Spracheingabe oder sprachunüblich gebildeten Sätzen noch der richtige Sinngehalt erfaßt und übersetzt werden.
Da das erfindungsgemäße Verfahren eine sehr große Zahl von gespeicherten Worten, Satzteilen und Sätzen benötigt, werden in vorteilhafter Weise jeweils neu eingegebene Signalfolgen in einem Lernvorgang zur Korrektur und/oder Erweiterung der gespeicherten Signalfolgen (Wörterbuch) eingesetzt. Hierdurch wird dieses "Wörterbuch" ständig erweitert, was zu einer immer höheren Übersetzungsqualität führt. Im einfachsten Fall kann mit einer relativ geringen Anzahl von gespeicherten Signalfolgen begonnen werden, die sich dann durch das lernende System ständig erweitern.
In einer praktischen Ausgestaltung wird beim Lernvorgang jede eingegebene Signalfolge automatisch, verbal oder über eine Tastatur mit einer Zuordnungsnummer versehen und zu­ sammen mit dieser binär gespeichert. Jeder Zuordnungs­ nummer wird dann eine entsprechende Signalfolge in der wenigstens einen weiteren Sprache zugeordnet, so daß auf diese relativ einfache Weise bei der Übersetzung die Zu­ ordnung zum entsprechenden Begriff in der anderen Sprache erfolgen kann.
Zur Erleichterung der Suche nach gespeicherten Signal­ folgen, die der jeweils neu eingegebenen Signalfolge ent­ sprechen oder dieser ähnlich sind, werden die neu ge­ speicherten Signalfolgen jeweils Ähnlichkeitsbereichen zugeordnet, die ähnlichen Signalfolgen angehören. Die Zu­ ordnung zu Ähnlichkeitsbereichen erfolgt dann zweck­ mäßigerweise anhand der jeweiligen Binärfolgen.
Da sich Kinderstimmen, Frauenstimmen und Männerstimmen und die entsprechenden Signalfolgen für dieselben Sprach­ einheiten oft deutlich unterscheiden, was zu Verwechslungen und Fehlinterpretationen führen könnte, sind die nach Art eines Wörterbuchs gespeicherten Signalfolgen in vorteil­ hafter Weise in mehreren separaten Bereichen gespeichert, wobei die Bereiche einer Kinderstimmen und/oder einer Frauenstimme und/oder einer Männerstimme zugeordnet sind, wobei beim Lernvorgang und/oder Erkennungsvorgang der je­ weilige Bereich automatisch oder manuell vorgewählt wird.
Ein Blockschaltbild einer Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens ist in der Zeichnung darge­ stellt und in der nachfolgenden Beschreibung zusammen mit dem erfindungsgemäßen Verfahren ausführlich beschrieben.
Ein Mikrofon 10 oder eine sonstige Wandlungseinrichtung zur Umwandlung von Schallsignalen in elektrische Signale ist über einen Analog-Digital-Wandler 11 mit dem Sprach­ eingang eines Sprachcomputers 12 verbunden, bei dem es sich beispielsweise um einen PC handeln kann. Zur Er­ läuterung des Sprachcomputers 12 wurde eine Darstellung gewählt, die die erforderlichen Funktionen und Funktions­ einheiten für die Sprachübersetzung betont, während tat­ sächlich selbstverständlich der übliche Aufbau vorliegt, der im wesentlichen einen Mikroprozessor, einen Festwert­ speicher, einen Arbeitsspeicher, eine Eingabetastatur, einen Bildschirm und Datenträger-Laufwerke enthält. Die dargestellten Funktionsblöcke werden real durch Funktionen des Mikroprozessors in Verbindung mit den übrigen, daran angeschlossenen Elementen des Computers realisiert.
Die dem Analog-Digital-Wandler 11 zugeführten analogen Signalfolgen, die den ins Mikrofon eingegebenen Sprech­ folgen entsprechen, werden als digitale bzw. binäre Signalfolgen einer Spracherkennungseinrichtung 13 zuge­ führt. Diese ist mit einem Speicher 14 großen Speicher­ inhalts verbunden, in dem binäre Signalfolgen abgelegt sind, die Wörtern, Satzteilen und Sätzen entsprechen. Weiterhin ist der Spracherkennungseinrichtung 13 eine Sprechpausenerkennungseinrichtung 15 zugeordnet.
Zur Spracherkennung werden zunächst durch die Sprech­ pausenerkennungseinrichtung 15 die Signalpausen der der Spracherkennungseinrichtung 13 zugeführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge in drei Klassen klassifiziert. Selbstverständlich kann in einer einfacheren Version auch eine Klassifizierung in nur zwei Klassen oder bei aufwendigeren Ausführungen in eine noch größere Zahl von Klassen erfolgen. Die einer ersten Klasse zugeordneten sehr kurzen Signalpausen trennen die Ein­ gangssignalfolge in Abschnitte auf, die einzelnen Worten entsprechen, während längere Signalpausen einer zweiten Klasse zugeordnet werden und die Signalfolge in längere Abschnitte aufteilen, die Satzteilen oder ganzen Sätzen entsprechen. Dabei wird die zweite Klasse nochmals in zwei Unterklassen unterteilt, wobei mittlere Signalpausen zur Aufteilung der Signalfolge in Satzteile der einen Unter­ klasse und noch längere Signalpausen zur Unterteilung der Signalfolge in ganze Sätze der zweiten Unterklasse zuge­ ordnet werden. Dabei wird von der Überlegung ausgegangen, daß gemäß üblichen Sprechgewohnheiten zwischen ganzen Sätzen längere Sprechpausen, zwischen Satzteilen kürzere Sprechpausen und zwischen einzelnen Worten noch kürzere Sprechpausen gemacht werden.
Die Sprechpausen werden automatisch analysiert und jeder Sprache separat zugeordnet. Dazu werden zunächst durch das Mikrofon 10 größere gesprochene Texte eingelesen und digi­ talisiert. Dabei werden die Sprechpausen automatisch erfaßt, automatisch in die zwei bzw. drei Klassen unterteilt und für die jeweilige Sprache gespeichert. Diese gespeicherten klassifizierten Sprechpausen werden dann imfolgenden bei der Erkennung von gesprochenen Texten verwendet.
Zunächst werden die ganzen Sätzen zugeordneten längsten Signalfolgeabschnitte mit im Speicher 14 gespeicherten Signalfolgen verglichen. Sollte dort eine identische Signalfolge gespeichert sein, so wurde der gesamte Satz erkannt, und eine dieser gespeicherten Signalfolge zuge­ ordnete Zuordnungsnummer wird einer Übersetzungseinrich­ tung 16 zugeführt, der im Ausführungsbeispiel zwei Fremd­ sprachenspeicher 17 und 18 zugeordnet sind. In diesen sind jeweils Signalfolgen gespeichert, die Wörtern, Satzteilen und ganzen Sätzen in zwei Fremdsprachen entsprechen. Auch hier ist es selbstverständlich möglich, nur einen Fremd­ sprachenspeicher 17 vorzusehen, wenn eine Übersetzung nur in eine Fremdsprache erfolgen soll. Ebenso kann auch eine größere Anzahl von Fremdsprachenspeichern vorgesehen sein, wenn Übersetzungen in eine größere Zahl von Fremdsprachen erforderlich sind. Zur Sprachausgabe kann entweder eine Fremdsprache ausgewählt werden, in die übersetzt werden soll, oder es können mehrere Fremdsprachen vorgewählt werden, wenn eine simultane oder sequentielle Sprach­ ausgabe in mehreren Fremdsprachen erwünscht ist. Mit Hilfe der Zuordnungsnummer wird nun der den Fremdsprachen ent­ sprechende ganze Satz angewählt und aus dem Speicher aus­ gegeben. Die Ausgabe kann als Schrift auf einen Drucker 19 oder Bildschirm erfolgen, oder die Ausgangssignalfolge wird einem Speichermedium zugeführt und dort gespeichert, beispielsweise auf einer Diskette eines Disketten- Laufwerks 20, auf einer beschreibbaren CD od. dgl. Schließ­ lich kann auch noch eine direkte Sprachausgabe dadurch erfolgen, daß die Ausgangssignalfolge über einen Digital- Analog-Wandler 21 einem Lautsprecher 22 oder einem Kopf­ hörer zugeführt wird. Die verschiedenen Sprachausgabe- Möglichkeiten können simultan oder alternativ genutzt werden.
Kann eine einem ganzen Satz entsprechende lange Eingangs­ signalfolge nicht eindeutig gespeicherten Signalfolgen zugeordnet werden, so werden sehr ähnliche Signalfolgen im Speicher 14 gesucht. Diese sehr ähnlichen Signalfolgen werden einer Kompatibilitäts-Codeprüfung in der Sprach­ erkennungseinrichtung 13 unterzogen, wobei die einzelnen Signalfolgen auf grammatikalische und/oder semantische Regeln der Eingangssprache untersucht werden. Dabei kann auch eine Überprüfung derjenigen Signalfolgeabschnitte erfolgen, die dem zu überprüfenden Signalfolgeabschnitt vorangehen oder nachfolgen, um feststellen zu können, bei welcher der sehr ähnlichen gespeicherten Signalfolgen die größte Wahrscheinlichkeit besteht, daß ihre Bedeutung der der zu untersuchenden Signalfolge am nächsten kommt. Wird auf diese Weise eine der sehr ähnlichen Signalfolgen aus­ gewählt, so erfolgt in der bereits beschriebenen Weise eine Übersetzung in wenigstens eine der möglichen Fremd­ sprachen anhand der Zuordnungsnummer.
Werden auch eine der zu untersuchenden Signalfolge sehr ähnliche gespeicherte Signalfolgen zugeordnet, die jeweils ganzen Sätzen entsprechen, so wird die zu untersuchende Signalfolge anhand der Signalpausen mittlerer Länge in größere Abschnitte unterteilt, die Satzteilen oder zu­ mindest längeren Ausdrücken entsprechen. Nun wiederholt sich der bereits beschriebene Vorgang, das heißt, zunächst werden jeweils zu jedem Abschnitt identische gespeicherte Signalfolgen gesucht und dann eine Auswahl zwischen ähn­ lichen getroffen. Ist dieses Verfahren bei einem oder mehreren dieser Abschnitte nicht möglich, so wird der jeweilige Abschnitt mit Hilfe der sehr kleinen Signal­ pausen wiederum in kleine Abschnitte unterteilt, die im wesentlichen einzelnen Worten entsprechen. Nun wiederholt sich das Verfahren erneut, das heißt, es werden zunächst identische gespeicherte Signalfolgen zu dem zu unter­ suchenden kleinen Signalfolgeabschnitt gesucht und dann ähnliche Signalfolgen.
Bei zu analysierenden Eingangssignalfolgeabschnitten mittlerer und kleinerer Länge (Satzteile, Wortkombina­ tionen und Worte), die schwer zu identifizieren sind, erfolgt eine Suche nach jeweils einem Kernbegriff, also beispielsweise nach einem Hauptwort, Adjektiv oder Verb. Anschließend werden dann die übrigen, in der Umgebung angeordneten Teilelemente, wie Präpositionen, Pronomen, Artikel u. dgl., analysiert und die erkannten Begriff einer Grammatikregelprüfung bzw. Grammatikregelzuordnung unter­ zogen. Dabei wird der Kernbegriff in seiner grammatika­ lischen Form erkannt und einem entsprechenden Sprach­ element zugeordnet, oder es wird ein entsprechendes Sprachelement anhand dieser grammatikalischen Regeln auf­ gebaut.
Das beschriebene Verfahren arbeitet als lernendes System. Dies bedeutet, daß bei einer Spracheingabe die durch Sprechpausen längerer oder kürzerer Art unterteilten Signalfolgeabschnitte neu in den Speicher 14 einge­ speichert werden. Dies kann automatisch immer erfolgen oder aber gezielt nur dann, wenn die entsprechende Lernfunktion eingeschaltet ist. Den eingespeicherten Signalfolgeabschnitten wird dann wiederum automatisch oder durch die Bedienungsperson eine Zuordnungsnummer zuge­ teilt. Bei nicht automatischer Zuordnung erfolgt diese durch Sprecheingabe der Zuordnungsnummer oder durch Tastatureingabe. Die mit einer Zuordnungsnummer versehenen einzuspeichernden Signalfolgeabschnitte werden Ähnlich­ keitsgruppen zugeordnet. Dies erfolgt nach festlegbaren definierten Regeln, wie eng die einzugebende binäre Signalfolge der einer Gruppe kommt. Selbstverständlich kann auch eine Zuordnung zu mehreren Gruppen erfolgen. Diese Ähnlichkeits-Gruppenzuordnung erleichtert das Auf­ finden ähnlicher Signalfolgen bei der Zuordnung einer neuen eingegebenen und zu prüfenden Signalfolge.
Es ist selbstverständlich noch erforderlich, dem unter einer bestimmten Zuordnungsnummer eingegebenen Signal­ folgeabschnitt der ersten Sprache, also der Eingangs­ sprache, entsprechende Worte, Satzteile oder Sätze in den jeweils anderen Sprachen zuzuordnen, was über die Zuord­ nungsnummer erfolgt. Die entsprechenden fremdsprachlichen Begriffe müssen dann noch in den Fremdsprachenspeichern 17, 18 abgelegt werden. Die Eingabe dieser fremdsprach­ lichen Begriffe kann selbstverständlich ebenfalls über das Mikrofon 10 erfolgen, wobei der Sprachcomputer für diesen Fallin den Fremdsprachen-Eingabemodus umgeschaltet wird. Bei einer komfortablen Ausführung der beschriebenen An­ ordnung kann der Speicher 14 noch in drei Bereiche unter­ teilt sein, wobei der erste Bereich einer Kinderstimme, der zweite Bereich einer Frauenstimme und der dritte Bereich einer Männerstimme zugeordnet ist. Bei der Eingabe erfolgt dann jeweils eine entsprechende Einstellung manu­ ell oder automatisch, so daß beider lernenden Sprach­ eingabe und bei der Spracherkennung einer Kinderstimme nur der entsprechende erste Speicherbereich des Speichers 14 wirksam wird. Das heißt, neu eingegebene Begriffe durch die Kinderstimme werden nur in diesem Bereich abgelegt, und eine Überprüfung der eingegebenen Signalfolgen erfolgt nur anhand von gespeicherten Signalfolgen dieses ersten Bereichs. Entsprechendes gilt für den zweiten Bereich bei Frauenstimmen und den dritten Bereich bei Männerstimmen. Auch hier kann eine gröbere oder feinere Unterteilung realisiert werden.
Bei neu eingegebenen Wortfolgen bzw. entsprechenden Signalfolgen werden im Lernmodus nicht nur die durch Sprechpausen in unterschiedlicher Weise unterteilten Signalfolgeabschnitte gespeichert, sondern die Kompatibi­ litäts-Codeprüfung wird ebenfalls dem Lernmodus unter­ zogen, das heißt, auf Grund der Analyse der eingegebenen Signalfolgen werden neue Kompatibilitäts-Codes gebildet und vorhandene gegebenenfalls korrigiert und ergänzt. Diese neuen oder ergänzten Kompatibilitäts-Codes werden dann der Kompatibilitäts-Code-Prüfeinrichtung zugefügt, so daß sie bei künftigen Kompatibilitäts-Codeprüfungen be­ rücksichtigt werden. Hierdurch wird auch die Kompatibili­ täts-Codeprüfung durch Lernvorgänge ständig erweitert und verbessert.
Um zu verhindern, daß durch schlechte oder fehlerhafte Sprechweise Kompatibilitäts-Codes in unerwünschter Weise verändert oder hinzugefügt werden oder daß entsprechend unerwünschte Worte, Satzteile oder ganze Sätze im Lern­ modus gespeichert werden, kann der Lernmodus wahlweise zugelassen oder verhindert werden. Dies bedeutet, daß bei einer Spracheingabe durch eine korrekt sprechende Person der Lernmodus zugelassen wird, während er bei anderen Personen abgeschaltet werden kann, die beispielsweise eine mundartlich bestimmte Sprechweise oder eine schlechte Aussprache haben oder deren Muttersprache nicht die Ein­ gabesprache ist.
Da Fremdsprachen häufig eine völlig unterschiedliche Wort­ folge und Wortanordnung besitzen, besteht die Gefahr, daß bei wörtlicher Übersetzung die Übersetzungsqualität ab­ sinkt. Werden ganze Sätze (Signalfolgen zwischen zwei langen Sprechpausen) als Einheit übersetzt, so stellt dies kein Problem dar. Können dagegen Sätze oder Satzteile nicht zugeordnet werden und wird es dadurch erforderlich, eine Wort-für-Wort-Übersetzung vorzunehmen, so werden in der Übersetzungseinrichtung 16 die jeweiligen Wortfolgen oder auch kurzen Satzteile analysiert und mittels einer Korrekturvorrichtung gemäß gespeicherten semantischen oder grammatikalischen Regeln der jeweiligen Sprache in korrek­ ter Form umgruppiert.
Anstelle einer Ausgabe und Umsetzung in einer andere Sprache kann die Spracherkennung auch zur Ausgabe von Texten in der Basissprache dienen, beispielsweise um einen gesprochenen Text in einen geschriebenen Text automatisch umzuwandeln.

Claims (17)

1. Verfahren zur automatischen Umsetzung eines gesprochenen Textes von einer ersten Sprache in wenigstens eine andere oder in einen geschriebenen Text der ersten oder wenigstens einen anderen Sprache, wobei der gesprochene Text mittels eines Mikrofons in elektrische Signalfolgen umgewandelt und diese einem Computer in digitalisierter Form zugeführt werden, wo sie durch ein Spracherkennungssystem mit gespeicherten digitalen Signal­ folgen verglichen und so Sprachelementen der ersten Sprache zugeordnet werden, und wobei die Sprachelemente der ersten Sprache mittels einer Übersetzungseinrichtung Sprachelementen der wenigstens einen anderen Sprache oder Schreibtextelementen zugeordnet werden, um dann direkt in akustischer oder geschriebener Form oder durch einen Datenträger zur Ausgabe zu gelangen, dadurch gekenn­ zeichnet, daß die Signalpausen in den dem Computer (12) in digitaler Form zugeführten Signalfolgen analysiert und bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen zugeordnet werden, wobei der ersten Klasse zugeordnete kürzere Signalpausen zur Unterteilung der Signalfolgen in einzelne Worte und der zweiten Klasse zugeordnete längere Signalpausen zur Unterteilung der Signalfolgen in einzelne Sätze oder Satzteile verwendet werden, daß das Sprach­ erkennungssystem (13) jeweils zunächst versucht, eine zwischen zwei Signalpausen der zweiten Klasse erkannte Signalfolge längeren Sprachelementen der ersten Sprache zuzuordnen, und daß nur bei einem vergeblichen Versuch an­ schließend die zwischen Signalpausen der ersten Klasse innerhalb der beiden Signalpausen der zweiten Klasse erkannten Signalfolgen kürzeren Sprachelementen zugeordnet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eine Zuordnung auch dann erfolgt, wenn eine zwischen Signalpausen erkannte Signalfolge mit wenigstens einem gespeicherten Sprachelement (gespeicherte Signalfolge) eine große Ähnlichkeit aufweist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei großer Ähnlichkeit zwischen der erkannten Signal­ folge und mehreren gespeicherten Signalfolgen eine Auswahl mittels einer Kompatibilitäts-Codeprüfung erfolgt, die auf grammatikalischen und/oder semantischen Regeln der ersten Sprache beruht.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei der Kompatibilitäts-Codeprüfung auch die Kompati­ bilität mit benachbarten Signalfolgen berücksichtigt wird.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekenn­ zeichnet, daß während der Spracheingabe aus den ein­ gegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet und gespeichert werden, um bei der zukünftigen Kompati­ bilitäts-Codeprüfung berücksichtigt werden zu können.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Bildung und Speicherung neuer Kompatibilitäts- Codes wahlweise zugelassen oder verhindert wird.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Signalpausen der zweiten Klasse wiederum bezüglich ihrer zeitlichen Länge wenig­ stens zwei Unterklassen zugeordnet werden, wobei das Spracherkennungssystem (13) wiederum entsprechend zunächst versucht, Signalfolgen zwischen längeren Signalpausen der ersten Unterklasse längeren Sprachelementen zuzuordnen und nur bei vergeblichem Versuch die Signalfolgen zwischen kürzeren Signalpausen der zweiten Unterklasse zu analy­ sieren versucht.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in nicht befriedigend zuzu­ ordnenden Signalfolgen Teilsignalfolgen gesucht werden, die Kernbegriffen zugeordnet werden können, daß anschließend die Umgebung eines solchen erkannten Kernbegriffs analy­ siert und anhand einer Grammatikregelprüfung und/oder Grammatikregelzuordnung der Kernbegriff in seiner gramma­ tikalischen Form erkannt und einem entsprechenden Sprach­ element zugeordnet wird oder ein entsprechendes Sprach­ element aufgebaut wird.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß Kernbegriffe Hauptwörter, Adjektive und Verben sind, während die Umgebung durch Präpositionen, Pronomen, Artikel u. dgl. bestimmt ist.
10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß jeweils neu eingegebene Signalfolgen in einem Lernvorgang zur Korrektur und/oder Erweiterung der gespeicherten Signalfolgen (Wörterbuch) eingesetzt werden.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß beim Lernvorgang jede eingegebene Signalfolge automatisch, verbal oder über eine Tastatur mit einer Zuordnungsnummer versehen und zusammen mit dieser binär gespeichert wird, und daß jeder Zuordnungsnummer eine ent­ sprechende Signalfolge in der wenigstens einen weiteren Sprache zugeordnet wird.
12. Verfahren nach Anspruch 10 oder 11, dadurch gekenn­ zeichnet, daß die neu gespeicherten Signalfolgen jeweils Ahnlichkeitsbereichen zugeordnet werden, denen ähnliche Signalfolgen angehören.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Zuordnung zu Ahnlichkeitsbereichen anhand der jeweiligen Binärfolge der binären Signalfolge erfolgt.
14. Verfahren nach einem der Ansprüche 10 bis 13, dadurch gekennzeichnet, daß der Lernmodus wahlweise zugelassen oder verhindert wird.
15. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die nach Art eines Wörterbuchs gespeicherten Signalfolgen in mehreren separaten Bereichen gespeichert sind, wobei die Bereiche einer Kinderstimme und/oder einer Frauenstimme und/oder einer Männerstimme zugeordnet sind, und wobei beim Lernvorgang und/oder Er­ kennungsvorgang der jeweilige Bereich automatisch oder manuell vorgewählt wird.
16. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Übersetzungseinrichtung (16) in Abhängigkeit der jeweiligen Sprache, in die über­ setzt werden soll, eine Umgruppierung der erkannten Worte und/oder Satzteile gemäß gespeicherten semantischen und/ oder grammatikalischen Regeln der jeweiligen Sprache vornimmt.
17. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in einem Sprechpausen- Prüfmodus vor einem ersten Einspeichermodus auftretende Sprechpausen automatisch analysiert und bezüglich ihrer zeitlichen Länge wenigstens kurze und lange Sprechpausen definiert werden.
DE19624987A 1996-06-22 1996-06-22 Automatisches Sprachumsetzungsverfahren Withdrawn DE19624987A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19624987A DE19624987A1 (de) 1996-06-22 1996-06-22 Automatisches Sprachumsetzungsverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19624987A DE19624987A1 (de) 1996-06-22 1996-06-22 Automatisches Sprachumsetzungsverfahren

Publications (1)

Publication Number Publication Date
DE19624987A1 true DE19624987A1 (de) 1998-01-02

Family

ID=7797697

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19624987A Withdrawn DE19624987A1 (de) 1996-06-22 1996-06-22 Automatisches Sprachumsetzungsverfahren

Country Status (1)

Country Link
DE (1) DE19624987A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19830007A1 (de) * 1998-06-24 1999-12-30 Deutsche Telekom Ag Verfahren zum Betreiben eines globalen, virtuellen Call-Centers
DE10213163A1 (de) * 2002-03-23 2003-10-02 Deutsche Telekom Ag Verfahren zur Korrektur von Texten
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
GB2229558A (en) * 1989-03-02 1990-09-26 Nec Corp Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
GB2229558A (en) * 1989-03-02 1990-09-26 Nec Corp Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19830007A1 (de) * 1998-06-24 1999-12-30 Deutsche Telekom Ag Verfahren zum Betreiben eines globalen, virtuellen Call-Centers
US6829350B1 (en) 1998-06-24 2004-12-07 Deutsche Telekom Ag Method for operating a global, virtual call center
DE10213163A1 (de) * 2002-03-23 2003-10-02 Deutsche Telekom Ag Verfahren zur Korrektur von Texten
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts

Similar Documents

Publication Publication Date Title
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69330427T2 (de) Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69712216T2 (de) Verfahren und gerät zum übersetzen von einer sparche in eine andere
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE69607601T2 (de) System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax
DE69420955T2 (de) Umwandlung von text in signalformen
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE3042508C2 (de) Elektronisches Sprachübersetzungsgerät
DE2854837A1 (de) Uebersetzungsvorrichtung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE3910467A1 (de) Verfahren und vorrichtung zur erzeugung von berichten
DE3032664A1 (de) Elektronisches sprachuebersetzungsgeraet.
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE2946856A1 (de) Wortspeichergeraet
DE19532114C2 (de) Sprachdialog-System zur automatisierten Ausgabe von Informationen
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE3855426T2 (de) Korrekturunterstützungsgerät mit Dokumentenausgabe
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8141 Disposal/no request for examination