DE19624987A1 - Automatisches Sprachumsetzungsverfahren - Google Patents
Automatisches SprachumsetzungsverfahrenInfo
- Publication number
- DE19624987A1 DE19624987A1 DE19624987A DE19624987A DE19624987A1 DE 19624987 A1 DE19624987 A1 DE 19624987A1 DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A DE19624987 A DE 19624987A DE 19624987 A1 DE19624987 A1 DE 19624987A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- language
- assigned
- signal sequences
- pauses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren zur automatischen Um
setzung eines gesprochenen Textes von einer ersten Sprache
in wenigstens eine andere oder in einen geschriebenen
Text, wobei der gesprochene Text mittels eines Mikrofons
in elektrische Signalfolgen umgewandelt und diese einem
Computer in digitalisierter Form zugeführt werden, wo sie
durch ein Spracherkennungssystem mit gespeicherten
digitalen Signalfolgen verglichen und so Sprachelementen
der ersten Sprache zugeordnet werden, und wobei die
Sprachelemente der ersten Sprache mittels einer Über
setzungseinrichtung Sprachelementen der wenigstens einen
anderen Sprache oder Schreibtextelementen zugeordnet
werden, um dann direkt in akustischer oder geschriebener
Form oder durch einen Datenträger zur Ausgabe zu gelangen.
Sprachübersetzungsverfahren sind beispielsweise
aus der EP-A-12 777 oder aus der EP-B-274 281
bekannt. Diese bekannten Verfahren beruhen im
wesentlichen darauf, einzelne Worte zu erkennen und je
weils in die gewünschte andere Sprache umzusetzen. Da
häufig von ihrem Sinngehalt her sehr unterschiedliche
Worte gleich ausgesprochen werden, so daß eine korrekte
Zuordnung durch die Übersetzungseinrichtung selten möglich
ist und gewöhnlich Probleme durch die oft andere Satz
stellung und grammatikalischen Regeln der anderen Sprache
auftreten, läßt die Qualität der Übersetzung zu wünschen
übrig. Zwar sind bei den bekannten Verfahren bereits
Grammatikregel-Korrektureinrichtungen vorgesehen, jedoch
verbessern solche Korrekturen die Gesamtqualität der Über
setzung nicht in ausreichendem Maße, so daß das Ergebnis
immer noch unbefriedigend bleibt. Aus diesem Grunde haben
sich derartige automatische Sprachübersetzungsverfahren
und Sprachumsetzer noch nicht am Markt durchsetzen können.
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein
automatisches Sprachumsetzungsverfahren zu schaffen, durch
das Sprachübersetzung von wesentlich höherer Qualität er
zielt werden können.
Diese Aufgabe wird erfindungsgemäß dadurch gelöst, daß die
Signalpausen in den dem Computer in digitaler Form zu
geführten Signalfolgen analysiert und bezüglich ihrer
zeitlichen Länge wenigstens zwei Klassen zugeordnet
werden, wobei der ersten Klasse zugeordnete kürzere
Signalpausen zur Unterteilung der Signalfolgen in einzelne
Worte und der zweiten Klasse zugeordnete längere Signal
pausen zur Unterteilung der Signalfolgen in einzelne Sätze
oder Satzteile verwendet werden, daß das Spracherkennungs
system jeweils zunächst versucht, eine zwischen zwei
Signalpausen der zweiten Klasse erkannte Signalfolge
längeren Sprachelementen der ersten Sprache zuzuordnen,
und daß nur bei einem vergeblichen Versuch anschließend
die zwischen Signalpausen der ersten Klasse innerhalb der
beiden Signalpausen der zweiten Klasse erkannten Signal
folgen kürzeren Sprachelementen zugeordnet werden.
Der wesentliche Vorteil des erfindungsgemäßen Verfahrens
besteht darin, daß nach Möglichkeit ganze Sätze oder zu
mindest Satzteile als Einheit erkannt und übersetzt
werden. Vor allem hierdurch wird eine wesentlich bessere
Übersetzungsqualität erreicht, da die ganzen Sätze bzw.
Satzteile nach dem Sinngehalt übersetzt werden können, so
daß Fehler beispielsweise durch starke grammatikalische
Unterschiede oder unterschiedliche Satz- und Wort
stellungen in den verschiedenen Sprachen entfallen. Nur
wenn das Spracherkennungssystem nur die einem Satz oder
Satzteil entsprechende lange Signalfolge nicht erkennt,
wird die längere Signalfolge durch die kürzeren Signal
pausen der ersten Klasse in kürzere Signalfolgen unter
teilt, die im wesentlichen einzelnen Worten entsprechen,
und diese werden dann gemäß den bisherigen Verfahren
erkannt und zugeordnet. Selbstverständlich erfordert das
erfindungsgemäße Verfahren gegenüber den bekannten Ver
fahren einen wesentlich größeren Speicherplatzbedarf, da
nicht nur Worte, sondern auch Satzteile und Sätze ge
speichert werden müssen, die eine große Vielzahl von
Wortkombinationen enthalten können. Entsprechend dem sehr
hohen Speicherbedarf ist auch eine relativ große Ver
arbeitungsgeschwindigkeit notwendig. Bei der heutigen
Computergeneration stellen jedoch diese Kriterien kein
wesentliches Problem mehr dar.
Durch die in den Unteransprüchen aufgeführten Maßnahmen
sind vorteilhafte Weiterbildungen und Verbesserungen des
im Anspruch 1 angegebenen Verfahrens möglich.
Zweckmäßigerweise erfolgt eine Zuordnung auch dann, wenn
eine zwischen Signalpausen erkannte Signalfolge mit
wenigstens einem gespeicherten Sprachelement eine große
Ähnlichkeit aufweist, da völlig identische Überein
stimmungen relativ selten sein dürften. Bei großer Ähn
lichkeit zwischen der erkannten Signalfolge und mehreren
gespeicherten Signalfolgen erfolgt in vorteilhafter Weise
eine Auswahl mittels einer Kompatibilitäts-Codeprüfung,
die auf grammatikalischen und/oder semantischen Regeln der
ersten Sprache beruht. Indem während der Spracheingabe aus
den eingegebenen Signalfolgen neue Kompatibilitäts-Codes
gebildet und gespeichert werden, wird die Kompatibilitäts-
Codeprüfung nach Art eines lernenden Systems ausgebildet.
Bei dieser Kompatibilitäts-Codeprüfung kann zur Verbesse
rung der Übersetzungsqualität auch noch die Kompatibilität
mit benachbarten Signalfolgen berücksichtigt werden.
Um zu verhindern, daß Personen mit schlechter Aussprache
oder schlechter Kenntnis der einzugebenden Sprache oder
einen Dialekt sprechende Personen falsche Kompatibilitäts-
Codes erzeugen, kann die Bildung und Speicherung neuer
Kompatibilitäts-Codes wahlweise zugelassen oder verhindert
werden, z. B. mittels eines Umschalters oder eines Eingabe
befehls. Diese Zulassung oder Verhinderung kann sich auch
im Lernbetrieb auf das Einspeichern neuer Worte, Satzteile
und Sätze beziehen.
Um eine noch feiner abgestufte Spracherkennung zu er
reichen, können die Signalpausen der zweiten Klasse
wiederum bezüglich ihrer zeitlichen Länge wenigstens zwei
Unterklassen zugeordnet werden, wobei das Sprach
erkennungssystem wiederum entsprechend zunächst versucht,
Signalfolgen zwischen längeren Signalpausen der ersten
Unterklasse längeren Sprachelementen zuzuordnen, z. B.
ganzen Sätzen, und nur bei vergeblichem Versuch die
Signalfolgen zwischen kürzeren Signalpausen der zweiten
Unterklasse zu analysieren versucht, die dann beispiels
weise Satzteilen entsprechen. Hierdurch wird eine Unter
teilung der eingegebenen Signalfolgen mittels der Pausen
erkennung in Sätze, Satzteile und Worte erreicht. Selbst
verständlich kann prinzipiell auch eine noch feinere
Unterteilung durchgeführt werden.
Bei nicht befriedigend zuzuordnenden Signalfolgen wird
eine vorteilhafte Hilfslösung dadurch erreicht, daß Teil
signalfolgen gesucht werden, die Kernbegriffen zugeordnet
werden können, wie Hauptwörtern, Adjektiven und Verben,
und daß anschließend die Umgebung eines solchen erkannten
Kernbegriffs, die z. B. aus Präpositionen, Pronomen, Ad
jektiven u. dgl. besteht, analysiert und anhand einer Gram
matikregelprüfung und/oder Grammatikregelzuordnung der
Kernbegriff in seiner grammatikalischen Form erkannt und
entsprechenden Sprachelementen zugeordnet wird, oder daß
ein entsprechendes Sprachelement aufgebaut wird. Hierdurch
kann in vielen Fällen auch bei schlechter Spracheingabe
oder sprachunüblich gebildeten Sätzen noch der richtige
Sinngehalt erfaßt und übersetzt werden.
Da das erfindungsgemäße Verfahren eine sehr große Zahl von
gespeicherten Worten, Satzteilen und Sätzen benötigt,
werden in vorteilhafter Weise jeweils neu eingegebene
Signalfolgen in einem Lernvorgang zur Korrektur und/oder
Erweiterung der gespeicherten Signalfolgen (Wörterbuch)
eingesetzt. Hierdurch wird dieses "Wörterbuch" ständig
erweitert, was zu einer immer höheren Übersetzungsqualität
führt. Im einfachsten Fall kann mit einer relativ geringen
Anzahl von gespeicherten Signalfolgen begonnen werden, die
sich dann durch das lernende System ständig erweitern.
In einer praktischen Ausgestaltung wird beim Lernvorgang
jede eingegebene Signalfolge automatisch, verbal oder über
eine Tastatur mit einer Zuordnungsnummer versehen und zu
sammen mit dieser binär gespeichert. Jeder Zuordnungs
nummer wird dann eine entsprechende Signalfolge in der
wenigstens einen weiteren Sprache zugeordnet, so daß auf
diese relativ einfache Weise bei der Übersetzung die Zu
ordnung zum entsprechenden Begriff in der anderen Sprache
erfolgen kann.
Zur Erleichterung der Suche nach gespeicherten Signal
folgen, die der jeweils neu eingegebenen Signalfolge ent
sprechen oder dieser ähnlich sind, werden die neu ge
speicherten Signalfolgen jeweils Ähnlichkeitsbereichen
zugeordnet, die ähnlichen Signalfolgen angehören. Die Zu
ordnung zu Ähnlichkeitsbereichen erfolgt dann zweck
mäßigerweise anhand der jeweiligen Binärfolgen.
Da sich Kinderstimmen, Frauenstimmen und Männerstimmen und
die entsprechenden Signalfolgen für dieselben Sprach
einheiten oft deutlich unterscheiden, was zu Verwechslungen
und Fehlinterpretationen führen könnte, sind die nach Art
eines Wörterbuchs gespeicherten Signalfolgen in vorteil
hafter Weise in mehreren separaten Bereichen gespeichert,
wobei die Bereiche einer Kinderstimmen und/oder einer
Frauenstimme und/oder einer Männerstimme zugeordnet sind,
wobei beim Lernvorgang und/oder Erkennungsvorgang der je
weilige Bereich automatisch oder manuell vorgewählt wird.
Ein Blockschaltbild einer Vorrichtung zur Durchführung des
erfindungsgemäßen Verfahrens ist in der Zeichnung darge
stellt und in der nachfolgenden Beschreibung zusammen mit
dem erfindungsgemäßen Verfahren ausführlich beschrieben.
Ein Mikrofon 10 oder eine sonstige Wandlungseinrichtung
zur Umwandlung von Schallsignalen in elektrische Signale
ist über einen Analog-Digital-Wandler 11 mit dem Sprach
eingang eines Sprachcomputers 12 verbunden, bei dem es
sich beispielsweise um einen PC handeln kann. Zur Er
läuterung des Sprachcomputers 12 wurde eine Darstellung
gewählt, die die erforderlichen Funktionen und Funktions
einheiten für die Sprachübersetzung betont, während tat
sächlich selbstverständlich der übliche Aufbau vorliegt,
der im wesentlichen einen Mikroprozessor, einen Festwert
speicher, einen Arbeitsspeicher, eine Eingabetastatur,
einen Bildschirm und Datenträger-Laufwerke enthält. Die
dargestellten Funktionsblöcke werden real durch Funktionen
des Mikroprozessors in Verbindung mit den übrigen, daran
angeschlossenen Elementen des Computers realisiert.
Die dem Analog-Digital-Wandler 11 zugeführten analogen
Signalfolgen, die den ins Mikrofon eingegebenen Sprech
folgen entsprechen, werden als digitale bzw. binäre
Signalfolgen einer Spracherkennungseinrichtung 13 zuge
führt. Diese ist mit einem Speicher 14 großen Speicher
inhalts verbunden, in dem binäre Signalfolgen abgelegt
sind, die Wörtern, Satzteilen und Sätzen entsprechen.
Weiterhin ist der Spracherkennungseinrichtung 13 eine
Sprechpausenerkennungseinrichtung 15 zugeordnet.
Zur Spracherkennung werden zunächst durch die Sprech
pausenerkennungseinrichtung 15 die Signalpausen der der
Spracherkennungseinrichtung 13 zugeführten Signalfolgen
analysiert und bezüglich ihrer zeitlichen Länge in drei
Klassen klassifiziert. Selbstverständlich kann in einer
einfacheren Version auch eine Klassifizierung in nur zwei
Klassen oder bei aufwendigeren Ausführungen in eine noch
größere Zahl von Klassen erfolgen. Die einer ersten Klasse
zugeordneten sehr kurzen Signalpausen trennen die Ein
gangssignalfolge in Abschnitte auf, die einzelnen Worten
entsprechen, während längere Signalpausen einer zweiten
Klasse zugeordnet werden und die Signalfolge in längere
Abschnitte aufteilen, die Satzteilen oder ganzen Sätzen
entsprechen. Dabei wird die zweite Klasse nochmals in zwei
Unterklassen unterteilt, wobei mittlere Signalpausen zur
Aufteilung der Signalfolge in Satzteile der einen Unter
klasse und noch längere Signalpausen zur Unterteilung der
Signalfolge in ganze Sätze der zweiten Unterklasse zuge
ordnet werden. Dabei wird von der Überlegung ausgegangen,
daß gemäß üblichen Sprechgewohnheiten zwischen ganzen
Sätzen längere Sprechpausen, zwischen Satzteilen kürzere
Sprechpausen und zwischen einzelnen Worten noch kürzere
Sprechpausen gemacht werden.
Die Sprechpausen werden automatisch analysiert und jeder
Sprache separat zugeordnet. Dazu werden zunächst durch das
Mikrofon 10 größere gesprochene Texte eingelesen und digi
talisiert. Dabei werden die Sprechpausen automatisch erfaßt,
automatisch in die zwei bzw. drei Klassen unterteilt und
für die jeweilige Sprache gespeichert. Diese gespeicherten
klassifizierten Sprechpausen werden dann imfolgenden bei
der Erkennung von gesprochenen Texten verwendet.
Zunächst werden die ganzen Sätzen zugeordneten längsten
Signalfolgeabschnitte mit im Speicher 14 gespeicherten
Signalfolgen verglichen. Sollte dort eine identische
Signalfolge gespeichert sein, so wurde der gesamte Satz
erkannt, und eine dieser gespeicherten Signalfolge zuge
ordnete Zuordnungsnummer wird einer Übersetzungseinrich
tung 16 zugeführt, der im Ausführungsbeispiel zwei Fremd
sprachenspeicher 17 und 18 zugeordnet sind. In diesen sind
jeweils Signalfolgen gespeichert, die Wörtern, Satzteilen
und ganzen Sätzen in zwei Fremdsprachen entsprechen. Auch
hier ist es selbstverständlich möglich, nur einen Fremd
sprachenspeicher 17 vorzusehen, wenn eine Übersetzung nur
in eine Fremdsprache erfolgen soll. Ebenso kann auch eine
größere Anzahl von Fremdsprachenspeichern vorgesehen sein,
wenn Übersetzungen in eine größere Zahl von Fremdsprachen
erforderlich sind. Zur Sprachausgabe kann entweder eine
Fremdsprache ausgewählt werden, in die übersetzt werden
soll, oder es können mehrere Fremdsprachen vorgewählt
werden, wenn eine simultane oder sequentielle Sprach
ausgabe in mehreren Fremdsprachen erwünscht ist. Mit Hilfe
der Zuordnungsnummer wird nun der den Fremdsprachen ent
sprechende ganze Satz angewählt und aus dem Speicher aus
gegeben. Die Ausgabe kann als Schrift auf einen Drucker 19
oder Bildschirm erfolgen, oder die Ausgangssignalfolge
wird einem Speichermedium zugeführt und dort gespeichert,
beispielsweise auf einer Diskette eines Disketten-
Laufwerks 20, auf einer beschreibbaren CD od. dgl. Schließ
lich kann auch noch eine direkte Sprachausgabe dadurch
erfolgen, daß die Ausgangssignalfolge über einen Digital-
Analog-Wandler 21 einem Lautsprecher 22 oder einem Kopf
hörer zugeführt wird. Die verschiedenen Sprachausgabe-
Möglichkeiten können simultan oder alternativ genutzt werden.
Kann eine einem ganzen Satz entsprechende lange Eingangs
signalfolge nicht eindeutig gespeicherten Signalfolgen
zugeordnet werden, so werden sehr ähnliche Signalfolgen im
Speicher 14 gesucht. Diese sehr ähnlichen Signalfolgen
werden einer Kompatibilitäts-Codeprüfung in der Sprach
erkennungseinrichtung 13 unterzogen, wobei die einzelnen
Signalfolgen auf grammatikalische und/oder semantische
Regeln der Eingangssprache untersucht werden. Dabei kann
auch eine Überprüfung derjenigen Signalfolgeabschnitte
erfolgen, die dem zu überprüfenden Signalfolgeabschnitt
vorangehen oder nachfolgen, um feststellen zu können, bei
welcher der sehr ähnlichen gespeicherten Signalfolgen die
größte Wahrscheinlichkeit besteht, daß ihre Bedeutung der
der zu untersuchenden Signalfolge am nächsten kommt. Wird
auf diese Weise eine der sehr ähnlichen Signalfolgen aus
gewählt, so erfolgt in der bereits beschriebenen Weise
eine Übersetzung in wenigstens eine der möglichen Fremd
sprachen anhand der Zuordnungsnummer.
Werden auch eine der zu untersuchenden Signalfolge sehr
ähnliche gespeicherte Signalfolgen zugeordnet, die jeweils
ganzen Sätzen entsprechen, so wird die zu untersuchende
Signalfolge anhand der Signalpausen mittlerer Länge in
größere Abschnitte unterteilt, die Satzteilen oder zu
mindest längeren Ausdrücken entsprechen. Nun wiederholt
sich der bereits beschriebene Vorgang, das heißt, zunächst
werden jeweils zu jedem Abschnitt identische gespeicherte
Signalfolgen gesucht und dann eine Auswahl zwischen ähn
lichen getroffen. Ist dieses Verfahren bei einem oder
mehreren dieser Abschnitte nicht möglich, so wird der
jeweilige Abschnitt mit Hilfe der sehr kleinen Signal
pausen wiederum in kleine Abschnitte unterteilt, die im
wesentlichen einzelnen Worten entsprechen. Nun wiederholt
sich das Verfahren erneut, das heißt, es werden zunächst
identische gespeicherte Signalfolgen zu dem zu unter
suchenden kleinen Signalfolgeabschnitt gesucht und dann
ähnliche Signalfolgen.
Bei zu analysierenden Eingangssignalfolgeabschnitten
mittlerer und kleinerer Länge (Satzteile, Wortkombina
tionen und Worte), die schwer zu identifizieren sind,
erfolgt eine Suche nach jeweils einem Kernbegriff, also
beispielsweise nach einem Hauptwort, Adjektiv oder Verb.
Anschließend werden dann die übrigen, in der Umgebung
angeordneten Teilelemente, wie Präpositionen, Pronomen,
Artikel u. dgl., analysiert und die erkannten Begriff einer
Grammatikregelprüfung bzw. Grammatikregelzuordnung unter
zogen. Dabei wird der Kernbegriff in seiner grammatika
lischen Form erkannt und einem entsprechenden Sprach
element zugeordnet, oder es wird ein entsprechendes
Sprachelement anhand dieser grammatikalischen Regeln auf
gebaut.
Das beschriebene Verfahren arbeitet als lernendes System.
Dies bedeutet, daß bei einer Spracheingabe die durch
Sprechpausen längerer oder kürzerer Art unterteilten
Signalfolgeabschnitte neu in den Speicher 14 einge
speichert werden. Dies kann automatisch immer erfolgen
oder aber gezielt nur dann, wenn die entsprechende
Lernfunktion eingeschaltet ist. Den eingespeicherten
Signalfolgeabschnitten wird dann wiederum automatisch oder
durch die Bedienungsperson eine Zuordnungsnummer zuge
teilt. Bei nicht automatischer Zuordnung erfolgt diese
durch Sprecheingabe der Zuordnungsnummer oder durch
Tastatureingabe. Die mit einer Zuordnungsnummer versehenen
einzuspeichernden Signalfolgeabschnitte werden Ähnlich
keitsgruppen zugeordnet. Dies erfolgt nach festlegbaren
definierten Regeln, wie eng die einzugebende binäre
Signalfolge der einer Gruppe kommt. Selbstverständlich
kann auch eine Zuordnung zu mehreren Gruppen erfolgen.
Diese Ähnlichkeits-Gruppenzuordnung erleichtert das Auf
finden ähnlicher Signalfolgen bei der Zuordnung einer
neuen eingegebenen und zu prüfenden Signalfolge.
Es ist selbstverständlich noch erforderlich, dem unter
einer bestimmten Zuordnungsnummer eingegebenen Signal
folgeabschnitt der ersten Sprache, also der Eingangs
sprache, entsprechende Worte, Satzteile oder Sätze in den
jeweils anderen Sprachen zuzuordnen, was über die Zuord
nungsnummer erfolgt. Die entsprechenden fremdsprachlichen
Begriffe müssen dann noch in den Fremdsprachenspeichern
17, 18 abgelegt werden. Die Eingabe dieser fremdsprach
lichen Begriffe kann selbstverständlich ebenfalls über das
Mikrofon 10 erfolgen, wobei der Sprachcomputer für diesen
Fallin den Fremdsprachen-Eingabemodus umgeschaltet wird.
Bei einer komfortablen Ausführung der beschriebenen An
ordnung kann der Speicher 14 noch in drei Bereiche unter
teilt sein, wobei der erste Bereich einer Kinderstimme,
der zweite Bereich einer Frauenstimme und der dritte
Bereich einer Männerstimme zugeordnet ist. Bei der Eingabe
erfolgt dann jeweils eine entsprechende Einstellung manu
ell oder automatisch, so daß beider lernenden Sprach
eingabe und bei der Spracherkennung einer Kinderstimme nur
der entsprechende erste Speicherbereich des Speichers 14
wirksam wird. Das heißt, neu eingegebene Begriffe durch
die Kinderstimme werden nur in diesem Bereich abgelegt,
und eine Überprüfung der eingegebenen Signalfolgen erfolgt
nur anhand von gespeicherten Signalfolgen dieses ersten
Bereichs. Entsprechendes gilt für den zweiten Bereich bei
Frauenstimmen und den dritten Bereich bei Männerstimmen.
Auch hier kann eine gröbere oder feinere Unterteilung
realisiert werden.
Bei neu eingegebenen Wortfolgen bzw. entsprechenden
Signalfolgen werden im Lernmodus nicht nur die durch
Sprechpausen in unterschiedlicher Weise unterteilten
Signalfolgeabschnitte gespeichert, sondern die Kompatibi
litäts-Codeprüfung wird ebenfalls dem Lernmodus unter
zogen, das heißt, auf Grund der Analyse der eingegebenen
Signalfolgen werden neue Kompatibilitäts-Codes gebildet
und vorhandene gegebenenfalls korrigiert und ergänzt.
Diese neuen oder ergänzten Kompatibilitäts-Codes werden
dann der Kompatibilitäts-Code-Prüfeinrichtung zugefügt, so
daß sie bei künftigen Kompatibilitäts-Codeprüfungen be
rücksichtigt werden. Hierdurch wird auch die Kompatibili
täts-Codeprüfung durch Lernvorgänge ständig erweitert und
verbessert.
Um zu verhindern, daß durch schlechte oder fehlerhafte
Sprechweise Kompatibilitäts-Codes in unerwünschter Weise
verändert oder hinzugefügt werden oder daß entsprechend
unerwünschte Worte, Satzteile oder ganze Sätze im Lern
modus gespeichert werden, kann der Lernmodus wahlweise
zugelassen oder verhindert werden. Dies bedeutet, daß bei
einer Spracheingabe durch eine korrekt sprechende Person
der Lernmodus zugelassen wird, während er bei anderen
Personen abgeschaltet werden kann, die beispielsweise eine
mundartlich bestimmte Sprechweise oder eine schlechte
Aussprache haben oder deren Muttersprache nicht die Ein
gabesprache ist.
Da Fremdsprachen häufig eine völlig unterschiedliche Wort
folge und Wortanordnung besitzen, besteht die Gefahr, daß
bei wörtlicher Übersetzung die Übersetzungsqualität ab
sinkt. Werden ganze Sätze (Signalfolgen zwischen zwei
langen Sprechpausen) als Einheit übersetzt, so stellt dies
kein Problem dar. Können dagegen Sätze oder Satzteile
nicht zugeordnet werden und wird es dadurch erforderlich,
eine Wort-für-Wort-Übersetzung vorzunehmen, so werden in
der Übersetzungseinrichtung 16 die jeweiligen Wortfolgen
oder auch kurzen Satzteile analysiert und mittels einer
Korrekturvorrichtung gemäß gespeicherten semantischen oder
grammatikalischen Regeln der jeweiligen Sprache in korrek
ter Form umgruppiert.
Anstelle einer Ausgabe und Umsetzung in einer andere
Sprache kann die Spracherkennung auch zur Ausgabe von
Texten in der Basissprache dienen, beispielsweise um einen
gesprochenen Text in einen geschriebenen Text automatisch
umzuwandeln.
Claims (17)
1. Verfahren zur automatischen Umsetzung eines
gesprochenen Textes von einer ersten Sprache in wenigstens
eine andere oder in einen geschriebenen Text der ersten
oder wenigstens einen anderen Sprache, wobei der
gesprochene Text mittels eines Mikrofons in elektrische
Signalfolgen umgewandelt und diese einem Computer in
digitalisierter Form zugeführt werden, wo sie durch ein
Spracherkennungssystem mit gespeicherten digitalen Signal
folgen verglichen und so Sprachelementen der ersten
Sprache zugeordnet werden, und wobei die Sprachelemente
der ersten Sprache mittels einer Übersetzungseinrichtung
Sprachelementen der wenigstens einen anderen Sprache
oder Schreibtextelementen zugeordnet werden, um dann
direkt in akustischer oder geschriebener Form oder durch
einen Datenträger zur Ausgabe zu gelangen, dadurch gekenn
zeichnet, daß die Signalpausen in den dem Computer (12) in
digitaler Form zugeführten Signalfolgen analysiert und
bezüglich ihrer zeitlichen Länge wenigstens zwei Klassen
zugeordnet werden, wobei der ersten Klasse zugeordnete
kürzere Signalpausen zur Unterteilung der Signalfolgen in
einzelne Worte und der zweiten Klasse zugeordnete längere
Signalpausen zur Unterteilung der Signalfolgen in einzelne
Sätze oder Satzteile verwendet werden, daß das Sprach
erkennungssystem (13) jeweils zunächst versucht, eine
zwischen zwei Signalpausen der zweiten Klasse erkannte
Signalfolge längeren Sprachelementen der ersten Sprache
zuzuordnen, und daß nur bei einem vergeblichen Versuch an
schließend die zwischen Signalpausen der ersten Klasse
innerhalb der beiden Signalpausen der zweiten Klasse
erkannten Signalfolgen kürzeren Sprachelementen zugeordnet
werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß eine Zuordnung auch dann erfolgt, wenn eine zwischen
Signalpausen erkannte Signalfolge mit wenigstens einem
gespeicherten Sprachelement (gespeicherte Signalfolge)
eine große Ähnlichkeit aufweist.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet,
daß bei großer Ähnlichkeit zwischen der erkannten Signal
folge und mehreren gespeicherten Signalfolgen eine Auswahl
mittels einer Kompatibilitäts-Codeprüfung erfolgt, die auf
grammatikalischen und/oder semantischen Regeln der ersten
Sprache beruht.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet,
daß bei der Kompatibilitäts-Codeprüfung auch die Kompati
bilität mit benachbarten Signalfolgen berücksichtigt wird.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekenn
zeichnet, daß während der Spracheingabe aus den ein
gegebenen Signalfolgen neue Kompatibilitäts-Codes gebildet
und gespeichert werden, um bei der zukünftigen Kompati
bilitäts-Codeprüfung berücksichtigt werden zu können.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet,
daß die Bildung und Speicherung neuer Kompatibilitäts-
Codes wahlweise zugelassen oder verhindert wird.
7. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Signalpausen der zweiten
Klasse wiederum bezüglich ihrer zeitlichen Länge wenig
stens zwei Unterklassen zugeordnet werden, wobei das
Spracherkennungssystem (13) wiederum entsprechend zunächst
versucht, Signalfolgen zwischen längeren Signalpausen der
ersten Unterklasse längeren Sprachelementen zuzuordnen und
nur bei vergeblichem Versuch die Signalfolgen zwischen
kürzeren Signalpausen der zweiten Unterklasse zu analy
sieren versucht.
8. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß in nicht befriedigend zuzu
ordnenden Signalfolgen Teilsignalfolgen gesucht werden,
die Kernbegriffen zugeordnet werden können, daß anschließend
die Umgebung eines solchen erkannten Kernbegriffs analy
siert und anhand einer Grammatikregelprüfung und/oder
Grammatikregelzuordnung der Kernbegriff in seiner gramma
tikalischen Form erkannt und einem entsprechenden Sprach
element zugeordnet wird oder ein entsprechendes Sprach
element aufgebaut wird.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet,
daß Kernbegriffe Hauptwörter, Adjektive und Verben sind,
während die Umgebung durch Präpositionen, Pronomen,
Artikel u. dgl. bestimmt ist.
10. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß jeweils neu eingegebene
Signalfolgen in einem Lernvorgang zur Korrektur und/oder
Erweiterung der gespeicherten Signalfolgen (Wörterbuch)
eingesetzt werden.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet,
daß beim Lernvorgang jede eingegebene Signalfolge
automatisch, verbal oder über eine Tastatur mit einer
Zuordnungsnummer versehen und zusammen mit dieser binär
gespeichert wird, und daß jeder Zuordnungsnummer eine ent
sprechende Signalfolge in der wenigstens einen weiteren
Sprache zugeordnet wird.
12. Verfahren nach Anspruch 10 oder 11, dadurch gekenn
zeichnet, daß die neu gespeicherten Signalfolgen jeweils
Ahnlichkeitsbereichen zugeordnet werden, denen ähnliche
Signalfolgen angehören.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet,
daß die Zuordnung zu Ahnlichkeitsbereichen anhand der
jeweiligen Binärfolge der binären Signalfolge erfolgt.
14. Verfahren nach einem der Ansprüche 10 bis 13,
dadurch gekennzeichnet, daß der Lernmodus wahlweise
zugelassen oder verhindert wird.
15. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die nach Art eines Wörterbuchs
gespeicherten Signalfolgen in mehreren separaten Bereichen
gespeichert sind, wobei die Bereiche einer Kinderstimme
und/oder einer Frauenstimme und/oder einer Männerstimme
zugeordnet sind, und wobei beim Lernvorgang und/oder Er
kennungsvorgang der jeweilige Bereich automatisch oder
manuell vorgewählt wird.
16. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Übersetzungseinrichtung
(16) in Abhängigkeit der jeweiligen Sprache, in die über
setzt werden soll, eine Umgruppierung der erkannten Worte
und/oder Satzteile gemäß gespeicherten semantischen und/
oder grammatikalischen Regeln der jeweiligen Sprache
vornimmt.
17. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß in einem Sprechpausen-
Prüfmodus vor einem ersten Einspeichermodus auftretende
Sprechpausen automatisch analysiert und bezüglich ihrer
zeitlichen Länge wenigstens kurze und lange Sprechpausen
definiert werden.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19624987A DE19624987A1 (de) | 1996-06-22 | 1996-06-22 | Automatisches Sprachumsetzungsverfahren |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19624987A DE19624987A1 (de) | 1996-06-22 | 1996-06-22 | Automatisches Sprachumsetzungsverfahren |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE19624987A1 true DE19624987A1 (de) | 1998-01-02 |
Family
ID=7797697
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19624987A Withdrawn DE19624987A1 (de) | 1996-06-22 | 1996-06-22 | Automatisches Sprachumsetzungsverfahren |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE19624987A1 (de) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19830007A1 (de) * | 1998-06-24 | 1999-12-30 | Deutsche Telekom Ag | Verfahren zum Betreiben eines globalen, virtuellen Call-Centers |
| DE10213163A1 (de) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Verfahren zur Korrektur von Texten |
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
| US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
| GB2229558A (en) * | 1989-03-02 | 1990-09-26 | Nec Corp | Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups |
-
1996
- 1996-06-22 DE DE19624987A patent/DE19624987A1/de not_active Withdrawn
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
| US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
| GB2229558A (en) * | 1989-03-02 | 1990-09-26 | Nec Corp | Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19830007A1 (de) * | 1998-06-24 | 1999-12-30 | Deutsche Telekom Ag | Verfahren zum Betreiben eines globalen, virtuellen Call-Centers |
| US6829350B1 (en) | 1998-06-24 | 2004-12-07 | Deutsche Telekom Ag | Method for operating a global, virtual call center |
| DE10213163A1 (de) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Verfahren zur Korrektur von Texten |
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
| DE69330427T2 (de) | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern | |
| DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
| DE3788488T2 (de) | Sprachenübersetzungssystem. | |
| DE69712216T2 (de) | Verfahren und gerät zum übersetzen von einer sparche in eine andere | |
| DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
| EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
| EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
| DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
| DE69420955T2 (de) | Umwandlung von text in signalformen | |
| DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
| DE60222093T2 (de) | Verfahren, modul, vorrichtung und server zur spracherkennung | |
| DE3042508C2 (de) | Elektronisches Sprachübersetzungsgerät | |
| DE2854837A1 (de) | Uebersetzungsvorrichtung | |
| EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
| DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
| DE3910467A1 (de) | Verfahren und vorrichtung zur erzeugung von berichten | |
| DE3032664A1 (de) | Elektronisches sprachuebersetzungsgeraet. | |
| EP3152753B1 (de) | Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen | |
| DE2946856A1 (de) | Wortspeichergeraet | |
| DE19532114C2 (de) | Sprachdialog-System zur automatisierten Ausgabe von Informationen | |
| DE602005000308T2 (de) | Vorrichtung für sprachgesteuerte Anwendungen | |
| EP0814457B1 (de) | Verfahren zur automatischen Erkennung eines gesprochenen Textes | |
| DE3855426T2 (de) | Korrekturunterstützungsgerät mit Dokumentenausgabe | |
| EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
| 8141 | Disposal/no request for examination |