DE69809525T2

DE69809525T2 - Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen

Info

Publication number: DE69809525T2
Application number: DE69809525T
Authority: DE
Inventors: Nicolaas Veldhuis
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-04-18
Filing date: 1998-03-12
Publication date: 2003-07-10
Anticipated expiration: 2018-03-13
Also published as: EP0909443B1; US6044345A; DE69809525D1; WO1998048408A1; EP0909443A1; JP2000512776A

Description

Die Erfindung bezieht sich auf ein Verfahren zum Codieren menschlicher Sprache zum späteren Abspielen. Im Allgemeinen kann Sprache mit Verfahren, die auf den Prinzipien der LPC-Codierung beruhen, nur mit mäßiger Qualität wiedergegeben werden. Der Erfinder hat herausgefunden, dass die Prinzipien der LPC-Codierung einen guten Ausgangspunkt für weitere Verbesserungen darstellen. Insbesondere können die Werte der LPC-Filterkenndaten angepasst werden, um ein besseres Ergebnis zu erzielen, wenn ihre verschiedenen Einflüsse auf die Spracherzeugung genauer berücksichtigt werden. Insbesondere umfasst das erfindungsgemäße Verfahren die Schritte, wie sie in der Einleitung von Anspruch 1 beschrieben werden.
Ein derartiges Verfahren wurde von A. Rosenberg 1971 in dem Artikel "Effect of Glottal Shape on the Quality of Natural Vowels", erschienen im Tournal of the Acoustical Society of America 49, 583-590, dargelegt. Aus computertechnischer Sicht ist dieses Verfahren sehr unkompliziert, da die Ausdrücke für den Glottalimpulsfluss und seine zeitliche Ableitung in den relevanten Parametern explizit sind. Die Ergebnisse haben sich jedoch insofern sowohl aus psychoakustischer Sicht als auch in Hinblick auf die Spracherzeugung als unzureichend erweisen, als dass verschiedene Erzeugungsparameter nicht auf optimale Weise gewählt werden konnten. Dies liegt insbesondere an dem Fehlen einer Rückkehrphase in der Glottalimpuls-Ansprechkurve.
Dementsprechend hat die vorliegende Erfindung unter anderem zur Aufgabe, die vorteilhaften computertechnischen Eigenschaften des in der Einleitung beschriebenen Verfahrens aufrechtzuerhalten und gleichzeitig seine psychoakustischen und spracherzeugungsbezogenen Ergebnisse durch Hinzufügen einer "Rückkehrphase" zu verbessern. Gemäß einem ihrer Aspekte ist die Erfindung durch Merkmale gekennzeichnet, wie sie in dem kennzeichnenden Teil von Anspruch 1 genannt sind. Die volumetrische Kontinuität wird beibehalten, wie durch die Neudefinition von te ausgedrückt, das heißt dem Zeitpunkt, an dem die zeitliche Ableitung der Glottalkurve ein Minimum aufweist. Die Verarbeitungsgeschwindigkeit bleibt unverändert hoch. Das sogenannte Rosenberg++-Modell stellt eine Erweiterung des ursprünglichen Rosenberg-Modells dar, das mit der nachstehenden Gleichung (8) beschrieben wird.
Gleichung (8) enthält jedoch keine Rückkehrphase und außerdem ist hier tp = 2 te/3 oder rk = 1/3. Hierdurch wird die Flexibilität begrenzt. Eine erste Verbesserung besteht daher darin, diese Rückkehrphase hinzuzufügen. An sich wurde vorgeschlagen, eine Pseudo-Rückkehrphase einzuführen, indem man eine rekursive Tiefpassfilterung erster Ordnung auf die Glottalimpuls-Ableitung anwendet, siehe Klatt, D. H. & Klatt, L. C. (1990), Analysis, Synthesis and Perception of Voice Quality Variations among Female and Male Talkers, Journal of the Acoustical Society of America, 87, 820856. Hierdurch wird der Wert von tp unerwünschterweise geändert. Außerdem wurde bei einer anderen Vorgehensweise nach dem Stand der Technik durch den Ausdruck (2) eine Rückkehrphase eingeführt. Dieser Schritt bringt einen hohen zusätzlichen Verarbeitungsaufwand mit sich, so dass seine Anwendung auf Umgebungen beschränkt bleibt, in denen die Verarbeitungsleistung keinen begrenzenden Faktor darstellt.
Vorteilhafterweise führt die Glottalimpulskurve einen Faktor ein, der in dem Parameter tp explizit ist, das heißt dem Zeitpunkt der maximalen Luftströmung. Diese zweite Erweiterung fügt einen zusätzlichen Faktor zu f(t) hinzu, durch den tp spezifiziert werden kann; dadurch erhält man Gleichung (9) und gleichzeitig eine weitere Verbesserung der Wahrnehmungsleistung. Der Ausdruck (10) für tx ergibt sich aus der Lösung der Kontinuitätsgleichung (4): der Nenner von (10) verschwindet, wenn die Gleichung (11) gilt. In diesem Fall reduziert sich das Rosenberg++-Modell auf
f(t) = 3At(tp - t); f&epsi;f(T)dX = At²(1,5tp - t), (12)
was das Rosenberg-Modell mit nur der Ergänzung einer Rückkehrphase darstellt. Die Bedingung (13) ist erforderlich, um zu gewährleisten, dass g(t) nicht negativ ist. Das Rosenberg++-Modell verfügt über den gleichen Satz von T- (oder R-) Parametern wie das (auf Gleichung (2) basierende LF-Modell, das im Folgenden besprochen wird, erfordert jedoch weniger Berechnungen, da die Kontinuitätsgleichung keine numerische, sondern nur eine analytische Lösung erfordert.
Vorteilhafterweise ist das Verfahren dadurch gekennzeichnet, dass selektiv ein oder mehrere sprachbestimmende Parameter tp, te, also der Zeitpunkt, an dem die Ableitung des Glottalimpulses ihr Minimum hat, und ta, also die Verzögerung erster Ordnung nach te, wo die Ableitung null wird, geändert werden. Diese Änderung ist jetzt unkompliziert und ermöglicht bei Bedarf eine unmittelbare Veränderung der Sprachqualität.
Das LF-Verfahren wurde in der US-amerikanischen Patenkanmeldung Nr. 08/778.795 auf die Anmelderin der vorliegenden Erfindung beschrieben. Mit diesem Verfahren wird Sprache erzeugt, die von der Wahrnehmung her adäquat ist, aber deren Datenverarbeitungsanforderungen die Anwendung in eigenständigen Systemen von mäßiger Größe illusorisch machen.
Die Erfindung bezieht sich auch auf ein System zur Implementierung des erfindungsgemäßen Verfahrens. Weitere vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen aufgeführt.
An sich wurde die Manipulation von Sprache auf verschiedene Weisen in der US-amerikanischen Patentschrift 5.479.564, der US-amerikanischen Patentschrift Nr. 07/924.726 und der US-amerikanischen Patentschrift Nr. 08/754.362, alle auf den Namen der Anmelderin der vorliegenden Erfindung, beschrieben. In den ersten beiden Referenzschriften wird eine Beeinflussung der Sprachdauer durch systematisches Einfügen und/oder Löschen von Tonhöhenperioden der unverarbeiteten Sprache beschrieben. In der dritten Referenzschrift wird auf vergleichbare Weise mit einer Kurzzeit-Fourier-Transformation der Sprache gearbeitet. Mit der vorliegenden Erfindung wird eine kompakte Speicherung und unkomplizierte Verarbeitung von codierter Sprache angestrebt, um eine kostengünstige Lösung zu erhalten. Die Referenzschriften erfordern eine recht umfangreiche Speicherkapazität.
Diese und andere Aspekte der Erfindung werden im Folgenden ausführlich unter Bezugnahme auf die nachstehend dargelegten bevorzugten Ausführungsbeispiele beschrieben, und insbesondere unter Bezugnahme auf die beigefügten Figuren. Es zeigen:
Fig. 1 ein Blockschaltbild eines Sprachsynthesizers;
Fig. 2a, 2b einen Glottalimpuls und seine zeitliche Ableitung;
Fig. 3 ein Quellenfilter-Modell mit Glottalquelle;
Fig. 4 ein vereinfachtes Quellenfilter-Modell;
Fig. 5 zwei Vergleichsdiagramme für die Modelle LF und R++;
Fig. 6 verschiedene Ausdrücke, die in der Beschreibung verwendet werden.
Der vorgeschlagene Synthesizer ist in Fig. 1 dargestellt. Da das System kompatibel mit den vorhandenen Datenbanken bleiben soll, müssen die Parameter bezugnehmend auf die Quellen 40, 48, 50 und 56 in Fig. 1 generiert werden. Dies geschieht folgendermaßen. Die Filterkoeffizienten des ursprünglichen Synthesefilters werden verwendet, um die Koeffizienten des Vokaltrakt-Filters bzw. des Glottalimpuls-Filters abzuleiten. Früher wurde das Liljencrants-Fant-Modell (LF) angewendet, um den Glottalimpuls zu beschreiben, wie weiter unten aufgeführt. Die Parameter hiervon werden abgestimmt, um eine Größenanpassung im Frequenzgebiet zwischen dem Glottalimpuls-Filter und dem LF-Impuls zu erreichen. Dies führt zu einer Anregung des Vokaltrakt-Filters, der sowohl über die gewünschten spektralen Eigenschaften verfügt als auch eine realistische zeitliche Darstellung ermöglicht.
Das Verfahren kann wie folgt erweitert werden. Das Schätzen der komplexen Pole der Transferfunktion des LPC-Sprachsynthese-Filters mit einer spektralen Hüllkurve, die der menschlichen Sprachinformation entspricht, umfasst das Schätzen eines festliegenden ersten Linienspektrums, das dem Ausdruck (A) im Folgenden zugeordnet wird. Außerdem umfasst das Verfahren das Schätzen eines festliegenden zweiten Linienspektrums, das dem Ausdruck (C) im Folgenden zugeordnet wird, der sich auf das Modell des menschlichen Vokaltrakts bezieht. Das Verfahren umfasst ferner das Herausfinden eines variablen dritten Linienspektrums, das dem Ausdruck (C) im Folgenden zugeordnet wird, und das der glottalimpuls-bezogenen Sequenz entspricht, um das dritte Linienspektrum an das geschätzte erste Linienspektrum anzupassen, bis ein angemessenes Anpassungsniveau erreicht ist.
In den Fig. 2a, 2B sind Modelle eines beispielhaften Glottalimpulses und seiner zeitlichen Ableitung dargestellt. Die Abtastfrequenz ist fs, die Grundfrequenz ist f&sub0;, die Grundperiode ist t&sub0; = 1/f&sub0;. Außerdem ist tp = 2π/ωp. Die hier verwendeten Parameter sind die sogenannten Spezifikationsparameter, die den Erzeugungsparametern entsprechen, aber in engerem Zusammenhang mit den physikalischen Aspekten des Spracherzeugungsinstruments stehen. Insbesondere gibt es für te und ta keine unmittelbare Übersetzung in die Erzeugungsparameter. Es ist zu beachten, dass das abgebildete Signalsegment mindestens zwei Grundperioden enthält.
In Fig. 2b ist der Kurventeil für Zeitwerte größer als te von der Wahrnehmung her der relevanteste Teil. Wie nachstehend dargestellt, wird dieser hintere Teil durch die vorliegende Erfindung in Bezug auf die Liljencrantz-Fant-Methode identisch gehalten. Die komplizierenden Aspekte der für Zeitwerte kleiner als te gewählten Funktion werden jedoch vereinfacht. Insbesondere werden Erzeugungsparameter ohne α verwendet. Dadurch werden sie mit den Spezifikationsparametern identisch. Die gesamte Lösung wird erreicht, ohne auf nicht-lineare Gleichungen zurückgreifen zu müssen. Außerdem wird dargestellt, dass die Parameter jetzt einfacher geändert werden können, um die Sprachqualität auf unkompliziertere Weise steuern zu können.
Das Signallinienspektrum ist jetzt
(wobei wk, k = 0, ... ist, M - 1 eine Fensterfunktion, z. B. das Hann-Fenster, darstellt, und
N = fs/2f&sub0; (B)
die Anzahl der Spektrallinien im Spektrum ist. Das Vokaltrakt-Linienspektrum ist
wobei A(exp(jθ)) die Transferfunktion des Vokaltrakt-Filters ist. Das Glottalimpuls- Linienspektrum ist
G&sub1;(t&sub0;, te, tp, ta) = (t; t&sub0;, te, tp, ta)exp(-2jπ1f&sub0;t)dt ², 1 = 1, ..., N, (D)
wobei (t; t&sub0;, te, tp, ta) die zeitliche Ableitung des Glottalimpulses, z. B. gemäß dem LF- Modell, ist. Die Glottalimpuls-Parameter te, tp, ta erhält man als minimierende Argumente der Funktion
wobei β hinzugefügt wird, um die wahrnehmungsbezogene Relevanz dieses Abstandsmaßes zu vergrößern. Es hat sich gezeigt, dass β = 1/3 zu zufriedenstellenden Ergebnissen führt. Ein alternatives Abstandsmaß ist
Das Minimieren von Funktionswerten bis entweder das Gesamtminimum oder zumindest ein geeigneter Pegel erreicht ist, stellt ein unkompliziertes mathematisches Verfahren dar und führt zu einer akzeptablen Sprache.
Das Rosenberg++-Modell wird durch den gleichen Satz von T- oder R- Parametern beschrieben wie das LF-Modell, ist jedoch rechentechnisch einfacher. Dadurch wird es möglich, dieses Modell in Echtzeit-Sprachsynthesizern zu verwenden. In praktischen Situationen wird mit dem Rosenberg++-Modell synthetische Sprache erzeugt, die wahrnehmungsmäßig der mit dem LF-Modell erzeugten Sprache entspricht.
Für Analyse- und Synthese-Zwecke wird die Spracherzeugung oft durch ein Quellen-Filter-Modell (Fig. 3 und 4) modelliert. In Fig. 3 erzeugt eine Quelle ein Signal B(t), das die durch die Stimmbänder strömende Luft modelliert, ein Filter mit einer Transferfunktion H(jω) modelliert die spektrale Formung durch den Vokaltrakt und ein Differenzierungsoperator modelliert die bei den Lippen erfolgende Umwandlung der Luftströmung in eine Druckwelle S(t), was als "Lippenabstrahlung bezeichnet wird. Die Konstanten ρ und A stehen für die Dichte der Luft bzw. die Fläche der Lippenöffnung. In Fig. 4 ist eine vereinfachte Ausführung dieses Modells dargestellt, bei dem der Differenzierungsoperator mit der Quelle kombiniert wurde, die jetzt die zeitliche Ableitung dg(t)/dt der die Stimmbänder durchquerenden Luftströmung erzeugt. Die Öffnung zwischen den Stimmbändern wird als Glottis bezeichnet und die Quelle wird dementsprechend Glottalquelle genannt. Bei stimmlicher Sprache ist das Signal g(t) periodisch und eine Periode wird als Glottalimpuls bezeichnet. Der Glottalimpuls und seine zeitliche Ableitung sind ausschlaggebend für die Stimmqualität und stehen in Zusammenhang mit der Erzeugung von Prosodie. Anstelle des Glottalimpulses selbst wird seine zeitliche Ableitung untersucht, weil diese sich einfacher aus dem Sprachsignal gewinnen lässt, um einige der Glottalquellen-Parameter abzuleiten.
Das Liljencrants-Fant-Modell (LF) ist zu einem Referenzmodell für die Glottalimpuls-Analyse geworden, vergl. G. Fant, J. Liljencrants & Qi-guang Lin, A Four- Parameter Model of Glottal Flow, French-Swedish Symposium, Grenoble, 22.-24. April 1985, STL-QPSR4/1985, Seite 1-13. Dieses Modell lässt sich jedoch aufgrund seiner rechentechnischen Komplexität nur in begrenztem Umfang anwenden. Diese Komplexität ist auf den Unterschied zwischen den Spezifikationsparametern und den Erzeugungsparametern des LF-Modells zurückzuführen. Die Ableitung der Erzeugungsparameter aus den Spezifikationsparametern ist rechentechnisch kompliziert, weil sie die Lösung einer nicht-linearen Gleichung beinhaltet. Dies wird im Folgenden zusammen mit dem LF-Modell beschrieben.
Die Fig. 2a, 2b zeigen typische Beispiele von g(f) und dg(t)/dt und führen die Spezifikationsparameter t&sub0;, tp, te, ta und U&sub0; oder Ee ein. Die Tonhöhenperiode hat eine Länge t&sub0;. Die maximale Luftströmung U&sub0; tritt bei tp auf. Die maximale Anregung mit der Amplitude Ee tritt zum Zeitpunkt te auf, wenn die Stimmbänder kollidieren. Das Intervall mit der ungefähren Länge ta = Ee/g(te) unmittelbar nach dem Zeitpunkt der maximalen Anregung wird als Rückkehrphase bezeichnet. Während dieser Phase erreichen die Stimmbänder eine maximale Schließung und die Luftströmung wird auf ihr Minimum reduziert, was als Leckage bezeichnet wird. Wir gehen hier von einer Leckage von null aus, so dass g(0) = g(t&sub0;) = 0. Die Luftströmung in der Rückkehrphase ist wahrnehmungsmäßig wichtig, weil sie die spektrale Neigung bestimmt. Die Parameter t&sub0;, tp, te, ta werden als T-Parameter bezeichnet. Anstelle der T-Parameter werden manchmal R-Parameter verwendet, die wie folgt definiert sind:
r&sub0; = te/t&sub0;, ra = ta/t&sub0;, rk = (te - tp)/t&sub0; (1)
Die Parameter r&sub0; und ra bezeichnen die relative Dauer der offenen Phase bzw. der Rückkehrphase. Der Parameter rk quantifiziert die Symmetrie des Glottalimpulses.
Ausdruck (2) ist eine allgemeine Beschreibung der Ableitung der glottalen Luftströmung g(t), wobei ein exponentielles Abklingen die Rückkehrphase modelliert. Wir fordern f(0) = 0. Ferner haben wir f(te) = 0. Die Integration führt zu einem Ausdruck für die glottale Luftströmung. Da es keine Leckage gibt, fordern wir g(t) 0 und g(0) = g(t&sub0;) = 0, wovon die Kontinuitätsbedingung (4) abgeleitet wird, wobei D durch Gleichung (5) gegeben ist. Jeder Parameter von f(t) muss so gewählt werden, dass die Bedingung (4) erfüllt wird.
In den obigen Definitionen für die glottale Luftströmung g(t) und ihre Ableitung dg(t)/dt ist der Parameter ta die Zeitkonstante des exponentiellen Abklingens in der Rückkehrphase. Dies unterscheidet sich leicht von der Situation in Fig. 6a, wo ta = Ee/g(te). Bei ta (t&sub0; - te), was normalerweise der Fall ist, sind beide Definitionen gleichwertig. Wenn dieser Zusammenhang nicht gilt, besteht ein einfacher Zusammenhang zwischen beiden ta Parametern.
Das LF-Modell mit der modifizierten Definition von ta folgt aus (2) und aus der Auswahl
f(t) = Bsin(πt/tp)exp(αt), (6)
wobei B die Amplitude der Glottalimpulsableitung ist. Der Erzeugungsparameter α kann nur numerisch anhand der Kontinuitätsgleichung (4) gelöst werden, was in diesem Fall durch (7) gegeben ist: In der Tat kann diese Gleichung nicht explizit in α ausgedrückt werden. Die Lösung von (7) für α stellt hohe rechentechnische Ansprüche an einen Sprachsynthesizer, wo sich die T-Parameter typischerweise alle 10 ms verändern.
Fig. 5 zeigt LF- (gestrichelte Linien) und R++- (durchgezogene Linien) Glottalimpulsableitungen für die beiden Sätze von R-Parametern. Das obere Feld enthält die Glottalimpulsableitungen für eine Modalstimme und das untere Feld für eine abduzierte Stimmquelle. Die R++ Signalform kommt der LF-Signalform sehr nahe, wenn rk < 0,5 ist. Bei höheren Werten von rk ist die Approximierung etwas schlechter. Die Unterschiede zwischen den Ergebnissen der beiden Modelle sind im Vergleich zu den Unterschieden zwischen dem LF-Modell und den geschätzten Signalformen klein. Dies weist bereits darauf hin, dass beide Modelle gleichermaßen nützlich sind. Um die Anwendbarkeit in Sprachsynthesizern weiter zu überprüfen, wurde die wahrnehmungsbezogene Äquivalenz des neuen Modells mit dem LF-Modell untersucht.
Diese Untersuchung wurde durchgeführt, indem man getestet hat, ob die mit den R++- und dem LF-Modell bei verschiedenen Auswahlen für die R-Parameter erzeugten synthetischen Vokale wahrnehmungsmäßig unterschieden werden können. Der Vergleich von einzelnen Vokalen ist psychoakustisch kritischer als der Vergleich von synthetischer Sprache, bei der andere Syntheseartefakte sowie der Kontext die Wahrnehmungsunterschiede maskieren können.
Um die R-Parameter entsprechend denjenigen von natürlichen Stimmen zu wählen, benutzen wir den sogenannten Form-Parameter
rd = U&sub0;/E&sub0;·t&sub0;.
Zwischen rd und den anderen R-Parametern bestehen einfache statistische Zusammenhänge, so dass jeder der R-Parameter aus einem gemessenen Wert von rd vorhergesagt werden kann. Diese Beziehungen sind in Fig. 1 dargestellt. Wir wählen den Satz {0,05; 0,13; 0,21; 0,29; 0,37; 0,45} als Werte von rd und nutzen Fig. 1, um die R- Parameter zu bestimmen. Aus den Aufzeichnungen einer männlichen und einer weiblichen Stimme haben wir Formantfilter und Grundfrequenzen für die Vokale /a/, /i/ und /u/ abgeleitet. Für die sechs Werte von rd wurden mit dem einfachen Quellenfilter-Modell aus Fig. 1 Segmente von 0,3 s dieser Vokale synthetisiert. Die Glottalimpuls-Ableitungen erfolgten entsprechend dem LF- bzw. dem R++-Modell. Die Grundfrequenzen und Formantfilter wurden mit den aus den Aufzeichnungen erhaltenen identisch gehalten. Die Grundfrequenzen der männlichen und weiblichen Vokale betrugen 100 Hz bzw. 200 Hz. Die Abtastfrequenz betrug 8 kHz. Dies führte zu 36 Stimuli-Paaren. Es gab keinen signifikanten Unterschied zwischen den Ergebnissen der Versuche mit dem LF-Modell und denen mit dem R++-Modell in den Referenzversuchen.
Die verbesserte rechentechnische Effizienz macht diese Vorgehensweise geeignet für die Anwendung in Echtzeit-Sprachsynthesizern, zum Beispiel Formant Synthesizern. Der psychoakustische Vergleich von mit dem R++-Modell und dem LF- Modell erzeugten Stimuli zeigte, dass manchmal eine Diskriminierung möglich ist, aber dass es unwahrscheinlich ist, dass diese in praktischen Fällen der Sprachsynthese auftritt.

Claims

1. Verfahren zum Codieren von menschlicher Sprache und zum späteren Abspielen, wobei das genannte Verfahren die folgenden Schritte umfasst:

Empfangen einer die menschliche Sprache ausdrückenden Informationsmenge Definieren einer Transferfunktion der genannten Sprache und Aussondern aller Pole daraus, die nicht in Zusammenhang mit einer bestimmten Resonanz eines menschlichen Vokaltrakt-Modells stehen, während alle anderen Pole aufrechterhalten bleiben;

Definieren einer Glottalimpuls-Ansprechkurve, die die genannten ausgesonderten Pole durch eine Explizitation der Ableitung der glottalen Luftströmung darstellt;

Ausgeben von Sprache dargestellt durch Filtermittel basierend auf der Kombination der genannten Glottalimpulskurve und einer Darstellung eines Formantfilters mit einer komplexen Transferfunktion als alle genannten anderen Pole ausdrückend,

wobei die genannte Glottalimpulskurve durch weitere explizit ausdrückbare Erzeugungsparameter modelliert wird,

wobei das genannte Verfahren gekennzeichnet ist durch den Schritt des Hinzufügens einer von null abweichenden abklingenden Rückkehrphase zur Glottalimpulskurve g(t), die explizit in allen ihren Parametern ist, in Form eines Intervalls der Glottalimpulskurve, das nach dem Zeitpunkt te liegt, wo die zeitliche Ableitung von g(t) ihr Minimum erreicht, und dessen ungefähre Dauer sich auf ta = Ee/g (te) beläuft, wobei Ee der reelle maximale negative Wert der zeitlichen Ableitung von g(t) ist, wobei gleichzeitig die Glottalimpulskurve g(t) entsprechend der volumetrischen Kontinuität geändert wird, d. h. durch Neudefinition von te auf eine solche Weise, dass die Glottalimpulskurve einen Wert von null bei t = 0 und t = t&sub0; hat, wobei t&sub0; die Tonhöhenperiode ist.

2. Verfahren nach Anspruch 1, gekennzeichnet durch das Einführen eines Faktors in den genannten Glottalimpuls, der explizit in dem Parameter tp ist, das heißt dem Zeitpunkt der maximalen Luftströmung.

3. Verfahren nach Anspruch 2, gekennzeichnet durch das selektive Ändern von einem oder mehreren sprachbestimmenden Parameter(n) tp, te, also dem Leitpunkt, an dem die Ableitung des Glottalimpulses ihr Minimum hat, und ta, also die Verzögerung erster Ordnung nach te, wo die Ableitung null wird.

4. System, das vorgesehen ist, um ein Verfahren, wie es in den Ansprüchen 1 oder 2 beschrieben ist, zu implementieren.