[go: up one dir, main page]

DE69809525T2 - Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen - Google Patents

Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen

Info

Publication number
DE69809525T2
DE69809525T2 DE69809525T DE69809525T DE69809525T2 DE 69809525 T2 DE69809525 T2 DE 69809525T2 DE 69809525 T DE69809525 T DE 69809525T DE 69809525 T DE69809525 T DE 69809525T DE 69809525 T2 DE69809525 T2 DE 69809525T2
Authority
DE
Germany
Prior art keywords
glottal
speech
parameters
poles
glottal impulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69809525T
Other languages
English (en)
Other versions
DE69809525D1 (de
Inventor
Nicolaas Veldhuis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE69809525D1 publication Critical patent/DE69809525D1/de
Publication of DE69809525T2 publication Critical patent/DE69809525T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Codieren menschlicher Sprache zum späteren Abspielen. Im Allgemeinen kann Sprache mit Verfahren, die auf den Prinzipien der LPC-Codierung beruhen, nur mit mäßiger Qualität wiedergegeben werden. Der Erfinder hat herausgefunden, dass die Prinzipien der LPC-Codierung einen guten Ausgangspunkt für weitere Verbesserungen darstellen. Insbesondere können die Werte der LPC-Filterkenndaten angepasst werden, um ein besseres Ergebnis zu erzielen, wenn ihre verschiedenen Einflüsse auf die Spracherzeugung genauer berücksichtigt werden. Insbesondere umfasst das erfindungsgemäße Verfahren die Schritte, wie sie in der Einleitung von Anspruch 1 beschrieben werden.
  • Ein derartiges Verfahren wurde von A. Rosenberg 1971 in dem Artikel "Effect of Glottal Shape on the Quality of Natural Vowels", erschienen im Tournal of the Acoustical Society of America 49, 583-590, dargelegt. Aus computertechnischer Sicht ist dieses Verfahren sehr unkompliziert, da die Ausdrücke für den Glottalimpulsfluss und seine zeitliche Ableitung in den relevanten Parametern explizit sind. Die Ergebnisse haben sich jedoch insofern sowohl aus psychoakustischer Sicht als auch in Hinblick auf die Spracherzeugung als unzureichend erweisen, als dass verschiedene Erzeugungsparameter nicht auf optimale Weise gewählt werden konnten. Dies liegt insbesondere an dem Fehlen einer Rückkehrphase in der Glottalimpuls-Ansprechkurve.
  • Dementsprechend hat die vorliegende Erfindung unter anderem zur Aufgabe, die vorteilhaften computertechnischen Eigenschaften des in der Einleitung beschriebenen Verfahrens aufrechtzuerhalten und gleichzeitig seine psychoakustischen und spracherzeugungsbezogenen Ergebnisse durch Hinzufügen einer "Rückkehrphase" zu verbessern. Gemäß einem ihrer Aspekte ist die Erfindung durch Merkmale gekennzeichnet, wie sie in dem kennzeichnenden Teil von Anspruch 1 genannt sind. Die volumetrische Kontinuität wird beibehalten, wie durch die Neudefinition von te ausgedrückt, das heißt dem Zeitpunkt, an dem die zeitliche Ableitung der Glottalkurve ein Minimum aufweist. Die Verarbeitungsgeschwindigkeit bleibt unverändert hoch. Das sogenannte Rosenberg++-Modell stellt eine Erweiterung des ursprünglichen Rosenberg-Modells dar, das mit der nachstehenden Gleichung (8) beschrieben wird.
  • Gleichung (8) enthält jedoch keine Rückkehrphase und außerdem ist hier tp = 2 te/3 oder rk = 1/3. Hierdurch wird die Flexibilität begrenzt. Eine erste Verbesserung besteht daher darin, diese Rückkehrphase hinzuzufügen. An sich wurde vorgeschlagen, eine Pseudo-Rückkehrphase einzuführen, indem man eine rekursive Tiefpassfilterung erster Ordnung auf die Glottalimpuls-Ableitung anwendet, siehe Klatt, D. H. & Klatt, L. C. (1990), Analysis, Synthesis and Perception of Voice Quality Variations among Female and Male Talkers, Journal of the Acoustical Society of America, 87, 820856. Hierdurch wird der Wert von tp unerwünschterweise geändert. Außerdem wurde bei einer anderen Vorgehensweise nach dem Stand der Technik durch den Ausdruck (2) eine Rückkehrphase eingeführt. Dieser Schritt bringt einen hohen zusätzlichen Verarbeitungsaufwand mit sich, so dass seine Anwendung auf Umgebungen beschränkt bleibt, in denen die Verarbeitungsleistung keinen begrenzenden Faktor darstellt.
  • Vorteilhafterweise führt die Glottalimpulskurve einen Faktor ein, der in dem Parameter tp explizit ist, das heißt dem Zeitpunkt der maximalen Luftströmung. Diese zweite Erweiterung fügt einen zusätzlichen Faktor zu f(t) hinzu, durch den tp spezifiziert werden kann; dadurch erhält man Gleichung (9) und gleichzeitig eine weitere Verbesserung der Wahrnehmungsleistung. Der Ausdruck (10) für tx ergibt sich aus der Lösung der Kontinuitätsgleichung (4): der Nenner von (10) verschwindet, wenn die Gleichung (11) gilt. In diesem Fall reduziert sich das Rosenberg++-Modell auf
  • f(t) = 3At(tp - t); fεf(T)dX = At²(1,5tp - t), (12)
  • was das Rosenberg-Modell mit nur der Ergänzung einer Rückkehrphase darstellt. Die Bedingung (13) ist erforderlich, um zu gewährleisten, dass g(t) nicht negativ ist. Das Rosenberg++-Modell verfügt über den gleichen Satz von T- (oder R-) Parametern wie das (auf Gleichung (2) basierende LF-Modell, das im Folgenden besprochen wird, erfordert jedoch weniger Berechnungen, da die Kontinuitätsgleichung keine numerische, sondern nur eine analytische Lösung erfordert.
  • Vorteilhafterweise ist das Verfahren dadurch gekennzeichnet, dass selektiv ein oder mehrere sprachbestimmende Parameter tp, te, also der Zeitpunkt, an dem die Ableitung des Glottalimpulses ihr Minimum hat, und ta, also die Verzögerung erster Ordnung nach te, wo die Ableitung null wird, geändert werden. Diese Änderung ist jetzt unkompliziert und ermöglicht bei Bedarf eine unmittelbare Veränderung der Sprachqualität.
  • Das LF-Verfahren wurde in der US-amerikanischen Patenkanmeldung Nr. 08/778.795 auf die Anmelderin der vorliegenden Erfindung beschrieben. Mit diesem Verfahren wird Sprache erzeugt, die von der Wahrnehmung her adäquat ist, aber deren Datenverarbeitungsanforderungen die Anwendung in eigenständigen Systemen von mäßiger Größe illusorisch machen.
  • Die Erfindung bezieht sich auch auf ein System zur Implementierung des erfindungsgemäßen Verfahrens. Weitere vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen aufgeführt.
  • An sich wurde die Manipulation von Sprache auf verschiedene Weisen in der US-amerikanischen Patentschrift 5.479.564, der US-amerikanischen Patentschrift Nr. 07/924.726 und der US-amerikanischen Patentschrift Nr. 08/754.362, alle auf den Namen der Anmelderin der vorliegenden Erfindung, beschrieben. In den ersten beiden Referenzschriften wird eine Beeinflussung der Sprachdauer durch systematisches Einfügen und/oder Löschen von Tonhöhenperioden der unverarbeiteten Sprache beschrieben. In der dritten Referenzschrift wird auf vergleichbare Weise mit einer Kurzzeit-Fourier-Transformation der Sprache gearbeitet. Mit der vorliegenden Erfindung wird eine kompakte Speicherung und unkomplizierte Verarbeitung von codierter Sprache angestrebt, um eine kostengünstige Lösung zu erhalten. Die Referenzschriften erfordern eine recht umfangreiche Speicherkapazität.
  • Diese und andere Aspekte der Erfindung werden im Folgenden ausführlich unter Bezugnahme auf die nachstehend dargelegten bevorzugten Ausführungsbeispiele beschrieben, und insbesondere unter Bezugnahme auf die beigefügten Figuren. Es zeigen:
  • Fig. 1 ein Blockschaltbild eines Sprachsynthesizers;
  • Fig. 2a, 2b einen Glottalimpuls und seine zeitliche Ableitung;
  • Fig. 3 ein Quellenfilter-Modell mit Glottalquelle;
  • Fig. 4 ein vereinfachtes Quellenfilter-Modell;
  • Fig. 5 zwei Vergleichsdiagramme für die Modelle LF und R++;
  • Fig. 6 verschiedene Ausdrücke, die in der Beschreibung verwendet werden.
  • Der vorgeschlagene Synthesizer ist in Fig. 1 dargestellt. Da das System kompatibel mit den vorhandenen Datenbanken bleiben soll, müssen die Parameter bezugnehmend auf die Quellen 40, 48, 50 und 56 in Fig. 1 generiert werden. Dies geschieht folgendermaßen. Die Filterkoeffizienten des ursprünglichen Synthesefilters werden verwendet, um die Koeffizienten des Vokaltrakt-Filters bzw. des Glottalimpuls-Filters abzuleiten. Früher wurde das Liljencrants-Fant-Modell (LF) angewendet, um den Glottalimpuls zu beschreiben, wie weiter unten aufgeführt. Die Parameter hiervon werden abgestimmt, um eine Größenanpassung im Frequenzgebiet zwischen dem Glottalimpuls-Filter und dem LF-Impuls zu erreichen. Dies führt zu einer Anregung des Vokaltrakt-Filters, der sowohl über die gewünschten spektralen Eigenschaften verfügt als auch eine realistische zeitliche Darstellung ermöglicht.
  • Das Verfahren kann wie folgt erweitert werden. Das Schätzen der komplexen Pole der Transferfunktion des LPC-Sprachsynthese-Filters mit einer spektralen Hüllkurve, die der menschlichen Sprachinformation entspricht, umfasst das Schätzen eines festliegenden ersten Linienspektrums, das dem Ausdruck (A) im Folgenden zugeordnet wird. Außerdem umfasst das Verfahren das Schätzen eines festliegenden zweiten Linienspektrums, das dem Ausdruck (C) im Folgenden zugeordnet wird, der sich auf das Modell des menschlichen Vokaltrakts bezieht. Das Verfahren umfasst ferner das Herausfinden eines variablen dritten Linienspektrums, das dem Ausdruck (C) im Folgenden zugeordnet wird, und das der glottalimpuls-bezogenen Sequenz entspricht, um das dritte Linienspektrum an das geschätzte erste Linienspektrum anzupassen, bis ein angemessenes Anpassungsniveau erreicht ist.
  • In den Fig. 2a, 2B sind Modelle eines beispielhaften Glottalimpulses und seiner zeitlichen Ableitung dargestellt. Die Abtastfrequenz ist fs, die Grundfrequenz ist f&sub0;, die Grundperiode ist t&sub0; = 1/f&sub0;. Außerdem ist tp = 2π/ωp. Die hier verwendeten Parameter sind die sogenannten Spezifikationsparameter, die den Erzeugungsparametern entsprechen, aber in engerem Zusammenhang mit den physikalischen Aspekten des Spracherzeugungsinstruments stehen. Insbesondere gibt es für te und ta keine unmittelbare Übersetzung in die Erzeugungsparameter. Es ist zu beachten, dass das abgebildete Signalsegment mindestens zwei Grundperioden enthält.
  • In Fig. 2b ist der Kurventeil für Zeitwerte größer als te von der Wahrnehmung her der relevanteste Teil. Wie nachstehend dargestellt, wird dieser hintere Teil durch die vorliegende Erfindung in Bezug auf die Liljencrantz-Fant-Methode identisch gehalten. Die komplizierenden Aspekte der für Zeitwerte kleiner als te gewählten Funktion werden jedoch vereinfacht. Insbesondere werden Erzeugungsparameter ohne α verwendet. Dadurch werden sie mit den Spezifikationsparametern identisch. Die gesamte Lösung wird erreicht, ohne auf nicht-lineare Gleichungen zurückgreifen zu müssen. Außerdem wird dargestellt, dass die Parameter jetzt einfacher geändert werden können, um die Sprachqualität auf unkompliziertere Weise steuern zu können.
  • Das Signallinienspektrum ist jetzt
  • (wobei wk, k = 0, ... ist, M - 1 eine Fensterfunktion, z. B. das Hann-Fenster, darstellt, und
  • N = fs/2f&sub0; (B)
  • die Anzahl der Spektrallinien im Spektrum ist. Das Vokaltrakt-Linienspektrum ist
  • wobei A(exp(jθ)) die Transferfunktion des Vokaltrakt-Filters ist. Das Glottalimpuls- Linienspektrum ist
  • G&sub1;(t&sub0;, te, tp, ta) = (t; t&sub0;, te, tp, ta)exp(-2jπ1f&sub0;t)dt ², 1 = 1, ..., N, (D)
  • wobei (t; t&sub0;, te, tp, ta) die zeitliche Ableitung des Glottalimpulses, z. B. gemäß dem LF- Modell, ist. Die Glottalimpuls-Parameter te, tp, ta erhält man als minimierende Argumente der Funktion
  • wobei β hinzugefügt wird, um die wahrnehmungsbezogene Relevanz dieses Abstandsmaßes zu vergrößern. Es hat sich gezeigt, dass β = 1/3 zu zufriedenstellenden Ergebnissen führt. Ein alternatives Abstandsmaß ist
  • Das Minimieren von Funktionswerten bis entweder das Gesamtminimum oder zumindest ein geeigneter Pegel erreicht ist, stellt ein unkompliziertes mathematisches Verfahren dar und führt zu einer akzeptablen Sprache.
  • Das Rosenberg++-Modell wird durch den gleichen Satz von T- oder R- Parametern beschrieben wie das LF-Modell, ist jedoch rechentechnisch einfacher. Dadurch wird es möglich, dieses Modell in Echtzeit-Sprachsynthesizern zu verwenden. In praktischen Situationen wird mit dem Rosenberg++-Modell synthetische Sprache erzeugt, die wahrnehmungsmäßig der mit dem LF-Modell erzeugten Sprache entspricht.
  • Für Analyse- und Synthese-Zwecke wird die Spracherzeugung oft durch ein Quellen-Filter-Modell (Fig. 3 und 4) modelliert. In Fig. 3 erzeugt eine Quelle ein Signal B(t), das die durch die Stimmbänder strömende Luft modelliert, ein Filter mit einer Transferfunktion H(jω) modelliert die spektrale Formung durch den Vokaltrakt und ein Differenzierungsoperator modelliert die bei den Lippen erfolgende Umwandlung der Luftströmung in eine Druckwelle S(t), was als "Lippenabstrahlung bezeichnet wird. Die Konstanten ρ und A stehen für die Dichte der Luft bzw. die Fläche der Lippenöffnung. In Fig. 4 ist eine vereinfachte Ausführung dieses Modells dargestellt, bei dem der Differenzierungsoperator mit der Quelle kombiniert wurde, die jetzt die zeitliche Ableitung dg(t)/dt der die Stimmbänder durchquerenden Luftströmung erzeugt. Die Öffnung zwischen den Stimmbändern wird als Glottis bezeichnet und die Quelle wird dementsprechend Glottalquelle genannt. Bei stimmlicher Sprache ist das Signal g(t) periodisch und eine Periode wird als Glottalimpuls bezeichnet. Der Glottalimpuls und seine zeitliche Ableitung sind ausschlaggebend für die Stimmqualität und stehen in Zusammenhang mit der Erzeugung von Prosodie. Anstelle des Glottalimpulses selbst wird seine zeitliche Ableitung untersucht, weil diese sich einfacher aus dem Sprachsignal gewinnen lässt, um einige der Glottalquellen-Parameter abzuleiten.
  • Das Liljencrants-Fant-Modell (LF) ist zu einem Referenzmodell für die Glottalimpuls-Analyse geworden, vergl. G. Fant, J. Liljencrants & Qi-guang Lin, A Four- Parameter Model of Glottal Flow, French-Swedish Symposium, Grenoble, 22.-24. April 1985, STL-QPSR4/1985, Seite 1-13. Dieses Modell lässt sich jedoch aufgrund seiner rechentechnischen Komplexität nur in begrenztem Umfang anwenden. Diese Komplexität ist auf den Unterschied zwischen den Spezifikationsparametern und den Erzeugungsparametern des LF-Modells zurückzuführen. Die Ableitung der Erzeugungsparameter aus den Spezifikationsparametern ist rechentechnisch kompliziert, weil sie die Lösung einer nicht-linearen Gleichung beinhaltet. Dies wird im Folgenden zusammen mit dem LF-Modell beschrieben.
  • Die Fig. 2a, 2b zeigen typische Beispiele von g(f) und dg(t)/dt und führen die Spezifikationsparameter t&sub0;, tp, te, ta und U&sub0; oder Ee ein. Die Tonhöhenperiode hat eine Länge t&sub0;. Die maximale Luftströmung U&sub0; tritt bei tp auf. Die maximale Anregung mit der Amplitude Ee tritt zum Zeitpunkt te auf, wenn die Stimmbänder kollidieren. Das Intervall mit der ungefähren Länge ta = Ee/g(te) unmittelbar nach dem Zeitpunkt der maximalen Anregung wird als Rückkehrphase bezeichnet. Während dieser Phase erreichen die Stimmbänder eine maximale Schließung und die Luftströmung wird auf ihr Minimum reduziert, was als Leckage bezeichnet wird. Wir gehen hier von einer Leckage von null aus, so dass g(0) = g(t&sub0;) = 0. Die Luftströmung in der Rückkehrphase ist wahrnehmungsmäßig wichtig, weil sie die spektrale Neigung bestimmt. Die Parameter t&sub0;, tp, te, ta werden als T-Parameter bezeichnet. Anstelle der T-Parameter werden manchmal R-Parameter verwendet, die wie folgt definiert sind:
  • r&sub0; = te/t&sub0;, ra = ta/t&sub0;, rk = (te - tp)/t&sub0; (1)
  • Die Parameter r&sub0; und ra bezeichnen die relative Dauer der offenen Phase bzw. der Rückkehrphase. Der Parameter rk quantifiziert die Symmetrie des Glottalimpulses.
  • Ausdruck (2) ist eine allgemeine Beschreibung der Ableitung der glottalen Luftströmung g(t), wobei ein exponentielles Abklingen die Rückkehrphase modelliert. Wir fordern f(0) = 0. Ferner haben wir f(te) = 0. Die Integration führt zu einem Ausdruck für die glottale Luftströmung. Da es keine Leckage gibt, fordern wir g(t) 0 und g(0) = g(t&sub0;) = 0, wovon die Kontinuitätsbedingung (4) abgeleitet wird, wobei D durch Gleichung (5) gegeben ist. Jeder Parameter von f(t) muss so gewählt werden, dass die Bedingung (4) erfüllt wird.
  • In den obigen Definitionen für die glottale Luftströmung g(t) und ihre Ableitung dg(t)/dt ist der Parameter ta die Zeitkonstante des exponentiellen Abklingens in der Rückkehrphase. Dies unterscheidet sich leicht von der Situation in Fig. 6a, wo ta = Ee/g(te). Bei ta (t&sub0; - te), was normalerweise der Fall ist, sind beide Definitionen gleichwertig. Wenn dieser Zusammenhang nicht gilt, besteht ein einfacher Zusammenhang zwischen beiden ta Parametern.
  • Das LF-Modell mit der modifizierten Definition von ta folgt aus (2) und aus der Auswahl
  • f(t) = Bsin(πt/tp)exp(αt), (6)
  • wobei B die Amplitude der Glottalimpulsableitung ist. Der Erzeugungsparameter α kann nur numerisch anhand der Kontinuitätsgleichung (4) gelöst werden, was in diesem Fall durch (7) gegeben ist: In der Tat kann diese Gleichung nicht explizit in α ausgedrückt werden. Die Lösung von (7) für α stellt hohe rechentechnische Ansprüche an einen Sprachsynthesizer, wo sich die T-Parameter typischerweise alle 10 ms verändern.
  • Fig. 5 zeigt LF- (gestrichelte Linien) und R++- (durchgezogene Linien) Glottalimpulsableitungen für die beiden Sätze von R-Parametern. Das obere Feld enthält die Glottalimpulsableitungen für eine Modalstimme und das untere Feld für eine abduzierte Stimmquelle. Die R++ Signalform kommt der LF-Signalform sehr nahe, wenn rk < 0,5 ist. Bei höheren Werten von rk ist die Approximierung etwas schlechter. Die Unterschiede zwischen den Ergebnissen der beiden Modelle sind im Vergleich zu den Unterschieden zwischen dem LF-Modell und den geschätzten Signalformen klein. Dies weist bereits darauf hin, dass beide Modelle gleichermaßen nützlich sind. Um die Anwendbarkeit in Sprachsynthesizern weiter zu überprüfen, wurde die wahrnehmungsbezogene Äquivalenz des neuen Modells mit dem LF-Modell untersucht.
  • Diese Untersuchung wurde durchgeführt, indem man getestet hat, ob die mit den R++- und dem LF-Modell bei verschiedenen Auswahlen für die R-Parameter erzeugten synthetischen Vokale wahrnehmungsmäßig unterschieden werden können. Der Vergleich von einzelnen Vokalen ist psychoakustisch kritischer als der Vergleich von synthetischer Sprache, bei der andere Syntheseartefakte sowie der Kontext die Wahrnehmungsunterschiede maskieren können.
  • Um die R-Parameter entsprechend denjenigen von natürlichen Stimmen zu wählen, benutzen wir den sogenannten Form-Parameter
  • rd = U&sub0;/E&sub0;·t&sub0;.
  • Zwischen rd und den anderen R-Parametern bestehen einfache statistische Zusammenhänge, so dass jeder der R-Parameter aus einem gemessenen Wert von rd vorhergesagt werden kann. Diese Beziehungen sind in Fig. 1 dargestellt. Wir wählen den Satz {0,05; 0,13; 0,21; 0,29; 0,37; 0,45} als Werte von rd und nutzen Fig. 1, um die R- Parameter zu bestimmen. Aus den Aufzeichnungen einer männlichen und einer weiblichen Stimme haben wir Formantfilter und Grundfrequenzen für die Vokale /a/, /i/ und /u/ abgeleitet. Für die sechs Werte von rd wurden mit dem einfachen Quellenfilter-Modell aus Fig. 1 Segmente von 0,3 s dieser Vokale synthetisiert. Die Glottalimpuls-Ableitungen erfolgten entsprechend dem LF- bzw. dem R++-Modell. Die Grundfrequenzen und Formantfilter wurden mit den aus den Aufzeichnungen erhaltenen identisch gehalten. Die Grundfrequenzen der männlichen und weiblichen Vokale betrugen 100 Hz bzw. 200 Hz. Die Abtastfrequenz betrug 8 kHz. Dies führte zu 36 Stimuli-Paaren. Es gab keinen signifikanten Unterschied zwischen den Ergebnissen der Versuche mit dem LF-Modell und denen mit dem R++-Modell in den Referenzversuchen.
  • Die verbesserte rechentechnische Effizienz macht diese Vorgehensweise geeignet für die Anwendung in Echtzeit-Sprachsynthesizern, zum Beispiel Formant Synthesizern. Der psychoakustische Vergleich von mit dem R++-Modell und dem LF- Modell erzeugten Stimuli zeigte, dass manchmal eine Diskriminierung möglich ist, aber dass es unwahrscheinlich ist, dass diese in praktischen Fällen der Sprachsynthese auftritt.

Claims (4)

1. Verfahren zum Codieren von menschlicher Sprache und zum späteren Abspielen, wobei das genannte Verfahren die folgenden Schritte umfasst:
Empfangen einer die menschliche Sprache ausdrückenden Informationsmenge Definieren einer Transferfunktion der genannten Sprache und Aussondern aller Pole daraus, die nicht in Zusammenhang mit einer bestimmten Resonanz eines menschlichen Vokaltrakt-Modells stehen, während alle anderen Pole aufrechterhalten bleiben;
Definieren einer Glottalimpuls-Ansprechkurve, die die genannten ausgesonderten Pole durch eine Explizitation der Ableitung der glottalen Luftströmung darstellt;
Ausgeben von Sprache dargestellt durch Filtermittel basierend auf der Kombination der genannten Glottalimpulskurve und einer Darstellung eines Formantfilters mit einer komplexen Transferfunktion als alle genannten anderen Pole ausdrückend,
wobei die genannte Glottalimpulskurve durch weitere explizit ausdrückbare Erzeugungsparameter modelliert wird,
wobei das genannte Verfahren gekennzeichnet ist durch den Schritt des Hinzufügens einer von null abweichenden abklingenden Rückkehrphase zur Glottalimpulskurve g(t), die explizit in allen ihren Parametern ist, in Form eines Intervalls der Glottalimpulskurve, das nach dem Zeitpunkt te liegt, wo die zeitliche Ableitung von g(t) ihr Minimum erreicht, und dessen ungefähre Dauer sich auf ta = Ee/g (te) beläuft, wobei Ee der reelle maximale negative Wert der zeitlichen Ableitung von g(t) ist, wobei gleichzeitig die Glottalimpulskurve g(t) entsprechend der volumetrischen Kontinuität geändert wird, d. h. durch Neudefinition von te auf eine solche Weise, dass die Glottalimpulskurve einen Wert von null bei t = 0 und t = t&sub0; hat, wobei t&sub0; die Tonhöhenperiode ist.
2. Verfahren nach Anspruch 1, gekennzeichnet durch das Einführen eines Faktors in den genannten Glottalimpuls, der explizit in dem Parameter tp ist, das heißt dem Zeitpunkt der maximalen Luftströmung.
3. Verfahren nach Anspruch 2, gekennzeichnet durch das selektive Ändern von einem oder mehreren sprachbestimmenden Parameter(n) tp, te, also dem Leitpunkt, an dem die Ableitung des Glottalimpulses ihr Minimum hat, und ta, also die Verzögerung erster Ordnung nach te, wo die Ableitung null wird.
4. System, das vorgesehen ist, um ein Verfahren, wie es in den Ansprüchen 1 oder 2 beschrieben ist, zu implementieren.
DE69809525T 1997-04-18 1998-03-12 Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen Expired - Fee Related DE69809525T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97201142 1997-04-18
PCT/IB1998/000320 WO1998048408A1 (en) 1997-04-18 1998-03-12 Method and system for coding human speech for subsequent reproduction thereof

Publications (2)

Publication Number Publication Date
DE69809525D1 DE69809525D1 (de) 2003-01-02
DE69809525T2 true DE69809525T2 (de) 2003-07-10

Family

ID=8228218

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69809525T Expired - Fee Related DE69809525T2 (de) 1997-04-18 1998-03-12 Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen

Country Status (5)

Country Link
US (1) US6044345A (de)
EP (1) EP0909443B1 (de)
JP (1) JP2000512776A (de)
DE (1) DE69809525T2 (de)
WO (1) WO1998048408A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
US20140236602A1 (en) * 2013-02-21 2014-08-21 Utah State University Synthesizing Vowels and Consonants of Speech

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4433210A (en) * 1980-06-04 1984-02-21 Federal Screw Works Integrated circuit phoneme-based speech synthesizer
US4618985A (en) * 1982-06-24 1986-10-21 Pfeiffer J David Speech synthesizer
US4520499A (en) * 1982-06-25 1985-05-28 Milton Bradley Company Combination speech synthesis and recognition apparatus
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
US4754485A (en) * 1983-12-12 1988-06-28 Digital Equipment Corporation Digital processor for use in a text to speech system
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (de) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5577160A (en) * 1992-06-24 1996-11-19 Sumitomo Electric Industries, Inc. Speech analysis apparatus for extracting glottal source parameters and formant parameters
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5706392A (en) * 1995-06-01 1998-01-06 Rutgers, The State University Of New Jersey Perceptual speech coder and method

Also Published As

Publication number Publication date
EP0909443B1 (de) 2002-11-20
US6044345A (en) 2000-03-28
DE69809525D1 (de) 2003-01-02
WO1998048408A1 (en) 1998-10-29
EP0909443A1 (de) 1999-04-21
JP2000512776A (ja) 2000-09-26

Similar Documents

Publication Publication Date Title
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE2659096C2 (de)
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE69720861T2 (de) Verfahren zur Tonsynthese
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
EP1388145A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE3019823C2 (de)
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE60120585T2 (de) Anordnung und Verfahren zur Sprachsynthese
DE602005002403T2 (de) Gerät und Programm zur Sprachverarbeitung
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
DE69809525T2 (de) Verfahren und system zum kodieren von menschlicher sprache und zum späteren abspielen
DE102012025016B3 (de) Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee