DE69612958T2

DE69612958T2 - Verfahren und vorrichtung zur resynthetisierung eines sprachsignals

Info

Publication number: DE69612958T2
Application number: DE69612958T
Authority: DE
Inventors: Haiyan He; Nicolaas Veldhuis
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1995-11-22
Filing date: 1996-11-13
Publication date: 2001-11-29
Anticipated expiration: 2016-11-14
Also published as: WO1997019444A1; DE69612958D1; US5970440A; JPH10513282A; EP0804787A1; EP0804787B1

Description

HINTERGRUND DER ERFINDUNG

Die Erfindung bezieht sich auf ein iteratives Verfahren, um in jedem von einer Reihe von iterativen Zyklen erstens ein Sprachsignal einer Kurzzeit-Fourier- Trans Formation zu unterziehen und zweitens das Sprachsignal aus einem Modul (Gleichung 2) zu resynthesisieren, das aus seiner Kurzzeit-Fourier-Transformation abgeleitet wurde, und in einem anfänglichen Zyklus zusätzlich von einer Anfangsphase, bis die Reihe zu einer Konvergenz führt. Eine erfolgreiche Iterationssequenz erzeugt ein zeitvariierendes oder konstantes Signal, dessen Transformation oder Spektrogramm quadratisch nahe am spezifizierten Spektrogramm liegt. Das Spektrogramm selbst ist eine gutes Medium für Sprachverarbeitungsoperationen. Ein derartiges Verfahren wurde von D. W. Griffin und J. S. Lim in "Signal Estimation from Modified short-time Fourier Transform", erschienen in IEEE Transactions on ASSP, 32, Nr. 2 (1984), 236-243, beschrieben. Das bekannte Verfahren nutzt eine Zufallsphase für die Resynthetisierung; man hat herausgefunden, dass die auf diese Weise generierte Kostenfunktion viele lokale Minima haben kann. Es ist daher unmöglich, eine Konvergenz auf das globale Optimum zu garantieren, und das Endergebnis hängt weitgehend von der tatsächlich genutzten Anfangsphase ab.
In der US-amerikanischen Patentschrift US-A-4885790 wird ein System beschrieben, in dem Amplituden, Phasen und Frequenzen geschätzt werden. Die Rahmenlänge kann festgelegt sein, oder, falls dies vorgezogen wird, an die Tönhöhe angepasst werden, die zum Beispiel auf das 2,5fache der durchschnittlichen Tonhöhenperiode mit einem Minimum von 20 ms eingestellt wird.

ZUSAMMENFASSUNG DER ERFINDUNG

Die Erfinder der vorliegenden Erfindung haben herausgefunden, dass sich die Qualität erheblich verbessert, wenn zumindest ein Teil der Phase auch auf systematische Weise spezifiziert wird. Eine spezielle Anwendung der Manipulation von Sprachsignalen besteht in der Veränderung der Dauer eines bestimmten Sprachintervalls. Zu den verschiedenen Anwendungen hiervon zählen das Synchronisieren von Sprache und Bild, die Anpassung der Länge einer bestimmten Spracheinheit an ein verfügbares Zeitintervall, das Erhöhen oder Vermindern der Informationsmenge pro Zeiteinheit zur Anpassung an die optimale Informationsaufnahmefähigkeit einer Person, und andere.
Infolgedessen hat die vorliegende Erfindung unter anderem zur Aufgabe, das eingangs erwähnte Iterationsverfahren zur Veränderung der Dauer einer bestimmten Spracheinheit zu nutzen. Gemäß einem dieser Aspekte ist die Erfindung dadurch gekennzeichnet, dass nach der genannten Konvertierung gemäß der Kurzzeit-Fourier- Transformation die Sprachdauer dadurch beeinflusst wird, dass die aus aufeinanderfolgenden Konvertierungen gemäß der Kurzzeit-Fourier-Transformation resultierenden Intervalle, deren Länge einer Tonhöhenperiode entspricht, während des genannten Sprachsignals systematisch beibehalten, periodisch wiederholt oder periodisch unterdrückt werden, und dass das Sprachsignal vor der Resynthetisierung entlang der Zeitachse einer phasenspezifizierenden Operation unterzogen wird. Das Verfahren ist insbesondere vorteilhaft, wenn es hauptsächlich um eine optimale Qualität geht und nicht die Kosten im Vordergrund stehen. Ein gutes Ergebnis wird erreicht, indem die Phase auf sinnvolle Weise spezifiziert wird.
Vorteilhafterweise setzen der zweite und die nachfolgenden Iterationszyklen das genannte Modul auf einen Anfangswert. Dies lässt sich auf einfache Weise implementieren, wobei ein hochwertiges Ergebnis erreicht wird.
Vorteilhafterweise ist das genannte Spezifizieren der Phase auf ein sich periodisch wiederholendes Auswahlmuster unter den zu resynthetisierenden Intervallen begrenzt. Die nicht-spezifizierten Intervalle können eine Zufallsphase erhalten. Es hat sich gezeigt, dass diese einfache Prozedur sehr gute Resultate liefert.
Vorteilhafterweise bleiben bei der genannten Spezifizierung der Phase die tatsächlich erzeugten Werte erhalten. Dies ist eine einfache Strategie zur Realisierung eines hochwertigen Ergebnisses.
Vorteilhafterweise werden in dem genannten Anfangszyklus eingefügte Perioden sowohl mit interpoliertem Modul als auch mit interpolierter Phase durchgeführt. Die Intepolation führt zu einer weiteren Verbesserung.
Die Erfindung bezieht sich auch auf ein Verfahren, in dem nach dem genannten Konvertieren gemäß der Kurzzeit-Fourier-Transformation eine Tonhöhe der Sprache dadurch gesenkt wird, dass in jedes konvertierte Intervall, das einer Tonhöhenperiode entspricht, auf gleichmäßige Weise ein Dummy-Signalintervall eingefügt wird und dass in dem genannten Dummy-Intervall Modul und Phase durch eine komplexe lineare Vorhersage gefunden werden, und dass das Sprachsignal vor der Resynthetisierung einer phasenspezifizierenden Operation unterzogen wird, oder in dem nach der genannten Konvertierung gemäß der Kurzzeit-Fourier-Transformation eine Tonhöhe der Sprache dadurch angehoben wird, dass in jedem genannten konvertierten Intervall, das einer Tonhöhenperiode entspricht, auf gleichmäßige Weise ein Dummy-Signalintervall herausgeschnitten wird und dass das Sprachsignal vor der Resynthetisierung einer phasen-spezifizierenden Operation unterzogen wird. Auf diese Weise wird die Tonhöhenperiode in dem gleichen Maße beeinflusst wie die Gesamtdauer des Sprachintervalls, und der Unterschied zu einer reinen Änderung der Dauer besteht daher jetzt darin, dass das Einfügen oder Entfernen innerhalb jedes Intervalls der Kurzzeit-Fourier-Konvertierung separat erfolgt. Die beiden Vorgehensweisen können in einer einzigen Vorgehensweise zur Änderung der Tonhöhenperiode bei konstant gehaltmer Gesamtdauer kombiniert werden. Diese Vorgehensweise unter anderem zur Modellierung von Sprachprosodie angewendet werden. In diesem Fall erfolgt die Beeinflussung der Sprachdauer entweder in einem Zwischenschritt bevor die Tonhöhe beeinflusst wird, oder in einem abschließenden Schritt nach der Tonhöhenbeeinflussung. Gemäß einer weiteren Strategie können sowohl Tonhöhe als auch Dauer für eine einzige Sprachverarbeitungsanwendung beeinflusst werden.
An sich wurde die Manipulation der Sprachdauer durch systematisches Einfügen und/oder Entfernen von Signalperioden, insbesondere von Tonhöhenperioden, in der US-amerikanischen Patentschrift 5.479.564 (PHN 13.801) und in EP 527.529, die der US- amerikanischen Patentanmeldung mit der Seriennummer 07/924.726 (PHN 13.993) entspricht beschrieben, wobei beide auf den gleichen Zessionar laufen wie die vorliegende Patentanmeldung. Bei beiden Referenzen wird unverarbeitete Sprache genutzt und beide gründen das Einfügen bzw. das Entfernen ausschließlich auf die momentanen Tonhöhenpe- Hoden der Sprache. Diese Vorgehensweise ist problematisch, wenn das Sprachsignal für längere oder kürzere Intervalle stimmlos ist, so dass die Vorstellung von der momentanen Tonhöhe eventuell verloren gehen kann.
Die Erfindung bezieht sich auch auf eine Vorrichtung zur Durchführung des Verfahrens. Weitere vorteilhafte Aspekte der Erfindung werden in den abhängigen Ansprüchen beschrieben.
Erfindungsgemäß werden Verfahren beansprucht, wie sie in den Ansprüchen 1, 6 und 7 beschrieben sind. Außerdem wird erfindungsgemäß eine Vorrichtung beansprucht, wie sie in Anspruch 9 beschrieben ist.

KURZE BESCHREIBUNG DER ERFINDUNG

Diese und andere Aspekte und Vorteile der Erfindung werden im folgenden unter Bezugnahme auf die Beschreibung der bevorzugten Ausführungsformen und insbesondere auf die beigefügten Zeichnungen ausführlich erörtert. Es zeigen:
Fig. 1 eine frühere Manipulation der Dauer;
Fig. 2 eine Vorrichtung für die Kurzeit-Fourier-Analyse;
Fig. 3 eine Vorrichtung für die Kurzzeit-Fourier-Synthese;
Fig. 4 einen Ablaufplan des Verfahrens;
Fig. 5 einen künstlichen Vokal, der als Testsignal verwendet wird;
Fig. 6 eine Rekonstruktion hiervon gemäß der früheren Technik;
Fig. 7 eine erfindungsgemäße doppelt so lange Dauer;
Fig. 8 die Originalversion des niederländischen Wortes 'toch';
Fig. 9 das gleiche mit halbierter Dauer;
Fig. 10 das gleiche mit verdoppelter Dauer;
Fig. 11 das gleiche wie Fig. 5, jedoch mit einer um 1/2 Oktave herabgesetzten Tonhöhe;
Fig. 12 das gleiche wie Fig. 11, jedoch simuliert;
Fig. 13 ein Spektrum von Fig. 11;
Fig. 14 ein Spektrum von Fig. 12;
Fig. 15 das gleiche wie Fig. 8, jedoch mit einer um 1/2 Oktave herabgesetzten Tonhöhe;
Fig. 16 das gleiche wie Fig. 8, jedoch mit einer um 1/2 Oktave angehobenen Tonhöhe.

BESPRECHUNG DER RELEVANTEN ÜBERLEGUNGEN ZUR SIGNALVERARBEITUNG

Im folgenden wird zunächst eine Reihe von relevanten Überlegungen zur Signalverarbeitung vorgestellt. Anschließend werden bevorzugte erfindungsgemäße Ausführungsformen beschrieben.

ALLGEMEINE BETRACHTUNGEN

In Fig. 1 ist eine frühere Prozedur zur Manipulation der Dauer dargestellt. Die Länge der Fenster ist im wesentlichen proportional zu einer lokalen tatsächlichen Tonhöhenperiodenlänge. Es wird ein Fenster benutzt, das glockenförmig ist, linear mit der Tonhöhe skaliert wird und selbst einer erheblichen Variation in der Zeit unterliegen kann. Nach der Fenstereinteilung und der Gewichtung des Audiosignals mit der Fensterfunktion werden die resultierenden Audiosegmente systematisch gemäß einer sich wiederholenden Prozedur wiederholt, beibehalten oder unterdrückt. Nach der Ausführung dieser Prozedur werden die Audiosegmente überlagert, um dadurch das letztendliche Ausgangssignal zu realisieren. Wie in Fig. 1 abgebildet, stellt die Spur 200 die letztlich gewünschte Audiodauer dar. Der Einfachheit halber wird davon ausgegangen, dass die Fensterlänge konstant ist (siehe die Markierungen unten in der Figur), was jedoch keine unbedingte Voraussetzung ist. Die Spur 202 ist eine erste Audiodarstellung, die um ein Segment länger ist; diese Darstellung kann zum Beispiel eine Aufnahme der Stimme einer bestimmten Person sein. Wie abgebildet, kann ein beliebiges Segment weggelassen werden, um die korrekte Endlänge zu bekommen. Spur 204 ist um fünf Segmente zu lang; die korrekte Dauer erreicht man durch wiederholtes Aufrechterhalten von sechs Segmenten und Unterdrücken des siebten Segmentes. Spur 206 ist um sechs Segmente zu kurz; die korrekte Dauer wird erreicht, indem wiederholt drei Segmente aufrechterhalten und das letzte Segment hiervon wiederholt wird. Die obige Wiederholprozedur braucht nicht vollkommen periodisch zu sein.
Fig. 2 zeigt eine Vorrichtung für die Kurzzeit-Fourier-Konvertierung. Die verschiedenen Kästchen enthalten Signalverarbeitungsoperationen und können mit normaler Verarbeitungshardware realisiert werden. Das Audio-Eingangssignal trifft bei Eingang in Form eines Stroms von Abtastwerten ein. Elemente wie 22 mit der Bezeichnung D sorgen für eine gleichmäßige Verzögerung. Elemente wie 24 mit der Bezeichnung ↓S haben eine Herabsetzung der Abtastrate des Audiosignals zur Folge. Block 26 mit der Bezeichnung Wa stellt eine Multiplikation mit einer Diagonalmatrix dar, die die Fenstereinteilung durchführt. Die Diagonalmatrixelemente werden durch (Wa)nn = wa(n) für n = 0,1... (N-1) angegeben. Die diskrete Fourier-Transformation wird in Kästchen 28 durchgeführt, wobei die Fourier-Matrix mit den Elementen Fkl = e-2πikl/N für k,l = 0, 1, ... (N - 1) implementiert wird und der hochgesetzte Index * die komplexe Konjugation bezeichnet.
Die oben abgebildete Kurzzeit-Fourier-Konvertierung empfängt ein einzelnes Signal, das viele Frequenzkomponenten jeweils mit einer zugehörigen Phase enthält. Das Ergebnis der Konvertierung ist eine Reihe von parallelen Signalströmen (deren Moduli das Spektrogramm bilden) mit jeweils einer eigenen Frequenz und zugehörigen Phase. Nun sind wahrscheinlich die Gesamtsignalströme jeweils periodisch mit der Tonhöhenperiode. Die Beeinflussung der Sprachdauer erfolgt durch Aufteilen des Ergebnisses der Kurzzeit- Fourier-Transformation in Intervalle, die jeweils eine charakteristische Länge gleich der lokalen Tonhöhenperiode haben. Diese lokale Tonhöhe kann auf eine übliche Weise detektiert werden, die nicht Teil der vorliegenden Erfindung ist. Als nächstes werden diese Intervalle wiederholt beibehalten, unterdrückt oder wiederholt. Dies erfolgt auf ähnliche Weise wie bei den letztgenannten beiden US-amerikanischen Patentanmeldungen, die sich jedoch auf das nicht-konvertierte Signal beziehen, welches glockenförmigen Fensterfunktionen unterzogen wird.
Wenn nun erfindungsgemäß ein Intervall unterdrückt wird, rücken die Ränder des verbleibenden Signals näher zusammen. Wenn ein Intervall wiederholt wird, bedeutet dies, dass ein Ein-Tonhöhenperioden-Intervall eingefügt wird. Laut des genannten Artikels von Griffin wird die frequenzabhängige Phase auf zufällige Weise spezifiziert. Im Gegensatz hierzu werden gemäß der vorliegenden Erfindung bei einer Entfernungsoperation die existierenden Werte des Modul beibehalten. Eine Einfügeoperation interpoliert das Modul des eingefügten Teils zwischen den Originalsignalen vor und nach dem eingefügten Teil auf lineare Weise. Vorteilhafterweise erfolgt die Interpolation linear zwischen Werten, die eine Tonhöhenperiode vor und eine Tonhöhenperiode nach dem Einfügepunkt liegen. Die Anfangsphasen des eingefügten Teils werden durch Interpolation zwischen komplexen Werten gefunden, die in ähnlicher Konfiguration vorliegen wie bei der Interpolation des Modul, und durch Ableiten der Phase aus dem Interpolationsergebnis.
Nach der Operation des Beibehaltens, Entfernens und Einfügens wird das Ergebnis einer inversen Operation der Kurzzeit-Fourier-Konvertierung und anschließend einer erneuten Kurzzeit-Fourier-Konvertierung unterzogen. Das Ergebnis wird wie im folgenden beschrieben modifiziert, indem das Modul auf die Werte zurückgesetzt wird, die direkt nach der ersten Kurzzeit-Fourier-Konvertierung erreicht wurden. Die erreichten Phasenwerte werden nun jedoch unverändert beibehalten. Die beschriebene Iterationsprozedur wird wiederholt, bis ein ausreichendes Maß an Konvergenz erreicht ist.
Auf ähnliche Weise kann die Tonhöhe folgendermaßen geändert werden. Wenn die Tonhöhe angehoben werden soll, wird von jeder Tonhöhenperiode nach der Kurzzeit-Fourier-Konvertierung ein gleichmäßiger Streifen unterdrückt, und zwar vorzugsweise dort, wo das Signal die geringste zeitliche Schwankung aufweist. Anschließend werden die Ränder auf beiden Seiten des unterdrückten Streifens näher zueinandergebracht. Dadurch erhält man ein momentanes Signalmodul auf die gleiche Weise wie dies bei der Beeinflussung der Dauer geschieht. Als zweiter Schritt wird die Originaldauer wiederhergestellt, indem die erforderliche Anzahl neuer Tonhöhenperioden hinzugefügt wird. Im Prinzip können die beiden Schritte in umgekehrter Reihenfolge durchgeführt werden. Auf ähnliche Weise kann die Tonhöhe angehoben werden, während gleichzeitig auch die Dauer verändert wird. Im Prinzip kann die nach dem Schneiden erreichte Dauer als Enddauer beibehalten werden. Auch hier wird bei jeder Iteration das Modul zurückgesetzt, während mit den neuesten Werten, die für die Phasenwerte erfasst wurden, fortgefahren wird.
Wenn die Tonhöhe herabgesetzt werden soll, wird jede Tonhöhenperiode zum gleichen Zeitpunkt, vorzugsweise dort, wo das Signal die geringste zeitliche Schwankung aufweist, geschnitten. Anschließend werden die beiden Seiten des Schnitts um den erforderlichen Betrag voneinander entfernt. Die Moduli und Phasen innerhalb des Streifens werden durch komplexe lineare Vorhersage oder Extrapolation am komplexen Signal reproduziert. Als zweiter Schritt wird die Originaldauer wiederhergestellt, indem die erforderliche Anzahl von Tonhöhenperioden entfernt wird. Im Prinzip können die beiden Schritte in umgekehrter Reihenfolge durchgeführt werden. Die obigen Anmerkungen in Bezug auf die Gesamtdauer gelten auch hier.
Fig. 3 zeigt eine Vorrichtung für die Kurzzeit-Fourier-Synthese. Die diskrete inverse Fourier-Transformation wird in Kästchen 28 ausgeführt, das die Fourier- Matrix mit den Elementen Fkl = e-2πikl/N k,l = 0, 1, ..., (N - 1) darstellt. Kästchen 36 mit der Bezeichnung WS stellt die Multiplikation mit einer Diagonalmatrix dar, die die Fenstereinteilung durchführt. Die Elemente der Diagonalmatrix werden angegeben durch (WS)nn = ws (N - 1 - n) für n = 0, 1 ... (N - 1). Elemente wie 38 mit der Bezeichnung ↑S führen zu einer Erhöhung der Audiosignal-Abtastrate. Elemente wie 40 mit der Bezeichnung D sorgen wieder für gleichmäßige Verzögerungen. Elemente wie 42 implementieren eine Signaaddition. Das letztendliche serielle Ausgangssignal erscheint an Ausgang 44.
In Fig. 4 ist ein Ablaufplan des erfindungsgemäßen Verfahrens dargestellt. Block 60 stellt die Einrichtung des Systems dar. In Block 62 wird das Sprachsignal empfangen. Im allgemeinen handelt es sich um ein finites Signal mit einer Länge im Bereich von Sekunden, jedoch ist dies keine ausdrückliche Einschränkung. In diesem Block wird auch die Kurzzeit-Fourier-Konvertierung durchgeführt. In Block 64 wird detektiert, ob die Strategie eine Tonhöhenvariation erfordert oder nicht. Wenn dies der Fall ist, ermittelt das System in Block 66, ob die Tonhöhe angehoben oder - im negativen Fall - herabgesetzt werden muss. Wenn die Tonhöhe angehoben werden soll, wird in Block 68 ein gleichmäßiger Streifen von jeder Tonhöhenperiode gewählt und unterdrückt. In Block 70 werden die Ränder des verbleibenden Signals zusammengebracht. Wenn die Tonhöhe gesenkt werden soll, wird in Block 84 in jeder Tonhöhenperiode ein gleichmäßiger Schnitt gewählt, und die Signalteile auf beiden Seiten dieser Schnitte werden um den entsprechenden Abstand auseinandergerückt. In Block 86 werden das Modul und die Phase in dem noch leeren Streifen durch komplexe Linearvorhersage wie oben beschrieben erzeugt. In Block 72 wird die Phase in der geänderten Länge durch Iteration ermittelt, wie oben ausführlich beschrieben, und gleichzeitig wird bei jedem Iterationszyklus das Modul zurückgesetzt.
In Block 74, der auch direkt von Block 64 aus erreicht werden kann, wird der Beeinflussungsfaktor für die Dauer geladen. Dieser wird durch die Tonhöhenvariation oder unabhängig hiervon bestimmt. Es ist zu beachten, dass die Tonhöhenvariation unabhängig von der Dauervariation sein kann. In Block 76 wird die Kurzzeit-Fourier- Konvertierung durchgeführt. In Block 78 erfolgt das systematische und wiederholende Beibehalten, Unterdrücken und Wiederholen von Tonhöhenperioden des Konvertierungsergebnisses. Modul und Phase erhält man durch Interpolation. In Block 80 werden die Iterationszyklen durch inverse Kurzzeit-Fourier-Transformation durchgeführt, gefolgt durch Vorwärts-Kurzzeit-Fourier-Transformation, und das Modul wird auf seinen Wert vom vorhergehenden Zyklus zurückgesetzt. Dies wird fortgesetzt, bis eine ausreichende Konvergenz erreicht ist. In Block 82 erfolgt eine abschließende inverse Kurzzeit-Fourier- Transformation, und das Ergebnis hiervon wird zur Auswertung oder andere Zwecke ausgegeben. Die Beeinflussung der Tonhöhe und die Beeinflussung der Dauer können in umgekehrter Reihenfolge durchgeführt werden. Wenn beide beeinflusst werden, können die beiden in Bezug auf Fig. 4 (Blöcke 72, 80) beschriebenen Iterationen kombiniert werden.

WEITERE AUSFÜHRLICHE BESCHREIBUNG

1. Das Modifizieren von Dauer und Tonhöhe von Sprachsignalen ist ein grundlegendes Mittel zur Beeinflussung der Sprachprosodie. Ein Beispiel ist die Änderung der Intonation oder Dauer von aufgezeichneten Trägersätzen in automatischen sprachbasierenden Informationssystemen.
Durch die Kurzzeit-Fourier-Transformation (STFT) erhält man eine Zeit- Frequenz-Darstellung des Sprachsignals. Gute Ergebnisse bei der Modifizierung von Dauer und Tonhöhe der Sprache sind bei recht großen Expansions- (4 : 1) und Kompressions- (3 : 1) Verhältnissen möglich. Es wird dann ein iteratives Verfahren zur Resynthetisierung eines Signals aus seiner Kurzzeit-Fourier-Größe und aus einer zufälligen Anfangsphase angewendet, um die Sprache zu resynthetisieren. Eine Erweiterung besteht darin, eine unabhängige Modifikation der Anregungs- und Spektralfrequenzskala zuzulassen.
Die vorliegende Erfindung kombiniert Eigenschaften von glockenbasierenden Methoden und Methoden auf der Basis von Kurzzeit-Fourier-Transformationen. Die Signale werden aus der Kurzzeit-Fourier-Größe und einer partiell spezifizierten Phase resynthetisiert. Ausgangspunkt sind eine Kurzzeit-Fourier-Darstellung des Signals und ein Schätzwert der Tonhöhenperiode als Funktion der Zeit. Für die Modifizierung der Dauer werden Abschnitte, die den Tonhöhenperioden in der gesprochenen Sprache entsprechen, aus dieser Darstellung entfernt oder in die Darstellung eingefügt. Die Größe eines eingefügten Teils wird anhand der Größe der Kurzzeit-Fourier-Transformation in seiner Nachbarschaft geschätzt. An der Stelle des Entfernens oder Einfügens wird eine Anfangsphase berechnet, und anschließend wird das Sprachsignal mit Hilfe des beschriebenen Verfahrens resynthetisiert. Die Tonhöhe wird ebenfalls in der Kurzzeit-Fourier-Darstellung modifiziert. Danach werden die Tonhöhenperioden gekürzt oder verlängert und es wird eine Anzahl von Tonhöhenperioden eingefügt bzw. entfernt. Dadurch bleibt der Zeitmaßstab unverändert.
Fourier-Analyse und -Synthese werden in Abschnitt 2 kurz beschrieben. Ein iteratives Verfahren für die Synthese aus Kurzzeit-Fourier-Größe wird in Abschnitt 3 erörtert. Simulationsergebnisse zeigen die Leistungsfähigkeit des Verfahrens. Ohne weitere Verfeinerung ist dieses Verfahren nicht zur Wiedergabe der ursprünglichen Signalform geeignet. Das resultierende Sprachsignal ist verständlich, hört sich aber verrauscht und rau an.
Die Erfindung verbessert die Wiedergabe erheblich, wenn die Resynthese auf eine solche Weise modifiziert wird, dass ein Teil der ursprünglichen Phase spezifiziert werden kann. Wenn die Anzahl der Frequenzpunkte groß genug ist, kann das ursprüngliche Signal nahezu perfekt reproduziert werden. Wenn die Phase für jede zweite Tonhöhenperiode nicht vollkommen zufällig ist, sondern nur zufallsmäßig um ihren ursprünglichen Wert schwanken darf, lässt sich ebenfalls eine gute Reproduktion mit kürzeren Fenstern und weniger Iterationen erreichen. Kürzere Fenster ergeben manchmal bessere Resultate. In Abschnitt 5 wird ein Verfahren zur Modifikation der Dauer beschrieben, das auf dem Entfernen oder Einfügen von Tonhöhenperioden aus der bzw. in die Kurzzeit-Fourier-Darstellung des Signals basiert. In Abschnitt 6 wird ein Verfahren zur Modifikation der Tonhöhe geschildert, das auf dem Verlängern oder Verkürzen der Tonhöhenperioden in der Kurzzeit- Fourier-Darstellung des Signals kombiniert mit Hinzufügen oder Entfernen von Tonhöhenperioden basiert.
2. Die diskrete Kurzzeit-Fourier-Tranformation {X(m,n)}m ZZ, n = 0, ..., N - 1 des Zeitsignals {x(k)}k ZZ ist definiert als:
Hier ist X(m,n) die diskrete Kurzzeit-Fourier-Transformation zum Zeitpunkt ms/fs und bei der Frequenz fsn/N; S ist die Fensterverschiebung und fs die Abtastfrequenz; {wa(k)}k ZZ ist eine reellwertige Analysefensterfunktion, ZZ ist der Satz Ganzzahlen und n ist die Frequenzvariable. Es ist leicht zu erkennen, dass man {X(m,n)}n = 0, ..., N - 1 über eine auf {wa(k)x(mS - k)}k = 0, ..., N - 1 angewendete inverse diskrete Fourier-Transformation erhält. Die Reihe { X(m,n) }m ZZ, n = 0, ..., N - 1 wird als Spektrogramm bezeichnet.
Das Zeitsignal kann aus seiner diskreten Kurzzeit-Fourier-Transformation aus Gleichung (2) resynthetisiert werden durch:
Das Analysefenster muss folgende Bedingung erfüllen:
W (mS - l) = 1, l ZZ (4)
In der Tat stellt (3) in Kombination mit (4) keinen einzigartigen Syntheseoperator dar, sondern es kann gezeigt werden, dass der mit (3) erhaltene Wert {x(k)}k ZZ
minimiert.
Dies ist wichtig, wenn {X(m,n)}m ZZ n = o, ..., N - 1 auf eine solche Weise modifiziert wird, dass es nicht mehr die diskrete Kurzzeit-Fourier-Transformation eines beliebigen Zeitsignals {x(k)}k ZZ ist.
Die Fig. 2 und 3 zeigen Implementierungen eines Systems zur diskreten Kurzzeit-Fourier-Analyse bzw. -Synthese auf der Basis von diskreten Fourier- Transformationen. Die Kästchen D sind Abtastwert-Verzögerungsoperatoren. Die Kästchen 4-5 sind Dezimatoren. Ihre Ausgangs-Abtastrate ist um Faktor S geringer als ihre Eingangs- Abtastrate. Dies wird erreicht, indem jeder S-te Abtastwert ausgegeben wird. Die Kästchen ↑S erhöhen die Abtastrate um einen Faktor S durch Hinzufügen von S - 1 Nullen nach jedem Abtastwert. Die Kästchen W sind Diagonalmatrizen, die die Fenstereinteilung durchführen. Ihre Element werden wie folgt bezeichnet:
Wnn = Wa(n), n = 0, ..., N - 1 (6)
Die diskrete Fourier-Transformation und ihr Inverses werden durch die mit F bzw. F* bezeichneten Kästchen durchgeführt. Hier ist F die Fourier-Matrix mit den Elementen
und der hochgestellte Index * bezeichnet die komplexe Konjugation.
3. Die Synthese aus der an das diskrete Kurzzeit-Fourier-Transformationspaar (2) und (3) angepassten Kurzzeit-Fourier-Größenprozedur wird wie folgt zusammengefasst. { Xd(m,n) } m ZZ, n = 0, ..., N - 1 bezeichnet das gewünschte Spektrogramm. Ziel ist es, ein solches Zeitsignal {x(k)}k ZZ mit einer diskreten Kurzzeit-Fourier-Transformation {X(m,n)} m ZZ, n = 0, ..., N - 1 zu finden, dass
X(m,n) - Xd(m,n) ² (8)
minimal ist. Der Algorithmus zum Ermitteln von {x(k)}k ZZ ist iterativ. Eine anfängliche diskrete Kurzzeit-Fourier-Transformation ist definiert durch
(0) (m, n) = Xd(m,n) eiφ(m'n), m ZZ, n = 0, ..., N - 1 (9)
wobei φ (m,n) eine Zufallsphase ist, die gleichmäßig über [-π, π] in verteilt ist. Bei jedem Iterationsschritt wird ein Schätzwert {x(i) (k)}k ZZ für das Zeitsignal {x(k)}k ZZ berechnet, und zwar anhand von
mit
(i) (m,n) = Xd (m,n) X(i-1)(m,n)/ X(i-1)(m,n) , m ZZ, n = 0, ..., N - 1 (11)
und
Der Spektrogramm-Näherungsfehler
X(i)(m,n) - Xd(m,n) ² (13)
ist eine monoton nicht-ansteigende Funktion von i. Die Iterationen werden fortgesetzt, bis die Änderungen in {X(i)(m,n)}m = ZZ, n = 0, ...,N - 1 unterhalb eines Schwellwertes liegen. Für die kontinuierliche Kurzzeit-Fourier-Transformation konvergiert dieses Verfahren. Der Beweis kann direkt auf den diskreten Fall übertragen werden.
Je nach Anfangsphase kann es jedoch vorkommen, dass der Algorithmus auf einen stationären Punkt konvergiert, der nicht das globale Minimum ist. Ausgehend vom Spektrogramm eines gegebenen Sprachsignals kann der Algorithmus auf ein Ausgangssignal konvergieren, das erheblich - sowohl im quadratischem Sinn als auch hinsichtlich der Wahrnehmung - von dem ursprünglichen Zeitsignal abweicht, obwohl das resultierende Spektrogramm nahe an das anfängliche Spektrogramm herankommen kann.
Um die Qualität des Ergebnisses zu beurteilen, wurde es mit einem Testsignal {xd(k)}k ZZ bewertet, bei dem {Xd(m,n)m ZZ, n = 0, ..., N - 1 die diskrete Kurzzeit-Fourier- Transformation ist. Wir definieren den relativen mittleren quadratischen Fehler im Spektrogramm nach i Iterationen E wie folgt:
und den relativen mittleren quadratischen Fehler im Zeitsignal nach i Iterationen E folgendermaßen:
Das benutzte Fenster war der potenzierte Kosinus, gegeben durch
Hier wird (4) erfüllt, wenn S ≤ Nw/4. Die Parameter, die variiert wurden, sind die Fensterlänge Nw, die gleich der Anzahl von Frequenzpunkten N gehalten wurde, und die Fensterverschiebungen S. Die Fensterlänge bestimmt den Kompromiss zwischen Zeit- und Frequenzauflösung im Spektrogramm. Eine größere Fensterlänge bedeutet eine höhere Frequenzauflösung und eine geringere Zeitauflösung. Sowohl N als auch S bestimmen die rechnerische Komplexität und die Anzahl der durch die Kurzzeit-Fourier-Transformation erzeugten Werte.
Sowohl E als auch E wurden für ein diskretes Zeitsignal berechnet, das einen künstlichen Vokal /a/ darstellt. Die Abtastrate fs beträgt 16 kHz. Das Signal hat eine Fundamentalfrequenz f&sub0; = 100 Hz. Dies entspricht einer Tonhöhenperiode Mp von 160 Abtastwerten. Ein Teil der Wellenform dieses Signals ist in Fig. 5 dargestellt.
Fig. 6 zeigt ein typisches Ausgangssignal nach 1000 Iterationen, das mit 1024 Abtastwerten des künstlichen /a/ erreicht wurde, wobei Nw = N = 128 und S = 1. Die periodische Struktur des Signals scheint erhalten zu bleiben, jedoch wird die Wellenform nicht gut approximiert. Zu beachten sind die 180-Grad-Phasensprünge, die das Vorzeichen von einigen der Tonhöhenperioden zu ändern scheinen. Das Signal hört sich an wie ein verrauschter Vokal /a/. Dieses Rauschen ist auch bei resynthetisierten echten Sprachäußerungen zu beobachten. Die Äußerungen sind verständlich, aber von schlechter Wahrnehmungsqualität.
4. Die Ergebnisse der Resynthese verbessern sich, wenn nur ein Teil der anfänglichen Phase zufällig ist und der andere Teil korrekt spezifiziert wird. Dieser Aspekt wird wichtig, wenn Dauer bzw. Tonhöhe modifiziert werden, wie in den Abschnitten 5 bzw. 6 beschrieben. Entfernen und Einfügen einer ganzen Tonhöhenperiode in die Kurzzeit-Fourier-Transformation des Signals sind bei diesen Modifikationen grundlegende Operationen. Am Ort einer Modifikation in der Kurzzeit-Fourier-Transformation wird die Größe von ihrer Nachbarschaft interpoliert und die Phase ist zunächst zufällig.
Die iterative Prozedur mit einer partiell zufälligen Anfangsphase läuft folgendermaßen ab. I sei der Satz von Zeitindizes, für die die Anfangsphase zufällig ist; der anfängliche Schätzwert wird dann wie folgt bezeichnet:
mit φ (m,n) wie bei (9). Der Iterationsschritt (11) wird ersetzt durch
Der gleiche künstliche Vokal /a/ aus Fig. 3 mit einer Tonhöhenperiode Mp von 160 Abtastwerten wurde benutzt, um E und E für die Synthese mit partiell spezifizierter Phase zu berechnen. Der erste Schätzwert wurde durch (17) gegeben, wobei die Phasen, die jeder zweiten Tonhöhenperiode entsprachen, zufällig waren, während die anderen von {Xd(m,n)}m ZZ, n = 0 ... N - 1 kopiert wurden. Für die Fensterverschiebungen S, die Faktoren von Mp sind, entspricht dies einem Indexsatz I:
I = {m m = 2aMpIS + b, a ZZ = 0, ..., MpIS - 1} (19)
Dieser Satz entspricht dem Fall, in dem jede zweite Tonhöhenperiode modifiziert wird. Das Fenster war das potenzierte Kosinus-Fenster von (16). Die variierten Parameter sind die Fensterlänge Nw, die gleich der Anzahl von Frequenzpunkten N gehalten wurde, und die Fensterverschiebung S.
Wenn wir das Analyse/Synthese-System als Filterbank betrachten, kann {X(m,n)}m ZZ, n = 0, ..., N - 1 geschrieben werden als
X(m,n) = hn (mS - k)χ(k), m Z, n = 0, ..., N - 1 (20)
wobei die Analysefilter gegeben werden durch
hn (k) = wa(k)e ikn2π/N, n = 0, ..., N - 1, k = 0, ..., N - 1 (21)
Allgemein lässt sich sagen, dass {X(m,n)}m Z, n = 0, ..., N - 1 redundant in der Zeitrichtung sind, wenn S < Nw = N. Aus diesem Grund sind Informationen zu der Phase in den unspezifizierten Teilen in den spezifizierten Teilen enthalten. Das resynthetisierte Signal kann geschrieben werden als
x(l) = gn (l - mS)X(M,n),l ZZ (22)
wobei die Synthese-Filter gegeben werden durch
gn(k) = wa(N - 1 - k)e -i(n-1-k)n2π/N, n = 0, ..., N - 1, k = 0, ..., N - 1 (23)
Das bedeutet, dass die Synthese-Filter die korrekten Phaseninformationen besser auf die nicht-spezifizierten Teile kopieren können, wenn Nw = N > Mp.
Die relativ große Anzahl von Frequenzpunkten N = 256 impliziert zusammen mit einer Fensterverschiebung S = 1 und einer Anzahl von Iterationen, die größer ist als 200, eine lange Berechnungsdauer. Für praktische Anwendungen, die nahezu in Echtzeit laufen müssen, stellt dies ein Problem dar. Es wird daher untersucht, ob eine gute Wahl der Anfangsphase kombiniert mit einer kleineren Anzahl von Frequenzpunkten zu akzeptablen Ergebnissen führt. Wenn das Signal periodisch ist, lässt sich über Interpolation ein guter Schätzwert für die Anfangsphase am Ort einer Modifikation erhalten.
Die Prozedur kann mit den gleichen 1024 Abtastwerten des Testsignals durchgeführt werden, jedoch mit Nw = N = 32 und S = 1. Das Fenster ist das potenzierte Kosinus-Fenster von (16). Das Verfahren entspricht dem für die Synthese mit partieller Zufallsphase verwendetem Verfahren, das weiter oben in diesem Abschnitt beschrieben wurde. Der Unterschied besteht darin, dass der anfängliche Schätzwert für die Phase jetzt die ursprüngliche Phase ist, der eine kleine Zufallskomponente hinzugefügt wurde. Das bedeutet, dass (17) jetzt ersetzt wurde durch
wobei I gegeben wird durch (19) und φ (m,n) als unabhängige Zufallsvariablen, die gleichmäßig über [-α π, α π] verteilt sind. Der Phasenfehler wird durch α berücksichtigt. Ein α gleich Null bedeutet einen anfänglichen Schätzwert für die Phase nahe am Original, während uns ein α gleich Eins zurück zu der weiter oben in diesem Abschnitt beschriebenen Situation bringt.
5. Bei früherer Modifikation der Dauer wurden Tonhöhenperioden wiederholt mit Hilfe von Basisoperationen in das Zeitsignal eingefügt oder aus diesem entfernt. Eine eingefügte Tonhöhenperiode ist normalerweise ein Kopie einer benachbarten Tonhöhenperiode. Bei dem vorliegenden Verfahren werden Tonhöhenperioden in die Kurzzeit-Fourier- Transformation eingefügt oder daraus entfernt. Dies geschieht auf eine solche Weise, dass die Größe der Kurzzeit-Fourier-Transformation überall spezifiziert ist, und es wird eine gute angenäherte Anfangsphase um die Position des Entfernens und des Einfügens gewählt. Wir haben eine partiell spezifizierte Anfangsphase, wobei die unspezifizierten Teile eine gute Näherung der ursprünglichen Phase sind. Diese Situation ähnelt derjenigen, die zu der Synthese aus Abschnitt 4 geführt hat, wobei (24) die Anfangsphase spezifiziert.
Zunächst werden das grundlegende Einfügen und Entfernen beschrieben. Es muss ein zuverlässiger Schätzwert der Tonhöhenperiode als Funktion der Zeit zur Verfügung stehen. Dieser Schätzwert wird mit {Mp(m)}m ZZ bezeichnet. Wenn eine Verwechslung unwahrscheinlich ist, benutzen wir einfach Mp für die lokale Tonhöhe. In stimmlosen Intervallen sollte ebenfalls ein Schätzwert zur Verfügung stehen. Zusätzlich ist eine Angabe bezüglich Stimmhaftigkeit/Stimmlosigkeit erforderlich. Die ursprüngliche Kurzzeit-Fourier-Transformation wird bezeichnet mit {Xorg(m,n)} m ZZ, n = 0, ..., N-1. Wir haben überall S = 1, so dass immer ein Indexsatz I gemäß (19) gefunden werden kann.
Wir möchten zuerst {X(m,n)}m ZZ, n = 0, ..., N - 1 über die Länge von Mp Abtastwerten beginnend beim Zeitindex m&sub0; entfernen. Ein anfänglicher Schätzwert ist
Wir wählen: I = {m m&sub0; - Mp < m ≤ m&sub0; + Mp}, (26)
und wiederholen die Iterationsschritte (10), (18) und (12). Der Indexsatz I bezieht sich auf die Zeitindizes von {X(i) (m,n)} i ≥ 0, m ZZ, n = 0, ...., N - 1 und { (i)(m,n)}i ≥ 0, m ZZ, n = 0, ..., N - 1. Der für I gewählte Wert ist recht willkürlich. Ein etwas größerer oder kleinerer Indexsatz ist ebenfalls ausreichend. Die Iteration ändert das Zeitsignal über das sogenannte modifizierte Intervall [m&sub0; - Mp - N/2, m&sub0; + Mp + N/2].
Um eine Tonhöhenperiode zum Zeitindex mo in stimmhafte Sprache einzufügen, ist der anfängliche Schätzwert gegeben durch
Für die Anfangsphase wählen wir
Φ(m,n) =
arg(Xorg(M - Mp, n) + Xorg(m, n)), m&sub0; ≤ m < m&sub0; + Mp, n = 0, ..., N - 1 (28)
Diese anfänglichen Schätzwerte sind gut, wenn {Xorg (m,n)} m ZZ, n = 0, ..., N - 1 in m quasiperiodisch mit einer Periode Mp ist. In stimmloser Sprache wählen wir als anfänglichen Schätzwert
mit n = 0, ..., N - 1 und
Die Anfangsphase φ (m,n) ist zufällig, wie in (9). Die linearen Interpolationen im anfänglichen Schätzwert zielen darauf ab, ein glattes Spektrogramm zu realisieren. Sowohl im Fall mit Stimme als auch im Fall ohne Stimme wird der Indexsatz I gegeben durch
I = {m m&sub0; ≤ m < m&sub0; + Mp}. (31)
Die Iterationsschritte (10), (18) und (12) werden wiederholt. Das modifizierte Intervall wird gegeben durch [m&sub0; - n/2, m&sub0; + Mp + N/2].
Weder für das Einfügen noch für das Entfernen von Tonhöhenperioden ist ein Schätzwert des Anregungsmomentes erforderlich. Um hörbare Effekte zu vermeiden, werden die Einfüge- oder Löschpunkte innerhalb einer Tonhöhenperiode dort platziert, wo die spektrale Änderung in der Zeitrichtung klein ist. Ein spektrales Änderungsmaß, das zur Ermittlung eines solchen Punktes verwendet werden kann, ist
Dtf(m) X(m,n) - X(m - 1,n) ,m Z (32)
Die Position innerhalb einer Tonhöhenperiode mit der minimalen spektralen Änderung Dtf (m) definiert durch (32) wurde als Punkt einer Löschung oder Einfügung genommen. Die Tonhöhenschätzung liefert außerdem eine Angabe bezüglich Stimmhaftigkeit bzw. Stimmlosigkeit. Die Ergebnisse können nur gut sein, wenn der Abstand zwischen zwei Einfüge- oder Löschpunkten größer ist als N. Das bedeutet, dass die Dauer- Modifikation in Schritten durchgeführt wurde, in denen sich jeweils die modifizierten Intervalle nicht überlappten.
Fig. 7 zeigt 1000 Abtastwerte des künstlichen Vokals /a/ von Fig. 5, der um einen Faktor 2 erweitert wurde. Die Erweiterung erfolgte durch Einfügen einer Tonhöhenpeniode nach jeder Original-Tonhöhenperiode. Das Fenster war ein durch Gleichung (16) beschriebener potenzierter Kosinus, wobei Nw = 32 gewählt wurde. Die Anzahl der Frequenzpunkte wurde mit N = 128 angegeben. Es wurden 5 Iterationen durchgeführt. Der Figur kann nicht entnommen werden, welche Tonhöhenperioden eingefügt wurden. Bei einem formlosen Abhören sind keine hörbaren Unterschiede zwischen dem Originalvokal und dem erweiterten Vokal wahrzunehmen.
Die Fig. 8, 9 und 10 zeigen ein Original, eine um 50% gekürzte und eine um 100% erweiterte Version des niederländischen Wortes "toch", / t χ /, ausgesprochen durch eine männliche Stimme. Die Abtastrate betrug 10 kHz anstelle von 16 kHz wie beim künstlichen Vokal. Das Fenster war ein durch Gleichung (16) beschriebener potenzierter Kosinus, wobei Nw = 64 gewählt wurde. Die Anzahl der Frequenzpunkte wurde mit N = 152 angegeben. Es wurden 30 Iterationen durchgeführt.
Die Qualität wurde nur in formlosen Hörtests beurteilt. Bei diesen Tests wurde die Zeitskala zwischen einer Reduzierung auf 20% und einer Erweiterung auf 300% der ursprünglichen Länge für verschiedene männliche und weibliche Stimmen variiert. Zwischen einer Reduzierung auf 50% und einer Erweiterung auf 200% war die Qualität gut. Außerhalb dieses Bereichs wurden einige Verschlechterungen hörbar. Vor allem bei einer Modifikation der Zeitskala um mehr als 50% in jeder Richtung führen andere Methoden zu einer gewissen Rauheit in den Vokalen und einer Verschlechterung bei stimmlosen Geräuschen und stimmhaften Reibelauten. Diese waren bei der vorliegenden Methode zur Modifikation der Dauer nicht wahrzunehmen. Die Ergebnisse scheinen in gewissem Maße von der Wahl der Anzahl von Frequenzpunkten N und der gewählten Fensterlänge Nw abzuhängen. Die Anzahl der Frequenzpunkte N = 512 kann auf 128 reduziert werden, jedoch müssen dann einige leichte Verschlechterungen bei stimmlosen Reibelauten in Kauf genommen werden. Die Leistung für weibliche Stimmen verbessert sich, wenn wir Nw = 32 statt Nw = 64 wählen. Das Verfahren ist unempfindlich gegen Störungen durch weiße; Rauschen oder störende Sprache.
6. Die Tonhöhen-Modifikation in der Kurzzeit-Fourier-Darstellung ist eine Prozedur, die sich aus zwei Schritten zusammensetzt. Ein Schritt besteht in der Kürzung oder Erweiterung der Tonhöhenperioden. Das Einfügen oder Entfernen ganzer Tonhöhenperioden wurde in Abschnitt 5 beschrieben. Wenn die Tonhöhe um einen Bruchteil herabgesetzt wird, besteht der erste Schritt darin, die Anzahl der Tonhöhenperioden um diesen Bruchteil zu reduzieren, und in einem zweiten Schritt wird die Länge jeder Tonhöhenperiode um den gleichen Bruchteil vergrößert. Wenn die Tonhöhe um einen Bruchteil erhöht wird, besteht der erste Schritt darin, die Länge jeder Tonhöhenperiode um diesen Bruchteil zu verkürzen, und in einem zweiten Schritt wird die Anzahl der Tonhöhenperioden um den gleichen Bruchteil erhöht.
Es muss ein zuverlässiger Schätzwert der Tonhöhenperiode als Funktion der Zeit {Mp(m)}m ZZ zur Verfügung stehen. Die gewünschte Tonhöhenperiode ist {M'p(m)}m ZZ. Das Verfahren zur Tonhöhen-Schätzung verfügt auch in stimmlosen Intervallen über einen Wert. Eine Angabe bezüglich Stimmhaftigkeit/Stimmlosigkeit ist ebenfalls erforderlich. Die ursprüngliche Kurzzeit-Fourier-Transformation wird mit {Xorg(m,n)}m ZZ, n = 0, ..., N - 1 bezeichnet. Wir haben überall S = 1.
Wenn die Tonhöhe erhöht wird, bezeichnen wir die Anzahl der Zeitindizes, um die die Tonhöhenperioden in {Xorg(m,n)}m ZZ, n = 0, ..., N - 1 reduziert werden, mit
Δ&supmin;p(m) = Mp(m) - M'p(m), m ZZ. (33)
Wenn die Tonhöhe herabgesetzt wird, bezeichnen wir die Anzahl der Zeitindizes, um die die Tonhöhenperiode in {Xorg(m,n)}m ZZ, n = 0 , ..., N - 1 erweitert wird, mit
Δ&spplus;p(m) = M'p(m) - Mp(m), m ZZ (34)
Das Finden der Punkte in der Kurzzeit-Fourier-Transformation, bei denen die Tonhöhenperiode reduziert oder erweitert werden kann, ist problematisch, vor allem bei stimmhafter Sprache. Bei stimmloser Sprache sind die Punkte des Einfügens oder Entfernens nicht kritisch. Beim Einfügen stellt das Finden der Werte, um die die Kurzzeit- Fourier-Transformation erweitert werden muss, ein weiteres Problem dar. Wir werden ein Quellenfiltermodell für die Sprache verwenden, um diese Probleme zu lösen. Die Sprache wird als Ausgabe eines zeitvariierenden Allpol-Filters betrachtet, der den Vokaltrakt modelliert, gefolgt durch einen Differentiator, der die Abstrahlung bei den Lippen modelliert. Dieses System wird im Fall von stimmhafter Sprache durch eine quasi-periodische Reihe von Stimmritzenimpulsen angeregt. In der offenen Phase eines Stimmritzenzyklus strömt Luft durch die Stimmritze. In der geschlossenen Phase wird das Sprachsignal ausschließlich durch die Eigenschaften des Vokaltraktes bestimmt. Dies legt nahe, dass die besten Punkte zum Entfernen oder Einfügen eines Teils aus der bzw. in die Tonhöhenperiode am Ende der geschlossenen Phase liegen, kurz bevor der nächste Stimmritzenimpuls beginnt, das Sprachsignal zu beeinflussen. Wir werden diese Punkte in der Kurzzeit-Fourier- Transformation bestimmen. Aus diesem Grunde muss die Tonhöhe in der Zeitrichtung aufgelöst werden, was bedeutet, dass die Fensterlänge Nw kürzer sein muss als eine Tonhöhenperiode. Die Tonhöhe sollte in der Frequenzrichtung ungelöst sein, da sonst das resynthetisierte Signal die alte Tonhöhe beibehält.
Wir werden annehmen, dass die Länge des Fensters kürzer ist als die geschlossene Phase des Stimmritzenzyklus. Während der geschlossenen Phase wird das Spektrogramm dann keine scharfen Übergänge enthalten. Das bedeutet, dass Dtf (m), in (32) definiert, klein sein wird. Wir werden einen Gesamtwert von Dtf (m) über ein Intervall messen, um die Punkte zum Entfernen oder Einfügen von Teilen zu ermitteln. Es ist eine sichere Vorgehensweise, die Kurzzeit-Fourier-Transformation in denjenigen Regionen zu modifizieren, in denen die Änderungen in zeitlicher Richtung klein sind.
Der einfacheren Schreibweise halber möchten wir nur eine Tonhöhenperiode beim Zeitindex m&sub0; verkürzen oder erweitern. Wenn wir eine Tonhöhenperiode verkürzen, wählen wir m&sub0; als den Wert von m, der
V (m) = Dtf (k) (35)
über eine Tonhöhenperiode minimiert. Dies impliziert, dass mo am Anfang eines Abschnitts der Kurzzeit-Fourier-Transformation mit wenig Schwankung in zeitlicher Richtung liegt. Wir benutzen als anfänglichen Schätzwert
Wir wählen
I = ZZ, (37)
und wiederholen den Iterationsschritt (10), (18) und (12). Der Indexsatz I bezieht sich auf die Zeitindizes von {X(i)(m,n)}i ≥ 0, m ZZ, n = 0, ..., N - 1 und { (i)(m,n)}i ≥ 0, m ZZ, n = 0, ..., N - 1. Wir lassen es zu, dass sich die Phase während der Iterationen überall ändert. Dies ist die einfachste Lösung, da wir hier nicht ein I wie bei (26) verwenden können. Es wird nicht zwischen stimmhafter und stimmloser Sprache unterschieden.
Wenn wir eine Tonhöhenperiode erweitern, wählen wir m&sub0; als denjenigen Wert von m, der
V (m) = Dtf (k) (38)
über eine Tonhöhenperiode minimiert. Hier ist β ein fester Schätzwert für den Bruchteil des Stimmritzenzyklus, der geschlossen ist. Wir haben β = 1/3 angenommen. Dies impliziert, dass m&sub0; am Ende eines Abschnitts der Kurzzeit-Fourier-Transformation mit wenig Schwankung in zeitlicher Richtung liegt. In diesem Fall stellt sich das zusätzliche Problem der Berechnung des anfänglichen Schätzwertes
{ (m,n)}m = m0, ...,m&sub0;+Δ-p(m&sub0;)-1,n=0,...,N-1* (39)
Wir werden zwischen stimmhafter und stimmloser Sprache unterscheiden. Idealerweise ist der Sprach-Abtastwert x(k) für stimmhafte Sprache während der Relaxation gegeben durch
x(k) = a&sub1;x(k - 1) (40)
wobei p die Ordnung des Allpol-Filters ist und {a&sub1;}&sub1; = 1, ..., p die Vorhersagekoeffizienten sind. Für reellwertige Signale haben wir a&sub1; IR, 1 = 1, ..., p. Wir werden ein ähnliches Vorhersagemodell für die Kurzzeit-Fourier-Transformation während der Relaxation annehmen:
X(m,n) =
an,lX(m - l,n), m = m&sub0; - βMp(m&sub0;) , ..., m&sub0; - 1, n = 0, ..., N - 1 (41)
mit an,l C, n = 0, ..., N - 1, 1 = 1, ..., pn, und verwenden (41), um {X(m,n)}n = 0, ..., N - 1 für m ≥ m&sub0; zu erweitern. Die Wahl pn = 4, n = 0, ..., N - 1 führt zu akzeptablen Ergebnissen. Die komplexen Vorhersagekoeffizienten werden ausgehend von
X(m,n)}m=m&sub0;- βMp(m&sub0;) , ...,m&sub0;-1,n=0,...N-1 (42)
geschätzt.
Für stimmhafte Sprache definieren wir als anfänglichen Schätzwert
In dern stimmlosen Fall wird der anfängliche Schätzwert durch (29) und (30) angegeben, wobei Mp ersetzt wird durch Δ&spplus;p (m&sub0;). Der Indexsatz I wird angegeben durch
I = {m m&sub0; ≤ m < m&sub0; + Δ&spplus;p(m&sub0;)} (44)
Die Iterationsschritte (10), (18) und (12) werden wiederholt.
Die Parameter der Methode zur Modifikation der Dauer waren die gleichen wie diejenigen aus Abschnitt 5. Die Parameter für die Methode zur Modifikation der Tonhöhe waren wie folgt. Das Fenster war ein in Gleichung (16) beschriebener potenzierter Kosinus mit Nw = 32. Die Anzahl der Frequenzpunkte wurde mit N = 128 angegeben. Es wurden 30 Iterationen durchgeführt.
Fig. 11 zeigt 1000 Abtastwerte des künstlichen Vokals /a/ von Fig. 5 mit einer Tonhöhe, die um eine halbe Oktave herabgesetzt wurde, was einem Bruchteil von 0,71 entspricht. Ein künstlicher Vokal /a/ mit niedriger Tonhöhe, der durch Zuführen einer angepassten Stimmritzenimpulsfolge durch den für die Erzeugung des künstlichen Vokals /a/ aus Fig. 5 benutzten Vokaltraktfilter erzeugt wurde, ist in Fig. 12 dargestellt. Es gibt nur sehr kleine hörbare Unterschiede zwischen den beiden Signalen.
Die spektrale Hüllkurve, die den wahrgenommenen Vokal charakterisiert, wird nicht durch die Tonhöhen-Modifikation beeinflusst. Dies ist in den Fig. 13 und 14 dargestellt, die die spektralen Schätzwerte für den ursprünglichen Vokal /a/ bzw. seine in der Tonhöhe reduzierte Version zeigen.
Die Fig. 15 und 16 zeigen Versionen des niederländischen Wortes "toch", /t χ/, mit Tonhöhen, die um eine halbe Oktave reduziert bzw. um eine halbe Oktave heraufgesetzt wurden. Die Qualität wurde durch formloses Zuhören beurteilt. Man fand, dass die Tonhöhen-Modifikationen zwischen einer Herabsetzung um eine halbe Oktave und einer Heraufsetzung um eine halbe Oktave gute Ergebnisse lieferten. Außerhalb des Bereichs kam es zu hörbaren Verschlechterungen. Die Qualität für weibliche Stimmen verbessert sich etwas, wenn wir Nw = 16 anstelle von Nw = 32 wählen.
Wir werden weniger abhängig von dem Punkt des Einfügens, der am Ende der Relaxationsperiode liegen muss, wenn wir ein Interpolationsverfahren anstelle einer Extrapolationsmethode in (43) anwenden.

Claims

1. Iteratives Verfahren, um in jedem von einer Reihe von iterativen Zyklen erstens ein Sprachsignal einer Kurzzeit-Fourier-Transformation zu unterziehen und zweitens das Sprachsignal aus einem Modul zu resynthesisieren, das aus seiner Kurzzeit- Fourier-Transformation abgeleitet wurde, und in einem anfänglichen Zyklus zusätzlich von einer Anfangsphase, bis die Reihe zu einer Konvergenz führt, wobei das Verfahren das Sprachsignal vor der Resynthetisierung entlang der Zeitachse einer phasenspezifizierenden Operation unterzieht, und wobei das Verfahren dadurch gekennzeichnet ist, dass die aus aufeinanderfolgenden Konvertierungen gemäß der Kurzzeit-Fourier-Transformation resultierenden Intervalle, deren Länge einer Tonhöhenperiode entspricht, während des genannten Sprachsignals systematisch beibehalten, periodisch wiederholt oder periodisch unterdrückt werden.

2. Verfahren nach Anspruch 1, wobei zweite und nachfolgende Iterationszyklen das genannte Modul auf einen Anfangswert zurückstellen.

3. Verfahren nach Anspruch 1 oder 2, wobei die genannte phasenspezifizierende Operation auf ein sich periodisch wiederholendes Muster unter den zu resynthetisierenden Intervallen beschränkt.

4. Verfahren nach Anspruch 1, 2 oder 3, wobei sich die genannte Spezifizierung der Phase die tatsächlich erzeugten Werte aufrechterhält.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei in dem genannten Anfangszyklus eingefügte Perioden sowohl mit interpoliertem Modul als auch mit interpolierter Phase ausgeführt werden.

6. Iteratives Verfahren, um in jedem von einer Reihe von iterativen Zyklen erstens ein Sprachsignal einer Kurzzeit-Fourier-Transformation zu unterziehen und zweitens das Sprachsignal aus einem Modul zu resynthesisieren, das aus seiner Kurzzeit- Fourier-Transformation abgeleitet wurde, und in einem anfänglichen Zyklus zusätzlich von einer Anfangsphase, bis die Reihe zu einer Konvergenz führt, wobei das Sprachsignal vor der Resynthetisierung einer phasenspezifizierenden Operation unterzogen wird, und wobei das Verfahren dadurch gekennzeichnet ist, dass nach dem genannten Konvertieren gemäß der Kurzzeit-Fourier-Transformation eine Tonhöhe der Sprache dadurch gesenkt wird, dass in jedes konvertierte Intervall, das einer Tonhöhenperiode entspricht, auf gleichmäßige Weise ein Dummy-Signalintervall eingefügt wird und dass in dem genannten Dummy- Intervall Modul und Phase durch eine komplexe lineare Vorhersage gefunden werden.

7. Iteratives Verfahren, um in jedem von einer Reihe von iterativen Zyklen erstens ein Sprachsignal einer Kurzzeit-Fourier-Transformation zu unterziehen und zweitens das Sprachsignal aus einem Modul zu resynthesisieren, das aus seiner Kurzzeit- Fourier-Transformation abgeleitet wurde, und in einem anfänglichen Zyklus zusätzlich Von einer Anfangsphase, bis die Reihe zu einer Konvergenz führt, wobei das Sprachsignal vor der Resynthetisierung einer phasenspezifizierenden Operation unterzogen wird, und wobei das Verfahren dadurch gekennzeichnet ist, dass nach dem genannten Konvertieren gemäß der Kurzzeit-Fourier-Transformation eine Tonhöhe der Sprache dadurch angehoben wird, dass in jedem genannten konvertierten Intervall, das einer Tonhöhenperiode entspricht, auf gleichmäßige Weise ein Dummy-Signalintervall herausgeschnitten wird.

8. Verfahren nach Anspruch 7 oder 8, wobei die Sprachdauer nach dem genannten Konvertieren dadurch beeinflusst wird, dass die aus aufeinanderfolgenden Konvertierungen resultierenden Intervalle während des genannten Sprachsignals systematisch beibehalten, periodisch wiederholt oder periodisch unterdrückt werden, und dass das Sprachsignal vor der Resynthetisierung einer phasen-spezifizierenden Operation unterzogen wird.

9. Vorrichtung mit zyklisch gekoppelten Konvertierungsmitteln und Rekonvertierungsmitteln, um in jeder von einer Reihe von Iterationszyklen eine Kurzzeit-Fourier- Transformation durchzuführen und um ein Sprachsignal aus dem Modul seiner Kurzzeit- Fourier-Transformation zu resynthetisieren und zusätzlich in einem Anfangszyklus von einer Anfangsphse, bis die Reihe der Iterationszyklen zu einer Konvergenz führt, dadurch gekennzeichnet, dass ein Ausgang der Kurzzeit-Fourier-Konvertierungsvorrichtung mit Auswahlmitteln verbunden ist, um anschließend die Dauer oder die Tonhöhe der Sprache dadurch zu beeinflussen, dass Tonhöhenperioden oder Teile von Tonhöhenperioden in einem Ergebnis der Konvertierung systematisch beibehalten, periodisch wiederholt oder periodisch unterdrückt werden, wobei das konvertierte Intervall einer Tonhöhenperiode entspricht; und dass ein Ausgang der Kurzzeit-Konvertierungsmittel mit einer phasenspezifizierenden Vorrichtung verbunden ist.

10. Verfahren nach einem der Ansprüche 1 bis 8, wobei die genannte Kurzzeit- Fourier-Transformation auf Zeitintervallen basiert, deren Länge im wesentlichen einer tatsächlichen Tonhöhenperiode der genannten Sprache entspricht.