DE60126575T2

DE60126575T2 - Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens

Info

Publication number: DE60126575T2
Application number: DE60126575T
Authority: DE
Inventors: Hideki Hamamatsu-shi Kenmochi; Xavier Serra; Jordi Bonada
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2000-12-28
Filing date: 2001-12-28
Publication date: 2007-05-31
Anticipated expiration: 2021-12-29
Also published as: US7016841B2; EP1220195A2; US20030009336A1; JP3985814B2; DE60126575D1; EP1220195B1; EP1220195A3; JP4067762B2; JP2002202790A; JP2005018097A

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Singstimmensynthetisiervorrichtung, welche eine Singstimme synthetisiert, ein Verfahren des Synthetisierens einer Singstimme, und ein Programm zum Realisieren des Verfahrens davon.
Beschreibung des relevanten Hintergrunds
In der Vergangenheit gab es einen großen Bereich von Versuchen, Singstimme zu synthetisieren.
Einer dieser Versuche, eine Anwendung von Sprachsynthese durch Regel, empfängt Eingaben von Tonhöhendaten, welche zu der Tonhöhe einer Note korrespondieren, und von Textdaten, und synthetisiert Sprache unter Verwendung einer Synthetisierung-durch-Regel Einrichtung zur Text-zu-Sprache Synthese. In den meisten Fällen werden ursprüngliche Wellenformdaten oder analysierte oder parametrisierte Daten in einer Datenbank in Einheiten von Phonemen oder Phonemketten, welche aus zwei oder mehr Phonemen bestehen, gespeichert. Zur Zeit der Synthese werden benötigte Sprachfragmente (Phoneme oder Phonemketten) ausgewählt, aneinandergehängt und synthetisiert. Beispiele sind unter anderem in den japanischen offengelegten Patentveröffentlichungen (Kokai) mit Nummern S62-6299, H10-124082, und H11-1184490 offenbart.
Weil jedoch das Ziel dieser Technologien ist, eine sprechende Stimme zu synthetisieren, sind sie nicht immer dazu in der Lage, eine Singstimme mit zufrieden stellender Qualität zu synthetisieren.
Beispielsweise hat eine Singstimme, welche durch ein Verfahren des Überlappens und Addierens von Wellenformen, wie durch PSOLA (Pitch-Synchronous OverLap and Add) gekennzeichnet ist, einen guten Grad von Verständlichkeit, aber hat oftmals Probleme mit unnatürlichem Klang von verlängerten Tönen, für welche die Qualität einer Singstimme am meisten variiert, und mit einem unnatürlichen Klang von synthetisierter Stimme, wenn es leichte Fluktuationen von Tonhöhe und Vibrato gibt, welche für eine Singstimme wesentlich sind.
Ferner würde der Versuch, eine Singstimme unter Verwendung einer Sprachsynthetisiereinrichtung des Wellenformen aneinanderhängenden Typs mit einer großen Sammlungsbasis eine astronomisch große Anzahl von Fragmentdaten erfordern, wenn die Originaldaten ohne jede Verarbeitung aneinander gehängt und ausgegeben werden sollen.
Andererseits wurden auch Synthesizer, deren ursprünglicher Zweck das Synthetisieren einer Singstimme ist, vorgeschlagen. Ein gut bekanntes Beispiel ist das Synthetisierverfahren der Formantsynthese (japanische offengelegte Patentveröffentlichung (Kokai) Nummer 3-200300). Obwohl jedoch dieses Verfahren einen großen Grad von Freiheit mit Bezug auf die Qualität und Fluktuationen des Vibratos und der Tonhöhe von verlängerten Klängen bietet, ist die Klarheit von synthetisierten Klängen (insbesondere Konsonanten) schlecht, und deshalb ist die Qualität nicht immer zufrieden stellend.
US-A-5029509 offenbart eine Technik, welche als spektrale Modelliersynthese (SMS = Spectral Modeling Synthesis) zum Analysieren und Synthetisieren eines musikalischen Klangs unter Verwendung eines Models bekannt ist, welches einen ursprünglichen Klang, zusammengesetzt aus zwei Komponenten, nämlich einer deterministischen Komponente und einer stochastischen Komponente, ausdrückt.
Mit SMS Analyse und Synthese ist gute Steuerung der musikalischen Charakteristika eines musikalischen Klangs möglich, und gleichzeitig, in dem Fall einer Singstimme, durch die Verwendung der stochastischen Komponente, kann ein hoher Grad von Klarheit sogar von den Konsonanten erwartet werden. Deshalb wird es erwartet, dass die Anwendung dieser Technik auf die Synthese einer Singstimme einen synthetisierten Klang erreicht, welcher einen hohen Grad von Klarheit und Musikalität hat. Tatsächlich schlägt JP-A-7325583 (japanisches Patent Nummer 2906970) oder US-A-5,536,902 bestimmte Anwendungen zur Klangsynthese basierend auf SMS Analyse und Synthetisiertechniken vor, und beschreibt gleichzeitig auch eine Methodik zum Verwenden von SMS Techniken in der Singstimmensynthese (Singsynthesizer).
Eine Anwendung der Technik, welche in der vorstehend genannten JP-A-7325583 (japanisches Patent Nummer 2906970) oder US-A-5,536,902 vorgeschlagen ist, auf eine Singstimmensynthetisiervorrichtung, wird mit Bezug auf 17 beschrieben werden.
In 17 werden Singstimmen SMS analysiert und in individuelle Sprachfragmente (Phoneme oder Phonemketten) durch einen SMS Analysierer/Segmentierer 103 segmentiert, welche gespeichert werden, um eine Phonemdatenbank 100 zu generieren. Die Datenbank 100, welche Sprachfragmentdaten (Phonemdaten 101 und Phonemkettendaten 102) für einen einzelnen Rahmen oder eine Vielzahl von Rahmenzeichenketten, angeordnet in einer Zeitserie, aufweist, speichert SMS Daten für jeden Rahmen, und zwar Veränderungen über die Zeit der spektralen Einhüllenden der deterministischen Komponente, der spektralen Einhüllenden und des Phasenspektrums der stochastischen Komponente, etc.
Wenn ein Singstimmenklang synthetisiert wird, wird eine Phonemzeichenkette, welche die gewünschten Texte enthält, erhalten, ein Phonem-zu-Fragment Konvertierer 104 bestimmt die benötigten Sprachfragmente (Phoneme oder Phonemketten), welche die Phonemzeichenketten enthalten, und dann werden SMS Daten (deterministische Komponente und stochastische Komponente) der benötigten Sprachfragmente von der vorstehend genannten Datenbank 100 ausgelesen. Als nächstes fügt ein Fragmentaneinanderfüger 105 die ausgelesenen SMS Daten der Sprachfragmente in einer Zeitserie aneinander. Für die deterministische Komponente, basierend auf Ton höheninformation korrespondierend zu einer Melodie des Lieds, generiert ein Generator 106 der deterministischen Komponente harmonische Komponenten, welche die gewünschte Tonhöhe haben, während die Form der spektralen Einhüllenden der deterministischen Komponente erhalten wird. Um zum Beispiel das japanische Wort „saita" zu synthetisieren, werden die Fragmente von „#s", „s", „s-a", „a", „a-i", „i", „i-t", „t", „t-a", „a", und „a#" aneinandergefügt, und die deterministische Komponente der gewünschten Tonhöhe wird generiert, während die Form der spektralen Einhüllenden, welche in den SMS Daten enthalten ist, welche von der Fragmentaneinanderfügung erhalten wurden, erhalten wird. Als nächstes werden die generierte deterministische Komponente und die stochastische Komponente zusammenaddiert durch ein Synthetisiermittel 107, und das Ergebnis davon wird in Zeitdomänendaten umgewandelt, um synthetisierte Sprache zu erhalten.
Somit kann durch Verwendung dieser SMS Techniken natürlich klingendes synthetisiertes Klingen mit einer guten Verständlichkeit auch für verlängerte Klänge erhalten werden.
Jedoch ist das Verfahren, welches in der vorstehend genannten JP-A-7325583 (japanisches Patent Nummer 2906970) oder US-A-5,536,902 beschrieben ist, übermäßig rudimentär und simplistisch, und die folgenden Typen von Problemen werden auftreten, wenn eine Singstimme gemäß dieses Verfahrens synthetisiert wird.

– Weil die Spektraleinhüllendenform der deterministischen Komponente eines stimmhaften Klangs sich etwas abhängig von der Tonhöhe verändert, kann die Synthese bei einer Tonhöhe unterschiedlich von der Tonhöhe, welche zu der Zeit der Analyse verwendet wird, an sich keine gute Klangfarbe erreichen.
– Wenn SMS Analyse durchgeführt wird in dem Fall eines stimmhaften Klangs, auch wenn die deterministische Komponente entfernt wird, verbleibt ein kleiner Teil der deterministischen Komponente in der verbleibenden Komponente. Deshalb verursacht die Verwendung der gleichen verbleibenden Komponente (stochastische Komponente) direkt zum Synthetisieren eines gesungenen Klangs bei einer Tonhöhe unterschiedlich von dem ursprünglichen Klang wie oben erwähnt, dass die verbleibende Komponente hörbar erkennbar oder wie Rauschen wird.
– Weil die Ergebnisse der SMS Analyse von Phonemdaten und Phonemkettendaten temporär wie sie sind überlagert werden kann die Dauer eines verlängerten Klangs und die Übergangszeit zwischen Phonemen nicht eingestellt werden. Mit anderen Worten ist es nicht möglich, bei einem gewünschten Tempo zu singen.
– Es besteht eine Neigung, dass Rauschen generiert wird, wenn die Phoneme oder Phonemketten aneinandergefügt werden.

ZUSAMMENFASSUNG DER ERFINDUNG
Es ist ein erstes Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung und ein Singstimmensynthetisierverfahren vorzusehen, welche die oben beschriebenen Probleme lösen, durch Festsetzen eines bestimmten Verfahrens zum Verwenden der SMS Techniken, welche in der vorstehend genannten JP-A-7325583 (japanisches Patent Nummer 2906970) oder US-A-5,536,902 vorgeschlagen sind, und Hinzufügen von beachtlichen Verbesserungen zum Verbessern der Qualität des synthetisierten Klangs, um dabei das Erreichen einer natürlich klingenden synthetisierten Singstimme mit einem guten Pegel von Verständlichkeit zu ermöglichen, und ein Programm zum Realisieren eines Singstimmensynthetisierverfahrens.
Es ist ein zweites Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung und ein Singstimmensynthetisierverfahren vorzusehen, welche dazu in der Lage sind, die Größe der vorstehend genannten Datenbank zu verringern und die Effizienz zu erhöhen, mit welcher die Datenbank gene riert wird, und ein Programm zum Realisieren des Singstimmensynthetisierverfahrens.
Es ist ein drittes Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung und ein Singstimmensynthetisierverfahren vorzusehen, welche dazu in der Lage sind, den Grad von Heiserkeit in einer synthetisierten Stimme einzustellen, und ein Programm zum Realisieren eines Singstimmensynthetisierverfahrens.
Um die Ziele zu erreichen sieht die vorliegende Erfindung ein Singstimmensynthetisierverfahren vor, welches folgendes aufweist: eine Phonemdatenbank, welche eine Vielzahl von Sprachfragmentdaten speichert, welche aus Sprachfragmenten gebildet sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens zwei aneinander gefügten Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente enthält, eine Eingabeeinrichtung, welche Texte eingibt, eine Ausleseeinrichtung, welche von der Phonemdatenbank die Sprachfragmentdaten korrespondierend zu den eingegebenen Texten ausliest, eine Zeitdauereinstelleinrichtung, welche die Zeitdauer der ausgelesenen Sprachfragmentdaten derart einstellt, dass sie zu einem gewünschten Tempo und einer Art und Weise des Singens passen, eine Einstelleinrichtung, welche die deterministische Komponente und die stochastische Komponente des ausgelesenen Sprachfragments derart einstellt, dass sie zu einer gewünschten Tonhöhe passen, und eine Synthetisiereinrichtung, welche einen gesungenen Klang durch sequentielles Aneinanderfügen der Sprachfragmentdaten synthetisiert, welche durch die Zeitdauereinstelleinrichtung und die Einstelleinrichtung eingestellt wurden.
Mit der obigen Anordnung gemäß der vorliegenden Erfindung kann, durch Verbesserung der SMS Techniken, eine natürlich klingende synthetisierte Singstimme mit einem guten Pegel von Verständlichkeit auch für verlängerte Klänge erhalten werden, und ferner führen sogar leichte Variationen von Vibrato und Tonhöhe nicht zu einem unnatürlich klingendem synthetisierten Klang.
Bevorzugterweise speichert die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten, welche verschiedene musikalische Ausdrücke für ein einzelnes Phonem oder eine Phonemkette haben.
Noch bevorzugter weisen die musikalischen Ausdrücke mindestens einen Parameter auf, welcher aus der Gruppe ausgewählt ist, welche aus Tonhöhe, Dynamik und Tempo besteht.
In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung speichert die Phonemdatenbank Sprachfragmentdaten, welche verlängerte Klänge aufweisen, welche jeweils durch Verlängerung eines einzigen Phonems ausgedrückt sind, Sprachfragmentdaten, welche Konsonant-zu-Vokal Phonemketten und Vokal-zu-Konsonant Phonemketten enthalten, Sprachfragmentdaten, welche Konsonant-zu-Konsonant Phonemketten enthalten, und Sprachfragmentdaten, welche Vokal-zu-Vokal Phonemketten enthalten.
In einer bevorzugten Form der vorliegenden Erfindung weist jede der Sprachfragmentdaten eine Vielzahl von Daten korrespondierend relativ zu einer Vielzahl von Rahmen einer Rahmenzeichenkette auf, welche durch Segmentieren eines Korrespondierenden der Sprachfragmente gebildet ist, und wobei die Daten der deterministischen Komponente und der Daten der stochastischen Komponente von jeder der Sprachfragmentdaten jeweils eine Serie von Frequenzdomänendaten korrespondierend jeweils zu der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente aufweist.
Ferner generiert in dieser bevorzugten Form die Zeitdauereinstelleinrichtung eine Rahmenzeichenkette einer gewünschten Zeitlänge durch Wiederholen von mindestens einem Rahmen der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente, oder durch Ausdünnen einer vorbestimmten Anzahl von Rahmen der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente.
Mit dieser Anordnung kann, weil die Länge eines verlängerten Phonems und die Länge einer Phonemkette frei eingestellt werden können, eine synthetisierte Singstimme mit einem bestimmten Tempo erhalten werden.
Noch mehr bevorzugterweise generiert die Zeitdauereinstelleinrichtung die Rahmenzeichenkette einer gewünschten Zeitlänge durch Wiederholen einer Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente, wobei die Zeitdauereinstelleinrichtung die Vielzahl von Rahmen in einer ersten Richtung wiederholt, in welcher die Rahmenzeichenkette einer gewünschten Zeitlänge generiert ist und in einer Richtung entgegengesetzt dazu.
Noch mehr bevorzugt, wenn die Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu den Daten der stochastischen Komponente von jedem der Sprachfragmente in den ersten und zweiten Richtungen wiederholt wird, kehrt die Zeitdauereinstelleinrichtung eine Phase eines Phasenspektrums der stochastischen Komponente um.
Bevorzugterweise weist die Singstimmensynthetisiervorrichtung gemäß der vorliegenden Erfindung ferner eine Fragmentpegeleinstelleinrichtung auf, welche Glättungsprozessierung oder Pegeleinstellprozessierung an der deterministischen Komponente und der stochastischen Komponente ausführt, welche in jeder der Sprachfragmentdaten enthalten sind, wenn die Sprachfragmentdaten sequentiell aneinandergefügt werden durch die Synthetisiereinrichtung.
Mit dieser Anordnung, weil ein Glättungs- oder Pegeleinstellvorgang an der Aneinanderfügungsgrenze zwischen Phonemen durchgeführt wird, wird kein Rauschen generiert, wenn die Phoneme aneinandergefügt werden.
Auch weist bevorzugterweise die Singstimmensynthetisiervorrichtung gemäß der vorliegenden Erfindung ferner eine Einrichtung zum Generieren der deterministischen Komponente auf, welche nur die Tonhöhe der deterministischen Komponente auf eine gewünschte Tonhöhe ändert, während die Form der spektralen Einhüllenden der deterministischen Komponente, erhalten wird, welche in jeden der Sprachfragmentdaten enthalten ist, wenn die Sprachfragmentdaten sequentiell aneinandergefügt werden durch die Synthetisiereinrichtung.
Bevorzugterweise speichert die Phonemdatenbank Sprachfragmentdaten, welche verlängerte Klänge aufweisen, welche jeweils durch Verlängerung eines einzelnen Phonems ausgedrückt sind, wobei die Phonemdatenbank ferner ein flaches Spektrum wie ein Amplitudenspektrum der stochastischen Komponente von jedem der Sprachfragmentdaten speichert, welche jeden der verlängerten Klänge enthalten, erhalten durch Multiplizieren des Amplitudenspektrums davon mit dem Inversen eines typischen Spektrums innerhalb eines Intervalls von dem verlängerten Klang.
In diesem Fall wird das Amplitudenspektrum der stochastischen Komponente von jeder der Sprachfragmentdaten, welche alle der verlängerten Klänge enthalten, durch Multiplizieren eines Amplitudenspektrums der stochastischen Komponente erhalten, welche basierend auf einem Amplitudenspektrum der deterministischen Komponente der Sprachfragmentdaten des verlängerten Klangs mit dem flachen Spektrum berechnet wird.
Bevorzugterweise speichert die Phonemdatenbank keine Amplitudenspektren der stochastischen Komponenten von Sprachfragmentdaten, welche bestimmte verlängerte Klänge enthalten, und das flache Spektrum, welches als ein Amplitudenspektrum von Sprachfragmentdaten gespeichert ist, welche mindestens einen anderen verlängerten Klang enthalten, wird für die Synthese der bestimmten Klänge verwendet.
Bevorzugterweise hat das Amplitudenspektrum der stochastischen Komponente, berechnet basierend auf dem Amplitudenspektrum der deterministischen Komponente einen Gewinn bzw. eine Verstärkung davon bei 0 Hz, welcher gemäß einem Parameter zum Steuern eines Grads von Heiserkeit gesteuert wird.
Mit dieser Anordnung kann der Grad von Heiserkeit einer synthetisierten Stimme einfach gesteuert werden.
Um die obigen Ziele zu erreichen sieht die vorliegende Erfindung auch ein Singstimmensynthetisierverfahren vor, welches folgende Schritte aufweist: Speichern einer Vielzahl von Sprachfragmentdaten in einer Phonemdatenbank, welche aus Sprachfragmenten gebildet sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens zwei aneinander gefügten Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente enthalten, Auslesen der Sprachfragmentdaten aus der Phonemdatenbank korrespondierend zu Texten, welche durch eine Eingabeeinrichtung eingegeben wurden, Einstellen der Zeitdauer der ausgelesenen Sprachfragmentdaten derart, dass ein gewünschtes Tempo und eine Art und Weise des Singens erreicht werden, Einstellen der deterministischen Komponente und der stochastischen Komponente des ausgelesenen Sprachfragments derart, dass eine gewünschte Tonhöhe erreicht wird, und Synthetisieren eines gesungenen Klangs durch sequentielles Aneinanderfügen der Sprachfragmentdaten, welche mit Bezug auf die Zeitdauer und die deterministische Komponente und die stochastische Komponente davon eingestellt wurden.
Um die obigen Ziele zu erreichen sieht die vorliegende Erfindung ferner ein Programm zum Verursachen, dass ein Computer das oben erwähnte Singstimmensynthetisierverfahren ausführt, vor.
Um die obigen Ziele zu erreichen sieht die vorliegende Erfindung ferner ein mechanisch lesbares Speichermedium vor, welches Anweisungen zum Ver ursachen, dass eine Maschine das oben erwähnte Singstimmensynthetisierverfahren ausführt, vor.
Gemäß der vorliegenden Erfindung kann die synthetisierte Singstimme von einer hohen Qualität sein, eine geeignete Klangfarbe für eine gewünschte Tonhöhe haben, und ist frei von Rauschen zwischen aneinander gefügten Einheiten. Ferner kann die Datenbank extrem klein in der Größe gemacht werden und kann mit einer hohen Effizienz generiert werden. Noch ferner kann der Grad von Heiserkeit einer synthetisierten Stimme einfach gesteuert werden.
Die obigen und anderen Ziele, Merkmale und Vorteile der Erfindung werden von der folgenden detaillierten Beschreibung, zusammen genommen mit den beigefügten Zeichnungen, offensichtlicher werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Diagramm, welches einen Vorgang zum Generieren einer Phonemdatenbank zeigt, welcher in einer Singstimmensynthetisiervorrichtung der vorliegenden Erfindung verwendet wird;
2A und 2B sind ein Diagramm, welches einen Vorgang zum Synthetisieren einer Singstimme zeigt, welcher durch die Singstimmensynthetisiervorrichtung der vorliegenden Erfindung durchgeführt wird;
3A und 3B sind Diagramme, welche einen Prozess zum Einstellen einer stochastischen Komponente zeigen, welche durch die Singstimmensynthetisiervorrichtung der vorliegenden Erfindung durchgeführt werden, wobei:
3A ein Beispiel eines Amplitudenspektrums einer stochastischen Komponente, welches durch SMS Analyse eines stimmhaften Klangs erhalten wurde zeigt; und
3B das Ergebnis des Durchführens eines Einstellvorgangs der stochastischen Komponente an dem Amplitudenspektrum der stochastischen Komponente von 3A zeigt;
4A bis 4C sind Diagramme, welche einen Schleifenvorgang zeigen, welcher durch die Singstimmensynthetisiervorrichtung der vorliegenden Erfindung ausgeführt wird, wobei:
4A ein Beispiel einer Wellenform einer stochastischen Komponente zeigt, welche Schleifenverarbeitung ausgesetzt wird;
4B das Ergebnis von Schleifenverarbeitung der Wellenform von 4A zeigt, wobei Rahmen in einer rückwärtigen Richtung ausgelesen werden, wobei die Phasen unverändert bleiben; und
4C das Ergebnis von Schleifenverarbeitung der Wellenform von 4A zeigt, wobei Rahmen in einer rückwärtigen Richtung ausgelesen werden, wobei die Phase umgekehrt wird;
5 ist ein Diagramm, welches die Modellierung einer spektralen Einhüllenden zeigt;
6 ist ein Diagramm, welches nützlich ist in der Erklärung einer Fehlanpassung bei einer Fragmentdatenaneinanderfügungsgrenze;
7 ist ein Diagramm, welches einen Glättungsvorgang in der Singstimmensynthetisiervorrichtung der vorliegenden Erfindung zeigt;
8A bis 8C sind Diagramme, welche einen Pegeleinstellvorgang zeigen, welcher durch die Singstimmensynthetisiervorrichtung der vorliegenden Erfindung ausgeführt wird, wobei:
8A ein Diagramm ist, welches einen Pegeleinstellvorgang für Fragment "a-i" zu der Zeit, wenn die Fragmente von „a-i" und „i-a" aneinandergefügt werden, zeigt;
8B ein Diagramm ist, welches einen Pegeleinstellvorgang für das Fragment „i-a" zeigt; und
8C ein Diagramm ist, welches ein Ergebnis des Aneinanderfügens der Pegel eingestellten Fragmente von „a-i" und „i-a" zeigt;
9A und 9B sind ein Funktions-Blockdiagramm, welches eine detaillierte Konfiguration einer Singstimmensynthetisiervorrichtung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
10 ist ein Diagramm, welches ein Beispiel der Konstruktion einer Hardwarevorrichtung zeigt, welche verwendet wird, um eine Singstimmensynthetisiervorrichtung der vorliegenden Erfindung zu betreiben;
11 ist ein Diagramm, welches ein Beispiel einer spektralen Einhüllenden der deterministischen und stochastischen Komponenten eines verlängerten Klangs zeigt;
12 ist ein Diagramm, welches einen Vorgang des Generierens einer Phonemdatenbank zeigt, welcher durch eine Singstimmensynthetisiervorrichtung gemäß einem anderen Ausführungsbeispiel der vorliegenden Erfindung ausgeführt wird;
13 ist ein Diagramm, welches ein Beispiel der Konfiguration eines Mittels zum spektralen Weißmachen zeigt;
14A und 14B sind ein Diagramm, welches ein Singstimmensynthetisierverfahren zeigt, welches durch die Singstimmensynthetisiervorrichtung gemäß eines anderen Ausführungsbeispiels der vorliegenden Erfindung ausgeführt wird;
15 ist ein Diagramm, welches nützlich ist in der Erklärung der Steuerung von Heiserkeit;
16 ist ein Diagramm, welches ein Beispiel einer Konfiguration eines Mittels zur Generierung einer spektralen Einhüllenden zeigt, welches angepasst ist, um Heiserkeit zu steuern; und
17 ist ein Diagramm, welches die Konstruktion einer Singstimmensynthetisiervorrichtung zeigt, welche das konventionelle SMS Verfahren zeigt.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFHÜRUNGSBEISPIELE
Die Singstimmensynthetisiervorrichtung der vorliegenden Erfindung hat eine Phonemdatenbank, welche aus individuellen Phonemen und Phonemketten besteht, welche erhalten wurden durch Teilen in benötigte Segmente von SMS Daten von deterministischen und stochastischen Komponenten, welche aus einer SMS Analyse von Eingabestimmen erhalten wurden. Diese Datenbank enthält auch Vorspanninformation, einschließlich Information, welche anzeigend ist für die Phoneme und Phonemketten, Information, welche anzeigend ist für die Tonhöhe und Sprachfragmente, welche aus den Phonemen und Phonemketten gebildet sind, und Information, welche anzeigend ist für musikalische Ausdrücke wie Dynamik und Tempo davon. Hier kann die Dynamikinformation entweder sensorische Information sein, welche anzeigend dafür ist, ob das Sprachfragment (Phonem oder Phonemkette) ein forte oder metzoforte Klang ist, oder physikalische Information, welche den Pegel des Fragments anzeigt.
Ferner ist ein SMS Analysemittel vorgesehen zum Zerlegen der Eingabesingstimme in deterministische und stochastische Komponenten, und Analysieren dieser, um die vorher stehend genannte Datenbank zu generieren. Auch ist ein Mittel (welches entweder automatisch oder manuell sein kann) zum Segmentieren der SMS Daten in die benötigten Phoneme oder Phonemketten (Fragmente) vorgesehen.
Ein Beispiel des Generierens der Phonemdatenbank wird mit Bezug auf 1 beschrieben werden.
In 1 bezeichnet Bezugszeichen 10 die Phonemdatenbank, in welcher SMS Daten in der Form von Sprachfragmenten (SMS Daten von einem oder mehreren Rahmen, bestimmt durch die jeweiligen Sprachfragmente), erhalten wurden, indem die Eingabesingstimmen einer SMS Analyse unterzogen wurden und die resultierenden SMS Daten in Phoneme und Phonemketten (Sprachfragmente) durch einen Segmentierer 14 segmentiert wurden, in einer Art und Weise, welche ähnlich ist zu der vorher stehend genannten Phonemdatenbank 100. In der Phonemdatenbank 10 werden die Sprachfragmentdaten in der Form von separaten Daten für jede unterschiedliche Tonhöhe gespeichert, und für jede unterschiedliche Dynamik und Tempo.
In dem Fall des Synthetisierens von Texten in japanischer Sprache bestehen die Sprachfragmente zum Beispiel aus Vokalklangdaten (einer einer Vielzahl von Rahmen), Konsonant-zu-Vokal Klangdaten (eine Vielzahl von Rahmen), Vokal-zu-Konsonant Klangdaten (eine Vielzahl von Rahmen), und Vokal-zu-Vokal Daten (eine Vielzahl von Rahmen).
Eine Sprachsynthetisiervorrichtung, welche Sprachsynthese durch Regel oder Ähnliches verwendet, speichert normalerweise Daten in ihrer Phonemdatenbank in Einheiten, welche größer sind als eine Silbe, wie VCV (Vokal-Konsonant-Vokal, vowel-consonant-vowel) oder CVC (Konsonant-Vokal-Konsonant, consonant-vowel-consonant) Einheiten. Andererseits werden in der Singstimmensynthetisiervorrichtung der vorliegenden Erfindung, welche beabsichtigt, einen Singstimmenklang zu synthetisieren, Daten von verlängertem Klang, welcher häufig im Singen wie bei der Artikulation von langen Vokalen auftritt, Konsonant-zu-Vokal (CV), Vokal-zu-Konsonant (VC) Klangdaten, Konsonant-zu-Konsonant Klangdaten und Vokal-zu-Vokal Klangdaten in der Phonemdatenbank gespeichert.
Der SMS Analysierer 13 führt eine SMS Analyse der ursprünglichen Eingabesingstimmen aus und gibt SMS analysierte Daten für jeden Rahmen aus.
Noch spezifischer wird die Eingabesprache in eine Serie von Zeitrahmen geteilt, und eine FFT oder andere Frequenzanalyse wird für jeden Rahmen ausgeführt. Von dem Ergebnis werden Frequenzspektren (komplexe Spektren), Amplitudenspektren und Phasenspektren erhalten, und ein spezifisches Frequenzspektrum, welches zu einer Spitze in dem Amplitudenspektrum korrespondiert, wird als ein Linienspektrum extrahiert. In diesem Fall ist ein Spektrum, welches die fundamentale Frequenz und Frequenzen in der Nähe ihrer ganzzahligen Vielfachen enthält, ein Linienspektrum. Das extrahierte Linienspektrum korrespondiert zu der deterministischen Komponente.
Als nächstes wird ein Restspektrum erhalten durch Subtraktion des Linienspektrums, welches wie oben beschrieben extrahiert wurde, von dem Spektrum der Eingabewellenform des Rahmens. Alternativ werden temporäre Wellenformdaten der deterministischen Komponente, welche von dem extrahierten Linienspektrum synthetisiert wurden, von den Eingabewellenformdaten des Rahmens subtrahiert, um temporäre Wellenformdaten der Restkomponente zu erhalten, und dann wird eine Frequenzanalyse der Restkomponente der temporären Wellenformdaten durchgeführt, um das Restspektrum zu erhalten. Das derart erhaltene Restspektrum korrespondiert zu der stochastischen Komponente.
Die Rahmenperiode, welche in der obigen SMS Analyse verwendet wird, kann entweder eine bestimmte feste Länge haben, oder eine variable Länge, welche sich gemäß der Tonhöhe oder anderer Parameter der Eingabestimme verändert. Wenn die Rahmenperiode eine variable Länge hat wird die Eingabestimme mit einer ersten Rahmenperiode von fester Länge verarbeitet, die Tonhöhe wird detektiert, und dann wird die Eingabestimme erneut verarbeitet mit einer Rahmenperiode einer Länge, welche zu den Ergebnissen der Tonhöhendetektion korrespondiert; alternativ kann ein Verfahren verwendet werden, in welchem die Periode des folgenden Rahmens gemäß der von dem derzeitigen Rahmen detektierten Tonhöhe variiert wird.
Die SMS analysierte Datenausgabe für jeden Rahmen von dem SMS Analysierer 13 wird in der Länge eines Sprachfragments segmentiert, welches in der Phonemdatenbank gespeichert ist, durch den Segmentierer 14. Noch spezifischer werden die SMS analysierten Daten manuell oder automatisch segmentiert, um Vokalphoneme, Vokal-Konsonant- oder Konsonant-Vokal-Phonemketten, Konsonant-Konsonant-Phonemketten, und Vokal-Vokal-Phonemketten zu extrahieren, so dass sie optimal für die Synthese von ge sungenem Klang geeignet sind. Hier werden auch lange Intervalldaten von Vokalen, welche verlängert und gesungen werden sollen (verlängerte Klänge) extrahiert, durch Segmentierung der Vokalphoneme.
Ferner detektiert der Segmentierer 14 die Tonhöhe der Eingabestimme basierend auf den vorher stehend genannten SMS Analyseergebnissen. Die Tonhöhendetektion wird durch zunächst Berechnen eines durchschnittlichen Tonhöhenwerts aus der Frequenz der Linienspektren niedriger Ordnung in der deterministischen Komponente eines Rahmens, welcher in dem Fragment enthalten ist, und dann Berechnen eines durchschnittlichen Tonhöhenwerts für alle Rahmen, durchgeführt.
In dieser Art und Weise werden Daten der deterministischen Komponente und Daten der stochastischen Komponente für jedes Fragment extrahiert und in der Phonemdatenbank 10 gespeichert, mit Vorspännen (headings), welche aus Information über die Tonhöhe der Eingabesingstimme und musikalischen Ausdrücken von Tempo, Dynamik, etc. bestehen, daran angefügt.
1 zeigt ein Beispiel der Phonemdatenbank 10, welche auf diese Art und Weise erzeugt wurde. Die Phonemdatenbank 10 besteht aus einem Phonemdatengebiet 11 für Phoneme, und einem Phonemkettendatengebiet 12 für Phonemketten. Das Phonemdatengebiet 11 enthält 4 Typen von Phonemdaten von verlängertem Vokal "a" bei vier Tonhöhenfrequenzen von 130 Hz, 150 Hz, 200 Hz und 220 Hz, und drei Typen von Phonemdaten von verlängertem Vokal „i" bei drei Tonhöhenfrequenzen 140 Hz, 180 Hz und 300 Hz. Ferner enthält das Phonemkettendatengebiet 12 zwei Typen von Phonemkettendaten von der Phonemkette „a-i", anzeigend für die Aneinanderfügung von Phonemen „a" und „i", bei zwei Tonhöhenfrequenzen von 130 Hz und 150 Hz, zwei Typen von Phonemketten „a-p" bei zwei Frequenzen von 120 Hz und 220 Hz, zwei Typen von Phonemkette „a-s" bei Frequenzen von 140 Hz und 180 Hz, und einen Typ von Phonemkette „a-z" bei einer Frequenz von 100 Hz. Hier werden für das gleiche Phonem oder die Phonemkette Daten von verschiedenen Tonhöhen gespeichert, jedoch werden die oben stehend beschriebenen Daten von verschiedenen musikalischen Ausdrücken der Eingabesingstimme, wie Dynamik und Tempo, auch als separate Daten gespeichert.
Von Daten von deterministischen und stochastischen Komponenten, welche in den Daten von jedem Fragment enthalten sind, namentlich SMS Daten von dem vorstehend erwähnten SMS Analysierer 13, welche in individuelle Fragmente durch den Segmentierer 14 segmentiert wurden, können die Daten von deterministischen Komponenten entweder durch Speichern aller spektralen Einhüllenden (Linienspektren (harmonische Serien), Stärke (Amplitude) und Phasenspektren) von jedem Rahmen, welcher in jedem Fragment enthalten ist, wie sie sind, oder durch Speichern von beliebigen Funktionen, welche die spektralen Einhüllenden ausdrücken, anstatt von spektralen Einhüllenden, gespeichert werden. Die Daten der deterministischen Komponente können auch in der Form von rücktransformierten temporären Wellenformen gespeichert sein. Ferner können die Daten der stochastischen Komponenten in der Form von Stärkenspektren (Amplitudenspektren) und Phasenspektren für jeden Rahmen des Segments korrespondierend zu jedem Fragment, oder in der Form von temporären Wellenformdaten von jedem Segment, gespeichert werden. Ferner sind die oben erwähnten Speicherformate nicht einschränkend, aber können variiert werden für jedes Fragment, oder gemäß Stimmeigenschaften (wie nasalen, frikativen (Reibelaut) oder plosiven (Verschlusslaut) Klängen) für jedes Segment. In der Beschreibung, welche folgt, werden die Daten der deterministischen Komponente in dem Format von spektralen Einhüllenden gespeichert, und die Daten der stochastischen Komponente werden in dem Format von Amplitudenspektren und Phasenspektren gespeichert. Mit diesen Typen von Speicherformat kann die benötigte Speicherkapazität verringert werden. In dieser Art und Weise speichert in der Singstimmensynthetisiervorrichtung der vorliegenden Erfindung die Phonemdatenbank 10 eine Vielzahl von Daten korrespondierend zu verschiedenen Tonhöhen, Dynamiken, Tempi und anderen musikalischen Ausdrücken für jedes der gleichen Phoneme und der gleichen Phonemkette.
Als nächstes wird der Vorgang des Synthetisierens von gesungenen Klängen unter Verwendung der Phonemdatenbank 10, welche wie oben stehend beschrieben erzeugt wurde, beschrieben werden, mit Bezug auf die 2A und 2B.
In den 2A und 2B bezeichnet Bezugszeichen 10 die Phonemdatenbank 10. Das Bezugszeichen 21 bezeichnet ein Phonem-zu-Fragment Konvertierungsmittel 21, welches eine Phonemzeichenkette korrespondierend zu den Textdaten eines Songs, für welchen ein gesungener Klang synthetisiert werden soll, in Fragmente zum Suchen der Phonemdatenbank 10 konvertiert. Wenn zum Beispiel eine Phonemzeichenkette von „s_a_i_t_a" eingegeben wird, dann wird eine Fragmentzeichenkette von „s", „s-a", „a", „a-i", „i", „i-t", „t", „t-a" und „a" ausgegeben.
Bezugszeichen 22 bezeichnet ein Einstellmittel für die deterministische Komponente, welches basierend auf Steuerungsparametern wie Tonhöhe, Dynamik und Tempo, welche in den Melodiedaten des Songs enthalten sind, die Daten der deterministischen Komponente von Fragmentdaten, welche aus der Phonemdatenbank 10 ausgelesen wurden, einstellt, und Bezugszeichen 23 bezeichnet ein Einstellmittel für die stochastische Komponente, welches die Daten der stochastischen Komponente einstellt.
Bezugszeichen 24 bezeichnet ein Zeitdauereinstellmittel, welches die Zeitdauer von Fragmentdaten variiert, welche von dem Einstellmittel 22 für die deterministische Komponente und von dem Einstellmittel 23 für die stochastische Komponente ausgegeben wurden. Das Bezugszeichen 25 bezeichnet ein Fragmentpegeleinstellmittel, welches den Pegel von allen Fragmentdaten einstellt, welche von dem Zeitdauereinstellmittel 24 ausgegeben wurden. Bezugszeichen 26 bezeichnet ein Fragmentaneinanderfügungsmittel, welches individuelle Fragmentdaten in eine Zeitserie aneinanderfügt, welche durch das Fragmentpegeleinstellmittel 25 pegeleingestellt sind. Das Bezugszeichen 27 bezeichnet ein Erzeugungsmittel der deterministischen Komponente, welches basierend auf den deterministischen Komponenten der Fragmentdaten, welche durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt wurden, deterministische Komponenten (harmonische Komponenten) generiert, welche eine gewünschte Tonhöhe haben. Bezugszeichen 28 bezeichnet ein Addiermittel, welches harmonische Komponenten synthetisiert, welche durch das Erzeugungsmittel 27 für deterministische Komponente generiert wurden, und harmonische Komponenten, welche von dem Fragmentaneinanderfügungsmittel 26 ausgegeben wurden. Sprachsynthese kann durch Umwandlung der Ausgabe von diesem Addiermittel 28 in ein Zeitdomänensignal erreicht werden.
Die Verarbeitung von jedem der oben erwähnten Blöcke wird untenstehend beschrieben werden.
Das Phonem-zu-Fragment Konvertiermittel 21 generiert eine Fragmentzeichenkette von einer Phonemzeichenkette, welche konvertiert wurde, basierend auf den eingegebenen Texten, und liest basierend darauf selektiv Sprachfragmente (Phoneme oder Phonemketten) von der Phonemdatenbank 10 aus. Wie vorstehend beschrieben wird auch für ein einziges Phonem oder eine Phonemkette eine Vielzahl von Daten (Sprachfragmentdaten) in der Datenbank korrespondierend jeweils zu der Tonhöhe, Dynamik, Tempo, etc. gespeichert. Wenn ein Fragment ausgewählt wird wird das geeignetste gemäß den verschiedenen Steuerungsparametern gespeichert.
Ferner kann es anstatt der Auswahl eines Fragments so angeordnet sein, dass mehrere Kandidaten zur Interpolation ausgewählt werden, um SMS Daten zu erhalten, welche für die Synthese verwendet werden sollen. Die ausgewählten Sprachfragmente enthalten deterministische Komponenten und stochastische Komponenten, welche Ergebnisse der SMS Analyse sind. Diese deterministischen und stochastischen Komponenten enthalten SMS Daten, nämlich die spektralen Einhüllenden (Stärke und Phase) der deterministischen Komponenten, die spektralen Einhüllenden (Stärke und Phase) der stochastischen Komponente, und Wellenformen selbst. Basierend auf diesen Inhalten werden deterministische Komponenten und stochastische Kompo nenten generiert, um zu einer gewünschten Tonhöhe und benötigten Zeitdauer zu passen. Zum Beispiel werden die Formen der spektralen Einhüllenden von deterministischen und stochastischen Komponenten durch Interpolation oder andere Mittel erhalten und können variiert werden, um zu der gewünschten Tonhöhe zu passen.
Einstellung der deterministischen Komponente
Die Einstellung der deterministischen Komponente wird durch das Einstellmittel 22 der deterministischen Komponente eingestellt.
In dem Fall eines stimmhaften Klangs enthält die deterministische Komponente Information bezüglich der Stärke und der Phase der spektralen Einhüllenden, welche die SMS Analyseergebnisse sind. In dem Fall einer Vielzahl von Fragmenten wird entweder das Fragment ausgewählt, welches am idealsten für die gewünschten Steuerungsparameter (wie Tonhöhe) geeignet sind, ausgewählt, oder eine spektrale Einhüllende, welche für die gewünschten Steuerungsparameter geeignet ist, wird durch Ausführung eines Vorgangs wie Interpolation der Vielzahl von Fragmenten erhalten. Zusätzlich kann die Form der erhaltenen spektralen Einhüllenden weiter verändert werden gemäß einem anderen Steuerungsparameter durch ein geeignetes Verfahren.
Ferner, um raue Geräusche zu verringern, oder um dem Klang eine spezielle Charakteristik zu geben, kann Bandpassfilterung angewandt werden, um Komponenten eines bestimmten Frequenzbands zu erlauben, hindurch zu treten.
Ein nicht stimmhafter Klang enthält keine deterministische Komponente.
Einstellung der stochastischen Komponente
Weil die stochastische Komponente von der SMS Analyse eines stimmhaften Klangs beeinflusst bleibt durch ihre ursprüngliche Tonhöhe, kann ein Versuch, den Klang an eine andere Tonhöhe anzupassen, zu einem unnatürlichen Klang führen. Um dies zu verhindern muss eine Verarbeitung ausgeführt werden an niederfrequenten stochastischen Komponenten, um eine Anpassung mit der gewünschten Tonhöhe zu erreichen. Diese Verarbeitung wird durch das Einstellmittel 23 für stochastische Komponente ausgeführt.
Die Verarbeitung der Einstellung der stochastischen Komponente wird mit Bezug auf die 3A und 3B beschrieben werden.
3A ist ein Beispiel eines Amplitudenspektrums einer stochastischen Komponente, welches von einer SMS Analyse eines stimmhaften Klangs erhalten wurde. Es ist schwierig, den Effekt der deterministischen Komponente vollständig zu entfernen, und wie in dieser Figur gezeigt ist gibt es einige Spitzen in der Nähe der Harmonischen. Wenn diese stochastische Komponente verwendet wird wie sie ist um einen stimmhaften Klang bei einer Tonhöhe verschieden von der ursprünglichen Tonhöhe zu synthetisieren, werden Spitzen in der Nähe der niederfrequenten Harmonischen auftauchen, welche nicht glatt zu der deterministischen Komponente passen und als ein rauher Klang hörbar sind. Um dies zu vermeiden kann die Frequenz der stochastischen Komponente derart verändert werden, dass sie zu einer Veränderung in der Tonhöhe passt. Weil jedoch hochfrequente stochastische Komponenten weniger durch die deterministische Komponente beeinflusst werden, ist es wünschenswert, das ursprüngliche Amplitudenspektrum zu verwenden wie es ist. Mit anderen Worten sollte es in dem niederfrequenten Bereich ausreichend sein, die Frequenzachse gemäß der gewünschten Tonhöhe zu komprimieren und zu expandieren. Jedoch darf die ursprüngliche Tonfarbe nicht zu dieser Zeit verändert werden. Es ist nämlich nötig, dass die allgemeine Form des Amplitudenspektrums erhalten bleibt, während diese Verarbeitung ausgeführt wird.
3B zeigt die Ergebnisse der Durchführung der obigen Verarbeitung. Wie in der Figur gezeigt ist, wurden drei Spitzen in den niederfrequenten Bereich gemäß der Tonhöhe nach rechts versetzt. Die Lücken zwischen Spitzen in dem niederfrequenten Bereich wurden schmaler gemacht, und Spitzen in dem hochfrequenten Bereich bleiben unverändert. Die Höhe von jeder Spitze wird angepasst, um die allgemeine Form des Amplitudenspektrums zu erhalten, was durch eine gebrochene Linie in der Figur angezeigt ist.
In dem Fall eines nicht stimmhaften Klangs ist die oben beschriebene Verarbeitung nicht notwendig, weil er nicht durch die ursprüngliche Tonhöhe beeinflusst wird.
Die stochastische Komponente, welche derart durch die obige Verarbeitung erhalten wurde, kann ferner zusätzliche Verarbeitung (wie Veränderung der Form der spektralen Einhüllenden) gemäß einem Steuerungsparameter ausgesetzt werden. Ferner, um raue Geräusche zu verringern, oder um dem Klang eine spezielle Charakteristik zu geben, kann Bandpassfilterung angewandt werden, um Komponenten eines bestimmten Frequenzbands zu erlauben, hindurch zu treten.
Einstellung der Zeitdauer
In der oben beschriebenen Verarbeitung werden die Fragmente mit ihrer erhaltenen ursprünglichen Länge verarbeitet, so dass Singstimmensynthese nur in fester Zeiteinteilung durchgeführt werden kann. Deshalb ist es abhängig von der gewünschten Zeiteinteilung nötig, die Dauer des Fragments wie benötigt zu verändern. Zum Beispiel in dem Fall einer Phonemkette kann die Fragmentlänge kürzer gemacht werden durch Ausdünnen von Rahmen innerhalb des Fragments, oder länger gemacht werden durch Addition von Duplikatrahmen innerhalb des Fragments. Ferner kann in dem Fall eines einzigen Phonems (der Fall eines verlängerten Klangs) der verlängerte Teil kürzer gemacht werden durch Verwendung von nur einigen der Rahmen inner halb des Fragments, oder länger gemacht werden durch Wiederholen von Rahmen innerhalb des Fragments.
Beim Wiederholen innerhalb von Rahmen innerhalb eines Fragments eines verlängerten Klangs ist es bekannt, dass Rauschen an dem Anschluss zwischen Rahmen verringert werden kann durch Wiederholen in einer Art und Weise des Fortschreitens in einer Richtung, Zurückkehren in der umgekehrten Richtung, und dann nochmals Fortschreiten in der ursprünglichen Richtung (mit anderen Worten eine Schleife innerhalb eines festen Intervalls oder eines beliebigen Intervalls durchführen), anstatt Wiederholen in einer einzigen Richtung. Jedoch in dem Fall, in welchem die stochastische Komponente in Rahmen segmentiert wurde (von entweder fester oder variabler Länge) und als Frequenzdomänedaten gespeichert wurde, gibt es ein Problem, wenn versucht wird, eine Wellenform durch Wiederholen von Frequenzdomänenrahmendaten in ihrem ursprünglichen Format zu synthetisieren. Der Grund dafür ist, dass wenn in der umgekehrten Richtung vorangegangen wird, die Wellenform in dem Rahmen auch umgekehrt werden muss mit Bezug auf die Zeit. Um eine solche Zeit umgekehrte Wellenform von Rahmendaten der ursprünglichen Frequenzdomäne zu generieren kann die Phase in der Frequenzdomäne umgekehrt und in die Zeitdomäne umgewandelt werden. 4 bis 4C zeigen diesen Zustand.
4A zeigt eine ursprüngliche Wellenform einer stochastischen Komponente. Eine stochastische Komponente für einen verlängerten Klang wird durch Wiederholen des Intervalls zwischen t1 und t2 generiert, durch zunächst Fortschreiten von t1 bis t2, Verarbeitung in der umgekehrten Zeitrichtung nach dem Erreichen von t2, und dann beim Erreichen von t1 Verarbeitung der Vorwärtszeitrichtung. Wie vorstehend erwähnt wurde die stochastische Komponente in Rahmen von entweder fester oder variabler Länge segmentiert und als Frequenzdomänendaten gespeichert. Um eine Wellenform in der Zeitdomäne zu generieren wird eine inverse FFT durchgeführt an den Frequenzdomänenrahmendaten, und eine Fensterfunktion und Überlappen werden zur Synthese der Wellenform angewandt. In dem Fall, in wel chem Synthese durch Lesen von Rahmen in der rückwärtigen Zeitrichtung durchgeführt wird, wenn die Frequenzdomänenrahmendaten umgewandelt werden wie sie sind in die Zeitdomäne, wie in 4B gezeigt ist, verbleibt die Wellenform innerhalb von jedem Rahmen temporär unverändert und nur die Rahmensequenz wird umgekehrt. Dies erzeugt Diskontinuitäten in der generierten Wellenform, welche Rauschen und Verzerrung verursachen.
Eine Lösung für dieses Problem mit der Generation einer Zeitdomänenwellenform von Rahmendaten ist, die Rahmendaten derart vorzuverarbeiten, dass eine Zeit umgekehrte Wellenform generiert werden wird.
Wenn die ursprüngliche Wellenform durch f(t) bezeichnet wird (welche aus dem Grund der Einfachheit als unendlich kontinuierlich angenommen wird) und eine Zeit umgekehrte Wellenform g(t), und jeweilige Fouriertransformierte angewandt auf diese Wellenformen F(ω) und G(ω), gilt g(t) = f(–t), und weil f(t) und g(t) beide reale Funktionen sind wird die folgende Beziehung aufgebaut:
G(ω) = f(ω)* (wobei * ein komplex Konjugiertes anzeigt).
Wenn durch Amplitude und Phase ausgedrückt, weil die Phase des komplex Konjugierten umgekehrt werden wird, wird es erkannt werden, dass alle Phasenspektren der Frequenzdomänenrahmendaten umgekehrt werden sollen, um eine Zeit umgekehrte Wellenform zu generieren. Auf diese Weise wird, wie in 4C gezeigt ist, die Wellenform auch innerhalb jedes Rahmens mit Bezug auf die Zeit umgekehrt, und Rauschen und Verzerrung werden nicht generiert.
Das Zeitdauereinstellmittel 24 führt die oben beschriebene Fragmentkompression (Ausdünnen der Rahmen), Expansion (Wiederholung von Rahmen) und Schleifung (in dem Fall von verlängerten Klängen) aus. Durch eine solche Verarbeitung kann die Dauer (oder in anderen Worten die Länge der Rahmenzeichenkette) von jedem ausgelesenen Fragment auf eine gewünschte Länge eingestellt werden.
Einstellung des Fragmentpegels
Ferner kann Rauschen hörbar sein, wenn die Ungleichheit zwischen Formen von spektralen Einhüllenden der deterministischen Komponente und der stochastischen Komponente zu groß ist an der Aneinanderfügungsgrenze, wo ein Fragment an das andere aneinandergefügt ist. Das Durchführen eines Glättungsverfahrens über eine Vielzahl von Rahmen an ihren Aneinanderfügungsgrenzen kann dieses Problem eliminieren.
Der Glättungsvorgang wird mit Bezug auf die 5 bis 7 beschrieben werden.
Weil stochastische Komponenten relativ schwer zu hören sind auch wenn es Unterschiede in der Tonfarbe und dem Pegel an der Fragmentaneinanderfügungsgrenze gibt, wird hier ein Glättungsvorgang nur für deterministische Komponenten durchgeführt. Zu dieser Zeit wird, um die Daten einfacher zu verarbeiten zu machen und um die Berechnungen zu vereinfachen, wie in 5 gezeigt ist, eine spektrale Einhüllende einer deterministischen Komponente als aus einer Gradientenkomponenten, ausgedrückt durch eine gerade Linie oder Exponentialfunktion, und einer Resonanzkomponente, ausgedrückt durch eine Exponential- oder andere Funktion, bestehend angesehen. Hier wird die Stärke der Resonanzkomponente berechnet basierend auf der Gradientenkomponente, und eine spektrale Einhüllende wird durch Addition der Gradientenkomponente und der Resonanzkomponente ausgedrückt. Mit anderen Worten wird die deterministische Komponente als eine Funktion ausgedrückt, welche die spektrale Einhüllende unter Verwendung der Gradienten- und der Resonanzkomponenten beschreibt. Hier wird der Wert der Gradientenkomponente, erweitert bis auf 0 Hz, als die Verstärkung der Gradientenkomponente bezeichnet.
Als nächstes sollen die zwei Fragmente von „a-i" und „i-a" wie in 6 gezeigt aneinandergefügt werden. Weil diese individuellen Fragmente aus se paraten Aufnahmen gesammelt wurden gibt es eine Fehlanpassung in der Tonfarbe und dem Pegel von „i" bei der Aneinanderfügungsgrenze. Wie in 6 gezeigt ist erzeugt dies eine Unebenheit in der Wellenform an der Aneinanderfügungsgrenze, und wird als Rauschen gehört werden. Jedoch kann an einer Aneinanderfügungsgrenze eine Unebenheit eliminiert werden und Rauschen verhindert werden durch Überblenden von individuellen Parametern der Gradienten- und der Resonanzkomponenten, welche in jedem Fragment enthalten sind, über mehrere Rahmen, zentriert auf und sich erstreckend vor und nach der Aneinanderfügungsgrenze.
Wie in 7 gezeigt ist wird zum Überblenden der Parameter jeder Fragmentparameter mit einer Funktion multipliziert, welche 0,5 an der Aneinanderfügungsgrenze wird, und dann werden die Parameter zusammenaddiert. Das Beispiel von 7 zeigt die sich verändernden Stärken der primären Resonanzkomponenten der „a-i" und „i-a" Fragmente (basierend auf der Gradientenkomponente) und wie die primären Komponenten überblendet werden.
Auf diese Art und Weise kann Rauschen an der Aneinanderfügungsgrenze zwischen Fragmenten vermieden werden durch Multiplizieren von jedem Parameter (jede Resonanzkomponente in diesem Fall) mit einem Überblendparameter, und dann Aufaddieren derselben.
Anstatt des Durchführens der oben beschriebenen Überblendung können die Pegel von individuellen deterministischen und stochastischen Komponenten von Fragmenten derart eingestellt sein, dass die Fragmentamplituden vor und nach der Aneinanderfügungsgrenze fast gleich gemacht werden. Die Pegeleinstellung kann durch Multiplizieren der Amplitude von jedem Fragment mit entweder einem konstanten oder einem zeitlich veränderlichen Koeffizienten durchgeführt werden.
Ein Beispiel des ,Pegeleinstellens wird nun für den Fall beschrieben, in welchem „a-i" und „i-a" aneinandergefügt und synthetisiert werden sollen, ähnlich zu dem obigen Fall.
Hier wird betrachtet werden, dass die Verstärkung der Gradientenkomponente von jedem der Fragmente passt.
Wie in 8A und 8B gezeigt ist wird zunächst die Differenz zwischen der Verstärkung der tatsächlichen Gradientenkomponente von jedem der Fragmente der „a-i" und „i-a" und einem Gewinn, welcher durch lineare Interpolation von Verstärkungswerten zwischen den ersten und letzten Rahmen (gezeigt als gestrichelte Linien in den Figuren) von jedem Fragment berechnet.
Als nächstes werden typische Sampels (der Parameter der Gradienten- und Resonanzkomponenten) von jedem der „a" und „i" Phoneme erhalten. Die „a-i" Daten der ersten und letzten Rahmen können zum Beispiel verwendet werden, um diese typischen Sampels zu erhalten.
Basierend auf diesen typischen Sampels wird zunächst eine lineare Interpolation des Werts des Parameters (zum Beispiel Verstärkung) der Gradientenkomponente durchgeführt. Als nächstes werden durch sequentielles Zusammenaddieren der Ergebnisse der Interpolation der oben berechneten Verstärkungsdifferenz, wie in 8C gezeigt ist, die Werte der Gradientenkomponentenparameter der zwei Fragmente bei der Grenze gleich sein und deshalb wird es keine Diskontinuität in der Verstärkung der Gradientenkomponente geben. Diskontinuitäten in anderen Parametern, wie der Resonanzkomponente, können auch auf eine ähnliche Art und Weise verhindert werden.
Alternativ zu dem oben beschriebenen Verfahren kann das Pegeleinstellen durchgeführt werden, zum Beispiel durch Umwandeln von deterministischen Komponentendaten in Wellenformdaten und dann Einstellen der Pegel in der Zeitdomäne.
Nachdem das Fragmentpegeleinstellmittel 25 das oben beschriebene Glätten oder Pegel Einstellen zwischen Fragmenten durchgeführt hat, fügt das Fragmentaneinanderfügungsmittel 26 die Fragmente zusammen.
Als nächstes generiert das Erzeugungsmittel für deterministische Komponente eine harmonische Serie, welche zu der gewünschten Tonhöhe korrespondiert, während die erhaltene spektrale Einhüllende der deterministischen Komponente erhalten wird, wodurch die tatsächliche deterministische Komponente erhalten wird. Durch Addieren der stochastischen Komponente zu der tatsächlichen deterministischen Komponente wird ein synthetisierter gesungener Klang erhalten, welcher dann in ein Zeitdomänensignal umgewandelt wird. Zum Beispiel in dem Fall, in welchem sowohl die deterministische Komponente wie auch die stochastische Komponente als Frequenzkomponenten gespeichert sind, werden die beiden Komponenten zusammenaddiert, und die resultierende Summe wird dann einer inversen FFT und der Anwendung von Fensterung und Überlappen ausgesetzt, wodurch eine synthetisierte Wellenform erhalten wird.
Es soll erwähnt werden, dass die deterministische Komponente und die stochastische Komponente einer inversen FFT und der Anwendung von Fensterung und Überlappen separat für jede Komponente ausgesetzt werden können, und dann können die somit verarbeiteten Komponenten zusammenaddiert werden. Ferner kann eine Sinuswelle korrespondierend zu jeder Harmonischen der deterministischen Komponente generiert werden, welche dann zu einer stochastischen Komponente addiert wird, welche durch Durchführung einer inversen FFT und Anwendung von Fensterung und Überlappen erhalten wird.
Die 9A und 9B sind ein funktionelles Blockdiagramm, welches in größerer Detailliertheit als die 2A und 2B die Konfiguration der Sing stimmensynthetisiervorrichtung gemäß der vorliegenden Erfindung zeigen. In den 9A und 9B werden die gleichen Elemente und Teile wie in den 2A und 2B durch identische Bezugszeichen bezeichnet. Ferner enthält in dem gezeigten Beispiel die Phonem (Sprachfragment) Datenbank 10 deterministische Komponenten, welche Information der spektralen Einhüllenden der Amplitude davon für jeden Rahmen enthalten, und stochastische Komponenten, welche Information der spektralen Einhüllenden der Amplitude und Information der spektralen Einhüllenden der Phase davon für jeden Rahmen enthalten.
In den 9A und 9B bezeichnet Bezugszeichen 31 ein Mittel zum Separieren von Text und Melodie, welches Textdaten und Melodiedaten aus den Musiknotendaten für einen Song, für welchen eine Singstimme synthetisiert werden soll, separiert, und 32 ein Mittel zur Text-zu-Phonetik Codekonversion, welches die Textdaten von dem Mittel 31 zum Separieren von Text und Melodie in eine Zeichenkette von phonetisch codierten Daten (Phonemen) konvertiert. Eine Phonemzeichenkette von dem Mittel 32 zur Text-zu-Phonetik Codekonversion wird in das Mittel 21 zur Phonem (phonetischer Code) -zu-Fragment Konversion eingegeben. Verschiedene Steuerungsparameter, wie Tempo, können eingegeben werden, um die Musikaufführung zu steuern. Tonhöheninformation und Dynamikinformation wie Dynamikzeichen, welche aus den Musiknotendaten durch das Mittel 31 zum Separieren von Text und Melodie separiert wurden, und die Steuerungsparameter, werden in ein Mittel 33 zur Tonhöhenbestimmung eingegeben, welches wiederum die Tonhöhe, Dynamik, und das Tempo des gesungenen Klangs bestimmt. Fragmentinformation von dem Mittel 21 zur Phonem-zu-Fragment Konversion und Information wie Tonhöhe, Dynamik, und Tempo von dem Tonhöhenbestimmungsmittel 33 werden in ein Fragmentauswahlmittel 34 eingegeben. Das Fragmentauswahlmittel 34 durchsucht die Sprachfragmentdatenbank (Phonemdatenbank) 10 und gibt die am meisten geeigneten Fragmentdaten aus. Zu dieser Zeit, wenn keine Fragmentdaten gespeichert sind, welche vollständig zu den Suchbedingungen passen, werden Daten von einem oder einer Vielzahl von ähnlichen Fragmenten ausgelesen.
Daten der deterministischen Komponente, welche in den Fragmentdaten enthalten sind, welche aus dem Fragmentauswahlmittel 34 ausgegeben werden, werden in das Mittel 22 zum Einstellen der deterministischen Komponente eingegeben. In dem Fall, in welchem eine Vielzahl von Fragmentdaten durch das Fragmentauswahlmittel 34 ausgelesen wurde, führt ein Spektraleinhüllendeninterpolierer 35 innerhalb des Mittels 22 zum Einstellen der deterministischen Komponente Interpolation derart aus, dass die Suchbedingungen erfüllt werden, und wenn notwendig ändert ein Spektraleinhüllenden-Former 36 die Form der spektralen Einhüllenden gemäß den Steuerungsparametern.
Andererseits werden Daten der stochastischen Komponente, welche in den Fragmentdaten enthalten sind, welche aus dem Fragmentauswahlmittel 34 ausgegeben werden, in das Mittel 23 zum Einstellen der stochastischen Komponente eingegeben. Das Mittel 23 zum Einstellen der stochastischen Komponente wird mit Tonhöheninformation von dem Tonhöhenbestimmungsmittel 33 beliefert, und wie mit Bezug auf 3 beschrieben wurde, komprimiert oder expandiert es die Frequenzachse für niederfrequente stochastische Komponenten gemäß einer gewünschten Tonhöhe. Nämlich teilt ein Bandpassfilter 37 das Amplitudenspektrum und das Phasenspektrum einer stochastischen Komponente in die drei Bereiche von niedriger Frequenz, mittlerer Frequenz und hoher Frequenz. Frequenzachsenkompressor-Expander 38 und 39 komprimieren oder expandieren jeweils die Frequenzachse gemäß der gewünschten Tonhöhe für die niederfrequenten und mittelfrequenten Bereiche. Signale der nieder- und mittelfrequenten Bereiche, welche aus der Frequenzachsenkompression oder -expansion resultieren, und ein Signal des hochfrequenten Bereichs basierend auf dem hohen Frequenzbereich, für welchen keine Frequenzachsenkompression oder -expansion durchgeführt wurde, werden zu einem Spitzeneinsteller 40 geliefert, wo Spitzenwerte von diesen Signalen derart eingestellt werden, dass die Form der spektralen Einhüllenden von dieser stochastischen Komponente erhalten werden.
Die Daten der deterministischen Komponente von dem Mittel 22 zum Einstellen der deterministischen Komponente und die Daten der stochastischen Komponente von dem Mittel 23 zum Einstellen der stochastischen Komponente werden in das Zeitdauereinstellmittel 24 eingegeben. Dann ändert das Zeitdauereinstellmittel 24 die Zeitlänge des Fragments gemäß einer Klangzeitlänge, welche durch die Melodieinformation und die Tempoinformation bestimmt wird. Wie vorstehend beschrieben führt in dem Fall, in welchem die Zeitdauer des Fragments kürzer gemacht werden soll, der Zeitachsen-Kompressor-Expander 43 den Vorgang des Ausdünnens von Rahmen aus und in dem Fall, in welchem die Zeitdauer länger gemacht werden soll, führt ein Wiederholungs- bzw. Schleifenabschnitt 42 die Wiederholungsverarbeitung aus, welche mit Bezug auf die 4A bis 4C beschrieben wird.
Die Fragmentdaten, deren Zeitdauer durch das Zeitdauereinstellmittel 24 eingestellt wurde, wird einem Pegeleinstellvorgang durch das Fragmentpegeleinstellmittel 25 ausgesetzt, wie bereits mit Bezug auf die 5 bis 8C beschrieben, und die deterministischen Komponenten und stochastischen Komponenten der Pegel eingestellten Fragmentdaten werden jeweils in jeweilige Zeitserien durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt.
Die deterministischen Komponenten (Spektraleinhüllendeninformation) der Fragmentdaten, welche durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt wurden, werden in das Erzeugungsmittel 27 der deterministischen Komponente eingegeben. Dieses Erzeugungsmittel 27 der deterministischen Komponente wird mit Tonhöheninformation von dem Tonhöhenbestimmungsmittel 33 beliefert, und basierend auf der Information der spektralen Einhüllenden, generiert es harmonische Komponenten korrespondierend zu der Tonhöheninformation, von welcher die tatsächliche deterministische Komponente für jeden Rahmen erhalten wird.
Als nächstes synthetisiert der Addierer 28 ein Frequenzdomänensignal für jeden Rahmen durch Kombinieren der Amplitude der stochastischen Komponente und der Information der spektralen Einhüllenden der Phase von dem Fragmentaneinanderfügungsmittel 26 mit der Information des Amplitudenspektrums der Komponente von dem Erzeugungsmittel 27 der deterministischen Komponente.
Dann wird das Frequenzdomänensignal für jeden Rahmen, welches somit synthetisiert wurde, durch ein Mittel 51 zur inversen Fouriertransformation (inverse FFT Mittel) in ein Zeitdomänenwellenformsignal umgewandelt. Als nächstes multipliziert ein Fensterungsmittel 52 das Zeitdomänenwellenformsignal mit einer Fensterungsfunktion, welche zu der Rahmenlänge korrespondiert, und ein Überlappmittel 53 synthetisiert ein Zeitwellenformsignal durch Überlappen der Zeitdomänenwellenformsignale für jeweilige Rahmen.
Dann konvertiert ein D/A Konversionsmittel 54 das derart synthetisierte Zeitwellenformsignal in ein Analogsignal, welches über einen Verstärker 55 zu einem Lautsprecher 56 ausgegeben wird, um davon abgestrahlt zu werden.
10 zeigt ein Beispiel der Konstruktion einer Hardwarevorrichtung, welche verwendet wird, um das spezifische in 9A und 9B gezeigte Beispiel zu betreiben. In dieser Figur bezeichnet Bezugszeichen 61 eine zentrale Verarbeitungseinheit (CPU = central processing unit), welche den Gesamtbetrieb der Singstimmensynthetisiervorrichtung steuert, 62 ein ROM, welches verschiedene Programme, Konstanten und andere Daten speichert, 63 ein RAM, welches ein Arbeitsgebiet und verschiedene Daten speichert, 64 einen Datenspeicher, 65 einen Zeitgeber, welcher voreingestellte Zeitgeberinterrupts oder Ähnliches generiert, 66 eine Text-Melodieeingabeeinheit, welche Musiknoten, Text und andere Daten eines aufzuführenden Songs eingibt, 67 eine Steuerungsparametereingabeeinheit, welche verschiedene Steuerungsparameter betreffend der Aufführung eingibt, 68 ein Display, welches verschiedene Arten von Information anzeigt, 69 einen B/A Konvertierer, welcher die synthetisierten Singstimmendaten in ein Analogsignal konvertiert, 70 einen Verstärker, 71 einen Lautsprecher, und 72 einen Bus, welcher all die oben stehend genannten Komponentenelemente verbindet.
Die Phonemdatenbank 10 wird in das ROM 62 oder das RAM 63 geladen. Ein gesungener Klang wird in der oben beschriebenen Art und Weise gemäß den durch die Text-Melodieeingabeeinheit 66 und der Steuerungsparametereingabeeinheit 67 eingegebenen Daten synthetisiert, und ein gesungener Klang wird aus dem Lautsprecher 71 ausgegeben.
Die Konstruktion der Hardwarevorrichtung von 10 ist identisch mit derjenigen eines normalen Vielzweckcomputers. Die oben beschriebenen funktionalen Blöcke der Singstimmensynthetisiervorrichtung der vorliegenden Erfindung können auch durch ein Anwendungsprogramm realisiert werden, welches durch einen Vielzweckcomputer ausgeführt wird.
In dem oben beschriebenen Ausführungsbeispiel sind die Fragmentdaten, welche in der Datenbank 10 gespeichert sind, SMS Daten, welche typischerweise aus einer spektralen Einhüllenden der deterministischen Komponente für jede Einheitszeit (Rahmen), und Amplitude und Phasenspektrumseinhüllenden der stochastischen Komponente für jeden Rahmen besteht. Wie oben stehend beschrieben kann durch Speichern von Fragmentdaten von verlängerten Klängen wie langen Vokalen, ein hochqualitativer gesungener Klang synthetisiert werden. Jedoch gibt es insbesondere in dem Fall von verlängerten Klängen das Problem der großen Datengrößen aufgrund der Speicherung von deterministischen und stochastischen Komponenten für jede Zeitinstanz (Rahmen) während des Intervalls des verlängerten Klangs.
In dem Fall der deterministischen Komponente ist es ausreichend, Daten für jede Frequenz zu speichern, welche ein fanzzahliges Vielfaches der fundamentalen Tonhöhe ist. Wenn zum Beispiel die fundamentale Tonhöhe 150 Hz ist und die maximale Frequenz ist 22025 Hz, müssen die Amplituden- (oder Phasen-) Daten der 150 Hz Frequenz gespeichert werden. Anderer seits wird in dem Fall von stochastischen Komponenten eine wesentlich größere Menge von Daten benötigt, das bedeutet, die Amplitudenspektrumseinhüllende und Phasenspektrumseinhüllende müssen für alle Frequenzen gespeichert sein. Wenn 1024 Punkte innerhalb eines Rahmens gesampelt werden, werden die Amplituden- und Phasendaten für 1024 Frequenzen benötigt. Insbesondere in dem Fall von verlängerten Klängen wird die Menge der Daten extrem groß, weil Daten für alle Rahmen innerhalb des Intervalls des verlängerten Klangs gespeichert werden müssen. Ferner müssen die Daten des verlängerten Klangintervalls für jedes der individuellen Phoneme vorgesehen werden, und wie oben stehend beschrieben sollen die Daten bevorzugterweise für jede von verschiedenen Tonhöhen vorgesehen werden, um die Natürlichkeit zu erhöhen, aber dies führt zu weiterer Erhöhung in der Quantität von Daten in der Datenbank.
Deshalb wird unten stehend ein anderes Ausführungsbeispiel der vorliegenden Erfindung, welches ermöglicht, die Größe der Datenbank extrem klein zu machen beschrieben. Gemäß diesem Ausführungsbeispiel wird ein Mittel hinzugefügt zum Weißmachen der spektralen Einhüllenden, wenn Daten der stochastischen Komponente von verlängerten Klängen gespeichert werden, um die Datenbank 10 zu generieren. Auch wird ein Mittel zum Generieren einer spektralen Einhüllenden der stochastischen Komponente während der Synthese eines gesungenen Klangs innerhalb des Mittels zum Einstellen der stochastischen Komponente vorgesehen. Somit kann die Datengröße verringert werden, weil es unnötig ist, individuelle spektrale Einhüllenden der stochastischen Komponenten von verlängerten Klängen zu speichern.
11 zeigt ein Beispiel von spektralen Einhüllenden der deterministischen und stochastischen Komponenten eines verlängerten Klangs. Wie in der Figur gezeigt ist ähnelt sich in dem Fall eines verlängerten Klangs die spektrale Einhüllende der stochastischen Komponente im Allgemeinen mit derjenigen der deterministischen Komponente. Nämlich sind die Orte von Spitzen und Tälern ungefähr ausgerichtet. Deshalb kann eine geeignete spektrale Einhüllende der stochastischen Komponente durch Durchführung von einer beliebi gen Bearbeitung (wie Verstärkungseinstellung, Einstellung des gesamten Gradienten, etc.) an der spektralen Einhüllenden der deterministischen Komponente erhalten werden.
Ferner hat in dem Fall eines verlängerten Klangs jede Frequenzkomponente in jedem Rahmen innerhalb eines bestimmten Intervalls, welches verarbeitet werden soll, eine leichte Fluktuation, welche wichtig ist. Der Grad dieser Fluktuation wird nicht als sich stark verändernd betrachtet, auch wenn ein Vokal sich verändert. Deshalb wird eine Amplitudenspektrumseinhüllende einer stochastischen Komponente vorab abgeflacht, durch ein Mittel (weiß machen), zum Eliminieren des Einflusses der Tonfarbe des ursprünglichen Vokals. Das Spektrum erscheint flach aufgrund des Weißmachens. Dann wird zur Zeit der Synthese eine spektrale Einhüllende der stochastischen Komponente bestimmt, basierend auf der Form der spektralen Einhüllenden der deterministischen Komponente und die bestimmte spektrale Einhüllende der deterministischen Komponente wird mit der weiß gemachten spektralen Einhüllenden multipliziert, um ein Amplitudenspektrum der stochastischen Komponente zu erhalten. Mit anderen Worten wird nur die spektrale Einhüllende der stochastischen Komponente generiert, basierend auf der spektralen Einhüllenden der deterministischen Komponente, während die Phase, welche in der ursprünglichen stochastischen Komponente des verlängerten Klangs enthalten ist, verwendet wird, wie sie ist. Auf diese Art und Weise können stochastische Komponenten von verschiedenen verlängerten Vokalklangdaten generiert werden, basierend auf weiß gemachten verlängerten Klangdaten.
12 zeigt einen Vorgang zum Generieren der Phonemdatenbank 10 gemäß diesem Ausführungsbeispiel. In der Figur werden Komponentenelemente und Teile korrespondierend zu denjenigen in 1 durch identische Bezugszeichen bezeichnet, deren Beschreibung vermieden wird. Wie in 12 gezeigt ist hat dieses Ausführungsbeispiel für verlängerte Klänge ein spektrales Weißmachmittel 80, welches das Amplitudenspektrum einer stochastischen Komponente weiß macht, welches von dem Segmentierer 14 ausgegeben wurde. Deshalb sind die einzigen gespeicherten Daten das weiß gemachte Amplitudenspektrum, als das Amplitudenspektrum einer stochastischen Komponente des verlängerten Klangs, und das Phasenspektrum, als die stochastische Komponente von allen Fragmentdaten.
13 zeigt ein Beispiel der Konfiguration des spektralen Weißmachmittels 80.
Wie vorstehend erwähnt wird das Amplitudenspektrum der stochastischen Komponente eines verlängerten Klangs durch das spektrale Weißmachmittel 80 weiß gemacht, und erscheint flach. Jedoch werden zu dieser Zeit die spektralen Einhüllenden von allen Rahmen innerhalb eines Intervalls zum Verarbeiten nicht vollständig flach gemacht, (das heißt nicht der gleiche spektrale Wert bei allen Frequenzen). Es ist wichtig, dass die kleinen zeitlichen Fluktuationen von jeder Frequenz beibehalten werden, während die Form der spektralen Einhüllenden in jedem Rahmen fast flach gemacht wird. Somit generiert wie in 13 gezeigt ist ein typischer Generator 81 der spektralen Einhüllenden der Amplitude eine typische Einhüllende des Amplitudenspektrums innerhalb eines Intervalls zum Verarbeiten, ein Generator 82 des Inversen der spektralen Einhüllenden generiert das Inverse von jeder Frequenzkomponente der spektralen Einhüllenden, und ein Filter 83 multipliziert die Ausgabe des Generators 82 des Inversen der spektralen Einhüllenden mit individuellen Frequenzkomponenten der spektralen Einhüllenden von jedem Rahmen.
Hier kann auch eine typische Einhüllende von einem Amplitudenspektrum innerhalb des Intervalls generiert werden, zum Beispiel durch Berechnen eines Durchschnittswerts des Amplitudenspektrums für jede Frequenz und Verwendung dieser Durchschnittswerte als die typische spektrale Einhüllende. Alternativ kann der Maximalwert von jeder Frequenzkomponente innerhalb des Intervalls als die typische spektrale Einhüllende verwendet werden.
Als ein Ergebnis können weiß gemachte Amplitudenspektren von dem Filter 83 erhalten werden. Ferner werden die Phasenspektren direkt als stochastische Komponenteninformation des Fragments gespeichert.
Auf diese Art und Weise wird die stochastische Komponente eines verlängerten Klangs weiß gemacht, und die spektrale Einhüllende der deterministischen Komponente wird während der Synthese verwendet, um die stochastische Komponente zu generieren. Deshalb, wenn die weiß gemachte stochastische Komponente eine stochastische Komponente ist, kann sie allgemein für alle Vokale verwendet werden. Mit anderen Worten, in dem Fall eines Vokals, ist eine einzige weiß gemachte stochastische Komponente eines verlängerten Klangs ausreichend. Natürlich kann eine Vielzahl von weiß gemachten stochastischen Komponenten vorgesehen sein.
14A und 14B zeigen einen Synthesevorgang, welcher in dem Fall ausgeführt wird, in welchem die weiß gemachten Amplitudenspektren der stochastischen Komponenten der verlängerten Klänge in der oben beschriebenen Art und Weise gespeichert sind. In der Figur sind Komponentenelemente und Teile korrespondierend zu denjenigen in 2A und 2B durch identische Bezugszeichen bezeichnet, deren Beschreibung vermieden wird. Wie in der Figur gezeigt ist, ist ein Mittel 90 zum Generieren der spektralen Einhüllenden, zu welchem stochastische Komponenten (weiß gemachte Amplitudenspektren) von Fragmenten eingegeben werden, welche von der Datenbank 10 ausgelesen wurden, auf der stromaufwärts liegenden Seite des Einstellmittels 23 der stochastischen Komponente hinzugefügt.
Wenn die weiß gemachte stochastische Komponente eines verlängerten Klangs aus der Phonemdatenbank 10 ausgelesen wird, berechnet das Erzeugungsmittel 90 der spektralen Einhüllenden die spektrale Einhüllende der Amplitude der stochastischen Komponente basierend auf der spektralen Einhüllenden der deterministischen Komponente, wie oben stehend beschrieben. Zum Beispiel wird ein Verfahren betrachtet, in welchem unter der Annahme, dass die Komponente bei der maximalen Frequenz sich nicht verän dert, die spektrale Einhüllende der Amplitude der stochastischen Komponente durch Veränderung von nur des Gradienten der spektralen Einhüllenden bestimmt wird.
Dann wird die bestimmte spektrale Einhüllende der Amplitude zusammen mit dem Phasenspektrum der stochastischen Komponente, welches zur gleichen Zeit gelesen wurde, in das Einstellmittel 23 der stochastischen Komponente eingegeben. Die nachfolgende Verarbeitung ist die Gleiche, wie in den 2A und 2B gezeigt wurde.
Wie oben stehend beschrieben können, wenn die Amplitudenspektren von stochastischen Komponenten von verlängerten Klängen weiß gemacht und gespeichert werden sollen, die weiß gemachten Amplitudenspektren von stochastischen Komponenten von einigen der verlängerten Klängen gespeichert werden, während die Amplitudenspektren von stochastischen Komponenten der anderen verlängerten Klänge nicht gespeichert werden.
In diesem Fall, wenn einer der anderen verlängerten Klänge synthetisiert werden soll, werden die Amplitudenspektren der stochastischen Komponenten dieses verlängerten Klangs nicht in die Fragmentdaten des verlängerten Klangs eingefügt. Deshalb wird ein Phonem, welches so stark wie möglich dem Phonem, welches synthetisiert werden soll, ähnelt, aus der Datenbank extrahiert. Unter Verwendung der stochastischen Komponente des verlängerten Klangs können Amplitudenspektren der stochastischen Komponenten in der oben beschriebenen Art und Weise generiert werden.
Ferner können Phoneme, von welchen verlängerte Klänge generiert werden können, in eine oder mehrere Gruppen aufgeteilt werden, und unter Verwendung von verlängerten Klangdaten, welche zu der Gruppe gehören, welche mit den zu synthetisierenden Phonemen angehörig sind, Amplitudenspektren der stochastischen Komponenten in der oben beschriebenen Art und Weise generiert werden.
Wenn ferner die Amplitudenspektren der stochastischen Komponenten, welche von den weiß gemachten Amplitudenspektren und den Amplitudenspektren der deterministischen Komponenten erhalten wurden, verwendet werden, werden alle oder ein Teil der Frequenzachsen der Phasenspektren der stochastischen Komponente derart versetzt, dass Daten, welche anzeigend für Harmonische und der Umgebungen korrespondierend zu der Tonhöhe der ursprünglichen Daten sind, anzeigend für harmonische und deren Umgebungen korrespondierend zu der gewünschten Tonhöhe, bei welcher der Klang wiedergegeben werden soll. Mit anderen Worten kann ein natürlicherer synthetisierter Klang durch Verwendung der Phasendaten, welche anzeigend für Harmonische und deren Umgebungen sind, wie sie sind, während der Synthese, erhalten werden.
Gemäß diesem Ausführungsbeispiel muss die Datenbank keine stochastische Komponente des verlängerten Klangs für jeden Vokal speichern, und deshalb kann die Menge von Daten verringert werden. Ferner kann, in dem Fall, in welchem die spektrale Einhüllende der stochastischen Komponente durch Veränderung von nur dem Gradienten der spektralen Einhüllenden bestimmt wird, der „Grad von Heiserkeit" der synthetisierten Stimme durch Korrelation der Veränderung in dem Gradienten mit der Heiserkeit gesteuert werden.
Insbesondere wird die synthetisierte Stimme heiser sein, wenn sie viele stochastische Komponenten enthält, und wird glatt sein, wenn sie wenige stochastische Komponenten enthält. Deshalb, wenn der Gradient steil ist (die Verstärkung bei 0 Hz ist groß) wird die Stimme heiser sein, und wenn der Gradient klein ist (die Verstärkung bei 0 Hz ist klein) wird die Stimme glatt sein. Deshalb, wie in 15 gezeigt ist, wird der Gradient der spektralen Einhüllenden der stochastischen Komponente gesteuert gemäß einem Parameter, welcher den Grad von Heiserkeit ausdrückt, um dadurch die Heiserkeit der synthetisierten Stimme zu steuern.
16 zeigt ein Beispiel des Erzeugungsmittels 90 der spektralen Einhüllenden, welches angepasst ist, um den Grad von Heiserkeit zu steuern. Ein Generator 91 der spektralen Einhüllenden multipliziert die spektrale Einhüllende der deterministischen Komponente mit einem Gradientenwert, welcher zu der Heiserkeitsinformation korrespondiert, welche als ein Steuerungsparameter geliefert wird. Ein Filter 92 addiert Charakteristika, welche somit erhalten werden, zu dem weiß gemachten Amplitudenspektrum der stochastischen Komponente. Dann werden die spektrale Einhüllende der Phase der stochastischen Komponente und die Ausgabe von dem Filter 92 als stochastische Komponentendaten in das Einstellmittel 23 der stochastischen Komponente eingegeben.
Es ist auch möglich, die spektrale Einhüllende der deterministischen Komponente in einer geeigneten Art und Weise zu modellieren und einen Parameter des Models mit dem Grad von Heiserkeit zu korrelieren. Zum Beispiel kann die spektrale Einhüllende der stochastischen Komponente auch durch Korrelation des Grads von Heiserkeit und irgendeinem der Parameter (ein Parameter betreffend des Gradienten), welcher in der Formulierung der spektralen Einhüllenden der deterministischen Komponente verwendet wurde, durch Veränderung des Parameters berechnet werden.
Ferner kann der Grad von Heiserkeit konstant sein oder über die Zeit verändert werden. In dem Fall von Zeit veränderlicher Heiserkeit kann ein interessanter Effekt erhalten werden, in welchem eine Sprache kontinuierlich heiserer wird während der Verlängerung eines Phonems.
Ferner ist es für den alleinigen Zweck der Steuerung des Grads von Heiserkeit unnötig, das weiß gemachte Amplitudenspektrum einer stochastischen Komponente in der Phonemdatenbank 10 wie oben stehend beschrieben zu speichern. Wie in dem ersten oben stehend beschriebenen Ausführungsbeispiel wird das Amplitudenspektrum der stochastischen Komponente eines verlängerten Klangs gespeichert wie es ist, ähnlich wie für andere Fragmente. Während der Synthese wird ein flaches Spektrum durch Erhalten eines typischen Amplitudenspektrums innerhalb des verlängerten Klangintervalls, und Multiplikation des Inversen davon mit dem Amplitudenspektrum der stochastischen Komponente, generiert. Dann wird basierend auf dem Amplitudenspektrum der deterministischen Komponente das Amplitudenspektrum der stochastischen Komponente gemäß dem Parameter, welcher den Grad von Heiserkeit steuert, berechnet. Das flache Spektrum wird dann mit dem berechneten Amplitudenspektrum der stochastischen Komponente multipliziert, um das Amplitudenspektrum der stochastischen Komponente zu erhalten.

Claims

Eine Singstimmensynthetisiervorrichtung, welche Folgendes aufweist: Eine Phonemdatenbank, welche eine Vielzahl von Sprachfragmentdaten speichert, welche aus Sprachfragmenten ausgebildet sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens 2 verbundenen Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente aufweist; eine Eingabeeinrichtung, welche Texte eingibt; eine Ausleseeinrichtung, welche von der Phonemdatenbank die Sprachfragmentdaten korrespondierend zu den eingegebenen Texten ausliest; eine Zeitdauereinstelleinrichtung, welche die Zeitdauer der ausgelesenen Sprachfragmentdaten derart einstellt, dass sie zu einem gewünschten Tempo und einer Art und Weise des Singens passen; eine Einstelleinrichtung, welche die deterministische Komponente und die stochastische Komponente des ausgelesenen Sprachfragments derart einstellt, dass sie zu einer gewünschten Tonhöhe passen; und eine Synthetisiereinrichtung, welche einen gesungenen Klang durch sequentielles Aneinanderfügen der Sprachfragmentdaten, welche durch die Zeitdauereinstelleinrichtung und die Einstelleinrichtung eingestellt wurden, synthetisiert, wobei die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten speichert, welche verschiedene Musikausdrücke für ein einziges Phonem oder eine Phonemkette haben.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 1, wobei die musikalischen Ausdrücke mindestens einen Parameter aufweisen, welcher aus der Gruppe ausgewählt ist, welche aus Tonhöhe, Dynamik und Tempo besteht.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 1, wobei die Phonemdatenbank Sprachfragmentdaten speichert, welche verlängerte Klänge aufweisen, welche jeweils durch Verlängerung eines einzelnen Phonems ausgesprochen werden, Sprachfragmentdaten, welche Konsonant-zu-Vokal Phonemketten enthalten, und Vokal-zu-Konsonant Phonemketten, Sprachfragmentdaten, welche Konsonant-zu-Konsonant Phonemketten enthalten, und Sprachfragmentdaten, welche Vokal-zu-Vokal Phonemketten enthalten.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 1, wobei jede der Sprachfragmentdaten eine Vielzahl von Daten aufweist, welche jeweils zu einer Vielzahl von Rahmen einer Rahmenzeichenkette korrespondieren, welche durch Segmentierung eines korrespondierenden der Sprachfragmente ausgebildet ist, und wobei die Daten der deterministischen Komponente und der Daten der stochastischen Komponente von allen der Sprachfragmentdaten jeweils einer Serie von Frequenzdomänendaten korrespondierend jeweils zu der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente aufweist.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 4, wobei die Zeitdauereinstelleinrichtung eine Rahmenzeichenkette einer gewünschten Zeitlänge durch Wiederholen von mindestens einem Rahmen der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente, oder durch Ausdünnen einer vorbestimmten Anzahl von Rahmen der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente generiert.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 5, wobei die Zeitdauereinstelleinrichtung die Rahmenzeichenkette einer gewünschten Zeitlänge durch Wiederholen einer Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu jedem der Sprachfrag mente generiert, wobei die Zeitdauereinstelleinrichtung die Vielzahl von Rahmen in einer ersten Richtung, in welcher die Rahmenzeichenkette einer gewünschten Zeitlänge generiert wird und in einer zweiten Richtung entgegengesetzt dazu generiert.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 6, wobei, wenn die Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend zu den Daten der stochastischen Komponente von jedem der Sprachfragmente in den ersten und zweiten Richtungen wiederholt wird, die Zeitdauereinstelleinrichtung eine Phase eines Phasenspektrums der stochastischen Komponente umkehrt.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 1, welche ferner eine Fragmentpegeleinstelleinrichtung aufweist, welche Glättungsprozessierung oder Pegeleinstellprozessierung an der deterministischen Komponente und der stochastischen Komponente, welche in jeder der Sprachfragmentdaten enthalten sind, ausführt, wenn die Sprachfragmentdaten sequentiell durch die Synthetisiereinrichtung aneinander gefügt werden.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 4, welche ferner eine Erzeugungseinrichtung für eine deterministische Komponente aufweist, welche nur die Tonhöhe der deterministischen Komponente auf eine gewünschte Tonhöhe einstellt, während die Form der spektralen Einhüllenden der deterministischen Komponente, welche in jeder der Sprachfragmentdaten enthalten ist, beibehält, wenn die Sprachfragmentdaten sequentiell durch die Synthetisiereinrichtung aneinandergefügt werden.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 4, wobei die Phonemdatenbank Sprachfragmentdaten speichert, welche verlängerte Klänge aufweisen, welche jeweils durch Verlängern eines einzigen Phonems ausgesprochen werden, wobei die Phonemdaten bank ferner ein flaches Spektrum als ein Amplitudenspektrum der stochastischen Komponente von jeder der Sprachfragmentdaten speichert, welche jeden der verlängerten Klänge enthalten, erhalten durch Multiplizieren des Amplitudenspektrums davon mit einem Inversen des typischen Spektrums innerhalb eines Intervalls des verlängerten Klangs.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 10, wobei das Amplitudenspektrum der stochastischen Komponente von jeder der Sprachfragmentdaten, welche jeden der verlängerten Klänge aufweisen, durch Multiplizieren eines Amplitudenspektrums der stochastischen Komponente erhalten wird, kalkuliert basierend auf einem Amplitudenspektrum der deterministischen Komponente der Sprachfragmentdaten des verlängerten Klangs, durch das flache Spektrum.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 11, wobei die Phonemdatenbank keine Amplitudenspektren von stochastischen Komponenten von Sprachfragmentdaten speichert, welche bestimmte verlängerte Klänge enthalten, und das flache Spektrum, welches als ein Amplitudenspektrum von Sprachfragmentdaten gespeichert ist, welche mindestens einen anderen verlängerten Klang aufweisen, wird für die Synthese der bestimmten Klänge verwendet.
Eine Singstimmensynthetisiervorrichtung gemäß Anspruch 11, wobei das Amplitudenspektrum der stochastischen Komponente, welches basierend auf dem Amplitudenspektrum der deterministischen Komponente berechnet ist, einen Gewinn bzw. eine Verstärkung davon bei 0 Hz hat, welcher gemäß einem Parameter zum Steuern eine Grads von Heiserkeit gesteuert ist.
Ein Singstimmensynthetisierverfahren, welches folgende Schritte aufweist: Speichern in einer Phonemdatenbank eine Vielzahl von Sprachfragmentdaten, welche aus Sprachfragmenten zusammengesetzt sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens zwei zusammengefügten Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente aufweist; Auslesen von der Phonemdatenbank der Sprachfragmentdaten korrespondierend zu Texten, welche durch eine Eingabeeinrichtung eingegeben wurden; das Anpassen von Zeitdauer der ausgelesenen Sprachfragmentdaten derart, dass ein gewünschtes Tempo und eine Art und Weise des Singens erreicht wird; Einstellen der deterministischen Komponente und der stochastischen Komponente des ausgelesenen Sprachfragments derart, dass eine gewünschte Tonhöhe erreicht wird; und Synthetisieren eines gesungenen Klangs durch sequentielles Zusammenfügen der Sprachfragmentdaten, welche in Bezug auf die Zeitdauer und die deterministische Komponente und die stochastische Komponente davon eingestellt wurden, wobei die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten speichert, welche verschiedene musikalische Ausdrücke für ein einziges Phonem oder eine Phonemkette haben.
Ein Programm zum Verursachen, dass ein Computer ein Singstimmensynthetisierverfahren ausführt, welches folgende Schritte aufweist: Speichern in einer Phonemdatenbank einer Vielzahl von Sprachfragmentdaten, welche aus Sprachfragmenten ausgebildet sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens zwei zusammengefügten Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente aufweist; Auslesen aus der Phonemdatenbank der Sprachfragmentdaten korrespondierend zu Texten, welche durch eine Eingabeeinrichtung eingegeben wurden; Einstellen der Zeitdauer der ausgelesenen Sprachfragmentdaten derart, dass ein gewünschtes Tempo und eine Art und Weise des Singens eingestellt wird; Einstellen der deterministischen Komponente und der stochastischen Komponente des ausgelesenen Sprachfragments derart, dass eine gewünschte Tonhöhe erreicht wird; und Synthetisieren eines gesungenen Klangs durch sequentielles Aneinanderfügen der Sprachfragmentdaten, welche mit Bezug auf die Zeitdauer und die deterministische Komponente und die stochastische Komponente davon eingestellt wurden, wobei die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten speichert, welche verschiedene musikalische Ausdrücke für ein einziges Phonem oder eine Phonemkette haben.
Ein mechanisch lesbares Speichermedium, welches Anweisungen zum Veranlassen, dass eine Maschine ein Singstimmensynthetisierverfahren ausführt, speichert, wobei das Verfahren folgende Schritte aufweist: Speichern in einer Phonemdatenbank einer Vielzahl von Sprachfragmentdaten, welche aus Sprachfragmenten ausgebildet sind, welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens 2 zusammengefügten Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten einer deterministischen Komponente und Daten einer stochastischen Komponente aufweist; Auslesen von der Phonemdatenbank der Sprachfragmentdaten korrespondierend zu Texten, welche durch eine Eingabeeinrichtung eingegeben wurden; Einstellen der Zeitdauer der ausgelesenen Sprachfragmentdaten derart, dass ein gewünschtes Tempo und eine Art und Weise des Singens erreicht wird; Einstellen der deterministischen Komponente und der stochastischen Komponente des ausgelesenen Sprachfragments derart, dass eine gewünschte Tonhöhe erreicht wird; und Synthetisieren eines gesungenen Klangs durch sequentielles Aneinanderfügen der Sprachfragmentdaten, welche mit Bezug auf die Zeitdauer und die deterministische Komponente und die stochastische Komponente davon eingestellt wurden, wobei die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten speichert, welche verschiedene musikalische Ausdrücke für ein einziges Phonem oder eine Phonemkette haben.