-
Gebiet der
Erfindung
-
Die
vorliegende Erfindung betrifft eine Singstimmensynthetisiervorrichtung,
welche eine Singstimme synthetisiert, ein Verfahren des Synthetisierens
einer Singstimme, und ein Programm zum Realisieren des Verfahrens
davon.
-
Beschreibung
des relevanten Hintergrunds
-
In
der Vergangenheit gab es einen großen Bereich von Versuchen,
Singstimme zu synthetisieren.
-
Einer
dieser Versuche, eine Anwendung von Sprachsynthese durch Regel,
empfängt
Eingaben von Tonhöhendaten,
welche zu der Tonhöhe
einer Note korrespondieren, und von Textdaten, und synthetisiert
Sprache unter Verwendung einer Synthetisierung-durch-Regel Einrichtung
zur Text-zu-Sprache Synthese. In den meisten Fällen werden ursprüngliche
Wellenformdaten oder analysierte oder parametrisierte Daten in einer
Datenbank in Einheiten von Phonemen oder Phonemketten, welche aus zwei
oder mehr Phonemen bestehen, gespeichert. Zur Zeit der Synthese
werden benötigte
Sprachfragmente (Phoneme oder Phonemketten) ausgewählt, aneinandergehängt und
synthetisiert. Beispiele sind unter anderem in den japanischen offengelegten
Patentveröffentlichungen
(Kokai) mit Nummern S62-6299, H10-124082, und H11-1184490 offenbart.
-
Weil
jedoch das Ziel dieser Technologien ist, eine sprechende Stimme
zu synthetisieren, sind sie nicht immer dazu in der Lage, eine Singstimme
mit zufrieden stellender Qualität
zu synthetisieren.
-
Beispielsweise
hat eine Singstimme, welche durch ein Verfahren des Überlappens
und Addierens von Wellenformen, wie durch PSOLA (Pitch-Synchronous OverLap
and Add) gekennzeichnet ist, einen guten Grad von Verständlichkeit,
aber hat oftmals Probleme mit unnatürlichem Klang von verlängerten
Tönen,
für welche
die Qualität
einer Singstimme am meisten variiert, und mit einem unnatürlichen Klang
von synthetisierter Stimme, wenn es leichte Fluktuationen von Tonhöhe und Vibrato
gibt, welche für
eine Singstimme wesentlich sind.
-
Ferner
würde der
Versuch, eine Singstimme unter Verwendung einer Sprachsynthetisiereinrichtung
des Wellenformen aneinanderhängenden
Typs mit einer großen
Sammlungsbasis eine astronomisch große Anzahl von Fragmentdaten
erfordern, wenn die Originaldaten ohne jede Verarbeitung aneinander gehängt und
ausgegeben werden sollen.
-
Andererseits
wurden auch Synthesizer, deren ursprünglicher Zweck das Synthetisieren
einer Singstimme ist, vorgeschlagen. Ein gut bekanntes Beispiel
ist das Synthetisierverfahren der Formantsynthese (japanische offengelegte
Patentveröffentlichung
(Kokai) Nummer 3-200300). Obwohl jedoch dieses Verfahren einen großen Grad
von Freiheit mit Bezug auf die Qualität und Fluktuationen des Vibratos
und der Tonhöhe
von verlängerten
Klängen bietet,
ist die Klarheit von synthetisierten Klängen (insbesondere Konsonanten)
schlecht, und deshalb ist die Qualität nicht immer zufrieden stellend.
-
US-A-5029509
offenbart eine Technik, welche als spektrale Modelliersynthese (SMS
= Spectral Modeling Synthesis) zum Analysieren und Synthetisieren
eines musikalischen Klangs unter Verwendung eines Models bekannt
ist, welches einen ursprünglichen
Klang, zusammengesetzt aus zwei Komponenten, nämlich einer deterministischen
Komponente und einer stochastischen Komponente, ausdrückt.
-
Mit
SMS Analyse und Synthese ist gute Steuerung der musikalischen Charakteristika
eines musikalischen Klangs möglich,
und gleichzeitig, in dem Fall einer Singstimme, durch die Verwendung der
stochastischen Komponente, kann ein hoher Grad von Klarheit sogar
von den Konsonanten erwartet werden. Deshalb wird es erwartet, dass
die Anwendung dieser Technik auf die Synthese einer Singstimme einen
synthetisierten Klang erreicht, welcher einen hohen Grad von Klarheit
und Musikalität
hat. Tatsächlich
schlägt
JP-A-7325583 (japanisches
Patent Nummer 2906970) oder US-A-5,536,902 bestimmte Anwendungen
zur Klangsynthese basierend auf SMS Analyse und Synthetisiertechniken
vor, und beschreibt gleichzeitig auch eine Methodik zum Verwenden
von SMS Techniken in der Singstimmensynthese (Singsynthesizer).
-
Eine
Anwendung der Technik, welche in der vorstehend genannten JP-A-7325583 (japanisches Patent
Nummer 2906970) oder US-A-5,536,902 vorgeschlagen ist, auf eine
Singstimmensynthetisiervorrichtung, wird mit Bezug auf 17 beschrieben
werden.
-
In 17 werden
Singstimmen SMS analysiert und in individuelle Sprachfragmente (Phoneme oder
Phonemketten) durch einen SMS Analysierer/Segmentierer 103 segmentiert,
welche gespeichert werden, um eine Phonemdatenbank 100 zu
generieren. Die Datenbank 100, welche Sprachfragmentdaten
(Phonemdaten 101 und Phonemkettendaten 102) für einen
einzelnen Rahmen oder eine Vielzahl von Rahmenzeichenketten, angeordnet
in einer Zeitserie, aufweist, speichert SMS Daten für jeden
Rahmen, und zwar Veränderungen über die
Zeit der spektralen Einhüllenden
der deterministischen Komponente, der spektralen Einhüllenden
und des Phasenspektrums der stochastischen Komponente, etc.
-
Wenn
ein Singstimmenklang synthetisiert wird, wird eine Phonemzeichenkette,
welche die gewünschten
Texte enthält,
erhalten, ein Phonem-zu-Fragment
Konvertierer 104 bestimmt die benötigten Sprachfragmente (Phoneme
oder Phonemketten), welche die Phonemzeichenketten enthalten, und
dann werden SMS Daten (deterministische Komponente und stochastische
Komponente) der benötigten
Sprachfragmente von der vorstehend genannten Datenbank 100 ausgelesen.
Als nächstes
fügt ein Fragmentaneinanderfüger 105 die
ausgelesenen SMS Daten der Sprachfragmente in einer Zeitserie aneinander.
Für die
deterministische Komponente, basierend auf Ton höheninformation korrespondierend
zu einer Melodie des Lieds, generiert ein Generator 106 der
deterministischen Komponente harmonische Komponenten, welche die
gewünschte
Tonhöhe
haben, während
die Form der spektralen Einhüllenden
der deterministischen Komponente erhalten wird. Um zum Beispiel
das japanische Wort „saita" zu synthetisieren,
werden die Fragmente von „#s", „s", „s-a", „a", „a-i", „i", „i-t", „t", „t-a", „a", und „a#" aneinandergefügt, und
die deterministische Komponente der gewünschten Tonhöhe wird
generiert, während die
Form der spektralen Einhüllenden,
welche in den SMS Daten enthalten ist, welche von der Fragmentaneinanderfügung erhalten
wurden, erhalten wird. Als nächstes
werden die generierte deterministische Komponente und die stochastische
Komponente zusammenaddiert durch ein Synthetisiermittel 107,
und das Ergebnis davon wird in Zeitdomänendaten umgewandelt, um synthetisierte
Sprache zu erhalten.
-
Somit
kann durch Verwendung dieser SMS Techniken natürlich klingendes synthetisiertes
Klingen mit einer guten Verständlichkeit
auch für
verlängerte
Klänge
erhalten werden.
-
Jedoch
ist das Verfahren, welches in der vorstehend genannten JP-A-7325583 (japanisches
Patent Nummer 2906970) oder US-A-5,536,902 beschrieben ist, übermäßig rudimentär und simplistisch,
und die folgenden Typen von Problemen werden auftreten, wenn eine
Singstimme gemäß dieses Verfahrens
synthetisiert wird.
- – Weil die Spektraleinhüllendenform
der deterministischen Komponente eines stimmhaften Klangs sich etwas
abhängig
von der Tonhöhe
verändert,
kann die Synthese bei einer Tonhöhe
unterschiedlich von der Tonhöhe,
welche zu der Zeit der Analyse verwendet wird, an sich keine gute Klangfarbe
erreichen.
- – Wenn
SMS Analyse durchgeführt
wird in dem Fall eines stimmhaften Klangs, auch wenn die deterministische
Komponente entfernt wird, verbleibt ein kleiner Teil der deterministischen
Komponente in der verbleibenden Komponente. Deshalb verursacht die
Verwendung der gleichen verbleibenden Komponente (stochastische
Komponente) direkt zum Synthetisieren eines gesungenen Klangs bei
einer Tonhöhe
unterschiedlich von dem ursprünglichen
Klang wie oben erwähnt, dass
die verbleibende Komponente hörbar
erkennbar oder wie Rauschen wird.
- – Weil
die Ergebnisse der SMS Analyse von Phonemdaten und Phonemkettendaten
temporär
wie sie sind überlagert
werden kann die Dauer eines verlängerten
Klangs und die Übergangszeit
zwischen Phonemen nicht eingestellt werden. Mit anderen Worten ist
es nicht möglich,
bei einem gewünschten
Tempo zu singen.
- – Es
besteht eine Neigung, dass Rauschen generiert wird, wenn die Phoneme
oder Phonemketten aneinandergefügt
werden.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Es
ist ein erstes Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung
und ein Singstimmensynthetisierverfahren vorzusehen, welche die
oben beschriebenen Probleme lösen, durch
Festsetzen eines bestimmten Verfahrens zum Verwenden der SMS Techniken,
welche in der vorstehend genannten JP-A-7325583 (japanisches Patent Nummer
2906970) oder US-A-5,536,902 vorgeschlagen sind, und Hinzufügen von
beachtlichen Verbesserungen zum Verbessern der Qualität des synthetisierten
Klangs, um dabei das Erreichen einer natürlich klingenden synthetisierten
Singstimme mit einem guten Pegel von Verständlichkeit zu ermöglichen, und
ein Programm zum Realisieren eines Singstimmensynthetisierverfahrens.
-
Es
ist ein zweites Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung
und ein Singstimmensynthetisierverfahren vorzusehen, welche dazu
in der Lage sind, die Größe der vorstehend
genannten Datenbank zu verringern und die Effizienz zu erhöhen, mit
welcher die Datenbank gene riert wird, und ein Programm zum Realisieren
des Singstimmensynthetisierverfahrens.
-
Es
ist ein drittes Ziel der vorliegenden Erfindung, eine Singstimmensynthetisiervorrichtung
und ein Singstimmensynthetisierverfahren vorzusehen, welche dazu
in der Lage sind, den Grad von Heiserkeit in einer synthetisierten
Stimme einzustellen, und ein Programm zum Realisieren eines Singstimmensynthetisierverfahrens.
-
Um
die Ziele zu erreichen sieht die vorliegende Erfindung ein Singstimmensynthetisierverfahren vor,
welches folgendes aufweist: eine Phonemdatenbank, welche eine Vielzahl
von Sprachfragmentdaten speichert, welche aus Sprachfragmenten gebildet sind,
welche jeweils ein einziges Phonem oder eine Phonemkette von mindestens
zwei aneinander gefügten
Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten
einer deterministischen Komponente und Daten einer stochastischen
Komponente enthält,
eine Eingabeeinrichtung, welche Texte eingibt, eine Ausleseeinrichtung,
welche von der Phonemdatenbank die Sprachfragmentdaten korrespondierend
zu den eingegebenen Texten ausliest, eine Zeitdauereinstelleinrichtung,
welche die Zeitdauer der ausgelesenen Sprachfragmentdaten derart
einstellt, dass sie zu einem gewünschten
Tempo und einer Art und Weise des Singens passen, eine Einstelleinrichtung,
welche die deterministische Komponente und die stochastische Komponente
des ausgelesenen Sprachfragments derart einstellt, dass sie zu einer
gewünschten
Tonhöhe
passen, und eine Synthetisiereinrichtung, welche einen gesungenen Klang
durch sequentielles Aneinanderfügen
der Sprachfragmentdaten synthetisiert, welche durch die Zeitdauereinstelleinrichtung
und die Einstelleinrichtung eingestellt wurden.
-
Mit
der obigen Anordnung gemäß der vorliegenden
Erfindung kann, durch Verbesserung der SMS Techniken, eine natürlich klingende
synthetisierte Singstimme mit einem guten Pegel von Verständlichkeit
auch für
verlängerte
Klänge
erhalten werden, und ferner führen
sogar leichte Variationen von Vibrato und Tonhöhe nicht zu einem unnatürlich klingendem
synthetisierten Klang.
-
Bevorzugterweise
speichert die Phonemdatenbank eine Vielzahl von Sprachfragmentdaten, welche
verschiedene musikalische Ausdrücke
für ein einzelnes
Phonem oder eine Phonemkette haben.
-
Noch
bevorzugter weisen die musikalischen Ausdrücke mindestens einen Parameter
auf, welcher aus der Gruppe ausgewählt ist, welche aus Tonhöhe, Dynamik
und Tempo besteht.
-
In
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung speichert die Phonemdatenbank Sprachfragmentdaten,
welche verlängerte Klänge aufweisen,
welche jeweils durch Verlängerung
eines einzigen Phonems ausgedrückt
sind, Sprachfragmentdaten, welche Konsonant-zu-Vokal Phonemketten
und Vokal-zu-Konsonant Phonemketten enthalten, Sprachfragmentdaten,
welche Konsonant-zu-Konsonant Phonemketten enthalten, und Sprachfragmentdaten,
welche Vokal-zu-Vokal Phonemketten enthalten.
-
In
einer bevorzugten Form der vorliegenden Erfindung weist jede der
Sprachfragmentdaten eine Vielzahl von Daten korrespondierend relativ
zu einer Vielzahl von Rahmen einer Rahmenzeichenkette auf, welche
durch Segmentieren eines Korrespondierenden der Sprachfragmente
gebildet ist, und wobei die Daten der deterministischen Komponente
und der Daten der stochastischen Komponente von jeder der Sprachfragmentdaten
jeweils eine Serie von Frequenzdomänendaten korrespondierend jeweils
zu der Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend
zu jedem der Sprachfragmente aufweist.
-
Ferner
generiert in dieser bevorzugten Form die Zeitdauereinstelleinrichtung
eine Rahmenzeichenkette einer gewünschten Zeitlänge durch
Wiederholen von mindestens einem Rahmen der Vielzahl von Rahmen
der Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente,
oder durch Ausdünnen
einer vorbestimmten Anzahl von Rahmen der Vielzahl von Rahmen der
Rahmenzeichenkette korrespondierend zu jedem der Sprachfragmente.
-
Mit
dieser Anordnung kann, weil die Länge eines verlängerten
Phonems und die Länge
einer Phonemkette frei eingestellt werden können, eine synthetisierte Singstimme
mit einem bestimmten Tempo erhalten werden.
-
Noch
mehr bevorzugterweise generiert die Zeitdauereinstelleinrichtung
die Rahmenzeichenkette einer gewünschten
Zeitlänge
durch Wiederholen einer Vielzahl von Rahmen der Rahmenzeichenkette korrespondierend
zu jedem der Sprachfragmente, wobei die Zeitdauereinstelleinrichtung
die Vielzahl von Rahmen in einer ersten Richtung wiederholt, in welcher
die Rahmenzeichenkette einer gewünschten Zeitlänge generiert
ist und in einer Richtung entgegengesetzt dazu.
-
Noch
mehr bevorzugt, wenn die Vielzahl von Rahmen der Rahmenzeichenkette
korrespondierend zu den Daten der stochastischen Komponente von jedem
der Sprachfragmente in den ersten und zweiten Richtungen wiederholt
wird, kehrt die Zeitdauereinstelleinrichtung eine Phase eines Phasenspektrums
der stochastischen Komponente um.
-
Bevorzugterweise
weist die Singstimmensynthetisiervorrichtung gemäß der vorliegenden Erfindung
ferner eine Fragmentpegeleinstelleinrichtung auf, welche Glättungsprozessierung
oder Pegeleinstellprozessierung an der deterministischen Komponente
und der stochastischen Komponente ausführt, welche in jeder der Sprachfragmentdaten
enthalten sind, wenn die Sprachfragmentdaten sequentiell aneinandergefügt werden
durch die Synthetisiereinrichtung.
-
Mit
dieser Anordnung, weil ein Glättungs- oder
Pegeleinstellvorgang an der Aneinanderfügungsgrenze zwischen Phonemen
durchgeführt wird,
wird kein Rauschen generiert, wenn die Phoneme aneinandergefügt werden.
-
Auch
weist bevorzugterweise die Singstimmensynthetisiervorrichtung gemäß der vorliegenden Erfindung
ferner eine Einrichtung zum Generieren der deterministischen Komponente
auf, welche nur die Tonhöhe
der deterministischen Komponente auf eine gewünschte Tonhöhe ändert, während die Form der spektralen
Einhüllenden
der deterministischen Komponente, erhalten wird, welche in jeden
der Sprachfragmentdaten enthalten ist, wenn die Sprachfragmentdaten
sequentiell aneinandergefügt werden
durch die Synthetisiereinrichtung.
-
Bevorzugterweise
speichert die Phonemdatenbank Sprachfragmentdaten, welche verlängerte Klänge aufweisen,
welche jeweils durch Verlängerung
eines einzelnen Phonems ausgedrückt
sind, wobei die Phonemdatenbank ferner ein flaches Spektrum wie
ein Amplitudenspektrum der stochastischen Komponente von jedem der
Sprachfragmentdaten speichert, welche jeden der verlängerten
Klänge
enthalten, erhalten durch Multiplizieren des Amplitudenspektrums
davon mit dem Inversen eines typischen Spektrums innerhalb eines
Intervalls von dem verlängerten
Klang.
-
In
diesem Fall wird das Amplitudenspektrum der stochastischen Komponente
von jeder der Sprachfragmentdaten, welche alle der verlängerten Klänge enthalten,
durch Multiplizieren eines Amplitudenspektrums der stochastischen
Komponente erhalten, welche basierend auf einem Amplitudenspektrum
der deterministischen Komponente der Sprachfragmentdaten des verlängerten
Klangs mit dem flachen Spektrum berechnet wird.
-
Bevorzugterweise
speichert die Phonemdatenbank keine Amplitudenspektren der stochastischen
Komponenten von Sprachfragmentdaten, welche bestimmte verlängerte Klänge enthalten,
und das flache Spektrum, welches als ein Amplitudenspektrum von
Sprachfragmentdaten gespeichert ist, welche mindestens einen anderen
verlängerten Klang
enthalten, wird für
die Synthese der bestimmten Klänge
verwendet.
-
Bevorzugterweise
hat das Amplitudenspektrum der stochastischen Komponente, berechnet
basierend auf dem Amplitudenspektrum der deterministischen Komponente
einen Gewinn bzw. eine Verstärkung
davon bei 0 Hz, welcher gemäß einem
Parameter zum Steuern eines Grads von Heiserkeit gesteuert wird.
-
Mit
dieser Anordnung kann der Grad von Heiserkeit einer synthetisierten
Stimme einfach gesteuert werden.
-
Um
die obigen Ziele zu erreichen sieht die vorliegende Erfindung auch
ein Singstimmensynthetisierverfahren vor, welches folgende Schritte
aufweist: Speichern einer Vielzahl von Sprachfragmentdaten in einer
Phonemdatenbank, welche aus Sprachfragmenten gebildet sind, welche
jeweils ein einziges Phonem oder eine Phonemkette von mindestens
zwei aneinander gefügten
Phonemen sind, wobei jede der Vielzahl von Sprachfragmentdaten Daten
einer deterministischen Komponente und Daten einer stochastischen
Komponente enthalten, Auslesen der Sprachfragmentdaten aus der Phonemdatenbank
korrespondierend zu Texten, welche durch eine Eingabeeinrichtung
eingegeben wurden, Einstellen der Zeitdauer der ausgelesenen Sprachfragmentdaten
derart, dass ein gewünschtes
Tempo und eine Art und Weise des Singens erreicht werden, Einstellen
der deterministischen Komponente und der stochastischen Komponente
des ausgelesenen Sprachfragments derart, dass eine gewünschte Tonhöhe erreicht
wird, und Synthetisieren eines gesungenen Klangs durch sequentielles
Aneinanderfügen der
Sprachfragmentdaten, welche mit Bezug auf die Zeitdauer und die
deterministische Komponente und die stochastische Komponente davon
eingestellt wurden.
-
Um
die obigen Ziele zu erreichen sieht die vorliegende Erfindung ferner
ein Programm zum Verursachen, dass ein Computer das oben erwähnte Singstimmensynthetisierverfahren
ausführt,
vor.
-
Um
die obigen Ziele zu erreichen sieht die vorliegende Erfindung ferner
ein mechanisch lesbares Speichermedium vor, welches Anweisungen
zum Ver ursachen, dass eine Maschine das oben erwähnte Singstimmensynthetisierverfahren
ausführt,
vor.
-
Gemäß der vorliegenden
Erfindung kann die synthetisierte Singstimme von einer hohen Qualität sein,
eine geeignete Klangfarbe für
eine gewünschte Tonhöhe haben,
und ist frei von Rauschen zwischen aneinander gefügten Einheiten.
Ferner kann die Datenbank extrem klein in der Größe gemacht werden und kann
mit einer hohen Effizienz generiert werden. Noch ferner kann der
Grad von Heiserkeit einer synthetisierten Stimme einfach gesteuert
werden.
-
Die
obigen und anderen Ziele, Merkmale und Vorteile der Erfindung werden
von der folgenden detaillierten Beschreibung, zusammen genommen
mit den beigefügten
Zeichnungen, offensichtlicher werden.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Diagramm, welches einen Vorgang zum Generieren einer Phonemdatenbank
zeigt, welcher in einer Singstimmensynthetisiervorrichtung der vorliegenden
Erfindung verwendet wird;
-
2A und 2B sind
ein Diagramm, welches einen Vorgang zum Synthetisieren einer Singstimme
zeigt, welcher durch die Singstimmensynthetisiervorrichtung der
vorliegenden Erfindung durchgeführt
wird;
-
3A und 3B sind
Diagramme, welche einen Prozess zum Einstellen einer stochastischen
Komponente zeigen, welche durch die Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung durchgeführt werden, wobei:
-
3A ein
Beispiel eines Amplitudenspektrums einer stochastischen Komponente,
welches durch SMS Analyse eines stimmhaften Klangs erhalten wurde
zeigt; und
-
3B das
Ergebnis des Durchführens
eines Einstellvorgangs der stochastischen Komponente an dem Amplitudenspektrum
der stochastischen Komponente von 3A zeigt;
-
4A bis 4C sind
Diagramme, welche einen Schleifenvorgang zeigen, welcher durch die Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung ausgeführt wird, wobei:
-
4A ein
Beispiel einer Wellenform einer stochastischen Komponente zeigt,
welche Schleifenverarbeitung ausgesetzt wird;
-
4B das
Ergebnis von Schleifenverarbeitung der Wellenform von 4A zeigt,
wobei Rahmen in einer rückwärtigen Richtung
ausgelesen werden, wobei die Phasen unverändert bleiben; und
-
4C das
Ergebnis von Schleifenverarbeitung der Wellenform von 4A zeigt,
wobei Rahmen in einer rückwärtigen Richtung
ausgelesen werden, wobei die Phase umgekehrt wird;
-
5 ist
ein Diagramm, welches die Modellierung einer spektralen Einhüllenden
zeigt;
-
6 ist
ein Diagramm, welches nützlich
ist in der Erklärung
einer Fehlanpassung bei einer Fragmentdatenaneinanderfügungsgrenze;
-
7 ist
ein Diagramm, welches einen Glättungsvorgang
in der Singstimmensynthetisiervorrichtung der vorliegenden Erfindung
zeigt;
-
8A bis 8C sind
Diagramme, welche einen Pegeleinstellvorgang zeigen, welcher durch die
Singstimmensynthetisiervorrichtung der vorliegenden Erfindung ausgeführt wird,
wobei:
-
8A ein
Diagramm ist, welches einen Pegeleinstellvorgang für Fragment "a-i" zu der Zeit, wenn
die Fragmente von „a-i" und „i-a" aneinandergefügt werden, zeigt;
-
8B ein
Diagramm ist, welches einen Pegeleinstellvorgang für das Fragment „i-a" zeigt; und
-
8C ein
Diagramm ist, welches ein Ergebnis des Aneinanderfügens der
Pegel eingestellten Fragmente von „a-i" und „i-a" zeigt;
-
9A und 9B sind
ein Funktions-Blockdiagramm, welches eine detaillierte Konfiguration
einer Singstimmensynthetisiervorrichtung gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung zeigt;
-
10 ist
ein Diagramm, welches ein Beispiel der Konstruktion einer Hardwarevorrichtung zeigt,
welche verwendet wird, um eine Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung zu betreiben;
-
11 ist
ein Diagramm, welches ein Beispiel einer spektralen Einhüllenden
der deterministischen und stochastischen Komponenten eines verlängerten
Klangs zeigt;
-
12 ist
ein Diagramm, welches einen Vorgang des Generierens einer Phonemdatenbank zeigt,
welcher durch eine Singstimmensynthetisiervorrichtung gemäß einem
anderen Ausführungsbeispiel
der vorliegenden Erfindung ausgeführt wird;
-
13 ist
ein Diagramm, welches ein Beispiel der Konfiguration eines Mittels
zum spektralen Weißmachen
zeigt;
-
14A und 14B sind
ein Diagramm, welches ein Singstimmensynthetisierverfahren zeigt, welches
durch die Singstimmensynthetisiervorrichtung gemäß eines anderen Ausführungsbeispiels
der vorliegenden Erfindung ausgeführt wird;
-
15 ist
ein Diagramm, welches nützlich
ist in der Erklärung
der Steuerung von Heiserkeit;
-
16 ist
ein Diagramm, welches ein Beispiel einer Konfiguration eines Mittels
zur Generierung einer spektralen Einhüllenden zeigt, welches angepasst
ist, um Heiserkeit zu steuern; und
-
17 ist
ein Diagramm, welches die Konstruktion einer Singstimmensynthetisiervorrichtung zeigt,
welche das konventionelle SMS Verfahren zeigt.
-
DETAILLIERTE
BESCHREIBUNG DER BEVORZUGTEN AUSFHÜRUNGSBEISPIELE
-
Die
Singstimmensynthetisiervorrichtung der vorliegenden Erfindung hat
eine Phonemdatenbank, welche aus individuellen Phonemen und Phonemketten
besteht, welche erhalten wurden durch Teilen in benötigte Segmente
von SMS Daten von deterministischen und stochastischen Komponenten,
welche aus einer SMS Analyse von Eingabestimmen erhalten wurden.
Diese Datenbank enthält
auch Vorspanninformation, einschließlich Information, welche anzeigend
ist für
die Phoneme und Phonemketten, Information, welche anzeigend ist
für die
Tonhöhe
und Sprachfragmente, welche aus den Phonemen und Phonemketten gebildet
sind, und Information, welche anzeigend ist für musikalische Ausdrücke wie
Dynamik und Tempo davon. Hier kann die Dynamikinformation entweder
sensorische Information sein, welche anzeigend dafür ist, ob
das Sprachfragment (Phonem oder Phonemkette) ein forte oder metzoforte
Klang ist, oder physikalische Information, welche den Pegel des
Fragments anzeigt.
-
Ferner
ist ein SMS Analysemittel vorgesehen zum Zerlegen der Eingabesingstimme
in deterministische und stochastische Komponenten, und Analysieren
dieser, um die vorher stehend genannte Datenbank zu generieren.
Auch ist ein Mittel (welches entweder automatisch oder manuell sein
kann) zum Segmentieren der SMS Daten in die benötigten Phoneme oder Phonemketten
(Fragmente) vorgesehen.
-
Ein
Beispiel des Generierens der Phonemdatenbank wird mit Bezug auf 1 beschrieben werden.
-
In 1 bezeichnet
Bezugszeichen 10 die Phonemdatenbank, in welcher SMS Daten
in der Form von Sprachfragmenten (SMS Daten von einem oder mehreren
Rahmen, bestimmt durch die jeweiligen Sprachfragmente), erhalten
wurden, indem die Eingabesingstimmen einer SMS Analyse unterzogen wurden
und die resultierenden SMS Daten in Phoneme und Phonemketten (Sprachfragmente)
durch einen Segmentierer 14 segmentiert wurden, in einer Art
und Weise, welche ähnlich
ist zu der vorher stehend genannten Phonemdatenbank 100.
In der Phonemdatenbank 10 werden die Sprachfragmentdaten in
der Form von separaten Daten für
jede unterschiedliche Tonhöhe
gespeichert, und für
jede unterschiedliche Dynamik und Tempo.
-
In
dem Fall des Synthetisierens von Texten in japanischer Sprache bestehen
die Sprachfragmente zum Beispiel aus Vokalklangdaten (einer einer
Vielzahl von Rahmen), Konsonant-zu-Vokal Klangdaten (eine Vielzahl
von Rahmen), Vokal-zu-Konsonant Klangdaten (eine Vielzahl von Rahmen),
und Vokal-zu-Vokal
Daten (eine Vielzahl von Rahmen).
-
Eine
Sprachsynthetisiervorrichtung, welche Sprachsynthese durch Regel
oder Ähnliches
verwendet, speichert normalerweise Daten in ihrer Phonemdatenbank
in Einheiten, welche größer sind
als eine Silbe, wie VCV (Vokal-Konsonant-Vokal,
vowel-consonant-vowel) oder CVC (Konsonant-Vokal-Konsonant, consonant-vowel-consonant)
Einheiten. Andererseits werden in der Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung, welche beabsichtigt, einen Singstimmenklang
zu synthetisieren, Daten von verlängertem Klang, welcher häufig im Singen
wie bei der Artikulation von langen Vokalen auftritt, Konsonant-zu-Vokal
(CV), Vokal-zu-Konsonant (VC) Klangdaten, Konsonant-zu-Konsonant Klangdaten
und Vokal-zu-Vokal Klangdaten in der Phonemdatenbank gespeichert.
-
Der
SMS Analysierer 13 führt
eine SMS Analyse der ursprünglichen
Eingabesingstimmen aus und gibt SMS analysierte Daten für jeden
Rahmen aus.
-
Noch
spezifischer wird die Eingabesprache in eine Serie von Zeitrahmen
geteilt, und eine FFT oder andere Frequenzanalyse wird für jeden
Rahmen ausgeführt.
Von dem Ergebnis werden Frequenzspektren (komplexe Spektren), Amplitudenspektren
und Phasenspektren erhalten, und ein spezifisches Frequenzspektrum,
welches zu einer Spitze in dem Amplitudenspektrum korrespondiert,
wird als ein Linienspektrum extrahiert. In diesem Fall ist ein Spektrum,
welches die fundamentale Frequenz und Frequenzen in der Nähe ihrer
ganzzahligen Vielfachen enthält,
ein Linienspektrum. Das extrahierte Linienspektrum korrespondiert
zu der deterministischen Komponente.
-
Als
nächstes
wird ein Restspektrum erhalten durch Subtraktion des Linienspektrums,
welches wie oben beschrieben extrahiert wurde, von dem Spektrum
der Eingabewellenform des Rahmens. Alternativ werden temporäre Wellenformdaten
der deterministischen Komponente, welche von dem extrahierten Linienspektrum
synthetisiert wurden, von den Eingabewellenformdaten des Rahmens
subtrahiert, um temporäre
Wellenformdaten der Restkomponente zu erhalten, und dann wird eine
Frequenzanalyse der Restkomponente der temporären Wellenformdaten durchgeführt, um
das Restspektrum zu erhalten. Das derart erhaltene Restspektrum
korrespondiert zu der stochastischen Komponente.
-
Die
Rahmenperiode, welche in der obigen SMS Analyse verwendet wird,
kann entweder eine bestimmte feste Länge haben, oder eine variable Länge, welche
sich gemäß der Tonhöhe oder
anderer Parameter der Eingabestimme verändert. Wenn die Rahmenperiode
eine variable Länge
hat wird die Eingabestimme mit einer ersten Rahmenperiode von fester
Länge verarbeitet,
die Tonhöhe
wird detektiert, und dann wird die Eingabestimme erneut verarbeitet mit
einer Rahmenperiode einer Länge,
welche zu den Ergebnissen der Tonhöhendetektion korrespondiert; alternativ
kann ein Verfahren verwendet werden, in welchem die Periode des
folgenden Rahmens gemäß der von
dem derzeitigen Rahmen detektierten Tonhöhe variiert wird.
-
Die
SMS analysierte Datenausgabe für
jeden Rahmen von dem SMS Analysierer 13 wird in der Länge eines
Sprachfragments segmentiert, welches in der Phonemdatenbank gespeichert
ist, durch den Segmentierer 14. Noch spezifischer werden
die SMS analysierten Daten manuell oder automatisch segmentiert,
um Vokalphoneme, Vokal-Konsonant- oder Konsonant-Vokal-Phonemketten, Konsonant-Konsonant-Phonemketten,
und Vokal-Vokal-Phonemketten zu
extrahieren, so dass sie optimal für die Synthese von ge sungenem
Klang geeignet sind. Hier werden auch lange Intervalldaten von Vokalen,
welche verlängert
und gesungen werden sollen (verlängerte Klänge) extrahiert,
durch Segmentierung der Vokalphoneme.
-
Ferner
detektiert der Segmentierer 14 die Tonhöhe der Eingabestimme basierend
auf den vorher stehend genannten SMS Analyseergebnissen. Die Tonhöhendetektion
wird durch zunächst
Berechnen eines durchschnittlichen Tonhöhenwerts aus der Frequenz der
Linienspektren niedriger Ordnung in der deterministischen Komponente
eines Rahmens, welcher in dem Fragment enthalten ist, und dann Berechnen
eines durchschnittlichen Tonhöhenwerts
für alle
Rahmen, durchgeführt.
-
In
dieser Art und Weise werden Daten der deterministischen Komponente
und Daten der stochastischen Komponente für jedes Fragment extrahiert
und in der Phonemdatenbank 10 gespeichert, mit Vorspännen (headings),
welche aus Information über
die Tonhöhe
der Eingabesingstimme und musikalischen Ausdrücken von Tempo, Dynamik, etc.
bestehen, daran angefügt.
-
1 zeigt
ein Beispiel der Phonemdatenbank 10, welche auf diese Art
und Weise erzeugt wurde. Die Phonemdatenbank 10 besteht
aus einem Phonemdatengebiet 11 für Phoneme, und einem Phonemkettendatengebiet 12 für Phonemketten. Das
Phonemdatengebiet 11 enthält 4 Typen von Phonemdaten
von verlängertem
Vokal "a" bei vier Tonhöhenfrequenzen
von 130 Hz, 150 Hz, 200 Hz und 220 Hz, und drei Typen von Phonemdaten
von verlängertem
Vokal „i" bei drei Tonhöhenfrequenzen
140 Hz, 180 Hz und 300 Hz. Ferner enthält das Phonemkettendatengebiet 12 zwei
Typen von Phonemkettendaten von der Phonemkette „a-i", anzeigend für die Aneinanderfügung von
Phonemen „a" und „i", bei zwei Tonhöhenfrequenzen
von 130 Hz und 150 Hz, zwei Typen von Phonemketten „a-p" bei zwei Frequenzen von
120 Hz und 220 Hz, zwei Typen von Phonemkette „a-s" bei Frequenzen von 140 Hz und 180 Hz,
und einen Typ von Phonemkette „a-z" bei einer Frequenz von
100 Hz. Hier werden für
das gleiche Phonem oder die Phonemkette Daten von verschiedenen
Tonhöhen
gespeichert, jedoch werden die oben stehend beschriebenen Daten
von verschiedenen musikalischen Ausdrücken der Eingabesingstimme,
wie Dynamik und Tempo, auch als separate Daten gespeichert.
-
Von
Daten von deterministischen und stochastischen Komponenten, welche
in den Daten von jedem Fragment enthalten sind, namentlich SMS Daten
von dem vorstehend erwähnten
SMS Analysierer 13, welche in individuelle Fragmente durch
den Segmentierer 14 segmentiert wurden, können die
Daten von deterministischen Komponenten entweder durch Speichern
aller spektralen Einhüllenden
(Linienspektren (harmonische Serien), Stärke (Amplitude) und Phasenspektren)
von jedem Rahmen, welcher in jedem Fragment enthalten ist, wie sie
sind, oder durch Speichern von beliebigen Funktionen, welche die spektralen
Einhüllenden
ausdrücken,
anstatt von spektralen Einhüllenden,
gespeichert werden. Die Daten der deterministischen Komponente können auch
in der Form von rücktransformierten
temporären
Wellenformen gespeichert sein. Ferner können die Daten der stochastischen
Komponenten in der Form von Stärkenspektren
(Amplitudenspektren) und Phasenspektren für jeden Rahmen des Segments korrespondierend
zu jedem Fragment, oder in der Form von temporären Wellenformdaten von jedem Segment,
gespeichert werden. Ferner sind die oben erwähnten Speicherformate nicht
einschränkend, aber
können
variiert werden für
jedes Fragment, oder gemäß Stimmeigenschaften
(wie nasalen, frikativen (Reibelaut) oder plosiven (Verschlusslaut)
Klängen) für jedes
Segment. In der Beschreibung, welche folgt, werden die Daten der
deterministischen Komponente in dem Format von spektralen Einhüllenden
gespeichert, und die Daten der stochastischen Komponente werden
in dem Format von Amplitudenspektren und Phasenspektren gespeichert.
Mit diesen Typen von Speicherformat kann die benötigte Speicherkapazität verringert
werden. In dieser Art und Weise speichert in der Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung die Phonemdatenbank 10 eine Vielzahl
von Daten korrespondierend zu verschiedenen Tonhöhen, Dynamiken, Tempi und anderen
musikalischen Ausdrücken
für jedes
der gleichen Phoneme und der gleichen Phonemkette.
-
Als
nächstes
wird der Vorgang des Synthetisierens von gesungenen Klängen unter
Verwendung der Phonemdatenbank 10, welche wie oben stehend beschrieben
erzeugt wurde, beschrieben werden, mit Bezug auf die 2A und 2B.
-
In
den 2A und 2B bezeichnet
Bezugszeichen 10 die Phonemdatenbank 10. Das Bezugszeichen 21 bezeichnet
ein Phonem-zu-Fragment Konvertierungsmittel 21, welches
eine Phonemzeichenkette korrespondierend zu den Textdaten eines
Songs, für
welchen ein gesungener Klang synthetisiert werden soll, in Fragmente
zum Suchen der Phonemdatenbank 10 konvertiert. Wenn zum
Beispiel eine Phonemzeichenkette von „s_a_i_t_a" eingegeben wird, dann wird eine Fragmentzeichenkette von „s", „s-a", „a", „a-i", „i", „i-t", „t", „t-a" und „a" ausgegeben.
-
Bezugszeichen 22 bezeichnet
ein Einstellmittel für
die deterministische Komponente, welches basierend auf Steuerungsparametern
wie Tonhöhe, Dynamik
und Tempo, welche in den Melodiedaten des Songs enthalten sind,
die Daten der deterministischen Komponente von Fragmentdaten, welche aus
der Phonemdatenbank 10 ausgelesen wurden, einstellt, und
Bezugszeichen 23 bezeichnet ein Einstellmittel für die stochastische
Komponente, welches die Daten der stochastischen Komponente einstellt.
-
Bezugszeichen 24 bezeichnet
ein Zeitdauereinstellmittel, welches die Zeitdauer von Fragmentdaten
variiert, welche von dem Einstellmittel 22 für die deterministische
Komponente und von dem Einstellmittel 23 für die stochastische
Komponente ausgegeben wurden. Das Bezugszeichen 25 bezeichnet ein
Fragmentpegeleinstellmittel, welches den Pegel von allen Fragmentdaten
einstellt, welche von dem Zeitdauereinstellmittel 24 ausgegeben
wurden. Bezugszeichen 26 bezeichnet ein Fragmentaneinanderfügungsmittel,
welches individuelle Fragmentdaten in eine Zeitserie aneinanderfügt, welche
durch das Fragmentpegeleinstellmittel 25 pegeleingestellt sind.
Das Bezugszeichen 27 bezeichnet ein Erzeugungsmittel der
deterministischen Komponente, welches basierend auf den deterministischen
Komponenten der Fragmentdaten, welche durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt wurden,
deterministische Komponenten (harmonische Komponenten) generiert,
welche eine gewünschte
Tonhöhe
haben. Bezugszeichen 28 bezeichnet ein Addiermittel, welches
harmonische Komponenten synthetisiert, welche durch das Erzeugungsmittel 27 für deterministische
Komponente generiert wurden, und harmonische Komponenten, welche
von dem Fragmentaneinanderfügungsmittel 26 ausgegeben
wurden. Sprachsynthese kann durch Umwandlung der Ausgabe von diesem
Addiermittel 28 in ein Zeitdomänensignal erreicht werden.
-
Die
Verarbeitung von jedem der oben erwähnten Blöcke wird untenstehend beschrieben
werden.
-
Das
Phonem-zu-Fragment Konvertiermittel 21 generiert eine Fragmentzeichenkette
von einer Phonemzeichenkette, welche konvertiert wurde, basierend
auf den eingegebenen Texten, und liest basierend darauf selektiv
Sprachfragmente (Phoneme oder Phonemketten) von der Phonemdatenbank 10 aus.
Wie vorstehend beschrieben wird auch für ein einziges Phonem oder
eine Phonemkette eine Vielzahl von Daten (Sprachfragmentdaten) in
der Datenbank korrespondierend jeweils zu der Tonhöhe, Dynamik,
Tempo, etc. gespeichert. Wenn ein Fragment ausgewählt wird
wird das geeignetste gemäß den verschiedenen
Steuerungsparametern gespeichert.
-
Ferner
kann es anstatt der Auswahl eines Fragments so angeordnet sein,
dass mehrere Kandidaten zur Interpolation ausgewählt werden, um SMS Daten zu
erhalten, welche für
die Synthese verwendet werden sollen. Die ausgewählten Sprachfragmente enthalten
deterministische Komponenten und stochastische Komponenten, welche
Ergebnisse der SMS Analyse sind. Diese deterministischen und stochastischen
Komponenten enthalten SMS Daten, nämlich die spektralen Einhüllenden
(Stärke
und Phase) der deterministischen Komponenten, die spektralen Einhüllenden
(Stärke
und Phase) der stochastischen Komponente, und Wellenformen selbst. Basierend
auf diesen Inhalten werden deterministische Komponenten und stochastische
Kompo nenten generiert, um zu einer gewünschten Tonhöhe und benötigten Zeitdauer
zu passen. Zum Beispiel werden die Formen der spektralen Einhüllenden
von deterministischen und stochastischen Komponenten durch Interpolation
oder andere Mittel erhalten und können variiert werden, um zu
der gewünschten
Tonhöhe
zu passen.
-
Einstellung
der deterministischen Komponente
-
Die
Einstellung der deterministischen Komponente wird durch das Einstellmittel 22 der
deterministischen Komponente eingestellt.
-
In
dem Fall eines stimmhaften Klangs enthält die deterministische Komponente
Information bezüglich
der Stärke
und der Phase der spektralen Einhüllenden, welche die SMS Analyseergebnisse
sind. In dem Fall einer Vielzahl von Fragmenten wird entweder das
Fragment ausgewählt,
welches am idealsten für
die gewünschten
Steuerungsparameter (wie Tonhöhe)
geeignet sind, ausgewählt,
oder eine spektrale Einhüllende,
welche für
die gewünschten
Steuerungsparameter geeignet ist, wird durch Ausführung eines
Vorgangs wie Interpolation der Vielzahl von Fragmenten erhalten.
Zusätzlich
kann die Form der erhaltenen spektralen Einhüllenden weiter verändert werden
gemäß einem
anderen Steuerungsparameter durch ein geeignetes Verfahren.
-
Ferner,
um raue Geräusche
zu verringern, oder um dem Klang eine spezielle Charakteristik zu geben,
kann Bandpassfilterung angewandt werden, um Komponenten eines bestimmten
Frequenzbands zu erlauben, hindurch zu treten.
-
Ein
nicht stimmhafter Klang enthält
keine deterministische Komponente.
-
Einstellung der stochastischen
Komponente
-
Weil
die stochastische Komponente von der SMS Analyse eines stimmhaften
Klangs beeinflusst bleibt durch ihre ursprüngliche Tonhöhe, kann
ein Versuch, den Klang an eine andere Tonhöhe anzupassen, zu einem unnatürlichen
Klang führen.
Um dies zu verhindern muss eine Verarbeitung ausgeführt werden
an niederfrequenten stochastischen Komponenten, um eine Anpassung
mit der gewünschten
Tonhöhe
zu erreichen. Diese Verarbeitung wird durch das Einstellmittel 23 für stochastische
Komponente ausgeführt.
-
Die
Verarbeitung der Einstellung der stochastischen Komponente wird
mit Bezug auf die 3A und 3B beschrieben
werden.
-
3A ist
ein Beispiel eines Amplitudenspektrums einer stochastischen Komponente,
welches von einer SMS Analyse eines stimmhaften Klangs erhalten
wurde. Es ist schwierig, den Effekt der deterministischen Komponente
vollständig
zu entfernen, und wie in dieser Figur gezeigt ist gibt es einige
Spitzen in der Nähe
der Harmonischen. Wenn diese stochastische Komponente verwendet
wird wie sie ist um einen stimmhaften Klang bei einer Tonhöhe verschieden
von der ursprünglichen
Tonhöhe
zu synthetisieren, werden Spitzen in der Nähe der niederfrequenten Harmonischen
auftauchen, welche nicht glatt zu der deterministischen Komponente
passen und als ein rauher Klang hörbar sind. Um dies zu vermeiden
kann die Frequenz der stochastischen Komponente derart verändert werden,
dass sie zu einer Veränderung
in der Tonhöhe
passt. Weil jedoch hochfrequente stochastische Komponenten weniger durch
die deterministische Komponente beeinflusst werden, ist es wünschenswert,
das ursprüngliche Amplitudenspektrum
zu verwenden wie es ist. Mit anderen Worten sollte es in dem niederfrequenten
Bereich ausreichend sein, die Frequenzachse gemäß der gewünschten Tonhöhe zu komprimieren
und zu expandieren. Jedoch darf die ursprüngliche Tonfarbe nicht zu dieser
Zeit verändert
werden. Es ist nämlich nötig, dass
die allgemeine Form des Amplitudenspektrums erhalten bleibt, während diese
Verarbeitung ausgeführt
wird.
-
3B zeigt
die Ergebnisse der Durchführung
der obigen Verarbeitung. Wie in der Figur gezeigt ist, wurden drei
Spitzen in den niederfrequenten Bereich gemäß der Tonhöhe nach rechts versetzt. Die
Lücken
zwischen Spitzen in dem niederfrequenten Bereich wurden schmaler
gemacht, und Spitzen in dem hochfrequenten Bereich bleiben unverändert. Die
Höhe von
jeder Spitze wird angepasst, um die allgemeine Form des Amplitudenspektrums
zu erhalten, was durch eine gebrochene Linie in der Figur angezeigt
ist.
-
In
dem Fall eines nicht stimmhaften Klangs ist die oben beschriebene
Verarbeitung nicht notwendig, weil er nicht durch die ursprüngliche
Tonhöhe
beeinflusst wird.
-
Die
stochastische Komponente, welche derart durch die obige Verarbeitung
erhalten wurde, kann ferner zusätzliche
Verarbeitung (wie Veränderung
der Form der spektralen Einhüllenden)
gemäß einem
Steuerungsparameter ausgesetzt werden. Ferner, um raue Geräusche zu
verringern, oder um dem Klang eine spezielle Charakteristik zu geben, kann
Bandpassfilterung angewandt werden, um Komponenten eines bestimmten
Frequenzbands zu erlauben, hindurch zu treten.
-
Einstellung
der Zeitdauer
-
In
der oben beschriebenen Verarbeitung werden die Fragmente mit ihrer
erhaltenen ursprünglichen
Länge verarbeitet,
so dass Singstimmensynthese nur in fester Zeiteinteilung durchgeführt werden
kann. Deshalb ist es abhängig
von der gewünschten
Zeiteinteilung nötig,
die Dauer des Fragments wie benötigt
zu verändern.
Zum Beispiel in dem Fall einer Phonemkette kann die Fragmentlänge kürzer gemacht
werden durch Ausdünnen
von Rahmen innerhalb des Fragments, oder länger gemacht werden durch Addition
von Duplikatrahmen innerhalb des Fragments. Ferner kann in dem Fall
eines einzigen Phonems (der Fall eines verlängerten Klangs) der verlängerte Teil
kürzer
gemacht werden durch Verwendung von nur einigen der Rahmen inner halb des
Fragments, oder länger
gemacht werden durch Wiederholen von Rahmen innerhalb des Fragments.
-
Beim
Wiederholen innerhalb von Rahmen innerhalb eines Fragments eines
verlängerten
Klangs ist es bekannt, dass Rauschen an dem Anschluss zwischen Rahmen
verringert werden kann durch Wiederholen in einer Art und Weise
des Fortschreitens in einer Richtung, Zurückkehren in der umgekehrten
Richtung, und dann nochmals Fortschreiten in der ursprünglichen
Richtung (mit anderen Worten eine Schleife innerhalb eines festen
Intervalls oder eines beliebigen Intervalls durchführen), anstatt
Wiederholen in einer einzigen Richtung. Jedoch in dem Fall, in welchem
die stochastische Komponente in Rahmen segmentiert wurde (von entweder
fester oder variabler Länge)
und als Frequenzdomänedaten
gespeichert wurde, gibt es ein Problem, wenn versucht wird, eine
Wellenform durch Wiederholen von Frequenzdomänenrahmendaten in ihrem ursprünglichen
Format zu synthetisieren. Der Grund dafür ist, dass wenn in der umgekehrten
Richtung vorangegangen wird, die Wellenform in dem Rahmen auch umgekehrt
werden muss mit Bezug auf die Zeit. Um eine solche Zeit umgekehrte
Wellenform von Rahmendaten der ursprünglichen Frequenzdomäne zu generieren
kann die Phase in der Frequenzdomäne umgekehrt und in die Zeitdomäne umgewandelt werden. 4 bis 4C zeigen
diesen Zustand.
-
4A zeigt
eine ursprüngliche
Wellenform einer stochastischen Komponente. Eine stochastische Komponente
für einen
verlängerten
Klang wird durch Wiederholen des Intervalls zwischen t1 und t2 generiert,
durch zunächst
Fortschreiten von t1 bis t2, Verarbeitung in der umgekehrten Zeitrichtung
nach dem Erreichen von t2, und dann beim Erreichen von t1 Verarbeitung
der Vorwärtszeitrichtung.
Wie vorstehend erwähnt
wurde die stochastische Komponente in Rahmen von entweder fester
oder variabler Länge segmentiert
und als Frequenzdomänendaten
gespeichert. Um eine Wellenform in der Zeitdomäne zu generieren wird eine
inverse FFT durchgeführt
an den Frequenzdomänenrahmendaten,
und eine Fensterfunktion und Überlappen
werden zur Synthese der Wellenform angewandt. In dem Fall, in wel chem
Synthese durch Lesen von Rahmen in der rückwärtigen Zeitrichtung durchgeführt wird,
wenn die Frequenzdomänenrahmendaten
umgewandelt werden wie sie sind in die Zeitdomäne, wie in 4B gezeigt
ist, verbleibt die Wellenform innerhalb von jedem Rahmen temporär unverändert und
nur die Rahmensequenz wird umgekehrt. Dies erzeugt Diskontinuitäten in der generierten
Wellenform, welche Rauschen und Verzerrung verursachen.
-
Eine
Lösung
für dieses
Problem mit der Generation einer Zeitdomänenwellenform von Rahmendaten
ist, die Rahmendaten derart vorzuverarbeiten, dass eine Zeit umgekehrte
Wellenform generiert werden wird.
-
Wenn
die ursprüngliche
Wellenform durch f(t) bezeichnet wird (welche aus dem Grund der
Einfachheit als unendlich kontinuierlich angenommen wird) und eine
Zeit umgekehrte Wellenform g(t), und jeweilige Fouriertransformierte
angewandt auf diese Wellenformen F(ω) und G(ω), gilt g(t) = f(–t), und
weil f(t) und g(t) beide reale Funktionen sind wird die folgende
Beziehung aufgebaut:
G(ω)
= f(ω)*
(wobei * ein komplex Konjugiertes anzeigt).
-
Wenn
durch Amplitude und Phase ausgedrückt, weil die Phase des komplex
Konjugierten umgekehrt werden wird, wird es erkannt werden, dass alle
Phasenspektren der Frequenzdomänenrahmendaten
umgekehrt werden sollen, um eine Zeit umgekehrte Wellenform zu generieren.
Auf diese Weise wird, wie in 4C gezeigt
ist, die Wellenform auch innerhalb jedes Rahmens mit Bezug auf die
Zeit umgekehrt, und Rauschen und Verzerrung werden nicht generiert.
-
Das
Zeitdauereinstellmittel 24 führt die oben beschriebene Fragmentkompression
(Ausdünnen der
Rahmen), Expansion (Wiederholung von Rahmen) und Schleifung (in
dem Fall von verlängerten Klängen) aus.
Durch eine solche Verarbeitung kann die Dauer (oder in anderen Worten
die Länge
der Rahmenzeichenkette) von jedem ausgelesenen Fragment auf eine
gewünschte
Länge eingestellt werden.
-
Einstellung
des Fragmentpegels
-
Ferner
kann Rauschen hörbar
sein, wenn die Ungleichheit zwischen Formen von spektralen Einhüllenden
der deterministischen Komponente und der stochastischen Komponente
zu groß ist
an der Aneinanderfügungsgrenze,
wo ein Fragment an das andere aneinandergefügt ist. Das Durchführen eines Glättungsverfahrens über eine
Vielzahl von Rahmen an ihren Aneinanderfügungsgrenzen kann dieses Problem
eliminieren.
-
Der
Glättungsvorgang
wird mit Bezug auf die 5 bis 7 beschrieben
werden.
-
Weil
stochastische Komponenten relativ schwer zu hören sind auch wenn es Unterschiede
in der Tonfarbe und dem Pegel an der Fragmentaneinanderfügungsgrenze
gibt, wird hier ein Glättungsvorgang
nur für
deterministische Komponenten durchgeführt. Zu dieser Zeit wird, um
die Daten einfacher zu verarbeiten zu machen und um die Berechnungen zu
vereinfachen, wie in 5 gezeigt ist, eine spektrale
Einhüllende
einer deterministischen Komponente als aus einer Gradientenkomponenten,
ausgedrückt
durch eine gerade Linie oder Exponentialfunktion, und einer Resonanzkomponente,
ausgedrückt durch
eine Exponential- oder andere Funktion, bestehend angesehen. Hier
wird die Stärke
der Resonanzkomponente berechnet basierend auf der Gradientenkomponente,
und eine spektrale Einhüllende
wird durch Addition der Gradientenkomponente und der Resonanzkomponente
ausgedrückt.
Mit anderen Worten wird die deterministische Komponente als eine
Funktion ausgedrückt,
welche die spektrale Einhüllende
unter Verwendung der Gradienten- und der Resonanzkomponenten beschreibt.
Hier wird der Wert der Gradientenkomponente, erweitert bis auf 0 Hz,
als die Verstärkung
der Gradientenkomponente bezeichnet.
-
Als
nächstes
sollen die zwei Fragmente von „a-i" und „i-a" wie in 6 gezeigt
aneinandergefügt werden.
Weil diese individuellen Fragmente aus se paraten Aufnahmen gesammelt
wurden gibt es eine Fehlanpassung in der Tonfarbe und dem Pegel
von „i" bei der Aneinanderfügungsgrenze.
Wie in 6 gezeigt ist erzeugt dies eine Unebenheit in
der Wellenform an der Aneinanderfügungsgrenze, und wird als Rauschen
gehört
werden. Jedoch kann an einer Aneinanderfügungsgrenze eine Unebenheit
eliminiert werden und Rauschen verhindert werden durch Überblenden
von individuellen Parametern der Gradienten- und der Resonanzkomponenten,
welche in jedem Fragment enthalten sind, über mehrere Rahmen, zentriert
auf und sich erstreckend vor und nach der Aneinanderfügungsgrenze.
-
Wie
in 7 gezeigt ist wird zum Überblenden der Parameter jeder
Fragmentparameter mit einer Funktion multipliziert, welche 0,5 an
der Aneinanderfügungsgrenze
wird, und dann werden die Parameter zusammenaddiert. Das Beispiel
von 7 zeigt die sich verändernden Stärken der primären Resonanzkomponenten
der „a-i" und „i-a" Fragmente (basierend
auf der Gradientenkomponente) und wie die primären Komponenten überblendet
werden.
-
Auf
diese Art und Weise kann Rauschen an der Aneinanderfügungsgrenze
zwischen Fragmenten vermieden werden durch Multiplizieren von jedem
Parameter (jede Resonanzkomponente in diesem Fall) mit einem Überblendparameter,
und dann Aufaddieren derselben.
-
Anstatt
des Durchführens
der oben beschriebenen Überblendung
können
die Pegel von individuellen deterministischen und stochastischen
Komponenten von Fragmenten derart eingestellt sein, dass die Fragmentamplituden
vor und nach der Aneinanderfügungsgrenze
fast gleich gemacht werden. Die Pegeleinstellung kann durch Multiplizieren
der Amplitude von jedem Fragment mit entweder einem konstanten oder
einem zeitlich veränderlichen
Koeffizienten durchgeführt
werden.
-
Ein
Beispiel des ,Pegeleinstellens wird nun für den Fall beschrieben, in
welchem „a-i" und „i-a" aneinandergefügt und synthetisiert
werden sollen, ähnlich
zu dem obigen Fall.
-
Hier
wird betrachtet werden, dass die Verstärkung der Gradientenkomponente
von jedem der Fragmente passt.
-
Wie
in 8A und 8B gezeigt
ist wird zunächst
die Differenz zwischen der Verstärkung
der tatsächlichen
Gradientenkomponente von jedem der Fragmente der „a-i" und „i-a" und einem Gewinn,
welcher durch lineare Interpolation von Verstärkungswerten zwischen den ersten
und letzten Rahmen (gezeigt als gestrichelte Linien in den Figuren)
von jedem Fragment berechnet.
-
Als
nächstes
werden typische Sampels (der Parameter der Gradienten- und Resonanzkomponenten)
von jedem der „a" und „i" Phoneme erhalten. Die „a-i" Daten der ersten und letzten Rahmen
können
zum Beispiel verwendet werden, um diese typischen Sampels zu erhalten.
-
Basierend
auf diesen typischen Sampels wird zunächst eine lineare Interpolation
des Werts des Parameters (zum Beispiel Verstärkung) der Gradientenkomponente
durchgeführt.
Als nächstes
werden durch sequentielles Zusammenaddieren der Ergebnisse der Interpolation
der oben berechneten Verstärkungsdifferenz,
wie in 8C gezeigt ist, die Werte der
Gradientenkomponentenparameter der zwei Fragmente bei der Grenze
gleich sein und deshalb wird es keine Diskontinuität in der
Verstärkung der
Gradientenkomponente geben. Diskontinuitäten in anderen Parametern,
wie der Resonanzkomponente, können
auch auf eine ähnliche
Art und Weise verhindert werden.
-
Alternativ
zu dem oben beschriebenen Verfahren kann das Pegeleinstellen durchgeführt werden,
zum Beispiel durch Umwandeln von deterministischen Komponentendaten
in Wellenformdaten und dann Einstellen der Pegel in der Zeitdomäne.
-
Nachdem
das Fragmentpegeleinstellmittel 25 das oben beschriebene
Glätten
oder Pegel Einstellen zwischen Fragmenten durchgeführt hat,
fügt das
Fragmentaneinanderfügungsmittel 26 die
Fragmente zusammen.
-
Als
nächstes
generiert das Erzeugungsmittel für
deterministische Komponente eine harmonische Serie, welche zu der
gewünschten
Tonhöhe
korrespondiert, während
die erhaltene spektrale Einhüllende
der deterministischen Komponente erhalten wird, wodurch die tatsächliche
deterministische Komponente erhalten wird. Durch Addieren der stochastischen
Komponente zu der tatsächlichen
deterministischen Komponente wird ein synthetisierter gesungener
Klang erhalten, welcher dann in ein Zeitdomänensignal umgewandelt wird.
Zum Beispiel in dem Fall, in welchem sowohl die deterministische
Komponente wie auch die stochastische Komponente als Frequenzkomponenten
gespeichert sind, werden die beiden Komponenten zusammenaddiert,
und die resultierende Summe wird dann einer inversen FFT und der
Anwendung von Fensterung und Überlappen ausgesetzt,
wodurch eine synthetisierte Wellenform erhalten wird.
-
Es
soll erwähnt
werden, dass die deterministische Komponente und die stochastische
Komponente einer inversen FFT und der Anwendung von Fensterung und Überlappen
separat für
jede Komponente ausgesetzt werden können, und dann können die
somit verarbeiteten Komponenten zusammenaddiert werden. Ferner kann
eine Sinuswelle korrespondierend zu jeder Harmonischen der deterministischen
Komponente generiert werden, welche dann zu einer stochastischen
Komponente addiert wird, welche durch Durchführung einer inversen FFT und Anwendung
von Fensterung und Überlappen
erhalten wird.
-
Die 9A und 9B sind
ein funktionelles Blockdiagramm, welches in größerer Detailliertheit als die 2A und 2B die
Konfiguration der Sing stimmensynthetisiervorrichtung gemäß der vorliegenden
Erfindung zeigen. In den 9A und 9B werden
die gleichen Elemente und Teile wie in den 2A und 2B durch
identische Bezugszeichen bezeichnet. Ferner enthält in dem gezeigten Beispiel
die Phonem (Sprachfragment) Datenbank 10 deterministische
Komponenten, welche Information der spektralen Einhüllenden
der Amplitude davon für
jeden Rahmen enthalten, und stochastische Komponenten, welche Information
der spektralen Einhüllenden
der Amplitude und Information der spektralen Einhüllenden
der Phase davon für
jeden Rahmen enthalten.
-
In
den 9A und 9B bezeichnet
Bezugszeichen 31 ein Mittel zum Separieren von Text und
Melodie, welches Textdaten und Melodiedaten aus den Musiknotendaten
für einen
Song, für
welchen eine Singstimme synthetisiert werden soll, separiert, und 32 ein
Mittel zur Text-zu-Phonetik Codekonversion, welches die Textdaten
von dem Mittel 31 zum Separieren von Text und Melodie in
eine Zeichenkette von phonetisch codierten Daten (Phonemen) konvertiert.
Eine Phonemzeichenkette von dem Mittel 32 zur Text-zu-Phonetik Codekonversion
wird in das Mittel 21 zur Phonem (phonetischer Code) -zu-Fragment
Konversion eingegeben. Verschiedene Steuerungsparameter, wie Tempo,
können
eingegeben werden, um die Musikaufführung zu steuern. Tonhöheninformation
und Dynamikinformation wie Dynamikzeichen, welche aus den Musiknotendaten durch
das Mittel 31 zum Separieren von Text und Melodie separiert
wurden, und die Steuerungsparameter, werden in ein Mittel 33 zur
Tonhöhenbestimmung eingegeben,
welches wiederum die Tonhöhe,
Dynamik, und das Tempo des gesungenen Klangs bestimmt. Fragmentinformation
von dem Mittel 21 zur Phonem-zu-Fragment Konversion und
Information wie Tonhöhe,
Dynamik, und Tempo von dem Tonhöhenbestimmungsmittel 33 werden
in ein Fragmentauswahlmittel 34 eingegeben. Das Fragmentauswahlmittel 34 durchsucht
die Sprachfragmentdatenbank (Phonemdatenbank) 10 und gibt
die am meisten geeigneten Fragmentdaten aus. Zu dieser Zeit, wenn
keine Fragmentdaten gespeichert sind, welche vollständig zu
den Suchbedingungen passen, werden Daten von einem oder einer Vielzahl
von ähnlichen
Fragmenten ausgelesen.
-
Daten
der deterministischen Komponente, welche in den Fragmentdaten enthalten
sind, welche aus dem Fragmentauswahlmittel 34 ausgegeben werden,
werden in das Mittel 22 zum Einstellen der deterministischen
Komponente eingegeben. In dem Fall, in welchem eine Vielzahl von
Fragmentdaten durch das Fragmentauswahlmittel 34 ausgelesen wurde,
führt ein
Spektraleinhüllendeninterpolierer 35 innerhalb
des Mittels 22 zum Einstellen der deterministischen Komponente
Interpolation derart aus, dass die Suchbedingungen erfüllt werden,
und wenn notwendig ändert
ein Spektraleinhüllenden-Former 36 die
Form der spektralen Einhüllenden
gemäß den Steuerungsparametern.
-
Andererseits
werden Daten der stochastischen Komponente, welche in den Fragmentdaten enthalten
sind, welche aus dem Fragmentauswahlmittel 34 ausgegeben
werden, in das Mittel 23 zum Einstellen der stochastischen
Komponente eingegeben. Das Mittel 23 zum Einstellen der
stochastischen Komponente wird mit Tonhöheninformation von dem Tonhöhenbestimmungsmittel 33 beliefert,
und wie mit Bezug auf 3 beschrieben
wurde, komprimiert oder expandiert es die Frequenzachse für niederfrequente
stochastische Komponenten gemäß einer
gewünschten
Tonhöhe.
Nämlich
teilt ein Bandpassfilter 37 das Amplitudenspektrum und
das Phasenspektrum einer stochastischen Komponente in die drei Bereiche
von niedriger Frequenz, mittlerer Frequenz und hoher Frequenz. Frequenzachsenkompressor-Expander 38 und 39 komprimieren
oder expandieren jeweils die Frequenzachse gemäß der gewünschten Tonhöhe für die niederfrequenten
und mittelfrequenten Bereiche. Signale der nieder- und mittelfrequenten
Bereiche, welche aus der Frequenzachsenkompression oder -expansion
resultieren, und ein Signal des hochfrequenten Bereichs basierend
auf dem hohen Frequenzbereich, für
welchen keine Frequenzachsenkompression oder -expansion durchgeführt wurde,
werden zu einem Spitzeneinsteller 40 geliefert, wo Spitzenwerte
von diesen Signalen derart eingestellt werden, dass die Form der spektralen
Einhüllenden
von dieser stochastischen Komponente erhalten werden.
-
Die
Daten der deterministischen Komponente von dem Mittel 22 zum
Einstellen der deterministischen Komponente und die Daten der stochastischen
Komponente von dem Mittel 23 zum Einstellen der stochastischen
Komponente werden in das Zeitdauereinstellmittel 24 eingegeben.
Dann ändert
das Zeitdauereinstellmittel 24 die Zeitlänge des
Fragments gemäß einer
Klangzeitlänge,
welche durch die Melodieinformation und die Tempoinformation bestimmt
wird. Wie vorstehend beschrieben führt in dem Fall, in welchem
die Zeitdauer des Fragments kürzer
gemacht werden soll, der Zeitachsen-Kompressor-Expander 43 den
Vorgang des Ausdünnens von
Rahmen aus und in dem Fall, in welchem die Zeitdauer länger gemacht
werden soll, führt
ein Wiederholungs- bzw. Schleifenabschnitt 42 die Wiederholungsverarbeitung
aus, welche mit Bezug auf die 4A bis 4C beschrieben
wird.
-
Die
Fragmentdaten, deren Zeitdauer durch das Zeitdauereinstellmittel 24 eingestellt
wurde, wird einem Pegeleinstellvorgang durch das Fragmentpegeleinstellmittel 25 ausgesetzt,
wie bereits mit Bezug auf die 5 bis 8C beschrieben,
und die deterministischen Komponenten und stochastischen Komponenten
der Pegel eingestellten Fragmentdaten werden jeweils in jeweilige
Zeitserien durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt.
-
Die
deterministischen Komponenten (Spektraleinhüllendeninformation) der Fragmentdaten, welche
durch das Fragmentaneinanderfügungsmittel 26 aneinandergefügt wurden,
werden in das Erzeugungsmittel 27 der deterministischen
Komponente eingegeben. Dieses Erzeugungsmittel 27 der deterministischen
Komponente wird mit Tonhöheninformation
von dem Tonhöhenbestimmungsmittel 33 beliefert,
und basierend auf der Information der spektralen Einhüllenden,
generiert es harmonische Komponenten korrespondierend zu der Tonhöheninformation, von
welcher die tatsächliche
deterministische Komponente für
jeden Rahmen erhalten wird.
-
Als
nächstes
synthetisiert der Addierer 28 ein Frequenzdomänensignal
für jeden
Rahmen durch Kombinieren der Amplitude der stochastischen Komponente
und der Information der spektralen Einhüllenden der Phase von dem Fragmentaneinanderfügungsmittel 26 mit
der Information des Amplitudenspektrums der Komponente von dem Erzeugungsmittel 27 der
deterministischen Komponente.
-
Dann
wird das Frequenzdomänensignal
für jeden
Rahmen, welches somit synthetisiert wurde, durch ein Mittel 51 zur
inversen Fouriertransformation (inverse FFT Mittel) in ein Zeitdomänenwellenformsignal
umgewandelt. Als nächstes
multipliziert ein Fensterungsmittel 52 das Zeitdomänenwellenformsignal
mit einer Fensterungsfunktion, welche zu der Rahmenlänge korrespondiert,
und ein Überlappmittel 53 synthetisiert
ein Zeitwellenformsignal durch Überlappen
der Zeitdomänenwellenformsignale
für jeweilige
Rahmen.
-
Dann
konvertiert ein D/A Konversionsmittel 54 das derart synthetisierte
Zeitwellenformsignal in ein Analogsignal, welches über einen
Verstärker 55 zu
einem Lautsprecher 56 ausgegeben wird, um davon abgestrahlt
zu werden.
-
10 zeigt
ein Beispiel der Konstruktion einer Hardwarevorrichtung, welche
verwendet wird, um das spezifische in 9A und 9B gezeigte Beispiel
zu betreiben. In dieser Figur bezeichnet Bezugszeichen 61 eine
zentrale Verarbeitungseinheit (CPU = central processing unit), welche
den Gesamtbetrieb der Singstimmensynthetisiervorrichtung steuert, 62 ein
ROM, welches verschiedene Programme, Konstanten und andere Daten
speichert, 63 ein RAM, welches ein Arbeitsgebiet und verschiedene
Daten speichert, 64 einen Datenspeicher, 65 einen
Zeitgeber, welcher voreingestellte Zeitgeberinterrupts oder Ähnliches
generiert, 66 eine Text-Melodieeingabeeinheit, welche Musiknoten,
Text und andere Daten eines aufzuführenden Songs eingibt, 67 eine
Steuerungsparametereingabeeinheit, welche verschiedene Steuerungsparameter
betreffend der Aufführung eingibt, 68 ein
Display, welches verschiedene Arten von Information anzeigt, 69 einen
B/A Konvertierer, welcher die synthetisierten Singstimmendaten in
ein Analogsignal konvertiert, 70 einen Verstärker, 71 einen
Lautsprecher, und 72 einen Bus, welcher all die oben stehend
genannten Komponentenelemente verbindet.
-
Die
Phonemdatenbank 10 wird in das ROM 62 oder das
RAM 63 geladen. Ein gesungener Klang wird in der oben beschriebenen
Art und Weise gemäß den durch
die Text-Melodieeingabeeinheit 66 und der Steuerungsparametereingabeeinheit 67 eingegebenen
Daten synthetisiert, und ein gesungener Klang wird aus dem Lautsprecher 71 ausgegeben.
-
Die
Konstruktion der Hardwarevorrichtung von 10 ist
identisch mit derjenigen eines normalen Vielzweckcomputers. Die
oben beschriebenen funktionalen Blöcke der Singstimmensynthetisiervorrichtung
der vorliegenden Erfindung können
auch durch ein Anwendungsprogramm realisiert werden, welches durch
einen Vielzweckcomputer ausgeführt wird.
-
In
dem oben beschriebenen Ausführungsbeispiel
sind die Fragmentdaten, welche in der Datenbank 10 gespeichert
sind, SMS Daten, welche typischerweise aus einer spektralen Einhüllenden
der deterministischen Komponente für jede Einheitszeit (Rahmen),
und Amplitude und Phasenspektrumseinhüllenden der stochastischen
Komponente für
jeden Rahmen besteht. Wie oben stehend beschrieben kann durch Speichern
von Fragmentdaten von verlängerten
Klängen
wie langen Vokalen, ein hochqualitativer gesungener Klang synthetisiert
werden. Jedoch gibt es insbesondere in dem Fall von verlängerten
Klängen
das Problem der großen
Datengrößen aufgrund
der Speicherung von deterministischen und stochastischen Komponenten
für jede
Zeitinstanz (Rahmen) während
des Intervalls des verlängerten Klangs.
-
In
dem Fall der deterministischen Komponente ist es ausreichend, Daten
für jede
Frequenz zu speichern, welche ein fanzzahliges Vielfaches der fundamentalen
Tonhöhe
ist. Wenn zum Beispiel die fundamentale Tonhöhe 150 Hz ist und die maximale Frequenz
ist 22025 Hz, müssen
die Amplituden- (oder
Phasen-) Daten der 150 Hz Frequenz gespeichert werden. Anderer seits
wird in dem Fall von stochastischen Komponenten eine wesentlich
größere Menge
von Daten benötigt,
das bedeutet, die Amplitudenspektrumseinhüllende und Phasenspektrumseinhüllende müssen für alle Frequenzen
gespeichert sein. Wenn 1024 Punkte innerhalb eines Rahmens gesampelt
werden, werden die Amplituden- und Phasendaten für 1024 Frequenzen benötigt. Insbesondere
in dem Fall von verlängerten
Klängen
wird die Menge der Daten extrem groß, weil Daten für alle Rahmen
innerhalb des Intervalls des verlängerten Klangs gespeichert
werden müssen.
Ferner müssen die
Daten des verlängerten
Klangintervalls für
jedes der individuellen Phoneme vorgesehen werden, und wie oben
stehend beschrieben sollen die Daten bevorzugterweise für jede von
verschiedenen Tonhöhen
vorgesehen werden, um die Natürlichkeit
zu erhöhen,
aber dies führt
zu weiterer Erhöhung
in der Quantität
von Daten in der Datenbank.
-
Deshalb
wird unten stehend ein anderes Ausführungsbeispiel der vorliegenden
Erfindung, welches ermöglicht,
die Größe der Datenbank
extrem klein zu machen beschrieben. Gemäß diesem Ausführungsbeispiel
wird ein Mittel hinzugefügt
zum Weißmachen
der spektralen Einhüllenden,
wenn Daten der stochastischen Komponente von verlängerten
Klängen
gespeichert werden, um die Datenbank 10 zu generieren.
Auch wird ein Mittel zum Generieren einer spektralen Einhüllenden
der stochastischen Komponente während
der Synthese eines gesungenen Klangs innerhalb des Mittels zum Einstellen
der stochastischen Komponente vorgesehen. Somit kann die Datengröße verringert
werden, weil es unnötig
ist, individuelle spektrale Einhüllenden
der stochastischen Komponenten von verlängerten Klängen zu speichern.
-
11 zeigt
ein Beispiel von spektralen Einhüllenden
der deterministischen und stochastischen Komponenten eines verlängerten
Klangs. Wie in der Figur gezeigt ist ähnelt sich in dem Fall eines
verlängerten
Klangs die spektrale Einhüllende
der stochastischen Komponente im Allgemeinen mit derjenigen der
deterministischen Komponente. Nämlich
sind die Orte von Spitzen und Tälern
ungefähr
ausgerichtet. Deshalb kann eine geeignete spektrale Einhüllende der
stochastischen Komponente durch Durchführung von einer beliebi gen
Bearbeitung (wie Verstärkungseinstellung,
Einstellung des gesamten Gradienten, etc.) an der spektralen Einhüllenden
der deterministischen Komponente erhalten werden.
-
Ferner
hat in dem Fall eines verlängerten Klangs
jede Frequenzkomponente in jedem Rahmen innerhalb eines bestimmten
Intervalls, welches verarbeitet werden soll, eine leichte Fluktuation,
welche wichtig ist. Der Grad dieser Fluktuation wird nicht als sich
stark verändernd
betrachtet, auch wenn ein Vokal sich verändert. Deshalb wird eine Amplitudenspektrumseinhüllende einer
stochastischen Komponente vorab abgeflacht, durch ein Mittel (weiß machen),
zum Eliminieren des Einflusses der Tonfarbe des ursprünglichen
Vokals. Das Spektrum erscheint flach aufgrund des Weißmachens.
Dann wird zur Zeit der Synthese eine spektrale Einhüllende der
stochastischen Komponente bestimmt, basierend auf der Form der spektralen
Einhüllenden
der deterministischen Komponente und die bestimmte spektrale Einhüllende der
deterministischen Komponente wird mit der weiß gemachten spektralen Einhüllenden multipliziert,
um ein Amplitudenspektrum der stochastischen Komponente zu erhalten.
Mit anderen Worten wird nur die spektrale Einhüllende der stochastischen Komponente
generiert, basierend auf der spektralen Einhüllenden der deterministischen Komponente,
während
die Phase, welche in der ursprünglichen
stochastischen Komponente des verlängerten Klangs enthalten ist,
verwendet wird, wie sie ist. Auf diese Art und Weise können stochastische Komponenten
von verschiedenen verlängerten
Vokalklangdaten generiert werden, basierend auf weiß gemachten
verlängerten
Klangdaten.
-
12 zeigt
einen Vorgang zum Generieren der Phonemdatenbank 10 gemäß diesem
Ausführungsbeispiel.
In der Figur werden Komponentenelemente und Teile korrespondierend
zu denjenigen in 1 durch identische Bezugszeichen
bezeichnet, deren Beschreibung vermieden wird. Wie in 12 gezeigt
ist hat dieses Ausführungsbeispiel
für verlängerte Klänge ein
spektrales Weißmachmittel 80,
welches das Amplitudenspektrum einer stochastischen Komponente weiß macht,
welches von dem Segmentierer 14 ausgegeben wurde. Deshalb
sind die einzigen gespeicherten Daten das weiß gemachte Amplitudenspektrum,
als das Amplitudenspektrum einer stochastischen Komponente des verlängerten Klangs,
und das Phasenspektrum, als die stochastische Komponente von allen
Fragmentdaten.
-
13 zeigt
ein Beispiel der Konfiguration des spektralen Weißmachmittels 80.
-
Wie
vorstehend erwähnt
wird das Amplitudenspektrum der stochastischen Komponente eines verlängerten
Klangs durch das spektrale Weißmachmittel 80 weiß gemacht,
und erscheint flach. Jedoch werden zu dieser Zeit die spektralen
Einhüllenden von
allen Rahmen innerhalb eines Intervalls zum Verarbeiten nicht vollständig flach
gemacht, (das heißt nicht
der gleiche spektrale Wert bei allen Frequenzen). Es ist wichtig,
dass die kleinen zeitlichen Fluktuationen von jeder Frequenz beibehalten
werden, während
die Form der spektralen Einhüllenden
in jedem Rahmen fast flach gemacht wird. Somit generiert wie in 13 gezeigt
ist ein typischer Generator 81 der spektralen Einhüllenden
der Amplitude eine typische Einhüllende
des Amplitudenspektrums innerhalb eines Intervalls zum Verarbeiten,
ein Generator 82 des Inversen der spektralen Einhüllenden generiert
das Inverse von jeder Frequenzkomponente der spektralen Einhüllenden,
und ein Filter 83 multipliziert die Ausgabe des Generators 82 des
Inversen der spektralen Einhüllenden
mit individuellen Frequenzkomponenten der spektralen Einhüllenden von
jedem Rahmen.
-
Hier
kann auch eine typische Einhüllende von
einem Amplitudenspektrum innerhalb des Intervalls generiert werden,
zum Beispiel durch Berechnen eines Durchschnittswerts des Amplitudenspektrums
für jede
Frequenz und Verwendung dieser Durchschnittswerte als die typische
spektrale Einhüllende.
Alternativ kann der Maximalwert von jeder Frequenzkomponente innerhalb
des Intervalls als die typische spektrale Einhüllende verwendet werden.
-
Als
ein Ergebnis können
weiß gemachte
Amplitudenspektren von dem Filter 83 erhalten werden. Ferner
werden die Phasenspektren direkt als stochastische Komponenteninformation
des Fragments gespeichert.
-
Auf
diese Art und Weise wird die stochastische Komponente eines verlängerten
Klangs weiß gemacht,
und die spektrale Einhüllende
der deterministischen Komponente wird während der Synthese verwendet,
um die stochastische Komponente zu generieren. Deshalb, wenn die
weiß gemachte
stochastische Komponente eine stochastische Komponente ist, kann
sie allgemein für
alle Vokale verwendet werden. Mit anderen Worten, in dem Fall eines
Vokals, ist eine einzige weiß gemachte
stochastische Komponente eines verlängerten Klangs ausreichend.
Natürlich
kann eine Vielzahl von weiß gemachten
stochastischen Komponenten vorgesehen sein.
-
14A und 14B zeigen
einen Synthesevorgang, welcher in dem Fall ausgeführt wird,
in welchem die weiß gemachten
Amplitudenspektren der stochastischen Komponenten der verlängerten Klänge in der
oben beschriebenen Art und Weise gespeichert sind. In der Figur
sind Komponentenelemente und Teile korrespondierend zu denjenigen
in 2A und 2B durch
identische Bezugszeichen bezeichnet, deren Beschreibung vermieden
wird. Wie in der Figur gezeigt ist, ist ein Mittel 90 zum
Generieren der spektralen Einhüllenden,
zu welchem stochastische Komponenten (weiß gemachte Amplitudenspektren)
von Fragmenten eingegeben werden, welche von der Datenbank 10 ausgelesen
wurden, auf der stromaufwärts
liegenden Seite des Einstellmittels 23 der stochastischen
Komponente hinzugefügt.
-
Wenn
die weiß gemachte
stochastische Komponente eines verlängerten Klangs aus der Phonemdatenbank 10 ausgelesen
wird, berechnet das Erzeugungsmittel 90 der spektralen
Einhüllenden
die spektrale Einhüllende
der Amplitude der stochastischen Komponente basierend auf der spektralen
Einhüllenden
der deterministischen Komponente, wie oben stehend beschrieben.
Zum Beispiel wird ein Verfahren betrachtet, in welchem unter der
Annahme, dass die Komponente bei der maximalen Frequenz sich nicht
verän dert,
die spektrale Einhüllende der
Amplitude der stochastischen Komponente durch Veränderung
von nur des Gradienten der spektralen Einhüllenden bestimmt wird.
-
Dann
wird die bestimmte spektrale Einhüllende der Amplitude zusammen
mit dem Phasenspektrum der stochastischen Komponente, welches zur
gleichen Zeit gelesen wurde, in das Einstellmittel 23 der
stochastischen Komponente eingegeben. Die nachfolgende Verarbeitung
ist die Gleiche, wie in den 2A und 2B gezeigt
wurde.
-
Wie
oben stehend beschrieben können, wenn
die Amplitudenspektren von stochastischen Komponenten von verlängerten
Klängen
weiß gemacht
und gespeichert werden sollen, die weiß gemachten Amplitudenspektren
von stochastischen Komponenten von einigen der verlängerten
Klängen gespeichert
werden, während
die Amplitudenspektren von stochastischen Komponenten der anderen verlängerten
Klänge
nicht gespeichert werden.
-
In
diesem Fall, wenn einer der anderen verlängerten Klänge synthetisiert werden soll,
werden die Amplitudenspektren der stochastischen Komponenten dieses
verlängerten
Klangs nicht in die Fragmentdaten des verlängerten Klangs eingefügt. Deshalb
wird ein Phonem, welches so stark wie möglich dem Phonem, welches synthetisiert
werden soll, ähnelt,
aus der Datenbank extrahiert. Unter Verwendung der stochastischen
Komponente des verlängerten
Klangs können
Amplitudenspektren der stochastischen Komponenten in der oben beschriebenen
Art und Weise generiert werden.
-
Ferner
können
Phoneme, von welchen verlängerte
Klänge
generiert werden können,
in eine oder mehrere Gruppen aufgeteilt werden, und unter Verwendung
von verlängerten
Klangdaten, welche zu der Gruppe gehören, welche mit den zu synthetisierenden
Phonemen angehörig
sind, Amplitudenspektren der stochastischen Komponenten in der oben
beschriebenen Art und Weise generiert werden.
-
Wenn
ferner die Amplitudenspektren der stochastischen Komponenten, welche
von den weiß gemachten
Amplitudenspektren und den Amplitudenspektren der deterministischen
Komponenten erhalten wurden, verwendet werden, werden alle oder
ein Teil der Frequenzachsen der Phasenspektren der stochastischen
Komponente derart versetzt, dass Daten, welche anzeigend für Harmonische
und der Umgebungen korrespondierend zu der Tonhöhe der ursprünglichen
Daten sind, anzeigend für
harmonische und deren Umgebungen korrespondierend zu der gewünschten
Tonhöhe,
bei welcher der Klang wiedergegeben werden soll. Mit anderen Worten kann
ein natürlicherer
synthetisierter Klang durch Verwendung der Phasendaten, welche anzeigend
für Harmonische
und deren Umgebungen sind, wie sie sind, während der Synthese, erhalten
werden.
-
Gemäß diesem
Ausführungsbeispiel
muss die Datenbank keine stochastische Komponente des verlängerten
Klangs für
jeden Vokal speichern, und deshalb kann die Menge von Daten verringert
werden. Ferner kann, in dem Fall, in welchem die spektrale Einhüllende der
stochastischen Komponente durch Veränderung von nur dem Gradienten
der spektralen Einhüllenden
bestimmt wird, der „Grad von
Heiserkeit" der
synthetisierten Stimme durch Korrelation der Veränderung in dem Gradienten mit der
Heiserkeit gesteuert werden.
-
Insbesondere
wird die synthetisierte Stimme heiser sein, wenn sie viele stochastische
Komponenten enthält,
und wird glatt sein, wenn sie wenige stochastische Komponenten enthält. Deshalb,
wenn der Gradient steil ist (die Verstärkung bei 0 Hz ist groß) wird
die Stimme heiser sein, und wenn der Gradient klein ist (die Verstärkung bei
0 Hz ist klein) wird die Stimme glatt sein. Deshalb, wie in 15 gezeigt
ist, wird der Gradient der spektralen Einhüllenden der stochastischen
Komponente gesteuert gemäß einem Parameter,
welcher den Grad von Heiserkeit ausdrückt, um dadurch die Heiserkeit
der synthetisierten Stimme zu steuern.
-
16 zeigt
ein Beispiel des Erzeugungsmittels 90 der spektralen Einhüllenden,
welches angepasst ist, um den Grad von Heiserkeit zu steuern. Ein
Generator 91 der spektralen Einhüllenden multipliziert die spektrale
Einhüllende
der deterministischen Komponente mit einem Gradientenwert, welcher
zu der Heiserkeitsinformation korrespondiert, welche als ein Steuerungsparameter
geliefert wird. Ein Filter 92 addiert Charakteristika,
welche somit erhalten werden, zu dem weiß gemachten Amplitudenspektrum
der stochastischen Komponente. Dann werden die spektrale Einhüllende der
Phase der stochastischen Komponente und die Ausgabe von dem Filter 92 als
stochastische Komponentendaten in das Einstellmittel 23 der
stochastischen Komponente eingegeben.
-
Es
ist auch möglich,
die spektrale Einhüllende
der deterministischen Komponente in einer geeigneten Art und Weise
zu modellieren und einen Parameter des Models mit dem Grad von Heiserkeit
zu korrelieren. Zum Beispiel kann die spektrale Einhüllende der
stochastischen Komponente auch durch Korrelation des Grads von Heiserkeit
und irgendeinem der Parameter (ein Parameter betreffend des Gradienten),
welcher in der Formulierung der spektralen Einhüllenden der deterministischen
Komponente verwendet wurde, durch Veränderung des Parameters berechnet
werden.
-
Ferner
kann der Grad von Heiserkeit konstant sein oder über die Zeit verändert werden.
In dem Fall von Zeit veränderlicher
Heiserkeit kann ein interessanter Effekt erhalten werden, in welchem eine
Sprache kontinuierlich heiserer wird während der Verlängerung
eines Phonems.
-
Ferner
ist es für
den alleinigen Zweck der Steuerung des Grads von Heiserkeit unnötig, das weiß gemachte
Amplitudenspektrum einer stochastischen Komponente in der Phonemdatenbank 10 wie oben
stehend beschrieben zu speichern. Wie in dem ersten oben stehend
beschriebenen Ausführungsbeispiel
wird das Amplitudenspektrum der stochastischen Komponente eines
verlängerten
Klangs gespeichert wie es ist, ähnlich
wie für
andere Fragmente. Während
der Synthese wird ein flaches Spektrum durch Erhalten eines typischen
Amplitudenspektrums innerhalb des verlängerten Klangintervalls, und Multiplikation
des Inversen davon mit dem Amplitudenspektrum der stochastischen
Komponente, generiert. Dann wird basierend auf dem Amplitudenspektrum
der deterministischen Komponente das Amplitudenspektrum der stochastischen
Komponente gemäß dem Parameter,
welcher den Grad von Heiserkeit steuert, berechnet. Das flache Spektrum
wird dann mit dem berechneten Amplitudenspektrum der stochastischen
Komponente multipliziert, um das Amplitudenspektrum der stochastischen
Komponente zu erhalten.