DE60131521T2 - Method and device for controlling the operation of a device or a system, and system having such a device and computer program for carrying out the method - Google Patents
Method and device for controlling the operation of a device or a system, and system having such a device and computer program for carrying out the method Download PDFInfo
- Publication number
- DE60131521T2 DE60131521T2 DE2001631521 DE60131521T DE60131521T2 DE 60131521 T2 DE60131521 T2 DE 60131521T2 DE 2001631521 DE2001631521 DE 2001631521 DE 60131521 T DE60131521 T DE 60131521T DE 60131521 T2 DE60131521 T2 DE 60131521T2
- Authority
- DE
- Germany
- Prior art keywords
- emotion
- variable
- parameter
- value
- measure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000004590 computer program Methods 0.000 title claims description 4
- 230000008451 emotion Effects 0.000 claims description 218
- 230000008859 change Effects 0.000 claims description 24
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 36
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000007935 neutral effect Effects 0.000 description 9
- 230000000630 rising effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 7
- 230000036651 mood Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241000665848 Isca Species 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010061619 Deformity Diseases 0.000 description 1
- 241000220010 Rhode Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Toys (AREA)
- Feedback Control In General (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
Die Erfindung betrifft das Gebiet der Emotions-Synthese, bei der eine Emotion simuliert wird, beispielsweise in einem Sprachsignal, und sie hat insbesondere die Bereitstellung eines neuen Freiheitsgrades bei der Steuerung der Möglichkeiten zum Ziel, die durch Emotions-Synthesesysteme und Algorithmen angeboten werden.The The invention relates to the field of emotion synthesis, in which a Emotion is simulated, for example in a speech signal, and In particular, it has the provision of a new degree of freedom in controlling the possibilities to the goal offered by emotion synthesis systems and algorithms become.
Im Falle einer in Sprachdaten weiterzuleitenden bzw. zu übertragenden Emotion können diese verständliche Wörter oder unverständliche Ausdrücke oder Klänge, wie ein Gemurmel oder tierartige Geräusche, sein.in the Case of a voice data to be forwarded or transmitted Emotion can this understandable words or incomprehensible expressions or sounds, like a murmur or animal-like sounds.
Eine derartige Emotions-Synthese findet Anwendungen bei der Animation von Kommunikationsobjekten, wie unter Anderem bei Roboter-Tieren, menschenähnlichen Wesen, interaktiven Maschinen, Ausbildungs-Trainings-Vorrichtungen, Systemen zum Lesen von Texten, bei der Erzeugung von Klangspuren für Filme, bei Animationen, etc.A Such emotion synthesis finds applications in animation of communication objects, such as robotic animals, among others humanlike Beings, interactive machines, training training devices, Systems for reading texts, creating soundtracks for movies, in animations, etc.
Das
System empfängt
an einem Eingang
Der
Emotion-Simulationsalgorithmus wird durch eine Reihe von Eingangsparametern
P1, P2, P3, ..., PN bestimmt, die als Emotions-Einstellparameter
bezeichnet werden und die an einem geeigneten Eingang
Jede darzustellende Emotion E weist ihre spezifische Reihe von Emotions-Einstellparametern auf. Bei dem Beispiel sind die Werte der Emotions-Einstellparameter P1, P2, P3, ..., PN gegeben mit C1, C2, C3, ..., CN für Ruhe, mit A1, A2, A3, ..., AN für Verärgerung bzw. Ärger, mit H1, H2, H3, ..., HN für Glück, mit S1, S2, S3, ..., SN für Traurigkeit.each Emotional E to be displayed has its specific set of emotion adjustment parameters on. In the example, the values are the emotion adjustment parameters P1, P2, P3, ..., PN given with C1, C2, C3, ..., CN for rest, with A1, A2, A3, ..., AN for annoyance or trouble, with H1, H2, H3, ..., HN for Luck, with S1, S2, S3, ..., SN for Sadness.
Es existieren außerdem Emotions-Simulationsalgorithmussysteme, die gänzlich generativ sind, und zwar insofern, als sie einen Eingangsstrom von Sprachdaten nicht umsetzen, sondern die emotionsbetonten Sprachdaten Vout intern erzeugen. Diese Systeme verwenden ebenfalls Reihen von Parametern P1, P2, P3, ..., PN analog dem oben beschriebenen System, um den Typ der zu erzeugenden Emotion zu bestimmen.It exist as well Emotional simulation algorithms that are entirely generative insofar as they do not implement an input stream of speech data, but generate the emotion-stressed voice data Vout internally. These Systems also use series of parameters P1, P2, P3, ..., PN analogous to the system described above to determine the type of the To determine emotion.
Wie auch immer das Emotions-Simulationsalgorithmussystem aussieht, besteht währenddessen diese Parametrisierungen effektiv die entsprechenden Emotionen synthetisieren können, ein Bedarf dahingehend, zusätzlich imstande zu sein, eine Größe bzw. ein Maß einer synthetisierten Emotion E zuordnen zu können. So ist es beispielsweise vorteilhaft, imstande zu sein, für eine bestimmte Emotion E einen Bereich einer Quantität bzw. eines Maßes der darzustellenden Emotion in den Sprachdaten Vout zu erzeugen, beispielsweise von leicht bis intensiv.As whatever the emotion simulation algorithm system looks like Meanwhile these parametrizations effectively synthesize the corresponding emotions can, a need to do so, in addition to be able, a size or a measure of one to be able to assign synthesized emotion E. That's the way it is, for example advantageous to be able to a certain emotion E a range of a quantity or a measure to generate the emotion to be represented in the speech data Vout, for example, from easy to intense.
Eine
Möglichkeit
wäre die
Erzeugung von empirisch bestimmten zusätzlichen Sätzen von Parametern für eine bestimmte
Emotion, wobei jeder Parameter einem Grad der darzustellenden Emotion
entspricht. Eine derartige Lösung
leidet jedoch an wesentlichen Nachteilen:
die Erarbeitung der
zusätzlichen
Sätze wäre äußerst arbeitsaufwändig,
ihre
Speicherung in einer Anwendung würde
einen Teil des Speichers belegen, was in einem hinsichtlich des Speichers
eingeschränkten
Gerät,
wie in einem kleinen Roboter-Tier,
nachteilig sein könnte,
die
Verwaltung und Verarbeitung der zusätzlichen Sätze verbraucht signifikante
Verarbeitungsleistung,
und unter dem Gesichtspunkt der Leistungsfähigkeit
wäre es
nicht ermöglicht,
Ausführungsformen
in Betracht zu ziehen, die sanfte Änderungen in der Stärke bzw.
in dem Maß der
Emotion hervorrufen.One possibility would be to generate empirically determined additional sets of parameters for a particular emotion, each parameter corresponding to one degree of the emotion to be represented. However, such a solution suffers from significant disadvantages:
the development of the additional rates would be extremely labor-intensive,
their storage in an application would occupy a portion of the memory, which could be detrimental to a memory-constrained device, such as a small robot animal,
the management and processing of the additional sets consumes significant processing power,
and from the standpoint of performance it would not be possible
Consider variations, the gentle changes in the strength or level of emotion cause.
Ein Beispiel einer Sprach-Synthetisiereinrichtung mit einer Emotion-Modellierung ist in der Veröffentlichung: Sato et al., "Emotion Modelling in Speech Production Using Emotion Space", IEEE Int'1 Workshop an Robot and Human Communication, 1996, Seiten 472–477 angegeben. Die darin beschriebne Emotions-Sprachsynthetisiereinrichtung erzeugt einen Emotionsinhalt dadurch, dass die neutrale Sprache im Pegel ihrer Zeit, Tonhöhe und Intensität abgespielt wird.One Example of a Speech Synthesizer with Emotion Modeling is in the publication: Sato et al., "Emotion Modeling in Speech Production Using Emotion Space ", IEEE Int'1 Workshop on Robot and Human Communication, 1996, pp. 472-477. The described therein Emotions-speech synthesizer creates an emotion content by having the neutral language in the level of their time, pitch and intensity is played.
Die
Erfindung schlägt
gemäß einer
ersten Aufgabe ein Verfahren zur Steuerung des Betriebs eines Gerätes zum
Synthetisieren einer Emotion vor, die in einen Klang übertragen
wird, wobei das Gerät
zumindest einen Eingang für
einen Parameter aufweist, dessen Wert dazu herangezogen wird, einen
Typ der weiterzuleitenden Emotion festzulegen. Das Verfahren umfasst
die Schritte:
Programmieren des Eingangssignals/der Eingangssignale
mit einer Parametrisierung zur Erzeugung eines bestimmten Emotionstyps
und
Verleihen einer Variabilität in einem Maß des bestimmten
Typs der Emotion, die weiterzuleiten ist.The invention proposes, according to a first object, a method for controlling the operation of an apparatus for synthesizing an emotion which is transmitted into a sound, the apparatus having at least one input for a parameter whose value is used to determine a type of emotion to be relayed set. The method comprises the steps:
Programming the input signal (s) with a parameterization to generate a particular type of emotion and
Lending a variability in a measure of the particular type of emotion to be passed on.
Dieses Verfahren ist dadurch gekennzeichnet, dass die Variabilität hinsichtlich der Größe bzw. des Maßes eines bestimmten Emotionstyps dadurch erhalten wird, dass innerhalb eines bestimmten Steuerungsbereiches zumindest ein Parameter (Pi), der zur Festlegung des Emotionstyps verwendet wird, einer Auslenkung bzw. Abweichung von seinem Anfangs-Standardwert unterzogen wird.This Method is characterized in that the variability in terms the size or of measure of a certain type of emotion is obtained by that within a certain control range at least one parameter (Pi), which is used to determine the type of emotion, a deflection or Deviation from its initial default value.
Vorzugsweise ist zumindest ein variabler Parameter entsprechend einem lokalen Modell über den Steuerungsbereich variabel gemacht, wobei das Modell sich auf ein Maß bzw. eine Quantität der Emotions-Steuerungsvariablen für den variablen Parameter bezieht. Dadurch wird das Maß bzw. die Quantität der Emotions-Steuerungsvariablen dazu herangezogen, einen Wert des variablen Parameters variabel einzurichten bzw. festzulegen.Preferably is at least one variable parameter corresponding to a local one Model over the control area made variable, the model is based on a measure or a quantity refers to the emotion control variable variable variable. As a result, the measure or the quantity the emotion control variable used to variable a value of the variable parameter set up or set.
Das lokale Modell kann auf der Annahme basieren, dass – während verschiedene Sätze von einem Parameterwert oder mehreren Parameterwerten unterschiedlich identifizierbare Emotionen hervorrufen können – ein gewählter Satz des Parameters/der Parameterwerte zur Festlegung eines bestimmten Emotionstyps hinreichend stabil ist, um lokale Auslenkungen bzw. Abweichungen von dem Parameterwert/den Parameterwerten zu ermöglichen, ohne eine ungesteuerte Änderung in der Natur der entsprechenden Emotion hervorzurufen. Wie es erscheint, tritt die Änderung im Maß bzw. in der Quantität der Emotion auf. Der bestimmte Steuerungsbereich wird dann innerhalb des Bereichs der lokalen Auslenkungen bzw. Abweichungen liegen.The local model can be based on the assumption that - while different Sets of one or more parameter values produce identifiable emotions - a selected set of the parameter / s Parameter values sufficient for determining a particular type of emotion is stable to local excursions or deviations from the parameter value / To allow parameter values without an uncontrolled change to evoke the corresponding emotion in nature. As it seems the change occurs in the measure or in quantity the emotion. The particular control area will then be within of the range of local deflections or deviations.
Das Modell ist in vorteilhafter Weise ein lokales lineares Modell für den Steuerungsbereich und für einen bestimmten bzw. vorgegebenen Emotionstyp, wobei der variable Parameter so gebildet ist, dass er sich linear über den Steuerungsbereich durch die Größe der Emotions-Steuerungsvariablen linear ändert.The Model is advantageously a local linear model for the control area and for a certain or predetermined type of emotion, the variable Parameter is formed so that it is linear over the control range through the size of the emotion control variable changes linearly.
Bei
einer bevorzugten Ausführungsform
modifiziert die Größe bzw.
das Maß der
Emotions-Steuerungsvariablen (δ)
den variablen Parameter entsprechend einer Beziehung, die durch
folgende Formel gegeben ist:
- VPi
- den Wert des fraglichen variablen Parameters,
- A und B
- Werte, die durch den Steuerungsbereich zugelassen sind, und
- δ
- die Größe der Emotions-Steuerungsvariablen.
- VPi
- the value of the variable parameter in question,
- A and B
- Values permitted by the control area, and
- δ
- the size of the emotion control variable.
Vorzugsweise ist A ein Wert innerhalb des Steuerungsbereichs; dadurch ist die Größe bzw. das Maß der Emotions-Steuerungsvariablen in einem Intervall variabel, welches den Wert Null enthält.Preferably A is a value within the control area; this is the Size or the measure of Emotions control variables in an interval variable, which contains the value zero.
Der Wert A kann im Wesentlichen der Mittelwert des Steuerungsbereichs sein, und die Größe der Emotions-Steuerungsvariablen kann in einem Intervall variabel sein, dessen Mittenwert Null ist.Of the Value A can be essentially the mean of the control range and the size of the emotion control variables may be variable in an interval whose center value is zero.
Die Größe bzw. das Maß der Emotions-Steuerungsvariablen ist vorzugsweise in einem Intervall von –1 bis +1 variabel.The Size or the measure of Emotions control variables are preferably in one interval from 1 to +1 variable.
Bei
der bevorzugten Ausführungsform
ist der Wert B bestimmt durch:
B = (Eimax – A) oder durch
B = (Eimin
+ A).In the preferred embodiment, the value B is determined by:
B = (Eimax - A) or by
B = (Eimin + A).
Hierin
bedeutet Eimax den Wert des Eingangsparameters zur Erzeugung der
maximalen Größe bzw. des
maximalen Maßes
des Emotionstyps, der in dem Steuerungsbereich zu übertragen
ist, und
Eimin bedeutet den Wert des Parameters zur Erzeugung
der minimalen Größe des Emotionstyps,
der in dem Steuerungsbereich zu übertragen
ist.Here, Eimax means the value of the input parameter for generating the maximum size or the maximum measure of the emotion type to be transmitted in the control area, and
Eimin means the value of the parameter for generating the minimum size of the emotion type to be transmitted in the control area.
Der Wert A kann gleich dem Standard-Parameter sein, der ursprünglich zur Festlegung eines zu übertragenden Emotionstyps spezifiziert worden ist.Of the Value A may be equal to the default parameter originally used for Determination of a to be transferred Emotion type has been specified.
Der Wert Eimax oder Eimin kann durch Auslenken des Standard-Parameterwerts, der ursprünglich spezifiziert worden ist, um einen zu übertragenden Emotionstyp festzulegen, und durch Bestimmen einer maximalen Auslenkung in einer Zunahme- oder Abnahmerichtung, die zu einer gewünschten Grenze für die Größe bzw. das Maß der Emotion führt, welche bzw. welches durch den Steuerungsbereich zu übertragen ist, experimentell bestimmt werden.Of the Value Eimax or Eimin can be determined by deflecting the default parameter value, originally specified been to transfer one Determine emotion type and by determining a maximum displacement in an increase or Acceptance direction leading to a desired limit for the size or the measure of Emotion leads, which or which to transmit through the control area is to be determined experimentally.
Die Erfindung ermöglicht es, dieselbe Größe bzw. dasselbe Maß einer Emotions-Steuerungsvariablen zu nutzen, um kollektiv eine Vielzahl von variablen Parametern des Emotions-Synthetisiergeräts einzurichten.The Invention allows it, the same size or same measure of a Emotions control variables too to collectively use a variety of variable parameters of the Emotions-synthesizer to set up.
Gemäß einem zweiten Aspekt bezieht sich die Erfindung auf eine Vorrichtung zur Steuerung des Betriebs eines Systems zum Synthetisieren einer Emotion, die in einen Klang übertragen wird, wobei das System zumindest einen Eingang für einen Parameter aufweist, dessen Wert zur Festlegung eines zu übertragenden Emotionstyps herangezogen wird. Diese Vorrichtung ist dadurch gekennzeichnet, dass sie eine Einrichtung bzw. Mittel zum Programmieren des Eingangssignals/der Eingangssignale mit einer Parametrisierung zur Erzeugung eines bestimmen Emotionstyps und Änderungseinrichtungen zum Übertragen einer Variabilität in einer Größe bzw. in einem Maß des zu übertragenden Emotionstyps enthält, und sie ist dadurch gekennzeichnet, dass die Änderungseinrichtungen imstande sind, innerhalb eines bestimmten Steuerungsbereiches zumindest einen Parameter, der zur Festlegung eines Emotionstyps verwendet wird, einer Auslenkung aus seinem Anfangs-Standardwert zu unterziehen.According to one second aspect, the invention relates to a device for Controlling the operation of a system for synthesizing an emotion, which translate into a sound with the system having at least one input for a parameter, its value is used to determine an emotion type to be transmitted becomes. This device is characterized in that it has a Means for programming the input signal (s) Input signals with a parameterization for generating a determine Emotion type and change facilities to transfer a variability in a size or in a measure of to be transferred Contains emotion type, and it is characterized in that the changing means are capable are within a certain control range at least one Parameter used to define an emotion type undergo a deflection from its initial default value.
Die optionalen Merkmale der oben im Zusammenhang mit dem ersten Aspekt (dem Verfahren) dargestellten Erfindung sind mit den notwendigen Änderungen bei dem zweiten Aspekt (Vorrichtung) entsprechend anwendbar und sollen der Kürze halber nicht wiederholt werden.The optional features of the above related to the first aspect (the method) invention are with the necessary changes in the second aspect (device) according to applicable and should be short half not be repeated.
Gemäß einem dritten Aspekt bezieht sich die Erfindung auf die Nutzung der obigen Vorrichtung zur Einstellung einer Emotionsgröße in einem Gerät zum Synthetisieren einer in einen Klang übertragenen Emotion.According to one third aspect, the invention relates to the use of the above Device for setting an emotion size in a device for synthesizing one in a sound transmitted Emotion.
Gemäß einem vierten Aspekt bezieht sich die Erfindung auf ein System, welches ein Emotions-Synthesegerät, die zumindest einen Eingang für die Aufnahme zumindest eines Parameters aufweist, dessen Wert zur Festlegung eines zu übertragenden Emotionstyps verwendet wird, und eine Vorrichtung gemäß dem dritten Aspekt umfasst, die arbeitsmäßig so angeschlossen ist, dass sie eine Variable an den zumindest einen Eingang abgibt, um dadurch eine Variabilität hinsichtlich einer Größe eines zu übertragenden Emotionstyps zu übertragen.According to one fourth aspect, the invention relates to a system which an emotion synthesizer, the at least one entrance for has the inclusion of at least one parameter whose value for Determination of a to be transferred Emotionstyps is used, and a device according to the third aspect includes, the work-wise so connected is that it gives a variable to the at least one input, thereby a variability in terms of a size of a to be transferred Emotion type to transfer.
Gemäß einem fünften Aspekt bezieht sich die Erfindung auf ein Computerprogramm, welches durch einen Computer ausführbare Befehle bereitstellt. Dieses Programm veranlasst dann, wenn es in einen Datenprozessor geladen ist, den Datenprozessor, entsprechend dem obigen Verfahren zu arbeiten. Das Computerprogramm kann in einem Aufzeichnungsträger irgendeiner geeigneten Form verkörpert sein.According to one fifth Aspect, the invention relates to a computer program, which by a computer executable Provides commands. This program then initiates when it is in a data processor is loaded, the data processor, accordingly to work the above procedure. The computer program can be in one record carrier of any suitable form be.
Die Erfindung und ihre Vorteile werden unter Bezugnahme auf die beigefügten Zeichnungen aus der folgenden Beschreibung der bevorzugten Ausführungsformen näher ersichtlich werden, die lediglich als nicht beschränkende Beispiele gegeben sind.The The invention and its advantages will become apparent with reference to the accompanying drawings from the following description of the preferred embodiments closer which are given purely as non-limiting examples.
In den Zeichnungen zeigenIn show the drawings
Außerdem sind
Emotions-Syntheseverfahren und -geräte in den folgenden beiden
anhängigen
europäischen
Patentanmeldungen des Anmelders beschrieben, von denen für die vorliegende
Anmeldung die Priorität
beansprucht wird: europäische
veröffentlichte
Anmeldungen
Das
Emotions-Simulationsalgorithmussystem
Das
Emotions-Simulationsalgorithmussystem
Das
Emotions-Änderungssystem
Um
die obigen Änderungen
bzw. Variationen in den Werten E1–EN hervorzurufen, wird zunächst ein Bereich
einer möglichen Änderung
für jeden
dieser Werte bestimmt. Für
einen bestimmten Parameter Pi (i ist eine beliebige ganze Zahl zwischen
1 und N einschließlich)
wird eine Untersuchung des Emotions-Simulationsalgorithmussystems
Die Bestimmung des maximalen Intensitätswertes Eimax für den Parameter Pi kann entweder dadurch vorgenommen werden, dass alle anderen Parameter beim Anfangs-Standardwert gehalten werden oder dass einige oder sämtliche der anderen Parameter entsprechend einer Kenntnis der Wechselwirkung der verschiedenen Parameter P1–PN variiert werden.The Determination of the maximum intensity value Eimax for the parameter Pi can either be made by all the other parameters at the initial default value be held or that some or all of the other parameters according to a knowledge of the interaction of the different Parameter P1-PN be varied.
Die obige Prozedur folgt einem lokalen Modell des steuerbaren Verhaltens um die Standard-Parameterwerte Pi, die als hinreichend stabil angenommen sind, um lokale Abweichungen bzw. Auslenkungen von ihrem zunächst gewählten Wert zu ermöglichen und um eine gesteuerte Änderung innerhalb der Emotion zu erreichen, der sie zugehörig sind. Der bestimmte Steuerungsbereich liegt dann innerhalb des Bereiches der lokalen Auslenkungen bzw. Abweichungen.The The above procedure follows a local model of controllable behavior around the standard parameter values Pi, which assumed to be sufficiently stable are local deviations from their initially chosen value to enable and a controlled change to achieve within the emotion to which they belong. The particular control area is then within the range the local deflections or deviations.
Nach
dieser anfänglichen
Einrichtungsphase wird ein Satz von maximalen Intensitäts-Parameterwerten E1max,
E2max, E3max, ..., ENmax erhalten, deren jeder der maximalen Intensität der Emotion
E entspricht, die durch den jeweiligen Parameter P1, P2, P3, ...,
PN hervorgerufen ist. Diese maximalen Intensitäts-Parameterwerte werden in
einer Speichereinheit
Die
in der Speichereinheit
Die
Parameter-Generatoreinheit
Es kann festgestellt werden, dass diese Gleichung einem linearen Modell mit einer Standardform y = mx + c folgt, wobei y gegeben ist mit VPi, wobei m gegeben ist mit (Eimax – Ei), wobei x gegeben ist mit δ und wobei c gegeben ist mit Ei.It can be found that this equation is a linear model with a standard form y = mx + c, where y is given by VPi, where m is given by (Eimax - Ei), where x is given with δ and where c is given with egg.
Die
so durch die Parameter-Generatoreinheit bzw. Parametererzeugungseinheit
Die
Steuerungsvariable δ liegt
im Bereich von –1
bis +1 einschließlich.
Ihr Wert wird durch eine Emotionsgrößen- bzw. Emotionsmaß-Auswahleinrichtung
In
der Figur ist der Bereich der Änderung
von δ als
Skala
Die Skala kann außerdem durch ein Potentiometer oder eine ähnliche veränderbare Komponente festgelegt sein.The Scale can also determined by a potentiometer or similar variable component be.
Die Werte von δ können im Grunde kontinuierlich oder schrittweise inkremental über den Bereich [–1, +1] sein.The Values of δ can be in Basically continuously or incrementally incrementally over the Range [-1, +1] be.
Der
durch den Zeiger
Die
Anwendung einer im Intervall [–1,
+1] normierten Skala ist insofern von Vorteil, als dies die Verwaltung
der Werte vereinfacht, die durch die Parametererzeugungseinheit
Die
Ausführungsform
ist insofern bemerkenswert, als dieselbe Variable δ zur Änderung
jedes der N variablen Parameterwerte VPi für das Emotions-Simulationsalgorithmussystem
Es sei darauf hingewiesen, dass das Änderungsgesetz entsprechend der Formel (1) imstande ist, sowohl Parameter zu verwalten, deren Wert zu erhöhen ist, um ein gesteigertes Maß an Emotion hervorzurufen, als auch Parameter zu verwalten, deren Wert zu verkleinern ist, um ein gesteigertes Maß an Emotion hervorzurufen. Im zuletzt genannten Fall wird der fragliche Wert Eimax kleiner sein als Ei. Der in Klammern gesetzte Term der Formel (1) wird dann negativ sein, und zwar mit einer Größe, die zunimmt, wenn das durch die Variable δ gewählte Emotionsmaß im Bereich zwischen 0 und +1 zunimmt. Für eine zunehmende negative Größe δ wird der Term δ (Eimax – Ei) positiv und trägt zur Vergrößerung von VPi und dadurch zur Verringerung des Emotionsmaßes bei.It It should be noted that the amendment law accordingly of the formula (1) is capable of managing both parameters whose Increase value is to an increased degree To evoke emotion, as well as to manage parameters whose value to downsize to evoke an increased level of emotion. In the latter case, the value Eimax in question becomes smaller be as an egg. The parenthetical term of formula (1) then becomes be negative, with a size that increases when that is through the variable δ chosen emotion measure in the range between 0 and +1 increases. For an increasing negative magnitude δ becomes the Term δ (Eimax - Ei) positive and carries to enlarge VPi and thus to reduce the emotion at.
Überdies
werden für
sämtliche
Werte von δ die
variablen Parameter VP jeweils dieselbe relative Position in ihrem
jeweiligen Bereich besitzen, wodurch die durch die Emotionsmaß-Auswahleinrichtung
Natürlich ermöglicht die
Ausführungsform
viele Varianten, einschließlich:
die Anzahl der Parameter P als variable Parameter VP auszubilden.
Es kann in Betracht gezogen werden, dass nicht sämtliche N Parameter P gesteuert
werden, sondern dass lediglich ein Unter- bzw. Teilsatz eines Parameters
oder mehrerer Parameter gesteuert wird, auf den bzw. die durch die
Parametererzeugungseinheit
der Auswahl der
Formel (1), sowohl hinsichtlich ihrer Form als auch hinsichtlich
der Werte. Die Wahl von Konstanten Ei und Eimax in der Formel (1)
ist insofern von Vorteil, als Ei bereits von vornherein bekannt
ist und als Eimax einfach der experimentell bestimmte Wert ist,
was die Realisierung stark vereinfacht. Andere Rechenoperationen
unter Heranziehung dieser Werte oder anderer Werte können indessen
in Betracht gezogen werden. So kann die Formel (1) beispielsweise
angepasst werden, um einen Eimin-Wert aufzunehmen, der unabhängig bestimmt
ist und der nicht dem Wert von Eimax untergeordnet ist. In diesem
Fall kann die Formel (1) neu ausgedrückt werden als:
the choice of formula (1), both in terms of their form and in terms of values. The choice of constant Ei and Eimax in the formula (1) is advantageous in that egg is already known from the outset and as Eimax is simply the experimentally determined value, which greatly simplifies the realization. Other computational operations using these values or other values may, however, be considered. For example, formula (1) may be adjusted to accommodate an Eimin value that is independently determined and that is not subordinate to the value of Eimax. In this case, formula (1) can be reworded as:
Der Wert von Eimin kann für jeden Parameter experimentell bestimmt sein, um in einer analogen Weise variabel gemacht zu werden, wie dies oben beschrieben worden ist: Eimin wird als derjenige Wert bezeichnet, der zum niedrigsten brauchbaren Emotionsmaß führt, unterhalb dessen entweder keine praktisch nutzbare Absenkung der Emotionsintensität oder eine Entstellung des Emotionstyps vorliegen. Der Speicher wird dann die Werte Eimin anstelle von Eimax speichern.Of the Value of Eimin can be for each parameter must be determined experimentally to be in an analogue Way to be made variable as described above is: Eimin is referred to as the lowest value useful emotional dimension, below of which either no practically usable reduction in emotional intensity or a Disfigurement of the emotion type present. The memory will be the Save values Eimin instead of Eimax.
Außerdem kann
der Mittelbereichswert ein Wert sein, der verschieden ist vom Standardwert
Ei;
der Wahl des Steuerungswertes δ und seines Intervalls, wie
dies oben erörtert
wurde. Außerdem
können
andere komplexere Varianten in Betracht gezogen werden, die mehr
als eine steuerbare Variable nutzen;
der Wahl des Emotions-Simulationsalgorithmus,
wie er oben erläutert
wurde. In der Tat dürfte
einzusehen sein, dass die Lehren der Erfindung hinsichtlich der
Emotions-Simulationsalgorithmen
ziemlich universell sind. Diese Lehren können auch entsprechend für andere
Simulationssysteme in Betracht gezogen werden,
beispielsweise
zur Erzeugung einer Variabilität
für Parameter,
die Gesichtsaudrücke
bestimmen, um Sprache, Emotionen, etc. auszudrücken.In addition, the mid-range value may be a value different from the default value Ei;
the choice of control value δ and its interval, as discussed above. In addition, other more complex variants may be considered that use more than one controllable variable;
the choice of the emotion simulation algorithm as explained above. In fact, it should be understood that the teachings of the invention are fairly universal in terms of emotion simulation algorithms. These teachings may also be considered as appropriate for other simulation systems,
for example, to create variability for parameters that determine facial expressions to express speech, emotions, etc.
Die oben angegebenen Lehren sind bei sämtlichen Emotionen E anwendbar, die durch Emotions-Simulationsalgorithmen simuliert werden: Ruhe, Glück bzw. Fröhlichkeit, Ärger, Traurigkeit, Ängstlichkeit, etc.The The above teachings are applicable to all emotions E, which are simulated by emotion simulation algorithms: rest, Luck or Happiness, anger, sadness, timidity, Etc.
Es
werden nunmehr zwei Beispiele angegeben, um zu veranschaulichen,
wie ein Emotions-Simulationsalgorithmussystem eine Größe bzw.
ein Maß des
Emotions-Änderungssystems
Beispiel 1: Ein Roboter-Tier, welches imstande ist, modulierte Klänge zum Ausdruck zu bringen, die durch einen Sprachsynthesizer erzeugt werden, der eine Reihe von Eingangsparametern enthält, die einen durch die Sprache auszudrückenden Emotionszustand festlegen.example 1: A robot animal capable of modulating sounds to Expressing that are generated by a speech synthesizer, which contains a number of input parameters, one through the language be expressed Set emotion state.
Das
Beispiel basiert auf dem Inhalt der früher veröffentlichten Anmeldung
Der Emotions-Synthesealgorithmus basiert auf der Vorstellung, dass eine Emotion in einem Merkmalsraum ausgedrückt werden kann, der aus einer Erregungskomponente und einer Valenzkomponente besteht. So werden beispielsweise Ärger, Traurigkeit, Fröhlichkeit und Behaglichkeit in besonderen Regionen innerhalb des Erregungs-Valenz-Merkmalraumes dargestellt.Of the Emotions synthesis algorithm is based on the idea that one Emotion can be expressed in a feature space that consists of a Excitation component and a valence component. So be for example, trouble, Sadness, happiness and cosiness in particular regions within the excitation valence trait space shown.
Der
Algorithmus bezieht sich auf Tabellen, die einen Satz von Parametern
P repräsentieren,
welche zumindest die Dauer (DUR), die Tonhöhe (PITCH) und den Klang (VOLUME)
eines vorab für
jede Grundemotion definierten Phonems enthalten. Diese Parameter
sind numerische Werte oder Zustände
(wie "Anstieg" oder "Abfall"). Diese Zustandsparameter
können
pro Standardeinstellung aufrechterhalten werden, und sie können nicht
durch das Maß des
Emotions-Änderungssystems
Die
nachstehende Tabelle I zeigt ein Beispiel der Parameter und ihrer
beigefügten
Werte für
die Emotion "Fröhlichkeit". Die genannten Parameter
gelten für
unverständliche
Wörter
einer oder einiger Silben oder Phoneme, die u. a. hinsichtlich Tonhöhencharakteristiken,
Dauer, Kontur, Lautstärke,
etc. in anerkannten Einheiten spezifiziert sind. Diese Charakteristiken
sind in einer formatierten Datenstruktur ausgedrückt, die durch den Algorithmus
erkannt wird. Tabelle
I: Parametereinstellungen für
die Emotion "Fröhlichkeit"
Unterschiedliche Emotionen werden ihre eigenen Parameterwerte oder -zustände für dieselben Charakteristiken aufweisen.different Emotions become their own parameter values or states for the same Have characteristics.
Das Roboter-Tier, in welches dieser Algorithmus einbezogen ist, ist so gestaltet, dass es von einem Satz von Parameterwerten zu einem anderen Satz von Parameterwerten auf die Entscheidung hin umschaltet, die Emotion darzustellen.The Robot animal in which this algorithm is involved is designed to make it from one set of parameter values to one other set of parameter values switches to the decision, the To represent emotion.
In
diesem Fall sind die Parameter der Charakteristiken in der Tabelle
I, die numerische Werte aufweisen, nicht länger für bzw. auf eine bestimmte Emotion
festgelegt, sondern sie werden variable Parameter VP unter Heranziehung
des Maßes
des Emotions-Änderungssystems
Im
Falle beispielsweise der mittleren Tonhöhencharakteristik für die Emotion "Fröhlichkeit" wird der Standard-Parameterwert
von 400 Hz der Wert Ei in der Gleichung (1) für den betreffenden Parameter.
Es wird ein Schritt zur Bestimmung i) der Richtung (Zunahme/Abnahme)
ausgeführt,
in der dieser Wert modifiziert werden kann, um eine intensivere
Darstellung der Fröhlichkeit
zu erzeugen. Sodann wird ein Schritt ii) ausgeführt, um zu bestimmen, wie weit
in der betreffenden Richtung dieser Parameter geändert werden kann, um diese Intensität brauchbar
zu steigern. Dieser Grenzwert ist Eimax in der Gleichung (1). Auf
diese Weise wird die gesamte notwendige Information zur Erzeugung
der Variabilitätsskala
für den
variablen Parameter VPi der betreffenden Charakteristik erzielt.
Dieselbe Prozedur wird für
alle übrigen
Charakteristiken angewandt, bezüglich
der entschieden wird, den Parameter durch das Maß bzw. die Größe des Emotion-Änderungssystems
Beispiel 2: Ein System, welches imstande ist, einen Emotionsinhalt zu eintreffenden Sprachdaten entsprechend verständlichen Wörtern oder unverständlichen Klängen in einem neutralen Ton hinzuzufügen, so dass die hinzugefügte Emotion empfunden werden kann, wenn die so verarbeiteten Sprachdaten abgespielt bzw. wiedergegeben werden.example 2: A system capable of arriving at an emotion content Speech data understandable accordingly words or incomprehensible sounds to add in a neutral tone, so the added Emotion can be felt when the thus processed voice data be played or played back.
Das
Beispiel basiert auf dem Inhalt der früher veröffentlichen Anmeldung
Das
System umfasst ein Emotions-Simulationsalgorithmussystem, welches
wie im Falle der
Die Modifikation der Datenwerte wird durch Operatoren ausgeführt, die auf die zu modifizierenden Werte einwirken. In typischer Weise liegen die Schalldaten vor in Form von aufeinander folgenden Datenelementen, deren jedes einem Schall- bzw. Klangelement, beispielsweise einer Silbe oder einem Phonem entspricht, die bzw. das durch einen Synthesizer wiederzugeben ist. Ein Datenelement spezifiziert beispielsweise die Dauer des Schallelements und einen Tonhöhenwert oder mehrere Tonhöhenwerte, die über diese Dauer vorhanden sind. Das Datenelement kann außerdem die wiederzugebende Silbe kennzeichnen, und es kann eine Anzeige darüber zugeordnet sein, ob das Datenelement betont werden kann oder nicht. So kann beispielsweise ein Datenelement für die Silbe "be" folgende Datenstruktur besitzen: "be": 100, P1, P2; P3, P4, P5". Die erste Zahl 100 drückt die Dauer in Millisekunden aus. Die folgenden fünf Werte (symbolisiert durch P1–P5) geben den Tonhöhenwert (F0) in fünf entsprechenden und aufeinander folgenden Intervallen während der betreffenden Dauer an.The modification of the data values is performed by operators which are to be modified Influence values. Typically, the sound data is in the form of successive data elements, each of which corresponds to a sound element, such as a syllable or a phoneme, to be reproduced by a synthesizer. For example, a data item specifies the duration of the beat element and a pitch value or multiple pitch values that are present over that duration. The data element may also identify the syllable to be played, and an indication may be associated with whether the data element can be emphasized or not. For example, a data element for the syllable "be" may have the following data structure: "be": 100, P1, P2; P3, P4, P5 "The first number 100 expresses the duration in milliseconds The following five values (symbolized by P1-P5) indicate the pitch value (F0) at five corresponding and successive intervals during the duration in question.
Unterschiedliche Arten bzw. Typen möglicher Operatoren des Systems rufen unterschiedliche Modifikationen bezüglich der Datenelemente hervor, bei denen sie angewandt werden.different Types or types of possible Operators of the system call different modifications regarding the Data elements to which they are applied.
Das
Emotions-Simulationsalgorithmussystem
Die
Grundoperatorformen sind in einer Operatorsatz-Bibliothek
Die
Emotion und der Emotionsgrad werden der Operator-Parametrisierungseinheit
Bei
dem Beispiel ist der Kontext der Silbe, die Operator-empfindlich
ist, gegeben durch: i) die Position der Silbe in einem Ausdruck
bzw. einem Satz, wenn einige Operatorsätze lediglich auf die ersten
und letzten Silben des Ausdrucks bzw. des Satzes angewandt werden,
ii) ob die Silbe sich auf verständliche
Wortsätze oder
auf unverständliche
Klänge
(Murmeln, etc.) bezieht, und iii) ob ggf. einer berücksichtigten
Silbe erlaubt ist, betont zu werden oder nicht, wie dies in der
Stimmgebungs-Datendatei
Zu
diesem Zweck sind eine Identifizierungseinheit
Wie weiter unten im Einzelnen erläutert, gibt es Operatorsätze, die speziell bei Silben anwendbar werden, welche zu betonen sind ("betonbare" Silben). Diese Operatoren werden nicht systematisch bei sämtlichen betonbaren Silben angewandt, sondern lediglich bei solchen, die aus Kandidaten-Silben durch eine Zufallsauswahl ausgewählt sind. Die Kandidaten-Silben hängen von den Stimmgebungsdaten ab. Falls letztere Anzeigen dafür enthalten, welchen Silben ermöglicht ist, betont zu werden, dann werden die Kandidaten-Silben lediglich aus jenen betonbaren Silben herausgenommen.As explained in detail below, there are operator sets that are especially applicable to syllables that are to be emphasized ("conspicuous" syllables). These operators are not systematically applied to all conspicuous syllables, but only to those that are randomly selected from candidate syllables selection are selected. The candidate syllables depend on the mood data. If the latter contain indications of which syllables are allowed to be emphasized, then the candidate syllables are merely taken out of those conspicuous syllables.
Dies wird üblicherweise der Fall sein für verständliche Texte, in denen die Betonung von einigen Silben verboten ist, um eine natürliche Klangwiedergabe sicherzustellen. Falls die Stimmgebungs-Bibliothek derartige Anzeigen bzw. Hinweise nicht enthält, dann stellen sämtliche Silben Kandidaten für die Zufallsauswahl dar. Dies wird üblicherweise für unverständliche Klänge der Fall sein.This becomes common be the case for understandable Texts in which the emphasis on a few syllables is forbidden a natural one Ensure sound reproduction. If the mood library does not contain such ads or instructions, then put all Syllables candidates for random selection. This is usually incomprehensible sounds be the case.
Die
Zufallsauswahl wird durch eine Zufallsentnahmeeinheit
Die
geeignet konfigurierten Operatorsätze von der Operatorsatz-Konfigurationseinheit
Sämtliche
obigen funktionalen Einheiten stehen unter der Gesamtsteuerung einer
Operations-Folgesteuereinheit
Es
gibt in dem dargestellten Satz vier Operatoren, und zwar folgende
(von oben nach unten in der Figur):
einen Tonhöhen-Operator
OPrs mit "ansteigendem
Kurvenverlauf",
der jeder eingangsseitigen Tonhöhen-Kurve
einen Kurvenverlauf auferlegt, welcher in der Zeit ansteigt, d.
h. der betreffende Operator bewirkt, dass die ursprüngliche
Tonhöhen-Kontur in der Frequenz über die
Zeit ansteigt;
einen Tonhöhen-Operator
OPfs mit einem "abfallenden
Kurvenverlauf",
der jeder eingangsseitigen Tonhöhen-Kurve
einen Kurvenverlauf auferlegt, welcher in der Zeit abfällt, d.
h., der betreffende Operator bewirkt, dass die ursprüngliche
Tonhöhen-Kontur über die
Zeit in der Frequenz absinkt;
einen Tonhöhen-Operator OPsu mit einer "Aufwärtsverschiebung", der jeder eingangsseitigen
Tonhöhen-Kurve
eine gleichmäßige Aufwärtsverschiebung
in der Grundfrequenz auferlegt, wobei die Verschiebung für sämtliche
Punkte in der Zeit gleich ist, so dass die Tonhöhen-Kontur einfach auf der
Grundfrequenzachse nach oben geschoben wird; und
einen Tonhöhen-Operator
OPsd für
eine "Abwärtsverschiebung", der jeder eingangsseitigen
Tonhöhen-Kurve eine
gleichmäßige Abwärtsverschiebung
in der Grundfrequenz auferlegt, wobei die Verschiebung für sämtliche Punkte
in der Zeit gleich ist, so dass die Tonhöhen-Kontur einfach auf der
Grundfrequenzachse nach unten verschoben ist.There are four operators in the illustrated sentence, the following ones (from top to bottom in the figure):
an "ascending waveform" pitch operator OPrs which imposes a waveform on each input-side pitch curve, which increases in time, ie, the operator concerned causes the original pitch contour to increase in frequency over time;
a pitch operator OPfs having a "falling waveform" which imposes a waveform on each input pitch curve, which decays in time, ie, the operator concerned causes the original pitch contour to decrease in frequency over time;
a pitch operator OPsu with an "upward shift" which imposes a uniform upward shift in the fundamental frequency on each input pitch curve, the shift being equal for all points in time so that the pitch contour is simply shifted up on the fundamental frequency axis becomes; and
a "downshift" pitch operator OPsd which imposes a uniform downward shift in the fundamental frequency on each input pitch curve, the shift being the same for all points in time so that the pitch contour is simply shifted down on the fundamental frequency axis is.
Bei der Ausführungsform weisen die Operatoren OPrs für den ansteigenden Kurvenverlauf und OPfs für den abfallenden Kurvenverlauf die folgende Charakteristik auf: Die Tonhöhe im mittleren Punkt zur Zeit (1/2 t1 für eine Tonhöhendauer von t1) bleibt im Wesentlichen unverändert nach dem Operator bzw. nach dessen Einwirken. Mit anderen Worten ausgedrückt heißt dies, dass die Operatoren so wirken, dass die Eingangs-Tonhöhenkurve um den Tonhöhenwert am zentralen Zeitpunkt geschwenkt wird, um den geforderten Kurvenverlauf bzw. die geforderte Neigung aufzuerlegen. Dies bedeutet, dass im Falle des Operators OPrs mit ansteigendem Kurvenverlauf die Tonhöhenwerte vor dem zentralen Zeitpunkt tatsächlich abgesenkt sind und dass im Falle eines Operators OPfs mit abfallendem Kurvenverlauf die Tonhöhenwerte vor dem zentralen Zeitpunkt tatsächlich angehoben sind, wie dies durch die Figur veranschaulicht ist.In the embodiment, the operators OPrs for the rising waveform and OPfs for the falling curve the following characteristic: The pitch in the middle point at the time (1/2 t1 for a pitch duration of t1) remains essentially unchanged after the operator or after its action. In other words, the operators operate to panning the input pitch curve by the pitch value at the central point in time to impose the required curve or slope. That is, in the case of the rising-waveform operator OPrs, the pitch values before the central timing are actually lowered and, in the case of a falling-waveform operator OPfs, the pitch values before the central timing are actually raised, as illustrated by the figure.
Optional
können
auch Intensitäts-Operatoren,
die mit OI bezeichnet sind, vorgesehen sein. Die Auswirkungen dieser
Operatoren sind in
Die
Tonhöhen-
und Intensitäts-Operatoren
können
jeweils wie folgt parametrisiert werden:
Für die ansteigenden und abfallenden
Operatoren (OPrs, OPfs, OIrs, OIfs): Der Gradient der Steigung bzw. Neigung,
die der Eingangskontur aufzuerlegen ist. Die Steigung bzw. Neigung
kann ausgedrückt
werden in Begriffen von normierten Steigungs- bzw. Neigungswerten.
So entspricht beispielsweise 0, dass keine Steigung bzw. Neigung
auferlegt wird; der Operator hat in dem Fall keine Auswirkung auf
das Eingangssignal (ein derartiger Operator wird als neutralisierter
oder neutraler Operator bezeichnet). Beim anderen Extrem bewirkt
ein maximaler Wert, dass die Eingangskurve einen unendlichen Gradienten
aufweist, d. h. nahezu vertikal ansteigt oder abfällt. Zwischen
diesen Extremen kann ein beliebiger Parameterwert dem fraglichen
Operator zugeordnet werden, um die geforderte Steigung bzw. Neigung
der Eingangskontur aufzuerlegen.The pitch and intensity operators can each be parameterized as follows:
For the rising and falling operators (OPrs, OPfs, OIrs, OIfs): The gradient of the slope to be imposed on the input contour. The slope may be expressed in terms of normalized slope values. For example, 0 means that no slope is imposed; the operator has no effect on the input signal in this case (such an operator is called a neutralized or neutral operator). At the other extreme, a maximum value causes the input curve to have an infinite gradient, ie, to rise or fall almost vertically. Between these extremes, any parameter value may be assigned to the operator in question to impose the required slope of the input contour.
Für die Verschiebeoperatoren (OPsu, OPsd, OIsu, OIsd): Der Betrag der Aufwärts- oder Abwärtsverschiebung, die der Eingangskontur auferlegt wird, hinsichtlich der absoluten Grundfrequenz (für die Tonhöhe) oder des Intensitätswertes. Die entsprechenden Parameter können somit in Einheitsinkrementen oder -dekrementen längs der Tonhöhen- oder Intensitätsachse ausgedrückt werden.For the shift operators (OPsu, OPsd, OIsu, OIsd): The amount of upward or downward shift that the input contour with respect to the absolute fundamental frequency (for the pitch) or of the intensity value. The corresponding parameters can thus in unit increments or decrements along the pitch or intensity axis expressed become.
Der
Dauer-Operator kann sein:
ein Dehnungs-Operator, der bewirkt,
dass die Dauer der Silbe vergrößert wird.
Die Vergrößerung wird
in Begriffen eines Parameters D ausgedrückt, der als positiver D-Parameter bezeichnet
wird. Der Parameter D kann beispielsweise einfach eine Anzahl von
Millisekunden einer Dauer sein, um diese dem anfänglichen Eingangs-Dauer-Wert
hinzuzuaddieren, falls letzterer ebenfalls in Millisekunden ausgedrückt ist,
so dass die Wirkung des Operators einfach dadurch erhalten wird,
dass der Wert D zu der Dauer-Spezifikation
t1 für
die fragliche Silbe hinzuaddiert wird. Als Ergebnis wird die Verarbeitung
der Daten durch den Interpolator
ein Schrumpfungs-Operator,
der bewirkt, dass die Dauer der Silbe zu verringern ist. Die Verringerung
wird in Begriffen desselben Parameters D ausgedrückt, der in diesem Fall ein
negativer Parameter ist. Der Parameter D kann beispielsweise einfach
eine Anzahl von Millisekunden der Dauer sein, um von dem anfänglichen
Eingangs-Dauer-Wert
subtrahiert zu werden, falls letzterer ebenfalls in Millisekunden
ausgedrückt
ist, so dass die Wirkung des Operators einfach dadurch erzielt wird,
dass der Wert D von der Dauer-Spezifikation für die fragliche Silbe subtrahiert
wird. Als Ergebnis bewirkt die Verarbeitung der Daten durch den
Interpolator
a stretch operator that causes the duration of the syllable to increase. The magnification is expressed in terms of a parameter D, which is called a positive D parameter. For example, the parameter D may simply be a number of milliseconds of duration to add to the initial input duration value, if the latter is also expressed in milliseconds, so that the effect of the operator is obtained simply by adding the value D to the Duration specification t1 is added for the syllable in question. As a result, the processing of the data by the interpolator
a shrinking operator that causes the duration of the syllable to be reduced. The reduction is expressed in terms of the same parameter D, which in this case is a negative parameter. For example, the parameter D may simply be a number of milliseconds of duration to be subtracted from the initial input duration value, if the latter is also expressed in milliseconds, so that the operator's effect is achieved simply by setting the value D is subtracted from the duration specification for the syllable in question. As a result, the processing of the data by the interpolator causes
Der Operator kann außerdem ein neutralisierter oder neutral ausgebildeter Operator sein, indem einfach der Wert 0 für den Parameter D eingefügt wird.Of the Operator can as well be a neutralized or neutral operator by simply the value 0 for the parameter D inserted becomes.
Es sei darauf hingewiesen, dass der Dauer-Operator als Operator zweier verschiedener Typen, der Dehnung und der Zusammenziehung, dargestellt worden ist, dass jedoch klar ist, dass der einzige Unterschied im Vorzeichen Plus oder Minus liegt, welches vor den Parameter D gesetzt ist. Somit kann ein und derselbe Operator-Mechanismus beide Operatorfunktionen hervorbringen (Dehnung und Zusammenziehung), falls er positive und negative Zahlen verarbeiten kann.It It should be noted that the duration operator as an operator of two various types of stretching and contraction However, it is clear that the only difference is in the Sign plus or minus, which is set before the parameter D. is. Thus, one and the same operator mechanism can have both operator functions (stretching and contracting), if positive and can process negative numbers.
Der Bereich von möglichen Werten für D und ihrer möglichen inkrementalen Werte in dem Bereich kann entsprechend Anforderungen gewählt werden.Of the Range of possible Values for D and its possible Incremental values in the range may be according to requirements chosen become.
Im Folgenden wird die Parametrisierung jedes der Operatoren OP, OI und OD durch einen variablen Wert ausgedrückt, der durch die letzten Buchstaben des jeweiligen Operators zuzüglich des für den jeweiligen Operator spezifischen Anhangs gekennzeichnet ist, d. h. Prs = der Wert der positiven Steigung für den Tonhöhen-Operator OPrs mit ansteigendem Kurvenverlauf; Pfs = Wert der negativen Steigung für den Tonhöhen-Operator OPfs für den abfallenden Kurvenverlauf; Psu = Wert der Größe der Aufwärtsverschiebung für den Tonhöhen-Operator OPsu mit einer Aufwärtsverschiebung; Psd = Wert des Tonhöhen-Operators OPsd mit einer Abwärtsverschiebung; Irs = Wert der positiven Steigung für den Intensitäts-Operator OIrs mit ansteigendem Kurvenverlauf; Ifs = Wert der negativen Steigung für den Intensitäts-Operator OIfs mit abfallendem Kurvenverlauf; Isu = Wert der Größe der Aufwärtsverschiebung für den Intensitäts-Operator OIsu mit einer Aufwärtsverschiebung; Isd = Wert des Intensitäts-Operators OIsd mit einer Abwärtsverschiebung; Dd = Wert des zeitlichen Inkrements für den Dauer-Dehnungs-Operator ODd; Dc = Wert des zeitlichen Dekrements (Zusammenziehung) für den Dauer-Schrumpfungs-Operator ODc.in the Following is the parameterization of each of the operators OP, OI and OD expressed by a variable value, that by the last Letters of the respective operator plus the one specific to the respective operator Annex is marked, d. H. Prs = the value of the positive slope for the Pitch operator OPrs with rising curve; Pfs = value of the negative slope for the pitch operator OPs for the sloping curve; Psu = value of the size of the upward shift for the pitch operator OPsu with an upward shift; Psd = value of the pitch operator OPsd with a downward shift; Irs = value of the positive slope for the intensity operator OIrs with rising curve; Ifs = value of the negative slope for the Intensity operator OIfs with sloping curve; Isu = value of the size of the upward shift for the Intensity operator OIsu with an upward shift; Isd = value of the intensity operator OIsd with a downward shift; Dd = value of the temporal increment for the duration-stretching operator ODd; Dc = Value of the temporal decrement (contraction) for the duration shrink operator ODc.
Die
Ausführungsform
verwendet ferner einen gesonderten Operator, der die Wahrscheinlichkeit
N für die
Zufallsentnahmeeinheit
Bei
dem Beispiel wird jede Auswahl oder eine Auswahl der obigen Werte,
die die Operatoren OP, OI, OD und N parametrisieren, für variable
Parameter durch die Parametererzeugungseinheit
Der
Prozess beginnt mit einer Initialisierungsphase P1, die das Laden
der eingangsseitigen Silben-Daten aus der Stimmgebungs-Datendatei
Anschließend wird
die in den Satz oder die Passage, von der die geladenen Silben-Daten einen Teil bilden,
zu übertragende
Emotion unter Verwendung der Interfaceeinheit
Das
System tritt dann in eine universelle Operator-Phase P2 ein, in
der ein universeller Operatorsatz OS(U) systematisch auf sämtliche
Silben angewandt wird. Der universelle Operatorsatz OS(U) enthält sämtliche
Operatoren von
Die Aufwärtsverschiebungs- oder Abwärtsverschiebungs-Operatoren können vor oder nach den Neigungs-Operatoren angewandt werden. Sie addieren oder subtrahieren einfach ein und denselben Wert, der durch die Parametrisierung bestimmt ist, zu bzw. von den fünf Tonhöhen-Werten P1–P5. Die Operatoren bilden gegenseitig sich ausschließende Paare, d. h. ein Operator für die ansteigende Neigung bzw. den ansteigenden Kurvenverlauf wird nicht angewandt, falls ein Operator für einen abfallenden Kurvenverlauf bzw. eine abfallende Neigung anzuwenden ist, und in entsprechender Weise gilt dies für die Aufwärtsverschiebungs- und Abwärtsverschiebungs- und Dauer-Operatoren.The shift up or downshift operators can before or after the slope operators. They add or just subtract one and the same value by the Parameterization is determined, to or from the five pitch values P1-P5. The Operators form mutually exclusive pairs, i. H. an operator for the rising inclination or the rising curve will not applied if an operator for to apply a sloping curve or a sloping slope and similarly applies to the upshift and downshift and persistent operators.
Die
Anwendung der Operatoren (d. h. die Berechnung zur Modifizierung
der Daten-Parameter
t1, P1–P5)
wird durch die Silbendaten-Modifizierungseinheit
Nachdem die Silben so durch den universellen Operatorsatz VOS(U) verarbeitet worden sind, werden sie vorläufig für eine weitere Verarbeitung, falls notwendig, gepuffert.After this the syllables are processed by the universal operator set VOS (U) they become provisional for one further processing, if necessary, buffered.
Das
System tritt dann in eine wahrscheinliche Betonungsphase P2 ein,
für die
ein weiterer Operator-Betonungs-Parametersatz VOS(PA) erstellt wird.
Dieser Operatorsatz weist dieselben Operatoren wie der universelle
Operatorsatz auf, ist allerdings mit unterschiedlichen variablen
Werten für
die Parametrisierung versehen. Unter Heranziehung der Konvention,
die für
den universellen Operatorsatz angewandt ist, wird der Operatorsatz
VOS(PA) durch entsprechende Werte: VPrs(PA), VPfs(PA), VPsu(PA),
VPsd(PA), VDd(PA) und VDc(PA) parametrisiert. Diese Parameterwerte
werden in entsprechender Weise durch die Operator-Parametrisierungseinheit
Nachdem
die Parameter erhalten worden sind, werden sie in die Operatorsatz-Konfigurationseinheit
Anschließend wird
bestimmt, welche der Silben diesem Operatorsatz VOS(PA) zu unterziehen
sind, wie dies durch die Zufallseinheit
Die
aus den Kandidaten zufällig
ausgewählten
Silben werden dann zur Verarbeitung mittels des wahrscheinlichkeitstheoretischen
Betonungs-Operatorsatzes VOS(PA) durch die Silbendaten-Modifizierungseinheit
Es sei darauf hingewiesen, dass die Verarbeitung durch den wahrscheinlichkeitstheoretischen Betonungs-Operatorsatz VOS(PA) bezüglich Silbendaten vorgenommen wird, die bereits durch den universellen Operatorsatz VOS(U) verarbeitet worden sind. Mathematisch kann dieser Umstand für einen Silbendatenposten Si der Datei, die nach Heranziehen beim Schritt S14 verarbeitet worden ist, wie folgt dargestellt werden: VOS(PA).VOS(U).Si → Sipacc, wobei Sipacc die resultierenden Daten für die betonte verarbeitete Silbe darstellen.It should be noted that the processing is performed by the probabilistic emphasis operator set VOS (PA) on syllable data already represented by the universal Operational set VOS (U) have been processed. Mathematically, this circumstance may be represented for a syllable data item Si of the file which has been processed after being used in step S14, as follows: VOS (PA) .VOS (U) .Si → Sipacc, where Sipacc the resulting data for the stressed processed syllable represent.
Für sämtliche
Silben bis auf die Silben der ersten und letzten Wörter eines
Satzes bzw. Satzteiles, der bzw. das in der Stimmgebungs-Datendateieinheit
VOS(U).S → Spna für die Silbendaten, die beim
Schritt S14 nicht entnommen worden sind, wobei Spna eine verarbeitete
nicht betonte Silbe bezeichnet, und
VOS(PA).VOS(U).S → Spacc für die Silbendaten,
die beim Schritt S14 entnommen worden sind, wobei Spacc die verarbeitete
betonte Silbe bezeichnet.For all syllables except for the syllables of the first and last words of a sentence, the one in the vocalization data file unit
VOS (U) .S → Spna for the syllable data not extracted at step S14, where Spna denotes a processed unstressed syllable, and
VOS (PA) .VOS (U) .S → Spacc for the syllable data taken at step S14, where Spacc designates the processed stressed syllable.
Schließlich tritt der Prozess in eine Phase P4 zur Verarbeitung einer Betonung ein, die für die ersten und letzten Silben eines Satzes bzw. Satzteiles spezifisch ist. Wenn ein Satz bzw. Satzteil aus identifizierbaren bzw. erkennbaren Wörtern besteht, wirkt diese Phase P4 dahingehend, sämtliche Silben der ersten und letzten Wörter des Satzes bzw. Satzteiles zu betonen. Der Begriff Satz bzw. Satzteil kann im normalen grammatikalischen Sinn für einen verständlichen Text verstanden werden, um gesprochen zu werden, beispielsweise hinsichtlich Pausen beim Vortrag. Im Falle eines unverständlichen Klanges, wie beim Gemurmel oder bei Tierimitationen, wird ein Satz bzw. Satzteil hinsichtlich eines Beginns und Endes der Äußerung verstanden, und zwar durch eine Pause markiert. In typischer Weise kann ein derartiger Satz bzw. Satzteil von etwa eine bis drei oder vier Sekunden dauern. Für unverständliche Klänge wird die Phase P4 zur Betonung der letzten Silben bei zumindest den ersten und letzten Silben und vorzugsweise bei den ersten m und den letzten n Silben angewandt, wobei m oder n in typischer Weise gleich etwa 2 oder 3 sind und gleich oder verschieden sein können.Finally occurs the process enters a phase P4 to process an emphasis, the for the first and last syllables of a sentence or phrase specific is. When a sentence or phrase is made identifiable or recognizable words this phase P4 acts, all syllables of the first and last words to emphasize the sentence or phrase. The term sentence or phrase can be understood in the ordinary grammatical sense Text be understood to be spoken, for example regarding breaks during the lecture. In case of incomprehensible Sound, as with mumbles or animal imitations, becomes a sentence or clause understood with respect to a beginning and end of the utterance, and marked by a break. Typically, a such sentence or phrase of about one to three or four seconds to last; to endure, to continue. For incomprehensible sounds becomes the phase P4 to emphasize the last syllable at least the first and last syllables and preferably at the first m and the last n syllables where m or n is more typical Are equal to about 2 or 3 and be the same or different can.
Wie
bei den vorherigen Phasen wird eine spezifische Parametrisierung
derselben Grundoperatoren VOPrs, VOPfs, VOPsu, VOPsd, VODd, VODc
ausgeführt,
was einen ersten und letzten Silbenbetonungs-Operatorsatz VOS(FL)
ergibt, der durch einen entsprechend zugehörigen Wert parametrisiert ist,
nämlich VPrs(FL),
VPfs(FL), VPsu(FL), VPsd(FL), VDd(FL) und VDc(FL) (Schritt S18).
Diese Parameterwerte werden durch die Operator-Parametrisierungseinheit
Der
resultierende Operatorsatz VOS(FL) wird dann bei den ersten und
letzten Silben jedes Satzes bzw. Satzteiles angewandt (Schritt S20),
wobei diese Silben durch die Silben-Detektoreinheit
Wie oben erläutert, werden die Silbendaten, auf die der Operatorsatz VOS(FL) angewandt ist, zuvor durch den universellen Operatorsatz VOS(U) beim Schritt S10 verarbeitet worden sein. Zusätzlich kann es vorkommen, dass eine erste oder letzte Silbe bzw. erste oder letzte Silben beim Zufalls-Auswahlschritt S14 ebenfalls entnommen worden sind und dadurch ebenfalls mittels des wahrscheinlichkeitstheoretischen Betonungs-Operatorsatzes VOS(PA) verarbeitet werden.As explained above become the syllable data to which the operator set VOS (FL) applies is, previously through the universal operator set VOS (U) at the step S10 has been processed. additionally It may happen that a first or last syllable or first or last syllables at the random selection step S14 also taken and thus also by means of the probabilistic theory Emphasis operator set VOS (PA).
Es
gibt somit zwei Möglichkeiten
der Verarbeitung bezüglich
einer ersten oder letzten Silbe, und zwar nachstehend ausgedrückt unter
Heranziehung der oben festgelegten Konvention:
Möglichkeit
1: Verarbeitung durch den Operatorsatz VOS(U) und sodann durch den
Operatorsatz VOS(FL), was zu VOS(FL).VOS(U).S → Spfl(1) führt, und
Möglichkeit
2: aufeinander folgende Verarbeitung durch die Operatorsätze VOS(U),
VOS(PA) und VOS(FL), was zu VOS(FL).VOS(PA).VOS(U).S → Spfl(2)
führt.Thus, there are two ways of processing for a first or last syllable, expressed below, using the convention set forth above:
Possibility 1: Processing by the operator set VOS (U) and then by the operator set VOS (FL), resulting in VOS (FL) .VOS (U) .S → Spfl (1), and
Possibility 2: successive processing by the operator sets VOS (U), VOS (PA) and VOS (FL), resulting in VOS (FL) .VOS (PA) .VOS (U) .S → Spfl (2).
Diese einfache Operator-basierte Lösung hat sich als Lösung erwiesen, die zu Ergebnissen führt, welche zumindest vergleichbar sind mit jenen, die durch wesentlich kompliziertere Systeme erreicht werden, und zwar sowohl hinsichtlich bedeutungsvoller Äußerungen als auch in der Aussprache einer erkennbaren Sprache.These simple operator-based solution has come up as a solution proven that leads to results, which are at least comparable to those that are essential more complicated systems are achieved, both in terms of meaningful statements as well as in the pronunciation of a recognizable language.
Die Wahl der Parametrisierungen zum Ausdruck einer bestimmten Emotion ist extrem subjektiv und variiert beträchtlich in Abhängigkeit von der Form der Äußerung, der Sprache, etc. Aufgrund der Verfügung von einfachen, gut definierten Parametern, die nicht viel Echtzeitverarbeitung erfordern, ist es jedoch einfach, eine Abtastung durch viele mögliche Kombinationen von Parametrisierungen vorzunehmen, um die zufriedenstellendsten Operatorsätze zu erhalten.The choice of parametrizations to express a particular emotion is extremely subjective and varies considerably depending on the form of the utterance, the language, etc. However, because of the availability of simple, well-defined parameters that do not require much real-time processing, it is easy Scanning through many possible combinations of parametrizations to make the most satisfactory lendsten operator sets.
Für jede Parametrisierung, der eine bestimmte Emotion zugehörig ist, kann ein Bereich von Variabilität in den Parameterwerten gemäß der Erfindung festgelegt werden, was eine Steuerung des Maßes der betreffenden erzeugten Emotion ermöglicht.For every parameterization, that belongs to a certain emotion may be a range of variability in the parameter values according to the invention which control of the amount of the respective generated generated Emotion allows.
Der
Anmelder hat, um lediglich ein veranschaulichendes Beispiel anzugeben,
herausgefunden, dass gute Ergebnisse mit folgenden Parametrisierungen
erzielt werden können:
Traurigkeit:
die Tonhöhe
für den
universellen Operatorsatz = abfallender Kurvenverlauf mit geringer
Neigung,
Dauer-Operator = Dehnung,
Wahrscheinlichkeit
der Entnahme von N für
eine Betonung: gering;
Ruhe: kein Operatorsatz wird angewandt
oder lediglich ein leicht parametrisierter universeller Operator;
Fröhlichkeit:
Tonhöhe
für universellen
Operatorsatz = ansteigender Kurvenverlauf, moderat hohe Steigung,
Dauer
für universellen
Operatorsatz = Schrumpfung,
Dauer für betonten Operatorsatz = Dehnung;
Ärger: Tonhöhe für sämtliche
Operatorsätze
= abfallender Kurvenverlauf, moderat hohe Neigung,
Dauer für sämtliche
Operatorsätze
= Schrumpfung.Applicant has found, for purposes of exemplification only, that good results can be achieved with the following parameterizations:
Sadness: the pitch for the universal operator set = sloping curve with low slope,
Duration operator = stretch,
Probability of taking N for an emphasis: low;
Rest: no operator set is applied or just a slightly parameterized universal operator;
Happiness: Pitch for universal operator set = rising curve, moderately high gradient,
Duration for universal operator set = shrinkage,
Duration for stressed operator set = stretch;
Annoyance: pitch for all operator sets = declining curve, moderately high slope,
Duration for all operator sets = shrinkage.
Für einen Operatorsatz, der beim obigen Beispiel nicht spezifiziert worden ist, ist die Parametrisierung vom selben allgemeinen Typ für sämtliche Operatorsätze. Allgemein gesagt ist der Typ bzw. die Art von Änderungen (ansteigender Kurvenverlauf, Schrumpfung, etc.) die- bzw. derselbe für sämtliche Operatorsätze; lediglich die tatsächlichen Werte sind unterschiedlich. Hier werden die Werte üblicherweise so gewählt, dass der geringste Änderungsbetrag durch den universellen Operatorsatz hervorgerufen wird und dass der größte Änderungsbetrag durch die erste und letzte Silbenbetonung hervorgerufen wird, wobei der wahrscheinlichkeitstheoretische Betonungs-Operatorsatz einen mittleren Änderungsbetrag hervorruft.For one Operator set not specified in the above example is, the parameterization is of the same general type for all Operator sets. Generally speaking, the type or type of changes (increasing curve, Shrinkage, etc.) the same for all operator sets; only the actual Values are different. Here are the values usually chosen so that the least amount of change is caused by the universal operator set and that the largest amount of change is caused by the first and last syllabic emphasis, where the probabilistic emphasis operator set one mean amount of change causes.
Das System kann außerdem so gestaltet sein, dass es Intensitäts-Operatoren OI in seinem Satz verwendet, und zwar in Abhängigkeit von der benutzten Parametrisierung.The System can also be designed so that there are intensity operators OI in his Sentence used, depending on from the used parameterization.
Die
Interfaceeinheit
Die Erfindung kann viele weitere Arten von Emotion-Synthesesystemen umfassen. Während sie besonders geeignet ist fair Synthesesysteme, die eine Emotion in Sprache oder Schall ausdrücken, kann die Erfindung auch für andere Arten von Emotions-Synthesesystemen in Betracht gezogen werden, bei denen die Emotion in anderen Formen dargestellt wird: Gesichts- oder Körperausdrücke, visuelle Effekte, etc., die Bewegung von animierten Objekten, bei denen die involvierten Parameter einen Typ bzw. eine Art der darzustellenden Emotion reflektieren.The Invention can be many more types of emotion synthesis systems include. While She is particularly suited to fair synthesis systems that have an emotion express in speech or sound, the invention can also for other types of emotion synthesis systems to be considered in which the emotion is in other forms is displayed: facial or body expressions, visual effects, etc., the movement of animated objects involving those involved Parameters reflect a type or type of emotion to be represented.
Claims (20)
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP01401203A EP1256931A1 (en) | 2001-05-11 | 2001-05-11 | Method and apparatus for voice synthesis and robot apparatus |
| EP01401203 | 2001-05-11 | ||
| EP20010401880 EP1256932B1 (en) | 2001-05-11 | 2001-07-13 | Method and apparatus for synthesising an emotion conveyed on a sound |
| EP01401880 | 2001-07-13 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE60131521D1 DE60131521D1 (en) | 2008-01-03 |
| DE60131521T2 true DE60131521T2 (en) | 2008-10-23 |
Family
ID=26077240
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE2001631521 Expired - Lifetime DE60131521T2 (en) | 2001-05-11 | 2001-08-14 | Method and device for controlling the operation of a device or a system, and system having such a device and computer program for carrying out the method |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP1256932B1 (en) |
| DE (1) | DE60131521T2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007010680A1 (en) | 2005-07-20 | 2007-01-25 | Matsushita Electric Industrial Co., Ltd. | Voice tone variation portion locating device |
| CN101901598A (en) * | 2010-06-30 | 2010-12-01 | 北京捷通华声语音技术有限公司 | Humming synthesis method and system |
| CN111816158B (en) * | 2019-09-17 | 2023-08-04 | 北京京东尚科信息技术有限公司 | Speech synthesis method and device and storage medium |
| CN113611326B (en) * | 2021-08-26 | 2023-05-12 | 中国地质大学(武汉) | Real-time voice emotion recognition method and device |
| CN120336509B (en) * | 2025-06-11 | 2025-09-19 | 江西财经大学 | Speaker Relationship-Based Multimodal Dialogue Sentiment-Reason Pair Extraction Method |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
| US6185534B1 (en) * | 1998-03-23 | 2001-02-06 | Microsoft Corporation | Modeling emotion and personality in a computer user interface |
| JP2001154681A (en) * | 1999-11-30 | 2001-06-08 | Sony Corp | Audio processing device, audio processing method, and recording medium |
-
2001
- 2001-07-13 EP EP20010401880 patent/EP1256932B1/en not_active Expired - Lifetime
- 2001-08-14 DE DE2001631521 patent/DE60131521T2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP1256932A2 (en) | 2002-11-13 |
| EP1256932A3 (en) | 2004-10-13 |
| DE60131521D1 (en) | 2008-01-03 |
| EP1256932B1 (en) | 2006-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69917415T2 (en) | Speech synthesis with prosody patterns | |
| DE60112512T2 (en) | Coding of expression in speech synthesis | |
| DE69031165T2 (en) | SYSTEM AND METHOD FOR TEXT-LANGUAGE IMPLEMENTATION WITH THE CONTEXT-DEPENDENT VOCALALLOPHONE | |
| DE602004000873T2 (en) | Apparatus for synthesizing a singing voice, taking into account different models depending on the approach context of the sung notes | |
| DE69719654T2 (en) | Prosody databases for speech synthesis containing fundamental frequency patterns | |
| DE60119496T2 (en) | Method and device for synthesizing an emotion transmitted by means of a sound | |
| DE2945413C1 (en) | Method and device for synthesizing speech | |
| DE69719270T2 (en) | Speech synthesis using auxiliary information | |
| DE60020434T2 (en) | Generation and synthesis of prosody patterns | |
| DE60035001T2 (en) | Speech synthesis with prosody patterns | |
| DE69629486T2 (en) | CONTROL STRUCTURE FOR SOUND SYNTHESIS | |
| DE69028072T2 (en) | Method and device for speech synthesis | |
| DE69617581T2 (en) | System and method for determining the course of the fundamental frequency | |
| DE60126564T2 (en) | Method and arrangement for speech synthesis | |
| DE60118874T2 (en) | Prosody pattern comparison for text-to-speech systems | |
| DE69620399T2 (en) | VOICE SYNTHESIS | |
| DE60110315T2 (en) | Train acoustic models for resistance to noise | |
| DE60004420T2 (en) | Recognition of areas of overlapping elements for a concatenative speech synthesis system | |
| DE2115258A1 (en) | Speech synthesis by concatenating words encoded in formant form | |
| EP1105867B1 (en) | Method and device for the concatenation of audiosegments, taking into account coarticulation | |
| DE69917960T2 (en) | Phoneme-based speech synthesis | |
| DE60307965T2 (en) | Apparatus and method for changing the playback speed of stored speech signals | |
| DE69318209T2 (en) | Method and arrangement for speech synthesis | |
| DE60205421T2 (en) | Method and apparatus for speech synthesis | |
| DE69009571T2 (en) | Speech synthesizer. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition |