[go: up one dir, main page]

JPH11119791A - System and method for voice feeling recognition - Google Patents

System and method for voice feeling recognition

Info

Publication number
JPH11119791A
JPH11119791A JP9286372A JP28637297A JPH11119791A JP H11119791 A JPH11119791 A JP H11119791A JP 9286372 A JP9286372 A JP 9286372A JP 28637297 A JP28637297 A JP 28637297A JP H11119791 A JPH11119791 A JP H11119791A
Authority
JP
Japan
Prior art keywords
voice
speech
emotion
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9286372A
Other languages
Japanese (ja)
Inventor
Shinji Wakizaka
新路 脇坂
Kazuo Kondo
和夫 近藤
Yasunari Obuchi
康成 大淵
Tetsuji Toushita
哲司 塔下
Yasuyo Ishikawa
泰代 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi Ltd
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi ULSI Systems Co Ltd filed Critical Hitachi Ltd
Priority to JP9286372A priority Critical patent/JPH11119791A/en
Publication of JPH11119791A publication Critical patent/JPH11119791A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】音声認識システムにおいて話者の感情のレベル
を認識する。 【解決手段】音声認識の対象となる単語を集めた辞書部
と、音声分析処理を行う音声分析部と、音声のパターン
を音素単位でもつ音響モデル部と、感情による音韻スペ
クトルの変形を表す発声変形感情モデル部と、音声分析
結果に対して、音響モデル部と発声変形感情モデル部と
辞書部とを連結して音声認識処理を行う音声認識部とを
備え、音声の特徴から、音声認識の対象となる単語を音
声認識結果として出力すると共に、音声がもっている話
者の感情の度合を示す感情レベルを出力する。他の音声
分析部は音声のパワーの特徴から感情レベルを出力す
る。
(57) [Summary] [PROBLEMS] To recognize the emotion level of a speaker in a speech recognition system. Kind Code: A1 A dictionary unit that collects words to be subjected to speech recognition, a speech analysis unit that performs speech analysis processing, an acoustic model unit that has a speech pattern in units of phonemes, and an utterance representing deformation of a phoneme spectrum due to emotion. A modified emotion model unit, and a speech recognition unit that performs a speech recognition process by connecting the acoustic model unit, the uttered modified emotion model unit, and the dictionary unit to the speech analysis result. The target word is output as a speech recognition result, and an emotion level indicating the degree of the emotion of the speaker having the speech is output. The other voice analysis unit outputs the emotion level from the characteristics of the power of the voice.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識システム
および方法に係わり、カーナビゲーションシステム、車
載用PC、PDA(パーソナル・デジタル・アシスタン
ト)、ハンドヘルドPCに代表される小型情報機器、携帯
型音声翻訳機、ゲーム、家電機器に用いる音声認識シス
テムであって、特に、音声認識の対象となる単語や文章
の認識とともに、感情を表わす単語や文章においては、
感情の度合まで認識する音声感情認識システムおよび方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition system and method, and relates to a small information device represented by a car navigation system, an in-vehicle PC, a PDA (personal digital assistant), and a handheld PC, and a portable speech translator. Machines, games, and voice recognition systems used in home appliances, especially words and sentences that express emotions, as well as words and sentences to be subjected to voice recognition,
The present invention relates to a voice emotion recognition system and method for recognizing a degree of emotion.

【0002】[0002]

【従来の技術】近年、音声認識技術を用いた小型情報シ
ステムが普久しつつある。カーナビゲーションシステム
をはじめとして、PDAに代表される小型情報機器、携帯
型翻訳機等である。
2. Description of the Related Art In recent years, small information systems using voice recognition technology have been around for a long time. These include car navigation systems, small information devices such as PDAs, and portable translators.

【0003】このような音声認識システムの例として、
特願平5ー35776号公報の「言語自動選択機能付翻
訳装置」には、マイクから入力した操作者の音声を認識
して、翻訳し、翻訳した言語の音声を出力するようにし
た携帯用の翻訳装置に関する技術が開示されている。
[0003] As an example of such a speech recognition system,
Japanese Patent Application No. 5-35776 discloses a "translation device with an automatic language selection function". The translation device recognizes the voice of an operator input from a microphone, translates the voice, and outputs the voice of the translated language. A technology relating to a translation device is disclosed.

【0004】以下、図7を用いてこのような従来技術に
係わる音声翻訳装置の概要について説明する。
[0004] An outline of such a conventional speech translation apparatus will be described below with reference to FIG.

【0005】図7は従来技術に係わる音声翻訳装置の構
成を示すブロック図である。制御部701は、マイクロ
プロセッサ等からなり、装置の各部を制御する。音声区
間切出し部702は、マイク709から入力された音声
をデジタル信号に変換して切り出し、音声認識部703
に送る。音声認識部703は、キーボード又はスイッチ
等による操作信号711を受けた制御部701の指示に
より、マイク709、音声区間切出し部702を経て、
切り出された音声を分析する。そしてその結果を、音声
認識辞書部707に格納された標準音声パターンと比較
することにより、音声認識をおこなう。音声合成部70
5は、音声認識部703により認識された音声に対応し
た翻訳語を、翻訳語データ用メモリカード706から読
み込み、音声信号に変換してスピーカアンプ710、ス
ピーカ708を経て出力する。
FIG. 7 is a block diagram showing the configuration of a speech translation apparatus according to the prior art. The control unit 701 includes a microprocessor or the like, and controls each unit of the device. The voice section cutout unit 702 converts the voice input from the microphone 709 into a digital signal and cuts out the digital signal, and outputs the digital signal.
Send to The voice recognition unit 703 receives an operation signal 711 from a keyboard, a switch, or the like, and receives a command from the control unit 701, passes through the microphone 709 and the voice section cutout unit 702,
Analyze the extracted audio. Then, by comparing the result with a standard speech pattern stored in the speech recognition dictionary unit 707, speech recognition is performed. Voice synthesis unit 70
Reference numeral 5 reads a translated word corresponding to the voice recognized by the voice recognition unit 703 from the translated word data memory card 706, converts the translated word into a voice signal, and outputs the voice signal via the speaker amplifier 710 and the speaker 708.

【0006】表示部704は、翻訳装置の使用者への指
示や翻訳語の文字による表示等をおこなう。翻訳語デー
タ用メモリカード706は、ROMカード等からなり、
翻訳語を音声合成して出力する場合には、音声データを
格納している。また、この翻訳語データ用メモリカード
706から、翻訳語に対応したキャラクターコードを読
み込み、表示部704に表示する。そして、この翻訳語
データ用メモリカード706を他の言語のものと交換す
ることにより、複数の言語に翻訳することが可能とな
る。音声認識辞書部707は、RAM等からなり、操作
者の発生に応じた標準音声パターンを格納している。こ
の標準音声パターンは、操作者があらかじめ格納してお
く。
[0006] The display unit 704 provides instructions to the user of the translation apparatus, displays translated characters, and the like. The translation data memory card 706 is composed of a ROM card or the like,
When a translated word is synthesized and output, audio data is stored. Further, a character code corresponding to the translated word is read from the translated word data memory card 706 and displayed on the display unit 704. By exchanging the translated word data memory card 706 with one for another language, translation into a plurality of languages becomes possible. The voice recognition dictionary unit 707 includes a RAM or the like, and stores a standard voice pattern according to the occurrence of the operator. This standard voice pattern is stored in advance by the operator.

【0007】[0007]

【発明が解決しようとする課題】このような音声認識、
音声合成技術の分野は、半導体技術の向上を背景とし
て、システムがより人間的なユーザインタフェースを提
供すべきであるという要望から、その発展が期待されて
いる。上記従来の音声認識技術を用いた小型情報システ
ムにおいても、カーナビゲーションシステムをはじめと
して、PDAに代表される携帯型情報機器、携帯型翻訳
機、さらに、音声インタフェースを持った情報家電とし
て、今後ますます普及してくることが予想される。
SUMMARY OF THE INVENTION Such speech recognition,
In the field of speech synthesis technology, its development is expected from the demand that the system should provide a more human-like user interface with the improvement of semiconductor technology. In the above-mentioned small information systems using the conventional speech recognition technology, as car navigation systems, portable information devices represented by PDAs, portable translators, and information home appliances with voice interfaces, the future will continue. It is expected to become more and more popular.

【0008】しかしながら、音声認識は、処理すべき情
報量が膨大なものになるため、従来の技術では、認識率
や認識応答時間の性能を低下させないためには、認識す
る語数に制約を設ける必要がある。そのためには、あら
かじめ登録しておいた単語、文に対して、その文字列が
持つ統計的な話者の音声の特徴と、実際に話者が発声し
た音声の特徴とを比較し、確率的に一番近い値を認識結
果としている。
However, in speech recognition, the amount of information to be processed is enormous. Therefore, in the prior art, it is necessary to limit the number of words to be recognized in order to prevent the performance of the recognition rate and the recognition response time from lowering. There is. To do this, for a word or sentence registered in advance, the statistical characteristics of the speaker's voice in the character string and the characteristics of the voice actually spoken by the speaker are compared, and the probability is calculated. The value closest to is used as the recognition result.

【0009】今後、音声認識における技術革新や、それ
を実現するソフトウエア、ハードウエアの性能向上によ
り、認識率や認識応答時間の性能は向上することが考え
られる。そこで、さらに、人間的なユーザインタフェー
スを提供すためには、単に、従来の音声認識技術におい
て、あらかじめ登録した単語、文の文字列を認識するだ
けでなく、話者の感情や意図を認識できれば、たとえ制
限された認識語数においても、使い勝手の向上が期待で
きる。しかしながら、従来の音声認識システムでは、あ
らかじめ登録した単語や文の文字列のみを音声で照合し
て、入力した音声に最も近い文字列を音声認識結果とし
て出力する音声認識システムであり、音声を発声した話
者の感情や意図までは認識できない。
[0009] In the future, it is conceivable that the performance of the recognition rate and the recognition response time will be improved due to technical innovation in speech recognition and improvement of the software and hardware for realizing it. Therefore, in order to provide a more human-like user interface, conventional speech recognition technology should not only recognize words and sentence strings registered in advance, but also recognize emotions and intentions of speakers. Even if the number of recognized words is limited, improvement in usability can be expected. However, the conventional speech recognition system is a speech recognition system in which only a character string of a word or sentence registered in advance is collated with a speech and a character string closest to the inputted speech is output as a speech recognition result. I cannot recognize the emotions and intentions of the speaker who did it.

【0010】本発明は、システムが少しでも人間的なユ
ーザインタフェースを持てるように、上記問題点を解決
するためになされたものである。
The present invention has been made to solve the above problems so that the system can have a human interface at all.

【0011】本発明の目的は、小型情報システムに用い
られる音声認識システムにおいて、入力された音声に対
して、辞書に登録された単語や文の文字列を認識すると
ともに、入力された音声が持っている話者の感情や意図
を認識することができる音声感情認識システム及び方法
を提供することにある。
An object of the present invention is to provide a speech recognition system for use in a small information system, which recognizes a character string of a word or a sentence registered in a dictionary with respect to an inputted speech and has the inputted speech. It is an object of the present invention to provide a voice emotion recognition system and method capable of recognizing a speaker's emotion and intention.

【0012】また、本発明の他の目的は、小型情報シス
テムに用いられる音声認識システムにおいて、入力され
た音声が持っている話者の感情や意図を感情の度合いを
表現する数字や修飾語に変換して、人間とシステムにお
ける良好な音声インタフェースを実現することである。
Another object of the present invention is to provide a speech recognition system used in a small-sized information system, in which a speaker's feeling or intention of an input voice is converted into a number or a modifier expressing the degree of the feeling. Conversion to achieve a good voice interface between humans and the system.

【0013】[0013]

【課題を解決するための手段】上記目的を達成するため
に、本発明の音声感情認識システム及び方法に於いては
音声認識の対象となる単語や文章を集めて辞書として定
義し、音声認識結果として、それらの単語や文章を辞書
部からピックアップして、文字列表示や音声合成を用い
て出力する音声認識システムにおいて、取り込んだ音声
に対して音声分析処理を行う音声分析部と、音声のパタ
ーンを音素単位でもつ音響モデル部と、感情による音韻
スペクトルの変形を表す発声変形感情モデル部と、音声
分析結果に対して音響モデル部と発声変形感情モデル部
と辞書部とを連結して音声認識処理を行う音声認識部と
を備え、音声の特徴から音声認識の対象となる単語や文
章を音声認識結果として出力するとともに、音声がもっ
ている話者の感情の度合を出力するようにしたものであ
る。
In order to achieve the above object, in the speech emotion recognition system and method of the present invention, words and sentences to be subjected to speech recognition are collected and defined as a dictionary, and the speech recognition result is obtained. In a speech recognition system that picks up those words and sentences from the dictionary unit and outputs them using character string display and speech synthesis, a speech analysis unit that performs speech analysis processing on the captured speech, and a speech pattern Acoustic model unit with a phoneme unit, a vocal deformation emotion model unit that represents the deformation of the phoneme spectrum due to emotion, and a voice analysis unit that connects the acoustic model unit, the utterance deformation emotion model unit, and the dictionary unit for speech analysis. A speech recognition unit that performs processing, outputs words and sentences to be subjected to speech recognition based on the features of the speech as speech recognition results, and the speaker's emotions of the speech. Is obtained so as to output a degree.

【0014】より詳しい1実施例に於いては、音声が持
っている話者の感情の度合を示すレベルは、数字0〜N
(Nは整数)であるようにしたものである。
In one more detailed embodiment, the level indicating the degree of the emotion of the speaker possessed by the voice is a number 0 to N.
(N is an integer).

【0015】また、本発明の音声感情認識システム及び
方法に於いては、音声が持っている話者の感情の度合
は、音声認識の対象となる単語や文章を集めた辞書とそ
れらの単語や文章に対して感情のレベルを表現する修飾
語を集めた辞書と有する辞書部を備え、音声認識結果と
して、それらの単語や文章をピックアップするととも
に、感情のレベルを表現する修飾語をピックアップし
て、単語や文章に修飾語を付加して、文字や音声合成を
用いて出力するようにしたものである。
Further, in the speech emotion recognition system and method of the present invention, the degree of the speaker's emotion possessed by the speech is determined by a dictionary which collects words and sentences to be subjected to speech recognition, and a dictionary of those words and sentences. Equipped with a dictionary that has a dictionary that collects modifiers that express the level of emotion for the sentence, and picks up those words and sentences as speech recognition results, and also picks up modifiers that express the level of emotion. In addition, a modifier is added to a word or a sentence, and the word or the sentence is output using characters or speech synthesis.

【0016】さらに詳しい1実施例に於いては、音声認
識の対象となる単語や文章を集めて辞書として定義し、
音声認識結果として、それらの単語や文章をピックアッ
プして、文字列表示や音声合成を用いて出力する音声認
識システムにおいて、取り込んだ音声に対して音声分析
処理を行う音声分析部と、音声のパターンを音素単位で
もつ音響モデル部と、音声分析結果に対して音響モデル
部と辞書部とを連結して音声認識処理を行う音声認識部
とを備え、取り込んだ音声に対して音声分析処理を行う
音声分析部は、感情の度合が現われる音の強弱を示すパ
ワーの特徴から感情の度合を出力することが出来る。
In a further detailed embodiment, words and sentences to be subjected to speech recognition are collected and defined as a dictionary.
In a voice recognition system that picks up these words and sentences as voice recognition results and outputs them using character string display and voice synthesis, a voice analysis unit that performs voice analysis processing on the captured voice, and a voice pattern And a voice recognition unit that performs voice recognition processing by connecting the voice model unit and the dictionary unit to voice analysis results, and performs voice analysis processing on the captured voice. The voice analysis unit can output the degree of emotion from the power characteristic indicating the strength of the sound in which the degree of emotion appears.

【0017】[0017]

【発明の実施の形態】以下、本発明に係る各実施形態を
図 1から図6を用いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments according to the present invention will be described below with reference to FIGS.

【0018】図1は本発明に係る音声および感情認識シ
ステムの各機能とその処理の流れを示すブロック図であ
る。
FIG. 1 is a block diagram showing the functions of the voice and emotion recognition system according to the present invention and the flow of processing thereof.

【0019】音声および感情認識をおこなうために、図
1に示されるマイク101から音声が取り込まれる。取
り込まれた音声であるアナログ信号は、アナログ信号を
デジタル信号に変換するA/D変換器102によって、
任意に決められたサンプリング周期により、アナログデ
ータからデジタルデータに変換される。変換された音声
のデジタルデータは、音声分析部103によって、雑音
処理や音声分析や話者適応などの前処理がなされ、音声
感情認識部104により音声および感情認識がなされ
る。ここで、音声および感情認識とは、2つの処理を実
行する。
In order to perform voice and emotion recognition, voice is taken in from the microphone 101 shown in FIG. An analog signal that is a captured voice is converted by an A / D converter 102 that converts the analog signal into a digital signal.
Analog data is converted into digital data at an arbitrarily determined sampling period. The digital data of the converted voice is subjected to preprocessing such as noise processing, voice analysis, and speaker adaptation by the voice analysis unit 103, and voice and emotion recognition is performed by the voice emotion recognition unit 104. Here, speech and emotion recognition execute two processes.

【0020】第1の処理は、音声信号を解析して、それ
を短い時間ごとの音素として分析して、そのパターンを
解析し、該当する単語や文章を辞書から選択することで
ある。
The first process is to analyze a speech signal, analyze it as phonemes for each short time, analyze its pattern, and select a corresponding word or sentence from a dictionary.

【0021】第2の処理は、音声信号を解析して、それ
を短い時間(5〜20ms)ごとの音素として分析し
て、そのパターンを解析し、話者が発声した音声の感情
の度合いを示すレベルを単語や文章ごとに選択すること
である。
The second process is to analyze a voice signal, analyze it as a phoneme for each short time (5 to 20 ms), analyze its pattern, and measure the degree of emotion of the voice uttered by the speaker. The level to be shown is to be selected for each word or sentence.

【0022】以上の2つの処理から、音声感情認識シス
テムの出力として、音声認識結果および音声の感情レベ
ル109を生成する。
From the above two processes, a speech recognition result and a speech emotion level 109 are generated as outputs of the speech emotion recognition system.

【0023】音声感情認識部104は、音声分析部10
3で分析された入力音声の音声分析結果に対して、音響
モデル部105、発声変形感情モデル部106、単語辞
書部107をモデル連結部108によって連結された音
素単位で照合して、単語辞書部107に登録した単語の
中で、一番近い単語をピックアップする。さらに、ピッ
クアップされた単語の入力音声を持っている感情の度合
いを示すレベルを選択する。なを、図1に示す実施例に
於いては、電源を投入すると、モデル連結部108で連
結された音素単位の単語及び感情の度合いを示すレベル
は音声感情認識部104に記憶され、音声分析部103
からの音声分析結果と直ちに照合出来るようになってい
る。
The voice emotion recognition unit 104 includes the voice analysis unit 10
The voice analysis result of the input voice analyzed in step 3 is compared with the acoustic model unit 105, the uttered deformation emotion model unit 106, and the word dictionary unit 107 for each phoneme connected by the model connection unit 108, and the word dictionary unit The word closest to the words registered in 107 is picked up. Further, a level indicating the degree of the emotion having the input voice of the picked-up word is selected. Note that, in the embodiment shown in FIG. 1, when the power is turned on, the level indicating the degree of the words and emotions of the phoneme units connected by the model connection unit 108 is stored in the voice emotion recognition unit 104, and the voice analysis is performed. Part 103
It can be collated immediately with the voice analysis result from.

【0024】音響モデル部105は、音声認識に用いら
れるモデルであり、具体的には、単語辞書部107に用
いられている文字と音素との対応であり、音素の特徴が
出現する確率の分布、出現した音素の特徴が次のどの特
徴が現れる状態に遷移するかの確率の分布を記憶したも
のである。音素の特徴が出現する確率の分布について説
明する。例えば、「あつい」という音声の「あ」に対し
て音声スぺクトラムは人によって変わるため、「あ」と
言う音素に対して、横軸に音声スぺクトラムをとり、縦
軸に音素が出現する確率を取ると、音声スぺクトラムに
対して「あ」と認識される確率が変わることを言う。次
に、出現した音素の特徴が次のどの特徴が現れる状態に
遷移するかの確率の分布について説明する。例えば、
「あ」という音素は「あつい」のように次に「つ」がく
る場合もあるし、「あさい」のように次に「さ」がくる
こともあるし、「あまい」のように次に「ま」に遷移す
ることもある。「あ」が次にどの音素に遷移するかの確
率は各音素によって変わる。つまり、ある音素の特徴が
次にどの音素の特徴に変化するかの確率は変わるので、
この確率の分布を言う。
The acoustic model unit 105 is a model used for speech recognition. Specifically, the acoustic model unit 105 is a correspondence between a character and a phoneme used in the word dictionary unit 107, and a distribution of a probability that a feature of the phoneme appears. , Which stores the distribution of probabilities that the characteristics of the phoneme that has appeared transition to a state in which the next characteristic appears. The distribution of the probability that a feature of a phoneme appears will be described. For example, the voice spectrum of "A" is different for each person, so the horizontal axis represents the voice spectrum of the phoneme "A" and the phoneme appears on the vertical axis. This means that the probability of recognizing "a" in the speech spectrum changes when the probability of taking the speech spectrum is changed. Next, a description will be given of the distribution of the probability that the feature of the phoneme that has appeared changes to a state in which the next feature appears. For example,
The phoneme "A" may be followed by "Tsu" like "Atsu", "Sai" followed by "S", or "Ama" It may transition to "ma". The probability that "A" will transition to the next phoneme changes with each phoneme. In other words, the probability that a feature of one phoneme changes to the feature of the next phoneme changes,
This distribution of probability is called.

【0025】音響モデル部105は、あらかじめ声を登
録しなくても、誰が話し手でもその声を認識できるいわ
ゆる「不特定話者対応」が、一般的になってきている。
このような音響モデルとしては、例えば、隠れマルコフ
モデル(HMM:Hidden Markov Model)を用いること
ができる。
The so-called "unspecified speaker correspondence" in which the speaker can recognize the voice without registering the voice in advance is becoming common.
As such an acoustic model, for example, a Hidden Markov Model (HMM) can be used.

【0026】発声変形感情モデル部106は、感情の変
化による音韻スペクトルの変形要素に着目して、感情が
変化したときの単語辞書部107に用いられている文字
と音素との対応である。即ち、感情を込めたときに音素
の確率の分布が変わるが、その時の音素の特徴が出現す
る確率の分布、出現した音素の特徴が次のどの特徴が現
れる状態に遷移するかの確率の分布を記憶したものであ
る。この、出現した音素の特徴が次のどの特徴が現れる
状態に遷移するかの確率の分布は、例えば、「あつい」
と言う言葉を感情を込めて「あつい」と言っても変化し
ないが、「あちー」とか「あちい」に変化した場合に変
わる。このような発声変形感情モデル部106として
は、例えば、隠れマルコフモデル(HMM:Hidden Mar
kov Model)を用いることができる。
The utterance transformation emotion model unit 106 focuses on the transformation element of the phoneme spectrum due to the change in emotion, and is the correspondence between the characters and phonemes used in the word dictionary unit 107 when the emotion changes. That is, the distribution of the probability of phonemes changes when emotions are included, but the distribution of the probability that the characteristics of the phoneme appear at that time, and the distribution of the probability that the characteristics of the phoneme that has appeared transitions to the state where any of the following characteristics appear: Is stored. The distribution of the probability that the feature of the appearing phoneme transitions to a state in which the following feature appears is, for example, “hot”
It does not change even if you say "hot" with emotion, but it changes when it changes to "achi" or "chii". As such an utterance deformation emotion model unit 106, for example, a hidden Markov model (HMM: Hidden Mar
kov Model) can be used.

【0027】単語辞書部107は、言葉、単語(名詞、
動詞等)、文章を集めたものである。例えば、カーナビ
ゲーションシステムにおいては、通り名、地名、建造物
名、町名、番地、交差点名、個人住宅(個人名)、電話
番号等や、必要最小限の会話に必要な言葉の集合体であ
る。ただし、音声認識感情システムでは、特に、単語の
中でも、感情を表現する単語、あるいは、感情が現われ
る単語で構成された単語の集合体である。より具体的に
は、話者が発声する「暑い」「寒い」「熱い」「冷た
い」「はやく」「おそく」「大きい」「小さい」「赤
い」「白い」「高く」「低く」「走れ」「進め」「戻
れ」「回れ」「飛べ」等の言葉である。また、名詞等の
感情表現でない単語も含まれる。この単語辞書部107
は、システムの能力に応じて一つの辞書あたり、例えば
10〜5000語の単語で構成する。
The word dictionary unit 107 stores words, words (nouns,
Verbs, etc.) and sentences. For example, in a car navigation system, it is a collection of words necessary for a minimum necessary conversation, such as street names, place names, building names, town names, street addresses, intersection names, private houses (personal names), telephone numbers, and the like. . However, in the speech recognition emotion system, in particular, among words, it is a word that expresses an emotion, or a collection of words formed of words in which an emotion appears. More specifically, the speaker speaks “hot”, “cold”, “hot”, “cold”, “fast”, “slow”, “large”, “small”, “red”, “white”, “high”, “low”, “run” These words are "advance,""return,""turn," and "fly." Also, words that are not emotional expressions such as nouns are included. This word dictionary 107
Consists of words of, for example, 10 to 5000 words per one dictionary according to the capability of the system.

【0028】以上から、音声感情認識とは、音声を解析
して、それを短い時間ごとの音素として分析して、その
パターンを解析し、該当する単語や文章を辞書から選択
するとともに、話者が発声した音声の感情の度合いを示
すレベルを単語や文章ごとに選択することである。
From the above, speech emotion recognition means analyzing speech, analyzing it as phonemes at short time intervals, analyzing its pattern, selecting a corresponding word or sentence from a dictionary, and selecting a speaker. Is to select, for each word or sentence, a level indicating the degree of emotion of the voice uttered.

【0029】なお、図1に示す各処理ブロックは、複数
のLSIやメモリで構成されたシステムであっても、半
導体素子上に構成された一つないし複数のシステムオン
チップであってもよい。また、各処理は、専用LSIや
専用ICで処理するハードウエアであっても、DSPや
RISCマイコン等のソフトウエアで実現したミドルウ
エアであってもよい。
Each processing block shown in FIG. 1 may be a system constituted by a plurality of LSIs or memories, or one or a plurality of system-on-chips constituted on semiconductor elements. Further, each process may be hardware processed by a dedicated LSI or a dedicated IC, or middleware realized by software such as a DSP or a RISC microcomputer.

【0030】図2は、隠れマルコフモデル(HMM:Hidden
Markov Model)による日本語音素のモデル化の例であ
る。
FIG. 2 shows a hidden Markov model (HMM: Hidden
This is an example of modeling a Japanese phoneme by Markov Model).

【0031】201、202、203は音素分布の状態
を表わしている。話者が発声した音声は、「あつい」で
あり、発音記号の1例で表わす「atsui」である。
説明を簡単にするために、図2(a)において、「a」
が201の状態に対応し、「tsu」が202の状態に
対応し、「i」が203の状態に対応している。実際の
音声認識では、状態をさらに細分化して表わしている。
音声は、非定常信号であり、あるときは「a」のスペク
トル、あるときは「tsu」のスペクトルという具合
に、スペクトルの性質が時々刻々と変化することによっ
て言語情報を伝える。この非定常な信号は、性質の異な
る定常信号の音素片の連続とみることができる。この性
質の異なる定常信号の音素片の一つ一つが、201〜2
03に示したHMM状態遷移ネットワークの状態に対応
している。この状態、すなわち、非定常信号源からの出
力として音声のスペクトルが観測される。観測値は、短
時間フレーム毎の音声信号のLPC分析結果であって
も、ベクトル量子化された符号であってもよい。よっ
て、HMMとは、状態201と状態202の間の状態遷
移確率207と、状態201から出力される音声のスペ
クトルが出力される確率201である。確率201と
は、「a」の音素分布の内どの確率値が出力されるかと
言う事を示す。即ち、201〜203は、音素の分布で
あり、各状態から出力される音声のスペクトルが出力さ
れる確率を示したものであ。204〜209は、各状態
が次にどの状態に遷移するかの確率を示したものであ
る。この内、204〜206は、例えば、ある音を長く
発音したとすると、これを音声分析した場合、ある時間
間隔の中では、また同じ音に戻ることを示している。
Reference numerals 201, 202, and 203 represent the states of the phoneme distribution. The voice uttered by the speaker is "hot" and is "atsui" represented by an example of phonetic symbols.
For the sake of simplicity, "a" in FIG.
Corresponds to the state of 201, “tsu” corresponds to the state of 202, and “i” corresponds to the state of 203. In actual speech recognition, the state is further subdivided and represented.
Speech is a non-stationary signal, and conveys linguistic information by changing the nature of the spectrum every moment, such as the spectrum of “a” at one time and the spectrum of “tsu” at some times. This non-stationary signal can be regarded as a continuation of phonemic segments of a stationary signal having different properties. Each of the phonemic segments of the stationary signal having a different property is denoted by 201 to 2
This corresponds to the state of the HMM state transition network shown in FIG. In this state, that is, the spectrum of the voice is observed as the output from the non-stationary signal source. The observation value may be an LPC analysis result of the audio signal for each short-time frame or a vector-quantized code. Therefore, the HMM is the state transition probability 207 between the state 201 and the state 202 and the probability 201 that the spectrum of the sound output from the state 201 is output. The probability 201 indicates which probability value of the phoneme distribution of “a” is output. That is, reference numerals 201 to 203 denote phoneme distributions, each of which indicates a probability that a spectrum of a sound output from each state is output. Reference numerals 204 to 209 denote the probabilities to which state each state transitions next. Of these, 204 to 206 indicate that, for example, when a certain sound is generated for a long time, when the sound is analyzed, the sound returns to the same sound within a certain time interval.

【0032】つぎに、音声認識に用いるHMMの一例を
説明する。
Next, an example of an HMM used for speech recognition will be described.

【0033】図2(a)に示す曲線211は、状態20
1から出力される音声のスペクトルが出力される確率を
連続分布で表現したものである。ここで、音声のスペク
トルは、音声の特徴パラメータをi次元としたときのn
番目の特徴パラメータとする。つまり、音声の特徴を表
わす表現方法としては何種類もあるが、仮にこの表現方
法がi個あったとすると、そのn番目の表現方法の特徴
パラメータを意味する。横軸は、状態201から出力さ
れる音声のスペクトルであり、縦軸は、その確率値であ
る。この分布は、平均μ_a、分散σ_aをもつ連続分
布である。同様に、図2(b)に示す曲線212は状態
202から出力される音声のスペクトルが出力される確
率を連続分布で表現したものである。横軸は、状態20
2から出力される音声のスペクトルであり、縦軸は、そ
の確率値である。この分布は、平均μ_tsu、分散σ
_tsuをもつ連続分布である。
A curve 211 shown in FIG.
The probability that the spectrum of the voice output from No. 1 is output is represented by a continuous distribution. Here, the spectrum of the voice is n when the feature parameter of the voice is i-dimensional.
The feature parameter. In other words, there are many types of expression methods representing the features of the voice, but if there are i expression methods, it means the feature parameter of the n-th expression method. The horizontal axis is the spectrum of the sound output from the state 201, and the vertical axis is the probability value. This distribution is a continuous distribution having mean μ_a and variance σ_a. Similarly, a curve 212 shown in FIG. 2B represents the probability that the spectrum of the sound output from the state 202 is output by a continuous distribution. The horizontal axis is state 20
2 is the spectrum of the voice output from the audio signal 2, and the vertical axis is the probability value. This distribution has a mean μ_tsu, variance σ
_Tsu with a continuous distribution.

【0034】図2(c)に示す曲線213は、状態20
3から出力される音声のスペクトルが出力される確率を
連続分布で表現したものである。横軸は、状態203か
ら出力される音声のスペクトルであり、縦軸は、その確
率値である。この分布は、平均μ_i、分散σ_iをも
つ連続分布である。
The curve 213 shown in FIG.
3 represents the probability that the spectrum of the voice output from No. 3 is output by a continuous distribution. The horizontal axis is the spectrum of the sound output from the state 203, and the vertical axis is the probability value. This distribution is a continuous distribution having mean μ_i and variance σ_i.

【0035】ここで、認識対象単語として登録された
「atsui」の単語辞書部107に話者が「あつい」
と音声を入力する。「あ」の音声に対して、音声分析が
行われ、音声の特徴が出力される。例えば、音声の特徴
パラメータをi次元としたときのn番目の特徴パラメー
タを使用するものとすると、「あ」の特徴f_n1が出
力される。このとき、単語辞書「a」において、特徴f
_n1の出現する確率が連続分布曲線211から計算さ
れ、確率値p_n1が出力される。同様にして、「つ」
「い」の音声に対して、音声分析が行われ、音声の特徴
が出力される。それぞれ、単語辞書「tsu」におい
て、特徴f_n2の出現する確率が連続分布曲線212
から計算され、確率値p_n2が出力される。また、単
語辞書「i」において、特徴f_n3の出現する確率が
連続分布曲線213から計算され、確率値p_n3が出
力される。さらに、音素分布状態201から音素分布状
態202関の状態遷移確率においても同様の処理がおこ
なわれ、状態遷移先を状態207に決定している。最終
的に、登録された単語辞書「atsui」に対して、音
声入力された「あつい」の出現する確率値はP_ats
ui=p_n1+p_n2+p_n3となる。この一連
の処理を、登録された単語辞書全てにおいて計算し、確
率値の一番高かったものが、認識結果となる。以上が音
声認識の一連の処理である。
Here, the speaker "Atsui" is entered in the word dictionary 107 of "atsui" registered as a recognition target word.
And voice input. A voice analysis is performed on the voice of “a”, and the characteristics of the voice are output. For example, assuming that the n-th feature parameter when the feature parameter of the voice is i-dimensional is used, the feature f_n1 of “a” is output. At this time, in the word dictionary “a”, the feature f
The probability of occurrence of _n1 is calculated from the continuous distribution curve 211, and a probability value p_n1 is output. Similarly, "one"
Voice analysis is performed on the voice of “i”, and the characteristics of the voice are output. In the word dictionary “tsu”, the probability that the feature f_n2 appears is represented by the continuous distribution curve 212
And a probability value p_n2 is output. Further, in the word dictionary “i”, the probability of occurrence of the feature f_n3 is calculated from the continuous distribution curve 213, and the probability value p_n3 is output. Further, the same processing is performed on the state transition probability from the phoneme distribution state 201 to the phoneme distribution state 202, and the state transition destination is determined to be the state 207. Finally, with respect to the registered word dictionary “atsui”, the probability value of the appearance of “hot” input by voice is P_ats
ui = p_n1 + p_n2 + p_n3. This series of processing is calculated for all the registered word dictionaries, and the one with the highest probability value is the recognition result. The above is a series of processing of speech recognition.

【0036】さらに、図2(e)から図2(g)を用い
て、音声感情認識における発声変形感情モデルを用いた
HMMの一例を説明する。
Further, referring to FIG. 2 (e) to FIG. 2 (g), an utterance deformation emotion model in speech emotion recognition is used.
An example of the HMM will be described.

【0037】発声変形感情モデル部106は、感情の変
化による音韻スペクトルの変形要素に着目して、感情が
変化したときの単語辞書部107に格納されている単語
の文字と音素との対応であり、音素の特徴が出現する確
率の分布、出現した音素の特徴が次のどの特徴が現れる
状態に遷移するかの確率の分布を記憶したものである。
The utterance transformation emotion model unit 106 focuses on the transformation element of the phoneme spectrum due to the change of the emotion, and is the correspondence between the character of the word stored in the word dictionary unit 107 and the phoneme when the emotion changes. , The distribution of the probability that the feature of the phoneme appears, and the distribution of the probability that the feature of the phoneme that has appeared transitions to a state in which the following feature appears.

【0038】曲線211は前に説明したように、状態2
01から出力される音声のスペクトルが出力される確率
を連続分布で表現したものである。ここで、音声のスペ
クトルは、音声の特徴パラメータをi次元としたときの
n番目の特徴パラメータとする。横軸は、状態201か
ら出力される音声のスペクトルであり、縦軸は、その確
率値である。この分布は、平均μ_a、分散σ_aをも
つ連続分布である。このとき、音声の特徴パラメータを
i次元としたときのn番目の特徴パラメータにおいて、
感情の変化による音韻スペクトルの変形が顕著に現われ
たとする。そこで、話者が通常の感情で発声したときの
音声スペクトルの連続分布曲線を211とし、話者が感
情をこめて発声したとき、すなわち、感情の変化により
変形した時の音声スペクトルの連続分布曲線を214と
する。よって、従来の音声認識に用いられてきた音響モ
デルのHMMに加えて、感情の変化により音韻スペクトル
の変形が現われる特徴パラメータだけで構成した確率分
布を音声感情認識モデルのHMMとして用意する。曲線2
14は、音声感情認識モデルにおいて、状態201から
出力される感情の変化による音声のスペクトルが出力さ
れる確率を連続分布で表現したものである。横軸は、状
態201から出力される音声のスペクトルであり、縦軸
は、その確率値である。この分布は、平均μ_a_s、
分散σ_a_sをもつ連続分布である。ここで、認識対
象単語として登録された「atsui」の単語辞書にお
いて、実際に、話者が「あつい」と感情をこめて音声を
入力する。「あ」の音声に対して、音声分析が行われ、
音声の特徴が出力される。例えば、音声の特徴パラメー
タをi次元としたときに、n番目の音声の特徴パラメー
タを採用したとすると、「あ」の特徴f_n1_eが出
力される。このとき、単語辞書「a」において、特徴f
_n1_eの出現する確率が連続分布曲線214から計
算され、確率値p_n1_eが出力される。ここで、こ
の連続分布曲線214に関して、確率値p_n1_e
は、話者が通常の発声をしたときの特徴f_n1での確
率値p_n1より高い値をとる。
The curve 211 corresponds to the state 2 as described above.
This is a representation of the probability that the spectrum of the voice output from No. 01 is output as a continuous distribution. Here, the speech spectrum is the n-th feature parameter when the feature parameter of the speech is i-dimensional. The horizontal axis is the spectrum of the sound output from the state 201, and the vertical axis is the probability value. This distribution is a continuous distribution having mean μ_a and variance σ_a. At this time, in the n-th feature parameter when the feature parameter of the voice is i-dimensional,
Suppose that the deformation of the phonological spectrum due to the change of the emotion has appeared remarkably. Therefore, the continuous distribution curve of the speech spectrum when the speaker utters with normal emotion is set to 211, and the continuous distribution curve of the speech spectrum when the speaker utters with emotion, that is, when the speaker is deformed by a change in emotion. Is set to 214. Therefore, in addition to the HMM of the acoustic model used for the conventional speech recognition, a probability distribution composed only of the feature parameters in which the deformation of the phoneme spectrum appears due to the change of the emotion is prepared as the HMM of the speech emotion recognition model. Curve 2
Reference numeral 14 denotes a continuous distribution of the probability that a spectrum of a voice due to a change in the emotion output from the state 201 is output in the voice emotion recognition model. The horizontal axis is the spectrum of the sound output from the state 201, and the vertical axis is the probability value. This distribution has a mean μ_a_s,
It is a continuous distribution with variance σ_a_s. Here, in the word dictionary of “atsui” registered as a word to be recognized, the speaker actually inputs a voice with a feeling of “hot”. Voice analysis is performed on the voice of "A",
The features of the audio are output. For example, if the feature parameter of the speech is i-dimensional and the feature parameter of the n-th speech is adopted, the feature “a” of f_n1_e is output. At this time, in the word dictionary “a”, the feature f
The probability of occurrence of _n1_e is calculated from the continuous distribution curve 214, and a probability value p_n1_e is output. Here, regarding the continuous distribution curve 214, the probability value p_n1_e
Takes a value higher than the probability value p_n1 at the feature f_n1 when the speaker speaks normally.

【0039】また、曲線222は、状態202から出力
される音声のスペクトルが出力される確率を連続分布で
表現したものである。横軸は、状態202から出力され
る音声のスペクトルであり、縦軸は、その確率値であ
る。この分布は、平均μ_tsu_s、分散σ_tsu
_sをもつ連続分布である。曲線223は、状態203
から出力される音声のスペクトルが出力される確率を連
続分布で表現したものである。横軸は、状態203から
出力される音声のスペクトルであり、縦軸は、その確率
値である。この分布は、平均μ_i_s、分散σ_i_
sをもつ連続分布である。
A curve 222 represents the probability that the spectrum of the sound output from the state 202 is output by a continuous distribution. The horizontal axis is the spectrum of the sound output from the state 202, and the vertical axis is the probability value. This distribution has a mean μ_tsu_s, a variance σ_tsu
_S. Curve 223 represents state 203
Is a continuous distribution of the probability that the spectrum of the voice output from is output. The horizontal axis is the spectrum of the sound output from the state 203, and the vertical axis is the probability value. This distribution has a mean μ_i_s, a variance σ_i_
It is a continuous distribution with s.

【0040】曲線214の場合と同様に、「つ」「い」
の音声に対して、音声分析が行われ、音声の特徴が出力
される。それぞれ、単語辞書「tsu」において、特徴
f_n2_eの出現する確率が連続分布曲線222から
計算され、確率値p_n2_eが出力される。また、単
語辞書「i」において、特徴f_n3_eの出現する確
率が連続分布曲線223から計算され、確率値p_n3
_eが出力される。さらに、状態と状態の間の状態遷移
確率においても同様の処理がおこなわれ、状態遷移先を
決定している。最終的に、登録された単語辞書「ats
ui」に対して、感情をこめて音声入力された「あつ
い」の出現する確率値はP_atsui=p_n1_e
+p_n2_e+p_n3_eとなる。この一連の処理
を、登録された単語辞書全てにおいて計算し、計算され
た確率値の範囲によって感情のレベルを出力する。以上
が音声の感情レベルを認識する一連の処理である。
As in the case of the curve 214, "T" and "I"
The voice analysis is performed on the voice and the characteristics of the voice are output. In each of the word dictionaries “tsu”, the probability of occurrence of the feature f_n2_e is calculated from the continuous distribution curve 222, and the probability value p_n2_e is output. Further, in the word dictionary “i”, the probability of occurrence of the feature f_n3_e is calculated from the continuous distribution curve 223, and the probability value p_n3
_E is output. Further, similar processing is performed for the state transition probability between states, and the state transition destination is determined. Finally, the registered word dictionary “ats
With respect to “ui”, the probability value of the appearance of “Autum” that is voice-inputted with emotion is P_attui = p_n1_e
+ P_n2_e + p_n3_e. This series of processing is calculated in all the registered word dictionaries, and the emotion level is output according to the calculated range of the probability value. The above is a series of processing for recognizing the emotion level of the voice.

【0041】図3は、本発明に係る他の音声および感情
認識システムの各機能とその処理の流れを示すブロック
図である。
FIG. 3 is a block diagram showing functions of another voice and emotion recognition system according to the present invention and a flow of processing thereof.

【0042】音声および感情認識をおこなうために、図
3に於いては、マイク301から音声が取り込まれる。
取り込まれた音声であるアナログ信号は、アナログ信号
をデジタル信号に変換するA/D変換器302によっ
て、任意に決められたサンプリング周期により、アナロ
グデータからデジタルデータに変換される。変換された
音声のデジタルデータは、音声分析部303によって、
雑音処理や音声分析や話者適応などの前処理がなされる
と共に、音声分析部303に含まれている音声パワー分
析部303aで音声パワーを分析して感情のレベルが出
力される。音声分析部303の出力は音声感情認識部3
04で処理され、音声および感情認識がなされる。ここ
で、音声感情認識部304で行われる音声感情認識と
は、2つの処理を実行する。
In FIG. 3, a voice is taken in from a microphone 301 in order to perform voice and emotion recognition.
An analog signal, which is a captured voice, is converted from analog data to digital data by an A / D converter 302 that converts the analog signal into a digital signal at an arbitrarily determined sampling period. The digital data of the converted voice is output by the voice analysis unit 303.
Preprocessing such as noise processing, speech analysis, and speaker adaptation is performed, and speech power is analyzed by a speech power analysis unit 303a included in the speech analysis unit 303, and the emotion level is output. The output of the voice analysis unit 303 is the voice emotion recognition unit 3
At 04, speech and emotion recognition is performed. Here, the voice emotion recognition performed by the voice emotion recognition unit 304 executes two processes.

【0043】第1の処理は、音声信号を解析して、それ
を短い時間ごとの音素として分析して、そのパターンを
解析し、該当する単語や文章を辞書から選択することで
ある。
The first process is to analyze a voice signal, analyze it as a phoneme for each short time, analyze its pattern, and select a corresponding word or sentence from a dictionary.

【0044】第2の処理は、音声信号を解析して、それ
を短い時間(5〜20ms)ごとの音素として分析し
て、そのパターンを解析し、話者が発声した音声の感情
の度合いを示すレベルを単語や文章ごとに選択すること
である。
The second process is to analyze a voice signal, analyze it as a phoneme for each short time (5 to 20 ms), analyze its pattern, and measure the degree of emotion of the voice uttered by the speaker. The level to be shown is to be selected for each word or sentence.

【0045】以上の2つの処理から、音声感情認識シス
テムの出力として、音声認識結果および音声の感情レベ
ル309を生成する。
From the above two processes, a speech recognition result and a speech emotion level 309 are generated as outputs of the speech emotion recognition system.

【0046】音声感情認識部304は、音声分析部30
3で分析された入力音声の音声分析結果に対して、音響
モデル305、単語辞書307をモデル連結部308に
よって連結された音素単位で照合して、単語辞書部30
7に登録した単語辞書307の中で、一番近い単語をピ
ックアップする。さらに、ピックアップされた単語の入
力音声が持っている感情の度合いを示すレベルを選択す
る。
The voice emotion recognition unit 304 includes the voice analysis unit 30
The acoustic model 305 and the word dictionary 307 are collated by the phoneme unit connected by the model connecting unit 308 with the voice analysis result of the input voice analyzed in
7, the closest word is picked up from the word dictionary 307 registered in. Further, a level indicating the degree of emotion of the input voice of the picked-up word is selected.

【0047】音響モデル部305は、音声認識に用いら
れるモデルであり、具体的には、単語辞書部307に格
納されている文字と音素との対応であり、音素の特徴が
出現する確率の分布、出現した音素の特徴が次のどの特
徴が現れる状態に遷移するかの確率の分布を記憶したも
のである。音響モデル部305は、あらかじめ声を登録
しなくても、誰が話し手でもその声を認識できるいわゆ
る「不特定話者対応」が、一般的になってきている。こ
のような音響モデルとしては、例えば、隠れマルコフモ
デル(HMM:Hidden Markov Model)を用いることが
できる。
The acoustic model unit 305 is a model used for speech recognition. Specifically, the acoustic model unit 305 is a correspondence between a character stored in the word dictionary unit 307 and a phoneme, and a distribution of the probability that a feature of the phoneme appears. , Which stores the distribution of probabilities that the characteristics of the phoneme that has appeared transition to a state in which the next characteristic appears. The so-called “unspecified speaker correspondence” in which the speaker can recognize the voice of the acoustic model unit 305 without registering the voice in advance is becoming common. As such an acoustic model, for example, a Hidden Markov Model (HMM) can be used.

【0048】単語辞書部307は、言葉、単語(名詞、
動詞等)、文章を集めたものである。例えば、カーナビ
ゲーションシステムにおいては、通り名、地名、建造物
名、町名、番地、交差点名、個人住宅(個人名)、電話
番号等や、必要最小限の会話に必要な言葉の集合体であ
る。ただし、音声認識感情システムでは、特に、単語の
中でも、感情を表現する単語、あるいは、感情が現われ
る単語で構成された単語の集合体である。より具体的に
は、話者が発声する「暑い」「寒い」「熱い」「冷た
い」「はやく」「おそく」「大きい」「小さい」「赤
い」「白い」「高く」「低く」「走れ」「進め」「戻
れ」「回れ」「飛べ」等の言葉である。また、名詞等の
感情表現でない単語も含まれる。この単語辞書部307
に格納される単語数は、システムの能力に応じて決めら
れるが、一つの辞書あたり、例えば、10〜5000語
である。
The word dictionary unit 307 stores words, words (nouns,
Verbs, etc.) and sentences. For example, in a car navigation system, it is a collection of words necessary for a minimum necessary conversation, such as street names, place names, building names, town names, street addresses, intersection names, private houses (personal names), telephone numbers, and the like. . However, in the speech recognition emotion system, in particular, among words, it is a word that expresses an emotion, or a collection of words formed of words in which an emotion appears. More specifically, the speaker speaks “hot”, “cold”, “hot”, “cold”, “fast”, “slow”, “large”, “small”, “red”, “white”, “high”, “low”, “run” These words are "advance,""return,""turn," and "fly." Also, words that are not emotional expressions such as nouns are included. This word dictionary unit 307
The number of words stored in each dictionary is determined according to the capability of the system, but is, for example, 10 to 5000 words per dictionary.

【0049】以上から、音声感情認識システム又は音声
感情認識方法とは、音声信号を解析して、それを短い時
間ごとの音素として分析して、そのパターンを解析し、
該当する単語や文章を辞書から選択するとともに、話者
が発声した音声の感情の度合いを示すレベルを単語や文
章ごとに選択することである。
As described above, the voice emotion recognition system or the voice emotion recognition method is to analyze a voice signal, analyze it as a phoneme for each short time, analyze its pattern,
In addition to selecting a corresponding word or sentence from the dictionary, a level indicating the degree of emotion of the voice uttered by the speaker is selected for each word or sentence.

【0050】なお、図3に示す各処理ブロックは、複数
のLSIやメモリで構成されたシステムであっても、半
導体素子上に構成された一つないし複数のシステムオン
チップであってもよい。また、各処理は、専用LSIや
専用ICで処理するハードウエアであっても、DSPや
RISCマイコン等のソフトウエアで実現したミドルウ
エアであってもよい。
Each processing block shown in FIG. 3 may be a system constituted by a plurality of LSIs and memories, or one or a plurality of system-on-chips constituted on semiconductor elements. Further, each process may be hardware processed by a dedicated LSI or a dedicated IC, or middleware realized by software such as a DSP or a RISC microcomputer.

【0051】図4(a)は、図3で説明した音声感情認
識システムにおいて、話者が発声した音声「あつい」の
音声入力波形を示すもので、横軸は時間を、縦軸は音声
レベルを示す。また、図4(b)は「あつい」の音声の
パワーを示したものであり、横軸に時間を、縦軸に音声
のパワーを示している。
FIG. 4 (a) shows a voice input waveform of a voice "hot" uttered by the speaker in the voice emotion recognition system described in FIG. 3, in which the horizontal axis represents time and the vertical axis represents voice level. Is shown. FIG. 4B shows the power of the "hot" sound, in which the horizontal axis represents time and the vertical axis represents the sound power.

【0052】音声入力波形401は、話者が平常の音声
で「あつい」と発声したときの音声波形である。音声信
号は、時々刻々と変化する非定常な信号である。この音
声信号を20msの短時間で切り出して見ると、定常信
号と同様なスペクトル音声分析ができる。切り出された
音声信号のサンプル値から、例えば、音声分析で広く用
いられているLPC分析において、自己相関関数を計算
すると、音声の特徴パラメータの一つとして、音声のパ
ワーが求められる。
The voice input waveform 401 is a voice waveform when the speaker utters “Aut” with normal voice. The audio signal is an unsteady signal that changes every moment. If this audio signal is cut out and viewed in a short time of 20 ms, the same spectral audio analysis as that of a stationary signal can be performed. When the autocorrelation function is calculated from the sampled values of the extracted audio signal in, for example, LPC analysis widely used in audio analysis, the power of the audio is obtained as one of the characteristic parameters of the audio.

【0053】音声パワーを示す曲線402は、音声波形
401の音声信号から計算されたパワーである。時間t
に対するパワーの変化を表わしている。ここで、このパ
ワー情報に対して、しきい値を任意に設定し、入力され
た音声毎にこのしきい値を超えたかどうかを観測する。
この観測は、音声分析部303で行う。さらに、複数の
しきい値を設け、入力された音声毎にそれぞれのしきい
値を超えたかどうかを観測する。例えば、音声パワー曲
線402の音声の場合は、しきい値TH1超えている
が、しきい値TH2は超えていない。すなわち、連続的
にパワーが、しきい値TH1とTH2の間にある場合に
は、感情のレベルを1と見なし、音声分析部303は感
情レベル1を出力する。
A curve 402 showing the audio power is the power calculated from the audio signal of the audio waveform 401. Time t
Represents the change in power with respect to. Here, a threshold value is arbitrarily set for this power information, and it is observed whether or not the threshold value is exceeded for each input voice.
This observation is performed by the voice analysis unit 303. Further, a plurality of thresholds are provided, and it is observed whether or not each of the inputted voices exceeds the threshold. For example, in the case of the sound of the sound power curve 402, the threshold value TH1 is exceeded, but the threshold value TH2 is not exceeded. That is, when the power is continuously between the threshold values TH1 and TH2, the emotion level is regarded as 1, and the voice analysis unit 303 outputs the emotion level 1.

【0054】つぎに、話者が、感情を込めた強い口調の
音声で「あつい」と発声したときの音声波形及び音声パ
ワーをそれぞれ図4(c)及び図4(d)に示す。図4
(c)は横軸に時間を、縦軸に音声レベルを示し、図4
(d)は横軸に時間を、縦軸に音声パワーを示す。図4
(c)に於いて、403は音声波形を示す。、図4
(d)に於いて、404は音声波形403の音声信号か
ら計算された音声のパワーであり、時間tに対するパワ
ーの変化を表わしている。例えば、音声パワー404の
場合は、しきい値TH1超えて、さらに、しきい値TH
2を超えている。すなわち、連続的にパワーが、しきい
値TH2を超えている場合には、感情のレベルを2と見
なし、音声分析部303は感情レベル2を出力する。こ
の例の場合は、感情レベルを2段階に設定したが、しき
い値を増やすことによって、感情レベルをN(Nは整数)
段階に設定できる。
Next, FIGS. 4 (c) and 4 (d) show the speech waveform and the speech power, respectively, when the speaker utters "hot" with a strong tone with emotion. FIG.
FIG. 4C shows time on the horizontal axis and audio level on the vertical axis.
In (d), the horizontal axis indicates time, and the vertical axis indicates audio power. FIG.
In (c), reference numeral 403 denotes an audio waveform. , FIG.
In (d), reference numeral 404 denotes the power of the sound calculated from the sound signal of the sound waveform 403, which represents a change in the power with respect to time t. For example, in the case of the audio power 404, the threshold value TH1 is exceeded and the threshold value TH is further increased.
Over two. That is, when the power continuously exceeds the threshold value TH2, the emotion level is regarded as 2, and the voice analysis unit 303 outputs the emotion level 2. In this example, the emotion level is set to two levels, but by increasing the threshold value, the emotion level is set to N (N is an integer).
Can be set in stages.

【0055】また、音声分析部303からは、感情レベ
ルとともに、音声認識の為の音声の特徴パラメータが時
々刻々と音声感情認識部304にに入力され、最終的
に、音声感情認識部304からは音声認識結果「atu
si」(=あつい)と感情レベルNを示すデータ309
が出力される。
Further, from the speech analysis unit 303, the feature parameters of the speech for speech recognition together with the emotion level are input to the speech emotion recognition unit 304 from moment to moment, and finally, from the speech emotion recognition unit 304. The speech recognition result "atu
data 309 indicating “si” (= hot) and emotion level N
Is output.

【0056】次に、図5を用いて本発明に係る音声認識
システムのハードウエア構成について説明する。
Next, the hardware configuration of the speech recognition system according to the present invention will be described with reference to FIG.

【0057】音声を取り込むためのマイク501は、カ
ーナビゲーションシステム、携帯型情報端末、PDA、
ハンドヘルドPC、ゲーム、携帯型翻訳機、並びに、エ
アコン等の家庭電化製品等では、周囲の雑音を取り込ま
ないために指向性をもたせた指向性マイクである。50
4は、マイク501により取り込まれたアナログ音声デ
ータを、デジタル音声データに変換するA/D変換器で
ある。
The microphone 501 for taking in voice is a car navigation system, a portable information terminal, a PDA,
Handheld PCs, games, portable translators, home appliances such as air conditioners, and the like are directional microphones having directivity so as not to capture ambient noise. 50
Reference numeral 4 denotes an A / D converter that converts analog audio data captured by the microphone 501 into digital audio data.

【0058】音声入力用ボタン502は、音声を入力し
ている区間を指定するためのボタンである。ボタンが押
されている間、あるいは、ボタンが押された時点から音
声が入力されたことをシステムに知らせる。505は、
音声入力用ボタン502と、システムを接続するための
インタフェースである。
The voice input button 502 is a button for designating a section in which voice is being input. While the button is being pressed, or from the time the button is pressed, the system is notified that a voice has been input. 505 is
This is an interface for connecting the voice input button 502 and the system.

【0059】キー入力用デバイス509は、例えば、携
帯型情報端末であれば、ペン入力用のデジタイザであ
り、ハンドヘルドPCであれば、キーボードである。ま
た、ファミコンなどのゲーム機であれば、キャラクタ等
を操作するキーパッドや、ジョイスティックである。5
10は、キー入力用デバイス509と、システムを接続
するためのインタフェースである。
The key input device 509 is, for example, a pen input digitizer in the case of a portable information terminal, and a keyboard in the case of a handheld PC. In the case of a game console such as a NES, a keypad for operating a character or the like or a joystick is used. 5
Reference numeral 10 denotes an interface for connecting the key input device 509 to the system.

【0060】CPU503は、カーナビゲーションシス
テム、携帯型情報端末、PDA、ハンドヘルドPC、ゲ
ーム、携帯型翻訳機、並びに、家庭電化製品等のメイン
システムの制御と、音声感情認識システムにおける音声
認識および感情認識処理を行う。図3に示す本発明の音
声感情認識システムの音声分析部303、音声感情認識
部304及びモデル連結部308はこのCPU503に
設けられる。このCPU503には、RISCマイコン
やDSPが用いられるのが、最近の潮流である。
The CPU 503 controls a main system such as a car navigation system, a portable information terminal, a PDA, a handheld PC, a game, a portable translator, and a home appliance, and performs voice recognition and emotion recognition in a voice emotion recognition system. Perform processing. The voice analysis unit 303, the voice emotion recognition unit 304, and the model connection unit 308 of the voice emotion recognition system of the present invention shown in FIG. A recent trend is to use a RISC microcomputer or DSP for the CPU 503.

【0061】ROM506は、音声認識用単語辞書、音
響モデル、発声変形感情モデル、プログラムを格納して
おく記憶装置である。また、複数の辞書や、音響モデ
ル、発声変形感情モデルを格納しておくために、メモリ
カードを用いてもよい。
The ROM 506 is a storage device for storing a word dictionary for speech recognition, an acoustic model, an utterance deformation emotion model, and a program. Further, a memory card may be used to store a plurality of dictionaries, acoustic models, and utterance deformation emotion models.

【0062】RAM507は、ROM506から転送さ
れた一部の辞書や、音響モデル、プログラムが格納さ
れ、また、音声感情認識処理に必要な必要最小限のワー
クメモリであり、ROM506に比べて、通常アクセス
時間の短い半導体素子が用いられる。また、ここにはC
PU503から音声認識結果及び感情のレベルを示すデ
ータ309が入力される。
The RAM 507 stores a part of the dictionary, acoustic model, and program transferred from the ROM 506, and is a minimum necessary work memory required for the voice emotion recognition processing. A semiconductor element having a short time is used. Also, here is C
Data 309 indicating a speech recognition result and an emotion level is input from PU 503.

【0063】バス508は、システムにおけるデータバ
ス、アドレスバス、制御信号バスとして用いられる。
The bus 508 is used as a data bus, an address bus, and a control signal bus in the system.

【0064】音声感情認識結果を出力表示するためのデ
ィスプレイ512は、TFT液晶ディスプレイ等のLC
Dで構成し、音声認識結果および音声の感情レベルを表
示する。511は、ディスプレイ512と、システムを
接続するためのインタフェースである。
A display 512 for outputting and displaying the voice emotion recognition result is an LC such as a TFT liquid crystal display.
D to display the speech recognition result and the emotion level of the speech. An interface 511 connects the display 512 to the system.

【0065】音声感情認識結果を音で出力するためのス
ピーカ514は、音声認識結果および音声の感情レベル
を音声合成して出力する。513は、音声認識結果およ
び、音声の感情レベルをテキストから音声合成データに
変換処理した後、デジタル音声合成データからアナログ
音声信号に変換するD/A変換器である。
A speaker 514 for outputting the voice emotion recognition result as sound synthesizes and outputs the voice recognition result and the emotion level of the voice. A D / A converter 513 converts the speech recognition result and the emotion level of the speech from text to speech synthesis data, and then converts the digital speech synthesis data to an analog speech signal.

【0066】以下、本発明に係る実施形態の一例を、図
6及び図8を用いて説明する。
Hereinafter, an example of an embodiment according to the present invention will be described with reference to FIGS.

【0067】本実施形態では、本発明の音声感情認識シ
ステムをカーエレクトロニクス製品に適用した場合につ
いて説明する。
In the present embodiment, a case where the voice emotion recognition system of the present invention is applied to a car electronics product will be described.

【0068】図6(a)は本発明による音声感情認識シ
ステムをカーエレクトロニクス製品のエアコン操作に利
用した場合のブロック図であり、図6(b)はこの音声
感情認識システムのおける音声入力例とその認識結果を
示す模式図である。
FIG. 6A is a block diagram when the voice emotion recognition system according to the present invention is used for operating an air conditioner of a car electronics product. FIG. 6B shows an example of voice input in the voice emotion recognition system. It is a schematic diagram showing the recognition result.

【0069】図6(a)に於いて、601は音声入力用
マイク、602は音声感情認識システム、603は音声
感情認識結果や、話者との双方向のやり取りを行うため
に、会話形式の文字情報を出力するためのディスプレ
イ、604は音声感情認識結果や、話者との双方向のや
り取りを行うために、会話形式の文字情報を音声合成し
て出力するためのスピーカである。
In FIG. 6A, reference numeral 601 denotes a voice input microphone, 602 denotes a voice emotion recognition system, and 603 denotes a voice emotion recognition result and a conversational format for bidirectional communication with a speaker. A display 604 for outputting character information is a speaker for synthesizing and outputting conversational character information in order to perform a voice emotion recognition result and bidirectional communication with a speaker.

【0070】次に、図6(b)を用いて、話者が発声し
た音声入力例と、音声感情認識システムが出力した認識
結果例を説明する。
Next, with reference to FIG. 6B, an example of a voice input uttered by a speaker and an example of a recognition result output by a voice emotion recognition system will be described.

【0071】605は話者が音声感情システム602に
対して、普通の発声で、「暑い」と発声した場合の音声
感情システム602の認識結果である「暑い=感情レベ
ル3」を示す。次に、606は話者が音声感情システム
に対して、強い調子で、「暑い」と発声した時の音声感
情システム602の認識結果であり、「暑い=感情レベ
ル5」を示す。
Reference numeral 605 denotes “hot = emotional level 3” which is a recognition result of the voice emotion system 602 when the speaker utters “hot” with a normal voice to the voice emotion system 602. Next, reference numeral 606 denotes a recognition result of the voice emotion system 602 when the speaker utters "hot" in a strong tone with respect to the voice emotion system, and indicates "hot = emotion level 5".

【0072】また、607は話者が音声感情システムに
対して、普通の発声で、「暑い」と発声したときの音声
感情システム602の認識結果である「少し暑いです
か」を示す。次に、608は話者が音声感情システムに
対して、強い調子で、「暑い」と発声した時の音声感情
システム602の認識結果である「かなり暑いですか」
を示す。
Reference numeral 607 indicates “is it a little hot” as a recognition result of the voice emotion system 602 when the speaker utters “hot” with a normal voice to the voice emotion system. Next, 608 is a recognition result of the voice emotion system 602 when the speaker utters “hot” in a strong tone with respect to the voice emotion system, “Is it quite hot?”
Is shown.

【0073】さらに、認識結果608に対して「はい」
と声感情システム602に対して発声すると、音声感情
システム602その認識結果として、「車内を25℃に
設定します」を出力する。実際に、車内が25℃に設定
される。
Further, "Yes" is given to the recognition result 608.
Then, the voice emotion system 602 outputs "set the interior of the vehicle to 25 ° C." as a recognition result. Actually, the inside of the vehicle is set to 25 ° C.

【0074】また、他の本実施形態では、本発明の音声
感情認識システムをファミリーコンピュータ(登録商
標)等のゲーム製品に適用した場合について説明する。
In another embodiment, a case will be described in which the voice emotion recognition system of the present invention is applied to a game product such as Family Computer (registered trademark).

【0075】図8(a)から図8(d)は、ファミリコ
ンピュータ等のゲーム機のキャラクタの操作において、
音声感情認識システムを用いた一例であり、音声による
インターフェースの音声入力例及び認識結果による動作
例を示す模式図である。
FIGS. 8 (a) to 8 (d) show the operation of a character of a game machine such as a family computer.
It is an example using a voice emotion recognition system, and is a schematic diagram showing a voice input example of an interface by voice and an operation example based on a recognition result.

【0076】図8に於いて、801、802、809及
び810は、ゲーム機本体のディスプレイやゲーム機が
接続されたTV等の画面である。
In FIG. 8, reference numerals 801, 802, 809, and 810 denote screens of a game machine main body display and a TV or the like to which the game machine is connected.

【0077】図8(a)に於いて、ゲームに登場するキ
ャラクター805は、例えば、画面801に向かって左
から右へと進んでいる。この操作を音声感情認識を使っ
て行う。そこで、操作者(話者)は、発声例803に示
すように「進め」と普通の音声で発声する。音声感情認
識システムは、進め(susume)を認識し、さら
に、感情レベルを認識する。例えば、このゲーム機にお
ける音声感情認識システムでは、感情レベルを5段階に
設定したとすると、感情レベル=3と認識する。そこ
で、ゲーム機本体側のシステムでは、キャラクター80
5をキャラクター806の位置へ移動する。
In FIG. 8A, the character 805 appearing in the game is, for example, moving from left to right toward the screen 801. This operation is performed using voice emotion recognition. Therefore, the operator (speaker) utters “forward” as a normal voice as shown in utterance example 803. The voice emotion recognition system recognizes the progress and further recognizes the emotion level. For example, in the voice emotion recognition system in this game machine, if the emotion level is set to five levels, the emotion level is recognized as three. Therefore, in the system of the game machine main body, the character 80
5 is moved to the position of the character 806.

【0078】図8(b)に於いて、ゲームに登場するキ
ャラクター807は、例えば、画面802に向かって左
から右へと進んでいる。この操作を音声感情認識を使っ
て行う。そこで、操作者(話者)は、音声例804に示
すように、「進め」と強い調子で発声する。音声感情認
識システムは、進め(susume)を認識し、さら
に、感情レベルを認識する。例えば、このゲーム機にお
ける音声感情認識システムでは、感情レベルを5段階に
設定したとすると、感情レベル=5と認識する。そこ
で、ゲーム機本体側のシステムでは、キャラクター80
7はキャラクター808の位置へ大きく移動する。ここ
で、キャラクターの移動量は、認識された音声「進め」
の感情レベルに比例する。
In FIG. 8B, the character 807 appearing in the game moves from left to right toward the screen 802, for example. This operation is performed using voice emotion recognition. Then, the operator (speaker) utters “advance” in a strong tone as shown in a voice example 804. The voice emotion recognition system recognizes the progress and further recognizes the emotion level. For example, in the voice emotion recognition system of this game machine, if the emotion level is set to five levels, the emotion level is recognized as 5. Therefore, in the system of the game machine main body, the character 80
7 largely moves to the position of the character 808. Here, the movement amount of the character is the recognized voice
Is proportional to the emotion level.

【0079】図8(c)に於いては、ゲームに登場する
キャラクター813は、例えば、画面809に向かって
左から右へと進んでいる。このとき、前方に障害物81
6が現われたとする。そこで、この障害物816を飛び
超えなくてはならない。この操作を音声感情認識を使っ
て行う。そこで、操作者(話者)は、音声例811に示
すように「ジャンプ」と普通の音声で発声する。音声感
情認識システムは、ジャンプ(jyanpu)を認識
し、さらに、感情レベルを認識する。例えば、このゲー
ム機における音声感情認識システムでは、感情レベルを
5段階に設定したとすると、感情レベル=3と認識す
る。そこで、ゲーム機本体側のシステムでは、キャラク
ター813をキャラクター814の位置へ移動し、さら
に、キャラクター815の位置へ移動する。
In FIG. 8C, the character 813 appearing in the game advances from left to right toward the screen 809, for example. At this time, the obstacle 81
Suppose 6 appears. Therefore, it is necessary to jump over the obstacle 816. This operation is performed using voice emotion recognition. Then, the operator (speaker) utters “jump” with a normal voice as shown in voice example 811. The voice emotion recognition system recognizes a jump (jyanpu) and further recognizes an emotion level. For example, in the voice emotion recognition system in this game machine, if the emotion level is set to five levels, the emotion level is recognized as three. Therefore, in the system on the game machine main body side, the character 813 is moved to the position of the character 814, and further moved to the position of the character 815.

【0080】図8(d)にに於いては、ゲームに登場す
るキャラクター817は、例えば、画面810に向かっ
て左から右へと進んでいる。このとき、前方に障害物8
20が現われたとする。この障害物820は、画面80
9のときの障害物816よりも大きい。そこで、この障
害物820を高く飛び超えなくてはならない。この操作
を音声感情認識を使って行う。そこで、操作者(話者)
は、音声例812に示すように「ジャンプ」と強い調子
で発声する。音声感情認識システムは、ジャンプ(jy
anpu)を認識し、さらに、感情レベルを認識する。
例えば、このゲーム機における音声感情認識システムで
は、感情レベルを5段階に設定したとすると、感情レベ
ル=5と認識する。そこで、ゲーム機本体側のシステム
では、キャラクター817をキャラクター818の位置
へ大きく移動し、さらに、キャラクター819の位置へ
移動する。キャラクターの移動量は、認識された音声
「ジャンプ」の感情レベルに比例する。
In FIG. 8D, a character 817 appearing in the game is moving from left to right toward the screen 810, for example. At this time, obstacle 8
Suppose 20 appears. The obstacle 820 is displayed on the screen 80
9 is larger than the obstacle 816. Therefore, it is necessary to jump over the obstacle 820 high. This operation is performed using voice emotion recognition. Therefore, the operator (speaker)
Utters “jump” in a strong tone as shown in a voice example 812. The voice emotion recognition system uses the jump (jy
anpu), and also the emotion level.
For example, in the voice emotion recognition system of this game machine, if the emotion level is set to five levels, the emotion level is recognized as 5. Therefore, in the system of the game machine main body side, the character 817 is largely moved to the position of the character 818 and further moved to the position of the character 819. The movement amount of the character is proportional to the emotion level of the recognized voice “jump”.

【0081】[0081]

【発明の効果】本発明によれば、カーナビゲーションシ
ステム、小型情報システム、ゲームに用いられる音声認
識システムにおいて、登録した辞書の単語の文字列を音
声で認識するとともに、音声認識された単語において、
話者の音声が持つ感情のレベルを認識することができる
音声感情認識システムを提供することができる。
According to the present invention, in a car navigation system, a small information system, and a voice recognition system used in a game, a character string of a word in a registered dictionary is recognized by voice,
It is possible to provide a voice emotion recognition system capable of recognizing a level of emotion of a speaker's voice.

【0082】また、本発明によれば、音声認識を用いた
カーナビゲーションシステム、小型情報システム、ゲー
ムにおいて、音声の感情レベルを認識できることから、
限られた単語数においても、音声認識によるインタフェ
ースのバリエーションを増やすことができ、良好な音声
認識インタフェースを実現することができる。
According to the present invention, the emotion level of voice can be recognized in a car navigation system, a small information system, and a game using voice recognition.
Even with a limited number of words, it is possible to increase the variations of the interface by voice recognition, and to realize a good voice recognition interface.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声感情認識システムの一実施例
を示す示すブロック図である。
FIG. 1 is a block diagram showing one embodiment of a voice emotion recognition system according to the present invention.

【図2】図1に示す音声感情認識システムの音響モデル
および発声変形感情モデルを説明するための模式図であ
る。
FIG. 2 is a schematic diagram for explaining an acoustic model and an utterance deformation emotion model of the speech emotion recognition system shown in FIG. 1;

【図3】本発明に係る音声感情認識システムの他の実施
例を示すブロック図である。
FIG. 3 is a block diagram showing another embodiment of the voice emotion recognition system according to the present invention.

【図4】図3に示す音声感情認識システムの音声波形お
よび音声パワーと感情レベルの関係を説明するための模
式図である。
FIG. 4 is a schematic diagram for explaining a relationship between a voice waveform and voice power and a feeling level of the voice emotion recognition system shown in FIG. 3;

【図5】本発明のハードウエア構成を示すブロック図で
ある。
FIG. 5 is a block diagram showing a hardware configuration of the present invention.

【図6】本発明の音声認識感情システムを適用したカー
ナビゲーションシステムにおける音声によるインタフェ
ースの音声入力例および認識結果例を示す模式図であ
る。
FIG. 6 is a schematic diagram showing a voice input example of a voice interface and a recognition result example in a car navigation system to which the voice recognition emotion system of the present invention is applied.

【図7】従来の携帯型翻訳機のブロック図である。FIG. 7 is a block diagram of a conventional portable translator.

【図8】本発明の音声認識感情システムを適用したゲー
ム機における音声によるインタフェースの音声入力例お
よび認識結果による動作例を示した模式図である。
FIG. 8 is a schematic diagram showing a voice input example of a voice interface and an operation example based on a recognition result in a game machine to which the voice recognition emotion system of the present invention is applied.

【符号の説明】[Explanation of symbols]

101、301、501、601・・・マイク、102、
302、504・・・A/D変換器、103、303・・・音
声分析部、104、304・・・音声感情認識部、10
8、308・・・モデル連結部、105、305・・・音響モ
デル部、106・・・発声変形感情モデル部、107、3
07・・・単語辞書部、201…HMM音響モデル連結に
おける「あ」の状態、202…HMM音響モデル連結に
おける「つ」の状態、203…HMM音響モデル連結に
おける「い」の状態、204…状態「あ」から状態
「あ」へ遷移する確率、205…状態「つ」から状態
「つ」へ遷移する確率、206…状態「い」から状態
「い」へ遷移する確率、207…状態「あ」から状態
「つ」へ遷移する確率、208…状態「つ」から状態
「い」へ遷移する確率、209…状態「い」から他の状
態へ遷移する確率、211…状態「あ」の出力確率の連
続分布、212…状態「つ」の出力確率の連続分布、2
13…状態「い」の出力確率の連続分布、214…HM
M発声変形感情モデルにおける状態「あ」の出力確率の
連続分布、221…HMM発声変形感情モデルにおける
状態「あ」の出力確率の連続分布、222…HMM発声
変形感情モデルにおける状態「つ」の出力確率の連続分
布、223…HMM発声変形感情モデルにおける状態
「い」の出力確率の連続分布、502・・・ボタン、50
3・・・CPU、506・・・ROM、507・・・RAM、5
09・・・キー、602・・・音声感情認識システム。
101, 301, 501, 601 ... microphone, 102,
302, 504: A / D converter, 103, 303: Voice analysis unit, 104, 304: Voice emotion recognition unit, 10
8, 308: Model connection unit, 105, 305: Acoustic model unit, 106: Speech deformation emotion model unit, 107, 3
07: Word dictionary unit, 201: “A” state in HMM acoustic model connection, 202: “T” state in HMM acoustic model connection, 203: “I” state in HMM acoustic model connection, 204: State Probability of transition from "A" to state "A", 205 ... Probability of transition from state "T" to state "T", 206 ... Probability of transition from state "I" to state "I", 207 ... State "A" From the state "i" to the state "i", 208 ... the probability of a transition from the state "i" to the state "i", 209 ... the probability of a transition from the state "i" to another state, 211 ... the output of the state "a" Continuous distribution of probabilities, 212 ... Continuous distribution of output probabilities of state "T", 2
13 ... Continuous distribution of output probability of state "i", 214 ... HM
Continuous distribution of output probabilities of state "A" in the M utterance deformation emotion model, 221 ... Continuous distribution of output probabilities of state "A" in the HMM utterance deformation emotion model, 222 ... Output of state "T" in the HMM utterance deformation emotion model Continuous distribution of probabilities, 223 ... continuous distribution of output probabilities of state "i" in the HMM utterance deformation emotion model, 502 ... button, 50
3 CPU, 506 ROM, 507 RAM, 5
09 ... key, 602 ... voice emotion recognition system.

フロントページの続き (72)発明者 近藤 和夫 東京都小平市上水本町五丁目20番1号株式 会社日立製作所半導体事業部内 (72)発明者 大淵 康成 東京都国分寺市東恋ケ窪一丁目280番地株 式会社日立製作所中央研究所内 (72)発明者 塔下 哲司 東京都小平市上水本町五丁目20番1号株式 会社日立製作所半導体事業部内 (72)発明者 石川 泰代 東京都小平市上水本町五丁目22番1号株式 会社日立マイコンシステム内Continuing on the front page (72) Inventor Kazuo Kondo 5-2-1, Josuihonmachi, Kodaira-shi, Tokyo Inside the Semiconductor Division, Hitachi, Ltd. Hitachi Central Research Laboratory (72) Inventor Tetsushi Toshita 5-2-1, Josuihoncho, Kodaira-shi, Tokyo Inside the Semiconductor Division, Hitachi, Ltd. (72) Yasushi Ishikawa 5--22, Josuihoncho, Kodaira-shi, Tokyo No. 1 in Hitachi microcomputer system

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識結果として、それらの単語
や文章を辞書部からピックアップして、文字列表示や音
声合成を用いて出力する音声認識システムにおいて、 取り込んだ音声に対して音声分析処理を行う音声分析部
と、音声のパターンを音素単位でもつ音響モデル部と、
感情による音韻スペクトルの変形を表す発声変形感情モ
デル部と、音声分析結果に対して、音響モデル部と発声
変形感情モデル部と辞書部とを連結して、音声認識処理
を行う音声認識部とを備え、音声の特徴から、音声認識
の対象となる単語や文章を音声認識結果として出力する
とともに、音声がもっている話者の感情の度合を示すレ
ベルを出力することを特徴とする音声感情認識システ
ム。
1. A method for collecting words and sentences to be subjected to speech recognition, defining the dictionary as a dictionary, picking up the words and sentences from a dictionary unit as a speech recognition result, and outputting the words and sentences using character string display and speech synthesis. A speech recognition unit that performs a speech analysis process on the captured speech, an acoustic model unit that has a speech pattern in phoneme units,
An utterance deformation emotion model unit that represents a deformation of a phoneme spectrum due to emotion, and a speech recognition unit that performs speech recognition processing by connecting the acoustic model unit, the utterance deformation emotion model unit, and the dictionary unit to the speech analysis result. A voice emotion recognition system comprising: outputting words and sentences to be subjected to voice recognition as voice recognition results based on voice characteristics; and outputting a level indicating a degree of emotion of a speaker having voice. .
【請求項2】請求項1記載の音声感情認識システムにお
いて、 音声が持っている話者の感情の度合を示すレベルは、数
字0〜N(Nは整数)であることを特徴とする音声感情認
識システム。
2. A speech emotion recognition system according to claim 1, wherein the level indicating the degree of the emotion of the speaker possessed by the speech is a numeral 0 to N (N is an integer). Recognition system.
【請求項3】請求項1記載の音声感情認識システムにお
いて、 前記辞書部は、音声認識の対象となる単語や文章を集め
た辞書と、それらの単語や文章に対して、音声が持って
いる感情のレベルを表現する修飾語を集めた辞書とを備
え、音声認識結果として、それらの単語や文章をピック
アップするとともに、感情のレベルを表現する修飾語を
ピックアップして、単語や文章に修飾語を付加して、文
字や音声合成を用いて出力することを特徴とする音声感
情認識システム。
3. The voice emotion recognition system according to claim 1, wherein the dictionary unit has a dictionary in which words and sentences to be subjected to speech recognition are collected, and a voice is provided for those words and sentences. A dictionary that collects modifiers that express the level of emotions, and picks up those words and sentences as speech recognition results, and also picks up modifiers that express the level of emotions, and modifies words and sentences into words. A voice emotion recognition system characterized by adding characters and outputting using characters or voice synthesis.
【請求項4】音声認識の対象となる単語や文章を集めて
辞書として定義し、音声認識結果として、それらの単語
や文章をピックアップして、文字列表示や音声合成を用
いて出力する音声認識システムにおいて、 取り込んだ音声に対して音声分析処理を行う音声分析部
と、音声のパターンを音素単位でもつ音響モデル部と、
音声分析結果に対して音響モデル部と辞書部とを連結し
て音声認識処理を行う音声認識部とを備え、取り込んだ
音声に対して、音声分析処理を行う音声分析部は、感情
の度合が現われる音の強弱を示すパワーの特徴から、感
情の度合を示すレベルを出力することを特徴とする音声
感情認識システム。
4. A speech recognition system which collects words and sentences to be subjected to speech recognition, defines them as a dictionary, picks up the words and sentences as a speech recognition result, and outputs them using character string display or speech synthesis. In the system, a voice analysis unit that performs a voice analysis process on the captured voice, an acoustic model unit that has a voice pattern in phoneme units,
A voice recognition unit that performs a voice recognition process by connecting the acoustic model unit and the dictionary unit to the voice analysis result, and performs a voice analysis process on the captured voice; A voice emotion recognition system that outputs a level indicating a degree of emotion from a characteristic of power indicating the strength of a sound that appears.
【請求項5】音声認識の対象となる単語や文章を集めた
辞書と、取り込んだ音声に対して音声分析処理を行う音
声分析部と、音声のパターンを音素単位でもつ音響モデ
ル部と、感情による音韻スペクトルの変形を表す発声変
形感情モデル部と、音声分析結果に対して、音響モデル
部と発声変形感情モデル部と辞書部とを連結して音声認
識処理を行う音声認識部とを備え、音声の特徴から音声
認識の対象となる単語や文章を音声認識結果として出力
するとともに、発声変形感情モデル部からのデータを用
いて音声がもっている話者の感情の度合を出力すること
を特徴とする音声感情認識方法。
5. A dictionary that collects words and sentences to be subjected to speech recognition, a speech analysis unit that performs speech analysis processing on the acquired speech, an acoustic model unit that has speech patterns in phoneme units, A speech transformation emotion model unit representing a transformation of a phoneme spectrum by a, and a speech recognition unit that performs speech recognition processing by connecting the acoustic model unit, the speech transformation emotion model unit, and the dictionary unit to the speech analysis result, It outputs words and sentences to be subjected to speech recognition as speech recognition results based on the features of the speech, and outputs the degree of the emotion of the speaker having the speech using data from the utterance deformation emotion model unit. Voice emotion recognition method.
【請求項6】音声認識の対象となる単語や文章を集めて
辞書と、取り込んだ音声に対して音声分析処理を行うと
共に音のパワーを分析して感情のレベルを出力すること
が出来る音声分析部と、音声のパターンを音素単位でも
つ音響モデル部と、音声分析結果に対して音響モデル部
と辞書を連結して音声認識処理を行う音声認識部とを備
え、音声分析部は取り込んだ音声に対して感情の度合が
現われる音の強弱を示すパワーの特徴から、感情の度合
を認識し、この出力感情のレベルを出力することを特徴
とする音声感情認識方法。
6. Speech analysis capable of collecting words and sentences to be subjected to speech recognition and performing a speech analysis process on the fetched speech and analyzing the power of the sound and outputting an emotion level. Unit, a sound model unit having a voice pattern in phoneme units, and a voice recognition unit for performing voice recognition processing by connecting the voice model unit and the dictionary to the voice analysis result. A voice emotion recognition method comprising: recognizing a degree of emotion from a characteristic of power indicating a strength of a sound in which the degree of emotion appears, and outputting the output emotion level.
【請求項7】請求項5又は6記載の音声感情認識方法に
おいて、 音声が持っている話者の感情の度合を示すレベルは、数
字0〜N(Nは整数)であることを特徴とする音声感情認
識方法。
7. The voice emotion recognition method according to claim 5, wherein the level indicating the degree of the emotion of the speaker possessed by the voice is a numeral 0 to N (N is an integer). Voice emotion recognition method.
【請求項8】請求項5又は6記載の音声感情認識方法に
於いて、 前記辞書部は、音声認識の対象となる単語や文章を集め
た辞書と、それらの単語や文章に対して、音声が持って
いる感情のレベルを表現する修飾語を集めた辞書とを備
え、音声認識結果として、それらの単語や文章をピック
アップするとともに、感情のレベルを表現する修飾語を
ピックアップして、単語や文章に修飾語を付加して、文
字や音声合成を用いて出力することを特徴とする音声感
情認識システム。
8. The voice emotion recognition method according to claim 5, wherein the dictionary unit includes a dictionary in which words and sentences to be subjected to voice recognition are collected, and a speech and / or a voice for each of the words and sentences. And a dictionary that collects modifiers that express the level of emotion that the user has, and as a result of speech recognition, picks up those words and sentences, and also picks up modifiers that express the level of emotion, A speech emotion recognition system characterized by adding a modifier to a sentence and outputting it using characters or speech synthesis.
JP9286372A 1997-10-20 1997-10-20 System and method for voice feeling recognition Withdrawn JPH11119791A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9286372A JPH11119791A (en) 1997-10-20 1997-10-20 System and method for voice feeling recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9286372A JPH11119791A (en) 1997-10-20 1997-10-20 System and method for voice feeling recognition

Publications (1)

Publication Number Publication Date
JPH11119791A true JPH11119791A (en) 1999-04-30

Family

ID=17703548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9286372A Withdrawn JPH11119791A (en) 1997-10-20 1997-10-20 System and method for voice feeling recognition

Country Status (1)

Country Link
JP (1) JPH11119791A (en)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (en) * 1999-09-09 2001-03-30 Alpine Electronics Inc Interface device
JP2004037989A (en) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> Voice reception system
JP2004073668A (en) * 2002-08-21 2004-03-11 P To Pa:Kk Race game machine, race game control method and program
KR20040038419A (en) * 2002-11-01 2004-05-08 에스엘투(주) A method and apparatus for recognizing emotion from a speech
EP1326445A3 (en) * 2001-12-20 2004-09-15 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
US6973430B2 (en) 2000-12-28 2005-12-06 Sony Computer Entertainment Inc. Method for outputting voice of object and device used therefor
JP2006184921A (en) * 2006-01-27 2006-07-13 Canon Electronics Inc Information processing device and method
WO2007148493A1 (en) * 2006-06-23 2007-12-27 Panasonic Corporation Emotion recognizer
US7340393B2 (en) 2000-09-13 2008-03-04 Advanced Generation Interface, Inc. Emotion recognizing method, sensibility creating method, device, and software
WO2008032787A1 (en) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
US7452268B2 (en) 2002-08-07 2008-11-18 Sony Computer Entertainment America Inc. System and method for modifying actions of a group of characters via group interactions
JP2009245466A (en) * 2009-07-30 2009-10-22 P To Pa:Kk Information processing system and information processing method
US7676369B2 (en) 2003-11-20 2010-03-09 Universal Entertainment Corporation Conversation control apparatus, conversation control method, and programs therefor
WO2010047027A1 (en) * 2008-10-21 2010-04-29 日本電気株式会社 Information processor
EP1574961A4 (en) * 2002-12-11 2011-10-26 Sony Corp DATA PROCESSING DEVICE AND METHOD, PROGRAM, AND CORRESPONDING RECORDING MEDIUM
JP2011242755A (en) * 2010-04-22 2011-12-01 Fujitsu Ltd Utterance state detection device, utterance state detection program and utterance state detection method
WO2012066104A3 (en) * 2010-11-17 2012-07-12 Steelseries Aps Apparatus and method for managing user inputs in video games
JP2012168296A (en) * 2011-02-10 2012-09-06 Fujitsu Ltd Speech-based suppressed state detecting device and program
US8635070B2 (en) 2010-09-29 2014-01-21 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
WO2014069120A1 (en) * 2012-10-31 2014-05-08 日本電気株式会社 Analysis object determination device and analysis object determination method
WO2014069122A1 (en) * 2012-10-31 2014-05-08 日本電気株式会社 Expression classification device, expression classification method, dissatisfaction detection device, and dissatisfaction detection method
JP2015050470A (en) * 2013-08-29 2015-03-16 京セラ株式会社 Terminal device and call data processing method
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method
US9108108B2 (en) 2007-09-05 2015-08-18 Sony Computer Entertainment America Llc Real-time, contextual display of ranked, user-generated game play advice
US9126116B2 (en) 2007-09-05 2015-09-08 Sony Computer Entertainment America Llc Ranking of user-generated game play advice
WO2015194115A1 (en) * 2014-06-16 2015-12-23 パナソニックIpマネジメント株式会社 Customer service appraisal device, customer service appraisal system, and customer service appraisal method
JP2016215292A (en) * 2015-05-15 2016-12-22 Kddi株式会社 Robot motion generation apparatus and program
US9833707B2 (en) 2012-10-29 2017-12-05 Sony Interactive Entertainment Inc. Ambient light control and calibration via a console
US10128914B1 (en) 2017-09-06 2018-11-13 Sony Interactive Entertainment LLC Smart tags with multiple interactions
US10132519B2 (en) 2015-04-03 2018-11-20 Mitsubishi Electric Corporation Air conditioning system
JP2018190413A (en) * 2017-05-02 2018-11-29 ネイバー コーポレーションNAVER Corporation Method and system for processing user command to adjust and provide operation of device and content provision range by grasping presentation method of user speech
WO2019200412A1 (en) * 2018-04-11 2019-10-17 Future Fragment (Pty) Ltd A system for determining an emotional state of a subject
US10561942B2 (en) 2017-05-15 2020-02-18 Sony Interactive Entertainment America Llc Metronome for competitive gaming headset
WO2020065771A1 (en) * 2018-09-26 2020-04-02 三菱電機株式会社 Speech emotion recognition device and speech emotion recognition method
CN111524534A (en) * 2020-03-20 2020-08-11 北京捷通华声科技股份有限公司 Voice analysis method, system, device and storage medium
CN112309431A (en) * 2020-09-21 2021-02-02 厦门快商通科技股份有限公司 Method and system for evaluating voice infectivity of customer service personnel
JP2022081279A (en) * 2020-11-19 2022-05-31 株式会社コーエーテクモゲームス Game program, recording medium, game processing method, and information processor

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (en) * 1999-09-09 2001-03-30 Alpine Electronics Inc Interface device
US7340393B2 (en) 2000-09-13 2008-03-04 Advanced Generation Interface, Inc. Emotion recognizing method, sensibility creating method, device, and software
US6973430B2 (en) 2000-12-28 2005-12-06 Sony Computer Entertainment Inc. Method for outputting voice of object and device used therefor
CN1326400C (en) * 2001-12-20 2007-07-11 松下电器产业株式会社 Virtual television telephone device
US6909453B2 (en) 2001-12-20 2005-06-21 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
EP1326445A3 (en) * 2001-12-20 2004-09-15 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
JP2004037989A (en) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> Voice reception system
US7452268B2 (en) 2002-08-07 2008-11-18 Sony Computer Entertainment America Inc. System and method for modifying actions of a group of characters via group interactions
US8096863B2 (en) 2002-08-07 2012-01-17 Sony Computer Entertainment America Llc Emotion-based game character manipulation
US8172656B2 (en) 2002-08-07 2012-05-08 Sony Computer Entertainment America Llc Attribute-driven gameplay
US9216354B2 (en) 2002-08-07 2015-12-22 Sony Computer Entertainment America Llc Attribute-driven gameplay
US8727845B2 (en) 2002-08-07 2014-05-20 Sony Computer Entertainment America Llc Attribute-driven gameplay
JP2004073668A (en) * 2002-08-21 2004-03-11 P To Pa:Kk Race game machine, race game control method and program
KR20040038419A (en) * 2002-11-01 2004-05-08 에스엘투(주) A method and apparatus for recognizing emotion from a speech
EP1574961A4 (en) * 2002-12-11 2011-10-26 Sony Corp DATA PROCESSING DEVICE AND METHOD, PROGRAM, AND CORRESPONDING RECORDING MEDIUM
US7676369B2 (en) 2003-11-20 2010-03-09 Universal Entertainment Corporation Conversation control apparatus, conversation control method, and programs therefor
JP2006184921A (en) * 2006-01-27 2006-07-13 Canon Electronics Inc Information processing device and method
US8204747B2 (en) 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
WO2007148493A1 (en) * 2006-06-23 2007-12-27 Panasonic Corporation Emotion recognizer
JPWO2008032787A1 (en) * 2006-09-13 2010-01-28 日本電信電話株式会社 Emotion detection method, emotion detection apparatus, emotion detection program implementing the method, and recording medium recording the program
JP5039045B2 (en) * 2006-09-13 2012-10-03 日本電信電話株式会社 Emotion detection method, emotion detection apparatus, emotion detection program implementing the method, and recording medium recording the program
US8386257B2 (en) 2006-09-13 2013-02-26 Nippon Telegraph And Telephone Corporation Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
WO2008032787A1 (en) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
US9126116B2 (en) 2007-09-05 2015-09-08 Sony Computer Entertainment America Llc Ranking of user-generated game play advice
US9108108B2 (en) 2007-09-05 2015-08-18 Sony Computer Entertainment America Llc Real-time, contextual display of ranked, user-generated game play advice
US10486069B2 (en) 2007-09-05 2019-11-26 Sony Interactive Entertainment America Llc Ranking of user-generated game play advice
WO2010047027A1 (en) * 2008-10-21 2010-04-29 日本電気株式会社 Information processor
JP2009245466A (en) * 2009-07-30 2009-10-22 P To Pa:Kk Information processing system and information processing method
JP2011242755A (en) * 2010-04-22 2011-12-01 Fujitsu Ltd Utterance state detection device, utterance state detection program and utterance state detection method
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
US8635070B2 (en) 2010-09-29 2014-01-21 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
US10220312B2 (en) 2010-11-17 2019-03-05 Steelseries Aps Apparatus and method for managing user inputs in video games
CN103298529A (en) * 2010-11-17 2013-09-11 斯蒂尔塞瑞斯有限责任公司 Apparatus and method for managing user inputs in video games
CN103298529B (en) * 2010-11-17 2015-12-16 斯蒂尔塞瑞斯有限责任公司 For the apparatus and method of the user's input in managing video game
WO2012066104A3 (en) * 2010-11-17 2012-07-12 Steelseries Aps Apparatus and method for managing user inputs in video games
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method
US8935168B2 (en) 2011-02-10 2015-01-13 Fujitsu Limited State detecting device and storage medium storing a state detecting program
JP2012168296A (en) * 2011-02-10 2012-09-06 Fujitsu Ltd Speech-based suppressed state detecting device and program
US9833707B2 (en) 2012-10-29 2017-12-05 Sony Interactive Entertainment Inc. Ambient light control and calibration via a console
US9950259B2 (en) 2012-10-29 2018-04-24 Sony Interactive Entertainment Inc. Ambient light control and calibration via a console
WO2014069122A1 (en) * 2012-10-31 2014-05-08 日本電気株式会社 Expression classification device, expression classification method, dissatisfaction detection device, and dissatisfaction detection method
US10083686B2 (en) 2012-10-31 2018-09-25 Nec Corporation Analysis object determination device, analysis object determination method and computer-readable medium
JPWO2014069122A1 (en) * 2012-10-31 2016-09-08 日本電気株式会社 Expression classification device, expression classification method, dissatisfaction detection device, and dissatisfaction detection method
JPWO2014069120A1 (en) * 2012-10-31 2016-09-08 日本電気株式会社 Analysis object determination apparatus and analysis object determination method
WO2014069120A1 (en) * 2012-10-31 2014-05-08 日本電気株式会社 Analysis object determination device and analysis object determination method
JP2015050470A (en) * 2013-08-29 2015-03-16 京セラ株式会社 Terminal device and call data processing method
GB2542959A (en) * 2014-06-16 2017-04-05 Panasonic Ip Man Co Ltd Customer service appraisal device, customer service appraisal system, and customer service appraisal method
JP2016021044A (en) * 2014-06-16 2016-02-04 パナソニックIpマネジメント株式会社 Customer service evaluation device, customer service evaluation system, and customer service evaluation method
WO2015194115A1 (en) * 2014-06-16 2015-12-23 パナソニックIpマネジメント株式会社 Customer service appraisal device, customer service appraisal system, and customer service appraisal method
US10132519B2 (en) 2015-04-03 2018-11-20 Mitsubishi Electric Corporation Air conditioning system
JP2016215292A (en) * 2015-05-15 2016-12-22 Kddi株式会社 Robot motion generation apparatus and program
JP2018190413A (en) * 2017-05-02 2018-11-29 ネイバー コーポレーションNAVER Corporation Method and system for processing user command to adjust and provide operation of device and content provision range by grasping presentation method of user speech
US10657963B2 (en) 2017-05-02 2020-05-19 Naver Corporation Method and system for processing user command to provide and adjust operation of electronic device by analyzing presentation of user speech
US10561942B2 (en) 2017-05-15 2020-02-18 Sony Interactive Entertainment America Llc Metronome for competitive gaming headset
US10128914B1 (en) 2017-09-06 2018-11-13 Sony Interactive Entertainment LLC Smart tags with multiple interactions
US10541731B2 (en) 2017-09-06 2020-01-21 Sony Interactive Entertainment LLC Smart tags with multiple interactions
WO2019200412A1 (en) * 2018-04-11 2019-10-17 Future Fragment (Pty) Ltd A system for determining an emotional state of a subject
WO2020065771A1 (en) * 2018-09-26 2020-04-02 三菱電機株式会社 Speech emotion recognition device and speech emotion recognition method
CN111524534A (en) * 2020-03-20 2020-08-11 北京捷通华声科技股份有限公司 Voice analysis method, system, device and storage medium
CN112309431A (en) * 2020-09-21 2021-02-02 厦门快商通科技股份有限公司 Method and system for evaluating voice infectivity of customer service personnel
CN112309431B (en) * 2020-09-21 2024-02-23 厦门快商通科技股份有限公司 Method and system for evaluating voice infectivity of customer service personnel
JP2022081279A (en) * 2020-11-19 2022-05-31 株式会社コーエーテクモゲームス Game program, recording medium, game processing method, and information processor

Similar Documents

Publication Publication Date Title
JPH11119791A (en) System and method for voice feeling recognition
JP3476006B2 (en) Command boundary identification device, method and program storage device
US7630878B2 (en) Speech recognition with language-dependent model vectors
JP6080978B2 (en) Speech recognition apparatus and speech recognition method
WO2000058943A1 (en) Speech synthesizing system and speech synthesizing method
US12387711B2 (en) Speech synthesis device and speech synthesis method
JP4468264B2 (en) Methods and systems for multilingual name speech recognition
JPH096389A (en) Voice recognition interactive processing method and voice recognition interactive device
KR20060037086A (en) Speech recognition method and apparatus, navigation system using same
CN111243599A (en) Speech recognition model construction method, device, medium and electronic equipment
US20060085190A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
KR20230067501A (en) Speech synthesis device and speech synthesis method
JP2000029486A (en) Speech recognition system and method
JP4230142B2 (en) Hybrid oriental character recognition technology using keypad / speech in adverse environment
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
JP3576066B2 (en) Speech synthesis system and speech synthesis method
JP2011039468A (en) Word searching device using speech recognition in electronic dictionary, and method of the same
KR20190030970A (en) Apparatus for converting voice to text
JPH1152987A (en) Speech synthesizer with speaker adaptation function
JP2010072446A (en) Coarticulation feature extraction device, coarticulation feature extraction method and coarticulation feature extraction program
JP2980382B2 (en) Speaker adaptive speech recognition method and apparatus
JP2004139049A (en) Speaker normalization method and speech recognition device using the same
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
JP2862306B2 (en) Voice recognition device
JP2003345384A (en) Method, device, and program for voice recognition

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104