[go: up one dir, main page]

KR20080086791A - Speech based emotion recognition system - Google Patents

Speech based emotion recognition system Download PDF

Info

Publication number
KR20080086791A
KR20080086791A KR1020070028922A KR20070028922A KR20080086791A KR 20080086791 A KR20080086791 A KR 20080086791A KR 1020070028922 A KR1020070028922 A KR 1020070028922A KR 20070028922 A KR20070028922 A KR 20070028922A KR 20080086791 A KR20080086791 A KR 20080086791A
Authority
KR
South Korea
Prior art keywords
information
voice
emotion
speech
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020070028922A
Other languages
Korean (ko)
Inventor
이철민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020070028922A priority Critical patent/KR20080086791A/en
Publication of KR20080086791A publication Critical patent/KR20080086791A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성(voice)을 이용하여 감정을 인식하는 음성 기반 감정 인식 시스템에 관한 것이다. 본 발명의 음성 기반 감정 인식 시스템에서는, 입력된 음성신호에서 음향학적인 특징정보를 추출하고, 추출된 특징정보로부터 음성을 인식한다. 그리고, 음성 인식 결과로부터 언어정보를 추출한다. 이와 같이 추출된 음향학적인 특징정보와 언어적인 특징정보를 이용해서 감정을 인식한다. 음향학적인 특징정보는 사람의 감정을 반영할 수 있는 에너지, 피치, 발성 속도 등을 사용할 수 있으며, 언어적인 특징정보는 사람의 감정을 표현하는 특정 단어의 사용 여부로부터 알 수 있다. 본 발명은 이와 같은 음향학적인 특징정보와 함께 언어적인 특징정보를 고려하여 사람의 감정을 보다 정확하게 인식할 수 있다.The present invention relates to a voice-based emotion recognition system that recognizes emotions using voice. In the speech-based emotion recognition system of the present invention, acoustic feature information is extracted from the input voice signal, and the voice is recognized from the extracted feature information. Then, language information is extracted from the speech recognition result. Emotion is recognized using the extracted acoustic characteristic information and linguistic characteristic information. The acoustic characteristic information may use energy, pitch, and voice speed that may reflect the emotion of a person, and the verbal characteristic information may be known from the use of a specific word expressing the emotion of a person. The present invention can recognize human emotion more accurately in consideration of linguistic feature information together with such acoustic feature information.

Description

음성 기반 감정 인식 시스템{FEELING RECOGNITION SYSTEM BASED ON VOICE}Speech-based emotion recognition system {FEELING RECOGNITION SYSTEM BASED ON VOICE}

도1은 본 발명에 따른 음성 기반 감정 인식 시스템 구성을 나타낸 도면1 is a diagram showing the configuration of a speech-based emotion recognition system according to the present invention.

도2는 본 발명에 따른 음성 기반 감정 인식 시스템의 실시예 구성을 나타낸 도면2 is a view showing an embodiment configuration of a speech-based emotion recognition system according to the present invention

도3은 본 발명의 실시예에 따른 음성 기반 감정 인식 방법의 플로우차트3 is a flowchart of a speech-based emotion recognition method according to an embodiment of the present invention.

본 발명은 음성(voice)을 이용하여 감정을 인식하는 음성 기반 감정 인식 시스템에 관한 것이다.The present invention relates to a voice-based emotion recognition system that recognizes emotions using voice.

사람과 사람, 사람과 동물, 사람과 기계 간의 의사 소통에 있어서 감정의 전달과 인식은 매우 중요한 요소가 된다. 예를 들어, 사람과 사람 사이의 감정의 전달과 인식은 음성, 몸 동작, 얼굴 표정 등의 여러 가지 요소들이 각각 개별적이거나 상호 복합적으로 작용하여 감정의 전달과 인식이 이루어지게 된다. 이러한 감정의 전달과 인식은 사람과 사람 뿐만 아니라 사람과 기계 사이의 의사 소통에 있어서도 중요한 요소가 되며, 사람의 감정을 기계가 인식하여 그 인식 결과를 출력해 줌으로써, 사람의 감정에 기반한 적절한 결과물을 낼 수 있게 한다.In the communication between man and man, man and animal, man and machine, the transmission and recognition of emotions is very important. For example, in the transmission and recognition of emotions between people, various elements such as voice, body movements, and facial expressions each act individually or in combination, resulting in the transmission and recognition of emotions. Such transmission and recognition of emotions is an important factor in communication between people and machines as well as people, and the machine recognizes human emotions and outputs the recognition results. To make it work.

홈 네트워크 시스템이나 컴퓨터 시스템에서 사람과 기기(컴퓨터) 간의 인터렉션(Human-Computer Interaction, HCI) 기술이 연구되고 있다. 사람과 사람 사이의 의사 소통에서 상대방의 감정을 인식하여 그에 따라 적절한 대응을 하는 것이 중요하듯이, HCI에서도 컴퓨터가 사용자의 감정을 인식하고 그 인식된 결과에 따라 적절한 대응을 함으로써 사람과 기기 간에 좀 더 자연스럽게 의사 소통을 할 수 있게 된다. 사람의 감정은 다양한 방법으로 표현될 수 있는데, 대개의 경우는 얼굴의 표정 변화나 목소리의 변화, 몸짓 등이 단독 혹은 상호 관련성을 가지고 표현된다.Human-computer interaction (HCI) technology has been studied in home network systems and computer systems. Just as it is important to recognize each other's feelings in the communication between people and respond accordingly, HCI also allows the computer to recognize the user's feelings and respond appropriately according to the recognized result. You will be able to communicate more naturally. People's emotions can be expressed in a variety of ways. In most cases, facial expression changes, voice changes, and gestures are expressed alone or in correlation.

따라서, 컴퓨터 시스템에서도 사람의 감정이 표현되는 여러가지 다양한 요소들을 분석하고 그 분석 결과를 이용해서 사람과 컴퓨터 시스템 간의 의사 소통을 보다 자연스럽게 수행할 수 있는 기법이 요구된다.Therefore, a computer system is required to analyze a variety of factors expressing human emotions and to use the results of the analysis to communicate more naturally between people and computer systems are required.

본 발명은 음성을 이용하여 사람의 감정을 인식하는 방법과 그 장치를 제공한다.The present invention provides a method and apparatus for recognizing a person's emotion using voice.

본 발명은 음성 인식 시스템에서 음향 정보와 언어 정보를 함께 사용하여 음성에서 나타나는 감정을 구분하여 인식하는 방법과 그 장치를 제공한다.The present invention provides a method and apparatus for recognizing emotions that appear in a voice using sound information and language information together in a speech recognition system.

본 발명은 음성 인식 시스템에서 사람의 음성의 특징을 분석하고 음성으로부터 인식한 언어 정보를 토대로 감정 상태를 인식하는 방법과 그 장치를 제공한다.The present invention provides a method and apparatus for analyzing a feature of a human voice in a speech recognition system and recognizing an emotional state based on language information recognized from the speech.

본 발명의 실시예에 따른 음성 인식 방법은, 입력된 음성신호에서 음향학적인 특징정보를 추출하는 단계; 상기 추출된 특징정보로부터 음성을 인식하는 단계; 상기 음성 인식 결과로부터 언어정보를 추출하는 단계; 상기 추출된 음향학적 특징정보와 언어정보를 기반으로 감정 상태를 인식하는 단계; 를 포함하여 이루어지는 것을 특징으로 한다.Speech recognition method according to an embodiment of the present invention, the step of extracting acoustic characteristic information from the input voice signal; Recognizing speech from the extracted feature information; Extracting language information from the speech recognition result; Recognizing an emotional state based on the extracted acoustic characteristic information and language information; Characterized in that comprises a.

또한, 본 발명의 실시예에 따른 음성 인식 장치는, 입력된 음성신호에서 감정 상태를 반영하는 음향학적인 특징정보를 추출하는 특징정보 추출부; 입력된 음성신호를 인식하는 음성 인식부; 상기 음성 인식 결과로부터 감정 상태를 반영하는 언어정보를 추출하는 언어정보 추출부; 상기 추출된 음향학적 특징정보와 언어정보의 상관성을 토대로 감정 상태를 인식하는 감정 인식부; 를 포함하여 이루어지는 것을 특징으로 한다.In addition, the speech recognition apparatus according to an embodiment of the present invention, the feature information extraction unit for extracting the acoustic feature information reflecting the emotional state from the input voice signal; A voice recognition unit recognizing an input voice signal; A language information extracting unit for extracting language information reflecting an emotional state from the speech recognition result; An emotion recognition unit recognizing an emotional state based on a correlation between the extracted acoustic feature information and language information; Characterized in that comprises a.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 음성 기반 감정 인식 시스템을 설명하면 다음과 같다.Hereinafter, a speech-based emotion recognition system according to an embodiment of the present invention will be described with reference to the accompanying drawings.

본 발명은 사람의 음성을 인식함에 있어 그 음성으로부터 사람의 감정 상태를 인식하는 방법과 장치이다. 본 발명에서는 음성을 인식하기 위하여 특징정보를 추출하고, 추출된 특징정보에 근거하여 음성을 인식하며, 인식된 음성에 근거하여 해당 음성이 어떤 단어인지를 인식하고, 인식된 단어가 사람의 감정에 관련된 단어인지의 여부와 상기 추출된 음성 특징정보를 함께 고려하여 사람의 감정을 인식하고 그 인식 결과를 출력한다.The present invention is a method and apparatus for recognizing a human emotional state from the voice in recognizing a human voice. In the present invention, the feature information is extracted to recognize the voice, the voice is recognized based on the extracted feature information, the word is recognized based on the recognized voice, and the recognized word is applied to the human emotion. It considers whether or not it is a related word and the extracted voice feature information, and recognizes the human emotion and outputs the recognition result.

음성 특징정보는 여러 가지가 있을 수 있겠으나, 본 발명의 실시예에서는 음성신호에 포함되어 있는 에너지, 피치(pitch), 발성 속도를 특징정보로서 추출한다. 음성신호의 에너지, 피치, 발성 속도는 감정을 반영하는 특징정보로 사용할 수 있다는 점에 근거한다. 예를 들면, 일반적으로 분노 상태에 있을 경우 거의 대부분의 사람의 음성은 평상시 보다 높은 에너지량, 높은 피치, 빠른 발성 속도를 갖는 특징을 보이고 있다는데 근거한다. 그러므로, 에너지, 피치, 발성 속도 정보 중의 적어도 어느 하나, 또는 둘 이상, 또는 둘 이상의 요소에 대하여 사전에 (실험적으로 구한) 가중치 등을 고려한다면 음성의 위와 같은 특징정보로부터 감정 상태를 인식할 수 있다.There may be various types of voice feature information. However, in the exemplary embodiment of the present invention, energy, pitch, and voice speed included in the voice signal are extracted as feature information. The energy, pitch, and voice speed of the voice signal are based on the fact that they can be used as characteristic information reflecting emotion. For example, in general, most people's voices are characterized by higher energy levels, higher pitches, and faster speech rates when they are in anger. Therefore, considering the weight (experimentally obtained) for at least one of the energy, pitch, speech speed information, two or more, or two or more elements, the emotional state can be recognized from the above characteristic information of the voice. .

그렇지만, 사람의 음성은 개인별로 편차가 심하고 다양한 패턴을 갖는데다가 개개인의 성향에 따라 에너지, 피치, 발성 속도가 반드시 감정 상태를 반영한다고 볼 수는 없을 것이므로, 이와 함께 언어적인 특징정보를 고려하여 감정을 인식한다. 언어적인 특징정보는 예를 들면 특정 감정 상태에 놓여 있을 경우에 사용하게 될 가능성이 상대적으로 높은 단어를 추천할 수 있다. 예를 들면, 분노 상태에 있을 경우 큰 소리의 높은 음색으로 빠른 발성을 하는 것과 더불어 분노의 표현과 관련된 특정 단어를 구사할 가능성이 크다는데 근거하는 것이다.However, since the human voice varies greatly from person to person and has various patterns, and energy, pitch, and voice speed do not necessarily reflect the emotional state according to the individual's inclination, the emotional characteristics are considered in consideration of linguistic characteristic information. Recognize. The linguistic feature may, for example, recommend words that are more likely to be used when placed in a particular emotional state. For example, if you are in a state of anger, you are likely to be able to speak quickly with a loud, high tone and use certain words related to the expression of anger.

본 발명에 따르면, 감정 인식을 위한 언어 정보는 감정을 나타내는 언어 및 단어들을 미리 추출하여 저장해 놓고, 해당 감정과 언어/단어 사이의 상관 관계(mutual information)를 이용하여 얻어진다.According to the present invention, language information for emotion recognition is obtained by extracting and storing language and words representing emotion in advance, and using the mutual information between the emotion and language / word.

본 발명의 실시예에서는 사람의 감정을 반영할 수 있는 음성 특징정보로서 에너지, 피치, 발성속도를 사용하고 있으나 이는 하나의 예에 불과하며, 여기에 예시되고 설명되는 특징정보로 본 발명이 제한되지 않음은 당연하다. 또한, 감정을 표현하는 단어가 어떤 것인가에 대해서도 언어적, 문화적 환경 뿐만 아니라 음성 인식 시스템이 사용될 사용 환경에 따라서도 달라질 수 있으므로 특정한 단어를 감정을 표현하는 단어라고 제한하지는 않는다.In the exemplary embodiment of the present invention, energy, pitch, and voice speed are used as voice feature information that can reflect human emotion, but this is just one example, and the present invention is not limited to the feature information illustrated and described herein. Not surprisingly. In addition, it is not limited to the words expressing emotions as the words expressing emotions may vary depending on the language and cultural environment as well as the usage environment in which the speech recognition system is used.

도1은 본 발명에 따른 음성 기반 감정 인식 시스템의 구성을 보여주고 있다. 본 발명에 따른 음성 기반 감정 인식 시스템은 입력된 음성신호에서 음성신호 특징정보를 검출하기 위한 음성신호 검출부(10), 음성신호의 특징정보를 이용하여 음성을 인식하기 위한 음성 인식부(20), 인식된 음성신호에서 감정 인식을 위한 특정 언어 정보를 검출하기 위한 언어 정보 검출부(30), 검출된 언어 정보와 음성신호의 특징정보를 이용하여 감정 상태를 인식하기 위한 감정 인식부(40)를 포함한다.1 shows a configuration of a speech-based emotion recognition system according to the present invention. The voice-based emotion recognition system according to the present invention includes a voice signal detection unit 10 for detecting voice signal feature information from an input voice signal, a voice recognition unit 20 for recognizing voice using feature information of the voice signal, A language information detector 30 for detecting specific language information for emotion recognition from the recognized voice signal, and an emotion recognition unit 40 for recognizing an emotional state using the detected language information and feature information of the voice signal. do.

이와 같이 구성된 본 발명에 따른 음성 기반 감정 인식 시스템에서는 사람의 음성에서 추출한 음향학적인 특징정보와, 인식된 단어 사이의 상관성을 고려하여 감정을 인식한다.In the speech-based emotion recognition system configured as described above, the emotion is recognized in consideration of the correlation between the acoustic feature information extracted from the human voice and the recognized word.

사람의 감정은 음성에 직접 관련된 특성들 이외에도 사용하는 언어를 통해서도 표현되어 질 수 있다. 예를 들면, 콜 센터를 통해서 서비스를 요청할 때, 시스템이 제대로 사용자의 의도를 파악하지 못해 엉뚱한 응답을 할 때, 사용자들의 감정은 점점 화가 나는 상태로 갈 것이다. 이 때, 많은 사용자들이 평상시 사용하는 단어들과는 다른 단어들을 사용하는 경우가 대부분이며 극단적으로는 욕설을 하는 경우도 있다. 따라서, 이러한 언어 정보를 감정을 인식하는 주요한 수단으로 사용할 수 있다. 감정에 따른 언어 및 단어들은 파악하려고 하는 감정에 따라 미리 시스템에 저장되어 있으며, 언어 정보를 얻기 위해 음성 인식 시스템과 연동된다.In addition to the traits directly related to speech, human emotions can be expressed through the language used. For example, when requesting a service through a call center, when the system responds incorrectly because it does not know the user's intentions, the user's feelings will become increasingly angry. In this case, many users use words that are different from words that are normally used, and in some cases, swear words are extreme. Therefore, such language information can be used as a main means of recognizing emotions. Languages and words according to emotions are stored in the system in advance according to the emotions to be grasped, and are linked with the speech recognition system to obtain language information.

음성신호 검출부(10)는 사람의 음성에서 감정 인식 및 음성 인식에 필요한 특징들을 추출해 내는 부분이다. 감정 인식에 사용되는 음성 특징들은 에너지, 피치, 발성 속도이다. 음성 인식에 필요한 특징들은 에너지, 피치를 비롯하여 기존에 알려진 음성인식 기법들에서 필요로 하는 특징들을 그대로 사용하여도 무방하다.The voice signal detector 10 extracts features necessary for emotion recognition and voice recognition from a human voice. Voice features used for emotion recognition are energy, pitch, and speech speed. The features required for speech recognition may use the features required by conventional speech recognition techniques, such as energy and pitch.

음성신호 검출부(10)에서 추출된 특징정보들은 음성 인식부(20)와 감정 인식부(40)에 전달된다. 감정 인식에 필요한 특징정보들은 감정 인식부(40)에 전달되며, 음성 인식에 필요한 특징정보들은 음성 인식부(20)에 전달된다.The feature information extracted by the voice signal detector 10 is transferred to the voice recognition unit 20 and the emotion recognition unit 40. The feature information necessary for emotion recognition is transmitted to the emotion recognition unit 40, and the feature information required for voice recognition is transferred to the voice recognition unit 20.

음성 인식부(20)는 음성신호 검출부(10)에서 검출된 특징정보를 이용해서 음성을 인식한다. 즉, 어떤 단어를 발음한 것인지를 인식한다. 인식된 결과(여기서는 단어 정보)는 언어 정보 검출부(30)에 전달된다. 언어 정보 검출부(30)는 인식된 단어(언어)가 사전에 저장(또는 설정)해 놓은 감정 표현 단어에 해당하는지의 여부를 해당 단어 검색을 통해서 검출하고, 그 검출 결과를 감정 인식부(40)에 전달한다.The voice recognition unit 20 recognizes the voice using the feature information detected by the voice signal detection unit 10. That is, it recognizes which word is pronounced. The recognized result (here word information) is transmitted to the language information detection unit 30. The language information detection unit 30 detects whether or not the recognized word (language) corresponds to an emotional expression word stored (or set) in the dictionary through the corresponding word search, and detects the detection result by the emotion recognition unit 40. To pass on.

감정 인식부(40)는 음성신호 검출부(10)에서 검출된 음향학적인 특징정보와 언어정보 검출부(30)에서 검출된 언어정보를 이용하여 사람의 감정 상태를 인식하고 그 인식 결과를 출력한다. 음향학적인 특징정보인 에너지, 피치, 발성 속도 정보를 단어 정보와 함께 고려하여 사람의 감정 상태를 인식하는 것이다. 감정 인식에 사용될 상기 각 요소들은 적어도 하나 또는 그 이상의 음향학적인 특징정보와 언어적인 특징정보가 함께 고려된다. 각각의 요소는 동일한 비중으로 다뤄질 수도 있겠지만, 시스템 사용 환경에 따라서 적응적으로 다르게 가중치를 부여하여 고려될 수도 있다. 예를 들면, 입력된 음성신호에서 성별을 구별하고(성별의 구별 기법 은 이미 알려진 음성 인식 기법에 근거하여도 무방하다), 남성의 경우에는 에너지에 가장 높은 가중치를 부여하고 이 것과 단어 정보를 함께 고려하여 인식 결과를 출력하는 방법을 사용할 수 있다. 여성의 경우에는 에너지 보다는 피치와 발성 속도에 더 높은 가중치를 부여하고 이 것과 단어 정보를 함께 고려하여 인식 결과를 출력하는 방법을 사용할 수 있다.The emotion recognition unit 40 recognizes a person's emotion state by using the acoustic characteristic information detected by the voice signal detector 10 and the language information detected by the language information detector 30, and outputs the recognition result. Recognizing the emotional state of a person by considering the acoustic, characteristic information, energy, pitch, and vocal velocity information together with the word information. Each of the above elements to be used for emotion recognition is considered together with at least one acoustic feature information and linguistic feature information. Each element may be treated with the same weight, but may be considered as being adaptively weighted according to the system usage environment. For example, gender is distinguished from the input speech signal (the gender discrimination technique may be based on a known speech recognition technique), and in the case of men, the highest weight is given to the energy and the word information is added together. In consideration of this, a method of outputting a recognition result may be used. In the case of women, it is possible to give a higher weight to pitch and speech speed than to energy, and to output recognition results in consideration of this and word information.

감정을 인식한 결과는 여러 가지 형태로 출력될 수 있는데, 가장 간단한 방법으로는 감정의 구분이 비교적 용이한 '평상시', '분노', '슬픔', '즐거움' 등의 4개 항목 정도로 인식 결과를 제공할 수 있으며, 인식 결과는 각각을 표현하는 약속된 형태의 데이터 값(코드 값)으로 출력하거나 혹은 텍스트 값으로 출력할 수 있을 것이다. 이 보다 더 단순하거나 혹은 더 세분화된 감정 인식의 결과를 내는 것은 상기 음향학적인 특징정보와 언어적인 특징정보들의 가중치 조절을 통해서 이루어질 수 있을 것이다. 특정한 환경에서 고려하지 않을 특징정보에 대해서는 가중치를 '0'으로 설정하는 방법을 사용할 수도 있을 것이다.The result of recognizing emotion can be output in various forms. In the simplest method, the recognition result is classified into four items such as 'normal', 'anger', 'sadness' and 'pleasure', which are relatively easy to distinguish emotions. The recognition result may be output as a data value (code value) in a promised form representing each or as a text value. The result of simpler or more detailed emotion recognition may be achieved through weight adjustment of the acoustic and linguistic feature information. For feature information not considered in a particular environment, a method of setting the weight to '0' may be used.

도2는 본 발명에 따른 음성 기반 감정 인식 시스템의 실시예에 따른 시스템 구성을 보여준다.2 shows a system configuration according to an embodiment of a speech-based emotion recognition system according to the present invention.

앞서 도1을 참조하여 설명한 바와 같이, 음성신호 검출부(10)는 입력된 음성신호의 에너지를 추출하는 에너지 추출부(11), 입력된 음성신호의 피치를 추출하는 피치 추출부(12), 입력된 음성신호의 발성 속도를 추출하는 발성 속도 추출부(13)를 포함하고 있다. 음성 인식부(20)는 상기 음성신호 검출부(10)에서 추출된 음성신호의 특징정보를 처리하기 위한 특징 처리부(21), 특징정보에 근거하여 음성 인 식을 수행하는 인식 처리부(22), 음성 인식에 필요한 특징정보를 제공하기 위한 특징 데이터 베이스부(DB)(23)를 포함한다. 언어정보 검출부(30)는 음성 인식 결과 문장으로부터 감정 표현에 관련된 단어를 선택하기 위한 단어 선택부(31), 감정 표현 단어들과 해당 감정 사이의 상관도 정보를 제공하기 위한 단어 사전부(32), 상기 단어 선택부(31)에 의해서 선택된 단어에 근거하여 감정 표현에 관련된 언어정보를 획득하기 위한 언어정보 획득부(33)를 포함한다.As described above with reference to FIG. 1, the voice signal detector 10 includes an energy extractor 11 for extracting energy of an input voice signal, a pitch extractor 12 for extracting a pitch of an input voice signal, and an input. And a voice speed extracting unit 13 for extracting a voice speed of the voice signal. The voice recognition unit 20 may include a feature processor 21 for processing feature information of the voice signal extracted by the voice signal detector 10, a recognition processor 22 for performing voice recognition based on the feature information, and a voice. Feature database section (DB) 23 for providing feature information necessary for recognition. The language information detection unit 30 may include a word selector 31 for selecting a word related to an emotion expression from a speech recognition result sentence, and a word dictionary unit 32 for providing correlation information between the emotion expression words and the corresponding emotion. And a language information acquisition unit 33 for acquiring language information related to an emotional expression based on the word selected by the word selection unit 31.

에너지 추출부(11)는 입력된 음성신호의 에너지를 추출하고, 피치 추출부(12)는 입력된 음성신호의 피치를 추출하며, 발성 속도 추출부(13)는 입력된 음성신호의 발성 속도를 추출한다. 추출된 각 특징정보들은 감정 인식부(40)에 전달되어 감정 인식에 사용됨과 함께, 음성 인식부(20)에 전달되어 입력 음성의 인식을 위한 정보로 사용된다. 여기서, 에너지를 추출하는 방법이나 피치를 추출하는 방법, 발성 속도를 추출하는 방법은 당해 기술분야에서 이미 알려진 기법을 사용하여도 무방하므로 이에 대한 구체적인 예시와 설명은 관련 기술을 참조하기로 하여 생략한다.The energy extraction unit 11 extracts the energy of the input voice signal, the pitch extraction unit 12 extracts the pitch of the input voice signal, and the voice speed extraction unit 13 measures the voice speed of the input voice signal. Extract. The extracted feature information is transmitted to the emotion recognizer 40 to be used for emotion recognition, and is transmitted to the voice recognizer 20 to be used as information for recognition of the input voice. Here, the method of extracting the energy, the method of extracting the pitch, the method of extracting the speech rate may be used a technique already known in the art, so specific examples and description thereof will be omitted with reference to the related art. .

특징 처리부(21)는 음성 인식을 위하여 상기 음성신호 검출부(10)로부터 제공되는 특징정보를 처리하는데, 여기서는 예를 들면 에너지 정보와 피치 정보를 이용해서 음성이 발음되는 구간(시작점과 끝점)을 정한다거나 에너지와 피치 정보를 이용해서 기본 주파수와 고조파 성분 등을 분석하는 등의, 기존에 알려진 음성 인식 기법과 같은 특징정보 처리를 수행한다.The feature processor 21 processes the feature information provided from the voice signal detector 10 for voice recognition, and here, for example, determines the interval (start and end points) in which the voice is pronounced using energy information and pitch information. Or feature information processing such as a conventional speech recognition technique such as analyzing fundamental frequency and harmonic components using energy and pitch information.

인식 처리부(22)는 특징 처리부(21)에서 제공되는 음성 특징정보와 특징 DB(23)에 저장된 특징정보를 이용해서 입력 음성을 인식한다. 즉, 입력된 특징정보를 토대로 특징 DB(23)를 검색하여 특징 정보들 간의 유사도를 기준으로 어떤 음성이 발음되었는지를 인식하는 것이다. 인식된 결과는 언어정보 검출부(30)로 전달된다.The recognition processor 22 recognizes the input voice using the voice feature information provided from the feature processor 21 and the feature information stored in the feature DB 23. That is, the feature DB 23 is searched based on the input feature information to recognize which voice is pronounced based on the similarity between the feature information. The recognized result is transmitted to the language information detector 30.

언어정보 검출부(30)는 음성 인식부(20)에서 인식된 언어정보(즉, 단어)가 미리 저장(또는 설정)해 놓은 단어정보(감정 표현에 사용된다고 간주되는 단어)에 해당하는지의 여부를 판정하고, 그 결과를 감정 인식부(40)에 전달한다.The language information detection unit 30 determines whether or not the language information (that is, the word) recognized by the speech recognition unit 20 corresponds to the word information (word deemed to be used for emotional expression) previously stored (or set). The determination is made, and the result is transmitted to the emotion recognition unit 40.

이를 위하여, 언어정보 검출부(30)는 단어 선택부(31), 단어 사전부(32), 언어정보 획득부(33)를 구비한다. 단어 선택부(31)는 음성 인식부(20)로부터 입력된 문장에서 감정 표현과 관련된 단어를 선택한다. 감정 표현과 관련된 단어들과 해당 감정 사이의 상관도는 감정 표현 단어 사전, 즉 단어 사전부(32)에서 제공한다. 단어 사전부(32)는 단어와 감정 사이의 상관도를 이용하여 생성되는데, 이는 앞서 설명한 바와 같이 특정 감정을 표현하는 것으로 간주될 수 있는 단어들을 선정하여 이를 해당 감정을 표현하는 단어로 등록해 놓음으로써 구축될 수 있다. 문장 내에 감정을 표현하는 단어들이 많으면 많을수록 상관도를 더하는 방법으로 감정과 단어 간의 상관도를 측정할 수 있을 것이다.To this end, the language information detector 30 includes a word selector 31, a word dictionary 32, and a language information acquirer 33. The word selector 31 selects a word related to an emotional expression in a sentence input from the speech recognizer 20. Correlation between emotion-related words and corresponding emotions is provided by the emotion expression word dictionary, that is, the word dictionary unit 32. The word dictionary unit 32 is generated by using the correlation between words and emotions. As described above, words that can be regarded as expressing a particular emotion are selected and registered as words representing the emotion. Can be built. The more words expressing emotions in a sentence, the more correlation between emotions and words can be measured by adding correlation.

단어 선택부(31)에 의해서 입력 음성(문장) 중에 특정 감정을 표현하는 단어가 선택되면 이는 언어정보 획득부(33)로 전달되고, 언어정보 획득부(33)는 해당 단어로부터 감정을 표현하는 언어적인 특징정보, 즉 문장이 나타내는 감정을 결정하여 그 결과를 감정 인식부(40)로 전달한다.When a word representing a particular emotion is selected in the input voice (sentence) by the word selector 31, the word is transferred to the language information acquirer 33, and the language information acquirer 33 expresses the emotion from the word. The linguistic characteristic information, that is, the emotion represented by the sentence is determined, and the result is transmitted to the emotion recognizer 40.

감정 인식부(40)는 음성신호 검출부(10)에서 전달된 에너지, 피치, 발성속도 정보와 언어정보 검출부(30)에서 전달된 언어정보 간의 상관성을 고려하여 현재 사용자의 감정이 어떤 상태인지를 판정하고, 판정된 결과, 즉 인식 결과를 출력한다.The emotion recognition unit 40 determines the state of the current user's emotion in consideration of the correlation between the energy, pitch, and voice speed information transmitted from the voice signal detection unit 10 and the language information transmitted from the language information detection unit 30. And the determined result, that is, the recognition result, is output.

여기서, 음향학적인 특징정보와 언어적인 특징정보를 어떻게 상호 고려할 것인지와 그 인식 결과를 출력하는 방법의 예는 앞서 도1을 참조하여 설명한 바와 같다. 그리고, 문장이 나타내는 감정을 결정하는 방법으로는 패턴 인식기를 사용할 수 있는데, 예를 들면 'Nearest Neighborhood' 방법을 사용할 수 있다. 이 방법은 상기 특징정보들에 근거하여 그 특징정보들이 감정 결정의 지표(기준) 근방에 위치할수록 해당 감정으로 판정할 근거가 더욱 명백해 진다는 것으로 이해하면 무방하다.Here, an example of how to consider acoustic feature information and linguistic feature information and a method of outputting the recognition result has been described with reference to FIG. 1. In addition, a pattern recognizer may be used as a method for determining the emotion represented by the sentence. For example, a 'Nearest Neighborhood' method may be used. This method may be understood that the more the feature information is located near the index (reference) of the emotion determination based on the feature information, the clearer the basis for judging the emotion is.

도3은 지금까지 설명한 음성 기반 감정 인식 시스템의 수순을 보여준다. 시스템에 음성신호가 입력된다(S10). 입력된 음성신호에 대해서 음성신호의 특징정보를 추출한다(S20). 추출된 특징정보에 근거하여 해당 음성이 어떤 것인지를 인식한다(S30). 인식된 결과로부터 언어정보를 추출한다(S40). 추출된 음성 특징정보와 언어정보로부터 감정을 인식한다(S50). 감정을 인식하는 것은, 음향학적인 특징정보와 언어적인 특징정보의 상관성을 고려하여 결정할 수 있는데, 얼마나 빠른 속도로 얼마나 높은 피치로, 또 얼마나 큰 소리로 말하는가를 각각의 특징정보로부터 판단하고, 감정을 표현하는 것으로 간주될 수 있는 단어를 몇 번이나 구사하는지의 여부와 함께 그 단어를 구사하는 시간 기간 동안의 상기 음향학적인 특징정보는 어떠한지 등을 고려함으로써 이루어질 수 있다. 다음에는 이와 같이 인식된 결과를 출력한다(S60). 인식 결과의 출력 방법은 텍스트, 코드값, 소리, 이미지 등 매우 다양한 방법을 적절하게 사용할 수 있으며, 이는 당해 기술분야에서 용이하게 선택 가능한 범주에 있다.Figure 3 shows the procedure of the speech-based emotion recognition system described so far. A voice signal is input to the system (S10). Characteristic information of the voice signal is extracted with respect to the input voice signal (S20). Based on the extracted feature information, it recognizes what the corresponding voice is (S30). The language information is extracted from the recognized result (S40). The emotion is recognized from the extracted voice feature information and language information (S50). Recognition of emotions can be determined in consideration of the correlation between acoustic and linguistic feature information, and from each feature information, how fast and how loud the pitch is spoken is determined from each feature information. It can be made by considering how many times the word that can be considered to be expressed and how the acoustic characteristic information during the time period of using the word is considered. Next, the result thus recognized is output (S60). As a method of outputting the recognition result, a wide variety of methods such as text, code value, sound, and image can be appropriately used, which is within a easily selectable range in the art.

본 발명은 음성에서의 감정 인식에 있어 음성 정보와 언어 정보를 함께 이용 함으로써 음성을 기반으로 감정을 인식하는 성능의 향상을 기 할 수 있다.The present invention can improve the performance of recognizing emotions based on speech by using speech information and language information together in emotion recognition in speech.

또한, 본 발명은 HCI(Human-Computer Interaction) 분야에 적용하여 사용자와 컴퓨터 사이의 의사 소통을 좀 더 자연스럽게 할 수 있다.In addition, the present invention can be applied to the field of Human-Computer Interaction (HCI) to more naturally communicate between the user and the computer.

Claims (10)

입력된 음성신호에서 음향학적인 특징정보를 추출하는 단계; 상기 추출된 특징정보로부터 음성을 인식하는 단계; 상기 음성 인식 결과로부터 언어정보를 추출하는 단계; 상기 추출된 음향학적 특징정보와 언어정보를 기반으로 감정 상태를 인식하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 음성 기반 감정 인식방법.Extracting acoustic feature information from the input voice signal; Recognizing speech from the extracted feature information; Extracting language information from the speech recognition result; Recognizing an emotional state based on the extracted acoustic characteristic information and language information; Speech-based emotion recognition method comprising a. 제 1 항에 있어서, 상기 인식된 음성에서 감정을 표현하는 단어를 선택하여 해당 감정에 대한 언어 정보를 추출하는 것을 특징으로 하는 음성 기반 감정 인식방법.The speech-based emotion recognition method of claim 1, wherein the speech information emotion extraction method comprises extracting language information on the emotion by selecting a word representing the emotion from the recognized voice. 제 1 항에 있어서, 상기 감정 인식에 사용될 음성 특징정보는 입력 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상인 것을 특징으로 하는 음성 기반 감정 인식방법.The voice-based emotion recognition method of claim 1, wherein the voice feature information to be used for emotion recognition is at least one of energy, pitch, and voice speed of an input voice signal. 제 1 항에 있어서, 상기 감정 인식에 사용될 언어적인 특징정보는 선택되는 단어와 해당 감정 사이의 상관도에 근거하여 획득하는 것을 특징으로 하는 음성 기반 감정 인식방법.The speech-based emotion recognition method of claim 1, wherein the linguistic feature information to be used for emotion recognition is obtained based on a correlation between the selected word and the corresponding emotion. 제 1 항에 있어서, 상기 감정 인식에 사용될 음성 특징정보는 입력 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상에 대하여 각각 가중치를 부여하여 인식에 사용되는 것을 특징으로 하는 음성 기반 감정 인식방법.The voice-based emotion recognition method of claim 1, wherein the voice feature information to be used for emotion recognition is used for recognition by assigning a weight to at least one of energy, pitch, and voice speed of an input voice signal. . 입력된 음성신호에서 감정 상태를 반영하는 음향학적인 특징정보를 추출하는 특징정보 추출부; 입력된 음성신호를 인식하는 음성 인식부; 상기 음성 인식 결과로부터 감정 상태를 반영하는 언어정보를 추출하는 언어정보 추출부; 상기 추출된 음향학적 특징정보와 언어정보의 상관성을 토대로 감정 상태를 인식하는 감정 인식부; 를 포함하여 이루어지는 것을 특징으로 하는 음성 기반 감정 인식 장치.A feature information extracting unit for extracting acoustic feature information reflecting an emotional state from an input voice signal; A voice recognition unit recognizing an input voice signal; A language information extracting unit for extracting language information reflecting an emotional state from the speech recognition result; An emotion recognition unit recognizing an emotional state based on a correlation between the extracted acoustic feature information and language information; Speech-based emotion recognition device comprising a. 제 6 항에 있어서, 감정을 표현하는 단어 정보를 제공하기 위한 단어 사전부를 더 포함하고, 상기 언어정보 추출부는 상기 인식된 음성으로부터 상기 단어 사전부를 참조하여 감정을 표현하는 언어정보를 획득하는 것을 특징으로 하는 음성 기반 감정 인식 장치.7. The apparatus of claim 6, further comprising a word dictionary unit for providing word information expressing emotions, wherein the language information extracting unit obtains language information expressing emotions by referring to the word dictionary unit from the recognized voice. Speech-based emotion recognition device. 제 6 항에 있어서, 상기 음향학적인 특징정보는 입력된 음성신호의 에너지, 피치, 발성 속도 중의 적어도 어느 하나 이상인 것을 특징으로 하는 음성 기반 감정 인식장치.The apparatus of claim 6, wherein the acoustic characteristic information is at least one of energy, pitch, and voice speed of the input voice signal. 제 6 항에 있어서, 상기 인식된 음성 문장 내에 감정을 표현하는 단어들이 복수 개인 경우 각 단어들과 해당 감정 간의 상관도를 가산하여 해당 언어정보를 획득하는 것을 특징으로 하는 음성 기반 감정 인식장치.The speech-based emotion recognition apparatus of claim 6, wherein when there are a plurality of words expressing emotions in the recognized speech sentence, corresponding language information is obtained by adding correlation between each word and the corresponding emotion. 제 6 항에 있어서, 상기 음향학적인 특징정보와 언어적인 특징정보 각각에 대하여 가중치를 부여하여 감정 인식에 사용하는 것을 특징으로 하는 음성 기반 감정 인식장치.The speech-based emotion recognition apparatus of claim 6, wherein weights are assigned to each of the acoustic feature information and the linguistic feature information to be used for emotion recognition.
KR1020070028922A 2007-03-23 2007-03-23 Speech based emotion recognition system Withdrawn KR20080086791A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070028922A KR20080086791A (en) 2007-03-23 2007-03-23 Speech based emotion recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070028922A KR20080086791A (en) 2007-03-23 2007-03-23 Speech based emotion recognition system

Publications (1)

Publication Number Publication Date
KR20080086791A true KR20080086791A (en) 2008-09-26

Family

ID=40025932

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070028922A Withdrawn KR20080086791A (en) 2007-03-23 2007-03-23 Speech based emotion recognition system

Country Status (1)

Country Link
KR (1) KR20080086791A (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101006049B1 (en) * 2008-10-16 2011-01-06 강정환 Emotion Recognition Apparatus and Method
WO2010148141A3 (en) * 2009-06-16 2011-03-31 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
KR101148164B1 (en) * 2010-05-18 2012-05-23 경희대학교 산학협력단 Method for estimating degree of subjective well-being based on language of user
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
KR101243766B1 (en) * 2011-07-20 2013-03-15 세종대학교산학협력단 System and method for deciding user’s personality using voice signal
US8407058B2 (en) 2008-10-28 2013-03-26 Industrial Technology Research Institute Food processor with phonetic recognition ability
CN103578481A (en) * 2012-07-24 2014-02-12 东南大学 A Cross-lingual Speech Emotion Recognition Method
WO2014035012A1 (en) * 2012-09-03 2014-03-06 경희대학교 산학협력단 Emotive speech recognition apparatus and method
CN102132945B (en) * 2010-01-21 2014-04-02 财团法人工业技术研究院 Food manufacturing device combined with semantic recognition function
CN104464756A (en) * 2014-12-10 2015-03-25 黑龙江真美广播通讯器材有限公司 Small speaker emotion recognition system
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
CN108735232A (en) * 2017-04-24 2018-11-02 北京理工大学 A kind of personality recognition methods and device
CN111048117A (en) * 2019-12-05 2020-04-21 南京信息工程大学 Cross-library speech emotion recognition method based on target adaptation subspace learning
WO2021206208A1 (en) * 2020-04-09 2021-10-14 와이피랩스 주식회사 Method and system for providing service on basis of user voice
KR102418256B1 (en) 2021-12-28 2022-07-08 아이브스 주식회사 Apparatus and Method for recognizing short words through language model improvement
KR20230102256A (en) * 2021-12-30 2023-07-07 가톨릭대학교 산학협력단 Non-face-to-face mental care system that can provide differentiated feedback according to emotional state

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101006049B1 (en) * 2008-10-16 2011-01-06 강정환 Emotion Recognition Apparatus and Method
US8407058B2 (en) 2008-10-28 2013-03-26 Industrial Technology Research Institute Food processor with phonetic recognition ability
WO2010148141A3 (en) * 2009-06-16 2011-03-31 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US8788270B2 (en) 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
CN102132945B (en) * 2010-01-21 2014-04-02 财团法人工业技术研究院 Food manufacturing device combined with semantic recognition function
KR101148164B1 (en) * 2010-05-18 2012-05-23 경희대학교 산학협력단 Method for estimating degree of subjective well-being based on language of user
KR101243766B1 (en) * 2011-07-20 2013-03-15 세종대학교산학협력단 System and method for deciding user’s personality using voice signal
CN103578481A (en) * 2012-07-24 2014-02-12 东南大学 A Cross-lingual Speech Emotion Recognition Method
CN103578481B (en) * 2012-07-24 2016-04-27 东南大学 Cross-language speech emotion recognition method
WO2014035012A1 (en) * 2012-09-03 2014-03-06 경희대학교 산학협력단 Emotive speech recognition apparatus and method
US9685174B2 (en) 2014-05-02 2017-06-20 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
CN104464756A (en) * 2014-12-10 2015-03-25 黑龙江真美广播通讯器材有限公司 Small speaker emotion recognition system
CN108735232A (en) * 2017-04-24 2018-11-02 北京理工大学 A kind of personality recognition methods and device
CN111048117A (en) * 2019-12-05 2020-04-21 南京信息工程大学 Cross-library speech emotion recognition method based on target adaptation subspace learning
CN111048117B (en) * 2019-12-05 2022-06-17 南京信息工程大学 Cross-library speech emotion recognition method based on target adaptation subspace learning
WO2021206208A1 (en) * 2020-04-09 2021-10-14 와이피랩스 주식회사 Method and system for providing service on basis of user voice
KR102418256B1 (en) 2021-12-28 2022-07-08 아이브스 주식회사 Apparatus and Method for recognizing short words through language model improvement
KR20230102256A (en) * 2021-12-30 2023-07-07 가톨릭대학교 산학협력단 Non-face-to-face mental care system that can provide differentiated feedback according to emotional state

Similar Documents

Publication Publication Date Title
KR20080086791A (en) Speech based emotion recognition system
CN112262430B (en) Automatically determine the language of speech recognition of spoken utterances received via an automated assistant interface
Dahake et al. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine
JP6857581B2 (en) Growth interactive device
CN112309406B (en) Voiceprint registration method, device and computer-readable storage medium
JP6866715B2 (en) Information processing device, emotion recognition method, and program
US20210217403A1 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
JP4322785B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP7557085B2 (en) Instant text-to-speech learning during dialogue
JP6908045B2 (en) Speech processing equipment, audio processing methods, and programs
KR20210130024A (en) Dialogue system and method of controlling the same
JP5045486B2 (en) Dialogue device and program
CN114627896A (en) Voice evaluation method, device, equipment and storage medium
CN113593523A (en) Speech detection method and device based on artificial intelligence and electronic equipment
CN113724693B (en) Voice judging method and device, electronic equipment and storage medium
CN109086455B (en) Method for constructing voice recognition library and learning equipment
KR20210000802A (en) Artificial intelligence voice recognition processing method and system
CN119339705B (en) Speech synthesis methods, speech synthesis devices, electronic devices and storage media
KR102113879B1 (en) The method and apparatus for recognizing speaker's voice by using reference database
CN114582373B (en) Method and device for identifying emotion of user in man-machine conversation
CN113990288B (en) A method for automatically generating and deploying a speech synthesis model for voice customer service
CN118197299A (en) Digital human voice recognition method and system based on human-computer interaction
CN118155604A (en) Speech recognition method, system, device, vehicle, electronic equipment and storage medium
CN116052655A (en) Audio processing method, device, electronic equipment and readable storage medium
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20070323

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid