KR101023211B1 - Microphone array based speech recognition system and target speech extraction method in the system - Google Patents
Microphone array based speech recognition system and target speech extraction method in the system Download PDFInfo
- Publication number
- KR101023211B1 KR101023211B1 KR1020080088318A KR20080088318A KR101023211B1 KR 101023211 B1 KR101023211 B1 KR 101023211B1 KR 1020080088318 A KR1020080088318 A KR 1020080088318A KR 20080088318 A KR20080088318 A KR 20080088318A KR 101023211 B1 KR101023211 B1 KR 101023211B1
- Authority
- KR
- South Korea
- Prior art keywords
- target voice
- voice
- target
- speech
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 암묵신호분리를 이용한 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표 음성 추출방법에 관한 것으로서, 음성인식 시스템은 다수의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석을 통해 분리하고, 상기 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 가우시안 혼합 밀도 모델 또는 은닉 마르코프 모델을 이용하여 추출하고, 상기 추출된 목표음성을 통해 원하는 음성을 자동으로 인식함으로써, 잡음이 존재하는 상황에서도 보다 높은 인식률을 확보할 수 있다. The present invention relates to a microphone array based speech recognition system using blind signal separation and a target speech extraction method in the system, wherein the speech recognition system separates mixed signals inputted through a plurality of microphones through independent element analysis, Among the separated sound source signals, one target voice spoken for speech recognition is extracted using a Gaussian mixture density model or a hidden Markov model, and the desired voice is automatically recognized through the extracted target voice, thereby reducing noise. Higher recognition rates can be attained even when they exist.
마이크배열, 음성인식, 암묵신호분리, 독립요소분석(ICA), 가우시안 혼합 밀도 모델(GMM), 은닉 마르코프 모델(HMM), 목표음성, 특징벡터, 대수 우도비(LLR). Microphone Array, Speech Recognition, Blind Signal Separation, Independent Element Analysis (ICA), Gaussian Mixed Density Model (GMM), Hidden Markov Model (HMM), Target Speech, Feature Vector, Algebraic Likelihood Ratio (LLR).
Description
본 발명은 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법에 관한 것으로서, 특히 암묵신호분리를 이용한 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법에 관한 것이다. The present invention relates to a speech recognition system and a method for extracting a target voice in the system, and more particularly, to a microphone array based speech recognition system using blind signal separation and a target speech extraction method in the system.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].The present invention is derived from a study conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Telecommunication Research and Development. [Task management number: 2006-S-036-02, Task name: Large-capacity interactive dispersion for new growth engine industries Development of processing voice interface technology].
기존의 음성인식 기술은 비교적 조용한 환경에서 음성을 인식하는 경우에는 단어인식률이 95% 이상의 높은 인식 성능을 보인다. 그러나 다양한 잡음이 존재하는 실제 응용환경에서는 인식률이 급격히 저하되므로 이러한 음성인식 기술의 상용화를 위해서는 높은 인식률을 확보하는 것이 필수적이다. Conventional speech recognition technology has more than 95% word recognition rate when speech is recognized in a relatively quiet environment. However, in a real application environment where various noises exist, the recognition rate drops rapidly. Therefore, it is essential to secure a high recognition rate for the commercialization of the voice recognition technology.
최근 수십 년간 다양한 잡음처리 방법들이 음성인식의 전처리 단계, 인식단계 및 후처리 단계에서 연구되어 왔으나, 아직도 모든 종류의 잡음을 양호하게 처리하는 방법은 알려지지 않고 있다. In recent decades, various noise processing methods have been studied in the pre-processing, recognition and post-processing stages of speech recognition, but there is still no known method for handling all kinds of noises well.
최근에 2개 이상의 마이크를 이용하여 원하는 음성신호를 분리하는 마이크배열 기반의 암묵신호분리(Blind Source Separation 이하, BSS라 칭함) 기법이 활발히 연구되고 있다. 상기 BSS의 주요 방법론 중의 하나인 독립요소분석(Independent Component Analysis 이하, ICA라 칭함) 기술을 사용하면 음성인식기, 유무선 휴대폰 등 음성을 입력받는 장치들에서 주변 화자, TV 또는 라디오 소음 등의 간섭신호를 효과적으로 제거하거나 감쇠시킬 수 있다. 즉, 입력 음성을 포함하여 N개의 음원이 존재하고, M개의 마이크가 존재한다고 할 때, M과 N의 개수가 유사한 경우에 M개의 마이크 입력신호로부터 원래의 N개의 음원 신호를 복원해낼 수 있다. Recently, a microphone array based blind signal separation (BSS) technique for separating a desired voice signal using two or more microphones has been actively studied. Independent Component Analysis (hereinafter referred to as ICA) technology, one of the main methodologies of the BSS, allows interference signals such as surrounding speakers, TV, or radio noise to be received from devices that receive voice, such as voice recognizers and wired / wireless mobile phones. Can be effectively removed or attenuated. That is, when there are N sound sources including the input voice and M microphones, the original N sound source signals can be restored from the M microphone input signals when the number of M and N is similar.
그러나 ICA에 의해 분리해 낸 N개의 음원 신호는 그 순서가 임의로 뒤바뀐다는 문제점이 있다. However, the N sound source signals separated by ICA have a problem that their order is reversed arbitrarily.
또한, 종래의 ICA 기술은 시간 영역에서 임의의 가중치를 각 음원 신호에 곱한 후 이를 더하여 혼합신호들을 만들고, 이를 다시 ICA 알고리즘을 이용해서 분리해내는 수준이었다. 그러나 최근에는 기술의 발전으로 실제 실내의 반향음(room reverberation)이 존재하는 경우에도 원래의 음원들을 분리해 낼 수 있는 수준으로 발전하고 있다. 하지만, 이와 같은 발전된 ICA 기술에서도 분리된 음원 신호들이 무엇에 해당하는지 자동으로 알아낼 수 있는 방법은 아직 알려지지 않고 있으며, 음성인식을 위해 인식 시스템에 입력으로 들어가야 할 목표 음성을 자동으로 찾아 내야만 하는 문제점이 있다. In addition, the conventional ICA technology multiplies each sound source signal with an arbitrary weight in the time domain and adds them to make mixed signals, which are then separated using the ICA algorithm. Recently, however, due to the development of technology, even in the presence of actual room reverberation (room reverberation) has been developed to the level that can separate the original sound sources. However, even in this advanced ICA technology, there is no known method to automatically find out what the separated sound signals correspond to, and it is necessary to automatically find a target voice to be input to the recognition system for speech recognition. There is this.
상술한 바와 같은 문제점을 해결하기 위해 본 발명은 음성인식을 위해 마이크배열 기반의 암묵신호분리 기술을 이용하여 원하는 목표 음성을 자동으로 찾기 위한 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법을 제공함에 있다. In order to solve the above problems, the present invention provides a microphone array based speech recognition system for automatically searching for a desired target speech using a microphone array-based blind signal separation technology for speech recognition, and a method of extracting a target voice from the system. In providing.
상기 이러한 본 발명의 목적들을 달성하기 위한 마이크배열 기반 음성인식 시스템은, 다수의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석을 통해 음원 신호들로 분리하는 신호분리기; 상기 신호분리기를 통해 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 추출하는 목표음성 추출기; 상기 추출된 목표 음성을 통해 원하는 음성을 인식하는 음성 인식기를 포함하며, 상기 목표음성 추출에 이용되는 부가 정보를 상기 목표음성 추출기로 전송하는 부가 정보기를 더 포함하는 것을 특징으로 한다. The microphone array-based speech recognition system for achieving the objects of the present invention, the signal separator for separating each of the mixed signals input through a plurality of microphones into the sound source signals through independent element analysis; A target voice extractor for extracting one target voice spoken for voice recognition from among the sound source signals separated by the signal separator; And a voice recognizer for recognizing a desired voice through the extracted target voice, and further comprising an additional information transmitter for transmitting additional information used for the target voice extraction to the target voice extractor.
그리고 본 발명의 목적들을 달성하기 위한 마이크배열 기반 음성인식 시스템에서의 목표음성 추출 방법은, 다수의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석을 통해 음원 신호들로 분리하는 단계; 상기 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 추출하는 단계; 상기 추출된 목표음성을 통해 원하는 음성을 인식하는 단계를 포함하는 것을 특징으로 한다. And a target voice extraction method in a microphone array based speech recognition system for achieving the objects of the present invention, comprising: separating the mixed signals respectively input through a plurality of microphones into sound source signals through independent element analysis; Extracting one target voice spoken for voice recognition from the separated sound source signals; Recognizing a desired voice through the extracted target voice, characterized in that it comprises.
본 발명은 독립요소분석 기술을 통해 분리된 음원 신호들 중에서 음성인식을 목표로 발성된 하나의 목표음성을 은닉 마르코프 모델(HMM) 및 가우시안 혼합 밀도 모델(GMM)을 이용하여 자동으로 찾아냄으로써, 분리된 음원 신호들이 무엇에 해당하는지 알아낼 수 있으므로 음성인식 시 잡음이 존재하는 상황에서도 보다 높은 인식률을 확보할 수 있는 효과가 있다. According to the present invention, a single target voice, which is aimed for speech recognition, is automatically detected using a Hidden Markov Model (HMM) and a Gaussian Mixed Density Model (GMM). Since it is possible to find out what the corresponding sound source signals correspond to, it is effective to secure a higher recognition rate even in the presence of noise in speech recognition.
이하, 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that detailed descriptions of related known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.
본 발명의 실시예에 따른 목표음성 추출을 위한 음성인식 기술은 마이크배열 기반의 신호처리 분야인 암묵신호분리(Blind Source Separation 이하, BSS라 칭함) 기술 및 잡음환경에서 음성인식을 위한 전처리 기술에 속한다. 여기서 상기 암묵신호분리 기술에 관련하여 최근 독립요소분석 기술이 개발되고 있는데, 이는 두 개 이상의 마이크를 사용하여 음원들을 성공적으로 분리할 수 있으며, 음향신호분리, 다채널 뇌파 신호분리, 영상패턴 분석 등 다양한 분야에 적용할 수 있다. Speech recognition technology for target speech extraction according to an embodiment of the present invention belongs to the blind source separation (BSS) technology and the pre-processing technology for speech recognition in a noise environment based on the microphone array-based signal processing . Here, the independent element analysis technology has been recently developed in relation to the blind signal separation technology, which can successfully separate sound sources using two or more microphones, and is capable of acoustic signal separation, multi-channel EEG signal separation, image pattern analysis, and the like. Applicable to various fields.
그러면 상기 암묵신호분리를 이용한 마이크배열 기반 목표음성 추출을 위한 음성인식 시스템에 대해 첨부된 도면을 참조하여 구체적으로 설명하기로 한다. Next, a speech recognition system for microphone array based target speech extraction using the blind signal separation will be described in detail with reference to the accompanying drawings.
도 2는 본 발명의 실시예에 따른 목표음성 추출을 위한 마이크배열 기반 음성인식 시스템의 구조를 도시한 블록도이다. 2 is a block diagram illustrating a structure of a microphone array based speech recognition system for extracting target speech according to an embodiment of the present invention.
상기 도 2를 참조하면, 음성인식 시스템은 다수의 마이크(101), 신호 분리기(110), 목표음성 추출기(120), 음성 인식기(130) 및 부가정보기(140)로 구성될 수 있다. Referring to FIG. 2, the voice recognition system may include a plurality of
상기 다수의 마이크(101) 각각은 다수의 음원신호들(S1(t), S2(t), …, SN(t))을 혼합하여 수신한다. Each of the plurality of
상기 신호 분리기(110)는 상기 마이크들(101) 각각으로부터 출력된 혼합신호(X1(t), X2(t), …, XN(t)를 입력받고, 독립요소분석(ICA)을 통해 입력된 상기 각 혼합신호를 분리하여 분리된 각 음원 신호(r1(t), r2(t), …, rN(t)를 출력한다. The
상기 목표음성 추출기(120)는 상기 분리된 각 음원 신호를 입력받아 상기 음원 신호들로부터 하나의 목표음성을 추출한다. 이때, 목표음성 추출은 N개의 분리된 음원 신호에 대한 특징 추출, 가우시안 혼합 밀도 모델(Gaussian mixture model 이하, GMM라 칭함)을 이용한 대수 우도비(Log Likelihood Ratio : LLR) 신뢰도 계산, 신뢰도 비교 및 목표음성 결정 등을 수행한다. 상기 목표음성 추출기(120)는 상기 부가정보기(140)로부터 수신된 부가 정보를 사용하는 경우 및 부가정보가 주어지지 않은 경우로 구분하여 목표음성을 추출할 수 있다. 또한, 상기 목표음성 추출기(120)는 상기 목표음성이 남성 또는 여성이며 그 외의 음원들을 목표음성과 다 른 성별이거나 그 외의 모든 신호라는 정보, 목표 음성 외의 다른 음성들이 잡음신호라는 정보, 목표 음성이 특정화자의 음성이라는 화자 개인정보 등을 고려하여 목표 음성을 추출한다. The
상기 부가 정보가 주어지는 경우, 상기 목표음성 추출기(120)는 가우시안 혼합 밀도 모델을 활용하여 각 음원 신호들에 대한 가설검정(hypothesis test)을 통해 가장 신뢰도가 높은 음원을 목표음성으로 결정한다. 그리고 상기 부가 정보가 주어지지 않는 경우, 상기 목표음성 추출기(120)는 음성인식 시스템에 내장된 은닉 마르코프 모델(Hidden Markov Model 이하, HMM라 칭함)을 사용하여 각 음원의 신뢰도를 계산한다. When the additional information is given, the
상기 음성 인식기(130)는 상기 추출된 목표음성 신호(y(t))를 수신하여 원하는 음성을 인식한다. The
이와 같은 구조를 갖는 음성 인식 시스템에서 목표음성을 추출하기 위한 방법을 첨부된 도면을 참조하여 구체적으로 설명하기로 한다. A method for extracting a target voice in a speech recognition system having such a structure will be described in detail with reference to the accompanying drawings.
도 3은 본 발명의 실시예에 따라 마이크배열 기반 음성인식 시스템의 목표음성 추출기에서 목표음성을 추출하기 위한 방법을 도시한 흐름도이다. 3 is a flowchart illustrating a method for extracting a target voice from a target voice extractor of a microphone array based voice recognition system according to an embodiment of the present invention.
상기 도 3을 참조하면, 210단계에서 음성인식 시스템의 목표음성 추출기(120)는 신호 분리기(110)로부터 분리된 음원 신호들을 입력받는다. Referring to FIG. 3, in
그런 다음 220단계에서 상기 목표음성 추출기(120)는 N개의 분리된 8kHz 또는 16kHz 음원 신호들이 주어졌을 경우, 오디오 신호의 매 10ms마다 20ms 구간의 프레임에서 N차의 특징벡터 xt를 계산함으로써 특징을 추출한다. 여기서 상기 특징 벡터의 계산은 LPCC(Linear prediction cepstral coefficient), PLP(Perceptual Linear Prediction), MFCC(Mel-Frequency Cepstral Coefficient) 등 다수의 방법을 사용할 수 있다. Then, in
230단계에서 목표음성 추출기(120)는 각 추출된 특징들에서 가우시안 혼합 밀도 모델(GMM)을 이용한 대수 우도비(LLR) 신뢰도를 계산한다. 여기서 상기 가우시안 혼합 밀도 모델(GMM)은 N차원 벡터공간(vector space)을 M개의 다변량 가우시안 분포가 가산된 형태로 모델링하는 통계 모델 기법이며, 음성인식 또는 화자인식기에 널리 사용된다. 이러한 임의의 가우시안 혼합 밀도 모델(GMM)의 m번째 가우시안 분포를 하기 <수학식 1>과 같이 나타낼 수 있다. In
상기 <수학식 1>에서 x,μm, ∑m은 각각 특징벡터, m번째 가우시안 분포 평균벡터와 공분산 행렬을 의미한다. 그리고 GMM 출력 확률은 오디오 신호 전체구간에 해당하는 T개의 프레임에서의 특징 벡터열을 X=[x1, x2, …, xT]라고 하고, 인접하는 특징벡터들이 독립인 경우, 하기 <수학식 2>와 같이 나타낼 수 있다. In
여기서 상기 GMM의 파라미터들인 μm, ∑m 값들은 널리 알려진 최대우도(maximum likelihood) 추정 알고리즘 등을 사용하여 학습 데이터베이스로부터 구할 수 있다. 또한,은 M개의 가우시안 분포 중 m번째 가우시안 분포의 기여도(혹은 가중치)를 의미하며, 이다.Where μ m, which are the parameters of the GMM Σ m values can be obtained from the learning database, by using the well-known maximum likelihood (maximum likelihood) estimation algorithm. Also, Is the contribution (or weight) of the mth Gaussian distribution among the M Gaussian distributions. to be.
이후, 240단계에서 목표음성 추출기(120)는 K(최대값)를 구한 후, 250단계에서 LLRK > θ인 경우, 260단계에서 분리된 음원 신호 K를 목표음성으로 설정하고, 그렇지 않은 경우, 270단계에서 목표음성 부재 즉, 입력 거절로 설정한다. Subsequently, in
상술한 바와 같이 230단계 내지 270단계는 여러 가지 방법을 이용하여 수행될 수 있다. 이러한 방법들은 남녀 성별 정보를 이용하는 경우, 음성-음악 정보를 이용하는 경우, 음성-잡음 정보를 이용하는 경우, 화자의 개인 정보를 이용하는 경우, 부가 정보가 별도로 주어지지 않는 경우 등의 목표 음성 추출 방법들이다. 그러면 이러한 방법들을 각각 구체적으로 설명하기로 한다. As described above,
첫 번째로, 남녀 성별 정보를 이용하여 목표음성을 추출하는 경우, 즉 목표음성에 해당하는 음원이 여성이고, 이 외의 다른 음원들은 남성 화자의 음성 또는 그 외의 오디오 신호라는 정보가 제공될 경우에는 다음과 같이 목표음성을 추출한다.First, when a target voice is extracted using gender information, that is, when a sound source corresponding to the target voice is a female and other sound sources are provided with information such as a male speaker's voice or other audio signal, Extract the target voice as follows.
우선, 음성 데이터베이스를 남성 화자와 여성 화자로 구분한 후 각각에 대해 가우시안 혼합모델(GMM) λMale, λFemale을 생성한다. First, the voice database is divided into male and female speakers, and a Gaussian mixed model (GMM) λ Male and λ Female are generated for each.
그런 다음 N개의 분리된 음원 신호에서 추출한 특징벡터열을 X1, X2, …, XN ()라고 할 때, λMale, λFemale 모델에 대한 상기 특징벡터열 Xi의 대수우도비(LLRi)를 하기 <수학식 3>과 같이 계산한다. Then, the feature vector sequence extracted from the N separated sound source signals is X 1 , X 2 ,. , X N ( ), The algebraic likelihood ratio (LLR i ) of the feature vector sequence X i for the λ Male and λ Female models is calculated as in Equation 3 below.
이때, i번째 음원 Xi가 실제로 여성 화자의 음성일 경우, 상기 <수학식 3>에서 분자항이 높은 값을 가지므로 LLRi는 높은 값을 나타내며, 그 외의 경우에는 LLRi는 상대적으로 낮은 값을 나타낸다. In this case, when the i-th sound source X i is actually a female speaker's voice, LLR i represents a high value because the molecular term has a high value in Equation 3, otherwise LLR i represents a relatively low value. Indicates.
상기 모든 LLRi들 중에서 최대값은 하기 <수학식 4>와 같이 계산할 수 있다. The maximum value among all the LLR i may be calculated as in Equation 4 below.
상기 250단계에서와 같이 최대 대수우도비(LLRk)를 미리 정해진 임계값(threshold)(θ)과 비교하여 임계값보다 클 경우, 상기 목표음성 추출기(120)는 Xk를 목표음성으로 판단하고, 이를 음성 인식기(130)로 출력한다. 만약, LLRk가 임계값보다 작은 경우, 상기 목표음성 추출기(120)는 분리된 음원 신호들 중 목표음성이 존재하지 않는 것으로 판단한다. 상기 임계값(θ)은 ·로 계산된다. 여기서 는 프레임의 갯수이고, 표준 임계값는 각 응용 시스템에 따라 실험적으로 결정된다.When the maximum algebraic likelihood ratio LLR k is greater than a threshold value as compared with a predetermined threshold θ as in
반면, 목표음성에 해당하는 음원이 남성이고, 이 외의 다른 음원들은 여성 화자의 음성 또는 그 외의 오디오 신호라는 정보가 제공될 경우, LLRi는 하기 <수학식 5>와 같으며, 그 외에는 상기 목표음성에 해당하는 음원이 여성인 경우의 상기 설명과 동일하다. On the other hand, when the sound source corresponding to the target voice is male, and other sound sources are provided with the information of the female speaker's voice or other audio signal, LLRi is represented by Equation 5 below, otherwise the target voice is The same as described above in the case where the sound source corresponding to the present invention is a female.
두 번째로, 음성-음악 정보를 이용하는 경우, 즉 목표음성에 해당하는 음원이 음성(Speech)이고, 이 외의 다른 음원들은 음악 신호라는 정보가 제공될 경우에는 다음과 같이 목표음성을 추출한다.Secondly, when using voice-music information, that is, a sound source corresponding to the target voice is speech, and other sound sources are provided with the information of the music signal, the target voice is extracted as follows.
먼저, 데이터베이스를 음성과 음악 데이터로 구분한 후에 각각에 대해 가우시안 혼합모델(GMM) λSpeech, λMusic 을 생성한다. First, the database is divided into speech and music data, and then Gaussian mixed model (GMM) λ Speech and λ Music are generated for each.
그런 다음 특징벡터열 Xi의 대수 우도비 LLRi를 하기 <수학식 6>과 같이 계산한다. Then, the algebraic likelihood ratio LLR i of the feature vector sequence X i is calculated as in Equation 6 below.
이후의 목표음성 추출방식은 상기 첫 번째의 방법과 동일하므로 설명을 생략하기로 한다. Since the target voice extraction method is the same as the first method, a description thereof will be omitted.
세 번째로, 음성-잡음 정보를 이용한 경우, 즉 목표음성에 해당하는 음원이 음성(Speech)이고, 이 외의 다른 음원들은 잡음 신호라는 정보가 제공될 경우에는 다음과 같이 목표음성을 추출한다.Third, when the voice-noise information is used, that is, the sound source corresponding to the target voice is speech, and other sound sources are provided with the information of the noise signal, the target voice is extracted as follows.
먼저, 데이터베이스를 음성과 잡음 데이터로 구분한 후에 각각에 대해 가우시안 혼합모델(GMM) λSpeech, λNoise를 생성한다. First, the database is divided into speech and noise data, and then Gaussian mixture model (GMM) λ Speech and λ Noise are generated for each.
그런 다음 N개의 분리된 음원 신호에서 추출한 특징벡터열을 X1, X2, …,XN이라고 할 때, λSpeech, λNoise 모델에 대한 특징벡터열 Xi의 대수 우도비 LLRi를 하기 <수학식 7>과 같이 계산한다. Then, the feature vector sequence extracted from the N separated sound source signals is X 1 , X 2 ,. , X N , the algebraic likelihood ratio LLRi of the feature vector sequence X i for the λ Speech and λ Noise models is calculated as shown in Equation 7 below.
이후의 목표음성 추출방식은 상기 첫 번째의 방법과 동일하므로 설명을 생략하기로 한다. Since the target voice extraction method is the same as the first method, a description thereof will be omitted.
네 번째로, 화자의 개인성 정보를 이용한 경우, 즉 목표음성에 해당하는 음원이 미리 알려진 특정 화자이고, 이 외의 다른 음원들은 다른 화자의 음성 또는 그 외의 오디오 신호라는 정보가 제공될 경우에는 다음과 같이 목표음성을 추출한다.Fourthly, when the speaker's personal information is used, that is, when the sound source corresponding to the target voice is a predetermined speaker and other sound sources are provided with the information of another speaker's voice or other audio signal, as follows. Extract the target voice.
먼저, 데이터베이스를 특정 화자와 그 외의 오디오 신호로 구분한 후에 각각에 대해 가우시안 혼합모델(GMM) λIndividual, λOthers를 생성한다. First, the database is divided into a specific speaker and other audio signals, and then a Gaussian mixed model (GMM) λ Individual and λ Others are generated for each.
그런 다음 N개의 분리된 음원 신호에서 추출한 특징벡터열을 X1, X2, …, XN이라고 할 때, λIndividual, λOthers 모델에 대한 특징벡터열 Xi의 대수 우도비 LLRi를 하기 <수학식 8>과 같이 계산한다. Then, the feature vector sequence extracted from the N separated sound source signals is X 1 , X 2 ,. , X N , the algebraic likelihood ratio LLR i of the feature vector sequence X i for the λ Individual and λ Others models is calculated as shown in Equation 8 below.
이후의 목표음성 추출방식은 상기 첫 번째의 방법과 동일하므로 설명을 생략하기로 한다. Since the target voice extraction method is the same as the first method, a description thereof will be omitted.
다섯 번째로, 부가 정보가 별도로 주어지지 않는 경우 즉, 목표음성에 대해서 특별한 부가 정보가 주어지지 않을 경우에는 N개의 분리된 음원 신호들 중에서 인식기 사용을 목적으로 발성된 신호가 존재한다고 간주하고, 음성인식의 음향모델인 HMM(Hidden Markov Model)을 이용하여 LLR 기반의 신뢰도를 계산한다. 이러한 경우 신뢰도 계산 방법은 다음과 같다. Fifthly, when additional information is not given separately, that is, when no additional information is provided for the target voice, it is assumed that there is a signal uttered for the use of the recognizer among the N separate sound source signals. Reliability based on LLR is calculated by using HMM (Hidden Markov Model). In this case, the reliability calculation method is as follows.
먼저, 음성 인식기(130)의 HMM을 이용하여 각각의 분리된 음원 신호들에 대해 1차적으로 음성 인식기(130)를 통과시킨 후, 인식 결과로 주어지는 단어열에 대해 HMM 음향모델을 정렬한다. First, the HMM of the
다음으로, i번째 음원의 특징벡터열을 라 하고, 에 해당하는 HMM 상태(state)는 로서, m과 j는 m번째 HMM 부단어 모델(subword model)의 j번째 상태를 뜻한다. 이때, LLRi는 하기 <수학식 9>와 같이 계산한다. Next, the feature vector string of the i-th sound source , The HMM state corresponding to Where m and j represent the j th state of the m th HMM subword model. In this case, LLR i is calculated as in Equation 9 below.
상기 <수학식 9>에서 는 음성 인식기(130)를 통해 얻은 단어열을 뜻하며, 는 의 컴플리먼트(complement),는 의 컴플리먼트(complement)를 의미한다. 여기서 상기 는 실질적으로 직접 구하기가 어려우므로 상기 <수학식 9>의 맨 마지막 줄과 같이 근사하여 추정할 수 있다. K는 에 상응하는 모든 HMM들에 포함된 각각의 상태의 번호(number)이다. 는 실험적으로 결정될 수 있는 상수항이다. 만약, 이 값이 매우 크게 설정되면, 상기 <수학식 9>의 마지막 줄 내의 두번째 합산 항(summation term)은 가장 큰 우도 값(likelihood value)에 의해 좌우된다. 반면에, 가 더 작은 값을 갖게 될수록, 다른 우도 값들의 기여는 더 현저해진다. In Equation 9 above Is a word string obtained through the
이후의 목표음성 추출방식은 상기 첫 번째의 방법과 동일하므로 구체적인 설 명을 생략하기로 한다. Since the target voice extraction method is the same as the first method, a detailed description thereof will be omitted.
마지막으로, 목표음성의 음원은 특정 특성(property) A에 의한 음성이고, 다른 음원들은 특정 특성(property) B의 오디오 신호들이라는 부가 정보가 제공될 경우, 상기 목표음성 추출 방식은 후술된 바와 같이 수행된다. Lastly, when additional information is provided that the sound source of the target voice is a sound having a specific property A, and the other sound sources are audio signals having a specific property B, the target voice extraction method may be performed as described below. Is performed.
우선, 데이터베이스를 특정 특성 A를 갖는 음성 데이터와, 특정 특성 B에 의한 다른 오디오 신호 데이터로 구분한 후, 가우시안 혼합 모델(GMM) λproperty _A 및 λproperty_B를 생성한다. First, the database is divided into speech data having a specific characteristic A and other audio signal data according to the specific characteristic B, and then Gaussian mixed model (GMM) lambda properties _A and lambda property_B are generated.
다음으로, N개의 분리된 음원 신호에서 추출한 특징벡터열을 X1, X2, …, XN라고 할 때, λproperty _A 및 λproperty _B 에 대한 특징벡터열 Xi의 LLRi를 하기 <수학식 10>과 같이 계산한다. Next, the feature vector sequence extracted from the N separated sound source signals is X 1 , X 2 ,... , X N , for the feature vector column X i for λ property _A and λ property _B The LLR i is calculated as shown in Equation 10 below.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 발명청구의 범위뿐만 아니라 이 발명청구의 범위와 균등한 것들에 의해 정해져야 한다.Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but various modifications are possible without departing from the scope of the present invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the scope of the following claims, but also by the equivalents of the claims.
도 1은 일반적인 독립요소분석 기술을 이용한 신호분리시스템을 도시한 블록도, 1 is a block diagram showing a signal separation system using a general independent element analysis technique,
도 2는 본 발명의 실시예에 따른 목표음성 추출을 위한 마이크배열 기반 음성인식 시스템의 구조를 도시한 블록도, 2 is a block diagram illustrating a structure of a microphone array based speech recognition system for extracting target speech according to an embodiment of the present invention;
도 3은 본 발명의 실시예에 따라 마이크배열 기반 음성인식 시스템의 목표음성 추출기에서 목표 음성을 추출하기 위한 방법을 도시한 흐름도.3 is a flow chart illustrating a method for extracting a target voice in a target voice extractor of a microphone array based speech recognition system in accordance with an embodiment of the present invention.
Claims (18)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US12/242,819 US8249867B2 (en) | 2007-12-11 | 2008-09-30 | Microphone array based speech recognition system and target speech extracting method of the system |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020070128096 | 2007-12-11 | ||
| KR20070128096 | 2007-12-11 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20090061566A KR20090061566A (en) | 2009-06-16 |
| KR101023211B1 true KR101023211B1 (en) | 2011-03-18 |
Family
ID=40991008
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020080088318A Expired - Fee Related KR101023211B1 (en) | 2007-12-11 | 2008-09-08 | Microphone array based speech recognition system and target speech extraction method in the system |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR101023211B1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101160071B1 (en) * | 2009-12-01 | 2012-06-26 | (주)에이치씨아이랩 | Voice data interface apparatus for multi-cognition and method of the same |
| KR101889465B1 (en) * | 2017-02-02 | 2018-08-17 | 인성 엔프라 주식회사 | voice recognition device and lighting device therewith and lighting system therewith |
| CN110738990B (en) | 2018-07-19 | 2022-03-25 | 南京地平线机器人技术有限公司 | Method and device for recognizing voice |
-
2008
- 2008-09-08 KR KR1020080088318A patent/KR101023211B1/en not_active Expired - Fee Related
Non-Patent Citations (1)
| Title |
|---|
| Jen-Tzung Chien et al. "A new independent component analysis for speech recognition and separation", IEEE Trans. on Audio, Speech, and Language Processing, Vol.14, No.4, July 2006* |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20090061566A (en) | 2009-06-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8249867B2 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
| US8612224B2 (en) | Speech processing system and method | |
| JP6350148B2 (en) | SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM | |
| Saon et al. | Speaker adaptation of neural network acoustic models using i-vectors | |
| JP7342915B2 (en) | Audio processing device, audio processing method, and program | |
| Das et al. | Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers | |
| Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
| WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
| KR101893789B1 (en) | Method for speech endpoint detection using normalizaion and apparatus thereof | |
| KR20210081166A (en) | Spoken language identification apparatus and method in multilingual environment | |
| KR101023211B1 (en) | Microphone array based speech recognition system and target speech extraction method in the system | |
| Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
| KR101992955B1 (en) | Method for speech endpoint detection using normalizaion and apparatus thereof | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
| JP2012053218A (en) | Sound processing apparatus and sound processing program | |
| Medhi et al. | Isolated Assamese speech recognition using artificial neural network | |
| Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
| Nahar et al. | Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment | |
| Sangeetha et al. | Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network | |
| Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
| Khalifa et al. | Statistical modeling for speech recognition | |
| Mittal et al. | Age approximation from speech using Gaussian mixture models | |
| Dutta et al. | A comparative study on feature dependency of the Manipuri language based phonetic engine |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
| FPAY | Annual fee payment |
Payment date: 20140408 Year of fee payment: 4 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
| P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
| P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
| P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| FPAY | Annual fee payment |
Payment date: 20150306 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
| FPAY | Annual fee payment |
Payment date: 20160309 Year of fee payment: 6 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20170911 Year of fee payment: 7 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20180311 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20180311 |