KR20120130371A - Gmm을 이용한 응급 단어 인식 방법 - Google Patents
Gmm을 이용한 응급 단어 인식 방법 Download PDFInfo
- Publication number
- KR20120130371A KR20120130371A KR1020110048251A KR20110048251A KR20120130371A KR 20120130371 A KR20120130371 A KR 20120130371A KR 1020110048251 A KR1020110048251 A KR 1020110048251A KR 20110048251 A KR20110048251 A KR 20110048251A KR 20120130371 A KR20120130371 A KR 20120130371A
- Authority
- KR
- South Korea
- Prior art keywords
- emergency
- gmm
- word
- words
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 실시예에 따른 음성 구간 검출 방법 및 결과를 설명하기 위한 예시도.
도 3은 본 발명에 따른 GMM을 이용한 응급단어 인식 방법중 MFCC과정을 보인 예시도.
도 4는 본 발명의 실시예에 따라 응급단어의 GMM 학습과정을 보인 예시도.
도 5는 본 발명의 실시예에 따라 응급단어에 대한 음질향상 전과 후의 파형도.
도 6은 본 발명에 따른 Global GMM의 출력값을 보인 예시도.
Claims (6)
- 입력되는 음성신호로부터 노이즈를 제거하여 음성신호의 시작점과 끝점을 검출하는 단계;
음성구간 검출 후, 검출된 음성신호에 대한 고역을 강조하고 멜 켑스트럼(MFCC)을 기반으로 특징 벡터를 추출하는 단계;
음성신호에 대한 추출된 특징벡터를 이용하여 구축된 글로벌 가우시안 혼합모델(Global GMM)을 통해 응급단어와 비응급 단어를 검출하는 단계; 및
검출된 응급 단어를 인식하기 위해 구축된 로컬 가우시안 혼합모델(Local GMM)을 통해 응급단어를 인식하는 단계를 포함하는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
- 제1 항에 있어서,
ITL값은 음성신호의 처음 5 프레임의 평균값으로 설정하고, ITU값은 ITL값의 4배로 설정할 때,
상기 음성신호의 시작점과 끝점을 검출하는 단계는,
입력된 음성신호에 대해 정방향으로 단구간 에너지값을 계산한 후, 계산된 단구간 에너지값이 미리 설정된 ITU값을 처음으로 넘는 점을 잠정적인 시작점으로 간주하여 프레임을 선택하는 제1 단계;
선택한 프레임을 기준으로 순방향으로 다음 프레임에서 미리 설정된 ITL 이하로 내려가기 전에 ITU를 넘어가게 되면 상기 제1 단계에서 선택한 프레임을 시작점으로 간주하고, ITU를 넘지 못하고 ITL 이하로 내려가면 상기 제1 단계에서 구한 시작점을 무시하고 순방향으로 그 다음 프레임에 대해 동일한 방식에 의하여 시작점을 구하는 제2 단계;
상기 제1 단계 또는 제2 단계에 의해 선택된 프레임을 기준으로 역방향으로 영교차율을 획득하고, 획득된 영교차율이 미리 설정된 IZCT값을 초과하는 프레임이 연속적으로 특정개수 존재하면, 이 점을 시작점이라 간주하고, 존재하지 않을 경우 상기 제1 단계 또는 제2 단계에서 결정된 프레임을 시작점으로 결정하는 제3 단계; 및
음성의 끝점을 기준으로 음성신호에 대해 역방향으로 상기 제1~제3 단계를 수행하여 음성신호의 끝점을 결정하는 제4 단계를 포함하는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
- 제1 항에 있어서, 상기 특징 벡터를 추출하는 단계는,
분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 획득하는 단계;
멜(Mel) 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 취하는 단계; 및
필터뱅크 출력값에 로그를 취하고, 로그를 취한 필터 뱅크 값에 이산 코사인 변환을 하여 MFCC를 구하는 단계를 포함하는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
- 제1 항에 있어서, 상기 Global GMM은 모델 구축에 사용될 모든 훈련용 응급단어에 대한 특징을 추출한 후, 추출된 모든 특징벡터를 이용하여 GMM 모델의 파라미터를 추정할 수 있도록 구축된 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
- 제1 항에 있어서, 상기 Local GMM은 모델 구축에 사용될 훈련용 음성데이터를 응급단어별로 분류하여 특징을 추출할 수 있도록 구축된 것을 특징으로 하는 용한 응급단어 인식 방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020110048251A KR101250668B1 (ko) | 2011-05-23 | 2011-05-23 | Gmm을 이용한 응급 단어 인식 방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020110048251A KR101250668B1 (ko) | 2011-05-23 | 2011-05-23 | Gmm을 이용한 응급 단어 인식 방법 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20120130371A true KR20120130371A (ko) | 2012-12-03 |
| KR101250668B1 KR101250668B1 (ko) | 2013-04-03 |
Family
ID=47514446
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020110048251A Expired - Fee Related KR101250668B1 (ko) | 2011-05-23 | 2011-05-23 | Gmm을 이용한 응급 단어 인식 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR101250668B1 (ko) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170018140A (ko) | 2015-08-05 | 2017-02-16 | 한국전자통신연구원 | 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치 |
| CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
| KR20170140860A (ko) * | 2016-06-14 | 2017-12-22 | 가천대학교 산학협력단 | 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법 |
| CN107919115A (zh) * | 2017-11-13 | 2018-04-17 | 河海大学 | 一种基于非线性谱变换的特征补偿方法 |
| KR102339578B1 (ko) * | 2020-06-12 | 2021-12-16 | 주식회사 자동기 | 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법 |
| KR102418256B1 (ko) * | 2021-12-28 | 2022-07-08 | 아이브스 주식회사 | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 |
| KR102628542B1 (ko) * | 2022-10-06 | 2024-01-23 | 대한민국 | 인공지능 기반 해양 구조신호 자동 식별 시스템 및 방법 |
| CN120279914A (zh) * | 2025-06-12 | 2025-07-08 | 上海收易科技有限公司 | 用于资金交易室的个人语音智能终端系统 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100764247B1 (ko) * | 2005-12-28 | 2007-10-08 | 고려대학교 산학협력단 | 2단계 탐색을 이용한 음성인식 장치 및 그 방법 |
| KR100776730B1 (ko) | 2006-08-29 | 2007-11-19 | 울산대학교 산학협력단 | 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법 |
| KR100915638B1 (ko) * | 2006-12-06 | 2009-09-04 | 한국전자통신연구원 | 고속 음성 인식 방법 및 시스템 |
| KR100861653B1 (ko) | 2007-05-25 | 2008-10-02 | 주식회사 케이티 | 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법 |
-
2011
- 2011-05-23 KR KR1020110048251A patent/KR101250668B1/ko not_active Expired - Fee Related
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170018140A (ko) | 2015-08-05 | 2017-02-16 | 한국전자통신연구원 | 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치 |
| CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
| CN107068147B (zh) * | 2015-10-19 | 2020-10-20 | 谷歌有限责任公司 | 语音端点确定 |
| KR20170140860A (ko) * | 2016-06-14 | 2017-12-22 | 가천대학교 산학협력단 | 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법 |
| KR101868404B1 (ko) * | 2016-06-14 | 2018-07-19 | 가천대학교 산학협력단 | 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법 |
| CN107919115A (zh) * | 2017-11-13 | 2018-04-17 | 河海大学 | 一种基于非线性谱变换的特征补偿方法 |
| CN107919115B (zh) * | 2017-11-13 | 2021-07-27 | 河海大学 | 一种基于非线性谱变换的特征补偿方法 |
| KR102339578B1 (ko) * | 2020-06-12 | 2021-12-16 | 주식회사 자동기 | 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법 |
| KR102418256B1 (ko) * | 2021-12-28 | 2022-07-08 | 아이브스 주식회사 | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 |
| KR102628542B1 (ko) * | 2022-10-06 | 2024-01-23 | 대한민국 | 인공지능 기반 해양 구조신호 자동 식별 시스템 및 방법 |
| CN120279914A (zh) * | 2025-06-12 | 2025-07-08 | 上海收易科技有限公司 | 用于资金交易室的个人语音智能终端系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR101250668B1 (ko) | 2013-04-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
| KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
| US9959886B2 (en) | Spectral comb voice activity detection | |
| CN109087655A (zh) | 一种交通道路声音监测与异常声音识别系统 | |
| JP2013156524A (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
| EP2817800A1 (en) | Modified mel filter bank structure using spectral characteristics for sound analysis | |
| CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
| Jaafar et al. | Automatic syllables segmentation for frog identification system | |
| Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
| Choi et al. | Selective background adaptation based abnormal acoustic event recognition for audio surveillance | |
| Chan et al. | An abnormal sound detection and classification system for surveillance applications | |
| US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
| Korkmaz et al. | Unsupervised and supervised VAD systems using combination of time and frequency domain features | |
| Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden Markov models | |
| KR101741418B1 (ko) | 연속된 충격음에 대한 음향 특징 추출 및 확률 모델에 기반한 음향 인식 방법 | |
| Sadjadi et al. | Robust front-end processing for speaker identification over extremely degraded communication channels | |
| CN118571247A (zh) | 一种智能声音识别解析方法及系统 | |
| Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location | |
| JP5439221B2 (ja) | 発声検出装置 | |
| KR20090065181A (ko) | 잡음 검출 방법 및 장치 | |
| Maganti et al. | A perceptual masking approach for noise robust speech recognition | |
| US12118987B2 (en) | Dialog detector | |
| Abka et al. | Speech recognition features: Comparison studies on robustness against environmental distortions | |
| Ghulam et al. | A noise-robust feature extraction method based on pitch-synchronous ZCPA for ASR. | |
| Zhang et al. | An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
| D14-X000 | Search report completed |
St.27 status event code: A-1-2-D10-D14-srh-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20151224 Year of fee payment: 4 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20170329 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20170329 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |