KR101790641B1 - 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 - Google Patents
하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 Download PDFInfo
- Publication number
- KR101790641B1 KR101790641B1 KR1020167005223A KR20167005223A KR101790641B1 KR 101790641 B1 KR101790641 B1 KR 101790641B1 KR 1020167005223 A KR1020167005223 A KR 1020167005223A KR 20167005223 A KR20167005223 A KR 20167005223A KR 101790641 B1 KR101790641 B1 KR 101790641B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- audio
- content
- coded
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000203 mixture Substances 0.000 claims description 230
- 230000005236 sound signal Effects 0.000 claims description 146
- 238000000034 method Methods 0.000 claims description 121
- 230000000873 masking effect Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 18
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010397 one-hybrid screening Methods 0.000 claims 1
- 238000009877 rendering Methods 0.000 description 51
- 230000002829 reductive effect Effects 0.000 description 34
- 230000004044 response Effects 0.000 description 32
- 239000011159 matrix material Substances 0.000 description 27
- 239000013598 vector Substances 0.000 description 25
- 238000004891 communication Methods 0.000 description 18
- 238000004091 panning Methods 0.000 description 18
- 230000002123 temporal effect Effects 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 16
- 238000013459 approach Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000002156 mixing Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000005496 tempering Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000011965 cell line development Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
도 1은 단일-채널 믹스된 콘텐트 신호(스피치 및 비-스피치 콘텐트를 갖는)의 스피치 콘텐트를 재구축하기 위한 예측 파라미터를 발생하게 구성된 시스템의 블록도이다.
도 2는 다-채널 믹스된 콘텐트 신호(스피치 및 비-스피치 콘텐트를 갖는)의 스피치 콘텐트를 재구축하기 위한 예측 파라미터를 발생하게 구성된 시스템의 블록도이다.
도 3은 오디오 프로그램을 나타내는 엔코딩된 오디오 비트스트림을 발생하기 위한 본 발명의 엔코딩 방법의 실시예를 수행하게 구성된 엔코더, 및 엔코딩된 오디오 비트스트림에 스피치 인핸스(본 발명의 방법의 실시예에 따라)을 디코딩하고 수행하게 구성된 디코더를 포함하는 시스템의 블록도이다.
도 4는 통상의 스피치 인핸스를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 5는 통상의 파라미터-코딩된 스피치 인핸스를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 6 및 도 6a는 본 발명의 스피치 인핸스 방법의 실시예를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 7은 오디토리 마스킹 모델을 사용하여 본 발명의 엔코딩 방법의 실시예를 수행하기 위한 시스템의 블록도이다.
도 8a 및 도 8b은 예시적 프로세스 흐름을 도시한다.
도 9는 컴퓨터 혹은 계산 디바이스 본원에 기술된 바와 같이 이 구현될 수 있는 예시적 하드웨어 플랫폼을 도시한다.
Claims (34)
- 일부 신호 조건 하에서 파라미터-코딩된 스피치 인핸스 및 그외 다른 신호 조건 하에서 파형-코딩된 스피치 인핸스를 채용하는 하이브리드 스피치 인핸스를 위한 방법에 있어서,
기준 오디오 채널 표현의 복수의 오디오 채널들에 걸쳐 분산된, 상기 기준 오디오 채널 표현의 믹스된 오디오 콘텐트를 수신하는 단계로서, 상기 믹스된 오디오 콘텐트는 스피치 콘텐트와 비-스피치 오디오 콘텐트와의 믹스를 갖는 것인, 단계;
상기 기준 오디오 채널 표현의 상기 복수의 오디오 채널들 내 2 이상의 비-미드/사이드(비-M/S) 채널들에 걸쳐 분산되는 상기 믹스된 오디오 콘텐트의 하나 이상의 부분들을, M/S 오디오 채널 표현의 하나 이상의 채널에 걸쳐 분산되는 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환하는 단계로서, 상기 M/S 오디오 채널 표현은 적어도 미드-채널 및 사이드-채널을 포함하고, 상기 미드-채널은 상기 기준 오디오 채널 표현의 두 채널들의 가중된 혹은 비-가중된 합을 나타내며, 상기 사이드-채널은 상기 기준 오디오 채널 표현의 두 채널들의 가중된 혹은 비-가중된 차이를 나타내는 것인, 단계;
상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 하이브리드 스피치 인핸스를 위한 메타데이터를 결정하는 단계로서, 상기 하이브리드 스피치 인핸스는 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전에 기초하는 제1 유형의 스피치 인핸스, 및 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초하는 제2 유형의 스피치 인핸스를 포함하는, 단계; 및
상기 믹스된 오디오 콘텐트, 및 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 인핸스를 위한 상기 메타데이터를 포함하는 오디오 신호를 발생하는 단계를 포함하고,
상기 방법은 하나 이상의 계산 디바이스들에 의해 수행되는, 방법. - 제1항에 있어서, 상기 믹스된 오디오 콘텐트는 비-M/S 오디오 채널 표현에서 있는 것인, 방법.
- 제1항에 있어서,
상기 믹스된 오디오 콘텐트와는 별도의, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 발생하는 단계; 및
상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전과 함께 엔코딩된 상기 오디오 신호를 출력하는 단계를 더 포함하는, 방법. - 제3항에 있어서,
수신측 오디오 디코더에 의해 발생될 제1 및 제2 유형의 스피치 인핸스의 특정한 정량적 조합을 나타내는 블렌드 표시 데이터를 발생하는 단계로서, 상기 제1 유형의 스피치 인핸스는 파형-코딩된 스피치 인핸스이고, 상기 제2 유형의 스피치 인핸스는 파라미터 스피치 인핸스인, 단계; 및
상기 블렌드 표시 데이터와 함께 엔코딩된 상기 오디오 신호를 출력하는 단계를 더 포함하는, 방법. - 제4항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 적어도 일부는 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 재구축된 버전을 수신측 오디오 디코더가 상기 기준 오디오 채널 표현의 상기 믹스된 오디오 콘텐트로부터 재구축할 수 있게 하는 것인, 방법.
- 제4항에 있어서, 상기 블렌드 표시 데이터는 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 적어도 부분적으로 하나 이상의 신호-대-노이즈 비(SNR) 값들에 기초하여 발생되고, 상기 하나 이상의 신호-대-노이즈 비(SNR) 값들은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 비-스피치 오디오 콘텐트의 파워의 비들의 하나 이상, 혹은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 총 오디오 콘텐트의 파워의 비들을 나타내는, 방법.
- 제4항에 있어서, 상기 제1 및 제2 유형의 스피치 인핸스의 상기 특정의 정량적 조합은 출력된 스피치-인핸스된 오디오 프로그램 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 상기 제1 및 제2 유형의 스피치 인핸스의 복수의 조합들에서 가장 큰 상대적 량의 스피치 인핸스를 나타내는 오디토리 마스킹 모델로 결정되는, 방법.
- 제1항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 적어도 한 부분은 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 수신측 오디오 디코더가 상기 기준 오디오 채널 표현의 상기 믹스된 오디오 콘텐트로부터 재구축할 수 있게 하는 것인, 방법.
- 제1항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 스피치 콘텐트의 버전에 기초한 상기 M/S 오디오 채널 표현에서 하이브리드 스피치 인핸스 동작들, 혹은 상기 M/S 오디오 채널 표현에서 파라미터 스피치 인핸스 동작들의 하나 이상에 관계된 메타데이터를 포함하는, 방법.
- 제1항에 있어서, 상기 기준 오디오 채널 표현은 서라운드 스피커들에 관계된 오디오 채널들을 포함하는, 방법.
- 제1항에 있어서, 상기 기준 오디오 채널 표현의 상기 2 이상의 비-미드/사이드(비-M/S) 채널들은 센터 채널, 좌측 채널, 혹은 우측 채널의 2 혹은 그 이상을 포함하고; 상기 M/S 오디오 채널 표현의 상기 하나 이상의 M/S 채널들은 미드-채널 혹은 사이드-채널의 하나 이상을 포함하는, 방법.
- 제1항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 M/S 오디오 채널 표현의 미드-채널에 관계된 한 단일 세트의 스피치 인핸스 메타데이터를 포함하는, 방법.
- 제1항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 오디오 신호 내 엔코딩된 전체 오디오 메타데이터의 일부를 나타내는, 방법.
- 제1항에 있어서, 상기 오디오 신호 내 엔코딩된 오디오 메타데이터는 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 존재를 나타내기 위한 데이터 필드를 포함하는, 방법.
- 제1항에 있어서, 상기 오디오 신호는 오디오비주얼 신호의 부분인, 방법.
- 일부 신호 조건 하에서 파라미터-코딩된 스피치 인핸스 및 그외 다른 신호 조건 하에서 파형-코딩된 스피치 인핸스를 채용하는 하이브리드 스피치 인핸스를 위한 방법에 있어서,
기준 오디오 채널 표현의 믹스된 오디오 콘텐트 및 하이브리드 스피치 인핸스를 위한 메타데이터를 포함하는 오디오 신호를 수신하는 단계로서, 상기 믹스된 오디오 콘텐트는 스피치 콘텐트와 비-스피치 오디오 콘텐트와의 믹스를 갖는 것인, 단계;
상기 기준 오디오 채널 표현의 복수의 오디오 채널들 내 2 혹은 그 이상의 비-M/S 채널들에 걸쳐 분포된 상기 믹스된 오디오 콘텐트의 하나 이상의 부분들을, M/S 오디오 채널 표현의 하나 이상의 M/S 채널들에 걸쳐 분포된 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환하는 단계로서, 상기 M/S 오디오 채널 표현은 적어도 미드-채널 및 사이드-채널을 포함하고, 상기 미드-채널은 상기 기준 오디오 채널 표현의 두 채널들의 가중된 혹은 비-가중된 합을 나타내며, 상기 사이드-채널은 상기 기준 오디오 채널 표현의 두 채널들의 가중된 혹은 비-가중된 차이를 나타내는 것인, 단계;
상기 M/S 오디오 채널 표현의 인핸스된 스피치 콘텐트의 하나 이상의 부분들을 발생하기 위해, 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에, 상기 하이브리드 스피치 인핸스를 위한 메타데이터에 기초하여, 하나 이상의 하이브리드 스피치 인핸스 동작들을 수행하는 단계로서, 상기 하이브리드 스피치 인핸스는 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전에 기초하는 제1 유형의 스피치 인핸스, 및 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초하는 제2 유형의 스피치 인핸스를 포함하는, 단계; 및
상기 M/S 오디오 채널 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 발생하기 위해, 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트 의 상기 하나 이상의 부분들을 상기 M/S 오디오 채널 표현의 인핸스된 스피치 콘텐트의 상기 하나 이상과 조합하는 단계를 포함하고,
상기 방법은 하나 이상의 계산 디바이스들에 의해 수행되는, 방법. - 제16항에 있어서, 상기 변환, 수행 및 조합하는 단계들은 상기 기준 오디오 채널 표현의 복수의 오디오 채널들 내 2 혹은 그 이상의 비-M/S 채널들에 걸쳐 분포하는 상기 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 수행되는 단일의 동작으로 구현되는, 방법.
- 제16항에 있어서, 상기 M/S 오디오 채널 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들을 상기 기준 오디오 채널 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 역으로 변환하는 단계를 더 포함하는, 방법.
- 제16항에 있어서, 상기 오디오 신호로부터 상기 믹스된 오디오 콘텐트와는 별도의, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 추출하는 단계; 및
상기 M/S 오디오 채널 표현의 인핸스된 스피치 콘텐트의 하나 이상의 제2 부분들을 발생하기 위해서, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전의 하나 이상의 부분들에, 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 적어도 부분에 기초하여, 하나 이상의 하이브리드 스피치 인핸스 동작들을 수행하는 단계를 더 포함하는, 방법. - 제19항에 있어서,
상기 하이브리드 스피치 인핸스에 대한 블렌드 표시 데이터를 결정하는 단계; 및
두 유형의 스피치 인핸스의 특정한 정량적 조합을, 하이브리드 스피치 인핸스를 위한 상기 블렌드 표시 데이터에 기초하여 발생하는 단계로서, 상기 제1 유형의 스피치 인핸스는 파형-코딩된 스피치 인핸스이고, 상기 제2 유형의 스피치 인핸스는 파라미터 스피치 인핸스인, 단계를 더 포함하는, 방법. - 제20항에 있어서, 상기 블렌드 표시 데이터는 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 적어도 부분적으로 하나 이상의 신호-대-노이즈 비(SNR) 값들에 기초하여, 상기 오디오 신호를 발생하는 상류측 오디오 엔코더 혹은 상기 오디오 신호를 수신하는 수신측 오디오 디코더 중 하나에 의해, 발생되고, 상기 하나 이상의 신호-대-노이즈 비(SNR) 값들은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 비-스피치 오디오 콘텐트의 파워의 비들, 혹은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트 혹은 기준 오디오 채널 표현의 믹스된 오디오 콘텐트 중 하나의 상기 하나 이상의 부분들의 스피치 콘텐트와 총 오디오 콘텐트의 파워의 비들의 하나 이상을 나타내는, 방법.
- 제20항에 있어서, 상기 두 유형의 스피치 인핸스의 상기 특정의 정량적 조합은, 상기 오디오 신호를 발생하는 상류측 오디오 엔코더 혹은 상기 오디오 신호를 수신하는 수신측 오디오 디코더 중 하나에 의해 구축되는 것으로서, 출력된 스피치-인핸스된 오디오 프로그램 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 상기 제1 및 제2 유형의 스피치 인핸스의 복수의 조합들에서 가장 큰 상대적 량의 스피치 인핸스를 나타내는 오디토리 마스킹 모델로 결정되는, 방법.
- 제16항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 적어도 부분은 상기 기준 오디오 채널 표현의 상기 믹스된 오디오 콘텐트로부터 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 수신측 오디오 디코더가 재구축할 수 있게 하는 것인, 방법.
- 제16항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 스피치 콘텐트의 버전에 기초한 상기 M/S 오디오 채널 표현에서 하이브리드 스피치 인핸스 동작들, 혹은 상기 M/S 오디오 채널 표현에서 파라미터 스피치 인핸스 동작들의 하나 이상에 관계된 메타데이터를 포함하는, 방법.
- 제16항에 있어서, 상기 기준 오디오 채널 표현은 서라운드 스피커들에 관계된 오디오 채널들을 포함하는, 방법.
- 제16항에 있어서, 상기 기준 오디오 채널 표현의 상기 2 혹은 그 이상의 비-M/S 채널들은 센터 채널, 좌측 채널, 혹은 우측 채널의 하나 이상을 포함하고; 상기 M/S 오디오 채널 표현의 상기 하나 이상의 M/S 채널들은 미드-채널 혹은 사이드-채널의 하나 이상을 포함하는, 방법.
- 제16항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 M/S 오디오 채널 표현의 미드-채널에 관계된 한 단일 세트의 스피치 인핸스 메타데이터를 포함하는, 방법.
- 제16항에 있어서, 상기 하이브리드 스피치 인핸스를 위한 메타데이터는 상기 오디오 신호 내 엔코딩된 전체 오디오 메타데이터의 부분을 나타내는, 방법.
- 제16항에 있어서, 상기 오디오 신호 내 엔코딩된 오디오 메타데이터는 상기 하이브리드 스피치 인핸스를 위한 메타데이터의 존재를 나타내기 위한 데이터 필드를 포함하는, 방법.
- 제16항에 있어서, 상기 오디오 신호는 오디오비주얼 신호의 부분인, 방법.
- 일부 신호 조건 하에서 파라미터-코딩된 스피치 인핸스 및 그외 다른 신호 조건 하에서 파형-코딩된 스피치 인핸스를 채용하는 하이브리드 스피치 인핸스를 위한 매체 처리 시스템에 있어서,
제1항 내지 제30항 중 어느 한 항에 기재된 상기 방법을 수행하게 구성된, 매체 처리 시스템. - 일부 신호 조건 하에서 파라미터-코딩된 스피치 인핸스 및 그외 다른 신호 조건 하에서 파형-코딩된 스피치 인핸스를 채용하는 하이브리드 스피치 인핸스를 위한 장치에 있어서,
프로세서를 포함하고 제1항 내지 제30항 중 어느 한 항에 기재된 상기 방법을 수행하게 구성된, 장치. - 하나 이상의 프로세서들에 의해 실행되었을 때 제1항 내지 제30항 중 어느 한 항에 기재된 상기 방법을 수행하게 하는, 소프트웨어 명령들을 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.
- 삭제
Applications Claiming Priority (7)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201361870933P | 2013-08-28 | 2013-08-28 | |
| US61/870,933 | 2013-08-28 | ||
| US201361895959P | 2013-10-25 | 2013-10-25 | |
| US61/895,959 | 2013-10-25 | ||
| US201361908664P | 2013-11-25 | 2013-11-25 | |
| US61/908,664 | 2013-11-25 | ||
| PCT/US2014/052962 WO2015031505A1 (en) | 2013-08-28 | 2014-08-27 | Hybrid waveform-coded and parametric-coded speech enhancement |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20160037219A KR20160037219A (ko) | 2016-04-05 |
| KR101790641B1 true KR101790641B1 (ko) | 2017-10-26 |
Family
ID=51535558
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020167005223A Active KR101790641B1 (ko) | 2013-08-28 | 2014-08-27 | 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 |
Country Status (9)
| Country | Link |
|---|---|
| US (2) | US10141004B2 (ko) |
| EP (2) | EP3039675B1 (ko) |
| JP (1) | JP6001814B1 (ko) |
| KR (1) | KR101790641B1 (ko) |
| CN (2) | CN110890101B (ko) |
| BR (2) | BR122020017207B1 (ko) |
| ES (1) | ES2700246T3 (ko) |
| RU (1) | RU2639952C2 (ko) |
| WO (1) | WO2015031505A1 (ko) |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2979948C (en) | 2012-10-05 | 2019-10-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | An apparatus for encoding a speech signal employing acelp in the autocorrelation domain |
| TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
| ES2709117T3 (es) | 2014-10-01 | 2019-04-15 | Dolby Int Ab | Codificador y decodificador de audio |
| EP4510625A3 (en) | 2016-01-29 | 2025-05-07 | Dolby Laboratories Licensing Corporation | Binaural dialoague enhancement |
| US10535360B1 (en) * | 2017-05-25 | 2020-01-14 | Tp Lab, Inc. | Phone stand using a plurality of directional speakers |
| GB2563635A (en) | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
| USD882547S1 (en) | 2017-12-27 | 2020-04-28 | Yandex Europe Ag | Speaker device |
| RU2707149C2 (ru) * | 2017-12-27 | 2019-11-22 | Общество С Ограниченной Ответственностью "Яндекс" | Устройство и способ модифицирования вывода аудиосигнала устройства |
| CN110060696B (zh) * | 2018-01-19 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 混音方法及装置、终端及可读存储介质 |
| CN112470219B (zh) * | 2018-07-25 | 2024-08-02 | 杜比实验室特许公司 | 压缩机目标曲线以避免增强噪声 |
| US10547927B1 (en) * | 2018-07-27 | 2020-01-28 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices |
| CN112639968B (zh) * | 2018-08-30 | 2024-10-01 | 杜比国际公司 | 用于控制对经低比特率编码的音频的增强的方法和装置 |
| JP7051749B2 (ja) * | 2019-06-03 | 2022-04-11 | 株式会社東芝 | 信号処理装置、信号処理システム、信号処理方法、およびプログラム |
| USD947152S1 (en) | 2019-09-10 | 2022-03-29 | Yandex Europe Ag | Speaker device |
| US20230105632A1 (en) * | 2020-04-01 | 2023-04-06 | Sony Group Corporation | Signal processing apparatus and method, and program |
| US20220270626A1 (en) * | 2021-02-22 | 2022-08-25 | Tencent America LLC | Method and apparatus in audio processing |
| GB2619731A (en) * | 2022-06-14 | 2023-12-20 | Nokia Technologies Oy | Speech enhancement |
| US20250038833A1 (en) * | 2023-07-28 | 2025-01-30 | Hughes Network Systems, Llc | Multi-band hybrid satellite communication systems and methods |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20100106507A1 (en) * | 2007-02-12 | 2010-04-29 | Dolby Laboratories Licensing Corporation | Ratio of Speech to Non-Speech Audio such as for Elderly or Hearing-Impaired Listeners |
| US20100121634A1 (en) | 2007-02-26 | 2010-05-13 | Dolby Laboratories Licensing Corporation | Speech Enhancement in Entertainment Audio |
Family Cites Families (152)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
| US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
| US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
| US20050065786A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
| US7415120B1 (en) * | 1998-04-14 | 2008-08-19 | Akiba Electronics Institute Llc | User adjustable volume control that accommodates hearing |
| EP2009785B1 (en) * | 1998-04-14 | 2010-09-15 | Hearing Enhancement Company, Llc. | Method and apparatus for providing end user adjustment capability that accommodates hearing impaired and non-hearing impaired listener preferences |
| US6928169B1 (en) * | 1998-12-24 | 2005-08-09 | Bose Corporation | Audio signal processing |
| US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
| AR024353A1 (es) * | 1999-06-15 | 2002-10-02 | He Chunhong | Audifono y equipo auxiliar interactivo con relacion de voz a audio remanente |
| US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
| US7139700B1 (en) * | 1999-09-22 | 2006-11-21 | Texas Instruments Incorporated | Hybrid speech coding and system |
| US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
| US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
| JP2001245237A (ja) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | 放送受信装置 |
| US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
| US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
| US7010482B2 (en) * | 2000-03-17 | 2006-03-07 | The Regents Of The University Of California | REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding |
| US20040096065A1 (en) * | 2000-05-26 | 2004-05-20 | Vaudrey Michael A. | Voice-to-remaining audio (VRA) interactive center channel downmix |
| US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
| US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
| US7386444B2 (en) * | 2000-09-22 | 2008-06-10 | Texas Instruments Incorporated | Hybrid speech coding and system |
| US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
| FI114770B (fi) * | 2001-05-21 | 2004-12-15 | Nokia Corp | Matkaviestimen äänidatan kontrollointi solukkojärjestelmässä |
| KR100400226B1 (ko) * | 2001-10-15 | 2003-10-01 | 삼성전자주식회사 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
| US7158572B2 (en) * | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
| US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
| US20050228648A1 (en) * | 2002-04-22 | 2005-10-13 | Ari Heikkinen | Method and device for obtaining parameters for parametric speech coding of frames |
| JP2003323199A (ja) * | 2002-04-26 | 2003-11-14 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置及び符号化方法、復号化方法 |
| US7231344B2 (en) * | 2002-10-29 | 2007-06-12 | Ntt Docomo, Inc. | Method and apparatus for gradient-descent based window optimization for linear prediction analysis |
| US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
| KR100480341B1 (ko) * | 2003-03-13 | 2005-03-31 | 한국전자통신연구원 | 광대역 저전송률 음성 신호의 부호화기 |
| US7251337B2 (en) * | 2003-04-24 | 2007-07-31 | Dolby Laboratories Licensing Corporation | Volume control in movie theaters |
| US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
| CA2475282A1 (en) * | 2003-07-17 | 2005-01-17 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre | Volume hologram |
| JP2004004952A (ja) * | 2003-07-30 | 2004-01-08 | Matsushita Electric Ind Co Ltd | 音声合成装置および音声合成方法 |
| DE10344638A1 (de) * | 2003-08-04 | 2005-03-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene |
| EP1661124A4 (en) * | 2003-09-05 | 2008-08-13 | Stephen D Grody | PROCESSES AND DEVICES FOR PROVIDING SERVICES THROUGH THE USE OF LANGUAGE IDENTIFICATION |
| US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
| US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
| US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
| DK1706866T3 (da) * | 2004-01-20 | 2008-06-09 | Dolby Lab Licensing Corp | Audiokodning på basis af blokgruppering |
| GB0410321D0 (en) * | 2004-05-08 | 2004-06-09 | Univ Surrey | Data transmission |
| US20050256702A1 (en) * | 2004-05-13 | 2005-11-17 | Ittiam Systems (P) Ltd. | Algebraic codebook search implementation on processors with multiple data paths |
| SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
| WO2006075269A1 (en) * | 2005-01-11 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Scalable encoding/decoding of audio signals |
| US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
| US8874437B2 (en) * | 2005-03-28 | 2014-10-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal for voice quality enhancement |
| US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
| US20060217969A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for echo suppression |
| US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
| US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
| US20060217971A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
| US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
| US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
| AU2006232362B2 (en) * | 2005-04-01 | 2009-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for highband time warping |
| CN101199003B (zh) * | 2005-04-22 | 2012-01-11 | 高通股份有限公司 | 用于增益因数衰减的系统、方法和设备 |
| FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
| KR101295729B1 (ko) * | 2005-07-22 | 2013-08-12 | 프랑스 텔레콤 | 비트 레이트규모 가변적 및 대역폭규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법 |
| US7853539B2 (en) * | 2005-09-28 | 2010-12-14 | Honda Motor Co., Ltd. | Discriminating speech and non-speech with regularized least squares |
| GB2432765B (en) * | 2005-11-26 | 2008-04-30 | Wolfson Microelectronics Plc | Audio device |
| US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
| US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
| WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
| EP1989706B1 (fr) * | 2006-02-14 | 2011-10-26 | France Telecom | Dispositif de ponderation perceptuelle en codage/decodage audio |
| MX2008010836A (es) * | 2006-02-24 | 2008-11-26 | France Telecom | Un metodo para codificacion binaria de indices de cuantificacion de una envoltura de señal, un metodo para descodificar una envoltura de señal, y modulos de codificacion y descodificacion correspondiente. |
| WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
| EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
| US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
| US7606716B2 (en) * | 2006-07-07 | 2009-10-20 | Srs Labs, Inc. | Systems and methods for multi-dialog surround audio |
| CN101518103B (zh) * | 2006-09-14 | 2016-03-23 | 皇家飞利浦电子股份有限公司 | 多通道信号的甜点操纵 |
| PL2068307T3 (pl) * | 2006-10-16 | 2012-07-31 | Dolby Int Ab | Udoskonalony sposób kodowania i odtwarzania parametrów w wielokanałowym kodowaniu obiektów poddanych procesowi downmiksu |
| JP4569618B2 (ja) * | 2006-11-10 | 2010-10-27 | ソニー株式会社 | エコーキャンセラ及び通話音声処理装置 |
| DE102007017254B4 (de) * | 2006-11-16 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum Kodieren und Dekodieren |
| US20090210239A1 (en) * | 2006-11-24 | 2009-08-20 | Lg Electronics Inc. | Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof |
| US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
| US7853450B2 (en) * | 2007-03-30 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Digital voice enhancement |
| US9191740B2 (en) * | 2007-05-04 | 2015-11-17 | Personics Holdings, Llc | Method and apparatus for in-ear canal sound suppression |
| JP2008283385A (ja) * | 2007-05-09 | 2008-11-20 | Toshiba Corp | 雑音抑制装置 |
| JP2008301427A (ja) * | 2007-06-04 | 2008-12-11 | Onkyo Corp | マルチチャンネル音声再生装置 |
| JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
| US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
| US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
| WO2009035615A1 (en) * | 2007-09-12 | 2009-03-19 | Dolby Laboratories Licensing Corporation | Speech enhancement |
| DE102007048973B4 (de) | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
| US20110026581A1 (en) * | 2007-10-16 | 2011-02-03 | Nokia Corporation | Scalable Coding with Partial Eror Protection |
| DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
| TWI351683B (en) * | 2008-01-16 | 2011-11-01 | Mstar Semiconductor Inc | Speech enhancement device and method for the same |
| JP5058844B2 (ja) * | 2008-02-18 | 2012-10-24 | シャープ株式会社 | 音声信号変換装置、音声信号変換方法、制御プログラム、および、コンピュータ読み取り可能な記録媒体 |
| PL2250641T3 (pl) * | 2008-03-04 | 2012-03-30 | Fraunhofer Ges Forschung | Urządzenie do miksowania wielu wejściowych strumieni danych |
| ES2898865T3 (es) * | 2008-03-20 | 2022-03-09 | Fraunhofer Ges Forschung | Aparato y método para sintetizar una representación parametrizada de una señal de audio |
| RU2541183C2 (ru) * | 2008-04-18 | 2015-02-10 | Долби Лэборетериз Лайсенсинг Корпорейшн | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания |
| JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
| WO2009151578A2 (en) * | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
| KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
| KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
| WO2010013946A2 (en) * | 2008-07-29 | 2010-02-04 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
| EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
| CN102265647B (zh) * | 2008-12-22 | 2015-05-20 | 皇家飞利浦电子股份有限公司 | 通过发送效果处理生成输出信号 |
| US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
| CN105225667B (zh) * | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
| CN102414743A (zh) * | 2009-04-21 | 2012-04-11 | 皇家飞利浦电子股份有限公司 | 音频信号合成 |
| MY154078A (en) * | 2009-06-24 | 2015-04-30 | Fraunhofer Ges Forschung | Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages |
| JP4621792B2 (ja) * | 2009-06-30 | 2011-01-26 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
| US20110046957A1 (en) * | 2009-08-24 | 2011-02-24 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
| US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
| TWI433137B (zh) * | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
| US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
| EP2360681A1 (en) * | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
| US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
| US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
| TWI459828B (zh) * | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
| EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
| JP5813094B2 (ja) * | 2010-04-09 | 2015-11-17 | ドルビー・インターナショナル・アーベー | Mdctベース複素予測ステレオ符号化 |
| EP4404561A3 (en) * | 2010-04-13 | 2024-08-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoding method for processing stereo audio signals using a variable prediction direction |
| EP2559032B1 (en) * | 2010-04-16 | 2019-01-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension |
| WO2011135411A1 (en) * | 2010-04-30 | 2011-11-03 | Indian Institute Of Science | Improved speech enhancement |
| US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
| KR102492622B1 (ko) * | 2010-07-02 | 2023-01-30 | 돌비 인터네셔널 에이비 | 선택적인 베이스 포스트 필터 |
| JP4837123B1 (ja) * | 2010-07-28 | 2011-12-14 | 株式会社東芝 | 音質制御装置及び音質制御方法 |
| TWI516138B (zh) * | 2010-08-24 | 2016-01-01 | 杜比國際公司 | 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品 |
| US9237400B2 (en) * | 2010-08-24 | 2016-01-12 | Dolby International Ab | Concealment of intermittent mono reception of FM stereo radio receivers |
| BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
| BR112013005683A2 (pt) * | 2010-09-10 | 2018-01-23 | Panasonic Corp | aparelho codificador e método de codificação |
| SG191025A1 (en) * | 2010-12-08 | 2013-07-31 | Widex As | Hearing aid and a method of improved audio reproduction |
| TR201815799T4 (tr) * | 2011-01-05 | 2018-11-21 | Anheuser Busch Inbev Sa | Bir audio sistemi ve onun operasyonunun yöntemi. |
| US20120300960A1 (en) * | 2011-05-27 | 2012-11-29 | Graeme Gordon Mackay | Digital signal routing circuit |
| CN105792086B (zh) * | 2011-07-01 | 2019-02-15 | 杜比实验室特许公司 | 用于自适应音频信号产生、编码和呈现的系统和方法 |
| EP2544465A1 (en) * | 2011-07-05 | 2013-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator |
| UA107771C2 (en) * | 2011-09-29 | 2015-02-10 | Dolby Int Ab | Prediction-based fm stereo radio noise reduction |
| JPWO2013061584A1 (ja) * | 2011-10-28 | 2015-04-02 | パナソニック株式会社 | 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法 |
| JP6096789B2 (ja) * | 2011-11-01 | 2017-03-15 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | オーディオオブジェクトのエンコーディング及びデコーディング |
| US8913754B2 (en) * | 2011-11-30 | 2014-12-16 | Sound Enhancement Technology, Llc | System for dynamic spectral correction of audio signals to compensate for ambient noise |
| US9263040B2 (en) * | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
| US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
| US9934780B2 (en) * | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
| CN104054126B (zh) * | 2012-01-19 | 2017-03-29 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
| CN103493128B (zh) * | 2012-02-14 | 2015-05-27 | 华为技术有限公司 | 用于执行多信道音频信号的适应性下混和上混的方法及设备 |
| US20130211846A1 (en) * | 2012-02-14 | 2013-08-15 | Motorola Mobility, Inc. | All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec |
| JP6126006B2 (ja) * | 2012-05-11 | 2017-05-10 | パナソニック株式会社 | 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 |
| EP2864911A1 (en) | 2012-06-22 | 2015-04-29 | Université Pierre et Marie Curie (Paris 6) | Method for automated assistance to design nonlinear analog circuit with transient solver |
| US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
| US9094742B2 (en) * | 2012-07-24 | 2015-07-28 | Fox Filmed Entertainment | Event drivable N X M programmably interconnecting sound mixing device and method for use thereof |
| US9031836B2 (en) * | 2012-08-08 | 2015-05-12 | Avaya Inc. | Method and apparatus for automatic communications system intelligibility testing and optimization |
| US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
| US8824710B2 (en) * | 2012-10-12 | 2014-09-02 | Cochlear Limited | Automated sound processor |
| WO2014062859A1 (en) * | 2012-10-16 | 2014-04-24 | Audiologicall, Ltd. | Audio signal manipulation for speech enhancement before sound reproduction |
| US9344826B2 (en) * | 2013-03-04 | 2016-05-17 | Nokia Technologies Oy | Method and apparatus for communicating with audio signals having corresponding spatial characteristics |
| RU2665214C1 (ru) * | 2013-04-05 | 2018-08-28 | Долби Интернэшнл Аб | Стереофонический кодер и декодер аудиосигналов |
| EP3382699B1 (en) * | 2013-04-05 | 2020-06-17 | Dolby International AB | Audio encoder and decoder for interleaved waveform coding |
| EP2830054A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| EP2882203A1 (en) * | 2013-12-06 | 2015-06-10 | Oticon A/s | Hearing aid device for hands free communication |
| US9293143B2 (en) * | 2013-12-11 | 2016-03-22 | Qualcomm Incorporated | Bandwidth extension mode selection |
-
2014
- 2014-08-27 JP JP2016515937A patent/JP6001814B1/ja active Active
- 2014-08-27 KR KR1020167005223A patent/KR101790641B1/ko active Active
- 2014-08-27 US US14/914,572 patent/US10141004B2/en active Active
- 2014-08-27 ES ES14762180T patent/ES2700246T3/es active Active
- 2014-08-27 EP EP14762180.9A patent/EP3039675B1/en active Active
- 2014-08-27 RU RU2016106975A patent/RU2639952C2/ru active
- 2014-08-27 CN CN201911328515.3A patent/CN110890101B/zh active Active
- 2014-08-27 CN CN201480048109.0A patent/CN105493182B/zh active Active
- 2014-08-27 WO PCT/US2014/052962 patent/WO2015031505A1/en not_active Ceased
- 2014-08-27 BR BR122020017207-0A patent/BR122020017207B1/pt active IP Right Grant
- 2014-08-27 EP EP18197853.7A patent/EP3503095A1/en not_active Ceased
- 2014-08-27 BR BR112016004299-9A patent/BR112016004299B1/pt active IP Right Grant
-
2018
- 2018-10-22 US US16/167,373 patent/US10607629B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20100106507A1 (en) * | 2007-02-12 | 2010-04-29 | Dolby Laboratories Licensing Corporation | Ratio of Speech to Non-Speech Audio such as for Elderly or Hearing-Impaired Listeners |
| US20100121634A1 (en) | 2007-02-26 | 2010-05-13 | Dolby Laboratories Licensing Corporation | Speech Enhancement in Entertainment Audio |
Non-Patent Citations (2)
| Title |
|---|
| Charles Q Robinson, et al. Dynamic Range Control via Metadata. Audio Engineering Society Convention 107. Audio Engineering Society, 1999. |
| Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997, Vol.45. No.10, pp.789-814.* |
Also Published As
| Publication number | Publication date |
|---|---|
| BR122020017207B1 (pt) | 2022-12-06 |
| EP3039675B1 (en) | 2018-10-03 |
| US10607629B2 (en) | 2020-03-31 |
| BR112016004299A2 (ko) | 2017-08-01 |
| US20160225387A1 (en) | 2016-08-04 |
| JP2016534377A (ja) | 2016-11-04 |
| BR112016004299B1 (pt) | 2022-05-17 |
| KR20160037219A (ko) | 2016-04-05 |
| CN105493182B (zh) | 2020-01-21 |
| CN110890101A (zh) | 2020-03-17 |
| ES2700246T3 (es) | 2019-02-14 |
| EP3503095A1 (en) | 2019-06-26 |
| CN110890101B (zh) | 2024-01-12 |
| WO2015031505A1 (en) | 2015-03-05 |
| HK1222470A1 (zh) | 2017-06-30 |
| EP3039675A1 (en) | 2016-07-06 |
| RU2016106975A (ru) | 2017-08-29 |
| JP6001814B1 (ja) | 2016-10-05 |
| RU2639952C2 (ru) | 2017-12-25 |
| US10141004B2 (en) | 2018-11-27 |
| US20190057713A1 (en) | 2019-02-21 |
| CN105493182A (zh) | 2016-04-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101790641B1 (ko) | 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 | |
| EP1738356B1 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
| EP2898509B1 (en) | Audio coding with gain profile extraction and transmission for speech enhancement at the decoder | |
| JP4664431B2 (ja) | アンビエンス信号を生成するための装置および方法 | |
| KR101426625B1 (ko) | 평균값을 이용하여 다운믹스 신호 표현 및 이 다운믹스 신호 표현과 관련된 파라메트릭 보조 정보에 기초한 업믹스 신호 표현을 제공하기 위해 하나 이상의 조정된 파라미터를 제공하는 장치, 방법 및 컴퓨터 프로그램 | |
| WO2020008112A1 (en) | Energy-ratio signalling and synthesis | |
| CN112823534A (zh) | 信号处理设备和方法以及程序 | |
| HK1222470B (zh) | 混合波形编码和参数编码语音增强 | |
| RU2782511C1 (ru) | Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент | |
| TW202508311A (zh) | 基於場景之音訊單聲道解碼之方法、裝置及系統 | |
| HK1095195B (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0105 | International application |
Patent event date: 20160226 Patent event code: PA01051R01D Comment text: International Patent Application |
|
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20160226 Comment text: Request for Examination of Application |
|
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20170206 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20170725 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20171020 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20171023 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20210927 Start annual number: 5 End annual number: 5 |
|
| PR1001 | Payment of annual fee |
Payment date: 20230921 Start annual number: 7 End annual number: 7 |
|
| PR1001 | Payment of annual fee |