TWI758855B - 基於使用高頻相位差的延遲分佈模型的聲音訊號處理系統及方法 - Google Patents
基於使用高頻相位差的延遲分佈模型的聲音訊號處理系統及方法 Download PDFInfo
- Publication number
- TWI758855B TWI758855B TW109130812A TW109130812A TWI758855B TW I758855 B TWI758855 B TW I758855B TW 109130812 A TW109130812 A TW 109130812A TW 109130812 A TW109130812 A TW 109130812A TW I758855 B TWI758855 B TW I758855B
- Authority
- TW
- Taiwan
- Prior art keywords
- delay
- signal
- sound
- module
- digital signal
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims description 51
- 230000001934 delay Effects 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims description 93
- 238000005315 distribution function Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 7
- 230000007480 spreading Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 claims 2
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 3
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/18—Methods or devices for transmitting, conducting or directing sound
- G10K11/26—Sound-focusing or directing, e.g. scanning
- G10K11/34—Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
- G10K11/341—Circuits therefor
- G10K11/346—Circuits therefor using phase variation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/82—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for adjusting phase or compensating for time-lag errors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/36—Devices for manipulating acoustic surface waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01Q—ANTENNAS, i.e. RADIO AERIALS
- H01Q3/00—Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system
- H01Q3/26—Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system varying the relative phase or relative amplitude of energisation between two or more active radiating elements; varying the distribution of energy across a radiating aperture
- H01Q3/2682—Time delay steered arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/02—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
- G01S3/14—Systems for determining direction or deviation from predetermined direction
- G01S3/46—Systems for determining direction or deviation from predetermined direction using antennas spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/48—Systems for determining direction or deviation from predetermined direction using antennas spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems the waves arriving at the antennas being continuous or intermittent and the phase difference of signals derived therefrom being measured
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本發明係提供一種聲音訊號處理系統,其包含輸入模組、相位差模組、延遲分佈模組,以及配置以基於延遲分佈進行最終延遲估計的延遲估計模組。最終延遲估計係施加以對兩個選定的通道中之一個進行對準,並組合兩個通道以獲得感興趣訊號。相位差模組係計算頻格的一定範圍的相位差。延遲估計模組考慮了從相位差得出的所有可能的延遲,包含±2π的倍數,其克服當兩個聲音感測器之間的間隔大於波長的一半時高頻格中的模糊。
Description
本發明係關於一種需要聲音定位的波束成形裝置、系統及方法。特別是,本發明的一些實施例係關於使用延遲分佈模型(delay distribution model)來估計對準訊號(aligning signal)以獲得感興趣訊號(signal of interest)。
波束成形係為一種用於聲音處理的技術,其中多感測器陣列(multi-sensor array)的一些通道係透過使用延遲與加總(delay-and-sum)技術來進行對準以獲得感興趣訊號。例如,圖1係繪示一種用於決定聲波源與感測器之間的距離的方法100。圖1係描繪由間隔「s」分隔的兩個聲音感測器Mi及Mj的示例性陣列,其接收來自點聲源(未示出)的聲波xi[n]及xj[n],每個波的路徑相對於兩個感測器之間的超線段(hyperline)係形成角度Φ。兩條路徑「d」之間的差會造成時間延遲dsecond,其係對應於取樣延遲dsample。於此,dseconds等於d/c,其中c係為聲速。
可期望兩個感測器之間的間隔足夠大到以獲得足夠不同的訊號。然而,當間隔大於一個頻率的一半波長時,相位差會產生模糊延遲(ambiguous delay)。在此情況下,可能無法明顯地判斷結果相位是領先(leading)、落後(trailing)
還是跳離(skipping)多個週期。習知的補救方法忽略了高頻格(frequency bins)的相位差,而僅依低頻格的相位差進行判斷。
發明人已認識到與習知方法相關的缺點。例如,感興趣訊號缺少低頻能量,例如,在人聲中的某些子音。另一方面,大多數環境噪音包含強烈的低頻能量,低頻能量傾向於破壞低頻相位差。另外,大多數聲音感測器在較低頻率下不具有一致性。
因此,期望有一種聲音定位方法,以利用具有大於半波長(larger-than-half-wavelength)間隔的感測器陣列中的高頻相位差。
本發明係提供一種聲音訊號處理系統,其包含輸入模組、相位差模組、延遲分佈模組,以及配置以基於延遲分佈進行最終延遲估計的延遲估計模組。最終延遲估計係施加以對兩個選定的通道中之一個進行對準,並組合兩個通道以獲得感興趣訊號。相位差模組係計算頻格的一定範圍的相位差。延遲估計模組考慮了從相位差得出的所有可能的延遲,包含±2π的倍數,以克服當兩個聲音感測器之間的間隔大於波長的一半時高頻格中的模糊。
根據本發明的一些實施例,聲音訊號處理系統係包含輸入模組,其配置以經由至少兩個聲音感測器接收至少兩個聲音訊號;將至少兩個聲音訊號轉換成至少兩個通道的類比訊號,且隨後轉換成至少兩個通道的數位訊號。聲音訊號處理系統還包含相位差模組相,其配置以將至少兩個通道的數位訊號轉換成至少兩個通道的頻率變換(frequency transform);且計算兩個選定的通道之間的相位差。各頻率變換係包含複數個複數(complex numbers)。各複數係對應於一頻格(frequency bin)。各相位差係界於(-π,π)或(-180度,180度)內。
聲音訊號處理系統還包含延遲分佈模組,對於各頻格,延遲分佈模組係配置以透過相加或減去2π或360度的倍數,從相位差中得出模糊延遲;將模糊延遲保持在有效延遲範圍內以作為候選延遲;且對於各候選延遲,添加以各候選延遲為中心的擴展函數以形成延遲分佈函數。根據至少兩個聲音感測器之間的最大聲音傳播時間延遲加上頂部空間來預定有效延遲範圍。聲音訊號處理系統還具有延遲估計模組,其配置以基於延遲分佈函數進行最終延遲估計;以及延遲與加總模組,其配置以根據最終延遲估計,對兩個選定的通道中之一個進行對準,以獲得感興趣訊號。
根據本發明的一些實施例,本發明係提供一種聲音訊號處理系統。聲音訊號處理系統係包含麥克風介面電路,其配置以分別耦合至第一聲音感測器及第二聲音感測器以從同一聲音訊號源接收第一聲音訊號及第二聲音訊號,且將第一聲音訊號及第二聲音訊號轉換成第一類比訊號及第二類比訊號。此系統還包含類比數位轉換器,其配置以分別接收第一類比訊號及第二類比訊號,且產生第一數位訊號及第二數位訊號。
此系統還包含訊號處理電路,其配置以接收第一數位訊號及第二數位訊號,且決定第一數位訊號與第二數位訊號之間的延遲。訊號處理電路係包含相位差模組,其配置以轉換第一數位訊號及第二數位訊號以提供第一頻域訊號及第二頻域訊號;且計算在複數個選定的頻率處的第一頻域訊號與第二頻域訊號之間的第一組相位差。各相位差係為在(-π,π)或(-180度,180度)內界定的數值。訊號處理電路還包含延遲分佈模組,其配置以透過對第一組相位差的每一組相加或減去2π或360度的倍數,得出第二組相位差;基於第一組相位差及第二組相位差,在複數個選定的頻率處得出複數個候選延遲時間;且決定複數
個候選延遲時間的直方圖。訊號處理電路還包含延遲估計模組,其配置以透過在複數個候選延遲時間的直方圖中選擇具有最大計數的延遲時間來決定估計延遲時間。
在上述之聲音訊號處理系統的一些實施例中,訊號處理電路還包含延遲與加總模組,其配置以根據估計延遲時間對第一數位訊號及第二數位訊號進行對準,以獲得感興趣訊號。在一些實施例中,對於各候選延遲,延遲分佈模組係進一步配置以將以各候選延遲為中心的擴展函數添加到延遲分佈函數。在一些實施例中,延遲分佈模組係進一步配置以將頻率依存加權函數施加於擴展函數。在一些實施例中,延遲分佈模組在決定估計延遲時間之前,係配置以使用能量依存時間適應方法(energy-dependent temporal adapting scheme)以平滑延遲分佈。在一些實施例中,相位差模組係配置以使用傅立葉變換來變換第一數位訊號及第二數位訊號以提供第一頻域訊號及第二頻域訊號。在一些實施例中,延遲分佈模組對於各頻格係進一步配置以在有效延遲範圍內選擇複數個候選延遲時間作為候選延遲。根據第一聲音感測器與第二聲音感測器之間的最大聲音傳播時間延遲加上頂部空間來預定有效延遲範圍。在一些實施例中,訊號處理電路係包含數位訊號處理器。在一些實施例中,第一聲音感測器及第二聲音感測器係以大於第一聲音訊號及第二聲音訊號的一半波長的間隔來設置。
本發明的一些實施例係提供一種透過使用兩個或更多個聲音感測器來感測聲音訊號的方法。此方法係包含透過使用第一聲音感測器及第二聲音感測器從聲音訊號源接收聲音訊號。第一聲音感測器係接收第一聲音訊號,且第二聲音感測器係接收第二聲音訊號。將第一聲音訊號及第二聲音訊號轉換
成第一數位訊號及第二數位訊號。接著,將第一數位訊號及第二數位訊號轉換成第一頻域訊號及第二頻域訊號。此方法係包含決定第一頻域訊號與第二頻域訊號之間的第一組相位差,第一組相位差係界於(-π,π)或(-180度,180度)內。接著,透過對第一組相位差的每一組相加或減去2π或360度的倍數,以決定第二組相位差。接著,基於第一組相位差及第二組相位差,在複數個頻率處決定第一頻域訊號與第二頻域訊號之間的複數個候選延遲時間。此方法還從複數個候選延遲時間中選擇估計延遲時間,估計延遲時間係與複數個頻率中的最大數量相關,估計延遲時間係與第一聲音感測器與第二聲音感測器之間的估計距離相關。
在上述方法的一些實施例中,進一步包含對第一數位訊號及第二數位訊號進行對準及加總以產生增強數位訊號。在一些實施例中,第一聲音感測器及第二聲音感測器係以大於第一聲音訊號及第二聲音訊號的一半波長的間隔來設置。
100,800,900:方法
1000:電腦系統
1010:螢幕
1020:電腦
1030:使用者輸出裝置
1040:使用者輸入裝置
1050:通訊介面
1060:處理器
1070:隨機存取記憶體
1080:磁碟機
1090:匯流排子系統
200:聲音訊號處理系統
201:聲音訊號源
210:輸入模組
211:麥克風介面電路
213:類比數位轉換器
220:相位差模組
230:延遲分佈模組
240:延遲估計模組
250:訊號處理電路
260:延遲與加總模組
270:感興趣訊號
310,320:數位訊號
401,402,403,404,405:曲線
410:線段
501,502,503,504,505:區域
610:實線
620:虛線
621:點
d:路徑
dsample:取樣延遲
dsecond:時間延遲
Mi,Mj:聲音感測器
Mic1,Mic2:麥克風
P[j]:延遲分佈函數
s:間隔
x(t):類比訊號
x[n]:數位訊號
x1,x2:聲音訊號
xi[n],xj[n]:聲波
θ[k]:相位差函數
Φ:角度
為了更完整地理解本揭露,請參考以下詳細描述及所附圖式,其中:圖1係繪示用於決定聲波源與感測器之間的距離的方法;圖2係為根據本發明的各種實施例的聲音訊號處理系統的簡化方塊圖;圖3係為根據本發明的各種實施例的兩通道16kHz訊號的例示性幀(exemplary frame)的波形的示意圖;圖4係為根據本發明的各種實施例的兩個選定的通道之間的相位差及其模糊的相位差的示意圖;
圖5係為根據本發明的各種實施例的由模糊的相位差得出的候選延遲的延遲散佈圖;圖6係為根據本發明的各種實施例的延遲分佈函數及延遲分佈函數的平滑版本的示意圖;圖7係繪示根據本發明的各種實施例的擴展函數;圖8係為根據本發明的各種實施例的用於決定延遲分佈累加的方法的流程圖;圖9係為根據本發明的各種實施例的使用兩個或多個聲音感測器感測聲音訊號的方法;以及圖10係為根據本發明的可用於實現各種實施例的裝置的簡化方塊圖。
圖2係為根據本發明的各種實施例的聲音訊號處理系統的簡化方塊圖。如圖2所示,聲音訊號處理系統200係包含輸入模組210及訊號處理電路250。在一些實施例中,訊號處理電路250可包含相位差模組220、延遲分佈模組230及延遲估計模組240。聲音訊號處理系統200還可包含延遲與加總模組260以獲得感興趣訊號270。
如圖2所繪示,輸入模組210係配置以經由至少兩個聲音感測器接收至少兩個聲音訊號;將至少兩個聲音訊號轉換成至少兩個通道的類比訊號,且隨後轉換成至少兩個通道的數位訊號。在圖2的實例中,輸入模組210可包含麥克風介面電路211及類比數位轉換器213。麥克風介面電路211係配置以分別耦合至例如為麥克風Mic1及Mic2的第一聲音感測器及第二聲音感測器,以從同一聲音訊號源201接收第一聲音訊號x1及第二聲音訊號x2。麥克風介面電路211還
將第一聲音訊號x1及第二聲音訊號x2分別轉換成第一類比訊號及第二類比訊號x(t)。輸入模組210還包含類比數位轉換器213,其配置以分別接收第一類比訊號及第二類比訊號x(t),且產生第一數位訊號及第二數位訊號x[n]。
圖3係為根據本發明的各種實施例的兩通道16kHz訊號的例示性幀的波形的示意圖。如一實例所示,數位訊號x[n]可以例如16kHz被取樣。圖3係表示第一數位訊號310的大約256個樣本及第二數位訊號320的大約256個樣本。在圖3中,橫軸係為取樣指標,而縱軸係為數位訊號的振幅。兩個訊號之間的差係由於以兩個不同的麥克風進行感測。如下所述,可在相位差模組220中分析相位差。
相位差模組220係配置以將至少兩個通道的數位訊號,例如x1[n]及x2[n],轉換(convert)成至少兩個通道X[k]的頻率變換(frequency transforms)的。頻率變換係為數位訊號的頻域表示方式。頻率變換的一個實例係為傅立葉變換。每個頻率變換可包含複數個複數(complex numbers),且每個複數對應於跨越93至7969Hz的頻格,例如253個格。相位差模組220還計算兩個選定的通道之間的相位差,且產生相位差函數θ[k]。各相位差係界於(-π,π)或(-180度,180度)內。
圖4係為根據本發明的各種實施例的兩個選定的通道之間的相位差及其模糊的相位差的示意圖。在圖4中,相位差θ[k]係相對於訊號頻率所繪製。縱軸係以π為單位的相位差θ[k],其範圍係為-5π到5π。橫軸係為頻格指標。例如,8KHz的頻率範圍可分為256個頻格。在圖4中,相位差曲線401係標記由[-π,π]侷限的原始相位差,亦即-π<θ[k]π。
再次參照圖2,延遲分佈模組230係配置以從原始相位差中得出模糊延遲。如上所述,當兩個感測器相距較遠時,感測到的訊號的相位差可為θ[k]±2π。算式θ[k]±2π係被稱為「模糊差(ambiguous differences)」或「模糊延遲(ambiguous delays)」,從中可辨識出實際延遲。延遲分佈模組230係透過對每個頻格相加或減去2π或360度的倍數,從原始相位差θ[k]得出模糊延遲。例如,在圖4中,相位差曲線402係標記一組由原始相位差θ[k]加上2π得出的模糊延遲,從而導致相位差在[π,3π]的範圍內。類似地,相位差曲線403係標記一組由原始相位差θ[k]加上4π得出的模糊延遲,從而導致相位差在[3π,5π]的範圍內。相位差曲線404係標記一組由原始相位差θ[k]減去2π得出的模糊延遲,從而導致相位差在[-π,-3π]的範圍內。相位差曲線405係標記一組由原始相位差θ[k]加4π得出的模糊延遲,從而導致相位差在[-3π,-5π]的範圍內。
如圖4所示,模糊相位差係在原始相位401之上或之下。圖4還示出了線段410,其根據延遲強調出理想的線性相位差。
延遲分佈模組230係將延遲分佈函數P[j]初始化,以累加從相位差得出的延遲發生次數,其中j係為N個延遲格(delay bins)的指標,例如,對於10cm的間隔,N=49。如用於本文中,用語「延遲」係表示可為正值或負值的兩個訊號之間的時間差(例如,以μs為單位,即微秒,或以樣本為單位)。正延遲係表示第一訊號領先於第二訊號。負延遲係表示第一訊號落後於第二訊號。有效延遲範圍[-T,T]係由兩個感測器之間的最大聲音傳播時間延遲來預定,T=s/c+Δt,其中s係為兩個感測器之間隔(例如,10cm),c係為聲速(例如,在室溫下為343m/sec),且Δt係為考量聲速變化的頂部空間(headroom),例如T=375μs。
對於每個頻格k,延遲分佈模組係得出對應於相位差θ[k]的至少一個候選延遲。更多的模糊延遲d[k]可透過對相位差加上/減去2π(360度)的倍數從相位差中得出,例如,對於頻格k,...θ[k]-4π,θ[k]-2π,θ[k]+2π,θ[k]+4π...。轉換公式係為或,其中FFT_SIZE對於16kHz可為512。僅將有效延遲範圍[-T,T]內的d[k]視為候選。
圖5係為根據本發明的各種實施例的由模糊的相位差得出的候選延遲的延遲散佈圖。橫軸係表示頻格指標,且縱軸係表示由相位差得出的可能或候選延遲。縱軸的延遲單位係以樣本表示,此樣本係由數位訊號的取樣率來決定。圖5係為音頻訊號的每個頻率分量的可能延遲的說明。例如,圖5的區域501中的資料點係表示在每個頻格中對應於原始相位差θ[k]的可能延遲,其係由圖4中的相位差曲線401標識的[-π,π]所侷限。類似地,圖5的區域502中的資料點係對應於一組從原始相位差θ[k]加上2π得出的模糊延遲,從而導致相位差在由圖4中的相位差曲線402標識的[π,3π]範圍內。圖5的區域503中的資料點係對應於一組從原始相位差θ[k]加上4π得出的模糊延遲,從而導致相位差在由圖4中的相位差曲線403標識的[3π,5π]範圍內。圖5的區域504中的資料點係對應於一組從原始相位差θ[k]減去2π得出的模糊延遲,從而導致相位差在由圖4中的相位差曲線403標識的[-π,-3π]範圍內。圖5的區域505中的資料點係對應於一組從原始相位差θ[k]減去4π得出的模糊延遲,從而導致相位差在由圖4中的相位差曲線405標識的[-3π,-5π]範圍內。
圖6係為根據本發明的各種實施例的延遲分佈函數及延遲分佈函數的平滑版本的示意圖。在圖6中,橫軸係表示延遲,類似於圖5中的縱軸,縱
軸係表示對於每個延遲的資料點數。實線610係為從圖5中的延遲散佈圖得出的延遲分佈函數,而虛線620係為透過擴展函數平滑的延遲分佈函數。
在一些實施例中,可使用時間適應方法(temporal adapting scheme)來維持延遲分佈函數的一致性。可根據當前幀及先前幀的能量來調整延遲分佈函數。
延遲估計模組240係透過選擇延遲分佈函數的最大值來進行最終延遲估計。在圖6中,延遲分佈函數的最大值係標記為點621。在圖6的實例中,橫軸係跨距為±6個樣本。在621處的延遲分佈的最大值係對應於約4.584個樣本。對於實例的特定取樣率,估計延遲係約為285μs(微秒)。
再次參照圖2,延遲與加總模組260係配置以施加最終延遲估計以對兩個通道中之一個進行對準來獲得感興趣訊號270。例如,可對來自兩個通道中的訊號進行對準以獲得更強的訊號。
圖7係繪示根據本發明的各種實施例的例示性擴展函數。對於每個候選延遲,將以延遲為中心的擴展函數累加到延遲分佈函數。取決於實施例,擴展函數可進一步由頻率依存加權函數(frequency-dependent weighting function)加權以強調特定頻率範圍。
圖8係為根據本發明的各種實施例的用於決定延遲分佈累加的方法的流程圖。如圖8所示,方法800係包含在801處透過設定θ1=θ[k]來將延遲分佈函數初始化。於此,θ[k]係表示兩個訊號之間的原始相位差。在802處,基於θ[k]計算出距離d1。在804處,將距離與訊號的周期T進行比較,以判斷d1T是否成立。
若條件d1T成立,此方法可選地進行到806,並累加以d1為中心的擴展函數到延遲分佈函數。接著,在808處,為了檢查每個頻格的更多候選相位差,此方法係包含遞增θ1=θ1+2π。接著,此方法返回至802。
從804,若條件d1T不成立,則此方法進行到810以檢查更多候選相位差。在810處,此方法係包含遞增θ1=θ1-2π。在812處,基於θ[k]計算出距離d1。在814處,將距離與訊號的周期T進行比較,以判斷d1T是否成立。
若條件d1T為成立,則此方法可選地進行到816,且將以d1為中心的擴展函數累加到延遲分佈函數。接著,在818處,為了檢查每個頻格的更多候選相位差,此方法係包含遞減θ1=θ1-2π。接著,此方法返回到812。
在一些實施例中,本發明係提供一種聲音訊號處理系統。聲音訊號處理系統係包含麥克風介面電路,其配置以分別耦合至第一聲音感測器及第二聲音感測器以從同一聲音訊號源接收第一聲音訊號及第二聲音訊號,且將第一聲音訊號及第二聲音訊號轉換成第一類比訊號及第二類比訊號。此系統還包含類比數位轉換器,其配置以分別接收第一類比訊號及第二類比訊號,且產生第一數位訊號及第二數位訊號。
此系統還包含訊號處理電路,其配置以接收第一數位訊號及第二數位訊號,且決定第一數位訊號與第二數位訊號之間的延遲。訊號處理電路係包含相位差模組,其配置以轉換第一數位訊號及第二數位訊號以提供第一頻域訊號及第二頻域訊號;且計算在複數個選定的頻率處的第一頻域訊號與第二頻域訊號之間的第一組相位差。各相位差係為在(-π,π)或(-180度,180度)內界定
的數值。訊號處理電路還包含延遲分佈模組,其配置以透過對第一組相位差的每一組相加或減去2π或360度的倍數,得出第二組相位差;基於第一組相位差及第二組相位差,在複數個選定的頻率處得出複數個候選延遲時間;且決定複數個候選延遲時間的直方圖。訊號處理電路還包含延遲估計模組,其配置以透過在複數個候選延遲時間的直方圖中選擇具有最大計數的延遲時間來決定估計延遲時間。此外,訊號處理電路還包含延遲與加總模組,其配置以根據估計延遲時間對第一數位訊號及第二數位訊號進行對準,以獲得感興趣訊號。上述結合圖1至圖8描述了此系統的實例。
圖9係為根據本發明的各種實施例的使用兩個或多個聲音感測器感測聲音訊號的方法。如圖9所示,在910處,此方法900係包含透過使用第一聲音感測器及第二聲音感測器從聲音訊號源接收聲音訊號。第一聲音感測器係接收第一聲音訊號,且第二聲音感測器係接收第二聲音訊號。在920處,將第一聲音訊號及第二聲音訊號轉換成第一數位訊號及第二數位訊號。在930處,將第一數位訊號及第二數位訊號轉換成第一頻域訊號及第二頻域訊號。在940處,此方法係包含決定第一頻域訊號與第二頻域訊號之間的第一組相位差,第一組相位差係界於(-π,π)或(-180度,180度)內。在950處,透過對第一組相位差的每一組相加或減去2π或360度的倍數,以決定第二組相位差。在960處,基於第一組相位差及第二組相位差,在複數個頻率處決定第一頻域訊號與第二頻域訊號之間的複數個候選延遲時間。在970處,此方法從複數個候選延遲時間中選擇估計延遲時間,估計延遲時間係與複數個頻率中的最大數量相關,估計延遲時間係表示第一聲音感測器與第二聲音感測器之間的估計距離。在980處,對第一數位訊號及第二數位訊號進行對準及加總以產生增強數位訊號。
上述結合圖1至圖8描述了可用於實現方法900的系統的實例。在此方法的一些實施例中,第一頻域訊號及第二頻域訊號係包含複數個複數,其中各複數係對應於一頻格。在一些實施例中,此方法還包含使用傅立葉變換將第一數位訊號及第二數位訊號變換為第一頻域訊號及第二頻域訊號。在一些實施例中,決定複數個候選延遲時間的步驟係包含將相位差轉換成延遲時間。在一些實施例中,此方法還包含決定複數個候選延遲時間的直方圖,以及透過在複數個候選延遲時間的直方圖中選擇具有最大計數的延遲時間來決定估計延遲時間的步驟。
圖10係為根據本發明的可用於實現各種實施例的裝置的簡化方塊圖。圖10僅係為併入本揭露之實施例的說明,且不限制如申請專利範圍中所述之本揭露的範圍。所屬技術領域具有通常知識者將認識到其它變化、變更及替代。在一實施例中,電腦系統1000通常包含螢幕1010、電腦1020、使用者輸出裝置1030、使用者輸入裝置1040、通訊介面1050等。
圖10係為能夠將本揭露的電腦系統具體化的表示。例如,圖2中的聲音訊號處理系統200可使用類似於圖10中描述的系統1000的系統來實現。圖2中的訊號處理電路250的功能可由圖10中描述的一個或多個處理器執行。例如,系統1000的一部分可表示數位訊號處理器,數位訊號處理器可用於實現相位差模組、延遲分佈模組、延遲估計模組以及延遲與加總模組。可替代地,在諸如係統1000中所描述的通用處理器中執行的軟體程式碼可用於實現相位差模組、延遲分佈模組、延遲估計模組以及延遲與加總模組。此外,麥克風介面電路211及類比數位轉換器213可被實現為類似於系統1000的系統中的周邊裝置。
如圖10所示,電腦1020可包含處理器1060,處理器係經由匯流排子系統(bus subsystem)1090與複數個周邊裝置進行通訊。這些周邊裝置可包含使用者輸出裝置1030、使用者輸入裝置1040、通訊介面1050及儲存子系統,諸如隨機存取記憶體(RAM)1070及磁碟機1080。
使用者輸入裝置1040可包含用於將訊息輸入到電腦1020的所有可能類型的裝置及機制。這些裝置可包含鍵盤、小鍵盤、整合至顯示器中的觸控螢幕、音頻輸入裝置(例如語音辨識系統)、麥克風及其它類型的輸入裝置。在各種實施例中,使用者輸入裝置1040通常被具體化為電腦滑鼠、軌跡球、軌跡板、手搖桿、無線遙控器、繪圖板、語音指令系統、眼睛追蹤系統等。使用者輸入裝置1040通常允許使用者經由諸如單擊按鈕的指令來選擇出現在螢幕1010上的物件、圖標、文本等。
使用者輸出裝置1030係包含用於從電腦1020輸出訊息的所有可能類型的裝置及機制。這些可包含顯示器(例如,螢幕1010),非視覺輸出裝置,諸如音訊輸出裝置等。
通訊介面1050係提供連結到其它通訊網路及裝置的介面。通訊介面1050可作為從其它系統接收資料及向其它系統傳輸資料的介面。通訊介面1050的實施例通常包含乙太網卡(Ethernet card)、調變解調器(電話、衛星、電纜、ISDN)、(異步)數位用戶線路(digital subscriber line,DSL)單元、FireWire介面、USB介面等。例如,通訊介面1050可耦合至電腦網路、至FireWire匯流排等。在其它實施例中,通訊介面1050可物理性地整合在電腦1020的主機板上,且可為軟件程式,例如軟DSL等。
在各種實施例中,電腦系統1000還可包含能夠透過網路進行通訊的軟體,諸如HTTP、TCP/IP、RTP/RTSP協定等。在本揭露的替代實施例中,還可使用其它通訊軟體及傳輸協定,例如IPX、UDP等。在一些實施例中,電腦1020係包含來自英特爾公司(Intel)的一個或多個至Xeon微處理器作為處理器1060。此外,在一實施例中,電腦1020係包含以UNIX為基礎的作業系統。處理器1060還可包含特殊目的處理器,諸如數位訊號處理(digital signal processor,DSP)、精簡指令集電腦(reduced instruction set computer,RISC)等。
隨機存取記憶體(RAM)1070及磁碟機1080係為配置為儲存資料的有形儲存媒體的實例,諸如本揭露的實施例,其包含可執行電腦程式碼、人類可讀程式碼等。其它類型的有形儲存媒體係包含磁片、可移動硬碟、光學儲存媒體(諸如CD-ROM、DVD及條碼)、半導體記憶體(諸如快閃記憶體、唯讀記憶體(ROM)、電池支持揮發性記憶體、網路儲存裝置)等。隨機存取記憶體1070及磁碟機1080可配置以儲存提供本揭露的功能的基本程式設計及資料建構。
提供本揭露的功能的軟體程式碼模組及指令可儲存在隨機存取記憶體1070及磁碟機1080中。這些軟體模組可由處理器1060執行。隨機存取記憶體1070及磁碟機1080可提供用於儲存根據本揭露使用的資料的儲存庫。
隨機存取記憶體1070及磁碟機1080可包含複數個記憶體,其包含用於在程式執行期間儲存指令及資料的主隨機存取記憶體及儲存固定非暫態性指令的唯讀記憶體。隨機存取記憶體1070及磁碟機1080可包含檔案儲存子系統,檔案儲存子系統為程式及資料檔案提供永久(非揮發性)儲存。隨機存取記憶體1070及磁碟機1080還可包含可移動儲存系統,諸如可移動快閃記憶體。
匯流排系統1090係提供一種機制,其用於使電腦1020的各個部件及子系統按照預期的方式相互通訊。儘管匯流排1090示意性地示出為單匯流排,然而匯流排系統的替代實施例可利用多個匯流排。
圖10係為能夠將本揭露的電腦系統具體化的表示。對於所屬技術領域具有通常知識者將顯而易見的是,許多其它軟體及硬體的配置係適用於本揭露。例如,電腦可為桌上型、可攜式、機架安裝式或平板電腦配置。另外,電腦可為一系列的聯網電腦。此外,可考量其它微處理器的使用,諸如PentiumTM或ItaniumTM微處理器,以及來自先進微型裝置公司(Advanced Micro Devices,Inc)的OpteronTM或AthlonXPTM微處理器等。此外,可考量其它類型的作業系統,諸如來自微軟公司(Microsoft Corporation)的Windows®、WindowsXP®、WindowsNT®等、來自昇陽電腦公司(Sun Microsystems)的Solaris、LINUX、UNIX等。在其它實施例中,上述技術可在晶片或輔助處理板上實現。
本揭露的各種實施例可以軟體或硬體中的邏輯或兩者的組合的形式來實現。邏輯可儲存在電腦可讀或機器可讀的非暫態儲存媒體中,作為一組適應於指導電腦系統的處理器的指令,以執行本揭露的實施例中所揭露的一組步驟。邏輯可形成電腦程式產品的一部分,電腦程式產品適應於指導訊息處理裝置以執行本揭露的實施例中所揭露的一組步驟。基於本文提供的揭露及教示,所屬技術領域具有通常知識者將理解實現本揭露的其它方式及/或方法。
本文描述的資料結構及程式碼可部分或完全儲存在電腦可讀儲存媒體及/或硬體模組及/或硬體裝置上。電腦可讀儲存媒體包含但不限於揮發性記憶體、非揮發性記憶體、磁性及光學儲存裝置(諸如磁碟機、磁帶、光碟(CD)、數位多功能光碟或數位影音光碟(DVD)),或是其它現在已知或將來開發的能夠
儲存程式碼及/或資料的媒體。本文所述的硬體模組或裝置包含但不限於應用特定積體電路(ASIC)、場效可程式規劃邏輯閘陣列(FPGA)、專用或共享處理器及/或其它現在已知或將來開發的硬體模組或裝置。
本文描述的方法及過程可部分或全部具體化為儲存在電腦可讀儲存媒體或裝置中的程式碼及/或資料,從而當電腦系統讀取及執行程式碼及/或資料時,電腦系統可執行相關方法及過程。此方法及過程還可部分地或完全地具體化為在硬體模組或裝置中,使得當硬體模組或裝置被啟動時,其可執行相關的方法及過程。可使用程式碼、資料及硬體模組或裝置的組合來將本文揭露的方法及過程具體化。
特定實施例已描述於本文中。然而,可對這些實施例進行各種變更,且本文提出的原理也可應用於其它實施例。另外,在不偏離申請專利範圍的情況下,各種部件及/或方法的步驟/區塊可以特別揭露的佈置以外的佈置來實現。鑑於這些教示,所屬技術領域具有通常知識者將容易想到其它實施例及變更。因此,當結合以上說明書及所附圖式來看時,所附申請專利範圍旨在涵蓋所有這樣的實施例及變更。
200:聲音訊號處理系統
201:聲音訊號源
210:輸入模組
211:麥克風介面電路
213:類比數位轉換器
220:相位差模組
230:延遲分佈模組
240:延遲估計模組
250:訊號處理電路
260:延遲與加總模組
270:感興趣訊號
d:路徑
Mic1,Mic2:麥克風
P[j]:延遲分佈函數
x(t):類比訊號
x[n]:數位訊號
x1,x2:聲音訊號
θ[k]:相位差函數
Claims (20)
- 一種聲音訊號處理系統,其包含:一輸入模組,其配置以:經由至少兩個聲音感測器接收至少兩個聲音訊號;及將該至少兩個聲音訊號轉換成至少兩個通道的複數個類比訊號,且隨後轉換成該至少兩個通道的複數個數位訊號;一相位差模組,其配置以:將該至少兩個通道的複數個數位訊號轉換成該至少兩個通道的複數個頻率變換;及計算兩個選定的通道之間的複數個相位差;其中各該頻率變換係包含複數個複數;其中各該複數係對應於一頻格;及其中各該相位差係界於(-π,π)或(-180度,180度)內;一延遲分佈模組,對於各該頻格,該延遲分佈模組係配置以:初始化以對該頻格得出對應該複數個相位差的至少一個候選延遲,透過相加或減去2π或360度的倍數,從該複數個相位差中得出複數個模糊延遲;將該複數個模糊延遲保持在一有效延遲範圍內以作為複數個候選延遲;及對於各該候選延遲,添加以各該候選延遲為中心的一擴展 函數以形成一延遲分佈函數;其中根據該至少兩個聲音感測器之間的一最大聲音傳播時間延遲加上一頂部空間來預定該有效延遲範圍;一延遲估計模組,其配置以選擇該延遲分佈函數的最大值來進行一最終延遲估計;以及一延遲與加總模組,其配置以根據該最終延遲估計對該兩個選定的通道中之一個進行對準,以獲得一感興趣訊號。
- 如請求項1所述之聲音訊號處理系統,其中該延遲分佈模組係進一步配置以將一頻率依存加權函數施加於該擴展函數。
- 如請求項1所述之聲音訊號處理系統,其中該延遲分佈模組在做出該最終延遲估計之前,係配置以使用一能量依存時間適應方法以平滑該延遲分佈函數。
- 如請求項1所述之聲音訊號處理系統,其中該相位差模組係配置以使用傅立葉變換以將該至少兩個通道的複數個數位訊號轉換成該至少兩個通道的複數個頻率變換。
- 如請求項1所述之聲音訊號處理系統,其進一步包含一數位訊號處理器,該數位訊號處理器用以實現該相位差模組、該延遲分佈模組、該延遲估計模組以及該延遲與加總模組。
- 如請求項1所述之聲音訊號處理系統,其進一步包含被執行於一通用處理器中的複數個軟體程式碼,該複數個軟體程式碼用以實現該相位差模組、該延遲分佈模組、該延遲估計模組以及該延遲與加總模組。
- 一種聲音訊號處理系統,其包含:一麥克風介面電路,其配置以分別耦合至一第一聲音感測器及一第二聲音感測器以從同一聲音訊號源接收一第一聲音訊號及一第二聲音訊號,且將該第一聲音訊號及該第二聲音訊號轉換成一第一類比訊號及一第二類比訊號;一類比數位轉換器,其配置以分別接收該第一類比訊號及該第二類比訊號,且產生一第一數位訊號及一第二數位訊號;以及一訊號處理電路,其配置以接收該第一數位訊號及該第二數位訊號,且決定該第一數位訊號與該第二數位訊號之間的延遲,其中該訊號處理電路係包含:一相位差模組,其配置以:轉換該第一數位訊號及該第二數位訊號以提供一第一頻域訊號及一第二頻域訊號;及計算在複數個選定的頻率處的該第一頻域訊號與該第二頻域訊號之間的一第一組相位差;其中各相位差係為在(-π,π)或(-180度,180度)內界定的數值;一延遲分佈模組,其配置以:透過對該第一組相位差的每一組相加或減去2π或360度的倍數,以得出一第二組相位差;基於該第一組相位差及該第二組相位差,在該複數個選定的頻率處得出複數個候選延遲時間;及 決定該複數個候選延遲時間的一直方圖;一延遲估計模組,其配置以透過在該複數個候選延遲時間的該直方圖中選擇具有最大計數的延遲時間來決定一估計延遲時間;以及一延遲與加總模組,其配置以根據該估計延遲時間對該第一數位訊號及該第二數位訊號進行對準,以獲得一感興趣訊號。
- 如請求項7所述之系統,其中對於各候選延遲,該延遲分佈模組係進一步配置以將以各該候選延遲為中心的一擴展函數添加到一延遲分佈函數。
- 如請求項8所述之系統,其中該延遲分佈模組係進一步配置以將一頻率依存加權函數施加於該擴展函數。
- 如請求項9所述之系統,其中該延遲分佈模組在決定該估計延遲時間之前,係配置以使用一能量依存時間適應方法以平滑一延遲分佈。
- 如請求項7所述之系統,其中該相位差模組係配置以使用傅立葉變換來變換該第一數位訊號及該第二數位訊號以提供一第一頻域訊號及一第二頻域訊號。
- 如請求項7所述之系統,其中該延遲分佈模組對於各頻格係進一步配置以:在一有效延遲範圍內選擇該複數個候選延遲時間作為複數個候選延遲;及其中根據該第一聲音感測器與該第二聲音感測器之間的一 最大聲音傳播時間延遲加上一頂部空間來預定該有效延遲範圍。
- 如請求項7所述之系統,其中該訊號處理電路係包含一數位訊號處理器。
- 如請求項7所述之系統,其中該第一聲音感測器及該第二聲音感測器係以大於該第一聲音訊號及該第二聲音訊號的一半波長的間隔來設置。
- 一種聲音訊號處理方法,其包含:透過使用一第一聲音感測器及一第二聲音感測器從一聲音訊號源接收複數個聲音訊號,該第一聲音感測器係接收一第一聲音訊號,且該第二聲音感測器係接收一第二聲音訊號;將該第一聲音訊號及該第二聲音訊號轉換成一第一數位訊號及一第二數位訊號;將該第一數位訊號及該第二數位訊號轉換成一第一頻域訊號及一第二頻域訊號;決定該第一頻域訊號與該第二頻域訊號之間的一第一組相位差,該第一組相位差係界於(-π,π)或(-180度,180度)內;透過對該第一組相位差的每一組相加或減去2π或360度的倍數,以決定一第二組相位差;基於該第一組相位差及該第二組相位差,在複數個頻率處決定該第一頻域訊號與該第二頻域訊號之間的複數個候選 延遲時間;以及從該複數個候選延遲時間中選擇一估計延遲時間,該估計延遲時間係與該複數個頻率中的最大數量相關,其中該估計延遲時間係與該第一聲音感測器與該第二聲音感測器之間的一估計距離相關。
- 如請求項15所述之方法,其進一步包含對該第一數位訊號及該第二數位訊號進行對準及加總以產生一增強數位訊號。
- 如請求項15所述之方法,其中該第一頻域訊號及該第二頻域訊號係包含複數個複數,其中各該複數係對應於一頻格。
- 如請求項15所述之方法,其進一步包含使用傅立葉變換將該第一數位訊號及該第二數位訊號變換為一第一頻域訊號及一第二頻域訊號。
- 如請求項15所述之方法,其中該第一聲音感測器及該第二聲音感測器係以大於該第一聲音訊號及該第二聲音訊號的一半波長的間隔來設置。
- 如請求項15所述之方法,其進一步包含:決定該複數個候選延遲時間的一直方圖;以及透過在該複數個候選延遲時間的該直方圖中選擇具有最大計數的延遲時間來決定一估計延遲時間。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/836,866 US11276388B2 (en) | 2020-03-31 | 2020-03-31 | Beamforming system based on delay distribution model using high frequency phase difference |
| US16/836,866 | 2020-03-31 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202139179A TW202139179A (zh) | 2021-10-16 |
| TWI758855B true TWI758855B (zh) | 2022-03-21 |
Family
ID=77854585
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW109130812A TWI758855B (zh) | 2020-03-31 | 2020-09-08 | 基於使用高頻相位差的延遲分佈模型的聲音訊號處理系統及方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US11276388B2 (zh) |
| KR (1) | KR102642163B1 (zh) |
| CN (1) | CN113470680B (zh) |
| TW (1) | TWI758855B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20250358582A1 (en) * | 2024-05-15 | 2025-11-20 | Sony Interactive Entertainment Inc. | Mono interaural time delay (itd) rendering |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106576212A (zh) * | 2014-06-20 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 生成并回放复制保护的波场合成音频呈现的方法及装置 |
| WO2019002179A1 (en) * | 2017-06-27 | 2019-01-03 | Dolby International Ab | HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS |
| TWI662545B (zh) * | 2018-06-22 | 2019-06-11 | 塞席爾商元鼎音訊股份有限公司 | 調整語音頻率之方法及其聲音播放裝置 |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5581620A (en) * | 1994-04-21 | 1996-12-03 | Brown University Research Foundation | Methods and apparatus for adaptive beamforming |
| US5659520A (en) * | 1995-04-24 | 1997-08-19 | Sonatech, Inc. | Super short baseline navigation using phase-delay processing of spread-spectrum-coded reply signals |
| US6366241B2 (en) * | 2000-06-26 | 2002-04-02 | Trueposition, Inc. | Enhanced determination of position-dependent signal characteristics of a wireless transmitter |
| KR100612616B1 (ko) * | 2004-05-19 | 2006-08-17 | 한국과학기술원 | 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법 |
| US20070050441A1 (en) * | 2005-08-26 | 2007-03-01 | Step Communications Corporation,A Nevada Corporati | Method and apparatus for improving noise discrimination using attenuation factor |
| US20070047743A1 (en) * | 2005-08-26 | 2007-03-01 | Step Communications Corporation, A Nevada Corporation | Method and apparatus for improving noise discrimination using enhanced phase difference value |
| JP4854533B2 (ja) * | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
| NL2000510C1 (nl) * | 2007-02-28 | 2008-09-01 | Exsilent Res Bv | Werkwijze en inrichting voor geluidsbewerking. |
| JP2010124370A (ja) * | 2008-11-21 | 2010-06-03 | Fujitsu Ltd | 信号処理装置、信号処理方法、および信号処理プログラム |
| EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
| EP2809086B1 (en) * | 2012-01-27 | 2017-06-14 | Kyoei Engineering Co., Ltd. | Method and device for controlling directionality |
| US20130275873A1 (en) * | 2012-04-13 | 2013-10-17 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
| US9431013B2 (en) * | 2013-11-07 | 2016-08-30 | Continental Automotive Systems, Inc. | Co-talker nulling for automatic speech recognition systems |
| JP6385699B2 (ja) * | 2014-03-31 | 2018-09-05 | 株式会社東芝 | 電子機器および電子機器の制御方法 |
| MX372605B (es) * | 2016-01-22 | 2020-04-24 | Fraunhofer Ges Forschung | Aparato y método para estimar una diferencia de tiempos entre canales. |
| US10535361B2 (en) * | 2017-10-19 | 2020-01-14 | Kardome Technology Ltd. | Speech enhancement using clustering of cues |
| US10460749B1 (en) * | 2018-06-28 | 2019-10-29 | Nuvoton Technology Corporation | Voice activity detection using vocal tract area information |
| EP3751558B1 (en) * | 2019-06-12 | 2022-12-28 | Esaote S.p.A. | Method for generating ultrasound transmission waves and ultrasound system for carrying out the method |
-
2020
- 2020-03-31 US US16/836,866 patent/US11276388B2/en active Active
- 2020-09-08 TW TW109130812A patent/TWI758855B/zh active
- 2020-11-23 CN CN202011318379.2A patent/CN113470680B/zh active Active
-
2021
- 2021-02-19 KR KR1020210022589A patent/KR102642163B1/ko active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106576212A (zh) * | 2014-06-20 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 生成并回放复制保护的波场合成音频呈现的方法及装置 |
| WO2019002179A1 (en) * | 2017-06-27 | 2019-01-03 | Dolby International Ab | HYBRID AUDIO SIGNAL SYNCHRONIZATION BASED ON CROSS CORRELATION AND ATTACK ANALYSIS |
| TWI662545B (zh) * | 2018-06-22 | 2019-06-11 | 塞席爾商元鼎音訊股份有限公司 | 調整語音頻率之方法及其聲音播放裝置 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202139179A (zh) | 2021-10-16 |
| US11276388B2 (en) | 2022-03-15 |
| KR20210122669A (ko) | 2021-10-12 |
| CN113470680B (zh) | 2023-09-29 |
| CN113470680A (zh) | 2021-10-01 |
| KR102642163B1 (ko) | 2024-03-04 |
| US20210304730A1 (en) | 2021-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2596592C2 (ru) | Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала | |
| US8718293B2 (en) | Signal separation system and method for automatically selecting threshold to separate sound sources | |
| US20150228277A1 (en) | Voiced Sound Pattern Detection | |
| US10755727B1 (en) | Directional speech separation | |
| CN109923430B (zh) | 用于进行相位差展开的装置及方法 | |
| JP2012042465A (ja) | 音源方向推定装置及び音源方向推定方法 | |
| JP6933303B2 (ja) | 波源方向推定装置、波源方向推定方法、およびプログラム | |
| US20260018161A1 (en) | Channel selection apparatus, channel selection method, and program | |
| TWI758855B (zh) | 基於使用高頻相位差的延遲分佈模型的聲音訊號處理系統及方法 | |
| TWI811771B (zh) | 揚聲器系統及其補償方法 | |
| KR101483513B1 (ko) | 음원위치추적장치 및 음원위치추적방법 | |
| JP6182169B2 (ja) | 収音装置、その方法及びプログラム | |
| JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
| JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
| US20160080863A1 (en) | Feedback suppression test filter correlation | |
| JP6381367B2 (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
| JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
| JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
| Graf et al. | Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra. | |
| US12112764B2 (en) | Delay estimation using frequency spectral descriptors | |
| JP4950971B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
| Mamat et al. | A Comparative Study of Pitch Detection Algorithms for Microcontroller Based Voice Pitch Detector | |
| JP7252779B2 (ja) | 雑音除去装置、雑音除去方法およびプログラム | |
| JP6538002B2 (ja) | 目的音集音装置、目的音集音方法、プログラム、記録媒体 | |
| JP2015200823A (ja) | 分類装置、分類方法、およびプログラム |