TWI861569B - 麥克風系統 - Google Patents
麥克風系統 Download PDFInfo
- Publication number
- TWI861569B TWI861569B TW111138121A TW111138121A TWI861569B TW I861569 B TWI861569 B TW I861569B TW 111138121 A TW111138121 A TW 111138121A TW 111138121 A TW111138121 A TW 111138121A TW I861569 B TWI861569 B TW I861569B
- Authority
- TW
- Taiwan
- Prior art keywords
- microphones
- microphone
- sound source
- tba
- sound
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 32
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 12
- 125000006850 spacer group Chemical group 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 46
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000009977 dual effect Effects 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000005192 partition Methods 0.000 description 21
- 230000001934 delay Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000003190 augmentative effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000005070 sampling Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013434 data augmentation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 230000035515 penetration Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 101100271216 Trypanosoma brucei brucei TBA1 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 101150087593 tba-2 gene Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
Landscapes
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本發明揭露一種麥克風系統,包含一麥克風陣列以及一處理單元。該麥克風陣列,包含Q個麥克風,用以偵測聲音以產生Q個音訊訊號。該處理單元用來執行一組操作,包含:以一已受訓模組,根據至少一目標目標波束區(TBA)以及該Q個麥克風的座標,對該Q個音訊訊號進行空間濾波,以產生始於ω個目標聲源的波束成形輸出訊號,其中該ω個目標聲源係位在該至少一TBA內。各TBA是由r個雙麥克風組合的r個時延範圍所定義,其中,Q>=3、r>=1以及ω>=0。其中,該處理單元所能區分的聲源位置的第一數目之維度隨著該Q個麥克風的幾何形狀的第二數目之維度之增加而增加。
Description
本發明係有關於音訊處理,特別地,尤有關於一種麥克風系統,可解決鏡像(mirror)問題及改善麥克風方向性。
波束成形技術利用麥克風的空間分集(spatial diversity)所產生之通道間的時間差,來強化來自預期(desired)方向的訊號以及壓抑來自其他方向的不想要的訊號。圖1A例示二個麥克風及一個聲源(sound source)。參考圖1A,對於具有二個麥克風101及102的麥克風陣列,一旦取得一時延(time delay)
,透過三角函數的計算,即可以得到角度
(即聲源方向),但無法得到聲源的位置或距離。在圖1B的例子中,若一聲源方向落在預期的時延範圍
1~
2內(即波束區BA0),則稱該聲源是”位在波束內(inside beam)” (將於後述)。 上述二個麥克風101及102係順著 x軸延伸,對於其他方位由於具有相同的感測度,因而產生鏡像問題。換言之,二個麥克風101及102可區分左側及右側的聲源方向,但無法區分前側及後側的聲源方向,也無法區分上面及下面的聲源方向(稱之為”x-可區分及yz-鏡射”)。
因此,業界亟需一種麥克風系統,可解決上述鏡像問題及改善麥克風方向性。
有鑒於上述問題,本發明的目的之一是提供一種麥克風系統,可解決鏡像問題及改善麥克風方向性。
根據本發明之一實施例,係提供一種麥克風系統,適用於一電子裝置,包含一麥克風陣列以及一處理單元。該麥克風陣列,包含Q個麥克風,用以偵測聲音以產生Q個音訊訊號。該處理單元用來執行一組操作,包含:以一已受訓模組,根據至少一目標波束區(TBA)以及該Q個麥克風的座標,對該Q個音訊訊號進行空間濾波,以產生始於
個目標聲源的波束成形輸出訊號,其中該
個目標聲源係位在該至少一TBA內。各TBA是由r個雙麥克風組合的r個時延範圍所定義,其中, Q>=3、r>=1以及
>=0。其中,該處理單元所能區分的聲源位置的第一數目之維度隨著該Q個麥克風的幾何形狀的第二數目之維度之增加而增加。
茲配合下列圖示、實施例之詳細說明及申請專利範圍,將上述及本發明之其他目的與優點詳述於後。
在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語,都同時包含單數及複數的涵義,除非本說明書中另有特別指明。在通篇說明書中,具相同功能的電路元件使用相同的參考符號。
圖2係根據本發明,顯示麥克風系統之一方塊圖。參考圖2,本發明麥克風系統200,適用於一電子裝置(圖未示),包含一麥克風陣列210以及一個以神經網路為基礎的波束成形器220。該麥克風陣列210包含Q個麥克風211-21Q,用以偵測聲音以產生Q個音訊訊號b
1[n]~b
Q[n],其中Q>=3。該以神經網路為基礎的波束成形器220,利用一已受訓的模組(例如圖7C-7D中已受訓的神經網路760T),根據至少一目標波束區(TBA)、麥克風陣列210的麥克風座標集合
M、以及零個或一個或二個能量損失值,對該Q個音訊訊號進行(1)空間濾波以及去噪(denoising)二種操作或(2)僅進行空間濾波一種操作,以產生始於該至少一TBA內
個目標聲源之一有噪音或無噪音之波束成形輸出音訊訊號u[n],其中n表示離散時間索引,以及
>=0。
該麥克風陣列210的麥克風座標集合定義如下:
M={M
1, M
2,…., M
Q},其中麥克風M
i的座標= (x
i, y
i, z
i)代表相對於該電子裝置之一參考點(圖未示)之麥克風21i的座標及1<=i<=Q。假設一個聲源集合
以及t
gi代表從一聲源
s
g 至麥克風M
i的聲音傳播時間,則該聲源
s
g 的位置L(
s
g )相對該麥克風陣列210,係以R個雙麥克風組合的R個時延定義如下:L(
s
g )=
,其中該R個雙麥克風組合為從Q個麥克風211~21Q中任選出二個麥克風的所有組合、
代表三度空間、1<=g<=
Z、
、Z代表所有聲源的數目、以及R=Q!/((Q-2)!
2!)。一波束區BA係以上述R個雙麥克風組合的R個時延範圍定義如下:BA=
,其中TS
ik及TE
ik分別表示二個麥克風21i及21k之時延範圍的上下限、
i 且1<=
k<=Q。若聲源
s
g 的位置L(
s
g )的所有時延均在BA的時延範圍內,即可確定聲源
s
g 位在波束區BA內。舉例而言,假設Q=3、BA={(-2ms, 1ms), (-3ms, 2ms), (-2ms, 0ms)}以及從一聲源
s
1 至三個麥克風211~213的聲音傳播時間分別等於1ms、2ms及3ms,則聲源
s
1 的位置L(
s
1 )表示如下:L(
s
1 )=
{-1ms, -2ms, -1ms}。因為TS
12<(t
11-t
12)<TE
12、TS
13<(t
11-t
13)<TE
13以及 TS
23<(t
12-t
13)<TE
23,故確定聲源
s
1 係位在波束區BA內。
圖3A-3B例示波束區BA1及BA2與三個共線麥克風211~213。波束區的範圍可以是一封閉區(如圖3A的BA1)或一半封閉區(如圖3B的BA2)。上述三個共線麥克風211~213(即Q=3)僅為例示,而非本發明之限制。根據不同的需求,麥克風陣列210的幾何形狀是可調整的。相較於圖1B的波束區BA0是”緊鄰”麥克風陣列210,由於圖3A-3B的各波束區BA1及BA2分別由麥克風陣列210中三個雙麥克風組合的三個時延範圍來定義,故二波束區BA1及BA2的範圍離麥克風陣列210”有一段距離”。
在通篇說明書及後續的請求項當中所提及的相關用語定義如下,除非本說明書中另有特別指明。「聲源」一詞指的是任何會發出音訊訊息的東西,包含:人類、動物或物體。再者,相對於該電子裝置上之一參考點(例如:Q個麥克風211-21Q之間的中點),該聲源可能位在三維空間的任何位置。 「目標波束區 (TBA)」一詞指的是位在預期方向上或一預期座標範圍內的一波束區,而且源自該TBA內的各目標聲源的音訊訊號需要被保留或加強。「消除波束區(CBA)」一詞指的是位在非預期方向上或一非預期座標範圍內的一波束區,而且源自該CBA內的各消除聲源的音訊訊號需要被抑制或消除。
麥克風陣列210的Q個麥克風211-21Q可以是,例如,全向性(omni-directional)麥克風、雙向性(bi-directional)麥克風、指向性(directional)麥克風、或其組合。麥克風陣列210的Q個麥克風211-21Q可以用數位或類比的微機電系統(MicroElectrical-Mechanical System)麥克風來實施。請注意,當麥克風陣列210包含有指向性或雙向性麥克風時,電路設計者必須確認:無論麥克風陣列210的幾何形狀如何調整,該指向性或雙向性麥克風都必須能接收到該TBA內所有目標聲源的音訊訊號。
如上所述,該以神經網路為基礎的波束成形器220,利用一已受訓的模組(例如已受訓的神經網路760T),根據至少一TBA、該麥克風座標集合
M以及零個或一個或二個能量損失,對麥克風陣列210的Q個音訊訊號進行
濾波操作,以產生始於該TBA內
個目標聲源之波束成形輸出音訊訊號u[n],其中
>=0。然而,由於麥克風本身的幾何形狀,麥克風陣列須面對鏡像的問題。麥克風的幾何形狀/佈局(layout)有助於波束成形器220來區分不同聲源位置,故分為下列三種等級(rank):(1) rank(
M)=3:Q個麥克風211~21Q的幾何形狀/佈局形成一個三維形狀(3D shape)(既非共線也非共面),該Q個麥克風所接收到的L(
s
g )的各組時延足夠獨特,故波束成形器220能確定一聲源於三度空間的位置。在幾何學中,上述三維形狀代表一形狀或圖形有三個維度,例如:長度、寬度及高度(如圖6C的例子所示)。(2) rank(
M)=2:Q個麥克風211~21Q的幾何形狀/佈局形成一個平面(共面但非共線),使波束成形器220能沿著第一軸及第二軸(形成該平面)確定第一聲源的位置,但無法區分沿著第三軸且與該第一聲源對稱於該平面的一個第二聲源的位置。(3) rank(
M)=1:Q個麥克風211~21Q沿著第一軸形成一條線(共線),使波束成形器220能確定沿著第一軸的第一聲源的不同位置,但無法區分與該線對稱且沿著第二軸或第三軸分布的多個第二聲源的不同位置,其中,第一軸係垂直於第二軸及第三軸。
僅根據Q個麥克風211~21Q的幾何形狀,波束成形器220能區分不同聲源位置的最高區分等級為(Q-1)及3中的較小者,其中Q>=3。根據本發明,透過改變麥克風陣列210的幾何形狀(從較低維度至較高維度)及/或嵌入零個或一個或二個間隔物(spacer)至該Q個麥克風之間,可提升波束成形器220的區分等級DR。
圖4A-4B例示二個相反方向的聲源,造成設在間隔物410的二個不同側的麥克風211~212所收到的音訊訊號具有不同能量值。參考圖4A~4B,假設二個麥克風211~212為全向性麥克風、共線排列且被間隔物410分隔,以及二個聲源s
1及s
2係對稱於間隔物410。本發明不限制間隔物410的材質,只要在聲音傳播通過該間隔物410會導致能量損失即可。例如,間隔物410包含,但不限於,筆記型電腦螢幕、手機螢幕、監視器/耳機/相機的外殼等等。如圖4A所示,當聲源s
1位在間隔物410上方時,間隔物410會造成二個麥克風211~212所收到的音訊訊號b
1[n]~b
2[n]的能量值的差異化(x dB及(x-
) dB),其中
>0。如圖4B所示,當聲源s
2位在間隔物410下方時,間隔物410會造成二個麥克風211~212所收到的音訊訊號b
1[n]~b
2[n]的能量值的差異化((x-
) dB及x dB)。一實施例中,當間隔物410以一筆記型電腦螢幕實施時,該能量損失
dB的範圍是2dB至5dB。因為有上述能量損失的關係,即使二個對稱聲源s
1及s
2傳送聲音時產生二組相同的時延,波束成形器220還是能輕易分辨聲源s
1及s
2的方向。
根據本發明,麥克風陣列210的幾何形狀及間隔物的數量決定了波束成形器220區分不同聲源位置的區分等級DR。圖5A~5D分別例示類型3A~3D的三個麥克風211~213及零個或一個間隔物的不同幾何形狀/佈局。
當Q=3時,該聲源
s
g 的位置L(
s
g )相對該麥克風陣列210,由三個雙麥克風組合(等於從三個麥克風211~213中任選出二個麥克風的所有組合的數目)的三個時延所定義。麥克風陣列210及間隔物的佈局總共有以下五種類型3A~3E。(1) 類型3A(DR=1):麥克風陣列210的三個麥克風211~213係沿著y軸形成一條線(共線)以及沒有嵌入任何間隔物,如圖5A所示。根據接收到的多個聲源位置的多組時延(每組時延包含三個時延),波束成形器220能區分沿著y軸的第一聲源的不同位置,但無法區分沿著x軸或z軸且與該條線對稱的第二聲源的不同位置(稱為”y-可區分及xz-鏡像”)。(2) 類型3B(DR=2):三個麥克風211~213係沿著y軸形成一條線(共線)以及嵌入平行於yz平面的間隔物410。如圖5B所示,以間隔物410分開左麥克風212及二個右麥克風211及213。請注意,假設間隔物410的厚度”很薄”,故可將該三個麥克風視為共線排列。波束成形器220能根據不同組時延,區分沿著y軸的第一聲源的不同位置,以及根據音訊訊號b
1[n]~b
3[n]的不同能量值,區分沿著x軸的第二聲源的不同位置,但無法區分沿著z軸且與該條線對稱的第三聲源的不同位置(稱為”xy-可區分及z-鏡像”)。(3) 類型3C(DR=2):三個非共線麥克風211~213形成一xy平面(共面)以及沒有嵌入任何間隔物,如圖5C所示。根據接收到的多組時延,波束成形器220能區分沿著x軸及y軸的第一聲源的不同位置,但無法區分沿著z軸且與該xy平面對稱的第二聲源的不同位置(稱為”xy-可區分及z-鏡像”)。(4) 類型3D(DR=3):三個非共線麥克風211~213形成一平面(即共面)以及嵌入平行於xy平面的間隔物410。如圖5D所示,以間隔物410分開下方麥克風213及上方的二個麥克風211及212。請注意,假設間隔物410的厚度”很薄”,故可將該三個麥克風視為設在xy平面上。波束成形器220能根據接收到的多組時延,區分沿著x軸及y軸的第一聲源的不同位置,以及根據音訊訊號b
1[n]~b
3[n]的不同能量值,區分沿著z軸的第二聲源的不同位置(稱為”xyz-可區分”)。
圖5E-5F分別例示類型3E的三個麥克風211~213及二間隔物的不同側視圖。(5) 類型3E(DR=3):三個麥克風211~213係沿著y軸形成一條線(共線)以及嵌入二間隔物410(平行xz平面)及510(平行yz平面)以將該三個麥克風211~213分割成位在不同象限的三個不同組,如圖5E~5F所示。請注意,假設間隔物410及510的厚度”很薄”,故可將該三個麥克風211~213視為共線排列。將圖5E的側視圖以y軸為軸心,反時鐘方向旋轉90度即可得到圖5F的側視圖。參考圖5E,假設二間隔物410及510將整體空間分割成四個半封閉區域(在此稱之為”象限”),則麥克風211位在第一象限、麥克風212位在第二象限、及麥克風213位在第四象限。由於三個麥克風211~213被二個間隔物410及510分隔,位在不同象限的聲源傳送聲音時會造成三個麥克風211~213的三個音訊訊號b
1[n]~b
3[n]具有不同能量值E1~E3。例如,當位在第一象限的聲源傳送聲音時,取決於間隔物410及510的材質,聲音穿透過二個間隔物410及510且抵達二個麥克風212~213時會造成不同的能量損失。假設聲音穿透過間隔物410會造成
dB的能量損失、聲音穿透過間隔物510會造成
dB的能量損失、及聲音連續穿透二間隔物410及510會造成(
dB的能量損失,其中
。若E1>E2(=E1-
)>E3=(E1-
),波束成形器220會決定一聲源位在第一象限;若E2>E1(=E2-
)>E3(=E2-
),波束成形器220會決定一聲源位在第二象限;若E3>E2>E1,波束成形器220會決定一聲源位在第三象限;若E3>E1(=E3-
)>E2(=E3-
),波束成形器220會決定一聲源位在第四象限。因此,於類型3E,波束成形器220能根據接收到的多組時延,區分沿著z軸的第一聲源的不同位置,以及根據音訊訊號b
1[n]~b
3[n]的不同能量值,區分沿著x軸與y的第二聲源的不同位置(稱為”xyz-可區分”)。
當Q=4時,該聲源
s
g 的位置L(
s
g )相對該麥克風陣列210,由六個雙麥克風組合(等於從四個麥克風211~214中任選出二個麥克風的所有組合之數目)的六個時延所定義。麥克風陣列210及間隔物的佈局總共有以下六種類型4A~4F。(1) 類型4A(DR=1):麥克風陣列210的四個麥克風211~214係沿著y軸共線排列以及沒有嵌入間隔物,類似圖5A的佈局 (即”y-可區分及xz-鏡像”)。(2) 類型4B(DR=2):四個麥克風211~214係沿著y軸共線排列以及嵌入平行yz平面之間隔物410,類似圖5B的佈局,以間隔物410分開至少一左麥克風及其餘右麥克風 (即”xy-可區分及z-鏡像”)。(3) 類型4C(DR=2):四個非共線麥克風211~214形成一xy平面(共面)以及沒有嵌入間隔物,類似圖5C的佈局 (即”xy-可區分及z-鏡像”)。(4) 類型4D(DR=3):四個非共線麥克風211~214形成一平面(共面)以及嵌入平行xy平面之間隔物410。類似圖5D的佈局,以間隔物410分開至少一下方麥克風及其餘上方麥克風。請注意,假設間隔物410的厚度”很薄”,故可將該四個麥克風視為設在xy平面上(即”xyz-可區分”)。(5) 類型4E (DR=3) :四個麥克風211~214係沿著z軸排成一直線(共線)以及嵌入二間隔物410及510(分別平行xz平面及yz平面)以將該四個麥克風211~214分割成位在不同象限的四個不同組,如圖6A~6B所示。圖6A~6B分別例示類型4E的四個麥克風211~214與二個間隔物的二個不同側視圖。請注意,假設間隔物410及510的厚度”很薄”,故可將該四個麥克風視為共線排列。將圖6A的側視圖以y軸為軸心,反時鐘方向旋轉90度即可得到圖6B的側視圖。參考圖6A,因為這二個間隔物410及510分隔該四個麥克風211~214,故位在不同象限的聲源傳送聲音時會造成四個麥克風211~214的四個音訊訊號b
1[n]~b
4[n]具有不同能量值E1~E4。如上所述,假設聲音穿透過間隔物410會造成
dB的能量損失、聲音穿透過間隔物510會造成
dB的能量損失、及聲音穿透過二間隔物410及510會造成(
dB的能量損失,其中
,若E1> E2(=E1-
)>E4(=E1-
) >E3(=E1-
),波束成形器220會決定一聲源位在第一象限;若E2>E1(=E2-
)>E3(=E2-
) >E4(=E2-
),波束成形器220會決定一聲源位在第二象限;若E3>E4(=E3-
)>E2(=E3-
)>E1(=E3-
)),波束成形器220會決定一聲源位在第三象限;若E4>E3(=E4-
)>E1(=E4-
) >E2(=E4-
),波束成形器220會決定一聲源位在第四象限。因此,波束成形器220能根據接收到的多組時延,區分沿著z軸的第一聲源的不同位置,以及根據音訊訊號b
1[n]~b
4[n]的不同能量值,區分沿著x軸與y的第二聲源的不同位置(稱為”xyz-可區分”)。其中,每組時延代表一聲源位置且包含六個時延。(6) 類型4F(DR=3):四個麥克風211~214的幾何形狀/佈局形成一個三維形狀 (既非共線也非共面)以及沒有嵌入間隔物,波束成形器220能根據接收到的多組時延,確定不同聲源的位置(即”xyz-可區分”),如圖6C所示。請注意,形成三維形狀的四個麥克風211~214有多種可能的擺放方式,圖6C僅是三維形狀的一個示例,而非本發明之限制。
請注意,在圖5E與6A的例子中,二個間隔物410及510之間呈正交(或垂直)關係,故四個象限相同大小。於另一實施例中,二個間隔物410及510僅相交或貫穿,但不是正交,故四個象限大小會不同。無論二個間隔物410及510之間是否正交,波束成形器220都能根據音訊訊號b
1[n]~b
Q[n]的不同能量值,確定聲源位在哪個象限。
簡言之,波束成形器220能利用三個或更多共線的麥克風,確定聲源於一維空間上的位置(DR=1),若嵌入一個或二個間隔物,可將DR值從1提升至2或3。波束成形器220能利用三個或更多共面的麥克風,確定聲源於二維空間上的位置(DR=2),若藉由嵌入一個間隔物,可將DR值從2提升至3。波束成形器220能利用四個或更多非共線且非共面的麥克風(形成一個三維形狀),確定聲源於三維空間上的位置(DR=3)。
回到圖2,該波束成形器220可以一軟體程式、一客製化電路(custom circuit)、或該軟體程式及該客製化電路之組合來實施。例如,該波束成形器220可以一繪圖處理單元(graphics processing unit,GPU)、一中央處理單元(central processing unit,CPU)、以及一處理器之至少其一以及至少一儲存裝置來實施。上述儲存裝置儲存多個指令或程式碼供該GPU、該CPU以及該處理器之至少其一執行:圖7A-7D中該波束成形器220之所有的操作。再者,熟悉本領域技術人士應理解,任何可執行該波束成形器220之操作的系統,均落入本發明之範圍且未脫離本發明實施例之精神。
圖7A係根據本發明一實施例,顯示於一訓練階段之麥克風系統700T之示意圖。於圖7A的實施例中,一訓練階段之麥克風系統700T,包含一波束成形器220T,係以一處理器750及二個儲存裝置710及720來實施。儲存裝置710儲存軟體程式713的指令及程式碼,供該處理器750執行,致使該處理器750運作有如該波束成形器220/220T/220t/ 220P。一實施例中,一神經網路模組70T,由軟體實施並且駐存於儲存裝置720中,包含一特徵提取器730、一神經網路760以及一損失函數(loss function)部770。於另一實施例中,神經網路模組70T,係由硬體(圖未示)實施,例如離散邏輯電路(discrete logic circuit)、特殊應用積體電路(application specific integrated circuits,ASIC) 、 可程式邏輯閘陣列(programmable gate arrays,PGA) 、現場可程式化邏輯閘陣列(field programmable gate arrays,FPGA)等等。
本發明神經網路760可以任何已知的神經網路來實施。和監督式學習(supervised learning)有關的各種不同機器學習技術都可用來訓練該神經網路760的模組。用來訓練該神經網路760的監督式學習技術包含,但不受限於,隨機梯度下降法(stochastic gradient descent ,SGD)。於以下的說明中,神經網路760利用一訓練資料集以監督式設定方式來運作,其中該訓練資料集包含多個訓練樣本,且各訓練樣本包含配成對的訓練輸入資料(例如圖7A的輸入音訊訊號b
1[n]至b
Q[n]之各音框的音訊資料)以及訓練輸出資料(實際值(ground truth)) (例如圖7A的輸出音訊訊號h[n]之各音框的音訊資料)。該神經網路760利用上述訓練資料集來學習或估測該函數f(即已受訓的模組760T),再利用反向傳播(backpropagation)演算法及代價函數(cost function)來更新模組的權值。反向傳播演算法重複地計算該代價函數相對於各權值及偏移量(bias)的梯度(gradient),再以相反於該梯度的方向更新權值及偏移量,以找出一局部最小值。該神經網路760學習的目標是在給定上述訓練資料集的情況下,最小化該代價函數。
如上所述,三個麥克風的陣列(Q=3)及間隔物的佈局總共有五種類型3A~3E,而Q個麥克風的陣列(Q>=4)及間隔物的佈局總共有六種類型4A~4F。請注意,根據不同實施方式,至少一TBA、麥克風陣列210對應的麥克風座標集合
M以及該些能量損失值會隨之不同,故波束成形器220T中之神經網路760若要與任一類型的佈局共同運作時,需利用對應的輸入參數”個別地”進行訓練。舉例而言,若波束成形器220T中之神經網路760需要與類型3A、3C、4A、4C及4F之任一佈局共同運作,就需利用至少一TBA、麥克風陣列210對應的麥克風座標集合
M以及一訓練資料集(將於後述)來進行訓練;若波束成形器220T中之神經網路760需要與類型3B、3D、4B及4D之任一佈局共同運作,就需利用至少一TBA、麥克風陣列210的麥克風座標集合
M、一訓練資料集以及間隔物410的
dB能量損失來進行訓練。若波束成形器220T中之神經網路760需要與類型3E及4E之任一佈局共同運作,就需利用至少一TBA、麥克風陣列210的麥克風座標集合
M、一訓練資料集、間隔物410的
dB能量損失以及間隔物510的
dB能量損失來進行訓練。
如說明書前面所提到,有關麥克風陣列210包含Q個麥克風,各波束區BA係以R個雙麥克風組合的R個時延範圍來定義。至於輸入至圖7A之處理器750之各TBA,除了可以用R個雙麥克風組合的R個時延範圍來定義之外,亦可以下列二種方式來定義。第一種方式(麥克風陣列210中不包含任何間隔物(如類型3A、4A、3C、4C、4F)):各TBA可以僅用r1個雙麥克風組合的r1個時延範圍定義,但前提是每個麥克風都必須要被包含到(換言之,該r1個雙麥克風組合的聯集為該Q個麥克風),其中r1>=ceiling(Q/2)。舉例而言,在Q=3的情況下,各TBA可以二個雙麥克風組合的二個時延範圍定義如下:
,且每個麥克風211~213都被包含到了,換言之,該二個雙麥克風組合的聯集為三個麥克風211~213。另一個例子中,若Q=4,各TBA可以二個雙麥克風組合的二個時延範圍定義,假設定義(1)如下:TBA1=
,請注意,此定義中麥克風214未被包含到(換言之,該二個雙麥克風組合的聯集為三個麥克風211~213),故此TBA1的定義是錯誤的;假設定義(2)如下:TBA2=
,因為此定義中該二個雙麥克風組合的聯集為四個麥克風211~214,故此TBA2的定義是正確的。
第二種方式(麥克風陣列210中有包含任何間隔物的話(如類型3B、4B、3D、4D、3E、4E)):各TBA可以僅用r2個雙麥克風組合的r2個時延範圍來定義,其中r2>=1。舉例而言,在類型3B的情況下,各TBA可以僅用一個雙麥克風組合的一個時延範圍來定義一個維度:
,以區分沿著y軸的不同位置的第一聲源,而x軸上的第二聲源再用能量損失來判斷;在類型3D的情況下,各TBA可以僅用二個雙麥克風組合的二個時延範圍來定義二個維度:
以區分xy平面上的不同位置的第一聲源,而z軸上的第二聲源則用能量損失來判斷。
為方便說明,圖7A-7D僅以類型4E及圖6A-6B為例來說明;須注意的是,於圖7A-7D說明的原理完全適用於其他類型。
在訓練階段之前的一離線(offline)階段,處理器750收集一批無噪音(或乾淨的)單麥克風時域語音(speech)音訊資料(包含或不含不同空間的混響(reverberation))711a以及一批單麥克風時域噪音音訊資料711b,再分別儲存至儲存裝置710。關於噪音音訊資料711b,係收集/記錄不同於語音(主要聲音)的所有聲音,包含市場、電腦風扇、群眾、汽車、飛機、工地、打字聲、多人說話聲音等等。
假設麥克風系統700T所在的整體空間扣除該至少一TBA後,等於一CBA。透過執行儲存於儲存裝置710之任何已知模擬工具的軟體程式713,例如Pyroomacoustics,處理器750運作有如一資料擴增(augmentation)引擎,以根據該至少一TBA、上述麥克風座標集合
M、間隔物410的
dB能量損失、間隔物510的
dB能量損失、乾淨的語音音訊資料711a及噪音音訊資料711b,建立不同模擬場景,包含:Z個聲源、Q個麥克風以及不同聲音環境;並且,將
個目標聲源放在該至少一TBA內以及將
個消除聲源放在該CBA內,其中
+
=
Z及
>=0。資料擴增引擎750的主要目的是幫助神經網路760來概括不同的情境,使神經網路760能運作於不同聲音環境與不同的麥克風幾何形狀。請注意,除了模擬工具(例如Pyroomacoustics)之外,軟體程式713可包含其他額外必須的程式(例如作業系統或應用程式)以使該波束成形器220/220T/220t/220P運作。
具體而言,透過執行Pyroomacoustics,資料擴增引擎750分別將單麥克風無噪音語音音訊資料711a及單麥克風噪音音訊資料711b轉換成Q個麥克風擴增無噪音語音音訊資料及Q個麥克風擴增噪音音訊資料,之後混合上述Q個麥克風擴增無噪音語音音訊資料及Q個麥克風擴增噪音音訊資料,以產生及儲存”混合的”Q個麥克風時域擴增音訊資料712至儲存裝置710。特別地,根據不同混合比例,混合上述Q個麥克風擴增無噪音語音音訊資料及Q個麥克風擴增噪音音訊資料以產生大範圍SNR的”混合的”Q個麥克風時域擴增音訊資料712。在訓練階段中,處理器750使用該”混合的”Q個麥克風時域擴增音訊資料712當作上述訓練資料集中該些訓練樣本的訓練輸入資料(即b
1[n]至b
Q[n]),以及對應地,處理器750使用上述(源自該
個目標聲源之)無噪音語音音訊資料711a及噪音音訊資料711b之混合所轉換而來的無噪音及有噪音的時域輸出音訊資料,當作上述訓練資料集中該些訓練樣本的訓練輸出資料(即h[n])。
圖7B係根據本發明一實施例,顯示特徵提取器730的示意圖。參考圖7B,特徵提取器730包含Q個量值(magnitude)與相位計算單元731~73Q以及一內積(inner product)部73,用來從Q個輸入音訊流(b
1[n]至b
Q[n])的各音框之音訊資料的複數值(complex-valued)取樣點,提取出特徵(例如:量值、相位及相位差)。
於各量值與相位計算單元73j中,先利用一滑動窗(sliding window),沿著時間軸,將輸入音訊流b
j[n]分成多個音框(frame),致使各音框間互相重疊以減少邊界的偽像(artifact),之後,以快速傅立葉轉換(Fast Fourier Transform,FFT)將各音框的時域音訊資料轉換成頻域的複數值資料,其中1<=j<=Q以及n表示離散時間索引。假設各音框的取樣點數(或FFT尺寸)等於N、各音框的持續時間等於Td且各音框以Td/2的時間彼此重疊,量值與相位計算單元73j分別將輸入音訊流b
j[n]分割成多個音框,並計算對應輸入音訊流b
j[n]的目前音框i內音訊資料的FFT,以產生具有N個複數值取樣點(F
1,j(i)~F
N,j(i))及頻率解析度等於fs/N(=1/Td)的目前頻譜代表式(spectral representation) F
j(i),其中,1<=j<=Q、fs表示音訊流b
j[n]的取樣頻率、各音框對應至音訊流b
j[n]的不同時間區段、以及i代表輸入或輸出音訊流b
j[n]/u[n]/h[n]的音框索引。接著,量值與相位計算單元73j根據各該N個複數值取樣點(F
1,j(i)~F
N,j(i))的長度及反正切(arctangent)函數,計算各該N個複數值取樣點(F
1,j(i)~F
N,j(i))的一量值與一相位,以產生對應於該目前頻譜代表式F
j(i)的一個具有N個量值元素的量值頻譜(m
j(i)=m
1,j(i),…, m
N,j(i))以及一個具有N個相位元素的相位頻譜(P
j(i)=P
1,j(i),…, P
N,j(i))。然後,內積部73對任二個相位頻譜P
j(i)及P
k(i)的各該N個正規化(normalized)複數值取樣點配對(sample pair),分別計算內積以產生R個相位差頻譜(pd
l(i)=pd
1,
l (i),…, pd
N,
l (i)),且各相位差頻譜pd
l(i)具有N個元素,其中1<=k<=Q、
j k、1<=
l<=R、以及上述Q個麥克風中有R個雙麥克風組合。最後,上述Q個量值頻譜m
j(i)、Q個相位頻譜P
j(i)以及R個相位差頻譜pd
l(i)被視為一特徵向量fv(i),並饋入至該神經網路760/760T。一較佳實施例中,各音框的持續時間Td大約32毫秒。然而,上述持續時間Td僅是示例,而非本發明之限制,實際實施時,也能使用其他的持續時間。
在訓練階段中,神經網路760接收上述特徵向量fv(i)(包含上述Q個量值頻譜m1(i)~ mQ(i)、Q個相位頻譜P1(i)~ PQ(i)以及R個相位差頻譜pd1(i)~ pdR(i))後,產生對應的網路輸出資料,包含一時域波束成形輸出音訊流u[n]中目前音框i的N個第一取樣值。另一方面,對於上述訓練資料集的該些訓練樣本中,與上述訓練輸入資料(即Q個訓練輸入音訊流(b
1[n]至b
Q[n])的目前音框i中的Q*N個輸入取樣值)配成對的訓練輸出資料(實際值),包含一訓練輸出音訊流h[n]的目前音框i中的N個第二取樣值,且處理器750將上述訓練輸出資料h[n]傳送至損失函數部770。若
>0且神經網路760被訓練為僅進行空間濾波操作,處理器750輸出的訓練輸出音訊流h[n]將會是有噪音的時域輸出音訊資料(是由始於該
個目標聲源的無噪音語音音訊資料711a及噪音音訊資料711b的之混合所轉換而來)。若
>0且神經網路760被訓練為進行空間濾波及去噪操作,處理器750輸出的訓練輸出音訊流h[n]將會是無噪音的時域輸出音訊資料(是由始於該
個目標聲源的無噪音語音音訊資料711a所轉換而來)。若
=0,處理器750輸出的訓練輸出音訊流h[n]將會是”零的”時域輸出音訊資料,亦即各輸出取樣值被設為0。
之後,損失函數部770根據上述網路輸出資料及訓練輸出資料之間的差距,來調整神經網路760的參數(如權值)。一實施例中,神經網路760係以一深度複合U網(deep complex U-net)來實施,且對應地,於該損失函數部770所實施的損失函數為加權訊號失真比損失(weighted-source-to-distortion ratio loss),如Choi等人於2019年ICRL所揭露的會議文獻“Phase-aware speech enhancement with deep complex U-net”。須注意的是,上述深度複合U網及加權訊號失真比損失僅作為示例,而非本發明之限制。實際實施時,可使用其他的神經網路及損失函數,此亦落入本發明之範圍。最後,神經網路760完成訓練,以致於當神經網路760處理與上述訓練輸出資料(即上述N個第二取樣值)配成對的上述訓練輸入資料(即上述Q*N個輸入取樣值)時,神經網路760產生的網路輸出資料(即上述N個第一取樣值)將會盡可能地接近及匹配上述訓練輸出資料。
推斷階段分為測試期(例如,由研發部工程師測試麥克風系統700t的性能)及實施期(即麥克風系統700I上市)。圖7C係根據本發明一實施例,顯示於一測試期之麥克風系統700t之示意圖。於圖7C的實施例中,於一測試期之麥克風系統700t,僅包含一波束成形器220t,未包含麥克風陣列210。並且,無噪音語音音訊資料711a、噪音音訊資料711b、混合的Q個麥克風時域擴增音訊資料715及軟體程式713係駐存於儲存裝置710中。請注意,混合的Q個麥克風時域擴增音訊資料712及715的產生方式類似,然而,因為混合的Q個麥克風時域擴增音訊資料712及715是根據不同混合比例與不同聲學環境,來轉換無噪音語音音訊資料711a及噪音音訊資料711b之混合而得,故上述混合的Q個麥克風時域擴增音訊資料712及715的內容不可能會相同。在測試期中,處理器750使用該混合的Q個麥克風時域擴增音訊資料715當作上述訓練資料集中該些訓練樣本的訓練輸入資料(即b
1[n]至b
Q[n])。一實施例中,一神經網路模組70I,由軟體實施並且駐存於儲存裝置720中,包含該特徵提取器730以及一已受訓的神經網路760T。於另一實施例中,該神經網路模組70I係由硬體(圖未示)實施,例如離散邏輯電路、ASIC、PGA、FPGA等等。
圖7D係根據本發明一實施例,顯示於一實施期之麥克風系統700P之示意圖。於圖7D的實施例中,於一實施期之麥克風系統700P,包含該麥克風陣列210以及一波束成形器220P;並且,僅軟體程式713係駐存於儲存裝置710中。處理器750直接將來自麥克風陣列210的輸入音訊資料b
1[n]~b
Q[n]傳送至該特徵提取器730。特徵提取器730從Q個輸入音訊流b
1[n]~b
Q[n]的目前音框i的音訊資料的Q個目前頻譜代表式F1(i)- FQ(i)中,提取出一特徵向量fv(i)(包含上述Q個量值頻譜m1(i)~mQ(i)、Q個相位頻譜P1(i)~PQ(i)以及R個相位差頻譜pd1(i)~pdR(i))。已受訓的神經網路760T根據該至少一TBA、該麥克風座標集合
M以及二個能量損失
dB及
dB,對上述輸入音訊流(b
1[n]~b
Q[n])的目前音框i的特徵向量fv(i)進行空間濾波操作(連同或不連同去噪操作),以產生始於該至少一TBA內
個目標聲源之無噪音/有噪音的波束成形輸出音訊流u[n]中目前音框i的各取樣值,其中
>=0。若
=0,波束成形輸出音訊流u[n]中目前音框i的各取樣值會等於0。
綜上所述,該Q個麥克風211~21Q的幾何形狀的維度越高及嵌入的間隔物數量越多,波束成形器220所能區分的聲源位置的維度(即區分等級DR)也越高,再者,波束成形器220所能區分的聲源位置的維度越高,越能明確找到聲源的位置,因此波束成形器220的空間濾波(連同或不連同去噪操作)的效能越好。
上述僅為本發明之較佳實施例而已,而並非用以限定本發明的申請專利範圍;凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾,均應包含在下述申請專利範圍內。
70I、70T:神經網路模組
200:麥克風系統
210:麥克風陣列
101、102、211-21Q:麥克風
220、220T、220t、220P:以神經網路為基礎的波束成形器
410、510:間隔物
700t:於一測試期之麥克風系統
700P:於一實施期之麥克風系統
700T:於一訓練階段之麥克風系統
710、720:儲存裝置
711a:無噪音(或乾淨的)單麥克風時域語音音訊資料
711b:單麥克風時域噪音音訊資料
712、715:”混合的”Q個麥克風時域擴增音訊資料
713:軟體程式
730:特徵提取器
731~73Q:量值與相位計算單元
73:內積部
750:處理器
760:神經網路
760T:已受訓的神經網路
770 :損失函數部
D-D':剖線
E-E':剖線
R1:第一區域
R2:第二區域
h1:最短距離
h2:最短距離
h3:最短距離
h4:最短距離
A1:第一接觸面積
A2:第二接觸面積
A3:第三接觸面積
S:缺口部
S1:缺口寬度
DA、DB:最短距離
[圖1A] 例示二個麥克風及一個聲源。
[圖1B] 例示位在預期時延範圍
1~
2內的波束區BA0。
[圖2]係根據本發明,顯示麥克風系統之一方塊圖。
[圖3A-3B]例示二個波束區BA1及BA2與三個共線麥克風211~213。
[圖4A-4B]例示二個相反方向的聲源s
1及s
2,造成設在間隔物410的二個不同側的麥克風211~212所收到的音訊訊號具有不同能量值。
[圖5A~5D]分別例示類型3A~3D的三個麥克風211~213及零個或一個間隔物的不同幾何形狀/佈局。
[圖5E-5F]分別例示類型3E的三個麥克風211~213及二間隔物的不同側視圖。
[圖6A~6B]分別例示類型4E的四個麥克風211~214及二間隔物的不同側視圖。
[圖6C]例示類型4F的四個麥克風211~214的幾何形狀/佈局。
[圖7A]係根據本發明一實施例,顯示於一訓練階段之麥克風系統700T之示意圖。
[圖7B]係根據本發明一實施例,顯示特徵提取器730的示意圖。
[圖7C]係根據本發明一實施例,顯示於一測試期之麥克風系統700t之示意圖。
[圖7D]係根據本發明一實施例,顯示於一實施期之麥克風系統700P之示意圖。
200:麥克風系統
210:麥克風陣列
220:以神經網路為基礎的波束成形器
Claims (15)
- 一種麥克風系統,包含:一麥克風陣列,包含Q個麥克風,用以偵測聲音以產生Q個音訊訊號;以及一處理單元用來執行一組操作,包含:以一已受訓模組,根據至少一目標波束區(TBA)、該Q個麥克風的座標以及a個能量損失,對該Q個音訊訊號進行空間濾波,以產生始於ω個目標聲源的波束成形輸出訊號,其中該ω個目標聲源係位在該至少一TBA內;其中,各TBA是由r個雙麥克風組合的r個時延範圍所定義;其中,Q>=3、r>=1、ω>=0以及0<=a<=2;以及其中,該處理單元所能區分的聲源位置的第一數目之維度隨著該Q個麥克風的幾何形狀的第二數目之維度之增加而增加。
- 如請求項1之系統,其中r>=ceiling(Q/2)且各TBA的該r個雙麥克風組合的聯集為該Q個麥克風。
- 如請求項1之系統,其中該Q個麥克風係共線排列,以及其中該第一數目及該第二數目皆等於1。
- 如請求項1之系統,其中該Q個麥克風係共面排列但非共線排列,以及其中該第一數目及該第二數目皆等於2。
- 如請求項1之系統,其中該Q個麥克風形成一個三維形狀,但非共線排列也非共面排列,以及其中該第一數目及該第二數目皆等於3。
- 如請求項1之系統,其中該麥克風陣列更包含: 一第一間隔物,用以分隔該麥克風陣列的至少一第一麥克風以及其餘麥克風;其中,當聲音傳播通過該第一間隔物時,該第一間隔物的材質導致一第一能量損失;其中該進行該空間濾波的操作包含:利用該已受訓模組,根據該至少一TBA、該Q個麥克風的座標以及該a個能量損失,對該Q個音訊訊號進行該空間濾波,以產生始於該ω個目標聲源的該波束成形輸出訊號,其中該a個能量損失包含該第一能量損失。
- 如請求項6之系統,其中該Q個麥克風係共線排列,以及其中該第一數目等於2及該第二數目等於1。
- 如請求項6之系統,其中該Q個麥克風係共面排列但非共線排列,以及其中該第一數目等於3及該第二數目等於2。
- 如請求項6之系統,其中該麥克風陣列更包含:一第二間隔物,用以分隔該麥克風陣列的至少一第二麥克風以及其餘的麥克風;其中,當聲音傳播通過該第二間隔物時,該第二間隔物的材質導致一第二能量損失;其中該進行該空間濾波的操作包含:利用該已受訓模組,根據該至少一TBA、該Q個麥克風的座標以及該a個能量損失,對該Q個音訊訊號進行該空間濾波,以產生始於該 ω個目標聲源的該波束成形輸出訊號,其中該a個能量損失更包含該第二能量損失。
- 如請求項9之系統,其中該處理單元所能區分的聲源位置的第一數目之維度隨著該Q個麥克風的幾何形狀的第二數目之維度以及該些間隔物的數目之增加而增加。
- 如請求項9之系統,其中該Q個麥克風係共線排列,以及其中該第一數目等於3及該第二數目等於1。
- 如請求項1之系統,其中該進行該空間濾波的操作更包含:利用該已受訓模組,根據該至少一TBA、該Q個麥克風的座標以及該a個能量損失,對該Q個音訊訊號,進行該空間濾波及一去噪操作,以產生始於該ω個目標聲源的無噪音的波束成形輸出訊號。
- 如請求項1之系統,其中該進行該空間濾波的操作更包含:利用該已受訓模組,根據該至少一TBA、該Q個麥克風的座標以及該a個能量損失,對該Q個音訊訊號的一特徵向量進行該空間濾波,以產生該波束成形輸出訊號;其中該組操作更包含:從該Q個音訊訊號的Q個頻譜代表式中,提取出該特徵向量;其中,該特徵向量包含Q個量值頻譜、Q個相位頻譜以及R個相位差頻譜;以及其中該R個相位差頻譜係有關於從該Q個相位頻譜中任選出二個相位頻譜的內積。
- 如請求項1之系統,其中該已受訓模組是一神經網路,係利用一訓練資料集、該至少一TBA以及該Q個麥克風的座標來進行訓練,以及其中該訓練資料集係有關於無噪音單麥克風語音音訊資料及單麥克風噪音音訊資料之多種混合之轉換。
- 如請求項1之系統,其中各該r個雙麥克風組合的時延範圍係有關於一第一傳播時間與一第二傳播時間之間的差異範圍,其中該第一傳播時間係由一特定聲源至一對應雙麥克風組合之其一麥克風的聲音傳播時間,其中該第二傳播時間係由該特定聲源至該對應雙麥克風組合之另一麥克風的聲音傳播時間。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263317078P | 2022-03-07 | 2022-03-07 | |
| US63/317,078 | 2022-03-07 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202336742A TW202336742A (zh) | 2023-09-16 |
| TWI861569B true TWI861569B (zh) | 2024-11-11 |
Family
ID=87850202
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW111138121A TWI861569B (zh) | 2022-03-07 | 2022-10-07 | 麥克風系統 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US12143782B2 (zh) |
| TW (1) | TWI861569B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12482446B2 (en) * | 2023-08-11 | 2025-11-25 | British Cayman Islands Intelligo Technology Inc. | Audio device with distractor suppression |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102947878B (zh) * | 2010-06-01 | 2014-11-12 | 高通股份有限公司 | 用于音频均衡的系统、方法、装置和设备 |
| TW201640422A (zh) * | 2014-12-19 | 2016-11-16 | 英特爾股份有限公司 | 用於在類神經網路中協同式及分散式計算的方法及設備 |
| TW201921336A (zh) * | 2017-06-15 | 2019-06-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於語音辨識的系統和方法 |
| US20210150873A1 (en) * | 2017-12-22 | 2021-05-20 | Resmed Sensor Technologies Limited | Apparatus, system, and method for motion sensing |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1581026B1 (en) * | 2004-03-17 | 2015-11-11 | Nuance Communications, Inc. | Method for detecting and reducing noise from a microphone array |
| KR100856246B1 (ko) * | 2007-02-07 | 2008-09-03 | 삼성전자주식회사 | 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법 |
| US7626889B2 (en) * | 2007-04-06 | 2009-12-01 | Microsoft Corporation | Sensor array post-filter for tracking spatial distributions of signals and noise |
| US9848260B2 (en) * | 2013-09-24 | 2017-12-19 | Nuance Communications, Inc. | Wearable communication enhancement device |
| US10924846B2 (en) * | 2014-12-12 | 2021-02-16 | Nuance Communications, Inc. | System and method for generating a self-steering beamformer |
| US11297423B2 (en) * | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
| JP7194897B2 (ja) * | 2018-12-06 | 2022-12-23 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理方法 |
| CN114051738B (zh) * | 2019-05-23 | 2024-10-01 | 舒尔获得控股公司 | 可操纵扬声器阵列、系统及其方法 |
| US10735887B1 (en) * | 2019-09-19 | 2020-08-04 | Wave Sciences, LLC | Spatial audio array processing system and method |
| US11064294B1 (en) * | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
-
2022
- 2022-10-07 TW TW111138121A patent/TWI861569B/zh active
- 2022-10-26 US US17/974,323 patent/US12143782B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102947878B (zh) * | 2010-06-01 | 2014-11-12 | 高通股份有限公司 | 用于音频均衡的系统、方法、装置和设备 |
| TW201640422A (zh) * | 2014-12-19 | 2016-11-16 | 英特爾股份有限公司 | 用於在類神經網路中協同式及分散式計算的方法及設備 |
| TW201921336A (zh) * | 2017-06-15 | 2019-06-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於語音辨識的系統和方法 |
| US20210150873A1 (en) * | 2017-12-22 | 2021-05-20 | Resmed Sensor Technologies Limited | Apparatus, system, and method for motion sensing |
Also Published As
| Publication number | Publication date |
|---|---|
| US12143782B2 (en) | 2024-11-12 |
| TW202336742A (zh) | 2023-09-16 |
| US20230283951A1 (en) | 2023-09-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Diaz-Guerra et al. | Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks | |
| KR102878462B1 (ko) | 평면 마이크로폰 어레이들에 대한 다중-소스 추적 및 음성 활동 검출들 | |
| ES2525839T3 (es) | Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada | |
| CN105451151B (zh) | 一种处理声音信号的方法及装置 | |
| US9788119B2 (en) | Spatial audio apparatus | |
| Samarasinghe et al. | Spherical harmonics based generalized image source method for simulating room acoustics | |
| Ajdler et al. | Acoustic source localization in distributed sensor networks | |
| Shi et al. | An overview of directivity control methods of the parametric array loudspeaker | |
| JP2012523731A (ja) | センサーアレイに最適なモーダルビームフォーマ | |
| Poletti et al. | An approach to generating two zones of silence with application to personal sound systems | |
| Yang et al. | Personalizing head related transfer functions for earables | |
| Padois et al. | Acoustic source localization using a polyhedral microphone array and an improved generalized cross-correlation technique | |
| Xiang et al. | Experimental validation of a coprime linear microphone array for high-resolution direction-of-arrival measurements | |
| TWI861569B (zh) | 麥克風系統 | |
| KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
| US12394428B2 (en) | Audio signal processing method and mobile apparatus | |
| US11122363B2 (en) | Acoustic signal processing device, acoustic signal processing method, and acoustic signal processing program | |
| Ding et al. | DOA estimation of multiple speech sources by selecting reliable local sound intensity estimates | |
| Raykar et al. | Position calibration of audio sensors and actuators in a distributed computing platform | |
| Tourbabin et al. | Direction of arrival estimation in highly reverberant environments using soft time-frequency mask | |
| TWI835246B (zh) | 麥克風系統及波束成形方法 | |
| KR101483271B1 (ko) | 음원 위치 추정에 있어 대표 점 선정 방법 및 그 방법을이용한 음원 위치 추정 시스템 | |
| Ghamdan et al. | Position estimation of binaural sound source in reverberant environments | |
| Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization | |
| US12219329B2 (en) | Beamforming method and microphone system in boomless headset |