TW201423727A - 用於將信號換能成神經元尖峰表示的方法和裝置 - Google Patents
用於將信號換能成神經元尖峰表示的方法和裝置 Download PDFInfo
- Publication number
- TW201423727A TW201423727A TW102138297A TW102138297A TW201423727A TW 201423727 A TW201423727 A TW 201423727A TW 102138297 A TW102138297 A TW 102138297A TW 102138297 A TW102138297 A TW 102138297A TW 201423727 A TW201423727 A TW 201423727A
- Authority
- TW
- Taiwan
- Prior art keywords
- type
- neuron model
- spike
- signal
- spike neuron
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本案的某些態樣提供了用於使用至少兩個不同的尖峰神經元模型集群來將信號換能成神經元尖峰表示的方法和裝置。一種示例方法一般包括:接收信號;使用多個具有不同頻率通帶的濾波器將信號濾波到多個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;及將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型,其中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
Description
本案係關於與本案一併提交且題為「METHODS AND APPARATUS FOR IDENTIFYING SPECTRAL PEAKS IN A NEURONAL SPIKING REPRESENTATION OF A SIGNAL(用於標識信號的神經元尖峰表示中的頻譜峰值的方法和裝置)」的美國專利申請案S/N.xx/xxx,xxx(代理人案號122045)、以及與本案一併提交且題為「METHODS AND APPARATUS FOR PERFORMING ONSET DETECTION IN A NEURONAL SPIKING REPRESENTATION OF A SIGNAL(用於在信號的神經元尖峰表示中執行發動偵測的方法和裝置)」的美國專利申請案S/N.xx/xxx,xxx(代理人案號122048),這兩件申請案經由援引納入於此。
本案的某些態樣一般係關於神經網路,並且更為具體地係關於使用至少兩個尖峰神經元模型集群來將信號換能成神經元尖峰表示。
人工神經網路是由一群互連的人工神經元(即神經元模型)組成的數學或計算模型。人工神經網路可以源自於(或至少大致地基於)生物神經網路(諸如在人腦中發現的那些)的結構及/或功能。由於人工神經網路能從觀察中推斷出功能,因此這樣的網路在任務或資料的複雜度使得手工設計該功能是不切實際的應用中是特別有用的。
一種類型的人工神經網路是尖峰神經網路,其將時間概念以及神經元和突觸狀態納入到其工作模型中,由此增加了此種類型的神經模擬中的真實性水平。尖峰神經網路基於神經元僅當膜電位達到閾值時才觸發這一概念。當神經元觸發時,產生一尖峰,該尖峰行進至其他神經元,其他神經元繼而基於收到的尖峰來升高或降低其膜電位。
神經網路可以軟體或以硬體(例如經由電路)來模擬並且可以用在大範圍的應用中,諸如圖像和模式辨識、機器學習、電機控制等等。神經系統之每一者神經元(或神經元模型)皆可以被實現為神經元電路。被充電至發起輸出尖峰的閾值的神經元膜可被實現為例如對流經其的電流進行積分的電容器。
本案的某些態樣一般係關於使用至少兩種不同類型的尖峰神經元模型來將信號換能成神經元尖峰表示。
本案的某些態樣提供了一種用於神經處理的方法。方法一般包括:接收信號;使用複數個具有不同頻率通帶的
濾波器將信號濾波到複數個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;及將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型,其中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
本案的某些態樣提供了一種用於神經處理的裝置。裝置一般包括處理系統,該處理系統被配置為:接收信號;使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;及將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型,其中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
本案的某些態樣提供了一種用於神經處理的設備。設備一般包括:用於接收信號的裝置;用於使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中的裝置;用於將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型的裝置;及用於將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型的裝置,其中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
本案的某些態樣提供了一種用於神經處理的電腦程式產品。電腦程式產品一般包括具有可執行用於以下操作的指令的電腦可讀取媒體:接收信號;使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;及將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型,其
中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
100‧‧‧人類頭部
101‧‧‧外耳
102‧‧‧大腦
104‧‧‧耳蝸
106‧‧‧蝸神經
108‧‧‧腹側耳蝸核
110‧‧‧背側耳蝸核(DCN)
202‧‧‧卵圓窗
204‧‧‧圓窗
206‧‧‧基底膜
208‧‧‧基底
210‧‧‧尖端
310‧‧‧圖形
410‧‧‧圖形
420‧‧‧圖形
430‧‧‧圖形
500‧‧‧神經網路
502‧‧‧信號
5041‧‧‧通道
504N‧‧‧通道
506‧‧‧HSR神經元模型
5061‧‧‧HSR神經元模型
508‧‧‧LSR神經元模型
510‧‧‧斬波器神經元模型
512‧‧‧WBI神經元模型
514‧‧‧垂直神經元模型
600‧‧‧操作
602‧‧‧步驟
604‧‧‧步驟
606‧‧‧步驟
608‧‧‧步驟
610‧‧‧步驟
612‧‧‧步驟
614‧‧‧步驟
700‧‧‧耳蝸核
800‧‧‧標繪
810‧‧‧標繪
820‧‧‧標繪
900‧‧‧操作
910‧‧‧步驟
1000‧‧‧發動
1002‧‧‧信號
1004‧‧‧進攻
1008‧‧‧衰退
1110‧‧‧圖形
1120‧‧‧圖形
1130‧‧‧圖形
1210‧‧‧圖形
1220‧‧‧圖形
1230‧‧‧圖形
1300‧‧‧操作
1310‧‧‧步驟
1312‧‧‧步驟
1314‧‧‧步驟
1400‧‧‧軟體實現
1402‧‧‧通用處理器
1404‧‧‧記憶體塊
1406‧‧‧程式記憶體
1500‧‧‧實現
1502‧‧‧記憶體
1504‧‧‧網際網路
1506‧‧‧處理單元(神經處理器)
1600‧‧‧實現
1602‧‧‧記憶體組
1604‧‧‧處理單元
為了能詳細理解本案的以上陳述的特徵所用的方式,可以參照各態樣來對以上簡要概述的內容進行更具體的描述,其中一些態樣在附圖中圖示。然而應該注意,附圖僅圖示了本案的某些典型態樣,故不應被認為限定其範圍,因為本描述可以允許有其他等同有效的態樣。
圖1根據本案的某些態樣圖示了人類的聽覺處理中涉及的各個區域。
圖2根據本案的某些態樣概念性地圖示了人類耳蝸內的頻率選擇性。
圖3根據本案的某些態樣圖示了針對高自發率(HSR)神經元和低自發率(LSR)神經元的放電率-強度的示例圖形。
圖4根據本案的某些態樣圖示了針對HSR、中等自發率(MSR)和LSR神經元的放電率-強度的示例圖形。
圖5是圖示了根據本案的某些態樣的用於聽覺處理的示例系統圖示。
圖6是根據本案的某些態樣用於將信號換能成神經元尖峰表示的示例操作的流程圖。
圖7根據本案的某些態樣概念性地圖示了示例性耳蝸核。
圖8圖示了根據本案的某些態樣的示例聽覺信號的
頻譜峰值決定和發動偵測。
圖9是根據本案的某些態樣的用於標識信號中的頻譜峰值的示例操作的流程圖。
圖10圖示了根據本案的某些態樣的示例信號的發動。
圖11-12圖示了根據本案的某些態樣的使用寬頻抑制器(WBI)細胞和斬波器細胞對示例聽覺信號的發動偵測。
圖13是根據本案的某些態樣的用於執行信號的發動偵測的示例操作的流程圖。
圖14圖示了根據本案的某些態樣的使用通用處理器進行神經學習的示例軟體實現。
圖15圖示了根據本案的某些態樣的神經學習的示例實現,其中記憶體與個體分散式處理單元對接。
圖16圖示了根據本案的某些態樣的基於分散式記憶體和分散式處理單元的神經學習的示例實現。
以下參照附圖更全面地描述本案的各個態樣。然而,本案可以許多不同形式實施並且不應解釋為被限定於本案通篇提供的任何特定結構或功能。確切而言,提供這些態樣是為了使得本案將是透徹和完整的,並且其將向熟習此項技術者完全傳達本案的範圍。基於本文中的教導,熟習此項技術者應領會,本案的範圍旨在覆蓋本文中所披露的本案的任何態樣,不論其是與本案的任何其他態樣相獨立地還是組合地實現的。例如,可以使用本文所闡述的任何數目個態樣來
實現裝置或實踐方法。另外,本案的範圍旨在覆蓋使用作為本文中所闡述的本案的各種態樣的補充或者與之不同的其他結構、功能性、或者結構及功能性來實踐的此類裝置或方法。應當理解,本文中所披露的本案的任何態樣可以由請求項的一或多個元素來實施。
措辭「示例性」在本文中用於表示「用作示例、實例或圖示」。本文中描述為「示例性」的任何態樣不必被解釋為優於或勝過其他態樣。
儘管本文中描述了特定態樣,但這些態樣的眾多變體和置換落在本案的範圍之內。雖然提到了優選態樣的一些益處和優點,但本案的範圍並非旨在被限定於特定益處、用途或目標。相反,本案的各態樣旨在能寬泛地應用於不同的技術、系統組態、網路和協定,其中一些作為示例在附圖以及以下對優選態樣的詳細描述中圖示。詳細描述和附圖僅僅圖示本案而非限定本案,本案的範圍由所附請求項及其等效技術方案來定義。
示例聽覺處理
本案的某些態樣提供了用於使用至少兩個尖峰神經元集群來將信號換能成神經元尖峰表示的方法和裝置。在深入研究這些態樣的細節以前,對人類聽覺處理的一些解釋是適宜的。
圖1根據本案的某些態樣圖示了示例人類頭部100和聽覺處理所涉及的各個區域的圖示。由外耳101接收的聲音振動被換能成最終被大腦102解讀的電信號,其中大腦具有首先
處理這些信號的若干其他組成部分。由外耳101接收的聲音振動經由耳道行進到中耳中的鼓膜(即耳膜),鼓膜將振動中繼到耳蝸104。
如圖2所圖示的,耳蝸104是螺旋形、中空的錐形骨室,該骨室被流體填充並且經由耳蝸基部中的如下兩個被膜覆蓋的開口與中耳連接:卵圓窗202(用於接收傳入聲能)以及圓窗204(用於耗散收到的能量)。基底膜206將傳入和傳出聲能分開。耳蝸104的液體中所中繼的聲音振動使Corti(柯蒂氏)器的纖毛(即毛細胞)移動,Corti器將移動轉譯成電脈衝。基於基底膜206中的堅硬度,該纖毛根據其在耳蝸104中的位置被調諧到某些聲音頻率。基底膜在卵圓窗202附近是最堅硬的,並且因此僅高頻振動(例如20kHz頻率處的那些振動)才能夠使基底膜移動並進而使纖毛移動。當從耳蝸104的基底208移向尖端210時,基底膜206變得越來越不堅硬,從而越來越低的頻率能夠使膜移動,如圖所示。
參考圖1,由耳蝸104產生的電脈衝經由蝸神經106(亦稱為聽覺神經)行進到大腦102的稱為耳蝸核的區域。耳蝸核被劃分成腹側耳蝸核108和背側耳蝸核(DCN)110。腹側耳蝸核108被進一步細分為腹前耳蝸核(AVCN)108a和腹後耳蝸核(PVCN)108p(在圖7中圖示)。來自對應於較低聲音頻率的螺旋神經節細胞的軸突支配DCN 110的腹外側部分和AVCN 108a的腹外側部分。相反,來自較高頻Corti器纖毛的軸突伸到AVCN 108a的背側部分和DCN 110的背內側部分。中頻突起位於這兩個末端之間,從而頻譜得以保持。由於
僅僅少數耳蝸纖毛在螺旋神經節中的神經細胞的樹突上形成突觸,並且來自神經細胞的軸突在耳蝸核中的僅僅極少的樹突上形成突觸,因此耳蝸核繼承了耳蝸104的基於音調的組織(稱為「音質分佈」組織)。
在大腦102中沿著聽覺傳導路徑(例如由丘系核和內側膝狀核進行)的附加聽覺處理以後,聽覺信號最終到達用於解讀收到的聲音振動的聽覺皮層112。
聽覺神經(即耳蝸神經106)包括至少兩種不同類型的神經元。如圖3中來自Taberner & Liberman的Response Properties of Single Auditory Nerve Fibres in the Mouse(老鼠的單個聽覺神經纖維的回應性質)(J.Neurophysiol.2005)的放電率(以每秒尖峰數計)對音調短脈衝水平(以聲壓水平(SPL)的分貝為單位)的圖形310所示,高自發率(HSR)神經元具有相對小的動態範圍(例如9dB)。由於該小的動態範圍,HSR神經元可能專用於編碼時間資訊並且亦可以具有鎖相能力。相反,聽覺神經的低自發率(LSR)神經元具有比HSR神經元更大的動態範圍(例如24dB),並且因此可以專用於用速率來編碼強度資訊。神經元類型的變化可起因於單個參數的差異:最大鈣(Ca)電導率。
一些學者可能認為聽覺神經具有至少第三類型的神經元:中等自發率(MSR)神經元。例如,圖4的圖形420圖示了MSR神經元的放電率對聲音水平(來自Sumner等人的A revised model of the inner-hair cell and auditory nerve complex(內毛細胞和聽覺神經複合體的修訂模型)(J.Acoust.Soc.
Am.,2002))。將針對MSR神經元的圖形420與針對HSR神經元的圖形410以及針對LSR神經元的圖形430作比較說明這些神經元的不同特徵行為。
信號到尖峰的示例換能
儘管進行了數十年的研究,習知聽覺處理方法仍不能對各種任務(諸如語音理解)達成與人類聽眾相同的效能。效能差距可至少部分地歸因於人腦變換和表示聽覺輸入的方式與針對此問題的習知辦法中變換和表示聽覺輸入的方式之間的差異。
本案的某些態樣提供了人腦中的聽覺處理的第一階段的模型,如圖5的神經網路500所圖示的。該模型產生音訊信號的有用表示,該表示被設計為準確地捕捉經由聽覺神經傳送給大腦的所有資訊的實質。更具體而言,某些態樣提供了聽覺信號到尖峰表示的換能。信號(例如聽覺信號)502可首先被濾波,從而多個(N個)通道5041-504 N 選擇性地回應於不同頻帶。對於聽覺信號,多個通道可以最大可能地合起來跨越正常的聽覺範圍(例如對於人類為20Hz到20kHz)。所得到的波形可以是經半波整流和經縮放的,並且所得到的值隨後可被當作尖峰神經元的一或多個抽象模型的驅動輸入。
對於某些態樣而言,在僅一個參數(例如,動態範圍或鎖相能力)上存在區別的兩個神經元模型(例如HSR神經元模型506和LSR神經元模型508)由每個通道504處的經濾波的波形來驅動。在所有通道上收集的這兩個神經元模型的尖峰輸出可模擬聽覺神經中的HSR和LSR神經元集群的尖峰輸
出。其他實現可包括第三神經元模型(未圖示)以模擬MSR神經元,或者產生包括這些示例性類型的神經元模型的分佈。
每個神經元集群皆覆蓋該頻率範圍。HSR集群可展現鎖相,而LSR集群可關於聲音強度展現出相對較大的動態範圍。LSR集群可能不鎖相,或者其鎖相能力可能弱於HSR集群。HSR集群的觸發頻繁度可以整體上是LSR集群的大約40倍。這可能是由於HSR集群比LSR集群具有更低的尖峰閾值。HSR及/或LSR神經元模型可由帶洩漏積分觸發(LIF)神經元模型來表示。
相對於已知解決方案,該模型提供一些已知優點並且亦具有提供當前未知優點的潛力。關於已知優點,首先,已知HSR神經元的尖峰機制對高達大約4kHz的信號的「鎖相」進行編碼。該相位資訊在習知的聽覺前端系統中通常被丟失或忽略。其次,與每個輸入通道相關聯的多個神經元模型的使用對於尖峰表示的後續處理是有用的,因為已知的是,HSR和LSR神經元以耳蝸核中的不同細胞集群為目標。第三,尖峰表示與原始信號輸入相比是高度壓縮的。關於未知優點,該模型為受神經啟示的聽覺處理模組的附加模型建立了基礎,這些模型中一些在以下描述。原則上,可設計由本文描述的尖峰表示來驅動的後續人類聽覺處理的準確模型。
圖6是根據本案的某些態樣用於將信號換能成神經元尖峰表示的示例操作600的流程圖。操作600可以硬體(例如由一或多個處理單元組成的處理系統)、以軟體或以韌體來
執行。
操作600可在602處經由接收信號而開始。對於某些態樣,該信號包括音訊信號的電表示。儘管本案主要述及聽覺信號,但在602處收到的信號可以是任何類型的信號。
在604處,可使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中。對於某些態樣,複數個通道可以跨越聽覺頻率範圍(例如從大約20Hz至20kHz)。
在606處,每個通道中的經濾波信號可被發送給第一類型的尖峰神經元模型。在608處,每個通道中的經濾波信號亦可被發送給第二類型的尖峰神經元模型。第二類型可在至少一個參數態樣不同於第一類型的尖峰神經元模型。對於某些態樣,至少一個參數包括動態範圍、尖峰閾值、鎖相能力或扇出中的至少一者。根據某些態樣,第一類型的尖峰神經元模型具有比第二類型的尖峰神經元模型更小的關於強度的動態範圍或更大的鎖相能力中的至少一者。對於其他態樣,第一類型的尖峰神經元模型專用於編碼時間資訊,並且第二類型的尖峰神經元模型專用於編碼強度資訊。對於某些態樣,第一類型的尖峰神經元模型具有比第二類型的尖峰神經元模型更小的扇出。對於某些態樣,第一類型的尖峰神經元模型可表示聽覺神經的高自發率(HSR)神經元。第二類型的尖峰神經元模型可表示聽覺神經的低自發率(LSR)神經元。第一或第二類型的尖峰神經元模型中的至少一者可以是帶洩漏積分觸發(LIF)神經元模型。
在610處,操作600亦可包括:將每個通道中的經濾
波信號輸出至第三類型的尖峰神經元模型。第三類型可在至少一個參數態樣不同於第一和第二類型的尖峰神經元模型。對於某些態樣,第三類型的尖峰神經元模型表示聽覺神經的中等自發率(MSR)神經元。
在612處,操作600亦可包括:從所有這複數個通道將第一和第二類型的尖峰神經元模型兩者的集合輸出至顯示器。
頻譜峰值的示例決定
對頻譜峰值的標識是幾乎任何語音處理系統的主要組成部分。母音的每個發聲皆將包含高達六個不同的頻譜峰值,這意味著將在高達六個頻帶中存在能量的集中,亦不包括這些峰值的諧波。這些峰值是發聲系統的結果。儘管存在標識音訊信號的頻譜峰值的許多方法,但是沒有任一種方法作用於音訊信號的神經元尖峰表示。在如上所述地使用至少兩個尖峰神經元集群將信號(例如聽覺信號)換能成神經元尖峰表示後,本案的某些態樣提供了一種將信號的初始尖峰表示變換成新表示的方法,可在新表示中被更穩健地標識出頻譜尖峰。與習知辦法相比,使用該方法得到附加的有用特徵。
圖7根據本案某些態樣概念性地圖示了哺乳動物聽覺系統中的示例耳蝸核700。如上所述,耳蝸核700可以在解剖學上被劃分為背側耳蝸核(DCN)110和腹側耳蝸核(VCN)108。在用於理解語音的情況下,VCN 108被進一步劃分成腹前耳蝸核(AVCN)108a和腹後耳蝸核(PVCN)108p。如
各個頻率所圖示的,耳蝸核700包含所有音訊資訊的完整表示。
耳蝸核700中的至少一種類型的神經元與其聽覺神經輸入相比具有更尖銳的調諧和更低的尖峰閾值。因此,信號銳化(例如用於頻譜峰值偵測)是由耳蝸核來執行的。
本案的某些態樣提供了腹側耳蝸核(VCN)108的一部分的模型。VCN 108接收來自聽覺神經(即圖1中的蝸神經106)的直接輸入。VCN 108內的被稱為「斬波器(chopper)」細胞和「寬頻抑制」(WBI)細胞的兩種神經細胞類型被建模。這些術語可在科學文件中找到,但是亦可使用其他術語來描述這些神經元。基於生理學證據,斬波器神經元從聽覺神經的HSR神經元集群接收輸入,並且WBI神經元從聽覺神經的LSR神經元集群接收輸入。至斬波器細胞的扇入比WBI神經元的相應扇入更窄。換言之,來自HSR神經元的扇出比來自LSR神經元的扇出更小。WBI神經元抑制斬波器神經元,從而建立導致頻譜銳化的前饋抑制電路。
斬波器神經元能夠區分共振峰,如本文所使用的,共振峰一般是指聲譜中相對大強度的若干頻率區域中的任何頻率區域,這些頻率區域一起決定了母音的特徵品質。區分共振峰的這種能力使得能夠理解語音。斬波器神經元可經由集群中的峰值/凹穀位置來編碼共振峰。儘管斬波器神經元可偵測整個聽覺強度範圍上的峰值,但是人類語音通常處於其中HSR集群為飽和從而峰值/凹穀位置不能被解析的範圍中。因此,斬波器神經元可以補償聽覺神經輸入的有限動態範圍
。
WBI神經元通常具有比斬波器神經元更高的閾值。然而,WBI神經元是更寬地調諧的,並且對第一尖峰具有比斬波器神經元更短的等待時間。除卻特徵頻率,WBI神經元具有相對較低的閾值,並且能導致對第一斬波器尖峰的延遲,這提供了邊頻帶。然而在特徵頻率處,WBI神經元具有更高的相對閾值,因此抑制在斬波器神經元觸發以後到達。這可以說明定位信號下游的發動。
以上描述的該生理學的至少一些在圖5的神經網路500中被建模,其中HSR神經元模型506為每個通道504驅動斬波器神經元模型510,並且LSR神經元模型508為每個通道驅動WBI神經元模型512。對於每個通道504,WBI神經元模型512亦抑制斬波器神經元模型510以形成前饋抑制電路。若僅抑制集群(例如WBI神經元模型512)被激發,則可能沒有來自另一集群(例如興奮的斬波器神經元模型510)的輸出。若至抑制集群的輸入被壓制,則另一集群的輸出可能增加。WBI神經元模型512可具有比斬波器神經元模型510相對更寬的調諧。
可增加從斬波器神經元模型510到WBI神經元模型512的附加連接以增強效能。網路500包含附加特徵,特別是抑制寬頻雜訊從而該雜訊不影響斬波器神經元集群內觀察到的信號的尖峰表示的能力。圖5的斬波器和WBI神經元模型把信號的尖峰表示當成輸入,並產生信號的尖峰表示作為輸出,其中頻譜峰值在輸出中被更穩健地解析。
圖8圖示了根據本案的某些態樣的示例聽覺信號的
頻譜峰值決定。通道號對時間的標繪800圖示了示例聽覺信號(如在聽覺神經纖維束中的所有信號皆被聚集的情況下理論上將由耳蝸核700經由該束來接收的聽覺信號)的頻率內容。在圖8中,N=1000個通道,其中第一通道的特徵頻率是25Hz,並且最後一個通道的特徵頻率是12kHz。標繪810圖示了標繪800的示例聽覺信號中的頻譜峰值,如由圖5的斬波器神經元模型510和WBI神經元模型512所決定的。
對於某些態樣,可基於頻譜決定來決定訊框定時。較低的頻率可設置訊框定時,並且隨後較高的頻率可鎖定到該定時。例如,標繪810圖示了在171.5至172.5s之間的時段中的較低頻率中(例如在通道200周圍的通道中)的大約5個訊框。
利用斬波器和WBI神經元模型,本案的某些態樣提供了一種用於從音訊信號的新穎表示(神經尖峰表示)中計算標準聽覺處理特徵(對頻譜峰值的標識)的方法。而且,由於方法基於高度進化的生物學系統,因此獲得了附加的有利特徵。特別是方法將自動降低寬頻雜訊。
圖9是根據本案的某些態樣的用於標識信號中的頻譜峰值的示例操作900的流程圖。操作900可以硬體(例如由包括一或多個處理單元的處理系統)、以軟體或以韌體來執行。操作900可始於以上關於圖6所描述的操作602-608。
在910處,可針對每個通道基於第一類型的尖峰神經元模型的第一輸出和基於第二類型的尖峰神經元模型的第二輸出來標識信號中的一或多個頻譜峰值。根據某些態樣,在
910處標識頻譜峰值包括:針對每個通道將第一類型的第一輸出發送給第三類型的尖峰神經元模型,並且針對每個通道將第二類型的第二輸出發送給第四類型的尖峰神經元模型。第三類型可在至少一個特性態樣不同於第四類型。第三類型的尖峰神經元模型可表示耳蝸核中的斬波器細胞。第四類型的尖峰神經元模型可以表示耳蝸核中的寬頻抑制器(WBI)細胞。至少一個特性可包括尖峰閾值或頻寬中的至少一者。對於某些態樣,第三類型可具有比第四類型的尖峰神經元模型更低的尖峰閾值並且可被更窄地調諧。對於每個通道,第四類型可抑制第三類型的尖峰神經元模型。對於某些態樣,在910處標識頻譜峰值可包括使用由第四類型對第三類型的尖峰神經元模型的前饋抑制。
根據某些態樣,操作900可任選地進一步包括:在912處從頻譜峰值中決定訊框定時。對於某些態樣,操作900可進一步包括在914處將頻譜峰值的指示輸出至顯示器。
示例發動偵測
圖10圖示了單個音符的示例聽覺信號1002的各個特徵,如在Bello等人的「A Tutorial on Onset Detection in Music Signals(關於音樂信號中的發動偵測的指南)」,IEEE Transaction on Speech and Audio Processing,2005(IEEE語音及音訊處理學報,2005)中所描述的。如本文所使用的,信號1002的發動1000一般指信號的起始或開始,其中振幅從零(或某個初始參考水平)上升到初始峰值。發動1000與瞬態1006有關但不同於瞬態1006。如本文所使用的,瞬態1006一
般指聽覺信號的起始處的高振幅、短歷時聲音,其發生在諸如語音和音樂聲之類的現象中。發動1000是單個暫態,通常與瞬態1006的開始一致。如本文所使用的,信號1002的進攻1004一般指振幅包絡增大的時間區間。跟隨信號1002的瞬態1006之後是衰退1008,其中振幅返回到零(或某個初始參考水平)。
在聽覺處理中,用於發動偵測的穩健演算法是非常有用的。其能將更多計算密集型或高頻寬操作集中到發動後區間,並且因此提高整個系統的效率。當前在用於聽覺處理的習知辦法中使用多種方法以達成發動偵測。然而,這些方法皆不能對信號(例如聽覺信號)的神經尖峰表示起作用。此外,習知的發動偵測演算法具有某些限制,諸如要求針對特定問題來調諧演算法。
本案的某些態樣提供了在哺乳動物的耳蝸核700中發現的三個神經元集群的功能性神經模型。這些神經元類型是VCN 108的斬波器和WBI細胞以及DCN 110的垂直細胞。如上所述,斬波器和WBI細胞形成前饋抑制電路。垂直細胞提供了對斬波器和WBI細胞的前饋抑制。借助於連通性模型,WBI細胞被寬泛地調諧,從而最佳地回應於寬頻雜訊(例如WBI細胞可以最大地用白色雜訊來驅動)。垂直細胞同樣借助於連通性模式被狹窄地調諧,從而最佳地回應於頻譜密集的聲音,諸如語音。WBI細胞亦排他性地由來自聽覺神經的LSR神經元來驅動,這導致對於大(特別是突然)的聲音的選擇性觸發。系統的動態特性被設置為使得適度嘈雜環境中的典型聲
音將主要激發大量的WBI細胞,但這些細胞隨後將快速地被垂直細胞抑制,從而導致WBI細胞集群中的全面發動偵測性質。該性質匹配這些細胞類型的已知生理學。
以上描述的此種生理學中的至少一些在圖5的示例神經網路500中被建模。對於每個通道504,LSR神經元模型508可激發垂直神經元模型514。垂直神經元模型514可進而抑制WBI神經元模型512,如圖所示。將垂直神經元模型514包括在神經網路500中維持了VCN 108的表示中的頻譜峰值和發動偵測功能。使用垂直神經元模型514亦可以保持斬波器神經模型510的頻譜銳化。
圖8中的標繪820圖示了標繪800的示例聽覺信號中檢出的發動,如由圖5的斬波器神經元模型510、WBI神經元模型512和垂直神經元模型514所決定的。注意,發動偵測可以並行地跨多個頻帶發生。
存在附加的可能實施方式。例如,在不包括垂直神經元模型514的神經網路中,WBI神經元模型512可強烈地抑制斬波器神經元模型510,由此在斬波器神經元模型集群中產生發動偵測表示(即斬波器神經元模型510可執行發動偵測功能)。然而,該替換方法不匹配已知生理學。在其他態樣,可計算任何或所有神經元模型類型的暫態觸發率,並且可尋求閾值交叉。
圖11圖示了根據本案的某些態樣的使用斬波器細胞和WBI細胞對示例聽覺信號的發動偵測。圖形1110圖示了在示例聽覺信號的電表示沿聽覺神經行進時的該電表示。圖形
1120圖示了WBI細胞在對圖形1110中的電表示進行聽覺處理之後的輸出。圖形1130圖示了斬波器細胞的輸出可被用於發動偵測。
類似地,圖12圖示了具有較弱前饋抑制的WBI細胞可如何銳化信號。圖形1210圖示了在示例聽覺信號的電表示沿聽覺神經行進時的該電表示。圖12中的聽覺信號比圖11中的信號更嘈雜。如上所述,WBI細胞被寬泛地調諧並且由白色雜訊最大化地驅動。圖形1220圖示了WBI細胞在對圖形1210中的電表示進行聽覺處理之後的輸出。圖形1230圖示了斬波器細胞的輸出。
儘管存在大量的習知方法來對信號執行發動偵測,但是沒有任一種方法能對信號的尖峰表示起作用。基於尖峰的發動偵測將具有附加的優點,因為這樣的偵測複製了高度進化的生物學系統。一個這樣的優點是適應於變化的聽覺環境的能力。該模型的生物學準確度可給予人類聽覺處理的亦未知的附加有用特性。
圖13是根據本案的某些態樣的用於執行信號的發動偵測的示例操作1300的流程圖。操作1300可以硬體(例如由包括一或多個處理單元的處理系統)、以軟體或以韌體來執行。操作1300可始於如上關於圖6描述的操作602-608。
在1310處,可針對每個通道基於第一類型的尖峰神經元模型的第一輸出和基於第二類型的尖峰神經元模型的第二輸出來偵測信號的一或多個發動。對於某些態樣,作為選項,操作1300可進一步包括針對每個通道,基於第一和第二
類型的尖峰神經元模型相應的第一和第二輸出來標識信號的一或多個頻譜峰值。可任選地,操作1300可進一步包括在1314處將對檢出的發動的指示輸出至顯示器。
根據某些態樣,在1310處偵測發動可包括針對每個通道將第一類型的第一輸出發送給第三類型的尖峰神經元模型,並且針對每個通道將第二類型的第二輸出發送給第四類型的尖峰神經元模型。第三類型可在至少一個特性態樣不同於第四類型。對於某些態樣,第三類型的尖峰神經元模型可表示腹側耳蝸核中的斬波器細胞。第四類型的尖峰神經元模型可表示腹側耳蝸核中的WBI細胞。對於某些態樣,至少一個特性包括尖峰閾值或頻寬中的至少一者。對於某些態樣,第三類型具有比第四類型的尖峰神經元模型更低的尖峰閾值並且被更狹窄地調諧。對於某些態樣,對於每個通道,第四類型抑制第三類型的尖峰神經元模型。
根據某些態樣,在1310處偵測發動可進一步包括針對每個通道,提供用第五類型的尖峰神經元模型對第三或第四類型的尖峰神經元模型中的至少一者的回饋抑制。第五類型的尖峰神經元模型可表示背側耳蝸核中的垂直細胞。
圖14圖示了根據本案的某些態樣的使用通用處理器1402來實現以上提及的用於神經處理的方法的示例軟體實現1400。與計算網路(神經網路)的每個連接(突觸)相關聯的權重(或其他參數)可被儲存在記憶體塊1404中,而與正在通用處理器1402處執行的神經處理有關的指令可從程式記憶體1406中被載入。在本案的一態樣,被載入到通用處理器
1402中的指令可包括:用於接收信號的代碼;用於使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中的代碼;用於將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型的代碼;及用於將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型的代碼,其中第二類型在至少一個參數態樣不同於第一類型的尖峰神經元模型。
圖15圖示了根據本案的某些態樣的以上提及的用於神經處理的方法的示例實現1500,其中記憶體1502可經由互連網路1504與計算網路(神經網路)的個體(分散式)處理單元(神經處理器)1506對接。與計算網路(神經網路)的一或多個連接(突觸)相關聯的一或多個權重(或其他參數)可經由網際網路1504的連接從記憶體1502被載入到每個處理單元(神經處理器)1506。在本案的一態樣,處理單元1506可被配置為:接收信號;使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型;及針對每個通道基於第一類型的尖峰神經元模型的第一輸出和第二類型的尖峰神經元模型的第二輸出來標識信號中的一或多個頻譜峰值。
圖16圖示了根據本案的某些態樣的基於分散式權重(或其他參數)記憶體1602和分散式處理單元(神經處理器)1604的以上所提及的用於神經處理的方法的示例實現1600。如圖16中所圖示的,一個記憶體組1602可直接與計算網路
(神經網路)的一個處理單元1604對接,其中該記憶體組1602可儲存與該處理單元(神經處理器)1604相關聯的一或多個連接(突觸)的一或多個權重(或其他參數)。在本案的一態樣,處理單元1604可被配置為:接收信號;使用複數個具有不同頻率通帶的濾波器將信號濾波到複數個通道中;將每個通道中的經濾波信號發送給第一類型的尖峰神經元模型;將每個通道中的經濾波信號發送給第二類型的尖峰神經元模型;及針對每個通道基於第一類型的尖峰神經元模型的第一輸出和第二類型的尖峰神經元模型的第二輸出來偵測信號的一或多個發動。
以上所描述的方法的各種操作可由能夠執行相應功能的任何合適的裝置來執行。這些裝置可包括各種硬體及/或軟體元件及/或模組,包括但不限於電路、特殊應用積體電路(ASIC)或處理器。一般而言,在存在附圖中圖示的操作的場合,那些操作可具有帶相似編號的相應配對手段功能元件。
如本文中所使用的,術語「決定」廣泛涵蓋各種各樣的動作。例如,「決定」可包括演算、計算、處理、推導、研究、檢視(例如,在表、資料庫或其他資料結構中檢視)、查明及類似動作。而且,「決定」可包括接收(例如接收資訊)、存取(例如存取記憶體中的資料)及類似動作。同樣,「決定」亦可包括解析、選擇、選取、建立及類似動作。
如本文中所使用的,引述一列項目中的「至少一個(者)」的短語是指這些專案的任何組合,包括單個成員。作
為示例,「a、b或c中的至少一個(者)」旨在涵蓋:a、b、c、a-b、a-c、b-c、以及a-b-c。
結合本案描述的各種說明性邏輯區塊、模組、以及電路可用通用處理器、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)或其他可程式設計邏輯裝置(PLD)、個別閘門或電晶體邏輯、個別的硬體元件或其設計成執行本文中描述的功能的任何組合來實現或執行。通用處理器可以是微處理器,但在替換方案中,處理器可以是任何可商業購得的處理器、控制器、微控制器或狀態機。處理器亦可以被實現為計算設備的組合,例如DSP與微處理器的組合、複數個微處理器、與DSP核心協同的一或多個微處理器或任何其他此類配置。
結合本案描述的方法或演算法的步驟可直接在硬體中、在由處理器執行的軟體模組中或在這兩者的組合中實施。軟體模組可常駐在本領域所知的任何形式的儲存媒體中。可使用的儲存媒體的一些示例包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可移除磁碟、CD-ROM,等等。軟體模組可包括單一指令、或許多數指令,且可分佈在若干不同的程式碼片段上,分佈在不同的程式間以及跨多個儲存媒體分佈。儲存媒體可被耦合到處理器以使得處理器能從/向儲存媒體讀寫資訊。替換地,儲存媒體可以被整合到處理器。
本文所揭示的方法包括用於達成所描述的方法的一或多個步驟或動作。這些方法步驟及/或動作可以彼此互換而
不會脫離請求項的範圍。換言之,除非指定了步驟或動作的特定次序,否則具體步驟及/或動作的次序及/或使用可以改動而不會脫離請求項的範圍。
所描述的功能可以硬體、軟體、韌體或其任何組合實現。若以硬體實現,則示例硬體設定可包括設備中的處理系統。處理系統可以用匯流排架構來實現。取決於處理系統的具體應用和整體設計約束,匯流排可包括任何數目的互連匯流排和橋接器。匯流排可將包括處理器、機器可讀取媒體以及匯流排介面的各種電路連結在一起。匯流排介面可用於尤其將網路介面卡經由匯流排連接至處理系統。網路介面卡可用於實現信號處理功能。對於某些態樣,使用者介面(例如,按鍵板、顯示器、滑鼠、遊戲操縱桿等)亦可被連接至匯流排。匯流排亦可連結各種其他電路(諸如定時源、周邊設備、穩壓器、電源管理電路等),這些電路在本領域中是眾所周知的,因此將不再贅述。
處理器可負責管理匯流排和一般處理,包括執行儲存在機器可讀取媒體上的軟體。處理器可用一或多個通用及/或專用處理器來實現。示例包括微處理器、微控制器、DSP處理器以及其他能執行軟體的電路系統。軟體應當被寬泛地解釋成意指指令、資料或其任何組合,無論是被稱作軟體、韌體、仲介軟體、微代碼、硬體描述語言或其他。作為示例,機器可讀取媒體可以包括RAM(隨機存取記憶體)、快閃記憶體、ROM(唯讀記憶體)、PROM(可程式設計唯讀記憶體)、EPROM(可抹除可程式設計唯讀記憶體)、EEPROM(電
可抹除可程式設計唯讀記憶體)、暫存器、磁碟、光碟、硬碟或者任何其他合適的儲存媒體或其任何組合。機器可讀取媒體可被實施在電腦程式產品中。電腦程式產品可以包括包裝材料。
在硬體實現中,機器可讀取媒體可以是處理系統中與處理器分開的一部分。然而,如熟習此項技術者將容易領會的,機器可讀取媒體或其任何部分可在處理系統外部。作為示例,機器可讀取媒體可包括傳輸線、由資料調制的載波及/或與設備分開的電腦產品,所有這些皆可由處理器經由匯流排介面來存取。替換地或補充地,機器可讀取媒體或其任何部分可被整合到處理器中,諸如快取記憶體及/或通用暫存器檔可能就是這種情形。
處理系統可以被配置為通用處理系統,該通用處理系統具有一或多個提供處理器功能性的微處理器和提供機器可讀取媒體中的至少一部分的外部記憶體,其皆經由外部匯流排架構與其他支援電路系統連結在一起。可替代地,處理系統可以包括一或多個神經形態處理器以用於實現本文述及之神經元模型和神經系統模型。作為另一替代方案,處理系統可以用帶有整合在單塊晶片中的處理器、匯流排介面、使用者介面、支援電路系統及至少一部分機器可讀取媒體的ASIC(特殊應用積體電路)來實現,或者用一或多個FPGA(現場可程式設計閘陣列)、PLD(可程式設計邏輯裝置)、控制器、狀態機、閘控邏輯、個別硬體元件、或者任何其他合適的電路系統、或者能執行本案通篇所描述的各種功能性的電
路的任何組合來實現。取決於具體應用和施加於整體系統上的總設計約束,熟習此項技術者將認識到如何最佳地實現關於處理系統所描述的功能。
機器可讀取媒體可包括數個軟體模組。這些軟體模組包括當由處理器執行時使處理系統執行各種功能的指令。這些軟體模組可包括傳送模組和接收模組。每個軟體模組可以常駐在單個存放裝置中或者跨多個存放裝置分佈。作為示例,當觸發事件發生時,可以從硬體驅動器中將軟體模組載入到RAM中。在軟體模組執行期間,處理器可以將一些指令載入到快取記憶體中以提高存取速度。隨後可將一或多個快取記憶體行載入到通用暫存器檔中以供處理器執行。在以下談及軟體模組的功能性時,將理解此類功能性是在處理器執行來自軟體模組的指令時由處理器來實現的。
若在軟體中實現,則各功能可作為一或多數指令或代碼儲存在電腦可讀取媒體上或藉其進行傳送。電腦可讀取媒體包括電腦儲存媒體和通訊媒體兩者,這些媒體包括促成電腦程式從一地向另一地轉移的任何媒體。儲存媒體可以是能被電腦存取的任何可用媒體。作為示例而非限定,這樣的電腦可讀取媒體可包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存、磁碟儲存或其他磁存放裝置、或能被用來攜帶或儲存指令或資料結構形式的期望程式碼且能被電腦存取的任何其他媒體。任何連接亦被正當地稱為電腦可讀取媒體。例如,若軟體是使用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL)、或無線技術(諸如紅外(IR)、無線電、以及
微波)從web網站、伺服器、或其他遠端源傳送而來,則同軸電纜、光纖電纜、雙絞線、DSL、或無線技術(諸如紅外、無線電、以及微波)就被包括在媒體的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮光碟(CD)、鐳射光碟、光碟、數位多功能光碟(DVD)、軟碟、和藍光®光碟,其中盤(disk)常常磁性地再現資料,而碟(disc)用鐳射來光學地再現資料。因此,在一些態樣,電腦可讀取媒體可包括非瞬態電腦可讀取媒體(例如,有形媒體)。另外,對於其他態樣,電腦可讀取媒體可包括瞬態電腦可讀取媒體(例如,信號)。上述的組合亦應被包括在電腦可讀取媒體的範圍內。
因此,某些態樣可包括用於執行本文仲介紹的操作的電腦程式產品。例如,此種電腦程式產品可包括其上儲存(及/或編碼)有指令的電腦可讀取媒體,這些指令能由一或多個處理器執行以執行本文中所描述的操作。對於某些態樣,電腦程式產品可包括包裝材料。
另外,應領會,用於執行本文中所描述的方法和技術的模組及/或其他合適裝置能由設備在適用的場合下載及/或以其他方式獲得。例如,此類設備能被耦合至伺服器以促成用於執行本文中所描述的方法的裝置的轉移。替換地,本文中所描述的各種方法能經由儲存裝置(例如,RAM、ROM、諸如壓縮光碟(CD)或軟碟之類的實體儲存媒體等)來提供,以使得一旦將儲存裝置耦合到或提供給設備,設備就能獲得各種方法。此外,能利用適於向設備提供本文中所描述的方法和技術的任何其他合適的技術。
應該理解的是,請求項並不被限定於以上所圖示的精確配置和元件。可在以上所描述的方法和裝置的佈局、操作和細節上作出各種改動、更換和變形而不會脫離請求項的範圍。
500‧‧‧神經網路
502‧‧‧信號
5041‧‧‧通道
504N‧‧‧通道
506‧‧‧HSR神經元模型
5061‧‧‧HSR神經元模型
508‧‧‧LSR神經元模型
510‧‧‧斬波器神經元模型
512‧‧‧WBI神經元模型
514‧‧‧垂直神經元模型
Claims (44)
- 一種用於神經處理的方法,包括以下步驟:接收一信號;使用複數個具有不同頻率通帶的濾波器將該信號濾波到複數個通道中;將每個該等通道中的該經濾波信號發送給一第一類型的尖峰神經元模型;及將每個該等通道中的該經濾波信號發送給一第二類型的尖峰神經元模型,其中該第二類型在至少一個參數態樣不同於該第一類型的尖峰神經元模型。
- 如請求項1述及之方法,其中該信號包括一音訊信號的一電表示。
- 如請求項2述及之方法,其中該複數個通道跨越一聽覺頻率範圍。
- 如請求項1述及之方法,其中該至少一個參數包括動態範圍、尖峰閾值或鎖相能力中的至少一者。
- 如請求項1述及之方法,其中該第一類型的尖峰神經元模型具有比該第二類型的尖峰神經元模型更小的一關於強度的動態範圍或一更大的鎖相能力中的至少一者。
- 如請求項1述及之方法,其中該第一類型的尖峰神經元模型專用於編碼時間資訊,並且其中該第二類型的尖峰神經元模型專用於編碼強度資訊。
- 如請求項1述及之方法,其中該第一類型的尖峰神經元模型表示一聽覺神經的一高自發率(HSR)神經元,並且其中該第二類型的尖峰神經元模型表示該聽覺神經的一低自發率(LSR)神經元。
- 如請求項1述及之方法,亦包括以下步驟:將每個該等通道中的該經濾波信號輸出至一第三類型的尖峰神經元模型,其中該第三類型在該至少一個參數態樣不同於該第一類型和該第二類型的尖峰神經元模型。
- 如請求項8述及之方法,其中該第三類型的尖峰神經元模型表示一聽覺神經的一中等自發率(MSR)神經元。
- 如請求項1述及之方法,亦包括以下步驟:從所有該複數個通道中將該第一和該第二類型的尖峰神經元模型兩者的一集合輸出至一顯示器。
- 如請求項1述及之方法,其中該第一或該第二類型的尖峰神經元模型中的至少一者包括一帶洩漏積分觸發(LIF)神經元模型。
- 一種用於神經處理的裝置,包括:一處理系統,其配置成:接收一信號;使用複數個具有不同頻率通帶的濾波器將該信號濾波到複數個通道中;將每個該等通道中的該經濾波信號發送給一第一類型的尖峰神經元模型;及將每個該等通道中的該經濾波信號發送給一第二類型的尖峰神經元模型,其中該第二類型在至少一個參數態樣不同於該第一類型的尖峰神經元模型。
- 如請求項12述及之裝置,其中該信號包括一音訊信號的一電表示。
- 如請求項13述及之裝置,其中該複數個通道跨越一聽覺頻率範圍。
- 如請求項12述及之裝置,其中該至少一個參數包括動態範圍、尖峰閾值、或鎖相能力中的至少一者。
- 如請求項12述及之裝置,其中該第一類型的尖峰神經元模型具有比該第二類型的尖峰神經元模型更小的一關於強度的動態範圍或一更大的鎖相能力中的至少一者。
- 如請求項12述及之裝置,其中該第一類型的尖峰神經元模型專用於編碼時間資訊,並且其中該第二類型的尖峰神經元模型專用於編碼強度資訊。
- 如請求項12述及之裝置,其中該第一類型的尖峰神經元模型表示一聽覺神經的一高自發率(HSR)神經元,並且其中該第二類型的尖峰神經元模型表示該聽覺神經的一低自發率(LSR)神經元。
- 如請求項12述及之裝置,其中該處理系統亦被配置為:將每個該等通道中的該經濾波信號輸出至一第三類型的尖峰神經元模型,其中該第三類型在該至少一個參數態樣不同於該第一類型和該第二類型的尖峰神經元模型。
- 如請求項19述及之裝置,其中該第三類型的尖峰神經元模型表示一聽覺神經的一中等自發率(MSR)神經元。
- 如請求項12述及之裝置,其中該處理系統亦被配置為:從所有該複數個通道中將該第一和該第二類型的尖峰神經元模型兩者的一集合輸出至一顯示器。
- 如請求項12述及之裝置,其中該第一或該第二類型的尖峰神經元模型中的至少一者包括一帶洩漏積分觸發(LIF)神 經元模型。
- 一種用於神經處理的設備,包括:用於接收一信號的裝置;用於使用複數個具有不同頻率通帶的濾波器將該信號濾波到複數個通道中的裝置;用於將每個該等通道中的該經濾波信號發送給一第一類型的尖峰神經元模型的裝置;及用於將每個該等通道中的該經濾波信號發送給一第二類型的尖峰神經元模型的裝置,其中該第二類型在至少一個參數態樣不同於該第一類型的尖峰神經元模型。
- 如請求項23述及之設備,其中該信號包括一音訊信號的一電表示。
- 如請求項24述及之設備,其中該複數個通道跨越一聽覺頻率範圍。
- 如請求項23述及之設備,其中該至少一個參數包括動態範圍、尖峰閾值或鎖相能力中的至少一者。
- 如請求項23述及之設備,其中該第一類型的尖峰神經元模型具有比該第二類型的尖峰神經元模型更小的一關於強度的動態範圍或一更大的鎖相能力中的至少一者。
- 如請求項23述及之設備,其中該第一類型的尖峰神經元模型專用於編碼時間資訊,並且其中該第二類型的尖峰神經元模型專用於編碼強度資訊。
- 如請求項23述及之設備,其中該第一類型的尖峰神經元模型表示一聽覺神經的一高自發率(HSR)神經元,並且其中該第二類型的尖峰神經元模型表示該聽覺神經的一低自發率(LSR)神經元。
- 如請求項23述及之設備,亦包括用於將每個該等通道中的該經濾波信號輸出至一第三類型的尖峰神經元模型的裝置,其中該第三類型在該至少一個參數態樣不同於該第一類型和該第二類型的尖峰神經元模型。
- 如請求項30述及之設備,其中該第三類型的尖峰神經元模型表示一聽覺神經的一中等自發率(MSR)神經元。
- 如請求項23述及之設備,亦包括用於從所有該複數個通道中將該第一和該第二類型的尖峰神經元模型兩者的一集合輸出至一顯示器的裝置。
- 如請求項23述及之設備,其中該第一或該第二類型的尖峰神經元模型中的至少一者包括一帶洩漏積分觸發(LIF)神 經元模型。
- 一種用於神經處理的電腦程式產品,包括一包含可執行用於以下動作的指令的電腦可讀取媒體:接收一信號;使用複數個具有不同頻率通帶的濾波器將該信號濾波到複數個通道中;將每個該等通道中的該經濾波信號發送給一第一類型的尖峰神經元模型;及將每個該等通道中的該經濾波信號發送給一第二類型的尖峰神經元模型,其中該第二類型在至少一個參數態樣不同於該第一類型的尖峰神經元模型。
- 如請求項34述及之電腦程式產品,其中該信號包括一音訊信號的一電表示。
- 如請求項35述及之電腦程式產品,其中該複數個通道跨越一聽覺頻率範圍。
- 如請求項34述及之電腦程式產品,其中該至少一個參數包括動態範圍、尖峰閾值或鎖相能力中的至少一者。
- 如請求項34述及之電腦程式產品,其中該第一類型的尖峰神經元模型具有比該第二類型的尖峰神經元模型更小的一 關於強度的動態範圍或一更大的鎖相能力中的至少一者。
- 如請求項34述及之電腦程式產品,其中該第一類型的尖峰神經元模型專用於編碼時間資訊,並且其中該第二類型的尖峰神經元模型專用於編碼強度資訊。
- 如請求項34述及之電腦程式產品,其中該第一類型的尖峰神經元模型表示一聽覺神經的一高自發率(HSR)神經元,並且其中該第二類型的尖峰神經元模型表示該聽覺神經的一低自發率(LSR)神經元。
- 如請求項34述及之電腦程式產品,亦包括可執行以將每個該等通道中的該經濾波信號輸出至一第三類型的尖峰神經元模型的指令,其中該第三類型在該至少一個參數態樣不同於該第一類型和該第二類型的尖峰神經元模型。
- 如請求項41述及之電腦程式產品,其中該第三類型的尖峰神經元模型表示一聽覺神經的一中等自發率(MSR)神經元。
- 如請求項34述及之電腦程式產品,亦包括可執行以從所有該複數個通道中將該第一和該第二類型的尖峰神經元模型兩者的一集合輸出至一顯示器的指令。
- 如請求項34述及之電腦程式產品,其中該第一或該第二類型的尖峰神經元模型中的至少一者包括一帶洩漏積分觸發(LIF)神經元模型。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US13/669,516 US20140129495A1 (en) | 2012-11-06 | 2012-11-06 | Methods and apparatus for transducing a signal into a neuronal spiking representation |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201423727A true TW201423727A (zh) | 2014-06-16 |
| TWI532036B TWI532036B (zh) | 2016-05-01 |
Family
ID=49519113
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW102138297A TWI532036B (zh) | 2012-11-06 | 2013-10-23 | 用於將信號換成神經元尖峰表示的方法、電腦程式產品和裝置 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20140129495A1 (zh) |
| TW (1) | TWI532036B (zh) |
| WO (1) | WO2014074280A1 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI697891B (zh) * | 2018-11-23 | 2020-07-01 | 聆感智能科技有限公司 | 入耳式語音裝置 |
| CN119889330A (zh) * | 2024-11-28 | 2025-04-25 | 北京大学 | 听觉仿生声纹识别方法、装置、电子设备及存储介质 |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9147157B2 (en) | 2012-11-06 | 2015-09-29 | Qualcomm Incorporated | Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal |
| US9269045B2 (en) * | 2014-02-14 | 2016-02-23 | Qualcomm Incorporated | Auditory source separation in a spiking neural network |
| CN117437971A (zh) * | 2022-07-12 | 2024-01-23 | 人工智能与数字经济广东省实验室(广州) | 一种评估精神疾病和/或神经退行性疾病治疗效果的系统 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4774677A (en) * | 1981-08-06 | 1988-09-27 | Buckley Bruce S | Self-organizing circuits |
| US5285522A (en) * | 1987-12-03 | 1994-02-08 | The Trustees Of The University Of Pennsylvania | Neural networks for acoustical pattern recognition |
| DE69030561T2 (de) * | 1989-12-28 | 1997-10-09 | Sharp Kk | Spracherkennungseinrichtung |
| US5533383A (en) * | 1994-08-18 | 1996-07-09 | General Electric Company | Integrated acoustic leak detection processing system |
| JP3310498B2 (ja) * | 1994-09-02 | 2002-08-05 | 独立行政法人産業技術総合研究所 | 生体情報解析装置および生体情報解析方法 |
| US5794191A (en) * | 1996-07-23 | 1998-08-11 | Industrial Technology Research Institute | Neural network based speech recognition method utilizing spectrum-dependent and time-dependent coefficients |
-
2012
- 2012-11-06 US US13/669,516 patent/US20140129495A1/en not_active Abandoned
-
2013
- 2013-10-17 WO PCT/US2013/065535 patent/WO2014074280A1/en not_active Ceased
- 2013-10-23 TW TW102138297A patent/TWI532036B/zh not_active IP Right Cessation
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI697891B (zh) * | 2018-11-23 | 2020-07-01 | 聆感智能科技有限公司 | 入耳式語音裝置 |
| CN119889330A (zh) * | 2024-11-28 | 2025-04-25 | 北京大学 | 听觉仿生声纹识别方法、装置、电子设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2014074280A1 (en) | 2014-05-15 |
| US20140129495A1 (en) | 2014-05-08 |
| TWI532036B (zh) | 2016-05-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Yang et al. | The SJTU robust anti-spoofing system for the ASVspoof 2019 challenge. | |
| TWI532036B (zh) | 用於將信號換成神經元尖峰表示的方法、電腦程式產品和裝置 | |
| David et al. | Rapid synaptic depression explains nonlinear modulation of spectro-temporal tuning in primary auditory cortex by natural stimuli | |
| Dau et al. | Auditory stream formation affects comodulation masking release retroactively | |
| Shamma et al. | Spectro-temporal templates unify the pitch percepts of resolved and unresolved harmonics | |
| CN109308903B (zh) | 语音模仿方法、终端设备及计算机可读存储介质 | |
| Orcioni et al. | Automatic decoding of input sinusoidal signal in a neuron model: High pass homomorphic filtering | |
| TW201421380A (zh) | 用於標識信號的神經元尖峰表示中的頻譜峰值的方法和裝置 | |
| TW201423613A (zh) | 用於在信號的神經元尖峰表示中執行發動偵測的方法和裝置 | |
| Franosch et al. | Zwicker tone illusion and noise reduction in the auditory system | |
| Glackin et al. | Feature extraction from spectro-temporal signals using dynamic synapses, recurrency, and lateral inhibition | |
| de Cheveigné | Pitch shifts of mistuned partials: a time-domain model | |
| Singh et al. | CAR-lite: A multi-rate cochlear model on FPGA for spike-based sound encoding | |
| Uysal et al. | Spike-based feature extraction for noise robust speech recognition using phase synchrony coding | |
| Friedel et al. | Neuronal identification of acoustic signal periodicity | |
| de Cheveigné | Predictive coding in the auditory brainstem | |
| Mitsis et al. | Principal dynamic mode analysis of action potential firing in a spider mechanoreceptor | |
| Chintanpalli et al. | Computational model predictions of level dependent changes in vowel identification | |
| Wang et al. | A Biological Population Threshold Coding with Robust Feature Extraction and Neuronal Jitter for SNN-based Speech Recognition | |
| Tashan et al. | Speaker verification inspired by the physiology of hearing using spiking self‐organising map | |
| Hoffman | Using Computational Optimization for Audio Filter Design to Improve Frequency Selectivity in the Passive Cochlea | |
| Cheng et al. | Computational modeling of auditory brainstem responses derived from modified speech. | |
| Kegler | Computational modelling of neural mechanisms underlying natural speech perception | |
| Kasabov | Audio-and Visual Information Processing in the Brain and Its Modelling with Evolving SNN | |
| Glackin et al. | Lateral inhibitory networks: Synchrony, edge enhancement, and noise reduction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |