TW318926B - - Google Patents
Download PDFInfo
- Publication number
- TW318926B TW318926B TW086101557A TW86101557A TW318926B TW 318926 B TW318926 B TW 318926B TW 086101557 A TW086101557 A TW 086101557A TW 86101557 A TW86101557 A TW 86101557A TW 318926 B TW318926 B TW 318926B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound level
- speech
- sound
- voice
- function
- Prior art date
Links
- 230000006870 function Effects 0.000 claims description 132
- 239000013598 vector Substances 0.000 claims description 106
- 238000001228 spectrum Methods 0.000 claims description 100
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 239000003623 enhancer Substances 0.000 claims description 9
- 230000002079 cooperative effect Effects 0.000 claims description 8
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 claims 3
- 238000001914 filtration Methods 0.000 claims 1
- 239000004615 ingredient Substances 0.000 claims 1
- 238000000034 method Methods 0.000 description 54
- 230000008569 process Effects 0.000 description 34
- 230000005540 biological transmission Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 28
- 230000003595 spectral effect Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 22
- 238000005311 autocorrelation function Methods 0.000 description 21
- 238000007906 compression Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006835 compression Effects 0.000 description 11
- 230000005284 excitation Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 8
- 230000003111 delayed effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000007639 printing Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
Description
SiSii 约 A7 五、發明説明(·! 經濟部中央樣準局貝工消費合作社印製 相關專利案 相關專利案如代理人編號pT〇2l22U之黃等人申請的美國 =利’名稱「用於非常低位元率聲音訊息系統之MBE合成 器」’其轉讓給本發明之受讓人。 發明範圍 -本發明大致有關於通訊系統,尤其有關於使用非常低位 几率時域語音分析器用於聲音訊息之壓縮聲音數位通訊系 統。 發明背景 通訊系統如呼叫系統在過去時間中已解決訊息長度,使 用者數目與方便性的問題以更有效的操作系統。使用者數 目與訊息長度有限,以避免頻道過窄及避免傳送時間延遲 過長。頻道容量,頻道上的使用者數目,系統功能與訊息 類型都直接影響使用者的方便。在呼叫系統中,唯聲音呼 叫器僅告知使用者呼叫一預設電話號碼,其提供最高的頻 道容量,惟對於使用者有些不便。傳統類比聲音呼叫器允 許使用者接收更完整的訊息,惟嚴格限制已知頻道上的使 用者數目。類比聲音呼叫器是即時域裝置者,也有以下缺 點即不替使用者提供將收到的訊息儲存與重覆的工作。 有數字與文數字顯示一記憶體功能的數位呼叫器的產生 可克服許多與舊式呼叫器有關的問題。這些數位呼叫器 善呼叫頻道的訊息處理容量,並提供使用者將訊息错存 備稍後查詢的功能。 雖然具有數字與文數字顯示的數位呼叫器提供許多優 具 改 以 (請先閲讀背面之注意事項再填寫本頁) 訂 * 4 本紙張尺度適用中國國家標率(CN'S ) Α4規格(210 X29*7公釐〉 318^26 五、發明説明(2 ) 點,-些使用者仍偏好具有聲音提示的呼叫器。爲 ;艮;:的數位頻道上提供這種服務,已設法使用各種數: θ縮技術與合成技術,各有其優點與限制。根據聲立 編碼器技術的壓縮法目前提供—種極進步的 = 料率聲音编碼器中’多頻激勵(麵)聲音編; 益疋取自然的聲音編碼器。 &聲音編碼器分析以數種參數分析稱爲語音框的短語音 段,並將其加上數個數位化且編碼的參數以便傳送。—般 分析的語音特徵包括聲音特徵,聲音高低,框能量,與頻 ,特徵。聲音編碼器合成器以模仿人類聲音機構的方式用 攻些參數來重建原始語音。聲音编碼器合成器將人類聲音 建成激勵源的模型,由聲音高低與框能量參數控制,接著 是由頻譜參數控制的頻譜成型。 經濟部中央標準局員工消費合作社印製 聲Η特徵敘述語音波形的重覆性。語音由數個週期組 成’其中語音波形具有重覆的本質與週期,而且不能偵測 到重覆特徵。週期中具有週期重覆特徵的波形則稱爲聲音 化。週期中大致具有總隨機特徵的波形則稱爲無聲化。聲 音編碼器語音合成器用聲音化/無聲化的特徵來決定激勵信 號的類型,其將用以複製語音段。由於人類發聲的複雜與 不規則性,沒有任何單一參數能完全決定語音框何時是聲 音化或無聲化。 聲音高低定義發聲波形的重覆部分的基本頻率,一般是 以語音波形的發聲部分的重覆段的時間週期或聲音高低週 期來定義聲音高低。語音波形是極複雜的波形且諧波很 -5 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 五、發明説明(3 ) =,語音波形的複雜使得它極難取得聲音高低資訊,聲音 高低頻率的變化也必須平滑的追蹤MBE聲音編碼器合成器 以平滑㈣建原始語音。多㈣聲音編碼器使用時域自相 關函數以執行聲音高低偵測與追蹤。自相關是—種耗費計 算與時間的過程,而且也看出當使用電話網路的語音時, 傳統自相關方法並不可靠。電話網路的頻率響應(3()01^到 3400 Hz)使得具有低聲音高低頻率(人類聲音的基本聲音高 低頻率範圍是50 Hz到400 Hz)的較低語音諧波產生極:: ,減。,爲基頻的極所衰減,聲音高低追㈣會錯誤的將 第二或第三諧波當成基頻。人類的聽覺處理對於聲音高低 變化很敏感而且重建語音的感受品質受到導出聲音高低=正 確性的極強影響》 框能量是語音框的平均RMS功率的常態測量,此參數定 義語音框肀語音的強度。 頻瑨特徵定義語音的發聲時諳波的相對振幅與基本聲音 高低頻率,及雜訊般無聲語音段的相對頻譜形狀。傳送= 資料則足義重覆語音信號的頻譜特徵,欠佳的頻譜成形使 得聰聲音編碼器合成器的聲音重建不佳且壓抑雜訊的功 能不佳。 發聲週期中的人類聲音具有發聲的頻譜部分與無聲的頻 譜部分。MBE聲音编碼器因爲激勵而產生自然的完整聲 音,於發聲週期中是發聲與無聲頻帶的混合。將語音頻譜 分成數個頻帶,並決定各頻帶中各頻帶 MBE語音合成器產生―組額外資料以控制發聲=二 ox A7 B7 五、發明説明(4 ) 經 濟 部 t 央 標 準 員 工 消 費 合 作 社 印- 製 勵。在傳統MBE聲音编碼器中,頻帶發聲/無聲決定的測量 與聲音高低無關而且耗費計算。聲音高低的誤差會在頻帶 發聲/無聲決定中產生誤差而影響合成語音品質。頻帶發聲 /無聲資料的傳送也大致增加必須傳送的資料量。 傳統MBE合成器需要聲音高低信號諧波的相位關係上的 資訊以正確的複製語音,相位資訊的傳送又增加要傳送的 資料。 傳統MBE合成器能以每秒2400到6400位元的資料率傳送 自然的完整語音,MBE合成器用於數種商用行動通訊系統 如INMARSAT(國際海上衛星組織)與伊州香堡市的摩托羅 拉公司出品的ASTRO™可攜式收發器,標準MBE聲音编碼 器壓縮法目前是以2種無線傳送方式成功的使用,但不能 在呼叫頻道上使用時提供所需的壓縮度。聲音訊息用目前 的技術來數位化编碼會獨佔大部分的呼叫頻道容量而使系 統不能成功的應用於商業上。 因此需要一種裝置能在通訊系統中將頻道的使用最佳 化,這種系統如呼叫系統中的呼叫頻道或非即時一路或二 路資料通訊系統中的資料頻道,且能簡單又正確的決定語 音的發聲與無聲部分,正確的決定與追蹤基本聲音高低頻 率,這是當基本聲音高低成份的頻率頻譜爲衰減時,且大 大減少傳送發聲/無聲頻帶資訊所需的資料量。也需要一種 數位编碼聲音訊息的裝置,依此最後的資料是極高的壓縮 且保持可接受的語音品質,且能容易的與通訊頻道上傳送 的一般資料混合。 ----------t------訂------線 — (讀先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 經濟部中央標準局員工消費合作社印製 318^26 A7 B7五、發明説明(5 ) 發明之概述 簡言之,根據本發明之第一特性之壓縮聲音訊息之語音 分析器,其分成表示語音段的語音框,且已數位化以產生 數位語音樣本,包括:LPC分析器,量化器,及輸出緩衝 區。語音分析器包括以下各項:LPC分析器分析數位語音 樣本並導出一頻譜向量。記憶體儲存複數個預設頻譜向 量,其具有複數個對應索引。複數個預設頻譜向量也與複 數個預設發聲向量相關。量化器將導出之頻譜向量與複數 個預設頻譜向量比較,並導出一組距離値。量化器接著從 導出之該组距離値中選擇具有最短距離之距離値。輸出缓 衝區儲存預設頻譜向量之索引,該向量具有最短距離。 簡言之,根據本發明之第二特性之用於語音分析器之聲 音高低決定器,則決定語音之一或多個循序段中之聲音高 低,各語音段由預設之數個數位語音樣本來表示。聲音高 低決定器包括:一聲音高低函數產生器,一聲音高低強化 器,及一聲音高低偵測器。聲音高低函數產生器從數位語 音樣本中產生表示聲音高低函數之複數個聲音高低成份。 聲音高低函數定義複數個聲音高低成份中每一個之振幅。 聲音高低強化器利用一或多個循序語音段之聲音高低函數 來強化目前語音段之聲音高低函數。聲音高低偵測器藉由 決定強化聲音高低成份之聲音高低來偵測目前語音段之聲 音高低,該聲音高低具有複數個強化聲音高低成份之最大 振幅。 附圖之簡單説明 -8 - -----------、------ΪΤ------α.. (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐)
五、發明説明(6 而 圖1是根據本發明利用非常低低位元率時域語音分析器 用於聲骨訊息之通訊系統的方塊圈。 用m據自本發明㈣非常低低位元率時域語音分析器而 用於聲θ訊息〈呼叫端與附屬呼叫發射器的方塊圖。 圖3是顯示圖2呼叫端操作的流程圖。 圖4的資料流程圖顯示用於圖呼叫端的語音分析器 上視圖與功能之間的資料流程。 圖5流程圖説明用於圖4中語音分析器的碼薄的發展。 圖6顯示當分析後歸類爲發聲的類比語音波形段的例子。 圖7是圖1中通訊系統發展的2個聲音高低函數的圖形, 其對應圖6的類比波形3 圖8顯示當分析後歸類爲無聲的類比語音波形部分的例 子0 圖9是圖1中通訊系統發展的2個聲音高低函數的圖形, 其對應圖8的類比波形。 圖10顯示當分析後歸類爲從無聲轉移到發聲的類比語音 波形部分的例子。 圖11是圖1中通訊系統發展的2個聲音高低函數的圖形, 其對應圖1 0的類比波形。 圖12的方塊圖顯示用於圖4語音分析器的聲音高低決定 器的各部分。 圖1 3的流程圖詳細顯不用於圖1 2的聲音高低決定器的聲 音高低函數。 圖14的方塊圖詳細顯示用於圖12的聲音高低決定器的聲 -9- 本紙張尺度適用中國國家標準(CNS ) Μ规格(210X297公釐〉 ----------Ύ------、玎------鍊- (請先閲讀背面之注意事項再填寫本頁) 蛵濟部中央標準局員工消費合作社印裂 3i8W6 五 '發明説明(7 A7 B7 經 濟 部 t 央 樣 準 % 貝 X 消 費 合 作 社 印· 掣 音高低追縱器的操作。 圖1 5的流程圖詳細顯示用於圖1 4的聲音* έ蹤器 的動態程式函數的操作。 耸一偵制追蹤益 圖1 6的流程圖顯元·願,j & △ 貝不圖14的區域化自相關函數的第一部 分。 圖1 7的流程圖顯示圖id的區祕& & 网丁圃14的區域化自相關函數的第二部 分。 严一8的流程圖顯示用於決定圖“中2個聲音高低元素的 聲晋高低元素的選擇對數’其最正確的表示語音段的聲音 南低。 圖19的方塊圖顯示圖14中框發聲分類器的操作。 圖20顯示用於圖2呼叫端中的數位信號處理器的電氣方 塊圖。 較佳具體實例之詳細說明 圖1是根據本發明利用非常低低位元率時域語音分析器而 用於聲骨訊息之通訊系統如呼叫或資料傳送系統的方塊 圖。詳情如以下所述,呼叫端106使用唯一語音分析器107 以產生激勵參數與頻譜參數以表示語音資料與通訊接收器 如使用唯一MBE合成器116的呼叫接收器丨14以複製原始語 音。 例如會用呼叫系統來說明本發明’雖然將可了解的是任 何非即時通訊系統也適用於本發明。呼叫系統設計上即提 供服務給各種使用者,各需要不同的服務。一些使用者會 要求數字訊息服務,而其他使用者則要求文數字,還有_ 10 本紙浃尺度適用中國國家標準(CNS ) Μ規格(2丨0'〆297公釐) - {1Τ^---- (請先閱讀背面之注意事項再填寫本頁) 〇 i-' υ 〇 i-' υ 經濟部中央標準赁工消費合作社t Α7 Β7 五、發明説明(8 ) 些使用者需要聲骨訊息服務。在呼叫系統中,呼叫者經由 公眾夂換電話網路(PSTN) 104上的電話102而與呼叫端106 通訊以開始呼叫。呼叫端1〇6告知呼叫者作接收識別以及要 傳送訊息。於收到所需資訊時,呼叫端1〇6送回呼叫端1〇6 已收到訊息的指示。呼叫端1〇6編碼訊息並將編碼訊息置入 傳送仔列,在聲音訊息的情況下,呼叫端〗〇6用語音分析器 107壓縮並編碼訊息。在適當時間則用射頻發射器1〇8與發 射天線110傳送訊息。將可了解的是在同步發射系統中,也 能使用複數個發射器以涵蓋不同地理區域。 發射天線110傳送的信號由接收天線】12接收並由接收器 114處理,如圖丨的呼叫接收器,雖然將可了解的是也可使 用其他通訊接收器。收到的聲音訊息則解碼並使用合 成器116來重建。依使用的訊息類型而告知被呼叫的人以及 顯示或通知訊息。 本文所述的數位编碼與語音分析器1〇7及MBE合成器ιΐ6 使用的解碼過程也適用於非即時呼叫與非即時通訊系統。 這些非即時通訊系統提供執行聲音訊息上高度計算壓縮過 程所需的時間。呼叫系統中可容忍2分鐘的延遲,但是在 即時通訊系統中2秒的延遲則不能接受。本文所述數位聲 音壓縮過程的不對稱特性可以使接收器114中執行所需的處 理減至最小,使該過程適用於呼叫應用與其他類似的非即 時聲s通訊。在系統的固定部分即呼叫端〗〇6執行數位聲音 壓縮過程的高度計算部分。這種操作配合mbe合成器ιι6的 使用即可幾乎完全的在頻域中操作,而大大減少在通訊系 ___________ ~11- 本纸張尺度適CNS) Α4^^τιτ^^ n li. I- -. I -- 1 — I^、I i (請先聞讀背面之注意事項再填寫本頁) 訂 線 ___ :m HI 1· I I - 3ίΒϋ Α7 Β7 五、發明説明(9 ) 經 濟 部 中 央 標 準 局 員 工 消 費 合 作 社 印- 製 統的可攜部分執行所需的計算。 以下説明語音分析器107分析聲音訊息並產生頻譜參數與 激勵參數,產生的頻譜參數包括説明基本聲音高低信號的 所有諧波大小與相位的資訊,該系統在通訊系統的通帶 中。聲音高低在不同説話者中有極大改變並且在説話者説 話時作小幅變化。説話者具有低聲音高低聲音如男人會比 高聲音高低聲音如女性説話者有更多的諧波。在傳統MBE 合成器中,語分分析器107必須導出各諧波的大小與相位資 訊以便MBE合成器能正確的複製聲音訊息。諧波的變化數 目產生要傳送的變化資料量。如以下所述,本發明使用固 定大小的LPC分析與頻譜碼簿以向量量化資料到定長索引 以傳送。本發明的語音分析器107不會與習用分析器一樣產 生諧波相位資訊,但是MBE合成器116使用唯一頻域技術以 人工方式再製接收器114的相位資訊。頻域技術也減少MBE 合成器116執行的計算量。 激勵參數包括聲音高低參數,RMS參數,與框發聲/無聲 參數。框發聲/無聲參數敘述聲音的重覆特性,具有高重覆 波形的語音段則視爲發聲,然而具有隨機波形的語音段則 視爲無聲。語音分析器107產生的框發聲/無聲參數決定 MBE合成器116是否將週期信號當成激勵源使用或是將雜訊 如信號源當成激勵源使用。本發明在語音分析器107使用極 正確的非線性分類器以決定框發聲/無聲參數。 分類爲發聲的框或語音段時常具有無聲的頻譜部分。語 音分析器107與MBE合成器116將聲音頻譜分成數個子帶以 -12- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X:297公釐) (請先閱讀背面之注意事項再填寫本頁)
經濟部中央標準局員工消費合作社^«
五、發明説明(1Q 〃生極佳品質的語音並包括説明各子帶中聲音信號的發聲/ 祛聲特性的資訊。在傳統合成器中的子帶發聲/無聲參數必 頊由語音分析器107再姐傳送到mbe合成器】Μ。本發明決 定子帶發聲/無聲資訊與頻譜資訊之間的關係,並將1〇帶 發聲碼簿纟包含發聲/無聲類似參數,加在頻譜碼簿後。 10帶發聲瑪簿的索引與頻譜碼簿的索引相同,因此僅需要 傳运個索?I。本發明不必傳送傳統MBE合成器使用的 ,元以指定10個子帶的發聲/無聲參數,如下所述。接收 的MBE合成器110使用1〇帶發聲碼簿中提供的機率以 及頻譜參數以決定各帶的發聲/無聲參數。 聲音高低參數定義語音重覆部分的基頻,將聲音编碼器 中,測量到的聲音㊉低當成基頻’人類的聽覺功能對於聲 晋南低極敏感,而聲音高低誤差對^刪合成器116複製的 語音品質的感受有極大影響。通訊系統如呼叫系統其經由 電話網路而接收語音輸人,則必須於基本聲音高低頻率於 網路上發生極大衰減時偵測到聲音高低。傳統聲音高低偵 測器精由使用時域中高度計算自相關計算而決定聲音高低 資訊,JL因爲《去基頻成份,有時將偵測到的第二或第三 諧波當成基本聲音高低料4本發明巾❹-種方法: 再生與強化基本聲音高低頻率1頻域計算來估計聲音高 低頻率,並將自相關函數的查詢範圍限制到 大減少自相關計算。本發明也用味一方法以再生基本聲立 高低頻率。過去.與未來框的聲音高低資訊與有限的自相關 查詢則提供时力的聲音高低_器與切其能在惡 ^1T年------ (請先閱讀背面之注意事項再填寫本頁)
經濟部中央標準局員工消費合作社π裂 A7 B7 五、發明説明(11 ) 況下偵測及追蹤聲音高低。 RMS參數是框中所有諧波總能量的訊息値,語音分析器107 產生RMS參數並由MBE合成器116使用以建立複製語音的量。 圖2是根據本發明利用數位聲音壓縮處理的呼叫端106與 射頻發射器108的電氣方塊圖。圖中的呼叫端106是用以服 務許多同時使用者的那一型如商用無線共載波(RCC)系 統,呼叫端106利用數個輸入裝置,信號處理裝置與控制器 216控制的輸出裝置。控制器216與组成呼叫端106的各種裝 置之間的通訊則由一數位控制匯流排210處理。數位化聲音 和資料的分配是由輸入分時多工高速頻道212以及輸出分時 多工高速頻道218處理。將可了解的是數位控制匯流排 210,輸入分時域電工高速頻道212以及輸出分時多工高速 頻道218可進一步擴張呼叫端106。 輸入語音處理器裝置205提供PSTN 104與呼叫卡106之間 的介面,PSTN連接可以是每一線多工數位連接如圖2的數 位PSTN連接202或是每一線類比連接如圖2的類比PSTN連 接 208。 各數位PSTN連接202由數位電話介面204服務。數位電話 介面204提供必要的數位調整,同步,解多工,發信號,監 督,與正常保護要求以根據本發明而操作數位聲音壓縮處 理。數位電話介面204也能提供數位聲音框的暫時儲存以方 便時槽之間的互換以及必要的時槽對齊以提供輸入分時多 工高速頻道212的存取,如以下所述,要求服務與監督響應 的是由控制器216控制,數位電話介面204與控制器216之間 -14- 本纸張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 訂 線 五、發明説明(12 ) 的通訊則通過數位控制匯流排21 〇。 各類比PSTN連接202由類比電話介面206服務,類比電話 介面206提供必要的信號調整,發信號,監督,與類比至數 位及數位至類比轉換,及正常保護要求以根據本發明而操 作數位聲音壓縮處理。被類比至數位轉換器2〇7數位化的框 或語音段則暫時儲存在類比電話介面2〇6,以方便時槽之間 的互換及必要的時槽對齊,以提供輸入分時多工高速頻道 212的存取。如以下所述,要求服務與監督響應的是由控制 器216控制,類比電話介面2〇6與控制器216之間的通訊則通 過數位控制匯流排210。 备偵測到電話打來時,由類比電話介面2〇6或數位電話介 面2 04將服務的要求送入控制器2丨6,控制器2丨6選擇複數個 數位信號處理器的一數位信號處理器214,控制器216將類 比電話介面2 0 6或數位電話介面2 〇 4的要求服務經由輸入分 時^工间速頻道212而耗合到選擇的數位信號處理器214。 數位信號處理器214也能設計成執行完成呼叫處理所需的 所有信號處理功能,包括語音分析器1〇7的功能。一般由數 位信號處理器214執行的信號處理功能包括根據本發明而使 用語音分析器1〇7的數位聲音壓縮,雙音多頻(DTMF)解碼 與產生,數據機聲音產生與解碼,與預錄聲音提示產生。 數位信號處理器214能設計成執行—或多個上述功能。以數 位信號處理器214爲例,其設計成執行一種以上的工作,控 制器216指定數位信號處理器214選擇時要執行的特殊工 作,或是以數位信號處理器214爲例,其設計成僅執行單一 -15- 本紙張尺度朝中國國家標準(CNS ) A4規格(21〇x_t~y 五、發明説明(13 ) 工作,控制器216選擇一設計好的數位信號處理器214以執 行完成過程中次一步驟所需的特殊功能。執行雙音多頻 (DTMF)解碼與產生,數據機聲音產生與解碼,與預錄聲音 提示產生的數位信號處理器214的操作,—般熟於此技術者 對於它很熟悉」根據本發明而執行語音分析器而功能的數 位is號處理器214的操作如以下所述。 經濟部中央標準扃負工消费合作社印製 呼叫請求的處理以聲音訊息爲例,是以下面方式處理, 轉合類比電話介面2G6或數位電話介面鹰的數位信號處理 器214則接著提示聲音訊息的初始傳送者。數位信號處理器 214用以下過程來壓縮收到的聲音訊息。由壓縮過程產生的 壓縮數位聲音訊息則經由輸出分時多工高速頻道218在控制 器216維卿輕合到呼叫協定編碼器㈣。呼叫協定編碼器 228將資料編碼到適當的呼叫協定。一種編碼方法是 inFLEX1〇n™協定由伊州香堡市的摩托羅拉公司出品,雖 然將可了解的是也可使用多種其他適當的編碼方法,例如 郵政編碼標準諮詢組(p〇CSAG)碼,控制器216引導呼叫協 定編碼器228經由輸出分時多工高速頻道218將編碼資料错 存於資料错存裝置226中。在適#時間,编碼的資料在控制 器jl6的控制下經由輸出分時多工高速頻道218而下載到發 射器控制裝置220,並使用射頻發射器⑽與發射 傳送。 以數字訊息爲例,呼叫請求處理的方式與聲音訊息的處 理類似了由數位信號處理器214執行該處理外。數位信 號處理器214提示原始者有—DTMF訊息,數位信號處理器 -16 - 本纸張尺度適用中國國家榇準(CNS ) Μ規格(210X297公爱) A7 經濟部中央標準局員工消費合作社印裝 B7五、發明説明(14 ) 214將收到的DTMF信號解碼並產生數位訊息。由數位信號 處理器214產生的數位訊息的處理方式與數位信號處理器 214於聲音訊息例子中產生的數位聲音訊息的處理方式相 同。 文數字呼叫的處理方式與聲音訊息的處理方式類似除了 由數位信號處理器214執行處理外,將數位信號處理器214 設計成解碼與產生數據機聲音,數位信號處理器214用一種 標準使用者介面協定如呼叫輸入端(PETTM)協定而與原始者 作介面。將可了解的是也可使用其他通訊協定,由數位信 號處理器214產生的數位訊息的處理方式與數位信號處理器 214於聲音訊息例子中產生的數位聲音訊息的處理方式相 同。 圖3的流程圖説明當處理聲音訊息時圖2的呼叫卡106與 語音分析器107的操作。流程圖300有2個進入點,第一進入 點是指與數位PSTN連接202有關的過程,第二進入點是指 與類比PSTN連接208有關的過程。以數位PSTN連接202爲 例,流程從步驟302開始,於數位PSTN線上接收請求。由 數位PSTN連接202請求的服務如進入資料串中的位元樣態所 示,數位電話介面204接收服務請求並將該請求送入控制器 216 ° 於步驟304,從數位頻道請求服務中收到的資訊則以數位 框解多工方式與進入資料串分開。從數位PSTN連接202收 到的數位信號一般包括複數個多工到進入資料串的數位頻 道。將數位頻道請求服務解多工而數位語音資料則接著暫-17- ---------Ύ------II------? (請先閱讀背面之注意事項再填寫本頁) 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) A7 B7 經 部 中 央 標 準 為 員 工 消 費 合 作 社 印- 製 五、發明説明(π ) 時儲存以方便時槽對齊與資料多工進入輸入分時多工高速 頻道212,輸入分時多工高速頻道212上的數位語音資料的 時槽則由控制器216指定。相反的,由數位信號處理器214 產生的數位語音資料則傳送到數位psTN連接2〇2並適當的 格式化以傳送及多工到輸出資料串。 與類比PSTN連接208類似的,當收到類比pSTN線的請求 時泥程即從步驟306開始。於類比PSTN連接2〇8上,由低頻 AC信號或由DC信號通知進入呼叫。類比電話介面2〇6接收 請求並將請求送入控制器216。 於步驟308由類比至數位轉換器2〇7將類比聲音訊息轉成 數位資料串,其功能是取樣器以產生聲音訊息樣本以及數 位器以使聲音訊息樣本數位化。於其總時段上收到的類比 仏號則稱爲類比聲音訊息。由類比至數位轉換器207將類比 L號取樣,產生聲音樣本並接著數位化以產生數位語音樣 本。數位化聲音樣本則稱爲數位語音資料。將數位語音資 料多工到由控制器216指定的時槽中的輸入分時多工高速頻 逍212中。相反的,由數位信號處理器214發出在輸入分時 少工问速頻道212上的任何聲音資料則於傳送到類比pstn 連接208之前作數位到類比轉換。 如圖3所示,當指定數位信號處理器去處理進入呼叫時, 則類比PSTN連接208與數位PSTN連接202的處理器徑於步 驟310中相會。控制器216選擇程式化的數位信號處理器214 以執行數位聲音.壓縮處理,指定的數位信號處理器214則在 先前指定的時槽中讀取輸入分時多工高速頻道212上的資 -18- 本錄尺度適财S财—縣(CNS )〜祕(2IQx297公慶) (請先閱讀背面之注意事項再填寫本頁) 訂
料。 由數位信號處理器214讀取的資料則儲存爲框或語音段以 便於步驟312中當成未壓縮的語音聲音來處理。由語音分析 器107於步驟314處理儲存的未壓縮語音資料,其詳情如以 下所述。從語音分析器於步驟314中導出的壓縮聲音資料則 適當的編瑪以便於步驟316傳送到呼叫頻道上。於步驟 318,編碼的資料則儲存於呼叫佇列以便稍後傳送。在適當 時間將佇列中的資料於步驟32〇送入射頻發射器1〇8,並於 步驟322中傳送。 圖4的方塊圖顯示語音分析器於步驟314處理的資料一般 流程。儲存的數位語音樣本4〇2在此稱爲語音資料,而於步 驟312中儲存,並從記憶體中擷取而耦合到訊框器糾彳。訊 框器404將語音資料分段到相鄰框,例如由包含256個數位 語音樣本的窗中的2〇〇個數位語音樣本,其以目前框爲中心 並與前一與後面的框重覆。訊框器4〇4的輸出則耦合到聲音 高低決定器414,訊框器404的輸出也耦合到延遲器4〇5以提 供一訊框的延遲’其又耦合到第二訊框延遲器4〇7。第一訊 框延遲器405與第二訊框延遲器407的功能是延遲並將訊框 器404的輸出缓衝以經由聲音高低決定器414而與延遲匹配 如以下所述。第二訊框延遲器4〇7的輸出則耦合到Lpc分析 器406,能量計算器410與訊框發聲分類器412。 於發展MBE發聲碼簿416時,第二訊框延遲器4〇5的輸出 也耗合到10帶發聲分析器408,10帶發聲分析器408耦合到 MBE發聲碼簿416,正常操作時呼叫卡1〇6不使用MBE發 19- 本纸張尺度適用中國國家標準(CNS ) A4規格(2丨0X297公釐 (請先閲讀背面之注意事項鼻填寫本育0 ίτ 經濟部中央標举局員工消費合作社印裳 3189^6 A7 B7 五、發明説明(17 ) 碼簿416而且MBE發聲碼簿416不必儲存於呼叫卡106。有關 接收器114使用的MBE發聲碼簿416的詳情可參考美國專利 申請案(代理人编號PT02122U)。 LPC分析器406耦合到量化器422,量化器422耦合到第一 頻譜碼簿418與第二剩餘碼簿420,量化器422產生第一组 1 1位元的索引426與第二組1 1位元的索引428,即第二訊框 延遲器407的語音框的頻譜資訊的量化。第一組1 1位元的 索引426與第二组1 1位元的索引428儲存圖於36位元的傳送 資料緩衝區424以便傳送。 能量計算器410是6位元RMS資料430而且是第一訊框延遲 器407的語音框的能量測量。6位元的RMS資料430儲存於 3 6位元傳送資料緩衝區424以便傳送。 訊框發聲分類器412的輸出是每一框發聲/無聲資料字432 的單一位元,其定義第二訊框延遲器407的語音訊框的發聲 /無聲特性,每一框發聲/無聲資料字432的單一位元則儲存 於36位元傳送資料緩衝區424以便傳送。 聲音高低決定器414的輸出是7位元聲音高低資料字434而 且是訊框器404產生的語音框的聲音高低測量。7位元聲音 高低資料字434儲存於3 6位元傳送資料緩衝區424以便傳 送。聲音高低決定器414也耦合訊框發聲分類器412,聲音 高低決定器414的聲音高低計算的一些中間結果則由訊框發 聲分類器412於決定訊框發聲/無聲特性時使用。 於本發明的較佳實例中,將3個語音樣本框產生的資料儲 存於緩衝區中。語音樣本的框已延遲了2個訊框時間其在 -20- 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) ---------4------1T------手 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標隼局員工消費合作社印製 經濟部中央標準局員工消费合作社印¾ A7 B7 五、發明説明(18 ) 此稱爲目前框。語音分析器1〇7於2個框延遲後分析語音資 料以產生表示目前語音段的語音參數。緩衝區中儲存的3 個語音框則包含目前框,2個與目前框相關的未來框,及2 個與目前框相關的過去框的語音。語音分析器1〇7分析未來 語音資料的框以建立趨勢即目前參數會與未來趨勢一致。 訊框器404 S2(i)的輸出由訊框延遲器4〇5延遲一框時間以產 生呂“丨),一框訊延遲器405 Si(i)的輸出又由第二訊框延遲 器407延遲以產生S(i),S(i)在此稱爲目前框,因爲框s(i) 在目前s(i)之後的一個框,接著31(1)在相對於3(1)與31〇) 的未來中因而稱爲第一未來框,依此s2(i)在目前框§(丨)與 S2( i)之後的2個框即稱爲第二未來框。 LPC分析器406於目前語音資料框上執行第1〇階Lpc分析 以產生1 0個LPC頻譜參數4〇9,1 〇個LPC頻譜參數409是1 0 階多項式的係數,其表示包含於語音框中的諧波大小。 LPC分析器406將1 0個LPC頻譜參數409配置於頻譜向量411 中。 量化器422將LPC分析器406產生的頻譜能向量411量化成 2個1 1位元碼字’向量量化函數利用由複數個索引表示的 複數個預設頻譜向量,包含頻譜碼簿418,其儲存於數位信 號處理器214的記憶體中。頻譜碼簿418的各預設頻譜向量 419由11個位元索引表示且最好包含1〇個頻譜參數417。頻 譜碼簿418最好包含2048個預設頻譜向量,向量量化函數將 頻譜向量411與頻譜碼簿418中的每一預設頻譜向量419比較 並計算一組距離値以表示頻譜向量411與各預設頻譜向量 -21 - 本紙張尺度適用中國國家橾準(CNS ) A4規格(210x297公釐) ---;------y.-------订------# (請先閱讀背面之注意事項再填穷本頁) 經濟部中央標準局員工消費合作社!-繁 A7 !__—___B7 五、發明説明(19*7 " -—"~两— - 419之間^巨離。計算的第一距離及其索引則错存於緩衝區 中,接著當計算各額外距離時即比較緩衝區中儲存的距 離,而且當找到較短距離時,該距離與索引即取代先前距 離與索引。具有與頻譜向量411的距離最短的預設頻譜向量 的索引則依此選擇,量化器422分2級量化頻譜向量4i i, 選取的索引是第一級結果。 在第二級中,決定級一選擇的預設頻譜向量419與頻譜向 量411之間的差,此差稱爲剩餘頻譜向量,剩餘頻譜向量與 一組預設剩餘向量比較,該組預設剩餘向量包含第二碼簿 或剩餘碼簿420,而且也儲存數位信號處理器214中,計算 剩餘頻譜向量與剩餘碼簿420的各預設剩餘向量之間的距 離,距離433與各距離計算的對應索引429則儲存於索引陣 列431中。查詢索引陣列431並選擇第二剩餘碼簿42〇的預設 頻譜向量的索引,其具有與剩餘頻譜向量的最短距離。選 擇的索引是第二級結果。 1 1位元的第一級結果成爲第一組1 1位元索引426,而】1 位元的第二級結果成爲第二組丨丨位元索引428,其儲存於 3 6位元的傳送資料缓衝區424中以便傳送,傳送資料緩衝 區424也稱爲輸出緩衝區。 頻譜向量411與預設頻譜向量419之間的距離一般用加權 和的平方法來計算’將頻譜向量411中1〇個LPC頻譜參數 409< —的値從預設頻譜向量4丨9中對應的預設頻譜參數4】7 的値減去’將結果平方並將該平方値乘上計算出的加權陣 列的對應加權値以計算出距離。計算出的加權陣列的値則 __ -22- 本纸張尺度適用中國國家標準(CNS ) M規格(21()><297公变^~ - -— ----------ί<------IT------^ , (請先閱讀背面之注意事項再填寫本頁) 318^26 A7 B7 五、發明説明(20 ) 經濟部中央標準局員工消費合作社^-繁 使用一般熟於此技術者熟知的方法從頻譜向量中計算出。 此計算在頻譜向量411中的1 〇個PLC頻譜參數409的每—參 數中以及預設頻譜向量419的對應預設頻譜參數417中重 覆’這些計算的結果和是預設頻譜向量419與頻譜向量411 之間的距離,在本發明的較佳實例中,預設加權陣列的參 數値已由一序列聽覺測試的實驗決定了。 上述的距離計算如以下公式所示,di = Iwh(ah-b(k))J h式中: b是預選碼簿, 屯等於頻譜向量與碼簿b的預設頻譜向量之間的距離, wh等於計算出的加權陣列的參數h的加權値, 等於頻譜向量的參數h値, 匕化丸等於碼簿b的預設頻譜向量k的參數h, 而h是頻譜向量中的索引指定參數,或語音參數基準的 對應參數。 如上所述利用一组含2個11位元的碼簿,但是將可了解 的是也可使用一個以上的碼簿與不同大小的碼簿,例如1〇 位元碼簿或12位元碼薄。將可了解的是也可使用具有許多 預設頻譜向量的數一碼簿以及單級量化過程,或一分開向 量量化器,這是一般熟於此枝術者知道能用以編碼頻譜向量 的。也將可了解的是也飩提供2或多组表示不同方言或語 23- 良紙張尺度適用中國國家標準(CNTS ) A4規格(210X297公楚 (諳先閲讀背面之注意事項再填寫本頁〕 -^ 、-° 線 A7 經濟部中央標準局員工消費合作社印製 B7五、發明説明(21 ) 言的碼簿。 圖5的流程圖説明用於頻譜碼簿418,剩餘碼簿420與共索 引MBE發聲碼簿416的發展的實際訓練過程,其具有與頻譜 碼薄418的預設關係。訓練過程分析語音的極大數目段以產 生頻譜向量411與發聲向量425以表示各語音段。流程從步 驟452開始,其中表示語音段的數位樣本框S (i)是高通濾 波,接著在步驟454,用256點凱薩窗將濾波框加窗,凱薩 窗的參數最好設定爲06,業者已類比所凱薩窗其用以將突 然的開始與中止的效應平緩,這發生於當分析的框與四週 語音段無關時,加窗框則接著分析以決定各語音段的頻譜 與發聲特性。在步驟462於加窗框上作第1 0階LPC分析以產 生各語音段的1 0個LPC頻譜參數409。將產生的1 0個LPC頻 譜參數409併入頻譜向量411。 於步驟456至460決定發聲特性,在步驟456,用512點FFT 產生FFT頻譜,於步驟458,將頻譜分成複數個帶,在本發 明的較佳實例中使用1 0個帶,FFT頻譜的最後1 0個帶的各 帶由變數j的値表示,接著在步驟460根據各帶中FFT頻譜 的熵Ej(稍後説明)而計.算發聲參數U7。接著在步驟464將 1 0帶的發聲參數427併入發聲向量425以及附屬的對應頻譜 向量411並儲存。 當計算出極大數目語音段的每一個的頻譜向量411與其量 特發聲向量425之後'接著在步驟465計算頻譜向量411之間 的距離。用上述妁距離公式計算距離。接著在步驟466將頻 譜向量411,其比預設距離還要靠近,則併成组群,在步驟 -24- ---------X------ΪΤ------^ I (請先閱讀背面之注意事項再填寫本頁) 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
經濟部中央標準局員工消費合作社^.製 468,十算各组群的中心而定義中心的向量則成爲預設頻譜向 量 419 » 接著在步驟47G以平均頻譜向量附屬的發聲向量425的方 式計算出1〇帶預設發聲向量421,該向量在預設頻譜向量 419的頻譜向量組群中,將發聲向量似相加以計算平均値 並接著將結果除以該组群中併入的語音框總數。最後㈣ 帶預叹,聲向量421具有表示各發聲或無聲帶的類似性的 10個發聲參數423。接著在步驟474將預設頻譜向量“9儲 存於索引表不的位置,接著在步驟476將丨〇帶預設發聲向 量421儲存於MBE發聲碼簿416,其位置具有與對應預設頻 π向量419相同的索引。共同索引表示1〇帶預設發聲向量 421與表示該組群的頻譜與發聲特性的頻譜向量419,極大 數目語音段的每-段則依此方式分析,一旦決定μβε發聲 碼簿416’則僅由接收器114中的mE合成器ιΐ6使用,且不 必儲存於呼叫卡106中。圖4中的1〇帶發聲分析器408與 ΜΒΕ發聲碼薄416用虛,線表示i 0帶發聲語$分析器彻僅於 發展頻譜碼簿418與MBE發聲碼簿416時才使用。 接著在步驟478計算剩餘向量,頻譜向量411與表示附屬 組群的預設頻譜向量419之間的差是剩餘向量,接著在步驟 480將剩餘向量結成組群,其方式與步驟牝6中的頻譜向量 411相同,在步驟482,計算各组群的中心而定義中心的向 量則成爲預設剩餘向量,接著在步驟484,將各預設剩餘向 量儲存爲一組預設剩餘向量的向量,其包含—剩餘碼薄 420 ’剩餘碼簿420有各導出組群的預設剩餘向量。 -25- 本纸張尺度適用中國國家標隼(CNS }八4^格(210X297公慶)
五、發明説明(23 用以下公式計算各語音框的各帶的熵 式中 i=24sj = Σ p?
Pij等於FFT頻譜元素, j等於諧波帶, i等於帶j中的諧波。 框能量的RMS値由能量計算41〇計算,由以下公式計算出 RMS框能量,
RMS NΣ82(η) α=0 ~~Ν 式中: ---—------^------'玎------^ . f請先閲讀背面之注意事項再填寫本頁} 經濟部中央標準局貝工消費合作社印裝 s(n)等於語音樣本η的大小, 而Ν等於語音框中語音樣本的數目。 聲音高低決定414決定接收器114中]νίΒΕ合成器116使用的 激勵源的聲音高低,將聲音高低定義爲語音的重覆部分之 間的語音樣本數自’圖6顯示語音段502的類比語音波形部 分的例子,此例中的語音部分是重覆性極高因而分類爲發 26- 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐 五、發明説明(24 ) 聲,此例中重覆部分之間的距離是43個聲音樣本,而該聲 音高低是43。在本發明的較佳實例中,取樣率是每秒8〇〇〇 個樣本,或每樣本是125微秒(uS),因此峰値之間的時間 是5.375 ¾秒(mS),語音段502的類比語音波形的基頻是週 期的倒數即186 Hz。 圖7是由聲音高低決定器414發展的2個聲音高低函數 602與力(〇 606的圖形,其對應圖5語音段5〇2的類比語音波 形。人類的聲音是極複雜而任一部分的分析都會找到許多 不同頻率成份,函數y(i) 602的圖形顯示各成份大小與這些 成份聲音高低的關係。在此例中明顯看出在聲音高低43有 —峰値604,以下説明y⑴602與力⑴6〇6的決定與使用。 圖8顯示語音段702的類比波形部分的例子,語音部分是 極爲隨機而歸類的爲無聲,圖9是聲音高低決定器414發展 的2個聲音高低函數的圖形,其對應圖8的語音段7〇2的類 比波形。函數y(i) 802的圖形顯示各成份大小與這些成份^ 音高低的關係,此例中沒有明顯的峰値,聲音高低決定器 414檢查目前框與未來框以決定正確聲音高低。函數 經濟部中央標率局員工消费合作社印製 ----------y __ (請先閲讀背面之注意事項再填寫本頁) 線 804是由聲音高低決定器414利用目前與未來框的資訊而發 展的如以下所述。 圖10顯示語音段902的類比波形部分的例子。此部分很 隨機的開始並接著發展出一重覆部分而稱爲語音的暫時週 期,圖11是函數y⑴!0〇2的圖形,其對應圖1〇語音段9〇2 的類比波形。函數y⑴1002沒有明顯峰儘,yt(i)U〇4的圖 形顯示較明顯的峰値,函數yt⑴是由聲音高低決定器AM利 -27- 本紙張尺度適用中國国家標準(CNS ) Λ4規格(210 X 297公釐 Μ A7 B7 經濟部中央標準局員工消費合作社¥-製 五、發明説明(25 ) 用目前與未來框的資訊而發展如下所述。 圖12的方塊圖顯示用於聲音高低決定器4丨4的一般資料 流程。語音樣本框SJi) 1102從訊框器404通過數位低通濾 波器1104以限制加窗語骨樣本的頻譜到預測的聲音高低成 份範圍。低通遽波器1104最好具有8〇〇 Hz的截止頻率,將 低通/慮波语音樣本xs(i)送入聲音高低函數產生器聲 音高低函數產生器1106處理低通濾波語音樣本以產生聲音 鬲低函數yyi),其係聲音高低成份相對於聲音高低的大小 的大約値。 將聲音高低函數yMi)送入一訊框延遲器與緩衝區111〇以 產生聲音高低函數yi(i)。接著將聲音高低函數yi⑴送入一 訊框延遲器與緩衝區1112以產生聲音高低函數y (i)。訊框 延遲器與緩衝區1110與訊框延遲器與緩衝區1112產生的時 間延遲提供3個聲音高低資訊給聲音高低追蹤器1114。低 通濾波器1104的低通過濾波語音樣本&⑴也送入2框延遲緩 衝區1108以產生2框延遲的低通濾波語音樣本χ(ι)。聲音高 低函數y⑴與2框延遲低通濾波語音樣本χ(ι)稱爲目前二了 重要的是去了解此操作以記住目前框已延遲了 2個框,而 聲音高低不是即時決定的。延遲一框的聲音高低函私⑴ 稱爲第一未來框而聲音高低函數⑴稱爲未來的2框或第二 未來框。目前框,未來框與第:未來框等名辭的^義相: 於用以敘述以上圖4中8⑴,Sl⑴,S2⑴的相同名辭的^ 義。 聲音高低追㈣1114用聲音高低強化1116與聲音高低偵 -28- 衣紙法尺度賴巾關家辟(CNS ) (21Qx297公着 ----------------’玎------線‘ (請先閱讀背面之注意事項再填寫本頁) 318^6 五、發明説明(26 ) 測器1118來分析目前聲音高低偵測函數y(i),2個聲音高低 函數yi⑴與yz(i)的未來框,及低通濾波語音樣本<〇的目前 框以根據目前與未來框而產生第一聲音高低元素。聲音高 低追蹤器1114也用大小相加器i 122與聲音高低偵器丨12〇與 目前語音段的資料與先前語音段的資料來產生第二聲音高 低元素。選擇對數1126的功能是元素選擇器以便從第一聲 音高低元素與第二聲音高低元素中選擇最佳聲音高低。由 聲音高低追蹤器1114產生7位元的聲音高低資料字434,以 表示目前語音框的聲音高低測量。7位元聲音高低資料字 434儲存於3 6位元傳送資料緩衝區424中以便傳送。 圖1 3的流程圖詳細顯示聲音高低函數器丨1〇6,聲音高低 函數產生器1106決定與頻譜頻率成份大小及正在處理的語 音框的聲音高低之間的關係。由此函數可得到聲音高低的 大4値,低通;慮波语音樣本x〗(i) 12〇2的大小與平方器1204 耦合以產生平方的數位語音樣本。以樣本至樣本爲根據而 執行平方,X2(i) 1202的平方產生數個新頻率成份,新穎率 成伤包含低通渡波語音樣本&⑴丨202的各成份頻率的和與 差,基本聲音高低頻率的諧波成份差會具有與原始聲音高 低頻率相同的頻率成份,重要的是基本聲音高低頻率的再 生,因爲當類比語音數信號通過電話網路時這種成份中的 許多部分都失去了。 接著最好用哈爾濾波器1206將平方樣本濾波,哈爾滤波 器強調原始語音信號中本身的聲門事件,增加聲音高低偵 測函數的正確性。哈爾濾波器12〇6具有以下的轉換轉移函 ____ - 29 - 本纸狀度適)_A4規格 i_210X297公釐) ' -- 318936 A7 B7 五、發明説明(27 ) 數: H(z) = -6 , -12 2ζ~ύ + ζ 1~ζ ~ι 經濟部中央標準局員工消費合作社印製 快速富利葉轉換(FFT)計算器1208於哈爾濾波器1206產生 的濾波信號上執行256點FFT,由FFT計算器1208產生的不 同FFT頻譜X2(k)具有範圍從k等於-128到+128的不同成份。 因爲哈爾濾波信號x2(k) 1202是實際信號,最後的FFT不同 頻譜是對稱頻譜而所有的頻譜資訊則在二部分之一,聲音 高低函數產生器1106僅使用正成份,最後的正成份由頻譜 定形器1210作頻譜定形以消除預測聲音高低範圍外的成 份’頻譜定形1210設定的頻譜成份大於k等於47至0。 頻譜定形1210產生的不同成份的絕對値由絕對値計算器 1212計算出。絕對値計算器1212計算x2(k)成份的絕對値以 產生0相位頻譜。 由IFFT計算器1214於頻譜定形函數X2(k)上執行反快速富 利葉轉換(IFFT)計算’頻譜定形函數X2(k)的頻譜定形的絕 對値的IFFT產生的時域函數與濾波X2(i)丨202的時間自相關 類似。聲音高低偵測函數⑴1218藉由常態化器1216使 IFFT计算器1214產生的各聲音高低成份常態化而產生。常 態化器1216以該函數的第一或DC成份而分開這些成份而將 IFFT计算器1214產生的函數的不同成份常態化。圖7顯示 語音發聲部分的y(i) 602的圖形,此例中在聲音高低爲43的 峰値604可以明顯識別。 圖14的方塊圖詳細顯示聲音高低追蹤器1114的操作。聲 30- 本紙張尺度適用中國國家標準(CNS ) Λ4規格(210X 297公楚 -------II (請先閲讀背面之注意事項再填寫本頁) 、ίτ 線 麵碎部中央操率局員工消費合作社印製 A7 -^一- __B7____ 五、發明説明(28 ) 音高低追跛器1114產生2個聲音高低値P 1320與P,。P 1320 疋目如語音段的聲音高低値,而p則用以決定未來語音框 的聲音高低値。聲音高低追蹤器1114用目前框聲音高低函 數y(i) 1308與2個未來框丫丨⑴1304與y2(i) 1302的聲音高低 函數來決定與追縱該語晋的聲音高低。聲音高低追縱器產 生2個可能的聲音高低値元素並接著決定這2者中的那一個 是最可能的値。第一可能元素是目前框聲音高低函數y(i) 1308與2個未來框yi(i) 1304與y2(i) 1302的函數。第二可能 几素是過去聲音高低値與目前聲音高低函數y(i)的函數,第 二可能元素是慢速改變聲音高低週期中最可能的元素,而 第—元素是前一聲音高低中的明顯分開時語音週期中的最 可能者。 —聲音向低強化器1116包含2個動態峰値強化器〖3丨〇, 13 11以產生包含複數個強化聲音高低成份的強化聲音高低 函數。動態峰値強化器1310用耦合第一輸入的第二未來框 Α(ί) 1302來強化耦合第二輸入的未來框yi⑴13〇4中的峰 値產生的函數鶴合第二動態峰値強化器13 11的第—輸 入,在此用以強化耦合第二輸入的目前框聲音高低函數 1304的任何峰値。因此最後的函數yt⑴是由2個未來框的聲 音高低函數強化的目前框聲音高低函數。此強化値如圖η 听不,圖11是y⑴與yt⑴從發聲轉成無聲語音時圖形。雖然 y(i) 1〇〇2的明顯峰値不易偵測,而yt⑴_的峰値則是明' 顯的。以下說明動態峰値強化器1310的操作,於本發明的 較佳實例中,用2個未來框的聲音高低偵測函數來強 -31 - (210X297公簦) Λ------IT------線. (請先閱讀背面之注意事項再填寫本頁) A7 B7 經濟部中央裙準局貝工消費合作社fp·製
五、發明説明(29 ) 晋高低偵測函數y(i)的値。但是將可了解的是也可使用一或 多個聲音高低偵測函數的未來框。 — 峰値拾取函數1314查詢具有最大振幅的強化聲音高低成 份的函數7<丨)並送回聲音高低値Pa與聲音高低値乌的大+ A。區域自相關函數1316查詢自相關峰値的聲音高低値h 的有限範圍。自相關函數需要很強的計算功能,將自相關 查詢限制在约30〇/〇範圍的範圍中則在使用傳統方法下查詢 必定省下決定的計算時間。區域自相關函數1316送回聲音 南低値P'a它是聲音高低値Pa附近的極大自相關的點位 置。聲曰问低値Pa疋目前語音框的第一聲音高低値參考元 素,區域自相關函數1316也送回A,,即聲音高低値5>、計 算到的自相關値。區域自相關函數1316的操作如以下所 述。 如以下所述一選擇對數i i 2 6決定聲音高低値p i 3 2 〇與 Ρ,。前一框的聲音高低値則用以決定下一框中的聲音高 低。將聲音高低値Ρ ’緩衝以便由延遲器T i 322省下一框, 延遲器T 1322的輸出成爲前一框的聲音高低値p,,峰値拾 取函數1330耦合y(i)與前一框的聲音高低値p,。峰値拾取函 數1330查詢之間的y⑴延遲並送回最大大 小B ’ 〇與極大値的聲音高低値p b的丨値。 區域自相關函數1332查詢自相關峰値的聲音高低値匕的 有限範圍,區域自相關函數1332送回的聲音高低値pb是聲 音南低値P ’ b附近中極大自相關的點位置。聲音高低値p ^ 是目前語音框的第二聲音高低値參考元素,區域中自相關 ___ -32- 本紙伕尺度適用中國國家橾準(CNS ) M規格(210X297公釐) 戈I 訂 線~ (請先閱讀背面之注意事項再填寫本頁) A7 B7 五、發明説明(3〇 ) 函數1332也送回B,即聲音高低値計算到的自相關値, 區域自相關函數1332的操作如以下所述。 函數y(P) 1324送回在i的函數y(i)的大小Β。其等於目前框 的聲音高低値P ^延遲器τ 1326將大小^延遲一框而成爲 前一框的大小Β。。延遲器τ 1338將大小1延遲一框而成爲 第二先前框的大小Β2 »由加法器1340將大小β2,大小Β 與大小Β、相加,而加法器則送回最後的相加結果Β。 1 聲^»阿低値Pa ’聲音鬲低値p’a,A,Α,表示第一聲音内 低値參考元素,而聲音高低値匕,聲音高低値,B與 表不第二聲音高低値參考元素其耦合選擇對數1126。選擇 對數1126評估輸入並決定最可能的聲音高低値? 132〇。選 擇對數1126接著設定選擇器1346與選擇器1348。因爲聲音 南低範圍從2 0到128,在本發明的較佳實例中,從聲音高 低値中減去1而得到j 9至127的範圍以便可由7位元表示。 聲音高低決定器414的7位元聲音高低資料字是訊框器4〇4 產生的語音整的聲音高低測量,將7位元聲音高低資料字 434儲存於36位元傳送資料缓衝區424中以便傳送,決策對 數13 18的操作如以下所述。 产 經濟部中央標準局負工消费合作社印製 f請先閱讀背面之注意事項再填寫本頁) 線 區域自相關函數1316的値A,與區域自相關函數1332的値 耦合極大函數偵測器1342 ^極大函數偵測器^芯將八,與 直比較並送回2個之中較大値當成1344。變數厌瓜 1344的用途將參考框發聲/無聲參數作説明。 圖1 5的流程圖詳細説明動態峰値強化器〗3〗〇的操作。動 態峰値強化器1310使用耦合於第二輸入14〇4的函數v⑴ -33 - 各成張尺度適用中國國家標準(CN_s ) A4規格(210X297公釐 A7 A7 經濟部中央榡準局員工消費合作•社印製 五、發明説明(31 ) 1404以強化耦合第一輸入1402的函數u(i)中的峰値。在步 驟1406 ’將輸出函數Z(i)的値設定爲i = 〇到i=19中,接著 在步驟1408將i的値設爲20。 在步骤1410選擇第一聲音高低成份並計算n的値,聲音 高低成份的大小是Si ’將N設定爲大於i的値或是將〇 85 & 四捨五入到最接近整數的値,接著在步驟1412計算極限M 的値,將Μ設定爲小於128的値或是將1.丨5 Si四捨五入到最 接近整數的値,N與Μ的値決定聲音高低成份的範圍,接 著在決疋的範圍中查1句弟一輸入1402 V(i)以決定具有最大 振幅的弟二聲音1¾低成份。 在步驟1418的値輸出函數z(i),即輸出函數中的各成份 是一強化聲音高低成份,則用以下公式計算。 z(i ) = U(i ) + a 在步驟1420將i的値加1,接著在步驟1422作測試以決定i 値是否等於或小於128。在步驟1422當丨値等於或小於預設 數目時128,流程即返回步驟1422並重覆步驟141〇到142〇。 在步驟1422當i値大於128時,即完成流程而在步驟1424將 函數Z(i)送回。 圖16與17的流程圖詳細顯示區域自相關函數1316與區域 自相關函數Π32。圖16顯示於執行圖17的主迴路前執行的 初始程序。用相關尺標來測量2個語音段之間的類似性。 當2段之間的偏移等於聲音高低時,相關會是極大値。如 ______ _ 34 · 本驗家橾準(CNS )八規格、210x297^U ------ f請先闆讀背面之注意事項再填寫本頁) 訂 318· A7 B7 五、發明説明(32 經濟部中央標準局員工消費合作社’製 上所述’將聲音高低定義成語音重覆部分之間的距離,測 量到的距離當成重覆部分之間的樣本數,區域自相關函數 1J32以限制聲音高低函數x(i)的極大自相關查詢到輸入 1502P附近來減少計算,而x(i)是在第二輸入15〇4收到的, 將函數設計成以觀察相關結果使計算次數減到極小,並智 慧的決定極大自相關會發生的方向。本發明較佳實例中使 用的相關函數則使用以下的常態自相關函數(NacF)。 NACF ⑴: 129+1Σ(χ(η))(χ(η-1)) =129 129+1 .Σ x2(n) 、η=129 129+1 、Σ x2(n-l) 八η=129 (請先閲讀背面之注意事項再填寫本頁) " 其中 1等於编移, 而n = i時χ(η)等於低通濾波延遲語音樣本x(i) 13〇6 β 參考圖16,聲音高低値Ρ在第一輸入1502收到,而聲音 高低函數x(i)在第二輸入1504收到。在步驟1506則計算 1 = P-1時的NACF,結果儲存爲暫時變數即結果右(Rr),接 著在步驟1508計算1 = P+1時的NACF。結果儲存爲暫時變數 即結果左(R0,接著在步驟1510計算1 = P時的NACF,結果 儲存爲暫時變數PEAK,接著在步驟1512將暫時變數PEAK 的複製值儲存於暫時變數Re*,接著在步驟1512將暫時變 數P的複製値儲存~於暫時變數ρ β ^ 接著在步驟1516決定查詢的左或較低限制(ρ〇,將Pi設 -35- 表紙張尺度適用中國國家標準(CNS ) A4規格(210χ297公釐:〉 、一-° 線
Si8b26 A7 ____B7_ 五、發明説明(33 ) 足爲0.8 5P四捨五入後的最接近整數。接著在步驟1518決定 查詢的右或較高限制(Pu)。將P u設定爲1.1 5P四捨五入後的 最接近整數。於點ΑΑ 1 520完成初始程序。 圖1 7顯示區域自相關計算,流程從點ΑΑ 1520繼續,在 步驟1602測試是否聲音高低値Ρ在查詢範圍限制中,將較 低範圍限制定義爲大於下限Ρ!與絕對下限2 〇 ^上限定義爲 上限Pu的較小値,而絕對上限爲128。當聲音高低値ρ的値 不在此範圍時’則已冗成區域自相關計算而流程跳.到步驟 1 614 ’當ρ値在此範圍時,則流程在步驟丨6〇4繼續。 在步驟1604測試以決定自相關結果其在聲音高低値ρ的右 與左邊,何時小於聲音高低値P的結果,以指示聲音高低 値P已在峰値。該測試將相關結果PEAK與Ri及Rr比較, PEAK大於Rr而peak大於或等於心時,則決定聲音高低値 P是極大相關點,而流程跳到步驟1614。PEAK小於心與1^ 時’則聲音高低値ρ不是極大相關點,而流程跳到步驟 1606 » 經濟部中央標準局員工消费合作社印製 在步驟1606測試聲音高低値P是否在查詢範圍限制的最 後,當聲音高低値ρ等於下限時,ρ即等於下限?1中的較大 値加上1,而下限的絕對2 〇加ρ是在範圍的最後,而流程跳 到步驟1612 »當P不在範圍的最後時,流程在步驟1608繼 續。 在步驟1608測試查詢何時該向左移,當Rr値大於R!,流 程該向右移而流程跳到1618。當値Rr不大於Rl則在步驟 1610測試以決定查詢是否該向左移。當R!値大於Rr,則流 _ -36- 本紙浪尺度適用中国國家標準(CNS ) A4現格(210X 297公釐) A7 3i8挪 B7 五、發明説明(34 ) 程跳到步驟1626,當R!値不大KRr,則流程在步驟1612繼 續。 當步驟1602至1610顯示點AA 1520決定的初始値表示最佳 相關時,則執行步驟1612。接著在步驟1612將P値設定爲 Pe値,接著在步驟1614將尺?款爲PEAK,接著在步驟1616完 成流程並送回R m與P的値。 在步驟1618,在步驟1608決定流程該移向右邊時,即將 聲音高低値P加1。接著在步驟1620將I的値設爲PEAK而 步驟1622將PEAK設定爲。接著在步驟1624用以下公式計 算R !·的新値。
Rr = NACF(P+l) 步驟1624後如上所述流程跳到步驟1602。 在步驟1626,當已在步驟1610決定流程該移向左邊時, 即將聲音高低値P減1。接著在步驟1628將Rr的値設定爲 PEAK,而步驟1630將PEAK設定爲R,。接著在步驟1632用 以下公式計算R丨的新値。
Ri = NACF(P-l) 步驟1632後如上所述流程跳到步驟1602。 圖1 8是選擇對k 1126的流程圖用以決定第一聲音高低參 考元素Pa或第二聲音高低參考元素Pb才最正確的表示語音 -37- 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) ----------y------ΐτ------線·· (請先閔讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印繁 318^26 五、發明説明(於) 段的聲音高低。選擇對數1126接收以下項目: 聲音高低參考元素pa 4 在匕的聲音高低函數力⑴的大小A, 區域自相關函數1316, p,a的極大相關點, P、的相關値A,, 聲音高低參考元素Pb, 在的聲音高低函數y(i) 13〇8的大小b, 區域自相關函數1332,P,b的極大相關點,及 p ' b的相關値B,。 選擇對數U26在步驟1714開始,在步驟1716机與^的 値比較,在步㈣16W』Pb的値相等時,接著在步驟 ⑽分別選擇匕與^⑽與^直而完成選擇流程^在步驟 1716當?3與?1}的値不等時,則在步驟i7i8比較a,與b,的 値,在步驟1718,當A,與B,的値大致相等時,則在步驟 W4分別選擇的pw,値而完成選擇流程。在步樣 1718當A’與b,的値不是大致相等時,則在步驟η%將變數 C的値用以下公式計算。
C=iM B' 〜接著在步驟7122將變數D的値設爲A#B中的較大値,接 著在步驟1724將變數E的値設爲〇.12與(〇 〇947_〇 〇827*〇)中 的較大値,接著在步驟1726將C値與E値比較,在步驟1726 當C的値不大於e的値,則流程在步驟1728繼續。在步驟 _ -38- 本紙張尺度1财關家辟(CNS ) A4規格(210X297公釐) B7 五、發明説明(36 ) 1728,變數T1的値設爲1.3與量(0·6*Β+〇7)中的較小者,接 著在步驟1730將變數Τ2設爲^與!^中的較大値。接著在 步驟1732將量Α/Β與Τ2値比較,在步驟1732當量α/β大於 Τ2値,則在步驟1746分別選擇匕與?、的?與?,値,並完成 選擇流程。在步驟1732當量Α/Β不大於以値,則在步驟 1744分別選擇匕與?、的!>與!>,値,而完成選擇流程。 當步樣1726中的C値大於Ε値時,選擇流程即在步驟1734 繼續,此時將變數Τ3的値設爲Α,和Β,中的較小者。接著 在步驟1736將變數Τ4設爲Α'和Β,中的較大値,而在步驟 1738將變數Τ5的値設爲Α和Β中的較大値,接著在步驟 1740作測試以決定以下二種情況是否爲眞。第一種情況是 T3等於或小於〇.〇而丁4大於〇·25,第二種情況是以大於 而Τ4大於0.92’及丁5小於1〇β若在步驟⑺时,上述的 每一種情況都不成立,則流程在步驟1744繼續,並分別擇 Ρ與Ρ的Pb與p’j,而完成選擇流程。若在步驟辦有 一種情況爲眞,則流程在步驟1742繼續,並將B,與A,値比 較。若在步驟1742中的B,値小於A,値,則在步驟⑽分別 選擇P與P’的P』p,a値,而完成選擇流程。若在步驟叫 經 濟 部 央 標 準 局 員 工 消 合 作 社 印一 製 中的B’値不小於八,値,則在步驟1744分別選擇1>與!>,的Pb 與値,而完成選擇流程。 圖B顯示訊框發聲分類器412,訊框發聲分類器412導出 目前语音框數位語音樣本的7個參數,參數是4,扣, ’ Η,K丨,κβ,Rms。 m 參數rl是將-樣本延遲自相關計算常態化的結果,由以 ----------- - 39 - 本纸張尺度適财2丨 3ί8υ2δ
五、發明説明(37 ) 下公式計算rl, (請先閲讀背面之注意事項再填寫本頁) N 乙s(n)s(n-l) rl = η·»2__ (Ν-1)Σ52(η) η=1 其中; s (η )等於s⑴, i=n 而N等於函數s(n)的參數β 參數r 1 a是實驗決定公式的結果,參數的計算與r 1類似’ 除了 s(n)s(n-1)的絕對値用於分母而_ 〇. 5是偏移外, 由以下公式計算rla, N E|s(n)s(n-l)| rla =-0=2----0.5 (Ν-1)Σ52(η) n=l 經濟部中央標準局貝工消费合作社印^ PDm是函數y(i)即聲音高低範圍2〇與i28之間的峰値,以 上參考聲音高低決定器414的敘述來説明函數y(〇。 1344是區域自相關函數1316在?,a的較大値,而區域 自相關函數1332是在p,b的値,以上參考聲音高低追蹤器 1114的説明來敘述Rm 1344。 40- 本紙張尺度適财S1]家蘇 ( CNS } A4祕(2Ι0χ297公爱 經濟部中央標準局員工消費合作社印繁 A7 . B7 五、發明説明(38 ) 仏是低帶能量對全帶能量之比, 由以下公式計异K 1 ’ _
I N .
Isf(n) ΐΛ _ n=l —
Is2(n) n=l 其中;
Sl(n)等於低帶濾波延遲語音樣本,x(i) 1306而 s(n)等於目前框語音樣本S(i)。 K e是目前語音框的峰値點能量附近計算出的常態能量 値, 由以下公式計算Ke, nm+d . Ν Σ s2(n) if _ n=nm 一 d_ - FT~~~ (2d + l)J;s2(n) n=l 其中: d等於4,而 nm等於目前框在S(i)極大値的i値。
Rrms由以下公式計算, -41 - 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ----------r------IT------^ , (請先閱讀背面之注意事項再填寫本頁) 318^26 A7 B7 五、發明説明(39
Rr log RMS RMSmav 其中: RMSmax等於最大的1024個語音訊息段的樣本的RMS 値,將語音訊息分成1024個樣本段,而使用以上的 RMS公式計算RMS値,選擇具有最大RMS値的段的 RMS値並當成RMSmax使用。 訊框發聲分類器412將7輸入參數配置在輸入向量P。 Ρ rla PDt Rm rl ΚιΚ.
Rr 經濟部中央標準局員工消費合作杜^製 將實驗決定的矩陣W1用矩陣乘法而乘上輸入向量Ρ,決 定加權矩陣W1係數的方法加以下所述,相乘的結果產生 具有a 1 i到a 1 7的7個係數的中間向量a 1。 -42- 本紙張尺度適用中國國家標準(CNS ) A4規格(2IOX 297公釐 ---------<------1T------I. (請先閱讀背面之注意事項再填寫本頁) A7 B7 經濟部中央標準局員工消費合作社印装 *-*^ i ^ i π/ (1,(2,(3,(4,(5,(6,(7, \)/ \i/ \)/ \)/ V)/ \)/ \)/ 6 6 6 6 6 6 6 (1,(2,(3,(4,(5,(6,(7, \—/ \ ✓ \ / \ / V)/ \)/ \)/ 5 5 5 5 5 5 (1.(2,(3,(4,(5,(6,(7, .4)4)4)4)4)4)4) (1.(2,(3,(4,(5,(6,(7, \)/ \1/ X)/ \)/ \)/ \ϊ/ \)/ 3 3,3 3 3 3 3 (1,(2,(3,(4,(5,(6,(7, \)/ \—/ \—/ \)χ Ν—/ \—/ 2 2 2 2 2 2 2 (1,(2,(3,(4,(5,(6,(7, \ϊ/ \ / \—/ \)/ \-/ Ν-/ X.-/ 1 1 11 1 11 1 1 (1.(2,(3,(4,(5,(6,(7,
W 五、發明説明(4〇 ) 矩陣相乘由數位信號處理器處理的系統程序,第一係數 a 1丨的計算1802需要計算以下的總和: 將W 1的第一列的第一係數與P的第一行的第一係數相乘 即得到乘積1816。 分別將W 1的第一列的第二到第七係數與P的第一行的第 二到第七係數相乘即得到乘積1818_ 1828。 以類似於個別地使用,且爲P的第一行之W1的第二到第 七列的方式而執行第二到第七係數a 1 2到a 17的計算1804-1814。 中間向量al的係數與實驗決定的向量bl 1832的係數的處 理是由使用tansig函數以產生第二中間向量a2。該tansig函 數18 3 0是一非線性函數,定義如下: a2n = tansig(aln » bln) 而 tansig(aln,bln) = — 1 + e(-2(aln+bln)) -4?- 本紙張尺庋適用中國國家標隼(CNS ) A4规格(210X 297公釐) ----------------ΐτ------m . (请先閱讀背西之注意事項存填寫本頁) 318926 A7 B7 五、發明説明(41 ) 將中間向量a2乘上實驗決定的矩陣W2以產生單細胞向 量a3。 W2 = [(1) (2) (3) (4) (5) (6) (7)] 中間向量a2與矩陣W2的向量相乘丨834要作以下相加: 將W2的第一列的第一係數與a2的第一行的第一係數相 乘即得到乘積。 將W 2第一列的第二至第七係數分別與a 2的第一行的第 二至第七係數相乘。 由logsig函數l83 8處理第二實驗決定向量b2的係數與向量 a3的係數以產生Vf ’ i〇gsig函數1838是非線性函數,如下 定義: ---------气. (請先閲讀背面之注意事項再填寫本頁)
Vf 而 logsig(a3i » b2〇 logsig(a3n,b2n) = (-(a31+b2!)) $ 丁 經濟部中央標準局員工消費合作社印製 1 + e 發聲/無聲比較器1840將V#0.5比較,當Vf値大於0,5, 即將框分類爲發聲,當V f値小於〇 5,則將框分類爲無聲, 當框分類爲發聲時即將V/UV設定爲1,否則設爲〇。 W 1,W2 ’ b 1,b2的係數決定是一實驗訓練程序,其需 要執行以下步驟。熟於此技術者以觀察波形以人工方式分 析極大數目的語音段並作判斷以決動態發聲特性。語音段 的發聲特性則接著由訊框發聲分類器412決定,方法是嘗試 44- 今、紙狀中_家縣(CNS ) A4規格(2iQx 297公趁 線 18926 A7 B7 經濟部中央標準局員工消費合作社印裂 五、發明説明U2 ) 1,W2,bl,b2的各種係數。比較分類器的結果與人工 決定結果比較以決定訊框發聲分類器412的性能,用電腦來 改變Wl ’ W2,bl,b2的係數直到找到期望的正確率。 圖20顯不用於圖2呼叫端1〇6中的數位信號處理器2 μ的 電氣方塊圖以執行語音分析器1〇7的功能。使用處理器19〇4 如數種標準商用數位信號處理器1C之一,其特別設計爲 執=與數位信號處理有關的計算。數位信號處理器1(:可向 數家廠商購買,如伊州香堡市的摩托羅拉公司出品的Dsp 56100。處理器〗9〇4經由處理器位址與資料匯流排1 9⑽而耦 合ROM 1906,RAM 191〇,數位輸入埠1912,數位輸出埠 1 與L制匯流排崞1916。ROM 1906儲存處理器704使 用的扣々以執行信號處理功能,這是使用的訊息類型以及 與控制器216作控制介面所需的。R〇M 19〇6也包含用以執 行與壓縮聲音訊息有關的功能,RAM 191〇提供資料與程式 變數,索引陣列,輸入聲音資料緩衝區,與輸出聲音資料 緩衝區的暫時儲存。數位輸入埠1912在資料輸入功能與資 科輸出功能的控制下提供處理器19〇4與輸入分時多工高速 頻道212之間的介面。數位輸出埠在資料輸出功能的控制下 提供處理器1904與輸出分時多工高速頻道218之間的介面。 控制匯流排埠1916提供處理器19〇4與數位控制匯流排21〇之 間的介面’時脈19〇2產生處理器19〇4的時間信號。 ROM 1906例如包含以下各項:如上所述’控制介面功能 常式1918,資料輸入功能常式192〇,增益常態化功能常式 1M2,訊框器4〇4的處理常式,Lpc分析器4〇6的處理 y------ΐτ------^ (請先閱讀背面之注意事項再填寫本頁)
-45 - 本纸狀度適用中國國家梯準(CNS ) A4· ( 經濟部中央標準局員工消費合作社印製
發明説明(43 ) 式,10帶發聲分析器408的處理常 理常式’訊框發聲分類器…的處理常式聲音二2 =處理資料輸出功能常式1936,-或多個頻譜ί 溥418’ -或多個剩餘碼簿42G,及—或多個矩陣加權 1942。RAM 1910提供程式變數1944,索引陣列431,輸入 語音資料緩衝區1948與輸出語音緩衝區195〇的暫時, 將可了解的是ROM 1906的元件如碼簿,也可儲存於另 量儲存媒體如硬碟或其他類似儲存裝置。 總(,8 KHz的語音取樣與用傳統電話技術的編碼都需 每秒64,000位元的資料率,但是根據本發明的語音編碼則 大致尚要較慢的傳送率如以8 KHz率將樣本取樣,並組成 框,或語晋段,根據本發明可以每秒144〇位元的平均資料 率傳送表示25毫秒的語音。如上所述,本發明的語音分析 器依此而數位化編碼聲音訊息以便極度壓縮最後的資料且 能容易的與呼叫頻道上傳送的傳統呼叫資料混合。以下提 供的功能可大幅改善操作並減少資料率:_高度正確的 FFT式聲音高低決定與追蹤功能能決定追蹤聲音^低即使 基本聲音高低頻率極度衰減,並減少壓縮程序的計算強 度;一鬲度正確的非線性訊框發聲決定函數;—種提供多 帶發聲資訊的方法,其不必傳送多帶發聲資訊;及一種= 然發聲人工產生的激勵相位,其不必傳送相位資訊❶此 外’聲音訊息是依此方式數位編碼,以使呼叫器中的處理 或類似的可攜性通訊裝置減至極小。雖然已說明本發明的 特定實例,將可了解的是熟於此技術者可作進_步之修正 與改良。 / 46- 本纸’張尺度適用中國國家榡準(CNS ) M規格(2丨0><297公釐) I ^ i n I n n n τ I— I _____ί " ---^------------------ (請先閲讀背面之注意事項再填寫本頁)
Claims (1)
- S 經濟部中央標準局員工消費合作社印製 18326 g D8 六、申請專利範圍 1. 一種壓縮聲音訊息之語音分析器,該訊息已分成表示語 音段之語音框,該語音段已數位化以產生數位語音樣 本,該語音分析器包含: 一 LPC分析器,以分析數位語音樣本並導出一頻譜向 量; 一記憶體,以儲存複數個預設頻譜向量,其具有複數 個對應索引,該複數個預設頻譜向量與複數個預設發聲 向量相關; 一量化器,將導出之頻譜向量與複數個預設頻譜向量 比較,以導出一組表示之間距離之距離値; 該量化器更比較該組導出距離値,並從其中選擇一距 離値,其具有該組導出距離値之最短距離:及 一輸出,以傳送對應一預設頻譜向量之索引,該向量 具有最短之選擇距離。 2. 根據申請專利範圍第1項之語音分析器,其中對應複數個 預設頻譜向量之複數個預設發聲向量未儲存於該記憶體 中。 3. 根據申請專利範圍第1項之語音分析器,其中該複數個預 設頻譜向量與該對應之複數個索引皆表示一碼簿。 4. 根據申請專利範圍第1項之語音分析器,其中該輸出耦合 一輸出緩衝區,其耦合一發射器以傳送儲存之索引。 5. 根據申請專利範圍第4項之語音分析器,其中該發射器係 一射頻發射器。 6. 根據申請專利範圍第1項之語音分析器,其中一語音段具 -47- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍 有可分成複數個頻帶之頻譜,而其中該複數個預設發聲 向量定義各複數個頻帶之預設發聲與無聲特性。 7. 根據申請專利範圍第6項之語音分析器,其中各複數個頻 帶之預設發聲與無聲特性表示發聲之頻帶可能性。 8. 根據申請專利範圍第4項之語音分析器,更包含一聲音高 低偵測器以偵測語音段之聲音高低,並導出聲音高低資 料以便再儲存於該輸出緩衝區。 9. 一種用於語音分析器之聲音高低決定器,以決定語音之 一或多個循序段中之聲音高低,各語音段由預設之數個 數位語音樣本表示,該聲音高低決定器包括: 一聲音高低函數產生器,從預設之數個數位語音樣本 中產生表示一聲音高低函數之複數個聲音高低成份,其 中該聲音高低函數定義各複數個聲音高低成份之振幅; 一聲音高低強化器,藉由產生複數個強化聲音高低成 份,並利用一或多個循序語音段之聲音高低函數而強化 目前語音段之聲音高低函數;及 一聲音高低偵測器,藉由決定一強化聲音高低成份之 聲音高低而偵測目前語音段之聲音高低,該聲音高低成 份具有複數個強化聲音高低成份之最大振幅。 10. 根據申請專利範圍第9項之聲音高低決定器,更包含一 數位濾波器,耦合該聲音高低函數產生器之輸入,以限 制語音段之頻譜至聲音高低成份之預設範圍。 11. 根據申請專利範圍第9項之聲音高低決定器,更包含一 或多個延遲元件以產生一或多個循序語音段之聲音高低 -48- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ---------^J------IT------予 (請先閔讀背面之注意事項再填寫本頁) ABCD 318&26 六、申請專利範圍 函數。 12. 根據申請專利範圍第9項之聲音高低決定器,其中該聲 音高低函數產生器包含: 一平方器,將表示一語音段之預設數個數位語音樣本 平方以產生平方之數位語音樣本; FFT計算器,以導出對應預設數個平方數位語音樣本之 頻率成份,該語音樣本表示一語音段; 一絕對計算器,以計算由FFT計算器導出之頻率成份之 絕對値;及 一IFFT計算器,從FFT計算器導出之頻率成份中導出複 數個聲音高低成份。 13. 根據申請專利範圍第1 2項之聲音高低函數產生器,更包 含一哈爾濾波器,耦合該平方器與該FFT計算器,以濾 波,哈爾濾波器強調置入語音中之聲門事件藉以增加聲 音高低偵測之正確性。 14. 根據申請專利範圍第1 2項之聲音高低函數產生器,更包 含一限帶濾波器,耦合該FFT計算器與該絕對値計算 器,以限制該FFT導出之頻率成份範圍。 15. 根據申請專利範圍第1 2項之聲音高低函數產生器,更包 含一常態器,耦合該IFFT計算器以常態化該導出之複數 個聲音高低成份之各聲音高低成份。 16. 根據申請專利範圍第9項之聲音高低決定器,其中該聲 音高低強化器包含一動態峰値強化器,從複數個聲音高 低成份中產生複數個強化聲音高低成份,規劃該動態峰 -49- 本紙張尺度適用中國國家標隼(CNS ) A4規格(210X297公釐) ---;------,------ΪΤ------竽 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 ABCD 經 濟 部 中 央 標 準 局 員 工 消 費 合 作 社 印- 製 申請專利範圍 値強化器以執行以下步驟: (a) 選擇第一聲音高低函數之第一聲音高低成份,該 第一聲音高低成份具有一振幅; (b) 決定關於第二聲音高低函數之聲音高低成份之聲 音高低成份範圍,以對應選取之第一聲音高低成份; (c) 從該聲音高低成份範圍中選擇具有極大振幅之第 二聲音高低成份; (d) 將第一聲音高低成份之振幅與第二聲音高低成份 之極大振幅相加以產生一強化聲音高低成份;及 對於第一聲音高低函數之複數個聲音高低成份之預設 數個聲音高低成份重覆該(a)至(d)步驟,以產生複數個 強化聲音高低成份。 17. 根據申請專利範圍第1 6項之聲音高低決定器,其中第一 聲音高低函數表示目前語音段之聲音高低函數,而其中 第二聲音高低函數表示後續語音段之聲音高低函數。 18. 根據申請專利範圍第9項之聲音高低決定器,其中語音 段中之聲音高低表示第一聲音高低參考元素,而其中複 數個強化聲音高低成份之極大振幅表示第一大小,而其 中該聲音高低決定器更包含: 一第二聲音高低偵測器,利用前一語音段之聲音高低 與目前語音段之聲音高低函數位偵測具有目前大小之目 前語音段之第二聲音高低,該偵測到之第二聲音高低表 示第二聲音高低參考元素; 一加法器,將一或多個先前語音段之目前大小與選取 -50- 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ---------M-------ΪΤ------终 (請先閔讀背面之注意事項再填寫本頁) 六 中 ABCD 聲音合 问氐成份之大小相加以產生第 ^ 聲=高低函數與聲音高低決定;及刀由則—語音段之 〜門2凡素選擇器,當第一大小與第二大小之比小於 ▲·,則ϋ擇第一聲音高低參考元素 \小虚笛-丄t . 田不 聲^/、弟—大小< 比大於或等於該門檻時,則選擇第二 ^聲音鬲低參考元素。 了豕申叫專利範圍第18項之聲音高低決定器,其中計算 -I Γ , ·---- - - - - I - - - - - 士义 n -II 1 I- - I ——-Τ» 4 、一sa (请先閲讀背面之注意事項再填寫本頁) 線’ 經濟部中央標準局員工消費合作社^..製 本紙張尺度適用中國國家標準(CNS ) A4現格(210X297公釐)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US59199596A | 1996-01-26 | 1996-01-26 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW318926B true TW318926B (zh) | 1997-11-01 |
Family
ID=24368828
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW086101557A TW318926B (zh) | 1996-01-26 | 1997-02-12 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US6018706A (zh) |
| TW (1) | TW318926B (zh) |
| WO (1) | WO1997027578A1 (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI455481B (zh) * | 2006-04-27 | 2014-10-01 | Dolby Lab Licensing Corp | 利用聽覺事件之聽覺場景分析與特定響度式檢測來控制音訊動態增益參數之非暫時性電腦可讀取儲存媒體、方法及裝置 |
Families Citing this family (57)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU7960994A (en) * | 1993-10-08 | 1995-05-04 | Comsat Corporation | Improved low bit rate vocoders and methods of operation therefor |
| DE69737012T2 (de) * | 1996-08-02 | 2007-06-06 | Matsushita Electric Industrial Co., Ltd., Kadoma | Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür |
| IL120788A (en) * | 1997-05-06 | 2000-07-16 | Audiocodes Ltd | Systems and methods for encoding and decoding speech for lossy transmission networks |
| US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
| US6212496B1 (en) * | 1998-10-13 | 2001-04-03 | Denso Corporation, Ltd. | Customizing audio output to a user's hearing in a digital telephone |
| US6704701B1 (en) * | 1999-07-02 | 2004-03-09 | Mindspeed Technologies, Inc. | Bi-directional pitch enhancement in speech coding systems |
| US6772126B1 (en) | 1999-09-30 | 2004-08-03 | Motorola, Inc. | Method and apparatus for transferring low bit rate digital voice messages using incremental messages |
| US6418407B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for pitch determination of a low bit rate digital voice message |
| KR100434538B1 (ko) * | 1999-11-17 | 2004-06-05 | 삼성전자주식회사 | 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법 |
| US7487083B1 (en) * | 2000-07-13 | 2009-02-03 | Alcatel-Lucent Usa Inc. | Method and apparatus for discriminating speech from voice-band data in a communication network |
| GB2368761B (en) * | 2000-10-30 | 2003-07-16 | Motorola Inc | Speech codec and methods for generating a vector codebook and encoding/decoding speech signals |
| US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
| US7970606B2 (en) | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
| US7200557B2 (en) * | 2002-11-27 | 2007-04-03 | Microsoft Corporation | Method of reducing index sizes used to represent spectral content vectors |
| US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
| US8359197B2 (en) | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
| US8219390B1 (en) * | 2003-09-16 | 2012-07-10 | Creative Technology Ltd | Pitch-based frequency domain voice removal |
| US20050209847A1 (en) * | 2004-03-18 | 2005-09-22 | Singhal Manoj K | System and method for time domain audio speed up, while maintaining pitch |
| US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
| US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
| US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| EP1792304B1 (en) * | 2004-09-20 | 2008-08-20 | Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO | Frequency compensation for perceptual speech analysis |
| KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
| KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
| US8010350B2 (en) * | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
| US8036886B2 (en) * | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
| EP2126901B1 (en) * | 2007-01-23 | 2015-07-01 | Infoture, Inc. | System for analysis of speech |
| CN101266797B (zh) * | 2007-03-16 | 2011-06-01 | 展讯通信(上海)有限公司 | 语音信号后处理滤波方法 |
| WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
| US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
| WO2010028301A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
| WO2010028297A1 (en) | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
| WO2010031049A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | Improving celp post-processing for music signals |
| WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
| KR101666521B1 (ko) * | 2010-01-08 | 2016-10-14 | 삼성전자 주식회사 | 입력 신호의 피치 주기 검출 방법 및 그 장치 |
| WO2012008891A1 (en) | 2010-07-16 | 2012-01-19 | Telefonaktiebolaget L M Ericsson (Publ) | Audio encoder and decoder and methods for encoding and decoding an audio signal |
| BR112013011312A2 (pt) * | 2010-11-10 | 2019-09-24 | Koninl Philips Electronics Nv | método para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico, dispositivo para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico e programa de computador |
| US8700406B2 (en) * | 2011-05-23 | 2014-04-15 | Qualcomm Incorporated | Preserving audio data collection privacy in mobile devices |
| EP2795613B1 (en) * | 2011-12-21 | 2017-11-29 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
| FR3018385B1 (fr) * | 2014-03-04 | 2018-02-16 | Georges Samake | Methodes de compression audio additionnelles a tres bas debit utilisant la quantification vectorielle et la recherche du plus proche voisin |
| WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
| WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
| EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
| EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
| EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
| EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
| EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
| EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
| EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
| WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
| US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
| US12254895B2 (en) | 2021-07-02 | 2025-03-18 | Digital Voice Systems, Inc. | Detecting and compensating for the presence of a speaker mask in a speech signal |
| US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
| US12451151B2 (en) | 2022-04-08 | 2025-10-21 | Digital Voice Systems, Inc. | Tone frame detector for digital speech |
| US12462814B2 (en) | 2023-10-06 | 2025-11-04 | Digital Voice Systems, Inc. | Bit error correction in digital speech |
| CN120236592B (zh) * | 2025-05-30 | 2025-08-05 | 广州九四智能科技有限公司 | 一种语音信号采集方法及系统 |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
| US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
| US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
| US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
| US4856068A (en) * | 1985-03-18 | 1989-08-08 | Massachusetts Institute Of Technology | Audio pre-processing methods and apparatus |
| US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
| DE3688749T2 (de) * | 1986-01-03 | 1993-11-11 | Motorola Inc | Verfahren und vorrichtung zur sprachsynthese ohne informationen über die stimme oder hinsichtlich stimmhöhe. |
| US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
| US5384891A (en) * | 1988-09-28 | 1995-01-24 | Hitachi, Ltd. | Vector quantizing apparatus and speech analysis-synthesis system using the apparatus |
| US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
| US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
| US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
| JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
| US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
-
1997
- 1997-01-07 WO PCT/US1997/000329 patent/WO1997027578A1/en not_active Ceased
- 1997-02-12 TW TW086101557A patent/TW318926B/zh active
- 1997-12-29 US US08/999,171 patent/US6018706A/en not_active Expired - Lifetime
Cited By (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI455481B (zh) * | 2006-04-27 | 2014-10-01 | Dolby Lab Licensing Corp | 利用聽覺事件之聽覺場景分析與特定響度式檢測來控制音訊動態增益參數之非暫時性電腦可讀取儲存媒體、方法及裝置 |
| US9136810B2 (en) | 2006-04-27 | 2015-09-15 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
| US9450551B2 (en) | 2006-04-27 | 2016-09-20 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9685924B2 (en) | 2006-04-27 | 2017-06-20 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9698744B1 (en) | 2006-04-27 | 2017-07-04 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9742372B2 (en) | 2006-04-27 | 2017-08-22 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9762196B2 (en) | 2006-04-27 | 2017-09-12 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9768749B2 (en) | 2006-04-27 | 2017-09-19 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9768750B2 (en) | 2006-04-27 | 2017-09-19 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9774309B2 (en) | 2006-04-27 | 2017-09-26 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9780751B2 (en) | 2006-04-27 | 2017-10-03 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9787268B2 (en) | 2006-04-27 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9787269B2 (en) | 2006-04-27 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US9866191B2 (en) | 2006-04-27 | 2018-01-09 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US10103700B2 (en) | 2006-04-27 | 2018-10-16 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US10284159B2 (en) | 2006-04-27 | 2019-05-07 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US10523169B2 (en) | 2006-04-27 | 2019-12-31 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US10833644B2 (en) | 2006-04-27 | 2020-11-10 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US11362631B2 (en) | 2006-04-27 | 2022-06-14 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US11711060B2 (en) | 2006-04-27 | 2023-07-25 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US11962279B2 (en) | 2006-04-27 | 2024-04-16 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US12218642B2 (en) | 2006-04-27 | 2025-02-04 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US12283931B2 (en) | 2006-04-27 | 2025-04-22 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US12301190B2 (en) | 2006-04-27 | 2025-05-13 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
| US12301189B2 (en) | 2006-04-27 | 2025-05-13 | Dolby Laboratories Licensing Corporation | Audio control using auditory event detection |
Also Published As
| Publication number | Publication date |
|---|---|
| US6018706A (en) | 2000-01-25 |
| WO1997027578A1 (en) | 1997-07-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW318926B (zh) | ||
| US6418405B1 (en) | Method and apparatus for dynamic segmentation of a low bit rate digital voice message | |
| US6370500B1 (en) | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message | |
| CA2185731C (en) | Speech signal quantization using human auditory models in predictive coding systems | |
| EP1089257A2 (en) | Header data formatting for a vocoder | |
| US6418407B1 (en) | Method and apparatus for pitch determination of a low bit rate digital voice message | |
| CN101425294B (zh) | 声音编解码与发送接收设备及编码方法、通信终端和基站 | |
| KR100804461B1 (ko) | 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 | |
| EP0764939B1 (en) | Synthesis of speech signals in the absence of coded parameters | |
| US6064955A (en) | Low complexity MBE synthesizer for very low bit rate voice messaging | |
| JPH09152895A (ja) | 合成フィルタの周波数応答に基づく知覚ノイズマスキング測定法 | |
| JP2004310088A (ja) | 半レート・ボコーダ | |
| MXPA96004161A (en) | Quantification of speech signals using human auiditive models in predict encoding systems | |
| AU2023254936B2 (en) | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal | |
| KR100752001B1 (ko) | 위상 스펙트럼 정보를 서브샘플링하는 방법 및 장치 | |
| McAulay et al. | Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps | |
| US6772126B1 (en) | Method and apparatus for transferring low bit rate digital voice messages using incremental messages | |
| US5806038A (en) | MBE synthesizer utilizing a nonlinear voicing processor for very low bit rate voice messaging | |
| CN100489966C (zh) | 合成分析语音编码器中用于进行语音编码的方法和装置 | |
| US5684926A (en) | MBE synthesizer for very low bit rate voice messaging systems | |
| EP3975174A1 (en) | Stereo coding method and device, and stereo decoding method and device | |
| EP0850471B1 (en) | Very low bit rate voice messaging system using variable rate backward search interpolation processing | |
| US7603271B2 (en) | Speech coding apparatus with perceptual weighting and method therefor | |
| JP3496618B2 (ja) | 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法 | |
| RU2809646C1 (ru) | Генератор многоканальных сигналов, аудиокодер и соответствующие способы, основанные на шумовом сигнале микширования |