TWI662545B

TWI662545B - 調整語音頻率之方法及其聲音播放裝置

Info

Publication number: TWI662545B
Application number: TW107121549A
Authority: TW
Inventors: 黃煜傑; 趙冠力; 治勇楊; 楊國屏
Original assignee: 塞席爾商元鼎音訊股份有限公司
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2019-06-11
Also published as: TW202001873A; US20190392812A1; US10964307B2

Abstract

一種調整語音頻率之方法及其聲音播放裝置，包括以下步驟：取得輸入語音；當輸入語音具有子音時，係進行：偵測子音之主要頻率範圍是否有環境音存在且環境音之能量足以干擾子音；若否，則不針對子音進行移頻，並輸出子音；以及若是，則將子音進行移頻至目標頻率以避開環境音以形成移頻子音，並輸出移頻子音，藉以形成輸出語音，其中目標頻率位於子音之主要頻率之附近，且該目標頻率沒有一其他環境音存在且該其他環境音之能量足以干擾子音。

Description

調整語音頻率之方法及其聲音播放裝置

本發明係關於一種調整語音頻率之方法及其聲音播放裝置，特別是一種可以避開環境音影響的調整語音頻率之方法及其聲音播放裝置。

現在使用者利用音響、隨身聽或智慧型手機等裝置來聆聽聲音已經是很常見的技術，其中使用者不只用來聆聽音樂，也可能聆聽單純的語音訊號。但當在聽語音訊號時，也可能會被外界的聲音干擾。於先前技術中，通常是要分析所有的頻段來找出外界噪音的頻率，但此種方式處理時間較久。且若是外界噪音的頻率改變時，聲音播放裝置也無法即時做出調整。

因此，有必要發明一種新的調整語音頻率之方法及其聲音播放裝置，以解決先前技術的缺失。

本發明之主要目的係在提供一種調整語音頻率之方法，其具有可以避開環境音影響的效果。

本發明之另一主要目的係在提供一種用於上述方法之聲音播放裝置。

為達成上述之目的，本發明之調整語音頻率之方法係使用在聲音播放裝置上。該方法包括以下步驟：取得輸入語音；當輸入語音具有子音時，係進行：偵測子音之主要頻率範圍是否有環境音存在且環境音之能量足以干擾子音；若否，則不針對子音進行移頻，並輸出子音；以及若是，則將子音進行移頻至目標頻率以避開環境音以形成移頻子音，並輸出移頻子音，藉以形成輸出語音，其中目標頻率位於子音之主要頻率之附近，且該目標頻率沒有一其他環境音存在且該其他環境音之能量足以干擾子音。

本發明之聲音播放裝置包括語音提供模組、聲音偵測器、語音處理模組及揚聲模組。語音提供模組用以取得輸入語音。聲音偵測器用以偵測環境音。噪音分析模組係電性連接聲音偵測器，用以分析環境音之環境音頻率範圍。語音處理模組係電性連接語音提供模組及聲音偵測器，當輸入語音具有子音時，語音處理模組偵測子音之主要頻率範圍是否有環境音存在且環境音之能量足以干擾子音；若否，則不針對子音進行移頻；若是，則將子音進行移頻至目標頻率以避開環境音以形成移頻子音，藉以形成輸出語音；其中目標頻率位於子音之主要頻率之附近，且目標頻率沒有其他環境音存在且其他環境音之能量足以干擾子音。揚聲模組係電性連接語音處理模組，用以播放輸出語音。

為能讓貴審查委員能更瞭解本發明之技術內容，特舉較佳具體實施例說明如下。

以下請先參考圖1係本發明之聲音播放裝置之架構示意圖。

本發明之聲音播放裝置10包括語音提供模組20、聲音偵測器30、語音處理模組40及揚聲模組50。語音提供模組20用以取得一輸入語音。於本發明之不同實施方式中，語音提供模組20可以為麥克風或其他的聲音接收裝置，以接收外界的語音。另一方面，語音提供模組20可以為儲存語音檔案的記憶模組，以提供已經儲存的語音。甚至語音提供模組20也可以為文字轉語音(text-to-speech，TTS)服務模組，以播放文字內容，本發明並不限定語音提供模組20的語音提供方式或提供路徑。

聲音偵測器30可為麥克風，係電性連接該語音提供模組20，用以偵測聲音播放裝置10外的環境音。環境音可以為人說話的聲音、汽車引擎聲等，本發明並不限於此。語音處理模組40係電性連接語音提供模組20及該噪音分析模組40。語音處理模組40可以找出輸入語音具有之一子音。於本發明之一實施方式中係以注音符號來進行說明。以注音符號來說，其母音為「ㄧ、ㄨ、ㄩ、ㄚ、ㄛ、ㄜ、ㄝ、ㄞ、ㄟ、ㄠ、ㄡ、ㄢ、ㄣ、ㄤ、ㄥ、ㄦ」，其子音為「ㄅ、ㄆ、ㄇ、ㄈ、ㄉ、ㄊ、ㄋ、ㄌ、ㄍ、ㄎ、ㄏ、ㄐ、ㄑ、ㄒ、ㄓ、ㄔ、ㄕ、ㄖ、ㄗ、ㄘ、ㄙ」。因此語音處理模組40先找出輸入語音中的子音與母音，並分析子音與母音之中個別的頻率分布。例如當發出「ㄙㄠ」的音時，語音處理模組40就可得知第一音節為「ㄙ」與第二音節為「ㄠ」，並分析第一音節「ㄙ」的頻率，以得知子音所在之頻率。

接著語音處理模組40判斷該子音所在之頻段區間是否為乾淨的區間，也就是判斷該輸入語音之一子音之主要頻率範圍是否有一環境音存在且該環境音之能量足以干擾該子音。舉例來說，如果當該環境音之能量為該子音之能量之M倍時，則判斷該環境音存在且該環境音之能量足以干擾該子音，其中0.3≦M≦10000，但本發明並不限定M的上限，亦不限定M的下限，係以環境音之能量足以干擾該子音為準。因此語音處理模組40會將該輸入語音之子音頻率進行調整以避開該環境音，藉以形成一輸出語音。但如果環境音之能量小於該子音之能量之M倍的最小值時，例如環境音之能量小於該子音之能量之0.3倍時，代表環境音之能量不足以干擾該子音，因此就不對子音進行處理，直接輸出以形成一輸出語音。

但是若是當環境音之能量足以干擾該子音，則語音處理模組40會將該子音進行移頻至一目標頻率以避開該環境音，例如往較高頻或較低頻調整，藉以形成一移頻子音。而該目標頻率位於該子音之主要頻率之附近，且該目標頻率沒有一其他環境音存在且該其他環境音之能量足以干擾該子音。舉例來說，語音處理模組40會先尋找子音的較高頻的頻段區間中，是否有其他環境音。頻段區間可以為差距300赫茲，但本發明並不限於此。如果在較高頻的頻段區間有其他環境音，語音處理模組40就再尋找子音的較低頻的頻段區間。藉此重複執行後，語音處理模組40即可以將輸入語音之子音頻率調整到乾淨的區間。最後輸出該移頻子音，以形成輸出語音。

需注意的是，本發明之頻率調整方法並不限要先找較高頻或較低頻的頻段區間，本發明也不限定調整的幅度，只要能達成類似效果，亦可採用其他方法。該輸入語音之子音頻率範圍調整後最高不超過12000赫茲，最低不低於3000赫茲，但本發明並不限於此數值。且於本發明之另一實施例中，語音處理模組40也可保留該輸入語音之子音，使得原始的子音與移頻子音共同形成輸出語音，但本發明並不限於此處理方式。另一方面，語音處理模組40不處理該輸入語音中之母音，以避免輸入語音完全失真。

最後揚聲模組50係電性連接該語音處理模組40，用以播放該輸出語音。揚聲模組50可以為耳機或喇叭，但本發明並不限於此。如此一來，使用者在使用時，揚聲模組50播放的輸出語音即可避開外界環境音之干擾。

需注意的是，聲音播放裝置10具有的各模組可以為硬體裝置、軟體程式結合硬體裝置、韌體結合硬體裝置等方式架構而成，例如可以將一電腦程式產品儲存於一電腦可讀取媒體中讀取並執行以達成本發明之各項功能，但本發明並不以上述的方式為限。此外，本實施方式僅例示本發明之較佳實施例，為避免贅述，並未詳加記載所有可能的變化組合。然而，本領域之通常知識者應可理解，上述各模組或元件未必皆為必要。且為實施本發明，亦可能包含其他較細節之習知模組或元件。各模組或元件皆可能視需求加以省略或修改，且任兩模組間未必不存在其他模組或元件。

接著請參考圖2係本發明之調整語音頻率之方法之步驟流程圖。此處需注意的是，以下雖以上述聲音播放裝置10為例說明本發明之調整語音頻率之方法，但本發明之調整語音頻率之方法並不以使用在上述相同結構的聲音播放裝置10為限。

首先聲音播放裝置10進行步驟201：取得一輸入語音。

其次語音提供模組20用以取得一輸入語音。輸入語音可以為外界的語音、已經儲存的語音或是文字轉語音(text-to-speech，TTS)服務模組所產生的語音，但本發明並不限於此。

接著進行步驟202：找出該輸入語音之一子音頻。

接著語音處理模組40可以找出輸入語音之一子音，並得知其頻率。在此也請參考圖3A-3C係本發明之環境音頻率與輸入語音之子音之關係示意圖。於圖3A中，語音處理模組40找到位於區段R2中的子音頻率F1。

接著進行步驟203：偵測該子音之主要頻率範圍是否有一環境音存在且該環境音之能量足以干擾該子音。

接著聲音偵測器30偵測聲音播放裝置10外的環境音後，語音處理模組40再分析該子音之主要頻率範圍是否有一環境音存在且該環境音之能量足以干擾該子音。以圖3A為例，語音處理模組40就會得知子音F1所在的主要頻率範圍，即頻段區間R2內具有環境音N1。需注意的是，標示頻段區間R1到R5僅為方便進行說明，本發明並不限定要如圖3A到3C中切割成頻段區間R1到R5。

若語音處理模組40確認該子音之主要頻率範圍沒有環境音存在或是該環境音之能量不足以干擾該子音，則進行步驟204：不針對該子音進行移頻，並輸出該子音。

此時語音處理模組40就不會對子音進行處理，直接輸出子音，以形成輸出語音。

若語音處理模組40確認該子音之主要頻率範圍有環境音存在且該環境音之能量足以干擾該子音，語音處理模組40係進行步驟205：將該子音進行移頻至一目標頻率以避開該環境音以形成一移頻子音，並輸出該移頻子音。

語音處理模組40係將該輸入語音之子音進行頻率調整至一目標頻率，以避開該環境音，以形成一移頻子音，藉以形成輸出語音。該輸入語音之子音頻率範圍調整後最高不超過12000赫茲，最低不低於3000赫茲。且該語音處理模組40不處理該輸入語音中之母音。因此如同圖3A所示，當語音處理模組40得知頻段區間R2內的輸入語音之子音F1會被環境音N1干擾時，語音處理模組40係將該輸入語音中的子音F1進行調整到較低頻的目標頻率，即頻段區間R3內，以成為移頻子音，即為子音F2，最後形成該輸出語音。子音F2不與環境音頻率範圍N1重疊，因此輸出語音可以避開環境音頻率範圍N1之干擾。需注意的是，上述的語音處理模組40係先將子音移頻到較低的頻率，但本發明並不限於此，語音處理模組40也可先將子音移頻到較高的頻率。

另外，環境音的頻率範圍也可能較大到超過調整頻率，或是其他頻率中有其他環境音干擾。如圖3B所示，在頻段區間R3中具有環境音N2。所以當該語音處理模組40將該輸入語音中之子音F1移頻為子音F2時，子音F2所在頻段區間R3內仍會有環境音N2，所以語音處理模組40會再將子音F2移頻到更高頻之頻段區間R1，以形成子音F3。

另外，就如圖3C所示，若有另外的環境音N3位於頻段區間R1內時，語音處理模組40就要再次對子音F3進行調整，將子音F3移頻到更低頻之頻段區間R4內，以形成子音F4。當確認頻段區間R4內沒有會影響子音F4的環境音時，才將子音F4確認為要輸出的移頻子音。由此可知，語音處理模組40會反覆測試較高或較低頻的區段內的環境音，直到找到真正乾淨的區間為止。

最後進行步驟206：播放該輸出語音。

最後揚聲模組50播放出該輸出語音。如此一來，輸出語音即可避開噪音之干擾。並且該輸出語音除了包括調整後之移頻子音外，也可以包括原始的輸入語音。於本發明之另一實施例中，語音處理模組40也可保留該輸入語音之子音，以圖3A為例，原始的子音F1與移頻子音F2可以共同形成輸出語音，但本發明並不限於此處理方式。

此處需注意的是，本發明之偵測環境音以改變播放語音頻率之方法並不以上述之步驟次序為限，只要能達成本發明之目的，上述之步驟次序亦可加以改變。

如此一來，根據上述實施方式，使用者使用聲音播放裝置10時就可以避開環境音的干擾，聲音播放裝置10也不需要將所有的頻段進行分析，可以節省處理的時間。若環境音的頻率改變時，聲音播放裝置10也可以即時反應。

需注意的是，上述實施方式僅例示本發明之較佳實施例，為避免贅述，並未詳加記載所有可能的變化組合。然而，本領域之通常知識者應可理解，上述各模組或元件未必皆為必要。且為實施本發明，亦可能包含其他較細節之習知模組或元件。各模組或元件皆可能視需求加以省略或修改，且任兩模組間未必不存在其他模組或元件。只要不脫離本發明基本架構者，皆應為本專利所主張之權利範圍，而應以專利申請範圍為準。

10‧‧‧聲音播放裝置

20‧‧‧語音提供模組

30‧‧‧聲音偵測器

40‧‧‧語音處理模組

50‧‧‧揚聲模組

N1、N2、N3‧‧‧環境音

F1、F2、F3、F4‧‧‧子音

R1、R2、R3、R4、R5‧‧‧頻段區間

圖1係本發明之聲音播放裝置之架構示意圖。圖2係本發明之調整語音頻率之方法之步驟流程圖。圖3A-3C係本發明之環境音頻率與輸入語音之子音之關係示意圖。

Claims

一種調整語音頻率之方法，係使用在一聲音播放裝置上，該方法包括以下步驟：取得一輸入語音；當該輸入語音具有一子音時，係進行：偵測該子音之主要頻率範圍是否有一環境音存在且該環境音之能量足以干擾該子音；若否，則不針對該子音進行移頻，並輸出該子音；以及若是，則將該子音進行移頻至一目標頻率以避開該環境音以形成一移頻子音，並輸出該移頻子音，藉以形成一輸出語音，其中該目標頻率位於該子音之主要頻率之附近，且該目標頻率沒有一其他環境音存在且該其他環境音之能量足以干擾該子音。
如申請專利範圍第1項所述之調整語音頻率之方法，其中該目標頻率之選擇方式以越接近該子音之主要頻率範圍為選擇方式。
如申請專利範圍第1項所述之調整語音頻率之方法，其中該目標頻率比該子音之主要頻率範圍高或低。
如申請專利範圍第1到3項之任一項所述之調整語音頻率之方法，更包括以下步驟：當該環境音之能量為該子音之能量之M倍時，則判斷該環境音存在且該環境音之能量足以干擾該子音，其中0.3≦M≦10000。
如申請專利範圍第1到3項之任一項所述之調整語音頻率之方法，更包括以下步驟：當該其他環境音之能量為該子音之能量之M倍時，則判斷該其他環境音存在且該環境音之能量足以干擾該子音，其中0.3≦M≦10000。
如申請專利範圍第1到3項之任一項所述之調整語音頻率之方法，其中該輸出語音更包括該輸入語音。
如申請專利範圍第1到3項之任一項所述之調整語音頻率之方法，其中該移頻子音之頻率最高不超過12000赫茲，最低不低於3000赫茲。
如申請專利範圍第1項所述之調整語音頻率之方法，更包括不對該輸入語音中之一母音進行調整之步驟。
一種聲音播放裝置，包括：一語音提供模組，用以取得一輸入語音；一聲音偵測器，用以偵測一環境音；一語音處理模組，係電性連接該語音提供模組及該聲音偵測器，當該輸入語音具有一子音時，該語音處理模組偵測該子音之主要頻率範圍是否有一環境音存在且該環境音之能量足以干擾該子音；若否，則不針對該子音進行移頻；若是，則將該子音進行移頻至一目標頻率以避開該環境音以形成一移頻子音，藉以形成一輸出語音；其中該目標頻率位於該子音之主要頻率之附近，且該目標頻率沒有一其他環境音存在且該其他環境音之能量足以干擾該子音；以及一揚聲模組，係電性連接該語音處理模組，用以播放該輸出語音。
如申請專利範圍第9項所述之聲音播放裝置，其中該目標頻率之選擇方式以越接近該子音之主要頻率範圍為選擇方式。
如申請專利範圍第9項所述之聲音播放裝置，其中該目標頻率比該子音之主要頻率範圍高或低。
如申請專利範圍第9到11項之任一項所述之聲音播放裝置，其中當該環境音之能量為該子音之能量之M倍時，則該語音處理模組判斷該環境音存在且該環境音之能量足以干擾該子音，其中0.3≦M≦10000。
如申請專利範圍第9到11項之任一項所述之聲音播放裝置，其中當該其他環境音之能量為該子音之能量之M倍時，則該語音處理模組判斷該其他環境音存在且該環境音之能量足以干擾該子音，其中0.3≦M≦10000。
如申請專利範圍第9到11項之任一項所述之聲音播放裝置，其中該輸出語音更包括該輸入語音。
如申請專利範圍第9到11項之任一項所述之聲音播放裝置，其中該子音調整後頻率最高不超過12000赫茲，最低不低於3000赫茲。
如申請專利範圍第9項所述之聲音播放裝置，其中該語音處理模組不調整該輸入語音中之一母音頻率。