TWI858505B

TWI858505B - 語音資料產生方法及系統與電腦程式產品

Info

Publication number: TWI858505B
Application number: TW112101307A
Authority: TW
Inventors: 梁家瑞
Original assignee: 聯經數位股份有限公司
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2024-10-11
Also published as: TW202429441A

Abstract

一種由語音資料產生系統實施的語音資料產生方法，包含：(A)根據一文字資料所包含的一語句文字部分計算一對應於該語句文字部分的字元數量；(B)至少根據該字元數量決定一對應於該語句文字部分的句末停頓時長；(C)至少根據該語句文字部分及該句末停頓時長產生一對應於該文字資料且用於以聲音形式被輸出的語音資料，其中，該語音資料包含一用於以語音指示出該語句文字部分的語句語音部分，以及一接續在該語句語音部分之後、不指示出任何語句文字部分且持續時間長度與該句末停頓時長相符的句末停頓部分。

Description

語音資料產生方法及系統與電腦程式產品

本發明是有關於一種資料產生方法，特別是指一種適合被應用在電腦語音輸出的語音資料產生方法。本發明還有關於適合被應用在電腦語音輸出的一種語音資料產生系統，以及一種電腦程式產品。

將文字轉換成電腦語音已經是現有技術中的常見功能，但若要讓電腦語音聽起來更為自然，則始終是一個極具挑戰性的目標。所以，如何使電腦語音更加接近真人的說話方式，便成為本案所欲探討的議題。

為了使電腦語音更加接近真人的說話方式，本發明的其中一目的，便在於提供一種語音資料產生方法。

本發明語音資料產生方法由一語音資料產生系統對一文字資料實施；該語音資料產生方法包含：(A)根據該文字資料所包含的一語句文字部分計算一對應於該語句文字部分的字元數量；(B)至少根據該字元數量決定一對應於該語句文字部分的句末停頓時長；(C)至少根據該語句文字部分及該句末停頓時長產生一對應於該文字資料且用於以聲音形式被輸出的語音資料，其中，該語音資料包含一用於以語音指示出該語句文字部分的語句語音部分，以及一接續在該語句語音部分之後、不指示出任何語句文字部分且持續時間長度與該句末停頓時長相符的句末停頓部分。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生系統儲存有一語速參數，且該語速參數相關於該語音資料以聲音形式被輸出時的語音速度，在步驟(B)中，該語音資料產生系統是根據該字元數量及該語速參數計算一對應於該語句文字部分的預計耗費時長，再至少根據該預計耗費時長決定該句末停頓時長。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生系統還儲存有一預設可用時長參數。在步驟(B)中，在該語句文字部分為該文字資料之一段落中的第一個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，其中，該剩餘時間值是該預設可用時長參數與該預計耗費時長之間的差。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生系統還儲存有一第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數。在步驟(B)中，在該語句文字部分為該文字資料之該段落中的第一個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；若該剩餘時間值小於該門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生系統還儲存有一預設可用時長參數。在步驟(B)中，在該語句文字部分為該文字資料之一段落中的第N個語句文字部分的情況下(N為大於1的整數)，該語音資料產生系統決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，其中，該剩餘時間值相關於該預設可用時長參數，且還相關於該語句文字部分之該段落的第(N-1)個語句文字部分所對應的另一剩餘時間值及另一句末停頓時長。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生系統還儲存有一最短停頓時長參數、一大於該最短停頓時長參數的第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數。在步驟(B)中，在該語句文字部分為該文字資料之該段落中的第N個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一為正數的第一門檻值，將該句末停頓時長設定為該最短停頓時長參數的數值；若該剩餘時間值小於該第一門檻值且大於等於一為負數的第二門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；若該剩餘時間值小於該第二門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。

在本發明語音資料產生方法的一些實施態樣中，在步驟(B)中，在該剩餘時間值小於一為負數的門檻值的情況下，該語音資料產生系統還將該語句文字部分拆分成多個具有順序性的語句片段，並將該句末停頓時長設定為一停頓時長參數的數值，以及決定一句中停頓時長。在步驟(C)中，在該剩餘時間值小於該門檻值的情況下，該語句語音部分包括多個具有順序性且分別用於以語音指示出該等語句片段的語音片段，以及M個不指示出任何語句片段且持續時間長度與該句中停頓時長相符的句中停頓部分，其中，M為大於等於1的整數，且該M個句中停頓部分是分別接續在該等語音片段中的前M個語音片段之後。

在本發明語音資料產生方法的一些實施態樣中，該語音資料產生方法還包含一位於步驟(A)之前的：(D)根據該文字資料所包含的一或多個特定符號從該文字資料中定義出該語句文字部分。

本發明的另一目的，在於提供一種有助於使電腦語音更加接近真人說話方式的語音資料產生系統。

本發明語音資料產生系統包含一儲存單元及一與該儲存單元電連接的處理單元，且該處理單元用於：根據一文字資料所包含的一語句文字部分計算一對應於該語句文字部分的字元數量；至少根據該字元數量決定一對應於該語句文字部分的句末停頓時長；至少根據該語句文字部分及該句末停頓時長產生一對應於該文字資料且用於以聲音形式被輸出的語音資料，其中，該語音資料包含一用於以語音指示出該語句文字部分的語句語音部分，以及一接續在該語句語音部分之後、不指示出任何語句文字部分且持續時間長度與該句末停頓時長相符的句末停頓部分。

在本發明語音資料產生系統的一些實施態樣中，該儲存單元儲存有一語速參數，且該語速參數相關於該語音資料以聲音形式被輸出時的語音速度。該處理單元是用於根據該字元數量及該語速參數計算一對應於該語句文字部分的預計耗費時長，再至少根據該預計耗費時長決定該句末停頓時長。

在本發明語音資料產生系統的一些實施態樣中，該儲存單元還儲存有一預設可用時長參數。在該語句文字部分為該文字資料之一段落中的第一個語句文字部分的情況下，該處理單元決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，其中，該剩餘時間值是該預設可用時長參數與該預計耗費時長之間的差。

在本發明語音資料產生系統的一些實施態樣中，該儲存單元還儲存有一第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數。在該語句文字部分為該文字資料之該段落中的第一個語句文字部分的情況下，該處理單元決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；若該剩餘時間值小於該門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。

在本發明語音資料產生系統的一些實施態樣中，該儲存單元還儲存有一預設可用時長參數。在該語句文字部分為該文字資料之一段落中的第N個語句文字部分的情況下(N為大於1的整數)，該處理單元決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，其中，該剩餘時間值相關於該預設可用時長參數，且還相關於該語句文字部分之該段落的第(N-1)個語句文字部分所對應的另一剩餘時間值及另一句末停頓時長。

在本發明語音資料產生系統的一些實施態樣中，該儲存單元還儲存有一最短停頓時長參數、一大於該最短停頓時長參數的第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數。在該語句文字部分為該文字資料之該段落中的第N個語句文字部分的情況下(N為大於1的整數)，該處理單元決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一為正數的第一門檻值，將該句末停頓時長設定為該最短停頓時長參數的數值；若該剩餘時間值小於該第一門檻值且大於等於一為負數的第二門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；若該剩餘時間值小於該第二門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。

在本發明語音資料產生系統的一些實施態樣中，該處理單元還用於在該剩餘時間值小於一為負數的門檻值的情況下，將該語句文字部分拆分成多個具有順序性的語句片段，並將該句末停頓時長設定為一停頓時長參數的數值，以及決定一句中停頓時長。在該剩餘時間值小於該門檻值的情況下，該語句語音部分包括多個具有順序性且分別用於以語音指示出該等語句片段的語音片段，以及M個不指示出任何語句片段且持續時間長度與該句中停頓時長相符的句中停頓部分，其中，M為大於等於1的整數，且該M個句中停頓部分是分別接續在該等語音片段中的前M個語音片段之後。

在本發明語音資料產生系統的一些實施態樣中，該處理單元還用於在計算該字元數量之前根據該文字資料所包含的一或多個特定符號從該文字資料中定義出該語句文字部分。

本發明的再一目的，在於提供一種有助於使電腦語音更加接近真人說話方式的電腦程式產品。

本發明電腦程式產品包含一應用程式，其中，該應用程式適用於被一電子裝置載入並運行，而使該電子裝置對一文字資料實施如前述任一實施態樣中所述的語音資料產生方法。

本發明之功效在於：該語音資料產生系統能至少根據該文字資料之該語句文字部分的字元數量來決定對應於該語句文字部分的句末停頓時長，從而設定該語音資料中接續在該語句語音部分之後的句末停頓部分的持續時間長度，藉此，該語音資料產生系統所產生的該語音資料能以語句的長短為依據，從而模擬真人說話時因換氣所導致之不同長度的停頓，所以，該語音資料產生系統有助於使電腦語音更加接近真人的說話方式。

在本發明被詳細描述之前應當注意：若未特別定義，則本專利說明書中所述的「電連接」泛指多個電子設備/裝置/元件之間透過導電材料彼此相連而實現的「有線電連接」，以及透過無線通訊技術進行單/雙向無線信號傳輸的「無線電連接」。並且，本專利說明書中所述的「電連接」也泛指多個電子設備/裝置/元件之間彼此直接相連而形成的「直接電連接」，以及多個電子設備/裝置/元件之間還透過其他電子設備/裝置/元件彼此間接相連而形成的「間接電連接」。

參閱圖1，本發明語音資料產生系統1的一實施例適用於與多個使用端5（圖1僅示出其中一者）透過網路電連接。其中，每一使用端5是一台能供使用者操作的手機、平板電腦、筆記型電腦或者桌上型電腦，並且，為了便於描述，以下僅利用圖1所示出的該使用端5對本實施例的運作方式進行示例說明。

在本實施例中，該語音資料產生系統1被實施為一台伺服設備，且該語音資料產生系統1包含一處理單元11，以及一電連接該處理單元11的儲存單元12。其中，該處理單元11為一具有資料運算及處理功能的中央處理器，且該處理單元11適用於透過網路與該使用端5電連接以進行通訊。該儲存單元12是一用於儲存數位資料的資料儲存裝置（例如硬碟）。

然而，在另一種實施例中，該語音資料產生系統1亦可被實施為多台彼此電連接的伺服設備，該處理單元11是被實施為該等伺服設備所分別具有之多個中央處理器的組合，而該儲存單元12則是被實施為該等伺服設備所分別具有之多個儲存裝置的組合。此外，在又一種實施例中，該語音資料產生系統1是一台能供使用者操作的電子裝置，且可被實施為手機、平板電腦、筆記型電腦或者桌上型電腦。所以，應當理解的是，該語音資料產生系統1在硬體方面的實際實施態樣並不以本實施例為限。

在本實施例中，該儲存單元12儲存有一語速參數P1、一預設可用時長參數P2，以及多個停頓時長參數P3，其中，本專利說明書所述的「時長」是代表「時間長度」。該語速參數P1、該預設可用時長參數P2以及該等停頓時長參數P3是用於供該處理單元11據以產生能以電腦語音被播放出（例如被該使用端5所播放出）的語音資料，所述語音資料的相關細節將於後續說明。

該語速參數P1是用來設定該處理單元11所產生之語音資料本身的文字播放速度。在本實施例中，該語速參數P1代表的單位是「秒／字元」，換言之，該語速參數P1是表示單一個字元被播放所需耗費的時間，但並不以此為限。舉例來說，若該語速參數P1的數值是「0.2」，代表所述的語音資料被以電腦語音播放時，其中的每一個字元平均需耗時0.2秒來被播放，所以，假設所述語音資料中的一個示例的語句文字部分是由十個字元所構成（例如「今天的天氣是晴時多雲」），則此語句文字部分便需耗時2秒才能被以電腦語音播放完畢。

該預設可用時長參數P2是用來表示所述語音資料在被播放的過程中，多個字元被連續播放的理想時間長度上限。更具體地說，該預設可用時長參數P2可以被理解成一個用來模擬真人肺活量程度的參數。舉例來說，若該預設可用時長參數P2被設定成3.5秒，則依據該預設可用時長參數P2被產生之語音資料所呈現的說話方式，便是在模擬一個能夠輕鬆地一口氣說話3.5秒、但超過3.5秒後便會漸感吃力的真人。

在本實施例中，該等停頓時長參數P3的數量為三個，且該三個停頓時長參數P3分別為一最短停頓時長參數P30、一大於該最短停頓時長參數P30的第一停頓時長參數P31，以及一大於該第一停頓時長參數P31的第二停頓時長參數P32。具體來說，該最短停頓時長參數P30是用來模擬真人在說話過程中在語句之間稍微停頓的時間長度，該第一停頓時長參數P31是用來模擬真人在說話過程中因小口換氣而停頓的時間長度，而該第二停頓時長參數P32則是用來模擬真人在說話過程中因大口換氣而停頓的時間長度。示例性地，該最短停頓時長參數P30例如為0.2秒，該第一停頓時長參數P31例如為0.4秒，該第二停頓時長參數P32則例如為0.8秒，但並不以此為限。

補充說明的是，該語速參數P1、該預設可用時長參數P2及該等停頓時長參數P3的數值可依據欲透過語音資料所呈現之說話方式的不同而被自由調整。舉例來說，若要模擬成年男性的說話方式，該預設可用時長參數P2可被設定成3.5秒，而若要模擬幼童的說話方式，該預設可用時長參數P2則可被設定成1.9秒，但不以此為限。根據所欲呈現之說話方式的不同，該語速參數P1、該預設可用時長參數P2及該等停頓時長參數P3皆可被自由設定成大於0的各種數值，所以，該語速參數P1、該預設可用時長參數P2及該等停頓時長參數P3的實際數值並不以前述所舉之例為限。

同時參閱圖1及圖2（由圖2A及2B組成），以下示例性地說明本實施例的該語音資料產生系統1如何對一文字資料實施一語音資料產生方法。其中，該文字資料可以是由該處理單元11從該使用端5所接收（亦即由該使用端5傳送至該處理單元11），或者，該文字資料也可以是被預先儲存於該儲存單元12，而被該處理單元11所讀取。由於該處理單元11獲得該文字資料的方式並不影響該語音資料產生方法的實施，故本實施例不限定該文字資料的來源。

為了便於描述與理解，在此先假設該文字資料的內容為：「學生時期老師們都會為我們精心策辦活動，萬聖節是一年之中最期待的節日之一，爸爸媽媽也都絞盡腦汁配合學校活動，為自己小孩打扮，有的時候是自己提出想要扮什麼，但更多的時候是不情願，迎合父母口味打扮成他們想要的樣子，即便如此，到了學校與同學一起慶祝，一起上街要糖，也是非常快樂的！」。補充說明的是，上述所示的該文字資料僅有單一個段落，但該語音資料產生方法也能被應用在具有多個段落的文字資料上。

首先，在步驟S1中，該處理單元11根據該預設可用時長參數P2的數值（例如「3.5」）決定出多個門檻值，以及多個補充時間值。

在本實施例中，該等門檻值例如包含一為正數的第一門檻值、一為負數的第二門檻值，以及一小於該第二門檻值而亦為負數的第三門檻值。另一方面，該等補充時間值則例如包含一對應於該第一停頓時長參數P31的第一補充時間值，以及一對應於該第二停頓時長參數P32的第二補充時間值。

具體舉例來說，在本實施例中，該第一門檻值是該預設可用時長參數P2之數值（例如「3.5」）的0.5倍（例如「1.75」），該第二門檻值是該預設可用時長參數P2之數值的-0.5倍（例如「-1.75」），而該第三門檻值則是該預設可用時長參數P2之數值的-1倍（例如「-3.5」）。另一方面，在本實施例中，該第一補充時間值是該預設可用時長參數P2之數值的0.5倍（例如「1.75」），而該第二補充時間值則與該預設可用時長參數P2的數值相符（例如「3.5」）。補充說明的是，該等門檻值及該等補充時間值皆是由該處理單元11根據該預設可用時長參數P2的數值以預設好的倍率所計算出，但是，其每一者與該預設可用時長參數P2之間的倍率關係可被自由設定與調整，所以，該等門檻值及該等補充時間值各自的實際態樣當然不以前述所舉之例為限。

在該處理單元11決定出該等門檻值及該等補充時間值後，流程進行至步驟S2。

在步驟S2中，該處理單元11根據該文字資料所包含的一或多個特定符號，從該文字資料中定義出多個具有順序性的語句文字部分。更詳細地說，每一語句文字部分在本實施例中是由多個能被電腦語音播放出的字元所構成，而且，所述的特定符號是被預先定義好的多種特定標點符號，包含但不限於逗號、句號、頓號、空格符號、分號、問號、驚嘆號、引號及冒號等用來表示停頓語氣的標點符號。

以前述所示的該文字資料舉例來說，該處理單元11所定義出的第一個語句文字部分會是「學生時期老師們都會為我們精心策辦活動」，第二個語句文字部分會是「萬聖節是一年之中最期待的節日之一」，第三個語句文字部分則會是「爸爸媽媽也都絞盡腦汁配合學校活動」，餘下以此類推。

在該處理單元11定義出該文字資料所包含的該等語句文字部分之後，流程進行至步驟S3。

在步驟S3中，對於所述的第一個語句文字部分（後稱「第一語句文字部分」），該處理單元11根據該第一語句文字部分中的所有字元，計算一對應於該第一語句文字部分的字元數量。並且，為了便於描述，在此將該第一語句文字部分所對應的該字元數量作為一第一字元數量。以前述所示的該文字資料為例，該第一語句文字部分是「學生時期老師們都會為我們精心策辦活動」，因此，該第一字元數量會是「18」，亦即該第一語句文字部分總共由18個字元所組成。

在該處理單元11計算出該第一字元數量之後，流程進行至步驟S4。

在步驟S4中，對於該第一語句文字部分，該處理單元11根據該第一字元數量及該語速參數P1，計算一對應於該第一語句文字部分的預計耗費時長。並且，為了便於描述，在此將該第一語句文字部分所對應的該預計耗費時長作為一第一預計耗費時長。更具體地說，該第一預計耗費時長是代表該第一語句文字部分被以電腦語音播放所需耗費的時間長度。而且，在本實施例中，該處理單元11是將該第一字元數量（例如為「18」）與該語速參數P1（例如為「0.2」）相乘以計算出該第一預計耗費時長（例如「3.6」），但並不以此為限。

在該處理單元11計算出該第一預計耗費時長之後，流程進行至步驟S5。

在步驟S5中，對於該第一語句文字部分，該處理單元11根據該第一預計耗費時長及該預設可用時長參數P2，計算一對應於該第一語句文字部分的剩餘時間值。並且，為了便於描述，在此將該第一語句文字部分所對應的該剩餘時間值作為一第一剩餘時間值。更具體地說，在本實施例中，該處理單元11是將該預設可用時長參數P2的數值（例如「3.5」）減去該第一預計耗費時長（例如步驟S4中舉例的「3.6」）以計算出該第一剩餘時間值（例如「-0.1」），換言之，該第一剩餘時間值是該預設可用時長參數P2與該第一預計耗費時長之間的差。

在本實施例中，該第一剩餘時間值可以被理解成在模擬一個真人以該語速參數P1所表示的語速一口氣說完該第一語句文字部分之後的肺活量情形，但並不以此為限。以本實施例而言，若該第一剩餘時間值大於等於0，可以理解成有如一個真人能夠輕鬆地一口氣說完該第一語句文字部分，反之，若該第一剩餘時間值小於0（即為負數），則可以理解成有如一個真人在一口氣說完該第一語句文字部分後會因肺活量不足而感到吃力，而且，在該剩餘時間值小於0的情況下，其絕對值的大小可以被理解成吃力的程度，亦即絕對值愈大，吃力程度愈高。

在該處理單元11計算出該第一剩餘時間值之後，流程進行至步驟S6。

在步驟S6中，該處理單元11根據該第一剩餘時間值、該第二門檻值以及該第三門檻值來決定出一對應於該第一語句文字部分的句末停頓時長。並且，為了便於描述，在此將該第一語句文字部分所對應的該句末停頓時長作為一第一句末停頓時長。

該第一句末停頓時長是表示電腦語音在將該第一語句文字部分播放完畢後，在繼續播放下一個語句文字部分前所要停頓的時間長度。而且，在本實施例中，該處理單元11決定該第一句末停頓時長的方式，是將該第一剩餘時間值與該第二門檻值（例如步驟S1中舉例的「-1.75」）以及該第三門檻值（例如步驟S1中舉例的「-3.5」）進行比對，並根據比對結果決定該第一句末停頓時長，但並不以此為限。

具體舉例來說，若該處理單元11判斷出該第一剩餘時間值大於等於該第二門檻值，則該處理單元11將該第一句末停頓時長設定為該第一停頓時長參數P31的數值（例如「0.4」）。另一方面，若該處理單元11判斷出該第一剩餘時間值小於該第二門檻值且大於等於該第三門檻值，則該處理單元11將該第一句末停頓時長設定為該第二停頓時長參數P32的數值（例如「0.8」）。再一方面，若該處理單元11判斷出該第一剩餘時間值小於該第三門檻值，則該處理單元11除了將該第一句末停頓時長設定為該第二停頓時長參數P32的數值之外，還將該第一語句文字部分拆分成多個具有順序性且能共同構成該第一語句文字部分的語句片段，以及進一步決定出一對應於該第一語句文字部分的句中停頓時長。更明確地說，對於該第一語句文字部分，該處理單元11只有在該第一剩餘時間值小於該第三門檻值的情況下，才會將該第一語句文字部分拆分成該等語句片段並決定出該句中停頓時長，而且，該處理單元11在本實施例中例如是將該句中停頓時長設定為該第一停頓時長參數P31的數值（例如「0.4」），但並不以此為限。

在該處理單元11決定出該第一句末停頓時長之後，流程進行至步驟S7。

在步驟S7中，對於所述的第二個語句文字部分（後稱「第二語句文字部分」），該處理單元11根據該第二語句文字部分中的所有字元，計算一對應於該第二語句文字部分的字元數量。並且，為了便於描述，在此將該第二語句文字部分所對應的該字元數量作為一第二字元數量。以前述所示的該文字資料為例，該第二語句文字部分是「萬聖節是一年之中最期待的節日之一」，因此，該第二字元數量會是「16」，亦即該第二語句文字部分總共由16個字元所組成。

在該處理單元11計算出該第二字元數量之後，流程進行至步驟S8。

在步驟S8中，對於該第二語句文字部分，該處理單元11根據該第二字元數量及該語速參數P1，計算一對應於該第二語句文字部分的預計耗費時長。並且，為了便於描述，在此將該第二語句文字部分所對應的該預計耗費時長作為一第二預計耗費時長。與該第一預計耗費時長類似，該第二預計耗費時長是代表該第二語句文字部分被以電腦語音播放所需耗費的時間長度。而且，在本實施例中，該處理單元11是將該第二字元數量（例如為「16」）與該語速參數P1（例如為「0.2」）相乘以計算出該第二預計耗費時長（例如「3.2」），但並不以此為限。

在該處理單元11計算出該第二預計耗費時長之後，流程進行至步驟S9。

在步驟S9中，對於該第二語句文字部分，該處理單元11根據該第二預計耗費時長、該第二語句文字部分的上一個語句文字部分（亦即該第一語句文字部分）所對應的該剩餘時間值（亦即該第一剩餘時間值），以及該等補充時間值中與上一個語句文字部分所對應之句末停頓時長（亦即該第一句末停頓時長）相關的其中一個補充時間值，計算一對應於該第二語句文字部分的剩餘時間值。並且，為了便於描述，在此將該第二語句文字部分所對應的該剩餘時間值作為一第二剩餘時間值。類似於該第一剩餘時間值，該第二剩餘時間值可以被理解成在模擬一個真人以該語速參數P1所表示的語速一口氣說完該第二語句文字部分之後的肺活量情形。

在本實施例中，該處理單元11計算該第二剩餘時間值的方式，是將該第一剩餘時間值（例如步驟S5中舉例的「-0.1」）累加與該第一句末停頓時長相關的補充時間值（例如該第一補充時間值，其數值例如為步驟S1中舉例的「1.75」），再減去該第二預計耗費時長（例如前述舉例的「3.2」），從而計算出該第二剩餘時間值（例如「-1.55」）。並且，若上一個語句文字部分所對應的該句末停頓時長是被設定成該第一停頓時長參數P31的數值（例如步驟S6中舉例的「0.4」），則該處理單元11計算該第二剩餘時間值時，便是將上一個語句文字部分所對應的該剩餘時間值累加與該第一停頓時長參數P31對應的該第一補充時間值（例如步驟S1中舉例的「1.75」），再減去該第二預計耗費時長。而若上一個語句文字部分所對應的該句末停頓時長是被設定成該第二停頓時長參數P32的數值（例如步驟S6中舉例的「0.8」），則該處理單元11計算該第二剩餘時間值時，便是將上一個語句文字部分所對應的該剩餘時間值累加與該第二停頓時長參數P32對應的該第二補充時間值（例如步驟S1中舉例的「3.5」），再減去該第二預計耗費時長。

更明確地說，該處理單元11要利用哪一個補充時間值來計算該第二剩餘時間值，取決於上一個句末停頓時長是被設定成該第一停頓時長參數P31的數值，還是被設定成該第二停頓時長參數P32的數值。其中，每一補充時間值可被理解成是模擬真人在說完一句話後藉由換氣而恢復的肺活量。所以，若上一個句末停頓時長是被設定成相對較小的第一停頓時長參數P31的數值，可理解成是在模擬真人僅用相對較短的時間進行換氣，在此情況下，該處理單元11便會利用相對較小的第一補充時間值來計算該第二剩餘時間值，藉此模擬真人在說出下一句話之前，只能恢復相對較少的肺活量。反之，若上一個句末停頓時長是被設定成相對較大的第二停頓時長參數P32的數值，可理解成是在模擬真人用相對較長的時間進行換氣，在此情況下，該處理單元11便會利用相對較大的第二補充時間值來計算該第二剩餘時間值，藉此模擬真人在說出下一句話之前，能夠恢復相對較多的肺活量。

在該處理單元11計算出該第二剩餘時間值之後，流程進行至步驟S10。

在步驟S10中，該處理單元11根據該第二剩餘時間值、該第一門檻值、該第二門檻值以及該第三門檻值來決定出一對應於該第二語句文字部分的句末停頓時長。並且，為了便於描述，在此將該第二語句文字部分所對應的該句末停頓時長作為一第二句末停頓時長。

該第二句末停頓時長是表示電腦語音在將該第二語句文字部分播放完畢後，在繼續播放下一個語句文字部分前所要停頓的時間長度。而且，在本實施例中，該處理單元11決定該第二句末停頓時長的方式，是將該第二剩餘時間值與該第一門檻值（例如步驟S1中舉例的「1.75」）、該第二門檻值（例如步驟S1中舉例的「-1.75」）以及該第三門檻值（例如步驟S1中舉例的「-3.5」）進行比對，並根據比對結果決定該第二句末停頓時長，但並不以此為限。

更具體地說，在一方面，若該處理單元11判斷出該第二剩餘時間值大於等於該第一門檻值（例如大於等於1.75），則該處理單元11將該第二句末停頓時長設定為該最短停頓時長參數P30的數值（例如「0.2」）。

另一方面，若該處理單元11判斷出該第二剩餘時間值小於該第一門檻值且大於等於該第二門檻值（例如小於1.75且大於等於-1.75），則該處理單元11將該第二句末停頓時長設定為該第一停頓時長參數P31的數值（例如「0.4」）。

再一方面，若該處理單元11判斷出該第二剩餘時間值小於該第二門檻值且大於等於該第三門檻值（例如小於-1.75且大於等於-3.5），則該處理單元11將該第二句末停頓時長設定為該第二停頓時長參數P32的數值（例如「0.8」）。

又一方面，若該處理單元11判斷出該第二剩餘時間值小於該第三門檻值（例如小於-3.5），則該處理單元11除了將該第二句末停頓時長設定為該第二停頓時長參數P32的數值之外，還將該第二語句文字部分拆分成多個具有順序性且能共同構成該第二語句文字部分的語句片段，以及進一步決定出另一對應於該第二語句文字部分的句中停頓時長。而且，對於該第二語句文字部分，該處理單元11只有在該第二剩餘時間值小於該第三門檻值的情況下，才會將該第二語句文字部分拆分成該等語句片段並決定出該句中停頓時長，而且，該處理單元11在本實施例中例如是將該句中停頓時長設定為該第一停頓時長參數P31的數值（例如「0.4」），但並不以此為限。

在該處理單元11決定出該第二句末停頓時長之後，流程進行至步驟S11。

在步驟S11中，對於該文字資料的第三個語句文字部分至第倒數第二個語句文字部分的每一者，該處理單元11計算出其每一語句文字部分所對應的字元數量、預計耗費時長、剩餘時間值以及句末停頓時長。該處理單元11在本步驟中對於每一字元數量、每一預計耗費時長、每一剩餘時間值及每一句末停頓時長的計算方式分別與步驟S7、步驟S8、步驟S9及步驟S10所述的計算方式大致相同，故在此不逐一重述。

在該處理單元11計算出第三個語句文字部分至第倒數第二個語句文字部分之每一者所對應的句末停頓時長之後，流程進行至步驟S12。

在步驟S12中，對於該文字資料的最後一個語句文字部分（在本實施例中是被作為一第十一語句文字部分，亦即前述所示之該文字資料中的「也是非常快樂的」），該處理單元11計算出一對應於該第十一語句文字部分的剩餘時間值（在本實施例中是被作為一第十一剩餘時間值）。其中，該處理單元11對於該第十一剩餘時間值的計算方式概與步驟S7至步驟S9中計算該第二剩餘時間值的方式相同，故在此不再重述。

在該處理單元11計算出該第十一語句文字部分所對應的該第十一剩餘時間值之後，流程進行至步驟S13。

在步驟S13中，該處理單元11決定一對應於該第十一語句文字部分的句末停頓時長（在本實施例是被作為一第十一句末停頓時長）。並且，該處理單元11還將該第十一剩餘時間值與該第三門檻值（例如步驟S1中舉例的「-3.5」）進行比對，並根據比對結果決定是否要將該第十一語句文字部分進行拆分。

在本實施例中，該處理單元11是將最後一個語句文字部分所對應的該句末停頓時長直接設定為該第二停頓時長參數P32的數值（例如「0.8」），換言之，在本實施例中，該第十一句末停頓時長的數值並不涉及該第十一語句文字部分的字元數量與該第十一剩餘時間值。然而，在其他實施例中，該處理單元11對於最後一個語句文字部分所對應之句末停頓時長的決定方式，也可以是與決定該第二句末停頓時長的方式大致相同，而並不以本實施例為限。

此外，若該處理單元11判斷出該第十一剩餘時間值小於該第三門檻值（例如小於-3.5），該處理單元11將該第十一語句文字部分拆分成多個具有順序性且能共同構成該第十一語句文字部分的語句片段，以及決定出一對應於該第十一語句文字部分的句中停頓時長，而且，在本實施例中，該處理單元11例如是直接將該第一停頓時長參數P31的數值（例如「0.4」）作為該第十一語句文字部分所對應的句中停頓時長，但並不以此為限。反之，若該處理單元11判斷出該第十一剩餘時間值並未小於該第三門檻值，則該處理單元11不會將該第十一語句文字部分拆分，且也不會對該第十一語句文字部分設定句中停頓時長。

在該處理單元11設定該第十一語句文字部分所對應的該句末停頓時長之後，流程進行至步驟S14。

在步驟S14中，該處理單元11根據所有該等語句文字部分，以及該等語句文字部分所分別對應於的該等句末停頓時長，產生一對應於該文字資料且用於以電腦語音形式被播放出的語音資料。其中，該語音資料包含多個分別對應於該等語句文字部分的語句語音部分，以及多個分別對應於該等語句語音部分的句末停頓部分，而且，該等句末停頓部分除了分別對應於該等語句語音部分之外，還分別對應於該文字資料的該等語句文字部分。

更詳細地說，每一語句語音部分是用於在該語音資料被播放的過程中，以電腦語音呈現出該語句語音部分本身所對應的該語句文字部分。另一方面，對於每一句末停頓部分，該句末停頓部分是接續在其本身所對應的該語句語音部分之後，並且是該語音資料中的一段靜音或者帶有換氣效果音的部分，換句話說，該句末停頓部分不會以電腦語音指示出該等語句文字部分的任何一者。進一步地，該句末停頓部分的持續時間長度，是相符於其所對應之該語句文字部分所對應的該句末停頓時長，舉例來說，若該第一語句文字部分所對應的句末停頓時長（即該第一句末停頓時長）為0.4秒，則該語音資料中對應於該第一語句文字部分的該句末停頓部分的持續時間長度便會為0.4秒。

進一步地，假設該處理單元11有將其中一或多個語句文字部分拆分成多個語句片段，並對該（等）語句文字部分設定對應的句中停頓時長，則對於有被拆分成多個語句片段的每一語句文字部分，該語音資料中與該語句文字部分對應的該語句語音部分便會包括多個具有順序性的語音片段，以及M個句中停頓部分，且M為大於等於1的整數。更具體地說，該等語音片段是分別對應於該語句文字部分的該等語句片段，而用於以電腦語音分別指示出該等語句片段的字元內容。另一方面，該M個句中停頓部分的數量是該等語音片段的數量減一，而且，該M個句中停頓部分是分別接續在該等語音片段中的前M個語音片段之後。進一步地，對於每一句中停頓部分，該句中停頓部分是該語句語音部分中的一段靜音或者帶有換氣效果音的部分，換句話說，該句中停頓部分不會以電腦語音指示出該語句語音部分的任何一個語句片段。而且，該句中停頓部分的持續時間長度與該語句文字部分所對應的該句中停頓時長相符。具體舉一例來說，假設該處理單元11將該文字資料中的第一語句文字部分拆分成兩個語句片段，並將該第一語句文字部分所對應的該句中停頓時長設定為0.4秒，則在該語音資料中，對應於該第一語句文字部分的該語句語音部分便會包括兩個對應的語音片段，以及單一個介於該兩語音片段之間且持續時間長度為0.4秒的句中停頓部分。補充說明的是，將單一個語句文字部分拆分成多個語句片段可利用現有技術達成，故在此不詳述其細節。

延續上述所示的該文字資料，以下示出對應於該文字資料之該語音資料的兩種示例性態樣。其中，該語音資料的每一語句語音部分是將其所對應的語句文字部分加上大括號「{}」來表示，每一句末停頓部分則是以半型的底線符號「_」來表示。此外，對於包括有語音片段及句中停頓部分的語句語音部分，每一語音片段是將其所對應的多個字元加上中括號「[]」來表示，而每一句中停頓部分則是以半形的井字號「#」來表示。

首先，假設該處理單元11並未將該文字資料中的任何一個語句文字部分拆分成多個語音片段。在此情況下，該語音資料的第一種示例性態樣為：「{學生時期老師們都會為我們精心策辦活動}_{萬聖節是一年之中最期待的節日之一}_{爸爸媽媽也都絞盡腦汁配合學校活動}_{為自己小孩打扮}_{有的時候是自己提出想要扮什麼}_{但更多的時候是不情願}_{迎合父母口味打扮成他們想要的樣子}_{即便如此}_{到了學校與同學一起慶祝}_{一起上街要糖}_{也是非常快樂的}_」。

接著，假設該處理單元11有對於該文字資料中的第一、二、三、五、六、七、九個語句文字部分進行拆分並設定句中停頓時長。在此情況下，該語音資料的第二種示例性態樣為：「{[學生時期老師們都會]#[為我們精心策辦活動]}_{[萬聖節是一年之中]#[最期待的節日之一]}_{[爸爸媽媽]#[也都絞盡腦汁配合學校活動]}_{為自己小孩打扮}_{[有的時候]#[是自己提出想要扮什麼]}_{[但更多的時候]#[是不情願]}_{[迎合父母口味]#[打扮成他們想要的樣子]}_{即便如此}_{[到了學校]#[與同學一起慶祝]}_{一起上街要糖}_{也是非常快樂的}_」。

在該處理單元11產生該對應於該文字資料的該語音資料之後，流程進行至步驟S15。

在步驟S15中，該處理單元11將該語音資料傳送至該使用端5，以供該使用端5將該語音資料以電腦語音的形式播放，以供使用者收聽。補充說明的是，在該語音資料產生系統1被實施為電子裝置的實施例中，該語音資料也可以是由該語音資料產生系統1本身進行播放。

延續前述之該語音資料的第一種示例性態樣，藉由該語音資料所包含的該等語句語音部分及該等句末停頓部分，假設該第一句末停頓時長被設定為0.4秒，該第二句末停頓時長被設定為0.8秒，則在該語音資料被該使用端5播放的過程中，該使用端5在播放完「學生時期老師們都會為我們精心策辦活動」的第一個語句語音部分後，會先停頓0.4秒（亦即播放第一個句末停頓部分），才接著播放「萬聖節是一年之中最期待的節日之一」的第二個語句語音部分，並且，該使用端5在播放完第二個語句語音部分後，會先停頓0.8秒（亦即播放第二個句末停頓部分），才接著播放下一個語句語音部分，餘下以此類推。藉此，該語音資料能夠模擬真人說話時，根據說出的句子長短而產生不同長度之換氣停頓的情形。

以上即為本實施例之語音資料產生系統1如何實施該語音資料產生方法的示例說明。

補充說明的是，在其他的實施例中，對於每一語句文字部分，該處理單元11也可以是在計算出該語句文字部分所對應的該字元數量之後，直接將該第一字元數量乘以一預設權重值來決定該語句文字部分所對應的該句末停頓時長。或者，該處理單元11也可以是在計算出該語句文字部分所對應的該預計耗費時長之後，直接將該預計耗費時長乘以一預定權重值來決定該語句文字部分所對應的該句末停頓時長。所以，該處理單元11對於每一語句文字部分決定其對應之句末停頓時長的方式並不以本實施例為限。

應當理解的是，本實施例的步驟S1至步驟S15及圖2的流程圖僅是用於示例說明本發明語音資料產生方法的其中一種可實施方式。應當理解的是，即便將步驟S1至步驟S15進行合併、拆分或順序調整，若合併、拆分或順序調整之後的流程與本實施例相比係以實質相同的方式達成實質相同的功效，便仍屬於本發明語音資料產生方法的可實施態樣，因此，本實施例的步驟S1至步驟S15及圖2的流程圖並非用於限制本發明的可實施範圍。

本發明還提供了一種電腦程式產品的一實施例。該電腦程式產品能被儲存於電腦可讀取紀錄媒體（例如硬碟、隨身碟及記憶卡等），並且包含一應用程式。該應用程式包括圖1所示的該語速參數P1、該預設可用時長參數P2及該等停頓時長參數P3，且能被一電子裝置（例如手機、平板電腦、筆記型電腦及桌上型電腦等）載入並運行。並且，當該應用程式被該電子裝置載入並運行時，該應用程式能使該電子裝置被作為本發明所提供的語音資料產生系統（例如圖1所示的該語音資料產生系統1），而對一文字資料實施本發明所提供的語音資料產生方法。

綜上所述，藉由對該文字資料實施該語音資料產生方法，該語音資料產生系統1能至少根據該文字資料之每一語句文字部分的字元數量來決定對應於該語句文字部分的句末停頓時長，從而設定該語音資料中接續在每一語句語音部分之後的句末停頓部分的持續時間長度，藉此，該語音資料產生系統1所產生的該語音資料能以語句的長短為依據，從而模擬真人說話時因換氣所導致之不同長度的停頓，所以，該語音資料產生系統1有助於使電腦語音更加接近真人的說話方式，而確實能達成本發明之目的。

惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

1··········· 語音資料產生系統 11········· 處理單元 12········· 儲存單元 P1········· 語速參數 P2········· 預設可用時長參數 P3········· 停頓時長參數 P30········ 最短停頓時長參數 P31········ 第一停頓時長參數 P32········ 第二停頓時長參數 5··········· 使用端 S1~S15·········· 步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊示意圖，示例性地表示本發明語音資料產生系統的一實施例，以及一適用於與該實施例配合的使用端；及圖2（由圖2A及2B組成）是一流程圖，用於示例性地說明該實施例如何對一文字資料實施一語音資料產生方法。

S1~S15·········· 步驟

Claims

一種語音資料產生方法，由一語音資料產生系統對一文字資料實施，該語音資料產生系統儲存有一語速參數及一預設可用時長參數，且該語速參數相關於以聲音形式輸出資料時的語音速度；該語音資料產生方法包含：(A)根據該文字資料所包含的一語句文字部分計算一對應於該語句文字部分的字元數量；(B)根據該字元數量及該語速參數計算一對應於該語句文字部分的預計耗費時長，再至少根據該預計耗費時長決定一對應於該語句文字部分的句末停頓時長，其中，在該語句文字部分為該文字資料之一段落中的第一個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，且該剩餘時間值是該預設可用時長參數與該預計耗費時長之間的差；及(C)至少根據該語句文字部分及該句末停頓時長產生一對應於該文字資料且用於以聲音形式被輸出的語音資料，其中，該語音資料包含一用於以語音指示出該語句文字部分的語句語音部分，以及一接續在該語句語音部分之後、不指示出任何語句文字部分且持續時間長度與該句末停頓時長相符的句末停頓部分。
如請求項1所述的語音資料產生方法，其中：該語音資料產生系統還儲存有一第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數；在步驟(B)中，在該語句文字部分為該文字資料之該段落中的第一個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；及若該剩餘時間值小於該門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。
一種語音資料產生方法，由一語音資料產生系統對一文字資料實施，該語音資料產生系統儲存有一語速參數及一預設可用時長參數，且該語速參數相關於以聲音形式輸出資料時的語音速度；該語音資料產生方法包含：(A)根據該文字資料所包含的一語句文字部分計算一對應於該語句文字部分的字元數量：(B)根據該字元數量及該語速參數計算一對應於該語句文字部分的預計耗費時長，再至少根據該預計耗費時長決定一對應於該語句文字部分的句末停頓時長，其中，在該語句文字部分為該文字資料之一段落中的第N個語句文字部分的情況下(N為大於1的整數)，該語音資料產生系統決定該句末停頓時長的方式，是根據一剩餘時間值來決定該句末停頓時長，且該剩餘時間值相關於該預設可用時長參數，且還相關於該語句文字部分之該段落的第(N-1)個語句文字部分所對應的另一剩餘時間值及另一句末停頓時長；及(C)至少根據該語句文字部分及該句末停頓時長產生一對應於該文字資料且用於以聲音形式被輸出的語音資料，其中，該語音資料包含一用於以語音指示出該語句文字部分的語句語音部分，以及一接續在該語句語音部分之後、不指示出任何語句文字部分且持續時間長度與該句末停頓時長相符的句末停頓部分。
如請求項3所述的語音資料產生方法，其中：該語音資料產生系統還儲存有一最短停頓時長參數、一大於該最短停頓時長參數的第一停頓時長參數，以及一大於該第一停頓時長參數的第二停頓時長參數；在步驟(B)中，在該語句文字部分為該文字資料之該段落中的第N個語句文字部分的情況下，該語音資料產生系統決定該句末停頓時長的方式包含：若該剩餘時間值大於等於一為正數的第一門檻值，將該句末停頓時長設定為該最短停頓時長參數的數值；若該剩餘時間值小於該第一門檻值且大於等於一為負數的第二門檻值，將該句末停頓時長設定為該第一停頓時長參數的數值；及若該剩餘時間值小於該第二門檻值，將該句末停頓時長設定為該第二停頓時長參數的數值。
如請求項1及3其中任一項所述的語音資料產生方法，其中：在步驟(B)中，在該剩餘時間值小於一為負數的門檻值的情況下，該語音資料產生系統還將該語句文字部分拆分成多個具有順序性的語句片段，並將該句末停頓時長設定為一停頓時長參數的數值，以及決定一句中停頓時長；及在步驟(C)中，在該剩餘時間值小於該門檻值的情況下，該語句語音部分包括多個具有順序性且分別用於以語音指示出該等語句片段的語音片段，以及M個不指示出任何語句片段且持續時間長度與該句中停頓時長相符的句中停頓部分，其中，M為大於等於1的整數，且該M個句中停頓部分是分別接續在該等語音片段中的前M個語音片段之後。
如請求項1及3其中任一項所述的語音資料產生方法，還包含一位於步驟(A)之前的：(D)根據該文字資料所包含的一或多個特定符號從該文字資料中定義出該語句文字部分。
一種語音資料產生系統，包含：一儲存單元，儲存有一語速參數及一預設可用時長參數，且該語速參數相關於以聲音形式輸出資料時的語音速度；及一處理單元，與該儲存單元電連接，且被配置為用來對一文字資料實施如請求項1至6其中任一項所述的語音資料產生方法。
一種電腦程式產品，包含一應用程式，其中，該應用程式包括一語速參數及一預設可用時長參數，且該語速參數相關於以聲音形式輸出資料時的語音速度，該應用程式適用於被一電子裝置載入並運行，而使該電子裝置對一文字資料實施如請求項1至6其中任一項所述的語音資料產生方法。