TWI760015B

TWI760015B - 互動物件的驅動方法、裝置、設備以及儲存媒體

Info

Publication number: TWI760015B
Application number: TW109144967A
Authority: TW
Inventors: 張子隆; 吳文岩; 吳潛溢; 許親親
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-03-31
Filing date: 2020-12-18
Publication date: 2022-04-01
Also published as: JP7227395B2; TW202138970A; CN111459452A; WO2021196645A1; JP2022531072A; KR20210129713A; CN111459452B; KR102707613B1

Abstract

一種互動物件的驅動方法、裝置、設備以及儲存媒體，所述互動物件顯示在顯示設備中，所述方法包括：獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；根據所述控制參數值控制所述互動物件的姿態。

Description

互動物件的驅動方法、裝置、設備以及儲存媒體

本公開涉及計算機技術領域，具體涉及一種互動物件的驅動方法、裝置、設備以及儲存媒體。

人機互動的方式大多基於按鍵、觸控、語音進行輸入，通過在顯示螢幕上呈現圖像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的，其只是對設備的語音進行輸出。

本公開實施例提供一種互動物件的驅動方案。

根據本公開的一方面，提供一種互動物件的驅動方法，所述互動物件顯示在顯示設備中，所述方法包括：獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；根據所述控制參數值控制所述互動物件的姿態。

結合本公開提供的任一實施方式，所述方法更包括：根據所述驅動數據控制所述顯示設備輸出語音和/或顯示文本。

結合本公開提供的任一實施方式，所述確定所述驅動數據對應的驅動模式，包括：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；響應於檢測到所述語音數據單元中包括目標數據，則確定所述驅動數據的驅動模式為第一驅動模式，所述目標數據與所述互動物件的預設控制參數值相對應；所述響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第一驅動模式，將所述目標數據對應的所述預設控制參數值，作為所述互動物件的控制參數值。

結合本公開提供的任一實施方式，所述目標數據包括關鍵詞或關鍵字，所述關鍵詞或所述關鍵字與所述互動物件的設定動作的預設控制參數值相對應；或者，所述目標數據包括音節，所述音節與所述互動物件的設定嘴型動作的預設控制參數值對應。

結合本公開提供的任一實施方式，所述確定所述驅動數據對應的驅動模式，包括：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；若未檢測到所述語音數據單元中包括目標數據，則確定所述驅動數據的驅動模式為第二驅動模式，所述目標數據與所述互動物件的預設控制參數值相對應。響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第二驅動模式，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊；獲取與所述特徵資訊對應的所述互動物件的控制參數值。

結合本公開提供的任一實施方式，所述語音數據序列包括音素序列，所述獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊，包括：對所述音素序列進行特徵編碼，獲得所述音素序列對應的第一編碼序列；根據所述第一編碼序列，獲取至少一個音素對應的特徵編碼；根據所述特徵編碼，獲得所述至少一個音素的特徵資訊。

結合本公開提供的任一實施方式，所述語音數據序列包括語音幀序列，所述獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊，包括：獲取所述語音幀序列對應的第一聲學特徵序列，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵向量；根據所述聲學特徵向量，獲得所述至少一個語音幀對應的特徵資訊。

結合本公開提供的任一實施方式，所述互動物件的控制參數包括面部姿態參數，所述面部姿態參數包括面部肌肉控制係數，所述面部肌肉控制係數用於控制至少一個面部肌肉的運動狀態；所述根據所述驅動數據獲取所述互動物件的控制參數值，包括：根據所述驅動數據獲取所述互動物件的面部肌肉控制係數；所述根據所述控制參數值控制所述互動物件的姿態，包括：根據所獲取的面部肌肉控制係數，驅動所述互動物件做出與所述驅動數據匹配的面部動作。

結合本公開提供的任一實施方式，所述方法更包括：獲取與所述面部姿態參數關聯的身體姿態的驅動數據；根據與所述面部姿態參數值關聯的身體姿態的驅動數據，驅動所述互動物件做出肢體動作。

結合本公開提供的任一實施方式，所述互動物件的控制參數值包括所述互動物件的至少一個局部區域的控制向量；所述根據所述驅動數據獲取所述互動物件的控制參數值，包括：根據所述驅動數據獲取所述互動物件的至少一個局部區域的控制向量；所述根據所述控制參數值控制所述互動物件的姿態，包括：根據所獲取的所述至少一個局部區域的控制向量，控制所述互動物件的面部動作和/或肢體動作。

結合本公開提供的任一實施方式，所述獲取與所述特徵資訊對應的所述互動物件的控制參數值，包括：將所述特徵資訊輸入至預先訓練的循環神經網路，獲得與所述特徵資訊對應的所述互動物件的控制參數值。

根據本公開的一方面，提出一種互動物件的驅動裝置，所述互動物件顯示在顯示設備中，所述裝置包括：第一獲取單元，用於獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；第二獲取單元，用於響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；驅動單元，用於根據所述控制參數值控制所述互動物件的姿態。

根據本公開的一方面，提供一種電子設備，所述設備包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

根據本公開的一方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述計算機程式被處理器執行時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

本公開一個或多個實施例的互動物件的驅動方法、裝置、設備及計算機可讀儲存媒體，根據所述互動物件的驅動數據的驅動模式，來獲取所述互動物件的控制參數值，從而控制所述互動物件的姿態，其中，對於不同的驅動模式可以通過不同的方式來獲取相應的互動物件的控制參數值，使得互動物件顯示出與所述驅動數據的內容和/或對應的語音匹配的姿態，從而使目標物件產生與互動物件正在交流的感覺，提升了目標物件與互動物件的互動體驗。

這裡將詳細地對範例性實施例進行說明，其範例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數位表示相同或相似的要素。以下範例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附請求項中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

本公開至少一個實施例提供了一種互動物件的驅動方法，所述驅動方法可以由終端設備或伺服器等電子設備執行，所述終端設備可以是固定終端或移動終端，例如手機、平板電腦、遊戲機、台式機、廣告機、一體機、車載終端等等，所述伺服器包括本地伺服器或雲端伺服器等，所述方法還可以通過處理器調用記憶體中儲存的計算機可讀指令的方式來實現。

在本公開實施例中，互動物件可以是任意一種能夠與目標物件進行互動的虛擬形象。在一實施例中，互動物件可以是虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象。互動物件的呈現形式即可以是2D形式也可以是3D形式，本公開對此並不限定。所述目標物件可以是使用者，也可以是機器人，還可以是其他智能設備。所述互動物件和所述目標物件之間的互動方式可以是主動互動方式，也可以是被動互動方式。一範例中，目標物件可以通過做出手勢或者肢體動作來發出需求，通過主動互動的方式來觸發互動物件與其互動。另一範例中，互動物件可以通過主動打招呼、提示目標物件做出動作等方式，使得目標物件採用被動方式與互動物件進行互動。

所述互動物件可以通過終端設備進行顯示，所述終端設備可以是電視機、帶有顯示功能的一體機、投影機、虛擬實境（Virtual Reality，VR）設備、擴增實境（Augmented Reality，AR）設備等，本公開並不限定終端設備的具體形式。

圖1繪示本公開至少一個實施例提出的顯示設備。如圖1所示，該顯示設備具有透明顯示螢幕，在透明顯示螢幕上可以顯示立體畫面，以呈現出具有立體效果的虛擬場景以及互動物件。例如圖1中透明顯示螢幕顯示的互動物件包括虛擬卡通人物。在一些實施例中，本公開中所述的終端設備也可以為上述具有透明顯示螢幕的顯示設備，顯示設備中配置有記憶體和處理器，記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開提供的互動物件的驅動方法，以驅動透明顯示螢幕中顯示的互動物件對目標物件進行交流或回應。

在一些實施例中，響應於用於驅動互動物件輸出語音的驅動數據，互動物件可以對目標物件發出指定語音。終端設備可以根據終端設備周邊目標物件的動作、表情、身份、偏好等，生成驅動數據，以驅動互動物件通過發出指定語音進行交流或回應，從而為目標物件提供擬人化的服務。需要說明的是，聲音驅動數據也可以通過其他方式生成，例如，由伺服器生成並發送給終端設備。

在互動物件與目標物件的互動過程中，根據該驅動數據驅動互動物件發出指定語音時，可能無法驅動所述互動物件做出與該指定語音同步的面部動作，使得互動物件在發出語音時呆板、不自然，影響了目標物件與互動物件的互動體驗。基於此，本公開至少一個實施例提出一種互動物件的驅動方法，以提升目標物件與互動物件進行互動的體驗。

圖2繪示根據本公開至少一個實施例的互動物件的驅動方法的流程圖，所述互動物件顯示在顯示設備中，如圖2所示，所述方法包括步驟201~步驟203。

在步驟201中，獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式。

在本公開實施例中，所述驅動數據可以包括音訊數據（語音數據）、文本等等。所述驅動數據可以是伺服器端或終端設備根據與互動物件進行互動的目標物件的動作、表情、身份、偏好等生成的驅動數據，也可以是終端設備直接獲取的，例如從內部記憶體調用的驅動數據等。本公開對於該驅動數據的獲取方式不進行限制。

根據所述驅動數據的類型，以及所述驅動數據中所包含的資訊，可以確定所述驅動數據的驅動模式。

在一個範例中，可以根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，其中，所述語音數據序列包括多個語音數據單元。其中，所述語音數據單元可以是以字或詞為單位構成的，也可以是以音素或音節為單位構成的。對應于文本類型的驅動數據，則可以獲得所述驅動數據對應的字序列、詞序列等等；對應於音訊類型的驅動數據，則可以獲得所述驅動數據對應的音素序列、音節序列、語音幀序列等等。在一實施例中，音訊數據和文本數據可以互相轉換。例如，將音訊數據轉換為文本數據之後再進行語音數據單元的劃分，或者，將文本數據轉換為音訊數據之後再進行語音數據單元的劃分，本公開對此並不限定。

在檢測到所述語音數據單元中包括目標數據的情況下，則可以確定所述驅動數據的驅動模式為第一驅動模式，所述目標數據與互動物件的預設控制參數值相對應。

所述目標數據可以是設置的關鍵詞或關鍵字等等，所述關鍵詞或所述關鍵字與互動物件的設定動作的預設控制參數值相對應。

在本公開實施例中，預先為每一個目標數據匹配了設定動作，而每個設定動作通過相應的控制參數值進行控制而實現，因而每個目標數據與設定動作的控制參數值匹配。以關鍵詞為“揮手”為例，在所述語音數據單元包含了文本形式的“揮手”，和/或語音形式的“揮手”的情況下，則可以確定所述驅動數據中包含了目標數據。

範例性的，所述目標數據包括音節，所述音節與所述互動物件的設定嘴型動作的預設控制參數值對應。

所述目標數據對應的音節屬於預先劃分好的一種音節類型，且所述一種音節類型與一種設定嘴型相匹配。其中，音節是由至少一個音素組合形成的語音單位，所述音節包括拼音語言的音節，和非拼音語言（例如，漢語）的音節。一種音節類型是指發音動作一致或者基本一致的音節，一種音節類型可與互動物件的一種動作對應。在一實施例中，一種音節類型可與互動物件說話時的一種設定的嘴型對應，即與一種發音動作對應。這樣，不同音節類型分別匹配了不同的設定嘴型的控制參數值，例如，拼音“ma”、“man”、“mang”這類型的音節，由於這類音節的發音動作基本一致，故可以視為同一類型，均可對應互動物件說話時“嘴巴張開”的嘴型的控制參數值。

在未檢測到所述語音數據單元中包括目標數據的情況下，則可以確定所述驅動數據的驅動模式為第二驅動模式，所述目標數據與互動物件的預設控制參數值相對應。

本領域技術人員應當理解，上述第一驅動模式和第二驅動模式僅用於範例，本公開實施例對於具體驅動模式不進行限定。

在步驟202中，響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值。

對於驅動數據的各種驅動模式，可以採用相應的方式獲取所述互動物件的控制參數值。

在一個範例中，響應於步驟201中確定的第一驅動模式，可以將所述目標數據對應的所述預設控制參數值作為所述互動物件的控制參數值。例如，對於第一驅動模式，可以將所述語音數據序列中包含的目標數據（例如“揮手”）所對應的預設控制參數值作為所述互動物件的控制參數值。

在一個範例中，響應於步驟201中確定的第二驅動模式，可以獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊；獲取與所述特徵資訊對應的所述互動物件的控制參數值。也即，在未檢測到語音數據序列中包含目標數據的情況下，則可以根據所述語音數據單元的特徵資訊來獲取對應的控制參數值。所述特徵資訊可以包括對所述語音數據序列進行特徵編碼所獲得的語音數據單元的特徵資訊、根據所述語音數據序列的聲學特徵資訊所獲得的語音數據單元的特徵資訊等等。

在步驟203中，根據所述控制參數值控制所述互動物件的姿態。

在一些實施例中，所述互動物件的控制參數包括面部姿態參數，所述面部姿態參數包括面部肌肉控制係數，該面部肌肉控制係數用於控制至少一個面部肌肉的運動狀態。在一實施例中，可以根據所述驅動數據獲取所述互動物件的面部肌肉控制係數；並根據所獲取的面部肌肉控制係數，驅動所述互動物件做出與所述驅動數據匹配的面部動作。

在一些實施例中，所述互動物件的控制參數值包括所述互動物件的至少一個局部區域的控制向量。在一實施例中，根據所述驅動數據可以獲取所述互動物件的至少一個局部區域的控制向量；並根據所獲取的所述至少一個局部區域的控制向量可以控制所述互動物件的面部動作和/或肢體動作。

根據所述互動物件的驅動數據的驅動模式，來獲取所述互動物件的控制參數值，從而控制所述互動物件的姿態，其中，對於不同的驅動模式可以通過不同的方式來獲取相應的互動物件的控制參數值，使得互動物件顯示出與所述驅動數據的內容和/或對應的語音匹配的姿態，從而使目標物件產生與互動物件正在交流的感覺，提升了目標物件與互動物件的互動體驗。

在一些實施例中，還可以根據所述驅動數據控制所述顯示設備輸出語音和/或顯示文本。並且可以在輸出語音和/或顯示文本的同時，根據所述控制參數值控制所述互動物件的姿態。

在本公開實施例中，由於控制參數值與所述驅動數據相匹配，因此根據所述驅動數據輸出語音和/或顯示文本與根據所述控制參數值控制互動物件的姿態同步的情況下，互動物件所做出的姿態與所輸出的語音和/或所顯示的文本也是同步的，從而給目標物件一種所述互動物件正在與其進行交流的感覺。

在一些實施例中，所述語音數據序列包括音素序列。響應於所述驅動數據包括音訊數據，可以通過將音訊數據拆分為多個音訊幀，根據音訊幀的狀態對音訊幀進行組合而形成音素；根據所述音訊數據所形成的各個音素則形成了音素序列。其中，音素是根據語音的自然屬性劃分出來的最小語音單元，真實人物一個發音動作能夠形成一個音素。響應於所述驅動數據為文本，可以根據所述文本中包含的語素，獲得所述語素所對應的音素，從而獲得相應的音素序列。

在一些實施例中，可以通過以下方式獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊：對所述音素序列進行特徵編碼，獲得所述音素序列對應的第一編碼序列；根據所述第一編碼序列，獲取至少一個音素對應的特徵編碼；根據所述特徵編碼，獲得所述至少一個音素的特徵資訊。

圖3繪示對音素序列進行特徵編碼的過程示意圖。如圖3所示，音素序列310含音素j、i1、j、ie4（為簡潔起見，只繪示部分音素），針對每種音素j、i1、ie4分別獲得對應的編碼序列321、322、323。在各個編碼序列中，在有所述音素的時間點上對應的編碼值設置為第一數值（例如為1），在沒有所述音素的時間點上對應的編碼值設置為第二數值（例如為0）。以編碼序列321為例，在音素序列310中有音素j的時間點上，編碼序列321的值設置為第一數值1；在沒有音素j的時間點上，編碼序列321的值設置為第二數值0。所有編碼序列321、322、323構成總編碼序列320。

根據音素j、i1、ie4分別對應的編碼序列321、322、323的編碼值，以及該三個編碼序列中對應的音素的持續時間，也即在編碼序列321中j的持續時間、在編碼序列322中i1的持續時間、在編碼序列323中ie4的持續時間，可以獲得編碼序列321、322、323的特徵資訊。

例如，可以利用高斯濾波器分別對所述編碼序列321、322、323中的音素j、i1、ie4在時間上的連續值進行高斯卷積操作，獲得所述編碼序列的特徵資訊。也即，通過高斯濾波器對音素在時間上的連續值進行高斯卷積操作，使得各個編碼序列中編碼值從第二數值到第一數值或者從第一數值到第二數值的變化階段變得平滑。對各個編碼序列321、322、323分別進行高斯卷積操作，從而獲得各個編碼序列的特徵值，其中，特徵值為構成特徵資訊中的參數，根據各個編碼序列的特徵資訊的集合，獲得了該音素序列310所對應的特徵資訊330。本領域技術人員應當理解，也可以對各個編碼序列進行其他的操作來獲得所述編碼序列的特徵資訊，本公開對此不進行限制。

在本公開實施例中，通過根據音素序列中每種音素的持續時間獲得所述編碼序列的特徵資訊，使得編碼序列的變化階段平滑，例如，編碼序列的值除了0和1也呈現出中間狀態的值，例如0.2、0.3等等，而根據這些中間狀態的值所獲取的姿態參數值，使得互動人物的姿態變化過度的更加平緩、自然，尤其是互動人物的表情變化更加平緩、自然，提高了目標物件的互動體驗。

在一些實施例中，所述面部姿態參數可以包括面部肌肉控制係數。

人臉的運動，從解剖學角度來看，是由面部各部分肌肉協同變形的結果。因此，通過對互動物件的面部肌肉進行劃分而獲得面部肌肉模型，並對劃分得到的每一塊肌肉（區域）通過對應的面部肌肉控制係數控制其運動，也即對其進行收縮/擴張控制，則能夠使互動人物的面部做出各種表情。對於所述面部肌肉模型的每一塊肌肉，可以根據肌肉所在的面部位置和肌肉自身的運動特徵，來設置不同的肌肉控制係數所對應的運動狀態。例如，對於上唇肌肉，其控制係數的數值範圍為0~1，在該範圍內的不同數值，對應於上唇肌肉不同的收縮／擴張狀態，通過改變該數值，可以實現嘴部的縱向開合；而對於左嘴角肌肉，其控制係數的數值範圍為0~1，在該範圍內的不同數值，對應于左嘴角肌肉的收縮／擴張狀態，通過改變該數值，可以實現嘴部的橫向變化。

在根據音素序列輸出聲音的同時，根據與所述音素序列對應的面部肌肉控制係數來驅動所述互動物件做出面部表情，則可以實現顯示設備在輸出聲音時，互動物件同步做出發出該聲音的表情，從而使目標物件產生該互動物件正在說話的感覺，提高了目標物件的互動體驗。

在一些實施例中，可以將所述互動物件的面部動作與身體姿態相關聯，也即將該面部動作所對應的面部姿態參數值與所述身體姿態相關聯，所述身體姿態可以包括肢體動作、手勢動作、走路姿態等等。

在互動物件的驅動過程中，獲取與所述面部姿態參數值關聯的身體姿態的驅動數據；在根據所述音素序列輸出聲音的同時，根據與所述面部姿態參數值關聯的身體姿態的驅動數據，驅動所述互動物件做出肢體動作。也即，在根據所述互動物件的驅動數據驅動所述互動物件做出面部動作的同時，還根據該面部動作對應的面部姿態參數值獲取相關聯的身體姿態的驅動數據，從而在輸出聲音時，可以驅動互動物件同步做出相應的面部動作和肢體動作，使互動物件的說話狀態更加生動自然，提高了目標物件的互動體驗。

由於聲音的輸出需要保持連續性，因此，在一實施例中，在音素序列上移動時間視窗，並輸出在每次移動過程中時間視窗內的音素，其中，以設定時長作為每次移動時間視窗的步長。例如，可以將時間視窗的長度設置為1秒，將設定時長設置為0.1秒。在輸出時間視窗內的音素的同時，獲取時間視窗設定位置處的音素或音素的特徵資訊所對應的姿態參數值，利用所述姿態參數值控制所述互動物件的姿態；該設定位置為距離時間視窗起始位置設定時長的位置，例如在時間視窗的長度設置為1s時，該設定位置距離時間視窗的起始位置可以為0.5s。隨著時間視窗的每次移動，在輸出時間視窗內的音素同時，都以時間視窗設定位置處對應的姿態參數值控制互動物件的姿態，從而使互動物件的姿態與輸出的語音同步，給目標物件以所述互動物件正在說話的感覺。

通過改變設定時長，可以改變獲取姿態參數值的時間間隔（頻率），從而改變了互動物件做出姿態的頻率。可以根據實際的互動場景來設置該設定時長，以使互動物件的姿態變化更加自然。

在一些實施例中，可以通過獲取互動物件的至少一個局部區域的控制向量控制所述互動物件的姿態。

所述局部區域是對互動物件的整體（包括面部和/或身體）進行劃分而得到的。面部的一個或多個局部區域的控制可以對應於互動物件的一系列面部表情或動作，例如眼部區域的控制可以對應於互動物件睜眼、閉眼、眨眼、視角變換等面部動作；又例如嘴部區域的控制可以對應於互動物件閉嘴、不同程度的張嘴等面部動作。而身體的一個或多個局部區域的控制可以對應於互動物件的一系列肢體動作，例如腿部區域的控制可以對應於互動物件走路、跳躍、踢腿等動作。

所述互動物件的局部區域的控制參數，包括所述局部區域的控制向量。每個局部區域的姿態控制向量用於驅動所述互動物件的所述局部區域進行動作。不同的控制向量值對應於不同的動作或者動作幅度。例如，對於嘴部區域的控制向量，其一組控制向量值可以使所述互動物件的嘴部微張，而另一組控制向量值可以使所述互動物件的嘴部大張。通過以不同的控制向量值來驅動所述互動物件，可以使相應的局部區域做出不同動作或者不同幅度的動作。

局部區域可以根據需要控制的互動物件的動作進行選擇，例如在需要控制所述互動物件面部以及肢體同時進行動作時，可以獲取全部局部區域的控制向量；在需要控制所述互動物件的表情時，則可以獲取所述面部所對應的局部區域的控制向量。

在一些實施例中，可以通過在所述第一編碼序列上進行滑動視窗的方式獲取至少一個音素對應的特徵編碼。其中，所述第一編碼序列可以是經過高斯卷積操作後的編碼序列。

以設定長度的時間視窗和設定步長，對所述編碼序列進行滑動視窗，將所述時間視窗內的特徵編碼作為所對應的至少一個音素的特徵編碼，在完成滑動視窗後，根據得到的多個特徵編碼，可以獲得第二編序列。如圖4所示，通過在第一編碼序列420或者平滑後的第一編碼序列430上，滑動設定長度的時間視窗，分別獲得特徵編碼1、特徵編碼2、特徵編碼3，以此類推，在遍歷第一編碼序列後，獲得特徵編碼1、特徵編碼2、特徵編碼3、…、特徵編碼M，從而得到了第二編碼序列440。其中，M為正整數，其數值根據第一編碼序列的長度、時間視窗的長度以及時間視窗滑動的步長確定。

根據特徵編碼1、特徵編碼2、特徵編碼3、…、特徵編碼M，可以獲得相應的控制向量1、控制向量2、控制向量3、…、控制向量M，從而獲得控制向量的序列450。

控制向量的序列450與第二編碼序列440在時間上是對齊的，由於所述第二編碼序列中的每個特徵編碼是根據音素序列中的至少一個音素獲得的，因此控制向量的序列450中的每個特徵向量同樣是根據音素序列中的至少一個音素獲得的。在播放文本數據所對應的音素序列的同時，根據所述控制向量的序列驅動所述互動物件做出動作，即能夠實現驅動互動物件發出文本內容所對應的聲音的同時，做出與聲音同步的動作，給目標物件以所述互動物件正在說話的感覺，提升了目標物件與互動物件的互動體驗。

假設在第一個時間視窗的設定時刻開始輸出特徵編碼，可以將在所述設定時刻之前的控制向量設置為默認值，也即在剛開始播放音素序列時，使所述互動物件做出默認的動作，在所述設定時刻之後開始利用根據第一編碼序列所得到的控制向量的序列驅動所述互動物件做出動作。以圖4為例，在t0時刻開始輸出特徵編碼1，在t0時刻之前輸出是默認控制向量。

所述時間視窗的長度與所述特徵編碼所包含的資訊量相關。在時間視窗所含的資訊量較大的情況下，經所述循環神經網路處理會輸出較均勻的結果。若時間視窗的長度過大，可能導致互動物件說話時的表情無法與部分文字對應；若時間視窗的長度過小，可能導致互動物件說話時的表情顯得生硬。因此，時間視窗的時長需要根據文本數據所對應的音素持續的最小時間來確定，以使驅動所述互動物件所做出的動作與聲音具有更強的關聯性。

時間視窗滑動的步長與獲取控制向量的時間間隔（頻率）相關，也即與驅動互動物件做出動作的頻率相關。可以根據實際的互動場景來設置所述時間視窗的長度以及步長，以使互動物件做出的表情和動作與聲音的關聯性更強，並且更加生動、自然。

在一些實施例中，在所述音素序列中音素之間的時間間隔大於設定門檻值的情況下，根據所述局部區域的設定控制向量，驅動所述互動物件做出動作。也即，在互動人物說話停頓較長時，驅動互動物件做出設定的動作。例如，在輸出的語音停頓較長時，可以使互動物件做出微笑的表情，或者身體微微的擺動，以避免在停頓較長時互動物件面無表情地直立，從而使得互動物件說話的過程更加自然、流暢，提高了目標物件的互動感受。

在一些實施例中，所述語音數據序列包括語音幀序列，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊，包括：獲取所述語音幀序列對應的第一聲學特徵序列，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵向量；根據所述聲學特徵向量，獲得所述至少一個語音幀對應的特徵資訊。

在本公開實施例中，可以根據所述語音幀序列的聲學特徵，確定互動物件的至少一個局部區域的控制參數，也可以根據所述語音幀序列的其他特徵來確定控制參數。

首先，獲取所述語音幀序列對應的聲學特徵序列。此處，為了與後續提到的聲學特徵序列進行區分，將所述語音幀序列對應的聲學特徵序列稱為第一聲學特徵序列。

在本公開實施例中，聲學特徵可以是與語音情感相關的特徵，例如基頻特徵、共峰特徵、梅爾頻率倒譜系數（Mel Frequency Cepstral Cofficient，MFCC）等等。

所述第一聲學特徵序列是對整體的語音幀序列進行處理所得到的，以MFCC特徵為例，可以通過對所述語音幀序列中的各個語音幀進行加窗、快速傅裡葉變換、濾波、對數處理、離散余弦處理，得到各個語音幀對應的MFCC係數。

所述第一聲學特徵序列是針對整體的語音幀序列進行處理所得到的，體現了語音數據序列的整體聲學特徵。

在本公開實施例中，所述第一聲學特徵序列包含與所述語音幀序列中的每個語音幀對應的聲學特徵向量。以MFCC為例，所述第一聲學特徵序列包含了每個語音幀的MFCC係數。根據所述語音幀序列所獲得的第一聲學特徵序列如圖5所示。

接下來，根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵。

在所述第一聲學特徵序列包括了所述語音幀序列中的每個語音幀對應的聲學特徵向量的情況下，可以將所述至少一個語音幀對應的相同數目的特徵向量作為所述語音幀的聲學特徵。其中，上述相同數目的特徵向量可以形成一個特徵矩陣，該特徵矩陣即為所述至少一個語音幀的聲學特徵。

以圖5為例，所述第一聲學特徵序列中的N個特徵向量形成了所對應的N個語音幀的聲學特徵；其中，N為正整數。所述第一聲學特徵矩陣可以包括多個聲學特徵，各個所述聲學特徵所對應的語音幀之間可以是部分重疊的。

最後，獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的控制向量。

對於所獲得的至少一個語音幀對應的聲學特徵，可以獲取至少一個局部區域的控制向量。局部區域可以根據需要控制的互動物件的動作進行選擇，例如在需要控制所述互動物件面部以及肢體同時進行動作時，可以獲取全部局部區域的控制向量；在需要控制所述互動物件的表情時，則可以獲取所述面部所對應的局部區域的控制向量。

在播放語音數據序列的同時，根據通過所述第一聲學特徵序列所獲得的各個聲學特徵對應的控制向量驅動所述互動物件做出動作，可以實現終端設備在輸出聲音的同時，互動物件能夠做出與所輸出的聲音相配合的動作，該動作包括面部動作、表情以及肢體動作等，從而使目標物件產生該互動物件正在說話的感覺。並且由於所述控制向量是與輸出聲音的聲學特徵相關的，根據所述控制向量進行驅動能夠使得互動物件的表情和肢體動作具有了情感因素，從而使得互動物件的說話過程更加自然、生動，從而提高了目標物件與互動物件的互動體驗。

在一些實施例中，可以通過在所述第一聲學特徵序列上進行滑動視窗的方式獲取所述至少一個語音幀對應的聲學特徵。

通過以設定長度的時間視窗和設定步長，對所述第一聲學特徵序列進行滑動視窗，將所述時間視窗內的聲學特徵向量作為對應的相同數目語音幀的聲學特徵，從而可以獲得這些語音幀共同對應的聲學特徵。在完成滑動視窗後，根據得到的多個聲學特徵，則可以獲得第二聲學特徵序列。

以圖5所示的互動物件的驅動方法為例，所述語音幀序列每秒包括100個語音幀，所述時間視窗的長度為1s，步長為0.04s。由於所述第一聲學特徵序列中的每個特徵向量是與語音幀對應的，相應地，所述第一聲學特徵序列每秒同樣包括100個特徵向量。在所述第一聲學特徵序列上進行滑動視窗過程中，每次獲得所述時間視窗內的100個特徵向量，作為對應的100個語音幀的聲學特徵。通過在所述第一聲學特徵序列上以0.04s的步長移動所述時間視窗，分別獲得第1~100語音幀對應的聲學特徵1、第4~104語音幀所對應的聲學特徵2，以此類推，在遍歷第一聲學特徵後，得到聲學特徵1、聲學特徵2、…、聲學特徵M，從而獲得第二聲學特徵序列，其中，M為正整數，其數值根據語音幀序的幀數（第一聲學特徵序列中特徵向量的數目）、時間視窗的長度以及步長確定。

根據聲學特徵1、聲學特徵2、…、聲學特徵M，分別可以獲得相應的控制向量1、控制向量2、…、控制向量M，從而獲得控制向量的序列。

如圖5所示，所述控制向量的序列與所述第二聲學特徵序列在時間上是對齊的，所述第二聲學特徵序列中的聲學特徵1、聲學特徵2、…、聲學特徵M，分別是根據所述第一聲學特徵序列中的N個特徵向量獲得的，因此，在播放所述語音幀的同時，可以根據所述控制向量的序列驅動所述互動物件做出動作。

假設在第一個時間視窗的設定時刻開始輸出聲學特徵，可以將在所述設定時刻之前的控制向量設置為默認值，也即在剛開始播放語音幀序列時，使所述互動物件做出默認的動作，在所述設定時刻之後開始利用根據第一聲學特徵序列所得到的控制向量的序列驅動所述互動物件做出動作。

以圖5為例，在t0時刻開始輸出聲學特徵1，並以步長對應的時間0.04s為間隔輸出聲學特徵，在t1時刻開始輸出聲學特徵2，t2時刻開始輸出聲學特徵3，直至在t（M-1）時刻輸出聲學特徵M。對應地，在t i~t（i+1）時間段內對應的是特徵向量（i+1），其中，i為小於（M-1）的整數，而在t0時刻之前，控制向量為默認控制向量。

在本公開實施例中，通過在播放所述語音數據序列的同時，根據所述控制向量的序列驅動所述互動物件做出動作，從而使互動物件的動作與所輸出的聲音同步，給目標物件以所述互動物件正在說話的感覺，提升了目標物件與互動物件的互動體驗。

所述時間視窗的長度，與所述聲學特徵所包含的資訊量相關。時間視窗的長度越大，所包含的資訊量越多，驅動所述互動物件所做出的動作與聲音的關聯性越強。時間視窗滑動的步長與獲取控制向量的時間間隔（頻率）相關，也即與驅動互動物件做出動作的頻率相關。可以根據實際的互動場景來設置所述時間視窗的長度以及步長，以使互動物件做出的表情和動作與聲音的關聯性更強，並且更加生動、自然。

在一些實施例中，所述聲學特徵包括L個維度的梅爾頻率倒譜系數MFCC，其中，L為正整數。MFCC表示語音訊號的能量在不同頻率範圍的分佈，可以通過將所述語音幀序列中的多個語音幀數據轉換至頻域，利用包括L個子帶的梅爾濾波器，獲得L個維度的MFCC。通過根據語音數據序列的MFCC來獲取控制向量，以根據所述控制向量驅動所述互動物件進行面部動作和肢體動作，使得互動物件的表情和肢體動作具有了情感因素，使得互動物件的說話過程更加自然、生動，從而提高了目標物件與互動物件的互動體驗。

在一些實施例中，可以將所述語音數據單元的特徵資訊輸入至預先訓練的循環神經網路，獲得與所述特徵資訊對應的所述互動物件的控制參數值。由於所述循環神經網路是一種時間遞歸神經網路，其可以學習所輸入的特徵資訊的歷史資訊，根據語音單元序列輸出控制參數；例如該控制參數可以為面部姿態控制參數，或者至少一個局部區域的控制向量。

在本公開實施例中，利用預先訓練的循環神經網路獲取所述語音數據單元的特徵資訊對應的控制參數，將具有關聯性的歷史特徵資訊和當前特徵資訊進行融合，從而使得歷史控制參數對當前控制參數的變化產生影響，使得互動人物的表情變化和肢體動作更加平緩、自然。

在一些實施例中，可以通過以下方式對所述循環神經網路進行訓練。

首先，獲取特徵資訊樣本。例如，可以通過以下方式獲取所述特徵資訊樣本。

獲取一角色發出語音的視訊段，從所述視訊段中提取角色的相應語音段，例如，可以獲取一真實人物正在說話的視訊段；對所述視訊段進行採樣獲取多個包含所述角色的第一圖像幀；以及，對所述語音段進行採樣，獲得多個語音幀。

根據與所述第一圖像幀對應的所述語音幀所包含的語音數據單元，獲取所述語音幀對應的特徵資訊；

將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀，獲取所述第二圖像幀對應的所述互動物件的控制參數值。

根據所述控制參數值，對與所述第一圖像幀對應的特徵資訊進行標注，獲得特徵資訊樣本。

在一些實施例中，所述特徵資訊包括音素的特徵編碼，所述控制參數包括面部肌肉控制係數。根據上述獲取特徵資訊樣本的方法，利用所獲得的面部肌肉控制係數，對與所述第一圖像幀對應的音素的特徵編碼進行標注，則獲得了音素的特徵編碼對應的特徵資訊樣本。

在一些實施例中，所述特徵資訊包括音素的特徵編碼，所述控制參數包括所述互動物件的至少一個局部的控制向量。根據上述獲取特徵資訊樣本的方法，利用所獲得的至少一個局部的控制向量，對與所述第一圖像幀對應的音素的特徵編碼進行標註，則獲得了音素的特徵編碼對應的特徵資訊樣本。

在一些實施例中，所述特徵資訊包括語音幀的聲學特徵，所述控制參數包括所述互動物件的至少一個局部的控制向量。根據上述獲取特徵資訊樣本的方法，利用所獲得的至少一個局部的控制向量，對與所述第一圖像幀對應的語音幀的聲學特徵進行標注，則獲得了語音幀的聲學特徵對應的特徵資訊樣本。

本領域技術人員應當理解，所述特徵資訊樣本不限於以上所述，對應於各個類型的語音數據單元的各種特徵，可以獲得相應的特徵資訊樣本。

在獲得所述特徵資訊樣本後，根據所述特徵資訊樣本對初始循環神經網路進行訓練，在網路損失的變化滿足收斂條件後訓練得到所述循環神經網路，其中，所述網路損失包括所述循環神經網路預測得到的控制參數值與標注的控制參數值之間的差異。

在本公開實施例中，通過將一角色的視訊段，拆分為對應的多個第一圖像幀和多個語音幀，通過將包含真實人物的第一圖像幀轉化為包含互動物件的第二圖像幀來獲取至少一個語音幀的特徵資訊對應的控制參數值，使得特徵資訊與控制參數值的對應性較好，從而獲得高質量的特徵資訊樣本，使得互動物件的姿態更接近於對應角色的真實姿態。

圖6繪示根據本公開至少一個實施例的互動物件的驅動裝置的結構示意圖，如圖6所示，該裝置可以包括：第一獲取單元601，用於獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；第二獲取單元602，用於響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；驅動單元603，用於根據所述控制參數值控制所述互動物件的姿態。

在一些實施例中，所述裝置更包括輸出單元，用於根據所述驅動數據控制所述顯示設備輸出語音和/或顯示文本。

在一些實施例中，在確定所述驅動數據對應的驅動模式時，所述第一獲取單元具體用於：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；若檢測到所述語音數據單元中包括目標數據，則確定所述驅動數據的驅動模式為第一驅動模式，所述目標數據與互動物件的預設控制參數值相對應；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第一驅動模式，將所述目標數據對應的所述預設控制參數值作為所述互動物件的控制參數值。

在一些實施例中，所述目標數據包括關鍵詞或關鍵字，所述關鍵詞或所述關鍵字與互動物件的設定動作的預設控制參數值相對應；或者，所述目標數據包括音節，所述音節與所述互動物件的設定嘴型動作的預設控制參數值對應。

在一些實施例中，在識別所述驅動數據的驅動模式時，所述第一獲取單元具體用於：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；若未檢測到所述語音數據單元中包括目標數據，則確定所述驅動數據的驅動模式為第二驅動模式，所述目標數據與互動物件的預設控制參數值相對應；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第二驅動模式，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊；獲取與所述特徵資訊對應的所述互動物件的控制參數值。

在一些實施例中，所述語音數據序列包括音素序列，在取所述語音數據序列中的至少一個語音數據單元的特徵資訊時，所述第二獲取單元具體用於：對所述音素序列進行特徵編碼，獲得所述音素序列對應的第一編碼序列；根據所述第一編碼序列，獲取至少一個音素對應的特徵編碼；根據所述特徵編碼，獲得所述至少一個音素的特徵資訊。

在一些實施例中，所述語音數據序列包括語音幀序列，在獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊時，所述第二獲取單元具體用於：獲取所述語音幀序列對應的第一聲學特徵序列，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵向量；根據所述聲學特徵向量，獲得所述至少一個語音幀對應的特徵資訊。

在一些實施例中，所述互動物件的控制參數包括面部姿態參數，所述面部姿態參數包括面部肌肉控制係數，該面部肌肉控制係數用於控制至少一個面部肌肉的運動狀態；在根據所述驅動數據獲取所述互動物件的控制參數值時，所述第二獲取單元具體用於：根據所述驅動數據獲取所述互動物件的面部肌肉控制係數；所述驅動單元具體用於：根據所獲取的面部肌肉控制係數，驅動所述互動物件做出與所述驅動數據匹配的面部動作；所述裝置更包括肢體驅動單元，用於獲取與所述面部姿態參數關聯的身體姿態的驅動數據；根據與所述面部姿態參數值關聯的身體姿態的驅動數據，驅動所述互動物件做出肢體動作。

在一些實施例中，所述互動物件的控制參數包括所述互動物件的至少一個局部區域的控制向量；在根據所述驅動數據獲取所述互動物件的控制參數值時，所述第二獲取單元具體用於：根據所述驅動數據獲取所述互動物件的至少一個局部區域的控制向量；所述驅動單元具體用於：根據所獲取的所述至少一個局部區域的控制向量，控制所述互動物件的面部動作和/或肢體動作。

根據本公開的一方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

本說明書至少一個實施例還提供了一種電子設備，如圖7所示，所述設備包括記憶體、處理器，記憶體用於儲存可在處理器上運行的計算機指令，處理器用於在執行所述計算機指令時實現本公開任一實施例所述的互動物件的驅動方法。

本說明書至少一個實施例還提供了一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開任一實施例所述的互動物件的驅動方法。

本領域技術人員應明白，本說明書一個或多個實施例可提供為方法、系統或計算機程式產品。因此，本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本說明書一個或多個實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的計算機程式產品的形式。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於數據處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本說明書特定實施例進行了描述。其它實施例在所附請求項的範圍內。在一些情況下，在請求項中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求繪示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本說明書中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的計算機軟體或韌體、包括本說明書中公開的結構及其結構性等同物的計算機硬體、或者它們中的一個或多個的組合。本說明書中描述的主題的實施例可以實現為一個或多個計算機程式，即編碼在有形非暫時性程式載體上以被數據處理裝置執行或控制數據處理裝置的操作的計算機程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由數據處理裝置執行。計算機儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。

本說明書中描述的處理及邏輯流程可以由執行一個或多個計算機程式的一個或多個可程式化計算機執行，以通過根據輸入數據進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可程式化門陣列）或ASIC（專用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行計算機程式的計算機包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和數據。計算機的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和數據的一個或多個記憶體設備。通常，計算機還將包括用於儲存數據的一個或多個大容量儲存設備，例如磁碟、光碟磁光碟或光碟等，或者計算機將可操作地與此大容量儲存設備耦接以從其接收數據或向其傳送數據，抑或兩種情況兼而有之。然而，計算機不是必須具有這樣的設備。此外，計算機可以嵌入在另一設備中，例如移動電話、個人數位助理（PDA）、移動音訊或視訊播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存計算機程式指令和數據的計算機可讀媒體包括所有形式的非揮發性記憶體、媒體和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或可移動碟）、光碟磁光碟以及CD ROM和DVD-ROM。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。

雖然本說明書包含許多具體實施細節，但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍，而是主要用於描述特定發明的具體實施例的特徵。本說明書內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起積體在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附請求項的範圍以內。在某些情況下，請求項中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本說明書一個或多個實施例的較佳實施例而已，並不用以限制本說明書一個或多個實施例，凡在本說明書一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書一個或多個實施例保護的範圍之內。

201:獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式的步驟 202:響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值的步驟 203:根據所述控制參數值控制所述互動物件的姿態的步驟 601:第一獲取單元 602:第二獲取單元 603:驅動單元

圖1是本公開至少一個實施例提出的互動物件的驅動方法中顯示設備的示意圖。圖2是本公開至少一個實施例提出的互動物件的驅動方法的流程圖。圖3是本公開至少一個實施例提出的對音素序列進行特徵編碼的過程示意圖。圖4是本公開至少一個實施例提出的根據音素序列獲得控制參數值的過程示意圖。圖5是本公開至少一個實施例提出的根據語音幀序列獲得控制參數值的過程示意圖。圖6是本公開至少一個實施例提出的互動物件的驅動裝置的結構示意圖。圖7是本公開至少一個實施例提出的電子設備的結構示意圖。

201:獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式的步驟

202:響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值的步驟

203:根據所述控制參數值控制所述互動物件的姿態的步驟

Claims

一種互動物件的驅動方法，所述互動物件顯示在顯示設備中，所述驅動方法包括：獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；根據所述控制參數值控制所述互動物件的姿態，其中，確定所述驅動數據的驅動模式，包括：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；響應於未檢測到所述語音數據單元中包括目標數據，確定所述驅動數據的驅動模式為第二驅動模式；其中，響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第二驅動模式，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊；獲取與所述特徵資訊對應的所述互動物件的控制參數值。
如請求項1所述的驅動方法，更包括：根據所述驅動數據控制所述顯示設備輸出語音和/或顯示文本。
如請求項1或2所述的驅動方法，其中，確定所述驅動數據的驅動模式，包括：響應於檢測到所述語音數據單元中包括所述目標數據，確定所述驅動數據的驅動模式為第一驅動模式，所述目標數據與所述互動物件的預設控制參數值相對應；響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第一驅動模式，將所述目標數據對應的所述預設控制參數值作為所述互動物件的控制參數值。
如請求項3所述的驅動方法，其中，所述目標數據包括關鍵詞或關鍵字，所述關鍵詞或所述關鍵字與所述互動物件的設定動作的預設控制參數值相對應；或者，所述目標數據包括音節，所述音節與所述互動物件的設定嘴型動作的預設控制參數值對應。
如請求項1所述的驅動方法，其中，所述語音數據序列包括音素序列，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊，包括：對所述音素序列進行特徵編碼，獲得所述音素序列對應的第一編碼序列；根據所述第一編碼序列，獲取至少一個音素對應的特徵編碼；根據所述特徵編碼，獲得所述至少一個音素的特徵資訊。
如請求項1所述的驅動方法，其中，所述語音數據序列包括語音幀序列，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊，包括：獲取所述語音幀序列對應的第一聲學特徵序列，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵向量；根據所述聲學特徵向量，獲得所述至少一個語音幀對應的特徵資訊。
如請求項1或2所述的驅動方法，其中，所述互動物件的控制參數包括面部姿態參數，所述面部姿態參數包括面部肌肉控制係數，所述面部肌肉控制係數用於控制至少一個面部肌肉的運動狀態；根據所述驅動數據獲取所述互動物件的控制參數值，包括：根據所述驅動數據獲取所述互動物件的面部肌肉控制係數；根據所述控制參數值控制所述互動物件的姿態，包括：根據所獲取的面部肌肉控制係數，驅動所述互動物件做出與所述驅動數據匹配的面部動作。
如請求項7所述的驅動方法，更包括：獲取與所述面部姿態參數關聯的身體姿態的驅動數據；根據與所述面部姿態參數值關聯的身體姿態的驅動數據，驅動所述互動物件做出肢體動作。
如請求項1或2所述的驅動方法，其中，所述互動物件的控制參數包括所述互動物件的至少一個局部區域的控制向量；根據所述驅動數據獲取所述互動物件的控制參數值，包括：根據所述驅動數據獲取所述互動物件的至少一個局部區域的控制向量；根據所述控制參數值控制所述互動物件的姿態，包括：根據所獲取的所述至少一個局部區域的控制向量，控制所述互動物件的面部動作和/或肢體動作。
如請求項1所述的驅動方法，其中，獲取與所述特徵資訊對應的所述互動物件的控制參數值，包括：將所述特徵資訊輸入至預先訓練的循環神經網路，獲得與所述特徵資訊對應的所述互動物件的控制參數值。
一種互動物件的驅動裝置，所述互動物件顯示在顯示設備中，所述裝置包括：第一獲取單元，用於獲取所述互動物件的驅動數據，並確定所述驅動數據的驅動模式；第二獲取單元，用於響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值；驅動單元，用於根據所述控制參數值控制所述互動物件的姿態，其中，確定所述驅動數據的驅動模式，包括：根據所述驅動數據的類型，獲取所述驅動數據對應的語音數據序列，所述語音數據序列包括多個語音數據單元；響應於未檢測到所述語音數據單元中包括目標數據，確定所述驅動數據的驅動模式為第二驅動模式；其中，響應於所述驅動模式，根據所述驅動數據獲取所述互動物件的控制參數值，包括：響應於所述第二驅動模式，獲取所述語音數據序列中的至少一個語音數據單元的特徵資訊；獲取與所述特徵資訊對應的所述互動物件的控制參數值。
一種電子設備，包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現請求項1所述的驅動方法。
一種計算機可讀儲存媒體，其上儲存有計算機程式，所述計算機程式被處理器執行時實現請求項1所述的驅動方法。