TWI650985B

TWI650985B - 混合式視覺通信技術

Info

Publication number: TWI650985B
Application number: TW103121595A
Authority: TW
Inventors: 蘇亞勒庫倫
Original assignee: 三星電子股份有限公司
Priority date: 2013-08-09
Filing date: 2014-06-23
Publication date: 2019-02-11
Also published as: US20160205346A1; CN104345801A; US9948887B2; CN104345801B; TW201507413A; US9325936B2; US20150042743A1; KR102246355B1; KR20150018468A

Abstract

本發明提供用於在一第一裝置與一第二裝置之間進行視覺通信的例示性實施例，其包含：使用來自一攝影機系統之資料以建立一第一裝置使用者之一3D網格模型，其中該3D網格模型被做成可用於儲存於該第二裝置上，以供隨後顯示於該第二裝置上；在該第一裝置與該第二裝置之間的視覺通信工作階段期間，自一感測器陣列接收感測器資料，該感測器資料包括捕獲該第一裝置使用者之改變之面部表情及運動的影像資料；使用該影像資料以判定3D網格模型更新；將該等3D網格模型更新傳輸至該第二裝置，以供該第二裝置更新該第一裝置使用者之該3D網格模型的顯示；以及自該第二裝置接收一2D視訊串流或對一第二裝置使用者之一3D網格模型之更新中的至少一者以供顯示於該第一裝置上。

Description

混合式視覺通信技術

對相關申請案之交叉參考

本申請案主張2013年8月9日申請的讓渡給本申請案之受讓人且以引用之方式併入本文中的臨時專利申請案第61/864,446號之權利。

本發明係有關於混合式視覺通信技術。

發明背景

現有視訊通信系統及服務(諸如，Skype^TM及Google Hangout^TM)在運行播放器應用程式之裝置之間傳輸2D視訊串流。此等視訊通信系統通常在裝置之間傳輸與音訊串流配對之壓縮順序影像的視訊串流。供個別使用者使用之大部分視訊通信系統要求在包括攝影機及顯示器之電腦裝置上運行播放器應用程式。電腦裝置之實例可包括具有安裝於螢幕頂部之攝影機的桌上型或膝上型電腦，或具有建置至頂部處之帶槽框中之正面拍攝影機的行動電話。

雖然現有視訊通信系統有利地向使用者提供視訊能力，但其具有若干缺點。舉例而言，現有視訊通信系統通常要求高頻寬，且固有地具有高延時，此係因為在將信號傳輸至另一裝置之前，需要產生及壓縮整個影像序列。另外，為實現低延時且高品質應用，現有視訊通信系統要求通信裝置經由Wi-Fi、3G或4G行動通信技術進行傳輸。

關於大部分視訊通信設置(不管係在桌上型電腦、膝上型電腦抑或行動電話上)的另一問題在於，使用者看似正俯視經由視訊與其通信之個人，此係因為使用者之凝視方向在通常位於攝影機安裝位置下方處的裝置之顯示器處。此攝影機/顯示器幾何結構差異防止使用者彼此直視地進行會話。相關問題為傳輸包含個人之2D影像序列的視訊亦損失關於其面部之3D深度資訊。

亦存在可傳輸使用者之第二自我或性格(通常被稱作化身)之圖形表示的系統，但化身通常不能在通信期間傳送使用者之實際外貌、面部表情及身體運動。

因此，需要能夠即時顯示使用者之實際外貌、面部表情及運動同時減少頻寬的視覺通信系統。

發明概要

例示性實施例提供用於在一第一裝置與一第二裝置之間進行視覺通信的方法及系統。例示性實施例之態樣包括：使用來自一攝影機系統之資料以建立一第一裝置使用者之一3D網格模型，其中該3D網格模型被做成可用於儲存於該第二裝置上，以供隨後顯示於該第二裝置上；在該第一裝置與該第二裝置之間的該視覺通信工作階段期間，自一感測器陣列接收感測器資料，該感測器資料包括捕獲該第一裝置使用者之改變之面部表情及運動的影像資料；使用該影像資料以判定3D網格模型更新；將該等3D網格模型更新傳輸至該第二裝置，以供該第二裝置更新該第一裝置使用者之該3D網格模型的顯示；以及自該第二裝置接收一2D視訊串流或對一第二裝置使用者之一3D網格模型之更新中的至少一者以供顯示於該第一裝置上。

根據本文中所揭示之該方法及系統，相比於發送影像序列，發送3D網格模型更新要求顯著較少之頻寬，從而允許在頻寬受約束環境中達成順暢通信。另外，在該第一裝置上，相比於捕獲新影像且將該等影像壓縮成一影像序列，解譯對該3D網格模型之改變及發送更新存在較少延時。在該第二裝置上，與必須等待整個影像編碼/壓縮/傳輸/解壓縮循環相對比，可一次更新該3D網格模型之單一節點或混合形狀。且即使該第二裝置並不支援3D視訊通信，該第二裝置仍可在經由傳輸習知2D視訊而與該第一裝置進行通信時，顯示該第一裝置使用者之該3D網格模型。

10‧‧‧混合式視覺通信系統

10a‧‧‧第一裝置

10b‧‧‧第二裝置

12‧‧‧網路

14、14'‧‧‧記憶體

16、16'‧‧‧處理器

18、18'‧‧‧輸入輸出裝置(I/O)

22、22'‧‧‧顯示器

24、24'‧‧‧混合式視覺器通信器

25‧‧‧感測器陣列/3D網格模型更新

25'‧‧‧感測器陣列

26‧‧‧3D攝影機系統

27、27'‧‧‧3D模型資料庫

28‧‧‧標準2D攝影機系統

29‧‧‧2D感測器/情緒狀態資料庫

29'‧‧‧情緒狀態資料庫

30‧‧‧結構化光源

31‧‧‧感測器資料更新

32‧‧‧3D(深度)感測器

34、34'‧‧‧3D模型建立組件

35‧‧‧標準2D串流

200、202、204、206、208、210、212、214、216、218、500、502、504、506、506A、506B、508‧‧‧區塊

300‧‧‧3D網格模型

400‧‧‧混合形狀

自以下結合隨附圖式對實施例之描述，本發明之一般發明概念的此等及/或其他特徵及效用將變得顯而易見且較容易地瞭解，其中：圖1為說明混合式視覺通信系統之例示性實施例的方塊圖；圖2為說明用於在兩個或兩個以上裝置之間提供混合式視覺通信之程序的方塊圖；圖3為說明由3D模型組件所建立的使用者之面部及頭部的3D網格模型之表示的方塊圖；圖4為說明表示面部表情之一系列所儲存混合形狀的圖；以及圖5為說明在第一裝置與第二裝置之間的3D及2D視覺模式之各種組合期間由混合式視訊通信器所執行的處理之圖。

較佳實施例之詳細說明

現將詳細參考本發明之一般發明概念的實施例，隨附圖式中說明該等實施例之實例，其中貫穿全文，類似參考數字係指類似元件。下文描述實施例，以便在參看諸圖時解釋本發明之一般發明概念。

參考以下對實施例之詳細描述及隨附圖式可較容易地理解本發明之優勢及特徵以及其實現方法。然而，本發明之一般發明概念可以許多不同形式體現，且不應被解釋為限於本文中所闡述之實施例。確切而言，提供此等實施例，使得本發明將充分且完整，且將向熟習此項技術者充分傳達一般發明概念之概念，且本發明之一般發明概念將僅由所附申請專利範圍界定。在圖式中，為了清楚起見誇示層及區之厚度。

除非本文中另外指示或清楚地與上下文相矛盾，否則在描述本發明之上下文中(尤其在以下申請專利範圍之上下文中)，使用術語「一」及「該」以及類似指示詞應解釋為涵蓋單個與多個兩者。除非另外提到，否則應將術語「包含」、「具有」、「包括」及「含有」解釋為開放性術語(亦即，意謂「包括(但不限於)」。

如本文中所使用，術語「組件」或「模組」意謂(但不限於)執行某些任務之軟體或硬體組件，諸如場可程式化閘陣列(FPGA)或特殊應用積體電路(ASIC)。組件或模組可有利地經組配以駐留於可定址儲存媒體中，且經組配以在一或多個處理器上執行。因此，組件或模組可包括(作為實例)組件，諸如軟體組件、物件導向式軟體組件、類別組件及任務組件、處理程序、函式、屬性、程序、次常式、程式碼片段、驅動程式、韌體、微碼、電路、資料、資料庫、資料結構、表、陣列及變數。可將所提供的用於組件及組件或模組之功能性組合至較少組件及組件或模組中，或將其進一步分離至額外組件及組件或模組中。

除非另外定義，否則本文中所使用之所有技術及科學術語具有與一般熟習本發明所屬技術者通常所理解之含義相同的含義。應注意，除非另外指定，否則對本文中所提供之任何及所有實例或例示性術語之使用僅意欲較好地闡明本發明，而非限制本發明之範疇。另外，除非另外定義，否則不可過度解譯常用詞典中所定義之所有術語。

例示性實施例提供兩個裝置之間的混合式視覺通信方法及系統，該系統及方法在該等裝置中之一者上即時地顯示另一裝置的使用者之實際外貌、面部表情及運動，同時減少頻寬。在另一態樣中，可藉由感測器資料串流來擴增使用者之外貌、面部表情及運動。

可藉由建立及使用該使用者之3D線框網格模型(在下文中被稱作3D網格模型)而非傳輸2D視訊串流或完整3D網格模型來達成使用者外貌及頻寬減少，該3D線框網格模型係下載及儲存於第二裝置上以供在視覺通信工作階段期間使用。在兩個裝置之間的視覺通信工作階段期間，自第一裝置上之多個感測器收集感測器資料。感測器資料包括在使用者移動及改變面部表情時捕獲使用者之面部表情及運動的影像資料。在一個實施例中，感測器資料可進一步包括相關於視覺通信工作階段之內容脈絡的其他感測器資料。其他感測器資料之實例可包括使用者之活動資料(例如，加速度計資料、諸如脈搏率之生物測定資料等)及周圍條件(例如，溫度、濕度及周圍音量)。可將感測器資料降低取樣及聚合以提供感測器資料更新。影像資料及視情況選用之感測器資料可用於判定3D網格模型更新，以用於在第二裝置上更新第一裝置使用者之3D網格模型的顯示，及/或更新藉以顯示3D網格模型之設定。在一個實施例中，3D模型可顯現於第二裝置上，使得使用者之面部看似直視第二裝置之使用者。

根據例示性實施例之另一態樣，取決於第二裝置之能力，第二裝置可向第一裝置發送第二裝置使用者之習知2D視訊串流抑或3D模型更新，以及其他感測器資料。

在第二裝置傳輸第二裝置使用者之3D網格模型的另一實施例中，可追蹤第一裝置使用者之眼睛，且可對第二裝置使用者之3D網格模型作出對應改變，以便為3D網格模型提供不同視角。因此，此實施例使得裝置之使用者甚至能夠在頻寬受約束網路環境內，在具有運動視差效應之視訊呼叫期間面對面地彼此檢視。

圖1為說明混合式視覺通信系統之例示性實施例的方塊圖。系統10可包括第一裝置10a及第二裝置10b，該等裝置經由網路12通信。第一裝置10a及第二裝置10b兩者可包括各別記憶體14及14'、至少一個處理器16及16'、輸入輸出裝置(I/O)18及18'以及顯示器22及22'。

記憶體14及14'、處理器16及16'以及I/O 18及18'可經由系統匯流排(圖中未示)耦接在一起。記憶體14及14'可包含一或多個記憶體，該等記憶體包含不同記憶體類型，包括(例如)RAM、ROM、快取記憶體、虛擬記憶體及快閃記憶體。處理器16及16'可包括具有一或多個核心之單一處理器，或具有一或多個核心之多個處理器。I/O 18及18'為輸入資訊及輸出資訊之組件的集合。包含I/O 18及18'之實例組件包括麥克風、揚聲器及用於經由網路12進行通信之無線網路介面控制器(或類似組件)。處理器可執行管理硬體資源且執行基本任務之作業系統(OS)。OS之實例可包括Symbian^TM、BlackBerry OS^TM、iOS^TM、Windows^TM及Android^TM。在一個實施例中，顯示器22及22'可與第一裝置10a整合，而在另一實施例中，顯示器22及22'可在第一裝置10a外部。在一個實施例中，第一裝置10a及第二裝置10b可包含任何類型之無線通信裝置外觀尺寸，包括筆記型電腦或膝上型電腦、平板電腦、行動手機、電視、機上盒、可佩戴電腦及遊戲裝置。

網路12(第一裝置10a及第二裝置10b經由其通信)可包含任何類型之無線網路，包括WLAN(無線區域網路)、WiMAX(微波存取全球互通)(例如，3G/4G)、WAN(廣域網路)或蜂巢式網路。

根據例示性實施例，第一裝置10a及第二裝置10b可使用混合式視覺通信技術進行通信，且因此該等裝置進一步包括各別混合式視覺器通信器24及24'以及感測器陣列25及25'。在一個實施例中，感測器陣列25及25'可包括任何數目個感測器(1-n)。感測器之實例類型可包括(但不限於)影像感測器，諸如3D攝影機系統26或2D攝影機系統28；活動感測器(圖中未示)，諸如加速度計、迴轉儀、磁力計及其類似者；生物測定感測器(圖中未示)，諸如心跳速率感測器、皮膚電感測器、瞳孔擴大感測器、EKG感測器及其類似者；以及周圍條件感測器(圖中未示)，諸如溫度計及高度計、光感測器、濕度感測器、麥克風及其類似者。

根據例示性實施例，第一裝置10a支援與第二裝置10b之即時視覺通信。建立第一裝置10a之使用者(亦即，第一裝置使用者)的3D網格模型，且接著將其下載及儲存於第二裝置10c上，以供在視覺通信工作階段期間於第二裝置10b上播放。網格或線框模型為指定實體物件之邊緣的3D電腦圖形中所使用的實體物件(例如，使用者)之視覺表示，其中兩個數學上連續之平滑表面相接，或其中使用直線或曲線連接物件之組成頂點。將3D網格模型儲存於第二裝置10b上消除在每一視覺通信工作階段期間將2D視訊串流或完整3D網格模型自第一裝置10a傳輸至第二裝置10b之需要。在一個實施例中，混合式視覺通信器24及24'可包括用於儲存使用者(例如，包括於第一裝置使用者之聯繫人清單上之彼等使用者)之3D網格模型的各別3D模型資料庫27及27'。在一個實施例中，3D網格模型可表示使用者之面部及頭部，而在另一實施例中，3D網格模型亦可表示使用者之軀幹或甚至整個身體。

在視覺通信工作階段期間，混合式視覺通信器24可自感測器陣列25收集感測器資料，該感測器資料包括來自3D攝影機系統26之捕獲第一裝置使用者之面部表情及運動以及背景影像的影像資料，及相關於視覺通信工作階段之內容脈絡的其他感測器資料。接著，影像資料及其他感測器資料可用於判定對儲存於第二裝置10b上之3D網格模型作出的3D網格模型更新25。在一個實施例中，首先將感測器資料降低取樣及聚合，以產生感測器資料之子集。根據例示性實施例，感測器資料之子集包含對感測器資料之選擇性改變，在本文中被稱作感測器資料更新31。在一個實施例中，至少影像資料及視情況選用之感測器資料更新用於判定3D網格模型更新25。在一個實施例中，在第一裝置10a上執行此操作，且僅將3D網格模型更新25發送至第二裝置10b。在另一實施例中，影像資料用於判定3D網格模型更新25，且將3D網格模型更新25及感測器資料更新31兩者發送至第二裝置10b。第二裝置10b可接著藉由感測器資料更新31來擴增3D網格模型更新。

第二裝置10b可使用混合式視覺通信器24'接收及播放自裝置10a接收之3D模型更新25。替代地，第二裝置10b可使用感測器資料更新31，以擴增3D網格模型之顯示，如下文所描述。然而，在所展示之實施例中，第二裝置10b僅支援2D視訊通信，且經由標準2D攝影機系統28及2D感測器29發送2D視訊串流27。在替代實施例中，第二裝置10b亦可包括3D攝影機系統26，以支援與裝置10a之3D視覺通信。

在一個實施例中，可藉由用3D攝影機系統26拍攝第一裝置使用者之圖像而建立3D網格模型。所得影像資料可由3D模型組件34使用，以建立數位3D網格模型。在一個實施例中，3D攝影機系統26可包含結構化光源30及3D(深度)感測器32。藉由使結構化光源28(例如，條帶圖案)照耀物件，3D感測器32可收集關於物件之形狀及(視情況收集)物件之外觀(亦即，色彩)的資料。在另一實施例中，3D攝影機系統26可包含結合習知2D感測器之3D感測器。在另一實施例中，3D攝影機系統26可包含飛行時間(ToF)式攝影機，該攝影機基於已知光速來解析距離且針對影像之每一點量測攝影機與物件之間的光信號之飛行時間。在又一實施例中，3D攝影機系統26可包含並不要求主動照明之立體攝影機。

在一個實施例中，混合式視覺通信器24及24'以及3D模型組件34及34'可實施為軟體應用程式/組件。在另一實施例中，該等組件可實施為硬體及軟體之組合。儘管混合式視覺通信器24及24'以及3D模型組件34及34'展示為單一組件，但可將每一者之功能性組合至較小或較大數目個模組/組件中。舉例而言，在一個實施例中，混合式視覺通信器24可在本端儲存於第一裝置10a上，而3D模型組件34可儲存於外部伺服器上。在伺服器實施例中，可將使用者之影像資料傳輸至伺服器，以用於建立3D網格模型。其他裝置(諸如，第二裝置10b)可接著存取伺服器，以下載第一裝置使用者之3D網格模型，從而用於儲存於3D模型資料庫27'中。

圖2為說明用於在兩個或兩個以上裝置10a及10b之間提供混合式視覺通信之程序的方塊圖。在一個實施例中，程序可藉由使用來自攝影機系統之資料以建立第一裝置使用者之3D網格模型而開始，其中3D網格模型被做成可用於儲存於第二裝置上，以供隨後顯示於第二裝置上(區塊200)。

如所熟知，數位3D網格或線框係指包含頂點或節點、邊緣及面部之集合的多邊形網格，其界定物件在3D電腦圖形及實體模型化中之形狀。在一個實施例中，可由3D模型組件34回應於自3D攝影機系統26接收到資料而執行區塊200。

根據第一裝置包含具有3D攝影機系統26之行動手機的例示性實施例，可一起使用結構化光源30及3D感測器32，以收集第一裝置使用者之深度圖。在一個實施例中，可建立使用者之面部及頭部的3D網格模型，而在另一實施例中，3D網格模型亦可包括使用者之身體或其部分。可促使使用者將行動手機圍繞使用者移動至不同位置，例如，混合式視覺通信組件24可促使使用者至少圍繞使用者之頭部移動裝置且作出不同表情，以捕獲使用者頭部之各種角度及使用者面部之表情。

圖3為說明由3D模型組件34所建立的使用者之面部及頭部的3D網格模型300之實例表示的圖。在一個實施例中，第一裝置使用者之3D網格模型300可儲存於3D模型資料庫27'中的中間位置中。

3D模型組件34亦可將不同面部表情及(視情況選用之)不同身體位置儲存為表示面部表情及(視情況選用之)身體位置之混合形狀，儲存為混合形狀係數之線性組合。

在一個實施例中，使用者之面部的彩色影像及/或一或多個紋理圖亦可與3D網格模型相關聯。3D模型組件34可接著使用所得資料，以藉由將影像擬合至使用者面部及頭部之深度圖而建立至少個人之面部及頭部的靈活多邊形網格表示。

圖4為說明表示面部表情之一系列所儲存混合形狀的圖。在一個實施例中，混合形狀400可作為預定數目(例如，48)個關鍵姿勢而儲存於情緒狀態資料庫29'中。在一個主體中，混合形狀480儲存於情緒狀態資料庫29及29'中。

再次參看圖1，當經由混合式視覺通信組件24及 24'起始視覺通信工作階段時，混合式視覺通信組件24可詢問混合式視覺通信組件24'，以判定第一裝置使用者之3D網格模型是否儲存於第二裝置10b上。若並未儲存於該裝置上，則可將3D網格模型(及任何相關聯之紋理圖)傳輸至第二裝置10b，且儲存於3D模型資料庫27'中以供在未來通信工作階段期間使用。

在3D模型建立組件34位於第一裝置10a遠端之實施例中，3D模型建立組件34可在伺服器或其他遠端電腦上建立3D網格模型，且接著可接著經由網路12將3D網格模型發送至第一裝置10a及/或發送至第二裝置10b，或第二裝置10b可在與第一裝置10a之初始工作階段之前或期間的某時自伺服器下載3D網格模型。

在第一裝置10a及第二裝置10b兩者皆支援3D視覺通信之實施例中，混合式視覺通信器24及24'可在初始呼叫期間在第一裝置10a與第二裝置10b之間交換各別使用者之3D網格模型。

再次參看圖2，在第一裝置10a與第二裝置10b之間的視覺通信工作階段期間，混合式視覺通信器24可自感測器陣列收集感測器資料，其中感測器資料可包括捕獲第一裝置使用者之改變之面部表情及運動的影像資料(區塊202)。在一個實施例中，影像資料可包含由3D攝影機系統26及結構化光源30所週期性地捕獲的第一裝置使用者之深度圖。

混合式視覺通信器24使用影像資料以判定對應 3D網格模型更新(區塊204)。亦即，回應於攝影機系統26自影像資料偵測到第一裝置使用者之面部表情改變及位置改變，混合式視覺通信器24可判定3D網格模型之對應更新。

在一個實施例中，3D網格模型更新25可表示為自第一裝置使用者之偵測到之位置改變所計算的對3D網格模型之相對頂點位置的改變。

然而，因為計算相對頂點位置改變可係計算上昂貴的，所以例示性實施例可使用混合形狀400，以表示3D面部表情(例如，快樂、傷心、右眼閉上等)或甚至3D身體姿勢(例如，右臂上舉)。因此，在另一實施例中，3D網格模型更新25可接著表示為一或多個選定混合形狀之選定混合形狀係數或其他枚舉。

在視覺通信工作階段期間，混合式視覺通信器24可接收由3D攝影機系統26所週期性地捕獲的第一裝置使用者之深度圖。混合式視覺通信器24可接著使用深度圖，以自情緒狀態資料庫29擷取所儲存混合形狀400中之一或多者。可接著將在最小誤差臨限值內匹配的混合形狀之係數用作3D模型更新25。可將3D網格模型更新傳輸至第二裝置，以供第二裝置更新第一裝置使用者之3D網格模型的顯示(區塊206)。在一個實施例中，在第二裝置上更新3D網格模型之顯示可包括更新3D網格模型自身、更新背景(其中覆疊3D網格模型)，或其組合。應注意，在一個實施例中，自第一裝置傳輸至第二裝置之內容並非視訊而係資料。在第二裝置上，藉由逐訊框動畫化所接收資料而將該資料轉變成視訊以供顯示。

在一個實施例中，影像資料可包括第一裝置使用者之背景的至少一部分之影像。根據例示性實施例之一個態樣，可將背景之一或多個影像自第一裝置10a傳輸至第二裝置10b，使得當在視覺通信工作階段期間顯示於第二裝置10b上時，儲存於第二裝置10b上之3D網格模型可疊置於背景上。在一個實施例中，一旦視覺通信工作階段開始，便可將背景之影像傳輸至第二裝置10b。接著，可將背景儲存為上面疊置有3D網格模型之紋理或影像。在另一實施例中，可在傳輸頻寬並非問題之環境中，將背景之視訊串流傳輸至第二裝置10b。

為在一個實施例中進一步減少頻寬，第一裝置10a可在偵測到第一裝置使用者之位置改變時，將對背景之部分的選擇性更新發送至第二裝置10b。舉例而言，在第一裝置使用者轉動其頭部時，將揭露背景之先前被遮蔽部分。接著，混合式視覺通信器24可將此等新揭露之背景部分作為對背景之更新而發送至第二裝置10b以供顯示。

一旦第二裝置10b接收到3D模型更新25，混合式視覺通信器24'便使用3D模型25以動畫化、顯現或修改顯示於第二裝置上之3D網格模型的播放，以即時表達感知到的使用者之情緒狀態及/或身體位置。若3D模型更新25包含對頂點之改變，則混合式視覺通信器24'使用3D模型更新25以更新3D網格模型之頂點。若3D模型更新25包含混合形狀係數，則混合式視覺通信器24'使用混合形狀係數，以自情緒狀態資料庫29'選擇混合形狀或關鍵姿勢，且接著將其內插於原始3D網格模型之中性表情與選定關鍵姿勢之間，或先前關鍵姿勢與選定關鍵姿勢之間。在一個實施例中，使用者之3D網格模型的一種實例用途為將3D網格模型用作可靠簽章，以識別或鑑認使用者。

在視覺通信工作階段期間，第一裝置可自第二裝置接收2D視訊串流或對第二裝置之第二使用者的3D網格模型之更新中的至少一者，以供顯示於第一裝置之顯示器上(區塊208)。

根據一個實施例，混合式視覺通信器24及24'亦可能夠取決於裝置之能力而串流傳輸影像之標準2D串流35，因此使用片語2D/3D視訊通信。此情況將允許並不具有必需之3D攝影機系統的使用者與具有較先進系統之使用者進行通信。

當裝置裝備有3D攝影機系統26時，第一裝置可支援3D視訊通信及2D視訊通信兩者。同樣地，第二裝置可支援3D視訊通信及2D視訊通信兩者。根據例示性實施例之一個態樣，混合式視覺通信器24及24'可允許使用者按需要在3D視覺模式與2D視覺模式之間選擇性地來回切換。

根據例示性實施例之另一態樣，可使用感測器資料更新31之串流來擴增使用者之3D網格模型的播放，以用於在3D網格模型上顯示額外圖形元素。此擴增可在第一裝置10a上抑或第二裝置10b上執行，如下文所描述。

參看圖2，除自感測器陣列接收影像資料以外(區塊202)，混合式視覺通信器24亦可接收相關於視覺通信工作階段之內容脈絡的其他感測器資料，包括第一裝置使用者之活動資料及周圍條件(區塊210)。

在一個實施例中，可自包括加速度計、迴轉儀、磁力計中之一或多者的活動感測器及包括心跳速率感測器、皮膚電感測器、瞳孔擴大感測器、EKG感測器之生物測定感測器收集第一裝置使用者之活動資料，該等活動感測器可用於判定第一裝置及/或第一裝置使用者之移動，該等生物測定感測器中之任一者可用於判定第一裝置使用者之生物測定資料及所感知情緒狀態。可自包括溫度計、高度計、光感測器、濕度感測器、麥克風及其類似者中之一或多者的周圍條件感測器收集周圍條件資料。

可將其他感測器資料降低取樣及聚合，以提供感測器資料更新(區塊212)。包含感測器陣列25之感測器中之每一者可以各種速率捕獲不同類型之感測器資料。舉例而言，加速度計可以100Hz至200Hz捕獲加速度計資料，而溫度計可以1Hz或1Hz以下將溫度資料取樣。

根據例示性實施例之一個態樣，對於以較高頻率所捕獲/取樣之感測器資料，混合式視覺通信器24或單獨資料管理器可將感測器資料降低取樣至較低速率。對於一些類型之感測器資料，混合式視覺通信器24可平均化感測器資料，以進一步減少資料樣本之數目。

接著，混合式視覺通信器24可將來自各種感測器之經降低取樣之感測器資料聚合成較低數目個總樣本以供經由網路而進行可選傳輸。因此，假定在特定時間段內接收到M個總資料樣本，降低取樣及聚合可將總數目減少至N個感測器資料更新，以提供M×N資料轉換，其中N顯著小於M。舉例而言，可將以100Hz之頻率所收集的心跳速率資料轉換成指示所感知情緒(例如，個人是否變得興奮/生氣/緊張)之單一變數。

若待將感測器資料更新31傳輸至第二裝置10b，則可接著根據所定義通信協定，將N個資料感測器資料更新31(而非M個)編碼至封包中且傳輸至第二裝置10b。含有感測器資料更新31之封包可與可以不同頻率發送之3D模型更新25交錯。在第二裝置上，混合式視覺通信器24'可根據通信協定解碼資料樣本。

基於可在第一裝置與第二裝置之間交換的裝置組配及/或可用頻寬，判定將在第一裝置10a上抑或第二裝置10b上執行3D模型擴增(區塊214)。

回應於判定將在第二裝置10b上執行3D模型擴增，在3D網格模型更新之傳輸期間，將感測器資料更新31與3D網格模型更新交錯(區塊216)。在此實施例中，可將感測器資料更新作為串流後設資料之額外尺寸隨3D模型更新25一起發送至第二裝置(及/或遠端伺服器)，以擴增3D網格模型在第二裝置10b上之播放。

回應於判定將在第一裝置10a上執行3D模型擴增，藉由感測器資料更新來擴增3D網格模型更新，以用於在3D網格模型上顯示額外圖形元素(區塊218)。

在此實施例中，可在第一裝置10a上將感測器資料更新31用作情緒狀態資料庫29之額外輸入，以在將3D模型更新25發送至第二裝置10b之前，擴增使用者之所感知情緒狀態。舉例而言，若感測器資料更新31指示周圍溫度相對較熱，且生物測定感測器指示使用者具有較快脈博，則可推斷存在第一裝置使用者正出汗之較高可能性。因此，此資訊可用於在第二裝置10b上之播放期間，在3D網格模型上顯示汗滴。因此，情緒狀態資料庫29及/或29'可進一步包括與混合形狀相關聯之感測器值之矩陣，以基於感測器資料更新31之當前值來指示使用者之不同狀態(例如，熱/出汗、冷、緊張、激動、快樂、傷心及其類似者)。作為另一實例，來自周圍感測器之資料可指示第一裝置使用者之位置處正下雨。接著，此資訊可用於在第二裝置上播放3D網格模型期間顯示烏雲及雨滴。

圖5為說明在第一裝置10a與第二裝置10b之間的3D視覺模式及2D視訊模式之各種組合期間由混合式視覺通信器24所執行的處理之圖。在呼叫起始後，混合式視覺通信器24基於當前選擇或預設視訊模式設定在3D視覺模式下將3D模型更新25(及視情況選用之感測器資料更新31)抑或在2D視訊模式下將2D視訊串流27傳輸至第二裝置(區塊500)。

在一個實施例中，可由使用者手動地選擇或由混合式視覺通信器24自動地選擇視覺模式之當前選擇。舉例而言，混合式視覺通信器24可判定第一裝置10a包括3D攝影機系統，且可接著允許使用者選取3D視覺模式或2D視訊模式(例如，經由GUI或選單)。若混合式視覺通信器24發現裝置僅包括2D攝影機系統，則混合式視覺通信器24可預設至2D視訊模式。

根據另一實施例，混合式視覺通信器24可在視覺通信工作階段期間，基於可用頻寬而向使用者自動地建議2D視訊模式或3D視覺模式，及/或基於頻寬改變而動態地改變視訊模式。

若當前選擇或預設視覺模式設定為3D視覺模式，則混合式視覺通信器24亦可輪詢第二裝置上之其對應物，以判定3D網格模型是否存在於另一裝置上，或第二裝置可執行查找，以基於呼叫者之ID查看是否存在3D網格模型，且若不存在，則請求自第一裝置發送3D網格模型。若第二裝置指示3D網格模型存在於第二裝置上，則混合式視訊通信器24無需發送3D網格模型以節省頻寬。

混合式視覺通信器24亦判定第二裝置10b之當前視覺模式(區塊502)。可藉由第二裝置向第一裝置告知第二裝置之當前視訊模式而實現此操作。在此交換期間，混合式視覺通信器24及24'亦可交換模式能力，例如，裝置是否支援3D及2D視訊模式或僅支援2D視訊模式。在另一實施例中，混合式視覺通信器24及24'亦可交換可儲存為後設資料之裝置組配資訊，諸如影像感測器、光源、頻寬資訊及其類似者。

回應於判定第二裝置僅支援2D視訊通信或處於 2D視訊模式，混合式視覺通信器24在第一裝置之顯示器上顯示自第二裝置所接收之2D視訊串流(區塊504)。

回應於判定第二裝置支援3D視訊通信且處於3D視覺模式，混合式視覺通信器24在第一裝置之顯示器上顯示先前可能已儲存於第一裝置上的第二使用者之3D網格模型(區塊506)。

在一個實施例中，區塊406可包括兩個子步驟。第一子步驟可包括回應於自第二裝置接收到3D網格模型更新而更新第二使用者之3D網格模型的顯示(區塊506A)。在第一裝置10a上，混合式視覺通信器24可顯現3D網格模型，使得第二裝置使用者之面部看似直視第一裝置使用者。一旦混合式視覺通信器24接收到位置更新，混合式視覺通信器24便可使用3D網格模型更新，以修改可在本端儲存於第一裝置10a上的第二使用者之3D網格模型的表情及定向。在呼叫期間，可在發送有每一使用者之彩色影像的部分之裝置上，以彩色紋理在各別3D網格模型之多邊形內的粒度選擇性地更新該等部分。經常可優先更新較重要或活躍之區。

根據另一實施例，第二子步驟可包括追蹤第一使用者之面部相對於第一裝置之移動，及重新定向第二使用者之3D網格模型的顯示，以在第一裝置之顯示器上提供不同視角之3D網格模型(區塊506B)。

此情況被稱為運動視差效應，且為在真正面對面互動時發生之情形。視差為沿著兩條不同視線所檢視的物件之視位置之差異，且可藉由彼等兩條線之間的傾斜角來量測。此操作可由以下步驟達成：混合式視覺通信器24使用3D感測器32(諸如，運動視差3D感測器或立體感測器)以追蹤第一使用者之眼睛的位置，及回應於第一裝置使用者之眼睛位置改變而調整第二裝置使用者之3D網格模型的視角。在另一實施例中，可使用凝視追蹤器而非3D感測器，或除3D感測器之外，亦可使用凝視追蹤器。

回應於在第一裝置上自3D視覺模式切換至2D視訊模式，混合式視覺通信器24可逐步混合並且傳輸3D網格模型更新之串流與2D視訊串流至第二裝置，直到僅有2D視訊串流被傳輸為止(區塊508)。

例示性實施例提供優於習知僅2D至2D視訊通信系統之優勢。舉例而言，相比於發送影像序列，傳輸網格模型中之節點或頂點的位置更新或混合形狀係數要求較低數量級頻寬，從而允許在頻寬受約束環境中實現順暢通信。另外，相比於捕獲新影像且將其壓縮成影像序列，解譯使用者之面部表情及移動改變及發送3D網格模型更新存在較少延時。與必須等待整個影像編碼/壓縮/傳輸/解壓縮循環相對比，可一次更新單一網格節點。

關於呈現，與向下檢視相對比，3D網格模型可經顯現為直視檢視者。若使用者在視訊呼叫期間移動其頭部，則可在另一裝置上重新定向使用者之3D網格模型，以藉由新資訊呈現視圖，正如實際生活中一般。此外，3D網格模型可潛在地在安全性解決方案中用作使用者之唯一簽章。捕獲使用者面部之彩色影像及選擇性地更新該等影像之能力可阻止使用該使用者之偽模型以規避安全性之嘗試。

已揭示用於混合式視覺通信系統之方法及系統。已根據所展示之實施例描述本發明，且可存在對實施例之變化，且任何變化將屬於本發明之精神及範疇內。舉例而言，可使用硬體、軟體、含有程式指令之電腦可讀媒體或其組合來實施例示性實施例。根據本發明所撰寫之軟體將儲存於某種形式之電腦可讀媒體(諸如，記憶體、硬碟抑或CD/DVD-ROM)中，且將由處理器執行。因此，在不脫離所附申請專利範圍之精神及範疇的情況下，一般熟習此項技術者可作出許多修改。

Claims

一種用於在一第一裝置與一第二裝置之間進行視覺通信之方法，其包含：使用來自一攝影機系統之資料以建立一第一裝置使用者之一3D網格模型，其中該3D網格模型被做成可用於儲存於該第二裝置上，以供隨後顯示於該第二裝置上；在該第一裝置與該第二裝置之間的視覺通信工作階段期間，接收來自一感測器陣列的感測器資料，該感測器資料包括捕獲該第一裝置使用者之改變之面部表情及運動的影像資料；使用該影像資料以判定3D網格模型更新；將該等3D網格模型更新傳輸至該第二裝置，以供該第二裝置更新該第一裝置使用者之該3D網格模型的顯示，其中該等3D網格模型更新表示為以下各者中之至少一者：a)自該第一裝置使用者之偵測到之位置改變所計算的該3D網格模型之相對頂點位置的改變，及b)選定混合形狀係數或一或多個選定混合形狀之其他枚舉；以及接收來自該第二裝置之一2D視訊串流或對一第二裝置使用者之一3D網格模型之更新中的至少一者以供顯示於該第一裝置上。
如請求項1之方法，其中接收來自一感測器陣列的感測器資料進一步包含：接收相關於該視覺通信工作階段之一內容脈絡的其他感測器資料，該其他感測器資料包括該第一裝置使用者之活動資料及周圍條件。
如請求項2之方法，其進一步包含：將該其他感測器資料降低取樣及聚合，以提供感測器資料更新。
如請求項3之方法，其中在一時間段接收到總計M個資料樣本，且其中該降低取樣及該聚合將該等M個資料樣本減少至N個感測器資料更新，以提供一M×N資料轉換，其中N顯著小於M。
如請求項3之方法，其進一步包含：在將該等3D網格模型更新傳輸至該第二裝置期間，將該等感測器資料更新與該等3D網格模型更新交錯。
如請求項3之方法，其進一步包含：在將該等3D網格模型更新傳輸至該第二裝置之前，藉由該等感測器資料更新來擴增該等3D網格模型更新，以用於在該3D網格模型上顯示額外圖形元素。
如請求項1之方法，其中該影像資料可包括該第一裝置使用者之一背景的至少部分之一影像，其中將該背景傳輸至該第二裝置，使得當3D網格模型在該視覺通信工作階段期間顯示於該第二裝置上時，其係疊置於該背景上。
如請求項1之方法，其進一步包含：在一3D視覺模式期間發送該等3D網格模型更新，及在一2D視訊模式期間將一2D視訊串流發送至該第二裝置。
如請求項8之方法，其進一步包含：允許該第一使用者在該3D視覺模式與該2D視訊模式之間選擇性地來回切換。
如請求項8之方法，其進一步包含：在該視覺通信工作階段期間進行以下操作中之至少一者：基於可用頻寬來向該使用者自動地建議該2D視訊模式或該3D視覺模式，及基於該頻寬之改變來動態地改變視訊模式。
如請求項1之方法，其進一步包含：回應於判定該第二裝置僅支援2D視訊通信或處於2D視訊模式，在該第一裝置之一顯示器上顯示從該第二裝置所接收之一2D視訊串流。
如請求項1之方法，其進一步包含：回應於判定該第二裝置支援3D視覺通信或處於3D視覺模式：在該第一裝置上顯示該第二裝置使用者之一3D網格模型；回應於接收來自該第二裝置的3D網格模型更新而更新該第二裝置使用者之該3D網格模型的顯示；以及追蹤該第一裝置使用者之面部相對於該第一裝置之移動，及重新定向該第二裝置使用者之該3D網格模型的顯示，以在該第一裝置之一顯示器上提供一不同視角之該3D網格模型。
如請求項12之方法，其中在該第一裝置上顯示該第二裝置使用者之一3D網格模型進一步包含：在該第一裝置上顯現該3D網格模型，使得一第二裝置使用者之一面部看似直視該第一裝置使用者。
如請求項13之方法，其進一步包含：在該第一裝置上接收來自該第二裝置的該第二裝置使用者之面部的一彩色影像，及以一彩色紋理在該3D網格模型之一多邊形內的一粒度選擇性地更新該彩色影像。
如請求項1之方法，其中該3D網格模型被發送至該第二裝置作為一3D視覺串流，該方法進一步包含：回應於該第一裝置上的自3D視覺模式至2D視訊模式之一切換，逐步混合並且傳輸該等3D網格模型更新之一串流與一2D視訊串流至該第二裝置，直到僅有該2D視訊串流被傳輸為止。
如請求項1之方法，其中該3D攝影機系統包含一起收集該第一使用者之一深度圖的一結構化光源及一3D感測器，該方法進一步包含：促使該第一裝置使用者圍繞該第一裝置使用者之一頭部移動該第一裝置及針對該第一裝置使用者作出不同表情，且捕獲該第一裝置使用者之頭部的不同角度及該第一裝置使用者之面部之表情。
如請求項1之方法，其進一步包含：將該3D網格模型用作一簽章以識別該第一裝置使用者。
一種用於通信之裝置，其包含：一記憶體；一處理器，其耦接至該記憶體，該處理器經組配以：使用來自一攝影機系統之資料以建立該裝置使用者之一3D網格模型，其中該3D網格模型被做成可用於儲存於第二裝置上，以供隨後顯示於該第二裝置上；在該裝置與一第二裝置之間的一視覺通信工作階段期間，接收來自一感測器陣列的感測器資料，該感測器資料包括捕獲該裝置使用者之改變之面部表情及運動的影像資料；使用該影像資料以判定3D網格模型更新；將該等3D網格模型更新傳輸至該第二裝置，以供該第二裝置更新該裝置使用者之該3D網格模型的顯示，其中該等3D網格模型更新表示為以下各者中之至少一者：a)自該裝置使用者之偵測到之位置改變所計算的該3D網格模型之相對頂點位置的改變，及b)選定混合形狀係數或一或多個選定混合形狀之其他枚舉；以及接收來自該第二裝置之一2D視訊串流或對一第二裝置使用者之一3D網格模型之更新中的至少一者以供顯示於該裝置上。
如請求項18之裝置，其中該處理器進一步接收相關於該視覺通信工作階段之一內容脈絡的其他感測器資料，該其他感測器資料包括該裝置使用者之活動資料及周圍條件。
如請求項19之裝置，其中該處理器將該其他感測器資料降低取樣及聚合以提供感測器資料更新。
如請求項20之裝置，其中在一時間段接收到總計M個資料樣本，且其中該處理器降低取樣及聚合以將該等M個資料樣本減少至N個感測器資料更新，以提供一M×N資料轉換，其中N顯著小於M。
如請求項18之裝置，其中該影像資料可包括該裝置使用者之一背景的至少部分之一影像，其中將該背景傳輸至該第二裝置，使得當3D網格模型在該視覺通信工作階段期間顯示於該第二裝置上時，其係疊置於該背景上。
一種儲存於一電腦可讀儲存媒體上之可執行軟體產品，該電腦可讀儲存媒體含有用於在一第一裝置與一第二裝置之間提供一視覺通信工作階段的程式指令，該等程式指令用於：使用來自一攝影機系統之資料以建立一第一裝置使用者之一3D網格模型，其中該3D網格模型被做成可用於儲存於該第二裝置上，以供隨後顯示於該第二裝置上；在該第一裝置與該第二裝置之間的該視覺通信工作階段期間，接收來自一感測器陣列的感測器資料，該感測器資料包括捕獲該第一裝置使用者之改變之面部表情及運動的影像資料；使用該影像資料以判定3D網格模型更新；將該等3D網格模型更新傳輸至該第二裝置，以供該第二裝置更新該第一裝置使用者之該3D網格模型的顯示，其中該等3D網格模型更新表示為以下各者中之至少一者：a)自該第一裝置使用者之偵測到之位置改變所計算的該3D網格模型之相對頂點位置的改變，及b)選定混合形狀係數或一或多個選定混合形狀之其他枚舉；以及接收來自該第二裝置之一2D視訊串流或對一第二裝置使用者之一3D網格模型之更新中的至少一者以供顯示於該第一裝置上。