TWI871792B

TWI871792B - 用於視訊會議的影像處理方法及裝置

Info

Publication number: TWI871792B
Application number: TW112138276A
Authority: TW
Inventors: 胡議元; 曹淩帆; 林彥儒
Original assignee: 宏碁股份有限公司
Priority date: 2023-10-05
Filing date: 2023-10-05
Publication date: 2025-02-01
Also published as: US20250117887A1; TW202516905A

Abstract

本發明提供一種用於視訊會議的影像處理方法及裝置。在方法中，辨識分享畫面中的一個或多個背景區域。判斷一個或多個背景區域的尺寸是否符合人物代表影像的尺寸。在符合人物代表影像的尺寸的一個背景區域呈現人物代表影像。藉此，可看到完整的簡報內容。

Description

用於視訊會議的影像處理方法及裝置

本發明是有關於一種影像處理技術，且特別是有關於一種用於視訊會議的影像處理方法及裝置。

在視訊會議軟體的介面中，通常都會在畫面的某個區域顯示演講者的即時影像，讓觀眾能看到演講者的表情及/或手勢，甚至讓演講更有興趣且讓氣氛更活絡。然而，由於呈現即時影像的區域的位置及大小是固定的，因此這影像可能會擋住簡報的內容，進而使觀眾不易閱讀。

本發明提供一種用於視訊會議的影像處理方法及裝置，可在合適的背景區域顯示即時影像。

本發明實施例的用於視訊會議的影像處理方法包括(但不僅限於)下列步驟：辨識分享畫面中的一個或多個背景區域；判斷一個或多個背景區域的尺寸是否符合人物代表影像的尺寸；以及在符合人物代表影像的尺寸的一個背景區域呈現人物代表影像。

本發明實施例的用於視訊會議的影像處理裝置包括(但不僅限於)儲存器及處理器。儲存器用以儲存程式碼。處理器耦接儲存器。處理器載入程式碼並經配置用以：辨識分享畫面中的一個或多個背景區域；判斷一個或多個背景區域的尺寸是否符合人物代表影像的尺寸；以及在符合人物代表影像的尺寸的一個背景區域呈現人物代表影像。

基於上述，本發明實施例的用於視訊會議的影像處理方法及裝置，可分析分享畫面中的背景區域的位置及大小，並將人物代表影像呈現於符合尺寸的背景區域上。藉此，可避免人物代表影像遮蔽簡報內容，並讓觀眾能順利地看到完整的簡報內容資訊。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的會議系統1的示意圖。請參照圖1，會議系統1包括(但不僅限於)會議終端10、20、及伺服器30。

會議終端10、20可以是行動電話、網路電話、平板電腦、桌上型電腦、筆記型電腦、智能助理裝置、穿戴式裝置、車載系統、智能家電設備或其他裝置。

伺服器30可以是各類型伺服器、雲端平台、個人電腦、或電腦工作站。伺服器30可經由網路(例如，網際網路、區域網路或私人網路)直接或間接連接會議終端10、20。

在一應用情境中，會議終端10、20執行視訊會議程式(例如，Teams、Zoom、Webex、或Meet)。會議裝置10、20可透過麥克風(例如，動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風)接收聲波並轉換成聲音訊號，透過影像擷取裝置(例如，相機、錄影機、或網路攝影機)擷取即時影像，透過處理器擷取分享畫面(例如，簡報、文件、影片或圖片畫面)，並/或透過喇叭播放聲音訊號。聲音訊號及即時影像。上述聲音訊號、即時影像及/或分享畫面可透過伺服器30經由網路傳送至另一台會議裝置10、20。

圖2是依據本發明一實施例的影像處理裝置100的元件方塊圖。請參照圖2，影像處理裝置100可以是圖1的會議終端10、20、及/或伺服器30。

影像處理裝置100包括(但不僅限於)儲存器110、通訊收發器120及處理器130。

儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器110用以儲存程式碼、軟體模組、組態配置、資料(例如，畫面、影像、或影像區域的配置)或檔案。

通訊收發器120可以是支援乙太網路(Ethernet)、光纖網路、或電纜等有線網路的收發器(其可能包括(但不僅限於)連接介面、訊號轉換器、通訊協定處理晶片等元件)，也可以是支援Wi-Fi、第四代(4G)、第五代(5G)或更後世代行動網路等無線網路的收發器(其可能包括(但不僅限於)天線、數位至類比/類比至數位轉換器、通訊協定處理晶片等元件)。在一實施例中，通訊收發器120用以傳送或接收資料。

處理器130耦接儲存器110及通訊收發器120。處理器130可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在一實施例中，處理器130用以執行影像處理裝置100的所有或部份作業，且可載入並執行儲存器110所儲存的一個或多個軟體模組、檔案及/或資料。

下文中，將搭配會議系統1中的各項裝置、元件及模組說明本發明實施例所述的方法。本方法的各個流程可依照實施情形而調整，且並不僅限於此。

圖3是依據本發明一實施例的影像處理方法的流程圖。請參照圖3，處理器130辨識分享畫面中的背景區域(步驟S310)。具體而言，分享畫面可以是簡報畫面、文件畫面、影片畫面、圖片畫面、桌面畫面或視窗畫面。在一實施例中，視訊會議程式提供畫面分享功能。畫面分享功能可(即時)擷取/錄製選擇操作(例如，透過滑鼠、鍵盤或觸控面板所接收針對所欲分享物件的點選操作)對應的簡報、文件、影片、圖片、桌面或視窗(即，所欲分享物件)的畫面(即，分享畫面)，並(經由伺服器30)傳送至另一台會議終端10、20。

在一應用情境中，針對演講者的終端裝置10、20，其處理器130自行擷取/錄製的分享畫面(即，所欲分享物件是自己的畫面)。在另一應用情境中，針對伺服器30或觀眾的終端裝置10、20，其處理器130可取得另一台會議終端10、20(即，演講者的裝置)所擷取/錄製的分享畫面。

在一實施例中，分享畫面包括一個或多個內容區域及/或一個或多個背景區域。內容區域可以是分享畫面中的文字、符號、圖案、圖片及/或物件影像的所在區域。背景區域可以是分享畫面中的內容區域以外的其他區域。例如，空白區域(其顏色不限於白色)、背景圖片的區域或背景區域的區域。

在一實施例中，處理器130可基於物件偵測技術辨識背景區域。例如，處裡器130可應用基於機器學習的演算法(例如，YOLO(You only look once)、基於區域的卷積神經網路(Region Based Convolutional Neural Networks，R-CNN)、或快速R-CNN(Fast CNN))或是基於特徵匹配的演算法(例如，方向梯度直方圖(Histogram of Oriented Gradient，HOG)、尺度不變特徵轉換(Scale-Invariant Feature Transform，SIFT)、Harr、或加速穩健特徵(Speeded Up Robust Features，SURF)的特徵比對)實現物件偵測。

機器學習的演算法可建立輸入樣本及輸出結果之間的關聯，並據以推論待辨識影像對應的輸出結果。待辨識影像例如是分享畫面的一個或多個訊框(frame)的影像。輸出結果例如是背景區域的位置、形狀及/或尺寸。而特徵匹配的演算法可預先儲存一個或多個形狀及/或類型的背景區域的特徵，並用以供後續匹配/比對判斷。

針對機器學習的模型，處理器130可使用資料集訓練、測試及/或驗證模型。資料集中的影像已標記物件的物件及類別。例如，背景區域的標記。以YOLO為例，處理器130使用MS COCO(Microsoft Common Objects in Context)資料集訓練第五代YOLO的模型，並據以辨識出分享畫面中的背景區域。然而，本發明實施例不加以限制資料集的來源或格式。

在一實施例中，處理器130可定義/設定背景區域的尺寸及/或形狀。例如，尺寸具有特定的長與寬或相對於分享畫面的面積比例。形狀可以是矩形、圓形或其他幾何圖形，也可以是不規則或具象圖形。

例如，圖4是依據本發明一實施例的分享畫面PS1及背景區域BA1~BA6的示意圖。請參照圖4，分享畫面PS1具有寬度W1。處理器130可限制在分享畫面PS1的左右兩側寬度W2及W3的區域內辨識矩形的背景區域BA1~BA6。寬度W2、W3例如為1/6的寬度W1。然而，寬度W2、W3對應區域的形狀及大小仍可依據需求而變更。

處理器130可將背景區域BA1~BA6依據其在分享畫面PS1中的位置整理成背景區域列表。例如，通常畫面的右下方可能有較大的背景區域。如圖所示，內容區域CA1穿插於畫面左方的背景區域BA3~BA6，且背景區域BA1~BA2的尺寸相較於背景區域BA3~BA6還大。背景區域列表中的排序例如以右方優先且以下方次優先。因此，背景區域列表中的背景區域依序為BA1、BA2、BA3、BA4、BA5、BA6。即，由右下至右上，接著由左下至左上。然而，背景區域列表的排列規則還可能有其他變化，且不以上述範例為限。例如，排列規則可以是依據背景區域的尺寸排序。

請參照圖3，處理器130判斷背景區域的尺寸是否符合人物代表影像的尺寸(步驟S320)。具體而言，人物代表影像可以是透過影像擷取裝置拍攝的即時影像、虛擬人物影像、照片或動畫。在一應用情境中，人物代表影像是代表演講者(例如，提供分享畫面的一員)的影像。處理器130判斷背景區域的尺寸是否可容納人物代表影像。

圖5是依據本發明一實施例說明尺寸比對的流程圖。請參照圖5，處理器130可判斷一個或多個背景區域的尺寸是否大於或等於人物代表影像的尺寸(步驟S510)。例如，背景區域及人物代表影像皆為矩形，因此可比較其長與寬。又例如，人物代表影像為圓形或橢圓形，則可比較其垂直長度與水平長度。

以圖4為例，背景區域BA1的尺寸大於人物代表影像PP的尺寸。又例如，圖6是依據本發明一實施例的尺寸比較的示意圖。請參照圖6，分享影像PS2包括背景區域BA1、BA2及內容區域CA2。背景區域BA2的尺寸大於人物代表影像PP的尺寸。

在一實施例中，處理器130可依據背景區域列表的排列順序依序比較背景區域及人物代表影像。

在背景區域的尺寸大於或等於(或不小於)人物代表影像的尺寸的情況下，處理器130可判斷背景區域的尺寸符合人物代表影像(步驟S520)。例如，背景區域及人物代表影像皆為矩形，且背景區域的長與寬分別大於人物代表影像的長與寬。

另一方面，在背景區域的尺寸小於人物代表影像的尺寸的情況下，處理器130可判斷背景區域的尺寸是否符合人物代表影像的縮小尺寸(步驟S530)。縮小尺寸是指比步驟S510中的尺寸還小的尺寸或是比初始尺寸還小的尺寸。當所有的背景區域的尺寸皆小於人物代表影像的尺寸時，表示所有背景區域皆無法容納人物代表影像的當前尺寸。處理器130依據預設比例(例如，3%、5%或10%)縮小人物代表影像的尺寸。也就是，縮小尺寸相較於先前尺寸小預設比例。然而，縮小幅度仍可依據實際需求而調整。接著，處理器130可判斷一個或多個背景區域的尺寸是否大於或等於人物代表影像的縮小尺寸。

在一實施例中，每當所有的背景區域的尺寸皆小於人物代表影像的縮小尺寸時，處理器130將繼續縮小人物代表影像的尺寸，並判斷背景區域的尺寸是否符合人物代表影像的縮小尺寸，直到縮小尺寸小於或等於尺寸下限。尺寸下限例如是初始尺寸的一半，但不以此為限。

在一實施例中，依據內容/背景區域的位置及/或形狀，處理器130可改變人物代表影像的形狀。例如，圖7是依據本發明一實施例說明改變影像形狀的示意圖。請參照圖7，分享影像PS3包括背景區域BA3及內容區域CA3。背景區域BA3為正方形。處理器130可將矩形的人物代表影像PP2裁剪成圓形。背景區域BA3的尺寸大於人物代表影像PP2的尺寸。

在一實施例中，在背景區域的尺寸小於人物代表影像的縮小尺寸或尺寸下限的情況下，處理器130可對人物代表影像去背，以產生去背人物影像。針對影像去背，可利用取樣法(Sampling-based)或傳播法(Propagation-based)計算前景的顏色和透明度，並將前景從影像中擷取出來。前景例如是僅人物的影像。由於去除背景，因此去背人物影像的尺寸比人物代表影像的尺寸小。例如，圖8是依據本發明一實施例說明去背人物影像PP3的示意圖。請參照圖8，分享影像PS4包括背景區域BA3及內容區域CA4。去背人物影像PP3可容納在更小的背景區域BA3。

請參照圖3，處理器130在符合人物代表影像的尺寸的背景區域呈現人物代表影像(步驟S330)。具體而言，處理器130可自其尺寸大於或等於人物代表影像/去背人物影像的(縮小)尺寸的一個或多個背景區域選擇一者，並在受選的一個背景區域呈現人物代表影像/去背人物影像。此時，人物代表影像/去背人物影像覆蓋於受選的背景區域。以圖4為例，人物代表影像PP呈現於背景區域BA1。以圖6為例，人物代表影像PP呈現於背景區域BA2。以圖7為例，圓形的人物代表影像PP2呈現於背景區域BA3。處理器130可透過顯示器(例如，LCD、LED、Mini LED或OLED)同時顯示分享畫面及人物代表影像。

在一實施例中，若處理器130依據背景區域列表的排列順序判斷尺寸，則處理器130可選擇最先符合人物代表影像/去背人物影像的(縮小)尺寸的背景區域。以圖4為例，背景區域BA1位於背景區域列表中的第一位，且背景區域BA2位於背景區域列表中的第二位。處理器130首先比較背景區域BA1與人物代表影像PP的尺寸。若背景區域BA1的尺寸大於與人物代表影像PP的尺寸，則人物代表影像PP呈現於背景區域BA1。此外，針對相同的分享畫面PS1，處理器130可忽略或禁止其他背景區域BA2~BA6與人物代表影像PP的尺寸比對。

在一些實施例中，人物代表影像/去背人物影像不限於一個。例如，視訊會議的其他參與者的人物代表影像/去背人物影像。此時，可選擇對應數量或僅挑選部分數量的背景區域，以供其他人物代表影像/去背人物影像呈現。

在一實施例中，處理器130可利用影像合成技術，將人物代表影像/去背人物影像嵌入分享畫面。例如，分享畫面中的受選的背景區域中的部分或所有畫素的色彩參數(例如，紅、綠、藍的數值)置換成人物代表影像/去背人物影像的色彩參數。在一些實施例中，處理器130可調整人物代表影像/去背人物影像及/或受選的背景區域的透明度。例如，人物代表影像的透明度為90%。

在一實施例中，處理器130可在受選的背景區域上新增視窗，並將人物代表影像呈現於視窗內。

在一實施例中，在背景區域的尺寸小於人物代表影像的縮小尺寸或尺寸下限(並產生去背人物影像)的情況下，處理器130可將人物代表影像/去背人物影像覆蓋分享畫面中的內容區域。由於所有背景區域皆無法容納完整的(經縮小的)人物代表影像/去背人物影像，因此除了受選的背景區域，人物代表影像/去背人物影像還會覆蓋受選的背景區域相鄰的內容區域的部分。受選的背景區域可以是所有辨識出的背景區域中具有最大尺寸的一者，但不以此為限。

此外，處理器130可限制人物代表影像/去背人物影像覆蓋內容區域的覆蓋比例。覆蓋比例例如是內容區域的面積的3%或5%，但不以此為限。為了符合覆蓋比例，處理器130可剪裁人物代表影像/去背人物影像。例如，去除頭部以下的影像。

圖9是依據本發明一實施例說明一應用情境的流程圖。請參照圖9，當開始播放簡報(即，分享畫面)或切換頁面時(步驟S901)，處理器130偵測演講者分享即時影像(即，人物代表影像)的操作，透過基於機器學習的物件偵測模型來找出簡報畫面的背景中的所有背景矩形區域(即，矩形的背景區域)的位置(其找尋順序例如是由右下至左上)，並據以決定背景矩形區域的列表(步驟S902)。以圖4為例，在左右兩側寬度W2、W3的區域中，依序找出背景區域BA1、BA2、BA3、BA4、BA5、BA6。列表中以找尋順序排列。處理器130自列表中尋找可容納人物代表影像的背景矩形區域(步驟S903)。以圖4為例，背景區域BA1的尺寸已符合人物代表影像的尺寸，即可在這背景區域BA1呈現人物代表影像(步驟S904)。

若列表中沒有符合人物代表影像的當前尺寸的背景區域，則處理器130縮小人物代表影像(步驟S905)。例如，每當沒有符合，則每次縮小5%的尺寸。接著，處理器130自列表中尋找可容納人物代表影像的縮小尺寸的背景矩形區域(步驟S906)。若有符合縮小尺寸的背景區域，則在這背景矩形區域顯示縮小尺寸的人物代表影像(步驟S907)。

若列表中沒有符合人物代表影像的縮小尺寸的背景區域，則處理器130判斷縮小尺寸是否小於尺寸下限(步驟S908)。例如，尺寸下限為初始尺寸的一半。若縮小尺寸尚未小於尺寸下限，則可進一步縮小人物代表影像(步驟S905)。

若縮小尺寸小於尺寸下限，則處理器130對人物代表影像進行去背處理(步驟S909)，以產生去背人物影像。此外，處理器130自列表中找出最接近去背人物影像的背景區域，並據以在這背景區域顯示這去背人物影像。如圖8所示，在列表中的最大背景矩形區域顯示去背人物影像PP3或人物代表影像(步驟S910)。

圖10是依據本發明一實施例的基於情緒的背景視覺調整的流程圖。請參照圖10，處理器130可辨識情緒(步驟S1010)。例如，麥克風接收演講者的聲音，且處理器130分析聲音訊號的音調、音量等語音特徵，以辨識演講者的情緒。又例如，影像擷取裝置拍攝演講者，且處理器130分析影像特徵，以辨識演講者的情緒。

在一實施例中，針對基於機器學習的語音辨識模型，處理器130可使用資料集訓練、測試及/或驗證模型。例如，訓練資料集包括二種英文數據集SAVEE(Surrey Audio-Visual Expressed Emotion)、RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)及二種中文數據集CASIA(Chinese Academy of Sciences)、NNIME(NTHU-NTUA Chinese Interactive Multimodal Emotion)，且這些資料集包含快樂(happiness)、憤怒(anger)、興奮(excitement)、恐懼(fear)、悲傷(sadness)、驚訝(surprise)、中性(neutral)等情緒。語音辨識模型使用簡單階層卷積神經網路(Sample-Level CNNs)，並基於過零率(Zero-Crossing Rate，ZCR)、音量(Volume)、梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficient，MFCC)、音高(Pitch)、能量運算子（Teager Energy Operator，TEO）等語音特徵訓練語音辨識模型以辨識各種情緒。

請參照圖10，處理器130可在分享畫面中的背景區域呈現情緒對應的視覺表現(步驟S1020)。視覺表現可以是顏色、圖案、文字或動畫。例如，處理器130對人物代表影像去背，並在所去除的背景呈現對應的視覺表現。去背人物影像及情緒對應的視覺表現同時呈現於受選的背景區域。又例如，在受選的背景區域顯示表情符號。

圖11是依據本發明一實施例說明另一應用情境的流程圖。請參照圖11，處理器130可透過語音辨識模型辨識演講者說話的情緒(步驟S1101)。若情緒為驚訝或興奮(步驟S1102)，則將受選的背景區域中的去背人物影像以外的背景轉變成紅色(步驟S1103)。若情緒為平靜或中性(步驟S1104)，則將受選的背景區域中的去背人物影像以外的背景轉變成綠色(步驟S1105)。若情緒為快樂(步驟S1106)，則將受選的背景區域中的去背人物影像以外的背景轉變成粉色(步驟S1107)。

綜上所述，在本發明實施例的用於視訊會議的影像處理方法中，可辨識分享畫面中的背景區域，將人物代表影像呈現於符合尺寸的背景區域。此外，本發明實施例可視需求縮小人物代表影像、對人物代表影像去背/改變透明度、或改變背景區域的形狀。藉此，可避免/降低人物代表影像遮蔽分享畫面中的內容區域，讓觀眾能順利地看到完整的簡報內容。另一方面，本發明實施例可依據演講者說話的語氣判斷其情緒，並據以呈現對應的視覺表現，讓觀眾能得知演講者的情緒變化。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1:會議系統 10、20:會議終端 30:伺服器 100:影像處理裝置 110:儲存器 120:通訊收發器 130:處理器 S310~S330、S510~S530、S901~S910、S1010~S1020、S1101~S1107:步驟 W1、W2、W3:寬度 BA1~BA6:背景區域 PS1~PS4:分享畫面 CA1~CA4:內容區域 PP~PP2:人物代表影像 PP3:去背人物影像

圖1是依據本發明一實施例的會議系統的示意圖。圖2是依據本發明一實施例的影像處理裝置的元件方塊圖。圖3是依據本發明一實施例的影像處理方法的流程圖。圖4是依據本發明一實施例的分享畫面及背景區域的示意圖。圖5是依據本發明一實施例說明尺寸比對的流程圖。圖6是依據本發明一實施例的尺寸比較的示意圖。圖7是依據本發明一實施例說明改變影像形狀的示意圖。圖8是依據本發明一實施例說明去背人物影像的示意圖。圖9是依據本發明一實施例說明一應用情境的流程圖。圖10是依據本發明一實施例的基於情緒的背景視覺調整的流程圖。圖11是依據本發明一實施例說明另一應用情境的流程圖。

S310~S330:步驟

Claims

一種用於視訊會議的影像處理方法，包括：辨識一分享畫面中的至少一背景區域，其中該至少一背景區域是該分享畫面中的至少一內容區域以外的其他區域，且該至少一內容區域是該分享畫面中的文字、符號、圖案、圖片及物件影像中的至少一者的所在區域；判斷該至少一背景區域的尺寸是否符合一人物代表影像的尺寸；以及在符合該人物代表影像的尺寸的一該背景區域呈現該人物代表影像。
如請求項1所述的用於視訊會議的影像處理方法，其中判斷該至少一背景區域的尺寸是否符合該人物代表影像的尺寸的步驟包括：判斷該至少一背景區域的尺寸是否大於或等於該人物代表影像的尺寸；在該至少一背景區域的尺寸大於或等於該人物代表影像的尺寸的情況下，判斷該至少一背景區域的尺寸符合該人物代表影像的尺寸；以及在該至少一背景區域的尺寸小於該人物代表影像的尺寸的情況下，判斷該至少一背景區域的尺寸是否符合該人物代表影像的縮小尺寸。
如請求項2所述的用於視訊會議的影像處理方法，其中判斷該至少一背景區域的尺寸是否符合該人物代表影像的縮小尺寸的步驟包括：在該至少一背景區域的尺寸小於該人物代表影像的縮小尺寸的情況下，對該人物代表影像去背，以產生一去背人物影像；以及在一該背景區域呈現該去背人物影像。
如請求項3所述的用於視訊會議的影像處理方法，其中在一該背景區域呈現該去背人物影像的步驟包括：將該去背人物影像覆蓋該分享畫面中的一內容區域；以及限制該去背人物影像覆蓋該內容區域的一覆蓋比例。
如請求項1所述的用於視訊會議的影像處理方法，更包括：辨識一情緒；以及在該分享畫面中的至少一背景區域呈現該情緒對應的一視覺表現。
一種用於視訊會議的影像處理裝置，包括：一儲存器，用以儲存一程式碼；以及一處理器，耦接該儲存器，載入該程式碼並經配置用以：辨識一分享畫面中的至少一背景區域，其中該至少一背景區域是該分享畫面中的至少一內容區域以外的其他區域，且該至少一內容區域是該分享畫面中的文字、符號、圖案、圖片及物件影像中的至少一者的所在區域；判斷該至少一背景區域的尺寸是否符合一人物代表影像的尺寸；以及在符合該人物代表影像的尺寸的一該背景區域呈現該人物代表影像。
如請求項6所述的用於視訊會議的影像處理裝置，其中該處理器更經配置用以：判斷該至少一背景區域的尺寸是否大於或等於該人物代表影像的尺寸；在該至少一背景區域的尺寸大於或等於該人物代表影像的尺寸的情況下，判斷該至少一背景區域的尺寸符合該人物代表影像的尺寸；以及在該至少一背景區域的尺寸小於該人物代表影像的尺寸的情況下，判斷該至少一背景區域的尺寸是否符合該人物代表影像的縮小尺寸。
如請求項7所述的用於視訊會議的影像處理裝置，其中該處理器更經配置用以：在該至少一背景區域的尺寸小於該人物代表影像的縮小尺寸的情況下，對該人物代表影像去背，以產生一去背人物影像；以及在一該背景區域呈現該去背人物影像。
如請求項8所述的用於視訊會議的影像處理裝置，其中該處理器更經配置用以：將該去背人物影像覆蓋該分享畫面中的一內容區域；以及限制該去背人物影像覆蓋該內容區域的一覆蓋比例。
如請求項6所述的用於視訊會議的影像處理裝置，其中該處理器更經配置用以：辨識一情緒；以及在該分享畫面中的至少一背景區域呈現該情緒對應的一視覺表現。