TWI908371B

TWI908371B - 影像捕捉裝置及方法

Info

Publication number: TWI908371B
Application number: TW113137613A
Authority: TW
Inventors: 劉培中
Original assignee: 茂傑國際股份有限公司
Filing date: 2024-10-01
Publication date: 2025-12-11

Abstract

本發明提出一種影像補捉方法，包括：取得視訊影像；分析視訊影像中是否存在手掌並辨識手掌手勢；當手掌手勢為追蹤手勢時，進入追蹤辨別模式，以使用者與物件之互動方式，確定物件為追蹤物件並計算追蹤物件的相關資訊；使用追蹤操作追蹤該追蹤物件，以產生追蹤影像；以及依據第一視訊顯示模式，使用追蹤影像以及視訊影像，產生直播影像。

Description

影像捕捉裝置及方法

本發明係關於一種影像捕捉裝置以及方法，特別是用於在直播串流中追蹤物件的影像捕捉裝置以及方法。

在直播串流中，例如，在販賣物件或者講師講課的直播串流情況中，使用者經常會需要在沒有助手的情境下單獨控制影像捕捉裝置（例如，攝影機），以進行介紹產品或者講課等行為。

具體地，當使用者在介紹產品或需要學生聚焦在黑板上特定位置的重點時，使用者需要能快速且準確地控制影像捕捉裝置，以使影像捕捉裝置執行以下操作：根據使用者的控制確定所欲追蹤物件或區域的位置、大小等各種資訊；持續追蹤且根據使用者的控制快速地切換顯示影像模式（例如，子母畫面、畫面並排等模式）；以及根據使用者的控制結束追蹤模式且恢復一般直播模式。

因此，需要一種影像捕捉裝置以及方法，其能在使用者沒有助力的情況下，用於在直播串流中追蹤物件的影像捕捉裝置以及方法。

為達到有效解決上述問題之目的，本發明提出一種影像補捉裝置，用於在直播串流中追蹤物件，該影像補捉裝置包括：一影像擷取單元，用於取得複數個視訊影像；一影像處理單元，用於分析以及處理該等視訊影像，以根據該等視訊影像產生複數個直播影像；一連接埠單元，用於連接至一外部裝置；以及一輸出及輸入控制單元，用於從該影像處理單元接收該等直播影像，並將該等直播影像藉由該連接埠單元傳輸至該外部裝置。

較佳地，該影像處理單元對於該等視訊影像的分析以及處理包括：分析該等視訊影像中是否存在手掌並辨識一手掌手勢；當該手掌手勢為一追蹤手勢時，進入一追蹤辨別模式，以一使用者與一物件之一互動方式，確定該物件為一追蹤物件並計算該追蹤物件的相關資訊；使用一追蹤操作追蹤該追蹤物件，以產生複數個追蹤影像；以及依據一第一視訊顯示模式，使用該等追蹤影像以及該等視訊影像，產生該等直播影像。

較佳地，該影像處理單元包含一視訊處理器、一神經網絡處理器、一記憶體、以及一儲存單元，該視訊處理器以及該神經網絡處理器使用儲存在該儲存單元中的程式執行處理，該記憶體用於儲存該視訊影像以及該等直播影像，該處理係根據該神經網絡處理器的人工智能運算的結果，以及，該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。

較佳地，該第一視訊顯示模式包括子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小，該第一視訊顯示模式根據該神經網絡處理器的人工智能運算的結果，使用該等追蹤影像以及該等視訊影像，產生該等直播影像，以及該第一視訊顯示模式中的該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。

較佳地，該影像處理單元對於該等視訊影像的分析以及處理進一步包括：分析該等視訊影像中是否存在手掌並辨識該手掌手勢是否為一結束追蹤手勢；當該手掌手勢為該結束追蹤手勢時，停止對該追蹤物件的追蹤；以及依據一第二視訊顯示模式，使用該等視訊影像，產生該等直播影像。

較佳地，該第二視訊顯示模式包括子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小、原始畫面，該第二視訊顯示模式根據該神經網絡處理器的人工智能運算的結果，使用該等視訊影像，產生該等直播影像，以及該第二視訊顯示模式中的該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。

較佳地，該追蹤手勢包括一第一追蹤手勢以及一第二追蹤手勢的至少其中之一，以及其中，該影像處理單元對於該等視訊影像的分析以及處理進一步包括：當該手掌手勢為該第一追蹤手勢時，進入一第一追蹤辨別模式，以一使用者與一物件之一第一互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊；以及/或者當該手掌手勢為該第二追蹤手勢時，進入一第二追蹤辨別模式，以該使用者與該物件之一第二互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊。

較佳地，該第一追蹤辨別模式係用於可輕易移動的物件，以及該第二追蹤辨別模式係用於不可輕易移動的物件或一追蹤區域。

較佳地，該第一互動方式為該使用者持握該追蹤物件並搖晃該追蹤物件。

較佳地，當該使用者搖晃該追蹤物件時，以該等視訊影像的第一幀為一參考影像，以該等視訊影像的第1+N幀為一比較影像，以計算該追蹤物件的相關資訊。

較佳地，該第二互動方式為該使用者以一特定手勢手繪該追蹤區域的位置。

較佳地，當該追蹤區域中的該追蹤物件與周圍的環境色有明顯的差異時，確定該追蹤物件以及計算得知該追蹤物件的相關資訊，而當該追蹤區域中該追蹤物件與周圍的環境色沒有明顯的差異時，以該追蹤區域整體為該追蹤物件以及計算得知該追蹤物件的相關資訊。

本發明提出一種影像補捉方法，用於在直播串流中追蹤物件，該影像補捉方法包括：取得複數個視訊影像；分析該等視訊影像中是否存在手掌並辨識一手掌手勢；當該手掌手勢為一追蹤手勢時，進入一追蹤辨別模式，以一使用者與一物件之一互動方式，確定該物件為一追蹤物件並計算該追蹤物件的相關資訊；使用一追蹤操作追蹤該追蹤物件，以產生複數個追蹤影像；以及依據一第一視訊顯示模式，使用該等追蹤影像以及該等視訊影像，產生複數個直播影像。

較佳地，該追蹤手勢包括一第一追蹤手勢以及一第二追蹤手勢的至少其中之一，以及該影像補捉方法進一步包括：當該手掌手勢為該第一追蹤手勢時，進入一第一追蹤辨別模式，以一使用者與一物件之一第一互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊；以及/或者當該手掌手勢為該第二追蹤手勢時，進入一第二追蹤辨別模式，以該使用者與該物件之一第二互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊。

爲使熟悉該項技藝人士瞭解本發明之目的、特徵及功效，茲藉由下述具體實施例，並配合所附之圖式，對本發明詳加說明如下。

請參照圖1，圖1係依據本發明的實施例的影像捕捉裝置100的方塊圖。影像捕捉裝置100包括：影像擷取單元102，用於取得視訊影像VI；影像處理單元104，用於分析、處理所取得之視訊影像VI，以根據使用者和物件之間的互動確定並開始追蹤物件，以產生直播影像SI；連接埠單元106，用於連接至一外部裝置（例如，電腦、主機等）；以及輸出及輸入控制單元108，用於從影像處理單元104接收直播影像SI，並將直播影像SI藉由連接埠單元106傳輸至該外部裝置。具體地，影像捕捉裝置100藉由連接埠單元106連接至外部裝置，且連接埠單元106的支援格式可以是USB 2.0、USB 3.0、USB Type-C、多排線連接埠、或客製化連接埠，且連接埠單元106亦不限於有線連接，例如，可為無線網路連接或藍芽連接等，但不以此為限。另，影像捕捉裝置100可包括攝影機、相機、手機等具有拍攝功能及影像處理功能的裝置。

具體地，影像擷取單元102可包含鏡頭、影像感測器、具有HDMI轉MIPI、DP轉MIPI或HDMI轉USB等影像擷取的模組或積體電路等。例如，影像擷取單元102可以實施為FOXLINK的微型鏡頭模組或Texas Instruments的HDMI、DP、MIPI積體電路等。具體地，連接埠單元106可包含有線的USB連接器或無線的天線等。例如，WNC的泛用型天線。具體地，輸出及輸入控制單元108可以是系統單晶片中的輸出及輸入控制器，有線的部分如USB控制器或無線的WIFI模組等。例如，輸出及輸入控制單元108可以實施為瑞芯微電子的RK3588晶片或SKYLAB的SKW92A WIFI模組等。但本發明不以上述示例為限。

在依據本發明的實施例中，影像處理單元104進一步包括：視訊處理器1042，可包括視訊處理引擎(VPE)，用於進行放大、縮小、裁切、編解碼等影像處理；記憶體1044；儲存單元1046；以及神經網絡處理器1048，使用人工智慧引擎，自適應地輔助影像處理單元104的影像處理，專為加速人工智慧應用而設計，透過類似於人類的神經系統的處理器，可進行人物辨識等人工智慧運算。視訊處理器1042以及神經網絡處理器1048使用儲存在儲存單元1046中的程式執行視訊影像分析、手勢分析、物件追蹤等功能。記憶體1044用於儲存視訊影像以及直播影像。具體地，記憶體1044和儲存單元1046可包括任何形式的記憶體，包括但不限於RAM。影像處理單元104的元件可以整合至系統單晶片上。例如，影像處理單元104可以實施為瑞芯微電子的RK3588晶片或REALTEK的AMB82晶片。例如，視訊處理器1042可以實施為瑞芯微電子的RK3588晶片中的視訊解編碼器或GPU。例如，神經網絡處理器1048可以實施為瑞芯微電子的RK3588晶片或REALTEK的AMB82晶片中的神經網絡處理器。但本發明不以上述示例為限。

依據本發明的實施例中，影像處理單元104的處理包括依據所選定的視訊顯示模式對視訊影像VI進行處理。視訊顯示模式包括但不限於子母畫面(例如，使用者居中、或追蹤物件居中)、畫面並排(例如，使用者與追蹤物件並排)、畫面裁切(例如，僅保留部分的使用者或追蹤物件)、畫面重疊(例如，使用者或追蹤物件的畫面重疊)、畫面放大縮小(例如，對使用者或追蹤物件放大縮小)、原始畫面等，且此等視訊顯示模式之跳切轉換亦可由預設之手掌手勢控制。可理解地是，當所選定的視訊顯示模式為原始畫面時，影像處理單元104可不對視訊影像VI進行處理，以直接將視訊影像VI輸出作為直播影像SI。此外，視訊顯示模式亦可包括藉由神經網絡處理器1048使用電腦視覺演算法處理傳入的視訊，例如邊緣檢測、影像分割、人聲方向檢測和特徵提取。又，使用人物檢測演算法來識別和定位視訊中的人物，例如，與會者的臉部、人體形狀或其他感興趣的目標。又，使用人物檢測演算法來識別和定位畫面或影像中的人物。又，一旦人被識別出來，人工智能演算法就可以使用運動跟蹤技術來跟蹤人隨時間的移動。此外，影像處理單元104亦可以不同的視訊顯示模式對複數個視訊影像進行處理。例如，以第一視訊顯示模式對第一視訊影像進行處理，以第二視訊顯示模式對第二視訊影像進行處理。但本發明不限於此。其中，第一視訊顯示模式為對追蹤物件進行追蹤時的顯示模式，第二視訊顯示模式為不對追蹤物件進行追蹤時的顯示模式。

可理解的是，在確定追蹤物件後，影像處理單元104能對視訊影像VI進行處理，以不同視訊顯示模式輸出一個或複數個直播影像SI。可理解的是，在本發明中，直播影像SI並非一定用於直播，亦可被儲存在外部裝置中或用於會議、上課等情境。

圖2係依據本發明的實施例的影像捕捉方法200的流程圖。影像捕捉方法200是用於在直播串流中追蹤物件，該方法包括以下步驟。

步驟S201：取得視訊影像。

步驟S202：分析視訊影像中是否存在手掌並辨識手掌手勢。

步驟S203：當該手掌手勢為一追蹤手勢時，進入一追蹤辨別模式，以使用者與物件之一互動方式，確定該物件為追蹤物件並計算追蹤物件的相關資訊。

應理解的是，本發明的影像捕捉方法200是用於在直播串流中追蹤物件，因此，影像捕捉方法200是在正常的直播串流期間持續性地在分析手掌手勢。

應理解的是，對應於不同的物件以及情境，本發明的影像捕捉方法200之追蹤手勢包括一第一追蹤手勢以及一第二追蹤手勢的至少其中之一。即，在本發明中，影像捕捉方法200可僅使用第一追蹤手勢或第二追蹤手勢的其中之一，或者同時使用第一追蹤手勢以及第二追蹤手勢。

具體地，追蹤手勢分別為預先設置的第一追蹤手勢以及第二追蹤手勢。第一追蹤手勢以及第二追蹤手勢可為任何依據使用者需要所設定的手勢。即使用者可以在影像捕捉方法200中預設任何手掌手勢。具體地，使用者可以將第一追蹤手勢預設為用手指比一個第一動作，使用者可以將第二追蹤手勢預設為用手指比一個第二動作。可理解的，依照使用者需求，亦可以使用連續的複數個動作作為追蹤手勢，例如，將第一追蹤手勢預設為用手指比一個第一動作然後再比一個第二動作，第一動作與第二動作可設置為相同或不同的動作。可理解的，在此，需要將第一追蹤手勢設置為不同於第二追蹤手勢。

在本發明中，第一追蹤手勢與第二追蹤手勢是用於使影像捕捉方法200進入不同的追蹤辨別模式。具體地，在直播介紹物件時，物件可以分為可輕易移動的物件或是不可輕易移動的物件。例如，手機或衣物等為可輕易移動的物件，而電視或是大型玩具等為不可輕易移動的物件。又例如，教師在課堂上講課，手上的輔助教具為可輕易移動的物件，黑板上的板書為不可輕易移動的物件或者一特定區域。因此，第一追蹤手勢與第二追蹤手勢是分別用於使用於使影像捕捉方法200進入不同的第一追蹤辨別模式以及第二追蹤辨別模式。其中，第一追蹤辨別模式係用於可輕易移動的物件，而第二追蹤辨別模式係用於沉重、不可輕易移動的物件或者一特定區域。

在此，第一追蹤辨別模式係用於可輕易移動的物件。該第一互動方式為一預設之方式，例如，該第一互動方式為使用者用手持握該物件並搖晃該物件。因此，在第一追蹤辨別模式中，當使用者是比出第一追蹤手勢後，進入第一追蹤辨別模式，繼而可將該物件拿起並搖晃該物件，影像捕捉裝置將該搖晃物件確定為一追蹤物件。根據本發明之另一實施例，該第一互動方式為使用者手持該物件(靜態、不晃動或移動)，影像捕捉裝置將使用者手持之物件確定為一追蹤物件，該第一互動方式可預設為左手、右手、雙手、或任何一隻手持握該物件。此外，類似於第一追蹤手勢，第一互動方式亦可預設為由複數個動作組成，例如一手持握該物件加以搖晃，另一手食指指向該物件。又例如先搖晃、再輕拋該物件。或者例如持續輕拋、並以雙手接住該物件。

此時，偵測拿起該物件的手骨骼手掌根的位置並依據該位置設定偵測追蹤區域，例如，以該位置為基準向外延伸的一特定區域，接下來，當使用者以第一互動方式需要搖晃該物件時，使用視訊影像的第一幀為參考影像，以視訊影像的第二幀或者第1+N幀為比較影像，計算該追蹤物件的相關資訊。即可確定該物件為一追蹤物件以及計算得知該追蹤物件的位置、大小等資訊。

在此，第二追蹤辨別模式係用於不可輕易移動的物件或追蹤區域。該第二互動方式為使用者以特定手勢手繪追蹤區域的位置。因此，在第二追蹤辨別模式中，使用者比完第二追蹤手勢後，即可以特定手勢手繪追蹤區域位置。具體地，比出一預定動作(第二追蹤手勢)後，例如，將大拇指靠近食指一特定距離，例如，一公分以內，進入第二追蹤辨別模式，然後，以手或手指為筆沿著物件繪製一追蹤區域(第二互動方式)。此時，當該追蹤區域中的物件與周圍的環境色有明顯的差異時，即可確定該物件為一追蹤物件以及計算得知該追蹤物件的位置、大小等資訊。而當該追蹤區域中的物件與周圍的環境色沒有明顯的差異時，即以該區域整體為一追蹤物件以及計算得知該追蹤物件的位置、大小等資訊。因此，在本案中，第二追蹤辨別模式中「追蹤物件」亦可為「追蹤區域」。此外，類似於第一追蹤手勢及第一互動方式，第二追蹤手勢及第二互動方式亦可預設為由複數個動作組成。例如，使用者比完第二追蹤手勢後，確定為追蹤一不可輕易移動的物件或一區域，然後以手接觸物件或區域(第二互動方式的第一動作)，再以手或手指約略繪製追蹤物件或追蹤區域的周邊，或僅是約略畫個圈表示追蹤物件或追蹤區域的所在(第二互動方式的第二動作)，再藉由人工智能運算的結果得知該追蹤物件或追蹤區域的位置、邊緣、大小等資訊。

步驟S204，使用追蹤操作追蹤該追蹤物件，以產生複數個追蹤影像(包含使用者、單一或複數個追蹤物件)。

此時，可使用任何已知的追蹤操作追蹤該追蹤物件。又例如，人工智能演算法就可以使用運動跟蹤技術來跟蹤人隨時間的移動，人工智能演算法亦可進行角度調整運算，以利於追蹤人及物。

步驟S205，依據第一視訊顯示模式，使用該等追蹤影像以及該等視訊影像，產生該等直播影像。

在此，第一視訊顯示模式包括但不限於子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小等。可根據影像處理單元中的神經網絡處理器的人工智能運算的結果，使用該等追蹤影像以及該等視訊影像，產生該等直播影像。該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。

此外，可理解的是，上述影像捕捉方法200亦可以以程式的方式實施在一主機中，例如，利用一僅具有拍攝功能的影像捕捉裝置連接至一主機，且將影像捕捉方法200以程式的方式安裝在主機中，即可實施影像捕捉方法200。

圖3係依據本發明的實施例的影像捕捉結束方法300的流程圖。

步驟S301，分析影像中是否存在手掌並分析手掌手勢是否為結束追蹤手勢。

具體地，在本發明中，至少需要預設三個不同的手掌手勢，分別為前述的第一追蹤手勢以及第二追蹤手勢、以及一結束追蹤手勢。該結束追蹤手勢可為任何依據使用者需要設定的手勢。即使用者可以在影像捕捉方法200前預設任何手掌手勢。

步驟S302，當手掌手勢為結束追蹤手勢時，停止對該追蹤物件的追蹤。

步驟S303，依據第二視訊顯示模式，使用該等視訊影像，產生該等直播影像。

在此，第二視訊顯示模式包括但不限於子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小、原始畫面等。可根據影像處理單元中的神經網絡處理器的人工智能運算的結果，使用該等視訊影像，產生該等直播影像。該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。

據此，本發明之影像捕捉裝置100能用於執行影像捕捉方法200、300，以及本發明之影像捕捉裝置100以及影像捕捉方法200、300能在使用者沒有助力的情況下，用於在直播串流中追蹤物件，該追蹤物件可為方便移動的、不方便移動的、或者一追蹤區域。

本發明不限於上述實施例，對於本技術領域的技術人員顯而易見的是，在不脫離本發明的精神或範疇的情況下，可對本發明作出各種修改和變化。

因此，本發明旨在涵蓋對本發明或落入所附申請專利範圍及其均等範疇內所作的修改與變化。

100:影像捕捉裝置 102:影像擷取單元 104:影像處理單元 106:連接埠單元 108:輸出及輸入控制單元 200:影像捕捉方法 300: 影像捕捉結束方法 1042:視訊處理器 1044:記憶體 1046:儲存單元 1048:神經網絡處理器 VI:視訊影像 SI:直播影像 S201-S205,S301-S303:步驟

圖1係依據本發明的實施例的影像捕捉裝置的方塊圖；以及圖2係依據本發明的實施例的影像捕捉方法的流程圖；以及圖3係依據本發明的實施例的影像捕捉結束方法的流程圖。

200:影像捕捉方法

S201-S205:步驟

Claims

一種影像補捉裝置，用於在直播串流中追蹤物件，該影像補捉裝置包括：一影像擷取單元，用於取得複數個視訊影像；一影像處理單元，用於分析以及處理該等視訊影像，以根據該等視訊影像產生複數個直播影像；一連接埠單元，用於連接至一外部裝置；以及一輸出及輸入控制單元，用於從該影像處理單元接收該等直播影像，並將該等直播影像藉由該連接埠單元傳輸至該外部裝置，其中，該影像處理單元對於該等視訊影像的分析以及處理包括：分析該等視訊影像中是否存在手掌並辨識一手掌手勢；當該手掌手勢為一追蹤手勢時，進入一追蹤辨別模式，以一使用者與一物件之一互動方式，確定該物件為一追蹤物件並計算該追蹤物件的相關資訊；使用一追蹤操作追蹤該追蹤物件，以產生複數個追蹤影像；以及依據一第一視訊顯示模式，使用該等追蹤影像以及該等視訊影像，產生該等直播影像。
如請求項1所述的影像補捉裝置，其中，該影像處理單元包含一視訊處理器、一神經網絡處理器、一記憶體、以及一儲存單元，其中，該視訊處理器以及該神經網絡處理器使用儲存在該儲存單元中的程式執行處理，該記憶體用於儲存該視訊影像以及該等直播影像，其中，該處理係根據該神經網絡處理器的人工智能運算的結果，以及其中，該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。
如請求項2所述的影像補捉裝置，其中，該第一視訊顯示模式包括子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小，其中，該第一視訊顯示模式根據該神經網絡處理器的人工智能運算的結果，使用該等追蹤影像以及該等視訊影像，產生該等直播影像，以及其中，該第一視訊顯示模式中的該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。
如請求項2所述的影像補捉裝置，其中，該影像處理單元對於該等視訊影像的分析以及處理進一步包括：分析該等視訊影像中是否存在手掌並辨識該手掌手勢是否為一結束追蹤手勢；當該手掌手勢為該結束追蹤手勢時，停止對該追蹤物件的追蹤；以及依據一第二視訊顯示模式，使用該等視訊影像，產生該等直播影像。
如請求項4所述的影像補捉裝置，其中，該第二視訊顯示模式包括子母畫面、畫面並排、畫面裁切、畫面重疊、畫面放大縮小、原始畫面，其中，該第二視訊顯示模式根據該神經網絡處理器的人工智能運算的結果，使用該等視訊影像，產生該等直播影像，以及其中，該第二視訊顯示模式中的該人工智能運算包括邊緣檢測、影像分割、人聲方向檢測和特徵提取。
如請求項1所述的影像補捉裝置，其中，該追蹤手勢包括一第一追蹤手勢以及一第二追蹤手勢的至少其中之一，以及其中，該影像處理單元對於該等視訊影像的分析以及處理進一步包括：當該手掌手勢為該第一追蹤手勢時，進入一第一追蹤辨別模式，以一使用者與一物件之一第一互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊；以及/或者當該手掌手勢為該第二追蹤手勢時，進入一第二追蹤辨別模式，以該使用者與該物件之一第二互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊。
如請求項6所述的影像補捉裝置，其中，該第一追蹤辨別模式係用於可輕易移動的物件，以及該第二追蹤辨別模式係用於不可輕易移動的物件或一追蹤區域。
如請求項7所述的影像補捉裝置，其中，該第一互動方式為該使用者持握該追蹤物件並搖晃該追蹤物件。
如請求項8所述的影像補捉裝置，其中，當該使用者搖晃該追蹤物件時，以該等視訊影像的第一幀為一參考影像，以該等視訊影像的第1+N幀為一比較影像，以計算該追蹤物件的相關資訊。
如請求項7所述的影像補捉裝置，其中，該第二互動方式為該使用者以一特定手勢手繪該追蹤區域的位置。
如請求項10所述的影像補捉裝置，其中，當該追蹤區域中的該追蹤物件與周圍的環境色有明顯的差異時，確定該追蹤物件以及計算得知該追蹤物件的相關資訊，而當該追蹤區域中該追蹤物件與周圍的環境色沒有明顯的差異時，以該追蹤區域整體為該追蹤物件以及計算得知該追蹤物件的相關資訊。
一種影像補捉方法，用於在直播串流中追蹤物件，該影像補捉方法包括：取得複數個視訊影像；分析該等視訊影像中是否存在手掌並辨識一手掌手勢；當該手掌手勢為一追蹤手勢時，進入一追蹤辨別模式，以一使用者與一物件之一互動方式，確定該物件為一追蹤物件並計算該追蹤物件的相關資訊；使用一追蹤操作追蹤該追蹤物件，以產生複數個追蹤影像；以及依據一第一視訊顯示模式，使用該等追蹤影像以及該等視訊影像，產生複數個直播影像。
如請求項12所述的影像補捉方法，其中，該追蹤手勢包括一第一追蹤手勢以及一第二追蹤手勢的至少其中之一，以及該影像補捉方法進一步包括：當該手掌手勢為該第一追蹤手勢時，進入一第一追蹤辨別模式，以一使用者與一物件之一第一互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊；以及/或者當該手掌手勢為該第二追蹤手勢時，進入一第二追蹤辨別模式，以該使用者與該物件之一第二互動方式，確定該物件為該追蹤物件並計算該追蹤物件的相關資訊。