TWI719713B - 物件偵測方法、電子裝置與物件偵測系統 - Google Patents
物件偵測方法、電子裝置與物件偵測系統 Download PDFInfo
- Publication number
- TWI719713B TWI719713B TW108141335A TW108141335A TWI719713B TW I719713 B TWI719713 B TW I719713B TW 108141335 A TW108141335 A TW 108141335A TW 108141335 A TW108141335 A TW 108141335A TW I719713 B TWI719713 B TW I719713B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- deep learning
- rotating
- electronic device
- object detection
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
一種物件偵測方法、電子裝置物件偵測系統。物件偵測方法適用於電子裝置,並包括下列步驟。獲取第一影像。對第一影像執行幾何轉換操作而獲取至少一第二影像。合併第一影像與至少一第二影像產生合併影像。輸入包括第一影像與至少一第二影像的合併影像至經訓練深度學習模型,以偵測目標物件。
Description
本發明是有關於一種物件偵測方法,且特別是有關於一種利用深度學習的物件偵測方法、電子裝置與物件偵測系統。
深度學習(Deep Learning)可用於求解例如電腦視覺相關問題(例如但不限於圖像分類及物體偵測)的技術。深度學習對例如自動駕駛、移動裝置及人工智慧(artificial intelligent,AI)軟體應用等應用具有商業潛力。深度學習其中一種重要應用為基於影像的物件偵測,其可透過特徵擷取和特徵分類來進行物件偵測。隨著影像監控、物聯網、與智慧家庭的發展,物件偵測技術已漸漸進入市場,提高生活的便利性。
然而,於目標物件的姿勢變化性相當高的物件偵測場景中,深度學習模型可能無法成功地偵測出目標物件的存在。舉例而言,假設目標物件為人體,人跌倒時的姿勢與人的一般姿勢具有相當程度的差異,代表跌倒姿勢的影像特徵與一般姿勢的影像特徵有相當程度的差異,因此深度學習模型有很高可能性因為人體跌倒而發生偵測失敗的情況。當深度學習模型發生偵測失敗的情況時,通常需要依據偵測失敗的案例重新訓練深度學習模型,以達到提昇深度學習模型之準確度的目標。但是,訓練一個深度學習模型所需的計算資源與訓練時間是相對龐大的,因而如何建立一個辨識準確度高的深度學習模型以避免一再重複訓練深度學習模型是本領域技術人員相對關心的議題。此外,雖然透過資料增強(data augmentation)可增加訓練資料的多樣性,但像是人跌倒時的姿勢變化太多,因而資料增強甚至可能導致深度學習模型在訓練過程中難以收斂,也無法真正有效改善偵測效能。
有鑑於此,本發明提出一種物件偵測方法與電子裝置,其可有效提昇深度學習模型偵測物件的準確度,以避免重複訓練深度學習模型。
本發明實施例提供一種物件偵測方法,適用於一電子裝置,所述方法包括下列步驟。獲取第一影像。對第一影像執行幾何轉換操作而獲取至少一第二影像。合併第一影像與至少一第二影像產生合併影像。輸入包括第一影像與至少一第二影像的合併影像至經訓練深度學習模型,以偵測第一影像中的目標物件。
本發明實施例提供一種電子裝置,其包括儲存裝置與處理器,處理器耦接儲存裝置。處理器經配置以執行下列步驟。獲取第一影像。對第一影像執行幾何轉換操作而獲取至少一第二影像。合併第一影像與至少一第二影像產生合併影像。輸入包括第一影像與至少一第二影像的合併影像至經訓練深度學習模型,以偵測第一影像中的目標物件。
基於上述,於本發明的實施例中,至少一第二影像是基於對第一影像進行幾何轉換操作而產生,而合併影像將包括第一影像與至少一第二影像。藉由將合併影像輸入至一個經訓練深度學習模型而偵測目標物件。藉此,可提昇深度學習模型的偵測準確度,以避免無法偵測到目標物件的失敗狀況以及重複訓練深度學習模型的狀況。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的方法與裝置的範例。
圖1是依照本發明一實施例的物件偵測系統的示意圖。請參照圖1,物件偵測系統10包括電子裝置110與攝像裝置120。攝像裝置120用以朝一空間擷取影像而產生包括連續影像的視頻串流,並且包括具有透鏡以及感光元件的攝像鏡頭。感光元件用以感測進入透鏡的光線強度,進而產生影像。感光元件可以例如是電荷耦合元件(charge coupled device,CCD)、互補性氧化金屬半導體(complementary metal-oxide semiconductor,CMOS)元件或其他元件,本發明不在此設限。
電子裝置110例如是筆記型電腦、桌上型電腦、伺服器裝置或其他具有運算能力的計算機裝置,本發明對此不限制。電子裝置110可經由資料傳輸介面接收來自攝像裝置120的視頻串流,視頻串流包括對應至連續時間點的多張影像。於一實施例中,電子裝置110可用以對攝像裝置120所擷取到的影像進行影像處理,並透過深度學習模型偵測影像中的目標物件。
圖2是依照本發明一實施例的電子裝置的示意圖,但此僅是為了方便說明,並不用以限制本發明。請參照圖2,電子裝置110可包括儲存裝置111、處理器112,以及顯示器113。
儲存裝置111用以儲存影像、程式碼、軟體元件等等資料,其可以例如是任意型式的固定式或可移動式隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟或其他類似裝置、積體電路及其組合。
處理器112耦接儲存裝置111與顯示器113,例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)、圖形處理器(Graphics Processing Unit,GPU或其他類似裝置或這些裝置的組合。處理器112可執行記錄於儲存裝置111中的程式碼、軟體模組、指令等等,以實現本發明實施例的物件偵測方法。
顯示器113例如是液晶顯示器(Liquid Crystal Display,LCD)、發光二極體(Light-Emitting Diode,LED)顯示器、場發射顯示器(Field Emission Display,FED)或有機發光二極體(Organic Light-Emitting Diode,OLED)顯示器其他種類的顯示器,但不限於此。於一實施例中,當偵測到目標物件時,顯示裝置113可用以顯示包括物件資訊的影像資料。
圖3是依照本發明一實施例的物件偵測方法的流程圖。請參照圖3,本實施例的方法適用於圖1與圖2中的電子裝置110,以下即搭配電子裝置110中的各項元件說明本實施例方法的詳細流程。
首先,於步驟S301,處理器112獲取第一影像。於一實施例中,第一影像可以是攝像裝置120所產生之視頻串流裡的一張原始影像。或者,於一實施例中,第一影像可以是處理器112對視頻串流裡的一張原始影像進行影像處理而產生,上述影像處理可以是影像裁切、去雜訊處理、飽和度調整或亮度調整等等。於一實施例中,處理器112可依據感興趣區域(Region of Interest,ROI)自原始影像擷取出第一影像。感興趣區域的設置可用於圈選出原始影像中需要被關注的影像區塊(即第一影像),而此影像區塊可用於後續監測目標物件於拍攝場景內的狀態或位置。
於步驟S302,處理器112對第一影像執行幾何轉換操作而獲取至少一第二影像。於一實施例中,幾何轉換操作可包括旋轉處理、翻轉處理、平移處理、裁剪處理、仿射轉換、其他幾何映射轉換或其組合。第二影像的數量為一張以上,本發明對此不限制。舉例而言,處理器112可分別依據至少一預設角度旋轉第一影像而獲取至少一第二影像。或者,處理器112可分別依據至少一翻轉方向翻轉第一影像而獲取至少一第二影像。
此外,當第二影像的數量為兩張以上,上述多張第二影像各自對應的幾何轉換操作可以相同或相異。舉例而言,處理器112可對第一影像分別執行旋轉處理與翻轉處理而產生對應的多張第二影像。或者,當第二影像的數量為兩張以上且幾何轉換操作相同的情況下,上述多張第二影像是依據不同的幾何轉換參數而產生。舉例而言,處理器112對第一影像依據不同旋轉角度(即幾何轉換參數)執行旋轉處理而產生對應的多張第二影像。
於步驟S303,處理器112合併第一影像與至少一第二影像產生合併影像。換言之,處理器112可產生包括第一影像與至少一第二影像的合併影像。具體而言,第一影像與至少一第二影像分別為合併影像上不同的影像區塊,且第一影像與至少一第二影像可以預設排列方式而佈置於合併影像上。第一影像與至少一第二影像彼此不重疊並位於合併影像上的不同位置上。
於步驟S304,處理器112輸入包括第一影像與至少一第二影像的合併影像至經訓練深度學習模型,以偵測第一影像中的目標物件。具體而言,於一實施例中,處理器112可利用經訓練深度學習模型來偵測第一影像中的目標物件。於此,經訓練深度學習模型為依據訓練資料集進行深度學習而事先建構的神經網路模型,其可儲存於儲存裝置111中。換言之,經訓練深度學習模型的模型參數(例如神經網路層數目與各神經網路層的權重等等)已經由事前訓練而決定並儲存於儲存裝置111中。具體而言,當合併影像輸入至經訓練深度學習模型時,深度學習首先進行特徵擷取而產生特徵向量(Feature vector),此特徵向量中的每個維度皆用來表示影像中的某種特徵。之後,這些特徵向量會被輸入至經訓練深度學習模型中的分類器,分類器再依照此些特徵向量進行分類,進而辨識出合併影像中的目標物件。經訓練深度學習模型可為卷積層類神經網路(Convolution Neural Network,CNN)模型中用以進行物件偵測的R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等等,本發明對此不限制。
值得注意的是,於目標物件的姿態變化相當大的應用場景中,若只輸入第一影像至經訓練深度學習模型,經訓練深度學習模型可能容易發生偵測失敗的現象。原因在於,若目標物件的姿態變化過大,依據第一影像所擷取到的特徵向量反映姿勢變化大而無法透過事先建立的分類規則進行正確分類。於是,於一實施例中,處理器112將先對第一影像執行幾何轉換操作而產生一張或多張第二影像,並將合併第一影像與第二影像而產生的合併影像輸入至經訓練深度學習模型。基此,由於合併影像帶有的資訊相較於第一影像更為豐富,因而可提昇經訓練深度學習模型偵測目標物件的成功率。
於一實施例中,處理器112可直接合併第一影像與至少一第二影像而產生合併影像。或者,於一實施例中,於合併第一影像與至少一第二影像的過程中,處理器112更可於第一影與至少一第二影像的之間插入分隔影像區塊而產生合併影像。
舉例而言,圖4A至圖4C是依據本發明實施例的合併影像的範例。於此範例中,假設幾何轉換操作為旋轉處理,且第二影像的數量為三張。於圖4A至圖4C的範例中,處理器112分別依據三個預設角度旋轉第一影像Img1而產生第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23。第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23彼此不重疊並位於合併影像上的四個不同位置上。例如,處理器112可以一列兩張的排列方式排列第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23。請先參照圖4A,處理器112直接合併第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23而產生合併影像ImgC1。第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23分別位於合併影像ImgC1上的四個角落。
請參照圖4B與圖4C,於一實施例中,處理器112將插入分隔影像區塊至這四張影像之間而產生合併影像ImgC2與ImgC3。於圖4B的範例中,合併影像ImgC2中的分隔影像區塊包括第一顏色區塊B1~B4與第二顏色區塊W1~W4。舉例而言,第一顏色區塊B1~B4與第二顏色區塊W1~W4可為寬度為10個像素的線條,但本發明不限制於此。須說明的是,若第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23直接相連,深度學習模型可能因為將合併影像視為單一張影像而產生跨影像的錯誤物件資訊。因此,於一實施例中,分隔影像區塊(即第一顏色區塊B1~B4與第二顏色區塊W1~W4)的插入可避免第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23直接相連,以藉由阻斷第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23之間的特徵連結而減少跨影像的錯誤物件資訊。此外,考量到真實世界的擷取影像一般不存在純黑色(RGB色彩分量分別為0)或純白色(RGB色彩分量分別為255)的情況,於一實施例中,第一顏色區塊B1~B4的顏色可設置為RGB色彩分量分別為0的黑色,而第二顏色區塊W1~W4的顏色可設置為RGB色彩分量分別為255的白色,從而提升阻斷影像間特徵連結的效果。然而,於其他實施例中,第一顏色區塊的顏色與第二顏色區塊的顏色可以是其他顏色,例如接近黑色的深灰色或接近白色的淡灰色等等。
於圖4C的範例中,合併影像ImgC3中的分隔影像區塊包括第一顏色區塊B5~B8。舉例而言,第一顏色區塊B5~B8可為寬度為20個像素的線條,但本發明不限制於此。考量到白色的像素有可能被視為影像的背景,於一實施例中,分隔影像區塊可全由黑色區塊組成。換言之,於圖4C的範例中,第一影像Img1、第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23將透過分隔影像區塊中的黑色像素而相連,因而不僅可提升阻斷影像間特徵連結的效果,更可提升深度學習模型的偵測成功率。然而,上述圖4B與圖4C的範例並非用以限定本發明,於其他實施例中,分隔影像區塊可包括更多顏色區塊或以實現為其他圖樣(pattern)。
圖5是依照本發明一實施例的物件偵測方法的流程圖。本實施例的方法適用於圖1與圖2中的電子裝置110,以下即搭配電子裝置110中的各項元件說明本實施例方法的詳細流程。
請參照圖5,於步驟S501,處理器112自視頻串流取得原始影像Img51,並依據感興趣區域自原始影像Img51擷取出第一影像Img52。於步驟S502,處理器112分別依據預設角度90度、180度、270度旋轉第一影像Img52而獲取三張第二影像Img53~Img55。然而,預設角度的配置可視實際應用而設置,本發明對此不限制。於步驟S503,處理器112合併第一影像Img51與第二影像Img53~Img55產生合併影像Img56。需說明的是,處理器112例如可依據圖4C所示的方式來插入分隔影像區塊於第一影像Img51與第二影像Img53~Img55之間。
於步驟S504,處理器112調整合併影像Img56的影像尺寸。於一實施例中,處理器112可透過縮放處理與/或填補空白影像區塊,來調整合併影像的影像尺寸。更具體而言,合併影像的影像尺寸會隨著第二影像的數量上升與分隔影像區塊的插入而增加,因此處理器112需要縮小合併影像,使其可符合深度學習模型要求的影像尺寸。此外,若深度學習模型要求的影像尺寸的比例與合併影像的影像尺寸的比例不同,處理器112可以先等比例縮小合併影像後再填補空白影像區塊,使合併影像的影像尺寸可以調整為符合深度學習模型的要求。換言之,於調整合併影像之影像尺寸的過程中,合併影像中第一影像與第二影像是進行等比例縮放,以避免深度學習模型依據失真的影像資料來進行物件偵測。
舉例而言,以圖4C為範例,假設第一影像的影像尺寸為450*450(像素),則第二影像中的第一旋轉影像Img21、第二旋轉影像Img22,以及第三旋轉影像Img23的影像尺寸也皆為450*450(像素)。此外,第一顏色區塊B5~B8分別為寬度為20像素的黑線。在此情況下,合併影像ImgC3的影像尺寸為940*940。若深度學習模型要求的影像尺寸為450*450,則處理器112需要將940*940的合併影像ImgC3縮小為450*450。另一方面,若深度學習模型要求的影像尺寸為640*480,處理器112可將940*940的合併影像ImgC3縮小為480*480再填補一個160*480的填補空白影像區塊,以產生640*480的合併影像。
以下將列舉合併影像的其他配置方式。圖6A至圖6C是依據本發明一實施例的合併影像的範例。請參照圖6A,於本範例中,假設第一影像Img61為長方形影像區塊,則合併影像ImgC6可包括第一影像Img61、旋轉後的第二影像Img62~Img64,分隔影像區塊SB1以及空白影像區塊BW1。於此,空白影像區塊BW1的尺寸取決於第一影像Img61的影像尺寸與深度學習模型要求的影像尺寸。
請參照圖6B,於本範例中,假設處理器112對第一影像Img71執行8次的旋轉操作而獲取旋轉後的第二影像Img72~Img79,第一影像Img71與第二影像Img72~Img79以一列三張的方式排列,則合併影像ImgC7可包括第一影像Img71、旋轉後的第二影像Img72~Img79以及分隔影像區塊SB2。需說明的是,隨著合併影像中第二影像的數量上升,縮放後的合併影像可能會有損失影像特徵的現象。亦即,合併影像中的第一影像與第二影像將因為數量較多而導致影像縮小幅度增加,此將導致影像特徵遺失而影響到深度學習模型的偵測成功率。
請參照圖6C,於本範例中,假設處理器112對第一影像Img65執行一次的旋轉操作而獲取旋轉後的第二影像Img66,第一影像Img65與第二影像Img66以一列兩張的方式排列,則合併影像ImgC8可包括第一影像Img65、旋轉後的第二影像Img66、分隔影像區塊SB3以及空白影像區塊BW2~BW3。於此,空白影像區塊BW2~BW3的尺寸取決於第一影像Img61的影像尺寸與深度學習模型要求的影像尺寸。需說明的是,於此種配置方式中,不攜帶任何資訊的空白影像區塊BW2~BW3的涵蓋面積較廣。
考量到圖6B與圖6C之配置方式可能引起的潛在問題,於一實施例中,合併影像包括一張第一影像與三張第二影像且佈署為一列兩張的排列方式是一種理想的配置方式(如圖5所示的配置方式),此種配置方式可減少不攜帶資訊的空白影像區塊的涵蓋面積,也不會過度縮小影像而損失過多影像特徵。藉此,可有效提昇深度學習模型的準確度。
回到圖5的流程,於步驟S505,處理器112將合併影像Img57輸入至經訓練深度學習模型,以偵測目標物件。於一實施例中,當偵測到目標物件,處理器112可藉由顯示器113顯示包括物件資訊的合併影像Img58,物件資訊包括用於圈選所偵測出的目標物件的邊界框(Bonding Box)BB1。
圖7是依照本發明一實施例的依據深度學習模型偵測物件的示意圖。請參照圖7,深度學習模型可為CNN模型,以下將合併影像Img81輸入至CNN模型為例進行說明。在本範例中,卷積層類神經網路700是由至少一個的卷積層(Convolution Layer)710、至少一個的池化層(Pooling Layer)720、至少一個的全連接層(Fully connected layer)730以及輸出層740所構成。
在卷積層類神經網路700的前段通常由卷積層710與池化層720串連組成,通常用來作為影像的特徵擷取來取得合併影像Img81的特徵值。此特徵值可以是多維陣列,一般被視為輸入的合併影像Img81的特徵向量。在卷積層類神經網路700的後段包括全連接層730與輸出層740,全連接層730與輸出層740會根據經由卷積層710與池化層720所產生的特徵值來將合併影像Img81中的物件進行分類,並且可以取得物件資訊750。物件資訊750將可包括物件類別、物件位置與物件分類機率。圖7的範例中,處理器112可透過卷積層類神經網路700自合併影像Img81偵測到分類為「人」的兩個目標物件Obj1與Obj2。這兩個目標物件Obj1與Obj2分別對應至物件位置L1與L2以及物件分類機率P1與P2。物件位置L1與L2可包括邊界框的座標資訊。藉此,處理器112可判定偵測到人,並可依據物件位置L1或L2執行後續其他應用。
圖8是依照本發明一實施例的訓練深度學習模型的流程圖。請參照圖8,本實施例的方法適用於圖1與圖2中的電子裝置110,以下即搭配電子裝置110中的各項元件說明本實施例方法的詳細流程。
於步驟S801,處理器112獲取訓練資料集中的多張原始訓練影像。於步驟S802,處理器112標籤原始訓練影像中的解答物件。換言之,這些原始訓練影像中的解答物件皆已經被框選並賦予解答類別。於步驟S803,處理器112對原始訓練影像執行資料增強(data augmentation)操作而獲取多張實際訓練影像。資料增強操作是增加訓練資料集的一種方式,主要是通過修改原始訓練影像達成。舉例而言,處理器112可以對原始訓練影像進行平移處理、翻轉處理、旋轉處理等等,以產生資料量更龐大的實際訓練影像。
之後,於步驟S804,處理器112依據實際訓練影像與經標籤的解答物件進行深度學習產生經訓練深度學習模型。具體而言,處理器112可將實際訓練影像輸入至深度學習模型。藉由比對深度學習模型的輸出與解答物件的物件資訊,處理器112將逐步訓練出一套可用以偵測物件的規則(即深度學習模型的權重),最終以建立出可用以偵測目標物件的深度學習模型。
需特別說明的是,基於圖3與圖5的實施例可知,處理器112是將包括第一影像與第二影像的合併影像輸入至經訓練深度學習模型來偵測目標物件。然而,於依據訓練資料集進行深度學習而建構經訓練深度學習模型的過程中,處理器112並未執行相似的影像合併操作。處理器112是分別將各張實際訓練影像逐一輸入至深度學習模型來進行深度學習,而上述的實際訓練影像雖然可經由資料增強操作來產生,但用以處理訓練資料的資料增強操作是獨立於實際進行偵測時的幾何轉換操作。也就是說,資料增強操作與產生合併影像的幾何轉換操作是沒有關聯性的。
綜上所述,於本發明實施例中,在基於幾何轉換操作產生合併影像之後,合併影像可輸入至深度學習模型來偵測目標物件。於此,由於合併影像將包括更多資訊,於目標物件姿態變化大的場景中,可提昇深度學習模型偵測目標物件的成功率與效率。藉此,更可避免一再重複訓練深度學習模型,也可降低深度學習模型在訓練過程中難以收斂的發生機率。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
10:物件偵測系統
110:電子裝置
111:儲存裝置
112:處理器
113:顯示器
Img1、Img52、Img61、Img71、Img65:第一影像
Img53、Img54、Img55、Img62~Img64、Img72~Img79、Img66:第二影像
BW1~BW3:空白影像區塊
SB1~SB3:分隔影像區塊
Img21:第一旋轉影像
Img22:第二旋轉影像
Img23:第三旋轉影像
ImgC1、ImgC2、ImgC3、Img56、Img57、Img58、ImgC6、ImgC7、ImgC8、Img81:合併影像
B1~B8:第一顏色區塊
W1~W4:第二顏色區塊
Img51:原始影像
BB1:邊界框
700:卷積層類神經網路
710:卷積層
720:池化層
730:全連接層
740:輸出層
750:物件資訊
S301~S304、S501~S505、S801~S804:步驟
圖1是依照本發明一實施例的物件偵測系統的示意圖。
圖2是依照本發明一實施例的電子裝置的示意圖。
圖3是依照本發明一實施例的物件偵測方法的流程圖。
圖4A至圖4C是依據本發明實施例的合併影像的範例。
圖5是依照本發明一實施例的物件偵測方法的流程圖。
圖6A至圖6C是依據本發明一實施例的合併影像的範例。
圖7是依照本發明一實施例的依據深度學習模型偵測物件的示意圖。
圖8是依照本發明一實施例的訓練深度學習模型的流程圖。
S301~S304:步驟
Claims (20)
- 一種物件偵測方法,適用於一電子裝置,所述方法包括:獲取第一影像;對該第一影像執行一幾何轉換操作而獲取至少一第二影像;合併該第一影像與該至少一第二影像產生一合併影像;以及輸入包括該第一影像與該至少一第二影像的該合併影像至一經訓練深度學習模型,以偵測該第一影像中的一目標物件。
- 如申請專利範圍第1項所述的物件偵測方法,其中對該第一影像執行該幾何轉換操作而獲取該至少一第二影像的步驟包括:分別依據至少一預設角度旋轉該第一影像而獲取該至少一第二影像。
- 如申請專利範圍第2項所述的物件偵測方法,其中該至少一第二影像包括第一旋轉影像、第二旋轉影像,以及第三旋轉影像,且該第一影像、該第一旋轉影像、該第二旋轉影像,以及該第三旋轉影像彼此不重疊並位於該合併影像上的四個不同位置上。
- 如申請專利範圍第1項所述的物件偵測方法,其中合併該第一影像與該至少一第二影像產生該合併影像的步驟包括:插入分隔影像區塊至該第一影像與該至少一第二影像之間;以及 調整該合併影像的影像尺寸。
- 如申請專利範圍第4項所述的物件偵測方法,其中該分隔影像區塊包括第一顏色區塊、第二顏色區塊或其組合。
- 如申請專利範圍第5項所述的物件偵測方法,其中該第一顏色區塊為黑色區塊。
- 如申請專利範圍第1項所述的物件偵測方法,所述方法更包括:自一視頻串流取得一原始影像;以及依據一感興趣區域自該原始影像擷取出該第一影像。
- 如申請專利範圍第1項所述的物件偵測方法,所述方法更包括:藉由一顯示器顯示包括一物件資訊的該合併影像,其中所述物件資訊包括用於圈選所偵測出的該目標物件的邊界框(Bonding Box)。
- 如申請專利範圍第1項所述的物件偵測方法,所述方法更包括:獲取訓練資料集中的多張原始訓練影像;標籤該些原始訓練影像中的解答物件;對該些原始訓練影像執行資料增強操作而獲取多張實際訓練影像;以及依據該些實際訓練影像與經標籤的解答物件進行深度學習產生經訓練深度學習模型,其中該資料增強操作獨立於該幾何轉換。
- 如申請專利範圍第1項所述的物件偵測方法,其中該深度學習模型為卷積層類神經網路(Convolution Neural Network,CNN)模型。
- 一種電子裝置,包括:儲存裝置;以及處理器,耦接該儲存裝置,經配置以執行該儲存裝置中的指令以:獲取第一影像;對該第一影像執行一幾何轉換操作而獲取至少一第二影像;合併該第一影像與該至少一第二影像產生一合併影像;以及輸入包括該第一影像與該至少一第二影像的該合併影像至一經訓練深度學習模型,以偵測該第一影像中的一目標物件。
- 如申請專利範圍第11項所述的電子裝置,其中該處理經配置以:分別依據至少一預設角度旋轉該第一影像而獲取該至少一第二影像。
- 如申請專利範圍第12項所述的電子裝置,其中該至少一第二影像包括第一旋轉影像、第二旋轉影像,以及第三旋轉影像,且該第一影像、該第一旋轉影像、該第二旋轉影像,以及該第三旋轉影像彼此不重疊並位於該合併影像上的四個不同位置上。
- 如申請專利範圍第11項所述的電子裝置,其中該處理器經配置以:插入分隔影像區塊至該第一影像與該至少一第二影像之間;以及調整該合併影像的影像尺寸。
- 如申請專利範圍第14項所述的電子裝置,其中該分隔影像區塊包括第一顏色區塊、第二顏色區塊或其組合。
- 如申請專利範圍第15項所述的電子裝置,其中該第一顏色區塊為黑色區塊。
- 如申請專利範圍第11項所述的電子裝置,所述處理器經配置以:自一視頻串流取得一原始影像;以及依據一感興趣區域自該原始影像擷取出該第一影像。
- 如申請專利範圍第11項所述的電子裝置,所述電子裝置更包括一顯示器,顯示包括一物件資訊的該合併影像,其中所述物件資訊包括用於圈選所偵測出的該目標物件的邊界框(Bonding Box)。
- 如申請專利範圍第11項所述的電子裝置,所述處理器經配置以:獲取訓練資料集中的多張原始訓練影像;標籤該些原始訓練影像中的解答物件;對該些原始訓練影像執行資料增強操作而獲取多張實際訓練 影像;以及依據該些實際訓練影像與經標籤的解答物件進行深度學習產生經訓練深度學習模型,其中該資料增強操作獨立於該幾何轉換。
- 一種物件偵測系統,包括:一攝像裝置,用以擷取影像;以及一電子裝置,連接該攝像裝置,並包括:儲存裝置;以及處理器,耦接該儲存裝置,經配置以執行該儲存裝置中的指令以:獲取第一影像;對該第一影像執行一幾何轉換操作而獲取至少一第二影像;合併該第一影像與該至少一第二影像產生一合併影像;以及輸入包括該第一影像與該至少一第二影像的該合併影像至一經訓練深度學習模型,以偵測該第一影像中的一目標物件;其中該處理器更經配置以:分別依據至少一預設角度旋轉該第一影像而獲取該至少一第二影像,而該至少一第二影像包括第一旋轉影像、第二旋轉影像,以及第三旋轉影像,且該第一影像、該第一旋轉影像、第二旋轉影像,以及第三旋轉影像分別位於該合併影像上的四個角落。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW108141335A TWI719713B (zh) | 2019-11-14 | 2019-11-14 | 物件偵測方法、電子裝置與物件偵測系統 |
| CN201911309663.0A CN112801933B (zh) | 2019-11-14 | 2019-12-18 | 对象检测方法、电子装置与对象检测系统 |
| US16/794,144 US11263785B2 (en) | 2019-11-14 | 2020-02-18 | Object detection method, electronic apparatus and object detection system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW108141335A TWI719713B (zh) | 2019-11-14 | 2019-11-14 | 物件偵測方法、電子裝置與物件偵測系統 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI719713B true TWI719713B (zh) | 2021-02-21 |
| TW202119296A TW202119296A (zh) | 2021-05-16 |
Family
ID=75745938
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW108141335A TWI719713B (zh) | 2019-11-14 | 2019-11-14 | 物件偵測方法、電子裝置與物件偵測系統 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11263785B2 (zh) |
| CN (1) | CN112801933B (zh) |
| TW (1) | TWI719713B (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI847014B (zh) * | 2021-02-22 | 2024-07-01 | 瑞昱半導體股份有限公司 | 影像資料擴增裝置與方法 |
| JP2023008090A (ja) * | 2021-07-05 | 2023-01-19 | 住友化学株式会社 | 特異部検知システム及び特異部検知方法 |
| KR20230080211A (ko) * | 2021-11-29 | 2023-06-07 | 삼성전자주식회사 | 자세 추정을 위한 서버 및 그 동작 방법 |
| TWI815318B (zh) * | 2022-02-23 | 2023-09-11 | 國立臺北科技大學 | 倉儲自動化分揀系統 |
| TWI831727B (zh) * | 2023-09-14 | 2024-02-01 | 晶睿通訊股份有限公司 | 影像模式應用方法及其監控設備 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9990734B2 (en) * | 2013-07-30 | 2018-06-05 | Holition Limited | Locating and augmenting object features in images |
| US10061972B2 (en) * | 2015-05-28 | 2018-08-28 | Tokitae Llc | Image analysis systems and related methods |
| TW201832181A (zh) * | 2017-02-15 | 2018-09-01 | 美商脫其泰有限責任公司 | 圖像分析系統及相關方法 |
| TW201941217A (zh) * | 2018-02-12 | 2019-10-16 | 美商史柯比人工智慧股份有限公司 | 用於診斷腸胃腫瘤的系統和方法 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102288280B1 (ko) * | 2014-11-05 | 2021-08-10 | 삼성전자주식회사 | 영상 학습 모델을 이용한 영상 생성 방법 및 장치 |
| KR102592076B1 (ko) * | 2015-12-14 | 2023-10-19 | 삼성전자주식회사 | 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치 |
| US10445871B2 (en) * | 2017-05-22 | 2019-10-15 | General Electric Company | Image analysis neural network systems |
| KR102348593B1 (ko) * | 2017-10-26 | 2022-01-06 | 삼성에스디에스 주식회사 | 기계 학습 기반의 객체 검출 방법 및 그 장치 |
| TWI653605B (zh) | 2017-12-25 | 2019-03-11 | Utechzone Co., Ltd. | 利用深度學習的自動光學檢測方法、設備、電腦程式、電腦可讀取之記錄媒體及其深度學習系統 |
| CN108665441B (zh) * | 2018-03-30 | 2019-09-17 | 北京三快在线科技有限公司 | 一种近似重复图像检测方法及装置,电子设备 |
| CN108805863B (zh) * | 2018-05-02 | 2022-02-22 | 南京工程学院 | 深度卷积神经网络结合形态学检测图像变化的方法 |
| US10891731B2 (en) * | 2018-05-07 | 2021-01-12 | Zebra Medical Vision Ltd. | Systems and methods for pre-processing anatomical images for feeding into a classification neural network |
| CN108960232A (zh) * | 2018-06-08 | 2018-12-07 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
| CN109117806B (zh) * | 2018-08-22 | 2020-11-27 | 歌尔科技有限公司 | 一种手势识别方法和装置 |
| US11030772B2 (en) * | 2019-06-03 | 2021-06-08 | Microsoft Technology Licensing, Llc | Pose synthesis |
| US11176700B2 (en) * | 2019-07-18 | 2021-11-16 | Hitachi, Ltd. | Systems and methods for a real-time intelligent inspection assistant |
| US20210142177A1 (en) * | 2019-11-13 | 2021-05-13 | Nvidia Corporation | Synthesizing data for training one or more neural networks |
-
2019
- 2019-11-14 TW TW108141335A patent/TWI719713B/zh active
- 2019-12-18 CN CN201911309663.0A patent/CN112801933B/zh active Active
-
2020
- 2020-02-18 US US16/794,144 patent/US11263785B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9990734B2 (en) * | 2013-07-30 | 2018-06-05 | Holition Limited | Locating and augmenting object features in images |
| US10061972B2 (en) * | 2015-05-28 | 2018-08-28 | Tokitae Llc | Image analysis systems and related methods |
| TW201832181A (zh) * | 2017-02-15 | 2018-09-01 | 美商脫其泰有限責任公司 | 圖像分析系統及相關方法 |
| TW201941217A (zh) * | 2018-02-12 | 2019-10-16 | 美商史柯比人工智慧股份有限公司 | 用於診斷腸胃腫瘤的系統和方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202119296A (zh) | 2021-05-16 |
| US11263785B2 (en) | 2022-03-01 |
| CN112801933B (zh) | 2024-07-19 |
| CN112801933A (zh) | 2021-05-14 |
| US20210150764A1 (en) | 2021-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI719713B (zh) | 物件偵測方法、電子裝置與物件偵測系統 | |
| CN111523468B (zh) | 人体关键点识别方法和装置 | |
| JP7155271B2 (ja) | 画像処理システム及び画像処理方法 | |
| Li et al. | Supervised people counting using an overhead fisheye camera | |
| Wang et al. | RGB-D salient object detection via minimum barrier distance transform and saliency fusion | |
| CN114627173B (zh) | 通过差分神经渲染进行对象检测的数据增强 | |
| CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
| CN110176027A (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
| CN112750133A (zh) | 计算机视觉训练系统和用于训练计算机视觉系统的方法 | |
| Bai et al. | GLPanoDepth: Global-to-local panoramic depth estimation | |
| CN113095106A (zh) | 一种人体姿态估计方法、装置 | |
| CN114723636A (zh) | 基于多特征融合的模型生成方法、装置、设备及存储介质 | |
| CN113627328A (zh) | 电子设备及其图像识别方法、片上系统和介质 | |
| CN110322479B (zh) | 一种基于时空显著性的双核kcf目标跟踪方法 | |
| CN115482523A (zh) | 轻量级多尺度注意力机制的小物体目标检测方法及系统 | |
| CN108875504A (zh) | 基于神经网络的图像检测方法和图像检测装置 | |
| CN117677973A (zh) | 旁观者和附着对象移除 | |
| JP6762382B2 (ja) | ディープニューラルネットワークを用いた粗略から精細な手検出方法 | |
| CN113343987A (zh) | 文本检测处理方法、装置、电子设备及存储介质 | |
| CN115362481A (zh) | 运动模糊鲁棒图像特征描述符 | |
| CN116964627B (zh) | 信息处理装置、信息处理方法以及计算机可读存储介质 | |
| US12033364B2 (en) | Method, system, and computer-readable medium for using face alignment model based on multi-task convolutional neural network-obtained data | |
| Liu et al. | Semantic-aware representation learning for homography estimation | |
| Luo et al. | Multi-scale face detection based on convolutional neural network | |
| Patil et al. | Face localization and its implementation on embedded platform |