[go: up one dir, main page]

TW201937405A - 物件標示系統及方法 - Google Patents

物件標示系統及方法 Download PDF

Info

Publication number
TW201937405A
TW201937405A TW107106279A TW107106279A TW201937405A TW 201937405 A TW201937405 A TW 201937405A TW 107106279 A TW107106279 A TW 107106279A TW 107106279 A TW107106279 A TW 107106279A TW 201937405 A TW201937405 A TW 201937405A
Authority
TW
Taiwan
Prior art keywords
result
object marking
module
labeling
marking
Prior art date
Application number
TW107106279A
Other languages
English (en)
Other versions
TWI666595B (zh
Inventor
粘為博
楊宗賢
莊淳富
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW107106279A priority Critical patent/TWI666595B/zh
Priority to CN201810263514.4A priority patent/CN110197106A/zh
Priority to US15/987,452 priority patent/US10685263B2/en
Priority to JP2018153246A priority patent/JP6686080B2/ja
Application granted granted Critical
Publication of TWI666595B publication Critical patent/TWI666595B/zh
Publication of TW201937405A publication Critical patent/TW201937405A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明揭露一種物件標示系統及方法。物件標示系統包括一第一物件標示模組、一第二物件標示模組、一標示整合模組及一影格間追蹤模組。第一物件標示模組依據一第一二維影像產生一第一物件標示結果,其中第一二維影像為一二維影片的多個影格其中之一。第二物件標示模組依據一三維資訊產生一第二二維影像,及依據三維資訊及第二二維影像產生一第二物件標示結果。標示整合模組依據第一物件標示結果及第二物件標示結果產生一第三物件標示結果。影格間追蹤模組依據第三物件標示結果執行一影格間物件標示程序,以產生一第四物件標示結果。

Description

物件標示系統及方法
本發明是有關於一種物件標示系統及方法。
物件偵測(object detection)的技術被廣泛應用在許多領域中,諸如自動駕駛(self-driving)、衛星影像分析、車輛即時監控等。在建立一套自動物件偵測系統的過程中,必須要提供大量的訓練資料給物件標示(labeling)模型學習,以提升標示的準確性。然而,現有技術中,訓練資料大多仰賴人為手動標示,或半手動標示(即由低階人工智能粗略標示後,再以手動標示或調整)。因而,為了提供大量的訓練資料,勢必要耗費大量的人力資源。
另一方面,若不想耗費太多的人力資源在提供訓練資料上,僅以低階人工智能進行物件標示,則標示結果的準確度將難以達到要求。
本發明的目的係提供一種物件標示系統及方法。
本發明實施例係揭露一種物件標示系統,包括一第一物件標示模組、一第二物件標示模組、一標示整合模組及一影格間追蹤模組。第一物件標示模組用以依據一第一二維影像產生一第一物件標示結果,其中第一二維影像為一二維影片的複數個影格其中之一。第二物件標示模組用以依據一三維資訊產生一第二二維影像,並依據三維資訊及第二二維影像產生一第二物件標示結果。標示整合模組用以依據第一物件標示結果及第二物件標示結果產生一第三物件標示結果。影格間追蹤模組用以依據第三物件標示結果執行一影格間物件標示程序,以產生一第四物件標示結果。
本發明實施例係揭露一種物件標示方法,包括:由一第一物件標示模組依據一第一二維影像產生一第一物件標示結果,其中第一二維影像為一二維影片的多個影格其中之一;由一第二物件標示模組依據一三維資訊產生一第二二維影像,並依據三維資訊及第二二維影像產生一第二物件標示結果;由一標示整合模組依據第一物件標示結果及第二物件標示結果產生一第三物件標示結果;以及由一影格間追蹤模組依據第三物件標示結果執行一影格間物件標示程序,以產生一第四物件標示結果。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
請參照第1A圖,第1A圖繪示依據本發明一實施例的物件標示系統的方塊圖。請同時參照第2A圖所示的物件標示方法的流程圖以及第3A~3C圖的示意圖,以利理解。物件標示系統1a可用以偵測(detect)、辨識(recognize)及標示(label)影像(image)或影片(video)中的物件(object)。物件可例如是影像或影片中的行人、機車、汽車或上述之組合等。物件標示系統1a包括一第一物件標示模組12、一第二物件標示模組14、一標示整合模組16以及一影格間追蹤模組19。在一實施例中,物件標示系統1a更可包括一訓練資料(training data)產生模組18。在另一實施例中,訓練資料產生模組18是設置於一外部裝置(未繪示),而外部裝置耦接至物件標示系統1a。換言之,訓練資料產生模組18是選擇性地包括在物件標示系統1a之中。
第一物件標示模組12用以接收一第一二維影像2Dimg1。在一實施例中,第一二維影像2Dimg1是一二維攝影機(2D camera)所拍攝的即時影像(real-time image)。在另一實施例中,第一二維影像2Dimg1是儲存於一計算機可讀儲存裝置的影像。第一二維影像2Dimg1可為一獨立的二維影像、圖片或是一二維影片(video)的複數個影格(image frame)的其中之一。本文所謂影片的「影格」係指影片的幀(frame),例如幀率(frame rate)為25fps的影片即具有每秒25個影格。
第一物件標示模組12可依據第一二維影像2Dimg1產生一第一物件標示結果LABEL1(步驟S202)。在一實施例中,第一物件標示模組12是具有可學習能力(例如深度學習(deep learning))的應用程式(application)、計算機可讀指令(instruction)、程式(program)或程序(process),且當第一物件標示模組12由一或多個處理器(processor)執行時,可辨識並標示出第一二維影像2Dimg1中的物件(例如以物件框框起並標示諸如行人、機車及汽車等的物件類型),以產生第一物件標示結果LABEL1。舉例來說,於標示物件時,第一物件標示模組12可先將第一二維影像2Dimg2以一或多個濾鏡(filter)將雜訊(noise)或其他可能影響物件判別的資訊(information)過濾掉。接著,第一物件標示模組12找出可能是物件的輪廓,再依據輪廓判斷是否為一物件,若判斷為物件則進一步判斷此物件的物件類型。第一物件標示模組12將所有辨識出的物件以物件框框起並標示物件類型,以產生第一物件標示結果LABEL1。在另一實施例中,第一物件標示模組12可採用現有的物件標示模型,例如Faster R-CNN、SSD及YOLOv2等。
例如第3A圖所示,第一物件標示模組12產生的第一物件標示結果LABEL1包括物件框301、302、303,物件類型分別為汽車、汽車及行人。
第二物件標示模組14耦接至第一物件標示模組12,並用以接收一三維資訊3Dinfo。在一實施例中,三維資訊3Dinfo是一三維攝影機或一空間感測裝置(例如光達(Lidar))所拍攝或感測的即時影像或即時資訊。在另一實施例中,三維資訊3Dinfo是儲存於一計算機可讀儲存裝置的影像或資料。在一實施例中,三維資訊3Dinfo與第一二維影像2Dimg1是由包括多個異質(heterogeneous)感測器的一或多個裝置於同一時間,以實質相同的角度對同一區域拍攝或感測而得。所謂異質係例如指一二維感測器及一三維感測器,兩者所能感測的維度(dimension)不同,而在本質上有所差異的感測器。三維資訊3Dinfo可包括點雲(point cloud),即所拍攝或感測的區域中每一個點的位置(例如三維座標)、色彩資訊(例如RGB值)、物體的深度、光照射在物體後產生的反射光的強度或上述之組合等。
第二物件標示模組14可依據三維資訊3Dinfo產生一第二二維影像,並依據三維資訊3Dinfo及第二二維影像產生一第二物件標示結果LABEL2(步驟S204)。在一實施例中,第二物件標示模組14為儲存於一或多個計算機可讀媒體的應用程式、計算機可讀指令、程式或程序,且當第二物件標示模組14由一或多個處理器執行時,可採用本領域具有通常知識者所熟知的轉換邏輯或轉換演算法將三維資訊3Dimg轉換為第二二維影像;基於三維資訊3Dinfo計算出一或多個物件的位置、大小及輪廓等,並以物件框將所計算出的物件標示在第二二維影像上,以產生第二物件標示結果LABEL2。
例如第3B圖所示,第二物件標示模組14產生的第二物件標示結果LABEL2包括物件框301、303、304,物件類型分別為汽車、行人及行人。需要注意的是,由於的第二二維影像是基於三維資訊所產生,故可能與第一二維影像2Dimg1不同。第3A~3C圖僅是以說明為目的而繪示,並非用以限制本發明。
標示整合模組16耦接至第一物件標示模組12及第二物件標示模組14。標示整合模組16可依據第一物件標示結果LABEL1及第二物件標示結果LABEL2產生第三物件標示結果LABEL3(步驟S206)。在一實施例中,標示整合模組16為儲存於一或多個計算機可讀媒體的應用程式、計算機可讀指令、程式或程序,且當標示整合模組16由一或多個處理器執行時,可基於第一物件標示結果LABEL1及第二物件標示結果LABEL2產生第三物件標示結果LABEL3。在一實施例中,標示整合模組16取第一物件標示結果LABEL1及第二物件標示的聯集(Union)作為第三物件標示結果LABEL3,亦即第三物件標示結果LABEL3中標示出的物件包括第一物件標示結果LABEL1中標示的物件及第二物件標示結果LABEL2中標示的物件。例如第3C圖所示,第三物件標示結果LABEL3包括物件框301、302、303、304,物件類型分別為汽車、汽車、行人及行人。
影格間追蹤模組19耦接至標示整合模組16。在一實施例中,影格間追蹤模組19為儲存於一或多個計算機可讀媒體的應用程式、計算機可讀指令、程式或程序,且當影格間追蹤模組19由一或多個處理器執行時,可依據第三物件標示結果LABEL3執行一影格間(inter-frame)物件標示程序,以產生一第四物件標示結果LABEL4(步驟S207)。
為清楚說明影格間物件標示程序,請參照第2B圖的影格間物件標示程序的流程圖及第4A~4D圖的執行影格間物件標示程序的示意圖。
影格間物件標示程序包括步驟S2071及S2073。在步驟S2071中,影格間追蹤模組19於第三物件標示結果LABEL3中找出至少一第一物件框(如第4A圖中的601、605)。在步驟S2073中,影格間追蹤模組19依據一演算法於第一二維影像2Dimg1的一前一影格或一後一影格(或依據第一二維影像2Dimg1的前一影格或後一影格所產生的第三物件標示結果LABEL3)中對應於各至少一第一物件框的位置處以一特定比例標示一第二物件框(如第4B~4D圖中的602、603、604),以產生第四物件標示結果LABEL4。
在一實施例中,第4A~4D圖例如是一二維影片中的四張影格,於時間軸上首先出現的是第4D圖,接著依序是第4C圖、第4B圖及第4A圖。在一些情況下,由於第4D圖中的機車物件O較小,可能無法被第一物件標示模組12及第二物件標示模組14辨識並標示出來,於第4B圖及第4C圖中的影格亦然,直到第4A圖的影格時,機車物件O才被成功標示。換言之,在執行影格間物件標示程序之前,只存在物件框601,而不存在物件框602、603、604。當執行影格間物件標示程序時,影格間追蹤模組19會依據例如光流演算法(optical flow algorithm)計算機車物件O的速度與行進方向,得出機車物件O是迎面行駛過來的結果。接著,影格間追蹤模組19會在影片中的前一影格(第4B圖)中找尋與物件框601對應的位置,並依據所算出的機車物件O的速度計算物件框602的大小並標示出機車物件O,重複此動作並標示出物件框603、604,以做為第四物件標示結果LABEL4。在一些實施例中,第四物件標示結果LABEL4會被輸入訓練資料產生模組18。
在另一實施例中,第4A~4D圖例如是一二維影片中的四張影格,於時間軸上首先出現的是第4A圖,接著依序是第4B圖、第4C圖及第4D圖。與前述實施例差別在於,影格間追蹤模組19會往影片中的後一影格找尋與物件框601對應的位置,以標示出機車物件O。
在一實施例,物件標示系統1a可進一步包括一暫存器(未繪示),用以儲存第三物件標示結果LABEL3、第四物件標示結果LABEL4或上述之組合。當影格間追蹤模組19執行影格間物件標示程序時,可於暫存器中提取依據影片中的前一(或多)影格所產生的第三物件標示結果LABEL3。
在一實施例中,影格間追蹤模組19可以特定比例例如物件框601的0.5倍標示物件框602,然本發明不以此為限。
另外,如第4A~4D圖中所示,由於物件框605所標示的是一靜止的物件,故在第4A~4D圖物件框605是一直存在,且大小不變。
訓練資料產生模組18耦接至物影格間追蹤模組19。訓練資料產生模組18可依據第四物件標示結果LABEL4(或者同時依據第三物件標示結果LABEL3及第四物件標示結果LABEL4)產生一訓練資料Tdata,並將訓練資料Tdata提供給第一物件標示模組12(步驟S208)。需要注意的是,步驟S208可選擇性地被執行,例如當物件標示系統1a包括訓練資料產生模組18時,步驟S208可被執行,而當訓練資料產生模組18設置於物件標示系統1a的外部(即物件標示系統1a不包括訓練資料產生模組18)時,步驟S208可不包括在此流程中,而在其他流程中被執行。在一實施例中,訓練資料產生模組18為儲存於一或多個計算機可讀媒體的應用程式、計算機可讀指令、程式或程序,且當訓練資料產生模組18由一或多個處理器執行時,可基於第三物件標示結果LABEL3產生訓練資料Tdata,並提供給第一物件標示模組12。
在一實施例中,訓練資料產生模組18可依據第四物件標示結果LABEL4(或者同時依據第三物件標示結果LABEL3及第四物件標示結果LABEL4)產生一純文字文件(例如txt檔案)。此純文字文件的內容記載第四物件標示結果LABEL4所標示出的所有物件的物件類型、位置及大小,亦即此純文字文件是針對第四物件標示結果LABEL4所標示出的所有物件的描述,或者此純文字文件即是用以描述第四物件標示結果LABEL4。訓練資料產生模組18可將第四物件標示結果LABEL4與此純文字文件連結在一起,作為訓練資料Tdata提供給第一物件標示模組12。在一實施例中,訓練資料產生模組18在產生訓練資料Tdata後,可將訓練資料Tdata儲存至一資料庫(database),而第一物件標示模組12可通過讀取資料庫中的資料進行學習,以提升標示的準確度。
在一實施例中,訓練資料Tdata被第一物件標示模組12當作第一真實結果(ground truth)來使用。第一物件標示模組12可將第一物件標示結果LABEL1與訓練資料Tdata(即第一真實結果)進行比較,並計算兩者之間的差異或相似度。例如,第一物件標示模組12計算第一物件標示結果LABEL1與訓練資料Tdata之間的交疊率(intersection over union, IOU),以獲得一第一信心度,其中交疊率的計算方式可例如是兩者的物件的交集數量除以物件的聯集數量。例如以第3A圖與第3C圖(即假設第四物件標示結果LABLE4相同於第三物件標示結果LABEL3且對應的純文字文件作為訓練資料時)為例,第一物件標示結果LABEL1與第四物件標示結果LABEL4的交疊率為75%。當第一物件標示結果LABEL1與訓練資料Tdata差異越小(交疊率越大)時,第一信心度越高,亦即第一物件標示模組12與第一真實結果越接近,會被認為是準確度越高。反之,當第一物件標示結果LABEL1與訓練資料Tdata差異越大(交疊率越小)時,第一信心度越低。此外,第一物件標示模組12可依據訓練資料Tdata對第一物件標示模組12內部的一或多個參數進行調整或修正。經過多次調整與修正,第一物件標示模組12所產生的第一物件標示結果LABEL1可與訓練資料Tdata越來越接近,亦即準確度越來越高。
在一實施例中,第二物件標示模組14可依據一第二真實結果及第二物件標示結果LABEL2計算一第二信心度。第二真實結果可通過接收使用者的輸入,以標示第二二維影像中的物件而產生,或者可通過一類神經網路(neural network)計算而得(例如依據過去的第四標示結果LABEL4或訓練資料Tdata)。第二物件標示模組14依據計算第二物件標示結果LABEL2與第二真實結果之間的差異或相似度(例如交疊率),以獲得第二信心度。當第二信心度越高,代表第二物件標示結果LABEL2與第二真實結果越接近,亦即準確度越高。
在一實施例中,標示整合模組16可依據第一信心度及第二信心度決定一權重比例。標示整合模組16可依據權重比例決定採用第一物件標示結果LABEL1與第二物件標示結果LABEL2的比例。例如,在亮度較低的環境下,第一物件標示模組12的第一信心度可能較低,第二物件標示模組14的第二信心度可能較高。此種情況下,標示整合模組16可決定權重比例偏重於第二物件標示模組14,亦即當整合第一物件標示結果LABEL1與第二物件標示結果LABEL2時,採用較多第二物件標示結果LABEL2中標示出的物件,而採用較少第一物件標示結果LABEL1中標示的物件。
在一實施例中,訓練資料產生模組18可依據第四物件標示結果LABEL4與一第三真實結果計算一第三信心度,其中第三真實結果可通過類神經網路計算而得(例如依據過去的標示結果或訓練資料)。訓練資料產生模組18可依據第三信心度決定是否啟用一手動輔助標示程序。例如,當第三信心度低於一閥值時,訓練資料產生模組18可決定起用手動輔助標示程序。當手動輔助標示程序被啟用時,訓練資料產生模組18可接收來自使用者(user)的輸入,例如通過一使用者介面(user interface),以對第三物件標示結果LABEL3、訓練資料Tdata或上述兩者進行調整或修正,諸如將錯誤標示的物件移除、修改被標示的物件的物件類型、標示未標示的物件或上述之組合等。在一實施例中,當第一物件標示模組12與第二物件標示模組14對一或多個物件在是否為物件的判別上有歧異時,訓練資料產生模組18可啟動手動輔助標示程序。例如第3A圖中,第一物件標示模組12判斷物件框302中標示的是一物件,物件類型為汽車,而第3B圖中,第二物件標示模組14判斷對應於第3A圖中物件框302位置的不是物件,而未標示。這種情況下,訓練資料產生模組18可啟用手動輔助標示程序,例如於使用者介面彈出一對話框顯示第一物件標示模組12標示的物件框302及物件,以供使用者選擇物件框302中標示的是否確實為物件。
在一實施例中,當第一信心度、第二信心度及第三信心度皆過低(例如第一信心度、第二信心度及第三信心度皆低於閥值)時,訓練資料產生模組18可啟用手動輔助標示程序。在手動輔助標示程序中,可於使用者介面顯示一或多個物件候選者,以供使用者選擇各個物件候選者是否確實是物件。接著,訓練資料產生模組18會依據使用者的選擇將被選的物件製作成訓練資料Tdata。
請參照第1B圖,第1B圖繪示本發明另一實施例的物件標示系統的方塊圖。請同時參照第3D圖,以利理解。物件標示系統1b與物件標示系統1a類似,差異在於訓練資料產生模組18。
在本實施例中,訓練資料產生模組18包括一物件裁切程序182、一手動輔助標示程序184及一訓練資料轉換程序186,其中手動輔助標示程序184的啟用條件與細節與前文所述類似。
物件裁切程序182被執行時,訓練資料產生模組18可將第四物件標示結果LABEL4中所標示的物件裁切下來(如第3D圖所示,假設第四物件標示結果LABEL4相同於第三物件標示結果LABEL3),並依據物件類型進行分類。當訓練資料轉換程序186被執行時,訓練資料產生模組18可將裁切下來的物件框301~304所標示的物件傳送入類神經網路中進行分析,以得到相同物件類型的物件的共同特性、輪廓、參數或上述之組合,以產生訓練資料Tdata,而不同於物件標示系統1a。第一物件標示模組12在計算第一信心度時,會計算訓練資料Tdata中不同物件類型的物件所具有的特性、輪廓、參數或上述之組合與第一物件標示模組12內部辨識各個物件類型所用的特性、輪廓、參數或上述之組合之間的差異程度。而在學習時,第一物件標示模組12則可依據訓練資料Tdata調整或修正第一物件標示模組12內部辨識各個物件類型所用的特性、輪廓、參數或上述之組合。
值得一提的是,在一實施例中,上述的第一物件標示模組12、第二物件標示模組14、標示整合模組16及影格間追蹤模組19(選擇性地包括訓練資料產生模組18)可整合於同一裝置(例如監控中心的主電腦或自動駕駛車的行車電腦)中,通過連接於外部的二維攝影機及三維攝影機所提供的第一二維影像2Dimg1及三維資訊3Dinfo實行本方法。在另一實施例中,第一物件標示模組12可整合在二維攝影機中,第二物件標示模組14可整合在三維攝影機中,標示整合模組16及影格間追蹤模組19(選擇性地包括訓練資料產生模組18)則設置在一伺服器。在這個例子中,第一物件標示模組12(即二維攝影機)依據自身取得的第一二維影像2Dimg1產生第一標示結果LABEL1並傳送至伺服器;第二物件標示模組14(即三維攝影機)依據自身取得的三維資訊3Dinfo產生第二標示結果LABEL2並傳送至伺服器。伺服器中的標示整合模組16將第一標示結果LABEL1及第二標示結果LABEL2整合為第三物件標示結果LABEL3,影格間追蹤模組19依據第三物件標示結果LABEL3產生第四物件標示結果LABEL4,訓練資料產生模組18再依據第四物件標示結果LABEL4(或同時依據第三物件標示結果LABEL3及第四物件標示結果LABEL4)產生訓練資料Tdata。換言之,上述的各模組不僅可以軟體的形式實現,也能以硬體或韌體的形式實現。
由上述的多個實施例可知,物件標示系統及物件標示方法可藉由運用具有不同維度的第一二維影像2Dimg1及三維資訊3Dinfo作為第一物件標示模組12及第二物件標示模組14的輸入,獲得第一物件標示結果LABEL1及第二物件標示結果,接著將第一物件標示結果LABEL1及第二物件標示結果進行整合得到第三物件標示結果LABEL3,由影格間追蹤模組19依據第三物件標示結果LABEL3產生第四物件標示結果LABEL4,再由訓練資料產生模組18基於第四物件標示結果LABEL4產生訓練資料Tdata,以提供給第一物件標示模組12進行學習。由於第一二維影像2Dimg2與三維資訊3Dinfo所能提供的資訊不同,第一物件標示模組12與第二物件標示模組14有各自擅長辨認或不擅長辨認的環境或物件。藉由整合兩者提供的物件標示結果,便可達到取長補短的效果。不僅可提高標示的自動化程度,降低人工手動標示的比例,還能夠增加物件標示的準確度。此外,通過影格間追蹤模組19及影格間物件標示程序對影片中動態的物件進行追蹤及標示,而能夠針對第一物件標示模組12與第二物件標示模組14皆未標示出的物件進行追蹤及標示,進一步提升物件標示的準確度,減少需要人工輔助標示的情況。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
1a~1d‧‧‧物件標示系統
12‧‧‧第一物件標示模組
14‧‧‧第二物件標示模組
16‧‧‧標示整合模組
18‧‧‧訓練資料產生模組
19‧‧‧影格間追蹤模組
2Dimg1‧‧‧第一二維影像
3Dinfo‧‧‧三維資訊
LABEL1‧‧‧第一物件標示結果
LABEL2‧‧‧第二物件標示結果
LABEL3‧‧‧第三物件標示結果
LABEL4‧‧‧第四物件標示結果
Tdata‧‧‧訓練資料
S202~S208‧‧‧步驟
601~605‧‧‧物件框
O‧‧‧機車物件
第1A圖繪示依據本發明一實施例的物件標示系統的方塊圖; 第1B圖繪示依據本發明另一實施例的物件標示系統的方塊圖; 第2A圖繪示依據本發明一實施例的物件標示方法的流程圖; 第2B圖繪示依據本發明一實施例的影格間物件標示程序的流程圖; 第3A~3D圖繪示執行物件標示方法的示意圖;以及 第4A~4D圖繪示執行影格間物件標示程序的示意圖。

Claims (14)

  1. 一種物件標示系統,包括: 一第一物件標示模組,用以依據一第一二維影像產生一第一物件標示結果,其中該第一二維影像為一二維影片的複數個影格其中之一; 一第二物件標示模組,用以依據一三維資訊產生一第二二維影像,並依據該三維資訊及該第二二維影像產生一第二物件標示結果; 一標示整合模組,用以依據該第一物件標示結果及該第二物件標示結果產生一第三物件標示結果;以及 一影格間追蹤模組,用以依據該第三物件標示結果執行一影格間物件標示程序,以產生一第四物件標示結果。
  2. 如申請專利範圍第1項所述之物件標示系統,該物件標示系統更包括: 一訓練資料產生模組,用以依據該第三物件標示結果與該第四物件標示結果產生一訓練資料,並將該訓練資料輸入該第一物件標示模組。
  3. 如申請專利範圍第1項所述之物件標示系統,其中該影格間物件標示程序包括: 於該第三物件標示結果中找出至少一第一物件框;以及 依據一演算法於該第一二維影像的一前一影格或一後一影格中對應於各該至少一第一物件框的位置處以一特定比例標示一第二物件框,以產生該第四物件標示結果。
  4. 如申請專利範圍第1項所述之物件標示系統,其中該第一物件標示模組進一步依據該第一物件標示結果及一第一真實結果計算一第一信心度,該第二物件標示模組進一步依據該第二物件標示結果及一第二真實結果計算一第二信心度,該標示整合模組依據該第一信心度及該第二信心度決定一權重比例,並進一步依據該權重比例產生該第三物件標示結果。
  5. 如申請專利範圍第1項所述之物件標示系統,其中該第三物件標示結果為該第一物件標示結果及該第二物件標示結果的聯集。
  6. 如申請專利範圍第1項所述之物件標示系統,其中該訓練資料產生模組依據該第四物件標示結果及一第三信心度判斷是否啟用一手動輔助標示程序。
  7. 如申請專利範圍第1項所述之物件標示系統,其中該訓練資料產生模組係依據該第四物件標示結果產生用以描述該第四物件標示結果的一純文字文件,並連結該第四物件標示結果及該純文字文件作為該訓練資料,或者該訓練資料產生模組係將該第四物件標示結果中的一或多個物件框所標示的一或多個物件進行裁切及分類以作為該訓練資料。
  8. 一種物件標示方法,包括: 由一第一物件標示模組依據一第一二維影像產生一第一物件標示結果,其中該第一二維影像為一二維影片的複數個影格其中之一; 由一第二物件標示模組依據一三維資訊產生一第二二維影像,並依據該三維資訊及該第二二維影像產生一第二物件標示結果; 由一標示整合模組依據該第一物件標示結果及該第二物件標示結果產生一第三物件標示結果;以及 由一影格間追蹤模組依據該第三物件標示結果執行一影格間物件標示程序,以產生一第四物件標示結果。
  9. 如申請專利範圍第8項所述之物件標示方法,該物件標示方法更包括: 由一訓練資料產生模組依據該第三物件標示結果與該第四物件標示結果產生一訓練資料,並將該訓練資料輸入該第一物件標示模組。
  10. 如申請專利範圍第8項所述之物件標示方法,其中該影格間物件標示程序包括: 於該第三物件標示結果中找出至少一第一物件框;以及 依據一演算法於該第一二維影像的一前一影格或一後一影格中對應於各該至少一第一物件框的位置處以一特定比例標示一第二物件框,以產生該第四物件標示結果。
  11. 如申請專利範圍第8項所述之物件標示方法,其中該第一物件標示模組進一步依據該第一物件標示結果及一第一真實結果計算一第一信心度,該第二物件標示模組進一步依據該第二物件標示結果及一第二真實結果計算一第二信心度,該標示整合模組依據該第一信心度及該第二信心度決定一權重比例,並進一步依據該權重比例產生該第三物件標示結果。
  12. 如申請專利範圍第8項所述之物件標示方法,其中該第三物件標示結果為該第一物件標示結果及該第二物件標示結果的聯集。
  13. 如申請專利範圍第8項所述之物件標示方法,其中該訓練資料產生模組依據該第四物件標示結果及一第三信心度判斷是否啟用一手動輔助標示程序。
  14. 如申請專利範圍第8項所述之物件標示方法,其中該訓練資料產生模組係依據該第四物件標示結果產生用以描述該第四物件標示結果的一純文字文件,並連結該第四物件標示結果及該純文字文件作為該訓練資料,或者該訓練資料產生模組係將該第四物件標示結果中的一或多個物件框所標示的一或多個物件進行裁切及分類以作為該訓練資料。
TW107106279A 2018-02-26 2018-02-26 物件標示系統及方法 TWI666595B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW107106279A TWI666595B (zh) 2018-02-26 2018-02-26 物件標示系統及方法
CN201810263514.4A CN110197106A (zh) 2018-02-26 2018-03-28 物件标示系统及方法
US15/987,452 US10685263B2 (en) 2018-02-26 2018-05-23 System and method for object labeling
JP2018153246A JP6686080B2 (ja) 2018-02-26 2018-08-16 対象物標識のためのシステムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107106279A TWI666595B (zh) 2018-02-26 2018-02-26 物件標示系統及方法

Publications (2)

Publication Number Publication Date
TWI666595B TWI666595B (zh) 2019-07-21
TW201937405A true TW201937405A (zh) 2019-09-16

Family

ID=67684570

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107106279A TWI666595B (zh) 2018-02-26 2018-02-26 物件標示系統及方法

Country Status (4)

Country Link
US (1) US10685263B2 (zh)
JP (1) JP6686080B2 (zh)
CN (1) CN110197106A (zh)
TW (1) TWI666595B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100702B2 (en) 2019-12-27 2021-08-24 Industrial Technology Research Institute 3D image labeling method based on labeling information of 2D image and 3D image labeling device
TWI782806B (zh) * 2021-12-02 2022-11-01 財團法人國家實驗研究院 點雲算圖方法
TWI783572B (zh) * 2021-07-14 2022-11-11 信驊科技股份有限公司 物件追蹤方法及物件追蹤裝置
TWI830549B (zh) * 2022-12-22 2024-01-21 財團法人工業技術研究院 物件自動化標記方法及其系統
US12374134B2 (en) 2022-12-22 2025-07-29 Industrial Technology Research Institute Objects automatic labeling method and system applying the same

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11430312B2 (en) * 2018-07-05 2022-08-30 Movidius Limited Video surveillance with neural networks
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
CN111179318B (zh) * 2019-12-31 2022-07-12 浙江大学 基于双流法的复杂背景运动小目标检测方法
JP7516160B2 (ja) * 2020-08-12 2024-07-16 東芝テック株式会社 残留物検出システム、残留物検出装置及び残留物検出方法
US11610412B2 (en) * 2020-09-18 2023-03-21 Ford Global Technologies, Llc Vehicle neural network training
WO2023150468A1 (en) * 2022-02-03 2023-08-10 The Regents Of The University Of California Multi-module velocity selective labeling with improved stability and accuracy in imaging applications
CN117156221B (zh) * 2023-10-31 2024-02-06 北京头条易科技有限公司 一种短视频内容理解标注方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100355382B1 (ko) 2001-01-20 2002-10-12 삼성전자 주식회사 영상 시퀀스에서의 객체 레이블 영상 생성장치 및 그 방법
US7610191B2 (en) 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
TWI302879B (en) 2006-05-12 2008-11-11 Univ Nat Chiao Tung Real-time nighttime vehicle detection and recognition system based on computer vision
CN101431665B (zh) * 2007-11-08 2010-09-15 财团法人工业技术研究院 物件侦测与追踪的方法与系统
DE112009000485T5 (de) * 2008-03-03 2011-03-17 VideoIQ, Inc., Bedford Objektvergleich für Verfolgung, Indizierung und Suche
WO2010026170A1 (en) 2008-09-02 2010-03-11 Ecole Polytechnique Federale De Lausanne (Epfl) Image annotation on portable devices
TWI497449B (zh) 2012-12-26 2015-08-21 Ind Tech Res Inst 非監督式調適方法與應用其之影像自動分類方法
US9384213B2 (en) 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
CN103559237B (zh) 2013-10-25 2017-02-15 南京大学 基于目标跟踪的半自动图像标注样本生成方法
CN104735296B (zh) * 2013-12-19 2018-04-24 财团法人资讯工业策进会 行人侦测系统与方法
JP2015142181A (ja) * 2014-01-27 2015-08-03 キヤノン株式会社 制御装置、制御方法
US9158971B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US9476730B2 (en) 2014-03-18 2016-10-25 Sri International Real-time system for multi-modal 3D geospatial mapping, object recognition, scene annotation and analytics
US9195912B1 (en) * 2014-07-24 2015-11-24 National Taipei University Of Technology Face annotation method and a face annotation system
JP6407626B2 (ja) 2014-08-26 2018-10-17 日立オートモティブシステムズ株式会社 物体認識装置及び車両制御システム
CN104317912B (zh) 2014-10-28 2017-07-25 华中师范大学 基于邻域与距离度量学习的图像语义自动标注方法
JP6530811B2 (ja) * 2015-05-14 2019-06-12 オリンパス株式会社 画像処理装置
CN105631479B (zh) 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
US9904867B2 (en) * 2016-01-29 2018-02-27 Pointivo, Inc. Systems and methods for extracting information about objects from scene information
WO2018077401A1 (en) * 2016-10-26 2018-05-03 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN107133569B (zh) * 2017-04-06 2020-06-16 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN107463918B (zh) * 2017-08-17 2020-04-24 武汉大学 基于激光点云与影像数据融合的车道线提取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100702B2 (en) 2019-12-27 2021-08-24 Industrial Technology Research Institute 3D image labeling method based on labeling information of 2D image and 3D image labeling device
TWI739268B (zh) * 2019-12-27 2021-09-11 財團法人工業技術研究院 基於2d影像標記資訊的3d影像標記方法及3d影像標記裝置
TWI783572B (zh) * 2021-07-14 2022-11-11 信驊科技股份有限公司 物件追蹤方法及物件追蹤裝置
TWI782806B (zh) * 2021-12-02 2022-11-01 財團法人國家實驗研究院 點雲算圖方法
TWI830549B (zh) * 2022-12-22 2024-01-21 財團法人工業技術研究院 物件自動化標記方法及其系統
US12374134B2 (en) 2022-12-22 2025-07-29 Industrial Technology Research Institute Objects automatic labeling method and system applying the same

Also Published As

Publication number Publication date
JP6686080B2 (ja) 2020-04-22
US20190266439A1 (en) 2019-08-29
US10685263B2 (en) 2020-06-16
CN110197106A (zh) 2019-09-03
TWI666595B (zh) 2019-07-21
JP2019149142A (ja) 2019-09-05

Similar Documents

Publication Publication Date Title
TWI666595B (zh) 物件標示系統及方法
Garnett et al. Real-time category-based and general obstacle detection for autonomous driving
Keller et al. A new benchmark for stereo-based pedestrian detection
WO2020052540A1 (zh) 对象标注方法、移动控制方法、装置、设备及存储介质
Saleh et al. Cyclist detection in lidar scans using faster r-cnn and synthetic depth images
CN111191611B (zh) 基于深度学习的交通标志标号识别方法
EP3620945B1 (en) Obstacle distribution simulation method, device and terminal based on multiple models
JP2016062610A (ja) 特徴モデル生成方法及び特徴モデル生成装置
CN111091038A (zh) 训练方法、计算机可读介质和检测消失点的方法及装置
CN106919895A (zh) 用于运动目标的跟踪方法和系统
CN111274862B (zh) 用于产生车辆的周围环境的标签对象的设备和方法
TWI726278B (zh) 行車偵測方法、車輛及行車處理裝置
CN114549542A (zh) 视觉语义分割方法、装置及设备
CN104915642B (zh) 前方车辆测距方法及装置
CN116052120A (zh) 基于图像增强和多传感器融合的挖掘机夜间物体检测方法
US20210312227A1 (en) System and method for detecting annotation errors
Quach et al. Real-time lane marker detection using template matching with RGB-D camera
Rashed et al. Bev-modnet: Monocular camera based bird's eye view moving object detection for autonomous driving
CN112819953A (zh) 三维重建方法、网络模型训练方法、装置及电子设备
Xia et al. Vehicles overtaking detection using RGB-D data
Gökçe et al. Recognition of dynamic objects from UGVs using interconnected neuralnetwork-based computer vision system
Mukhopadhyay et al. Performance comparison of different cnn models for indian road dataset
CN116386003A (zh) 基于知识蒸馏的三维目标检测方法
Cela et al. Lanes detection based on unsupervised and adaptive classifier
WO2022247628A1 (zh) 一种数据标注方法及相关产品