[go: up one dir, main page]

TWI809410B - 物體偵測方法及其卷積神經網路 - Google Patents

物體偵測方法及其卷積神經網路 Download PDF

Info

Publication number
TWI809410B
TWI809410B TW110120218A TW110120218A TWI809410B TW I809410 B TWI809410 B TW I809410B TW 110120218 A TW110120218 A TW 110120218A TW 110120218 A TW110120218 A TW 110120218A TW I809410 B TWI809410 B TW I809410B
Authority
TW
Taiwan
Prior art keywords
feature map
feature
subgroup
subgroups
feature maps
Prior art date
Application number
TW110120218A
Other languages
English (en)
Other versions
TW202147247A (zh
Inventor
葉肇元
周文堅
楊証琨
Original Assignee
雲象科技股份有限公司
國立臺灣大學醫學院附設醫院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 雲象科技股份有限公司, 國立臺灣大學醫學院附設醫院 filed Critical 雲象科技股份有限公司
Publication of TW202147247A publication Critical patent/TW202147247A/zh
Application granted granted Critical
Publication of TWI809410B publication Critical patent/TWI809410B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

特此揭露者係一種物體偵測方法及卷積神經網路。本方法係藉由CNN之分層結構執行,並包含經由骨幹及另外兩組特徵圖自輸入影像擷取擴充特徵圖組、利用以IOU為基礎之採樣法藉由建議窗口採樣分類器識別正負樣本成為前景和背景之建議窗口、藉由區域建議窗口組件將建議窗口映射於擴充特徵圖組上之區域、以ROI對準法為基礎,將區域加以池化至固定尺寸之特徵圖、將固定尺寸之特徵圖加以融合,並且將經融合之特徵圖扁平化以藉由物體分類及框回歸之ROI對準器產出ROI特徵向量。由於擴充特徵圖組中經擷取之特徵範圍涉及空間特徵豐富者,亦涉及語義特徵豐富者,從而在物體分類及框回歸方面取得了表現上之增強。

Description

物體偵測方法及其卷積神經網路
本件發明係有關於物體偵測之方法及神經網路,且更特定言之,係有關於利用卷積神經網路(CNN)之物體偵測方法及具備物體偵測增強分層特徵擷取結構之卷積神經網路。
物體偵測技術之採行可供多元之應用,包括視訊監控、自動駕駛、交通運輸、醫學影像分析、生活等領域。如何以無人看管之機器識別與分類影像中之物體似乎成為一項挑戰。歸功於尖端人工智慧(AI)技術,物體偵測及分類得以前所未能之方式實現。
邇來涉及諸如區域卷積神經網路(R-CNN)、快速區域卷積神經網路(Fast R-CNN)、提速區域卷積神經網路(Faster R-CNN)、遮罩區域卷積神經網路(Mask R-CNN)等卷積神經網路(CNN)之AI技術已接連推出,其持續增強物體偵測之程度達到影像中之各個物體可由圍繞該物體之邊框包覆,以信心分數或概率預測其類別,並於若干情形下,例如遮罩區域卷積神經網路之情形,於其上以符合物體輪廓之形狀遮蔽之。即便因該等AI技術所衍生之物體偵測技術的進步,對於物體偵測於分類準確度及錨框回 歸(anchor box regression)方面持續追求更佳表現,似已成為一種趨勢,尤以諸如自動駕駛及利用AI解讀醫學影像等若干領域為然,因為它們得以迅速決定道路與駕駛人之情形,以及人體組織與器官之狀況。然而,由於物體偵測結果一旦出了任何差池可能造成潛在之致命危險,物體偵測結果之精準性乃成敗關鍵之所在,且應隨著新技術而進化。
本件發明之目標之一,係提供能夠自輸入影像擷取特徵之偵測方法及卷積神經網路(CNN),該等特徵範圍廣泛,包括空間特徵(spatial features)及語義特徵(semantic features)等,以增強建議窗口(proposal)之物體分類及框回歸(box regression)之準確度,而不問其體積大小。
為達前述目標,利用卷積神經網路(CNN)之物體偵測方法包含以下:透過特徵擷取器(feature extractor)自輸入影像中擷取一組第一特徵圖(feature map),且該組第一特徵圖為多尺寸;自該組第一特徵圖傳遞特徵,以藉由將該組第一特徵圖、一組第二特徵圖及一組擴充特徵圖之相對應部分進行尺寸調整(scaling)及相加(adding)之方式,經由該組第二特徵圖產出該組擴充特徵圖,其中該組第二特徵圖及該組擴充特徵圖為多尺寸,且與該組第一特徵圖之寬度及高度一致;分類及調整包圍該輸入影像中至少一個真正物體之多個錨框之各錨框以產出前景之相對應建議窗口或分類出該輸入影像中未包覆任何真正物體之各錨框以產出背景之相對應建議窗口,並藉由區域建議窗口 組件將相對應前景之各建議窗口映射於該組擴充特徵圖之各個特徵圖上之區域;及自該輸入影像之各個建議窗口取得該組擴充特徵圖中的各個特徵圖上之區域,將該區域池化(pooling)為固定尺寸之特徵圖,將該固定尺寸之特徵圖扁平化(flattening)以產出ROI(感興趣區域)特徵向量(vector),並且將自該組擴充特徵圖所產出之該ROI特徵向量加以融合(fusing),以藉由物體分類及錨框回歸之ROI對準器(ROI aligner)產出經融合之ROI向量。
前述物體偵測方法自該輸入影像中擷取特徵以產出該組第一特徵圖,並將特徵經由該組第二特徵圖傳遞至該組擴充特徵圖,以確保該組擴充特徵圖含有自該組第一特徵圖所傳遞之空間特徵及語義特徵之組合。在該組擴充特徵圖不同部分之該等空間特徵及語義特徵之組合,增強了物體偵測及框回歸之表現。該組擴充特徵圖中體積較小部分之區域亦可擁有充足之空間特徵,而該組擴充特徵圖中體積較大之區域亦得擁有充足之語義特徵。同時值得注意者,將空間特徵及語義特徵傳遞至該組擴充特徵圖僅需進行尺寸調整作業與相加法,使得完成特徵擷取之工作更為單純且具成本效益。該方法然後以ROI對準法為基礎,將自輸入影像之多個建議窗口之一所取得之該組擴充特徵圖中各個特徵圖上之區域加以池化,以產出不存在未對齊之固定尺寸特徵圖,而通常其他ROI持化法皆有此問題。該方法更進一步將自該組擴充特徵圖所產出之固定尺寸特徵圖扁平化以產出ROI特徵向量,並且融合該ROI特徵向量以產出用於物體分類及框回歸之經融合之ROI向量。由於其流程賦予該組擴充特徵圖多元之特徵且精確地將該 組擴充特徵圖中之特徵轉換為最終階段之物體分類及框回歸所需要之經扁平化的ROI特徵向量,該方法重大改良了物體分類及框回歸之表現。
為達前述目標,物體偵測之CNN包含特徵擷取器、一個區域建議窗口組件及ROI(感興趣區域)對準器。
該特徵擷取器是接收輸入影像並產出數組特徵圖的骨幹(backbone)
該等數組特徵圖包括含有相同數目次組(sub-gorup)之一組第一特徵圖、一組第二特徵圖及一組擴充特徵圖。各組特徵圖乃多尺寸,且多組特徵圖中相對應之次組特徵圖於尺寸上相等。來自於該組第一特徵圖之特徵由特徵擷取器所傳遞,而藉由該組第二特徵圖將第一特徵圖、第二特徵圖及擴充特徵圖之相對應次組進行尺寸調整及相加以產出該組擴充特徵圖。
該區域建議窗口組件分類及調整包圍該輸入影像中至少一個真正物體之各個錨框以產出前景之相對應建議窗口或分類出該輸入影像中未包圍任何真正物體之錨框以產出背景之相對應建議窗口,並將相對應前景之建議窗口映射於該組擴充特徵圖之各個特徵圖上之區域。
ROI對準器將自該輸入影像之多個建議窗口之一所映射(map)取得之該組擴充特徵圖中各個特徵圖上之區域加以池化,以產出固定尺寸特徵圖,將該固定尺寸之特徵圖扁平化以產出ROI特徵向量,並且將自該組擴充特徵圖所產出之該ROI特徵向量融合,以產出物體分類及錨框回歸之經融合之ROI向量。
依據前述之CNN分層架構,包括空間特徵及語義特徵在內 之多元特徵得由特徵擷取器自輸入影像中擷取並自該組第一及該組第二特徵圖傳遞至該組擴充特徵圖。CNN及前述之方法皆具備該等將各個擴充特徵圖之次組中之空間特徵及語義特徵進行組合之優點,並且於增強特徵擷取時採用升採樣(up-sampling)、降採樣(down-sampling)及相加法(addition)。再者,ROI對準器藉由ROI對齊法以及扁平化與融合作業單純完成將自該輸入影像之多個建議窗口之一所取得之該組擴充特徵圖中各個特徵圖上之區域準確轉換為經融合之ROI向量。同樣地,由於分層架構得以將多元化之特徵提供與該組擴充特徵圖,且準確地將該組擴充特徵圖之特徵轉換為最終階段之物體分類及框回歸所需要之經扁平化的ROI特徵向量,該方法重大改良了物體分類及框回歸之表現。
本發明之其他目標、優點及新穎特徵可自下列詳細說明配合其附隨之圖式明顯窺知。
10:徵擷取器
20:區域建議窗口組件
30:建議窗口採樣分類器
40:ROI對準器
50:分類與回歸組件
90:輸入影像
圖一係顯示依據本發明經CNN訓練之正向傳遞之示意圖;圖二係經註記大小之圖一CNN之示意圖;圖三係顯示依據本發明於CNN訓練特徵之擷取階段升採樣之示意圖;圖四係顯示依據本發明於CNN訓練特徵之擷取階段降採樣之示意圖;圖五係顯示依據本發明自第一特徵圖組移轉至擴充特徵圖組中特徵之曲線圖;圖六係顯示依本發明所採樣之不易分辨之負建議窗口與隨 機採樣之長條圖;圖七係顯示依據本發明之物體偵測方法之流程圖;圖八係顯示圖七所示方法之特徵擷取步驟之流程圖;及圖九係顯示圖七所示方法之建議窗口採樣步驟之流程圖。
下列說明中所使用之詞彙意欲依其最廣義合理之意義解釋之,縱使其係與若干特定之技術實施方式同時使用者,亦然。下文若干詞彙甚至可能予以強調,但意欲嚴格解釋之詞彙於本詳細說明章節中將特別依此定義。
下文介紹之實施方式得由經軟體及/或韌體設計程式或配置之可程式化電路系統實施,或可完全由專門用途電路系統實施,亦可以該等方式之組合實施之。該等專門用途電路系統(若存在時)得包括諸如一個(含)以上之特殊應用積體電路(ASICs)、可程式化邏輯裝置(PLDs)、場域可程式化邏輯閘陣列(FPGAs)、圖形處理器(GPUs)等形式。
前述之實施方式係關於一個(含)以上之儲存用以訓練卷積神經網路以實行物體偵測與實例切割(instance segmentation)之處理器可執行處理步驟之方法、系統、裝置及電腦可判讀媒介。關於實施方式,於訓練卷積神經網路(CNN)之正向傳遞(forward propagation)的過程中,該CNN接收影像、產出一組擴充特徵圖、於擴充特徵圖組上與影像上之建議窗口或ROI(感興趣區域)相對應之特徵圖上之區域加以池化成為固定尺寸之特徵圖、將固定尺寸之特徵圖扁平化成為ROI特徵向量、將該組擴充特徵圖之該ROI特徵向量融合以產出物體分類及錨框回歸之經融合ROI向量。於訓練 CNN之反向傳遞(backpropagation)過程中,應用定位損失法(localization loss scheme)作為處理目標階段之失衡問題的手段,其作法為抑制由被認為係不易辨識樣本(hard samples)之異常值(outliers)所造成之回歸梯度(regression gradient),並且增加被認為係簡單樣本(easy samples)之正常值(inliers)所造成之回歸梯度。
請注意下列說明中之「尺寸」一詞係指輸入影像或多個特徵圖之寬度x高度x管道(channel),且「管道」一詞係指與輸入影像相關或一組或次組特徵圖中之特徵圖的深度或數目。為求說明上之簡明,就升採樣、降採樣及ROI對齊僅提及寬度與高度,因為管道保持不變。
依據前述說明,我們對於訓練CNN方面看來聚焦於兩個類型,亦即正向傳遞(forward propagation)與反向傳遞(backpropagation)。前一類型著眼於增強對有助於預測訓練影像之物體有關之類別與錨框之較高準確性的整體特徵擷取分層架構之定位能力(localization capability)。後一類型之目的在於增進作為正常值梯度增加結果之回歸梯度。
完成前述目的之實行方法詳述如下。
為達正向傳遞之目的,關於架構方面,參照圖一所示,CNN包含特徵擷取器10、區域建議窗口組件20、建議窗口採樣分類器(proposal-sampling classifier)30、ROI對準器40,以及分類與回歸組件50,皆安排於CNN之不同階段。特徵擷取器10置於特徵擷取階段S1且為骨幹。特徵擷取器10包含彼此互相疊接(cascaded)之多個卷積層(篩選層(filters)),接收輸入影像90,並且自該輸入影像90擷取特徵以產出數組特徵圖。於實施方式之一當中,特徵擷取器10為深度101層之Resnext 101,且可將該輸入影 像90分類為多個物體類型。該等多組特徵圖包括一組第一特徵圖、一組第二特徵圖及一組擴充特徵圖,且該三組特徵圖皆包含相等數目之次組特徵圖。第一特徵圖之次組以A1~A4表示,第二特徵圖之次組以B1~B4表示,而擴充特徵圖之次組分別以C1~C4表示,分別依順序按正向傳遞之方向安排置於第一路徑P1、第二路徑P2及第三路徑P3。各組特徵圖中之次組數目包括但不限於圖一所示之四組。不過,各組及次組之數目得依據CNN之設計需求而配置。第一特徵圖之各次組A1~A4由該特徵擷取器10依順序產出,並按照尺寸分組,第一特徵圖之各組A1~A4中之全部特徵圖於其管道中之寬度及高度皆一致。第一特徵圖之各次組A1~A4於第一路徑當中尺寸逐組遞減。一般言之,第一特徵圖之各次組A1~A4基於空間池化(spatial pooling)之結果,其體積愈小,則其擁有之語義特徵愈多、空間特徵愈少;且第一特徵圖之各次組A1~A4體積愈大,則其擁有之語義特徵愈少、空間特徵愈多。例如,A4乃第一特徵圖之各次組當中最小者,其擁有最多之語義特徵及最少之空間特徵,而A1係第一特徵圖之各次組當中最大者,其擁有最少之語義特徵及最多之空間特徵。如圖二所示,其所顯示者為尺寸表示之非限定例子。第一特徵圖之三個次組A2、A3及A4與第一特徵圖之三個次組A1、A2及A3分別為其尺寸上之一半。第一特徵圖之各次組及第二特徵圖與擴充特徵圖之各相應次組,例如,A1、B1及C1,於寬度及高度上皆一致。第二及擴充特徵圖相應次組B1及C1,於管道上一致,但與第一特徵圖之次組A1於管道上不同。
鑒於考量自第一特徵圖之次組A1~A4轉移至第二特徵圖之次組B1~B4與擴充特徵圖之次組C1~C4之管道縮減,1x1之卷積(1x1 convolution)可適用於第一特徵圖之次組A1~A4之各個次組以產出一組縮減第一特徵圖,其具有多個次組A1’~A4’,分別與第一特徵圖對應次組A1~A4之寬度及高度一致。不過,縮減第一特徵圖之次組之全部次組A1’~A4’擁有選自第一特徵圖之次組A1~A4中之最小管道,此與第二特徵圖之次組B1~B4及擴充特徵圖之次組C1~C4相同。於其產出後,縮減第一特徵圖之各個次組A1’~A4’傳遞至第二路徑P2。在第二路徑P2中最先位置之第二特徵圖之次組B4,其事實上為A4’,相對於縮減第一特徵圖之其他次組A1’~A3’而言尺寸為最小。在第二路徑P2中最後位置之第二特徵圖之次組B1除外,其餘之各個第二特徵圖之次組B4、B3、B2皆進行升採樣以符合縮減第一特徵圖之次組A3’、A2’、A1’之尺寸且加入其中以隨後於第二路徑P2產出第二特徵圖之次組B3、B2、B1,而A3’、A2’、A1’於尺寸上大於且最接近第二特徵圖之次組B4、B3、B2。關於顯示升採樣及相加法運算細節之圖三,第二特徵圖之次組Bi+1進行升採樣以符合縮減第一特徵圖之次組Ai’,而Ai’於尺寸上大於且最接近Bi+1,並且加入縮減第一特徵圖之次組Ai’以隨後產出第二特徵圖之次組Bi。於其產出後,在第二路徑P2中最後位置之第二特徵圖之次組B1傳遞至第三路徑P3,而在第三路徑P3最先位置之擴充特徵圖之次組C1初始化(initialized)為第二路徑P2中最後位置之第二特徵圖之次組B1。在第三路徑P3中最後位置之擴充特徵圖之次組C4除外,其餘之各個擴充特徵圖之次組C1、C2、C3皆進行降採樣以符合第二特徵圖之次組B2、B3、B4之尺寸,並加入其中以隨後於第三路徑P3產出擴充特徵圖之次組C2、C3、C4,而B2、B3、B4於尺寸上小於且最接近C1、C2、C3。關於顯示降採樣和相加法運算細節之圖四,擴充特徵圖之次組Ci進行降採樣以便與第二特徵 圖之次組Bi+1在尺寸上一致,並且加入第二特徵圖之次組Bi+1以隨後產出擴充特徵圖之次組Ci+1,而Bi+1於尺寸上小於且最接近Ci。
該特徵擷取器10進行卷積運算後,擁有最小尺寸之第一特徵圖之次組A4最後產出。由於卷積效應之故,諸如邊緣、點等存在於第一特徵圖之次組A1~A4之低階空間特徵逐漸隨著第一特徵圖之次組A1~A4之尺寸變小而減少數量。反之,諸如形狀等存在於第一特徵圖之次組A1~A4之高階語義特徵逐漸隨著第一特徵圖之次組A1~A4之尺寸變大而增加數量。提及尺寸縮減,如圖二所示,第一特徵圖之次組A2~A4得為在其前之第一特徵圖之次組A1~A3之尺寸的二分之一,但不以此為限。設若吾人以在第一路徑P1中最後位置之第一特徵圖之次組A4為例。第一特徵圖之次組A4較其餘第一特徵圖之次組A1~A3擁有最稀少之空間特徵。另一方面,A4相較其餘第一特徵圖之次組A1~A3而言,在語義特徵方面擁有優勢。作為最缺乏空間特徵者,若以物體分類及框回歸而言,處於最後位置之第一特徵圖之次組A4較諸其餘第一特徵圖之次組A1~A3,更可能造成實例切割上之較高定位誤差與不符合要求之物體分類結果。為處理該問題,在第一特徵圖之次組A1~A4之外,第二特徵圖之次組B1~B4及擴充特徵圖之次組C1~C4亦加以利用,俾使全部之擴充特徵圖之次組C1~C4皆有充足之低階空間特徵及高階語義特徵。就技術上而言,由於並無涉及1x1卷積、升採樣、降採樣及相加法以外之深層卷積(deep-layer convolution),於產出第二特徵圖之次組B1~B4及擴充特徵圖之次組C1~C4之際僅有微小之運算負擔(computational overhead)。由於升採樣和相加法涉及第二路徑P2,第二特徵圖之次組B3係以來自於第一特徵圖之次組A3及相當於第一特徵圖之次組 A4之第二特徵圖之次組B4之特徵為基礎所產出。相似地,第二特徵圖之次組B2係以來自於第一特徵圖之次組A2、A3、A4之特徵為基礎所產出,而第二特徵圖之次組B1係以來自於第一特徵圖之次組A1~A4之特徵為基礎所產出。由於降採樣和相加法涉及第三路徑P3,擴充特徵圖之次組C2係以其特徵來自於第一特徵圖之次組A2、A3、A4及擴充特徵圖之次組C1之第二特徵圖之次組B2之特徵為基礎所產出。擴充特徵圖之次組C1又相當於第二特徵圖之次組B1,而B1之特徵來自於第一特徵圖之次組A1~A4。整體而言,擴充特徵圖之次組C2係以來自於全部第一特徵圖之次組A1~A4之特徵為基礎所產出。相似地,擴充特徵圖之次組C3、C4皆係以來自於全部第一特徵圖之次組A1~A4之特徵為基礎所產出。儘管擴充特徵圖各個次組C1~C4係自第一特徵圖之次組A1~A4取得特徵,其所含之特徵可能由於降採樣及升採樣後之特徵重新排列而彼此相異。關於圖五,橫軸所示之次組1~4分別與擴充特徵組四個次組C1~C4相對應,而縱軸所示之百分率(%)代表擴充特徵組各個次組C1~C4之特徵係來自於第一特徵圖各個次組A1~A4之特徵百分率。以訓練數據為基礎所產出之圖五所意欲表達者,乃擴充特徵圖各個次組C1~C4之特徵係擷取自全部第一特徵圖之次組A1~A4之特徵的組合。該特徵擷取器10確保擴充特徵組各個次組C1~C4取得來自於第一特徵圖之次組A1~A4所分布之特徵,亦即,就擴充特徵組各個次組C1~C4而言,除其所含之語義特徵以外,尚有擷取自第一特徵圖之次組之豐富空間特徵,例如A1,得用以補足C1~C4中所含之較大物體之特徵,且除其所含之空間特徵以外,尚有擷取自第一特徵圖之次組之豐富語義特徵,例如A4,得用以補足C1~C4中所含之較小物體之特徵。
建議窗口採樣階段S2之該區域建議窗口組件20係用於將輸入該影像90上之各個錨框映射於擴充特徵組各個次組C1~C4之特徵圖上相對應之區域,分類錨框係與前景或背景相關,並且調整錨框俾於輸入該影像90上產出建議窗口(ROI)。該區域建議窗口組件20分類至少一件由多個錨框所框住之真正物體(ground-truth object),於認定真正物體包含於相對應之錨框時作為前景,或於認定相對應之錨框內不含任何物體時作為背景。於實施方式之一當中,該至少一件真正物體包括一件真正物體,其可為一個人、一個動物或一輛車。於另一個實施方式當中,該輸入影像90之骨髓抹片的每次觀察中的至少有一件真正物體包括多個真正物體。該等多個真正物體的每個皆分類為14種細胞,亦即芽細胞(blast)、前髓細胞(promyelocyte)、髓細胞(myelocyte)、中髓細胞(metamyelocyte)、多形核細胞(polymorphonuclear(PMN)cell)、嗜酸性粒細胞與前體(eosinophil-and-precursor)、嗜鹼性粒細胞(basophil)、單核細胞與前體(monocyte-and-precursor)、淋巴細胞(lymphocyte)、漿細胞(plasma-cell)、類紅細胞(erythroid cell)、組織細胞(histiocyte)、有絲分裂細胞(mitotic cell)及其他細胞。就診斷之目的而言,輸入影像需要具有至少500個細胞,計入有絲分裂細胞及其他細胞以外之全部14種細胞。利用14種細胞模型之骨髓檢查足以進行骨髓樣本之基本病理分析。為進行與特定骨髓異常疾病相關聯之骨髓進階病理分析,則骨髓抹片之輸入影像中之多個真正物體中的每個皆需要分類為33種細胞,亦即芽細胞、前髓細胞、髓細胞、中髓細胞、嗜中性帶狀細胞(neutrophilic-band)、節狀嗜中性球細胞(segmented-neutrophil)、嗜酸性粒細胞與前體、嗜鹼性粒細胞、奧爾氏桿細胞(cell with Auer rods)、 增生不良顆粒球(dysplastic-granulocyte)、單核細胞與前體、成熟淋巴細胞(mature-lymphocyte)、非典型淋巴細胞(atypical-lymphocyte)、漿細胞、髮樣細胞(hairy cell)、前紅血球芽球(proerythroblast)、嗜鹼性紅血球芽球(basophilic-erythroblast)、多色性紅血球芽球(polychromatophilic-erythroblast)、正色性紅血球芽球(orthochromatic-erythroblast)、增生不良紅血球芽球(dysplastic-erythroblast)、組織細胞、肥大細胞(mast cell)、巨核細胞前體(megakaryocyte-precursor)、成熟巨核細胞(mature-megakaryocyte)、增生不良巨核細胞(dysplastic-megakaryocyte)、有絲分裂細胞、成骨細胞(osteoblast)、破骨細胞(osteoclast)、纖維母細胞(fibroblast)、巨核吞噬淋巴球(megakaryocytic emperipolesis)、嗜血細胞(hemophagocytic cell)、遠端轉移腫瘤細胞(metastatic-tumor cell)及無效細胞(invalid cell)。就診斷之目的而言,於應用33種細胞模型時,輸入影像需要具有至少500個細胞,計入肥大細胞、奧爾氏桿細胞、巨核細胞前體、成熟巨核細胞、增生不良巨核細胞、有絲分裂細胞、成骨細胞、破骨細胞、纖維母細胞、巨核吞噬淋巴球、嗜血細胞、遠端轉移腫瘤細胞及無效細胞以外之全部33種細胞。為供參考,14種細胞模型中之其他細胞與33種細胞模型中之下列各種細胞相對應:肥大細胞、奧爾氏桿細胞、巨核細胞前體、成熟巨核細胞、增生不良巨核細胞、有絲分裂細胞、成骨細胞、破骨細胞、纖維母細胞、巨核吞噬淋巴球、嗜血細胞、遠端轉移腫瘤細胞及無效細胞。無效細胞本質上為血球,但因畸形或不良染色效果(indecent staining effect)而無法分類。因此,無效細胞類型包括破碎細胞(smudge cell)、抹片品質不佳細胞與不明原因。
關於傳統技術且與本發明主題無關者,本文中不進一步詳述該區域建議窗口組件20。
作為建議窗口採樣之補強角色,該建議窗口採樣分類器30乃為消除採用隨機採樣方法時採樣太多容易之負建議窗口樣本作為背景的問題。為達該目的,其因此提供有效之採樣方法比隨機採樣對於不易辨識的負建議窗口進行更多採樣,協助該區域建議窗口組件20之工作。一般而言,不易辨識的負建議窗口係因錨框或樣本與相對應之真正物體之間的細微重疊程度所引起,使得樣本難以被判斷係負建議窗口或背景建議窗口。亦稱為雅卡爾指數(Jaccard index)之並交比(Intersection over Union(IOU))係通常用以測量兩個區域之重疊程度的評估基準。經預估,實際上超過60%之不易辨識的負樣本具有0.05以上之IOU值,而隨機採樣對於不易辨識的負樣本所能達到者僅30%。尤其是,隨機採樣傾向於對於過多之負樣本以IOU值零進行採樣。吾人之所以強調不易辨識的負建議窗口之原因,乃因一般而言負樣本在數目上壓過正建議窗口。因此,如何識別各種負樣本對於準確之物體分類而言似成為至關緊要之事。作為對策,該區域建議窗口組件20使用以IOU為基礎之採樣方法,並且在多個相等切割且可配置之採樣間隔之各間隔內均衡採樣可配置數目的錨框作為背景的建議窗口,該等採樣的錨框與相對應之真正物體以對應IOU值重疊,而該等IOU值落於一負IOU範圍內,該負IOU範圍大於或等於零且小於作為一負IOU閾值(threshold)。於實施方式之一當中,負IOU閾值為0.3。相對於由隨機採樣法所選出之各個負樣本p之概率,p=N/M,其中N為負樣本的數目而M為樣本的總數目,該區域建議窗口組件20於採樣間隔l所選出之各個負樣本P l之概率得定義如 下:
Figure 110120218-A0305-02-0017-1
其中L為從負IOU範圍內相等切割之採樣間隔的數目;Ni為從採樣間隔l要求之負樣本的數目;Ml為採樣間隔l中之負樣本的總數目。
以IOU為基礎之採樣原理在於自負IOU範圍內之相等切割且更細微之間隔中強制選出固定數目之建議窗口,以保證自整個負IOU範圍當中進行平均與廣泛之採樣。關於圖六,以隨機採樣所進行之實驗採樣結果及表示實際負樣本分布之不易辨識的負採樣列入其中,俾與本發明所處理之以IOU為基礎之採樣結果比較。然而,圖六所示僅為例證,而非限定。於吾人訓練的實施方式之一當中,負IOU範圍設定為大於或等於零且小於0.3,設L為10,且採樣間隔0~9分別相當於0~0.03、0.03~0.06、0.09~0.12...及0.27~0.3。為有助於理解方程式(1),舉例如下:M0為採樣間隔0,即0~0.03,當中之建議窗口總數目,而P0為採樣間隔0當中所選出之各個負建議窗口之概率。如圖六所示,以IOU為基礎之採樣在識別不易辨識的負建議窗口方面之表現接近於典型不易辨識的負採樣之表現,從而降低由隨機採樣以IOU值零所採樣之過多簡單負建議窗口。基於提高欲偵測之不易辨識的負建議窗口之數目所涉及之複雜度與精力耗費較低,由該建議窗口採樣分類器30所提供之以IOU為基礎之採樣乃對於日後之物體偵測有利且具成本效益的方法。然而,除已介紹之一般性IOU演算法之外,諸如Dice係數(Dice coefficient)演算法等能夠實現與一般性IOU演算法相同功能之任何其他選項 亦可利用。
在一併考慮負樣本與正樣本之平衡採樣的前提上,理想上,該建議窗口採樣分類器30亦可將正樣本之採樣納入考慮。由於通常於訓練影像中並無太多之真正物體,正樣本之數目可能不如以前述負樣本之採樣所獲取之數目充足。不過,對於正樣本之採樣係使用不同之方法,該建議窗口採樣分類器30對於與該至少一件真正物體之各物體採樣與其以一IOU值重疊之相等數目的多個錨框作為前景建議窗口,該IOU值大於一正IOU閾值且小於或等於1。於實施方式之一當中,正IOU閾值為0.7。正負樣本之平衡採樣確保了使原本於隨機採樣當中對於應作為背景建議窗口之前景建議窗口或相反辨識之錯誤分類機率大為降低。需要了解的是該建議窗口採樣分類器30僅專用於訓練。於CNN之訓練結束且預測模型產生後,該建議窗口採樣分類器30即不再作為CNN之一部分。
再進一步論及圖一,位於ROI對準階段S3之ROI對準器40包括多個ROI對準層41、多個完全連接之ROI層42及一個融合層43。該等ROI對準層41及該等多個完全連接之ROI層42於數目上與擴充特徵圖之次組C1~C4相符。例如,當有四個擴充特徵圖之次組C1~C4,該等多個ROI對準層41包含四個ROI對準層41且該等多個完全連接之ROI層42包含四個完全連接之ROI層42。多個ROI對準層41當中之每個實質上皆係池化層,其於經該區域建議窗口組件20於建議窗口採樣階段S2自該輸入影像90所取得之各個建議窗口相對應之擴充特徵圖之次組C1~C4之特徵圖上的區域執行池化作業。於實施方式之一當中,池化作業為最大池化(max pooling)。與ROI池化不同之處,ROI對準層41執行數據池化時未使用量化(quantization),而是 使用浮點算法(floating-point arithmetic)。自然地,擴充特徵圖之次組C1~C4中之特徵圖係以格網(grid)之形式出現,其特徵之值,例如顏色,位於格網之對應小區(cells)、其角落之行列以整數表示之。不過,該輸入影像90上之建議窗口座標係以浮點數表示之。因此,為避免有因使用以整數形式表示之小區所造成之座標未對齊的情形,包含該輸入影像90上之相對應建議窗口(ROI)所取得之擴充特徵圖之次組C1~C4之各個特徵圖上四個角落部分之座標,皆以浮點數或實數之形式計算之。傳統上,將建議窗口映射於特徵圖上係由該區域建議窗口組件20所執行。多個ROI對準層41另外將擴充特徵圖各個次組C1~C4之特徵圖上的區域池化為固定尺寸之特徵圖。為產出固定尺寸之特徵圖,多個ROI對準層41之維度大小經設定為與固定尺寸之特徵圖之維度大小相同,亦即N x N。自建議窗口之一所取得之擴充特徵圖各個次組C1~C4之各個特徵圖上之區域接著依據ROI對準層41之維度被切割為多個小區。區域內之各個小區經指定有多個位於其內之中間點(intermediate points),並以分別為浮點數之寬度/N及高度/N之間隙,於水平和垂直上彼此分離且與小區之邊界分開。各個中間點上之特徵值得利用最接近中間點之特徵圖之格網四個小區上之特徵值,以雙線性插值(bilinear interpolation)計算之。小區內之中間點的特徵值經計算後,若使用最大池化,則位於中間點之一的一項特徵的最大值會依據小區在建議窗口所取得之特徵圖之區域內的位置,置放於其中一個ROI對準層41之相對應小區內。例如,以位於特徵圖上之區域內經切割小區的元素(element)(1,2)之小區為例,與該小區有關聯之經池化值置放於相對應之ROI對準層41之元素(1,2)小區內。視管道M之數目而定,於各個ROI對準層41之池化運算完成後,N x N x M之固定尺 寸特徵圖得就各個建議窗口自擴充特徵圖各個次組C1~C4產出。各個完全連接之ROI層42隨後將自相對應之擴充特徵圖各個次組C1~C4所產出之固定尺寸特徵圖扁平化,以產出ROI特徵向量。該融合層43將經多個完全連接之ROI層42所扁平化之ROI特徵向量融合,以產出經融合之ROI向量。
再進一步論及圖一,置於分類與回歸階段S4之該分類與回歸組件50就與相對應之經融合之ROI向量有關聯之各個建議窗口執行物體分類及錨框回歸。關於物體分類方面,該分類與回歸組件50決定各個建議窗口為前景或背景,並於為前景的情形下,進一步預測建議窗口中之真正物體之類型,且給予其信心分數以指出該建議窗口含有該物體之可能性。同時,針對建議窗口之真正物體執行錨框回歸,俾使其更符合建議窗口之各別錨框。由於對於該技術具普通技能者皆已熟知,故分類與回歸之細節不予詳述。
下例乃說明於偵測來自於骨髓抹片之輸入影像90中之細胞的正向傳遞時進行訓練CNN所涉及之作業。
正向傳遞始於特徵擷取階段。該輸入影像90之尺寸由寬度、高度及管道所決定,亦即該輸入影像之像素解析度及像素之三原色值(RGB values)。於本例中,訓練影像之大小為1408 x 960 x 3,其中之1408 x 960與3係指該輸入影像90之像素解析度及像素之三原色。再進一步論及圖二,該輸入影像於該特徵擷取器10,即ResNext 101,中所傳遞,且該特徵擷取器10輸出位於第一路徑P1之四個第一特徵圖之次組A1~A4,且其尺寸分別為176 x 120 x 2048、88 x 60 x 1024、44 x 30 x 512及22 x 15 x 256。換言之,第一特徵圖之次組A1~A4為多尺寸,且第一特徵圖各個次組A1~A4中之特 徵圖尺寸皆一致。依其尺寸可知,A1之寬度或高度為A2之一半。同樣地,減半之寬度/高度亦適用於接連兩個第一特徵圖之次組A2及A3和A3及A4。作為減少因大量管道所造成之運算負擔的措施,1x1卷積適用於各個第一特徵圖之次組A1~A4,俾降低其管道至最低之管道A4,亦即256,而經降低管道之第一特徵圖之次組A1’~A4’經產出並傳遞至第二路徑P2。於A4’傳遞至第二路徑P2且在第二路徑中最先位置之第二特徵圖之次組B4經初始化成為尺寸係22 x 15 x 256之A4’之後,B4經由升採樣因子2進行升採樣後與相對於B4有最接近之較大尺寸之A3’在尺寸上一致,且與A3’相加以隨後產出尺寸為44 x 30之第二特徵圖之次組B3。藉由將類似之升採樣與相加法應用於B3及A2’和B2及A1’,即得產出尺寸分別為88 x 60 x 256和176 x 120 x 256之第二特徵圖之次組B2及B1。
第二特徵圖之次組B1接著傳遞至第三路徑P3且在第三路徑P3最先位置之擴充特徵圖之次組C1經初始化成為尺寸為176 x 120 x 256之第二特徵圖之次組B1。C1經由降採樣因子2進行降採樣後與相對於C1有最接近之較小尺寸之B2在尺寸上一致,亦即88 x 60 x 256,且與B2相加以隨後產出尺寸為88 x 60 x 256之第二特徵圖之次組C2。藉由將類似之降採樣與相加法應用於C2及B3和C3及B4,即得產出尺寸分別為44 x 30 x 256和22 x 15 x 256之擴充特徵圖之次組C3及C4。由於升採樣及降採樣僅調整寬度及高度之尺寸,第二特徵圖之次組B1~B4及擴充特徵圖之次組C1~C4之管道仍為256。第二特徵圖之次組B1~B4及擴充特徵圖之次組C1~C4之各個次組中的特徵圖管道於寬度及高度上皆相等。
建議窗口分類階段S2於特徵擷取階段S1結束後隨即開始。 假設負IOU範圍為0.3且分割為10個採樣間隔,則每個大於或等於零且小於0.3之採樣間隔需要之負樣本數目為10,且每個大於0.7且小於或等於1.0之採樣間隔需要之正樣本數目為3。建議窗口採樣分類器30隨後針對與IOU值在各個採樣間隔0~0.03,0.03~0.06,0.06~0.09,...,及0.27~0.3中之相對應小區重疊之10個錨框進行採樣作為背景之建議窗口。除了負樣本之採樣外,建議窗口採樣分類器30尚針對與IOU值大於0.7且小於或等於1之各個小區重疊之3個錨框進行採樣作為前景之建議窗口。
提出在該輸入影像90上大小為128 x 128之一個建議窗口作為將建議窗口映射於位於各個擴充特徵圖之次組C1~C4上之區域之例子,其在區域建議窗口組件20所映射之特徵圖C1~C4上的尺寸分別為16 x 16,8 x 8,4 x 4及2 x 2。
ROI對準階段S3接在建議窗口分類階段S2之後。當ROI對準器40之四組對準層41尺寸為四個7 x 7之池化層,該四組對準層會依據ROI對準法將區域池化以產出固定尺寸為7 x 7 x 256之四組特徵圖,而不問擴充特徵圖之次組C1~C4之特徵圖上之大小為16 x 16、8 x 8、4 x 4或2 x 2。四組完全連接之ROI層42隨後將各別之7 x 7 x 256之特徵圖扁平化為四組ROI特徵向量,其大小為,例如1024 x 1。融合層43將四組ROI特徵向量融合成大小為1024 x 1之一組經融合之ROI向量。
正向傳遞結束後,分類及回歸階段S4,分類及回歸組件50預測各個建議窗口中之小區類型且給予其信心分數,並執行錨框回歸俾依據經融合之ROI向量將包覆小區之錨框調整至小區最接近之大小。
當模型依據CNN中之要素進行訓練,吾人會給予評量實例 切割表現之AJI(Aggregated Jaccard Index累計雅卡爾指數)分數,作為本發明與遮罩區域卷積神經網路之間表現之衡量方法,而遮罩區域卷積神經網路可被認為係物體偵測方面之最新AI技術。一般而言,所獲得之AJI分數愈高,與其相關聯之表現愈佳。在相同之訓練及預測核心切割數據集(nucleus segmentation datasets)的條件下,吾人之實驗顯示,本發明所獲得之AJI分數為0.62,勝過遮罩區域卷積神經網路所獲得之0.56。
下文將介紹利用前述CNN之物體偵測方法。於該方法中,為避免重複說明先前已探討過之特徵,僅於此處強調若干主要特徵。關於圖七,係顯示在CNN於正向傳遞期間進行訓練時利用前述CNN之物體偵測方法,並且包括下列步驟。
步驟S100:以特徵擷取器自輸入影像中擷取一組第一特徵圖。該組第一特徵圖分割為多尺寸之數組第一特徵圖。第一特徵圖各個次組於尺寸上皆相等。基本上,第一特徵圖之次組之尺寸愈小,其所包含之空間特徵愈少且語義特徵愈多。反之,第一特徵圖之次組愈大,其所包含之空間特徵愈多且語義特徵愈少。於實施方式之一當中,有四組第一特徵圖之次組,該輸入影像為骨髓抹片,且特徵擷取器得為ResNext 101,但不以此為限。
步驟200:自第一特徵圖之特徵傳遞特徵,藉由將第一特徵圖、第二特徵圖及擴充特徵圖之相對應部分進行尺寸調整及相加之方式,經由一組第二特徵圖產出一組擴充特徵圖。該組第二特徵圖及擴充特徵圖為多尺寸,且與該組第一特徵圖之寬度及高度一致。為該組擴充特徵圖之中的空間特徵及語義特徵建立基礎之本步驟,繼續藉由該組第二特徵圖自 該組第一特徵圖進行擴充之特徵擷取。為達此需求,該組擴充特徵圖欲以廣泛之方式蒐集自該組第一特徵圖所傳遞、原本由特徵擷取器10所擷取,且藉由該組第二特徵圖所移轉之特徵,而該等特徵係自該組第一特徵圖之所有部分所移轉。稍後將有執行步驟S200細節之更多步驟。
步驟300:分類及調整包覆該輸入影像中至少一個真正物體之各個錨框以產出前景之相對應建議窗口或分類出該輸入影像中未包覆任何真正物體之錨框以產出背景之相對應建議窗口,並藉由區域建議窗口組件將相對應前景之建議窗口映射於該組擴充特徵圖之各個特徵圖上之區域。本步驟主要之目標在於產出前景和背景之建議窗口,並將建議窗口映射於該組擴充特徵圖上相對應之區域。於實施方式之一當中,該輸入影像90之骨髓抹片每次觀察中包括多個真正物體。骨髓抹片輸入影像中之多個真正物體的每個皆可分類為下列14種細胞之一,亦即芽細胞、前髓細胞、髓細胞、中髓細胞、多形核細胞、嗜酸性粒細胞與前體、嗜鹼性粒細胞、單核細胞與前體、淋巴細胞、漿細胞、類紅細胞、組織細胞、有絲分裂細胞及其他細胞。利用14種細胞模型之骨髓檢查足以進行骨髓樣本之基本病理分析。為進行與特定骨髓異常疾病相關聯之骨髓進階病理分析,則骨髓抹片之輸入影像中之多個真正物體中的每個皆需要分類為33種細胞,亦即芽細胞、前髓細胞、髓細胞、中髓細胞、嗜中性帶狀細胞、節狀嗜中性球細胞、嗜酸性粒細胞與前體、嗜鹼性粒細胞、奧爾氏桿細胞、增生不良顆粒球、單核細胞與前體、成熟淋巴細胞、非典型淋巴細胞、漿細胞、髮樣細胞、前紅血球芽球、嗜鹼性紅血球芽球、多色性紅血球芽球、正色性紅血球芽球、增生不良紅血球芽球、組織細胞、肥大細胞、巨核細胞前體、 成熟巨核細胞、增生不良巨核細胞、有絲分裂細胞、成骨細胞、破骨細胞、纖維母細胞、巨核吞噬淋巴球、嗜血細胞、遠端轉移腫瘤細胞及無效細胞。無效細胞類型包括破碎細胞、抹片品質不佳細胞與不明原因。
步驟400:將自該輸入影像之多個建議窗口之每個所取得之一組擴充特徵圖中的各個特徵圖上之區域池化為固定尺寸之特徵圖,將該固定尺寸之特徵圖扁平化以產出ROI特徵向量,並且將自該組擴充特徵圖所產出之ROI特徵向量加以融合,以藉由物體分類及錨框回歸之ROI對準器產出經融合之ROI向量。本步驟最重要之處在於利用ROI對準法將該組擴充特徵圖上之經映射區域以準確之方式池化至相對應之固定尺寸特徵圖。
特別是關於圖八,當更進一步時,步驟S200尚包含下列步驟。
步驟S210:將第一特徵圖、第二特徵圖及擴充特徵圖之各組依順序分別按正向傳遞之方向安排置於第一路徑、第二路徑及第三路徑。該組第一特徵圖、該組第二特徵圖及該組擴充特徵圖皆包含相等數目之次組。關於第一、第二及擴充特徵圖各組之尺寸,第一特徵圖之各次組、第二特徵圖之各相應次組及擴充特徵圖之各相應次組於寬度及高度上皆一致,而第二及擴充特徵圖之相應次組於管道上一致。第二特徵圖之各次組及擴充特徵圖之相應次組於管道上一致。至於第一特徵圖之次組之尺寸,第一特徵圖之各次組於第一路徑當中之尺寸遞減。
步驟S220:將1x1之卷積適用於第一特徵圖各個次組以產出於第一特徵圖之次組中擁有最小管道之縮減第一特徵圖之次組,並將縮減第一特徵圖之該次組傳遞至第二路徑。由於第一特徵圖之次組之管道不 同,且其中若有任何大管道數目,將無可避免形成重大之運算負擔,1x1之卷積得將第一特徵圖之各個次組中之管道數目降低至第一特徵圖之次組當中之最小管道,俾於產出縮減第一特徵圖相對應之次組時大大減低隨後之運算負擔。相較之下,縮減第一特徵圖之全部次組與第一特徵圖之對應次組於尺寸上皆完全相同,但縮減第一特徵圖之全部次組具有一致之管道,其與第一特徵圖的該等次組中最小之管道相等,而第一特徵圖之次組彼此之間管道數目相異。
步驟S230:在第二路徑最先位置之第二特徵圖之次組經初始化至第二路徑中相對於縮減第一特徵圖之其他次組而言尺寸最小之縮減第一特徵圖之該次組。最終之結果為,在第二路徑最先位置之第二特徵圖之次組經初始化至被傳遞至第二路徑且源自於在第一路徑最後位置之第一特徵圖之次組。
步驟S240:在第二路徑最後位置之第二特徵圖之次組除外,將其餘之第二特徵圖各個次組經由升採樣因子進行升採樣,俾與尺寸上大於且最接近其之縮減第一特徵圖之該次組配對,且將經過升採樣後之第二特徵圖之次組與尺寸相符之縮減第一特徵圖之對應次組相加,俾隨後於第二路徑產出第二特徵圖之次組。本步驟完成後,最終第二特徵圖之次組於第二路徑中尺寸遞增,且在第二路徑最後位置之第二特徵圖之次組成為第二路徑中尺寸最大者。視要與將進行升採樣之第二特徵圖之次組之寬度或高度相加之第一特徵圖之次組之寬度或高度之比例而定,升採樣因子會有所不同。
步驟S250:在第三路徑最先位置之擴充特徵圖之次組經初 始化至第二路徑中相對於其他第二特徵圖之次組而言尺寸最大之第二特徵圖之次組。最終之結果為,在第三路徑最先位置之擴充特徵圖之次組經初始化至被傳遞至第三路徑且源自於在第二路徑最後位置之第二特徵圖之次組。
步驟S260:在第三路徑最後位置之擴充特徵圖之次組除外,將其餘之擴充特徵圖各個次組經由降採樣因子進行降採樣,俾與尺寸上小於且最接近其之第二特徵圖之次組配對,且將經過降採樣後之擴充特徵圖之次組與尺寸相符之第二特徵圖之次組相加,俾隨後產出擴充特徵圖之次組。本步驟完成後,最終擴充特徵圖之次組於第三路徑中尺寸遞減,且在第二路徑最後位置之擴充特徵圖之次組成為第三路徑中尺寸最小者。視要與將進行降採樣之擴充特徵圖之次組之寬度或高度相加之第二特徵圖之次組之寬度或高度之比例而定,降採樣因子會有所不同。
就第一特徵圖、第二特徵圖及擴充特徵圖之各組而言,可能會有四個次組,但不以此為限。關於尺寸方面明白言之,若存在第一特徵圖之下個次組時,第一特徵圖之次組可能於尺寸上是下個第一特徵圖之次組之兩倍。反向而言,第二特徵圖之次組於第二路徑中尺寸遞增,且於尺寸上可能是下個第一特徵圖之次組之一半,但不以此為限。再者,擴充特徵圖之次組於第三路徑中尺寸遞減,且於尺寸上可能是下個擴充特徵圖之次組之兩倍,但不以此為限。因應前述尺寸之實施方式升採樣及降採樣之因子可能為2,但不以此為限。
關於圖九,為深入理解,步驟S300尚包含下列步驟。
步驟S310:對於多個相等切割採樣間隔之各個間隔當中採 樣與該至少一個真正物體一部份重疊之相等數目的多個錨框,其中各該經採樣錨框與該至少一個真正物體之一間之重疊區域對聯集區域構成一項比率,而作為背景建議窗口之經採樣錨框的該項比例應落於一負樣本比率範圍,該範圍大於或等於零且小於負樣本比例閾值。一般性IOU演算法及Dice係數演算法皆可求得該等比率。應用一般性IOU演算法時,負樣本比例範圍為負IOU範圍,負樣本比率閾值為負IOU閾值。有鑑於稍早對於採用一般性IOU演算法之建議窗口採樣分類器所為之討論,本步驟之目標乃增加背景之建議窗口,以減少在零IOU值時有過多負樣本且隨機採樣形成較少不易辨識的負樣本之缺點。此外,於實施方式之一當中,負IOU閾值為0.3。
步驟S320:對於與該至少一個真正物體之各物體重疊之相等數目的多個錨框進行採樣,且各該經採樣錨框與該真正物體間之重疊區域對聯集區域構成一項比率,而透過建議窗口採樣分類器作為前景建議窗口之經採樣錨框的該項比率應大於正樣本比例閾值且小於或等於1。在考慮對正樣本之平衡採樣時,本步驟使用適應於存在輸入影像中之正樣本數目稀少之些微不同作法,俾針對每個真正物體對於若干正樣本進行採樣。自步驟S310及S320可知,就以一般性IOU演算法或Dice係數演算法為基礎之採樣建議窗口而言,建議窗口採樣分類器增強了區域建議窗口組件之部分工作,俾確保正負建議窗口採樣之強化與平衡。
步驟S330:將各個建議窗口藉由區域建議窗口組件映射於擴充特徵圖組之各個特徵圖上的區域。本步驟由區域建議窗口組件所執行,俾將經建議窗口採樣分類器所採樣之前景和背景之建議窗口映射於擴充特徵圖組。
再進一步論及圖七,當CNN於反向傳遞期間進行訓練時,物體偵測方法並且包括下列步驟。
步驟S500:就各個正常值(inliers)提出定位損失法以取得回歸梯度(regression gradient),且其高於依據由損失函數(loss function)所定義之線性回歸法(linear regression scheme)所取得之正常值的回歸梯度,俾於正常值之定位損失小於1時,將預測值與目標值之間的誤差最小化,並於異常值(outliers)之定位損失大於或等於1時,使各個異常值皆有恆常之回歸梯度。損失函數可能為標準L1損失(standard L1 loss)、平滑L1損失(smooth L1 loss)及L2損失(L2 loss)其中之一,但不以此為限。為同時處理物體分類及框回歸,損失函數於理想上係包含分類損失及定位損失之聯合損失。分類損失係與建議窗口之預測值及其真正物體之目標值之間的差異相關,而定位損失則與建議窗口之預測錨框及該錨框所包覆之真正物體之間的座標距離有關。於本步驟中,吾人之討論係於定位損失之範疇內。根據定義,前述之正常值為定位損失小於1之建議窗口,而異常值則係定位損失大於或等於1之建議窗口。為了效能評量之目的,光滑L1損失法選擇作為與本案評量對象。於光滑L1損失法當中,正常值之回歸梯度與正常值之定位損失成線性比例,且其恆常之比例為1,而異常值之回歸梯度相當於一個常數。異常值可視為不易辨識的樣本,例如與IOU值為0.5以下之真正物體重疊之建議窗口,並將造成不利於CNN訓練之巨大回歸梯度。正常值可視為簡單樣本,例如與IOU值為0或1之真正物體重疊之建議窗口,且與異常值相較之下,對於整體之回歸梯度而言,僅造成平均30%之回歸梯度。為求正常值及異常值所提供之回歸梯度的平衡,本問題之解決之道為增進正常值之回歸梯度, 同時抑制異常值所造成之回歸梯度或使其保持為一常數。於實施方式之一當中,定位損失法為取得平衡之L1損失法,其回歸梯度方程式定義如下:
Figure 110120218-A0305-02-0030-2
其中x為建議窗口之回歸損失;Lb為建議窗口之定位損失;
Figure 110120218-A0305-02-0030-3
為建議窗口之回歸梯度。
縱然本發明之若干特性與優點及其結構和功能之細節已如前述,此等揭露僅為說明之用。細節部分可能加以變動,尤以所附請求項內所載名詞之廣泛一般意義所示之最大程度下,於本發明之原理範圍之內,關於組件之形狀、大小和排列方面為然。
10:徵擷取器
20:區域建議窗口組件
30:建議窗口採樣分類器
40:ROI對準器
50:分類與回歸組件
90:輸入影像

Claims (36)

  1. 利用卷積神經網路(CNN)之物體偵測方法,其包含之內容如下:(a)透過特徵擷取器自輸入影像中擷取一組第一特徵圖,且該組第一特徵圖為多尺寸;(b)自該組第一特徵圖傳遞特徵,以藉由將該組第一特徵圖、一組第二特徵圖及一組擴充特徵圖之相對應部分進行尺寸調整及相加之方式,經由該組第二特徵圖產出該組擴充特徵圖,其中該組第二特徵圖及該組擴充特徵圖為多尺寸,且與該組第一特徵圖之寬度及高度一致;(c)分類及調整包圍該輸入影像中至少一個真正物體之多個錨框之各錨框以產出前景之相對應建議窗口或分類出該輸入影像中未包覆任何真正物體之各錨框以產出背景之相對應建議窗口,並藉由區域建議窗口組件將相對應前景之各建議窗口映射於該組擴充特徵圖之各個特徵圖上之區域;及(d)自該輸入影像之各個多個建議窗口取得該組擴充特徵圖中的各個特徵圖上之區域,將該區域池化為固定尺寸之特徵圖,將該固定尺寸之特徵圖扁平化以產出ROI(感興趣區域)特徵向量,並且將自該組擴充特徵圖所產出之該ROI特徵向量加以融合,以藉由物體分類及錨框回歸之ROI對準器產出經融合之ROI向量。
  2. 如請求項1所述之方法,其中步驟(b)包含之內容如下:(b1)將第一特徵圖、第二特徵圖及擴充特徵圖之各組依順序分別按正向傳遞之方向安排置於第一路徑、第二路徑及第三路徑,該組第一特徵圖、 該組第二特徵圖及該組擴充特徵圖皆包含相等數目之次組,第一特徵圖之各次組、第二特徵圖之各相應次組及擴充特徵圖之各相應次組於寬度及高度上皆一致,而第二及擴充特徵圖之相應次組於管道數目上一致,且與第一特徵圖之次組於管道數目上相異;及於步驟(a)中,第一特徵圖之各次組於寬度及高度上皆一致,且第一特徵圖之各次組於第一路徑當中之尺寸遞減。
  3. 如請求項2所述之方法,其中步驟(b)包含之內容如下:(b2)將1x1之卷積適用於第一特徵圖各個次組以產出擁有第一特徵圖之次組中最小管道之縮減第一特徵圖之次組,並將該縮減第一特徵圖之各次組傳遞至該第二路徑;(b3)將該第二路徑最先位置之第二特徵圖之該次組初始化至該第二路徑中相對於縮減第一特徵圖之其他次組而言尺寸最小之縮減第一特徵圖之該次組;(b4)在該第二路徑最後位置之第二特徵圖之該次組除外,將其餘之第二特徵圖各個次組經由升採樣因子進行升採樣,俾與尺寸上大於且最接近其之第一特徵圖之該等次組之該等管道之對應縮減次組配對,且將經過升採樣後之第二特徵圖之該等次組與尺寸相符之縮減第一特徵圖之對應次組相加,俾隨後於該第二路徑產出第二特徵圖之對應次組;(b5)將該第三路徑最先位置之擴充特徵圖之該次組初始化至該第二路徑中相對於其他第二特徵圖之次組而言尺寸最大之第二特徵圖之該次組;及(b6)在該第三路徑最後位置之擴充特徵圖之該次組除外,將其餘之擴 充特徵圖各個次組經由降採樣因子進行降採樣,俾與尺寸上小於且最接近其之第二特徵圖之對應次組配對,且將經過降採樣後之擴充特徵圖之該等次組與尺寸相符之第二特徵圖之對應次組相加,俾隨後產出擴充特徵圖之對應次組。
  4. 如請求項1所述之方法,其中關於步驟(c),擴充特徵圖組之各個特徵圖上之區域依據ROI對準法加以池化。
  5. 如請求項1所述之方法,其中當CNN於正向傳遞期間進行訓練時,則步驟(c)包含之內容如下:(c1)對於多個相等切割採樣間隔之各間隔當中採樣與該至少一個真正物體一部份重疊之相等數目的多個錨框,其中各該經採樣錨框與該至少一個真正物體之一間之重疊區域對聯集區域構成一項負樣本比率,該負樣本比率大於或等於零且小於負樣本比例閾值。
  6. 如請求項5所述之方法,其中步驟(c)包含之內容如下:(c2)對於與該至少一個真正物體之各物體重疊之相等數目的多個錨框進行採樣,且各該經採樣錨框與該真正物體間之重疊區域對聯集區域構成一項正樣本比率,而該項正樣本比率應大於正樣本比率閾值且小於或等於1。
  7. 如請求項2所述之方法,其中第一特徵圖之該等次組之尺寸愈小,其所包含之語義空間愈多且空間特徵愈少,而第一特徵圖之該等次組之尺寸愈大,其所包含之語義空間愈少且空間特徵愈多。
  8. 如請求項2所述之方法,其中擴充特徵圖之各個次組包含自第一特徵圖之全部次組所傳遞之特徵。
  9. 如請求項2所述之方法,其中第一特徵圖組包含第一特徵圖之四組次組,第二特徵圖組包含第二特徵圖之四組次組,且擴充特徵圖組包含擴充特徵圖之四組次組。
  10. 如請求項3所述之方法,其中升採樣及降採樣之因子皆為2,且除在於該第一路徑最後位置之第一特徵圖之該次組以外,其餘之第一特徵圖各個次組於尺寸上是位於該第一路徑中下個第一特徵圖之該次組之一半。
  11. 如請求項4所述之方法,其中最大池化使用於該ROI對準法。
  12. 如請求項6所述之方法,其中之該項正樣本比率及該項負樣本比率係由一般性IOU演算法及Dice係數演算法之一所提供。
  13. 如請求項12所述之方法,其中該負樣本比率閾值乃負IOU閾值,而該負IOU閾值為0.3。
  14. 如請求項12所述之方法,其中之該正樣本比率閾值係正IOU閾值,而該正IOU閾值為0.7。
  15. 如請求項1所述之方法,其中當CNN於反向傳遞期間進行訓練時,則該方法包含之內容如下:就多個正常值之各正常值提出定位損失法以取得回歸梯度,且該回歸梯度高於依據由損失函數所定義之線性回歸法所取得之正常值的回歸梯度,俾將預測值與目標值之間的誤差最小化,且使多個異常值皆有恆常之回歸梯度;其中該等正常值定義為定位損失小於1之建議窗口,而該等異常值則定 義為定位損失大於或等於1之建議窗口;於該損失函數中,其正常值之回歸梯度與正比例常數(proportionality constant)為1之定位損失成線性比例,而異常值之回歸梯度相當於一個常數。
  16. 如請求項16所述之方法,其中損失函數為標準L1損失、平滑L1損失及L2損失其中之一。
  17. 如請求項16所述之方法,其中該定位損失法為取得平衡之L1損失法,其回歸梯度方程式定義如下:
    Figure 110120218-A0305-02-0035-4
    其中x為建議窗口之回歸損失;Lb為建議窗口之定位損失;
    Figure 110120218-A0305-02-0035-5
    為建議窗口之回歸梯度。
  18. 請求項1當中所請求之方法,其中該輸入影像為骨髓抹片,且該輸入影像中該至少一件真正物體中每個皆分類為芽細胞、前髓細胞、髓細胞、中髓細胞、多形核細胞、嗜酸性粒細胞與前體、嗜鹼性粒細胞、單核細胞與前體、淋巴細胞、漿細胞、類紅細胞、組織細胞、有絲分裂細胞及其他細胞其中之一。
  19. 請求項1當中所請求之方法,其中該輸入影像為骨髓抹片,且該輸入影像中該至少一件真正物體中每個皆分類為芽細胞、前髓細胞、髓細胞、中髓細胞、嗜中性帶狀細胞、節狀嗜中性球細胞、嗜酸性粒 細胞與前體、嗜鹼性粒細胞、奧爾氏桿細胞、增生不良顆粒球、單核細胞與前體、成熟淋巴細胞、非典型淋巴細胞、漿細胞、髮樣細胞、前紅血球芽球、嗜鹼性紅血球芽球、多色性紅血球芽球、正色性紅血球芽球、增生不良紅血球芽球、組織細胞、肥大細胞、巨核細胞前體、成熟巨核細胞、增生不良巨核細胞、有絲分裂細胞、成骨細胞、破骨細胞、纖維母細胞、巨核吞噬淋巴球、嗜血細胞、遠端轉移腫瘤細胞及無效細胞其中之一。
  20. 物體偵測之卷積神經網路(CNN),包含之內容如下:特徵擷取器,其包含多個卷積層以接收輸入影像,並自該輸入影像中擷取特徵以產出數組特徵圖,其中該等組特徵圖包括含有相同數目次組之一組第一特徵圖、一組第二特徵圖及一組擴充特徵圖,各組特徵圖乃多尺寸,且該等組特徵圖中相對應之次組特徵圖於尺寸上相等,而來自於該組第一特徵圖所擷取之特徵藉由該組第二特徵圖將第一特徵圖、第二特徵圖及擴充特徵圖之相對應次組進行尺寸調整及相加,以產出該組擴充特徵圖;一個區域建議窗口組件,其分類及調整包圍該輸入影像中至少一個真正物體之各個錨框以產出前景之相對應建議窗口或分類出該輸入影像中未包圍任何真正物體之錨框以產出背景之相對應建議窗口,並將相對應前景之建議窗口映射於該組擴充特徵圖之各個特徵圖上之區域;及ROI(感興趣區域)對準器將自該輸入影像之多個建議窗口之一所取得之該組擴充特徵圖中各個特徵圖上之區域加以池化,以產出固定尺寸特徵圖,將該固定尺寸之特徵圖扁平化以產出ROI特徵向量,並且將自該組擴充特徵圖所產出之該等ROI特徵向量融合,以產出物體分類及錨框回歸之經融合之ROI向量。
  21. 如請求項20所述之CNN,其中第一特徵圖、第二特徵圖及擴充特徵圖之各組依順序分別按正向傳遞之方向安排置於第一路徑、第二路徑及第三路徑,該組第一特徵圖、該組第二特徵圖及該組擴充特徵圖皆包含相等數目之次組,第一特徵圖之各次組、第二特徵圖之各對應次組及擴充特徵圖之各對應次組於寬度及高度上皆一致,第二及擴充特徵圖之對應次組於管道上一致且與第一特徵圖之次組於管道上相異,第一特徵圖各次組於寬度及高度上皆一致,且第一特徵圖之各次組於第一路徑當中之尺寸遞減。
  22. 如請求項21所述之CNN,其中將1x1之卷積適用於第一特徵圖各個次組以產出擁有第一特徵圖之次組中最小管道之縮減第一特徵圖之次組,並將該縮減第一特徵圖之各次組傳遞至第二路徑;在該第二路徑最先位置之第二特徵圖之該次組經初始化至該第二路徑中相對於縮減第一特徵圖之其他次組而言尺寸最小之縮減第一特徵圖之該次組;在該第二路徑最後位置之第二特徵圖之該次組除外,其餘之第二特徵圖之各個次組經由升採樣因子進行升採樣,俾與尺寸上大於且最接近其之縮減第一特徵圖之該等次組配對,且將經過升採樣後之第二特徵圖之該等次組與尺寸相符之縮減第一特徵圖之對應次組相加,俾隨後於該第二路徑產出第二特徵圖之對應次組;在該第三路徑最先位置之擴充特徵圖之該次組經初始化至第二路徑中相對於第二特徵圖之其他次組而言尺寸最大之第二特徵圖之該次組;及 在該第三路徑最後位置之擴充特徵圖之次組除外,其餘之擴充特徵圖之各個次組經由降採樣因子進行降採樣,俾與尺寸上小於且最接近其之第二特徵圖之該等次組配對,且將經過降採樣後之擴充特徵圖之該等次組與尺寸相符之第二特徵圖之對應次組相加,俾隨後產出擴充特徵圖之對應次組。
  23. 如請求項20所述之CNN,當CNN於正向傳遞期間進行訓練時,包含建議窗口採樣分類器,其中該建議窗口採樣分類器對於多個相等切割採樣間隔之各間隔當中採樣與該至少一個真正物體一部份重疊之相等數目的多個錨框;其中各該經採樣錨框與該至少一個真正物體之一間之重疊區域對聯集區域構成一項負樣本比率,而該項負樣本比率大於或等於零且小於負樣本比率閾值,使使該經採樣錨框被選為該等背景之相對應建議窗口之一。
  24. 如請求項23所述之CNN,其中該建議窗口採樣分類器對於與該至少一個真正物體之各物體重疊之相等數目的多個錨框進行採樣,且各該經採樣錨框與該真正物體間之重疊區域對聯集區域構成一項正樣本比率,而該項正樣本比率應大於正樣本比率閾值且小於或等於1,使該經採樣錨框被選為該等前景之相對應建議窗口之一。
  25. 如請求項20所述之CNN,其中ROI對準器將擴充特徵圖組之各個特徵圖上之區域依據ROI對準法加以池化。
  26. 如請求項20所述之CNN,其中ROI對準器包含之內容如下:與擴充特徵圖之該等次組於數目上相對應之多個ROI對準層,且各個ROI對準層實質上皆係池化層,於經該區域建議窗口組件自該輸入影像所 取得之各個建議窗口相對應之擴充特徵圖之該次組之特徵圖上的區域執行池化作業,以產出固定尺寸之特徵圖;與擴充特徵圖之該等次組於數目上相對應之多個完全連接之ROI層,且各個完全連接之ROI層將自相對應之擴充特徵圖之各個次組所產出之該等固定尺寸特徵圖扁平化,以產出ROI特徵向量;及融合層將經該多個完全連接之ROI層所扁平化之該等ROI特徵向量融合,以產出經融合之ROI向量。
  27. 如請求項20所述之CNN,其中第一特徵圖之該等次組之尺寸愈小,其所包含之語義特徵愈多且空間特徵愈少,而第一特徵圖之該等次組之尺寸愈大,其所包含之語義空間特徵愈少且空間特徵愈多。
  28. 如請求項20所述之CNN,其中擴充特徵圖之各個次組包含自第一特徵圖之全部次組所傳遞之特徵。
  29. 如請求項20所述之CNN,其中第一特徵圖組包含四個次組,第二特徵圖組包含四個次組,及擴充特徵圖組包含四個次組。
  30. 如請求項22所述之CNN,其中升採樣因子及降採樣因子皆為2,且除在於該第一路徑最後位置之第一特徵圖之該次組以外,其餘之第一特徵圖各個次組於尺寸上是位於該第一路徑中下個第一特徵圖之該次組之一半。
  31. 如請求項25所述之CNN,其中該ROI對準法使用最大池化(max pooling)。
  32. 如請求項23或請求項24所述之CNN,其中之該項正負樣本比率或該項負樣本比率係由一般性IOU演算法及Dice係數演算法之一 所提供。
  33. 如請求項32所述之CNN,其中該項負樣本比率閾值乃負IOU閾值,而該負IOU閾值為0.3。
  34. 如請求項20所述之CNN,其中之該項正樣本比率閾值係正IOU閾值,而該正IOU閾值為0.7。
  35. 如請求項20所述之CNN,其中該輸入影像為骨髓抹片,且該輸入影像中該至少一件真正物體中每個皆分類為嗜鹼性粒細胞、芽細胞、嗜酸性粒細胞與前體、類紅細胞、組織細胞、淋巴細胞、中髓細胞、有絲分裂細胞、單核細胞與前體、髓細胞、多形核細胞、漿細胞、前髓細胞及其他細胞其中之一。
  36. 如請求項20所述之CNN,其中該輸入影像為骨髓抹片,且該輸入影像中該至少一件真正物體中每個皆分類為芽細胞、前髓細胞、髓細胞、中髓細胞、嗜中性帶狀細胞、節狀嗜中性球細胞、嗜酸性粒細胞與前體、嗜鹼性粒細胞、奧爾氏桿細胞、增生不良顆粒球、單核細胞與前體、成熟淋巴細胞、非典型淋巴細胞、漿細胞、髮樣細胞、前紅血球芽球、嗜鹼性紅血球芽球、多色性紅血球芽球、正色性紅血球芽球、增生不良紅血球芽球、組織細胞、肥大細胞、巨核細胞前體、成熟巨核細胞、增生不良巨核細胞、有絲分裂細胞、成骨細胞、破骨細胞、纖維母細胞、巨核吞噬淋巴球、嗜血細胞、遠端轉移腫瘤細胞及無效細胞其中之一。
TW110120218A 2020-06-05 2021-06-03 物體偵測方法及其卷積神經網路 TWI809410B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
WOPCT/US20/36218 2020-06-05
PCT/US2020/036218 WO2021247034A1 (en) 2020-06-05 2020-06-05 Object detection method and convolution neural network for the same

Publications (2)

Publication Number Publication Date
TW202147247A TW202147247A (zh) 2021-12-16
TWI809410B true TWI809410B (zh) 2023-07-21

Family

ID=78830570

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110120218A TWI809410B (zh) 2020-06-05 2021-06-03 物體偵測方法及其卷積神經網路

Country Status (3)

Country Link
US (1) US11651588B1 (zh)
TW (1) TWI809410B (zh)
WO (1) WO2021247034A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961298B2 (en) * 2019-02-22 2024-04-16 Google Llc Memory-guided video object detection
KR102295202B1 (ko) * 2020-01-31 2021-08-27 중앙대학교 산학협력단 다중 객체 검출 방법 및 그 장치
US20220114424A1 (en) * 2020-10-08 2022-04-14 Niamul QUADER Multi-bandwidth separated feature extraction convolution layer for convolutional neural networks
US12061967B2 (en) * 2020-12-23 2024-08-13 Arm Limited Processing data for a layer of a neural network
CN114676705B (zh) * 2021-06-17 2024-10-15 腾讯云计算(北京)有限责任公司 一种对话关系处理方法、计算机及可读存储介质
TWI807561B (zh) * 2021-12-28 2023-07-01 國立陽明交通大學 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法
CN116758409B (zh) * 2022-03-03 2025-07-29 四川大学 一种基于单锚框采样的遥感图像目标检测方法
TWI812291B (zh) * 2022-06-17 2023-08-11 緯創資通股份有限公司 連續學習的機器學習方法及電子裝置
CN118172376A (zh) * 2022-11-30 2024-06-11 鸿海精密工业股份有限公司 道路分割方法、电子设备及存储介质
CN116645365B (zh) * 2023-07-21 2023-11-17 锋睿领创(珠海)科技有限公司 基于频谱的石英玻璃检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network
CN109740652A (zh) * 2018-12-24 2019-05-10 深圳大学 一种病理图像分类方法和计算机设备
WO2019162241A1 (en) * 2018-02-21 2019-08-29 Robert Bosch Gmbh Real-time object detection using depth sensors
TW202008163A (zh) * 2018-07-24 2020-02-16 大陸商北京市商湯科技開發有限公司 醫療影像處理方法及裝置、電子設備及儲存介質

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9739783B1 (en) * 2016-03-15 2017-08-22 Anixa Diagnostics Corporation Convolutional neural networks for cancer diagnosis
US10733431B2 (en) * 2017-12-03 2020-08-04 Facebook, Inc. Systems and methods for optimizing pose estimation
US10586350B2 (en) * 2017-12-03 2020-03-10 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
WO2020109016A1 (de) * 2018-11-26 2020-06-04 Osram Gmbh Verfahren zum gemeinsamen detektieren, verfolgen und klassifizieren von objekten
EP3921776B1 (en) * 2019-02-08 2024-08-07 Singapore Health Services Pte. Ltd. Method and system for classification and visualisation of 3d images
US11526723B2 (en) * 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096457A1 (en) * 2016-09-08 2018-04-05 Carnegie Mellon University Methods and Software For Detecting Objects in Images Using a Multiscale Fast Region-Based Convolutional Neural Network
WO2019162241A1 (en) * 2018-02-21 2019-08-29 Robert Bosch Gmbh Real-time object detection using depth sensors
TW202008163A (zh) * 2018-07-24 2020-02-16 大陸商北京市商湯科技開發有限公司 醫療影像處理方法及裝置、電子設備及儲存介質
CN109740652A (zh) * 2018-12-24 2019-05-10 深圳大学 一种病理图像分类方法和计算机设备

Also Published As

Publication number Publication date
TW202147247A (zh) 2021-12-16
WO2021247034A1 (en) 2021-12-09
US11651588B1 (en) 2023-05-16
US20230128432A1 (en) 2023-04-27

Similar Documents

Publication Publication Date Title
TWI809410B (zh) 物體偵測方法及其卷積神經網路
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN118196828B (zh) 物体识别方法及装置
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
CN112307826B (zh) 行人检测方法、装置、计算机可读存储介质和芯片
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
EP4047509A1 (en) Facial parsing method and related devices
CN111597920B (zh) 一种自然场景下的全卷积单阶段的人体实例分割方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN112529904A (zh) 图像语义分割方法、装置、计算机可读存储介质和芯片
CN111709929B (zh) 一种肺部癌变区域分割与分类检测系统
CN110866938B (zh) 一种全自动视频运动目标分割方法
Fujii et al. X-net with different loss functions for cell image segmentation
CN117456376A (zh) 一种基于深度学习的遥感卫星影像目标检测方法
Hao et al. MEFP-Net: A dual-encoding multi-scale edge feature perception network for skin lesion segmentation
JP2022123903A (ja) 物体検出システムおよび物体検出方法
CN115527133A (zh) 一种基于目标密度信息的高分图像背景优化方法
Bai et al. YUSEG: Yolo and Unet is all you need for cell instance segmentation
CN116883767B (zh) 一种基于多源信息多尺度融合的目标检测方法
Ahmed et al. 3D U-Net: fully convolutional neural network for automatic brain tumor segmentation
Shi et al. MAST-UNet: More adaptive semantic texture for segmenting pulmonary nodules
CN117830626A (zh) 一种低空遥感图像实时语义分割方法
CN115953698A (zh) 一种基于双目图像的输电线路分割方法
Jiang et al. Semantic segmentation network combined with edge detection for building extraction in remote sensing images
Foo et al. DP-GAT: A framework for image-based disease progression prediction