[go: up one dir, main page]

TWI712961B - 全連接卷積神經網路影像處理方法與電路系統 - Google Patents

全連接卷積神經網路影像處理方法與電路系統 Download PDF

Info

Publication number
TWI712961B
TWI712961B TW108128101A TW108128101A TWI712961B TW I712961 B TWI712961 B TW I712961B TW 108128101 A TW108128101 A TW 108128101A TW 108128101 A TW108128101 A TW 108128101A TW I712961 B TWI712961 B TW I712961B
Authority
TW
Taiwan
Prior art keywords
image
fully connected
neural network
convolutional neural
dimensional feature
Prior art date
Application number
TW108128101A
Other languages
English (en)
Other versions
TW202107344A (zh
Inventor
吳俊樟
陳世澤
Original Assignee
瑞昱半導體股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞昱半導體股份有限公司 filed Critical 瑞昱半導體股份有限公司
Priority to TW108128101A priority Critical patent/TWI712961B/zh
Priority to US16/876,294 priority patent/US11423635B2/en
Application granted granted Critical
Publication of TWI712961B publication Critical patent/TWI712961B/zh
Publication of TW202107344A publication Critical patent/TW202107344A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)

Abstract

一種全連接卷積神經網路影像處理方法與電路系統,所述方法運作於一全連接卷積神經網路中,由電路系統執行,先接收一影像,在一實施例中, 接收一影像,取得影像之長度、寬度以及長寬比例,接著查詢全連接卷積神經網路適用的多種參考影像尺寸建立的一對照表,得出對照表中最接近此影像的參考影像。之後,經縮放影像使之調整至參考影像的尺寸,再對影像執行一卷積運算,並經多次運算後,形成特徵立方塊,由特徵立方塊轉換為一維特徵值,接著輸入一維特徵值至全連接層,執行全連接運算,以產生全連接卷積神經網路的一輸出數值。

Description

全連接卷積神經網路影像處理方法與電路系統
本發明關於一種運用卷積神經網路的影像處理技術,特別是可以保持原影像特性又不限制影像尺寸的一種全連接卷積神經網路影像處理方法與電路系統。
在人工智能(Artificial Intelligence,AI)的領域中應用了機器學習(machine learning)的技術。在機器學習中,基礎是通過演算法來分析數據,以大量數據與演算法學習數據特徵,建立判斷或預測現實世界的模型。
在機器學習中,使用的演算法如一種卷積神經網路(Convolutional Neural Network,簡稱CNN),這是一種前饋神經網路,特別可以應用在影像處理的領域中,其中能運用深度學習(deep learning)執行影像辨識、物件偵測、影像分割等處理。
所述卷積神經網路(CNN)實現的深度學習(deep learning)技術是機器學習進入人工智能領域的實作方法之一。在運用深度學習時,其中標準的卷積神經網路帶有全連接層(fully connected layer)時,不過,實作上會遇到影像的輸入尺寸的限制,輸入長寬尺寸會被規範為同樣大小,所常見的方法會將原始影像的長寬縮放到固定大小。
一個標準的卷積神經網路結構如圖1,分為兩個部份,前半部份為卷積運算10,後半部份為全連接(fully connection)運算12,或稱為密集(dense)運算。全連接運算示意圖如圖2,對應圖1的全連接運算12,如果左邊有4096個神經元,右邊也有4096個神經元,左邊每個神經元跟右邊每個神經元都有連線,也就是乘上一個權重,所以共有「4096x4096」條連接線。因此圖1中,當一開始原始影像101輸入大小為「224x224x3」,經過一些卷積操作後,如「55x55x96」、「27x27x256」、「13x13x384」、「13x13x384」,以及最後一個立方塊103大小為「13x13x256」,因此第一個全連接操作需要將「13x13x256」拉成一條向量,也就是43264個值,再與後面的4096個值做全連接層。在這種常用的模型下,如果影像輸入長寬大小是不固定時,運算就會在第一個全連接層發生錯誤,例如當影像變大時,卷積結果可能是「15x15x256」或「17x17x256」,全連接層的權重個數不相同,此時就沒辦法訓練一個固定的網路。
習知的演算法例如VGG,是一種提供大尺寸影像辨識用的深度學習演算法(Very Deep Convolutional Networks for Large-Scale Image Recognition)或是GoogLeNet,這類方法將輸入影像強迫縮放至固定長寬大小,但縮放的步驟可能會損失原來影像的幾何特性。
另一種習知方式是將全連接層刪除,改用全卷積網路(Fully Convolution Network, FCN),方法如Darknet19。此種方法因刪除了全連接層,但此方法雖能讓輸入影像的長寬大小不固定,但會增加卷積運算的運算量,並可能降低幀率(frame rate),且也喪失了全連接層的優點及特性。
揭露書公開一種全連接卷積神經網路影像處理方法,以及執行此方法的電路系統,此方法提出一個方案,可以套用於任何現有的神經網路模型,且不限制影像的輸入大小,保有原始影像的幾何特性。
根據實施例,全連接卷積神經網路影像處理方法包括先接收一影像,其中影像符合預先設定的全連接卷積神經網路適用的多種參考影像尺寸之一,接著對此影像執行卷積運算,並經多次運算後,形成特徵立方塊,再由特徵立方塊轉換為一維特徵值,接著輸入一維特徵值至全連接層,執行全連接運算,能產生全連接卷積神經網路的一輸出數值。
進一步地,在流程中形成的特徵立方塊包含由影像萃取出的影像特徵,並繼續執行一激勵函數以得出影像中一或多個物件的形狀特徵。且經過卷積運算後形成一或多張特徵圖,可再經池化運算進行降維,而仍保留影像中重要資訊。
較佳地,全連接卷積神經網路的輸出數值可用於識別或分類影像。
在另一實施例中,全連接卷積神經網路影像處理方法包括先接收影像,取得影像之長度與寬度,以及一長寬比例,之後查詢一全連接卷積神經網路適用的多種參考影像尺寸建立的對照表,得出對照表中最接近影像的長度與寬度,或是長寬比例的其中之一輸入影像,再縮放輸入影像,使之調整至參考影像的尺寸,如可以盡量保持原始輸入影像的長寬比例。接著即對影像執行卷積運算,並經多次運算後,形成特徵立方塊,由特徵立方塊轉換為一維特徵值,以及輸入一維特徵值至全連接層,執行全連接運算,之後產生全連接卷積神經網路的一輸出數值。
揭露書提出執行以上方法的電路系統,電路系統包括一或多個處理器以及記憶體,以一或多個處理器執行上述全連接卷積神經網路影像處理方法。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不悖離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。
應當可以理解的是,雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號,但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件,或者一信號與另一信號。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
卷積神經網路(CNN)在影像辨識應用上有很大的成果,且陸續開發出以卷積神經網路為基礎的影像處理方法,但在影像處理的方法中,如執行影像識別或分類,若卷積神經網路模型帶有全連接層,輸入影像的條件是要固定長寬大小,如果輸入長寬大小不固定,其中運算就會在第一個全連接層發生錯誤,使得全連接層的權重個數不相同,此時就沒辦法訓練一個固定的網路。
然而,一般影像的長寬大小多半是長方形,甚至有長寬比例更大的狹長形,如16:10、16:9或比例更大的尺寸,若要符合卷積神經網路的適用而將影像縮放到長寬為一樣大小,影像中的物件將可能失出原本的幾何特性,而可能因此無法正確辨識出其中物件,例如影像中的人物、車輛、家電因為影像強制調整長寬比例而變得無法辨識。習知具有全連接層的卷積神經網路需要輸入固定長寬大小的方式將無法滿足實際的需求。
如此,揭露書提出一種全連接卷積神經網路影像處理方法與電路系統,其目的之一是要能儘量保有原始影像的比例特徵進行訓練,而不要求所有影像的長寬是固定大小。另外,所述全連接卷積神經網路影像處理方法可以套用任何已經存在的網路架構,讓原來有限制輸入影像長寬大小的網路可以有彈性的接收不同長寬大小的影像。
先參考圖3所述的一種卷積(convolution)運算的示意圖。
圖3(A)中顯示為逐點卷積運算的輸入層,如一輸入影像數據,以立方塊顯示這個輸入層,其中顯示由標示a、b、 c、d為代表形成的第一層輸入數值,如輸入影像的畫素值,此輸入層顯示為長(H)、寬(W)與深(C1)形成的一立方塊,其中深度(C1)表示此輸入層卷積核的數量(第一數量C1)。就輸入影像而言,H與W如輸入影像的長與寬,C1數值可為3,如紅(Red)、綠(Green)與藍(Blue)三原色通道。
圖3(B)接著示意顯示卷積核實現的1*1篩選器(filter),此例顯示有第二數量C2個篩選器,卷積運算即以此篩選器在上一級輸入層(圖1(A))以一移動窗口依照一步伐(strides)設定而逐一掃描計算,過程中為相乘再加總,最後得出如圖3(C)顯示的輸出數值。
圖3(C)顯示的輸出層為長(H)、寬(W)與深(C2)形成的立方塊,深度(C2)為對照篩選器的數量(第二數量C2)而產生相同數量的特徵圖(feature map),以此顯示輸出數值的數量,H*W*C2表示輸出數值的大小。
卷積核實現一個篩選機制,如圖3(B)所示,所述卷積核中的每一個參數相當於神經網路中的權值參數,與對應的局部像素相連接,所述如移動窗口逐一掃描計算是將卷積核的各個參數與對應的局部像素值做乘法運算,最後再取總和,得到卷積層上的結果。使用卷積核可以提取影像中的特徵,並進行特徵映射(mapping)。
舉例來說,當輸入影像(input image)和一個篩選器(filter)做卷積運算,如圖3(B),此例顯示之篩選器的大小為1*1,深度為3(第一數量C1),將輸入數值與一個篩選器(1*1*3)相乘後,輸出的特徵圖(feature map)顯示是大小為H*W*1的輸出數值。同理,當提出C2個篩選器(如圖3(B)),將會產生C2張特徵圖,合併後即如圖3(C)所示的立方塊。也就是,輸入數值與篩選器經過卷積運算後,形成圖3(C)的輸出層樣態,合併之後大小即為H*W*C2,也就是輸出數值(output data)的大小。
根據卷積運算,設有一個數量(第二數量C2,如圖3(B))的篩選器(卷積核),每個篩選器具有一個數量的值(第一數量C1,此例為3,如圖3(B))和輸入數值中每個位置上的相同數量的值(第一數量C1,此例為3,如圖3(A))個別做乘法運算,最後再取總和,第二數量C2的篩選器經過卷積運算就會形成第二數量C2個特徵圖,合併後形成如圖3(C)所示大小為H*W*C2的特徵圖,也就是卷積運算的輸出數值。
圖3描述的卷積運算即可運作於圖4所示的全連接卷積神經網路影像處理方法中的卷積運算40上。
所述全連接卷積神經網路影像處理方法可以套用任何已經存在的網路架構,讓網路入口可以不限制影像大小,其中主要概念是,最初輸入的輸入影像401被限定為長寬大小一樣,如圖4顯示尺寸為「256x256x3」的輸入影像401輸入全連接卷積神經網路,在卷積運算40中經過多次(此例為5次)池化(pooling)處理,此例顯示縮小(down scale)32倍到尺寸為「8x8x512」的特徵立方塊403,其中特徵立方塊403包含的資訊為由輸入影像401萃取出的影像特徵。在一實施例中,此時可繼續執行激勵函數(activation function),如採用Relu函數,可通過去掉負值得出影像中一或多個物件的形狀特徵。
之後將特徵立方塊403表示的特徵數值,以平坦化(flatten)運算後轉換為一條向量,表示為圖中顯示的一維特徵值405,此例顯示為「32768」,即8乘8乘512的結果,之後再連接到全連接運算42的部分,就是將之前的結果平坦化後接到最基本的神經網絡,如圖2所示,用以建立一深度學習的卷積神經網路模型。
在全連接層中執行全連接運算42,此例顯示左邊有4096個神經元,右邊也有4096個神經元,左邊每個神經元跟右邊每個神經元都有連線,用來將影像中萃取得出的特徵綜合起來,乘上一個權重,共有4096x4096條連接線。其中顯示的一維特徵值405為輸入影像401經過卷積運算40形成,要與全連接層中的4096個神經元進行全連接運算42,此例顯示最終神經網路輸出數值為1000,在一實施例中,此數值表示影像類別,主要作用如用於影像分類。在全連接神經網路中,目的是要通過大量數據的訓練得到更準確的影像識別率,以能分類影像。
根據以上實施例描述,當經過卷積運算40後形成特徵立方塊403時,將特徵數值轉換為一維特徵值405,整體形成的卷積神經網路可以表示為:256x256x3(輸入影像401)-->8x8x512(最後一個特徵立方塊403)-->32768(一維特徵值405)-->4096(第一個全連接層的輸出)-->4096(第二個全連接層輸出)-->1000(最終神經網路輸出)。
在揭露書提出的全連接卷積神經網路影像處理方法的實施方式中,主要概念是,不論輸入影像401的尺寸如何,只要在最後特徵立方塊403經平坦化後形成的一維向量與執行此全連接卷積神經網路影像處理方法的系統提出的一維特徵值405的長度一樣時,就可以適用所提出的全連接卷積神經網路影像處理方法。
如此,如表1所示,表1顯示是已經完成學習的全連接卷積神經網路適用的多種參考影像尺寸對照表,其中由符合特定數量(依照特定的一維特徵值)的多種尺寸(長寬比例)的影像所建立,使得符合表中描述的各種尺寸的影像皆可適用其中建立的學習模型,且不論輸入的影像的長與寬是否為固定比例,此例顯示的參考影像有256x256x3、128x512x3、64x1024x3、32x2048x3、512x128x3、1024x64x3以及2048x32x3,都可適用的全連接卷積神經網路影像處理方法。之後,經過卷積運算後各自形成對應的特徵立方塊,此例顯示為8x8x512、4x16x512、2x32x512、1x64x512、16x4x512、32x2x512以及64x1x512,之後只要都可以形成一樣的一維特徵值,此例顯示為32768,就不會影響此卷積神經網路(CNN)的學習。
表1:
參考影像 特徵立方塊 一維特徵值 第一全連接層 第二全連接層
256x256x3 8x8x512 32768 4096 4096
128x512x3 4x16x512 32768 4096 4096
64x1024x3 2x32x512 32768 4096 4096
32x2048x3 1x64x512 32768 4096 4096
512x128x3 16x4x512 32768 4096 4096
1024x64x3 32x2x512 32768 4096 4096
2048x32x3 64x1x512 32768 4096 4096
全連接卷積神經網路影像處理方法的實施例可參考圖5顯示的流程圖。
一開始,如步驟S501,電路系統接收一張如表1顯示的長寬比例的輸入影像,所接收的影像也是符合預先設定的全連接卷積神經網路適用的多種參考影像尺寸之一。接著,如步驟S503,以此影像執行卷積運算,卷積運算可將輸入影像的與特定的篩選器(filter)做卷積運算,例如將輸入影像依照設定的步伐(stride)掃描影像值,再與卷積核實現的篩選器進行乘加運算,每次卷積運算得到一張特徵圖(feature map),所述篩選器的目的就是萃取出影像中的特徵。期間還可以Relu函數去掉負值,以篩掉不要的數值。卷積運算過程中執行步驟S505,經過卷積運算形成的一或多張特徵圖再通過池化運算,池化的目的為將影像數據量減少(降維),但保留影像中的重要資訊。其中,若採用最大值池化(Max Pooling),就是挑出特徵值中的最大值,最大值池化的目的之一可以在不影響判斷下可以抵抗雜訊,完成運算後,如步驟S507,形成一個具有深度的特徵立方塊。
所述池化演算可有效地降低特徵圖的尺度,形成多張池化後的特徵圖,之後,如步驟S509,經平坦化形成一維特徵值。如表一所示,所述全連接卷積神經網路中預先設定的多個影像尺寸具有相同的一維特徵值的數量,此數量指一維特徵值的模型尺寸(model size),模型尺寸受限於電路系統的處理能力,由一維特徵值符合此模型尺寸的多個影像建立對照表,也就是符合此數量的多個影像建立了全連接卷積神經網路適用的多種參考影像尺寸的對照表。一維特徵值接著輸入全連接層,如步驟S511,執行全連接運算以使一維特徵值接到最基本的神經網絡,如步驟S513,之後輸出結果,運算結果可以用來描述影像特徵。
表2顯示另一個實施範例,輸入的參考影像為192x192x3,經卷積運算後形成特徵立方塊,大小為6x6x512,經平坦化形成一維特徵值18432,形成此例卷積神經網路的權重參數,使得全連接卷積神經網路影像處理方法還可擴大適用其他最後可形成此一維特徵值18432的任何輸入影像,至少如表2顯示的參考影像尺寸128x288x3、96x384x3、64x576x3、32x1152x3、288x128x3與1152x32x3。
表2:
參考影像 特徵立方塊 一維特徵值 第一全連接層 第二全連接層
192x192x3 6x6x512 18432 4096 4096
128x288x3 4x9x512 18432 4096 4096
96x384x3 3x12x512 18432 4096 4096
64x576x3 2x18x512 18432 4096 4096
32x1152x3 1x36x512 18432 4096 4096
288x128x3 9x4x512 18432 4096 4096
1152x32x3 36x1x512 18432 4096 4096
全連接卷積神經網路影像處理方法的另一實施方式可彈性地接受與上述表1、表2或其類似的方案的輸入影像,如圖6顯示之流程。
一開始,如步驟S601,當接收任何一張影像,先得出影像的長度與寬度,以及長寬比例,再如步驟S603,比對表1或表2等顯示的各種參考影像長寬比例的對照表,如步驟S605,查詢(如表1或表2等,但並不限定在這些對照表中)全連接卷積神經網路適用的多種參考影像尺寸建立的對照表,得出對照表中最接近輸入影像長度與寬度,或是長寬比例的參考影像。舉例來說,輸入影像為368x1075,其比例最接近表1顯示的128x512,因此,再如步驟S607,依照參考影像縮放輸入影像,如此例調整到128x512,可盡可能地保有原始長寬比例。
之後,如步驟S609,即以調整後的輸入影像執行卷積運算,將調整後輸入影像的與適當的篩選器做乘加運算,經過多次卷積運算篩選影像特徵,形成特徵圖(feature map), 再如步驟S611,執行池化運算處理雜訊問題,之後,如步驟S613,形成特徵立方塊,經處理成一維特徵值後,即如步驟S615,一維特徵值輸入全連接層,執行全連接運算,最終如步驟S617,輸出卷積神經網路模型(CNN模型)。
在此一提的是,若要針對其他尺寸(如224x224x3),或要更大尺寸的影像,當建立如表1與表2的對照表時,可以進行適當調整,將影像的尺寸調整到適合建立此對照表的尺寸,即可適用相關全連接神經網路的模型上。
根據以上描述的實施例以及表1與表2,可知所述全連接卷積神經網路影像處理方法適用的輸入影像長寬尺寸和入口影像大小的因數個數有關,可以擴大適用的影像範圍。如表1顯示的範例,從原始影像(256x256x3)的長或寬256縮小32倍後,成為長或寬為8的特徵立方塊(8x8x512),以H表示為原始影像的長與寬,原始影像尺寸為HxH,則後改後可能的入口影像大小可能性有(H/32)*(H/32)的因數個數,若以s作為降維的倍數,則可適用的輸入影像尺寸可能性有(H/s)*(H/s)的因數個數。當希望適用的影像尺寸更多樣性,只要在可接受大小的限制下因數個數((H/s)*(H/s))即可。
上述實施例所描述的全連接卷積神經網路影像處理方法實施於一電路系統中,如積體電路(IC)實現的影像處理晶片,或是特定處理應用上,如網路攝影機(IP Cam),其中實現的卷積神經網路模型可用於執行影像辨識、分類等目的,相關的電路系統實施例示意圖可參考圖7。
圖中顯示有一電腦系統70,其中具備一或多個處理器,圖中以處理器701表示,可實現一電路系統,相關週邊元件有記憶體703、接收輸入影像數據71的輸入介面705,影像經輸入介面705接收後,暫存至記憶體703中,期間運行的卷積運算、池化運算、平坦化與全連接運算所產生的數據將同樣地暫存至記憶體703中,例如卷積運算中得出的特徵圖、特徵立方塊、一維特徵值。最後將輸出結果72經輸出介面707輸出。
其中處理器701運行上述全連接卷積神經網路影像處理方法,經收影像數據71後,可以先查詢事先建立的卷積神經網路模型,得出或是調整到適用的輸入影像條件,接著執行卷積運算與全連接運算,萃取出影像特徵,形成輸出結果72,以影像處理為例,輸出結果72可進行影像識別與分類。
綜上所述,在習知技術利用卷積運算執行影像處理時,如果輸入影像大小不固定時,會產生錯誤;若是強制將影像縮放到固定大小,如方形,又可能發生影像識別準確度下降、不易分類與失去影像長寬比例特徵的缺點;或是有習知技術刻意刪除全連接層,卻也喪失了全連接層的優點。如此,揭露書針對習知缺點提出改善方案,即上述實施例所描述的全連接卷積神經網路影像處理方法與電路系統,利用預先設定的全連接神經網路適用的多種參考影像尺寸建立的對照表,使得此神經網路能彈性接收長寬比例不同的輸入影像,並在實質保有原始影像比例特徵下進行影像分類與識別。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
10:卷積運算
12:全連接運算
101:原始影像
103:立方塊
C1:第一數量
C2:第二數量
40:卷積運算
42:全連接運算
401:輸入影像
403:特徵立方塊
405:一維特徵值
70:電腦系統
701:處理器
703:記憶體
705:輸入介面
707:輸出介面
71:影像數據
72:輸出結果
步驟S501~S513:全連接卷積神經網路影像處理流程
步驟S601~S617:全連接卷積神經網路影像處理流程
圖1顯示習知卷積神經網路結構示意圖;
圖2顯示習知全連接運算示意圖;
圖3所示為逐點卷積運算的示意圖;
圖4示意表示全連接卷積神經網路影像處理方法的實施例;
圖5顯示全連接卷積神經網路影像處理方法的流程實施例之一;
圖6顯示全連接卷積神經網路影像處理方法的流程實施例之二;
圖7運行全連接卷積神經網路影像處理方法的電路系統實施例示意圖。
40:卷積運算
42:全連接運算
401:輸入影像
403:特徵立方塊
405:一維特徵值

Claims (9)

  1. 一種全連接卷積神經網路影像處理方法,運作於一全連接卷積神經網路中,包括:接收一影像,取得該影像之長度與寬度,以及一長寬比例;查詢一全連接卷積神經網路適用的多種參考影像尺寸建立的一對照表,得出該對照表中符合該影像的長度與寬度,或該長寬比例的其中之一參考影像,其中該對照表由已經完成學習的全連接卷積神經網路適用的多種參考影像尺寸所建立,使得符合該對照表中描述的各種尺寸的影像皆可適用其中建立的學習模型;對該影像執行一卷積運算,並經多次運算後,形成一特徵立方塊;由該特徵立方塊轉換為一一維特徵值;輸入該一維特徵值至一全連接層,執行一全連接運算;以及產生該全連接卷積神經網路的一輸出數值;其中該一維特徵值包括一數量的模型尺寸,即以該一維特徵值符合該數量的多個影像建立該全連接卷積神經網路適用的多種參考影像尺寸的該對照表。
  2. 如請求項1所述的全連接卷積神經網路影像處理方法,其中該特徵立方塊包含由該影像萃取出的影像特徵,並繼續執行一激勵函數以得出該影像中一或多個物件的形狀特徵。
  3. 如請求項1所述的全連接卷積神經網路影像處理方法,其中,經過該卷積運算後形成一或多張特徵圖,再經一池化運算進行降維,而仍保留該影像中重要資訊。
  4. 如請求項1所述的全連接卷積神經網路影像處理方法,其中該全連接層包括有多個神經元,每個神經元彼此連線,用來將該影像中萃取得出的特徵綜合起來。
  5. 如請求項4所述的全連接卷積神經網路影像處理方法,其中該全連接卷積神經網路的該輸出數值用於識別或分類該影像。
  6. 如請求項1至5中任一項所述的全連接卷積神經網路影像處理方法,其中,於形成該特徵立方塊時,以一平坦化運算得出該一維特徵值。
  7. 一種全連接卷積神經網路影像處理方法,運作於一全連接卷積神經網路中,包括:接收一影像,取得該影像之長度與寬度,以及一長寬比例;查詢一全連接卷積神經網路適用的多種參考影像尺寸建立的一對照表,得出該對照表中最接近該影像的長度與寬度,或該長寬比例的其中之一參考影像,其中該對照表由已經完成學習的全連接卷積神經網路適用的多種參考影像尺寸所建立,使得符合該對照表中描述的各種尺寸的影像皆可適用其中建立的學習模型;縮放該影像,使之調整至該參考影像的尺寸;對該影像執行一卷積運算,並經多次運算後,形成一特徵立方塊;由該特徵立方塊轉換為一一維特徵值;輸入該一維特徵值至一全連接層,執行一全連接運算;以及產生該全連接卷積神經網路的一輸出數值;其中該一維特徵值包括一數量的模型尺寸,由一維特徵值符合該數量的多個影像建立該全連接卷積神經網路適用的多種參考影像尺寸的該對照表。
  8. 一種電路系統,包括:一或多個處理器,電性連接一記憶體,以該一或多個處理器執行一全連接卷積神經網路影像處理方法,該全連接卷積神經網路影像處理方法運行於一全連接卷積神經網路中,包括以 下步驟:通過一輸入介面接收一影像,取得該影像之長度與寬度,以及一長寬比例;查詢一全連接卷積神經網路適用的多種參考影像尺寸建立的一對照表,得出該對照表中最接近該影像的長度與寬度,或該長寬比例的其中之一參考影像,其中該對照表由已經完成學習的全連接卷積神經網路適用的多種參考影像尺寸所建立,使得符合該對照表中描述的各種尺寸的影像皆可適用其中建立的學習模型;縮放該影像,使之調整至該參考影像的尺寸;對該影像執行一卷積運算,並經多次運算後,形成一特徵立方塊;由該特徵立方塊轉換為一一維特徵值;輸入該一維特徵值至一全連接層,執行一全連接運算;以及產生該全連接卷積神經網路的一輸出數值;其中該一維特徵值包括一數量的模型尺寸,由一維特徵值符合該數量的多個影像建立該全連接卷積神經網路適用的多種參考影像尺寸的該對照表。
  9. 如請求項8所述的電路系統,其中該特徵立方塊包含由該影像萃取出的影像特徵,並繼續執行一激勵函數以得出該影像中一或多個物件的形狀特徵。
TW108128101A 2019-08-07 2019-08-07 全連接卷積神經網路影像處理方法與電路系統 TWI712961B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108128101A TWI712961B (zh) 2019-08-07 2019-08-07 全連接卷積神經網路影像處理方法與電路系統
US16/876,294 US11423635B2 (en) 2019-08-07 2020-05-18 Method for processing image using fully connected convolutional neural network and circuit system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108128101A TWI712961B (zh) 2019-08-07 2019-08-07 全連接卷積神經網路影像處理方法與電路系統

Publications (2)

Publication Number Publication Date
TWI712961B true TWI712961B (zh) 2020-12-11
TW202107344A TW202107344A (zh) 2021-02-16

Family

ID=74498588

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108128101A TWI712961B (zh) 2019-08-07 2019-08-07 全連接卷積神經網路影像處理方法與電路系統

Country Status (2)

Country Link
US (1) US11423635B2 (zh)
TW (1) TWI712961B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230196526A1 (en) * 2021-12-16 2023-06-22 Mediatek Inc. Dynamic convolutions to refine images with variational degradation
CN117592521B (zh) * 2023-11-28 2024-06-28 浙江大学 一种用于全同态cnn推理的批量编码方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700118A (zh) * 2015-03-18 2015-06-10 中国科学院自动化研究所 基于卷积神经网络的肺结节良恶性预测方法
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
TW201832134A (zh) * 2017-06-02 2018-09-01 大陸商騰訊科技(深圳)有限公司 人臉辨識訓練方法、裝置、電子設備、電腦可讀儲存介質及電腦程式產品
US20190220702A1 (en) * 2016-06-28 2019-07-18 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136803A (ja) * 2017-02-23 2018-08-30 株式会社日立製作所 画像認識システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700118A (zh) * 2015-03-18 2015-06-10 中国科学院自动化研究所 基于卷积神经网络的肺结节良恶性预测方法
CN105447190A (zh) * 2015-12-18 2016-03-30 小米科技有限责任公司 基于卷积神经网络的图片检索方法、装置和服务器
US20190220702A1 (en) * 2016-06-28 2019-07-18 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
TW201832134A (zh) * 2017-06-02 2018-09-01 大陸商騰訊科技(深圳)有限公司 人臉辨識訓練方法、裝置、電子設備、電腦可讀儲存介質及電腦程式產品

Also Published As

Publication number Publication date
US11423635B2 (en) 2022-08-23
US20210042560A1 (en) 2021-02-11
TW202107344A (zh) 2021-02-16

Similar Documents

Publication Publication Date Title
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN112084849B (zh) 图像识别方法和装置
CN113673590A (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
WO2021114814A1 (zh) 人体属性识别方法、装置、电子设备以及存储介质
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN108470320A (zh) 一种基于cnn的图像风格化方法及系统
CN109583481B (zh) 一种基于卷积神经网络的细粒度服装的属性识别方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN112434655A (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN107516103B (zh) 一种影像分类方法和系统
CN112883941A (zh) 一种基于并行神经网络的人脸表情识别方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN115631454A (zh) 一种基于多尺度注意力机制的视频图像人群计数方法
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN114998610A (zh) 一种目标检测方法、装置、设备及存储介质
TWI712961B (zh) 全連接卷積神經網路影像處理方法與電路系統
CN111738099A (zh) 基于视频图像场景理解的人脸自动检测方法
CN112396077B (zh) 全连接卷积神经网络图像处理方法与电路系统
CN113705359A (zh) 一种基于洗衣机滚筒图像的多尺度衣物检测系统及方法
Huang et al. Residual networks as flows of velocity fields for diffeomorphic time series alignment
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法