TWI869931B

TWI869931B - 車牌辨識系統及其方法

Info

Publication number: TWI869931B
Application number: TW112126376A
Authority: TW
Inventors: 林鼎; 王志鴻; 姚明孝; 王冠傑; 游思湉
Original assignee: 艾陽科技股份有限公司
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2025-01-11
Also published as: TW202503699A

Abstract

一種車牌辨識系統及其方法，係至少包含有一伺服器設備，該伺服器設備係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔係具有一雙排字元，透過深度學習訓練，以產生一神經網路模型，並能夠將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊，最後再透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容。

Description

車牌辨識系統及其方法

本發明是有關一種車牌辨識系統及其方法，特別是一種能夠辨識具有雙排字元的車牌之辨識系統及其方法。

一般車牌上皆會具有車牌編號(車牌號碼)，由於車牌規格的限制，故往往會有雙排車牌的情況發生，對於傳統辨識雙排字元車牌的方法，一般需要先定位字元所在的位置，再使用OCR辨識模組，用以辨識不同位置的字元，之後將不同位置的辨識結果串接，以得到最終的辨識結果。

然而傳統對於這一類具有雙排字元的車牌，往往需要分別標註上下兩排的字元，再分別進行辨識，這樣的方式是非常費時的，但傳統若是將雙排字元標註起來要進行辨識是有難度的，往往會有辨識度下降的問題發生，因此若能夠克服如此問題，將能夠有效降低辨識所花費的時間與成本。

因此，本案使用較為深層的神經網路作為骨幹，透過訓練的過程，網路除了從影像中提取字元特徵，還將雙排的影像字元特徵(單排的影像字元特徵亦可)做一定程度的重新排列，使其特徵圖依序排列了影像中的字元特徵，進入到最後的輸出層時得以使用辨識的方式處理，以取得辨識車牌字元內容，因此本發明應為一最佳解決方案。

本發明車牌辨識系統，係包含：至少一伺服器設備，係至少包含有：一車牌資料儲存模組，係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔上係具有一標註區域，而該標註區域之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元；一神經網路學習模組，係與該車牌資料儲存模組相連接，用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型；一車牌辨識模組，係與該車牌資料儲存模組及該神經網路學習模組相連接，用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊；以及一解碼輸出模組，係與該車牌辨識模組相連接，用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容。

更具體的說，所述辨識車牌字元內容係對應於該等待辨識車牌圖片檔上的車牌編碼，該車牌編碼係為單排字元或是雙排字元。

更具體的說，所述解碼演算法係為一貪婪演算法(Greedy algorithm)或是一定向搜尋演算法(Beam Search)。

更具體的說，所述神經網路模型係至少具有多個卷積層及一反卷積層，其中經過多個卷積層能夠將該標註區域之影像內容提取出為一特徵圖，用以將影像內容中的字元特徵重新排列，而該反卷積層用以放大該特徵圖，以提高辨識字串長度的上限，其中該特徵圖上係對應具有多個時間特徵區域。

更具體的說，所述反卷積層係連接有一字元特徵提取層，該字元特徵提取層係依據多個字元種類，對該特徵圖之每一個時間特徵區域進行提取一字元特徵矩陣，該字元特徵矩陣係至少包含一輸出通道數量資訊、一垂直方向特徵資訊及一水平方向特徵資訊，其中該輸出通道數量資訊係為一字元種類數量，其中該垂直方向特徵資訊係為該時間特徵區域的高度，其中該水平方向特徵資訊係為該時間特徵區域的寬度。

更具體的說，所述字元特徵提取層係連接有一取平均降維層，該取平均降維層用以將該字元特徵矩陣之所有的垂直方向特徵資訊取出一平均值，以輸出一降維字元特徵矩陣。

更具體的說，所述取平均降維層係連接有一輸出層，該輸出層係透過一連結時序分類方法對該降維字元特徵矩陣進行處理，並由該解碼輸出模組透過該解碼演算法將每一個時間特徵區域辨識為一個字元，並移除連續的字元與空白，以取得該辨識車牌字元內容。

一種車牌辨識方法，其步驟為：(1)一伺服器設備係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔上係具有一標註區域，而該標註區域之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元；(2)該伺服器設備用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型；(3)該伺服器設備用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊；(4)該伺服器設備用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容。

更具體的說，所述神經網路模型係至少具有多個卷積層、一反卷積層、一字元特徵提取層、一取平均降維層及一輸出層，該多個卷積層將該標註區域之影像內容提取出為一具有多個時間特徵區域之特徵圖，用以將影像中的字元特徵重新排列，該反卷積層用以放大該特徵圖，該字元特徵提取層用以對該特徵圖之每一個時間特徵區域進行提取一字元特徵矩陣，而該取平均降維層用以將該字元特徵矩陣降維並輸出一降維字元特徵矩陣，該輸出層再透過一連結時序分類方法對該降維字元特徵矩陣進行處理，透過該解碼演算法將每一個時間特徵區域辨識為一個字元，並移除連續的字元與空白，以取得該辨識車牌字元內容。

1:伺服器設備

11:處理器

12:電腦可讀取記錄媒體

121:應用程式

1211:車牌資料儲存模組

1212:神經網路學習模組

1213:車牌辨識模組

1214:解碼輸出模組

2:車牌本體

21:標註區域

[第1圖]係本發明車牌辨識系統及其方法之整體架構示意圖。

[第2圖]係本發明車牌辨識系統及其方法之應用程式之架構示意圖。

[第3圖]係本發明車牌辨識系統及其方法之車牌樣本圖片檔之影像內容示意圖。

[第4A圖]係本發明車牌辨識系統及其方法之神經網路模型之網路架構示意圖。

[第4B圖]係本發明車牌辨識系統及其方法之神經網路模型之瓶頸層之網路架構示意圖。

[第4C圖]係本發明車牌辨識系統及其方法之神經網路模型之字元特徵提取層之網路架構示意圖。

[第5圖]係本發明車牌辨識系統及其方法之流程示意圖。

有關於本發明其他技術內容、特點與功效，在以下配合參考圖式之較佳實施例的詳細說明中，將可清楚的呈現。

請參閱第1圖，為本發明車牌辨識系統及其方法之整體架構示意圖，由圖中可知，該車牌辨識系統係包含一伺服器設備1，該伺服器設備1係至少包含有至少一個處理器11及至少一個電腦可讀取記錄媒體12，該等電腦可讀取記錄媒體12儲存有至少一個應用程式121，其中該電腦可讀取記錄媒體12更進一步儲存有電腦可讀取指令，當由該等處理器11執行該等電腦可讀取指令時，能夠使該應用程式121進行運作。

如第2圖所示，該應用程式121係包含有一車牌資料儲存模組1211、一神經網路學習模組1212、一車牌辨識模組1213及一解碼輸出模組1214。

該車牌資料儲存模組1211係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔(車牌樣本圖片檔用以做為深度學習訓練用的資料集)，如第3圖所示，該車牌樣本圖片檔上係具有一車牌本體2，而該車牌本體2表面上係具有一標註區域21，該標註區域21之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元或一單排字元，本案是取具有單排字元的車牌影像及具有雙排字元的車牌影像進行訓練。

該辨識車牌字元內容係對應於該等待辨識車牌圖片檔上的車牌編碼，該車牌編碼係為單排字元或是雙排字元，其中每張車牌至少包含6個字元。

該神經網路學習模組1212係與該車牌資料儲存模組1211相連接，用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型，如第4圖所示，本實施例中，是建構以resnet50為骨幹的神經網路，用以訓練神經網路。

當車牌樣本圖片檔輸入該神經網路學習模組1212時，神經網路輸入尺寸，寬240像素，高96像素，輸入維度是1x3x96x240，經過神經網路處理，得到網路輸出層矩陣，輸出層維度是1x36x30。

本實施例中，影像字元特徵的集合為數字0~9、英文大寫字母A-Z除去I、O及dash(-)，共36種字元，但不限於如此，不同類型字元亦可應用於本案的技術架構。

本實施例中，是使用resnet50為骨幹(本案骨幹可不限於resnet50，也可使用較為輕量的resnet34)，保留前方N層卷積層，作為影像的特徵提取器(輸入(input)->二維卷積層(conv2D)->批量標準化層(BN)->整流線性單位函數(ReLU)->二維最大池化層(MaxPooling2D)->瓶頸層C=64(bottleneck layer)->瓶頸層C=128(bottleneck layer)->瓶頸層C=256(bottleneck layer))，其中虛線框旁的*3,*4,*6，代表該區塊重複3次、4次、6次。

上述經過多個卷積層能夠將該標註區域之影像內容提取出為一特徵圖，用以將影像內容中的字元特徵重新排列。

如第4B圖所示，為網路架構圖中的瓶頸層(輸入(input)->二維卷積層(conv2D)卷積核1x1輸出通道C->批量標準化層(BN)->整流線性單位函數(ReLU)->二維卷積層(conv2D)卷積核3x3輸出通道C->批量標準化層(BN)->整流線性單位函數(ReLU)->二維卷積層(conv2D)卷積核3x3輸出通道Cx4->批量標準化層(BN)->特徵相加層(Add)->整流線性單位函數(ReLU)->輸出層(Output))(輸入(input)->二維卷積層(conv2D)卷積核1x1輸出通道Cx4->批量標準化層(BN)->特徵相加層(Add))。

接續第4A圖，接上二維反卷積層(TransposConv2d)、字元特徵提取層、取平均降維層(ReduceMean)、輸出層(Output)。

該反卷積層(二維反卷積層)用以放大該特徵圖，以提高辨識字串長度的上限，其中該特徵圖上係對應具有多個時間特徵區域(timestep)，於本實施例中，將輸出層的timestep由15提高為30，後續在字元特徵提取層的輸出層，有較多的時間特徵區域(timestep)，提供連結時序分類方法(Connectionist temporal classification,CTC)對應特徵圖中各個水平位置上的字元。

進一步說明，反捲積層的主要目的是提高理論上能辨識的最大字串長度。

進一步說明，序列處理模型中，timestep通常指的是序列中的時間特徵區域(亦可稱為時間步長)，每一個時間特徵區域都對應著序列中的一個元素。例如，如果我們有一個句子「我喜歡吃蘋果」，每個字可以視為一個timestep，因此這個句子就有六個timesteps。

其中連結時序分類方法(Connectionist temporal classification,CTC)是一種用來處理序列數據的技術，特別適合處理輸入和輸出的長度不一致的情況，由於每一個timestep的輸出(特徵圖的每個區域)會對應到一個可能的字符，CTC就是用來決定每個timestep應該對應到哪個字符。

該反卷積層連接有字元特徵提取層，該字元特徵提取層係依據多個字元種類，對該特徵圖之每一個時間特徵區域進行提取一字元特徵矩陣，該字元特徵矩陣係至少包含一輸出通道數量資訊、一垂直方向特徵資訊及一水平方向特徵資訊，其中該輸出通道數量資訊係為一字元種類數量，其中該垂直方向特徵資訊係為該時間特徵區域的高度，其中該水平方向特徵資訊係為該時間特徵區域的寬度。

如第4C圖所示，為網路架構圖中的字元特徵提取層(輸入(input)->二維卷積層(conv2D)卷積核13x1輸出通道1024->整流線性單位函數(ReLU)->二維卷積層(conv2D)卷積核1x30輸出通道36->整流線性單位函數(ReLU)->輸出層(Output))，由圖中可知，本實施例是使用13x1尺寸的卷積核(kernel)和1x30尺寸的卷積核分別提取垂直跟水平方向的相關資訊，輸出通道數(channel)為36，對應可能的35種字元加上空白(blank)，空白(blank)為CTC loss function訓練時所需的特殊字元，而輸出矩陣維度是1x36x13x30。

其中13x1的卷積核主要是捕捉影像垂直方向的特徵，而1x30的卷積核則是捕捉水平方向的特徵。

其中輸出通道數為36，代表輸出有36個獨立的特徵地圖(feature map)，每一個特徵地圖都是對原始輸入資訊的不同表徵。在這個情況下，這36個通道對應到可能的35種字元加上一個表示空白的特殊字元(blank)，空白字符在CTC loss function中是必需的，它用於表示不同字元之間的分隔。

其中輸出通道數為36，這是因為本實施例使用了35種可能的字元以及一種特殊的空白符號。這35種可能的字元通常包括26個英文字母和9個數字(或者根據實際的車牌系統有所不同)。

其中輸出矩陣維度是1x36x13x30，第一維度(1)是批次大小(batch size)，代表同時處理的圖片數量，在這個案例中，我們一次處理一張圖片。

第二維度(36)是通道數(channel)，如前所述，對應到35個可能的字元和一個空白字符。

第三維度與第四維度(13和30)分別代表了特徵地圖的高度和寬度。這表示我們在垂直方向上有13個不同的位置，水平方向上有30個不同的位置，所以我們共有13x30=390個位置，每一個位置都有一個36維的向量來表徵該位置的資訊。

該字元特徵提取層係連接有取平均降維層(ReduceMean)，該取平均降維層用以將該字元特徵矩陣之所有的垂直方向特徵資訊(高度)取出一平均值，以輸出一降維字元特徵矩陣。

進一步說明，取平均降維層(ReduceMean)將前一層的輸出針對第三維度(高度)取平均降低維度，作為網路的最終輸出層，輸出矩陣維度是1x36x30，其中36對應了可能的字元類別，30對應了特徵圖的時間特徵區域(timestep)。

該取平均降維層係連接有一輸出層，該輸出層係透過一連結時序分類方法對該降維字元特徵矩陣進行處理，輸出層代表神經網路運算的結果，之後需要透過解碼處理將這些結果轉換為對應的字串。

本實施例中的損失函數(loss function)使用連結時序分類方法(Connectionist temporal classification,CTC)，並透過Adam優化法訓練網路，其中初始學習率為0.0001，學習率使用指數衰減，每20 epochs衰減率為0.5，每次批次大小為128張圖片，每2個epoch使用驗證資料集，總共訓練100 epochs，存下訓練過程中驗證正確率最高的權重，該權重即為訓練完成的最終模型權重。

如下表一所示，以4 x T的矩陣做為輸出層輸出之分析結果資訊(各個timestep特徵值)的例子，並進一步說明神經網路的輸出矩陣(36 x 30)如何解碼為最終的輸出字串，於此例子中，縱軸為各個字元，橫軸為timesteps，可能的字元種類(A~C+blank)為4，timesteps的數量為T，ε代表空白字元，矩陣中的數字代表機率，其中每個timestep對應一行，每行的總和為1(所有可能性的機率和為1)；表一是經網路輸出層的矩陣數值(分析結果資訊)，但尚未轉換為最後的字串，故仍需要解碼處理將這些結果轉換為對應的字串。

該車牌辨識模組1213係與該車牌資料儲存模組1211及該神經網路模型相連接，用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊(輸出各個timestep特徵值)。

該解碼輸出模組1214係與該車牌辨識模組1213相連接，用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容，該解碼演算法係為一連串特定規則的運算，例如貪婪演算法(Greedy algorithm)或是定向搜尋演算法(Beam Search)。

該解碼輸出模組1214透過該解碼演算法，將該輸出層所輸出之每一個時間特徵區域辨識為一個字元，並移除連續的字元與空白，以取得該辨識車牌字元內容。

進一步說明，解碼演算法是依序處理每一個時間特徵區域 (timestep)，計算最大值所對應的字元，代表該時間特徵區域(timestep)所辨識的字元，處理完每個時間特徵區域(timestep)後，將各自的字元串接，移除連續的字元與空白(blank)，得到最終的輸出結果。

本案的解碼技術，參考表一的例子進行解說，首先，第一步驟，先在每一個timestep的位置取出機率最高的字元，第一個timestep最高機率為0.7，對應字元為A，第二個timestep，機率最高的字元為ε，以此類推，記錄所有timestep的最高機率字元；第二步驟，移除連續相同字元中的重複字元，例如AAA移除修正為「A」，AABBBCC修正為「ABC」；第三步驟，移除空白字元得到最終結果。

於表一的例子中，前三個timestep，在第一步驟得到的字串為AεC，最終結果為「AC」。

前述第一步驟直接取最高機率的方式是Greedy algorithm的特性，而第二步驟與第三步驟是配合CTC的規則，與Beam Search相同。

另外，若是第一步驟得到的字串是AεCCCεBB，第二步驟移除連續相同字元中的重複字元(AεCCCεBB=>AεCεB)，第三步驟，移除空白字元得到最終結果(ACB)。

本實驗例中，訓練神經網路使用13630張車牌影像，測試時使用8800張車牌影像，其中包括2300張雙排字元車牌影像，單排字元車牌影像正確率為98.04%，雙排字元車牌影像正確率為94.69%。

本案車牌辨識方法，如第5圖所示，其步驟為： (1)一伺服器設備係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔上係具有一標註區域，而該標註區域之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元501；(2)該伺服器設備用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型502；(3)該伺服器設備用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊503；(4)該伺服器設備用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容504。

本發明所提供之車牌辨識系統及其方法，與其他習用技術相互比較時，其優點如下：

(1)本發明使用較為深層的神經網路作為骨幹，透過訓練的過程，網路除了從影像中提取字元特徵，還將單排與雙排的影像字元特徵做一定程度的重新排列，使其特徵圖依序排列了影像中的字元特徵，進入到最後的輸出層時得以使用一般針對單行文字辨識的方式處理。

(2)本發明使用的神經網路，不僅可應用於單排字元車牌，對於雙排字元車牌仍具有高度的辨識能力。

(3)本發明相較於傳統辨識雙排字元車牌的方法，本案不需上下兩排分開辨識，而能夠雙排同時進行辨識，如此將能夠有效降低辨識所花費的時間與成本。

本發明已透過上述之實施例揭露如上，然其並非用以限定本發明，任何熟悉此一技術領域具有通常知識者，在瞭解本發明前述的技術特徵及實施例，並在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之專利保護範圍須視本說明書所附之請求項所界定者為準。

121:應用程式

1211:車牌資料儲存模組

1212:神經網路學習模組

1213:車牌辨識模組

1214:解碼輸出模組

Claims

一種車牌辨識系統，係包含：至少一伺服器設備，係至少包含有：一車牌資料儲存模組，係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔上係具有一標註區域，而該標註區域之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元或一單排字元；一神經網路學習模組，係與該車牌資料儲存模組相連接，用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型；一車牌辨識模組，係與該車牌資料儲存模組及該神經網路學習模組相連接，用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊；以及一解碼輸出模組，係與該車牌辨識模組相連接，用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容，其中該解碼演算法係為一貪婪演算法(Greedy algorithm)或是一定向搜尋演算法(Beam Search)；其中該神經網路模型係至少具有多個卷積層、一反卷積層、一字元特徵提取層、一取平均降維層及一輸出層，該多個卷積層將該標註區域之影像內容提取出為一具有多個時間特徵區域之特徵圖，用以將該影像內容中的字元特徵重新排列，該反卷積層用以放大該特徵圖，該字元特徵提取層用以對該特徵圖之每一個時間特徵區域進行提取一字元特徵矩陣，而該取平均降維層用以將該字元特徵矩陣降維並輸出一降維字元特徵矩陣，該輸出層再透過一連結時序分類方法對該降維字元特徵矩陣進行處理以取得該分析結果資訊，該分析結果資訊係為每一個時間特徵區域的特徵值，再透過該解碼演算法將每一個時間特徵區域辨識為一個字元，並移除連續的字元與空白，以取得該辨識車牌字元內容。
如請求項1所述之車牌辨識系統，其中該辨識車牌字元內容係對應於該等待辨識車牌圖片檔上的車牌編碼，該車牌編碼係為單排字元或是雙排字元。
如請求項1所述之車牌辨識系統，其中該反卷積層放大該特徵圖，用以提高辨識字串長度的上限。
如請求項1所述之車牌辨識系統，其中該反卷積層係連接該字元特徵提取層，該字元特徵提取層係依據多個字元種類，對該特徵圖之每一個時間特徵區域進行提取該字元特徵矩陣，該字元特徵矩陣係至少包含一輸出通道數量資訊、一垂直方向特徵資訊及一水平方向特徵資訊，其中該輸出通道數量資訊係為一字元種類數量，其中該垂直方向特徵資訊係為該時間特徵區域的高度，其中該水平方向特徵資訊係為該時間特徵區域的寬度。
如請求項1所述之車牌辨識系統，其中該字元特徵提取層係連接有該取平均降維層，該取平均降維層用以將該字元特徵矩陣之所有的垂直方向特徵資訊取出一平均值，以輸出該降維字元特徵矩陣。
一種車牌辨識方法，其步驟為：一伺服器設備係儲存有至少一個等待辨識車牌圖片檔及多個車牌樣本圖片檔，該車牌樣本圖片檔上係具有一標註區域，而該標註區域之影像內容係為一影像字元特徵，該影像字元特徵係為一雙排字元；該伺服器設備用以將多個車牌樣本圖片檔之標註區域進行深度學習訓練，以產生一神經網路模型；該伺服器設備用以將該等待辨識車牌圖片檔輸入該神經網路模型以輸出一分析結果資訊；該伺服器設備用以透過一解碼演算法對該分析結果資訊進行解碼，以取得一辨識車牌字元內容，其中該解碼演算法係為一貪婪演算法(Greedy algorithm)或是一定向搜尋演算法(Beam Search)；其中該神經網路模型係至少具有多個卷積層、一反卷積層、一字元特徵提取層、一取平均降維層及一輸出層，該多個卷積層將該標註區域之影像內容提取出為一具有多個時間特徵區域之特徵圖，用以將該影像內容中的字元特徵重新排列，該反卷積層用以放大該特徵圖，該字元特徵提取層用以對該特徵圖之每一個時間特徵區域進行提取一字元特徵矩陣，而該取平均降維層用以將該字元特徵矩陣降維並輸出一降維字元特徵矩陣，該輸出層再透過一連結時序分類方法對該降維字元特徵矩陣進行處理以取得該分析結果資訊，該分析結果資訊係為每一個時間特徵區域的特徵值，再透過該解碼演算法將每一個時間特徵區域辨識為一個字元，並移除連續的字元與空白，以取得該辨識車牌字元內容。