TWI781856B

TWI781856B - 藥物影像辨識方法、電腦設備及儲存介質

Info

Publication number: TWI781856B
Application number: TW110147307A
Authority: TW
Inventors: 王育任; 呂孟蘋
Original assignee: 新加坡商鴻運科股份有限公司
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-10-21
Also published as: TW202326613A

Abstract

本申請涉及圖像處理，提供一種藥物影像辨識方法、電腦設備及儲存介質。該方法包括：獲取多張藥物圖像及待測藥物圖像，獲取預先訓練後的藥物偵測模型，藥物偵測模型包括位置偵測網路、文字辨識網路及類別辨識網路，將多張藥物圖像輸入到位置偵測網路中，得到多張目標圖像；將多張目標圖像輸入到文字辨識網路、類別辨識網路中，生成複數文字特徵矩陣、複數影像特徵矩陣；根據每個文字特徵矩陣及對應的影像特徵矩陣生成參照矩陣；基於藥物偵測模型處理待測藥物圖像，得到待測矩陣，根據待測矩陣與每個參照矩陣的相似度生成辨識結果。

Description

藥物影像辨識方法、電腦設備及儲存介質

本申請涉及影像處理領域，尤其涉及一種藥物影像辨識方法、電腦設備及儲存介質。

在現有藥物影像辨識方案中，需要耗費大量人力標記藥物資料，當訓練資料過少時還會導致訓練模型的辨識準確性不佳，因此，如何提高藥物影像辨識準確性，成為了亟需解決的技術問題。

鑒於以上內容，有必要提供一種藥物影像辨識方法、電腦設備及儲存介質，能夠解決難以對藥物影像進行準確且高效識別的技術問題。

一種藥物影像辨識方法，所述藥物影像辨識方法包括：獲取多張藥物圖像及待測藥物圖像；獲取預先訓練完成的藥物偵測模型，所述藥物偵測模型包括位置偵測網路、文字辨識網路及類別辨識網路；將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像，每張目標圖像中包含有單個藥物的圖像；根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣；將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣；根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣；基於所述藥物偵測模型處理所述待測藥物圖像，得到待測矩陣；根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果。

根據本申請可選實施例，在將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像之前，所述藥物影像辨識方法還包括：獲取位置偵測學習器及位置圖像，所述位置圖像包括第一圖像及第二圖像，所述第二圖像包括多張標記圖像及多張未標記圖像；使用所述第一圖像對所述位置偵測學習器進行訓練，得到第一預訓練網路；基於所述多張標記圖像對所述第一預訓練網路進行調整，得到第一標記網路；將所述多張未標記圖像輸入到所述第一標記網路中，得到輸出圖像及每張輸出圖像所包含藥物的預測概率值；將大於預設閾值的預測概率值所對應的輸出圖像對所述第一標記網路進行調整，得到第二標記網路；計算所述第二標記網路的第一損失值，並基於所述第一損失值對所述第二標記網路進行多次調整，直至所述第一損失值下降到最低後停止調整，得到所述位置偵測網路。

根據本申請可選實施例，在根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣前，所述藥物影像識別方法還包括：獲取文字圖像及文字辨識學習器，所述文字圖像包括第三圖像及第四圖像；使用所述第三圖像對所述文字辨識學習器進行訓練，得到第二預訓練網路，其中，所述第二預訓練網路包括卷積神經網路模型及循環神經網路模型；計算所述第二預訓練網路的第二損失值，並透過所述第二損失值進行反向傳播，對所述第二預訓練網路的參數進行多次調整，直至所述第二預訓練模型達到收斂後停止調整，得到所述文字辨識網路。

根據本申請可選實施例，所述根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣包括：將每張目標圖像進行色彩轉換，得到多張文字灰階圖像；將每張文字灰階圖像進行二值化處理，得到多張二值化圖像；將每張二值化圖像進行濾波處理，得到多張濾波圖像；定位每張濾波圖像中藥物文字的位置，得到文字位置；根據所述文字位置從每張目標圖像中框選出文字圖像；將每張文字圖像輸入到所述卷積神經網路模型進行特徵提取，得到特徵序列；將所述特徵序列輸入到所述循環神經網路模型中，得到所述複數文字特徵矩陣。

根據本申請可選實施例，在將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣之前，所述藥物影像識別方法還包括：獲取類別辨識學習器，所述類別辨識學習器中使用soft-max函數作為激活函數；計算所述類別辨識學習器的第三損失值，並基於所述第三損失值對所述類別辨識學習器進行調整，直至所述第三損失值下降到最低後停止調整，並從調整後的類別辨識學習器中刪除所述激活函數，得到所述類別辨識網路。

根據本申請可選實施例，所述計算所述類別辨識學習器的第三損失值包括：獲取多張類別圖像，所述多張類別圖像包括複數類別；將所述多張類別圖像進行增廣處理，得到多張增廣圖像；所述第三損失值的確定公式為：

其中，

是指所述第三損失值，2N是指所述多張增廣圖像，i是指所述多張增廣圖像中的第i張增廣圖像，yi是指所述第i張增廣圖像的類別，j是指與i的類別相同的增廣圖像中的第j張增廣圖像，yj是指所述第j張增廣圖像的類別，N _yi是指與i的類別相同的所有增廣圖像的數量，∥_i≠j為第一指示函數，當且僅當i=j時取零，當i≠j時取1，∥_yi=yj為第二指示函數，當且僅當yi=yj時取零，當yi≠yj時取1，∥_i≠k為第三指示函數，當且僅當i=k時取零，當i≠k時取1，z _i是指將i輸入到所述類別辨識網路中得到的單位向量，z _j是指將j輸入到所述類別辨識網路中得到的單位向量，k是指除了i之外的任意一張增廣圖像，z _k是指將k輸入到所述類別辨識網路中得到的單位向量，τ為預設的標量調節參數。

根據本申請可選實施例，所述根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣包括：將每個影像特徵矩陣及對應的文字特徵矩陣進行相加運算，得到所述參照矩陣，其中，每個影像特徵矩陣及對應的文字特徵矩陣具備相同的行數與列數。

根據本申請可選實施例，所述根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果包括：計算所述待測矩陣與每個參照矩陣的相似度；將最大的相似度所對應的參照矩陣確定為目標矩陣；基於預設標籤映射表對所述目標矩陣進行映射處理，得到所述辨識結果。

本申請提供一種電腦設備，所述電腦設備包括：儲存器，儲存至少一個指令；及處理器，執行所述至少一個指令以實現所述藥物影像辨識方法。

本申請提供一種電腦可讀儲存介質，所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電腦設備中的處理器執行以實現所述藥物影像辨識方法。

由以上技術方案可以看出，使用所述多張標記圖像對所述第二預訓練網路進行多次調整得到所述位置偵測網路，由於所述位置偵測網路學習到了所述多張標記圖像的特徵，所以所述位置偵測網路能夠對所述待測圖像進行位置標記，在訓練所述類別辨識網路時，對所述多張類別圖像進行增廣處理，避免了訓練資料過少的問題，根據每個影像特徵矩陣及對應的文字特徵矩陣生成複數參照矩陣，將所述待測圖像以相同的方式生成所述待測矩陣，計算所述待測矩陣與每個參照矩陣的相似度，並選取最大的相似度對應的參照矩陣的標籤信息作為所述辨識結果，由於所述待測矩陣同時包含了所述待測圖像的文字特徵及圖像特徵，使得所述待測矩陣能夠全面地反映出所述待測圖像的特徵，從而使得所述辨識結果的準確性更高。

1:電腦設備

2:攝像裝置

12:儲存器

13:處理器

S10~S17:步驟

圖1是本申請藥物影像辨識方法的較佳實施例的應用環境圖。

圖2是本申請藥物影像辨識方法的較佳實施例的流程圖。

圖3是本申請實現藥物影像辨識方法的較佳實施例的電腦設備的結構示意圖。

為了使本申請的目的、技術方案和優點更加清楚，下面結合附圖和具體實施例對本申請進行詳細描述。

如圖1所示，是本申請一種藥物影像辨識方法的較佳實施例的應用環境圖。所述藥物影像辨識方法可應用於一個或者複數電腦設備1中，所述電腦設備1與攝像裝置2相通信，所述攝像裝置2可以是攝像頭，也可以是實現拍攝的其它裝置，例如，透過攝像裝置2能夠拍攝待測藥物，得到待測藥物圖像。所述待測藥物可以為膠囊類、片類藥物，例如，阿莫西林膠囊、克拉黴素分散片等。

所述電腦設備1是一種能夠按照事先設定或儲存的指令，自動進行數值計算和/或資訊處理的設備，其硬體包括，但不限於：微處理器、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計閘陣列(Field-Programmable Gate Array，FPGA)、數位訊號處理器(Digital Signal Processor，DSP)、嵌入式設備等。

所述電腦設備1可以是任何一種可與用戶進行人機交互的電腦產品，例如，個人電腦、平板電腦、智慧手機、個人數位助理(Personal Digital Assistant，PDA)、遊戲機、互動式網路電視(Internet Protocol Television，IPTV)、智慧式穿戴式設備等。

所述電腦設備1還可以包括網路設備和/或使用者設備。其中，所述網路設備包括，但不限於單個網路伺服器、複數網路伺服器組成的伺服器組或基於雲計算(Cloud Computing)的由大量主機或網路伺服器構成的雲。

所述電腦設備1所處的網路包括但不限於網際網路、廣域網路、都會區網路、局域網、虛擬私人網路(Virtual Private Network，VPN)等。

如圖2所示，是本申請一種藥物影像辨識方法的較佳實施例的流程圖。根據不同的需求，該流程圖中各個步驟的順序可以根據實際檢測要求進行調整，某些步驟可以省略。所述方法的執行主體為電腦設備，例如圖1所示的電腦設備1。

步驟S10，獲取多張藥物圖像及待測藥物圖像。

在本申請的至少一個實施例中，所述多張藥物圖像是指攜帶標籤信息的藥物圖像，所述多張藥物圖像可用於生成參照矩陣。

所述標籤信息可以包括，但不限於：藥物的名稱、藥物的類別、藥物的用法等。

在本申請的至少一個實施例中，所述待測藥物圖像是指沒有攜帶所述標籤信息的藥物圖像，所述待測藥物圖像中的待測藥物的表面存在藥物文字，所述藥物文字可為字母、數字。

在本申請的至少一個實施例中，所述電腦設備從預先設置的目標資料庫中獲取所述多張藥物圖像及每張藥物圖像對應的標籤信息。

在本申請的至少一個實施例中，所述電腦設備控制所述攝像裝置2拍攝所述待測藥物，得到所述待測藥物圖像。

其中，所述攝像裝置2可以是攝像頭。

步驟S11，獲取預先訓練完成的藥物偵測模型，所述藥物偵測模型包括位置偵測網路、文字辨識網路及類別辨識網路。

在本申請的至少一個實施例中，所述藥物偵測模型是指對所述待測圖像及每張藥物圖像中藥物的位置進行偵測的網路模型。

在本申請的至少一個實施例中，所述位置偵測網路用於從每張藥物圖像中框選出單個藥物的圖像。

在本申請的至少一個實施例中，所述文字辨識網路可以用於獲取每張藥物圖像中的文字信息。

在本申請的至少一個實施例中，所述類別辨識網路可以用於識別每張藥物圖像中藥物的種類。

步驟S12，將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像，每張目標圖像中包含有單個藥物的圖像。

在本申請的至少一個實施例中，所述目標圖像是指從每張藥物圖像上框選出的包含有單個藥物的圖像。

在本申請的至少一個實施例中，在將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像之前，所述藥物影像辨識方法還包括：所述電腦設備獲取位置偵測學習器及位置圖像，所述位置圖像包括第一圖像及第二圖像，所述第二圖像包括多張標記圖像及多張未標記圖像，所述電腦設備使用所述第一圖像對所述位置偵測學習器進行訓練，得到第一預訓練網路，基於所述多張標記圖像對所述第一預訓練網路進行調整，得到第一標記網路，所述電腦設備將所述多張未標記圖像輸入到所述第一標記網路中，得到輸出圖像及每張輸出圖像所包含藥物的預測概率值，並將大於預設閾值的預測概率值所對應的輸出圖像對所述第一標記網路進行調整，得到第二標記網路，進一步地，所述電腦設備計算所述第二標記網路的第一損失值，並基於所述第一損失值對所述第二標記網路進行多次調整，直至所述第一損失值下降到最低後停止調整，得到所述位置偵測網路。

具體地，所述電腦設備基於所述第一損失值對所述第二標記網路進行多次調整，直至所述第一損失值下降到最低後停止調整，得到所述位置偵測網路包括：所述電腦設備將所述大於預設閾值的預測概率值所對應的輸出圖像輸入到所述第一標記網路進行訓練，對所述第一標記網路的權值進行迭代更新，直至所述第一標記網路達到收斂，得到所述位置偵測網路。

其中，所述位置偵測學習器可以為目標檢測器efficientDet，所述位置偵測學習器可用於對每張藥物圖像中單個藥物的位置進行準確的定位。所述第一圖像是指從預先設置的第一資料庫中獲取到的圖像，可以是包含任意物件的圖像，所述第一資料庫可以為COCO資料庫、ImageNet資料庫及CPTN資料庫等資料庫。所述第一圖像中包括了動物(例如，小狗，小貓等)、植物(例如，花、樹等)等複數種類的物品圖像，所述第二圖像是指包含有藥物的圖像，所述第二圖像可以從預先設置的第二資料庫中獲取。所述多張標記圖像是指已經對圖像中藥物的位置進行標記的圖像，所述多張未標記圖像是指圖像中藥物的位置未標記的圖像。

所述輸出圖像是指可能包括有單個藥物的圖像，所述輸出圖像可用於對所述第一標記網路進行多次調整。

所述預測概率值是指所述輸出圖像中包含單個藥物的概率。

所述預設閾值可以自行設置，本申請對此不作限制。

所述第一預訓練網路是指使用所述第一圖像進行預訓練後得到的網路。

所述第一標記網路是指根據所述多張標記圖像對所述第一預訓練網路進行再次訓練後得到的網路，所述第一標記網路可用於對所述多張未標記圖像進行特徵標記。

所述第一損失值的計算公式為：FL(p _t)=-α _t(1-p _t)^γlog(p _t)；其中，FL(p _t)為所述第一損失值，p _t為所述預測概率值，α _t

[0,1]，γ

0。

透過上述實施方式，能夠選取到第一損失值最小的第二標記網路作為所述位置偵測網路，由於所述第二標記網路學習到了所述多張標記圖像的特徵，從而使得所述位置偵測網路能夠準確的對每張藥物圖像進行標記。

步驟S13，根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣。

在本申請的至少一個實施例中，所述複數文字特徵矩陣是指包含有所述多張目標圖像中文字特徵的矩陣，每個文字特徵矩陣可用於生成所述參照矩陣。

在本申請的至少一個實施例中，在根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣前，所述藥物影像識別方法還包括：所述電腦設備獲取文字圖像及文字辨識學習器，所述文字圖像包括第三圖像及第四圖像，使用所述第三圖像對所述文字辨識學習器進行訓練，得到第二預訓練網路，其中，所述第二預訓練網路包括卷積神經網路模型及循環神經網路模型，所述電腦設備計算所述第二預訓練網路的第二損失值，並透過所述第二損失值進行反向傳播，對所述第二預訓練網路的參數進行多次調整，直至所述第二預訓練模型達到收斂後停止調整，得到所述文字辨識網路。

其中，所述文字辨識學習器是指對每張藥物圖像的文字進行辨識的學習器，所述文字圖像是指用於訓練所述文字辨識學習器的圖像，所述文字圖像中包含有任意藥物上所帶有的文字。

所述卷積神經網路模型可以為VGG16網路，所述卷積神經網路模型可用於提取所述第四圖像的文字特徵。所述循環神經網路模型可以為長短期記憶網路(Long Short-Term Memory，LSTM)，所述循環神經網路模型可用於提取所述文字特徵的時序信息。

所述第三圖像可用於訓練所述文字辨識學習器的權重，所述第四圖像是指包含有任意藥物文字的圖像，所述藥物文字可以包括，但不限於：字母、數字。所述第三圖像可以從所述第一資料庫中獲取，所述第四圖像可以從預先設置的第三資料庫中獲取，所述第三資料庫中儲存有多張藥物文字的圖像。

所述第二預訓練網路使用的損失函數可以為連接時序分類損失函數(Connectionist temporal classification，CTC)。

透過上述實施方式，選取最低的第二損失值對應的第二預訓練網路作為所述文字辨識網路，能夠提高所述文字辨識網路的可靠性和精度，使得所述文字辨識網路能夠準確地提取所述目標圖像的文字特徵。

在本申請的至少一個實施例中，所述電腦設備根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣包括：所述電腦設備將每張目標圖像進行色彩轉換，得到多張文字灰階圖像，並將每張文字灰階圖像進行二值化處理，得到多張二值化圖像，將每張二值化圖像進行濾波處理，得到多張濾波圖像，進一步地，所述電腦設備定位每張濾波圖像中藥物文字的位置，得到文字位置，根據所述文字位置從每張目標圖像中框選出文字圖像，更進一步地，所述電腦設備將每張文字圖像輸入到所述卷積神經網路模型進行特徵提取，得到特徵序列，所述電腦設備將所述特徵序列輸入到所述循環神經網路模型中，得到所述複數文字特徵矩陣。

其中，所述特徵序列是指所述卷積神經網路模型對每張濾波圖像進行提取所得到的特徵，所述複數文字特徵矩陣是指所述循環神經網路模型對所述特徵序列進行提取所得到的特徵。

透過上述實施方式，對每張目標圖像進行色彩轉換、二值化、濾波等處理，能夠獲得更加清晰的濾波圖像，根據所述多張濾波圖像能夠準確的獲取到文字特徵，有利於生成所述文字特徵矩陣。

步驟S14，將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣。

在本申請的至少一個實施例中，所述複數影像特徵矩陣是指包含有所述多張目標圖像中的圖像特徵的矩陣。

在本申請的至少一個實施例中，在將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣之前，所述藥物影像識別方法還包括：所述電腦設備獲取類別辨識學習器，所述類別辨識學習器中使用soft-max函數作為激活函數，所述電腦設備計算所述類別辨識學習器的第三損失值，進一步地，並基於所述第三損失值對所述類別辨識學習器進行調整，直至所述第三損失值下降到最低後停止調整，並從調整後的類別辨識學習器中刪除所述激活函數，得到所述類別辨識網路。

具體地，所述電腦設備獲取類別辨識學習器，所述類別辨識學習器中使用soft-max函數作為激活函數包括：所述電腦設備基於resnet50網路構建所述類別辨識學習器，並將soft-max作為所述激活函數。

在本申請的至少一個實施例中，所述電腦設備計算所述類別辨識學習器的第三損失值包括：所述電腦設備獲取多張類別圖像，所述多張類別圖像包括複數類別，將所述多張類別圖像進行增廣處理，得到多張增廣圖像，所述多張增廣圖像成對存在，每對增廣圖像包含第一增廣圖像及第二增廣圖像，所述第一增廣圖像及所述第二增廣圖像來源於同一張類別圖像。

所述多張類別圖像是指取值大於預設閾值的預測概率值所對應的輸出圖像。

所述增廣處理是指將每張類別圖像進行旋轉及裁剪等變換後得到的圖像。

所述複數類別包括，但不限於：抗生素類、維生素類等。

所述第三損失值的確定公式為：

其中，

透過上述實施方式，對所述多張類別圖像進行增廣處理，擴充了訓練資料，使用更多的訓練資料訓練得到所述類別辨識網路，能夠提高所述類別辨識網路的辨識準確性。

步驟S15，根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣。

在本申請的至少一個實施例中，所述參照矩陣是指包含了所述複數目標圖像的圖像特徵及文字特徵的矩陣，所述參照矩陣可用於指示所述待測藥物圖像的標籤信息。

在本申請的至少一個實施例中，所述電腦設備根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣包括：所述電腦設備將每個影像特徵矩陣及對應的文字特徵矩陣進行相加運算，得到所述參照矩陣，其中，每個影像特徵矩陣及對應的文字特徵矩陣具備相同的行數與列數。

在本申請的至少一個實施例中，生成所述參照矩陣還有其它方式，例如：所述電腦設備將每個影像特徵矩陣及對應的文字特徵矩陣進行相乘運算，得到所述參照矩陣，或者，所述電腦設備將每個影像特徵矩陣及對應的文字特徵矩陣進行相減運算，得到所述參照矩陣。

透過上述實施方式，能夠提取每張藥物圖像中藥物的圖像特徵及文字特徵，並生成同時具備圖像特徵及文字特徵的參照矩陣。

步驟S16，基於所述藥物偵測模型處理所述待測藥物圖像，得到待測矩陣。

在本申請的至少一個實施例中，所述待測矩陣是指包含有所述待測圖像的圖像特徵及文字特徵的矩陣。

由於生成所述待測矩陣的過程與生成所述參照矩陣一致，故本申請在此不作贅述。

透過上述實施方式，使用處理所述多張藥物圖像方式對所述待測圖像進行處理，得到所述待測矩陣，使得所述待測矩陣及每個參照矩陣具有相同的行數及列數，更便於計算所述待測矩陣與每個參照矩陣的相似度。

步驟S17，根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果。

在本申請的至少一個實施例中，所述辨識結果是指所述待測藥物對應的標籤信息。

在本申請的至少一個實施例中，所述電腦設備據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果包括：所述電腦設備計算所述待測矩陣與每個參照矩陣的相似度，將最大的相似度所對應的參照矩陣確定為目標矩陣，基於預設標籤映射表對所述目標矩陣進行映射處理，得到所述辨識結果。

其中，所述預設標籤映射表是指每個參照矩陣與對應的標籤信息的映射表，所述預設標籤映射表中每個參照矩陣與標籤信息一一對應。

所述相似度可以包括，但不限於：余弦相似度、歐氏距離。

所述余弦相似度的計算公式為：

cosine是指所述余弦相似度，n是指所述待測矩陣及任意一個參照矩陣中的所有元素，i指所述待測矩陣及任意一個參照矩陣中的第i個元素，A _i是指所述待測矩陣中的第i個元素，B _i是指任意一個參照矩陣中的第i個元素。

具體地，所述電腦設備基於預設標籤映射表對所述目標矩陣進行映射處理，得到所述辨識結果包括：所述電腦設備根據所述目標矩陣確定所述待測藥物在所述預設標籤映射表中對應的標籤信息，並將所述對應的標籤信息作為所述辨識結果。

透過上述實施方式，選取最大的相似度對應的參照矩陣作為所述目標矩陣，使得所述目標矩陣對應的藥物圖像與所述待測藥物圖像更相似，將所述對應的藥物圖像的標籤信息作為所述待測藥物的標籤信息，根據所述目標矩陣與標籤信息的一一對應關係，能夠快速找到所述待測藥物的標籤信息，提高了藥物圖像的辨識效率。

如圖3所示，是本申請實現藥物影像辨識方法的較佳實施例的電腦設備的結構示意圖。

在本申請的一個實施例中，所述電腦設備1包括，但不限於，儲存器12、處理器13，以及儲存在所述儲存器12中並可在所述處理器13上運行的電腦程式，例如藥物影像辨識程式。

本領域技術人員可以理解，所述示意圖僅僅是電腦設備1的示例，並不構成對電腦設備1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電腦設備1還可以包括輸入輸出設備、網路接入設備、匯流排等。

所述處理器13可以是中央處理單元(Central Processing Unit，CPU)，還可以是其他通用處理器、數位訊號處理器(Digital Signal Processor，DSP)、專用積體電路(Application Specific Integrated Circuit，ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array，FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等，所述處理器13是所述電腦設備1的運算核心和控制中心，利用各種介面和線路連接整個電腦設備1的各個部分，及獲取所述電腦設備1的作業系統以及安裝的各類應用程式、程式碼等。例如，所述處理器13可以透過介面獲取所述攝像裝置2拍攝到的所述待測藥物圖像。

所述處理器13獲取所述電腦設備1的作業系統以及安裝的各類應用程式。所述處理器13獲取所述應用程式以實現上述各個藥物影像辨識方法實施例中的步驟，例如圖2所示的步驟。

示例性的，所述電腦程式可以被分割成一個或複數模組/單元，所述一個或者複數模組/單元被儲存在所述儲存器12中，並由所述處理器13獲取，以完成本申請。所述一個或複數模組/單元可以是能夠完成特定功能的一系列電腦程式指令段，該指令段用於描述所述電腦程式在所述電腦設備1中的獲取過程。

所述儲存器12可用於儲存所述電腦程式和/或模組，所述處理器13透過運行或獲取儲存在所述儲存器12內的電腦程式和/或模組，以及調用儲存在儲存器12內的資料，實現所述電腦設備1的各種功能。所述儲存器12可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；儲存資料區可儲存根據電腦設備的使用所創建的資料等。此外，儲存器12可以包括非易失性儲存器，例如硬碟、儲存器、插接式硬碟，智慧儲存卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，快閃儲存器卡(Flash Card)、至少一個磁碟儲存器件、快閃儲存器器件、或其他非易失性固態儲存器件。

所述儲存器12可以是電腦設備1的外部儲存器和/或內部儲存器。進一步地，所述儲存器12可以是具有實物形式的儲存器，如儲存器條、TF卡(Trans-flash Card)等等。

所述電腦設備1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本申請實現上述實施例方法中的全部或部分流程，也可以透過電腦程式的指令控制相關的硬體來完成，所述的電腦程式可儲存於一電腦可讀儲存介質中，該電腦程式在被處理器獲取時，可實現上述各個方法實施例的步驟。

其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可獲取檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、隨身碟、移動硬碟、磁碟、光碟、電腦儲存器、唯讀儲存器(ROM，Read-Only Memory)。

結合圖2，所述電腦設備1中的所述儲存器12儲存複數指令以實現一種藥物影像辨識方法，所述處理器13可獲取所述複數指令從而實現：獲取多張藥物圖像及待測藥物圖像；獲取預先訓練完成的藥物偵測模型，所述藥物偵測模型包括位置偵測網路、文字辨識網路及類別辨識網路；將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像，每張目標圖像中包含有單個藥物的圖像；根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣；將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣；根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣；基於所述藥物偵測模型處理所述待測藥物圖像，得到待測矩陣；根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果。

具體地，所述處理器13對上述指令的具體實現方法可參考圖2對應實施例中相關步驟的描述，在此不贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以透過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述模組的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

所述作為分離部件說明的模組可以是或者也可以不是物理上分開的，作為模組顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到複數網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能模組可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。

因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本申請的範圍由所附請求項而不是上述說明限定，因此旨在將落在請求項的等同要件的含義和範圍內的所有變化涵括在本申請內。不應將請求項中的任何附關聯圖標記視為限制所涉及的請求項。

此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。本申請中陳述的複數單元或裝置也可以由一個單元或裝置透過軟體或者硬體來實現。第一、第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應說明的是，以上實施例僅用以說明本申請的技術方案而非限制，儘管參照較佳實施例對本申請進行了詳細說明，本領域的普通技術人員應當理解，可以對本申請的技術方案進行修改或等同替換，而不脫離本申請技術方案的精神和範圍。

S10~S17:步驟

Claims

一種藥物影像辨識方法方法，應用於電腦設備，其中，所述藥物影像辨識方法包括：獲取多張藥物圖像及待測藥物圖像；獲取預先訓練完成的藥物偵測模型，所述藥物偵測模型包括位置偵測網路、文字辨識網路及類別辨識網路，其中，所述獲取所述類別辨識網路包括：獲取類別辨識學習器，所述類別辨識學習器中使用soft-max函數作為激活函數，計算所述類別辨識學習器的第三損失值，包括：獲取多張類別圖像，所述多張類別圖像包括複數類別，將所述多張類別圖像進行增廣處理，得到多張增廣圖像，所述第三損失值的確定公式為：
其中，
是指所述第三損失值，2N是指所述多張增廣圖像，i是指所述多張增廣圖像中的第i張增廣圖像，yi是指所述第i張增廣圖像的類別，j是指與i的類別相同的增廣圖像中的第j張增廣圖像，yj是指所述第j張增廣圖像的類別，N _yi是指與i的類別相同的所有增廣圖像的數量，∥_i≠j為第一指示函數，當且僅當i=j時取零，當i≠j時取1，∥_yi=yj為第二指示函數，當且僅當yi=yj時取零，當yi≠yj時取1，∥_i≠k為第三指示函數，當且僅當i=k時取零，當i≠k時取1，z _i是指將i輸入到所述類別辨識網路中得到的單位向量，z _j是指將j輸入到所述類別辨識網路中得到的單位向量，k是指除了i之外的任意一張增廣圖像，z _k是指將k輸入到所述類別辨識網路中得到的單位向量，τ為預設的標量調節參數，基於所述第三損失值對所述類別辨識學習器進行調整，直至所述第三損失值下降到最低後停止調整，並從調整後的類別辨識學習器中刪除所述激活函數，得到所述類別辨識網路；將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像，每張目標圖像中包含有單個藥物的圖像；根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣；將所述多張目標圖像輸入到所述類別辨識網路中，得到複數影像特徵矩陣；根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣；基於所述藥物偵測模型處理所述待測藥物圖像，得到待測矩陣；根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果。
如請求項1所述的藥物影像辨識方法，其中，在將所述多張藥物圖像輸入到所述位置偵測網路中，得到多張目標圖像之前，所述藥物影像辨識方法還包括：獲取位置偵測學習器及位置圖像，所述位置圖像包括第一圖像及第二圖像，所述第二圖像包括多張標記圖像及多張未標記圖像，其中，所述第一圖像為多個種類的物品圖像；使用所述第一圖像對所述位置偵測學習器進行訓練，得到第一預訓練網路；基於所述多張標記圖像對所述第一預訓練網路進行調整，得到第一標記網路；將所述多張未標記圖像輸入到所述第一標記網路中，得到輸出圖像及每張輸出圖像所包含藥物的預測概率值；將大於預設閾值的預測概率值所對應的輸出圖像對所述第一標記網路進行調整，得到第二標記網路；計算所述第二標記網路的第一損失值，並基於所述第一損失值對所述第二標記網路進行多次調整，直至所述第一損失值下降到最低後停止調整，得到所述位置偵測網路。
如請求項1所述的藥物影像辨識方法，其中，在根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣前，所述藥物影像識別方法還包括：獲取文字圖像及文字辨識學習器，所述文字圖像包括第三圖像及第四圖像，其中，所述文字圖像為與任意藥物有關的文字圖像；使用所述第三圖像對所述文字辨識學習器進行訓練，得到第二預訓練網路，其中，所述第二預訓練網路包括卷積神經網路模型及循環神經網路模型；計算所述第二預訓練網路的第二損失值，並透過所述第二損失值進行反向傳播，對所述第二預訓練網路的參數進行多次調整，直至所述第二預訓練模型達到收斂後停止調整，得到所述文字辨識網路。
如請求項3所述的藥物影像辨識方法，其中，所述根據所述多張目標圖像及所述文字辨識網路，生成複數文字特徵矩陣包括：將每張目標圖像進行色彩轉換，得到多張文字灰階圖像；將每張文字灰階圖像進行二值化處理，得到多張二值化圖像；將每張二值化圖像進行濾波處理，得到多張濾波圖像；定位每張濾波圖像中藥物文字的位置，得到文字位置；根據所述文字位置從每張目標圖像中框選出文字圖像；將每張文字圖像輸入到所述卷積神經網路模型進行特徵提取，得到特徵序列；將所述特徵序列輸入到所述循環神經網路模型中，得到所述複數文字特徵矩陣。
如請求項1所述的藥物影像辨識方法，其中，所述根據每個影像特徵矩陣及對應的文字特徵矩陣生成參照矩陣包括：將每個影像特徵矩陣及對應的文字特徵矩陣進行相加運算，得到所述參照矩陣，其中，每個影像特徵矩陣及對應的文字特徵矩陣具備相同的行數與列數。
如請求項1所述的藥物影像辨識方法，其中，所述根據所述待測矩陣與每個參照矩陣的相似度生成所述待測藥物圖像的辨識結果包括：計算所述待測矩陣與每個參照矩陣的相似度；將最大的相似度所對應的參照矩陣確定為目標矩陣；基於預設標籤映射表對所述目標矩陣進行映射處理，得到所述辨識結果。
一種電腦設備，其中，所述電腦設備包括：儲存器，儲存至少一個指令；及處理器，獲取所述儲存器中儲存的指令以實現如請求項1至6中任意一項所述的藥物影像辨識方法。
一種電腦可讀儲存介質，其中：所述電腦可讀儲存介質中儲存有至少一個指令，所述至少一個指令被電腦設備中的處理器執行以實現如請求項1至6中任意一項所述的藥物影像辨識方法。