TWI885419B

TWI885419B - 訓練影像品質檢測模型的系統及其訓練方法

Info

Publication number: TWI885419B
Application number: TW112126833A
Authority: TW
Inventors: 郭名旗
Original assignee: 宏碁股份有限公司
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2025-06-01
Also published as: TW202505425A

Abstract

一種訓練影像品質檢測模型的系統，包含儲存裝置及處理裝置。處理裝置從儲存裝置載入程式，以運行特徵提取器、分類器、第一優化器、估計器及第二優化器。特徵提取器從訓練影像提取特徵圖。分類器基於特徵圖推算出機種類別，及基於機種標籤及推算出的機種類別計算第一損失值。第一優化器基於第一損失值計算第一梯度，反轉第一梯度，再基於經反轉的第一梯度更新特徵提取器的參數。估計器基於特徵圖推算出估計品質，及基於估計品質及品質標籤計算第二損失值。第二優化器基於第二損失值計算第二梯度，再基於第二梯度更新特徵提取器的參數。

Description

訓練影像品質檢測模型的系統及其訓練方法

本發明涉及影像分析(image analysis)技術，特別涉及一種訓練影像品質檢測模型的系統及其訓練方法。

在影像醫學(medical imaging)的應用中，經常使用基於機器學習的疾病檢測模型進行影像分析，以輔助專業人員(例如醫師)診斷受測者的潛在疾病。然而，這種疾病檢測模型的表現很容易受到影像品質的影響。以彩色眼底影像為例，諸如白內障或陰暗部位的遮蔽、影像拍攝過程中的過度曝光或者不適當的對焦...等因素，皆可能對疾病檢測模型的準確度造成負面影響。因此，在使用上述疾病檢測模型之前，經常會使用基於機器學習的影像品質檢測模型判斷影像的品質，以協助專業人員汰除品質不良的影像，而留下品質良好的影像以進行後續的疾病檢測。

在實務上，不同的醫療機構可能使用不同機種(包含不同品牌、型號或世代)的醫療影像設備。每種機種的特性不同，例如某些機種所拍攝的影像亮度偏亮或者色調偏紅，然而這些特性不一定是判斷影像品質良窳之關鍵因素。此外，這些設備的普及度不同，其拍攝影像的取得難度存在差異，因而導致上述影像品質檢測模型的訓練資料集存在影像設備機種數量分配不均的情況。因此，上述影像品質檢測模型在分析不同機種的設備所拍攝出的醫療影像時，可能會遇到難以同時適應多個機種的問題。以下<表一>提供以傳統訓練方法建立的影像品質檢測模型之實驗結果的示例。

在<表一>的示例中，影像品質檢測模型的訓練資料集中的絕大部分眼底影像是由「CR2」這個機種的設備所拍攝，而其他機種「NFC700」、「NW400」、「NW8」、「KOWA」所拍攝的眼底影像僅占一小部分。從<表一>可以明顯看出，在這種情況下所訓練出的影像品質檢測模型，於分析「NFC700」、「NW400」、「NW8」、「KOWA」這些非主要機種的設備所拍攝出的眼底影像時，其靈敏度(sensitivity)相當低落。這意味著有許多品質不良的眼底影像未能被影像品質檢測模型所鑑別出，並且可能連帶影響後續的疾病檢測之準確度。

因此，需要一種訓練影像品質檢測模型的系統及其訓練方法，以解決上述問題。

本發明之實施例提供一種訓練影像品質檢測模型的系統，該系統包含儲存裝置及處理裝置。儲存裝置儲存程式及訓練資料集。訓練資料集中的每筆訓練資料包含訓練影像及其對應的機種標籤及品質標籤。處理裝置從儲存裝置載入程式，以運行特徵提取器(feature extractor)、分類器(classifier)、第一優化器(optimizer)、估計器(estimator)及第二優化器。特徵提取器從訓練影像提取特徵圖(feature maps)。分類器基於特徵圖推算出機種類別，及基於機種標籤及推算出的機種類別計算第一損失函數(loss function)的第一損失值(loss value)。第一優化器基於第一損失值計算第一損失函數相對於特徵提取器的參數之第一梯度(gradients)，反轉(reverse)第一梯度，再基於經反轉的第一梯度更新特徵提取器的參數。估計器基於特徵圖推算出估計品質，及基於估計品質及品質標籤計算第二損失函數的第二損失值。第二優化器基於第二損失值計算第二損失函數相對於特徵提取器的參數之第二梯度，再基於第二梯度更新特徵提取器的參數。

在一實施例中，特徵提取器包含一或多個卷積層(convolutional layers)。特徵提取器的參數包含每一卷積層使用的一或多個卷積核(convolutional kernels)的卷積核係數(kernel coefficients)。

在一實施例中，第一優化器以反向傳播(backpropagation)演算法計算第一梯度，及以梯度下降(gradient descent)演算法更新特徵提取器的參數。

在一實施例中，估計器是回歸器(regressor)，第二損失函數為均方誤差(mean square error；MSE)或平均絕對誤差(mean absolute error；MAE)。

在一實施例中，第二優化器將第二損失值乘上對應於機種標籤的權重值，再基於經加權的第二損失值計算第二梯度。

本發明之實施例更提供一種影像品質檢測模型的訓練方法。該方法由電腦系統所實施。電腦系統所儲存的訓練資料集中的每筆訓練資料包含訓練影像及其對應的機種標籤及品質標籤。該方法包含使用特徵提取器從訓練影像提取複數個特徵圖的步驟。該方法更包含基於特徵圖推算出機種類別，及基於機種標籤及推算出的機種類別計算第一損失函數(loss function)的第一損失值(loss value)的步驟。該方法更包含基於第一損失值計算第一損失函數相對於特徵提取器的參數之第一梯度(gradients)，反轉(reverse)第一梯度，再基於經反轉的第一梯度更新特徵提取器的參數的步驟。該方法更包含基於特徵圖推算出估計品質，及基於估計品質及品質標籤計算第二損失函數的第二損失值的步驟。該方法更包含基於第二損失值計算第二損失函數相對於特徵提取器的參數之第二梯度，再基於第二梯度更新特徵提取器的參數的步驟。

採用本發明之技術方案所建立的影像品質檢測模型具有優異的跨機種支援能力，即使在訓練資料集中各機種拍攝的眼底影像之數量分配不均的情況下，也能夠使影像品質檢測模型適應各機種所拍攝的影像。

100:系統

101:儲存裝置

102:處理裝置

110:訓練資料集

111-11N:訓練資料

121-12N:機種標籤

131-13N:品質標籤

141-14N:訓練影像

150:程式

151:特徵提取器

152:分類器

153:第一優化器

154:估計器

155:第二優化器

200:影像品質檢測模型

FM:特徵圖

IMG:影像

CK:卷積核

CL:卷積層

PL:池化層

PK:池化核

401:輸入資料

402:卷積核

403:特徵圖

411:第一區域

412:第二區域

421,422:特徵值

501:輸入資料

502:輸出資料

511:第一區域

512:第二區域

521,522:特徵值

600:影像品質檢測模型

610:輸入影像

651:特徵提取器

654:估計器

620:估計結果

700:方法

701-705:步驟

本揭露將可從以下示範的實施例之敘述搭配附帶的圖式更佳地理解。此外，應理解的是，在本揭露之流程圖中，各區塊的執行順序可被改變，且/或某些區塊可被改變、刪減或合併。

第1圖是根據本發明之一實施例繪示一種訓練影像品質檢測模型的系統之系統方塊圖。

第2圖是根據本發明之一實施例繪示影像品質檢測模型的訓練階段之示意圖。

第3圖是根據本發明之一實施例繪示一種基於卷積神經網路的特徵提取器之結構示意圖。

第4圖是根據本發明之一實施例展示卷積運算的一個示例。

第5圖是根據本發明之一實施例展示最大池化運算的一個示例。

第6圖是根據本發明之一實施例繪示影像品質檢測模型的推論階段之示意圖。

第7圖是根據本發明之一實施例繪示一種影像品質檢測模型的訓練方法之流程圖。

以下敘述列舉本發明的多種實施例，但並非意圖限制本發明內容。實際的發明範圍，是由申請專利範圍所界定。

在以下所列舉的各實施例中，將以相同的標號代表相同或相似的元件或組件。

在本說明書中以及申請專利範圍中的序號，例如「第一」、「第二」等等，僅是為了方便說明，彼此之間並沒有順序上的先後關係。

以下對於裝置或系統之實施例的敘述，也適用於方法之實施例，反之亦然。

第1圖是根據本發明之一實施例繪示一種訓練影像品質檢測模型的系統100之系統方塊圖。系統100可以是一種運行作業系統(例如Microsoft Windows、Mac OS、Linux、UNIX...等)以管理硬體及軟體資源並提供運算服務的電腦系統，諸如個人電腦(如桌上型電腦或筆記型電腦)或伺服器電腦，或者是例如平板電腦或智慧型手機等行動裝置，惟本發明並不對此限定。

如第1圖所示，系統100可包含相互耦接的儲存裝置101及處理裝置102。儲存裝置101可以是任何一種包含非揮發性記憶體(如唯讀記憶體(read only memory)、電子抹除式可複寫唯讀記憶體(electrically-erasable programmable read-only memory；EEPROM)、快閃記憶體、非揮發性隨機存取記憶體(non-volatile random access memory；NVRAM))的裝置，諸如硬碟(HDD)、固態硬碟(SSD)或光碟，惟本發明並不對此限定。處理裝置102可以是任何一種用於執行指令的裝置，諸如中央處理單元(CPU)、圖形處理單元(GPU)、微處理器(microprocessor)、控制器、微控制器(microcontroller)或狀態機(state machine)，惟本發明並不對此限定。

如第1圖所示，儲存裝置101儲存訓練資料集110及程式150。訓練資料集110包含多筆訓練資料111-11N，每筆訓練資料包含訓練影像及其對應的機種標籤及品質標籤。具體而言，訓練資料111包含訓練影像141及其對應的機種標籤121及品質標籤131，訓練資料112包含訓練影像142及其對應的機種標籤122及品質標籤132，訓練資料11N包含訓練影像14N及其對應的機種標籤12N及品質標籤13N，依此類推。程式150包含特徵提取器(feature extractor)151、分類器(classifier)152、第一優化器(optimizer)153、估計器(estimator)154及第二優化器155等軟體模組，每一軟體模組具有相應的指令、功能及操作。當處理裝置102從儲存裝置101載入程式150時，會運行這些軟體模組。更具體而言，處理裝置102會執行這些軟體模組相應的指令，以實施相應的功能及操作。關於上述訓練資料及軟體模組的更多細節，將於之後的段落再詳述。

在一實施例中，系統100可更包含通訊介面，通訊介面允許電腦系統與其他裝置通訊，以取得上述訓練資料集110。通訊介面可以是有線的通訊介面，諸如高畫質多媒體介面(High Definition Multimedia Interface；HDMI)、DisplayPort(DP)介面、嵌入式DisplayPort(eDP)介面、通用序列匯流排(Universal Serial Bus；USB)介面、USB Type-C介面、Thunderbolt介面、數位視訊介面(Digital Video Interface；DVI)及其組合，也可以是無線的通訊介面，第5代(5G)無線系統、藍牙(Bluetooth)、WiFi、近場通訊(Near Field Communication；NFC)介面...等，惟本發明並不對此限定。

訓練影像141-14N關聯於待訓練的影像品質檢測模型之預期功能。舉例來說，若欲將影像品質檢測模型用於檢測彩色眼底影像之品質，則至少大部分的訓練影像141-14N應為彩色眼底影像，且其中需包含品質良好者及品質不良者。為了使影像品質檢測模型能夠適應各機種設備所拍攝的影像，訓練影像141-14N可包含多個機種設備所拍攝的影像。應注意的是，各種品質的訓練影像之數量不一定是均勻分配的，例如訓練影像141-14N中的品質良好者可能遠多於品質不良者。同樣地，各機種設備所拍攝的訓練影像之數量也不一定是均勻分配的，例如訓練影像141-14N中的絕大多數可能是由「CR2」這個機種的設備所拍攝，而其他機種「NFC700」、「NW400」、「NW8」、「KOWA」所拍攝的眼底影像僅占一小部分。

機種標籤121-12N分別對應於訓練影像 141-14N，作為訓練影像141-14N之拍攝設備的機種之基準事實(ground truth)。機種標籤121-12N可以是二元類別，例如「主要機種」(即，拍攝訓練影像141-14N的絕大多數的機種)及「非主要機種」，分別以數字0和1(或者1和0)表示。舉例來說，若訓練影像141是由「CR2」這個機種的設備所拍攝，由於訓練影像141-14N中的絕大多數也是由「CR2」這個機種的設備所拍攝，因此機種標籤121為「主要機種」；若訓練影像142是由「NFC700」這個機種的設備所拍攝，則機種標籤122為「非主要機種」。或者，機種標籤121-12N可以是多元類別，則機種標籤121可以是「CR2」，而機種標籤122可以是「NFC700」。然而，本發明並不限定機種標籤121-12N之形式。

品質標籤131-13N分別對應於訓練影像141-14N，作為訓練影像141-14N之品質的基準事實。品質標籤131-13N可以是二元類別，例如「品質良好」及「品質不良」，分別以數字0和1(或者1和0)表示。或者，品質標籤131-13N可採等第制，例如以「Level 0~4」表示影像品質的五個等級，或是以「A~F」表示影像品質的六個等級。又或者，品質標籤131-13N可採百分制，以100以內的整數表示影像品質。然而，本發明並不限定品質標籤131-13N之形式。

品質標籤131-13N的生成可透過多種方式進行。舉例來說，可以由一位專業人員(如醫師)對影像品質進行評斷與註記，也可以透過多位專業人員採用三戰兩勝制或五戰三勝制決定，或者採用多位專業人員之註記結果的算術平均值(arithmetic mean)或截斷平均值(truncated mean)。此外，也可以採用自動化或半自動化的方法或工具來生成。然而，本發明並不限定品質標籤131-13N生成的具體方法。

雖然第1圖僅繪出訓練資料集110中帶有相應機種標籤及品質標籤的訓練資料111-11N，惟本發明並不限定訓練資料集110僅包含這些訓練資料。在某些實施例中，訓練資料集110可更包含未標籤的影像，用以進行半監督式學習(semi-supervised learning)或自監督式學習(self-supervised learning)。

應釐清的是，系統100在影像品質檢測模型的訓練階段及推論階段的行為是截然不同的。因此，之後將分別參考第2圖及第6圖詳述影像品質檢測模型的訓練階段及推論階段。

第2圖是根據本發明之一實施例繪示影像品質檢測模型200的訓練階段之示意圖。如第2圖所示，影像品質檢測模型200本身包含特徵提取器151及估計器154，而其訓練階段更涉及分類器152、第一優化器153及第二優化器155的使用。以下將一一介紹特徵提取器151、分類器152、第一優化器153、估計器154及第二優化器155的功能及操作。此外應注意，第1圖之訓練資料集110中的每一筆訓練資料111-11N皆可參與影像品質檢測模型200的訓練，但為了方便說明，第2圖是以訓練資料11K及其包含的訓練影像14K、機種標籤12K及品質標籤13K作為示例，其他筆訓練資料可依此類推。

特徵提取器151從訓練影像14K中提取出複數個特徵圖(feature maps)FM。這些特徵圖FM可以表示訓練影像14K之屬性或特性，例如輪廓、紋理或顏色等資訊，以供分類器152及估計器154作後續推算之基礎。

分類器152可基於特徵提取器151所提取出的特徵圖FM推算出機種類別，並基於機種標籤12K及推算出的機種類別計算第一損失函數(loss function)的第一損失值(loss value)。第一損失函數是用以量化分類器152之推算結果與基準事實之間的差異，因此所計算出的第一損失值可反映機種類別與機種標籤12K之間的差異程度。當第一損失值越小時，表示分類器152的推算結果與機種標籤12K之間的差異越小，同時也意味著特徵提取器151所提取的特徵圖FM較能促使分類器152準確地推算機種類別。

第一優化器153基於第一損失值計算第一損失函數相對於特徵提取器151的複數個參數之第一梯度(gradients)，也就是第一損失函數對該些參數進行偏微分(partial differentiation)所得到的向量。接著，第一優化器153會對該些第一梯度進行反轉(gradient reversal)，也就是乘上一個負值(例如-1)，然後再基於經反轉的第一梯度更新特徵提取器151的參數。如此一來，特徵提取器151的參數會朝著最小化第一損失函數的反方向更動，使得特徵提取器151所提取的特徵圖FM越來越難讓分類器152正確地鑑別出訓練影像的拍攝設備之機種。換句話說，特徵提取器151會越來越傾向於擷取跨機種共享的影像特徵，而避免擷取能夠區分設備機種的影像特徵。

估計器154基於特徵圖FM推算出估計品質，並基於估計品質及品質標籤13K計算第二損失函數的第二損失值。第二損失函數是用以量化估計器154之推算結果與基準事實之間的差異，因此所計算出的第二損失值可反映估計品質與品質標籤13K之間的差異程度。當第二損失值越小時，表示估計器154的推算結果與品質標籤12K之間的差異越小，同時也意味著特徵提取器151所提取的特徵圖FM較能促使估計器154準確地推算出估計品質。

第二優化器155基於第二損失值計算第二損失函數相對於特徵提取器151的參數之第二梯度(即，第二損失函數對該些參數進行偏微分所得到的向量)，再基於該些第二梯度更新特徵提取器151的參數。應注意，第二優化器155並未如第一優化器153那樣進行梯度反轉，而是直接基於第二梯度更新特徵提取器151的參數。如此一來，特徵提取器151的參數會朝著優化品質推算結果的方向更動，使得特徵提取器151所提取的特徵圖FM越來越能促使分類器152準確地估算出訓練影像的品質。換句話說，特徵提取器151會越來越傾向於提取出能夠區分影像品質良窳的影像特徵。

綜合以上對於第2圖的敘述，於影像品質檢測模型200之訓練階段，分類器152搭配第一優化器153的作用在於促使特徵提取器151傾向於擷取跨機種共享的影像特徵，估計器154搭配第二優化器155的作用在於促使特徵提取器151傾向於提取出能夠區分影像品質良窳的影像特徵。在這兩股作用下，特徵提取器151能夠更專注於關乎影像品質且跨機種共享的影像特徵，使得整個影像品質檢測模型200對於跨機種的支援能力得到更進一步的提升。

在一實施例中，特徵提取器151可以是基於卷積神經網路(convolutional neural networks；CNN)，其包含一或多個卷積層(convolutional layers)進行卷積運算以提取影像特徵。前述被第一優化器153及第二優化器155所更新的特徵提取器151之參數，即包含每一卷積層使用的一或多個卷積核(convolutional kernels)的卷積核係數(kernel coefficients)。除此之外，特徵提取器151可更包含一或多個池化層(pooling layers)，對卷積層的輸出進行降採樣(down-sampling)以降低特徵圖的維度，同時保留關鍵的特徵。然而池化層並非必要，例如在某些基於卷積神經網路的架構中，如殘差網路(Residual Networks；ResNet)或稠密網路(DenseNet)，僅含有卷積層而沒有池化層。以下將參考第3-5圖敘述關於特徵提取運算的更多細節。

第3圖是根據本發明之一實施例繪示一種基於卷積神經網路的特徵提取器之結構示意圖，其中符號CL表示一或多個卷積層，符號PL表示一或多個池化層。符號IMG表示位於該特徵提取器之輸入層(input layer)的影像，該影像可以是模型訓練階段的訓練影像(例如第2圖中的訓練影像14K)，或者是模型推論階段的輸入影像。符號CK表示卷積層用以進行卷積運算的卷積核，或稱滑動窗口(sliding window)。符號PK表示池化層用以進行降採樣的池化核(pooling kernel)，或稱池化窗口(pooling window)。卷積層 CL使用卷積核CK對前一層(含輸入層、卷積層及池化層)的輸出進行卷積運算，以生成及輸出一或多個特徵圖。池化層PL使用池化核PK對這些特徵圖進行池化運算以降低這些特徵圖的維度，降維後的特徵圖又可接續進行下一輪的卷積運算。經過多輪交替的卷積層CL及池化層PL之運算，該特徵提取器可以從低層次的基礎特徵逐漸提取出更高層次的抽象特徵，最終生成及輸出特徵圖FM。

第4圖是根據本發明之一實施例展示卷積運算的一個示例，其涉及輸入資料401、卷積核402及特徵圖403。輸入資料401可以是模型訓練階段的訓練影像(例如第2圖中的訓練影像14K)，或者是模型推論階段的輸入影像，或者是卷積層或池化層所輸出的特徵圖。輸入資料401具有多個元素，可以矩陣(matrix)的形式作表示，例如圖中所示出的5*5矩陣。當輸入資料401是位於卷積神經網路的輸入層時，該些元素可以是影像的像素值(pixel values)。當輸入資料401是卷積層或池化層所輸出的特徵圖時，該些元素為特徵值(feature values)。同樣地，卷積核402及特徵圖403也可以矩陣的形式作表示，例如圖中所示出的3*3矩陣。卷積核402中的元素亦可稱為卷積核係數(kernel coefficients)或權重(weights)，這些卷積核係數將用以與輸入資料401相應區域內的元素之數值進行內積(inner product)運算。雖然未在圖中示出，但卷積核402更包含步長(strides)超參數(hyperparameter)，其定義卷積核402在輸入資料401上滑動的距離。特徵圖403之尺寸關聯於卷積核402之步長。較大的步長可以減小特徵圖403的尺寸，而較小的步長則會使得特徵圖403與輸入資料401的尺寸較為接近。

如第4圖所示，使用卷積核402對輸入資料401進行卷積運算，將得到特徵圖403。具體而言，卷積運算將卷積核402中的卷積核係數與輸入資料401中相應區域內的元素之數值逐個相乘並加總，以計算該區域的特徵值。根據卷積核402之步長，不斷地滑動卷積核402對應輸入資料401的位置，即能計算出特徵圖403中的所有特徵值。

更具體而言，當卷積核402滑動到輸入資料401的第一區域411時，會進行如下計算：「0*0+0*1+1*2+3*2+1*2+2*0+2*0+0*1+0*2=10」，以得到特徵圖403中的特徵值421為10。當卷積核402滑動到輸入資料401的第二區域412時，會進行如下計算：「2*0+1*1+0*2+1*2+3*2+1*0+2*0+2*1+3*2=17」，以得到特徵圖403中的特徵值422為17。此處僅以特徵值421及422的計算為示例，特徵圖403中的其他特徵值可依此類推。

應注意，第4圖僅示出一個卷積核以及單一通道(channel)的卷積運算，然而在實務中，每一卷積層通常會使用多個卷積核以提取各種不同特徵。此外，輸入影像通常具有多個通道，例如以RGB色彩空間定義的彩色影像會包含R(紅色)、G(綠色)、B(藍色)三個通道。因此，可搭配適當的池化運算以減少參數的數量及計算量，例如最大池化(max pooling)、平均池化(mean pooling)或其他各種態樣的池化運算，惟本發明並不對此限定。

第5圖是根據本發明之一實施例展示最大池化運算的一個示例，其涉及輸入資料501及輸出資料502。輸入資料501通常是卷積層所輸出的特徵圖，相應的輸出資料502則是經池化後的特徵圖。輸入資料501具有多個元素(即特徵值)，可以矩陣的形式作表示，例如圖中所示出的4*4矩陣。同樣地，輸出資料502也可以矩陣的形式作表示，例如圖中所示出的2*2矩陣。此外，雖然未在圖中示出，但第5圖的示例涉及一個2*2的池化核，並且假定其步長為2。

具體而言，當池化核滑動到輸入資料501的第一區域511時，會選擇該區域內的最大數值「20」作為輸出資料502中的特徵值521。當池化核滑動到輸入資料501的第二區域512時，會選擇該區域內的最大數值「37」作為輸出資料502中的特徵值522。此處僅以特徵值521及522的取得為示例，特徵圖502中的其他特徵值可依此類推。

請參考回第2圖。在一實施例中，分類器152可以是採用決策樹(decision tree)、邏輯迴歸(logistic regression)、單純貝式(naive Bayes)、隨機森林(random forest)、支持向量機(Support Vector Machine；SVM)或全連接神經網路(full-connected neural network)等機器學習模型或演算法所實作，惟本發明並不對此限定。

在一實施例中，第一損失函數可以是交叉熵(cross-entropy；CE)損失、對比損失(contrastive loss)、交叉損失(hinge loss)或KL散度(Kullback-Leibler divergence)等，惟本發明並不對此限定。

在一實施例中，特徵提取器151是基於卷積神經網路，而第一優化器153是以反向傳播(backpropagation)演算法計算第一梯度。更具體而言，第一優化器153以一卷積層所使用的卷積核之卷積核係數對第一損失函數進行偏微分，並依據連鎖率(chain rule)逐層往前遞推出前面各層的梯度。接著，第一優化器153以梯度下降(gradient descent)演算法更新特徵提取器151的參數，包含各卷積層所使用的卷積核(例如第4圖示出的卷積核402)中的卷積核係數。應注意，如先前所述，第一優化器153會先將第一梯度進行反轉，也就是乘上一個負值(例如-1)，然後再採用梯度下降演算法更新特徵提取器151的參數。梯度下降演算法可包含梯度下降法(Gradient Descent；GD)、隨機梯度下降法(Stochastic Gradient Descent；SGD)、批量梯度下降法(Batch Gradient Descent；BGD)、自適應矩估計(adaptive moment estimation；Adam)等，惟本發明並不對此限定。

在一實施例中，可以在基於卷積神經網路的特徵提取器151上加入一梯度反轉層(gradient reversal layer；GRL)，以實現前述梯度反轉之操作。在特徵提取器151提取影像特徵的前向傳播(forward propagation)階段，梯度反轉層不會有任何作用。但在第一優化器153對特徵提取器151計算第一梯度的反向傳播階段，梯度反轉層會使計算出的梯度的正負號反轉，從而使特徵提取器151的參數朝著與原先的訓練目標(即最小化第一損失函數)相反的方向更新。

在一實施例中，第一優化器153除了更新特徵提取器151的參數外，也會更新分類器152的參數。在更進一步的實施例中，特徵提取器151是基於卷積神經網路，分類器152是與該卷積神經網路連接的全連接神經網路(或全連接層)，因此第一優化器153可透過反向傳播一併更新分類器152及特徵提取器151，惟在傳播過程中經過分類器152時不需進行梯度反轉，經過特徵提取器151的卷積層時則需進行梯度反轉。

在一實施例中，估計器154可以是二元分類器(但不同於分類器152)，其輸出二元類別，例如「品質良好」及「品質不良」。二元分類器可以是採用決策樹、邏輯迴歸、單純貝式、隨機森林、支持向量機或全連接神經網路等機器學習模型或演算法所實作，惟本發明並不對此限定。相應地，第二損失函數可以是交叉熵損失、對比損失、交叉損失或KL散度等，惟本發明並不對此限定。

在一實施例中，估計器154可以是回歸器(regressor)，其輸出為連續的預測值。具體而言，估計器154將特徵圖FM輸入至回歸模型，以生成預測值作為前述之估計品質。回歸模型可以是採用線性回歸(linear regression)、決策樹回歸(decision tree regression)、支持向量回歸(support vector regression)或全連接神經網路等機器學習模型或演算法所實作，惟本發明並不對此限定。相應地，第二損失函數可以是均方誤差(mean square error；MSE)或平均絕對誤差(mean absolute error；MAE)，惟本發明並不對此限定。

在一實施例中，第二優化器155除了更新特徵提取器151的參數外，也會更新估計器154的參數。在更進一步的實施例中，特徵提取器151是基於卷積神經網路，估計器154是與該卷積神經網路連接的全連接神經網路(或全連接層)，因此第二優化器155可透過反向傳播一併更新估計器154及特徵提取器151。

在一實施例中，第二優化器155將第二損失值乘上對應於機種標籤12K的權重值，再基於經加權的第二損失值計算第二梯度。對於主要機種可以設定較高的權重值，對於非主要機種則設定較低的權重值。如此一來，若機種標籤12K為主要機種，則訓練資料11K對特徵提取器151乃至於影像品質檢測模型200而言，將會有較高的影響力。

第6圖是根據本發明之一實施例繪示影像品質檢測模型600的推論階段之示意圖，其中影像品質檢測模型600、特徵提取器651與估計器654分別相當於經訓練後的影像品質檢測模型200、特徵提取器151與估計器154。如第6圖所示，影像品質檢測模型600接收輸入影像610後，使用特徵提取器651從輸入影像610提取特徵圖FM，隨後估計器654基於特徵圖FM生成估計結果620，作為影像品質檢測模型600之輸出。

估計結果620的具體內容，取決於估計器654之態樣。在一實施例中，估計器654為二元分類器，因此估計結果620 為二元類別，例如「品質良好」及「品質不良」。對於被影像品質檢測模型600判定為「品質良好」的影像，可繼續進行相應的積極操作，例如提供給疾病檢測模型進行分析，以輔助專業人員(例如醫師)診斷受測者的潛在疾病。對於被影像品質檢測模型600判定為「品質不良」的影像，則可由系統直接排除，或經由專業人員確認後排除。

在另一實施例中，估計器154是回歸器，因此估計結果620為連續的預測值，可理解為「AI預測的影像品質分數」。對於被影像品質檢測模型600評為高分(例如分數高於指定閾值)的輸入影像610，可繼續進行相應的積極操作，例如提供給疾病檢測模型進行分析，以輔助專業人員(例如醫師)診斷受測者的潛在疾病。對於被影像品質檢測模型600評為低分(例如分數低於指定閾值)的影像，則可由系統直接排除，或經由專業人員確認後排除。

第7圖是根據本發明之一實施例繪示一種影像品質檢測模型的訓練方法700之流程圖。如第7圖所示，方法700可包含步驟701-704，其中步驟702與步驟703分別相當於第2圖中分類器152與第一優化器153之操作，步驟704與步驟705分別相當於第2圖中估計器154與第二優化器155之操作，且「步驟702-703」與「步驟704-705」這兩組操作可以是平行地進行。

於步驟701，使用特徵提取器從訓練影像提取特徵圖。

於步驟702，基於特徵圖推算出機種類別，及基於機種類別及機種標籤計算第一損失函數的第一損失值。

於步驟703，基於第一損失值計算第一損失函數相對於特徵提取器的複數個參數之第一梯度，反轉第一梯度，再基於經反轉的第一梯度更新特徵提取器的參數。

於步驟704，基於特徵圖推算出估計品質，及基於估計品質及品質標籤計算第二損失函數的第二損失值。

於步驟705，基於第二損失值計算第二損失函數相對於特徵提取器的參數之第二梯度，再基於第二梯度更新特徵提取器的參數。

以下<表二>提供採用本發明之技術方案所建立的影像品質檢測模型之實驗結果的示例。

<表二>與<表一>，在影像品質檢測模型的訓練資料集中各機種拍攝的眼底影像之數量分布上是完全相同的，也就是說絕大部分眼底影像是由「CR2」這個機種的設備所拍攝，而其他機種「NFC700」、「NW400」、「NW8」、「KOWA」所拍攝的眼底影像僅占一小部分。從<表二>可以明顯看出，相較於以傳統訓練方法建立的影像品質檢測模型，採用本發明之技術方案所建立的影像品質檢測模型對於非主要機種「NFC700」、「NW400」、「NW8」、「KOWA」所拍攝的眼底影像之靈敏度有十分顯著的提升，同時對於主要機種「CR2」所拍攝的眼底影像之靈敏度並沒有顯著的下降。由此可見，採用本發明之技術方案所建立的影像品質檢測模型具有優異的跨機種支援能力，即使在訓練資料集中各機種拍攝的眼底影像之數量分配不均的情況下，也能夠使影像品質檢測模型適應各機種所拍攝的影像。

以上段落採用多種態樣作敘述。顯然地，本文之教示可以多種方式實現，而在範例中所揭露之任何特定架構或功能僅是一種代表性的情況。根據本文之教示，本領域應理解，可獨立實作本文所揭露之各個態樣，或者合併實作兩種以上之態樣。

雖然本揭露已以實施例敘述如上，然其並非用以限定本揭露，任何熟習此技藝者，在不脫離本揭露之精神和範圍內，當可作些許之更動與潤飾，因此發明之保護範圍當視後附之申請專利範圍所界定者為準。

200:影像品質檢測模型

FM:特徵圖

11K:訓練資料

12K:機種標籤

13K:品質標籤

14K:訓練影像

151:特徵提取器

152:分類器

153:第一優化器

154:估計器

155:第二優化器

Claims

一種訓練影像品質檢測模型的系統，包括：一儲存裝置，儲存一程式及一訓練資料集，該訓練資料集中的每筆訓練資料包括一訓練影像及對應於該訓練影像的一機種標籤及一品質標籤；以及一處理裝置，從該儲存裝置載入該程式，以運行一特徵提取器(feature extractor)、一分類器(classifier)、一第一優化器(optimizer)、一估計器(estimator)及一第二優化器；其中該特徵提取器從該訓練影像提取複數個特徵圖(feature maps)；其中該分類器基於該些特徵圖推算出一機種類別，及基於該機種標籤及推算出的該機種類別計算一第一損失函數(loss function)的第一損失值(loss value)；其中該第一優化器基於該第一損失值計算該第一損失函數相對於該特徵提取器的複數個參數之第一梯度(gradients)，反轉(reverse)該些第一梯度，再基於經反轉的該些第一梯度更新該特徵提取器的該些參數；其中該估計器基於該些特徵圖推算出一估計品質，及基於該估計品質及該品質標籤計算一第二損失函數的第二損失值；及其中該第二優化器基於該第二損失值計算該第二損失函數相對於該特徵提取器的該些參數之第二梯度，再基於該些第二梯度更新該特徵提取器的該些參數。
如請求項1之系統，其中該特徵提取器包括一或多個卷積層(convolutional layers)，其中該特徵提取器的該些參數包括每一卷積層使用的一或多個卷積核(convolutional kernels)的卷積核係數(kernel coefficients)。
如請求項2之系統，其中該第一優化器以反向傳播(backpropagation)演算法計算該些第一梯度，及以梯度下降(gradient descent)演算法更新該特徵提取器的該些參數。
如請求項1之系統，其中該估計器是一回歸器(regressor)，該第二損失函數為均方誤差(mean square error；MSE)或平均絕對誤差(mean absolute error；MAE)。
如請求項1之系統，其中該第二優化器將該第二損失值乘上對應於該機種標籤的一權重值，再基於經加權的該第二損失值計算該些第二梯度。
一種影像品質檢測模型的訓練方法，由一電腦系統所實施，其中該電腦系統所儲存的一訓練資料集中的每筆訓練資料包括一訓練影像及對應於該訓練影像的一機種標籤及一品質標籤，該方法包括：使用一特徵提取器(feature extractor)從該訓練影像提取複數個特徵圖(feature maps)；基於該些特徵圖推算出一機種類別，及基於該機種標籤及推算出的該機種類別計算一第一損失函數(loss function)的第一損失值(loss value)；基於該第一損失值計算該第一損失函數相對於該特徵提取器的複數個參數之第一梯度(gradients)，反轉(reverse)該些第一梯度，再基於經反轉的該些第一梯度更新該特徵提取器的該些參數；基於該些特徵圖推算出一估計品質，及基於該估計品質及該品質標籤計算一第二損失函數的第二損失值；以及基於該第二損失值計算該第二損失函數相對於該特徵提取器的該些參數之第二梯度，再基於該些第二梯度更新該特徵提取器的該些參數。
如請求項6之方法，其中該特徵提取器包括一或多個卷積層(convolutional layers)，其中該特徵提取器的該些參數包括每一卷積層使用的一或多個卷積核(convolutional kernels)的卷積核係數(kernel coefficients)。
如請求項7之方法，更包括：以反向傳播(backpropagation)演算法計算該些第一梯度，及以梯度下降(gradient descent)演算法更新該特徵提取器的該些參數。
如請求項6之方法，更包括：使用一回歸器(regressor)推算出該估計品質；其中該第二損失函數為均方誤差(mean square error；MSE)或平均絕對誤差(mean absolute error；MAE)。
如請求項6之方法，更包括：將該第二損失值乘上對應於該機種標籤的一權重值，再基於經加權的該第二損失值計算該些第二梯度。