TWI768323B - 影像處理裝置以及其影像處理方法 - Google Patents
影像處理裝置以及其影像處理方法 Download PDFInfo
- Publication number
- TWI768323B TWI768323B TW109112722A TW109112722A TWI768323B TW I768323 B TWI768323 B TW I768323B TW 109112722 A TW109112722 A TW 109112722A TW 109112722 A TW109112722 A TW 109112722A TW I768323 B TWI768323 B TW I768323B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- input
- texture
- weight
- network model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
一種影像處理裝置將影像應用至第一學習網路模型,以對影像的邊緣進行最佳化,將影像應用至第二學習網路模型,以對影像的紋理進行最佳化,且基於關於影像的邊緣區域及紋理區域的資訊將第一權重應用至第一影像且將第二權重應用至第二影像以獲取輸出影像。
Description
本揭露是有關於一種影像處理裝置以及其影像處理方法,且更具體而言,是有關於一種藉由使用學習網路模型加強影像的特性的影像處理裝置以及其影像處理方法。
受電子技術發展的刺激,已開發出並發佈各種類型的電子裝置。具體而言,近年來,影像處理裝置已被用於各種場所(例如,家庭、辦公室及公共空間)且正持續發展。
近來,已推出並廣泛發佈高解析度顯示面板(例如,4K超高清晰度(Ultra High Definition,UHD)電視(television,TV))。然而,用於在此種高解析度顯示面板上再製的高解析度內容的可用性有所限制。因此,正在開發用於自低解析度內容產生高解析度內容的各種技術。具體而言,對於在有限處理資源內產生高解析度內容所必要的大量操作的高效處理的需求正在增加。
另外,近來,複製人類級別的智慧的人工智慧(artificial intelligence)系統已被用於各種領域。與傳統的基於規則的智慧型系統不同,人工智慧系統是指其中機器進行自主學習、判斷及實行
處理的系統。由於人工智慧系統進行迭代操作,因此該系統顯示出更加改善的辨識率,且例如變得能夠更加正確地理解使用者偏好。因此,傳統的基於規則的智慧型系統正逐漸被基於深度學習的人工智慧系統所取代。
人工智慧技術由機器學習(例如,深度學習)及利用機器學習的元素技術(element technology)組成。
機器學習是指對輸入資料的特性進行自主分類/學習的演算法技術。同時,元素技術是指藉由使用機器學習演算法(例如深度學習)模擬人腦的功能(例如,認知及判斷)的技術且包括例如語言理解、視覺理解、推斷/預測、知識表示(knowledge representation)及操作控制等技術領域。
已試圖藉由在傳統影像處理裝置中使用人工智慧技術來加強影像的特性。然而,存在以下問題:對於傳統影像處理裝置的效能,產生高解析度影像所需的操作的處理量受到限制且花費大量時間。因此,需要一種能夠使影像處理裝置藉由僅執行少量操作來產生高解析度影像並提供影像的技術。
本揭露旨在解決上述需求且提供一種藉由使用多個學習網路模型來獲取具有改善的影像特性的高解析度的影像處理裝置以及其影像處理方法。
根據本揭露實施例的用於達成上述目的的一種影像處理方法包括:記憶體,儲存電腦可讀取指令;以及處理器,被配置
以執行所述電腦可讀取指令,以:將輸入影像作為第一輸入應用至第一學習網路模型且自所述第一學習網路模型獲取第一影像,所述第一影像包括基於所述輸入影像的邊緣進行最佳化的增強邊緣;以及將所述輸入影像作為第二輸入應用至第二學習網路模型且自所述第二學習網路模型獲取第二影像,所述第二影像包括基於所述輸入影像的紋理進行最佳化的增強紋理。所述處理器辨識所述影像中所包括的邊緣區域及紋理區域,且基於關於所述邊緣區域及所述紋理區域的資訊將第一權重應用至所述第一影像且將第二權重應用至所述第二影像,並且基於應用至所述第一影像的所述第一權重及應用至所述第二影像的所述第二權重自所述輸入影像獲取最佳化的輸出影像。
另外,所述第一學習網路模型的第一類型不同於所述第二學習網路模型的第二類型。
另外,所述第一學習網路模型可為藉由使用多個層來對所述輸入影像的所述邊緣進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述邊緣進行最佳化的機器學習模型中的一者。
另外,所述第二學習網路模型可為藉由使用多個層來對所述輸入影像的所述紋理進行最佳化的深度學習模型或藉由使用多個預學習濾波器來對所述輸入影像的所述紋理進行最佳化的機器學習模型中的一者。
同時,所述處理器可基於所述邊緣區域與所述紋理區域
的比例資訊來獲取與所述邊緣區域對應的所述第一權重及與所述紋理區域對應的所述第二權重。
另外,所述處理器可按比例縮小所述輸入影像,以獲取具有較所述輸入影像的解析度小的解析度的按比例縮小影像。另外,所述第一學習網路模型可自對所述按比例縮小影像進行按比例放大的所述第一學習網路模型獲取具有所述增強邊緣的所述第一影像,且所述第二學習網路模型可自對所述按比例縮小影像進行按比例放大的所述第二學習網路模型獲取具有所述增強紋理的所述第二影像。
此外,所述處理器可基於所述按比例縮小影像獲取已辨識出所述邊緣區域及所述紋理區域的區域偵測資訊,且將所述區域偵測資訊及所述影像分別提供至所述第一學習網路模型及所述第二學習網路模型。
另外,所述第一學習網路模型可藉由按比例放大所述邊緣區域來獲取所述第一影像,且所述第二學習網路模型可藉由按比例放大所述紋理區域來獲取所述第二影像。
另外,所述第一影像及所述第二影像可分別為第一殘留影像及第二殘留影像。另外,所述處理器可基於所述邊緣區域將所述第一權重應用至所述第一殘留影像且基於所述紋理區域將所述第二權重應用至所述第二殘留影像,且接著對所述第一殘留影像、所述第二殘留影像及所述輸入影像進行混合以獲取所述輸出影像。
同時,所述第二學習網路模型可為如下模型:所述模型
儲存與多個影像圖案中的每一者對應的多個濾波器,且將所述影像中所包括的影像區塊中的每一者分類至所述多個影像圖案中的一者,並且將所述多個濾波器中的與被分類的影像圖案對應的至少一個濾波器應用至所述影像區塊且提供所述第二影像。
此處,所述處理器可對與被分類的所述影像區塊中的每一者對應的影像圖案的索引資訊進行累積且基於所述索引資訊將所述影像辨識為自然影像或圖形影像中的一者,並且基於將所述輸入影像辨識為所述自然影像或所述圖形影像中的一者的結果來調整所述第一權重及所述第二權重。
此處,所述處理器可基於所述輸入影像被辨識為所述自然影像而增大所述第一權重或所述第二權重中的至少一者,且基於所述輸入影像被辨識為所述圖形影像而減小所述第一權重或所述第二權重中的至少一者。
同時,根據本揭露實施例的一種影像處理裝置的影像處理方法包括以下步驟:將輸入影像作為第一輸入應用至第一學習網路模型;自所述第一學習網路模型獲取第一影像,所述第一影像包括基於所述輸入影像的邊緣進行最佳化的增強邊緣;將所述輸入影像作為第二輸入應用至第二學習網路模型;自所述第二學習網路模型獲取第二影像,所述第二影像包括基於所述輸入影像的紋理進行最佳化的增強紋理;辨識所述輸入影像中所包括的所述邊緣的邊緣區域;辨識所述輸入影像中所包括的紋理區域;基於所述邊緣區域將第一權重應用至所述第一影像;基於所述紋理區域
將第二權重應用至所述第二影像;以及基於應用至所述第一影像的所述第一權重及應用至所述第二影像的所述第二權重,自所述輸入影像獲取最佳化的輸出影像。
此處,所述第一學習網路模型與所述第二學習網路模型可為彼此不同的類型的學習網路模型。
另外,所述第一學習網路模型可為藉由使用多個層來對所述輸入影像的所述邊緣進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述邊緣進行最佳化的機器學習模型中的一者。
另外,所述第二學習網路模型可為藉由使用多個層來對所述輸入影像的所述紋理進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述紋理進行最佳化的機器學習模型中的一者。
另外,所述影像處理方法可包括以下步驟:基於所述輸入影像中的所述邊緣區域與所述輸入影像中的所述紋理區域的比例資訊來獲取所述第一權重及所述第二權重。
另外,所述影像處理方法可包括以下步驟:按比例縮小所述輸入影像,以獲取具有較所述輸入影像的解析度小的解析度的按比例縮小影像。同時,所述第一學習網路模型可藉由按比例放大所述按比例縮小影像來獲取所述第一影像,且所述第二學習網路模型可藉由按比例放大所述按比例縮小影像來獲取所述第二影像。
此處,所述影像處理方法可包括以下步驟:獲取對所述輸入影像的所述邊緣區域進行辨識的第一區域偵測資訊及對所述輸入影像的所述紋理區域進行辨識的第二區域偵測資訊,且將所述區域偵測資訊及所述影像分別提供至所述第一學習網路模型及所述第二學習網路模型。
同時,所述第一學習網路模型可藉由按比例放大所述邊緣區域來獲取所述第一影像,且所述第二學習網路模型可藉由按比例放大所述紋理區域來獲取所述第二影像。
另外,所述第一影像及所述第二影像可分別為第一殘留影像及第二殘留影像。
根據如上所述的本揭露的各種實施例,藉由將彼此不同的學習網路模型應用至影像來產生高解析度的影像,且減少產生高解析度的影像所需的操作量,且因此可在影像處理裝置的有限資源內產生高解析度的影像且可將所述影像提供至使用者。
1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32:索引資訊
10:影像/輸出影像
10’:輸入影像/影像
20、30:輸出影像
30’:最終輸出影像
100:影像處理裝置/聲響輸出裝置
110:記憶體
120、1200:處理器
130:輸入器
140:顯示器
150:輸出器
160:使用者介面
810:拉普拉斯濾波器
820:梯度向量
830:濾波器/搜尋
840:應用
850:索引矩陣
860:濾波器資料庫(DB)
1210:學習部件
1220:辨別部件
S310、S320、S330、S340、S350、S410、S420、S430、S440、S450、S610、S620、S630、S640、S650、S710、S720、S730、S740、S1310、S1320、S1330:操作
圖1是示出根據本揭露實施例的影像處理裝置的實施實例的圖。
圖2是示出根據本揭露實施例的影像處理裝置的配置的方塊圖。
圖3是示出根據本揭露實施例的第一學習網路模型及第二學習網路模型的圖。
圖4是示出根據本揭露實施例的按比例縮小的圖。
圖5是示出根據本揭露實施例的深度學習模型及機器學習模型的圖。
圖6是示出根據本揭露另一實施例的第一學習網路模型及第二學習網路模型的圖。
圖7是示出根據本揭露另一實施例的第一學習網路模型及第二學習網路模型的圖。
圖8是示意性地示出根據本揭露實施例的第二學習網路模型的操作的圖。
圖9是示出根據本揭露實施例的索引資訊的圖。
圖10是示出根據本揭露實施例的獲取最終輸出影像的方法的圖。
圖11是示出圖2中所示的影像處理裝置的詳細配置的方塊圖。
圖12是示出根據本揭露實施例的用於學習及使用學習網路模型的影像處理裝置的配置的方塊圖。
圖13是示出根據本揭露實施例的影像處理方法的流程圖。
在下文中,將參照隨附圖式詳細闡述本揭露。
考慮到本揭露中闡述的功能,儘量選擇傳統上廣泛使用的一般性用語作為在本揭露的實施例中所使用的用語。然而,所述用語可依據相關領域中熟習此項技術者的意圖或新技術的出現而
有所變化。另外,在特定情形中,可存在被指定的用語,且在此種情形中,所述用語的含義將在本揭露中的相關說明中進行詳細闡述。因此,本揭露中所使用的用語應基於所述用語的含義及本揭露的整體內容而並非僅基於所述用語的名稱進行定義。
在本說明書中,例如「具有(have)」、「可具有(may have)」、「包括(include)」及「可包括(may include)」等表達應被視為表示存在此種特性(例如,如數值、功能、操作及組件等元件),且所述用語並非旨在排除附加特性的存在。
另外,表達「A及/或B中的至少一者」應被解釋為意指「A」或「B」中的任何一者或者「A及B」。
另外,本說明書中所使用的表達「第一(first)」、「第二(second)」等可用於闡述各種元件而不考慮任何次序及/或重要程度。另外,此種表達僅用於將一個元件與另一元件區分開,且並非旨在限制所述元件。
同時,本揭露中的說明將一個元件(例如,第一元件)與另一元件(例如,第二元件)「(可操作地或可通訊地)耦合」或「(可操作地或可通訊地)耦合至」另一元件(例如,第二元件)或者「連接至」另一元件(例如,第二元件)應被解釋為意指所述一個元件直接耦合至所述另一元件、或者所述一個元件經由又一元件(例如,第三元件)耦合至所述另一元件。
除非在上下文中進行明顯不同地定義,否則單數表達包括複數表達。此外,在本揭露中,例如「包括(include)」及「具
有(have)」等用語應被視為指明存在說明書中所闡述的此種特性、數目、步驟、操作、元件、組件或其組合,而不是預先排除其他特性、數目、步驟、操作、元件、組件或其組合中的一或多者的存在或添加的可能。
另外,在本揭露中,「模組」或「單元」可實行至少一個功能或操作,且可被實施成硬體或軟體或者被實施成硬體與軟體的組合。此外,多個「模組」或多個「單元」可被整合至至少一個模組中且可被實施成至少一個處理器,但需要被實施成特定硬體的「模組」或「單元」除外。
另外,在本說明書中,用語「使用者」可指操作電子裝置的人或裝置(例如,人工智慧電子裝置)。
在下文中,將參照隨附圖式更詳細地闡述本揭露的實施例。
圖1是示出根據本揭露實施例的影像處理裝置的實施實例的圖。
影像處理裝置100可被實施成如圖1中所示的電視(TV)。然而,影像處理裝置100並非僅限於此,且影像處理裝置100可被實施成裝配有影像處理功能及/或顯示功能的以下裝置中的任意者:例如智慧型電話、平板個人電腦(personal computer,PC)、膝上型個人電腦、頭戴式顯示器(head mounted display,HMD)、近眼顯示器(near eye display,NED)、大型顯示器(large format display,LFD)、數位標牌(digital signage)、數位資訊顯示器(digital
information display,DID)、視訊牆(video wall)、投影機顯示器、相機、攝錄影機(camcorder)、列印機等,而不受限制。
影像處理裝置100可接收各種解析度的影像或各種壓縮影像。舉例而言,影像處理裝置100可接收根據以下影像中的任意者進行格式化的影像10:標準清晰度(standard definition,SD)影像、高清晰度(high definition,HD)影像、全HD影像及超HD影像。另外,影像處理裝置100可接收例如以下編碼格式或壓縮形式的影像10:動態影像專家群壓縮標準(Moving Picture Experts Group,MPEG)(例如,MP2、MP4、MP7等)、高級視訊編碼(advanced video coding,AVC)、H.264、高效率視訊編碼(high efficiency video coding,HEVC)等。
儘管根據本揭露實施例影像處理裝置100被實施成UHD電視,但由於UHD內容的有限可用性,存在許多其中僅以下影像可用的情況:例如標準清晰度(SD)影像、高清晰度(HD)影像及全HD影像(在下文中被稱為低解析度的影像)等影像。在此種情形中,可提供一種將低解析度的輸入影像放大至UHD影像(在下文中被稱為高解析度的影像)並提供所得影像的方法。作為實例,可將低解析度的影像作為輸入應用至學習網路模型,使得低解析度的影像可被放大,且因此高解析度的影像可被作為輸出獲取以在影像處理裝置100上顯示。
然而,為將低解析度的影像放大至高解析度的影像,一般需要大量複雜的處理操作來對影像資料進行轉變。因此,需要具
有高效能及高複雜度的影像處理裝置100來執行此種轉變。作為實例,為將解析度為820×480的SD級中的60P影像按比例放大至高解析度的影像,影像處理裝置100應每秒實行820×480×60畫素的操作。因此,需要具有高效能的處理單元,例如中央處理單元(central processing unit,CPU)或圖形處理單元(graphics processing unit,GPU)或其組合。作為另一實例,影像處理裝置100應每秒實行3840×2160×60畫素的操作,以將解析度為4K的UHD級中的60P影像按比例放大至解析度為8K的影像。因此,需要一種能夠處理大量操作的處理單元,如為在SD級中按比例放大影像的情形的至少24倍的量。
因此,在下文中,將闡述提供影像處理裝置100的各種實施例,影像處理裝置100減少將較低解析度的影像按比例放大至較高解析度的影像所需的操作量,且因此使影像處理裝置100的有限資源最大化。
另外,將闡述其中影像處理裝置100在加強或增強輸入影像的各種特性中的至少一個影像特性的同時獲取輸出影像的各種實施例。
圖2是示出根據本揭露實施例的影像處理裝置的配置的方塊圖。
根據圖2,影像處理裝置100包括記憶體110及處理器120。
記憶體110與處理器120電性連接且可儲存執行本揭露
的各種實施例所必要的資料。舉例而言,記憶體110可被實施成內部記憶體,例如處理器120中所包括的唯讀記憶體(read-only memory,ROM)(例如,電性可抹除可程式化唯讀記憶體(electrically erasable programmable read-only memory,EEPROM))、隨機存取記憶體(random access memory,RAM)等、或與處理器120分離的記憶體。
記憶體110可根據儲存的資料的使用而以以下形式來實施:嵌置於影像處理裝置100中的記憶體的形式、或者被實施成可附接於影像處理裝置100上或自影像處理裝置100拆離的記憶體的形式。舉例而言,在資料用於操作影像處理裝置100的情形中,所述資料可儲存於嵌置在影像處理裝置100中的記憶體中,且在資料用於影像處理裝置100的擴展功能的情形中,所述資料可儲存於可附接於影像處理裝置100上或自影像處理裝置100拆離的記憶體中。在記憶體110被實施成嵌置於影像處理裝置100中的記憶體的情形中,記憶體110可為以下記憶體中的至少一者:揮發性記憶體(例如,動態RAM(dynamic RAM,DRAM)、靜態RAM(static RAM,SRAM)、同步動態RAM(synchronous dynamic RAM,SDRAM)等)或非揮發性記憶體(例如,一次可程式化ROM(one time programmable ROM,OTPROM)、可程式化ROM(programmable ROM,PROM)、可抹除及可程式化ROM(erasable and programmable ROM,EPROM)、電性可抹除及可程式化ROM(electrically erasable and programmable ROM,EEPROM)、遮罩
ROM(mask ROM)、快閃ROM(flash ROM)、快閃記憶體(例如,反及快閃(NAND flash)或反或快閃(NOR flash)等)、硬驅動機(hard drive)或固態驅動機(solid state drive,SSD))。
同時,在記憶體110被實施成可附接於影像處理裝置100上或自影像處理裝置100拆離的記憶體的情形中,記憶體110可為記憶卡(例如,緊湊式快閃(compact flash,CF)、安全數位(secure digital,SD)、微型安全數位(micro secure digital,Micro-SD)、迷你安全數位(mini secure digital,Mini-SD)、極限數位(extreme digital,xD)、多媒體卡(multi-media card,MMC)等)、可連接至通用串列匯流排(universal serial bus,USB)埠的外部記憶體(例如,USB記憶體)等。
根據本揭露的實施例,記憶體110可儲存用於使指令由處理器120執行的至少一個程式。此處,指令可為用於處理器120以藉由將影像10應用至學習網路來獲取輸出影像的指令。
根據本揭露的另一實施例,記憶體110可儲存根據本揭露各種實施例的學習網路模型。
根據本揭露實施例的學習網路模型是基於人工智慧演算法、基於多個影像進行訓練的判斷模型,且學習網路可為基於神經網路的模型。經訓練的判斷模型可被設計成在電腦上模擬人類智慧及決策,且可包括多個具有權重的網路節點,所述網路節點模擬人類神經網路的神經元。所述多個網路節點中的每一者可形成連接關係,以模擬經由突觸傳送及接收訊號的神經元的突觸活動。
另外,經訓練的判斷模型可包括例如機器學習模型、神經網路模型或自神經網路模型發展的深度學習模型。在深度學習模型中,多個網路節點可位於彼此不同的深度(或層)中且根據捲積連接關係傳送及接收資料。
作為實例,學習網路模型可為基於影像進行訓練的捲積神經網路(convolution neural network,CNN)模型。CNN是具有為語音處理、影像處理等而設計的特定連接結構的多層式神經網路。同時,學習網路模型並非僅限於CNN。舉例而言,學習網路模型可被實施成以下模型中的至少一個深度神經網路(deep neural network,DNN)模型:遞歸神經網路(recurrent neural network,RNN)模型、長短期記憶體網路(long short term memory network,LSTM)模型、閘控遞歸單元(gated recurrent unit,GRU)模型或生成對抗網路(generative adversarial network,GAN)模型。
舉例而言,學習網路模型可基於超解析度GAN(Super-resolution GAN,SRGAN)將低解析度的影像恢復或轉換至高解析度的影像。同時,根據本揭露實施例的記憶體110可儲存相同種類或不同種類的多個學習網路模型。學習網路模型的數目及類型不受限制。然而,根據本揭露的另一實施例,根據本揭露各種實施例的至少一個學習網路模型可儲存於外部裝置或外部伺服器中的至少一者中。
處理器120與記憶體110電性連接且控制影像處理裝置100的總體操作。
根據本揭露的實施例,處理器120可被實施成對數位訊號進行處理的數位訊號處理器(digital signal processor,DSP)、微處理器、人工智慧(AI)處理器及時序控制器(timing controller,T-CON)。然而,處理器120並非僅限於此,且處理器120可包括中央處理單元(central processing unit,CPU)、微控制器單元(micro controller unit,MCU)、微處理單元(micro processing unit,MPU)、控制器、應用處理器(application processor,AP)、通訊處理器(communication processor,CP)及高階RISC機器(Advanced RISC Machine,ARM)處理器中的一或多者,或者可由用語定義。另外,處理器120可被實施成其中儲存有處理演算法的系統晶片(system on chip,SoC)或大型積體(large scale integration,LSI),或以現場可程式化閘陣列(field programmable gate array,FPGA)的形式來實施。
處理器120可將影像10作為輸入應用至學習網路模型並獲取具有改善的、增強的、最佳化的或加強的影像特性的影像。此處,影像10的特性可意指根據影像10中所包括的多個畫素的邊緣方向、邊緣強度、紋理、灰值、亮度、反差或伽瑪值(gamma value)中的至少一者。舉例而言,處理器120可將影像應用至學習網路模型並獲取其中邊緣及紋理已得到增強的影像。此處,影像的邊緣可意指其中在空間上相鄰的畫素的值急劇改變的區域。舉例而言,邊緣可為其中影像的亮度自低值急劇改變至高值或自高值急劇改變至低值的區域。影像的紋理可為影像中被視為相同特
性的區域的獨特圖案或形狀。同時,影像的紋理亦可由精細邊緣組成,且因此處理器120可獲取其中等於或大於第一臨限強度(或臨限厚度)的邊緣分量及小於第二臨限強度(或臨限厚度)的邊緣分量已得到改善的影像。此處,第一臨限強度可為用於對根據本揭露實施例的邊緣分量進行劃分的值,且第二臨限強度可為用於對根據本揭露實施例的紋理分量進行劃分的值,且第一臨限強度及第二臨限強度可為預定值或基於影像的特性設定的值。然而,在下文中,為便於闡釋,上述特性將被稱為邊緣及紋理。
同時,根據本揭露實施例的影像處理裝置100可包括多個學習網路模型。所述多個學習網路模型中的每一者可加強影像10的不同特性。將參照圖3對此進行詳細闡釋。
圖3是示出根據本揭露實施例的第一學習網路模型及第二學習網路模型的圖。
參照圖3,在操作S310處,根據本揭露實施例的處理器120可將影像10作為輸入應用至第一學習網路模型並獲取其中影像10的邊緣已得到改善的第一影像作為輸出。在操作S320處,亦可將影像10作為輸入供應至第二學習網路模型並獲取其中影像10的紋理已得到改善的第二影像作為輸出。
同時,根據本揭露實施例的影像處理裝置100可並列使用基於彼此不同的人工智慧演算法的第一學習網路模型與第二學習網路模型。作為另外一種選擇,影像10可由第一學習網路模型及第二學習網路模型連續處理。此處,第一學習網路模型可為藉由
使用除第二學習網路模型的資源之外的更大資源進行訓練的模型。此處,資源可為訓練及/或處理學習網路模型所必要的各種資料且可包括例如是否實行即時學習、學習資料的量、學習網路模型中所包括的捲積層的數目、參數的數目、學習網路模型中所使用的記憶體的容量、學習網路使用GPU的程度等。
舉例而言,影像處理裝置100中提供的GPU可包括紋理單元、特定功能單元(special function unit,SFU)、算術邏輯裝置等。此處,紋理單元是用於向影像10添加材料或紋理的資源,且特定功能單元是用於對例如平方根、倒數及代數函數的複雜運算進行處理的資源。同時,整數算術邏輯單元(integer arithmetic logic unit,ALU)是對浮點、整數運算、比較及資料移動進行處理的資源。幾何單元是對物件的位置或視點、光源的方向等進行計算的資源。光柵單元(raster unit)是將三維資料投射於二維螢幕上的資源。在此種情形中,深度學習模型可較機器學習模型使用GPU中所包括的各種資源來進行學習及操作。同時,影像處理裝置100的資源並非僅限於GPU的資源,且所述資源可為影像處理裝置100中所包括的各種組件的資源,例如記憶體110的儲存區域、電力等。
根據本揭露實施例的第一學習網路模型及第二學習網路模型可為不同類型的學習網路模型。
作為實例,第一學習網路模型可為基於深度學習的模型或機器學習模型中的一者,基於深度學習的模型學習基於多個影
像來改善影像10的邊緣,機器學習模型被訓練成藉由使用多個預學習濾波器來改善影像的邊緣。第二學習網路模型可為深度學習模型或基於機器學習的模型,深度學習模型學習藉由使用多個層來改善影像的紋理,基於機器學習的模型被訓練成藉由使用基於多個影像的預學習資料庫(database,DB)及多個預學習濾波器來改善影像的紋理。此處,預學習DB可為與多個影像圖案中的每一者對應的多個濾波器,且第二學習網路模型可辨識與影像10中所包括的影像區塊對應的影像圖案且藉由使用多個濾波器中與被辨識的圖案對應的濾波器來對影像10的紋理進行最佳化。根據本揭露的實施例,第一學習網路模型可為深度學習模型,且第二學習網路模型可為機器學習模型。
機器學習模型包括基於各種資訊及資料輸入方法(例如監督式學習(supervised learning)、無監督式學習(unsupervised learning)及半監督式學習(semi-supervised learning))而預先進行學習的多個預學習濾波器,且在所述多個濾波器中辨識將被應用至影像10的濾波器。
深度學習模型是基於大量資料實行學習的模型且包括位於輸入層與輸出層之間的多個隱藏層。因此,深度學習模型可能需要較機器學習模型的資源多的影像處理裝置100的附加資源來實行學習及操作。
作為另一實例,第一學習網路模型及第二學習網路模型可為基於相同的人工智慧演算法的模型,但具有不同的大小或配
置。舉例而言,第二學習網路模型可為具有較第一學習網路模型的大小小的大小的低複雜度模型。此處,學習網路模型的大小及複雜度可與構成模型的捲積層的數目及參數的數目成比例關係。另外,根據本揭露的實施例,第二學習網路模型可為深度學習模型,且第一學習網路模型可為使用較第二學習網路模型的捲積層少的捲積層的深度學習模型。
作為又一實例,第一學習網路模型及第二學習網路模型中的每一者可為機器學習模型。舉例而言,第二學習網路模型可為具有較第一學習網路模型的大小小的大小的低複雜度機器學習模型。
同時,已基於假設第一學習網路模型是藉由使用較第二學習網路模型的資源多的資源進行訓練的模型來闡釋了本揭露的各種實施例,但此僅為實例且本揭露並非僅限於此。舉例而言,第一學習網路模型與第二學習網路模型可為具有相同或相似複雜度的模型,且第二學習網路模型可為藉由使用較第一學習網路模型的資源多的資源進行訓練的模型。
在操作S330處,根據本揭露實施例的處理器120可辨識影像10中所包括的邊緣區域及紋理區域。接著,在操作S340處,處理器120可基於關於邊緣區域及紋理區域的資訊而將第一權重應用至第一影像且將第二權重應用至第二影像。作為實例,處理器120可基於關於影像10中所包括的邊緣區域與紋理區域的比例的資訊來獲取與邊緣區域對應的第一權重及與紋理區域對應的
第二權重。舉例而言,若根據比例存在較紋理區域多的邊緣區域,則處理器120可對其中邊緣區域已得到改善的第一影像應用較其中紋理已得到改善的第二影像大的權重。作為另一實例,若根據比例存在較邊緣區域多的紋理區域,則處理器120可對其中紋理已得到改善的第二影像應用較其中邊緣已得到改善的第一影像大的權重。接著,處理器120可基於已被應用第一權重的第一影像及已被應用第二權重的第二影像來獲取輸出影像10。
作為又一實例,自第一學習網路模型及第二學習網路模型獲取的第一影像及第二影像可為殘留影像。此處,殘留影像可為除原始影像之外僅包括殘留資訊的影像。作為實例,第一學習網路模型可辨識影像10中的邊緣區域且對被辨識的邊緣區域進行最佳化並獲取第一影像。第二學習網路模型可辨識影像10中的紋理區域且對被識別的紋理區域進行最佳化並獲取第二影像。
接著,處理器120可將影像10與第一影像及第二影像進行混合並獲取輸出影像20。此處,混合可為將第一影像及第二影像中的每一者的對應的畫素值添加至影像10中所包括的每一畫素的值的處理。在此種情形中,由於第一影像及第二影像,輸出影像20可為具有已得到增強的邊緣及紋理的影像。
根據本揭露實施例的處理器120可將第一權重及第二權重分別應用至第一影像及第二影像,且接著將所述影像與影像10進行混合,且因此獲取輸出影像20。
作為另一實例,處理器120可將影像10劃分成多個區
域。接著,處理器120可辨識所述多個區域中的每一者的邊緣區域與紋理區域的比例。對於所述多個區域中邊緣區域的比例高的第一區域,處理器120可將第一權重設定成較第二權重大的值。另外,對於所述多個區域中紋理區域的比例高的第二區域,處理器120可將第二權重設定成較第一權重大的值。
接著,在操作S340處,處理器120可將已被應用權重的第一影像及第二影像與影像10進行混合並獲取輸出影像。影像10及與影像10對應的輸出影像20可被表達為以下方程式1。
[方程式1] Y res =Y img +a*Network_Model1(Y img )+b*Network_Model2(Y img )
此處,Y img 意指影像10,Network_Model1(Y img )意指第一影像,Network_Model2(Y img )意指第二影像,「a」意指與第一影像對應的第一權重,且「b」意指與第二影像對應的第二權重。
同時,作為又一實例,處理器120可將影像10作為輸入應用至第三學習網路模型並獲取用於應用至第一影像的第一權重及應用至第二影像的第二權重。舉例而言,第三學習網路模型可被訓練成辨識影像10中所包括的邊緣區域及紋理區域且基於被辨識的邊緣區域與紋理區域的比例、影像10的特性等輸出對邊緣區域進行加強的第一權重及對紋理區域進行加強的第二權重。
圖4是示出根據本揭露實施例的按比例縮小的圖。
參照圖4,在操作S410處,處理器120可辨識輸入影像10’中的邊緣區域及紋理區域並獲取與邊緣區域對應的第一權重
及與紋理區域對應的第二權重。作為實例,處理器120可將導引濾波器(guided filter)應用至輸入影像10’且辨識邊緣區域及紋理區域。導引濾波器可為用於將影像10劃分成基礎層及細節層的濾波器。處理器120可基於基礎層辨識邊緣區域且基於細節層辨識紋理區域。
接著,在操作S420處,處理器120可按比例縮小輸入影像10’並獲取解析度較輸入影像10’的解析度小的影像10。作為實例,處理器120可對輸入影像10’應用子採樣並將輸入影像10’的解析度按比例縮小至目標解析度。此處,目標解析度可為較輸入影像10’的解析度低的低解析度。舉例而言,目標解析度可為與輸入影像10’對應的原始影像的解析度。此處,原始影像的解析度可藉由解析度估測程式來估測,或者基於與輸入影像10’一同接收的附加資訊來辨識,但原始影像的解析度及辨識並非僅限於此。同時,處理器120可應用除子採樣之外的各種已知的按比例縮小方法,且因此獲取與輸入影像10’對應的影像10。
作為實例,若輸入影像10’是解析度為4K的UHD影像,則為將輸入影像10’作為輸入應用至第一學習網路模型及第二學習網路模型並獲取輸出影像20,需要較將解析度為820×480的SD影像應用至第一學習網路模型及第二學習網路模型的情形大至少5.33倍(3840/820)的列緩衝器記憶體(line buffer memory)。另外,存在以下問題:隨著第一學習網路模型獲取第一影像所需的操作量的增大,儲存第一學習網路模型中所包括的多個隱藏層中的
每一者的中間操作結果的記憶體110的空間以及所需的CPU/GPU的效能以指數方式增大。
因此,根據本揭露實施例的處理器120可將按比例縮小的輸入影像10應用至第一學習網路模型及第二學習網路模型,以減小第一學習網路模型及第二學習網路模型中所需的操作量、記憶體110的儲存空間等。
在操作S430處,當輸入按比例縮小的影像10時,根據本揭露實施例的第一學習網路模型可實行對與輸入影像10中所包括的邊緣對應的高頻分量進行增強的按比例放大並獲取高解析度的第一影像。同時,在操作S440處,第二學習網路模型可實行對與影像10中所包括的紋理對應的高頻分量進行增強的按比例放大並獲取高解析度的第二影像。此處,第一影像及第二影像的解析度可與輸入影像10’的解析度相同。舉例而言,若輸入影像10是4K解析度的影像且按比例縮小的影像10是2K解析度的影像,則第一學習網路模型及第二學習網路模型可對影像10實行按比例放大並獲取4K解析度的影像作為影像10的輸出。
在操作S450處,根據本揭露實施例的處理器120可將按比例放大的第一影像及第二影像與輸入影像10’進行混合並獲取其中輸入影像10’中的邊緣及紋理已得到增強的高解析度的輸出影像20。根據圖4中所示的實施例,獲取輸入影像10’及與輸入影像10’對應的輸出影像20的過程可被表達為以下方程式2。
[方程式2]
Y res =Y org +a*Network_Model1(DownScaling(Y org ))+b*Network_Model2(DownS caling(Y org ))
此處,Y org 意指輸入影像10’,DownScaling(Y org )意指影像10,Network_Model1(DownScaling(Y org ))意指第一影像,Network_Model2(DownScaling(Y org ))意指第二影像,「a」意指與第一影像對應的第一權重,且「b」意指與第二影像對應的第二權重。
圖5是示出根據本揭露實施例的深度學習模型及機器學習模型的圖。
參照圖5,如上所述,第一學習網路模型可為學習藉由使用多個層來加強影像10的邊緣的深度學習模型,且第二學習網路模型可為被訓練成藉由使用多個預學習濾波器來加強影像10的紋理的機器學習模型。
根據本揭露的實施例,可以其中重複兩個捲積層及一個集用層(pooling layer)的配置將深度學習模型建模成共包括十個或更多個層的深度結構。另外,深度學習模型可藉由使用各種類型的激活函數(例如恆等函數(Identity Function)、邏輯S形函數(Logistic Sigmoid Function)、雙曲正切(Hyperbolic Tangent,tanh)函數、線性整流(rectified linear unit,ReLU)函數、漏失ReLU函數(Leaky ReLU Function)等)來實行操作。另外,在實行捲積的過程中,深度學習模型可藉由實行填補、跨步等來不同地調整大小。此處,填補意指在接收到的輸入值周圍填充入與預定大小一般大的特定值(例如,畫素值)。跨步意指當實行捲積時加權矩陣的
移位間隔。舉例而言,若跨步=3,則學習網路模型可在一次性將權重矩陣移位與三個空間一般多時對輸入值實行捲積。
根據本揭露的實施例,深度學習模型可學習對影像10的各種特性中使用者靈敏性高的一個特性進行最佳化,且機器學習模型可藉由使用多個預學習濾波器來對影像10的其餘特性中的至少一者進行最佳化。舉例而言,可假設其中在邊緣區域的透明度(例如,邊緣方向、邊緣強度)與使用者感覺到的影像10的透明度之間存在密切關係的情形。影像處理裝置100可藉由使用深度學習模型來增強影像10的邊緣,且作為其餘特性的實例,影像處理裝置100可藉由使用機器學習模型來增強紋理。由於深度學習模型基於較機器學習模型多的大量資料進行學習且實行迭代操作,因此假設深度學習模型的處理結果優於機器學習模型的處理結果。然而,本揭露未必僅限於此,且第一學習網路模型及第二學習網路模型二者皆可被實施成基於深度學習的模型或者被實施成基於機器學習的模型。作為另一實例,第一學習網路模型可被實施成基於機器學習的模型且第二學習網路模型可被實施成基於深度學習的模型。
另外,儘管基於第一學習網路模型加強邊緣且第二學習網路模型加強紋理的假設對本揭露的各種實施例進行闡釋,然而學習網路模型的具體操作並非僅限於此。舉例而言,可假設其中在影像10的雜訊的處理程度與使用者感覺到的影像10的透明度之間存在最密切關係的情形。在此種情形中,影像處理裝置100可
藉由使用深度學習模型對影像10的雜訊實行影像處理,且作為其餘影像特性的實例,影像處理裝置100可藉由使用機器學習模型來加強紋理。作為另一實例,若在影像10的亮度的處理程度與使用者感覺到的影像10的透明度之間存在最密切關係,則影像處理裝置100可藉由使用深度學習模型對影像10的亮度實行影像處理,且作為其餘影像特性的實例,影像處理裝置100可藉由使用機器學習模型來過濾雜訊。
圖6是示出根據本揭露實施例的第一學習網路模型及第二學習網路模型的圖。
根據本揭露實施例的處理器120可在操作S610處按比例縮小輸入影像10’並獲取相對較低的解析度的影像10,且在操作S620處獲取區域偵測資訊,區域偵測資訊已基於按比例縮小的影像10’而辨識出邊緣區域及紋理區域。根據圖5中所示的實施例,處理器120可辨識原始影像的解析度的輸入影像10’中所包括的邊緣區域及紋理區域。參照圖6,處理器120可辨識其中輸入影像10’的解析度已被按比例縮小至目標解析度的影像10中所包括的邊緣區域及紋理區域。
接著,根據本揭露實施例的處理器120可分別將區域偵測資訊及影像10提供至第一學習網路模型及第二學習網路模型。
在操作S630處,根據本揭露實施例的第一學習網路模型可基於區域偵測資訊實行僅對影像10的邊緣區域進行加強的按比例放大。在操作S640處,第二學習網路模型可基於區域偵測資
訊實行僅對影像10的紋理區域進行加強的按比例放大。
作為另一實例,處理器120可基於區域偵測資訊而將僅包括影像10中所包括的畫素資訊中的一些畫素資訊的影像提供至學習網路模型。由於處理器120僅將影像10中所包括的一些資訊而非影像10提供至學習網路模型,因此學習網路模型進行的操作量可減少。舉例而言,處理器120可基於區域偵測資訊而將僅包括與邊緣區域對應的畫素資訊的影像提供至第一學習網路模型且將僅包括與紋理區域對應的畫素資訊的影像提供至第二學習網路模型。
接著,第一學習網路模型可按比例放大邊緣區域並獲取第一影像,且第二學習網路模型可按比例放大紋理區域並獲取第二影像。
接下來,在操作S650處,處理器120可將第一影像及第二影像添加至輸入影像10’並獲取輸出影像20。
圖7是示出根據本揭露另一實施例的第一學習網路模型及第二學習網路模型的圖。
參照圖7,在操作S710處,根據本揭露實施例的處理器120可將輸入影像10’作為輸入應用至第一學習網路模型並獲取第一影像。作為實例,由於在操作S710處第一學習網路模型實行對與輸入影像10’中所包括的邊緣對應的高頻分量進行加強的按比例放大,因此處理器120可獲取高解析度的第一影像。此處,第一影像可為殘留影像。殘留影像可為除原始影像之外僅包括殘留資
訊的影像。殘留資訊可指示原始影像與高解析度影像的每一畫素或畫素群組之間的差異。
另外,在操作S720處,根據本揭露實施例的處理器120可將輸入影像10’作為輸入應用至第二學習網路模型並獲取第二影像。作為實例,由於第二學習網路模型實行對與輸入影像10’中所包括的紋理對應的高頻分量進行加強的按比例放大,因此處理器120可獲取高解析度的第二影像。此處,第二影像可為殘留影像。殘留資訊可指示原始影像與高解析度影像的每一畫素或畫素群組之間的差異。
根據本揭露的實施例,第一學習網路模型及第二學習網路模型分別實行對輸入影像10’的特性中的至少一個特性進行加強的按比例放大,且因此相較於輸入影像10’,第一影像及第二影像具有高解析度。舉例而言,若輸入影像10’的解析度為2K,則第一影像及第二影像的解析度可為4K,且若輸入影像10’的解析度為4K,則第一影像及第二影像的解析度可為8K。
在操作S730處,根據本揭露實施例的處理器120可按比例放大輸入影像10’並獲取第三影像。根據本揭露的實施例,影像處理裝置100可包括對輸入影像10’進行按比例放大的單獨的處理器,且處理器120可按比例放大輸入影像10’並獲取高解析度的第三影像。舉例而言,處理器120可藉由使用雙線性內插(bilinear interpolation)、雙三次內插(bicubic interpolation)、三次樣條內插(cubic spline interpolation)、蘭佐斯內插(Lanczos
interpolation)、邊緣定向內插(edge directed interpolation,EDI)等對輸入影像10’實行按比例放大。同時,此僅為實例且處理器120可基於各種按比例放大(或超解析度)方法來按比例放大輸入影像10’。
作為另一實例,處理器120可將輸入影像10’作為輸入應用至第三學習網路模型並獲取與輸入影像10’對應的高解析度的第三影像。此處,第三學習網路模型可為基於深度學習的模型或基於機器學習的模型。根據本揭露的實施例,若輸入影像10’的解析度為4K,則第三影像的解析度可為8K。另外,根據本揭露的實施例,第一影像至第三影像的解析度可相同。
接著,在操作S740處,處理器120可對第一影像至第三影像進行混合並獲取輸出影像20。
根據本揭露實施例的處理器120可對第一殘留影像、第二殘留影像及第三殘留影像進行混合並獲取輸出影像,第一殘留影像藉由加強輸入影像10’中的邊緣來按比例放大輸入影像10’,第二殘留影像藉由加強輸入影像10’中的紋理來按比例放大輸入影像10’,第三殘留影像按比例放大輸入影像10’。此處,處理器120可辨識輸入影像10’中的邊緣區域且將被辨識的邊緣區域應用至第一學習網路模型,並且加強邊緣區域,且因此獲取按比例放大的第一殘留影像。另外,處理器120可辨識輸入影像10’中的紋理區域且將被辨識的紋理區域應用至第二學習網路模型,並且加強紋理區域,且因此獲取按比例放大的第二殘留影像。同時,此僅為
實例且配置及操作並非僅限於此。舉例而言,處理器120可將輸入影像10’應用至第一學習網路模型及第二學習網路模型。接著,第一學習網路模型可基於輸入影像10’的各種影像特性中的邊緣特性來辨識邊緣區域且加強被辨識的邊緣區域,且因此獲取按比例放大的高解析度的第一殘留影像。第二學習網路模型可基於輸入影像10’的各種影像特性中的紋理特性來辨識紋理區域且加強被辨識的紋理區域,且因此獲取按比例放大的高解析度的第二殘留影像。
另外,根據本揭露實施例的處理器120可按比例放大輸入影像10’且獲取高解析度的第三影像。此處,第三影像可為藉由按比例放大原始影像而非殘留影像所獲取的影像。
根據本揭露的實施例,處理器120可對第一影像至第三影像進行混合並獲取解析度較輸入影像10’大的輸出影像20。此處,輸出影像20可為其中邊緣區域及紋理區域已得到加強的按比例放大影像,而非其中僅解析度已被按比例放大的影像。同時,此僅為實例且處理器120可獲取其中輸入影像10’的各種影像特性已得到加強的多個殘留影像且對按比例放大輸入影像10’的第三影像與多個殘留影像進行混合,並且基於對影像進行混合的結果獲取輸出影像20。
圖8是示意性地示出根據本揭露實施例的第二學習網路模型的操作的圖。
根據本揭露實施例的處理器120可將影像10作為輸入
應用至第二學習網路模型並獲取其中紋理已得到增強的第二影像。
根據本揭露實施例的第二學習網路模型可儲存與多個影像圖案中的每一者對應的多個濾波器。此處,可根據影像區塊的特性對所述多個影像圖案進行分類。舉例而言,第一影像圖案可為在水平方向上具有大量線條的影像圖案,且第二影像圖案可為在旋轉方向上具有大量線條的影像圖案。所述多個濾波器可為藉由人工智慧演算法進行預先學習的濾波器。
另外,根據本揭露實施例的第二學習網路模型可自影像10讀取預定大小的影像區塊。此處,影像區塊可為包括影像10中所包括的對象畫素及多個周圍畫素的多個畫素的群組。作為實例,第二學習網路模型可讀取影像10的左上端上的3×3畫素大小的第一影像區塊且對第一影像區塊實行影像處理。接著,第二學習網路模型可自影像10的左上端向右掃描與單位畫素一般多的量,且讀取3×3畫素大小的第二影像區塊且對第二影像區塊實行影像處理。藉由掃描畫素區塊,第二學習網路模型可對影像10實行影像處理。同時,第二學習網路模型可自影像10自主讀取第一影像區塊至第n影像區塊,且處理器120可將第一影像區塊至第n影像區塊作為輸入依序應用至第二學習網路模型且對影像10實行影像處理。
為偵測影像區塊中的高頻分量,第二學習網路模型可將預定大小的濾波器應用至影像區塊。作為實例,第二學習網路模型可將與影像區塊的大小對應的3×3大小的拉普拉斯濾波器(Laplacian filter)810應用至影像區塊,且因此消除影像10中的
低頻分量並偵測高頻分量。作為另一實例,第二學習網路模型可藉由將各種類型的濾波器(例如索貝爾(Sobel)、普雷維特(Prewitt)、羅伯特(Robert)、坎尼(Canny)等)應用至影像區塊來獲取影像10的高頻分量。
接著,第二學習網路模型可基於自影像區塊獲取的高頻分量來計算梯度向量820。具體而言,第二學習網路模型可計算水平梯度及垂直梯度且基於水平梯度及垂直梯度計算梯度向量。此處,梯度向量可表達基於每一畫素相對於位於預定方向上的畫素的改變量。另外,第二學習網路模型可基於梯度向量的方向性將影像區塊分類為多個影像圖案中的一者。
接下來,第二學習網路模型可藉由使用索引矩陣850來搜尋將被應用至自影像10偵測到的高頻分量的濾波器(實行濾波器搜尋)830。明確而言,第二學習網路模型可基於索引矩陣來辨識指示影像區塊的圖案的索引資訊,且搜尋830與索引資訊對應的濾波器。舉例而言,若與影像區塊對應的索引資訊被辨識為指示影像區塊的圖案的1至32的索引資訊中的索引資訊32,則第二學習網路模型可自所述多個濾波器中獲取映射至索引資訊32的濾波器。同時,以上特定索引值僅為實例且索引資訊可根據濾波器的數目減少或增加。另外,索引資訊可用除整數之外的各種方式來表達。
之後,第二學習網路模型可基於搜尋結果獲取濾波器資料庫(DB)860中所包括的所述多個濾波器中的至少一個濾波器,
且將所述至少一個濾波器應用840至影像區塊,進而獲取第二影像。作為實例,第二學習網路模型可基於搜尋結果辨識所述多個濾波器中與影像區塊的圖案對應的濾波器且將被辨識的濾波器應用至影像區塊,進而獲取其中紋理區域已被按比例放大的第二影像。
此處,可根據藉由人工智慧演算法對低解析度的影像區塊與高解析度的影像區塊之間的關係進行學習的結果來獲取濾波器資料庫860中所包括的濾波器。舉例而言,第二學習網路模型可藉由人工智慧演算法學習低解析度的第一影像區塊與其中第一影像區塊的紋理區域已被按比例放大的高解析度的第二影像區塊之間的關係,且辨識將被應用至第一影像區塊的濾波器並將被辨識的濾波器儲存於濾波器資料庫860中。然而,此僅為實例且本揭露並非僅限於此。舉例而言,第二學習網路模型可藉由使用人工智慧演算法進行學習的結果來辨識對影像區塊的各種特性中的至少一者進行加強的濾波器且將被辨識的濾波器儲存於濾波器資料庫860中。
圖9是示出根據本揭露實施例的索引資訊的圖。
根據本揭露實施例的處理器120可對與被分類的每一影像區塊對應的影像圖案的索引資訊進行累積且獲取累積結果。參照圖9,處理器120可獲取指示影像圖案的索引資訊中與影像區塊的影像圖案對應的索引資訊。接著,處理器120可對影像10中所包括的所述多個影像區塊中的每一者的索引資訊進行累積,且因此獲取累積結果,如圖9中所示。
處理器120可對累積結果進行分析且將影像10辨識為自然影像或圖形影像中的一者。舉例而言,若影像10中所包括的影像區塊中的不包括圖案(或不顯示方向性)的影像區塊的數目等於或大於臨限值,則基於累積結果,處理器120可將影像10辨識為圖形影像。作為另一實例,若影像10中所包括的影像區塊中的不包括圖案的影像區塊的數目小於臨限值,則基於累積結果,處理器120可將影像10辨識為自然影像。作為又一實例,若具有在垂直方向上的圖案或水平方向上的圖案的影像區塊的數目等於或大於臨限值,則基於累積結果,處理器120可將影像10辨識為自然影像。同時,影像的辨識及分類僅為示例性的且可根據製造商的目的、使用者的設定等來指定臨限值。
作為另一實例,處理器120可基於累積結果計算特定索引資訊的數目及比例,且基於累積結果將影像10的類型辨識為自然影像或圖形影像。舉例而言,處理器120可基於累積結果計算至少三個特徵。
若索引資訊中的特定索引資訊是指示圖案未被辨識(或未顯示方向性)的影像區塊的資訊,則處理器120可自累積結果計算索引資訊的比例。在下文中,未被辨識的圖案的影像區塊一般被稱為包括平坦區域的影像區塊。包括平坦區域的影像區塊在整個影像區塊中的比例可基於以下方程式3來計算。
此處,Histogram[i]意指具有基於累積結果而辨識的索引資訊「i」的影像區塊的數目。另外,基於指示包括平坦區域的影像區塊的索引資訊是32的假設,Histogram[32]意指具有索引資訊32的影像區塊的數目,且P1意指包括平坦區域的影像區塊在整個影像區塊中的比例。
若影像區塊包括圖案,則處理器120可基於索引資訊來辨識所述圖案是否位於影像區塊內部的中心區域中。作為實例,相較於索引資訊為1至12及17至31的影像區塊,索引資訊為13至16的影像區塊的圖案可位於區塊內部的中心區域中。在下文中,影像圖案位於影像區塊內部的中心區域中的影像區塊一般被稱為居中分佈的影像區塊。接著,處理器120可基於累積結果、基於以下方程式4來計算居中分佈的影像區塊的比例。
此處,處理器120可計算具有索引資訊1至31的影像區塊的數目,以辨識除包括平坦區域的影像區塊之外的包括圖案的影像區塊的數目。另外,處理器120可計算居中分佈的影像區塊的數目。同時,具有索引資訊13至15的影像區塊僅為其中圖案位於影像區塊內部的中心區域
的情形的實例且本揭露未必僅限於此。作為另一實例,可基於索引資訊11至17的數目來計算P2。
接著,處理器120可基於影像10中所包括的多個影像區塊中的每一者的索引資訊來獲取影像10的平均索引資訊。根據本揭露的實施例,處理器120可基於以下方程式5計算平均索引資訊。
此處,「i」意指索引資訊,Histogram[i]意指與索引資訊i對應的影像區塊的數目,且P3意指平均索引資訊。
根據本揭露實施例的處理器120可基於以下方程式6計算「Y」值。
[方程式6]Y=W1*P1+W2*P2+W3*P3+Bias
此處,P1意指包括平坦區域的影像區塊的比例,P2意指居中分佈的影像區塊的比例,且P3意指平均索引資訊。另外,W1、W2、W3及Bias意指藉由使用人工智慧演算法模型預先學習的參數。
若Y值超過0,則根據本揭露實施例的處理器120可將影像10辨識為圖形影像,且若「Y」值等於或小於0,則處理器120可將影像10辨識為自然影像。
接著,處理器120可基於辨識結果來調整分別與第一影像及第二影像對應的第一權重及第二權重。作為實例,若將影像10辨識為自然影像,則處理器120可增大與第一影像對應的第一權重或與第二影像對應的第二權重中的至少一者。另外,處理器120可增大方程式1及方程式2中的參數「a」或「b」中的至少一者。同時,若影像10是自然影像,則處理器120可獲取高解析度的影像,由於其中邊緣已得到改善的第一影像或者其中紋理已得到改善的第二影像被添加至影像10或輸入影像10’,因此所述高解析度的影像的透明度已得到改善,且因此處理器120可增大第一權重或第二權重中的至少一者。
作為另一實例,若影像10被辨識為圖形影像,則處理器120可減小與第一影像對應的第一權重或與第二影像對應的第二權重中的至少一者。另外,處理器120可減小方程式1及方程式2中的參數「a」或「b」中的至少一者。同時,若影像10是圖形影像,則由於其中邊緣已得到增強的第一影像或其中紋理已得到增強的第二影像被添加至影像10或輸入影像10’,因此處理器120可獲取其中發生失真的影像,且因此處理器120可減小第一權重或第二權重中的至少一者,且因此使失真的發生最小化。
此處,圖形影像可為對實際世界的影像進行操縱的影像,或者是藉由使用電腦、成像裝置等新創建的影像。舉例而言,圖形影像可包括藉由使用已知軟體產生的例示影像、電腦圖形(computer graphic,CG)影像、動畫影像等。自然影像可為除圖
形影像之外的其餘影像。舉例而言,自然影像可包括由攝影裝置拍攝的實際世界的影像、風景影像、肖像影像等。
圖10是示出根據本揭露實施例的獲取最終輸出影像的方法的圖。
根據本揭露的實施例,在最終輸出影像30’(即顯示影像)是具有較輸出影像30的解析度大的解析度的影像的情形中,在操作S350處,處理器120可按比例放大輸出影像30且獲取最終輸出影像30’。舉例而言,若輸出影像30是4K的UHD影像且最終輸出影像是8K的影像,則處理器120可將輸出影像30按比例放大至8K的UHD影像並獲取最終輸出影像30’。同時,根據本揭露的另一實施例,可在影像處理裝置100中提供實行輸出影像30的按比例放大的單獨的處理器。舉例而言,影像處理裝置100可包括第一處理器及第二處理器,並且藉由使用第一處理器獲取其中邊緣及紋理已得到加強的輸出影像30且藉由使用第二處理器獲取高解析度的最終輸出影像30’,最終輸出影像30’放大了輸出影像30的解析度。
同時,根據本揭露各種實施例的第一學習網路模型及第二學習網路模型中的每一者可為其中影像處理裝置100在不依賴於外部裝置的情況下自行實行學習的設備上機器學習模型(on-device machine learning model)。同時,此僅為實例且一些學習網路模型可以基於設備上進行操作的形式來實施,且其他學習網路模型可以基於外部伺服器進行操作的形式來實施。
圖11是示出圖2中所示的影像處理裝置的詳細配置的方塊圖。
根據圖11,影像處理裝置100’包括記憶體110、處理器120、輸入器130、顯示器140、輸出器150及使用者介面160。同時,在闡釋圖11中所示的組件時,將省略對與圖2中所示的組件相似的組件的冗餘闡釋。
根據本揭露的實施例,記憶體110可被實施成儲存自根據本揭露的各種操作產生的資料的單個記憶體。
記憶體110可被實施成包括第一記憶體至第三記憶體。
第一記憶體可儲存藉由輸入器130輸入的影像的至少一部分。具體而言,第一記憶體可儲存輸入影像訊框的至少一些區域。在此種配置中,所述至少一些區域可為實行根據本揭露實施例的影像處理所必需的區域。同時,根據本揭露的實施例,第一記憶體可被實施成N行記憶體。舉例而言,N行記憶體可為在水平方向上具有如17行一般多的容量的記憶體,但所述記憶體並非僅限於此。舉例而言,在輸入1080畫素(解析度為1920x1080)的全HD影像的情形中,可於第一記憶體中僅儲存全HD影像中的17行的影像區域。如上所述,第一記憶體被實施成N行記憶體且僅儲存輸入影像訊框的一些區域以用於影像處理的原因是第一記憶體的記憶體容量因硬體限制而受到限制。同時,第二記憶體可為記憶體110的整個區域中的被分配至學習網路模型的記憶體區域。
第三記憶體是其中儲存有第一影像及第二影像以及輸
出影像的記憶體,且根據本揭露的各種實施例,第三記憶體可被實施成各種大小的記憶體。根據本揭露的實施例,處理器120將對輸入影像10’按比例縮小的影像10應用至第一學習網路模型及第二學習網路模型,且因此儲存自第一學習網路模型及第二學習網路模型獲取的第一影像及第二影像的第三記憶體的大小可被實施成與第一記憶體的大小相同或相似的大小。
輸入器130可為接收各種類型的內容(例如來自影像源的影像訊號)的通訊介面(例如有線乙太網路介面(Ethernet interface)或無線通訊介面)。舉例而言,輸入器130可藉由例如以下通訊方法而經由例如網際網路(Internet)等一或多個網路自外部裝置(例如,源裝置)、外部儲存媒體(例如,USB)、外部伺服器(例如,網路硬碟(webhard))等以流式方法或下載方法接收影像訊號:基於AP的Wi-Fi(無線局部區域網路(Local Area Network,LAN)網路)、藍芽、紫蜂(Zigbee)、有線/無線局部區域網路(LAN)、廣域網路(Wide Area Network,WAN)、乙太網路、長期演進(Long Trem Evolution,LTE)、第5代行動通訊技術(5th-generation,5G)、電機電子工程師學會(Institute of Electrical and Electronic Engineers,IEEE)1394、高清晰度多媒體介面(High Definition Multimedia Interface,HDMI)、行動高清晰度鏈路(Mobile High-Definition Link,MHL)、通用串列匯流排(USB)、顯示埠(Display Port,DP)、雷電接口(Thunderbolt)、視訊圖形陣列(Video Graphic Array,VGA)埠、紅綠藍(RGB)埠、D-超
小型(D-subminiature,D-SUB)、數位可視介面(Digital Visual Interface,DVI)等。具體而言,5G通訊系統是使用超高頻率(毫米波(mmWave))頻帶(例如,如26、28、38及60十億赫茲頻帶的毫米波頻率頻帶)進行的通訊,且影像處理裝置100可在流式環境中傳送或接收4K及8K的UHD影像。
此處,影像訊號可為數位訊號,但影像訊號並非僅限於此。
顯示器140可以例如以下各種形式實施:液晶顯示器(liquid crystal display,LCD)、有機發光二極體(organic light-emitting diode,OLED)、發光二極體(light-emitting diode,LED)、微型LED、量子點發光二極體(quantum dot light-emitting diode,QLED)、矽上液晶(liquid crystal on silicon,LCoS)、數位光處理(digital light processing,DLP)及量子點(quantum dot,QD)顯示面板。具體而言,根據本揭露實施例的處理器120可控制顯示器140顯示輸出影像30或最終輸出影像30’。此處,最終輸出影像30’可包括4K或8K的即時UHD影像、流式影像等。
輸出器150輸出聲響訊號。
舉例而言,輸出器150可將在處理器120處進行處理的數位聲響訊號轉換成類比聲響訊號,且放大訊號並輸出訊號。舉例而言,輸出器150可包括至少一個揚聲器單元、數位/類比(digital-to-analog,D/A)轉換器、音訊放大器等,輸出器150可輸出至少一個通道。根據本揭露的實施例,輸出器150可被實施成輸出各
種多通道聲響訊號。在此種情形中,處理器120可控制輸出器150對聲響訊號輸入實行增強處理,以對應於輸入影像的增強處理,並輸出所述訊號。舉例而言,處理器120可將輸入的雙通道聲響訊號轉換成虛擬多通道(例如,5.1通道)聲響訊號,或者辨識其中影像處理裝置100被放置於房間或建築物的環境內的位置且將所述訊號處理為針對該空間進行最佳化的立體聲響訊號,或者提供根據輸入影像的類型(例如,內容的文類)進行最佳化的聲響訊號。同時,使用者介面160可被實施成例如按鈕、觸控板、滑鼠及鍵盤等裝置或被實施成觸控螢幕、可接收使用者輸入以實行上述顯示功能及操縱輸入功能二者的遙控接收器。遙控收發器可藉由紅外通訊、藍芽通訊或Wi-Fi通訊中的至少一種通訊方法自外部遙控裝置接收遙控訊號或向外部遙控裝置傳送遙控訊號。同時,儘管在圖9中未示出,然而根據本揭露的實施例,可在影像處理之前應用去除輸入影像的雜訊的自由濾波。舉例而言,可藉由應用藉由對預定波導的影像進行比較來過濾輸入影像的平滑濾波器(例如高斯濾波器(Gaussian filter)、導引濾波器等)來去除明顯的雜訊。
圖12是示出根據本揭露實施例的用於學習及使用學習網路模型的影像處理裝置的配置的方塊圖。
參照圖12,處理器1200可包括學習部件1210或辨別部件1220中的至少一者。圖12中的處理器1200可對應於圖2中的影像處理裝置100的處理器120或資料學習伺服器的處理器。
用於學習及使用第一學習網路模型及第二學習網路模
型的影像處理裝置100的處理器1200可包括學習部件1210或辨別部件1220中的至少一者。
根據本揭露實施例的學習部件1210可獲取其中影像10的影像特性已得到加強的影像,且基於影像10及其中影像10的影像特性已得到加強的影像來獲取輸出影像。接著,學習部件1210可產生或訓練具有用於使影像10的失真最小化並獲取與影像10對應的高解析度的按比例放大影像的標準的辨別模型。另外,學習部件1210可藉由使用收集的學習資料產生具有判斷標準的辨別模型。
作為實例,學習部件1210可產生、訓練或更新學習網路模型,使得輸出影像30的邊緣區域或紋理區域中的至少一者被增強至多於輸入影像10’的邊緣區域或紋理區域。
辨別部件1220可使用預定資料(例如,輸入影像)作為經訓練的辨別模型的輸入資料,且因此估測用於辨別的對象或預定資料中所包括的情況。
學習部件1210的至少一部分及辨別部件1220的至少一部分可被實施成軟體模組或被製造成至少一個硬體晶片形式,且安裝於影像處理裝置上。舉例而言,可將學習部件1210或辨別部件1220中的至少一者製造成專用於人工智慧(AI)的硬體晶片的形式,或者製造成傳統通用處理器(例如,CPU或應用處理器)或圖形專用處理器(例如,GPU)的一部分,且安裝於上述各種類型的影像處理裝置或對象辨別裝置上。此處,專用於人工智慧的硬
體晶片是特定用於概率運算中的專用處理器且具有較傳統通用處理器高的並列處理效能,且能夠快速處理人工智慧領域中的操作(如機器學習)。在學習部件1210及辨別部件1220被實施成一或多個軟體模組(或包括指令的程式模組)的情形中,軟體模組可儲存於非暫態電腦可讀取媒體(non-transitory computer readable medium)中。在此種情形中,可由作業系統(operating system,OS)或由特定應用提供軟體模組。作為另外一種選擇,軟體模組的一部分可由作業系統(OS)提供,且其他部分可由特定應用提供。
在此種情形中,學習部件1210及辨別部件1220可安裝於一個影像處理裝置上,或者可分別安裝於單獨的影像處理裝置上。舉例而言,學習部件1210及辨別部件1220中的一者可被包括於影像處理裝置100中,且另一者可被包括於外部伺服器中。另外,學習部件1210與辨別部件1220可以有線方式或無線方式連接,或者可為更大的軟體模組或應用的單獨的軟體模組。可將由學習部件1210構建的模型資訊提供至辨別部件1220,且可將輸入至辨別部件1220的資料提供至學習部件1210作為附加學習資料。
圖13是示出根據本揭露實施例的影像處理方法的流程圖。
根據圖13中所示的影像處理方法,首先,在操作S1310處,將影像應用至第一學習網路模型並獲取其中影像的邊緣已得到增強的第一影像。
接著,在操作S1320處,將影像應用至第二學習網路模型並獲取其中影像的紋理已得到增強的第二影像。
接下來,在操作S1330處,辨識影像中所包括的邊緣區域及紋理區域,且基於關於邊緣區域及紋理區域的資訊而將第一權重應用至第一影像且將第二權重應用至第二影像,並獲取輸出影像。
此處,第一學習網路模型與第二學習網路模型可為彼此不同的類型的學習網路模型。
根據本揭露實施例的第一學習網路模型可為學習藉由使用多個層來增強影像的邊緣的深度學習模型或者被訓練成藉由使用多個預學習濾波器來增強影像的邊緣的機器學習模型中的一者。
另外,根據本揭露實施例的第二學習網路模型可為學習藉由使用多個層來對影像的紋理進行最佳化的深度學習模型或者被訓練成藉由使用多個預學習濾波器來對影像的紋理進行最佳化的機器學習模型中的一者。
另外,獲取輸出影像的操作S1330可包括以下步驟:基於邊緣區域與紋理區域的比例資訊獲取與邊緣區域對應的第一權重及與紋理區域對應的第二權重。
另外,根據本揭露實施例的影像處理方法可包括按比例縮小輸入影像並獲取解析度較輸入影像的解析度小的影像的步驟。同時,第一學習網路模型可藉由實行對影像的邊緣進行加強的按
比例放大來獲取第一影像,且第二學習網路模型可藉由實行對影像的紋理進行加強的按比例放大來獲取第二影像。
另外,根據本揭露實施例的影像處理方法可包括以下步驟:獲取區域偵測資訊,區域偵測資訊基於按比例縮小影像辨識出邊緣區域及紋理區域,且將區域偵測資訊及影像分別提供至第一學習網路模型及第二學習網路模型。
此處,將區域偵測資訊及影像分別提供至第一學習網路模型及第二學習網路模型的步驟可包括以下步驟:基於區域偵測資訊將僅包括與邊緣區域對應的畫素資訊的影像提供至第一學習網路模型且將僅包括與紋理區域對應的畫素資訊的影像提供至第二學習網路模型。同時,第一學習網路模型可藉由按比例放大邊緣區域來獲取第一影像,且第二學習網路模型可藉由按比例放大紋理區域來獲取第二影像。
另外,根據本揭露實施例的第一影像及第二影像可分別為第一殘留影像及第二殘留影像。另外,在獲取輸出影像的操作S1330中,可將第一權重應用至第一殘留影像且可將第二權重應用至第二殘留影像,且接著可將殘留影像與影像進行混合以獲取輸出影像。
此外,第二學習網路模型可為儲存與多個影像圖案中的每一者對應的多個濾波器的模型且將影像中所包括的影像區塊中的每一者分類至所述多個影像圖案中的一者,並且將所述多個濾波器中與被分類的影像圖案對應的至少一個濾波器應用至影像區
塊並提供第二影像。
另外,根據本揭露實施例的獲取輸出影像的操作S1330可包括以下步驟:對與被分類的影像區塊中的每一者對應的影像圖案的索引資訊進行累積且基於累積結果辨識影像的類型(例如自然影像或圖形影像中的一者),並且基於辨識結果調整權重。
此處,調整權重的步驟可包括以下步驟:基於影像被辨別為自然影像,增大與第一影像對應的第一權重或與第二影像對應的第二權重中的至少一者,且基於影像被辨別為圖形影像,減小第一權重或第二權重中的至少一者。
輸出影像可為4K的超高清晰度(UHD)影像,且根據本揭露實施例的影像處理方法可包括將輸出影像按比例放大至8K的UHD影像的步驟。
同時,本揭露的各種實施例可應用至能夠實行影像處理的所有電子裝置(例如影像接收裝置(如機上盒(set top box)及影像處理裝置等))以及影像處理裝置。
另外,可以可藉由使用軟體、硬體或其組合的由電腦或與電腦類似的裝置讀取的記錄媒體來實施上述各種實施例。在一些情形中,本說明書中所述的實施例可被實施成處理器120本身。根據軟體的實施方案,本說明書中所述的例如程序及功能等的實施例可被實施成單獨的軟體模組。所述軟體模組中的每一者可實行本說明書中所述的功能及操作中的一或多者。
同時,用於實行根據本揭露的上述各種實施例的聲響輸
出裝置100的處理操作的電腦指令可儲存於非暫態電腦可讀取媒體中。當儲存於此種非暫態電腦可讀取媒體中的電腦可讀取指令由特定裝置的處理器執行時,根據上述各種實施例的聲響輸出裝置100處的處理操作由特定裝置實行。
非暫態電腦可讀取媒體是指半永久地儲存資料而非在短時間內儲存資料的媒體(例如,暫存器、高速緩衝記憶體及記憶體)的媒體且可由機器讀取。作為非暫態電腦可讀取媒體的特定實例,可為光碟(compact disc,CD)、數位多功能磁碟(digital versatile disk,DVD)、硬碟、藍光碟、USB、記憶卡、ROM等。
儘管已示出並闡述了本揭露的實施例,然而本揭露並非僅限於上述具體實施例,且顯而易見的是在不背離隨附申請專利範圍所要求的本揭露的要旨的條件下,熟習本揭露所屬領域的技術者可做出各種修改。另外,此種修改並非旨在獨立於本揭露的技術思想或前景來單獨地解釋。
100:影像處理裝置/聲響輸出裝置
110:記憶體
120:處理器
Claims (15)
- 一種影像處理裝置,包括:記憶體,儲存電腦可讀取指令;以及處理器,被配置以執行所述電腦可讀取指令,以:提供輸入影像作為第一神經模型的第一輸入,自所述第一神經模型獲得第一影像,所述第一影像包括基於所述輸入影像的邊緣進行最佳化的增強邊緣,提供所述輸入影像作為第二神經模型的第二輸入,自所述第二神經模型獲得第二影像,所述第二影像包括基於所述輸入影像的紋理進行最佳化的增強紋理,辨識所述輸入影像中所包括的所述邊緣的邊緣區域,以獲得對應於所述邊緣區域的第一權重,辨識所述輸入影像中所包括的所述紋理的紋理區域,以獲得對應於所述紋理區域的第二權重,提供所述第一權重至包括所述增強邊緣的所述第一影像,提供所述第二權重至包括所述增強紋理的所述第二影像,以及基於被提供所述第一權重的所述第一影像以及被提供所述第二權重的所述第二影像以獲得輸出影像。
- 如請求項1所述的影像處理裝置,其中所述第一神經模型的第一類型不同於所述第二神經模型的第二類型。
- 如請求項1所述的影像處理裝置,其中所述第一神 經模型是藉由使用多個層來對所述輸入影像的所述邊緣進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述邊緣進行最佳化的機器學習模型中的一者。
- 如請求項1所述的影像處理裝置,其中所述第二神經模型是藉由使用多個層來對所述輸入影像的所述紋理進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述紋理進行最佳化的機器學習模型中的一者。
- 如請求項1所述的影像處理裝置,其中執行所述電腦可讀取指令的所述處理器更被配置以:基於所述輸入影像中的所述邊緣區域與所述輸入影像中的所述紋理區域的比例資訊來獲得所述第一權重及所述第二權重。
- 如請求項1所述的影像處理裝置,其中執行所述電腦可讀取指令的所述處理器更被配置以:按比例縮小所述輸入影像,以獲得具有較所述輸入影像的解析度小的解析度的按比例縮小影像,提供所述按比例縮小影像作為所述第一神經模型的所述第一輸入,自對所述按比例縮小影像進行按比例放大的所述第一神經模型獲得具有所述增強邊緣的所述第一影像,提供所述按比例縮小影像作為所述第二神經模型的所述第二輸入,以及自對所述按比例縮小影像進行按比例放大的所述第二神經模 型獲得具有所述增強紋理的所述第二影像。
- 如請求項1所述的影像處理裝置,其中執行所述電腦可讀取指令的所述處理器更被配置以:獲得對所述輸入影像的所述邊緣區域進行辨識的第一區域偵測資訊及對所述輸入影像的所述紋理區域進行辨識的第二區域偵測資訊,提供所述輸入影像及所述第一區域偵測資訊作為所述第一神經模型的所述第一輸入,以及提供所述輸入影像及所述第二區域偵測資訊作為所述第二神經模型的所述第二輸入。
- 如請求項7所述的影像處理裝置,其中所述第一神經模型藉由按比例放大所述邊緣區域來獲得所述第一影像,且所述第二神經模型藉由按比例放大所述紋理區域來獲得所述第二影像。
- 如請求項1所述的影像處理裝置,其中所述第二神經模型是如下模型:所述模型儲存與多個影像圖案對應的多個濾波器,將所述輸入影像中所包括的影像區塊中的每一影像區塊分類至所述多個影像圖案中的影像圖案,並將所述多個濾波器中的與所述影像圖案對應的至少一個濾波器提供至所述影像區塊。
- 如請求項1所述的影像處理裝置,其中所述第一影像是第一殘留影像且所述第二影像是第二殘留影像,且其中執行所述電腦可讀取指令的所述處理器更被配置以: 基於所述邊緣區域將所述第一權重提供至所述第一殘留影像,基於所述紋理區域將所述第二權重提供至所述第二殘留影像,以及在提供所述第一權重以及所述第二權重之後,對所述第一殘留影像、所述第二殘留影像及所述輸入影像進行混合,以獲得所述輸出影像。
- 如請求項10所述的影像處理裝置,其中執行所述電腦可讀取指令的所述處理器更被配置以:對與所述輸入影像的影像區塊中的每一者對應的影像圖案的索引資訊進行累積,基於所述索引資訊將所述輸入影像辨識為自然影像或圖形影像中的一者,以及基於將所述輸入影像辨識為所述自然影像或所述圖形影像中的一者的結果來調整所述第一權重及所述第二權重。
- 如請求項11所述的影像處理裝置,其中執行所述電腦可讀取指令的所述處理器更被配置以:基於所述輸入影像被辨識為所述自然影像,增大所述第一權重或所述第二權重中的至少一者,以及基於所述輸入影像被辨識為所述圖形影像,減小所述第一權重或所述第二權重中的至少一者。
- 一種影像處理裝置的影像處理方法,包括: 提供輸入影像作為第一神經模型的第一輸入;自所述第一神經模型獲得第一影像,所述第一影像包括基於所述輸入影像的邊緣進行最佳化的增強邊緣;提供所述輸入影像作為第二神經模型的第二輸入;自所述第二神經模型獲得第二影像,所述第二影像包括基於所述輸入影像的紋理進行最佳化的增強紋理;辨識所述輸入影像中所包括的所述邊緣的邊緣區域,以獲得對應於所述邊緣區域的第一權重;辨識所述輸入影像中所包括的紋理區域,以獲得對應於所述紋理區域的第二權重;提供所述第一權重至包括所述增強邊緣的所述第一影像;提供所述第二權重至包括所述增強紋理的所述第二影像;以及基於被提供所述第一權重的所述第一影像以及被提供所述第二權重的所述第二影像以獲得輸出影像。
- 如請求項13所述的影像處理方法,其中所述第一神經模型是藉由使用多個層來對所述輸入影像的所述邊緣進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來對所述輸入影像的所述邊緣進行最佳化的機器學習模型中的一者。
- 如請求項13所述的影像處理方法,其中所述第二神經模型是藉由使用多個層來對所述輸入影像的所述紋理進行最佳化的深度學習模型或被訓練成藉由使用多個預學習濾波器來 對所述輸入影像的所述紋理進行最佳化的機器學習模型中的一者。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2019-0060240 | 2019-05-22 | ||
| KR20190060240 | 2019-05-22 | ||
| KR10-2019-0080346 | 2019-07-03 | ||
| KR1020190080346A KR102410907B1 (ko) | 2019-05-22 | 2019-07-03 | 영상 처리 장치 및 그 영상 처리 방법 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202044196A TW202044196A (zh) | 2020-12-01 |
| TWI768323B true TWI768323B (zh) | 2022-06-21 |
Family
ID=73792011
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW109112722A TWI768323B (zh) | 2019-05-22 | 2020-04-16 | 影像處理裝置以及其影像處理方法 |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR102410907B1 (zh) |
| TW (1) | TWI768323B (zh) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112634160A (zh) * | 2020-12-25 | 2021-04-09 | 北京小米松果电子有限公司 | 拍照方法及装置、终端、存储介质 |
| US11720769B2 (en) * | 2021-06-03 | 2023-08-08 | Global Graphics Software Limited | Methods and systems for enhancing raster image processing using artificial intelligence |
| TWI821715B (zh) * | 2021-07-20 | 2023-11-11 | 和碩聯合科技股份有限公司 | 生成器網路模型的訓練方法及其執行的電子裝置 |
| CN117561537A (zh) | 2021-10-07 | 2024-02-13 | 三星电子株式会社 | 显示设备及其操作方法 |
| CN117730340A (zh) | 2021-10-27 | 2024-03-19 | 三星电子株式会社 | 图像处理装置及其执行的图像处理方法 |
| KR20230060338A (ko) * | 2021-10-27 | 2023-05-04 | 삼성전자주식회사 | 영상 처리 장치 및 이에 의한 영상 처리 방법 |
| TWI806243B (zh) * | 2021-11-17 | 2023-06-21 | 瑞昱半導體股份有限公司 | 超解析度影像產生裝置 |
| CN114092353B (zh) * | 2021-11-19 | 2024-06-04 | 长春理工大学 | 一种基于加权引导滤波的红外图像增强方法 |
| CN116170548B (zh) * | 2021-11-24 | 2026-01-23 | 瑞昱半导体股份有限公司 | 超分辨率图像产生装置 |
| US12493931B2 (en) | 2021-12-08 | 2025-12-09 | Deepx Co., Ltd. | Neural processing unit and artificial neural network system for image fusion |
| KR102651559B1 (ko) * | 2021-12-08 | 2024-03-26 | 주식회사 딥엑스 | 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 |
| TWI805485B (zh) * | 2021-12-20 | 2023-06-11 | 財團法人工業技術研究院 | 影像辨識的方法及其電子裝置 |
| CN114897773B (zh) * | 2022-03-31 | 2024-01-05 | 上海途巽通讯科技有限公司 | 一种基于图像处理的扭曲木材检测方法及系统 |
| TWI847299B (zh) * | 2022-10-07 | 2024-07-01 | 瑞昱半導體股份有限公司 | 具有深度學習機制的影像放大裝置及其影像放大方法 |
| KR20250058240A (ko) * | 2023-10-23 | 2025-04-30 | 에스케이텔레콤 주식회사 | 영상의 해상도를 변환하는 방법 및 장치 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102750695A (zh) * | 2012-06-04 | 2012-10-24 | 清华大学 | 一种基于机器学习的立体图像质量客观评价方法 |
| US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
| CN108596841A (zh) * | 2018-04-08 | 2018-09-28 | 西安交通大学 | 一种并行实现图像超分辨率及去模糊的方法 |
| TW201837854A (zh) * | 2017-04-10 | 2018-10-16 | 南韓商三星電子股份有限公司 | 用於深度學習影像超解析度的系統及方法 |
| CN108734645A (zh) * | 2017-04-24 | 2018-11-02 | 英特尔公司 | 神经网络优化机制 |
| CN109934247A (zh) * | 2017-12-18 | 2019-06-25 | 三星电子株式会社 | 电子装置及其控制方法 |
-
2019
- 2019-07-03 KR KR1020190080346A patent/KR102410907B1/ko active Active
-
2020
- 2020-04-16 TW TW109112722A patent/TWI768323B/zh not_active IP Right Cessation
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102750695A (zh) * | 2012-06-04 | 2012-10-24 | 清华大学 | 一种基于机器学习的立体图像质量客观评价方法 |
| US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
| TW201837854A (zh) * | 2017-04-10 | 2018-10-16 | 南韓商三星電子股份有限公司 | 用於深度學習影像超解析度的系統及方法 |
| CN108734645A (zh) * | 2017-04-24 | 2018-11-02 | 英特尔公司 | 神经网络优化机制 |
| CN109934247A (zh) * | 2017-12-18 | 2019-06-25 | 三星电子株式会社 | 电子装置及其控制方法 |
| CN108596841A (zh) * | 2018-04-08 | 2018-09-28 | 西安交通大学 | 一种并行实现图像超分辨率及去模糊的方法 |
Non-Patent Citations (3)
| Title |
|---|
| 期刊 Kwan-Young Kim et al SREdgeNet: Edge Enhanced Single Image Super Resolution using Dense Edge Detection Network and Feature Merge Network ArXiv:abs/1812.07174 ArXiv 18 Dec 2018 whole; * |
| 期刊 Peng Ren et al., "Clustering-oriented Multiple Convolutional Neural Networks for Single Image Super-resolution", Cognitive Computation, 24 October 2017. Clustering-oriented Multiple Convolutional Neural Networks for Single Image Super-resolution Cognitive Computation Cognitive Computation 24 October 2017 Whole * |
| 期刊 Yang Zhao et al., "High Resolution Local Structure-Constrained Image Upsampling", IEEE Transactions On Image Processing, VOL. 24, NO. 11, November 2015, page 4394 - 4407. High Resolution Local Structure-Constrained Image Upsampling VOL. 24, NO. 11 IEEE Transactions On Image Processing November 2015 page 4394 - 4407; * |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202044196A (zh) | 2020-12-01 |
| KR20200135102A (ko) | 2020-12-02 |
| KR102410907B1 (ko) | 2022-06-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI768323B (zh) | 影像處理裝置以及其影像處理方法 | |
| US11836890B2 (en) | Image processing apparatus and image processing method thereof | |
| KR102676093B1 (ko) | 전자 장치 및 그 제어 방법 | |
| EP3857506B1 (en) | Image processing apparatus and image processing method thereof | |
| KR20200079697A (ko) | 영상 처리 장치 및 그 영상 처리 방법 | |
| JP6978542B2 (ja) | 電子装置及びその制御方法 | |
| CN112887728A (zh) | 电子装置、电子装置的控制方法以及系统 | |
| CN109934792A (zh) | 电子装置及其控制方法 | |
| KR102661879B1 (ko) | 영상 처리 장치 및 그 영상 처리 방법 | |
| CN114444650B (zh) | 改进量化的多级对象检测网络的准确度的方法 | |
| WO2022099710A1 (zh) | 图像重建方法、电子设备和计算机可读存储介质 | |
| CN111814818A (zh) | 显示设备及其图像处理方法 | |
| KR102246110B1 (ko) | 영상 처리 장치 및 그 영상 처리 방법 | |
| CN114565532A (zh) | 视频美颜处理方法、装置、存储介质与电子设备 | |
| US11778240B2 (en) | Banding artifact detection in images and videos | |
| KR102743251B1 (ko) | 전자 장치 및 그 제어 방법 | |
| US11436442B2 (en) | Electronic apparatus and control method thereof | |
| WO2021127963A1 (en) | Image content classification | |
| US20250286987A1 (en) | Electronic apparatus and method for controlling thereof | |
| US20250232405A1 (en) | Electronic device and control method therefor | |
| KR20250024473A (ko) | 전자 장치 및 그 제어 방법 | |
| KR20250055258A (ko) | 컨볼루션 연산을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
| KR20240077363A (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |