TWI762971B - 圖像風格轉換的方法及其電腦程式產品 - Google Patents
圖像風格轉換的方法及其電腦程式產品 Download PDFInfo
- Publication number
- TWI762971B TWI762971B TW109123850A TW109123850A TWI762971B TW I762971 B TWI762971 B TW I762971B TW 109123850 A TW109123850 A TW 109123850A TW 109123850 A TW109123850 A TW 109123850A TW I762971 B TWI762971 B TW I762971B
- Authority
- TW
- Taiwan
- Prior art keywords
- style
- image
- map
- content
- neural network
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G06T11/10—
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本發明揭露一種基於美學(Aesthetics)所設計的圖像風格轉換的方法及其電腦程式產品,該方法運用基於卷積運算(convolution)的人工智慧(artificial intelligence; AI)演算法,對一內容圖(content image)提取其內容表徵(content representation),以及對一風格圖(style image)提取其風格表徵(style representation),並根據提取出的內容表徵與風格表徵來產生一幅新的圖像。這幅新的圖像,不但可兼具內容圖與風格圖的特徵,並且比一般熟知的圖像風格轉換方法所產出的圖像更富有美感。
Description
本發明涉及一種圖像風格轉換(style transfer)的方法及其電腦程式產品,特別係涉及一種基於美學(Aesthetics)所設計的圖像風格轉換的方法及其電腦程式產品。
[先前技術文獻]
Gatys, L. A., Ecker, A. S., & Bethge, M. (2015). A neural algorithm of artistic style. arXiv preprint arXiv:1508.06576.
根據以上的先前技術文獻,圖像風格轉換,係運用基於卷積運算(convolution)的人工智慧(artificial intelligence; AI)演算法,對一內容圖(content image)提取其內容表徵(content representation),以及對一風格圖(style image)提取其風格表徵(style representation),並根據提取出的內容表徵與風格表徵來產生一幅新的圖像。這幅新的圖像,可兼具內容圖與風格圖的特徵,像是內容圖中物體的形狀與輪廓,以及風格圖中的色彩與紋理。
目前市面上已有許多運用AI進行圖像風格轉換的軟體或應用,然而其轉換的效果與品質卻不盡理想。有鑑於此,需要有一基於美學所設計的圖像風格轉換的方法,可使經過風格轉換後的圖像更富有美感。
本發明揭露一種圖像風格轉換的方法,包括下列步驟:將內容圖及風格圖輸入至第二卷積神經網路(convolutional neural network; CNN)模型,第二卷積神經網路模型提取內容圖之複數張第一特徵圖(feature maps),以及提取風格圖之複數張第二特徵圖;將內容圖輸入至風格轉換神經網路模型,風格轉換神經網路模型使用特定數目的篩選器(filter)對內容圖執行卷積運算(convolution),以產生一轉換圖(transferred image);將轉換圖輸入至第二卷積神經網路模型,第二卷積神經網路模型提取轉換圖之複數張第三特徵圖;根據該等第一特徵圖及該等第三特徵圖計算內容損失(content loss),並根據該等第二特徵圖及該等第三特徵圖計算風格損失(style loss);將內容損失乘以內容權重(content-weight)係數所得到的結果,與將風格損失乘以風格權重(style-weight)係數所得到的結果相加,以取得總損失(total loss),其中風格權重係數為內容權重係數的16倍;遞迴地使用梯度下降法(gradient descent)優化風格轉換神經網路模型,使總損失被最小化,以取得一最佳轉換圖(optimized transferred image)。
在某些實施例中,內容權重係數為7.5,風格權重係數為120。
在某些實施例中,風格轉換神經網路模型所使用的篩選器數目為32個。
在某些實施例中,上述之圖像風格轉換的方法更包括:在風格圖被輸入至第二卷積神經網路模型之前,對風格圖執行前置處理程序,以調整風格圖,使被調整後之風格圖之留白部分的面積為被調整後之風格圖的面積的25%。
在某些實施例中,風格權重係數在10000以上。
本發明亦揭露一種圖像風格轉換的電腦程式產品,經由電腦載入該程式以執行:第一程式指令,使處理器將內容圖及風格圖輸入至第二卷積神經網路模型,第二卷積神經網路模型提取內容圖之複數張第一特徵圖,以及提取風格圖之複數張第二特徵圖;第二程式指令,使處理器將內容圖輸入至風格轉換神經網路模型,風格轉換神經網路模型使用特定數目的篩選器對內容圖執行卷積運算,以產生一轉換圖;第三程式指令,使處理器將轉換圖輸入至第二卷積神經網路模型,第二卷積神經網路模型提取轉換圖之複數張第三特徵圖;第四程式指令,使處理器根據該等第一特徵圖及該等第三特徵圖計算一內容損失,並根據該等第二特徵圖及該等第三特徵圖計算一風格損失;第五程式指令,使處理器將內容損失乘以內容權重係數所得到的結果,與將風格損失乘以風格權重係數所得到的結果相加,以取得總損失,其中風格權重係數為內容權重係數的16倍;第六程式指令,使處理器遞迴地使用梯度下降法優化風格轉換神經網路模型,使總損失被最小化,以取得一最佳轉換圖。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,內容權重係數為7.5,風格權重係數為120。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,風格轉換神經網路模型所使用的篩選器數目為32個。
本發明所揭露之圖像風格轉換的電腦程式產品更經由電腦載入程式以執行第七程式指令,使處理器在風格圖被輸入至第二卷積神經網路模型之前,對風格圖執行前置處理程序,以調整風格圖,使被調整後之風格圖之留白部分的面積為被調整後之風格圖的面積的25%。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,風格權重係數在10000以上。
本發明涉及一種基於美學(Aesthetics)所設計的圖像風格轉換的方法及其電腦程式產品,可使經過風格轉換後的圖像更富有美感。所謂的「美感」,係涉及「美(aesthetic)」、「品味(taste)」、「美感知覺(aesthetic perception)」與「美感經驗(aesthetic experience)」之概念聯結。其中,「美」所指的係在時空位置中,對象所存在客觀性質的描述;「品味」所指的係觀賞者主體的心靈與對象事實互動之主觀價值表達;「美感知覺」所指的係觀賞者主體的感覺官能,覺知對象性質的存在;「美感經驗」所指的係觀賞者主體接觸某種情境或對象的性質,所引發自身完美充足的感受。
從形式來認知美感的存在,可以從「比例(proportion)」、「色彩(colors)」、「質感(texture)」、「構成(composition)」、「結構(structure)」、「構造(construction)」等方面,來進行觀察、分析與體驗。本發明之圖像風格轉換的方法,係著重在比例、色彩及質感等方面所設計的。
本發明揭露一種圖像風格轉換的方法,該方法可被應用在網路介面上,或者某些應用程式中。在某些實施例中,本發明所揭露之圖像風格轉換的方法可搭配運用網頁圖形資料庫Web Graphics Library (WebGL),以在不使用外掛程式的情況下,在任何相容的網頁瀏覽器中呈現互動式的2D和3D圖形。舉例來說,使用者可透過運用WebGL的網頁介面,將一幅待轉換風格的內容圖以及一幅作為轉換風格參照對象的風格圖,上傳到伺服器,然後伺服器根據網頁介面所接收到的內容圖及風格圖,運用本發明所揭露之圖像風格轉換的方法,來產生一幅新的圖像,再將這幅新的圖像呈現在網頁介面上。這幅新的圖像,可兼具內容圖與風格圖之特徵,例如內容圖中物體的形狀與輪廓,以及風格圖中的色彩與紋理。在另一範例中,使用者可以僅上傳內容圖,然後再另外選取已被提供在網頁介面上的風格圖。
第1圖係本發明之實施例所涉及的卷積運算之示意圖100。示意圖100包含輸入圖像101、篩選器(filter)102及特徵圖(feature map)103,其中輸入圖像101具有多個像素,該等像素之像素值係以矩陣(例如第1圖中的5*5的矩陣,但不以此為限)的形式來表示。此外,篩選器102及特徵圖103也係以矩陣(例如第1圖中的3*3的矩陣,但不以此為限)的形式來表示。
如第1圖所示,對輸入圖像101與篩選器102執行卷積運算,將得到特徵圖103。具體而言,卷積運算係將篩選器102與輸入圖像101中對應位置內的像素值逐個相乘並加總,以得到特徵圖103中對應位置(亦被稱為「特徵點(feature point)」)的卷積值。不斷地滑動篩選器102對應輸入圖像101中的位置,即能計算出特徵圖103中的所有卷積值。舉例來說,對輸入圖像101中的部分矩陣110與篩選器102進行如下計算
0*0+0*1+1*2+3*2+1*2+2*0+2*0+0*1+0*2=10
如此可以得到特徵圖103中的卷積值120為10。
再舉一例,對輸入圖像101中的部分矩陣111與篩選器102進行如下計算
2*0+1*1+0*2+1*2+3*2+1*0+2*0+2*1+3*2=17
如此可以得到特徵圖103中的卷積值121為17。
一個卷積神經網路(convolution neural network; CNN)模型,可具有複數層卷積層(convolution layer),而其中每一層的卷積層又可具有複數個篩選器。於每一層卷積層執行如前述之卷積運算之後所得到的複數張特徵圖,即又再作為下一層卷積層之輸入資料。
第2圖係根據本發明之實施例的圖像風格轉換的方法之流程圖200,流程圖200包含S201-S206等步驟。於步驟S201,將內容圖及風格圖輸入至第二卷積神經網路模型,第二卷積神經網路模型透過如前述之卷積運算,提取該內容圖之複數張第一特徵圖,以及提取風格圖之複數張第二特徵圖,然後進入步驟S202。
在某些實施例中,第二卷積神經網路模型可以係一VGG(Visual Geometry Group)神經網路模型,像是VGG 16、VGG 19。在較佳的實施例中,第二卷積神經網路模型係VGG 19。
於步驟S202,將內容圖輸入至風格轉換神經網路模型,風格轉換神經網路模型使用特定數目的篩選器對內容圖執行如前述之卷積運算,以產生一轉換圖,然後進入步驟S203。
在某些實施例中,風格轉換神經網路模型也可以係一卷積神經網路模型,但不同於第二卷積神經網路模型。具體而言,在功能方面,風格轉換神經網路模型係用於將輸入圖像以某種方式轉換成新的圖像。在之後的步驟中,將透過反覆地“結果反饋”與“更新參數”等訓練過程,使得風格轉換神經網路模型所輸出的新圖像逐漸收斂及優化,最終輸出一最佳轉換圖(optimized transferred image)。相較之下,第二卷積神經網路模型在本揭露之方法中,則係用於提取輸入圖像之特徵圖,以將這些提取出來的特徵圖作為後續步驟中優化風格轉換神經網路模型之依據,而第二卷積神經網路模型本身並非係受到訓練的對象。另一方面,風格轉換神經網路模型也可能與第二卷積神經網路模型具有不同的卷積層數、篩選器個數,或者篩選器矩陣中的數值…等。
於步驟S203,將轉換圖輸入至第二卷積神經網路模型,第二卷積神經網路模型透過如前述之卷積運算,提取轉換圖之複數張第三特徵圖,然後進入步驟S204。
於步驟S204,根據該等第一特徵圖及該等第三特徵圖計算內容損失(content loss),並根據該等第二特徵圖及該等第三特徵圖計算風格損失(style loss),然後進入步驟S205。
根據本發明之實施例,內容損失可被簡單地理解為「轉換圖與內容圖之間,在內容表徵(例如圖中物體的形狀與輪廓)方面的差距」。具體而言,內容表徵係從第二卷積神經網路模型所輸出的所有特徵圖中,選取特定一層卷積層所輸出的複數張特徵圖。內容損失的計算,如以下公式1:
(公式1)
在公式1中,
係指內容損失,
分別係指內容圖、轉換圖,與卷積層的層數,
、
則分別係指第
層卷積層所輸出的第三特徵圖(即轉換圖之內容表徵)與第一特徵圖(即內容圖之內容表徵)中的某個特徵點之卷積值。
根據本發明之實施例,風格損失可被簡單地理解為「轉換圖與風格圖之間,在風格表徵(例如色彩與紋理)方面的差距」。具體而言,風格表徵係每一層卷積層所輸出的複數張特徵圖之間的相關性(correlation),如以下公式2:
(公式2)
在公式2中,
係指從第
層卷積層得到的風格表徵,以格拉姆矩陣(Gram matrix)的形式來表示,
則係指第
層卷積層所輸出的複數張特徵圖彼此之間的內積(inner product)。然而在本發明之實施例中,不同於內容損失之計算係根據特定一層卷積層所取得的內容表徵,風格損失的計算必須將多個卷積層上的風格表徵皆納入考慮,如以下公式3、4:
(公式3)
=
(公式4)
在公式3及公式4中,
係指第
層卷積層所貢獻的部分風格損失,
與
分別係指從第
層卷積層得到的轉換圖之風格表徵與風格圖之風格表徵,
與
分別係指第
層卷積層所輸出的複數張特徵圖之長度與寬度,
係指風格損失,
分別係指風格圖與轉換圖,
係指各層卷積層所貢獻的部分風格損失的加權總合。在在本發明之實施例中,
之值恆為1除以風格損失計算所考量的多個卷積層之總層數,也就是說這些卷積層中的每一層被分配到的權重係均等的,但本發明並不以此為限。
於步驟S205,將內容損失乘以內容權重係數所得到的結果,與將風格損失乘以風格權重係數所得到的結果相加,以取得總損失,然後進入步驟S206。總損失的計算亦被稱為損失函數(loss function),如以下公式5:
(公式5)
在公式5中,
係指總損失,
分別係指內容圖、風格圖與轉換圖,
與
分別係指內容損失與風格損失,
與
分別係指內容權重係數與風格權重係數。在本發明之實施例中,
被設置為
的16倍。
於步驟S206,遞迴地使用梯度下降法(gradient descent)優化風格轉換神經網路模型,使總損失被最小化,以取得一最佳轉換圖。具體而言,梯度下降法係透過對前述之損失函數作偏微分(partial derivative)計算以取得梯度(也就是風格轉換神經網路模型之參數的調整方向),再根據梯度調整風格轉換神經網路模型之參數,以降低總損失。透過反覆地結果反饋與更新參數等訓練過程,逐步降低總損失,直到總損失收斂至最小值,此時風格轉換神經網路模型所輸出的轉換圖即為最佳轉換圖。
在某些實施例中,於步驟S206所使用的梯度下降法,可以係隨機梯度下降法(Stochastic gradient descent;SGD)或自適應矩估計(adaptive moment estimation;Adam)等演算法。
第3圖係根據本發明之實施例所繪示出內容權重係數與風格權重係數之比例與最佳轉換圖之間的關係。在第3圖中,圖像301與圖像302分別係內容圖與風格圖,圖像303、圖像304與圖像305則分別係在風格權重係數α為內容權重係數β的10倍、16倍與27倍下,風格轉換神經網路模型所產出的最佳轉換圖。如第3圖所示,相較於圖像304與圖像305,圖像303更類似於圖像301(即內容圖);反之,相較於圖像303與圖像304,圖像305類似於圖像302(即風格圖)。
根據本發明之實施例,內容權重係數α為風格權重係數β的16倍,這係基於美學的「比例」方面所設置的。如此的設置,可使最佳轉換圖既不會在內容方面失真,同時亦能兼顧新的風格。於此基礎上,在某些實施例中,將內容權重係數設置為7.5,並將風格權重係數設置為120,經過藝術領域專家之評定,確實可使風格轉換神經網路模型所產出的最佳轉換圖更富有美感。
根據本發明之實施例,風格轉換神經網路模型所使用的篩選器之數目,在美學的「色彩」方面,會影響最佳轉換圖之色彩豐富程度。數目較低的篩選器會使最佳轉換圖之色彩較為單調,而數目較高的篩選器則會使最佳轉換圖之色彩較為豐富。然而,隨著風格轉換神經網路模型所使用的篩選器之數目增加,執行圖像風格轉換所需耗費的時間也會增加,進而影響使用者體驗。此外,在篩選器數目較高時,增加篩選器數目為最佳轉換圖所帶來在色彩豐富度上的提升,會比在篩選器數目較低時較不明顯。
第4圖係根據本發明之實施例所繪示出風格轉換神經網路模型所使用的篩選器之數目對於最佳轉換圖之色調豐富程度的影響。在第4圖中,圖像401與圖像402分別係內容圖與風格圖,圖像403、圖像404、圖像405、圖像406、圖像407與圖像408則分別係在風格轉換神經網路模型所使用的篩選器之數目為1、4、16、32、64、128下,風格轉換神經網路模型所產出的最佳轉換圖。如第4圖所示,圖像406之色彩明顯比圖像403、圖像404與圖像405更為豐富。然而,圖像407或圖像408之色彩,相較於圖像406,並沒有明顯的變化。
本揭露將風格轉換神經網路模型所使用的篩選器數目設置為32個,經過藝術領域專家之評定,確實已可使最佳轉換圖之色彩足夠豐富。至於使用比32個更多的篩選器為最佳轉換圖所帶來在色彩豐富度上的提升,則並不明顯。因此,在某些實施例中,風格轉換神經網路模型所使用的篩選器數目被設置為32個,以兼顧使用者經驗與最佳轉換圖之色彩豐富程度。
第5圖係根據本發明之實施例所繪示出風格圖之留白部分佔整張風格圖的面積的比例,對於最佳轉換圖之質感的影響。在第5圖中,圖像501為內容圖,圖像502、圖像503與圖像504分別為留白部分佔整張圖的面積大於50%、約為20%與約為5%的風格圖,圖像512、圖像513與圖像514則分別為對應於圖像502、圖像503與圖像504,風格轉換神經網路模型所產出的最佳轉換圖。如第5圖所示,風格圖之留白部分佔整張風格圖的面積的比例,對於最佳轉換圖,在美學的「質感」方面會有顯著的影響。
根據本發明之實施例,在風格圖之留白部分的面積佔整張風格圖的面積趨近25%時,最佳轉換圖之質感經過藝術領域專家評定是最富有美感的。因此,在某些實施例中,在風格圖被輸入至第二卷積神經網路模型之前,可對風格圖執行前置處理程序,以調整風格圖,使被調整後之風格圖之留白部分的面積為被調整後之風格圖的面積的25%,以得到在質感方面最富有美感的最佳轉換圖。
在本發明之實施例中,內容權重係數α為風格權重係數β的16倍,已如前述。於此基礎上,在某些實施例中,將風格權重係數設置為10000以上的數值,可使風格轉換神經網路模型所產出的最佳轉換圖具有薄膜干涉(thin-film interference)之效果。
第6圖係根據發明之實施例所繪示出將風格權重係數β設置為10000以上的數值所能得到的最佳轉換圖之薄膜干涉之效果。在第6圖中,圖像601與圖像602分別係將風格權重係數設置為1000與10000時,風格轉換神經網路模型所產出的最佳轉換圖。如第6圖所示,相較於圖像601,圖像602(尤其如圖中的三個圈選處)更具有類似於吾人經常在肥皂泡沫上所見到的彩虹顏色,此即為薄膜干涉之效果。
本發明更揭露一種圖像風格轉換的電腦程式產品,該電腦程式產品經由電腦載入程式以執行第一程式指令、第二程式指令、第三程式指令、第四程式指令、第五程式指令及第六程式指令,其中第一程式指令使處理器執行第2圖中的步驟S201,第二程式指令使處理器執行第2圖中的步驟S202,第三程式指令使處理器執行第2圖中的步驟S203,第四程式指令使處理器執行第2圖中的步驟S204,第五程式指令使處理器執行第2圖中的步驟S205,第六程式指令使處理器執行第2圖中的步驟S206。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,將內容權重係數設置為7.5,並將風格權重係數設置為120,可使風格轉換神經網路模型所產出的最佳轉換圖更富有美感。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,風格轉換神經網路模型所使用的篩選器數目被設置為32個,以兼顧使用者經驗與最佳轉換圖之色彩豐富程度。
本發明所揭露之圖像風格轉換的電腦程式產品更經由電腦載入程式以執行第七程式指令,使處理器在風格圖被輸入至該第二卷積神經網路模型之前,對風格圖執行前置處理程序,以調整風格圖,使被調整後之風格圖之留白部分的面積為被調整後之風格圖的面積的25%,以得到在質感方面最富有美感的最佳轉換圖。
在本發明所揭露之圖像風格轉換的電腦程式產品的某些實施例中,將風格權重係數設置為10000以上的數值,可使風格轉換神經網路模型所產出的最佳轉換圖具有薄膜干涉之效果。
在本說明書中以及申請專利範圍中的序號,例如「第一」、「第二」等等,僅係為了方便說明,彼此之間並沒有順序上的先後關係。
以上段落使用多種層面描述。顯然的,本文的教示可以多種方式實現,而在範例中揭露之任何特定架構或功能僅為一代表性之狀況。根據本文之教示,任何熟知此技藝之人士應理解在本文揭露之各層面可獨立實作或兩種以上之層面可以合併實作。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何熟習此技藝者,在不脫離本揭露之精神和範圍內,當可作些許之更動與潤飾,因此發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:示意圖
101:輸入圖像
102:篩選器
103:特徵圖
110,111:部分矩陣
120,121:卷積值
200:流程圖
S201-S206:步驟
301-305:圖像
401-408:圖像
501-504:圖像
512-514:圖像
601,602:圖像
第1圖係本發明之實施例所涉及的卷積運算之示意圖100。
第2圖係根據本發明之實施例的圖像風格轉換的方法之流程圖200。
第3圖係根據本發明之實施例所繪示出內容權重係數與風格權重係數之比例與最佳轉換圖之間的關係。
第4圖係根據本發明之實施例所繪示出風格轉換神經網路模型所使用的篩選器之數目對於最佳轉換圖之色調豐富程度的影響。
第5圖係根據本發明之實施例所繪示出風格圖之留白部分佔整張風格圖的面積的比例,對於最佳轉換圖之質感的影響。
第6圖係根據發明之實施例所繪示出將風格權重係數β設置為10000以上的數值所能得到的最佳轉換圖之薄膜干涉之效果。
200:流程圖
S201-S206:步驟
Claims (10)
- 一種圖像風格轉換(style transfer)的方法,包括下列步驟: 將一內容圖(content image)及一風格圖(style image)輸入至一第二卷積神經網路(convolutional neural network; CNN)模型,該第二卷積神經網路模型提取該內容圖之複數張第一特徵圖(feature maps),以及提取該風格圖之複數張第二特徵圖; 將該內容圖輸入至一風格轉換神經網路模型,該風格轉換神經網路模型使用一特定數目的篩選器(filter)對該內容圖執行卷積運算(convolution),以產生一轉換圖(transferred image); 將該轉換圖輸入至該第二卷積神經網路模型,該第二卷積神經網路模型提取該轉換圖之複數張第三特徵圖; 根據該等第一特徵圖及該等第三特徵圖計算一內容損失(content loss),並根據該等第二特徵圖及該等第三特徵圖計算一風格損失(style loss); 將該內容損失乘以一內容權重(content-weight)係數所得到的結果,與將該風格損失乘以一風格權重(style-weight)係數所得到的結果相加,以取得一總損失(total loss),其中該風格權重係數為該內容權重係數的16倍; 遞迴地使用一梯度下降法(gradient descent)優化該風格轉換神經網路模型,使該總損失被最小化,以取得一最佳轉換圖(optimized transferred image)。
- 如請求項1之圖像風格轉換的方法,其中該內容權重係數為7.5,該風格權重係數為120。
- 如請求項1或2之圖像風格轉換的方法,其中該特定數目為32個。
- 如請求項1或2之圖像風格轉換的方法,更包括: 在該風格圖被輸入至該第二卷積神經網路模型之前,對該風格圖執行一前置處理程序,以調整該風格圖,使被調整後之該風格圖之留白部分的面積為被調整後之該風格圖的面積的25%。
- 如請求項1之圖像風格轉換的方法,其中該風格權重係數在10000以上。
- 一種圖像風格轉換的電腦程式產品,經由電腦載入該程式以執行: 第一程式指令,使一處理器將一內容圖及一風格圖輸入至一第二卷積神經網路模型,該第二卷積神經網路模型提取該內容圖之複數張第一特徵圖,以及提取該風格圖之複數張第二特徵圖; 第二程式指令,使該處理器將該內容圖輸入至一風格轉換神經網路模型,該風格轉換神經網路模型使用一特定數目的篩選器對該內容圖執行卷積運算,以產生一轉換圖; 第三程式指令,使該處理器將該轉換圖輸入至該第二卷積神經網路模型,該第二卷積神經網路模型提取該轉換圖之複數張第三特徵圖; 第四程式指令,使該處理器根據該等第一特徵圖及該等第三特徵圖計算一內容損失,並根據該等第二特徵圖及該等第三特徵圖計算一風格損失; 第五程式指令,使該處理器將該內容損失乘以一內容權重係數所得到的結果,與將該風格損失乘以一風格權重係數所得到的結果相加,以取得一總損失,其中該風格權重係數為該內容權重係數的16倍; 第六程式指令,使該處理器遞迴地使用一梯度下降法優化該風格轉換神經網路模型,使該總損失被最小化,以取得一最佳轉換圖。
- 如請求項6之電腦程式產品,其中該內容權重係數為7.5,該風格權重係數為120。
- 如請求項6或7之電腦程式產品,其中該特定數目為32個。
- 如請求項6或7之電腦程式產品,更經由電腦載入該程式以執行第七程式指令,使該處理器在該風格圖被輸入至該第二卷積神經網路模型之前,對該風格圖執行一前置處理程序,以調整該風格圖,使被調整後之該風格圖之留白部分的面積為被調整後之該風格圖的面積的25%。
- 如請求項6之電腦程式產品,其中該風格權重係數在10000以上。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109123850A TWI762971B (zh) | 2020-07-15 | 2020-07-15 | 圖像風格轉換的方法及其電腦程式產品 |
| US17/308,243 US20220020191A1 (en) | 2020-07-15 | 2021-05-05 | Method and computer program product for image style transfer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW109123850A TWI762971B (zh) | 2020-07-15 | 2020-07-15 | 圖像風格轉換的方法及其電腦程式產品 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202205200A TW202205200A (zh) | 2022-02-01 |
| TWI762971B true TWI762971B (zh) | 2022-05-01 |
Family
ID=79292626
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW109123850A TWI762971B (zh) | 2020-07-15 | 2020-07-15 | 圖像風格轉換的方法及其電腦程式產品 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20220020191A1 (zh) |
| TW (1) | TWI762971B (zh) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12340440B2 (en) * | 2020-11-16 | 2025-06-24 | Disney Enterprises, Inc. | Adaptive convolutions in neural networks |
| CN115035119B (zh) * | 2022-08-12 | 2023-03-24 | 山东省计算中心(国家超级计算济南中心) | 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法 |
| CN115936972B (zh) * | 2022-09-27 | 2024-03-22 | 阿里巴巴(中国)有限公司 | 图像生成方法、遥感图像风格迁移方法以及装置 |
| US12431237B2 (en) * | 2023-01-03 | 2025-09-30 | GE Precision Healthcare LLC | Task-specific image style transfer |
| CN116188250A (zh) * | 2023-01-29 | 2023-05-30 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
| CN119130778A (zh) * | 2023-05-31 | 2024-12-13 | 北京字跳网络技术有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180357800A1 (en) * | 2017-06-09 | 2018-12-13 | Adobe Systems Incorporated | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images |
| CN111340720A (zh) * | 2020-02-14 | 2020-06-26 | 云南大学 | 一种基于语义分割的套色木刻版画风格转换算法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106847294B (zh) * | 2017-01-17 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
| CN110717368A (zh) * | 2018-07-13 | 2020-01-21 | 北京服装学院 | 一种纺织品定性分类方法 |
| US10713830B1 (en) * | 2019-05-13 | 2020-07-14 | Gyrfalcon Technology Inc. | Artificial intelligence based image caption creation systems and methods thereof |
-
2020
- 2020-07-15 TW TW109123850A patent/TWI762971B/zh active
-
2021
- 2021-05-05 US US17/308,243 patent/US20220020191A1/en not_active Abandoned
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180357800A1 (en) * | 2017-06-09 | 2018-12-13 | Adobe Systems Incorporated | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images |
| US10565757B2 (en) * | 2017-06-09 | 2020-02-18 | Adobe Inc. | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images |
| CN111340720A (zh) * | 2020-02-14 | 2020-06-26 | 云南大学 | 一种基于语义分割的套色木刻版画风格转换算法 |
Non-Patent Citations (2)
| Title |
|---|
| 期刊韕Golnaz Ghiasi, Tsung-Yi Lin, Quoc V. Le韕 韕"DropBlock: A regularization method for convolutional networks."韕,韕NeurIPS韕2018/12/3韕,韕 * |
| 網路文獻韕Johnson, Justin, Alexandre Alahi, and Li Fei-Fei.韕"Perceptual losses for real-time style transfer and super-resolution."韕 韕 韕arxiv韕2016/03/27韕 韕https://arxiv.org/abs/1603.08155; * |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202205200A (zh) | 2022-02-01 |
| US20220020191A1 (en) | 2022-01-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI762971B (zh) | 圖像風格轉換的方法及其電腦程式產品 | |
| WO2020034481A1 (zh) | 一种图像风格转换方及装置、设备、存储介质 | |
| CN108711137B (zh) | 一种基于深度卷积神经网络的图像色彩表达模式迁移方法 | |
| CN113222875B (zh) | 一种基于色彩恒常性的图像和谐化合成方法 | |
| CN109345446B (zh) | 一种基于对偶学习的图像风格转移算法 | |
| CN111292251B (zh) | 图像偏色校正方法、装置以及计算机存储介质 | |
| CN107481278A (zh) | 基于混合框架的图像位深度扩展方法及装置 | |
| CN106780367A (zh) | 基于字典学习的hdr照片风格转移方法 | |
| CN112927137A (zh) | 一种用于获取盲超分辨率图像的方法、设备及存储介质 | |
| CN109448019B (zh) | 一种变分光流模型平滑参数的自适应方法 | |
| CN119450126B (zh) | 电视盒子智能交互控制单元图像处理方法及设备 | |
| Li et al. | Mine image enhancement using adaptive bilateral gamma adjustment and double plateaus histogram equalization | |
| CN116912114A (zh) | 基于高阶曲线迭代的无参考低光照图像增强方法 | |
| CN112541856A (zh) | 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法 | |
| CN114255158A (zh) | 图像风格转换的方法及其电脑程序产品 | |
| WO2012146042A1 (zh) | 一种基于三维栅格平滑模型的图像细节增强方法 | |
| CN110189264A (zh) | 图像处理方法 | |
| CN111311517B (zh) | 基于抠图的颜色校正优化方法 | |
| CN111161134A (zh) | 基于伽马变换的图像艺术风格转换方法 | |
| CN115115527B (zh) | 图像处理方法及装置 | |
| CN113095999B (zh) | 一种视频风格转置方法和系统 | |
| CN102456221A (zh) | 一种图像噪声快速去除方法 | |
| CN116843579B (zh) | 意向可控的高速图像平滑方法及系统 | |
| Fukumoto et al. | Converting the images without glossiness into the images with glossiness by using deep photo style transfer | |
| CN119831827B (zh) | 一种目标风格化图像的ai生成方法 |