TWI870063B - 用於產生圖像的方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品 - Google Patents
用於產生圖像的方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品 Download PDFInfo
- Publication number
- TWI870063B TWI870063B TW112139431A TW112139431A TWI870063B TW I870063 B TWI870063 B TW I870063B TW 112139431 A TW112139431 A TW 112139431A TW 112139431 A TW112139431 A TW 112139431A TW I870063 B TWI870063 B TW I870063B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- editing
- generating
- artificial intelligence
- character set
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000004590 computer program Methods 0.000 title claims abstract description 16
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 112
- 238000006243 chemical reaction Methods 0.000 claims description 148
- 238000012545 processing Methods 0.000 claims description 124
- 238000010586 diagram Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 10
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 9
- 238000007639 printing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010428 oil painting Methods 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本申請提出一種用於產生圖像的方法,其適用於透過計算機裝置來產生人工智慧圖像。所述方法包括接收至少一輸入圖像、基於至少一輸入圖像來產生關鍵詞字元組、在接收從至少一修圖按鍵中的任何一個所發送的修圖請求之後,基於與修圖請求相對應的編修指令集對關鍵詞字元組進行至少一字串編修操作,並產生編修字元組、以及基於編修字元組來產生人工智慧圖像。藉此,所述方法能適用於產生人工智慧圖像,並解決一般使用者必須輸入對應的指令組才能產生使用者所期許的圖像的問題。此外,一種實現所述方法的計算機裝置、電腦可讀取記錄媒體以及電腦程式產品亦被提出。
Description
本申請是關於一種方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品,特別是一種用於產生圖像的方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品。
受惠於人工智慧的發展,許多繪圖軟體或圖像產生器在導入人工智慧的技術之後,紛紛能夠產生使用者期許的圖像檔,並幫助許多媒體工作者(例如,Youtuber或論壇主)或一般民眾可以透過人工智慧圖像來加深觀眾對於他們所發表的文章內容及/或情境描述的印象。
然而,現有的繪圖軟體或圖像產生器都需要使用者分別輸入對應的指令組(Prompt)才能產生使用者期許的圖像檔。也就是說,雖然使用者最終能產生使用者期許的圖像檔,但使用者必須先自行輸入一段文字描述以及與各個特定的修圖操作相對應的指令組。
根據在先前技術中對於現有技術的描述,本申請之目的在於解決現有技術的不足。具體而言,本申請之一目的在於解決使用者必須輸入對應的指令組才能產生使用者所期許的圖像的問題,特別是解決對於不熟悉指令組的使用者必須輸入對應的指令組才能產生使用者所期許的圖像的問題。
本申請提供一種用於產生圖像的方法,適用於透過計算機裝置來產生人工智慧圖像。所述方法包括接收至少一輸入圖像、基於至少一輸入圖像來產生關鍵詞字元組、在接收從至少一修圖按鍵中的任何一個所發送的修圖請求之後,基於與修圖請求相對應的編修指令集對關鍵詞字元組進行至少一字串編修操作,並產生編修字元組、以及基於編修字元組來產生人工智慧圖像。
在一些實施例中,基於至少一輸入圖像來產生關鍵詞字元組的步驟包括將至少一輸入圖像輸入至影像描述模型、以及透過影像描述模型來輸出關鍵詞字元組。所述影像描述模型是基於至少一輸入圖像而自動地產生與至少一輸入圖像相對應的關鍵詞字元組。
在一些實施例中,基於編修字元組來產生人工智慧圖像的步驟包括將編修字元組輸入至圖像產生模型、以及透過圖像產生模型來輸出人工智慧圖像。所述圖像產生模型是基於編修字元組而自動地產生與編修字元組相對應的人工智慧圖像。
在一些實施例中,關於用於產生圖像的方法更包括根據關鍵詞字元組的內容及使用者的歷史編修記錄中的至少一者來自動地產生至少一修圖按鍵。
在一些實施例中,關於用於產生圖像的方法更包括基於分別與至少一修圖按鍵中的每一個相對應的堆疊屬性值來決定是否將至少一字串編修操作進行堆疊。
在一些實施例中,堆疊屬性值被設定為可堆疊的或不可堆疊的。
在一些實施例中,堆疊屬性值是根據使用者的偏好設定及預設值中的至少一者而被設定。
在一些實施例中,關於用於產生圖像的方法更包括基於分別與至少一修圖按鍵中的每一個相對應的編修權重值來決定至少一字串編修操作對關鍵詞字元組的編修程度。
在一些實施例中,編修權重值是根據關鍵詞字元組的內容、使用者的歷史編修記錄及預設值中的至少一者而被設定。
在一些實施例中,關於用於產生圖像的方法更包括接收與物件的實體大小相對應的物件資訊、以及基於物件資訊來決定人工智慧圖像的尺寸。
在一些實施例中,基於至少一輸入圖像來產生關鍵詞字元組的步驟包括接收至少一裝飾圖像、將至少一輸入圖像和至少一裝飾圖像進行至少一構圖操作,並產生編排圖像、將編排圖像輸入至影像描述模型、以及透過影像描述模型來輸出關鍵詞字元組。影像描述模型是基於編排圖像而自動地產生與編排圖像相對應的關鍵詞字元組。
在一些實施例中,關於用於產生圖像的方法更包括將人工智慧圖像傳輸至圖像輸出裝置,並透過圖像輸出裝置來將人工智慧圖像進行實體輸出。
本申請亦提供一種用於產生圖像的方法,適用於透過計算機裝置來產生風格轉換圖像。所述方法包括接收至少一輸入圖像、以及在接收從至少一風格轉換按鍵中的任何一個所發送的風格轉換請求之後,基於風格轉換請求來將至少一輸入圖像輸入至風格轉換模型,並透過風格轉換模型來輸出風格轉換圖像。風格轉換模型是基於至少一學習圖像的風格學習結果來對至少一輸入圖像執行至少一風格轉換操作,並產生風格轉換圖像。
在一些實施例中,至少一學習圖像是透過如先前所述之用於產生圖像的方法中的任何一種方法所產生的人工智慧圖像。
在一些實施例中,關於用於產生圖像的方法更包括將風格轉換圖像傳輸至圖像輸出裝置,並透過圖像輸出裝置來將風格轉換圖像進行實體輸出。
本申請也提供一種用於產生圖像的計算機裝置,其適用於與使用者終端訊號連接,以從使用者終端接收至少一輸入圖像,並基於至少一輸入圖像來產生輸出圖像。所述計算機裝置包括圖像接收模組、處理模組以及儲存模組。所述圖像接收模組被配置成與使用者終端訊號連接,並且被配置成適用於接收至少一輸入圖像。所述處理模組被配置成與圖像接收模組訊號連接,並且被配置成在執行儲存在儲存模組中的程式碼後,能夠執行如先前所述之用於產生圖像的方法中的任何一種方法來產生人工智慧圖像,或者能夠執行如先前所述之用於產生圖像的方法中的任何一種方法來產生風格轉換圖像,並將人工智慧圖像或風格轉換圖像作為輸出圖像。所述儲存模組被配置成與處理模組訊號連接,並且被配置成儲存有程式碼。
在一些實施例中,關於用於產生圖像的計算機裝置更包括圖像輸出模組。所述圖像輸出模組被配置成與處理模組訊號連接,適用於將輸出圖像傳輸至圖像輸出裝置。
本申請還提供一種用於產生圖像的電腦可讀取記錄媒體,當計算機裝置載入內存的程式碼並執行程式碼後,能夠完成如先前所述之用於產生圖像的方法中的任何一種方法。
本申請又提供一種用於產生圖像的電腦程式產品,當計算機裝置載入該電腦程式產品並執行該電腦程式產品後,能夠完成如先前所述之用於產生圖像的方法中的任何一種方法。
透過本申請提供的技術手段可以產生先前技術無法達成的有利功效。具體而言,本申請之一有利功效為供使用者在不需要額外自行輸入指令組的情況下,就能夠產生使用者所期許的圖像檔,藉以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過本申請提供的技術手段來產生使用者所期許的圖像檔。
本申請將透過下述的實施例和所附之圖式來詳細說明本申請的內容,藉以幫助本申請所屬技術領域中具有通常知識者理解本申請之目的、特徵及其功效。應當注意的是,此處所描述的各個步驟可以被依序地、以相反的順序或透過在控制處理期間適當地改變或跳過順序來執行。應當注意的是,此處所描述的“第一步驟可以接續在第二步驟之後被執行”,其可以表示在執行完第二步驟之後直接地接續執行第一步驟,也可以表示在執行完第二步驟之後先接續執行其他的步驟(例如,第三步驟)再接續執行第一步驟。
此外,在本申請所描述的內容中,應當注意的是,諸如“第一”、“第二”和“第三”等用語是用以區分元件之間的不同,而不是用以限制元件本身或表示元件的特定排序。應當注意的是,在以下的說明內容中,相同的元件或步驟可以用相同的編號來表示。
請參考圖1,圖1是說明本申請之一個實施例之計算機裝置200與使用者裝置110及伺服器120中的至少一者訊號連接並且與圖像輸出裝置310及伺服器320中的至少一者訊號連接的連接關係示意圖。
由於使用者裝置110及/或伺服器120可以被配置為與計算機裝置200訊號連接,其具體可以是在使用者裝置110及/或伺服器120與計算機裝置200之間配置訊號線,使得使用者裝置110及/或伺服器120適用於經由所述訊號線來向計算機裝置200提供輸入圖像(具體可以是至少一輸入圖像)。在一些實施例中,所述輸入圖像可以是由例如聯名廠商、藝術家或消費者所提供,但不限於此。在一些實施例中,所述輸入圖像可以是例如人像、水果、動物、動漫人物或自創人物的圖,但不限於此。在一個具體的範例中,使用者可以透過使用者裝置110向計算機裝置200提供一個或多個照片檔作為所述輸入圖像。
在一些實施例中,計算機裝置200可以透過實體訊號線連接的方式從使用者裝置110及/或伺服器120接收輸入圖像,其中,所述實體訊號線可以是例如符合網際網路協定的網路訊號線,但不限於此。在另一些實施例中,計算機裝置200也可以不用透過實體訊號線連接的方式從使用者裝置110及/或伺服器120接收輸入圖像,更具體地說,計算機裝置200也可以透過虛擬訊號線連接的方式從使用者裝置110及/或伺服器120接收輸入圖像,其中,所述虛擬訊號線可以是例如符合無線通訊協定的Wi-Fi、4G/5G、藍芽、近距離通訊等,但不限於此。
在一些實施例中,使用者裝置110可以是能夠儲存檔案的計算機裝置,其具體可以是諸如智慧型手機、平板電腦、個人電腦等,但不限於此。在一些實施例中,伺服器120可以是能夠儲存檔案的計算機裝置,其具體可以是實體主機或虛擬的雲端伺服器,但不限於此。
計算機裝置200可以被配置成從使用者裝置110及/或伺服器120接收輸入圖像,並且被配置成基於所接收到的輸入圖像來產生人工智慧圖像,其具體可以是透過執行本申請提供之用於產生圖像的方法的各個步驟來產生人工智慧圖像及/或風格轉換圖像。在一些實施例中,所述輸入圖像也可以事先被儲存在計算機裝置200中,使得計算機裝置200也能夠基於儲存在計算機裝置200中的輸入圖像來產生人工智慧圖像及/或風格轉換圖像。
計算機裝置200基本可以被配置成包括圖像接收模組210、處理模組220(即處理模組220A及處理模組220B中的至少一者)和儲存模組230。在一些實施例中,計算機裝置200可以進一步包括圖像輸出模組240。在另一些實施例中,計算機裝置200可以進一步包括圖像資料庫250。在另一些實施例中,計算機裝置200可以進一步包括編修資料庫260。也就是說,圖像輸出模組240、圖像資料庫250和編修資料庫260可以根據使用者的需求而選擇性地被配置於計算機裝置200中。
圖像接收模組210可以被配置成與使用者裝置110及/或伺服器120,並且可以被配置成適用於從使用者裝置110及/或伺服器120接收輸入圖像(具體可以是至少一輸入圖像)。在一些實施例中,計算機裝置200可以將透過圖像接收模組210從使用者裝置110及/或伺服器120接收到的輸入圖像儲存在圖像資料庫250中。
處理模組220可以被配置成與圖像接收模組210訊號連接,並且可以被配置成能夠實現本申請提供之用於產生圖像的方法中的任何一種方法。更具體地說,處理模組220可以被配置成在執行本申請提供之用於產生圖像的方法的各個步驟之後,能夠基於輸入圖像來產生人工智慧圖像及/或風格轉換圖像。在一些實施例中,處理模組220可以是中央處理單元,其具體可以是本申請所屬技術領域中具有通常知識者所知悉的任何類型的處理器,但不限於此。
在一些實施例中,處理模組220可以是指能夠基於輸入圖像來產生人工智慧圖像的處理模組220A。在另一些實施例中,處理模組220可以是指能夠基於輸入圖像來產生風格轉換圖像的處理模組220B。在另一些實施例中,處理模組220A和處理模組220B的功能與配置可以被整合至相同的處理模組中,使得所述處理模組不僅能夠基於輸入圖像來產生人工智慧圖像,也能夠基於輸入圖像來產生風格轉換圖像。
儲存模組230可以被配置成與處理模組220(包括處理模組220A及/或處理模組220B)訊號連接,並且可以被配置成儲存有程式碼,使得處理模組220在載入並執行所述程式碼之後,能夠執行本申請提供之用於產生圖像的方法的各個步驟。在一些實施例中,儲存模組230基本可以被配置成包括揮發性記憶體(具體可以是至少一揮發性記憶體)和非揮發性記憶體(具體可以是至少一非揮發性記憶體)。在一些實施例中,揮發性記憶體可以是本申請所屬技術領域中具有通常知識者所知悉的任何類型的記憶體,例如,動態隨機存取記憶體或靜態隨機存取記憶體等,但不限於此。在一些實施例中,非揮發性記憶體可以是本申請所屬技術領域中具有通常知識者所知悉的任何類型的記憶體,例如,唯讀記憶體、快閃記憶體或非揮發性隨機存取記憶體等,但不限於此。
圖像輸出模組240可以被配置成與處理模組220(包括處理模組220A及/或處理模組220B)訊號連接,並且可以被配置成將由處理模組220所產生的圖像進行輸出。在一些實施例中,圖像輸出模組240可以將由處理模組220A所產生的人工智慧圖像及/或由處理模組220B所產生的風格轉換圖像輸出至圖像輸出裝置310及/或伺服器320。
在一些實施例中,由處理模組220A所產生的人工智慧圖像及/或由處理模組220B所產生的風格轉換圖像可以被儲存在圖像資料庫250中,處理模組220A及/或處理模組220B在接收到圖像輸出的請求之後,處理模組220A及/或處理模組220B可以分別將儲存在圖像資料庫250中的人工智慧圖像及/或風格轉換圖像輸出至圖像輸出裝置310及/或伺服器320。
圖像資料庫250可以被配置成儲存圖像,所述圖像可以是例如輸入圖像、人工智慧圖像及/或風格轉換圖像,但不限於此。在一些實施例中,儲存在圖像資料庫250中的圖像的檔案格式可以是聯合圖像專家群(JPEG)、可攜網路圖像(PNG)、位元映像格式(BMP)、圖形交換格式(GIF)或帶標影像檔案格式(TIFF)等,但不限於此。
編修資料庫260可以被配置成儲存使用者的歷史編修記錄,所述使用者的歷史編修記錄可以是例如字串編修操作的歷史記錄及/或風格轉換操作的歷史記錄,特別是與輸入圖像相對應的字串編修操作的歷史記錄及/或風格轉換操作的歷史記錄,但不限於此。在一些實施例中,所述使用者的歷史編修記錄也可以包括執行字串編修操作的時間點及/或執行風格轉換操作的時間點。
由於計算機裝置200可以被配置為與圖像輸出裝置310及/或伺服器320訊號連接,其具體可以是在計算機裝置200與圖像輸出裝置310及/或伺服器320之間配置訊號線,使得計算機裝置200適用於經由所述訊號線來向圖像輸出裝置310及/或伺服器320輸出人工智慧圖像。
在一些實施例中,計算機裝置200可以透過實體訊號線連接的方式向圖像輸出裝置310及/或伺服器320輸出人工智慧圖像,其中,所述實體訊號線可以是例如符合網際網路協定的網路訊號線,但不限於此。在另一些實施例中,計算機裝置200也可以不用透過實體訊號線連接的方式向圖像輸出裝置310及/或伺服器320輸出人工智慧圖像,更具體地說,計算機裝置200也可以透過虛擬訊號線連接的方式向圖像輸出裝置310及/或伺服器320輸出人工智慧圖像,其中,所述虛擬訊號線可以是例如符合無線通訊協定的Wi-Fi、4G/5G、藍芽、近距離通訊等,但不限於此。
藉此,透過如圖1所示的計算機裝置200不僅可以基於接收到的輸入圖像來產生人工智慧圖像及/或風格轉換圖像,還可以供使用者在不需要額外自行輸入指令組的情況下,就能夠產生所述人工智慧圖像及/或風格轉換圖像。也就是說,本申請提供之用於產生圖像的計算機裝置可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過所述計算機裝置來產生使用者所期許的圖像檔。
請參考圖2,圖2是說明本申請之一個實施例之處理模組220A的方塊示意圖。處理模組220A的配置可以與圖1所示的處理模組220基本相同,其不同之處在於,處理模組220A可以是專門被配置成基於所述輸入圖像來產生人工智慧圖像,而基於所述輸入圖像來產生風格轉換圖像的功能與配置可以被省略。
處理模組220A基本可以被配置成包括圖像接收單元221A、字串產生單元222A、修圖請求接收單元223A、字串編修單元224A、圖像產生單元225A和圖像輸出單元226A。在一些實施例中,處理模組220A可以進一步包括影像描述模型270。在一些實施例中,處理模組220A可以進一步包括圖像產生模型280。也就是說,影像描述模型270及/或圖像產生模型280可以根據使用者的需求而選擇性地被配置於處理模組220A中。在一些實施例中,影像描述模型270的功能與配置可以被整合進字串產生單元222A中。在一些實施例中,圖像產生模型280的功能與配置可以被整合進圖像產生單元225A中。
圖像接收單元221A可以被配置成適用於透過圖像接收模組210從使用者裝置110及/或伺服器120接收輸入圖像(具體可以是至少一輸入圖像)。在一些實施例中,圖像接收單元221A也可以被配置成從圖像資料庫250接收輸入圖像,也就是說,所述輸入圖像可以透過圖像接收模組210而事先被儲存在圖像資料庫250中,使得圖像接收單元221A也能夠從圖像資料庫250接收輸入圖像。
字串產生單元222A可以被配置成基於輸入圖像來產生關鍵詞字元組,更具體地說,字串產生單元222A可以被配置成基於由圖像接收單元221A所接收到的輸入圖像來產生關鍵詞字元組。在一些實施例中,字串產生單元222A可以將輸入圖像輸入至影像描述模型270,並透過影像描述模型270來自動地產生並輸出關鍵詞字元組。在一些實施例中,影像描述模型270可以是例如CLIP model或DeepBooru,但不限於此。
更詳細地說,所述Clip model是一種深度學習模型,事先透過複數筆資料(每一筆資料包括訓練圖像及其對應的訓練字串)進行訓練,使得已經完成訓練的Clip model在識別所接收到的輸入圖像之後,能夠將所述輸入圖像匹配至相對應的字串;而所述DeepBooru亦是一種深度學習模型,事先透過複數筆資料(每一筆資料包括訓練圖像及其對應的訓練字串)進行訓練,使得已經完成訓練的DeepBooru在識別所接收到的輸入圖像之後,同樣也能夠將所述輸入圖像匹配至相對應的字串(即關鍵詞字元組)。
所述Clip model和所述DeepBooru都能夠基於圖像來產生相對應的字串,二者之間的差異之處在於,所述DeepBooru能夠直接產生與輸入圖像相對應的關鍵詞字元組,而所述Clip model則是產生與輸入圖像相對應的完整字串(之後再基於由所述Clip model所產生的完整字串來產生關鍵詞字元組)。在一些實施例中,所述Clip model可以搭配諸如ChatGPT的大型語言模型而基於由所述Clip model所產生的完整字串來產生關鍵詞字元組,但不限於此。
修圖請求接收單元223A可以被配置成接收由修圖按鍵(如圖6所示的修圖按鍵630)所發送的修圖請求,也就是說,當使用者點選至少一修圖按鍵中的任何一個時,被點選的修圖按鍵將會發送對應的修圖請求,使得修圖請求接收單元223A可以接收與被點選的修圖按鍵相對應的修圖請求。
字串編修單元224A可以被配置成對關鍵詞字元組進行字串編修操作,具體而言,字串編修單元224A可以被配置成對由字串產生單元222A所產生的關鍵詞字元組進行字串編修操作。更具體地說,字串編修單元224A可以被配置成在修圖請求接收單元223A接收到由至少一修圖按鍵中的任何一個所發送的修圖請求之後,對由字串產生單元222A所產生的關鍵詞字元組進行字串編修操作,並產生編修字元組。所述字串編修操作可以包括新增、修改及/或刪除,但不限於此。在一些實施例中,所述字串編修操作可以根據如圖6所示的修圖按鍵630而分別地事先被決定,因此,字串編修單元224A可以根據與如圖6所示的修圖按鍵630相對應的字串編修操作來產生所述編修字元組。
圖像產生單元225A可以被配置成基於編修字元組來產生人工智慧圖像,更具體地說,圖像產生單元225A可以被配置成基於由字串編修單元224A所產生的編修字元組來產生人工智慧圖像。在一些實施例中,圖像產生單元225A可以將編修字元組輸入至圖像產生模型280,並透過圖像產生模型280來自動地產生並輸出人工智慧圖像。在一些實施例中,圖像產生模型280可以是本申請所屬技術領域中具有通常知識者所知悉的任何能夠基於字串來產生圖像的模型,例如Stable Diffusion,但不限於此。
所述Stable Diffusion是一種深度學習模型,事先透過複數筆資料(每一筆資料包括訓練字串及其對應的訓練圖像)進行訓練,使得已經完成訓練的Stable Diffusion在識別所接收到的編修字元組之後,能夠基於所述編修字元組來產生與所述編修字元組相對應的人工智慧圖像。
圖像輸出單元226A可以被配置成將由圖像產生單元225A所產生的人工智慧圖像進行輸出。在一些實施例中,圖像輸出單元226A可以將所述人工智慧圖像以特定的檔案格式儲存在圖像資料庫250中。在一些實施例中,圖像輸出單元226A可以將所述人工智慧圖像以特定的檔案格式並透過圖像輸出模組240輸出至圖像輸出裝置310及/或伺服器320。
藉此,透過如圖2所示的處理模組220A不僅可以基於接收到的輸入圖像來產生人工智慧圖像,還可以供使用者在不需要額外自行輸入指令組的情況下,就能夠產生所述人工智慧圖像。也就是說,本申請提供之用於產生圖像的計算機裝置可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過所述計算機裝置來產生使用者所期許的圖像檔。
請參考圖3,圖3是說明本申請之第一實施例之用於產生圖像的方法的流程圖,更具體地說,圖3所示的方法能夠產生人工智慧圖像,而所述方法包括步驟S310、S320、S330和S340。在一些實施例中,如圖3所示的方法可以使用Visual Studio Code作為開發環境,並且搭配以python為程式語言的pytorch和huggingface diffusers的架構來實現所述方法。在一些實施例中,如圖3所示的方法可以使用torch、diffusers和numpy等開源函式庫。
在步驟S310中,接收輸入圖像(具體可以是至少一輸入圖像)。步驟S310可以透過如圖2所示的處理模組220A的圖像接收單元221A而被執行。在一些實施例中,所述輸入圖像可以是原始的圖像檔(即未經任何影像處理操作的圖像檔),例如透過攝像模組(圖未示)所取得的照片檔,但不限於此。在另一些實施例中,所述輸入圖像也可以是經過影像處理操作(具體可以是至少一影像處理操作)的圖像檔,例如透過諸如photoshop的影像處理模型所取得的圖像檔,但不限於此。在一些實施例中,所述影像處理操作可以包括去背操作、圖像大小調整操作、圖像鏡像翻轉操作或圖像旋轉操作等,但不限於此。
在步驟S320中,基於所述輸入圖像來產生關鍵詞字元組。步驟S320可以透過如圖2所示的處理模組220A的字串產生單元222A而被執行。在一些實施例中,步驟S320可以接續在步驟S310之後被執行。在一些實施例中,在執行完步驟S310之後,可以先對所述輸入圖像執行影像處理操作,再執行步驟S320(即基於經影像處理操作後的輸入圖像來產生關鍵詞字元組)。
在一些實施例中,可以透過預先建立的圖像辨識模型(圖未示)來分析所述輸入圖像,藉以辨識所述輸入圖像中的主要元素及/或其他元素(即非主要元素),進而基於所述輸入圖像中的各個元素來產生關鍵詞字元組。更具體地說,可以使用例如ControlNet-openpose來分析所述輸入圖像的手部姿勢以及四肢動作,並且可以使用例如ControlNet-Canny來分析所述輸入圖像的物件邊緣偵測和邊界描繪,進而根據分析結果來產生關鍵詞字元組。
在步驟S330中,在接收從修圖按鍵(具體可以是至少一修圖按鍵)中的任何一個所發送的修圖請求之後,基於與所述修圖請求相對應的編修指令集對所述關鍵詞字元組進行字串編修操作(具體可以是至少一字串編修操作),並產生編修字元組。步驟S330可以透過如圖2所示的處理模組220A的修圖請求接收單元223A和字串編修單元224A而被執行。在一些實施例中,步驟S330可以接續在步驟S320之後被執行。
在一些實施例中,所述修圖按鍵可以是預先被建立的,供使用者可以透過所述修圖按鍵中的任何一個來對所述輸入圖像進行操作(即對與所述輸入圖像相對應的關鍵詞字元組進行字串編修操作)。在一些實施例中,所述修圖按鍵的數量可以是複數個,藉以提供使用者可以在較佳的使用者體驗下來點選適合的修圖按鍵。在一些實施例中,可以透過編輯與所述修圖按鍵中的每一個相對應的標籤內容,藉以提供使用者可以更直觀地根據所述標籤內容來知悉各個修圖按鍵對所述關鍵詞字元組進行的字串編修操作後所產生的預期結果。
在一個具體的範例中,所述修圖按鍵可以包括第一修圖按鍵(標籤內容顯示為美式風格)、第二修圖按鍵(標籤內容顯示為日式風格)和第三修圖按鍵(標籤內容顯示為吉卜力風格),當使用者點選第三修圖按鍵時,第三修圖按鍵可以發出修圖請求,使得修圖請求接收單元223A在接收到由第三修圖按鍵所發送的修圖請求之後,字串編修單元224A可以基於與所述修圖請求相對應的編修指令集來對關鍵詞字元組進行字串編修操作(即在所述關鍵詞字元組的內容中新增“ghibli”的文字敘述)。
更具體地說,使用者可以透過點選第三修圖按鍵(標籤內容顯示為吉卜力風格)來切換最適合此風格的預訓練模型(base model)以及風格微調層(LORA layer),並經過測試後挑選出最適合的模型以及參數搭配進行組合,藉以產生與第三修圖按鍵相對應的指令集,並透過所述指令集來對關鍵詞字元組進行字串編修操作。
藉此,透過步驟S330可以供使用者在不需要額外自行輸入指令組的情況下,就能夠進行字串編修操作,也就是說,所述步驟可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過直接點選修圖按鍵的方式來對與所述輸入圖像相對應的關鍵詞字元組進行字串編修操作。
在一些實施例中,步驟S330可以被執行不只一次,也就是說,處理模組220A可以執行一次或多次步驟S330。在一些實施例中,處理模組220A執行步驟S330的次數可以取決於使用者點選修圖按鍵的次數。具體而言,在使用者點選修圖按鍵中的任何一個使得處理模組220A執行步驟S330而產生編修字元組之後,使用者可以再點選修圖按鍵中的任何一個使得處理模組220A再次執行步驟S330而產生新的編修字元組(即將先前所產生的編修字元組當作是當下的關鍵詞字元組,進而對當下的關鍵詞字元組進行字串編修操作)。在一些實施例中,處理模組220A在接收到復原的請求之後,處理模組220A可以將當下的編修字元組復原成關鍵詞字元組或舊的編修字元組(舊的編修字元組可以是例如最近一次修改前的編修字元組,即在進行最近一次的字串編修操作之前的編修字元組)。在一些實施例中,當處理模組220A連續地接收到相同的修圖請求時,處理模組220A僅在首次接收到所述修圖請求之後對關鍵詞字元組或當下的編修字元組進行相對應的字串編修操作,即處理模組220A在接收到第二次、第三次、…、第N次所述修圖請求之後不再對當下的編修字元組進行相對應的字串編修操作。
在步驟S340中,基於所述編修字元組來產生人工智慧圖像。步驟S340可以透過如圖2所示的處理模組220A的圖像產生單元225A而被執行。在一些實施例中,步驟S340可以接續在步驟S330之後被執行。
藉此,透過如圖3所示的方法不僅可以基於接收到的輸入圖像來產生人工智慧圖像,還可以供使用者在不需要額外自行輸入指令組的情況下,就能夠產生所述人工智慧圖像。也就是說,本申請提供之用於產生圖像的計算機裝置可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過所述計算機裝置來產生使用者所期許的圖像檔。
請參考圖4A,圖4A是說明本申請之一個範例之基於至少一輸入圖像來產生關鍵詞字元組(即步驟S320)的詳細流程圖。也就是說,圖3所示的步驟S320可以包括步驟S410A、S420A和S430A,並且可以透過執行步驟S410A、S420A和S430A來完成步驟S320,其中,步驟S410A、S420A和S430A可以透過如圖2所示的處理模組220A的字串產生單元222A和影像描述模型270而被執行。
在步驟S410A中,將輸入圖像輸入至影像描述模型270。在一些實施例中,步驟S410A可以接續在步驟S310之後被執行。在一些實施例中,影像描述模型270可以是例如CLIP model或DeepBooru,但不限於此。
在步驟S420A中,透過影像描述模型270來產生關鍵詞字元組。在一些實施例中,步驟S420A可以接續在步驟S410A之後被執行。由於影像描述模型270已經事先透過複數筆資料(每一筆資料包括訓練圖像及其對應的訓練字串)進行訓練,因此已經完成訓練的影像描述模型270在識別所述輸入圖像之後,能夠基於所述輸入圖像而自動地並且更精準地產生與所述輸入圖像相對應的關鍵詞字元組。
在步驟S430A中,透過影像描述模型270來輸出關鍵詞字元組。在一些實施例中,步驟S430A可以接續在步驟S420A之後被執行。也就是說,透過執行步驟S430A,可以供處理模組220A進一步針對由影像描述模型270所產生並輸出的關鍵詞字元組進行後續的處理(即步驟S330)。
在一些實施例中,步驟S420A和步驟S430A可以被整合成一個步驟,即透過影像描述模型270來產生並輸出關鍵詞字元組。
藉此,透過執行如圖4A所示的各個步驟,能夠基於所述輸入圖像而自動地並且更精準地產生與所述輸入圖像相對應的關鍵詞字元組。
請參考圖4B,圖4B是說明本申請之一個範例之基於編修字元組來產生人工智慧圖像(即步驟S340)的詳細流程圖。也就是說,圖3所示的步驟S340可以包括步驟S410B、S420B和S430B,並且可以透過執行步驟S410B、S420B和S430B來完成步驟S340,其中,步驟S410B、S420B和S430B可以透過如圖2所示的處理模組220A的圖像產生單元225A和圖像產生模型280而被執行。
在步驟S410B中,將編修字元組輸入至圖像產生模型280。在一些實施例中,步驟S410B可以接續在步驟S330之後被執行。在一些實施例中,圖像產生模型280可以是本申請所屬技術領域中具有通常知識者所知悉的任何能夠基於字串來產生圖像的模型,例如Stable Diffusion,但不限於此。
在步驟S420B中,透過圖像產生模型280來產生人工智慧圖像。在一些實施例中,步驟S420B可以接續在步驟S410B之後被執行。由於圖像產生模型280已經事先透過複數筆資料(每一筆資料包括訓練字串及其對應的訓練圖像)進行訓練,因此已經完成訓練的圖像產生模型280在識別所接收到的編修字元組之後,能夠基於所述編修字元組來產生與所述編修字元組相對應的人工智慧圖像。
在步驟S430B中,透過圖像產生模型280來輸出人工智慧圖像。在一些實施例中,步驟S430B可以接續在步驟S420B之後被執行。也就是說,透過執行步驟S430B,可以供計算機裝置200進一步針對由圖像產生模型280所產生並輸出的人工智慧圖像進行後續的處理(例如,將所述人工智慧圖像顯示在使用者的畫面上或將所述人工智慧圖像輸出至圖像輸出裝置,但不限於此)。
在一些實施例中,步驟S420B和步驟S430B可以被整合成一個步驟,即透過圖像產生模型280來產生並輸出人工智慧圖像。
藉此,透過執行如圖4B所示的各個步驟,能夠基於所述編修字元組而自動地並且更精準地產生與所述編修字元組相對應的人工智慧圖像。
請參考圖5,圖5是說明本申請之一個範例之在執行各個步驟之後所產生的結果的示意圖。更具體地說,圖5是說明處理模組220A透過執行如圖3所示的步驟S310、S320、S330和S340可以基於輸入圖像510來產生人工智慧圖像540,其中,各個步驟的詳細說明如下文所述。
首先,處理模組220A透過執行步驟S310可以經由圖像接收模組210從使用者裝置110及/或伺服器120接收輸入圖像510。其次,處理模組220A透過執行步驟S320可以基於接收到的輸入圖像510來產生關鍵詞字元組520。再者,處理模組220A透過執行步驟S330可以在接收到從如圖6所示的修圖按鍵630中的任何一個所發送的修圖請求之後,基於與所述修圖請求相對應的編修指令集對關鍵詞字元組520進行字串編修操作(即在關鍵詞字元組520的內容中新增“beagle dog”的文字敘述),並產生編修字元組530。最後,處理模組220A透過執行步驟S340可以基於編修字元組530來產生人工智慧圖像540。
請參考圖6,圖6是說明本申請之一個實施例之在使用者裝置上的顯示畫面600的示意圖。使用者裝置上的顯示畫面600基本可以包括第一顯示區塊610和修圖按鍵630(具體可以是至少一修圖按鍵630)。在一些實施例中,使用者裝置上的顯示畫面600可以進一步包括第二顯示區塊620。應注意的是,圖6所示的各個元件的配置關係(例如,相對大小及/或相對位置)可以根據使用者的需求而進行調整,也就是說,圖6所示的配置關係僅是示意性說明的一個範例。
修圖按鍵630供使用者可以透過點選修圖按鍵630中的任何一個來對輸入圖像510進行操作(即對與輸入圖像510相對應的關鍵詞字元組520進行字串編修操作)。在一些實施例中,修圖按鍵630可以是預先被建立的。在另一些實施例中,修圖按鍵630可以是根據關鍵詞字元組520的內容及使用者的歷史編修記錄中的至少一者而自動地被建立(如圖7所示的步驟S710)。在一些實施例中,修圖按鍵630的數量可以是複數個,藉以提供使用者可以在較佳的使用者體驗下來點選適合的修圖按鍵630。在一些實施例中,可以透過編輯至少一個修圖按鍵630相對應的標籤內容,藉以提供使用者可以更直觀地根據所述標籤內容來知悉各個修圖按鍵630對關鍵詞字元組520進行的字串編修操作後所產生的預期結果。
在一些實施例中,第一顯示區塊610可以被配置成顯示人工智慧圖像540。更具體地說,使用者在點選修圖按鍵630中的任何一個之後,使用者可以透過第一顯示區塊610來知悉所產生的人工智慧圖像540。藉此,透過第一顯示區塊610的顯示內容,使用者可以評估當下的人工智慧圖像540是否符合使用者的預期,並決定是否需要透過修圖按鍵630來重新產生新的人工智慧圖像540。
在一些實施例中,第二顯示區塊620可以被配置成顯示關鍵詞字元組520和編修字元組530中的至少一者,也就是說,第二顯示區塊620可以先顯示關鍵詞字元組520,並且在進行字串編修操作之後,第二顯示區塊620可以顯示編修字元組530。在一些實施例中,第二顯示區塊620可以被省略,也就是說,使用者裝置上的顯示畫面600可以僅顯示第一顯示區塊610和修圖按鍵630,而沒有顯示第二顯示區塊620,藉此,可以提供使用者較佳的使用者體驗。
請參考圖7,圖7是說明本申請之第二實施例之用於產生圖像的方法的流程圖,更具體地說,圖7所示的方法能夠產生人工智慧圖像,而所述方法包括步驟S310、S320、S330、S340和S710。步驟S310、S320、S330和S340與圖3所示的步驟基本相同,也就是說,圖7所示的方法可以包括與圖3基本相同的步驟S310、S320、S330和S340,並進一步包括步驟S710。
在步驟S710中,根據關鍵詞字元組的內容及使用者的歷史編修記錄中的至少一者來自動地產生修圖按鍵(具體可以是至少一修圖按鍵)。步驟S710可以透過處理模組220A的按鍵產生單元(圖未示)而被執行。在一些實施例中,步驟S710可以接續在步驟S320之後被執行。在一些實施例中,可以透過文本分析模型而根據關鍵詞字元組的內容來自動地產生修圖按鍵。在一些實施例中,所述文本分析模型可以是例如BERTScore,但不限於此。
所述BERTScore是一種能夠自動地評估兩個文本之間的語意相近程度的文本分析模型,因此可以透過所述BERTScore對關鍵詞字元組和其他的字元組計算其各自的分數,並且透過所述BERTScore提供與當下的關鍵詞字元組最接近的編修字元組,進而自動地產生能夠基於所述關鍵詞字元組來產生所述編修字元組的修圖按鍵。
在一個具體的範例中,當關鍵詞字元組的內容為“cat, rating:safe, animal, no_humans, simple_background, realistic, animal_focus, looking_at_viewer, pubic_hair, black_background”時,由於透過所述BERTScore可以計算出吉卜力風格的分數為0.7、畢卡索風格的分數為0.2和油畫風格的分數為0.1,因此透過所述BERTScore可以自動地產生第四修圖按鍵(標籤內容顯示為吉卜力風格)、第五修圖按鍵(標籤內容顯示為畢卡索風格)和第六修圖按鍵(標籤內容顯示為油畫風格)。
在一些實施例中,可以根據儲存在編修資料庫260中的使用者的歷史編修記錄來自動地產生修圖按鍵。舉例來說,可以根據使用者的歷史編修記錄來計算使用者較常使用的字串編修操作,進而根據使用者較常使用的字串編修操作來產生修圖按鍵。
藉此,透過如圖7所示的步驟S710可以進一步根據使用者的使用情形而自動地產生適合使用者的修圖按鍵,供使用者可以更有效地點選適合的修圖按鍵來對與輸入圖像相對應的關鍵詞字元組進行字串編修操作,並產生人工智慧圖像。
在一些實施例中,步驟S710也可以進一步根據編修字元組的內容來自動地產生修圖按鍵。也就是說,在執行完步驟S330之後,可以再次執行步驟S710,藉以透過步驟S710而根據編修字元組的內容及使用者的歷史編修記錄中的至少一者來自動地產生修圖按鍵。
請參考圖8,圖8是說明本申請之另一個範例之在執行各個步驟之後所產生的結果的示意圖。更具體地說,圖8是說明處理模組220A透過執行如圖3所示的步驟S310、S320、S330和S340可以基於輸入圖像510來產生人工智慧圖像840,詳細說明如下文所述。
由於使用者可以分別點選各個修圖按鍵使得處理模組220A可以分別執行相對應的字串編修操作,因此,在一些實施例中,各個修圖按鍵可以具有各自的堆疊屬性值,使得處理模組220A在執行步驟S330時可以基於分別與修圖按鍵中的每一個相對應的堆疊屬性值來決定是否將字串編修操作進行堆疊。也就是說,所述堆疊屬性值可以被配置成決定各個字串編修操作彼此之間是否可以互相堆疊。由於處理模組220A可以基於堆疊屬性值來決定各個字串編修操作彼此之間是否可以互相堆疊,因此處理模組220A能夠將可堆疊的字串編修操作進行堆疊,藉以供使用者能夠產生更多樣化的人工智慧圖像。同時,不可堆疊的字串編修操作可以避免使用者點選相反效果的修圖按鍵,而產生超出使用者所預期的人工智慧圖像。
請同時參考圖5和圖8,處理模組220A透過執行步驟S330可以在接收到從如圖6所示的修圖按鍵630中的任何一個所發送的修圖請求之後,基於與所述修圖請求相對應的編修指令集對關鍵詞字元組520進行字串編修操作(即在關鍵詞字元組520的內容中新增“beagle dog”的文字敘述),並產生如圖5所示的編修字元組530。若使用者再點選修圖按鍵630中的任何一個堆疊屬性值被設定為可堆疊的修圖按鍵630,則處理模組220A透過再次執行步驟S330可以在接收到堆疊屬性值被設定為可堆疊的修圖按鍵630所發送的修圖請求之後,基於與所述修圖請求相對應的編修指令集對如圖5所示的編修字元組530進行字串編修操作(即在如圖5所示的編修字元組530的內容中新增“ghibli”的文字敘述),並產生如圖8所示的編修字元組830。也就是說,圖8所示的編修字元組830是因應使用者點選兩個堆疊屬性值被設定為可堆疊的修圖按鍵之後所產生的。最後,處理模組220A透過執行步驟S340可以基於編修字元組830來產生人工智慧圖像840,藉此能夠產生更多樣化的人工智慧圖像。
在一些實施例中,各個堆疊屬性值可以分別被設定為可堆疊的或不可堆疊的,藉此可以更簡便地判斷各個字串編修操作彼此之間是否可以互相堆疊。在另一些實施例中,彼此可以互相堆疊的堆疊屬性值可以被設定為相同的群組代碼,藉以透過群組代碼的分類方式來決定各個字串編修操作彼此之間是否可以互相堆疊(例如,相同的群組代碼表示各個字串編修操作彼此之間是可堆疊的,而不同的群組代碼表示各個字串編修操作彼此之間是不可堆疊的),藉此可以更縝密地判斷各個字串編修操作彼此之間是否可以互相堆疊。
在一些實施例中,堆疊屬性值可以根據使用者的偏好設定及預設值中的至少一者而被設定。在一個具體的範例中,堆疊屬性值可以先根據預設值而被設定,例如,第七修圖按鍵(標籤內容顯示為吉卜力風格)和第八修圖按鍵(標籤內容顯示為美式風格)被設定為可堆疊的,而第九修圖按鍵(標籤內容顯示為日式風格)和第十修圖按鍵(標籤內容顯示為寫實風格)被設定為不可堆疊的,之後可以再根據使用者的偏好設定來調整各個修圖按鍵的堆疊屬性值,例如,將第九修圖按鍵(標籤內容顯示為日式風格)調整設定為可堆疊的。
請參考圖9,圖9是說明本申請之又一個範例之在執行各個步驟之後所產生的結果的示意圖。更具體地說,圖9是說明處理模組220A透過執行如圖3所示的步驟S310、S320、S330和S340可以基於輸入圖像510來產生人工智慧圖像940,詳細說明如下文所述。
在一些實施例中,各個修圖按鍵可以具有各自的編修權重值,使得處理模組220A在執行步驟S330時可以基於分別與修圖按鍵中的每一個相對應的編修權重值來決定字串編修操作對關鍵詞字元組的編修程度。在一些實施例中,編修權重值可以被設定為介於0至1之間的值,並且可以採用中間值(例如,0.5)作為基準點。舉例來說,當編修權重值被設定為0.5時,表示字串編修操作對關鍵詞字元組的編修程度為基本設定;當編修權重值被設定為大於0.5時,表示字串編修操作對關鍵詞字元組的編修程度為加強設定(即編修程度高於基本設定);而當編修權重值被設定為小於0.5時,表示字串編修操作對關鍵詞字元組的編修程度為減弱設定(即編修程度低於基本設定)。
在一個具體的範例中,第十一修圖按鍵(標籤內容顯示為吉卜力風格)的編修權重值可以被設定為大於0.5的值(例如,0.7),而第十二修圖按鍵(標籤內容顯示為比格犬)的編修權重值可以被設定為0.5的值。當使用者點選第十一修圖按鍵時,處理模組220A在執行步驟S330時可以以高於基本設定的編修程度來對關鍵詞字元組進行字串編修操作,藉以使第十一修圖按鍵的編修程度更為顯著。
請同時參考圖8和圖9,圖8所示的編修字元組830是關鍵詞字元組520可以因應使用者點選兩個堆疊屬性值被設定為可堆疊的修圖按鍵(例如,先前所述的第十一修圖按鍵和第十二修圖按鍵)而被產生;而圖9所示的編修字元組930是關鍵詞字元組520可以進一步因應第十一修圖按鍵的編修權重值和第十二修圖按鍵的編修權重值而被產生。更具體地說,由於第十一修圖按鍵(標籤內容顯示為吉卜力風格)的編修權重值可以被設定為大於0.5的值(例如,0.7),因此如圖9所示的編修字元組930的內容為“ghibli++”。最後,處理模組220A透過執行步驟S340可以基於編修字元組930來產生人工智慧圖像940,藉此能夠產生更多樣化的人工智慧圖像。
在一些實施例中,編修權重值可以是根據關鍵詞字元組的內容、使用者的歷史編修記錄及預設值中的至少一者而被設定。在一個具體的範例中,編修權重值可以根據預設值而被設定,例如,第十一修圖按鍵(標籤內容顯示為吉卜力風格)的編修權重值可以被設定為大於0.5的值(例如,0.7),而第十二修圖按鍵(標籤內容顯示為比格犬)的編修權重值可以被設定為0.5的值。在一個具體的範例中,編修權重值可以根據使用者的歷史編修記錄而被設定,例如,將使用者較常使用的修圖按鍵所對應的編修權重值設定為大於0.5的值。在一個具體的範例中,編修權重值可以根據關鍵詞字元組的內容而自動地被設定,例如,可以透過如先前所述的BERTScore來設定各個編修權重值。
請參考圖10,圖10是說明本申請之第三實施例之用於產生圖像的方法的流程圖,更具體地說,圖10所示的方法能夠產生人工智慧圖像,而所述方法包括步驟S310、S320、S330、S340、S1010和S1020。步驟S310、S320、S330和S340與圖3所示的步驟基本相同,也就是說,圖10所示的方法可以包括與圖3基本相同的步驟S310、S320、S330和S340,並進一步包括步驟S1010和S1020。
在步驟S1010中,接收與物件的實體大小相對應的物件資訊。步驟S1010可以透過處理模組220A的物件資訊接收單元(圖未示)而被執行。所述物件資訊可以包括諸如長、寬和高的物件尺寸。更具體地說,當物件的實體大小的長和寬分別為第一尺寸和第二尺寸時,所述物件資訊接收單元可以接收第一尺寸和第二尺寸的物件資訊。在一個具體的範例中,當物件(例如,手機殼)的實體大小為151×75mm時,所述物件資訊接收單元可以接收151×75mm的物件資訊。
在步驟S1020中,基於所述物件資訊來決定人工智慧圖像的尺寸。步驟S1020可以透過處理模組220A的尺寸決定單元(圖未示)而被執行。在一些實施例中,步驟S1020可以接續在步驟S1010之後被執行。所述人工智慧圖像的尺寸可以包括諸如長和寬的尺寸。更具體地說,當透過執行步驟S1010所接收到的物件資訊分別為第一尺寸和第二尺寸時,處理模組220A可以透過執行步驟S1020來決定人工智慧圖像的尺寸分別為第一尺寸和第二尺寸。在一些實施例中,所述人工智慧圖像的尺寸可以是以像素(pixel)為單位。在一個具體的範例中,當所接收到的物件資訊為151×75mm時,處理模組220A可以透過執行步驟S1020來決定人工智慧圖像的尺寸為2000 pixels × 2000 pixels。也就是說,人工智慧圖像的圖像輪廓外框可以被設定為2000 pixels × 2000 pixels。
在一些實施例中,如圖6所示的第一顯示區塊610的大小比例可以取決於物件的實體大小。更具體地說,處理模組220A在執行完步驟S1010和步驟S1020後,可以自動地將第一顯示區塊610的大小比例進行調整。
藉此,透過如圖10所示的步驟S1010和S1020可以進一步根據物件的實體大小來設定人工智慧圖像的尺寸,供使用者可以直接地產生與物件的實體大小基本相同的人工智慧圖像,藉以直觀地評估所產生的人工智慧圖像是否符合使用者的預期(包括人工智慧圖像中的各個元素的大小、位置和占比等)。
請參考圖11,圖11是說明本申請之另一個範例之基於至少一輸入圖像來產生關鍵詞字元組(即步驟S320)的詳細流程圖。也就是說,圖3所示的步驟S320可以包括步驟S1110、S1120、S1130、S1140和S1150,並且可以透過執行步驟S1110、S1120、S1130、S1140和S1150來完成步驟S320,其中,步驟S1110、S1120、S1130、S1140和S1150可以透過如圖2所示的處理模組220A而被執行。
在步驟S1110中,接收裝飾圖像(具體可以是至少一裝飾圖像)。步驟S1110可以透過如圖2所示的處理模組220A的圖像接收單元221A而被執行。在一些實施例中,步驟S1110可以接續在步驟S310之後被執行。在一些實施例中,步驟S1110和步驟S310可以同時地被執行。在一些實施例中,步驟S1110可以類似於圖3所示的步驟S310,而步驟S1110與圖3所示的步驟S310的差異之處在於,透過執行步驟S1110所接收到的是裝飾圖像。在一些實施例中,所述裝飾圖像可以是指包括單一個物件並且已經去背完成的圖像,例如,籃球、麥克風、娃娃、項鍊、帽子或太陽眼鏡等。
在步驟S1120中,將輸入圖像和裝飾圖像進行構圖操作(具體可以是至少一構圖操作),並產生編排圖像。步驟S1120可以透過處理模組220A的圖像編排單元(圖未示)而被執行。在一些實施例中,步驟S1120可以接續在步驟S1110之後被執行。所述構圖操作包括調整輸入圖像及/或裝飾圖像的大小及/或位置,但不限於此。在一些實施例中,使用者可以以手動操作的方式來透過處理模組220A對輸入圖像和裝飾圖像進行構圖操作,在一個具體的例子中,使用者可以操作智慧型手機並以手指點選輸入圖像和裝飾圖像以進行移動、翻轉、縮放等構圖操作,在另一個具體的例子中,使用者也可以操作個人電腦並使用滑鼠來對輸入圖像和裝飾圖像進行構圖操作,藉此可以供使用者能夠產生更符合使用者預期的編排圖像。在另一些實施例中,處理模組220A可以自動地對輸入圖像和裝飾圖像進行構圖操作,藉此可以更快速地產生編排圖像,並提供使用者一種可能的編排圖像。更具體地說,處理模組220A可以先分析與所述輸入圖像相對應的字串內容和與所述裝飾圖像相對應的字串內容,再對所述字串內容的內容進行調整以自動地產生新的字串內容,並基於所述新的字串內容來產生與所述新的字串內容相對應的圖像(即編排圖像)。
在步驟S1130中,將編排圖像輸入至影像描述模型270。步驟S1130可以透過如圖2所示的處理模組220A的字串產生單元222A和影像描述模型270而被執行。在一些實施例中,步驟S1130可以接續在步驟S1120之後被執行。在一些實施例中,步驟S1130可以類似於圖4A所示的步驟S410A,而步驟S1130與圖4A所示的步驟S410A的差異之處在於,透過執行步驟S1130是將所產生的編排圖像進行輸入。
在步驟S1140中,透過影像描述模型270來產生關鍵詞字元組。步驟S1140可以透過如圖2所示的處理模組220A的字串產生單元222A和影像描述模型270而被執行。在一些實施例中,步驟S1140可以接續在步驟S1130之後被執行。在一些實施例中,步驟S1140可以與圖4A所示的步驟S420A基本相同。
在步驟S1150中,透過影像描述模型270來輸出關鍵詞字元組。步驟S1150可以透過如圖2所示的處理模組220A的字串產生單元222A和影像描述模型270而被執行。在一些實施例中,步驟S1150可以接續在步驟S1140之後被執行。在一些實施例中,步驟S1150可以與圖4A所示的步驟S430A基本相同。
在一些實施例中,步驟S1140和步驟S1150可以被整合成一個步驟,即透過影像描述模型270來產生並輸出關鍵詞字元組。
藉此,透過執行如圖11所示的各個步驟,使用者在不需要額外自行輸入指令組的情況下,就能夠產生更多樣化的人工智慧圖像。
請參考圖12,圖12是說明本申請之第四實施例之用於產生圖像的方法的流程圖,更具體地說,圖12所示的方法能夠產生人工智慧圖像,而所述方法包括步驟S310、S320、S330、S340和S1210。步驟S310、S320、S330和S340與圖3所示的步驟基本相同,也就是說,圖12所示的方法可以包括與圖3基本相同的步驟S310、S320、S330和S340,並進一步包括步驟S1210。
在步驟S1210中,將人工智慧圖像傳輸至圖像輸出裝置,並透過圖像輸出裝置來將人工智慧圖像進行實體輸出。步驟S1210可以透過如圖2所示的處理模組220A的圖像輸出單元226A而被執行。在一些實施例中,步驟S1210可以接續在步驟S340之後被執行。更具體地說,處理模組220A在執行步驟S1210時,可以經由圖像輸出模組240而將人工智慧圖像輸出至圖像輸出裝置310,使得圖像輸出裝置310能夠將所述人工智慧圖像印製在實體的物件上。
藉此,透過如圖12所示的步驟S1210可以進一步將由處理模組220A所產生的人工智慧圖像輸出並印製在實體的物件上,使得所述人工智慧圖像可以更廣泛地被應用在諸如成衣印刷、汽車烤漆印刷、手機殼印刷或貼紙等的各種實體印製需求的領域。
請參考圖13,圖13是說明本申請之另一個實施例之處理模組220B的方塊示意圖。處理模組220B的配置可以與圖1所示的處理模組220基本相同,其不同之處在於,處理模組220B可以是專門被配置成基於所述輸入圖像來產生風格轉換圖像,而基於所述輸入圖像來產生人工智慧圖像的功能與配置可以被省略。
處理模組220B基本可以被配置成包括圖像接收單元221B、風格轉換請求接收單元223B、風格轉換單元224B和圖像輸出單元226B。在一些實施例中,處理模組220B可以進一步包括風格轉換模型290,即風格轉換模型290可以根據使用者的需求而選擇性地被配置於處理模組220B中。在一些實施例中,風格轉換模型290的功能與配置可以被整合進風格轉換單元224B中。
圖像接收單元221B可以被配置成適用於接收輸入圖像(具體可以是至少一輸入圖像)。在一些實施例中,圖像接收單元221B的功能與配置可以與圖2所示的圖像接收單元221A基本相同。
風格轉換請求接收單元223B可以被配置成接收由風格轉換按鍵(如圖16所示的風格轉換按鍵1630)所發送的風格轉換請求,也就是說,當使用者點選至少一風格轉換按鍵中的任何一個時,被點選的風格轉換按鍵將會發送對應的風格轉換請求,使得風格轉換請求接收單元223B可以接收與被點選的風格轉換按鍵相對應的風格轉換請求。
風格轉換單元224B可以被配置成將輸入圖像輸入至風格轉換模型290,並透過風格轉換模型290來產生和輸出風格轉換圖像。在一些實施例中,風格轉換模型290可以是例如AdaAttN(Adaptive Attention Normalization),但不限於此。所述AdaAttN可以從學習圖像學習淺層和深層的特徵,並計算各個點的加權統計量以及正規化,使得分析結果能夠表現出相同的局部特徵統計量。此外,所述AdaAttN導出新的局部特徵損失,藉以增強局部視覺質量。藉此,所述AdaAttN能夠將學習圖像進行一系列的計算與分析,並基於從學習圖像所學習到的特徵將輸入圖像轉換成具有所述特徵的風格轉換圖像。
在一些實施例中,風格轉換模型290可以基於學習圖像(具體可以是至少一學習圖像)的風格學習結果來對輸入圖像執行風格轉換操作,並產生風格轉換圖像。更具體地說,透過事先將所述學習圖像輸入至風格轉換模型290,使得風格轉換模型290能夠仿效所述學習圖像的特徵,藉此風格轉換模型290能夠基於所述學習圖像的特徵將所述輸入圖像轉換成具有所述學習圖像的特徵的風格轉換圖像。
在一些實施例中,學習圖像可以是如上所述的用於產生圖像的方法中的任何一種方法所產生的人工智慧圖像。藉此,風格轉換模型290可以效仿所述人工智慧圖像的特徵,使得風格轉換模型290能夠基於所述人工智慧圖像的特徵將所述輸入圖像轉換成具有所述人工智慧圖像的特徵的風格轉換圖像。
圖像輸出單元226B可以被配置成將由風格轉換單元224B所產生的風格轉換圖像進行輸出。在一些實施例中,圖像輸出單元226B可以將所述風格轉換圖像以特定的檔案格式儲存在圖像資料庫250中。在一些實施例中,圖像輸出單元226B可以將所述風格轉換圖像以特定的檔案格式並透過圖像輸出模組240輸出至圖像輸出裝置310及/或伺服器320。
藉此,透過如圖13所示的處理模組220B不僅可以基於接收到的輸入圖像來產生風格轉換圖像,還可以供使用者在不需要額外自行輸入指令組的情況下,就能夠產生所述風格轉換圖像。也就是說,本申請提供之用於產生圖像的計算機裝置可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過所述計算機裝置來產生使用者所期許的圖像檔。
請參考圖14,圖14是說明本申請之第五實施例之用於產生圖像的方法的流程圖,更具體地說,圖14所示的方法能夠產生風格轉換圖像,而所述方法包括步驟S1410、S1420、S1430和S1440。在一些實施例中,如圖14所示的方法可以使用Visual Studio Code作為開發環境,並且搭配以python為程式語言的pytorch的架構來實現所述方法。在一些實施例中,如圖14所示的方法可以使用torch、itertools和numpy等開源函式庫。
在步驟S1410中,接收輸入圖像(具體可以是至少一輸入圖像)。步驟S1410可以透過如圖13所示的處理模組220B的圖像接收單元221B而被執行。在一些實施例中,步驟S1410可以與圖3所示的步驟S310基本相同。
在步驟S1420中,在接收從風格轉換按鍵(具體可以是至少一風格轉換按鍵)中的任何一個所發送的風格轉換請求之後,基於所述風格轉換請求來將所述輸入圖像輸入至風格轉換模型290。步驟S1420可以透過如圖13所示的處理模組220B的風格轉換請求接收單元223B和風格轉換模型290而被執行。在一些實施例中,步驟S1420可以接續在步驟S1410之後被執行。
在一些實施例中,所述風格轉換按鍵可以是預先被建立的,供使用者可以透過所述風格轉換按鍵中的任何一個來對所述輸入圖像進行風格轉換操作。在一個具體的範例中,所述風格轉換按鍵可以包括第一風格轉換按鍵(標籤內容顯示為水墨畫風格)、第二風格轉換按鍵(標籤內容顯示為抽象派風格)和第三風格轉換按鍵(標籤內容顯示為素描畫風格),當使用者點選第三風格轉換按鍵時,第三風格轉換按鍵可以發出風格轉換請求,使得風格轉換請求接收單元223B在接收到由第三風格轉換按鍵所發送的風格轉換請求之後,處理模組220B可以將輸入圖像輸入至風格轉換模型290。在一些實施例中,風格轉換模型290可以是例如AdaAttN(Adaptive Attention Normalization),但不限於此。
在步驟S1430中,透過風格轉換模型290來產生風格轉換圖像。步驟S1430可以透過如圖13所示的處理模組220B的風格轉換模型290而被執行。在一些實施例中,步驟S1430可以接續在步驟S1420之後被執行。風格轉換模型290可以基於從學習圖像所學習到的特徵將輸入圖像轉換成具有所述特徵的風格轉換圖像,藉以產生風格轉換圖像。
在步驟S1440中,透過風格轉換模型290來輸出風格轉換圖像。步驟S1440可以透過如圖13所示的處理模組220B的風格轉換模型290而被執行。在一些實施例中,步驟S1440可以接續在步驟S1430之後被執行。也就是說,透過執行步驟S1440,可以供處理模組220B進一步針對由風格轉換模型290所產生並輸出的風格轉換圖像進行後續的處理(例如,圖17所示的步驟S1710)。
藉此,透過如圖14所示的方法不僅可以基於接收到的輸入圖像來產生風格轉換圖像,還可以供使用者在不需要額外自行輸入指令組的情況下,就能夠產生所述風格轉換圖像。也就是說,本申請提供之用於產生圖像的計算機裝置可以降低使用者的操作門檻及/或操作難度,進而使不熟悉指令組的使用者也能夠透過所述計算機裝置來產生使用者所期許的圖像檔。
請參考圖15,圖15的來源為:Liu, S., Lin, T., He, D., Li, F., Wang, M., Li, X., ... & Ding, E. (2021). Adaattn: Revisit attention mechanism in arbitrary neural style transfer. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 6649-6658).,圖15是說明本申請之將至少一輸入圖像分別轉換成不同的風格轉換圖像的結果的示意圖。
所述輸入圖像可以是指如圖15所示的輸入圖像1501X至輸入圖像1508X中的任何一個,但不限於此。所述學習圖像可以是指如圖15所示的學習圖像1501Y至學習圖像1506Y的任何一個,但不限於此。在一個具體的範例中,當所接收到的輸入圖像為輸入圖像1508X且使用者點選第四風格轉換按鍵(標籤內容顯示為素描畫風格)時,風格轉換模型290可以基於從學習圖像1506Y所學習到的特徵將輸入圖像1508X轉換成具有所述特徵的風格轉換圖像15086Z。
類似地,當所接收到的輸入圖像為其他的輸入圖像時,風格轉換模型290同樣可以根據使用者點選的風格轉換按鍵,使風格轉換模型290可以基於從與所述風格轉換按鍵相對應的學習圖像所學習到的特徵將所述輸入圖像轉換成具有所述特徵的風格轉換圖像。舉例來說,風格轉換模型290可以分別基於從學習圖像1501Y至學習圖像1505Y所學習到的特徵將輸入圖像1508X轉換成具有所述特徵的風格轉換圖像15081Z至風格轉換圖像15085Z。類似地,其他輸入圖像1501X至輸入圖像1507X同樣也能轉換成其對應的風格轉換圖像。
請參考圖16,圖16是說明本申請之另一個實施例之在使用者裝置上的顯示畫面1600的示意圖。使用者裝置上的顯示畫面1600基本可以包括第一顯示區塊1610和風格轉換按鍵1630(具體可以是至少一風格轉換按鍵1630)。應注意的是,圖16所示的各個元件的配置關係(例如,相對大小及/或相對位置)可以根據使用者的需求而進行調整,也就是說,圖16所示的配置關係僅是示意性說明的一個範例。
風格轉換按鍵1630供使用者可以透過點選風格轉換按鍵1630中的任何一個來對輸入圖像進行風格轉換操作。在一些實施例中,風格轉換按鍵1630可以是預先被建立的。在另一些實施例中,風格轉換按鍵1630可以是根據與所述輸入圖像相對應的字元組的內容及使用者的歷史編修記錄中的至少一者而自動地被建立。在一些實施例中,風格轉換按鍵1630的數量可以是複數個,藉以提供使用者可以在較佳的使用者體驗下來點選適合的風格轉換按鍵1630。在一些實施例中,可以透過編輯與風格轉換按鍵1630中的每一個相對應的標籤內容,藉以提供使用者可以更直觀地根據所述標籤內容來知悉各個風格轉換按鍵1630對所述輸入圖像進行的風格轉換操作後所產生的預期結果。
在一些實施例中,第一顯示區塊1610可以被配置成顯示風格轉換圖像。更具體地說,使用者在點選風格轉換按鍵1630中的任何一個之後,使用者可以透過第一顯示區塊1610來知悉所產生的風格轉換圖像。藉此,透過第一顯示區塊1610的顯示內容,使用者可以評估當下的風格轉換圖像是否符合使用者的預期,並決定是否需要透過風格轉換按鍵1630來重新產生新的風格轉換圖像。
請參考圖17,圖17是說明本申請之第六實施例之用於產生圖像的方法的流程圖,更具體地說,圖17所示的方法能夠產生風格轉換圖像,而所述方法包括步驟S1410、S1420、S1430、S1440和S1710。步驟S1410、S1420、S1430和S1440與圖14所示的步驟基本相同,也就是說,圖17所示的方法可以包括與圖14基本相同的步驟S1410、S1420、S1430和S1440,並進一步包括步驟S1710。
在步驟S1710中,將風格轉換圖像傳輸至圖像輸出裝置,並透過圖像輸出裝置來將風格轉換圖像進行實體輸出。在一些實施例中,步驟S1710可以接續在步驟S1440之後被執行。在一些實施例中,步驟S1710可以類似於圖12所示的步驟S1210,而步驟S1710與圖12所示的步驟S1210之間的差異之處在於,透過執行步驟S1710是將所產生的風格轉換圖像進行輸出。
藉此,透過如圖17所示的步驟S1710可以進一步將由處理模組220B所產生的風格轉換圖像輸出並印製在實體的物件上,使得所述風格轉換圖像可以更廣泛地被應用在諸如成衣印刷、汽車烤漆印刷、手機殼印刷或貼紙等的各種實體印製需求的領域。
在一些實施例中,如上所述的用於產生圖像的方法的各個步驟可以被儲存在電腦可讀取記錄媒體中,所述電腦可讀取記錄媒體可以是例如硬碟、光碟、磁碟、隨身碟或可由網路存取的資料庫,但不限於此。所述電腦可讀取記錄媒體透過計算機裝置載入內存的程式碼並執行所述程式碼後,能夠實現如上所述的用於產生圖像的方法中的任何一種方法。
在一些實施例中,用於產生圖像的電腦程式產品可以包括如上所述的用於產生圖像的方法的各個步驟,使得計算機裝置在載入所述電腦程式產品並執行所述電腦程式產品後,能夠實現如上所述的用於產生圖像的方法中的任何一種方法。
本申請已經透過上述的實施例和所附之圖式作進一步的說明,但本申請所屬技術領域中具有通常知識者仍可以在不違背本申請之申請專利範圍中所提出的範圍與精神下做出許多的修改與變化。因此,本申請的保護範圍仍應以申請專利範圍所界定者為準,不應被說明書所揭示的內容而限制。
110:使用者裝置
120:伺服器
200:計算機裝置
210:圖像接收模組
220、220A、220B:處理模組
221A、221B:圖像接收單元
222A:字串產生單元
223A:修圖請求接收單元
223B:風格轉換請求接收單元
224A:字串編修單元
224B:風格轉換單元
225A:圖像產生單元
226A、226B:圖像輸出單元
230:儲存模組
240:圖像輸出模組
250:圖像資料庫
260:編修資料庫
270:影像描述模型
280:圖像產生模型
290:風格轉換模型
310:圖像輸出裝置
320:伺服器
510:輸入圖像
520:關鍵詞字元組
530:編修字元組
540:人工智慧圖像
600:顯示畫面
610:第一顯示區塊
620:第二顯示區塊
630:修圖按鍵
830:編修字元組
840:人工智慧圖像
930:編修字元組
940:人工智慧圖像
1501X~1508X:輸入圖像
1501Y~1506Y:學習圖像
15081Z~15086Z:風格轉換圖像
1600:顯示畫面
1610:第一顯示區塊
1630:風格轉換按鍵
S310、S320、S330、S340:步驟
S410A、S420A、S430A :步驟
S410B、S420B、S430B :步驟
S710:步驟
S1010、S1020 :步驟
S1110、S1120、S1130:步驟
S1140、S1150:步驟
S1210:步驟
S1410、S1420、S1430、S1440:步驟
S1710:步驟
圖1是說明本申請之一個實施例之計算機裝置與使用者裝置及伺服器中的至少一者訊號連接並且與圖像輸出裝置及伺服器中的至少一者訊號連接的連接關係示意圖。
圖2是說明本申請之一個實施例之處理模組的方塊示意圖。
圖3是說明本申請之第一實施例之用於產生圖像的方法的流程圖。
圖4A是說明本申請之一個範例之基於至少一輸入圖像來產生關鍵詞字元組的詳細流程圖。
圖4B是說明本申請之一個範例之基於編修字元組來產生人工智慧圖像的詳細流程圖。
圖5是說明本申請之一個範例之在執行各個步驟之後所產生的結果的示意圖。
圖6是說明本申請之一個實施例之在使用者裝置上的顯示畫面的示意圖。
圖7是說明本申請之第二實施例之用於產生圖像的方法的流程圖。
圖8是說明本申請之另一個範例之在執行各個步驟之後所產生的結果的示意圖。
圖9是說明本申請之又一個範例之在執行各個步驟之後所產生的結果的示意圖。
圖10是說明本申請之第三實施例之用於產生圖像的方法的流程圖。
圖11是說明本申請之另一個範例之基於至少一輸入圖像來產生關鍵詞字元組的詳細流程圖。
圖12是說明本申請之第四實施例之用於產生圖像的方法的流程圖。
圖13是說明本申請之另一個實施例之處理模組的方塊示意圖。
圖14是說明本申請之第五實施例之用於產生圖像的方法的流程圖。
圖15是說明本申請之將至少一輸入圖像分別轉換成不同的風格轉換圖像的結果的示意圖。
圖16是說明本申請之另一個實施例之在使用者裝置上的顯示畫面的示意圖。
圖17是說明本申請之第六實施例之用於產生圖像的方法的流程圖。
S310:步驟
S320:步驟
S330:步驟
S340:步驟
Claims (22)
- 一種用於產生圖像的方法,該方法係經由一計算機裝置載入並執行一電腦程式產品之後而被執行,以便產生一人工智慧圖像,該方法包含: 接收至少一輸入圖像; 基於該至少一輸入圖像來產生一關鍵詞字元組; 根據該關鍵詞字元組的內容及一使用者的一歷史編修記錄中的至少一者來自動地產生至少一修圖按鍵; 在接收從該至少一修圖按鍵中的任何一個所發送的一修圖請求之後,基於與該修圖請求相對應的一編修指令集對該關鍵詞字元組進行至少一字串編修操作,並產生一編修字元組;以及 基於該編修字元組來產生該人工智慧圖像。
- 如請求項1所述的方法,其中基於該至少一輸入圖像來產生該關鍵詞字元組包含: 將該至少一輸入圖像輸入至一影像描述模型;以及 透過該影像描述模型來輸出該關鍵詞字元組, 其中,該影像描述模型是基於該至少一輸入圖像而自動地產生與該至少一輸入圖像相對應的該關鍵詞字元組。
- 如請求項1所述的方法,其中基於該編修字元組來產生該人工智慧圖像包含: 將該編修字元組輸入至一圖像產生模型;以及 透過該圖像產生模型來輸出該人工智慧圖像, 其中,該圖像產生模型是基於該編修字元組而自動地產生與該編修字元組相對應的該人工智慧圖像。
- 如請求項1所述的方法,更包含: 基於分別與該至少一修圖按鍵中的每一個相對應的一堆疊屬性值來決定是否將該至少一字串編修操作進行堆疊。
- 如請求項4所述的方法,其中,該堆疊屬性值被設定為可堆疊的或不可堆疊的。
- 如請求項4所述的方法,其中,該堆疊屬性值是根據一使用者的一偏好設定及一預設值中的至少一者而被設定。
- 如請求項1所述的方法,更包含: 基於分別與該至少一修圖按鍵中的每一個相對應的一編修權重值來決定該至少一字串編修操作對該關鍵詞字元組的編修程度。
- 如請求項7所述的方法,其中,該編修權重值是根據該關鍵詞字元組的內容、一使用者的一歷史編修記錄及一預設值中的至少一者而被設定。
- 如請求項1所述的方法,更包含: 接收與一物件的實體大小相對應的一物件資訊;以及 基於該物件資訊來決定該人工智慧圖像的尺寸。
- 如請求項1所述的方法,其中基於該至少一輸入圖像來產生該關鍵詞字元組包含: 接收至少一裝飾圖像; 將該至少一輸入圖像和該至少一裝飾圖像進行至少一構圖操作,並產生一編排圖像; 將該編排圖像輸入至一影像描述模型;以及 透過該影像描述模型來輸出該關鍵詞字元組, 其中,該影像描述模型是基於該編排圖像而自動地產生與該編排圖像相對應的該關鍵詞字元組。
- 如請求項1所述的方法,更包含: 將該人工智慧圖像傳輸至一圖像輸出裝置,並透過該圖像輸出裝置來將該人工智慧圖像進行實體輸出。
- 一種用於產生圖像的方法,該方法係經由一計算機裝置載入並執行一電腦程式產品之後而被執行,以便產生一人工智慧圖像,該方法包含: 接收至少一輸入圖像; 基於該至少一輸入圖像來產生一關鍵詞字元組; 在接收從至少一修圖按鍵中的任何一個所發送的一修圖請求之後,基於與該修圖請求相對應的一編修指令集對該關鍵詞字元組進行至少一字串編修操作,並產生一編修字元組; 基於該編修字元組來產生該人工智慧圖像;以及 基於分別與該至少一修圖按鍵中的每一個相對應的一堆疊屬性值來決定是否將該至少一字串編修操作進行堆疊。
- 如請求項12所述的方法,其中,該堆疊屬性值被設定為可堆疊的或不可堆疊的。
- 如請求項12所述的方法,其中,該堆疊屬性值是根據一使用者的一偏好設定及一預設值中的至少一者而被設定。
- 一種用於產生圖像的方法,該方法係經由一計算機裝置載入並執行一電腦程式產品之後而被執行,以便產生一人工智慧圖像,該方法包含: 接收至少一輸入圖像; 基於該至少一輸入圖像來產生一關鍵詞字元組; 在接收從至少一修圖按鍵中的任何一個所發送的一修圖請求之後,基於與該修圖請求相對應的一編修指令集對該關鍵詞字元組進行至少一字串編修操作,並產生一編修字元組; 基於該編修字元組來產生該人工智慧圖像;以及 基於分別與該至少一修圖按鍵中的每一個相對應的一編修權重值來決定該至少一字串編修操作對該關鍵詞字元組的編修程度, 其中,該編修權重值是根據該關鍵詞字元組的內容、一使用者的一歷史編修記錄及一預設值中的至少一者而被設定。
- 一種用於產生圖像的方法,該方法係經由一計算機裝置載入並執行一電腦程式產品之後而被執行,以便產生一人工智慧圖像,該方法包含: 接收至少一輸入圖像; 基於該至少一輸入圖像來產生一關鍵詞字元組; 在接收從至少一修圖按鍵中的任何一個所發送的一修圖請求之後,基於與該修圖請求相對應的一編修指令集對該關鍵詞字元組進行至少一字串編修操作,並產生一編修字元組;以及 基於該編修字元組來產生該人工智慧圖像; 其中,基於該至少一輸入圖像來產生該關鍵詞字元組包括: 接收至少一裝飾圖像; 將該至少一輸入圖像和該至少一裝飾圖像進行至少一構圖操作,並產生一編排圖像; 將該編排圖像輸入至一影像描述模型;及 透過該影像描述模型來輸出該關鍵詞字元組, 其中,該影像描述模型是基於該編排圖像而自動地產生與該編排圖像相對應的該關鍵詞字元組。
- 一種用於產生圖像的方法,該方法係經由一計算機裝置載入並執行一電腦程式產品之後而被執行,以便產生一風格轉換圖像,該方法包含: 接收至少一輸入圖像;以及 在接收從至少一風格轉換按鍵中的任何一個所發送的一風格轉換請求之後,基於該風格轉換請求來將該至少一輸入圖像輸入至一風格轉換模型,並透過該風格轉換模型來輸出該風格轉換圖像, 其中,該風格轉換模型是基於至少一學習圖像的風格學習結果來對該至少一輸入圖像執行至少一風格轉換操作,並產生該風格轉換圖像, 其中,該至少一學習圖像是透過如請求項1至10及12至16中任一項所述之用於產生圖像的方法所產生。
- 如請求項17所述的方法,更包含: 將該風格轉換圖像傳輸至一圖像輸出裝置,並透過該圖像輸出裝置來將該風格轉換圖像進行實體輸出。
- 一種用於產生圖像的計算機裝置,適用於與一使用者終端訊號連接,以從該使用者終端接收至少一輸入圖像,並基於該至少一輸入圖像來產生一輸出圖像,該計算機裝置包含: 一圖像接收模組,被配置成與該使用者終端訊號連接,適用於接收該至少一輸入圖像; 一處理模組,被配置成與該圖像接收模組訊號連接;以及 一儲存模組,被配置成與該處理模組訊號連接, 其中,該儲存模組儲存有程式碼,及 其中,該處理模組在執行儲存在該儲存模組中的程式碼後,能夠執行如請求項1至10及12至16中任一項所述之用於產生圖像的方法來產生一人工智慧圖像,或者能夠執行如請求項17所述之用於產生圖像的方法來產生一風格轉換圖像,並將該人工智慧圖像或該風格轉換圖像作為該輸出圖像。
- 如請求項19所述的計算機裝置,更包含: 一圖像輸出模組,被配置成與該處理模組訊號連接,適用於將該輸出圖像傳輸至一圖像輸出裝置。
- 一種用於產生圖像的電腦可讀取記錄媒體,當計算機裝置載入內存的程式碼並執行該程式碼後,能夠完成如請求項1至18中任一項所述之用於產生圖像的方法。
- 一種用於產生圖像的電腦程式產品,當計算機裝置載入該電腦程式產品並執行該電腦程式產品後,能夠完成如請求項1至18中任一項所述之用於產生圖像的方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US18/605,872 US20240371049A1 (en) | 2023-05-04 | 2024-03-15 | Method, computer device, and non-transitory computer-readable recording medium for generating image |
| EP24167179.1A EP4492329A1 (en) | 2023-05-04 | 2024-03-28 | Method, computer device, non-transitory computer-readable recording medium, and computer program product for generating image |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202363500267P | 2023-05-04 | 2023-05-04 | |
| US63/500,267 | 2023-05-04 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202445391A TW202445391A (zh) | 2024-11-16 |
| TWI870063B true TWI870063B (zh) | 2025-01-11 |
Family
ID=94377592
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112139431A TWI870063B (zh) | 2023-05-04 | 2023-10-16 | 用於產生圖像的方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品 |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TWI870063B (zh) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7028253B1 (en) * | 2000-10-10 | 2006-04-11 | Eastman Kodak Company | Agent for integrated annotation and retrieval of images |
| TW202016691A (zh) * | 2018-10-29 | 2020-05-01 | 聯發科技股份有限公司 | 移動設備和相關視訊編輯方法 |
| CN112106042A (zh) * | 2018-05-29 | 2020-12-18 | 三星电子株式会社 | 电子设备及其控制方法 |
| TWI735112B (zh) * | 2019-03-18 | 2021-08-01 | 大陸商北京市商湯科技開發有限公司 | 圖像生成方法、電子設備和儲存介質 |
| CN113672086A (zh) * | 2021-08-05 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 一种页面处理方法、装置、设备及介质 |
| CN114792388A (zh) * | 2021-01-25 | 2022-07-26 | 北京三星通信技术研究有限公司 | 图像描述文字生成方法、装置及计算机可读存储介质 |
| CN116051388A (zh) * | 2021-10-27 | 2023-05-02 | 奥多比公司 | 经由语言请求的自动照片编辑 |
-
2023
- 2023-10-16 TW TW112139431A patent/TWI870063B/zh active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7028253B1 (en) * | 2000-10-10 | 2006-04-11 | Eastman Kodak Company | Agent for integrated annotation and retrieval of images |
| CN112106042A (zh) * | 2018-05-29 | 2020-12-18 | 三星电子株式会社 | 电子设备及其控制方法 |
| TW202016691A (zh) * | 2018-10-29 | 2020-05-01 | 聯發科技股份有限公司 | 移動設備和相關視訊編輯方法 |
| TWI735112B (zh) * | 2019-03-18 | 2021-08-01 | 大陸商北京市商湯科技開發有限公司 | 圖像生成方法、電子設備和儲存介質 |
| CN114792388A (zh) * | 2021-01-25 | 2022-07-26 | 北京三星通信技术研究有限公司 | 图像描述文字生成方法、装置及计算机可读存储介质 |
| CN113672086A (zh) * | 2021-08-05 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 一种页面处理方法、装置、设备及介质 |
| CN116051388A (zh) * | 2021-10-27 | 2023-05-02 | 奥多比公司 | 经由语言请求的自动照片编辑 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202445391A (zh) | 2024-11-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8532377B2 (en) | Image ranking based on abstract concepts | |
| CN112150347B (zh) | 从有限的修改后图像集合中学习的图像修改样式 | |
| EP4492329A1 (en) | Method, computer device, non-transitory computer-readable recording medium, and computer program product for generating image | |
| US9953425B2 (en) | Learning image categorization using related attributes | |
| CN111489412A (zh) | 用于使用神经网络生成基本逼真图像的语义图像合成 | |
| US8917943B2 (en) | Determining image-based product from digital image collection | |
| US20120294514A1 (en) | Techniques to enable automated workflows for the creation of user-customized photobooks | |
| CN114913303B (zh) | 虚拟形象生成方法及相关装置、电子设备、存储介质 | |
| KR20230026344A (ko) | 멀티미디어 메시징 애플리케이션의 수정 가능한 비디오들에서의 텍스트 메시지들의 맞춤화 | |
| US11615507B2 (en) | Automatic content-aware collage | |
| CN107845072A (zh) | 图像生成方法、装置、存储介质及终端设备 | |
| CN115812221A (zh) | 图像生成及着色方法及装置 | |
| US20250095256A1 (en) | In-context image generation using style images | |
| CN120071055B (zh) | 基于多模态大模型的文本到图像生成模型评估方法及系统 | |
| CN117009581B (zh) | 视频生成方法及装置 | |
| KR20200064591A (ko) | 딥러닝 기반 웹툰의 채색 커스터마이징 프로그램 및 애플리케이션 | |
| KR20240111058A (ko) | 이미지 생성을 위한 프롬프트 생성 장치 및 방법 | |
| CN117876557A (zh) | 用于图像生成的级联域桥接 | |
| CN117876558A (zh) | 用于图像生成的级联域桥接 | |
| KR102622382B1 (ko) | 배너 이미지 자동 생성 방법 | |
| TWI870063B (zh) | 用於產生圖像的方法、計算機裝置、電腦可讀取記錄媒體以及電腦程式產品 | |
| CN117036552A (zh) | 一种基于扩散模型的动画序列帧生成方法及系统 | |
| CN120145222A (zh) | 人工智能标注训练一体系统及方法 | |
| CN118762096A (zh) | 基于目标对象的图像生成方法、装置、电子设备及介质 | |
| CN117173284A (zh) | 图像生成方法、装置、设备和存储介质 |