[go: up one dir, main page]

TWI419075B - 一種不等比例影片縮放之圖像處理器 - Google Patents

一種不等比例影片縮放之圖像處理器 Download PDF

Info

Publication number
TWI419075B
TWI419075B TW99127219A TW99127219A TWI419075B TW I419075 B TWI419075 B TW I419075B TW 99127219 A TW99127219 A TW 99127219A TW 99127219 A TW99127219 A TW 99127219A TW I419075 B TWI419075 B TW I419075B
Authority
TW
Taiwan
Prior art keywords
frame
scaling
movie
frames
image processor
Prior art date
Application number
TW99127219A
Other languages
English (en)
Other versions
TW201140491A (en
Inventor
Yu Shuen Wang
Hui Chih Lin
Sorkine Olga
Tong Yee Lee
Original Assignee
Univ Nat Cheng Kung
Univ New York
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Cheng Kung, Univ New York filed Critical Univ Nat Cheng Kung
Priority to US13/106,971 priority Critical patent/US20110279641A1/en
Publication of TW201140491A publication Critical patent/TW201140491A/zh
Application granted granted Critical
Publication of TWI419075B publication Critical patent/TWI419075B/zh

Links

Landscapes

  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

一種不等比例影片縮放之圖像處理器
本發明提供一種不等比例影片縮放之圖像處理器,係實現一種不等比例影片縮放之處理方法,特別地,此處理方法為一種結合裁切及不等比例影片縮放之處理方法及其運用此處理方法之相關裝置、電路的應用說明。
由於現在科技發展卓越,將圖片與影片在不同顯示設備下進行寬高縮放改變其解析度是一重要課題,在不同的顯示設備下有著各種不同的播放格式,像是手機、PDAs、寬螢幕電視、筆記型電腦等等。而像是如手機、PDAs此類型的行動式裝置上由於具有較小的螢幕及所播放的圖片與影片縮放比例要求會不同,故,所要求的螢幕解析度會較高。目前所能期望地,依據一目標螢幕尺寸大小,對圖片及影片均勻地線性縮放或裁切左右兩邊之內容,以達到預定寬高比例。
但是簡單線性縮放會造成影像內容扭曲失真,而裁切會移除些位於影像邊緣之重要物體資訊。因此,近年來有學者提出以內容為主之縮放技術,採用非等比例扭曲變形來達到圖片和影片所需要的尺寸格式,保持人類視覺感官上較重要內容之形狀比例,並且將扭曲失真隱藏在較不重要區域。
近年來,藉由使用非等比例扭曲變形或基於片段(segmentation-based)組成而達成內容感知圖片與影片重建亦趨成熟。可惜地,前者存有影像失真的缺陋,後者存有片段的圖片與片段的影片的出現。
然而,對於影片重新縮放基本上是不同於靜止的圖片縮放,且不能完全解決問題只依靠現有圖片縮放處理方法加上時間之限制。這個問題所存在之問題有兩項:
(一)物體動作和時間動態是影片核心因素,必須明確地處理;之前方法,影片中每幀重新縮放運算時,只沿著時間軸進行平滑化,是無法處理具有複雜動作的影片且畫面會有波動及失真產生。
(二)當影片中重要物體涵蓋整張圖片時,在這種情況下,任何以圖片內容為主之縮放技術皆受到限制,對此重新縮放是無法在沒有移除或扭曲變形重要內容下達成。
因此,對於像是如手機、PDAs此類型的行動式裝置上由於具有較小的螢幕及所播放的圖片與影片縮放比例會有不同的要求,而能提出一種影片處理方法及其運用此方法之播放裝置,亦是重要的。
根據本發明之一構想在於提供一種不等比例影片縮放之圖像處理器,係實現一種不等比例影片縮放之處理方法。在此專利的內容,會講述到如何決定一個重要的影像物件在一預定縮放比例目標影片立方體中必免被裁切,且在此同時,與該影像物件有關聯的背景資訊仍可被保留。可驗證地,較小的螢幕及所播放的圖片與影片在不同縮放比例的要求下,採用此影片處理方法並不會失真。以下為此一目的的說明。
本揭露的特定範例的一目的能夠是探討上面所述的範例問題,及/或克服與先前技術(例如,此處所述)所常相關範例的缺點。
的確,此處的範例是根據本揭露的裝置、系統、電腦可存取媒體、方法和程序所提供和所述的,以用於辨識及/或決定在一視訊內容中的至少一特定區域,在一影片重新標定程序期間該至少一特定區域受到保護而不裁切。例如,根據本揭露特定範例的程序能夠包括,例如,接收與至少一影片圖框相關的視訊資料。
用硬體處理配置,範例程序也能夠包括:決定用於至少一特定列(Column)及/或行(Row)的資訊。做這決定能夠是基於:(i)與出現在一圖框中的資訊有關的內容,且/或該內容在接下來的特定數目的圖框內消失,該接下來的特定數目的圖框與特定區域有關,及/或(ii)包含與所述特定區域有關的具動作導向前景物件的資訊。範例程序能夠進一步包括:基於該資訊而決定所述影片圖框的所述特定區域,所述特定區域受保護而不被裁切。
舉例來說,區域可以基於視覺流量來決定,而範例程序更包括測試與每一資訊相關像素相關聯的平均流量向量,來決定在之前k個圖框的任何特定圖框中,資訊是否出現,並在後續的j個圖框的任何一圖框中保持可見,其中k及j可以是整數。未通過測試的該資訊可以被標記。基於與特定行或列中的任何一個有關的資訊之流量相關聯的熵,顯著地移動的前景物件可以被決定。使用量化的流量向量及/或基於流量機率,熵可以被決定。
範例程序可進一步包括基於與超過一預定門檻的特定行及/或列中任何一個的資訊相關聯的特定流量熵,來選擇特定的行及/或列。此預定門檻可以是與流量均勻分布相關的最大可能熵的函數。
依據本發明的某些實施例,範例程序可進一步包括在影片資料上進行不等比例的次程序,其中特定區域在一目標影片立方體中被轉換。可使用至少暫時一致的不等比例函數,來執行此範例不等比例次程序。一固定的頂點可以被限制,以促進相鄰圖框的平滑播放。
該例示之過程更可包括辨認網格頂點位置,其中該網格頂點位置可以是一預定鄰近區域之網格頂點的線性組合。變形的網格位置可以一基於最小平方差技術之目標函數和/或一迭代最小化函數來決定。一或多個特定區域可被預定為一或多個關鍵圖框,其中該預定可以是自動產生和\或人工操作。
此外,該例示之不等比例縮放子程序可使用一網格,其包括一群方格,且該例示過程更可包含決定至少一具有延伸於特定圖框外之一流量向量之特定方格,其中,該等特定方格可包含一大小,其與至少一更進一步之至少時間軸上鄰接該特定方格之方格之大小有相同。且,可以使用一縮放過程來限制之。該例示之不等比例縮放子程序可使用一像素水準之格點和/或滑動視窗。此外,該例示之過程更包括於使用者可存取之格式和/或使用者可讀之格式的儲存裝置配置之資訊顯示器和/或儲存裝置。
例示之用來促進該前述例示過程電腦存取媒介和系統實施例,在此一實施例可適用。
在此亦一例示處理影像資料以在影片重製過程中,促進至少一影片內容特定區域不等比例縮放之過程。例如,該程序根據一些前揭之例示實施例可包括,接收影片資料,其包括資關於至少一影像圖框之訊息。藉由一硬體處理配置,該例示程序可包括對至少一特定行和/或列決定資訊。此決定可依(i)關聯至一圖框中出現和/或被設定在特定數量之下關聯於該特定區域之幾個圖框之內消失的資訊(ii)包含關聯於特定區域之顯著移動前景物件之資訊來做成。該例示過程更包括決定一特定影像圖框區域以依據該訊息被不等比例縮放。該例示過程更包括在影片資料上執行一不等比例縮放步驟,其中該特定區域可以在一目標影片立方體範圍內被變形且受保護以避免在裁切過程中被裁掉。
前揭這些和其他物件、特色和優點,一但與例示圖示和申請專利範圍互相參照後,當閱讀以下詳細例示實施例說明,將會更加清楚。
根據本發明之又一構想,本發明提供一種不等比例影片縮放之圖像處理器包含一記憶單元,以接收包含至少一個圖框之一影片以及一處理單元,以界定包含一特定區域之一預定縮放比例目標影片立方體;並對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例。
根據本發明之又一構想,本發明提供一種不等比例影片縮放之圖像處理器,包含一記憶單元,以接收包含至少一個圖框之一影片以及一處理單元,係執行(a)界定包含一特定區域之一預定目標影片縮放比例之三維影像座標;以及(b)對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片三維影像座標之大小,俾使該影片具有一新格式以供顯示。
根據本發明之再一構想,本發明提供一種不等比例影片縮放之圖像處理器,包含一記憶單元,以接收包含至少一個圖框之一影片以及一處理單元,係執行(a)接受複數個圖框(b)界定適用於各該複數個圖框之一特定區域之一預定縮放比例;以及(c)對每一該圖框進行不等比例縮放,使得處理後的每一圖框符合該預定縮放比例,俾使該影片具有一新格式以供顯示。
根據本發明之又一目的,本發明提供一種不等比例影片縮放之圖像處理器,包含一記憶單元,以接收包含至少一個圖框之一影片;以及一處理單元,係執行(a)接受包含一目標影像之複數個圖框(b)定義一目標矩形體,該矩形體之二維尺度係足以容納該目標影像,並以一單位時間為其第三維尺度,該單位時間係該複數個圖框中每相鄰兩圖框之時間間隔;以及(c)使該目標影像不等比例縮入該矩形體內,俾使該影片具有一新格式以供顯示。
首先,對將欲播放包含至少一個圖框之影片於具有較小的螢幕之手機、PDA或是播放的圖片與影片縮放比例會有不同的要求,先行界定重要的影像物件。
對於欲進行縮放之影片,先行界定在每一圖框之一特定區域所包含之重要的影像物件,例如移動前景物件,如何避免被裁切。方法如下:
1、計算每個圖框之視覺流量(optical flow),經過分析量化後,得到圖框中每個畫素之流量向量(flow vector)。
2、將所有流量向量導入一扇型統計圖(fan chart)以進行編號統計,並將該等編號之分佈機率導入熵公式(entropy),以求得至少一圖框之每一行的熵資訊。
3、利用所有圖框之每一行熵,尋找出不允許裁切的特定區域(critical region)。
4、結合裁切與不等比例縮放進行最佳化運算,使得該圖框重新縮放後,符合目標影像立方體(target video cube)之大小比例。換言之,在每一圖框透過定義一特定區域,每個圖框位於此區域的內容絕對不能被刪除。利用視覺流量來制定其準則且計算出包含所有特定區域之目標影片立方體,代表臨界區域以外的內容可以被摒棄。具體而言,欲將一段影片變窄時,不讓特定行之像素被移除,而欲將一段影片變寬時,讓特定列保留下來。以影片變窄之做法為例:
(1)當內容剛出現於圖框或者是即將消失於下一個圖框,此內容不具有於時間軸上持續出現之特性。
(2)特定區域裡面必須包含顯著移動前景物體,並定義特定區域的最左邊及最右邊為特定行(critical column)。
請參閱第1圖,其係本發明第一實施例之方法之流程圖。本發明方法之流程如下:
步驟10:接收包含至少一個圖框之一影片;
步驟11:找尋包含與至少一圖框有關聯的移動前景物件之一特定區域。
步驟12:界定包含一特定區域之一預定縮放比例目標影片立方體,其中該預定縮放比例係由人為決定。
步驟13:該量化過程包含將至少一圖框的視覺流量導入一統計圖以進行編號統計,並將該等編號之分佈機率導入熵公式以求得至少一圖框之至少一行的熵資訊,其中該特定區域係根據熵資訊而被決定。
對於欲進行縮放之影片先行界定在每一圖框之一特定區域所包含如移動前景物件重要的影像物件何必免被裁切。方法為:1:計算每個圖框之視覺流量(optical flow),經過分析量化後,得到圖框裡面每個畫素之流量向量(flow vector)。2:將所有流量向量導入一扇型統計圖(fan chart)以進行編號統計,並將該等編號之分佈機率導入熵公式(entropy),以求得至少一圖框之每一行的熵資訊。3:利用所有圖框之每一行熵,尋找出不允許裁切的特定區域(critical region)。4:結合裁切與不等比例縮放進行最佳化運算,使得該圖框重新縮放後,符合目標影像立方體(target video cube)之大小比例。換言之,在每一圖框透過定義一特定區域,每個圖框位於此區域的內容絕對不能被刪除。利用視覺流量來制定其準則且計算出包含所有特定區域之影片立方體;代表臨界區域以外的內容可以被摒棄。具體而言,欲將一段影片變窄時,不期望看到特定行之像素被移除掉;換言之,變寬時看特定列能保留下來。以影片變窄之做法為例:
(1)當內容剛出現於圖框或者是即將消失於下一個圖框,此時不具有於時間軸上持續出現之特性。
(2)特定區域裡面必須包含顯著移動前景物體。並定義特定區域的最左及最右邊為特定行(critical column)。
由視覺流量之水平分量可以得知,影片之內容在下一個圖框是否移動進入或離開;因此平均每一行像素之流量向量,並且測試它是否來自前圖框並且會保持k1 並且會保持可見於之後圖框(採用k1 =k2 =30),如果這些條件都不成立,則此行將標記在特定區域內。判斷特定行以每一行視覺流量之熵(entropy)作為依據,且特定行必須包含顯著移動之物體,此物體之移動須獨立不同於攝影鏡頭的移動。為了計算熵,首先利用扇形圖對視覺流量向量f i 進行量化(i C ,此處C 代表每一行所有像素),較長向量會被量化到間格較多的區域(微小流量向量代表來自於雜訊,不需要區分較多的量化間格)。令I (f i )表示一流量向量f i 經由量化後之整數值如下Eq.(1):
L (f i )和θ(f i )分別代表著f i 之長度與方向,這公式的原理闡述如下:此扇形是由許多間距一樣的同心圓所構成,其第k環之半徑為2(k+1),且此k環區分成2k 等分,以及每一等分所占之角度為2π/2 k ;如第2圖所示,所有間格從最裡面為1開始進行連續編號。將一流量向量放置於此扇形圖之原點,利用Eq.(1)求得該向量所位於的區間編號。詳細而言,k =0.5(f i )代表其流量向量位於扇形圖中第幾個環,則為某θ(f i )/(2π/2 k )」環裡面的第幾個區間。
首先簡介熵函式(entropy)。本專利中利用資訊理論中熵函式之方法來尋找特定區域最左邊及最右邊之邊界;熵函式的定義為,假設有一系統S存在多個事件S={E1 ,E2 ,E3 ,...,En },且每一事件之機率分佈為P={P1 ,P2 ,P3 ,...,Pn },則熵函式為如下Eq.(2)
熵函式有幾個重要特性,其一是函式值必定大於零,其二為假設N是系統S中的事件總數,則熵函式H S log b N 。若p 1 =p 2 =...=p n 等號成立時,此時系統S之熵函式為最大。所以使用熵函式的主要原因在於此,當每一事件的機率相等時,則函式會達到最大,以視覺流量向量來看,當機率分佈越平均,代表每個流量向量皆不一樣,及有重要物體再進行移動;換言之,當機率分佈都集中於有一範圍時,代表流量向量都一致,即代表為不重要之背景區域。因此,利用量化後的流量值,統計之直方圖並且定義流量分佈機率(高度為主之直方圖是將所有整數直方圖進行正規化),如此就可以獲得每一行之熵函式C(entropy of column C)。
在本系統中,設定當某行之流量熵函式超過0.7H max 時,則此行必包含於特定區域之內;而H max 為當每個事件出現機率都一樣時,最大熵函式值。第3圖(a)及第3圖(b)為利用上述方法偵測特定區域最左及最右之邊界示意圖。在本系統中,所找出須限制保留的特定區域邊界,但不意味著位於特定區域外之所有內容都必須完全裁切;確切之裁切區域須依據不等比例縮放運算及時間軸上維持一致性之限制,並且確保移除內容於未來時間軸上可以看見。因此,對於偵測前景物體位置是沒有必要的,因為系統採用的流量熵就是一個很明確的準則。
步驟14:對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例,如第4圖(a)及第4圖(b)所示。其中,在步驟14中更包含至少一個最佳化公式以對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例,且該最佳化公式係根據空間內容及時間一致性而設計。
本專利所提出影片重新縮放架構是基於變分最佳化運算,進行連續性之不等比例縮放,且裁切運算時包含最佳化條件限制。藉由使用方格網格架構分離影片立方體區域,定義一多項目標函數計算網格之頂點位置:在幾個條件限制下收斂得到最小能量函數值,以獲得新頂點位置,然後對每個方格(quad)內插重新定位產生出縮放後的影片。目標函數由幾個條件所構成,達到維持時間和空間視覺上重要的內容,以及時間軸上物體內容的連貫性。
定義標記符號。在影片中每個圖框t之網格架構Mt ={vt ,E,Q},其中V={V=t 1 ,V=t 2 ...,V=t n }為向量位置合集,E和Q分別代表邊和方格面(quad face),且所有的圖框彼此之間都是相互連接。經由縮放形變後的新頂點Vt’ i =(Xt’ i ,Yt’ i )};這些變數皆使用最佳化計算過程。為簡化複雜度,將符號t簡化成Vi ;當單一圖框頂點,以V’i 。表示。縮小的影片大小(rx ,ry ,rz ),rx 及ry 為縮放後的影片解析度。rz 圖框的總數。基本上,將一段輸入的影片立方體壓縮至一預定縮放比例目標影片立方體。
該最佳化公式包含用於維持空間內容之相似能量(conformal energy)、用於時間一致性在時間軸上內容之相似能量(Temporal Coherence energy)、及裁切後對每一圖框進行平滑化的二次平滑能量(second-order smoothing energy)。且藉由使用迭代函數(iterative minimization function)對該等能量解一最小平方問題,以取得一組最佳化的結果。
再者,在步驟14中,至少一圖框係基於網格架構而進行不等比例縮放(該不等比例縮放係使用框架在長、寬軸上平順地滑動,裁切外部較不重要的區域,以降低失真的累積),以維持在該特定區域內物件之形狀,並使用幾何單元尺寸對該網格架構進行不等比例縮放。而為了達到時間一致性,利用至少一圖框之至少一幾何單元尺寸之視覺流量來獲得至少一幾何單元尺寸的線性形變,並使經不等比例縮放前後之至少一幾何單元尺寸之線性形變能盡量保持一致性。
以下為本實施例較佳說明。
不等比例影片縮放之處理方法規定,經縮放變形後,原始影片四個角落之頂點座標必須位於新解析度影片中,此實施例中,將所有的特定區域經形變後,處於縮小的影片大小(rx ,ry ,rz )。一些影片中周遭兩旁的非特定區域經形變後,有可能出現在影片立方體之外,如此一來則被裁切掉。
令Vt l 和Vt r 在t個圖框,最接近特區之左上和右下角落的網點頂點,必須謹慎選取頂點,確保特定區域一定包含在這範圍區間。為了迫使特定區域必須在目標縮放立方體內,必須滿足下列條件如下Eq.(3):
此外,本專利所提出的不等比例影片縮放在時間軸具有維持物體一致性,並且也不需要對時間軸上一致性的裁切區域,設計不同的限制。
為了保持影片中,每個圖框裡面視覺上的重要的物體,採用Zhang等人(請參考資料30)所提出的之相似能量(conformal energy)。
令Vi1 、Vi2 、Vi3 及Vi4 分別代表方格q之四個頂點,而二維相似轉換參數化是由四個數字所組成(e.g.,s,r,u,v );所期望的q和q’,達到最佳相似解:如下Eq.(4)
這是屬於一線性最小平方問題,可寫成,其中如下Eq.(5)
矩陣Aq 完全取決於網格架構,而bq 是一個未知數之矩陣。將[s,r,u,v ]q,q’ ,將可以將從方格q以得到
可寫成如下Eq.(6)
Wt q 是第t個圖框中視覺重要方格之權重值,而每個圖框之空間重要資訊圖(spatial importance map),結合顏色梯度量測,影像視覺特徵圖,以及精準人臉偵測,該重要資訊圖經由正規化後之範圍為[0.1,1.0]之間,防止不重要區域過度縮放造成明顯地失真現象;而不等比例縮放方法近似於(KRHENBHL,等人2009)及(WANG,等人2009)。為避免網格直線發生強列地扭曲現象。如下Eq.(7)
Ev 和Eh 分別代表網格架構中垂直和水平的邊。
為了實現時間軸一致性之影片縮放,本專利提出一能量函數用來維持物體動作資訊,並將影片閃爍,顫抖,波動等失真現象降至最低。藉由視覺流量,可以取得每個方格由qt i 演化至下一個圖框時情況,以Pi t+1 表示之。
找到最佳儗合之線性轉換Ti t (linear transformation),即為,此實施例不需要計算出連內部都有包含的轉換T,因為只需要包含轉換T外圍形狀之方格,而不是其精準地位置。本專利目的在於影片縮放時,如何保持上述之線性轉換,因此制定下列能量函式。如下Eq.(8)
此能量函式已包含攝影機鏡頭移動和獨立個體運動,而無需分別處理這兩種狀況。剩下要進行的工作就是正確定義函數之未知數,像是網格頂點。利用Uj t+1 標記pj t+1 之頂點,意味這些頂點為線性組合最鄰近的網格點Vd t+1 。如第5圖(a)及第5圖(b)所示,相對方格q(粗條)和p(細條)於基於視覺流量所分析得知,在此例中,說明細條方格左上角頂點,採用粗條網格頂點之線性組合,以u符號來表示。如下Eq.(9)
,wd 為方格點Vd t+1 之平均權重,現在可以利用Vi ’重新定義。如下Eq.(10)。
,E(qi t )是方格qi t 之集合。
有些情況下,方格Qt β 已經移動至影片圖框外面,對於這些方格,利用如下Eq.(11),簡化經時間縮放後,時間軸上相鄰方格能盡量維持相似之限制
Let=Q t \.,所有時間軸上相似之能量總合為:如下Eq.(12)
在Eq.(11)此能量利用局部性限制,達到保持時間軸上相同物體具有一致性,這代表不一致性的誤差在圖框間會持續累積。為解決這個問題,係提出一方法,既可以保持時間軸上相應方格之一致性,並進一步降低誤差程度。明確而言,在Eq.(8)中,當影片的移動是很平順時,利用qi t 與其對應之方格pi i+λ 取代原本的qi t 與其對應之方格pi t+λ ,取代原本的qi t 與pi t+1 ,在實驗中,設定λ=5。因為在影片中,物體形狀發生微小改變是非常不明顯的,尤其在有物體或攝影機移動時,因此,本實施例可以容許在進行縮放時會有些微不一致情況發生。
到目前為止,本專利提出之能量只討論如何調整縮放。
於本實施例中先選擇一個固定點,選擇最左上點V'o ,限制其位置在相鄰圖框間改變能維持平順。因此,藉由二階平滑函式(second-order smoothing term)。如下Eq.(13)
,在公式中,n代表著網格頂點數量,此權重平衡能量數量函式與其他函式不同,其使用所有網格頂點而非單一頂點。
在本實施例中欲得一最佳解,使形變網格架構失真達到最小。如下Eq.(14)。
在本系統中,γ=10,δ=1.5,做為影片邊界之限制。第一個邊界限制不等式是為了保護特定區域不被裁切掉,並且還使用;邊線翻轉限制是採用條件不等式,要求網格邊線不能為非負之長度,防止本系統中網格在經縮放形變後,出現網格交錯之現象。筆直邊界限制採用線性方程式確保圖框重新縮放後,邊界能維持筆直,其運算時利用每個圖框頂部與底部之邊界。
最佳化過程,欲在一些線性限制以及線性條件不等式下,解最小平方問題使得目標函數獲得最小值,利用迭代方法獲得最佳解。
在本實施例中,每次產生新的限制等式會做為下一次進行迭代之依據。這邊請注意到,每當條件限制改變時,系統矩陣也會發生改變,這取決於是否違反不等式的矛盾情況發生。本專利之系統,根據[Buatois et al. 2009]此篇研究,利用GPU(Graphics Process Unit)共軛梯度解法器(conjugate gradient solver)和多重平行處理為核心架構,比起一般單次解法器,其會需要使用大量記憶體空間,但也大幅減短運算所需時間。一旦變形網格架構已計算結束,從制定的目標縮放立方體裡面剪輯出縮放後之影片。此外,將每一圖框之圖片縮放至每個方格,其系統使用線性內插,或者使用[Krhenbhl et al 2009]所提出之實體成像法之高斯濾波器設計(EWA surface splatting)。
根據本揭露的特定範例程序在桌上型個人電腦上進行測試,該電腦具有Duo 2.33 GHz的中央處理單元和Nvidia GTX 285的圖形顯示卡。例如,利用由Rasheed和Shah(請參考資料17)所述的方法,然後將影片依據場景改變,剪裁成許多短片,不同場景重新縮放時是獨立不受影響,因為場景轉換時圖框內容毫無相干,沒有必要考慮時間軸上之相似性。以此策略實施改善了效能與記憶體消耗量,因為計算的複雜度是根據未知頂點數量成平方成長。為了縮放後影片的品質及系統效能,在實驗中,通常採用每一方格為20X 20像素之網格架構,後面會有更進一步探討。本案重新縮放系統進行最佳化運算時,取決於影片內容,平均需要使用二至三次迭代。本案使用多重網格(multi-grid)策略,在粗略程度下以求解條件限制不等式,在進行網格扭曲變形時提升系統效能。在一解析度為688X 288、總數為288圖框之影片,系統可以能達到平均每秒處理6個圖框,並且可以處裡較多圖框之影片。
上述提及圖式顯示範例的結果來證明可以處理各種類型之影片。根據本揭露的特定範例自動產生之結果,演算法都是使用之前所提到之參數設定,某些特殊情況下,本案系統可以允許讓使用者手動決定影片中之重要物體;在某一圖框中,以視覺流量對物體進行圖形分割(graph-cut),並透過視覺流量自動延展至其它圖框。
根據本揭露的特定範例的程序與線性縮放、與由,例如,Wang等人(請參考資料26)所述的以動作為主影片縮放(MAR)程序、與由,例如,Krhenbhl等人(請參考資料13)所述的隨時間編輯之影片縮放(SVR)程序做比較。由於MAR和SVR程序兩者是目前最先進的影片縮放技術,故將本結果與MAR和SVR程序進行比較。之前研究[Wolf et al. 2007]、[Rubinstein et al. 2008]、[Zhang et al. 2008]在針對影片進行縮放時,皆沒有考慮動作之物體於時間軸上一致性,因此,必然無法媲美以動作為主方法,[Krhenbhl et al. 2009]以廣泛使用者調查作為依據,推得出此項結論。有趣的是圖片重新縮放方法[Dong et al. 2009]、[Rubinstein et al. 2009]結合了裁切以及其他技術,以最佳化方式獲得與原本圖片最相似之結果,但這些方法所需要很長的運算時間,並且僅僅適用於靜態影像,並沒有延伸至影片,考慮時間軸上物體一致性的問題。
作為比較的一文獻,最主要與[Wang et al. 2009]之MAR進行比較;因為此篇研究中,其明確地處理有關時間軸上一致性的問題。但是其需要利用SIFT方法,進行每個圖框特徵點對位,如果一影片只有均勻單調之背景,則將會導致MAR失敗,例如第7圖(a)-第7圖(d)所示,其中第7圖(a)為原來的圖框,第7圖(b)為線性縮放(linear scaling)的圖框,第7圖(c)為Krhenbhl等人所處理之圖片,而第7圖(d)為為本實施例。
進一步而言,MAR在特徵點對位時存在著視差(parallax)的問題,其方法無法將在不同景深下的物體進行一致性轉換,在這種情況下,MAR此方法將退化成為線性縮放,例如第6圖(a)-第6圖(h)所示,其中第6圖(a)及第6圖(e)為原來的圖框,第6圖(b)及第6圖(f)為線性縮放(linear scaling)的圖框,第6圖(c)及第6圖(g)為[Wang等人所處理之圖片],而第6圖(d)及第6圖(h)為本實施例。相較之下,本案的方法能無失真地處理所有動作類型影片,且不需要任何關於圖框特徵點對位,因此與MAR做比較,本案能成功解決任意深度改變及攝影機鏡頭移動之影片。
[Krhenbhl et al. 2009]的網格架構是以像素為大小,實現及時影片重新縮放。(可參考例如參考資料第13)。為了達到如此快速之效能,SVR分別對於每個圖框解決最佳化不等比例縮放之問題,且只是單純限制時間軸上相鄰像素轉換時的一致性。處理時間軸上一致性是以每五個圖框為單位,平均這幾個圖框在空間上的重要資訊圖,並且根據視覺流量凸顯動作物體的資訊;如此一來,視覺上顯著和移動的物體都可獲得較高的重要資訊。然後,每個圖框進行重新縮放時,如果存在著攝影機晃動或者是動態物體大幅度運動,將不能避免畫面失真及波動現象。
除了之前最先進的影片重新縮放方法,本案也與手動裁切的影片(此會比自動產生的結果要好許多)進行比較,可以發現,並不會有鏡頭劇烈搖晃的現象發生。發明人相信很明顯地優勢在於採用裁切與不等比例縮放,特別是影片的寬高解析度比例有很顯著改變時。在本實驗中,本案的結果都是影片寬度減少50%;在這種嚴苛的條件下,裁切可能會移除視覺上重要的物體或嚴重地改變攝影機路徑。值得一提的是,本系統如果採用更細小、甚至像素等級解析度的網格架構,本案的方法將可以取得更佳之結果,因為視覺上顯著物體以及動態資訊能更加精準地分析運算。但是,為了改善影片品質,採用更精細網格是有侷限的,因為網格裡每個方格之內容大部份都是一樣的。本案實驗了各種不同網格解析度。在不同網格架構後進行運算時間以及所須記憶體大小,可以看出來,本案系統在於40×40、20×20、10×10、5×5網格架構下,幾乎沒有任何明顯地差異存在。雖然採用精細的網格會耗費時間與記憶體空間,但也使得重新縮放影片更加平順流暢;實驗中,發現利用20×20像素的網格架構,是在於品質與效能上最佳的平衡點。根據先前揭露一些例示實施例之一程序係藉執行以96位不同背景與年齡層的使者用調查,作為評估本案方法的依據。本案採用[David 1963]所提出的比較方法,將本揭露程序的影片結果與[Krhenbhl et al. 2009]和[Wang et al. 2009]之結果兩兩互相比較;發明人會提供一原始影片內容以及任兩種方法的結果,讓使用者選擇他們所喜歡的重新縮放版本。在一開始測試時,均沒有對使用者提供任何特殊的技術指導,以確保實驗的準確性。在實驗中,本案使用了六種不同的影片,採用本揭露演算法、[Krhenbhl et al. 2009]、[Wang et al. 2009]全自動寬度減少50%之影片。每部影片會做三次兩兩方法比較,因此每位使用者會被要求做3×6=18次測試。本案選取的六段影片,包括不同類型的場景以及物體動作型態:像是現場拍攝的鏡頭、CG電影、特寫鏡頭、廣角拍攝、單一或多個前景物體、快速或慢速移動的鏡頭畫面、以及有無視差效果;六部影片中,我們使用了五部電影題材和一部CG動畫短片,並且盡量保持每部剪輯影片不會有太多圖框,因為每個短片會多加入3個比較且我們不能期望每個使用者會花超過20-30分鐘再參與實驗。並且問題是以隨機的順序提出以避免偏頗。本實驗中,取得總數1728(18×96)的答案,且每一方法總共被評比1152次(2×6×96)。
表格一
表格一顯示96位使用者研究參與者之配對比較結果。總共有1728個比較被執行。在此例中,在表格中間欄元素a ij 表示方法i 比方法j 要好a ij 的次數。並且可以由圖表三十三觀察到,使用者調查之結果很明顯地偏好本案演算法所做出來的結果。總而言之,本發明結果在經比較後,獲得的得票率為86.5%(996/1152)次。與SVR相較之下有超過88.2%的得票率,另外與MAR相較之下有超過84.7%的得票率。相反的,SVR只有29.1%(335/1152)、MAR只有34.5%(397/1152)的得票率,代表著決大多數參與者傾向本論文結果較佳。所量測之Kendall的一致性係數為u =0.356,代表統計顯著性為p <0.01。Kendall的一致性係,代表兩兩循環比對是否有矛盾現象發生,如1→2→3→1;本使用者結果調查,有78%的使用者,個別使用者偏好統計不一致性為ξ=1,意味著他們並沒有矛盾的現象發生;且本使用者調查中,平均一致性係數為=0.94,標準差為0.1,且只有3個使用者一致性分數為ξ=0.5,說明此調查結果有極高的準確度。
在本揭露中,完整對之前所有影片重新縮放技術進行使用者調查是不太可能的,因此本案將比較的重點放在最近這兩項技術[Krhenbhl et al. 2009]、[Wang et al. 2009]。在[Krhenbhl et al. 2009]研究中,SVR方法很明顯優於線性縮放;且[Wang et al. 2009]研究展示中以證明比[Wolf et al.2007]及[Rubinstein et al. 2008]結果較佳,因此本案不重複再對線性縮放、[Wolf et al.2007]、[Rubinstein et al. 2008]進行比較。根據使用者調查可以進一步幫助我們深入研究,了解大多數人希望看到何種重新收縮後影片,但也需要更多人協助調查並且設計更複雜的實驗,例如本案也可以設計讓所有使用者在未接觸原始影片狀態下,評比各種方法。
在使用者調查實驗中,本案也特別針對本揭露所採用技術:以時間軸上物體出現時間為依據的裁切,是否會對使用者造成觀看影片的困惱。但是經由本實驗結果,無論在是否有撥放原始影片的情況下,使用者只專注於影片中心部分,往往忽略影片兩側資訊,且在本系統有針對裁切進行撥放平滑化下,由圖表三十三數據可得知,決大多數使用者都可以接受此種裁切情況。
如本發明之前所述,保持影片中重要物體於時間與空間上的型態,此為相互矛盾的目標;如果於影片中,一段重要物體的移動軌跡涵蓋了所有畫面,換言之,欲維持時間上的一致性,該物體在空間中移動過的所有背景都必須以維持相同的縮放,而在這種情況下,不等比例縮放將呈現線性縮放的效果。在這種情況下,本案方法會尋找一最佳平衡點,利用裁切移除掉部分視覺上已出現或未來可看見之景象。如第8圖(a)-第8圖(d)所示,攝影鏡頭隨著時間一直環繞圖中女生,意味著時間上前景物體的移動軌跡,已經涵蓋空間上所有背景區域,[Wang et al. 2009]之方法與線性縮放毫無差異,但是本實施例之方法仍然可保留影片重要物體的形狀大小,其中第8圖(a)為原來的圖框,第8圖(b)為線性縮放(linear scaling)的圖框,第8圖(c)為Wang等人所處理之圖片,而第8圖(d)為本實施例。與純粹利用裁切相比,本案方法一定可以保留最重要物體的特定區域,防止重要資訊被移除;此外,裁切結合了不等比例縮放,可以大幅地降低虛擬鏡頭的使用率;且在裁切無法使用或不顯著的情況下,不等比例縮放能有效地利用空間位置,將不重要背景變形壓縮。裁切與不等比例縮放使用比例,由變分最佳化函數在這兩者之間取得平衡。
本案方法在於增加時間與空間上可以變形及移除的區域,但是於影片空間內容中,仍然存在許多視覺上顯著特徵與前景物體,一旦經重新縮放後,在時間與空間上可能導致扭曲失真的現象發生,例如第9圖(a)-第9圖(d)所示,其中第9圖(a)為原來的圖框,第9圖(b)為線性縮放(linear scaling)的圖框,第9圖(c)為Wang等人所處理之圖片,而第9圖(d)為本實施例。在這種極端的情況下,必須從藝術的角度去分析,決定影片中哪些關鍵圖框裡的範圍是可以永久存在出現。另外,當攝影鏡頭以極端的拍攝手法呈現時,如傾斜拍攝,時間軸上自動裁切標準可能會造成某些顯著物體永遠被裁切而無法出現。但是本案的系統架構是很具有彈性的,可以採用各種關於動作導向的限制,所以只要完整定義此類型標準,將可以處理此種鏡頭傾斜的問題。其次,本案方法必須依靠非常準確的視覺流量,即使最好的偵測技術有可能因為雜訊與畫面閃爍導致分析錯誤,如此一來,將使系統將一些無關緊要內容納入不可裁切的特定區域,影響縮放後的結果。另外,本系統採用網格架構,當其中一方格裡面包含了許多獨立移動的物體,此方格的轉換數據不能代表著此方格裡面的動作資訊;幸運的是,不等比例縮放有著很高的容錯率,當出現此現象時,其所造成視覺波動失真並不明顯。當電腦配備允許時,使用像素層次的網格架構即可完全避免此問題發生。
第10圖為本發明之一系統方塊圖,該系統包含一處理裝置20、一處理器21、一輸入/輸出裝置22、一電腦儲存媒體23、一儲存裝置25及一顯示裝置26。
如第10圖所示,該電腦儲存媒體23可儲存多個執行指令24。該輸入/輸出裝置22包含一有線網路,一無線網路,一內/外部網路,一資料選擇配線及一感測器等等。該處理裝置20能與該顯示裝置26進行影像信號處理。本案係使用一觸控螢幕來接收及輸出該處理裝置的觸控訊息。此外,該顯示裝置26及/或該儲存裝置25係用於顯示及/或儲存一使用者存取格式/使用者可讀格式的資料。
請參閱第11圖,其為依據本發明的實施例所提出的一流程圖,該流程係由該處理裝置20來執行。首先,接收包含至少一圖框之影片(步驟31)。接著,尋找包含與至少一圖框有關聯的前景物件資訊(步驟32)。然後,決定免於被裁切的特定區域(步驟33)。
前述介紹本發明之多個實施態樣及原則,熟習該項技術者可從這些實施例中得知本發明之多個不同範例及實施說明,並從上述多個系統、裝置、及方法的說明來了解本發明的構思。此外,提出的所有文獻及參考資料皆可納入本發明的實施態樣。所能了解地,電腦儲存媒體包含硬碟、隨機存取記憶體、唯讀記憶體、隨身碟、光碟、記憶棒等等此類型的記憶裝置。而由處理裝置/計算裝置20執行指令可為一硬體處理器,一微處理機,mini,macro,mainframe及其組合等。令人理解地,藉由本實施例所提及的專有名詞及學術用語的同義名詞皆可納入本實施例概要。
根據上述可知,在影片重建中在本實施例中所提到的系統,裝置,儲存媒體,方法及流程皆能讓影片的內容免於被裁切。移動的物件在本實施例中扮演重要的地位,在影片重建中移動的物件仍可保有影像的比例縮放。根據前言所述,移動的物件可使得重建物件的時間維度問題解決。且根據本發明係使用視覺流量在對於重建的流程中適用於空間及時間的維度。
根據本文揭露的特定示範性實施例,由於對於整體影片鏡頭一直到場景片段的分析以及最佳化是程序中非常重要的觀念,其計算的代價相對高於只運用預圖框最佳化的真實時間系統。因為本領域技術人士應該能夠了解本案所揭露的內容的觀點,此類計算的代價根據本案揭露內容所提供的高品質視訊處理結果的一示範性實施例的結果,可為一個名義上的問題。
前述內容僅僅敘述了本揭露內容的原理。針對敘述的實施例所做的各種各樣的修改以及變更,對於本領域技術人士而言可藉由本案所教導的內容輕易的完成。本領域技術人士可體悟而設計出更多的系統、裝置以及方法,然而就算上述內容並未在此明確的顯示或揭露,但仍包含本案的原理且屬於本案精神以及所揭露的範圍內。此外,有關前述的所有出版品以及參考文獻係以在此整體合併為參考文獻。在此描述的示範性的程序可儲存在任何電腦可使用的儲存媒體,包含:硬碟、隨機存取記憶體、唯讀記憶體、隨身碟、光碟、記憶棒等,且可運用於微處理器、mini、macro、mainframe等處理裝置都是應該被知道的。
以下再針對不等比例影片縮放之圖像處理器敘述。詳言之,請參第12圖(a),依本發明之一種不等比例影片縮放之圖像處理器500,其包含一記憶單元510及處理單元520。該不等比例影片縮放之圖像處理器500,在應用本發明之方法時,通常會進行如第12圖(b)所示三步驟540、550及560。而該三步驟可分別為:由該記憶單元510接收包含至少一個圖框之一影片、由該處理單元520界定包含一特定區域之一預定縮放比例目標影片立方體及對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例。
事實上,該三步驟540、550及560之內容除可為以上所揭露者外,以下謹再舉三實施例,即:
一、該三步驟可分別為:接收包含至少一個圖框之一影片、界定包含一特定區域之一預定目標影片縮放比例之三維影像座標、以及對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片三維影像座標之大小,俾使該影片具有一新格式以供顯示。
二、該三步驟亦可分別為:接受複數個圖框、界定適用於各該複數個圖框之一特定區域之一預定縮放比例、以及對每一該圖框進行不等比例縮放,使得處理後的每一圖框符合該預定縮放比例,俾使該影片具有一新格式以供顯示。
三、此外,該三步驟亦可分別為:接受包含一目標影像之複數個圖框、定義一目標矩形體,該矩形體之二維尺度係足以容納該目標影像,並以一單位時間為其第三維尺度,該單位時間係該複數個圖框中每相鄰兩圖框之時間間隔、以及使該目標影像不等比例縮入該矩形體內,俾使該影片具有一新格式以供顯示。
參考文獻
1. AVIDAN,S.,AND SHAMIR, A. 2007. Seam carving for contentaware image resizing. ACM Trans. Graph. 26,3,10.
2. BARNES,C.,SHECHTMAN,E.,FINKELSTEIN,A.,AND GOLDMAN,D. B. 2009. PatchMatch: A randomized correspondence procedure for structural image editing. ACM Trans. Graph. 28,3.
3. BUATOIS,L.,CAUMON,G.,AND L' E VY,B. 2009. Concurrent number cruncher: a GPU implementation of a general sparse linear solver. Int. J. Parallel Emerg. Distrib. Syst. 24,3,205-223.
4. CHEN,L. Q.,XIE,X.,FAN,X.,MA,W.Y.,ZHANG,H. J.,AND ZHOU,H. Q. 2003. A visual attention model for adapting images on small displays. ACM Multimedia Systems Journal 9,4,353-364.
5. CHO,T. S.,BUTMAN,M.,AVIDAN,S.,AND FREEMAN,W. T. 2008. The patch transform and its applications to image editing. In CVPR’08.
6. DAVID,H. A. 1963. The Method of Paired Comparisons. Charles Griffin & Company.
7. DESELAERS,T.,DREUW,P.,AND NEY,H. 2008. Pan,zoom,scan: Time-coherent,trained automatic video cropping. In CVPR.
8. DONG,W.,ZHOU,N.,PAUL,J.-C.,AND ZHANG,X. 2009. Optimized image resizing using seam carving and scaling. ACM Trans. Graph. 28,5,1-10.
9. FAN,X.,XIE,X.,ZHOU,H.-Q.,AND MA,W.-Y. 2003. Looking into video frames on small displays. In Multimedia’03,247-250.
10. GAL,R.,SORKINE,O.,AND COHEN-OR,D. 2006. Featureaware texturing. In EGSR’06,297-303.
11. ITTI,L.,KOCH,C.,AND NIEBUR,E. 1998. A model of saliencybased visual attention for rapid scene analysis. IEEE Trans. Pattern Anal. Mach. Intell. 20,11,1254-1259.
12. KARNI,Z.,FREEDMAN,D.,AND GOTSMAN,C. 2009. Energy based image deformation. Comput. Graph. Forum 28,5,1257-1268.
13. KRHENBHL,P.,LANG,M.,HORNUNG,A.,AND GROSS,M. 2009. A system for retargeting of streaming video. ACM Trans. Graph. 28,5.
14. LIU,F.,AND GLEICHER,M. 2006. Video retargeting: automating pan and scan. In Multimedia’06,241-250.
15. LIU,H.,XIE,X.,MA,W.-Y.,AND ZHANG,H.-J. 2003. Automatic browsing of large pictures on mobile devices. In Proceedings of ACM International Conference on Multimedia,148-155.
16. PRITCH,Y.,KAV-VENAKI,E.,AND PELEG,S. 2009. Shift-map image editing. In ICCV’09.
17. RASHEED,Z.,AND SHAH,M. 2003. Scene detection in Hollywood movies and TV shows. In CVPR’03,vol. 2,I1-343-8.
18. RUBINSTEIN,M.,SHAMIR,A.,AND AVIDAN,S. 2008. Improved seam carving for video retargeting. ACM Trans. Graph. 27,3.
19. RUBINSTEIN,M.,SHAMIR,A.,AND AVIDAN,S. 2009. Multioperator media retargeting. ACM Trans. Graph. 28,3,23.
20. SANTELLA,A.,AGRAWALA,M.,DECARLO,D.,SALESIN,D.,AND COHEN,M. 2006. Gaze-based interaction for semiautomatic photo cropping. In Proceedings of CHI,771-780.
21. SHAMIR,A.,AND SORKINE,O. 2009. Visual media retargeting. In ACM SIGGRAPH Asia Courses.
22. SIMAKOV,D.,CASPI,Y.,SHECHTMAN,E.,AND IRANI,M. 2008. Summarizing visual data using bidirectional similarity.
23. In CVPR’08. SUH,B.,LING,H.,BEDERSON,B. B.,AND JACOBS,D. W. 2003. Automatic thumbnail cropping and its effectiveness. In Proceedings of UIST,95-104.
24. VIOLA,P.,AND JONES,M. J. 2004. Robust real-time face detection. Int. J. Comput. Vision 57,2,137-154.
25. WANG,Y.-S.,TAI,C.-L.,SORKINE,O.,AND LEE,T.-Y. 2008. Optimized scale-and-stretch for image resizing. ACM Trans. Graph. 27,5,118.
26. WANG,Y.-S.,FU,H.,SORKINE,O.,LEE,T.-Y.,AND SEIDEL,H.-P. 2009. Motion-aware temporal coherence for video resizing. ACM Trans. Graph. 28,5.
27. WERLBERGER,M.,TROBIN,W.,POCK,T.,WEDEL,A.,CREMERS,D.,AND BISCHOF,H. 2009. Anisotropic Huber-L1 optical flow. In Proceedings of the British Machine Vision Conference(BMVC).
28. WOLF,L.,GUTTMANN,M.,AND COHEN-OR,D. 2007. Nonhomogeneous content-driven video-retargeting. In ICCV’07.
29. ZHANG,Y.-F.,HU,S.-M.,AND MARTIN,R. R. 2008. Shrinkability maps for content-aware video resizing. In PG’08.
30. ZHANG,G.-X.,CHENG,M.-M.,HU,S.-M.,AND MARTIN,R. R. 2009. A shape-preserving approach to image resizing. Computer Graphics Forum 28,7,1897-1906.
20...處理裝置
21...處理器
22...輸入/輸出裝置
23...電腦儲存媒體
24...執行指令
25...儲存裝置
26...顯示裝置
10~14...步驟
31~33...步驟
500...不等比例影片縮放之圖像處理器
510...記憶單元
520...處理單元
540~560...步驟
第1圖為本發明所使用的流程圖。
第2圖為扇形圖。
第3圖(a)及第3圖(b)為利用上述方法偵測特定區域最左及最右之邊界示意圖。
第4圖(a)及第4圖(b)所示,對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例。
第5圖(a)及第5圖(b)所示,對應方格示意圖。
第6圖(a)-第6圖(h)所示,其中第6圖(a)及第6圖(e)為原來的圖框,第6圖(b)及第6圖(f)為線性縮放(linear scaling)的圖框,第6圖(c)及第6圖(g)為Wang等人所處理之圖片,而第6圖(d)及第6圖(h)為本實施例。
第7圖(a)-第7圖(d)所示,其中第7圖(a)為原來的圖框,第7圖(b)為線性縮放(linear scaling)的圖框,第7圖(c)為Krhenbhl等人所處理之圖片,而第7圖(d)為本實施例。
第8圖(a)-第8圖(d)所示,攝影鏡頭隨著時間一直環繞圖中女生,意味著時間上前景物體的移動軌跡,已經涵蓋空間上所有背景區域,其中第8圖(a)為原來的圖框,第8圖(b)為線性縮放(linear scaling)的圖框,第8圖(c)為Wang等人所處理之圖片,而第8圖(d)為本實施例。
第9圖(a)-第9圖(d)所示,其中第9圖(a)為原來的圖框,第9圖(b)為線性縮放(linear scaling)的圖框,第9圖(c)為Wang等人所處理之圖片,而第9圖(d)為本實施例。
第10圖為本發明之一系統方塊圖。
第11圖為依據本發明的實施例所提出的一流程圖。
第12圖(a)為依據本發明的不等比例影片縮放之圖像處理器之方塊圖。
第12圖(b)本發明的實施例所提出的另一流程圖。
500‧‧‧圖像處理器
510‧‧‧記憶單元
520‧‧‧處理單元

Claims (17)

  1. 一種不等比例影片縮放之圖像處理器,包含:一記憶單元,以接收包含至少一個圖框之一影片;以及一處理單元,以界定包含一特定區域之一預定縮放比例目標影片立方體;並對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例。
  2. 如申請專利範圍第1項所述之圖像處理器,其中步驟(a)之後更包含一步驟用以找尋包含與至少一圖框有關聯的移動前景物件之一特定區域。
  3. 如申請專利範圍第2項所述之圖像處理器,更包含一步驟用以找尋至少一圖框的視覺流量(optical flow)並進行量化以相應地求得至少一量化結果的流量向量(flow vector)。
  4. 如申請專利範圍第3項所述之圖像處理器,其中該量化過程包含將至少一圖框的視覺流量(optical flow)導入一統計圖以進行編號統計,並將該等編號之分佈機率導入熵(entropy)公式以求得至少一圖框之至少一行的熵(entropy)資訊。
  5. 如申請專利範圍第4項所述之圖像處理器,其中該特定區域根據熵(entropy)資訊而被決定。
  6. 如申請專利範圍第1項所述之圖像處理器,其中該預定縮放比例為人為所決定。
  7. 如申請專利範圍第1項所述之圖像處理器,更包含至少一個最佳化公式對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片立方體之大小比例。
  8. 如申請專利範圍第7項所述之圖像處理器,其中該等最佳化公式係根據空間內容及時間一致性而設計。
  9. 如申請專利範圍第7項所述之圖像處理器,其中該等最佳化公式包含用於維持空間內容之相似能量(conformal energy)、用於時間一致性在時間軸上內容之相似能量(Temporal Coherence energy)及對裁切後對每一圖框進行平滑的二次平滑能量(second-order smoothing energy)。
  10. 如申請專利範圍第9項所述之圖像處理器,其中藉由使用迭代函數(iterative minimization function)對該等能量energy解一最小平方問題,取得一組最佳化的結果。
  11. 如申請專利範圍第1項所述之圖像處理器,其中執行該步驟(c)中至少一圖框基於網格架構而進行不等比例縮放以維持在該特定區域內物件之形狀。
  12. 如申請專利範圍第11項所述之圖像處理器,其中係使用幾何單元尺寸對該網格架構進行不等比例縮放。
  13. 如申請專利範圍第11項所述之圖像處理器,其中為了達到時間一致性,利用至少一圖框的至少一幾何單元尺寸之視覺流量(optical flow)以獲得至少一幾何單元尺寸的線性形變,並維持經不等比例縮放前後之至少一幾何單元尺寸線性形變能盡量保持一致性。
  14. 如申請專利範圍第1項所述之圖像處理器,其中該不等比例縮放係使用框架在長、寬軸上平順地滑動,裁切外部較不重要的區域,藉以降低失真的累積。
  15. 一種不等比例影片縮放之圖像處理器,包含:一記憶單元,以接收包含至少一個圖框之一影片;以及一處理單元,係執行:(a)界定包含一特定區域之一預定目標影片縮放比例之三維影像座標;以及(b)對該等圖框進行不等比例縮放,使得處理後的該等圖框符合該目標影片三維影像座標之大小,俾使該影片具有一新格式以供顯示。
  16. 一種不等比例影片縮放之圖像處理器,包含:一記憶單元,以接收包含至少一個圖框之一影片;以及一處理單元,係執行:(a)接受複數個圖框;(b)界定適用於各該複數個圖框之一特定區域之一預定縮放比例;以及(c)對每一該圖框進行不等比例縮放,使得處理後的每一圖框符合該預定縮放比例,俾使該影片具有一新格式以供顯示。
  17. 一種不等比例影片縮放之圖像處理器,包含:一記憶單元,以接收包含至少一個圖框之一影片;以及一處理單元,係執行(a)接受包含一目標影像之複數個圖框;(b)定義一目標矩形體,該矩形體之二維尺度係足以容納該目標影像,並以一單位時間為其第三維尺度,該單位時間係該複數個圖框中每相鄰兩圖框之時間間隔;以及(c)使該目標影像不等比例縮入該矩形體內,俾使該影片具有一新格式以供顯示。
TW99127219A 2010-05-14 2010-08-13 一種不等比例影片縮放之圖像處理器 TWI419075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/106,971 US20110279641A1 (en) 2010-05-14 2011-05-13 Apparatus, systems, computer-accessible medium and methods for video cropping, temporally-coherent warping and retargeting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US33495310P 2010-05-14 2010-05-14

Publications (2)

Publication Number Publication Date
TW201140491A TW201140491A (en) 2011-11-16
TWI419075B true TWI419075B (zh) 2013-12-11

Family

ID=46760295

Family Applications (6)

Application Number Title Priority Date Filing Date
TW99127216A TW201141212A (en) 2010-05-14 2010-08-13 Video data processing system
TW99127215A TWI417809B (zh) 2010-05-14 2010-08-13 一種顯示器之影片播放系統
TW99127214A TW201141204A (en) 2010-05-14 2010-08-13 Method of warping video
TW99127219A TWI419075B (zh) 2010-05-14 2010-08-13 一種不等比例影片縮放之圖像處理器
TW99127218A TW201141205A (en) 2010-05-14 2010-08-13 System for transforming video outputting format
TW99127217A TW201140393A (en) 2010-05-14 2010-08-13 Touch control system

Family Applications Before (3)

Application Number Title Priority Date Filing Date
TW99127216A TW201141212A (en) 2010-05-14 2010-08-13 Video data processing system
TW99127215A TWI417809B (zh) 2010-05-14 2010-08-13 一種顯示器之影片播放系統
TW99127214A TW201141204A (en) 2010-05-14 2010-08-13 Method of warping video

Family Applications After (2)

Application Number Title Priority Date Filing Date
TW99127218A TW201141205A (en) 2010-05-14 2010-08-13 System for transforming video outputting format
TW99127217A TW201140393A (en) 2010-05-14 2010-08-13 Touch control system

Country Status (1)

Country Link
TW (6) TW201141212A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI707303B (zh) * 2015-02-12 2020-10-11 南韓商三星電子股份有限公司 用以從單一影像產生各種解析度影像之縮放器電路與包括該縮放器電路之裝置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI486794B (zh) * 2012-07-27 2015-06-01 Wistron Corp 影片預覽方法及系統及其電腦程式產品
CN112367559B (zh) * 2020-10-30 2022-10-04 北京达佳互联信息技术有限公司 视频展示方法、装置、电子设备、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1008108B1 (en) * 1996-12-16 2003-05-14 Sharp Kabushiki Kaisha 2-d mesh geometry and motion vector compression
TWI298465B (en) * 2005-12-02 2008-07-01 Prolific Technology Inc Segment-based video and graphics system with video window
EP1157353B1 (en) * 1999-02-02 2009-04-29 Oplus Technologies Ltd. Non-linear and linear method of scale-up or scale-down image resolution conversion
TW200945879A (en) * 2008-04-22 2009-11-01 Magima Digital Information Co Ltd A universal picture scaling device and a corresponding method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9906420D0 (en) * 1999-03-19 1999-05-12 Isis Innovation Method and apparatus for image processing
GB0315412D0 (en) * 2003-07-02 2003-08-06 Queen Mary & Westfield College Optical flow estimation method
US7747107B2 (en) * 2007-03-06 2010-06-29 Mitsubishi Electric Research Laboratories, Inc. Method for retargeting images
US8255825B2 (en) * 2008-10-07 2012-08-28 Microsoft Corporation Content aware adaptive display

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1008108B1 (en) * 1996-12-16 2003-05-14 Sharp Kabushiki Kaisha 2-d mesh geometry and motion vector compression
EP1157353B1 (en) * 1999-02-02 2009-04-29 Oplus Technologies Ltd. Non-linear and linear method of scale-up or scale-down image resolution conversion
TWI298465B (en) * 2005-12-02 2008-07-01 Prolific Technology Inc Segment-based video and graphics system with video window
TW200945879A (en) * 2008-04-22 2009-11-01 Magima Digital Information Co Ltd A universal picture scaling device and a corresponding method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI707303B (zh) * 2015-02-12 2020-10-11 南韓商三星電子股份有限公司 用以從單一影像產生各種解析度影像之縮放器電路與包括該縮放器電路之裝置

Also Published As

Publication number Publication date
TW201140498A (en) 2011-11-16
TW201141204A (en) 2011-11-16
TWI417809B (zh) 2013-12-01
TW201141205A (en) 2011-11-16
TW201140393A (en) 2011-11-16
TW201140491A (en) 2011-11-16
TW201141212A (en) 2011-11-16

Similar Documents

Publication Publication Date Title
Ding et al. Importance filtering for image retargeting
US10887519B2 (en) Method, system and apparatus for stabilising frames of a captured video sequence
Wang et al. Motion-based video retargeting with optimized crop-and-warp
Grundmann et al. Discontinuous seam-carving for video retargeting
US11941748B2 (en) Lightweight view dependent rendering system for mobile devices
Zhang et al. Backward registration-based aspect ratio similarity for image retargeting quality assessment
Patwardhan et al. Video inpainting under constrained camera motion
TWI637355B (zh) 紋理貼圖之壓縮方法及其相關圖像資料處理系統與產生360度全景視頻之方法
US9373187B2 (en) Method and apparatus for producing a cinemagraph
CN112819944A (zh) 三维人体模型重建方法、装置、电子设备及存储介质
Li et al. Spatiotemporal grid flow for video retargeting
CN102291527B (zh) 基于单个鱼眼镜头的全景视频漫游方法及装置
BRPI1011189B1 (pt) Sistema baseado em computador para selecionar pontos de visualização ótimos e meio de armazenamento de sinal legível por máquina não transitória
JP2016212784A (ja) 画像処理装置、画像処理方法
Zhi et al. Toward dynamic image mosaic generation with robustness to parallax
TWI419075B (zh) 一種不等比例影片縮放之圖像處理器
Chen et al. Preserving motion-tolerant contextual visual saliency for video resizing
Tao et al. Active window oriented dynamic video retargeting
WO2024022301A1 (zh) 视角路径获取方法、装置、电子设备及介质
Lai et al. Correcting face distortion in wide-angle videos
Gallea et al. Physical metaphor for streaming media retargeting
KR20180069312A (ko) 라이트 필드 동영상을 이용한 물체 추적 방법 및 장치
Kiess et al. GPU video retargeting with parallelized SeamCrop
Du et al. Video retargeting based on spatiotemporal saliency model
Koçberber et al. Video retargeting: video saliency and optical flow based hybrid approach

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees