TWI244005B - Book producing system and method and computer readable recording medium thereof - Google Patents
Book producing system and method and computer readable recording medium thereof Download PDFInfo
- Publication number
- TWI244005B TWI244005B TW090122705A TW90122705A TWI244005B TW I244005 B TWI244005 B TW I244005B TW 090122705 A TW090122705 A TW 090122705A TW 90122705 A TW90122705 A TW 90122705A TW I244005 B TWI244005 B TW I244005B
- Authority
- TW
- Taiwan
- Prior art keywords
- book
- illustration
- text
- data
- production
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Television Signal Processing For Recording (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
1244005 修_ _案號 90122705_年月 日 五、發明說明(1) 【發明領域】 本發明係關於一種圖書製作系統與方法,特別關於一 種利用一電腦軟體分析一視訊源(Vide〇)以自動產生繪 :、畫冊、漫晝、電子書等圖書文件的圖書製作系統與方 法0 【習知技術】 根據目前的技術,一般在製作繪本、晝冊、漫晝、電 子書等圖書時,其内容的來源通常仍利用又工繪^旦或是 藉由電腦針對單張影像一一編輯整理,以便彙編成書冊。 然而,隨著數位攝影機、電視卡(TV Tuner Card )、機上盒(Setup Box) 、DVD、VCD等電子資訊產物的 日益普及,使用者可以很容易地取得數位視訊,因此,利 ,電恥處理視汛源以產生圖書文件,儼然成為電腦多媒體 读域的重要應用與需求。 .如上所述,當所得到的影像資料不是單張影像而是連 續影像的視訊源時,使用者必須將連續影像的視訊源分解 成複數張影像,然後才能夠藉由電腦針對該等影像編輯整 理成冊。然而,對於一般的視訊内容(Video content) 而言,在NTSC標準中,其撥放一秒鐘可能是包含29 97張 影像的連續切換,而在PAL標準中,其撥放一秒鐘可能是 包含25張影像的連續切換,所以,一分鐘長的視訊内容便 具有1500〜1800張影像’如果使用者--編輯每一張影 像’將是一件非常耗時而沒有效率的事。 第4頁 1244005
皇號9Q1乃7M 修正 五、發明說明(2) 月日 因此,如何能夠有效率 旦冊、漫晝、電子書等 利用視訊内容來產生繪本、 題。 ΰ曰文件’正是當前-個重要的課 【發明概要】 的為提供一種圖書製作系 視訊源以產生繪本、畫 圖書製作系統係用來產生 一圖書,且包括一視訊接 取模組、一插圖擷取模組 中,視訊接收模組接收、一 訊資料以取得一視訊資 種視訊袼式,文字擷取模 中取得文字部》,插圖梅 料中搁取至少一關鍵晝面 ,然後圖書產生模組依 生圖書。 观 系統更包括一編輯模組、 組、以及一製作方 擇模組接受一使用二 使用者之操作以4= 模組接收使用者選 曰 模組便套用所選出=需 <圖書 針對上述問題,本發明 統與方法,其係能夠自動目 冊、漫晝、電子書等圖書文 為達上述目的,依之 包括一文字部分及-插圖部= 收杈組、一解碼模組、一〜勺 以及-圖書產生模組。在本 原視讯貝料,解碼模組解碼 料,而原視訊資料可以是任^ 組則依據-製作方針自視訊 取模組則依據製作方針自視气二 (key frame )以作為插圖部八貧 所取得之文字部分與插圖部分77產 另外,依本發明之圖書製 一圖書格式(tempiate )選擇模 模組。在本發明中,製作方針驾 所需之製作方針,編輯模組接= 之内容進行編輯,圖書袼式選擇 的至少一圖書袼式,而圖書產生
1244005 _案號 90122705 年月日 修正 _ 五、發明說明(3) 格式來排版文字部分與插圖部分以產生圖書。 如上所述,製作方針選擇模組所能夠選擇之製作方針 係包括一音訊(a u d i 〇 )分析演算法則、一字幕(c a p t i ο η )分析演算法則、一場景/鏡頭變換分析演算法則以及一 影像分析演算法則,其中,音訊分析演算法則係一種分析 視訊資料之音訊資料的演算法則;字幕分析演算法則係一 種分析視訊貨料之字幕貧料的演鼻法則;場景/鏡頭變換 分析演算法則係一種分析視訊資料之場景/鏡頭變換資料 的演算法則;影像分析演算法則係一種分析視訊資料之影 像資料的演算法則,而且其可以將影像資料與預先提供之 一影像範例資料作比對分析,或是將影像資料與預先提供 之一物體資料作比對分析,或是分析出影像資料中的一字 幕影像資料。 因此,文字擷取模組與插圖擷取模組能夠依據上述之 音訊分析演算法則、字幕分析演算法則、場景/鏡頭變換 分析演算法則、或是影像分析演算法則來取得製作圖書所 需的文字部分與插圖部分等資料,接著,圖書產生模組將 上述文字部分與插圖部分套入圖書格式中,於是便自動產 生繪本、晝冊、漫晝、電子書等圖書文件。 本發明亦提供一種圖書製作方法,其包括一視訊接收 步驟、一解碼步驟、一文字擷取步驟、一插圖擷取步驟以 及一圖書產生步驟。在本發明中,視訊接收步驟先接收原 視訊資料,接著解碼步驟解碼原視訊資料以取得視訊資 料,然後文字擷取步驟與插圖擷取步驟分別自視訊資料中
1244005 90122705 五、發明說明(4) 擷取出製作圖書所需之文字 生步驟依據文字部分與插圖 另外,依本發明之圖書 於®書產生後編輯圖書之内 使用者選取所需之圖書格式 圖書袼式來產生圖書、以及 者選取所需之製作方針。 由於依本發明之圖書製 ,訊源,並配合多種視;格 字辨識、聲音辨識等技術, 子書等圖書文件,所以能夠 圖書文件。 修正 插圖部☆,最後圖書產 哔刀產生圖書。 ΐ作=法更包括一編輯步,驟用 , 圖書格式選擇步驟以便 一制=讓圖書產生步驟套用該 衣方針瑪擇模組以便使用 2系統與方法能夠自動分析一 1洋且整合視訊内容分析、文 ^繪本、畫冊、漫畫、電 有效率地利用視訊内容來產生 【車父佳實施例之詳細說明】 以下將參知、相關圖式’說明依本私afl t彳土〜 書製作系統與方法,其中相同的元::明f佳貫施例之圖 加以說明。 件將以相同的參照符號 請參照圖1所示,依本蘇明鲈杜 統1係用來產生包括一圭貫施例之圖書製作系 一圖金sn ^栝文子邛为801以及一插圖部分802之 -製;二一視訊接收模組1〇1、一解碼模組102 ' 1 η十k擇杈組103、一文字擷取模組104、一插圖擷 二以Γ5、一圖書格式選擇模組106、-圖書產生模組 1 υ 7以及一編輯模組1 0 8。 在本實施例中,圖書製作系統丨可以應用於一電腦設 第7頁 1244005
曰 修正 備60中,而電腦設備60可以是習知的電腦裝置,立包括— :號源介面601、一記憶體6 02、— +央處理單元(cpu) 入二輸入裝置6〇4以及一儲存裝置6 0 5。其中,訊號源 二面〇1係與一訊號源輸出裝置或是一訊號源紀錄裝置連 接,例如是光碟機、FlreWlre (IEEE 1 394丨以”。“ (U⑷等介面袭置,而篇號源輸出裝置 '疋數位攝衫機,戒5虎源紀錄裝置例如是VCD、DVD等。 Ϊ =〇2.可以或,_等任何-種或數種設置於 電細衣置中的暫存記憶體。中央處理單元6〇 習知之中央處理器架冑,例如,包括AU、暫存器 腦以種資料之處理與運算,“及控制電 用者自行輸入訊息,或是操作各軟體模組的 儲存衣置60 5可以是硬碟機、軟碟機等公
數種電腦可讀取之資料儲存裝置。 裡A - 中的各模組係指儲存於儲存裝置6 05中或是 組之後=的軟體模M。中央處理單元603於讀取各模 SI二腦設備6°中的各元件來實現各模組的 力此然而需注意者,熟習該項技術者亦可將本 所揭露之軟體模組製作成硬體,如A s IC 、' ^Pp^ic=i〇n_specific …以加以 circuit)晶 4,而不运反本發明之精神與範疇。 在本實施例中,視訊接收模組i 〇1接收一原視訊資料 以下,細說明本實施例中各模組之功能。
1244005 __—^^——90122705 _—…土—…J__ΰ___f 止 — 五、發明說明(6) 4 v, 解碼模組1 0 2解'滿原視訊資刺4 G κ取得 視訊資制 4 1 ’製作方針選擇模組1 〇 3係接受一使用者的操作以選取 所需之一製作方針50 5文字擷取模組1 〇4則依據製作方針 5 0自視訊資料4 1中取得文字部分8 〇 1,插圖擷取模組1 〇 5則 依據製作方針5 0自視訊資料4 1中擷取至少一關鍵晝面以作 為插圖部分8 〇 2,而圖書格式選擇模組1 〇尽接收使用者之選 擇以提供至少一圖書格式7 0,圖書產生模組1 〇 7係套用圖 書格式7 0,並依據所取得之文字部分8 〇 1與插圖部分8 〇 2產 生圖書80,最後,編輯模組1〇8於圖書8〇產生之後,接受 使用者操作以編輯圖書8 0之内容。 如上所述,視訊接收模組丨係與訊號源介面6 〇 1配 合,例如,視訊接收模組1〇1可以透 1 3 9 4 I n t e r f a c e )取得儲存於數位攝影機中的原視訊資料 40,或是透過光碟機取得記錄於VCD、DVD中的原視訊資料 40。原視訊資料40係由各種視訊擷取裝置或接收裝置如數 位攝影機、電視卡、機上盒等,以及各種視訊儲存裝 DVD、VCD所儲存、傳送、廣播(Br〇adcasting)或接收的視 訊源,且其能夠以各種視訊資料格式(如MpEG —丨,mpeg MPEG4,AVI,ASF,MOV等)儲存、傳送、廣播或接收。, 、解碼模組1 〇2能夠針對輸入的原視訊資料4〇之視 式、編碼方式、或壓縮方式進行解碼轉換還原為編碼° 貢料或近似於編碼前之資料,例如,若編碼方式採用 壓縮方式(一Lossy C⑽pressi〇n),則解碼後只能夠取失 似於編碼丽之貢料,以便產生一視訊資料41。纟本實心
第9頁 1244005 ----_案號90122705_生月日 絛正_ 五、發明說明(7) 中p視訊資料41包括一音訊資料411、一字幕資料4丨2以及 :影像資料4 1 3。音訊資料4 1 1為視訊資料4 1中所撥放的聲 曰’予幕資料4 1 2為配合影像資料4 1 3出現於螢幕上的字幕 串流(caption stream);影像資料413為視訊資料41所 ,不的所有單張影像,通常每秒鐘的視訊資料4丨係由2 5張 單張影像或2 9 · 9 7張單張影像連續撥放所構成。 製作方針選擇模組1 0 3係與輸入裝置6 〇 4配合,以便由 1用者利用輸入裝置604選擇製作圖書80時所必須遵循的 製作方針5 0,而依本實施例所提供的製作方針5 〇包括一音 汛演算法則5 〇 1、一字幕、分析演算法則5 〇 2、一影像分 析廣算法則5 0 3以及一場景/鏡頭變換分析演算法則5 〇 4。 承上所述’音訊分析演算法則5 〇 1係分析視訊資料4工 的音訊資料411,並利用特徵抽取(Features Extracti〇n) 與特徵匹配(Features Matching)方式進行分析。音訊資 料4 11之特欲包括如頻譜特徵($ p e c t r & 1 F α κ $ )、音量 (Volume)、零軸交會率(Zer〇 Cr〇ssing Rate)、音調 (Pitch)等。如上所述,當抽取頻譜特徵(Spectrai Features)後,其經由雜音衰減(N〇ise “心以丨⑽)、分段 (Segmentation),並利用快速傅利葉轉換(以^ F〇urier Transform)將音訊資料411轉至頻率域(FreQuency),然後 由一組頻率濾波器(Fi lters)進行特徵值抽取,這組特徵 值,成一個頻譜特徵向 t(Spectral Feature Vect〇r)。 曰里疋合易里測之一種特徵,其可利用均方根值(rms, Root Mean Square )抑本甘此心y士 以"以 4 〃 η表其特徵值,然後藉由音量
1244005 _案號 90122705_年月日___ 五、發明說明(8) (Volume)分析可輔助分段(Segmentation)之進行,亦即透 過靜音偵測(S i 1 e n c e D e ΐ e c t i ο η )幫助音訊資料4 1 1段落邊 界(Boundaries)之決定。零轴交會率(Zero Crossing Rate)為計算每段(Clips)聲音波形(Waveform)與零軸 (Zero Axis)交會之次數。音調(Pi tch)為聲音波形 (Waveform)的基頻(Fundamental Freque’pcy)。因此,音 訊資料4 11可利用上述之音訊特徵及其特徵值所組成之特 徵向量(Feature Vector)與音訊樣本(Audio templates) 之特徵進行分析比對,以便取得所需的音訊資料4 i i,並 經由語音辨識技術取得文字部分8 〇 ΐ,並取得於視訊資料 4 1中與所需之音訊資料4 11對應之影像資料4丨3以作為插圖 部分80 2。在本實施例中,音訊分析演算法則5〇ι可以預先 提供音訊樣本類別,如音樂(Music)、語音(speech)、動 物聲(Animal Sound)、男聲(Male Speech)與女聲(Female
Speech)等,以供使用者選擇所欲尋找之音訊類別,因 此,特徵匹配便於容許的距離範圍内,尋找與音訊資料 411的特徵向量(Feature Vector )具有最短幾何距離 (Euclidean Distance)的音訊樣本類別,若此最接近之音 訊樣本類別與使用者所選擇之音訊類別㈣,則該音訊資 枓411符合搜尋條件,另外,可以利用最短幾何距離的倒 數(Inverse)來表示所選擇之音訊資料411的可信度 (Confidence),從符合音訊樣本類別之音訊資^^丨找出 ,應之視Λ旦面^又落(c ΐ i p s ),並從這些視訊晝面段落的 母鏡頭中挑選出第一個符合取圖需求的影像作為插圖部
第11頁 1244005 年 月 修_ 曰 _案號901227的 五、發明說明(9) 为8 0 2 ( 即音汛分析演算法則5 〇 i可配合場景/鏡頭變換 =析凟算法則5 0 4運用已知的場景/鏡頭變換分析技術,取 付關鍵晝面,以作為圖書8 〇之插圖部分8 〇 2,相關技術手 段谷後况明)。另外,若視訊資料4丨包括字幕串流 CCapti⑽Stream) ’則解讀所選擇之音訊資料4U所對應 之視貝料4 1内的字幕串流,來作為圖書8 〇之文字部分 8/ 1J若視訊資料4 1未包括字幕串流,則解讀所選擇之音 Λ貝料411内之音訊資料41丨並利用語音分析廛辨識技術 (Speech Analysis and Recognition)進行語音與文字 (Voice to Text )的轉換處理,以作為圖書8〇之文字部分 8 0 1、。另外,音訊分析演算法則5 〇丨之運算複雜度低於影像 或視覺(Visual)分析,並可作為影像或視覺(Visual)分析 之引導及輔助資料。 本發明實施例中音訊分析演算法則5 〇 1運用已知的語 音分析與辨識技術,藉由音量(volume)分析輔助分段 (Segmentation)之進行,亦即透過靜音偵測(Silence Detection)確定音訊資料411段落邊界(B〇undaries),將 視sfl >料41的音訊資料411分段(Segmentation)。音訊資 料4 11中第i個段落表示為s egme n t [ i ]其對應的之視訊書 面段落(C 1 i p s ),以C 1 i p [ i ]表示,包括音訊特徵如頻譜 特徵(Spectral Features)、音量(Volume)、零轴交會率 (Zero Crossing Rate)、音調(Pitch)等特徵所組成的特 徵向量以AudioVec (Segment[i])表示,使用者所選擇的 音说樣本類別(如音樂(Music)、語音(Speech)、動物聲
第12頁 1244005 案號90122705 _年月曰________修正_ 五、發明說明(10) (Animal Sound)、男聲(Male Speech)與女聲(Female Speech)等)之特徵向量以AudioVec (U s e r — A u d i ο — t e m p 1 a ΐ e ),則音訊分析演算法則5 0 1可表 示為: /*註:運用已知的語音分析與辨識技術 If dist (AudioVec (Segment[i] ) , A u,d i ο V e c (User_Audio —temp 1 ate ) )<T_audi oVec Then{
Segment[i] is selected and Apply 場景/鏡頭變換分析演算法則5 04 to C1 i p[i ] and
Save the First Non-Black and Non-Blank and
Non-Transition Frame after each Scene/Shot Boundary in C1ip [ i ] to插圖部分8 02 and
Extract words in Cl ip[ i ] to 文字部分 801 /*可依預設的圖書格式置入文字部分8 〇 1舆插圖部 分802 */ } END If 其中dist表示幾何距離(Euclidean Distance)取絕 對值,T_audioVec為對應音訊特徵所設定的門檻值 (Threshold Value),表示若 Segment[i]音訊特徵與 使用者所選擇的音訊樣本之音訊特徵差異值在門檻值内則 Segment[i]是符合使用者所選擇的音訊段落。另外 ^
第13頁 1244005 案號 90122705 年 月 修正 五、發明說明(11) % 則
Extract words in Clip[i] 可利用語音分析與辨、 (Speech Analysis and Recognition)進行語音* 丄枝 (Voice to Text )的轉換處理或採用字幕分析演算个 502之原理擷取Clip[i]中的文字作為文字部分80J t 另外,字幕分析演算法則5 0 2係分析視訊資料4 j 字幕資料4 1 2,並篩選具有字幕之視訊晝'面。換言之中的 視訊資料41包括字幕串流則解讀字幕串流以作為立〜^ 人予部八
8 0 1 ’並哥找與字幕對應且時間同步之第一個視訊書面刀 為插圖部分8 0 2 ;若視訊資料4 1未包括字幕串流,而是^ 幕包含於視訊影像中則利用文字辨識技術將字幕 (Captions/Subt it les)從視訊影像中抽取出來作為文字部 分8 0 1,並針對篩選取得之視訊影像進行影像處理移除字 幕(可藉由前後視訊影像之資料進行内差法的運算處理), 以取得無字幕的視訊影像以作為插圖部分802。如上所 述,文字辨識技術主要利用光學文字辨識技術(OCR,
Optical Character Recognition)進行文字辨識。光學文 字辨識技術已運用於許多文字辨識軟體,在此不再贅述。
運用已知的光學文字辨識技術,將視訊資料4 1中第i 個視訊畫面表示為Frame [ i ],其文字部份表示為 Frame —Word[ i ],其圖片部份表示為 Frame— P i cture [ i ] 則本發明實施例中字幕分析演算法則5 〇 2可表示為: Frame—Word[0]二NULL
Frame— Picture[0]二NULL N為視訊資料4 1之視訊畫面的總數
第14頁 1244005 ———_案號90122705_年月曰 修正_ 五、發明說明(12)
For i=l to N
If there are words in F r ame [ i ] or /木註:運用已 知的文字辨識技術* / there are captions or subtitles for
Frame[i ]
Then { extract words or captions or subtitles from Frame[i ] and Save as Frarae_Word[i], remove words or captions or subtitles from
Frame[i ] and Save as Frame_ P i cture[i] }
End If ; IF F rame_Word[i ] Not Equal To Frame_Word[i-1] AND Not Equal To NULL Then {
Save Frame__Word[i] to 文字部分801 and Save Frame_ Picture[i] to插圖部分802 / *可依預設的圖書格式置入文字部分8 0 1與插圖部 分802 */ }
Else {
第15頁 1244005
1244005
案號 90122705 五、發明說明(14) 技術’將視訊資料41與本發明實施例中預先提供的影 例育料5 0 3 1如人臉、人形、車子等影像物件範例類別做 較’以便找尋影像視覺特徵相似性大之晝面,若將視訊資 料41中第i個視訊畫面表示為Frame[i],其圖片部份/ 示為Frame— Picture[i], 其文字部份表示為 Frame_Word[ i ],使用者所選擇的影像範例類別以 User__0bject—Type表示,則本發明實施例中影像分析演算 法則5 0 3可表示為:
Frame_Word[0]=NULL Frame_ Picture[0]=NULL N為視訊資料4 1之視訊畫面的總數 For i = 1 to N
If there are words in Frame[i ] 〇r there are captions or subtitles for Frame[i] /*先圖文分離*/
Then { extract words or captions or subtitles from Frame[i ] and Save as Frame_Word[i], remove words or captions or subtitles from Frame[i ] and Save as Frame_ Pi cture[i] }
Else {
第17頁 1244005 __ 案號90122705 年月日 修正_ 五、發明說明G5)
Frame— Picture[i] = Frame[i] and Frame_Word[i] =NULL }
End If ; IF F rame_Wor d [ i ] Not Equal To Fra,me_Wor d [ i -1 ] AND Not Equal To NULL Then
Save Frame —Word[i] to文字部分801 /*擷取文字部分80 1*/ / *並可依預設的圖書格式置入文字部分8 0 1 * /
Else
Skip F rame^Word[i] /* Frame—Word[i]不要置入文字部分801 */
End If ; /*註:運用已知的影像分析、辨識與比對技術*/ IF there are NO User—Object—Type in Frame— Picture[i]
Then {
Skip Frame_ Picture"] and /* Frame— Picture[i]不要置入插圖部分802 並移除沒有User — Object_Type物件的圖片*/
Frame— Picture[i]二NULL
第18頁 1244005
五、發明說明
End If ;
END FOR /*利用文字辨識技術將字幕從視訊影像中抽取出來作為文 子部分8 0 1,另外,將視訊資料4丨與使用者所選擇的影像 範例類別做比較,以運用0bject Detecti〇n或pattern D e t e c t i ο η技術對圖片部份進行物件偵測木/
For i=l to N / *註:運用已知分鏡技術,影像分析演算法則5 〇 3可設定 成同一鏡頭僅篩選一個畫面以作為插圖部分8 〇 2 * /
If Frame— Picture[i] NOT EQUAL TO NULL and dist (Pic_Vec(Frame_ Picture[i])5 Pic_Vec (Frame— Picture[i-l]))>Tshot then {
a shot boundary is detected and Save Frame_ Picture[i] to插圖部分802 /*可依預設的圖書格式及依Frame_ Picture[i]與Frame_Word[i]的相對位置置入插圖部分 802 氺 / END IF i 二 i + 1
第19頁 1244005 __案號 90122705_年月日_ 五、發明說明(17) END FOR / *影像分析演算法則5 0 3可設定同一鏡頭僅篩選一個晝面 以作為插圖部分8 0 2 * / 其中di st 表示幾何距離(Euclidean Distance)取絕 對值’ Tshot 為對應視覺特徵所設定的門檻值 (Threshold Value) ,Frame— Pi c turej i ]的視覺特徵所 組成的特徵向量以Pic —Vec(Frame— Picture[i])表示,視 覺特徵如亮度(Luminance)、色彩(Color)、紋理 (Texture)、形狀(shape)、頻譜特徵等,當一畫面之視 覺特性與前一畫面之視覺特性差異達到某一程度時,就可 在此畫面與前一畫面間作一分割,此為廣泛運用於視訊編 輯軟體的分鏡技術。 場景/鏡頭變換分析演算法則5 0 4係分析視訊資料4 1中 ,像資料413的場景/鏡頭變換,並篩選視訊資料41中影像 資料41 3的場景/鏡頭變換後第一個符合條件之晝面,以作 為圖書80之插圖部分8〇2以及視訊資料41之段落的分割 亦即疋,若視訊資料41包括字幕串流則解讀視訊資料 41之段落内的字幕資料4 12以作為圖書80之文字部分8(H ; 若視Λ為料4 1未包括字幕串流則解讀視訊資料^之段落内 m4u ’並利用語音分析進行語音與文字的轉換 為圖書8。之文字部分謝。一般而言,視訊資料 係為一視訊串列(Video seQuence),其通常由許多場景 (c:nes):組成’而每一場景又由複數個鏡頭(編幻所 ,,且成。在β片巾,其最小單位是一個鏡頭,而影片便是由
1244005 _________案號—90122705 年月 - ’欠-
MW**·-" ......................................__ 口 11爹 jlL 五、發明說明(18) — ~一 — ·—·一一— 許夕巧鏡頭所堆部起來的·么扇本中其 】留位是锢 場景,或稱作場戲,場景表示每一故事或題材二二2;; 一場景具有一明確的事件發生起始點’也具有一明確的結 束點,在這樣的一段時間範疇中便稱作一場景,或稱作一 場戲。通常,一個鏡頭由複數個視覺特性(如亮度 (Luminance )、色彩(color)、紋理(Te?ture)、形狀 (811&1^)、動作(河〇1;丨〇11))具一致性之晝面(1?1^11163)所組 成,並且,其係依據攝影機運動方向(Camera Directi〇n) 與攝影取景角度(V i ew A ng 1 e)的改變而有變化,例如,當 攝景> 機以不同之攝影取景角度來拍攝同一場景時,會產生 =同之鏡頭,或以相同之攝影取景角度但拍攝不同之區域 時,亦會產生不同之鏡頭。由於鏡頭可由一些基本視覺特 性而區分,因此將視訊資料41分割成複數個連續的鏡頭是 相當容易達成的’此技術主要藉由分析一些基本視覺特性 之統計資料如視覺特性柱狀圖(H i s t 〇 g r a ra ),因此,當一 晝面之視覺特性與前一晝面之視覺特性差異達到某一程度 時’亦即大於設定的門檻值時,就可在此晝面與前一畫面 間作一分割,此分鏡技術亦廣泛運用於視訊編輯軟體。本 貫施例中場景/鏡頭變換分析演算法則5 〇 4中的鏡頭變換分 析演算法則,採用較傳統的分鏡技術僅藉由一些基本視覺 特性而區分,較複雜的分鏡技術可增加比對前後晝格中物 件相似區域的多募是否小於設定的門檻值,如果小於設定 的門檻值,表示前後晝格相似性低,兩晝面間有一分鏡 點。
1244005 案號90122705_年月_ _ 曰 修正_ 五、發明說明(19) 本實施例中若將視訊資料4 1中第i個視訊晝面表示為 Frame [ i ], 則本發明實施例中鏡頭變換分析演算法則可 表示為:
Frame [0]=NULL Total_ Sho t = 0 For i = l to N /木註:運用已知分鏡技術* /
If dist (Pic—Vec(Frame[i]), Pic—Vec (Frame [i - 1 ] ) ) > 丁 s h o t then { a shot boundary is detected and
Total_Shot= Total_Shot+l /*計算鏡頭的總 數*/
Location—Shot[Total_Shot]二i /*標記新增鏡頭的起始晝格為第i畫格*/ /* 前一鏡頭Location—Shot[Total—Shot-Ι]的終 止畫格可輕易計算出為L〇cation_Shot[Total—Shot]-l畫 格*/ — }
END If i -i + 1 END FOR /、中dist表示幾何距離(EucHdean Distance)取絕 對值’ Tshot為對應視覺特徵所設定的門檻值(Thresh〇ld
第22頁 1244005 曰 修正 案號 90122705 五、發明說明(20) V a 1 u e ) ,F r a m e [ i ]的葙與 4主外 a y Pic Vpr(v F . D主」的視覺特欲所缸成的特徵向量以 —Vec(Frame[i])表示,滿餐拉外 · )、色彩(c〇1〇r)、紋理(Te t見特f如亮度(Luminance 4i ά m ^ 、 exture)、形狀(Shape)、頻譜 W铖寺,當一書面之胡譽杜α如乂 、去d * 一 見特性與刖一晝面之視覺特性差異 /、轾度日守,就可在此晝面與前一查面間作一分割, 此為廣泛運用於視訊編輯軟體的分鏡技彳ς。
如上所述’將連績具關聯性之鏡頭聚成一場景係為場 換分析之目的,嚴謹的說,其必須了解視訊資料41之 β吾思及内容,不過結合音訊與視覺特性之分析亦可達到相 當程度合理之場景變換分析,通常場景變換會同時產生音 訊特性(如音樂、語音、雜音(Noise)、靜音(silence))與 視免特性(如壳度、色彩、動作)之性質變化,而鏡頭之分 割〃針對視覺特性進行分析,場景變換分析須同時倚重音 訊特性與視覺特性之分析。
應用場景/鏡頭變換分析技術已是熟悉視訊編輯軟體 開發者已習知之技術,其可有效地自動偵測場景/鏡頭變 換。本實施例中場景/鏡頭變換分析演算法則5 〇 4可將視訊 的特性(Features)分為三種類別,音量群(v〇iume Group)、能1群(?〇界6『Group)與頻譜群(Spectrum
Group),其中鏡頭i的三組特徵向量分別以 (Vec(shot[i]), Pvec(shot[i]), Svec(shot[i]))表示 則本實施例中場景/鏡頭變換分析演算法則5 04中的場景變 換分析演算法則表示為:
If dist (Vec(shot [ i ]), Vec(shot[i~1]))>TVec or
第23頁 1244005 __案號90122705_年月曰 修正_ 五、發明說明(21) dist (Pvec(shot[i]),Pvec(shot[i-l]))>TPvec or dist (Svec(shot[i]),Svec(shot[i-l]))>TSvec then { a scene boundary is detected and Save the First Non-Black and Non-Blank and Non-Transition Frame in shot[i] af t、e r the Scene Boundary to 插圖部分802 } END If 其中dist 表示幾何距離(Euclidean Distance)取絕 對值,shot [ i ] 表示第i個鏡頭,包括鏡頭起始畫格到終 止畫格的視訊影音段落亦即包括段落内的影像資料41 3與 音訊資料411 °TVec,TPvec,Tsvec為對應音量群(Volume Group)、能量群(power Group)與頻譜群(Spectrum G r o u p)所設定的門檻值(τ h r e s h ο 1 d V a 1 u e )其相關技術 與原理’為該領域者已習知之技術並可參考該論文在此不 在累述,其實驗結果準確度高於9〇%。如果門檻值 (Threshold Value)設得愈高對場景變換之靈敏度 (Sensitivity)越低,門檻值(Threshold Value)設得愈 低對場景變換之靈敏度(Sensitivity)越高,因此在本實 施例中及在其他視訊編輯軟體中可藉由提供使用者設定及 0周整對场景變換彳貞測的靈敏度($ e n s丨^丨v丨^ y )之需求,以 调整對應門檀值的大小,通常靈敏度(S e n S丨^丨V丨^ y )設定 越高所偵測的場景變換點愈多,取得關鍵晝面作為圖書8 〇
第24頁 1244005 案號 90122705 五、發明說明(22) 之插圖部分8 0 2的數量愈多。 本實施例中場景/鏡頭變換分析演算法則5〇4運用已知 的場景/鏡頭變換分析技術,分析視訊資料41中影像資料 41 3的%景/鏡頭變換點’並師選視訊資料4 1中影像資料 413的場景/鏡頭變換點後第一個符合非黑晝格(B][ack Frame)、非空白畫格(ank Frame )、、非轉場晝面 (Frame of Transition Effect)條件之晝面取為關鍵晝 面,以作為圖書80之插圖部分80 2以及視訊資料41之#一落 的分割點。亦即是,若視訊資料41包括字幕串流則解^賣視 訊資料41之段落内的字幕資料412以作為圖書8〇之文字部 分801 ·,若視訊資料41未包括字幕串流則解讀視訊資料^ 之段落内的音訊資料41 1,並利用語音分析進行語音與文 字的轉換處理以作為圖書80之文字部分8〇ι。若使用/者選 擇應用於不需文字的繪本、晝冊、著色圖書, ^ 取視訊資料41的文字資料。 、 而要裸 本發明說明書的各種分析演算法則,是以後處理 (Post —Processing)或離線(Off-line)處理的方处式表 示,熟悉電腦程式設計者可依需要輕易修改為即時$處1里 (Real-time )方式或線上(〇n—une )處理的方式實施。 文字擷取模組104與插圖擷取模組1〇5可以是儲^ ^ =° 存裝置605之一軟體模組,並透過中央處理單元^〇3 ^ = 來依據製作方針5 〇擷取所需之文字部分8 〇 1與插圖八算 802,以作為製作圖書8〇之内容。 、 °刀 圖書格式選擇模組1 〇 6所提供的圖書格式7 〇係如給
第25頁 1244005 __案號 90122705 年月日 修正 五、發明說明(23) 本、晝冊、電子書、漫晝等,並且可以配合不同之濾鏡 (Filters)如藝術家式滤鏡(Artistic Filters)、素描濾 鏡(Sketch Filters)、邊線濾鏡(Edge Filters),來套用 所取得之插圖部分8 0 2,以得到使用者想要之影像處理效 果(Effects) ’而圖書格式70與各種濾鏡係儲存於儲存裝 置605中。 -' 圖書產生模組1 〇 7可以是儲存在儲存裝置6 〇 5之一軟體 模組’並透過中央處理單元β〇3之運算,以便套用圖書格 式70 ’並利用如調整大小(Rescal ing)、影像合成(Image Composing)、製作圖框等影像處理(Image pr〇cessing)功 能’來處理所取得之文字部分8 〇 1與插圖部分8 〇 2,以便配 合使用者選擇之圖書格式7〇與字型、大小來產生圖書8〇。 最後’編輯模組108可以與輸入裝置6〇4配合,以便使 用者於圖書80產生之後,利用輸入裝置6〇4之操作來進一 步編輯圖書80之内容。 一 此外,本發明實施例中的圖書製作介面有兩種類型, 一種是内建於家電、電視或錄放影機、光碟播放機的簡易 製作介面,以0SD (〇n Screen Display)方式顯示於 發幕並配合遙控器(輸入裝置60 4 )的上、下、左、右、 =入、錄影、功能選單等按鈕操作,簡易圖書製二作介面如 蚩,所不’適合製作不需文字編輯的繪本、畫冊、著色圖 ^ j ^ ^要文字編輯步驟。使用者可由遙控器或家電上的 知:紐操作選擇進入圖4所示介面。 簡易圖書製作介面之圖書格式70可以提供繪本、畫
第26頁 1244005 月 修正 曰 案號 90122705 丨丨 五、發明說明(24) ::者色圖書、電子圖冊等,使用者介面可以用下拉式選 單讓使用者以搖控器的按紐選擇,若使用者選擇著色圖書 之圖曰格式,可產生類似如圖5所示之結果,並可產生供 小朋友練習著色的著色圖書。圖書格式7〇提供的各種佈置 版面(Uy〇Ut )可以以每頁的置入圖片數表示(1, 2, 3, 4,…張等),圖書格式之佈置版面選擇則讓使用者設定每 頁的置入圖片,使用者介面可以用下拉式選單讓使用者 以搖控為的按鈕選擇,如圖4所示為每頁置入兩張圖片的 圖書格式。特效/濾鏡選擇則提供使用者常用的特效盘濟 鏡如清晰特效、藝術特效、照明特效、藝術家式濾鏡〜 (Artistic Filters)、素描濾鏡(Sketch FiUers)、 濾鏡(Edge Filters)等,使用者介面可以用下拉式選單讓 使用者以搖控器、的按紐選擇。製㈣針選擇模址提供製 方針50,如提供音訊分析演算法則5〇1、字幕分析演算法 則5 0 2、影像分析演算法則5 〇3以及場景/鏡頭變換分析渖 算法則504等供使用者選擇’使用者介面可以用下拉^選 早讓使用者以搖控器的按紐選擇,當使用者選擇豆中、一 種製作方針後,簡易圖書製作介面會以〇SD (〇n Duplay )方式顯示並提供該種製作方針的細部選項, 音訊分析演算法則5G1可提供男|、女_等音訊樣本類另; 專細部?項供使用者選擇;如影像分析演算法則5〇3可提 供如人臉、人形、車子等影像物件範例類別供使用 擇;如場景/鏡頭變換分析演算法則5〇4可提供零敏声、 (Sensi tivi ty)調整及設定供使用者選擇。八v 又 第27頁 1244005 案號 9012270R 五、發明說明(25) 簡易圖書製作介面之圖書產生模組丨〇 7套用圖書袼式 70,利用如调整大小(RescaHng)、影像合成(1難以 Composing)、製作圖框等影像處理(Image ㈧技 術以提供列印圖書或圖書存檔的功能。簡易圖書製作介面 之編輯模組1 08可以提供簡易的編輯功能如刪除圖片等, ,用者介面可以用下拉式選單讓使用者供搖控器作為輸入 裝置6 0 4,以搖控器的按鈕選擇欲執行的編輯功能。 簡易圖書製作介面可有兩種操作方式,一是後處理 (P〇st-Processing)方式先錄製好視訊内容後,以遙控器 或家電上的按鈕操作選擇進入圖4所示介面,設定好圖二書 製作介面的選項並輸出所製作的圖書;另一是線上 曰 〃(〇n-line)處理的方式先設定好圖書製作介面的選項 後丄以遙控器或家電上的按鈕操作選擇輸入視訊源,以遙 控器起動圖書製作程序並以線上(〇n—Hne )處理的方式 產生圖書,使用者並可用遙控器結束圖書製作程序。工 本發明實施例中的圖書製作介面之另一類型,是適合 於安裝於電腦上執行的圖書製作介面,以電腦圖形介面口 praphic User Interface)顯示方式配合滑鼠與鍵盤作 1輪入裝置6 04可提供較複雜的編輯模組1〇8,此類型圖書 製作介面使用的技術與文書編輯軟體如微軟出版之〇f f丨二 等文書編輯軟體類似,詳細技術内容在此不再贅述。圖6 =電腦圖形介面(Graphic User Interface )顯示的圖奎 1作介面,在圖4簡易圖書製作介面啟動視訊接收模组1〇1 及選擇視訊源的功能可由遙控器或家電上的按鈕操作選 1244005 修正 五、發明說明(26) 擇,圖6為於電月肖l μ / 一 n 八 % - Χ 執灯的圖書製作介面,可用雷fi # 介面以顯示及操作視訊接 二】:細Η形 擷取ίΐί:收裝置以選擇視訊源並操取 書、電子圖冊等,#用去人二π m 1冊者色圖 (τ_ bar)讓使用=ΐ:…用下每式選單及工具列 所要埶行的功处〜盤作為輸入裝置60 4選擇 要執灯9力月b。電腦上執行的 7。可以提供的更多總類樣式的各種佈置版。二書J式 可以用下拉式選單哎工呈列Γτ 1 , ^ ^ lLay〇Ut), 點溪。雷r v拥 )或縮圖庫供使用者 裎报μ Ϊ Γ ΐ執仃的圖書製作介面之特效/濾鏡選擇可以 二4早或工具列(丁00l bar)或縮圖庫供使用點 執行的圖書製作介面之製作方針選擇模組提供 方針5 0,例如提供音訊分析演算法則5〇1、字幕分析 /秀算法則502、影像分析演算法則5〇3以及場景/鏡頭變換 分析演^法則50 4等供使用者選擇,使用者介面可以用下 f式選單或工具列(Tool bar)供使用者點選,當使用者 選擇其中的一種製作方針後,電腦上執行的圖書製作介面 可以用視窗的顯示方式(如彈出式視窗(p〇p — up Wind〇w)) 以提供該種製作方針的細部選項,如音訊分析演算法則 5 0 1可提供男聲、女聲等音訊樣本類別等細部選項供使用 者選擇;如影像分析演算法則503可提供如人臉、人形、 車子等影像物件範例類別供使用者選擇;如場景/鏡頭變
第29頁 1244005 ___案號90122705_年月曰 修正_—一 五、發明說明(27) 換分析演算法則5 0 4可提供零敏度(S e n s i t i v i t y )調整及設 定供使用者選擇。 電腦上執行的圖書製作介面的圖書產生模組丨〇 7透過 中央處理單元603之運算,以便套用圖書格式70,並利用 如调整大小(Rescaling)、影像合成(Image Composing)、 製作圖框等影像處理(Image processin g)功能,來處理所 取得之文字部分8 0 1與插圖部分8 〇 2,以便配合使用者選擇 之圖書格式70與字型、大小來產生、儲存或列印圖書8〇, 圖f產生模組107亦可提供或呼叫印表機設定程式,提供 印單面或雙面、列印縮放比例、列印品質等列印設定及預 覽列印等功能。電腦上執行的圖書製作介面之編輯模組 1 0 8可以提供更多的編輯功能如以滑鼠拖移圖片順序、刪 除圖^ 剪下、修正文字、輸入文字等,使用者介面可以 用π乳與鍵盤作為輸入裝置6 〇 4,更容易執行更多的編輯 π π 意者,解碼模組102、文字擷取模組104與插圖擷 岡ΐ ^此5為圖書製作系統的内部處理模組,可以不須在 圖書製作介面上顯示。 說明:容更容易理解’ “下將舉-實例,以 心务 &仏貫施例之圖書製作方法的流程。 方法2中,并· 7 不,在依本發明較佳實施例之圖書製作 位攝影機中步印驟i01係接收原視訊資料40 ’例如’可以將數 以提供作兔制t的資料經由傳輸線送至訊號源介面601, 作為製作圖書80的晝面與内容。
1244005
、、,在步驟2 0 2中,解碼模組丨〇2係辨識原視訊資料4〇之格 式並解碼原視訊資料4〇以產生經過解碼之視訊資料4丨,例 如,原視訊資料40為lnteriaced MPEG — 2格式,亦即是, 一個訊框係由兩個訊場(f i e丨d )所組成,所以,在此步 驟中,可以先進行MPEG-2格式的解碼,然後利用内插法 (I n t e r ρ ο 1 a t i 〇 η )解交錯以得到視訊資料41。 在步驟2 03中,文字擷取模組1〇4與插圖擷取模組1〇5 依據製作方針50來分析視訊資料41以取得文字部分8〇1與 插圖,分80 2,其能夠依據音訊分析演算法則5〇1、字幕分 析演算法則5 0 2、影像分析演算法則5〇3以及場景/鏡頭變 換分析演算法則5 0 4,針對視訊資料41的每一視訊晝面與 内容(包含音訊内容),進行分析搜尋並篩選取得符合製 方針50的文字部分801與插圖部分8〇2,例如,若視气g 41包括字幕串流則解讀視訊資料41之字幕串流以作為文;; 部分801 ;若視訊資料41未包括字幕串流則解讀視訊資子 41之音訊,並利用語音分析進行語音與文字的轉換處理 作為文字部分801,並在與字幕串流或音訊對應之影像 擷取關鍵晝面作為插圖部分802,需注意者,本實施 以擷取複數張關鍵晝面來作為插圖部分8〇2。如圖3所示, 原視訊資料4 0經過解碼後會得到視訊資料4丨,Α包括二 張單張影像3〇1 (每秒25張或29.97張),而經過依據 方針50的分析搜尋後會從該等單張影像中擷取出關鍵查作 302以作為插圖部分802。 思面 步驟204係判斷是否已經完成視訊資料41中所有内容
1244005
案號 90122705 五、發明說明(29) 的分析比對,當未完成視訊資料41中所有内容的分析比對 時,重複進行步驟203,·當完成視訊資料41中 分析比對時,進行步驟2 0 5。 步驟205係判斷圖書8〇是否需要套用圖書袼式几,當 圖書80需要套用圖書格式7〇時,進行步驟2〇6,·當圖書8〇 不品要套用圖書格式70時,進行步驟2〇7。 在v驟2 0 6中’目書袼式選擇模組j 〇 6提供使用者選擇 所需之圖書格式7G,目書袼式7〇包括各種具有圖片、影 像、相片、繪晝或是繪圖之圖書樣板,例如,漫畫、繪 本、晝冊、電子書等,以及各種佈置版面。 在乂驟207中’圖書產生模組ip?依據於步驟m3中取 得之文子邛刀801與插圖部分8〇2,而且,當有進行步驟 206時,#用步驟2〇6中所提供的圖書格式7〇,&運用 之濾鏡,如藝術家式濾鏡、素描濾鏡、邊線濾鏡等, 理插圖部分8G2,以得到所f之影像處理效果,再处 調整大小’影像合成、製作圖框等影像處理功能得α 圖書格式70之影像晝面,然後,將文字部分8〇1與插^合 分802配合圖書格式7〇與字型、大小進行轉換處理, 生圖書80。 ^產 步驟20 8係判斷使用者是否進行手動編輯圖書8〇,卷 使用者要進打手動編輯圖書80時,進行步驟20 9。 田 在步驟2 0 9中,使用者係利用編輯模組108來預覽 (Pr=ieW )、修改(Refine )、修飾(Modify )圖書8〇 之内容。例如,使用者可以針對圖書80之重要内容的文字
第32頁 1244005 _案號 90122705_年月日_«_ 五、發明說明(30) 部分加上底線,或是文字加粗等;或是使用者可以另外插 入圖案等等。 綜上所述,由於依本發明較佳實施例之圖書製作系統 與方法能夠分析視訊資料4 1,以針對視訊資料4 1之音訊資 料411、字幕資料4 12及影像資料413,來整合視訊内容分 析、文字辨識、聲音辨識等技術,所以離夠有效率地利用 視訊資料來產生圖書文件。
以上所述僅為舉例性,而非為限制性者。任何未脫離 本發明之精神與範疇,而對其進行之等效修改或變更,均 應包含於後附之申請專利範圍中。
第33頁 1244005 _案號90122705_年月曰 修正_ 圖式簡早說明 【圖式簡單說明】 圖1為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之結構。 圖2為一流程圖,顯示依本發明較佳實施例之圖書製 作方法的流程。 圖3為一示意圖,顯示於本發明較隹、;實施例之圖書製 作方法中擷取關鍵晝面的示意圖。 圖4為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之圖書製作介面。 圖5為一示意圖,顯示依本發明較佳實施例之圖書製 作系統製作著色圖書。 圖6為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之另一圖書製作介面。 【圖式符號說明】 1 圖 書 製 作 系 統 101 視 訊 接 收 模 組 102 解 碼 模 組 103 製 作 方 針 選 擇 模組 104 文 字 擷 取 模 組 105 插 圖 擷 取 模 組 106 圖 書 格 式 選 擇 模組 107 圖 書 產 生 模 組 108 編 輯 模 組
第34頁 1244005 _案號 90122705_年月日_修正 圖式簡單說明 2 圖書製作方法 2 (H 〜209 依本發明較佳實施例之圖書製作方法的流音訊 資料 301 單張影像 302 關鍵晝面 40 原視訊資料 %, 41 視訊貢料 411 音訊資料 412 字幕資料 413 影像資料 50 製作方針 501 音訊分析演算法則 502 字幕分析演算法則 503 影像分析演算法則 5 0 3 1 影像範例資料 5 0 3 2 物體資料 504 場景/鏡頭變換分析演算法則 60 電腦設備 601 訊號源介面 602 記憶體 603 中央處理單元 604 輸入裝置 605 儲存裝置 70 圖書格式
第35頁 1244005
第36頁
Claims (1)
1244005 _案號90122705_年月日__ 六、申請專利範圍 1、 一種圖書製作系統,其係用來產生一圖書,該圖書包 含一文字部分以及一插圖部分,,該圖書製作系統包含: 一視訊接收模組,其接收一原視訊資料; 一解碼模組,其解碼該原視訊資料以取得一視訊資 料; 一文字擷取模組,其依據一製作方針自該視訊資料中 取得該文字部分; 一插圖擷取模組,其依據該製作方針自該視訊資料中 擷取一關鍵晝面(k e y f r a m e )以作為該插圖部分;以及 一圖書產生模組,其依據所取得之該文字部分與該插 圖部分產生該圖書。 2、 如申請專利範圍第1項所述之圖書製作系統,更包含: 一編輯模組,其於該圖書產生之後,接收一使用者之 操作以編輯該圖書之内容。 3、 如申請專利範圍第1項所述之圖書製作系統,更包含: 一圖書格式(template )選擇模組,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生模組係套用 該圖書格式產生該圖書。 4、如申請專利範圍第1項所述之圖書製作系統,更包含: 一製作方針選擇模組,其接受一使用者之選擇以提供 該製作方針。
第37頁 !244005
如申凊專利範圍第l項所述之圖書製作系統,其中該製 方針包含一音訊(audio )分析演算法則,其分析該視 2 ί料中的一音訊資料,該文字擷取模組係依據該音訊分 决异法則擷取該音訊資料以取得該文字部分,而該插圖 擷取模組係擷取與該音訊資料相對應之7影像資料以作為 該插圖部分。 3、如申請專利範圍第丨項所述之圖書製作系統,其中該製 作方針包含一字幕(caption )分析演算法則,其係分析 該視訊資料中的一字幕資料,該文字擷取模組係依據該字 幕分析演算法則擷取該字幕資料以取得該文字部分,而該 插圖擷取模組係擷取與該字幕資料相對應之一影像資料以 作為該插圖部分。 7、如申凊專利範圍第1項所述之圖書製作系統,其中該製 作,針包含一影像分析演算法則,其係依據一影像範例分 =該,訊資料中的一影像資料,該插圖擷取模組係依據該 ^像二析廣算法則擷取該影像資料以取得該插圖部分,而 "玄文子擷取模組係從與該影像資料相對應之該視訊資料中 取得該文字部分。 、 8如申啫專利範圍第1項所述之圖書製作系統,其中該製 作方針包含一影像分析演算法則,其係依據一物體分析該
第38頁 1244005
$訊資料中的一影像資料,該插圖擷取模組係依據該影 ^析演算法則擷取該影像資料以取得該插圖部分,而=文 字掏取模組係從與該影像資料相對應之該視訊資料中^〜 該文字部分。 机侍 9、如申請專利範圍第1項所述之圖書製作系統,其中該掣 作f Ϊ包含一影像分析演算法則,其係分析該視訊資料ί =了影像資料,該文字擷取模組係擷取該影像資料中的字 以作為該文字部分,而該插圖擷取模組係擷取該影像資 料以作為該插圖部分。 、 1 〇、如申請專 製作方針包含 該視訊資料中 模組與該插圖 則作為該文字 11、一種圖書 含一文字部分 一視訊接 一解碼步 料; 利範圍第1項所述之圖書製作系統,其中該 一場景/鏡頭變換分析演算法則,其係分析 一影像資料的場景/鏡頭變換,該文字擷取 擷取模組係以該場景/鏡頭變換分析演算法 部分與該插圖部分之選擇與分段的依據。 =方法,其係用來產生—圖書,該圖書 乂及-插圖部分’該圖書製作方法包含: ’其接收一原視Μ咨、,、,· 一文字擷取 取得該文字部分; 2步驟’其接收—原视訊資料:…— 驟,其解碼該原視訊資、λ 貝枓以取得一視訊] 步驟’其依據-製作方針自該視訊資
第39頁 1244005 _案號90122705_年月日_魅_ 六、申請專利範圍 一插圖擷取步驟,其依據該製作方針自該視訊資料中 掘取一關鍵晝面以作為該插圖部分;以及 一圖書產生步驟,其依據所取得之該文字部分與該插 圖部分產生該圖書。 1 2、如申請專利範圍第1 1項所述之圖書攀作方法,更包 含: 一編輯步驟,其於該圖書產生之後,接收一使用者之 操作以編輯該圖書之内容。
1 3、如申請專利範圍第1 1項所述之圖書製作方法,更包 含: 一圖書格式(template )選擇步驟,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生步驟係套用 該圖書格式產生該圖書。 1 4、如申請專利範圍第1 1項所述之圖書製作方法,更包 含:
一製作方針選擇步驟,其接受一使用者之選擇以提供 該製作方針。 1 5、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一音訊分析演算法則,其分析該視訊資料中 的一音訊資料,該文字擷取步驟係依據該音訊分析演算法
第40頁 1244005 _案號90122705_年月曰 修正_ 六、申請專利範圍 則擷取該音訊資料以取得該文字部分,而該插圖擷取步驟 係擷取與該音訊資料相對應之一影像資料以作為該插圖部 分。 1 6、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一字幕分析演算法則,其傪分析該視訊資料 中的一字幕資料,該文字擷取步驟係依據該字幕分析演算 法則擷取該字幕資料以取得該文字部分,而該插圖擷取步 驟係擷取與該字幕資料相對應之一影像資料以作為該插圖 部分。 1 7、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針係一影像分析演算法則,其係依據一影像範例分 析該視訊資料中的一影像資料,該插圖擷取步驟係依據該 影像分析演算法則擷取該影像資料以取得該插圖部分,而 該文字擷取步驟係從與該影像資料相對應之該視訊資料中 取得該文字部分。 1 8、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一影像分析演算法則,其係依據一物體分析 該視訊資料中的一影像資料,該插圖擷取步驟係依據該影 像分析演算法則擷取該影像資料以取得該插圖部分,而該 文字擷取步驟係從與該影像資料相對應之該視訊資料中取 得該文字部分。
1244005 _案號 90122705_年月曰 修正_ 六、申請專利範圍 1 9、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一影像分析演算法則,其係分析該視訊資料 中的一影像資料,該文字擷取步驟係擷取該影像資料中的 字幕以作為該文字部分,而該插圖擷取步驟係擷取該影像 資料以作為該插圖部分。 2 0、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一場景/鏡頭變換分析演算法則,其係分析 該視訊資料中一影像資料的場景/鏡頭變換,該文字擷取 步驟與該插圖擷取步驟係以該場景/鏡頭變換分析演算法 則作為該文字部分與該插圖部分之選擇與分段的依據。 2 1、一種電腦可讀取之記錄媒體,其係記錄用以使電腦達 成一圖書製作方法之程式,該圖書製作方法係用來產生一 圖書,該圖書包含一文字部分以及一插圖部分,該圖書製 作方法包含: 一視訊接收步驟,其接收一原視訊資料; 一解碼步驟,其解碼該原視訊資料以取得一視訊資 料; 一文字擷取步驟,其依據一製作方針自該視訊資料中 取得該文字部分; 一插圖擷取步驟,其依據該製作方針自該視訊資料中 擷取一關鍵晝面以作為該插圖部分;以及
第42頁 1244005 _案號90122705_ 年月曰__ 六、申請專利範圍 一圖書產生步驟,其依據所取得之該文字部分與該插 圖部分產生該圖書。 2 2、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一編輯步驟,其於該圖書產生之後}接收一使用者之 操作以編輯該圖書之内容。 2 3、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一圖書格式(template)選擇步驟,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生步驟係套用 該圖書格式產生該圖書。 24、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一製作方針選擇步驟,其接受一使用者之選擇以提供 該製作方針。 2 5、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一音訊分析演算法則,其分析該 視訊資料中的一音訊資料,該文字擷取步驟係依據該音訊 分析演算法則擷取該音訊資料以取得該文字部分,而該插 圖擷取步驟係擷取與該音訊資料相對應之一影像資料以作
第43頁 1244005 ---_ 案號 901227015__^_Λ-^ - 六、申請專利範圍 為該插圖部分。 2 6、如申請專利範圍第2丨項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一字幕分析演算法則,其係分析 α亥視Λ資料中的一字幕資料,該文字梅取步驟係依據該字 幕分析演算法則擷取該字幕資料以取得镇文字部分,而該 插圖掏取步驟係擷取與該字幕資料相對應之一影像資料以 作為該插圖部分。 ^,ί1睛專利範圍第21項所述之電腦可讀取之記錄媒 ^ 2該製作方針係一影像分析演算法則,其係依據一 =你2,f析該視訊資料中的一影像資料,該插圖擷取步 圖告、二彳違影像分析演算法則擷取該影像資料以取得該插 、回口 p刀,而该文字擷取步驟係從與該影像資料相對應之 視訊資料中取得該文字部分。 2ί I: ί利範81第21項所述之電腦可讀取之記錄媒 體’其中该製作方針句合_旦 、A Μ 一物體分析該視訊資料:沾衫像分析决鼻法則,其係依據 係依據該影像分析淹影像資料’該插圖操取步驟 部分,而該文字擷取拍貝取該影像資料以取得該插圖 訊資料中取得該文字’八從與該影像資料相對應之該視 29 士申明專利耗圍第2 1項所述之電腦可讀取之記錄媒 第44頁 1244005 _案號90122705_年月曰 修正_ 六、申請專利範圍 體,其中該製作方針包含一影像分析演算法則,其係分析 該視訊資料中的一影像資料,該文字擷取步驟係擷取該影 像資料中的字幕以作為該文字部分,而該插圖擷取步驟係 擷取該影像資料以作為該插圖部分。 3 0、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一場景/鏡頭變換分析演算法 則,其係分析該視訊資料中一影像資料的場景/鏡頭變 換,該文字擷取步驟與該插圖擷取步驟係以該場景/鏡頭 變換分析演算法則作為該文字部分與該插圖部分之選擇與 分段的依據。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW090122705A TWI244005B (en) | 2001-09-13 | 2001-09-13 | Book producing system and method and computer readable recording medium thereof |
| US10/034,390 US20040205655A1 (en) | 2001-09-13 | 2002-01-03 | Method and system for producing a book from a video source |
| JP2002109590A JP2003109022A (ja) | 2001-09-13 | 2002-04-11 | 図書製作システムと図書製作方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW090122705A TWI244005B (en) | 2001-09-13 | 2001-09-13 | Book producing system and method and computer readable recording medium thereof |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TWI244005B true TWI244005B (en) | 2005-11-21 |
Family
ID=21679315
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW090122705A TWI244005B (en) | 2001-09-13 | 2001-09-13 | Book producing system and method and computer readable recording medium thereof |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20040205655A1 (zh) |
| JP (1) | JP2003109022A (zh) |
| TW (1) | TWI244005B (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI585714B (zh) * | 2015-03-25 | 2017-06-01 | 納寶股份有限公司 | 用於產生漫畫資料的系統和方法 |
| TWI587207B (zh) * | 2015-01-16 | 2017-06-11 | 納寶股份有限公司 | 產生漫畫內容的設備和方法 |
| TWI616841B (zh) * | 2015-03-02 | 2018-03-01 | 納寶股份有限公司 | 產生漫畫內容的設備和方法以及顯示漫畫內容的設備 |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7447992B2 (en) * | 2000-08-17 | 2008-11-04 | E Media Ltd. | Method of producing publications, electronic publication produced by the method, and method and network system for displaying the electronic publication |
| JP4112968B2 (ja) * | 2002-12-26 | 2008-07-02 | 富士通株式会社 | ビデオテキスト処理装置 |
| AU2003900137A0 (en) * | 2003-01-14 | 2003-01-30 | Canon Kabushiki Kaisha | Process and format for reliable storage of data |
| US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
| EP1959449A1 (en) * | 2007-02-13 | 2008-08-20 | British Telecommunications Public Limited Company | Analysing video material |
| KR101890831B1 (ko) * | 2017-01-11 | 2018-09-28 | 주식회사 펍플 | 전자책 서비스 제공방법 및 그를 위한 컴퓨터 프로그램 |
| CN109168024B (zh) * | 2018-09-26 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种目标信息的识别方法及设备 |
| CN113672754B (zh) * | 2021-07-26 | 2024-02-09 | 北京达佳互联信息技术有限公司 | 图像获取方法、装置、电子设备及存储介质 |
| US12315506B2 (en) * | 2022-06-01 | 2025-05-27 | Google Llc | Biasing speech processing based on audibly rendered content, including dynamically adapting over duration of rendering |
| CN116320622B (zh) * | 2023-05-17 | 2023-08-18 | 成都索贝数码科技股份有限公司 | 一种广播电视新闻视频转图文稿制作系统和制作方法 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6288719B1 (en) * | 1998-10-26 | 2001-09-11 | Eastman Kodak Company | System and method of constructing a photo album |
| US6362900B1 (en) * | 1998-12-30 | 2002-03-26 | Eastman Kodak Company | System and method of constructing a photo album |
| US6571271B1 (en) * | 1999-05-03 | 2003-05-27 | Ricoh Company, Ltd. | Networked appliance for recording, storing and serving digital images |
| US6499016B1 (en) * | 2000-02-28 | 2002-12-24 | Flashpoint Technology, Inc. | Automatically storing and presenting digital images using a speech-based command language |
| US6823084B2 (en) * | 2000-09-22 | 2004-11-23 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
| US7031553B2 (en) * | 2000-09-22 | 2006-04-18 | Sri International | Method and apparatus for recognizing text in an image sequence of scene imagery |
| US20020144293A1 (en) * | 2001-03-27 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Automatic video retriever genie |
| US20030043172A1 (en) * | 2001-08-24 | 2003-03-06 | Huiping Li | Extraction of textual and graphic overlays from video |
-
2001
- 2001-09-13 TW TW090122705A patent/TWI244005B/zh not_active IP Right Cessation
-
2002
- 2002-01-03 US US10/034,390 patent/US20040205655A1/en not_active Abandoned
- 2002-04-11 JP JP2002109590A patent/JP2003109022A/ja active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI587207B (zh) * | 2015-01-16 | 2017-06-11 | 納寶股份有限公司 | 產生漫畫內容的設備和方法 |
| TWI608404B (zh) * | 2015-01-16 | 2017-12-11 | 納寶股份有限公司 | 顯示漫畫內容的設備和方法 |
| US10074204B2 (en) | 2015-01-16 | 2018-09-11 | Naver Corporation | Apparatus and method for generating and displaying cartoon content |
| TWI616841B (zh) * | 2015-03-02 | 2018-03-01 | 納寶股份有限公司 | 產生漫畫內容的設備和方法以及顯示漫畫內容的設備 |
| TWI585714B (zh) * | 2015-03-25 | 2017-06-01 | 納寶股份有限公司 | 用於產生漫畫資料的系統和方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003109022A (ja) | 2003-04-11 |
| US20040205655A1 (en) | 2004-10-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7362946B1 (en) | Automated visual image editing system | |
| CN102959951B (zh) | 图像处理装置、图像处理方法及集成电路 | |
| JP4269849B2 (ja) | マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム | |
| Berthouzoz et al. | Tools for placing cuts and transitions in interview video | |
| TWI244005B (en) | Book producing system and method and computer readable recording medium thereof | |
| TW544634B (en) | Thumbnail sequence generation system and method | |
| Chen et al. | Tiling slideshow | |
| US7844115B2 (en) | Information processing apparatus, method, and program product | |
| US20110243453A1 (en) | Information processing apparatus, information processing method, and program | |
| US20040264939A1 (en) | Content-based dynamic photo-to-video methods and apparatuses | |
| WO2007111707A9 (en) | System and method for translating text to images | |
| BRPI0920385A2 (pt) | aparelho e mÉtodo de processamento de imagem, e, programa | |
| CN118381971B (zh) | 视频生成方法、装置、存储介质、程序产品 | |
| CN102246225B (zh) | 用于合成语音的方法和设备 | |
| US20090055746A1 (en) | Multimedia presentation creation | |
| Hua et al. | Automatically converting photographic series into video | |
| CN1202471C (zh) | 图书制作系统与方法 | |
| Hua et al. | Photo2Video—A system for automatically converting photographic series into video | |
| Hong et al. | Movie2comics: a feast of multimedia artwork | |
| CN116634192A (zh) | 一种视频自动编辑方法 | |
| AU745436B2 (en) | Automated visual image editing system | |
| CN115665348B (zh) | 一种基于云模板的全自动视频快速合成方法 | |
| Hua et al. | Photo2Video | |
| KR20230114130A (ko) | 광고 영상 제작 시스템 및 방법 | |
| CN121174000A (zh) | 一种融合人文元素的航拍视频ai自动剪辑方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MK4A | Expiration of patent term of an invention patent |