TWI244005B

TWI244005B - Book producing system and method and computer readable recording medium thereof

Info

Publication number: TWI244005B
Application number: TW090122705A
Authority: TW
Inventors: Watson Wu
Original assignee: Newsoft Technology Corp
Priority date: 2001-09-13
Filing date: 2001-09-13
Publication date: 2005-11-21
Also published as: JP2003109022A; US20040205655A1

Description

1244005 修_ _案號 90122705_年月日五、發明說明（1) 【發明領域】本發明係關於一種圖書製作系統與方法，特別關於一種利用一電腦軟體分析一視訊源（Vide〇)以自動產生繪 :、畫冊、漫晝、電子書等圖書文件的圖書製作系統與方法0 【習知技術】根據目前的技術，一般在製作繪本、晝冊、漫晝、電子書等圖書時，其内容的來源通常仍利用又工繪^旦或是藉由電腦針對單張影像一一編輯整理，以便彙編成書冊。然而，隨著數位攝影機、電視卡（TV Tuner Card )、機上盒（Setup Box) 、DVD、VCD等電子資訊產物的日益普及，使用者可以很容易地取得數位視訊，因此，利，電恥處理視汛源以產生圖書文件，儼然成為電腦多媒體读域的重要應用與需求。 .如上所述，當所得到的影像資料不是單張影像而是連續影像的視訊源時，使用者必須將連續影像的視訊源分解成複數張影像，然後才能夠藉由電腦針對該等影像編輯整理成冊。然而，對於一般的視訊内容（Video content) 而言，在NTSC標準中，其撥放一秒鐘可能是包含29 97張影像的連續切換，而在PAL標準中，其撥放一秒鐘可能是包含25張影像的連續切換，所以，一分鐘長的視訊内容便具有1500〜1800張影像’如果使用者--編輯每一張影像’將是一件非常耗時而沒有效率的事。第4頁 1244005

皇號9Q1乃7M 修正五、發明說明（2) 月日因此，如何能夠有效率旦冊、漫晝、電子書等利用視訊内容來產生繪本、題。 ΰ曰文件’正是當前-個重要的課【發明概要】的為提供一種圖書製作系視訊源以產生繪本、畫圖書製作系統係用來產生一圖書，且包括一視訊接取模組、一插圖擷取模組中，視訊接收模組接收、一訊資料以取得一視訊資種視訊袼式，文字擷取模中取得文字部》，插圖梅料中搁取至少一關鍵晝面，然後圖書產生模組依生圖書。观系統更包括一編輯模組、組、以及一製作方擇模組接受一使用二使用者之操作以4= 模組接收使用者選曰模組便套用所選出=需 <圖書針對上述問題，本發明統與方法，其係能夠自動目冊、漫晝、電子書等圖書文為達上述目的，依之包括一文字部分及-插圖部= 收杈組、一解碼模組、一〜勺以及-圖書產生模組。在本原視讯貝料，解碼模組解碼料，而原視訊資料可以是任^ 組則依據-製作方針自視訊取模組則依據製作方針自視气二 (key frame )以作為插圖部八貧所取得之文字部分與插圖部分77產另外，依本發明之圖書製一圖書格式（tempiate )選擇模模組。在本發明中，製作方針驾所需之製作方針，編輯模組接= 之内容進行編輯，圖書袼式選擇的至少一圖書袼式，而圖書產生

1244005 _案號 90122705 年月日修正 _ 五、發明說明（3) 格式來排版文字部分與插圖部分以產生圖書。如上所述，製作方針選擇模組所能夠選擇之製作方針係包括一音訊（a u d i 〇 )分析演算法則、一字幕（c a p t i ο η )分析演算法則、一場景/鏡頭變換分析演算法則以及一影像分析演算法則，其中，音訊分析演算法則係一種分析視訊資料之音訊資料的演算法則；字幕分析演算法則係一種分析視訊貨料之字幕貧料的演鼻法則；場景/鏡頭變換分析演算法則係一種分析視訊資料之場景/鏡頭變換資料的演算法則；影像分析演算法則係一種分析視訊資料之影像資料的演算法則，而且其可以將影像資料與預先提供之一影像範例資料作比對分析，或是將影像資料與預先提供之一物體資料作比對分析，或是分析出影像資料中的一字幕影像資料。因此，文字擷取模組與插圖擷取模組能夠依據上述之音訊分析演算法則、字幕分析演算法則、場景/鏡頭變換分析演算法則、或是影像分析演算法則來取得製作圖書所需的文字部分與插圖部分等資料，接著，圖書產生模組將上述文字部分與插圖部分套入圖書格式中，於是便自動產生繪本、晝冊、漫晝、電子書等圖書文件。本發明亦提供一種圖書製作方法，其包括一視訊接收步驟、一解碼步驟、一文字擷取步驟、一插圖擷取步驟以及一圖書產生步驟。在本發明中，視訊接收步驟先接收原視訊資料，接著解碼步驟解碼原視訊資料以取得視訊資料，然後文字擷取步驟與插圖擷取步驟分別自視訊資料中

1244005 90122705 五、發明說明（4) 擷取出製作圖書所需之文字生步驟依據文字部分與插圖另外，依本發明之圖書於®書產生後編輯圖書之内使用者選取所需之圖書格式圖書袼式來產生圖書、以及者選取所需之製作方針。由於依本發明之圖書製，訊源，並配合多種視;格字辨識、聲音辨識等技術，子書等圖書文件，所以能夠圖書文件。修正插圖部☆，最後圖書產哔刀產生圖書。 ΐ作=法更包括一編輯步，驟用 , 圖書格式選擇步驟以便一制=讓圖書產生步驟套用該衣方針瑪擇模組以便使用 2系統與方法能夠自動分析一 1洋且整合視訊内容分析、文 ^繪本、畫冊、漫畫、電有效率地利用視訊内容來產生【車父佳實施例之詳細說明】以下將參知、相關圖式’說明依本私afl t彳土〜書製作系統與方法，其中相同的元：：明f佳貫施例之圖加以說明。件將以相同的參照符號請參照圖1所示，依本蘇明鲈杜統1係用來產生包括一圭貫施例之圖書製作系一圖金sn ^栝文子邛为801以及一插圖部分802之 -製；二一視訊接收模組1〇1、一解碼模組102 ' 1 η十k擇杈組103、一文字擷取模組104、一插圖擷二以Γ5、一圖書格式選擇模組106、-圖書產生模組 1 υ 7以及一編輯模組1 0 8。在本實施例中，圖書製作系統丨可以應用於一電腦設第7頁 1244005

曰修正備60中，而電腦設備60可以是習知的電腦裝置，立包括— :號源介面601、一記憶體6 02、— +央處理單元（cpu) 入二輸入裝置6〇4以及一儲存裝置6 0 5。其中，訊號源二面〇1係與一訊號源輸出裝置或是一訊號源紀錄裝置連接，例如是光碟機、FlreWlre (IEEE 1 394丨以”。“ (U⑷等介面袭置，而篇號源輸出裝置 '疋數位攝衫機，戒5虎源紀錄裝置例如是VCD、DVD等。 Ϊ =〇2.可以或，_等任何-種或數種設置於電細衣置中的暫存記憶體。中央處理單元6〇習知之中央處理器架冑，例如，包括AU、暫存器腦以種資料之處理與運算，“及控制電用者自行輸入訊息，或是操作各軟體模組的儲存衣置60 5可以是硬碟機、軟碟機等公

數種電腦可讀取之資料儲存裝置。裡A - 中的各模組係指儲存於儲存裝置6 05中或是組之後=的軟體模M。中央處理單元603於讀取各模 SI二腦設備6°中的各元件來實現各模組的力此然而需注意者，熟習該項技術者亦可將本所揭露之軟體模組製作成硬體，如A s IC 、' ^Pp^ic=i〇n_specific …以加以 circuit)晶 4，而不运反本發明之精神與範疇。在本實施例中，視訊接收模組i 〇1接收一原視訊資料以下，細說明本實施例中各模組之功能。

1244005 __—^^——90122705 _—…土—…J__ΰ___f 止 — 五、發明說明（6) 4 v, 解碼模組1 0 2解'滿原視訊資刺4 G κ取得視訊資制 4 1 ’製作方針選擇模組1 〇 3係接受一使用者的操作以選取所需之一製作方針50 5文字擷取模組1 〇4則依據製作方針 5 0自視訊資料4 1中取得文字部分8 〇 1，插圖擷取模組1 〇 5則依據製作方針5 0自視訊資料4 1中擷取至少一關鍵晝面以作為插圖部分8 〇 2，而圖書格式選擇模組1 〇尽接收使用者之選擇以提供至少一圖書格式7 0，圖書產生模組1 〇 7係套用圖書格式7 0，並依據所取得之文字部分8 〇 1與插圖部分8 〇 2產生圖書80，最後，編輯模組1〇8於圖書8〇產生之後，接受使用者操作以編輯圖書8 0之内容。如上所述，視訊接收模組丨係與訊號源介面6 〇 1配合，例如，視訊接收模組1〇1可以透 1 3 9 4 I n t e r f a c e )取得儲存於數位攝影機中的原視訊資料 40，或是透過光碟機取得記錄於VCD、DVD中的原視訊資料 40。原視訊資料40係由各種視訊擷取裝置或接收裝置如數位攝影機、電視卡、機上盒等，以及各種視訊儲存裝 DVD、VCD所儲存、傳送、廣播（Br〇adcasting)或接收的視訊源，且其能夠以各種視訊資料格式（如MpEG —丨，mpeg MPEG4，AVI，ASF，MOV等）儲存、傳送、廣播或接收。，、解碼模組1 〇2能夠針對輸入的原視訊資料4〇之視式、編碼方式、或壓縮方式進行解碼轉換還原為編碼° 貢料或近似於編碼前之資料，例如，若編碼方式採用壓縮方式(一Lossy C⑽pressi〇n)，則解碼後只能夠取失似於編碼丽之貢料，以便產生一視訊資料41。纟本實心

第9頁 1244005 ----_案號90122705_生月日絛正_ 五、發明說明（7) 中p視訊資料41包括一音訊資料411、一字幕資料4丨2以及 :影像資料4 1 3。音訊資料4 1 1為視訊資料4 1中所撥放的聲曰’予幕資料4 1 2為配合影像資料4 1 3出現於螢幕上的字幕串流（caption stream);影像資料413為視訊資料41所，不的所有單張影像，通常每秒鐘的視訊資料4丨係由2 5張單張影像或2 9 · 9 7張單張影像連續撥放所構成。製作方針選擇模組1 0 3係與輸入裝置6 〇 4配合，以便由 1用者利用輸入裝置604選擇製作圖書80時所必須遵循的製作方針5 0，而依本實施例所提供的製作方針5 〇包括一音汛演算法則5 〇 1、一字幕、分析演算法則5 〇 2、一影像分析廣算法則5 0 3以及一場景/鏡頭變換分析演算法則5 〇 4。承上所述’音訊分析演算法則5 〇 1係分析視訊資料4工的音訊資料411，並利用特徵抽取（Features Extracti〇n) 與特徵匹配（Features Matching)方式進行分析。音訊資料4 11之特欲包括如頻譜特徵（$ p e c t r & 1 F α κ $ )、音量 (Volume)、零軸交會率（Zer〇 Cr〇ssing Rate)、音調 (Pitch)等。如上所述，當抽取頻譜特徵（Spectrai Features)後，其經由雜音衰減（N〇ise “心以丨⑽）、分段 (Segmentation)，並利用快速傅利葉轉換（以^ F〇urier Transform)將音訊資料411轉至頻率域（FreQuency)，然後由一組頻率濾波器（Fi lters)進行特徵值抽取，這組特徵值，成一個頻譜特徵向 t(Spectral Feature Vect〇r)。曰里疋合易里測之一種特徵，其可利用均方根值（rms， Root Mean Square )抑本甘此心y士以"以 4 〃 η表其特徵值，然後藉由音量

1244005 _案號 90122705_年月日___ 五、發明說明（8) (Volume)分析可輔助分段（Segmentation)之進行，亦即透過靜音偵測（S i 1 e n c e D e ΐ e c t i ο η )幫助音訊資料4 1 1段落邊界（Boundaries)之決定。零轴交會率（Zero Crossing Rate)為計算每段（Clips)聲音波形（Waveform)與零軸 (Zero Axis)交會之次數。音調（Pi tch)為聲音波形 (Waveform)的基頻（Fundamental Freque’pcy)。因此，音訊資料4 11可利用上述之音訊特徵及其特徵值所組成之特徵向量（Feature Vector)與音訊樣本（Audio templates) 之特徵進行分析比對，以便取得所需的音訊資料4 i i，並經由語音辨識技術取得文字部分8 〇 ΐ，並取得於視訊資料 4 1中與所需之音訊資料4 11對應之影像資料4丨3以作為插圖部分80 2。在本實施例中，音訊分析演算法則5〇ι可以預先提供音訊樣本類別，如音樂（Music)、語音（speech)、動物聲（Animal Sound)、男聲（Male Speech)與女聲（Female

Speech)等，以供使用者選擇所欲尋找之音訊類別，因此，特徵匹配便於容許的距離範圍内，尋找與音訊資料 411的特徵向量（Feature Vector )具有最短幾何距離 (Euclidean Distance)的音訊樣本類別，若此最接近之音訊樣本類別與使用者所選擇之音訊類別㈣，則該音訊資枓411符合搜尋條件，另外，可以利用最短幾何距離的倒數（Inverse)來表示所選擇之音訊資料411的可信度 (Confidence)，從符合音訊樣本類別之音訊資^^丨找出，應之視Λ旦面^又落（c ΐ i p s )，並從這些視訊晝面段落的母鏡頭中挑選出第一個符合取圖需求的影像作為插圖部

第11頁 1244005 年月修_ 曰 _案號901227的五、發明說明（9) 为8 0 2 ( 即音汛分析演算法則5 〇 i可配合場景/鏡頭變換 =析凟算法則5 0 4運用已知的場景/鏡頭變換分析技術，取付關鍵晝面，以作為圖書8 〇之插圖部分8 〇 2，相關技術手段谷後况明）。另外，若視訊資料4丨包括字幕串流 CCapti⑽Stream) ’則解讀所選擇之音訊資料4U所對應之視貝料4 1内的字幕串流，來作為圖書8 〇之文字部分 8/ 1J若視訊資料4 1未包括字幕串流，則解讀所選擇之音 Λ貝料411内之音訊資料41丨並利用語音分析廛辨識技術 (Speech Analysis and Recognition)進行語音與文字 (Voice to Text )的轉換處理，以作為圖書8〇之文字部分 8 0 1、。另外，音訊分析演算法則5 〇丨之運算複雜度低於影像或視覺（Visual)分析，並可作為影像或視覺（Visual)分析之引導及輔助資料。本發明實施例中音訊分析演算法則5 〇 1運用已知的語音分析與辨識技術，藉由音量（volume)分析輔助分段 (Segmentation)之進行，亦即透過靜音偵測（Silence Detection)確定音訊資料411段落邊界（B〇undaries)，將視sfl >料41的音訊資料411分段（Segmentation)。音訊資料4 11中第i個段落表示為s egme n t [ i ]其對應的之視訊書面段落（C 1 i p s )，以C 1 i p [ i ]表示，包括音訊特徵如頻譜特徵（Spectral Features)、音量（Volume)、零轴交會率 (Zero Crossing Rate)、音調（Pitch)等特徵所組成的特徵向量以AudioVec (Segment[i])表示，使用者所選擇的音说樣本類別（如音樂（Music)、語音（Speech)、動物聲

第12頁 1244005 案號90122705 _年月曰________修正_ 五、發明說明（10) (Animal Sound)、男聲（Male Speech)與女聲（Female Speech)等）之特徵向量以AudioVec (U s e r — A u d i ο — t e m p 1 a ΐ e )，則音訊分析演算法則5 0 1可表示為： /*註：運用已知的語音分析與辨識技術 If dist (AudioVec (Segment[i] ) , A u,d i ο V e c (User_Audio —temp 1 ate ) )<T_audi oVec Then{

Segment[i] is selected and Apply 場景/鏡頭變換分析演算法則5 04 to C1 i p[i ] and

Save the First Non-Black and Non-Blank and

Non-Transition Frame after each Scene/Shot Boundary in C1ip [ i ] to插圖部分8 02 and

Extract words in Cl ip[ i ] to 文字部分 801 /*可依預設的圖書格式置入文字部分8 〇 1舆插圖部分802 */ } END If 其中dist表示幾何距離（Euclidean Distance)取絕對值，T_audioVec為對應音訊特徵所設定的門檻值 (Threshold Value)，表示若 Segment[i]音訊特徵與使用者所選擇的音訊樣本之音訊特徵差異值在門檻值内則 Segment[i]是符合使用者所選擇的音訊段落。另外 ^

第13頁 1244005 案號 90122705 年月修正五、發明說明（11) % 則

Extract words in Clip[i] 可利用語音分析與辨、 (Speech Analysis and Recognition)進行語音* 丄枝 (Voice to Text )的轉換處理或採用字幕分析演算个 502之原理擷取Clip[i]中的文字作為文字部分80J t 另外，字幕分析演算法則5 0 2係分析視訊資料4 j 字幕資料4 1 2，並篩選具有字幕之視訊晝'面。換言之中的視訊資料41包括字幕串流則解讀字幕串流以作為立〜^ 人予部八

8 0 1 ’並哥找與字幕對應且時間同步之第一個視訊書面刀為插圖部分8 0 2 ;若視訊資料4 1未包括字幕串流，而是^ 幕包含於視訊影像中則利用文字辨識技術將字幕 (Captions/Subt it les)從視訊影像中抽取出來作為文字部分8 0 1，並針對篩選取得之視訊影像進行影像處理移除字幕（可藉由前後視訊影像之資料進行内差法的運算處理），以取得無字幕的視訊影像以作為插圖部分802。如上所述，文字辨識技術主要利用光學文字辨識技術（OCR，

Optical Character Recognition)進行文字辨識。光學文字辨識技術已運用於許多文字辨識軟體，在此不再贅述。

運用已知的光學文字辨識技術，將視訊資料4 1中第i 個視訊畫面表示為Frame [ i ]，其文字部份表示為 Frame —Word[ i ]，其圖片部份表示為 Frame— P i cture [ i ] 則本發明實施例中字幕分析演算法則5 〇 2可表示為： Frame—Word[0]二NULL

Frame— Picture[0]二NULL N為視訊資料4 1之視訊畫面的總數

第14頁 1244005 ———_案號90122705_年月曰修正_ 五、發明說明（12)

For i=l to N

If there are words in F r ame [ i ] or /木註：運用已知的文字辨識技術* / there are captions or subtitles for

Frame[i ]

Then { extract words or captions or subtitles from Frame[i ] and Save as Frarae_Word[i]， remove words or captions or subtitles from

Frame[i ] and Save as Frame_ P i cture[i] }

End If ; IF F rame_Word[i ] Not Equal To Frame_Word[i-1] AND Not Equal To NULL Then {

Save Frame__Word[i] to 文字部分801 and Save Frame_ Picture[i] to插圖部分802 / *可依預設的圖書格式置入文字部分8 0 1與插圖部分802 */ }

Else {

第15頁 1244005

1244005

案號 90122705 五、發明說明（14) 技術’將視訊資料41與本發明實施例中預先提供的影例育料5 0 3 1如人臉、人形、車子等影像物件範例類別做較’以便找尋影像視覺特徵相似性大之晝面，若將視訊資料41中第i個視訊畫面表示為Frame[i]，其圖片部份/ 示為Frame— Picture[i]，其文字部份表示為 Frame_Word[ i ]，使用者所選擇的影像範例類別以 User__0bject—Type表示，則本發明實施例中影像分析演算法則5 0 3可表示為：

Frame_Word[0]=NULL Frame_ Picture[0]=NULL N為視訊資料4 1之視訊畫面的總數 For i = 1 to N

If there are words in Frame[i ] 〇r there are captions or subtitles for Frame[i] /*先圖文分離*/

Then { extract words or captions or subtitles from Frame[i ] and Save as Frame_Word[i]， remove words or captions or subtitles from Frame[i ] and Save as Frame_ Pi cture[i] }

Else {

第17頁 1244005 __ 案號90122705 年月日修正_ 五、發明說明G5)

Frame— Picture[i] = Frame[i] and Frame_Word[i] =NULL }

End If ; IF F rame_Wor d [ i ] Not Equal To Fra,me_Wor d [ i -1 ] AND Not Equal To NULL Then

Save Frame —Word[i] to文字部分801 /*擷取文字部分80 1*/ / *並可依預設的圖書格式置入文字部分8 0 1 * /

Else

Skip F rame^Word[i] /* Frame—Word[i]不要置入文字部分801 */

End If ； /*註：運用已知的影像分析、辨識與比對技術*/ IF there are NO User—Object—Type in Frame— Picture[i]

Then {

Skip Frame_ Picture"] and /* Frame— Picture[i]不要置入插圖部分802 並移除沒有User — Object_Type物件的圖片*/

Frame— Picture[i]二NULL

第18頁 1244005

五、發明說明

End If ;

END FOR /*利用文字辨識技術將字幕從視訊影像中抽取出來作為文子部分8 0 1，另外，將視訊資料4丨與使用者所選擇的影像範例類別做比較，以運用0bject Detecti〇n或pattern D e t e c t i ο η技術對圖片部份進行物件偵測木/

For i=l to N / *註：運用已知分鏡技術，影像分析演算法則5 〇 3可設定成同一鏡頭僅篩選一個畫面以作為插圖部分8 〇 2 * /

If Frame— Picture[i] NOT EQUAL TO NULL and dist (Pic_Vec(Frame_ Picture[i])5 Pic_Vec (Frame— Picture[i-l]))>Tshot then {

a shot boundary is detected and Save Frame_ Picture[i] to插圖部分802 /*可依預設的圖書格式及依Frame_ Picture[i]與Frame_Word[i]的相對位置置入插圖部分 802 氺 / END IF i 二 i + 1

第19頁 1244005 __案號 90122705_年月日_ 五、發明說明（17) END FOR / *影像分析演算法則5 0 3可設定同一鏡頭僅篩選一個晝面以作為插圖部分8 0 2 * / 其中di st 表示幾何距離（Euclidean Distance)取絕對值’ Tshot 為對應視覺特徵所設定的門檻值 (Threshold Value) ，Frame— Pi c turej i ]的視覺特徵所組成的特徵向量以Pic —Vec(Frame— Picture[i])表示，視覺特徵如亮度（Luminance)、色彩（Color)、紋理 (Texture)、形狀（shape)、頻譜特徵等，當一畫面之視覺特性與前一畫面之視覺特性差異達到某一程度時，就可在此畫面與前一畫面間作一分割，此為廣泛運用於視訊編輯軟體的分鏡技術。場景/鏡頭變換分析演算法則5 0 4係分析視訊資料4 1中，像資料413的場景/鏡頭變換，並篩選視訊資料41中影像資料41 3的場景/鏡頭變換後第一個符合條件之晝面，以作為圖書80之插圖部分8〇2以及視訊資料41之段落的分割亦即疋，若視訊資料41包括字幕串流則解讀視訊資料 41之段落内的字幕資料4 12以作為圖書80之文字部分8(H ; 若視Λ為料4 1未包括字幕串流則解讀視訊資料^之段落内 m4u ’並利用語音分析進行語音與文字的轉換為圖書8。之文字部分謝。一般而言，視訊資料係為一視訊串列（Video seQuence)，其通常由許多場景 (c:nes):組成’而每一場景又由複數個鏡頭(編幻所，，且成。在β片巾，其最小單位是一個鏡頭，而影片便是由

1244005 _________案號—90122705 年月 - ’欠-

MW**·-" ......................................__ 口 11爹 jlL 五、發明說明（18) — ~一 — ·—·一一— 許夕巧鏡頭所堆部起來的·么扇本中其】留位是锢場景，或稱作場戲，場景表示每一故事或題材二二2;; 一場景具有一明確的事件發生起始點’也具有一明確的結束點，在這樣的一段時間範疇中便稱作一場景，或稱作一場戲。通常，一個鏡頭由複數個視覺特性（如亮度 (Luminance )、色彩（color)、紋理（Te?ture)、形狀 (811&1^)、動作（河〇1；丨〇11))具一致性之晝面（1?1^11163)所組成，並且，其係依據攝影機運動方向（Camera Directi〇n) 與攝影取景角度（V i ew A ng 1 e)的改變而有變化，例如，當攝景> 機以不同之攝影取景角度來拍攝同一場景時，會產生 =同之鏡頭，或以相同之攝影取景角度但拍攝不同之區域時，亦會產生不同之鏡頭。由於鏡頭可由一些基本視覺特性而區分，因此將視訊資料41分割成複數個連續的鏡頭是相當容易達成的’此技術主要藉由分析一些基本視覺特性之統計資料如視覺特性柱狀圖（H i s t 〇 g r a ra )，因此，當一晝面之視覺特性與前一晝面之視覺特性差異達到某一程度時’亦即大於設定的門檻值時，就可在此晝面與前一畫面間作一分割，此分鏡技術亦廣泛運用於視訊編輯軟體。本貫施例中場景/鏡頭變換分析演算法則5 〇 4中的鏡頭變換分析演算法則，採用較傳統的分鏡技術僅藉由一些基本視覺特性而區分，較複雜的分鏡技術可增加比對前後晝格中物件相似區域的多募是否小於設定的門檻值，如果小於設定的門檻值，表示前後晝格相似性低，兩晝面間有一分鏡點。

1244005 案號90122705_年月_ _ 曰修正_ 五、發明說明（19) 本實施例中若將視訊資料4 1中第i個視訊晝面表示為 Frame [ i ]，則本發明實施例中鏡頭變換分析演算法則可表示為：

Frame [0]=NULL Total_ Sho t = 0 For i = l to N /木註：運用已知分鏡技術* /

If dist (Pic—Vec(Frame[i])， Pic—Vec (Frame [i - 1 ] ) ) > 丁 s h o t then { a shot boundary is detected and

Total_Shot= Total_Shot+l /*計算鏡頭的總數*/

Location—Shot[Total_Shot]二i /*標記新增鏡頭的起始晝格為第i畫格*/ /* 前一鏡頭Location—Shot[Total—Shot-Ι]的終止畫格可輕易計算出為L〇cation_Shot[Total—Shot]-l畫格*/ — }

END If i -i + 1 END FOR /、中dist表示幾何距離（EucHdean Distance)取絕對值’ Tshot為對應視覺特徵所設定的門檻值（Thresh〇ld

第22頁 1244005 曰修正案號 90122705 五、發明說明（20) V a 1 u e ) ，F r a m e [ i ]的葙與 4主外 a y Pic Vpr(v F . D主」的視覺特欲所缸成的特徵向量以 —Vec(Frame[i])表示，滿餐拉外 · )、色彩（c〇1〇r)、紋理（Te t見特f如亮度（Luminance 4i ά m ^ 、 exture)、形狀（Shape)、頻譜 W铖寺，當一書面之胡譽杜α如乂、去d * 一見特性與刖一晝面之視覺特性差異 /、轾度日守，就可在此晝面與前一查面間作一分割，此為廣泛運用於視訊編輯軟體的分鏡技彳ς。

如上所述’將連績具關聯性之鏡頭聚成一場景係為場換分析之目的，嚴謹的說，其必須了解視訊資料41之 β吾思及内容，不過結合音訊與視覺特性之分析亦可達到相當程度合理之場景變換分析，通常場景變換會同時產生音訊特性（如音樂、語音、雜音（Noise)、靜音（silence))與視免特性（如壳度、色彩、動作）之性質變化，而鏡頭之分割〃針對視覺特性進行分析，場景變換分析須同時倚重音訊特性與視覺特性之分析。

應用場景/鏡頭變換分析技術已是熟悉視訊編輯軟體開發者已習知之技術，其可有效地自動偵測場景/鏡頭變換。本實施例中場景/鏡頭變換分析演算法則5 〇 4可將視訊的特性（Features)分為三種類別，音量群（v〇iume Group)、能1群（？〇界6『Group)與頻譜群（Spectrum

Group)，其中鏡頭i的三組特徵向量分別以 (Vec(shot[i])， Pvec(shot[i])， Svec(shot[i]))表示則本實施例中場景/鏡頭變換分析演算法則5 04中的場景變換分析演算法則表示為：

If dist (Vec(shot [ i ]), Vec(shot[i~1]))>TVec or

第23頁 1244005 __案號90122705_年月曰修正_ 五、發明說明（21) dist (Pvec(shot[i]),Pvec(shot[i-l]))>TPvec or dist (Svec(shot[i]),Svec(shot[i-l]))>TSvec then { a scene boundary is detected and Save the First Non-Black and Non-Blank and Non-Transition Frame in shot[i] af t、e r the Scene Boundary to 插圖部分802 } END If 其中dist 表示幾何距離（Euclidean Distance)取絕對值，shot [ i ] 表示第i個鏡頭，包括鏡頭起始畫格到終止畫格的視訊影音段落亦即包括段落内的影像資料41 3與音訊資料411 °TVec，TPvec，Tsvec為對應音量群（Volume Group)、能量群（power Group)與頻譜群（Spectrum G r o u p)所設定的門檻值（τ h r e s h ο 1 d V a 1 u e )其相關技術與原理’為該領域者已習知之技術並可參考該論文在此不在累述，其實驗結果準確度高於9〇%。如果門檻值 (Threshold Value)設得愈高對場景變換之靈敏度 (Sensitivity)越低，門檻值（Threshold Value)設得愈低對場景變換之靈敏度（Sensitivity)越高，因此在本實施例中及在其他視訊編輯軟體中可藉由提供使用者設定及 0周整對场景變換彳貞測的靈敏度（$ e n s丨^丨v丨^ y )之需求，以调整對應門檀值的大小，通常靈敏度（S e n S丨^丨V丨^ y )設定越高所偵測的場景變換點愈多，取得關鍵晝面作為圖書8 〇

第24頁 1244005 案號 90122705 五、發明說明（22) 之插圖部分8 0 2的數量愈多。本實施例中場景/鏡頭變換分析演算法則5〇4運用已知的場景/鏡頭變換分析技術，分析視訊資料41中影像資料 41 3的％景/鏡頭變換點’並師選視訊資料4 1中影像資料 413的場景/鏡頭變換點後第一個符合非黑晝格（B][ack Frame)、非空白畫格（ank Frame )、、非轉場晝面 (Frame of Transition Effect)條件之晝面取為關鍵晝面，以作為圖書80之插圖部分80 2以及視訊資料41之#一落的分割點。亦即是，若視訊資料41包括字幕串流則解^賣視訊資料41之段落内的字幕資料412以作為圖書8〇之文字部分801 ·，若視訊資料41未包括字幕串流則解讀視訊資料^ 之段落内的音訊資料41 1，並利用語音分析進行語音與文字的轉換處理以作為圖書80之文字部分8〇ι。若使用/者選擇應用於不需文字的繪本、晝冊、著色圖書， ^ 取視訊資料41的文字資料。、而要裸本發明說明書的各種分析演算法則，是以後處理 (Post —Processing)或離線（Off-line)處理的方处式表示，熟悉電腦程式設計者可依需要輕易修改為即時$處1里 (Real-time )方式或線上（〇n—une )處理的方式實施。文字擷取模組104與插圖擷取模組1〇5可以是儲^ ^ =° 存裝置605之一軟體模組，並透過中央處理單元^〇3 ^ = 來依據製作方針5 〇擷取所需之文字部分8 〇 1與插圖八算 802，以作為製作圖書8〇之内容。、 °刀圖書格式選擇模組1 〇 6所提供的圖書格式7 〇係如給

第25頁 1244005 __案號 90122705 年月日修正五、發明說明（23) 本、晝冊、電子書、漫晝等，並且可以配合不同之濾鏡 (Filters)如藝術家式滤鏡（Artistic Filters)、素描濾鏡（Sketch Filters)、邊線濾鏡（Edge Filters)，來套用所取得之插圖部分8 0 2，以得到使用者想要之影像處理效果（Effects) ’而圖書格式70與各種濾鏡係儲存於儲存裝置605中。 -' 圖書產生模組1 〇 7可以是儲存在儲存裝置6 〇 5之一軟體模組’並透過中央處理單元β〇3之運算，以便套用圖書格式70 ’並利用如調整大小（Rescal ing)、影像合成（Image Composing)、製作圖框等影像處理（Image pr〇cessing)功能’來處理所取得之文字部分8 〇 1與插圖部分8 〇 2，以便配合使用者選擇之圖書格式7〇與字型、大小來產生圖書8〇。最後’編輯模組108可以與輸入裝置6〇4配合，以便使用者於圖書80產生之後，利用輸入裝置6〇4之操作來進一步編輯圖書80之内容。一此外，本發明實施例中的圖書製作介面有兩種類型，一種是内建於家電、電視或錄放影機、光碟播放機的簡易製作介面，以0SD (〇n Screen Display)方式顯示於發幕並配合遙控器（輸入裝置60 4 )的上、下、左、右、 =入、錄影、功能選單等按鈕操作，簡易圖書製二作介面如蚩，所不’適合製作不需文字編輯的繪本、畫冊、著色圖 ^ j ^ ^要文字編輯步驟。使用者可由遙控器或家電上的知:紐操作選擇進入圖4所示介面。簡易圖書製作介面之圖書格式70可以提供繪本、畫

第26頁 1244005 月修正曰案號 90122705 丨丨五、發明說明（24) ::者色圖書、電子圖冊等，使用者介面可以用下拉式選單讓使用者以搖控器的按紐選擇，若使用者選擇著色圖書之圖曰格式，可產生類似如圖5所示之結果，並可產生供小朋友練習著色的著色圖書。圖書格式7〇提供的各種佈置版面（Uy〇Ut )可以以每頁的置入圖片數表示（1， 2， 3, 4,…張等），圖書格式之佈置版面選擇則讓使用者設定每頁的置入圖片，使用者介面可以用下拉式選單讓使用者以搖控為的按鈕選擇，如圖4所示為每頁置入兩張圖片的圖書格式。特效/濾鏡選擇則提供使用者常用的特效盘濟鏡如清晰特效、藝術特效、照明特效、藝術家式濾鏡〜 (Artistic Filters)、素描濾鏡（Sketch FiUers)、濾鏡（Edge Filters)等，使用者介面可以用下拉式選單讓使用者以搖控器、的按紐選擇。製㈣針選擇模址提供製方針50，如提供音訊分析演算法則5〇1、字幕分析演算法則5 0 2、影像分析演算法則5 〇3以及場景/鏡頭變換分析渖算法則504等供使用者選擇’使用者介面可以用下拉^選早讓使用者以搖控器的按紐選擇，當使用者選擇豆中、一種製作方針後，簡易圖書製作介面會以〇SD (〇n Duplay )方式顯示並提供該種製作方針的細部選項，音訊分析演算法則5G1可提供男|、女_等音訊樣本類另; 專細部？項供使用者選擇；如影像分析演算法則5〇3可提供如人臉、人形、車子等影像物件範例類別供使用擇；如場景/鏡頭變換分析演算法則5〇4可提供零敏声、 (Sensi tivi ty)調整及設定供使用者選擇。八v 又第27頁 1244005 案號 9012270R 五、發明說明（25) 簡易圖書製作介面之圖書產生模組丨〇 7套用圖書袼式 70，利用如调整大小（RescaHng)、影像合成（1難以 Composing)、製作圖框等影像處理（Image ㈧技術以提供列印圖書或圖書存檔的功能。簡易圖書製作介面之編輯模組1 08可以提供簡易的編輯功能如刪除圖片等，，用者介面可以用下拉式選單讓使用者供搖控器作為輸入裝置6 0 4，以搖控器的按鈕選擇欲執行的編輯功能。簡易圖書製作介面可有兩種操作方式，一是後處理 (P〇st-Processing)方式先錄製好視訊内容後，以遙控器或家電上的按鈕操作選擇進入圖4所示介面，設定好圖二書製作介面的選項並輸出所製作的圖書；另一是線上曰〃（〇n-line)處理的方式先設定好圖書製作介面的選項後丄以遙控器或家電上的按鈕操作選擇輸入視訊源，以遙控器起動圖書製作程序並以線上（〇n—Hne )處理的方式產生圖書，使用者並可用遙控器結束圖書製作程序。工本發明實施例中的圖書製作介面之另一類型，是適合於安裝於電腦上執行的圖書製作介面，以電腦圖形介面口 praphic User Interface)顯示方式配合滑鼠與鍵盤作 1輪入裝置6 04可提供較複雜的編輯模組1〇8，此類型圖書製作介面使用的技術與文書編輯軟體如微軟出版之〇f f丨二等文書編輯軟體類似，詳細技術内容在此不再贅述。圖6 =電腦圖形介面（Graphic User Interface )顯示的圖奎 1作介面，在圖4簡易圖書製作介面啟動視訊接收模组1〇1 及選擇視訊源的功能可由遙控器或家電上的按鈕操作選 1244005 修正五、發明說明（26) 擇，圖6為於電月肖l μ / 一 n 八％ - Χ 執灯的圖書製作介面，可用雷fi # 介面以顯示及操作視訊接二】：細Η形擷取ίΐί:收裝置以選擇視訊源並操取書、電子圖冊等，#用去人二π m 1冊者色圖 (τ_ bar)讓使用=ΐ:…用下每式選單及工具列所要埶行的功处〜盤作為輸入裝置60 4選擇要執灯9力月b。電腦上執行的 7。可以提供的更多總類樣式的各種佈置版。二書J式可以用下拉式選單哎工呈列Γτ 1 , ^ ^ lLay〇Ut)，點溪。雷r v拥）或縮圖庫供使用者裎报μ Ϊ Γ ΐ執仃的圖書製作介面之特效/濾鏡選擇可以二4早或工具列（丁00l bar)或縮圖庫供使用點執行的圖書製作介面之製作方針選擇模組提供方針5 0，例如提供音訊分析演算法則5〇1、字幕分析 /秀算法則502、影像分析演算法則5〇3以及場景/鏡頭變換分析演^法則50 4等供使用者選擇，使用者介面可以用下 f式選單或工具列（Tool bar)供使用者點選，當使用者選擇其中的一種製作方針後，電腦上執行的圖書製作介面可以用視窗的顯示方式（如彈出式視窗（p〇p — up Wind〇w)) 以提供該種製作方針的細部選項，如音訊分析演算法則 5 0 1可提供男聲、女聲等音訊樣本類別等細部選項供使用者選擇；如影像分析演算法則503可提供如人臉、人形、車子等影像物件範例類別供使用者選擇；如場景/鏡頭變

第29頁 1244005 ___案號90122705_年月曰修正_—一五、發明說明（27) 換分析演算法則5 0 4可提供零敏度（S e n s i t i v i t y )調整及設定供使用者選擇。電腦上執行的圖書製作介面的圖書產生模組丨〇 7透過中央處理單元603之運算，以便套用圖書格式70，並利用如调整大小（Rescaling)、影像合成（Image Composing)、製作圖框等影像處理（Image processin g)功能，來處理所取得之文字部分8 0 1與插圖部分8 〇 2，以便配合使用者選擇之圖書格式70與字型、大小來產生、儲存或列印圖書8〇，圖f產生模組107亦可提供或呼叫印表機設定程式，提供印單面或雙面、列印縮放比例、列印品質等列印設定及預覽列印等功能。電腦上執行的圖書製作介面之編輯模組 1 0 8可以提供更多的編輯功能如以滑鼠拖移圖片順序、刪除圖^ 剪下、修正文字、輸入文字等，使用者介面可以用π乳與鍵盤作為輸入裝置6 〇 4，更容易執行更多的編輯 π π 意者，解碼模組102、文字擷取模組104與插圖擷岡ΐ ^此5為圖書製作系統的内部處理模組，可以不須在圖書製作介面上顯示。說明：容更容易理解’ “下將舉-實例，以心务 &仏貫施例之圖書製作方法的流程。方法2中，并· 7 不，在依本發明較佳實施例之圖書製作位攝影機中步印驟i01係接收原視訊資料40 ’例如’可以將數以提供作兔制t的資料經由傳輸線送至訊號源介面601，作為製作圖書80的晝面與内容。

1244005

、、，在步驟2 0 2中，解碼模組丨〇2係辨識原視訊資料4〇之格式並解碼原視訊資料4〇以產生經過解碼之視訊資料4丨，例如，原視訊資料40為lnteriaced MPEG — 2格式，亦即是，一個訊框係由兩個訊場（f i e丨d )所組成，所以，在此步驟中，可以先進行MPEG-2格式的解碼，然後利用内插法 (I n t e r ρ ο 1 a t i 〇 η )解交錯以得到視訊資料41。在步驟2 03中，文字擷取模組1〇4與插圖擷取模組1〇5 依據製作方針50來分析視訊資料41以取得文字部分8〇1與插圖，分80 2，其能夠依據音訊分析演算法則5〇1、字幕分析演算法則5 0 2、影像分析演算法則5〇3以及場景/鏡頭變換分析演算法則5 0 4，針對視訊資料41的每一視訊晝面與内容（包含音訊内容），進行分析搜尋並篩選取得符合製方針50的文字部分801與插圖部分8〇2，例如，若視气g 41包括字幕串流則解讀視訊資料41之字幕串流以作為文;; 部分801 ;若視訊資料41未包括字幕串流則解讀視訊資子 41之音訊，並利用語音分析進行語音與文字的轉換處理作為文字部分801，並在與字幕串流或音訊對應之影像擷取關鍵晝面作為插圖部分802，需注意者，本實施以擷取複數張關鍵晝面來作為插圖部分8〇2。如圖3所示，原視訊資料4 0經過解碼後會得到視訊資料4丨，Α包括二張單張影像3〇1 (每秒25張或29.97張），而經過依據方針50的分析搜尋後會從該等單張影像中擷取出關鍵查作 302以作為插圖部分802。思面步驟204係判斷是否已經完成視訊資料41中所有内容

1244005

案號 90122705 五、發明說明（29) 的分析比對，當未完成視訊資料41中所有内容的分析比對時，重複進行步驟203，·當完成視訊資料41中分析比對時，進行步驟2 0 5。步驟205係判斷圖書8〇是否需要套用圖書袼式几，當圖書80需要套用圖書格式7〇時，進行步驟2〇6，·當圖書8〇不品要套用圖書格式70時，進行步驟2〇7。在v驟2 0 6中’目書袼式選擇模組j 〇 6提供使用者選擇所需之圖書格式7G，目書袼式7〇包括各種具有圖片、影像、相片、繪晝或是繪圖之圖書樣板，例如，漫畫、繪本、晝冊、電子書等，以及各種佈置版面。在乂驟207中’圖書產生模組ip?依據於步驟m3中取得之文子邛刀801與插圖部分8〇2，而且，當有進行步驟 206時，#用步驟2〇6中所提供的圖書格式7〇，&運用之濾鏡，如藝術家式濾鏡、素描濾鏡、邊線濾鏡等，理插圖部分8G2，以得到所f之影像處理效果，再处調整大小’影像合成、製作圖框等影像處理功能得α 圖書格式70之影像晝面，然後，將文字部分8〇1與插^合分802配合圖書格式7〇與字型、大小進行轉換處理，生圖書80。 ^產步驟20 8係判斷使用者是否進行手動編輯圖書8〇，卷使用者要進打手動編輯圖書80時，進行步驟20 9。田在步驟2 0 9中，使用者係利用編輯模組108來預覽 (Pr=ieW )、修改（Refine )、修飾（Modify )圖書8〇之内容。例如，使用者可以針對圖書80之重要内容的文字

第32頁 1244005 _案號 90122705_年月日_«_ 五、發明說明（30) 部分加上底線，或是文字加粗等；或是使用者可以另外插入圖案等等。綜上所述，由於依本發明較佳實施例之圖書製作系統與方法能夠分析視訊資料4 1，以針對視訊資料4 1之音訊資料411、字幕資料4 12及影像資料413，來整合視訊内容分析、文字辨識、聲音辨識等技術，所以離夠有效率地利用視訊資料來產生圖書文件。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

第33頁 1244005 _案號90122705_年月曰修正_ 圖式簡早說明【圖式簡單說明】圖1為一示意圖，顯示依本發明較佳實施例之圖書製作系統之結構。圖2為一流程圖，顯示依本發明較佳實施例之圖書製作方法的流程。圖3為一示意圖，顯示於本發明較隹、;實施例之圖書製作方法中擷取關鍵晝面的示意圖。圖4為一示意圖，顯示依本發明較佳實施例之圖書製作系統之圖書製作介面。圖5為一示意圖，顯示依本發明較佳實施例之圖書製作系統製作著色圖書。圖6為一示意圖，顯示依本發明較佳實施例之圖書製作系統之另一圖書製作介面。【圖式符號說明】 1 圖書製作系統 101 視訊接收模組 102 解碼模組 103 製作方針選擇模組 104 文字擷取模組 105 插圖擷取模組 106 圖書格式選擇模組 107 圖書產生模組 108 編輯模組

第34頁 1244005 _案號 90122705_年月日_修正圖式簡單說明 2 圖書製作方法 2 (H 〜209 依本發明較佳實施例之圖書製作方法的流音訊資料 301 單張影像 302 關鍵晝面 40 原視訊資料 %， 41 視訊貢料 411 音訊資料 412 字幕資料 413 影像資料 50 製作方針 501 音訊分析演算法則 502 字幕分析演算法則 503 影像分析演算法則 5 0 3 1 影像範例資料 5 0 3 2 物體資料 504 場景/鏡頭變換分析演算法則 60 電腦設備 601 訊號源介面 602 記憶體 603 中央處理單元 604 輸入裝置 605 儲存裝置 70 圖書格式

第35頁 1244005

第36頁

Claims

1244005 _案號90122705_年月日__ 六、申請專利範圍 1、一種圖書製作系統，其係用來產生一圖書，該圖書包含一文字部分以及一插圖部分，，該圖書製作系統包含：一視訊接收模組，其接收一原視訊資料；一解碼模組，其解碼該原視訊資料以取得一視訊資料；一文字擷取模組，其依據一製作方針自該視訊資料中取得該文字部分；一插圖擷取模組，其依據該製作方針自該視訊資料中擷取一關鍵晝面（k e y f r a m e )以作為該插圖部分；以及一圖書產生模組，其依據所取得之該文字部分與該插圖部分產生該圖書。 2、如申請專利範圍第1項所述之圖書製作系統，更包含：一編輯模組，其於該圖書產生之後，接收一使用者之操作以編輯該圖書之内容。 3、如申請專利範圍第1項所述之圖書製作系統，更包含：一圖書格式（template )選擇模組，其接收一使用者之選擇以提供至少一圖書格式，而該圖書產生模組係套用該圖書格式產生該圖書。 4、如申請專利範圍第1項所述之圖書製作系統，更包含：一製作方針選擇模組，其接受一使用者之選擇以提供該製作方針。

第37頁 !244005

如申凊專利範圍第l項所述之圖書製作系統，其中該製方針包含一音訊（audio )分析演算法則，其分析該視 2 ί料中的一音訊資料，該文字擷取模組係依據該音訊分决异法則擷取該音訊資料以取得該文字部分，而該插圖擷取模組係擷取與該音訊資料相對應之7影像資料以作為該插圖部分。 3、如申請專利範圍第丨項所述之圖書製作系統，其中該製作方針包含一字幕（caption )分析演算法則，其係分析該視訊資料中的一字幕資料，該文字擷取模組係依據該字幕分析演算法則擷取該字幕資料以取得該文字部分，而該插圖擷取模組係擷取與該字幕資料相對應之一影像資料以作為該插圖部分。 7、如申凊專利範圍第1項所述之圖書製作系統，其中該製作，針包含一影像分析演算法則，其係依據一影像範例分 =該，訊資料中的一影像資料，該插圖擷取模組係依據該 ^像二析廣算法則擷取該影像資料以取得該插圖部分，而 "玄文子擷取模組係從與該影像資料相對應之該視訊資料中取得該文字部分。、 8如申啫專利範圍第1項所述之圖書製作系統，其中該製作方針包含一影像分析演算法則，其係依據一物體分析該

第38頁 1244005

$訊資料中的一影像資料，該插圖擷取模組係依據該影 ^析演算法則擷取該影像資料以取得該插圖部分，而=文字掏取模組係從與該影像資料相對應之該視訊資料中^〜該文字部分。机侍 9、如申請專利範圍第1項所述之圖書製作系統，其中該掣作f Ϊ包含一影像分析演算法則，其係分析該視訊資料ί =了影像資料，該文字擷取模組係擷取該影像資料中的字以作為該文字部分，而該插圖擷取模組係擷取該影像資料以作為該插圖部分。、 1 〇、如申請專製作方針包含該視訊資料中模組與該插圖則作為該文字 11、一種圖書含一文字部分一視訊接一解碼步料；利範圍第1項所述之圖書製作系統，其中該一場景/鏡頭變換分析演算法則，其係分析一影像資料的場景/鏡頭變換，該文字擷取擷取模組係以該場景/鏡頭變換分析演算法部分與該插圖部分之選擇與分段的依據。 =方法，其係用來產生—圖書，該圖書乂及-插圖部分’該圖書製作方法包含： ’其接收一原視Μ咨、,、，· 一文字擷取取得該文字部分； 2步驟’其接收—原视訊資料:…— 驟，其解碼該原視訊資、λ 貝枓以取得一視訊] 步驟’其依據-製作方針自該視訊資

第39頁 1244005 _案號90122705_年月日_魅_ 六、申請專利範圍一插圖擷取步驟，其依據該製作方針自該視訊資料中掘取一關鍵晝面以作為該插圖部分；以及一圖書產生步驟，其依據所取得之該文字部分與該插圖部分產生該圖書。 1 2、如申請專利範圍第1 1項所述之圖書攀作方法，更包含：一編輯步驟，其於該圖書產生之後，接收一使用者之操作以編輯該圖書之内容。

1 3、如申請專利範圍第1 1項所述之圖書製作方法，更包含：一圖書格式（template )選擇步驟，其接收一使用者之選擇以提供至少一圖書格式，而該圖書產生步驟係套用該圖書格式產生該圖書。 1 4、如申請專利範圍第1 1項所述之圖書製作方法，更包含：

一製作方針選擇步驟，其接受一使用者之選擇以提供該製作方針。 1 5、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針包含一音訊分析演算法則，其分析該視訊資料中的一音訊資料，該文字擷取步驟係依據該音訊分析演算法

第40頁 1244005 _案號90122705_年月曰修正_ 六、申請專利範圍則擷取該音訊資料以取得該文字部分，而該插圖擷取步驟係擷取與該音訊資料相對應之一影像資料以作為該插圖部分。 1 6、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針包含一字幕分析演算法則，其傪分析該視訊資料中的一字幕資料，該文字擷取步驟係依據該字幕分析演算法則擷取該字幕資料以取得該文字部分，而該插圖擷取步驟係擷取與該字幕資料相對應之一影像資料以作為該插圖部分。 1 7、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針係一影像分析演算法則，其係依據一影像範例分析該視訊資料中的一影像資料，該插圖擷取步驟係依據該影像分析演算法則擷取該影像資料以取得該插圖部分，而該文字擷取步驟係從與該影像資料相對應之該視訊資料中取得該文字部分。 1 8、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針包含一影像分析演算法則，其係依據一物體分析該視訊資料中的一影像資料，該插圖擷取步驟係依據該影像分析演算法則擷取該影像資料以取得該插圖部分，而該文字擷取步驟係從與該影像資料相對應之該視訊資料中取得該文字部分。

1244005 _案號 90122705_年月曰修正_ 六、申請專利範圍 1 9、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針包含一影像分析演算法則，其係分析該視訊資料中的一影像資料，該文字擷取步驟係擷取該影像資料中的字幕以作為該文字部分，而該插圖擷取步驟係擷取該影像資料以作為該插圖部分。 2 0、如申請專利範圍第1 1項所述之圖書製作方法，其中該製作方針包含一場景/鏡頭變換分析演算法則，其係分析該視訊資料中一影像資料的場景/鏡頭變換，該文字擷取步驟與該插圖擷取步驟係以該場景/鏡頭變換分析演算法則作為該文字部分與該插圖部分之選擇與分段的依據。 2 1、一種電腦可讀取之記錄媒體，其係記錄用以使電腦達成一圖書製作方法之程式，該圖書製作方法係用來產生一圖書，該圖書包含一文字部分以及一插圖部分，該圖書製作方法包含：一視訊接收步驟，其接收一原視訊資料；一解碼步驟，其解碼該原視訊資料以取得一視訊資料；一文字擷取步驟，其依據一製作方針自該視訊資料中取得該文字部分；一插圖擷取步驟，其依據該製作方針自該視訊資料中擷取一關鍵晝面以作為該插圖部分；以及

第42頁 1244005 _案號90122705_ 年月曰__ 六、申請專利範圍一圖書產生步驟，其依據所取得之該文字部分與該插圖部分產生該圖書。 2 2、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒體，其中該圖書製作方法更包含：一編輯步驟，其於該圖書產生之後}接收一使用者之操作以編輯該圖書之内容。 2 3、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒體，其中該圖書製作方法更包含：一圖書格式（template)選擇步驟，其接收一使用者之選擇以提供至少一圖書格式，而該圖書產生步驟係套用該圖書格式產生該圖書。 24、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒體，其中該圖書製作方法更包含：一製作方針選擇步驟，其接受一使用者之選擇以提供該製作方針。 2 5、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒體，其中該製作方針包含一音訊分析演算法則，其分析該視訊資料中的一音訊資料，該文字擷取步驟係依據該音訊分析演算法則擷取該音訊資料以取得該文字部分，而該插圖擷取步驟係擷取與該音訊資料相對應之一影像資料以作

第43頁 1244005 ---_ 案號 901227015__^_Λ-^ - 六、申請專利範圍為該插圖部分。 2 6、如申請專利範圍第2丨項所述之電腦可讀取之記錄媒體，其中該製作方針包含一字幕分析演算法則，其係分析 α亥視Λ資料中的一字幕資料，該文字梅取步驟係依據該字幕分析演算法則擷取該字幕資料以取得镇文字部分，而該插圖掏取步驟係擷取與該字幕資料相對應之一影像資料以作為該插圖部分。 ^，ί1睛專利範圍第21項所述之電腦可讀取之記錄媒 ^ 2該製作方針係一影像分析演算法則，其係依據一 =你2，f析該視訊資料中的一影像資料，該插圖擷取步圖告、二彳違影像分析演算法則擷取該影像資料以取得該插、回口 p刀，而该文字擷取步驟係從與該影像資料相對應之視訊資料中取得該文字部分。 2ί I: ί利範81第21項所述之電腦可讀取之記錄媒體’其中该製作方針句合_旦、A Μ 一物體分析該視訊資料:沾衫像分析决鼻法則，其係依據係依據該影像分析淹影像資料’該插圖操取步驟部分，而該文字擷取拍貝取該影像資料以取得該插圖訊資料中取得該文字’八從與該影像資料相對應之該視 29 士申明專利耗圍第2 1項所述之電腦可讀取之記錄媒第44頁 1244005 _案號90122705_年月曰修正_ 六、申請專利範圍體，其中該製作方針包含一影像分析演算法則，其係分析該視訊資料中的一影像資料，該文字擷取步驟係擷取該影像資料中的字幕以作為該文字部分，而該插圖擷取步驟係擷取該影像資料以作為該插圖部分。 3 0、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒體，其中該製作方針包含一場景/鏡頭變換分析演算法則，其係分析該視訊資料中一影像資料的場景/鏡頭變換，該文字擷取步驟與該插圖擷取步驟係以該場景/鏡頭變換分析演算法則作為該文字部分與該插圖部分之選擇與分段的依據。