[go: up one dir, main page]

TWI244005B - Book producing system and method and computer readable recording medium thereof - Google Patents

Book producing system and method and computer readable recording medium thereof Download PDF

Info

Publication number
TWI244005B
TWI244005B TW090122705A TW90122705A TWI244005B TW I244005 B TWI244005 B TW I244005B TW 090122705 A TW090122705 A TW 090122705A TW 90122705 A TW90122705 A TW 90122705A TW I244005 B TWI244005 B TW I244005B
Authority
TW
Taiwan
Prior art keywords
book
illustration
text
data
production
Prior art date
Application number
TW090122705A
Other languages
English (en)
Inventor
Watson Wu
Original Assignee
Newsoft Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Newsoft Technology Corp filed Critical Newsoft Technology Corp
Priority to TW090122705A priority Critical patent/TWI244005B/zh
Priority to US10/034,390 priority patent/US20040205655A1/en
Priority to JP2002109590A priority patent/JP2003109022A/ja
Application granted granted Critical
Publication of TWI244005B publication Critical patent/TWI244005B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Television Signal Processing For Recording (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

1244005 修_ _案號 90122705_年月 日 五、發明說明(1) 【發明領域】 本發明係關於一種圖書製作系統與方法,特別關於一 種利用一電腦軟體分析一視訊源(Vide〇)以自動產生繪 :、畫冊、漫晝、電子書等圖書文件的圖書製作系統與方 法0 【習知技術】 根據目前的技術,一般在製作繪本、晝冊、漫晝、電 子書等圖書時,其内容的來源通常仍利用又工繪^旦或是 藉由電腦針對單張影像一一編輯整理,以便彙編成書冊。 然而,隨著數位攝影機、電視卡(TV Tuner Card )、機上盒(Setup Box) 、DVD、VCD等電子資訊產物的 日益普及,使用者可以很容易地取得數位視訊,因此,利 ,電恥處理視汛源以產生圖書文件,儼然成為電腦多媒體 读域的重要應用與需求。 .如上所述,當所得到的影像資料不是單張影像而是連 續影像的視訊源時,使用者必須將連續影像的視訊源分解 成複數張影像,然後才能夠藉由電腦針對該等影像編輯整 理成冊。然而,對於一般的視訊内容(Video content) 而言,在NTSC標準中,其撥放一秒鐘可能是包含29 97張 影像的連續切換,而在PAL標準中,其撥放一秒鐘可能是 包含25張影像的連續切換,所以,一分鐘長的視訊内容便 具有1500〜1800張影像’如果使用者--編輯每一張影 像’將是一件非常耗時而沒有效率的事。 第4頁 1244005
皇號9Q1乃7M 修正 五、發明說明(2) 月日 因此,如何能夠有效率 旦冊、漫晝、電子書等 利用視訊内容來產生繪本、 題。 ΰ曰文件’正是當前-個重要的課 【發明概要】 的為提供一種圖書製作系 視訊源以產生繪本、畫 圖書製作系統係用來產生 一圖書,且包括一視訊接 取模組、一插圖擷取模組 中,視訊接收模組接收、一 訊資料以取得一視訊資 種視訊袼式,文字擷取模 中取得文字部》,插圖梅 料中搁取至少一關鍵晝面 ,然後圖書產生模組依 生圖書。 观 系統更包括一編輯模組、 組、以及一製作方 擇模組接受一使用二 使用者之操作以4= 模組接收使用者選 曰 模組便套用所選出=需 <圖書 針對上述問題,本發明 統與方法,其係能夠自動目 冊、漫晝、電子書等圖書文 為達上述目的,依之 包括一文字部分及-插圖部= 收杈組、一解碼模組、一〜勺 以及-圖書產生模組。在本 原視讯貝料,解碼模組解碼 料,而原視訊資料可以是任^ 組則依據-製作方針自視訊 取模組則依據製作方針自視气二 (key frame )以作為插圖部八貧 所取得之文字部分與插圖部分77產 另外,依本發明之圖書製 一圖書格式(tempiate )選擇模 模組。在本發明中,製作方針驾 所需之製作方針,編輯模組接= 之内容進行編輯,圖書袼式選擇 的至少一圖書袼式,而圖書產生
1244005 _案號 90122705 年月日 修正 _ 五、發明說明(3) 格式來排版文字部分與插圖部分以產生圖書。 如上所述,製作方針選擇模組所能夠選擇之製作方針 係包括一音訊(a u d i 〇 )分析演算法則、一字幕(c a p t i ο η )分析演算法則、一場景/鏡頭變換分析演算法則以及一 影像分析演算法則,其中,音訊分析演算法則係一種分析 視訊資料之音訊資料的演算法則;字幕分析演算法則係一 種分析視訊貨料之字幕貧料的演鼻法則;場景/鏡頭變換 分析演算法則係一種分析視訊資料之場景/鏡頭變換資料 的演算法則;影像分析演算法則係一種分析視訊資料之影 像資料的演算法則,而且其可以將影像資料與預先提供之 一影像範例資料作比對分析,或是將影像資料與預先提供 之一物體資料作比對分析,或是分析出影像資料中的一字 幕影像資料。 因此,文字擷取模組與插圖擷取模組能夠依據上述之 音訊分析演算法則、字幕分析演算法則、場景/鏡頭變換 分析演算法則、或是影像分析演算法則來取得製作圖書所 需的文字部分與插圖部分等資料,接著,圖書產生模組將 上述文字部分與插圖部分套入圖書格式中,於是便自動產 生繪本、晝冊、漫晝、電子書等圖書文件。 本發明亦提供一種圖書製作方法,其包括一視訊接收 步驟、一解碼步驟、一文字擷取步驟、一插圖擷取步驟以 及一圖書產生步驟。在本發明中,視訊接收步驟先接收原 視訊資料,接著解碼步驟解碼原視訊資料以取得視訊資 料,然後文字擷取步驟與插圖擷取步驟分別自視訊資料中
1244005 90122705 五、發明說明(4) 擷取出製作圖書所需之文字 生步驟依據文字部分與插圖 另外,依本發明之圖書 於®書產生後編輯圖書之内 使用者選取所需之圖書格式 圖書袼式來產生圖書、以及 者選取所需之製作方針。 由於依本發明之圖書製 ,訊源,並配合多種視;格 字辨識、聲音辨識等技術, 子書等圖書文件,所以能夠 圖書文件。 修正 插圖部☆,最後圖書產 哔刀產生圖書。 ΐ作=法更包括一編輯步,驟用 , 圖書格式選擇步驟以便 一制=讓圖書產生步驟套用該 衣方針瑪擇模組以便使用 2系統與方法能夠自動分析一 1洋且整合視訊内容分析、文 ^繪本、畫冊、漫畫、電 有效率地利用視訊内容來產生 【車父佳實施例之詳細說明】 以下將參知、相關圖式’說明依本私afl t彳土〜 書製作系統與方法,其中相同的元::明f佳貫施例之圖 加以說明。 件將以相同的參照符號 請參照圖1所示,依本蘇明鲈杜 統1係用來產生包括一圭貫施例之圖書製作系 一圖金sn ^栝文子邛为801以及一插圖部分802之 -製;二一視訊接收模組1〇1、一解碼模組102 ' 1 η十k擇杈組103、一文字擷取模組104、一插圖擷 二以Γ5、一圖書格式選擇模組106、-圖書產生模組 1 υ 7以及一編輯模組1 0 8。 在本實施例中,圖書製作系統丨可以應用於一電腦設 第7頁 1244005
曰 修正 備60中,而電腦設備60可以是習知的電腦裝置,立包括— :號源介面601、一記憶體6 02、— +央處理單元(cpu) 入二輸入裝置6〇4以及一儲存裝置6 0 5。其中,訊號源 二面〇1係與一訊號源輸出裝置或是一訊號源紀錄裝置連 接,例如是光碟機、FlreWlre (IEEE 1 394丨以”。“ (U⑷等介面袭置,而篇號源輸出裝置 '疋數位攝衫機,戒5虎源紀錄裝置例如是VCD、DVD等。 Ϊ =〇2.可以或,_等任何-種或數種設置於 電細衣置中的暫存記憶體。中央處理單元6〇 習知之中央處理器架冑,例如,包括AU、暫存器 腦以種資料之處理與運算,“及控制電 用者自行輸入訊息,或是操作各軟體模組的 儲存衣置60 5可以是硬碟機、軟碟機等公
數種電腦可讀取之資料儲存裝置。 裡A - 中的各模組係指儲存於儲存裝置6 05中或是 組之後=的軟體模M。中央處理單元603於讀取各模 SI二腦設備6°中的各元件來實現各模組的 力此然而需注意者,熟習該項技術者亦可將本 所揭露之軟體模組製作成硬體,如A s IC 、' ^Pp^ic=i〇n_specific …以加以 circuit)晶 4,而不运反本發明之精神與範疇。 在本實施例中,視訊接收模組i 〇1接收一原視訊資料 以下,細說明本實施例中各模組之功能。
1244005 __—^^——90122705 _—…土—…J__ΰ___f 止 — 五、發明說明(6) 4 v, 解碼模組1 0 2解'滿原視訊資刺4 G κ取得 視訊資制 4 1 ’製作方針選擇模組1 〇 3係接受一使用者的操作以選取 所需之一製作方針50 5文字擷取模組1 〇4則依據製作方針 5 0自視訊資料4 1中取得文字部分8 〇 1,插圖擷取模組1 〇 5則 依據製作方針5 0自視訊資料4 1中擷取至少一關鍵晝面以作 為插圖部分8 〇 2,而圖書格式選擇模組1 〇尽接收使用者之選 擇以提供至少一圖書格式7 0,圖書產生模組1 〇 7係套用圖 書格式7 0,並依據所取得之文字部分8 〇 1與插圖部分8 〇 2產 生圖書80,最後,編輯模組1〇8於圖書8〇產生之後,接受 使用者操作以編輯圖書8 0之内容。 如上所述,視訊接收模組丨係與訊號源介面6 〇 1配 合,例如,視訊接收模組1〇1可以透 1 3 9 4 I n t e r f a c e )取得儲存於數位攝影機中的原視訊資料 40,或是透過光碟機取得記錄於VCD、DVD中的原視訊資料 40。原視訊資料40係由各種視訊擷取裝置或接收裝置如數 位攝影機、電視卡、機上盒等,以及各種視訊儲存裝 DVD、VCD所儲存、傳送、廣播(Br〇adcasting)或接收的視 訊源,且其能夠以各種視訊資料格式(如MpEG —丨,mpeg MPEG4,AVI,ASF,MOV等)儲存、傳送、廣播或接收。, 、解碼模組1 〇2能夠針對輸入的原視訊資料4〇之視 式、編碼方式、或壓縮方式進行解碼轉換還原為編碼° 貢料或近似於編碼前之資料,例如,若編碼方式採用 壓縮方式(一Lossy C⑽pressi〇n),則解碼後只能夠取失 似於編碼丽之貢料,以便產生一視訊資料41。纟本實心
第9頁 1244005 ----_案號90122705_生月日 絛正_ 五、發明說明(7) 中p視訊資料41包括一音訊資料411、一字幕資料4丨2以及 :影像資料4 1 3。音訊資料4 1 1為視訊資料4 1中所撥放的聲 曰’予幕資料4 1 2為配合影像資料4 1 3出現於螢幕上的字幕 串流(caption stream);影像資料413為視訊資料41所 ,不的所有單張影像,通常每秒鐘的視訊資料4丨係由2 5張 單張影像或2 9 · 9 7張單張影像連續撥放所構成。 製作方針選擇模組1 0 3係與輸入裝置6 〇 4配合,以便由 1用者利用輸入裝置604選擇製作圖書80時所必須遵循的 製作方針5 0,而依本實施例所提供的製作方針5 〇包括一音 汛演算法則5 〇 1、一字幕、分析演算法則5 〇 2、一影像分 析廣算法則5 0 3以及一場景/鏡頭變換分析演算法則5 〇 4。 承上所述’音訊分析演算法則5 〇 1係分析視訊資料4工 的音訊資料411,並利用特徵抽取(Features Extracti〇n) 與特徵匹配(Features Matching)方式進行分析。音訊資 料4 11之特欲包括如頻譜特徵($ p e c t r & 1 F α κ $ )、音量 (Volume)、零軸交會率(Zer〇 Cr〇ssing Rate)、音調 (Pitch)等。如上所述,當抽取頻譜特徵(Spectrai Features)後,其經由雜音衰減(N〇ise “心以丨⑽)、分段 (Segmentation),並利用快速傅利葉轉換(以^ F〇urier Transform)將音訊資料411轉至頻率域(FreQuency),然後 由一組頻率濾波器(Fi lters)進行特徵值抽取,這組特徵 值,成一個頻譜特徵向 t(Spectral Feature Vect〇r)。 曰里疋合易里測之一種特徵,其可利用均方根值(rms, Root Mean Square )抑本甘此心y士 以"以 4 〃 η表其特徵值,然後藉由音量
1244005 _案號 90122705_年月日___ 五、發明說明(8) (Volume)分析可輔助分段(Segmentation)之進行,亦即透 過靜音偵測(S i 1 e n c e D e ΐ e c t i ο η )幫助音訊資料4 1 1段落邊 界(Boundaries)之決定。零轴交會率(Zero Crossing Rate)為計算每段(Clips)聲音波形(Waveform)與零軸 (Zero Axis)交會之次數。音調(Pi tch)為聲音波形 (Waveform)的基頻(Fundamental Freque’pcy)。因此,音 訊資料4 11可利用上述之音訊特徵及其特徵值所組成之特 徵向量(Feature Vector)與音訊樣本(Audio templates) 之特徵進行分析比對,以便取得所需的音訊資料4 i i,並 經由語音辨識技術取得文字部分8 〇 ΐ,並取得於視訊資料 4 1中與所需之音訊資料4 11對應之影像資料4丨3以作為插圖 部分80 2。在本實施例中,音訊分析演算法則5〇ι可以預先 提供音訊樣本類別,如音樂(Music)、語音(speech)、動 物聲(Animal Sound)、男聲(Male Speech)與女聲(Female
Speech)等,以供使用者選擇所欲尋找之音訊類別,因 此,特徵匹配便於容許的距離範圍内,尋找與音訊資料 411的特徵向量(Feature Vector )具有最短幾何距離 (Euclidean Distance)的音訊樣本類別,若此最接近之音 訊樣本類別與使用者所選擇之音訊類別㈣,則該音訊資 枓411符合搜尋條件,另外,可以利用最短幾何距離的倒 數(Inverse)來表示所選擇之音訊資料411的可信度 (Confidence),從符合音訊樣本類別之音訊資^^丨找出 ,應之視Λ旦面^又落(c ΐ i p s ),並從這些視訊晝面段落的 母鏡頭中挑選出第一個符合取圖需求的影像作為插圖部
第11頁 1244005 年 月 修_ 曰 _案號901227的 五、發明說明(9) 为8 0 2 ( 即音汛分析演算法則5 〇 i可配合場景/鏡頭變換 =析凟算法則5 0 4運用已知的場景/鏡頭變換分析技術,取 付關鍵晝面,以作為圖書8 〇之插圖部分8 〇 2,相關技術手 段谷後况明)。另外,若視訊資料4丨包括字幕串流 CCapti⑽Stream) ’則解讀所選擇之音訊資料4U所對應 之視貝料4 1内的字幕串流,來作為圖書8 〇之文字部分 8/ 1J若視訊資料4 1未包括字幕串流,則解讀所選擇之音 Λ貝料411内之音訊資料41丨並利用語音分析廛辨識技術 (Speech Analysis and Recognition)進行語音與文字 (Voice to Text )的轉換處理,以作為圖書8〇之文字部分 8 0 1、。另外,音訊分析演算法則5 〇丨之運算複雜度低於影像 或視覺(Visual)分析,並可作為影像或視覺(Visual)分析 之引導及輔助資料。 本發明實施例中音訊分析演算法則5 〇 1運用已知的語 音分析與辨識技術,藉由音量(volume)分析輔助分段 (Segmentation)之進行,亦即透過靜音偵測(Silence Detection)確定音訊資料411段落邊界(B〇undaries),將 視sfl >料41的音訊資料411分段(Segmentation)。音訊資 料4 11中第i個段落表示為s egme n t [ i ]其對應的之視訊書 面段落(C 1 i p s ),以C 1 i p [ i ]表示,包括音訊特徵如頻譜 特徵(Spectral Features)、音量(Volume)、零轴交會率 (Zero Crossing Rate)、音調(Pitch)等特徵所組成的特 徵向量以AudioVec (Segment[i])表示,使用者所選擇的 音说樣本類別(如音樂(Music)、語音(Speech)、動物聲
第12頁 1244005 案號90122705 _年月曰________修正_ 五、發明說明(10) (Animal Sound)、男聲(Male Speech)與女聲(Female Speech)等)之特徵向量以AudioVec (U s e r — A u d i ο — t e m p 1 a ΐ e ),則音訊分析演算法則5 0 1可表 示為: /*註:運用已知的語音分析與辨識技術 If dist (AudioVec (Segment[i] ) , A u,d i ο V e c (User_Audio —temp 1 ate ) )<T_audi oVec Then{
Segment[i] is selected and Apply 場景/鏡頭變換分析演算法則5 04 to C1 i p[i ] and
Save the First Non-Black and Non-Blank and
Non-Transition Frame after each Scene/Shot Boundary in C1ip [ i ] to插圖部分8 02 and
Extract words in Cl ip[ i ] to 文字部分 801 /*可依預設的圖書格式置入文字部分8 〇 1舆插圖部 分802 */ } END If 其中dist表示幾何距離(Euclidean Distance)取絕 對值,T_audioVec為對應音訊特徵所設定的門檻值 (Threshold Value),表示若 Segment[i]音訊特徵與 使用者所選擇的音訊樣本之音訊特徵差異值在門檻值内則 Segment[i]是符合使用者所選擇的音訊段落。另外 ^
第13頁 1244005 案號 90122705 年 月 修正 五、發明說明(11) % 則
Extract words in Clip[i] 可利用語音分析與辨、 (Speech Analysis and Recognition)進行語音* 丄枝 (Voice to Text )的轉換處理或採用字幕分析演算个 502之原理擷取Clip[i]中的文字作為文字部分80J t 另外,字幕分析演算法則5 0 2係分析視訊資料4 j 字幕資料4 1 2,並篩選具有字幕之視訊晝'面。換言之中的 視訊資料41包括字幕串流則解讀字幕串流以作為立〜^ 人予部八
8 0 1 ’並哥找與字幕對應且時間同步之第一個視訊書面刀 為插圖部分8 0 2 ;若視訊資料4 1未包括字幕串流,而是^ 幕包含於視訊影像中則利用文字辨識技術將字幕 (Captions/Subt it les)從視訊影像中抽取出來作為文字部 分8 0 1,並針對篩選取得之視訊影像進行影像處理移除字 幕(可藉由前後視訊影像之資料進行内差法的運算處理), 以取得無字幕的視訊影像以作為插圖部分802。如上所 述,文字辨識技術主要利用光學文字辨識技術(OCR,
Optical Character Recognition)進行文字辨識。光學文 字辨識技術已運用於許多文字辨識軟體,在此不再贅述。
運用已知的光學文字辨識技術,將視訊資料4 1中第i 個視訊畫面表示為Frame [ i ],其文字部份表示為 Frame —Word[ i ],其圖片部份表示為 Frame— P i cture [ i ] 則本發明實施例中字幕分析演算法則5 〇 2可表示為: Frame—Word[0]二NULL
Frame— Picture[0]二NULL N為視訊資料4 1之視訊畫面的總數
第14頁 1244005 ———_案號90122705_年月曰 修正_ 五、發明說明(12)
For i=l to N
If there are words in F r ame [ i ] or /木註:運用已 知的文字辨識技術* / there are captions or subtitles for
Frame[i ]
Then { extract words or captions or subtitles from Frame[i ] and Save as Frarae_Word[i], remove words or captions or subtitles from
Frame[i ] and Save as Frame_ P i cture[i] }
End If ; IF F rame_Word[i ] Not Equal To Frame_Word[i-1] AND Not Equal To NULL Then {
Save Frame__Word[i] to 文字部分801 and Save Frame_ Picture[i] to插圖部分802 / *可依預設的圖書格式置入文字部分8 0 1與插圖部 分802 */ }
Else {
第15頁 1244005
1244005
案號 90122705 五、發明說明(14) 技術’將視訊資料41與本發明實施例中預先提供的影 例育料5 0 3 1如人臉、人形、車子等影像物件範例類別做 較’以便找尋影像視覺特徵相似性大之晝面,若將視訊資 料41中第i個視訊畫面表示為Frame[i],其圖片部份/ 示為Frame— Picture[i], 其文字部份表示為 Frame_Word[ i ],使用者所選擇的影像範例類別以 User__0bject—Type表示,則本發明實施例中影像分析演算 法則5 0 3可表示為:
Frame_Word[0]=NULL Frame_ Picture[0]=NULL N為視訊資料4 1之視訊畫面的總數 For i = 1 to N
If there are words in Frame[i ] 〇r there are captions or subtitles for Frame[i] /*先圖文分離*/
Then { extract words or captions or subtitles from Frame[i ] and Save as Frame_Word[i], remove words or captions or subtitles from Frame[i ] and Save as Frame_ Pi cture[i] }
Else {
第17頁 1244005 __ 案號90122705 年月日 修正_ 五、發明說明G5)
Frame— Picture[i] = Frame[i] and Frame_Word[i] =NULL }
End If ; IF F rame_Wor d [ i ] Not Equal To Fra,me_Wor d [ i -1 ] AND Not Equal To NULL Then
Save Frame —Word[i] to文字部分801 /*擷取文字部分80 1*/ / *並可依預設的圖書格式置入文字部分8 0 1 * /
Else
Skip F rame^Word[i] /* Frame—Word[i]不要置入文字部分801 */
End If ; /*註:運用已知的影像分析、辨識與比對技術*/ IF there are NO User—Object—Type in Frame— Picture[i]
Then {
Skip Frame_ Picture"] and /* Frame— Picture[i]不要置入插圖部分802 並移除沒有User — Object_Type物件的圖片*/
Frame— Picture[i]二NULL
第18頁 1244005
五、發明說明
End If ;
END FOR /*利用文字辨識技術將字幕從視訊影像中抽取出來作為文 子部分8 0 1,另外,將視訊資料4丨與使用者所選擇的影像 範例類別做比較,以運用0bject Detecti〇n或pattern D e t e c t i ο η技術對圖片部份進行物件偵測木/
For i=l to N / *註:運用已知分鏡技術,影像分析演算法則5 〇 3可設定 成同一鏡頭僅篩選一個畫面以作為插圖部分8 〇 2 * /
If Frame— Picture[i] NOT EQUAL TO NULL and dist (Pic_Vec(Frame_ Picture[i])5 Pic_Vec (Frame— Picture[i-l]))>Tshot then {
a shot boundary is detected and Save Frame_ Picture[i] to插圖部分802 /*可依預設的圖書格式及依Frame_ Picture[i]與Frame_Word[i]的相對位置置入插圖部分 802 氺 / END IF i 二 i + 1
第19頁 1244005 __案號 90122705_年月日_ 五、發明說明(17) END FOR / *影像分析演算法則5 0 3可設定同一鏡頭僅篩選一個晝面 以作為插圖部分8 0 2 * / 其中di st 表示幾何距離(Euclidean Distance)取絕 對值’ Tshot 為對應視覺特徵所設定的門檻值 (Threshold Value) ,Frame— Pi c turej i ]的視覺特徵所 組成的特徵向量以Pic —Vec(Frame— Picture[i])表示,視 覺特徵如亮度(Luminance)、色彩(Color)、紋理 (Texture)、形狀(shape)、頻譜特徵等,當一畫面之視 覺特性與前一畫面之視覺特性差異達到某一程度時,就可 在此畫面與前一畫面間作一分割,此為廣泛運用於視訊編 輯軟體的分鏡技術。 場景/鏡頭變換分析演算法則5 0 4係分析視訊資料4 1中 ,像資料413的場景/鏡頭變換,並篩選視訊資料41中影像 資料41 3的場景/鏡頭變換後第一個符合條件之晝面,以作 為圖書80之插圖部分8〇2以及視訊資料41之段落的分割 亦即疋,若視訊資料41包括字幕串流則解讀視訊資料 41之段落内的字幕資料4 12以作為圖書80之文字部分8(H ; 若視Λ為料4 1未包括字幕串流則解讀視訊資料^之段落内 m4u ’並利用語音分析進行語音與文字的轉換 為圖書8。之文字部分謝。一般而言,視訊資料 係為一視訊串列(Video seQuence),其通常由許多場景 (c:nes):組成’而每一場景又由複數個鏡頭(編幻所 ,,且成。在β片巾,其最小單位是一個鏡頭,而影片便是由
1244005 _________案號—90122705 年月 - ’欠-
MW**·-" ......................................__ 口 11爹 jlL 五、發明說明(18) — ~一 — ·—·一一— 許夕巧鏡頭所堆部起來的·么扇本中其 】留位是锢 場景,或稱作場戲,場景表示每一故事或題材二二2;; 一場景具有一明確的事件發生起始點’也具有一明確的結 束點,在這樣的一段時間範疇中便稱作一場景,或稱作一 場戲。通常,一個鏡頭由複數個視覺特性(如亮度 (Luminance )、色彩(color)、紋理(Te?ture)、形狀 (811&1^)、動作(河〇1;丨〇11))具一致性之晝面(1?1^11163)所組 成,並且,其係依據攝影機運動方向(Camera Directi〇n) 與攝影取景角度(V i ew A ng 1 e)的改變而有變化,例如,當 攝景> 機以不同之攝影取景角度來拍攝同一場景時,會產生 =同之鏡頭,或以相同之攝影取景角度但拍攝不同之區域 時,亦會產生不同之鏡頭。由於鏡頭可由一些基本視覺特 性而區分,因此將視訊資料41分割成複數個連續的鏡頭是 相當容易達成的’此技術主要藉由分析一些基本視覺特性 之統計資料如視覺特性柱狀圖(H i s t 〇 g r a ra ),因此,當一 晝面之視覺特性與前一晝面之視覺特性差異達到某一程度 時’亦即大於設定的門檻值時,就可在此晝面與前一畫面 間作一分割,此分鏡技術亦廣泛運用於視訊編輯軟體。本 貫施例中場景/鏡頭變換分析演算法則5 〇 4中的鏡頭變換分 析演算法則,採用較傳統的分鏡技術僅藉由一些基本視覺 特性而區分,較複雜的分鏡技術可增加比對前後晝格中物 件相似區域的多募是否小於設定的門檻值,如果小於設定 的門檻值,表示前後晝格相似性低,兩晝面間有一分鏡 點。
1244005 案號90122705_年月_ _ 曰 修正_ 五、發明說明(19) 本實施例中若將視訊資料4 1中第i個視訊晝面表示為 Frame [ i ], 則本發明實施例中鏡頭變換分析演算法則可 表示為:
Frame [0]=NULL Total_ Sho t = 0 For i = l to N /木註:運用已知分鏡技術* /
If dist (Pic—Vec(Frame[i]), Pic—Vec (Frame [i - 1 ] ) ) > 丁 s h o t then { a shot boundary is detected and
Total_Shot= Total_Shot+l /*計算鏡頭的總 數*/
Location—Shot[Total_Shot]二i /*標記新增鏡頭的起始晝格為第i畫格*/ /* 前一鏡頭Location—Shot[Total—Shot-Ι]的終 止畫格可輕易計算出為L〇cation_Shot[Total—Shot]-l畫 格*/ — }
END If i -i + 1 END FOR /、中dist表示幾何距離(EucHdean Distance)取絕 對值’ Tshot為對應視覺特徵所設定的門檻值(Thresh〇ld
第22頁 1244005 曰 修正 案號 90122705 五、發明說明(20) V a 1 u e ) ,F r a m e [ i ]的葙與 4主外 a y Pic Vpr(v F . D主」的視覺特欲所缸成的特徵向量以 —Vec(Frame[i])表示,滿餐拉外 · )、色彩(c〇1〇r)、紋理(Te t見特f如亮度(Luminance 4i ά m ^ 、 exture)、形狀(Shape)、頻譜 W铖寺,當一書面之胡譽杜α如乂 、去d * 一 見特性與刖一晝面之視覺特性差異 /、轾度日守,就可在此晝面與前一查面間作一分割, 此為廣泛運用於視訊編輯軟體的分鏡技彳ς。
如上所述’將連績具關聯性之鏡頭聚成一場景係為場 換分析之目的,嚴謹的說,其必須了解視訊資料41之 β吾思及内容,不過結合音訊與視覺特性之分析亦可達到相 當程度合理之場景變換分析,通常場景變換會同時產生音 訊特性(如音樂、語音、雜音(Noise)、靜音(silence))與 視免特性(如壳度、色彩、動作)之性質變化,而鏡頭之分 割〃針對視覺特性進行分析,場景變換分析須同時倚重音 訊特性與視覺特性之分析。
應用場景/鏡頭變換分析技術已是熟悉視訊編輯軟體 開發者已習知之技術,其可有效地自動偵測場景/鏡頭變 換。本實施例中場景/鏡頭變換分析演算法則5 〇 4可將視訊 的特性(Features)分為三種類別,音量群(v〇iume Group)、能1群(?〇界6『Group)與頻譜群(Spectrum
Group),其中鏡頭i的三組特徵向量分別以 (Vec(shot[i]), Pvec(shot[i]), Svec(shot[i]))表示 則本實施例中場景/鏡頭變換分析演算法則5 04中的場景變 換分析演算法則表示為:
If dist (Vec(shot [ i ]), Vec(shot[i~1]))>TVec or
第23頁 1244005 __案號90122705_年月曰 修正_ 五、發明說明(21) dist (Pvec(shot[i]),Pvec(shot[i-l]))>TPvec or dist (Svec(shot[i]),Svec(shot[i-l]))>TSvec then { a scene boundary is detected and Save the First Non-Black and Non-Blank and Non-Transition Frame in shot[i] af t、e r the Scene Boundary to 插圖部分802 } END If 其中dist 表示幾何距離(Euclidean Distance)取絕 對值,shot [ i ] 表示第i個鏡頭,包括鏡頭起始畫格到終 止畫格的視訊影音段落亦即包括段落内的影像資料41 3與 音訊資料411 °TVec,TPvec,Tsvec為對應音量群(Volume Group)、能量群(power Group)與頻譜群(Spectrum G r o u p)所設定的門檻值(τ h r e s h ο 1 d V a 1 u e )其相關技術 與原理’為該領域者已習知之技術並可參考該論文在此不 在累述,其實驗結果準確度高於9〇%。如果門檻值 (Threshold Value)設得愈高對場景變換之靈敏度 (Sensitivity)越低,門檻值(Threshold Value)設得愈 低對場景變換之靈敏度(Sensitivity)越高,因此在本實 施例中及在其他視訊編輯軟體中可藉由提供使用者設定及 0周整對场景變換彳貞測的靈敏度($ e n s丨^丨v丨^ y )之需求,以 调整對應門檀值的大小,通常靈敏度(S e n S丨^丨V丨^ y )設定 越高所偵測的場景變換點愈多,取得關鍵晝面作為圖書8 〇
第24頁 1244005 案號 90122705 五、發明說明(22) 之插圖部分8 0 2的數量愈多。 本實施例中場景/鏡頭變換分析演算法則5〇4運用已知 的場景/鏡頭變換分析技術,分析視訊資料41中影像資料 41 3的%景/鏡頭變換點’並師選視訊資料4 1中影像資料 413的場景/鏡頭變換點後第一個符合非黑晝格(B][ack Frame)、非空白畫格(ank Frame )、、非轉場晝面 (Frame of Transition Effect)條件之晝面取為關鍵晝 面,以作為圖書80之插圖部分80 2以及視訊資料41之#一落 的分割點。亦即是,若視訊資料41包括字幕串流則解^賣視 訊資料41之段落内的字幕資料412以作為圖書8〇之文字部 分801 ·,若視訊資料41未包括字幕串流則解讀視訊資料^ 之段落内的音訊資料41 1,並利用語音分析進行語音與文 字的轉換處理以作為圖書80之文字部分8〇ι。若使用/者選 擇應用於不需文字的繪本、晝冊、著色圖書, ^ 取視訊資料41的文字資料。 、 而要裸 本發明說明書的各種分析演算法則,是以後處理 (Post —Processing)或離線(Off-line)處理的方处式表 示,熟悉電腦程式設計者可依需要輕易修改為即時$處1里 (Real-time )方式或線上(〇n—une )處理的方式實施。 文字擷取模組104與插圖擷取模組1〇5可以是儲^ ^ =° 存裝置605之一軟體模組,並透過中央處理單元^〇3 ^ = 來依據製作方針5 〇擷取所需之文字部分8 〇 1與插圖八算 802,以作為製作圖書8〇之内容。 、 °刀 圖書格式選擇模組1 〇 6所提供的圖書格式7 〇係如給
第25頁 1244005 __案號 90122705 年月日 修正 五、發明說明(23) 本、晝冊、電子書、漫晝等,並且可以配合不同之濾鏡 (Filters)如藝術家式滤鏡(Artistic Filters)、素描濾 鏡(Sketch Filters)、邊線濾鏡(Edge Filters),來套用 所取得之插圖部分8 0 2,以得到使用者想要之影像處理效 果(Effects) ’而圖書格式70與各種濾鏡係儲存於儲存裝 置605中。 -' 圖書產生模組1 〇 7可以是儲存在儲存裝置6 〇 5之一軟體 模組’並透過中央處理單元β〇3之運算,以便套用圖書格 式70 ’並利用如調整大小(Rescal ing)、影像合成(Image Composing)、製作圖框等影像處理(Image pr〇cessing)功 能’來處理所取得之文字部分8 〇 1與插圖部分8 〇 2,以便配 合使用者選擇之圖書格式7〇與字型、大小來產生圖書8〇。 最後’編輯模組108可以與輸入裝置6〇4配合,以便使 用者於圖書80產生之後,利用輸入裝置6〇4之操作來進一 步編輯圖書80之内容。 一 此外,本發明實施例中的圖書製作介面有兩種類型, 一種是内建於家電、電視或錄放影機、光碟播放機的簡易 製作介面,以0SD (〇n Screen Display)方式顯示於 發幕並配合遙控器(輸入裝置60 4 )的上、下、左、右、 =入、錄影、功能選單等按鈕操作,簡易圖書製二作介面如 蚩,所不’適合製作不需文字編輯的繪本、畫冊、著色圖 ^ j ^ ^要文字編輯步驟。使用者可由遙控器或家電上的 知:紐操作選擇進入圖4所示介面。 簡易圖書製作介面之圖書格式70可以提供繪本、畫
第26頁 1244005 月 修正 曰 案號 90122705 丨丨 五、發明說明(24) ::者色圖書、電子圖冊等,使用者介面可以用下拉式選 單讓使用者以搖控器的按紐選擇,若使用者選擇著色圖書 之圖曰格式,可產生類似如圖5所示之結果,並可產生供 小朋友練習著色的著色圖書。圖書格式7〇提供的各種佈置 版面(Uy〇Ut )可以以每頁的置入圖片數表示(1, 2, 3, 4,…張等),圖書格式之佈置版面選擇則讓使用者設定每 頁的置入圖片,使用者介面可以用下拉式選單讓使用者 以搖控為的按鈕選擇,如圖4所示為每頁置入兩張圖片的 圖書格式。特效/濾鏡選擇則提供使用者常用的特效盘濟 鏡如清晰特效、藝術特效、照明特效、藝術家式濾鏡〜 (Artistic Filters)、素描濾鏡(Sketch FiUers)、 濾鏡(Edge Filters)等,使用者介面可以用下拉式選單讓 使用者以搖控器、的按紐選擇。製㈣針選擇模址提供製 方針50,如提供音訊分析演算法則5〇1、字幕分析演算法 則5 0 2、影像分析演算法則5 〇3以及場景/鏡頭變換分析渖 算法則504等供使用者選擇’使用者介面可以用下拉^選 早讓使用者以搖控器的按紐選擇,當使用者選擇豆中、一 種製作方針後,簡易圖書製作介面會以〇SD (〇n Duplay )方式顯示並提供該種製作方針的細部選項, 音訊分析演算法則5G1可提供男|、女_等音訊樣本類另; 專細部?項供使用者選擇;如影像分析演算法則5〇3可提 供如人臉、人形、車子等影像物件範例類別供使用 擇;如場景/鏡頭變換分析演算法則5〇4可提供零敏声、 (Sensi tivi ty)調整及設定供使用者選擇。八v 又 第27頁 1244005 案號 9012270R 五、發明說明(25) 簡易圖書製作介面之圖書產生模組丨〇 7套用圖書袼式 70,利用如调整大小(RescaHng)、影像合成(1難以 Composing)、製作圖框等影像處理(Image ㈧技 術以提供列印圖書或圖書存檔的功能。簡易圖書製作介面 之編輯模組1 08可以提供簡易的編輯功能如刪除圖片等, ,用者介面可以用下拉式選單讓使用者供搖控器作為輸入 裝置6 0 4,以搖控器的按鈕選擇欲執行的編輯功能。 簡易圖書製作介面可有兩種操作方式,一是後處理 (P〇st-Processing)方式先錄製好視訊内容後,以遙控器 或家電上的按鈕操作選擇進入圖4所示介面,設定好圖二書 製作介面的選項並輸出所製作的圖書;另一是線上 曰 〃(〇n-line)處理的方式先設定好圖書製作介面的選項 後丄以遙控器或家電上的按鈕操作選擇輸入視訊源,以遙 控器起動圖書製作程序並以線上(〇n—Hne )處理的方式 產生圖書,使用者並可用遙控器結束圖書製作程序。工 本發明實施例中的圖書製作介面之另一類型,是適合 於安裝於電腦上執行的圖書製作介面,以電腦圖形介面口 praphic User Interface)顯示方式配合滑鼠與鍵盤作 1輪入裝置6 04可提供較複雜的編輯模組1〇8,此類型圖書 製作介面使用的技術與文書編輯軟體如微軟出版之〇f f丨二 等文書編輯軟體類似,詳細技術内容在此不再贅述。圖6 =電腦圖形介面(Graphic User Interface )顯示的圖奎 1作介面,在圖4簡易圖書製作介面啟動視訊接收模组1〇1 及選擇視訊源的功能可由遙控器或家電上的按鈕操作選 1244005 修正 五、發明說明(26) 擇,圖6為於電月肖l μ / 一 n 八 % - Χ 執灯的圖書製作介面,可用雷fi # 介面以顯示及操作視訊接 二】:細Η形 擷取ίΐί:收裝置以選擇視訊源並操取 書、電子圖冊等,#用去人二π m 1冊者色圖 (τ_ bar)讓使用=ΐ:…用下每式選單及工具列 所要埶行的功处〜盤作為輸入裝置60 4選擇 要執灯9力月b。電腦上執行的 7。可以提供的更多總類樣式的各種佈置版。二書J式 可以用下拉式選單哎工呈列Γτ 1 , ^ ^ lLay〇Ut), 點溪。雷r v拥 )或縮圖庫供使用者 裎报μ Ϊ Γ ΐ執仃的圖書製作介面之特效/濾鏡選擇可以 二4早或工具列(丁00l bar)或縮圖庫供使用點 執行的圖書製作介面之製作方針選擇模組提供 方針5 0,例如提供音訊分析演算法則5〇1、字幕分析 /秀算法則502、影像分析演算法則5〇3以及場景/鏡頭變換 分析演^法則50 4等供使用者選擇,使用者介面可以用下 f式選單或工具列(Tool bar)供使用者點選,當使用者 選擇其中的一種製作方針後,電腦上執行的圖書製作介面 可以用視窗的顯示方式(如彈出式視窗(p〇p — up Wind〇w)) 以提供該種製作方針的細部選項,如音訊分析演算法則 5 0 1可提供男聲、女聲等音訊樣本類別等細部選項供使用 者選擇;如影像分析演算法則503可提供如人臉、人形、 車子等影像物件範例類別供使用者選擇;如場景/鏡頭變
第29頁 1244005 ___案號90122705_年月曰 修正_—一 五、發明說明(27) 換分析演算法則5 0 4可提供零敏度(S e n s i t i v i t y )調整及設 定供使用者選擇。 電腦上執行的圖書製作介面的圖書產生模組丨〇 7透過 中央處理單元603之運算,以便套用圖書格式70,並利用 如调整大小(Rescaling)、影像合成(Image Composing)、 製作圖框等影像處理(Image processin g)功能,來處理所 取得之文字部分8 0 1與插圖部分8 〇 2,以便配合使用者選擇 之圖書格式70與字型、大小來產生、儲存或列印圖書8〇, 圖f產生模組107亦可提供或呼叫印表機設定程式,提供 印單面或雙面、列印縮放比例、列印品質等列印設定及預 覽列印等功能。電腦上執行的圖書製作介面之編輯模組 1 0 8可以提供更多的編輯功能如以滑鼠拖移圖片順序、刪 除圖^ 剪下、修正文字、輸入文字等,使用者介面可以 用π乳與鍵盤作為輸入裝置6 〇 4,更容易執行更多的編輯 π π 意者,解碼模組102、文字擷取模組104與插圖擷 岡ΐ ^此5為圖書製作系統的内部處理模組,可以不須在 圖書製作介面上顯示。 說明:容更容易理解’ “下將舉-實例,以 心务 &仏貫施例之圖書製作方法的流程。 方法2中,并· 7 不,在依本發明較佳實施例之圖書製作 位攝影機中步印驟i01係接收原視訊資料40 ’例如’可以將數 以提供作兔制t的資料經由傳輸線送至訊號源介面601, 作為製作圖書80的晝面與内容。
1244005
、、,在步驟2 0 2中,解碼模組丨〇2係辨識原視訊資料4〇之格 式並解碼原視訊資料4〇以產生經過解碼之視訊資料4丨,例 如,原視訊資料40為lnteriaced MPEG — 2格式,亦即是, 一個訊框係由兩個訊場(f i e丨d )所組成,所以,在此步 驟中,可以先進行MPEG-2格式的解碼,然後利用内插法 (I n t e r ρ ο 1 a t i 〇 η )解交錯以得到視訊資料41。 在步驟2 03中,文字擷取模組1〇4與插圖擷取模組1〇5 依據製作方針50來分析視訊資料41以取得文字部分8〇1與 插圖,分80 2,其能夠依據音訊分析演算法則5〇1、字幕分 析演算法則5 0 2、影像分析演算法則5〇3以及場景/鏡頭變 換分析演算法則5 0 4,針對視訊資料41的每一視訊晝面與 内容(包含音訊内容),進行分析搜尋並篩選取得符合製 方針50的文字部分801與插圖部分8〇2,例如,若視气g 41包括字幕串流則解讀視訊資料41之字幕串流以作為文;; 部分801 ;若視訊資料41未包括字幕串流則解讀視訊資子 41之音訊,並利用語音分析進行語音與文字的轉換處理 作為文字部分801,並在與字幕串流或音訊對應之影像 擷取關鍵晝面作為插圖部分802,需注意者,本實施 以擷取複數張關鍵晝面來作為插圖部分8〇2。如圖3所示, 原視訊資料4 0經過解碼後會得到視訊資料4丨,Α包括二 張單張影像3〇1 (每秒25張或29.97張),而經過依據 方針50的分析搜尋後會從該等單張影像中擷取出關鍵查作 302以作為插圖部分802。 思面 步驟204係判斷是否已經完成視訊資料41中所有内容
1244005
案號 90122705 五、發明說明(29) 的分析比對,當未完成視訊資料41中所有内容的分析比對 時,重複進行步驟203,·當完成視訊資料41中 分析比對時,進行步驟2 0 5。 步驟205係判斷圖書8〇是否需要套用圖書袼式几,當 圖書80需要套用圖書格式7〇時,進行步驟2〇6,·當圖書8〇 不品要套用圖書格式70時,進行步驟2〇7。 在v驟2 0 6中’目書袼式選擇模組j 〇 6提供使用者選擇 所需之圖書格式7G,目書袼式7〇包括各種具有圖片、影 像、相片、繪晝或是繪圖之圖書樣板,例如,漫畫、繪 本、晝冊、電子書等,以及各種佈置版面。 在乂驟207中’圖書產生模組ip?依據於步驟m3中取 得之文子邛刀801與插圖部分8〇2,而且,當有進行步驟 206時,#用步驟2〇6中所提供的圖書格式7〇,&運用 之濾鏡,如藝術家式濾鏡、素描濾鏡、邊線濾鏡等, 理插圖部分8G2,以得到所f之影像處理效果,再处 調整大小’影像合成、製作圖框等影像處理功能得α 圖書格式70之影像晝面,然後,將文字部分8〇1與插^合 分802配合圖書格式7〇與字型、大小進行轉換處理, 生圖書80。 ^產 步驟20 8係判斷使用者是否進行手動編輯圖書8〇,卷 使用者要進打手動編輯圖書80時,進行步驟20 9。 田 在步驟2 0 9中,使用者係利用編輯模組108來預覽 (Pr=ieW )、修改(Refine )、修飾(Modify )圖書8〇 之内容。例如,使用者可以針對圖書80之重要内容的文字
第32頁 1244005 _案號 90122705_年月日_«_ 五、發明說明(30) 部分加上底線,或是文字加粗等;或是使用者可以另外插 入圖案等等。 綜上所述,由於依本發明較佳實施例之圖書製作系統 與方法能夠分析視訊資料4 1,以針對視訊資料4 1之音訊資 料411、字幕資料4 12及影像資料413,來整合視訊内容分 析、文字辨識、聲音辨識等技術,所以離夠有效率地利用 視訊資料來產生圖書文件。
以上所述僅為舉例性,而非為限制性者。任何未脫離 本發明之精神與範疇,而對其進行之等效修改或變更,均 應包含於後附之申請專利範圍中。
第33頁 1244005 _案號90122705_年月曰 修正_ 圖式簡早說明 【圖式簡單說明】 圖1為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之結構。 圖2為一流程圖,顯示依本發明較佳實施例之圖書製 作方法的流程。 圖3為一示意圖,顯示於本發明較隹、;實施例之圖書製 作方法中擷取關鍵晝面的示意圖。 圖4為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之圖書製作介面。 圖5為一示意圖,顯示依本發明較佳實施例之圖書製 作系統製作著色圖書。 圖6為一示意圖,顯示依本發明較佳實施例之圖書製 作系統之另一圖書製作介面。 【圖式符號說明】 1 圖 書 製 作 系 統 101 視 訊 接 收 模 組 102 解 碼 模 組 103 製 作 方 針 選 擇 模組 104 文 字 擷 取 模 組 105 插 圖 擷 取 模 組 106 圖 書 格 式 選 擇 模組 107 圖 書 產 生 模 組 108 編 輯 模 組
第34頁 1244005 _案號 90122705_年月日_修正 圖式簡單說明 2 圖書製作方法 2 (H 〜209 依本發明較佳實施例之圖書製作方法的流音訊 資料 301 單張影像 302 關鍵晝面 40 原視訊資料 %, 41 視訊貢料 411 音訊資料 412 字幕資料 413 影像資料 50 製作方針 501 音訊分析演算法則 502 字幕分析演算法則 503 影像分析演算法則 5 0 3 1 影像範例資料 5 0 3 2 物體資料 504 場景/鏡頭變換分析演算法則 60 電腦設備 601 訊號源介面 602 記憶體 603 中央處理單元 604 輸入裝置 605 儲存裝置 70 圖書格式
第35頁 1244005
第36頁

Claims (1)

1244005 _案號90122705_年月日__ 六、申請專利範圍 1、 一種圖書製作系統,其係用來產生一圖書,該圖書包 含一文字部分以及一插圖部分,,該圖書製作系統包含: 一視訊接收模組,其接收一原視訊資料; 一解碼模組,其解碼該原視訊資料以取得一視訊資 料; 一文字擷取模組,其依據一製作方針自該視訊資料中 取得該文字部分; 一插圖擷取模組,其依據該製作方針自該視訊資料中 擷取一關鍵晝面(k e y f r a m e )以作為該插圖部分;以及 一圖書產生模組,其依據所取得之該文字部分與該插 圖部分產生該圖書。 2、 如申請專利範圍第1項所述之圖書製作系統,更包含: 一編輯模組,其於該圖書產生之後,接收一使用者之 操作以編輯該圖書之内容。 3、 如申請專利範圍第1項所述之圖書製作系統,更包含: 一圖書格式(template )選擇模組,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生模組係套用 該圖書格式產生該圖書。 4、如申請專利範圍第1項所述之圖書製作系統,更包含: 一製作方針選擇模組,其接受一使用者之選擇以提供 該製作方針。
第37頁 !244005
如申凊專利範圍第l項所述之圖書製作系統,其中該製 方針包含一音訊(audio )分析演算法則,其分析該視 2 ί料中的一音訊資料,該文字擷取模組係依據該音訊分 决异法則擷取該音訊資料以取得該文字部分,而該插圖 擷取模組係擷取與該音訊資料相對應之7影像資料以作為 該插圖部分。 3、如申請專利範圍第丨項所述之圖書製作系統,其中該製 作方針包含一字幕(caption )分析演算法則,其係分析 該視訊資料中的一字幕資料,該文字擷取模組係依據該字 幕分析演算法則擷取該字幕資料以取得該文字部分,而該 插圖擷取模組係擷取與該字幕資料相對應之一影像資料以 作為該插圖部分。 7、如申凊專利範圍第1項所述之圖書製作系統,其中該製 作,針包含一影像分析演算法則,其係依據一影像範例分 =該,訊資料中的一影像資料,該插圖擷取模組係依據該 ^像二析廣算法則擷取該影像資料以取得該插圖部分,而 "玄文子擷取模組係從與該影像資料相對應之該視訊資料中 取得該文字部分。 、 8如申啫專利範圍第1項所述之圖書製作系統,其中該製 作方針包含一影像分析演算法則,其係依據一物體分析該
第38頁 1244005
$訊資料中的一影像資料,該插圖擷取模組係依據該影 ^析演算法則擷取該影像資料以取得該插圖部分,而=文 字掏取模組係從與該影像資料相對應之該視訊資料中^〜 該文字部分。 机侍 9、如申請專利範圍第1項所述之圖書製作系統,其中該掣 作f Ϊ包含一影像分析演算法則,其係分析該視訊資料ί =了影像資料,該文字擷取模組係擷取該影像資料中的字 以作為該文字部分,而該插圖擷取模組係擷取該影像資 料以作為該插圖部分。 、 1 〇、如申請專 製作方針包含 該視訊資料中 模組與該插圖 則作為該文字 11、一種圖書 含一文字部分 一視訊接 一解碼步 料; 利範圍第1項所述之圖書製作系統,其中該 一場景/鏡頭變換分析演算法則,其係分析 一影像資料的場景/鏡頭變換,該文字擷取 擷取模組係以該場景/鏡頭變換分析演算法 部分與該插圖部分之選擇與分段的依據。 =方法,其係用來產生—圖書,該圖書 乂及-插圖部分’該圖書製作方法包含: ’其接收一原視Μ咨、,、,· 一文字擷取 取得該文字部分; 2步驟’其接收—原视訊資料:…— 驟,其解碼該原視訊資、λ 貝枓以取得一視訊] 步驟’其依據-製作方針自該視訊資
第39頁 1244005 _案號90122705_年月日_魅_ 六、申請專利範圍 一插圖擷取步驟,其依據該製作方針自該視訊資料中 掘取一關鍵晝面以作為該插圖部分;以及 一圖書產生步驟,其依據所取得之該文字部分與該插 圖部分產生該圖書。 1 2、如申請專利範圍第1 1項所述之圖書攀作方法,更包 含: 一編輯步驟,其於該圖書產生之後,接收一使用者之 操作以編輯該圖書之内容。
1 3、如申請專利範圍第1 1項所述之圖書製作方法,更包 含: 一圖書格式(template )選擇步驟,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生步驟係套用 該圖書格式產生該圖書。 1 4、如申請專利範圍第1 1項所述之圖書製作方法,更包 含:
一製作方針選擇步驟,其接受一使用者之選擇以提供 該製作方針。 1 5、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一音訊分析演算法則,其分析該視訊資料中 的一音訊資料,該文字擷取步驟係依據該音訊分析演算法
第40頁 1244005 _案號90122705_年月曰 修正_ 六、申請專利範圍 則擷取該音訊資料以取得該文字部分,而該插圖擷取步驟 係擷取與該音訊資料相對應之一影像資料以作為該插圖部 分。 1 6、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一字幕分析演算法則,其傪分析該視訊資料 中的一字幕資料,該文字擷取步驟係依據該字幕分析演算 法則擷取該字幕資料以取得該文字部分,而該插圖擷取步 驟係擷取與該字幕資料相對應之一影像資料以作為該插圖 部分。 1 7、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針係一影像分析演算法則,其係依據一影像範例分 析該視訊資料中的一影像資料,該插圖擷取步驟係依據該 影像分析演算法則擷取該影像資料以取得該插圖部分,而 該文字擷取步驟係從與該影像資料相對應之該視訊資料中 取得該文字部分。 1 8、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一影像分析演算法則,其係依據一物體分析 該視訊資料中的一影像資料,該插圖擷取步驟係依據該影 像分析演算法則擷取該影像資料以取得該插圖部分,而該 文字擷取步驟係從與該影像資料相對應之該視訊資料中取 得該文字部分。
1244005 _案號 90122705_年月曰 修正_ 六、申請專利範圍 1 9、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一影像分析演算法則,其係分析該視訊資料 中的一影像資料,該文字擷取步驟係擷取該影像資料中的 字幕以作為該文字部分,而該插圖擷取步驟係擷取該影像 資料以作為該插圖部分。 2 0、如申請專利範圍第1 1項所述之圖書製作方法,其中該 製作方針包含一場景/鏡頭變換分析演算法則,其係分析 該視訊資料中一影像資料的場景/鏡頭變換,該文字擷取 步驟與該插圖擷取步驟係以該場景/鏡頭變換分析演算法 則作為該文字部分與該插圖部分之選擇與分段的依據。 2 1、一種電腦可讀取之記錄媒體,其係記錄用以使電腦達 成一圖書製作方法之程式,該圖書製作方法係用來產生一 圖書,該圖書包含一文字部分以及一插圖部分,該圖書製 作方法包含: 一視訊接收步驟,其接收一原視訊資料; 一解碼步驟,其解碼該原視訊資料以取得一視訊資 料; 一文字擷取步驟,其依據一製作方針自該視訊資料中 取得該文字部分; 一插圖擷取步驟,其依據該製作方針自該視訊資料中 擷取一關鍵晝面以作為該插圖部分;以及
第42頁 1244005 _案號90122705_ 年月曰__ 六、申請專利範圍 一圖書產生步驟,其依據所取得之該文字部分與該插 圖部分產生該圖書。 2 2、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一編輯步驟,其於該圖書產生之後}接收一使用者之 操作以編輯該圖書之内容。 2 3、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一圖書格式(template)選擇步驟,其接收一使用者 之選擇以提供至少一圖書格式,而該圖書產生步驟係套用 該圖書格式產生該圖書。 24、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該圖書製作方法更包含: 一製作方針選擇步驟,其接受一使用者之選擇以提供 該製作方針。 2 5、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一音訊分析演算法則,其分析該 視訊資料中的一音訊資料,該文字擷取步驟係依據該音訊 分析演算法則擷取該音訊資料以取得該文字部分,而該插 圖擷取步驟係擷取與該音訊資料相對應之一影像資料以作
第43頁 1244005 ---_ 案號 901227015__^_Λ-^ - 六、申請專利範圍 為該插圖部分。 2 6、如申請專利範圍第2丨項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一字幕分析演算法則,其係分析 α亥視Λ資料中的一字幕資料,該文字梅取步驟係依據該字 幕分析演算法則擷取該字幕資料以取得镇文字部分,而該 插圖掏取步驟係擷取與該字幕資料相對應之一影像資料以 作為該插圖部分。 ^,ί1睛專利範圍第21項所述之電腦可讀取之記錄媒 ^ 2該製作方針係一影像分析演算法則,其係依據一 =你2,f析該視訊資料中的一影像資料,該插圖擷取步 圖告、二彳違影像分析演算法則擷取該影像資料以取得該插 、回口 p刀,而该文字擷取步驟係從與該影像資料相對應之 視訊資料中取得該文字部分。 2ί I: ί利範81第21項所述之電腦可讀取之記錄媒 體’其中该製作方針句合_旦 、A Μ 一物體分析該視訊資料:沾衫像分析决鼻法則,其係依據 係依據該影像分析淹影像資料’該插圖操取步驟 部分,而該文字擷取拍貝取該影像資料以取得該插圖 訊資料中取得該文字’八從與該影像資料相對應之該視 29 士申明專利耗圍第2 1項所述之電腦可讀取之記錄媒 第44頁 1244005 _案號90122705_年月曰 修正_ 六、申請專利範圍 體,其中該製作方針包含一影像分析演算法則,其係分析 該視訊資料中的一影像資料,該文字擷取步驟係擷取該影 像資料中的字幕以作為該文字部分,而該插圖擷取步驟係 擷取該影像資料以作為該插圖部分。 3 0、如申請專利範圍第2 1項所述之電腦可讀取之記錄媒 體,其中該製作方針包含一場景/鏡頭變換分析演算法 則,其係分析該視訊資料中一影像資料的場景/鏡頭變 換,該文字擷取步驟與該插圖擷取步驟係以該場景/鏡頭 變換分析演算法則作為該文字部分與該插圖部分之選擇與 分段的依據。
TW090122705A 2001-09-13 2001-09-13 Book producing system and method and computer readable recording medium thereof TWI244005B (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW090122705A TWI244005B (en) 2001-09-13 2001-09-13 Book producing system and method and computer readable recording medium thereof
US10/034,390 US20040205655A1 (en) 2001-09-13 2002-01-03 Method and system for producing a book from a video source
JP2002109590A JP2003109022A (ja) 2001-09-13 2002-04-11 図書製作システムと図書製作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW090122705A TWI244005B (en) 2001-09-13 2001-09-13 Book producing system and method and computer readable recording medium thereof

Publications (1)

Publication Number Publication Date
TWI244005B true TWI244005B (en) 2005-11-21

Family

ID=21679315

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090122705A TWI244005B (en) 2001-09-13 2001-09-13 Book producing system and method and computer readable recording medium thereof

Country Status (3)

Country Link
US (1) US20040205655A1 (zh)
JP (1) JP2003109022A (zh)
TW (1) TWI244005B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585714B (zh) * 2015-03-25 2017-06-01 納寶股份有限公司 用於產生漫畫資料的系統和方法
TWI587207B (zh) * 2015-01-16 2017-06-11 納寶股份有限公司 產生漫畫內容的設備和方法
TWI616841B (zh) * 2015-03-02 2018-03-01 納寶股份有限公司 產生漫畫內容的設備和方法以及顯示漫畫內容的設備

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447992B2 (en) * 2000-08-17 2008-11-04 E Media Ltd. Method of producing publications, electronic publication produced by the method, and method and network system for displaying the electronic publication
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
AU2003900137A0 (en) * 2003-01-14 2003-01-30 Canon Kabushiki Kaisha Process and format for reliable storage of data
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
KR101890831B1 (ko) * 2017-01-11 2018-09-28 주식회사 펍플 전자책 서비스 제공방법 및 그를 위한 컴퓨터 프로그램
CN109168024B (zh) * 2018-09-26 2022-05-27 平安科技(深圳)有限公司 一种目标信息的识别方法及设备
CN113672754B (zh) * 2021-07-26 2024-02-09 北京达佳互联信息技术有限公司 图像获取方法、装置、电子设备及存储介质
US12315506B2 (en) * 2022-06-01 2025-05-27 Google Llc Biasing speech processing based on audibly rendered content, including dynamically adapting over duration of rendering
CN116320622B (zh) * 2023-05-17 2023-08-18 成都索贝数码科技股份有限公司 一种广播电视新闻视频转图文稿制作系统和制作方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6288719B1 (en) * 1998-10-26 2001-09-11 Eastman Kodak Company System and method of constructing a photo album
US6362900B1 (en) * 1998-12-30 2002-03-26 Eastman Kodak Company System and method of constructing a photo album
US6571271B1 (en) * 1999-05-03 2003-05-27 Ricoh Company, Ltd. Networked appliance for recording, storing and serving digital images
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US6823084B2 (en) * 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US20020144293A1 (en) * 2001-03-27 2002-10-03 Koninklijke Philips Electronics N.V. Automatic video retriever genie
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI587207B (zh) * 2015-01-16 2017-06-11 納寶股份有限公司 產生漫畫內容的設備和方法
TWI608404B (zh) * 2015-01-16 2017-12-11 納寶股份有限公司 顯示漫畫內容的設備和方法
US10074204B2 (en) 2015-01-16 2018-09-11 Naver Corporation Apparatus and method for generating and displaying cartoon content
TWI616841B (zh) * 2015-03-02 2018-03-01 納寶股份有限公司 產生漫畫內容的設備和方法以及顯示漫畫內容的設備
TWI585714B (zh) * 2015-03-25 2017-06-01 納寶股份有限公司 用於產生漫畫資料的系統和方法

Also Published As

Publication number Publication date
JP2003109022A (ja) 2003-04-11
US20040205655A1 (en) 2004-10-14

Similar Documents

Publication Publication Date Title
US7362946B1 (en) Automated visual image editing system
CN102959951B (zh) 图像处理装置、图像处理方法及集成电路
JP4269849B2 (ja) マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム
Berthouzoz et al. Tools for placing cuts and transitions in interview video
TWI244005B (en) Book producing system and method and computer readable recording medium thereof
TW544634B (en) Thumbnail sequence generation system and method
Chen et al. Tiling slideshow
US7844115B2 (en) Information processing apparatus, method, and program product
US20110243453A1 (en) Information processing apparatus, information processing method, and program
US20040264939A1 (en) Content-based dynamic photo-to-video methods and apparatuses
WO2007111707A9 (en) System and method for translating text to images
BRPI0920385A2 (pt) aparelho e mÉtodo de processamento de imagem, e, programa
CN118381971B (zh) 视频生成方法、装置、存储介质、程序产品
CN102246225B (zh) 用于合成语音的方法和设备
US20090055746A1 (en) Multimedia presentation creation
Hua et al. Automatically converting photographic series into video
CN1202471C (zh) 图书制作系统与方法
Hua et al. Photo2Video—A system for automatically converting photographic series into video
Hong et al. Movie2comics: a feast of multimedia artwork
CN116634192A (zh) 一种视频自动编辑方法
AU745436B2 (en) Automated visual image editing system
CN115665348B (zh) 一种基于云模板的全自动视频快速合成方法
Hua et al. Photo2Video
KR20230114130A (ko) 광고 영상 제작 시스템 및 방법
CN121174000A (zh) 一种融合人文元素的航拍视频ai自动剪辑方法及系统

Legal Events

Date Code Title Description
MK4A Expiration of patent term of an invention patent