[go: up one dir, main page]

TWI283375B - Anchor person detection for television news segmentation based on audiovisual features - Google Patents

Anchor person detection for television news segmentation based on audiovisual features Download PDF

Info

Publication number
TWI283375B
TWI283375B TW94126220A TW94126220A TWI283375B TW I283375 B TWI283375 B TW I283375B TW 94126220 A TW94126220 A TW 94126220A TW 94126220 A TW94126220 A TW 94126220A TW I283375 B TWI283375 B TW I283375B
Authority
TW
Taiwan
Prior art keywords
image
color
sound
segment
pixels
Prior art date
Application number
TW94126220A
Other languages
English (en)
Other versions
TW200707336A (en
Inventor
Shih-Hung Lee
Chia-Hung Yeh
Hsuan-Huei Shih
Chung-Chieh Kuo
Original Assignee
Mavs Lab Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mavs Lab Inc filed Critical Mavs Lab Inc
Priority to TW94126220A priority Critical patent/TWI283375B/zh
Publication of TW200707336A publication Critical patent/TW200707336A/zh
Application granted granted Critical
Publication of TWI283375B publication Critical patent/TWI283375B/zh

Links

Landscapes

  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Facsimile Image Signal Circuits (AREA)

Description

1283375 九、發明說明: 【發明所屬之技術領域】 本發明係有關一種影像分段技術,尤指一種偵測電視新聞主 播’並將電視新聞節目分段的方法。 【先前技術】 因為電視上的新聞頻道日益增加,所以可以取得的新聞資訊 也愈來愈多,因此觀眾愈來愈不容易搜尋並找出想要的新聞節 目。一個新聞節目通常包含有若干段不同的新聞,而每一段新聞 之間通¥;又有太多的關聯。為了讓搜尋以及分類每段新聞變得更 加便利,可以_電視新聞主播的影像來期每—段新聞何時開 始以及何時結束。因此在每-段新聞晝面中,電視新聞主播的^ 頭成為最重要的綱,電賴駄·常在每—騎關始時做 引言介紹,歧在每-段糊結束時對新_容講評或整理。因 此電視新齡義綱可財效地傳達新_容社要概冬,觀 眾柯以根據電視新聞主播的鏡頭來瀏覽新_目,也狀 以藉由偵測新聞主播來識別每一段新聞。 疋π 傳統將新聞分段的方法用的是一種機器學習(咖⑽ i_ng)技術’該技術會自動將咖分類,細制知技 細限㈣峨蝴讀來顯示刊 末源的貝料。也有其他使用較複雜演算法 以及語者識別(speakeridentiflcati()I〇的…例如臉部辨識 旳方法,因為電視新聞主播 1283375 是誰以及他在晝面中的位置是未知的。以下所列是幾種習知的分 段方法··頭部偵測、嘴型偵測、口音及音樂的分類或辨識、隱藏 式字幕(closed-caption)擷取以及影像光學文字辨識系統(〇ptical character recognition,OCR),以及模型基礎方法(m〇del-base(i method)。然而上述的方法皆仰賴極為複雜的演算法。 【發明内容】 本發明的目的之一在於提供一種掃描新聞節目影像晝面的方 法,來解決上述的問題,此方法係藉由比對畫素顏色與膚色範圍 來偵測電視新聞主播是否出現於影像晝面中。 根據本發明的實施例,其係揭露—種影像分段方法,用采很 據影像片段_容雜影像片段。該方法包含有:接收一包含有 複數個影像畫面的影像訊號;利用—第—水平掃描線來分析該影 像峨的影像畫©,其中該第—水平掃描線_取至少—列像素 來作分析;分析影像畫面中錄該第—水平掃鱗上之像素以決 定該像素_色是否落於-預定腕賴之内;在該影像晝面中 指出落於該預定齡範n相鄰像素所含蓋_域;利用複 數個連續的·晝面中位於該第—水平掃描線上之像素來產生一 色彩地圖;如果色彩地圖顯示―預定數目的連續影像晝面中 包含-穩定的像素區域’並且該像素皆落於該預定的顏色範圍, 則將目前的影像段落標*為候選的影像段落;對於每一個候 影像段落’自每N個影像畫面中選出一個影像畫面,並且針對每 1283375 個l出的〜像晝_穩定區域,產生—色譜曲線;執行一第一色 譜曲雜較,比較每_對連續選出的影像畫面之色譜曲線;當該 第-色㈣線比較所得的第—色譜曲線差大於—第—臨界值時, 執订—第—色相線比較,比較介於騎連顧㈣影像畫面之 間之母對連續的影像晝面之穩定區域,其令該對連續選出的影 像直面之色韻線差係大於該第—臨界值;以及當該第二色譜曲 線比較所得的第—色睹曲線差大於—第二臨界值時,指示該候選 的影像段落中有一鏡頭改變。 根據本發明的另-實酬’其麵露—種影像分段方法,用 來根據影像片段的内容剪輯影像片段。該方法包含有:接收一包 3有複触u邊晝面的影像賴;;接收與該已接收之影像訊號相 關聯的聲音訊號;利用一第一水平掃描線與一第二水平掃描線來 分析該影像訊號的影像晝面,其中該第—水平掃描線與該第二水 平掃描線,各選取至少—列像絲作分析;如果影像晝面上位於 該第第—水传鱗上之像素的顏色係落於—預定顏色範圍 内則將該像素设定為邏輯值“J”;利用位於該第一及第二 掃描線上之相對應的像素,執行—“或(⑻,,邏輯運算丁 生合成的像素資料;顧該合成的像素·來指出該影像 落於該預定純範_婦騎_域;棚複數個連^ 晝面中之合梅綱紐—色侧;如果色彩地= 1定數目的連續影像畫面中,皆包含—穩定的像素區域,並二 该像素皆落於_定_色範圍,則將目前的影像段落標示為候 1283375 選的影像段落·,對於每—倾親f綠段落,自糾個影像晝面 中選出-個影像晝面’並且針對每個選出的影像晝面的穩定區 域’產生-色譜崎;執行—第—色譜曲線味,比較每一對連 續選出的影像畫面之色譜曲線;當該第一色譜曲線比較所得的第 -色譜曲線差大於-第—臨界值時,執行—第二色譜曲線比較, 比車乂 ”於該對連續選出的影像畫面之間之每一對連續的影像畫面 之穩定區域’其中騎_選出的影像畫面之色譜曲線差係大於 該第臨界值,胃該第―色譜曲線比較所得的第二色譜曲線差大 於一第二臨界值時,指示該候選的影像段料有-鏡頭改變;以 及分析該聲音訊號以過滤該候選的影像段落,其中該聲音訊號之 特徵係藉由處理鱗音峨讀數個敢尺相聲音獅(減〇 frame)而取得。 根據本發另—實施例,其亦揭露—種影像分段方法,該 方法係根據偵測-電視新聞影像片段中的電視新聞主播來剪輯該 電視新聞_段。該方法包含有n包含有複數個新聞影 :二:影像訊號;利用一第一水平掃描線來分析該影像訊號的 '耳衫像晝面,其中該第—水平掃描線係選取至少—列像素來作 分析’ ·分析新聞影像畫面中位於該第一水平掃描線上之像素以決 H 象素的顏色是否落於一預定顏色範圍之内以偵測該電視新 聞主播的膚色;在該賴縣畫面中指出落於_定顏色範圍之 内之相,像素所含蓋的區域;利用複數個連續的新聞影像畫面中 位於該第一水平掃描線上之像素來產生一色彩地圖;如果=彩地 1283375 圖顯示-就數目的連續新聞影像晝面中,皆包含—穩定的像素 ,域,並且該像素皆落於該預定的顏色細,騎目前的影像段 洛標示為候選的影像段落;對於每—健選的影像段落,自每N 個新聞影像晝面中選出一個新聞影像晝面,並 新聞影像畫面的敎區域,產生—色譜曲線;執行-第- ί比較’比較每―對連續選出的新聞影像晝面之色譜曲線;當該 第Γ色譜曲線比較所得的第一色譜曲線差大於一第一臨界值時, 執仃-第二色譜曲線比較,比較介於該對連續選出的新聞影像畫 =1:每一對連續的新聞影像畫面之穩定區域,其中該對連續 &出的新_像畫面之色譜曲線差係大_第—臨界值;以及春 色譜曲線比較所得的第二色譜曲線差大於—第二臨界值田 寺’才曰不該候選的影像段落中有一鏡頭改變。 算法本發明所提出的方法利用簡單的演 貝I像旦面中疋否出現落於膚色 找出新·_換的㈣。藉 置,即使_面包含有分物f _播“現的位 位置 分段。 “她之,Ltr 視新聞主播的頭部部分出現的 〜之本發明提供-種簡易的計算方法來將 1283375 【實施方式】 '參閱第1圖,帛1圖為電視新聞分段系統的方塊圖。該系 、、先10係藉由债測電視新聞主播而將電視新聞分段,系統⑺包含 有影像處理魏30’f爾理電輸會依侧_ =。來產f新聞影像的― /之後會進一步分析該候選片段4〇的聲音資訊,以確保 影像分析的正確性。 ' 衫像處理電路3〇包含有一鏡頭偵測電路32、一臉部膚色偵 ,路34 Μ及-物纽桃36。臉部膚色躺電路34用來谓 洛在預疋辄圍的影像畫面上的像素,該預定範圍即代表膚色範 圍。請參閱第2圖及第3圖,第2圖顯示利用第一水平掃描線⑽ 以及第二水平掃描線1G4來_影像畫面·上是否有電視新聞 主播的臉部影像。第3圖則為本發明_電視_主播臉部影像 的流程圖。 研究顯示’攝影師通常習慣將主播的臉部置於離影像畫面頂 端約三分之-的地方’因此,臉部膚色偵測電路別利用第一 掃描線H)2或有時候連同第二水平掃 色的畫素。軸_的辆只需要第—斜概^^,^=卜 利用第二水平掃描、線1〇4可以讓臉部膚色侦測電路%產生 的結果。舉例來說,水平掃描線可能通過電視新聞主播的眼睛或 嘴巴,雖然水平掃描線仍然通過電視新聞主播的臉部,但偵測到 12 1283375 的顏色卻不是膚色,這會導致不準確_測結果。為了減少這種 情況的發生機會’以及為了提供更魏用來侧電視新聞主播臉 部位置的資料,因此會用到兩條水平掃描線。 不論第一水平掃描線1〇2或是第二水平掃描線皆會分析 影像晝面100中至少-列的像素,並分別產生取樣像素顏色112 以及1M。睛注意,第一水平掃描線1〇2的位置以及第二水平择描 線1〇4的位置會儘可能落於電視畫面三分之一的地方,以增加掃 描到電視新聞主播的臉部的可能性。以下將轉第3圖中所顯示 的步驟。 ^ ^ 步驟150:開始。 步驟12·將影像晝面卿的色影空間㈤。寧⑹從卿色彩 空間轉換至Lab色彩空間。Lab色彩空間較適合用來 偵測膚色,而且也更為普遍使用。然而,本發明也可 以使用其他種類的色彩空間,例如RGB、YCbCr以及 IRgBy 〇 步驟154 ·判別第一水平掃描線ι〇2 (或有時連同第二水平掃描線 1〇4)疋否在该影像晝面100上掃描到任何落於膚色範 圍的像素。這個膚色範圍可以依據局部區域或是攝影 棚的燈光狀況而調整。 步驟156 : _是否有—簡大且連_膚色細區域。也就是 說’判別是否有—群賴的像素,其個數比—預定值 13 1283375 =而且全數落於膚色義。如果有—働大且連續 牛驟158.如辄圍區域’到步驟158’否則則到步驟160。 乂 _.=將目前的_段設_選的影像片段。因為之 後會對該影像片段做更多的影像以及聲音分析,該影 牛驟㈣像片段可能不會再被設定為候選的影像片段。 步驟160 :結束。 “閱第4圖’第4圖顯不如何從兩條掃描線來得到一邏輯 =圖=gie ,綱電視新耻播。在新聞播報的 一“視_主獅位置—般而言都很固定,因此可以利用這 個事實來_在連_影像晝面巾,是否在大__位置上都 包含有具有膚色的像素。本針所舉_子皆假設影像區段中每 秒鐘包含有30姆彡像t面。翻賊速獻是方便於轉本發明 所提出的方法,然而不應將此播放速度作為本案的限制。 第-水平掃描線1()2以及第二水平掃描線1〇4係用來在複數 個影像畫© 210巾,例如3G個連續的影像晝面,產生取樣像素顏 色112以及114。-旦取樣像素顏& 112以及114產生之後就會 啟動膚色制程序22〇來將每轉素作分類··如果像素是落在膚 色範圍’則其代表-邏輯值“丨”,如果像素非落在膚色範圍,則 其代表-邏輯值“0”,取樣像素顏色112以及114的結果則如指 標陣列222及224所示。之後對指標陣列222以及224執行一 “或 (OR) ”邏輯運算226,來得到結果陣列232。分析完3〇個連續 14 1283375 的影像晝面中的每一個之後,結果陣列232則儲存於一色彩地圖 230中。色彩區塊(c〇i〇rblock) 240為色彩地圖230的一個圖示 範例’色彩區塊240中的30列分別對應至已分析的3〇個影像晝 面,其中白色區塊代表膚色範圍的像素,而黑色則不代表膚色範 圍的像素。色彩區塊240中在區域245附近的像素,也就是由左 至右大約從像素210至330之間的膚色像素,其呈現穩定狀態時 代表電視新聞主播可能是影像晝面的主題。為了得到更正確的結 φ 果’可以執行更多的分析來驗証。 一旦候選的影像區段經過識別之後,鏡頭偵測電路32可以協 助識別影像區段何時改變。例如,鏡頭偵測電路32可以藉由分析 影像畫面的色彩性質來偵測一個鏡頭何時由穩定地呈現電視新聞 主播而切換至另一個鏡頭。請參閱第5圖,第5圖顯示偵測鏡頭 切換之示意圖,藉由比較兩個影像畫面312和322的影像帶315 _ 和325的局部色譜曲線,來偵測鏡頭切換。為了減少運算的複雜 度,鏡頭偵測電路32首先偵測大規模的鏡頭切換,一旦發現切換 之後’接著鎖定較小的範圍來偵測切換癌切的發生區域。 第5圖顯示兩組影像晝面組31〇及32〇,在本例中,每一組影 像晝面310或320皆包含30個影像畫面,也就是代表一秒鐘長度 的影像。在每一個影像畫面組31〇以及320中各選出一個影像晝 面,為了簡單起見,通常會選出第30個影像晝面來做比較。在連 續選出的兩個影像晝面312和322中選出影像帶315及325,其中
15 1283375 影像帶315及325對應到色彩區塊24〇中區域245的位置,該位 置即代表穩定的膚色像素。意即影像帶315及325的位置也就是 電視新聞主播的頭部所出現的位置。要執行第一次色譜曲線比較
時,係比較連續選出的兩個影像畫面312和322中的影像帶MS 及奶的色譜曲線,如果第一次色譜曲線比較所得到的色譜曲線 差係大於-第-臨界值’就會在3G個插人的彩色晝面中,選取每 -對彩色畫面’對其相對應的影像帶執行第二次色譜曲線比較, 以找出鏡頭切換發生時確切的影像畫面。藉由鎖定影像帶仍以 及32S所代表的區域,本發明可以正確_理包含分割晝面的影 像畫面,因為本發明僅會對該影像晝面中的—部分_色譜曲線 比較法進行分析。 、 在臉部膚色偵測電路34以及鏡頭偵測電路%產生候選 之後’ _處理· 36 _性地執行額相步驟。例何以 =景〔片時間少於-縣長度的片段,例如少於—秒或三秒,因 =1片段很可能沒有電視新聞主播的鏡頭。再者,為了 的目的,也可輯算包含有歡的耗區_影像晝面的百姐。 f影像處理電路30產生候選區段4〇之後,可以進行聲音分 二^供更多的資訊,以確保更精確地偵測新聞片 鏡碩會顯錄多臉孔,例如群眾的晝面。如 :片 用’代表偵測電視新社_產生錯誤_#^片貝科雜 、導或疋訪問也會包含大且穩定的臉部特寫。這些時候如果不 1283375 執行聲音分析的話,這些晝面也會被判斷為電視新聞主播的畫面。 聲音資料也可以當作用來決定候選段落的主要資訊,而不僅 是當作影像資料的獅資訊,如果使帛可麵聲音處理技術,例 如語音辨識技術,則使用聲音資料亦可獲得很高的可靠度。 睛回頭參閱第丨圖,當產生波形的統計數值之後,聲音訊號 • 就變得極為有用。基於上述的原目,非重疊位移視窗電路12將聲 音訊號分隔成獨立的25亳秒聲音區段,當然上述的時間長度可以 較長或較短’ 25亳秒僅是本案的一個例子。隨後快速傅立葉轉換 (fastFouriertransform’FFT)電路14會對聲音視窗進行快速傅立 葉轉換’產生的結果會傳遞給聲音能量分析電路2〇來分析聲音樣 本的能量。快速傅立葉轉換電路14將聲音樣本轉換至頻域 (frequency domain),然後分析該聲音樣本的頻率響應。聲音能量 鲁分析電路20包含有電路22、電路24以及電路%,電路用^ 計算頻率低於13 kHz的聲音樣本的能量,電路24用來計算頻率 介於8-13 kHz的聲音樣本的能量,而電路%貝,】是用來計算聲音樣 本的頻率中心(frequency centroid)。頻率中心即為所有頻譜的^算 數平均數,用來指相轉應的巾雜。聲音能量分析電路如; 的電路22、24或26的輸出隨後會和影像處理電路3〇的輪出相7 合,則可以同時處理影像分析以及聲音分析。 一合適的背景能階(background energy level)電路幻係用來 17 Ϊ283375 叶算背景雜訊的能階,背景能階電路42係採用局部能量的最低十 個的平均值,然而不一定要取十個,可以取較多或者較少,但是 利用這種平均方式可以得到較準確的聲音資料的背景雜訊能階。 所有由聲音能量分析電路20以及背景能階電路42計算出的 月b階資訊接著傳遞給比例計算電路5〇,比例計算電路計算出各 種能量比例,用來判定接收到的聲音資料的特徵。電路5 計算背景聲音能階與全部聲音能階之間的比例,電路54係用來計 算頻率落於如kHz《間的聲音之平均聲音能階與全部聲音能階 之間的比例,電路56係用來計算目前候選區段的頻率中心的變異 數電路58係用來计异無音訊比例(也⑽⑽, _音能階低於背景聲音能階之聲音段落的數目二= =數目比。比例計算電路5G計算完電路52、54、56及58所輸 r ml有比狀後接著會將計算後的比顺複數侧先確定的 7做比較。如果_特徵財落在上職财之 的新聞段落中,其餘的段細從二 十异電路50中輸出,視為具有電視新聞主播的鏡頭。 含分:二分:斷-個新聞 的像素的位置是否對應於電^7,、、、後再_洛於膚色範圍 再者’利用比較色譜曲線的:耳:的位置而呈現穩定狀態。 凌,本案可以很快地判斷出何時電. 1283375 視新聞主播已經沒有繼續^現在新聞畫面上。織再執行聲音分 析來進一步縮限候選片段的數目。 她於其齡騎則段的方法,本發曝有許乡優點,例 如’即使影像晝面包含有兩個或更多分割晝面,偵測電視新聞主 播的方法仍然相當有效。本發明可以利用-條水平掃描線來作分 析^運算複雜度較低,但結果較不準確;抑或可_用兩條水 • 1勒線來作分析,其财複雜錢雜冑,何制鮮確的 結果。再者’本發明所提出的方法亦翻於_出現—個或一個 以上的電視新縣播的晝面,而且也適用於多角度鏡頭。使用— 色彩空間來執行像素量測與比較可以更加確保本案可以有效地偵 測膚色範圍,然而使用Lab色彩空間不是本發明的必要手段。而 且臨界值也可以根據不同的膚色或是不同的化妝應用而做調整。 總之,本發明提供-種簡易的計算方法來將電視新聞節目分段。 験以上所述僅為本發明之較佳實施例,凡依本發明申請專利範 圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。 【圖式簡單說明】 弟1圖為電視新聞分段系統的方塊圖。 第2圖,示第—水平掃描線以及第二水平掃描線來偵測影像 畫面上是否有電視新聞主播的臉部影像。 第3圖為本發_難視賴域臉部影像的流程圖。 ⑧ 19 1283375 第4圖顯示如何從兩條掃 視新聞主播。 綠來得到—邏輯色彩圖,用來偵測電 =圖顯示_鏡頭切換之示意圖,藉触較兩個影像晝面的影 像㈣局部色譜曲線,來_綱切換。 ⑧ 【主要元件符號說明】 系統 12非重疊位移視窗電路 14快速傅立葉轉換電路 22 24聲音樣本的能量之計算電路 26聲音樣本的頻率中心之計算電路 20聲音能量分析電路 3〇影像處理電路 32鏡頭偵測電路 34臉部膚色偵測電路 36後續處理電路 40新聞影像的候選片段 5〇比例計算電路 52、54聲音能階比例計算電路 42背景能階電路 56頻率中心的變異數之計算電路 58無音訊比例計算電路 100、210影像晝面 102第一水平掃描線 104弟二水平掃描線 112、114取樣像素顏色 220膚色偵測程序 222、224指標陣列 226 “或”邏輯運算 230色彩地圖 232結果陣列 240色彩區塊 245呈現膚色的穩定區域 310、320影像晝面組 312、322影像晝面 315、325影像帶 20

Claims (1)

1283375 十、申請專利範圍: 1· 一種影像分段方法,用來根據影像片段的内容剪輯影像片段, 該方法包含有: 接收一包含有複數個影像畫面的影像訊號; 利用-第-水平掃描線來分析該影像訊號的影像晝面,其令 該第一水平掃描線係選取至少一列像素來作分析;、 分析影像晝面巾位於該第_水平掃描紅之像素以決定該像 素的顏色是否落於一預定顏色範圍之内; 在該影像晝面中指出落於該預定顏色範圍之内之相鄰像素所 含盖的區域; ' 利用複數個連續的影像晝面中位於該第一水平掃描線上之像 素來產生一色彩地圖; 如果,彩地圖顯示一預定數目的連續影像畫面中,皆包含一 穩定的像素區域,並且該像素皆落於該預定的顏色範圍, 則將目如的影像段落標示為候選的影像段落; 對=每個候選的影像段落,自每則固影像畫面中選出一個 p像旦面’並且針對每個選出的影像畫面的穩定區域,產 生一色譜曲線; 執仃第色谱曲線比較,比較每一對連續選出的影像晝面 之色譜曲線; 呑第色4曲線比較所得的第一色譜曲線差大於一第—臨 界值^執彳了-帛二色譜曲線比較,味介於該對連續選 _~像晝面之間之每_對連續的影像晝面之穩定區 1283375 域’其中該對連續選出的影像晝面之色譜曲線差係大於該 第一臨界值;以及 當該第二色譜曲線比較所得的第二色譜曲線差大於一第二臨 界值時,指示該候選的影像段落中有一鏡頭改變。 2·如專利範®第1項所述之方法,其中該自每N個影像晝面 中選出一個影像晝面係包含選取第N個影像晝面。 3·如申4專利_第丨項所述之方法,其中該第—水平掃描線係 位於-影像晝面中自頂端往下大約三分之一晝面的地方。 4.如申請專利範圍第i項所述之方法,更包含有在分析該影像畫 面中位於該第-水平掃描線上之像素前,執行一臟色彩至 Lab色I轉換’來判斷該像素的顏色是否落於該預定顏色範圍。 # 5·如申請專利範圍第!項所述之方法,其中該預定數目的連續影 像畫面係構成三秒鐘的影像。 6·如申明專利範圍第1項所述之方法,更包含有: 利用-第二水平掃描線來分析該影像訊號的影像書面,盆中 如果 = 象一線係選取相同數目的列來作分析; 如n面上位於料―、第二水平掃描線上之像 色係洛於該預定顏色範圍内,則將該像素設定為邏輯值 a 22 1283375 « 1,, l ; 利用位於該第—及第二水平掃描線上的相對應的像素,執行 或(OR)邏輯運算,來產生合成的像素資料;以 及 、 利用該合成的像素資料來指出該影像晝面中落於該預定顏色 範圍的相鄰像素的區域,以及利用該複數個連續的影像畫 面來產生該色彩地圖。 7·如申請專利範圍第6項所述之方法,其中該第一、第二水平掃 描線係位於一影像畫面中自頂端往下大約三分之一晝面的地 方。 8·如申請專利範圍第1項所述之方法,更包含有移除長度小於一 預定時間的候選的影像段落。 • 9·如申請專利範圍第1項所述之方法,更包含有: 接收與該已接收之影像訊號相關聯的聲音訊號;以及 分析該聲音訊號以過濾該候選的影像段落,其中該聲音訊號 係在一預定尺寸的聲音攔框(audi〇ftame)中進行處理。 : 10·如申請專利範圍第9項所述之方法,更包含將聲音樣本轉換至 頻域(frequency domain)以分析該聲音攔框的頻率響應,以 及计鼻該聲音搁框的總體聲音能階。 23 1283375 U·如申請專利範圍® ι〇項所述之方法,更包含有: 計算該聲音攔框之背景聲音能階; 比較該背景聲音能階與該總體聲音能階;以及 如果該背景聲音能階對該總體聲音能階之關並未落在一第 一特定範圍,則消除該候選的影像段落。 12·如申請專利範圍帛u項所述之方法,更包含有: 片异聲音能階低於該背景聲音能階之聲音攔餘對所有聲音 攔框數之比例;以及 如果該比例係未落於一第二特定範圍,則消除該候選的影像 段落。 13·如申請專利範圍第10項所述之方法,更包含有: 計算頻率落於8-13 kHz之聲音攔框的平均聲音能量; 計算頻率落於8-13kHz之聲音攔框的平均聲音能量對總體聲 音能階之比例;以及 如果該比例未落於一特定的範圍,則消除該候選的影像段落。 14·如申請專利範圍第1〇項所述之方法,更包含有: 计鼻该目前候選影像段落之頻率中心(frequency centroid)的 變異數;以及 如果該頻率中心的變異數未落於一特定的範圍,則消除該候 選的影像段落。 24 1283375 15. —種影像分段方法,用來根據影像片段的内容剪輯影像片段, 該方法包含有: 接收一包含有複數個影像晝面的影像訊號; 接收與該已接收之影像訊號相關聯的聲音訊號; 利用-第-水平掃描線與一第二水平掃描線來分析該影像訊 唬的影像晝面,其中該第一水平掃描線與該第二水平掃描 線係各選取至少一列像素來作分析; 如果影像晝面上位於該第-、第二水平掃描線上之像素的顏 色係落於-預定顏色範圍内,翁該像素設定為邏輯值 “Γ ; 利用位於該第-及第二水平掃描線上之相對應的像素,執行 -“或(QR) ”邏輯運算,來產生合成的像素資料; 利用該合成的像素資料來指^該影像晝面巾落於該預定顏色 範圍的相鄰像素的區域; 利用複數個連續的影像晝面中之合成的像素資料來產生一色 彩地圖; 如果色彩地圖顯示一預定數目的連續影像晝面中,皆包含一 穩定的像素區域,並且該像素皆落於該預定的顏色範圍, 則將目前的影像段落標示為候選的影像段落· 對於每-個候選的影像鄕,自每N個影像晝面中選出—個 影像晝面,並且針對每個選出的影像晝面的穩定區域產 生一色譜曲線; 執行-第-色譜曲線比較,比較每―對連續選出的影像晝面 25 1283375 之色譜曲線; 當該第-色譜曲線比較所得的第—色譜曲線差大於一第一臨 界值時’執行-第二色譜曲線比較,比較介於該對連續選 出的影像晝®r之間之每—對連續的影像晝面之穩定區 域’其中該對連續選出的影像畫面之色譜曲線差係大於該 第一臨界值; 虽及第一色4曲線比較所得的第二色譜曲線差大於一第二臨 界值時,指示該候選的影像段落中有-綱改變;以及 分析該聲音峨⑽濾雜選的影像段落其巾該聲音訊號 之特徵係藉域理鱗音峨之魏翅定尺寸的聲音 攔框(audio frame)而取得。 16.如申請專利範圍第15項所述之方法,其中該第-、第二水平 知描線係位於-影像晝面中自頂端往下大約三分之一晝面 的地方。
17 jrr a方法該方法係根據細—電視新_像片段中 =社罐___輪,財法包含有: =欠一包含有複數個新聞影像晝_影像訊號; 1复由第*水平知域來分析該影像訊號的新聞影像畫面, -新 兮榇H 水千知描線上之像素以決定 " 色衫落於—預定顏色鋼之内,以侧該電 26 1283375 視新聞主播的膚色; 在該新_像畫面"出落於該觀顏色麵之内之相鄰像 素所含蓋的區域; 利用複數個連續的酬影像畫面中位於該第—水平婦描線上 之像素來產生一色彩地圖; 如果色彩地圖顯示-預定數目的連續新聞影像畫面中,皆包 含一穩定的像素區域,並且該像素皆落於該預定的顏色範 圍,則將目前的影像段落標示為候選的影像段落; 對於每-键選的影像麟’自每N個新聞影像晝面中選出 7新聞影像畫面,並且針對每個選㈣新_像晝面的 穩定區域,產生一色譜曲線; 執行-第-色譜曲線比較,比較每—對連續選出的新聞影像 畫面之色譜曲線; 當該第一色譜曲線比較所得的第一色罐曲線差大於—第一臨 界值時,執行-第二色譜曲線比較,比較介於該對連續選 出的新聞影像畫©之間之每—對連續的糊影像晝面之 穩定區域,其中麟連續選出崎_像畫面— 差係大於該第-臨界值;以及 °曰線 當該第二色譜曲線比較所得的第二色譜曲線差大於_第二臨 界值時,指示該候選的影像段落中有一鏡頭改變。一 十一、圖式··
27
TW94126220A 2005-08-02 2005-08-02 Anchor person detection for television news segmentation based on audiovisual features TWI283375B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW94126220A TWI283375B (en) 2005-08-02 2005-08-02 Anchor person detection for television news segmentation based on audiovisual features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW94126220A TWI283375B (en) 2005-08-02 2005-08-02 Anchor person detection for television news segmentation based on audiovisual features

Publications (2)

Publication Number Publication Date
TW200707336A TW200707336A (en) 2007-02-16
TWI283375B true TWI283375B (en) 2007-07-01

Family

ID=39428161

Family Applications (1)

Application Number Title Priority Date Filing Date
TW94126220A TWI283375B (en) 2005-08-02 2005-08-02 Anchor person detection for television news segmentation based on audiovisual features

Country Status (1)

Country Link
TW (1) TWI283375B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741345B2 (en) 2013-08-15 2017-08-22 Chunghwa Telecom Co., Ltd. Method for segmenting videos and audios into clips using speaker recognition

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI700925B (zh) * 2018-01-04 2020-08-01 良知股份有限公司 數位新聞影片篩選及通報方法
CN111866610B (zh) * 2019-04-08 2022-09-30 百度时代网络技术(北京)有限公司 用于生成信息的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741345B2 (en) 2013-08-15 2017-08-22 Chunghwa Telecom Co., Ltd. Method for segmenting videos and audios into clips using speaker recognition

Also Published As

Publication number Publication date
TW200707336A (en) 2007-02-16

Similar Documents

Publication Publication Date Title
RU2494566C2 (ru) Устройство и способ управления отображением
EP0720114B1 (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
CN100530189C (zh) 一种自适应生成足球视频摘要的方法和装置
CN100589532C (zh) 字幕区域提取装置和方法
US20030068087A1 (en) System and method for generating a character thumbnail sequence
US7305128B2 (en) Anchor person detection for television news segmentation based on audiovisual features
EP1081960A1 (en) Signal processing method and video/voice processing device
US20020146168A1 (en) Anchor shot detection method for a news video browsing system
KR20000009742A (ko) 동영상에서의 특정인물 등장구간 검색 시스템
US20110007975A1 (en) Image Display Apparatus and Image Display Method
TW200536389A (en) Intelligent key-frame extraction from a video
KR101471204B1 (ko) 이미지에서의 의류 검출 장치와 그 방법
US8630532B2 (en) Video processing apparatus and video processing method
Ren et al. Fusion of intensity and inter-component chromatic difference for effective and robust colour edge detection
CN109876416A (zh) 一种基于图像信息的跳绳计数方法
CN120455652B (zh) 一种视频流多模态内容安全动态审核系统及方法
CN102625028A (zh) 对视频中存在的静态徽标进行检测的方法和设备
US8311269B2 (en) Blocker image identification apparatus and method
JP2007515891A (ja) 画像フォーマット変換
CN108446603A (zh) 一种新闻标题检测方法及装置
TWI283375B (en) Anchor person detection for television news segmentation based on audiovisual features
Wang et al. Robust image chroma-keying: a quadmap approach based on global sampling and local affinity
CN101827224A (zh) 一种新闻视频中主播镜头的检测方法
Jinda-Apiraksa et al. A Keyframe Selection of Lifelog Image Sequences.

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees