CN102208023A - 基于边缘信息和分布熵的视频字幕识别设计方法 - Google Patents
基于边缘信息和分布熵的视频字幕识别设计方法 Download PDFInfo
- Publication number
- CN102208023A CN102208023A CN2011100243300A CN201110024330A CN102208023A CN 102208023 A CN102208023 A CN 102208023A CN 2011100243300 A CN2011100243300 A CN 2011100243300A CN 201110024330 A CN201110024330 A CN 201110024330A CN 102208023 A CN102208023 A CN 102208023A
- Authority
- CN
- China
- Prior art keywords
- area
- edge
- connected domain
- row
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息,然后连接边缘点并收集连通域,使用分割算法对连通域进行适当分割,再使用精化操作得到它们的准确位置,使用拖尾过滤器和联合熵过滤器过滤掉非文本区域,剩下的就是文本区域。对于检测出的文本域,统一成黑底白字后,使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作,得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点,通过引入分割算法和联合熵过滤器,能得到很好的检测效果,改进传统的二值化方法极大的提高了识别准确率。
Description
技术领域
本发明涉及一种基于边缘信息和分布熵的视频字幕识别方法,该方法用于实现在视频中检测并提取字幕用于OCR识别,属于计算机图像处理领域。
背景技术
随着多媒体和电子工业的发展,越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息,这些字幕信息与视频内容密切相关。如能有效的识别这些字幕,则能利用它们对视频资料进行组织和检索,具有很强的实用价值。
视频字幕识别分为四步:字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域;字幕定位用于定位每一行字幕的精确位置;字幕提取用于将字幕区域二值化,只保留笔划像素;最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法:基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边,然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8rd International Conference on Document Analysis and Recognition (ICDAR),2005,610-614)公布的方法使用边缘检测方法得到四个边缘映射图,然后使用K-MEANS算法检测候选文本区域,最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景,基于边的方法的效果会很好,但是当背景包含很多边信息时,它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征,然后用神经网络、SVM分类器等机器学习的方法检测字幕区域。IEEE通信技术2008年会议论文集中(In Proceeding of IEEE International Conference on Communication Technology(ICCT),2008,722-725) 公布的一种方法使用HARR小波变换通过将4小块小波系数合并成一大块来定位大字体文本中,然后使用形态学膨胀操作和神经网格来增强效果。基于连通域的方法将一帧分割成多个小连通域,然后将它们合并到较大的连通域中用来定位字幕。ACM 多媒体技术2007年会议论文集中(In Proceedings of the ACM International Multimedia Conference and Exhibition 2007(MM),847-850)公布的一种方法使用基于信用的颜色的聚类去掉噪声,他们根据各颜色面板的文本对比度差异来适应性的选择相对最好的颜色面板执行二值化操作。基于颜色聚类的方法假设视频帧中的文本颜色都是统一的,然而这一假设在大多数情况下是不成立的,因此其应用的局限性较大。由于利用一种特征进行字幕检测其效果不理想,因此很多方法联合使用以上多种特征。对于字幕定位,一般使用灰度投影的方法。字幕提取方法可以分为基于颜色的方法和基于笔划的方法。很多基于颜色的方法使用Otsu方法对灰度图进行二值化,但当字幕和背景的灰度级非常相近时,该方法不能很好的分辨出它们,从而不能很好的去噪。《电气和电子工程师协会视频技术电路与系统学报》2005年第15期(IEEE Transactions on Circuits and Systems for Video Technology 2005,15(2):243-255)和《电气和电子工程师协会图像处理学报》2009年第18期(IEEE Transactions on Image Processing 2009,18(2):401-411)中公布的一种方法使用有更好的分辨力的局部适应性阀值,结合dam点标记和向内填充,使得大部分噪声点能去被移除。
上面这些字幕检测方法均对视频字幕检测工作作出了一些有益的尝试,但这些方法对字幕与背景的分辨效果不是很好,仅采用这些方法检测一些语言、字体及文字对齐方式多变的视频进行处理效果不佳。另外已存的字幕提取方法虽然能去掉大部分噪音,但由于OCR软件对噪声点非常敏感,导致复杂背景下文本识别的效果不佳。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于边缘信息和分布熵的视频字幕识别方法。
基于边缘信息和分布熵的视频字幕识别方法的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
4)在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
若cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD 四个方向上的梯度模板组成,边缘场由下式计算:
其中表示在像素(x,y)处与最大梯度绝对值方向垂直的方向,k为一个调节系数,本文中其取值为1,S然后量化成16级,量化后表示为S’,然后用下式得到边缘映射图EdgeMap:
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
其中t c ,b c l c 和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
使用如下拖尾过滤方法去掉一些非字幕连通域:
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 , tl 2 )
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
其中ubc和utc分别表示连通域C精化后的上下界位置,而 和 通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为和;
用如下方法判断字幕区域的颜色极:
(a) 若,则为白字;
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0; t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheight和cwidth分别为该连通域的高和宽。
v) 将二值图B送入OCR软件进行识别。
本发明与现有技术相比具有的有益效果:
1)本发明中的字幕检测算法能克服常用检测算法对语言、字幕对齐方式和背景复杂性敏感的缺点,通过加强字幕特有的角点信息并使用区域分割算法,同时结合联合熵过滤器,能得到对语言、字幕对齐方式和背景复杂性的变化鲁棒性较好的检测结果;
2)本发明中的字幕提取算法能在一般的提取算法的基础上进一步去掉噪声像素,使后续的OCR识别精度有了一定的提高;
3)本发明能在一定程度上解决视频帧中重复字幕过多的问题,同时又能防止某些字幕被漏检,在连续的视频帧序列上取得了较好的效果。
附图说明
图1是视频字幕识别框架图;
图2是视频字幕检测框架图;
图3是对某一帧图像进行视频字幕检测的流程实例图;
图4是对某一字幕区域进行视频字幕抽取的实例图;
具体实施方式
为了更好的理解本发明的技术方案,以下结合附图1和附图2对本发明作进一步的描述。附图1描述了本发明视频字幕识别方法的框架图,附图2描述了本发明中视频字幕检测方法的框架图。
基于边缘信息和分布熵的视频字幕识别方法的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
4)在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
1
若cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD 四个方向上的梯度模板组成,边缘场由下式计算:
2
3
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
其中t c ,b c l c 和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
输入:边缘映射图edgeMap,连通域C的初始上下边界位置
使用如下拖尾过滤方法去掉一些非字幕连通域:
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 , tl 2 )
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
5
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
7
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为和;
用如下方法判断字幕区域的颜色极:
其中;
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0; t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheight和cwidth分别为该连通域的高和宽。
v) 将二值图B送入OCR软件进行识别。
实施例
如图3、4所示,对于视频中的某一幅帧图像,给出了对包含在其中的字幕的识别流程实例。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
对于某一帧图像,如附图3(a)所示,采用权利要求3中的(1)边缘检测方法得出其角点加强的边缘映射图,结果如附图3(b)所示;
(1) 以上步得到的边缘映射图为输入,采用权利要求3中的(2)边缘点连接方法连接边缘点,结果如附图3(c)所示;
(2) 以边缘点连接后的映射图为输入,采用权利要求3中的(3)连通域收集及分割算法得到较大的连通域,结果如附图3(d)所示;
(3) 对上步得到的连通域,使用权利要求3中的(4)连通域精化及拖尾过滤方法得到更准确的区域位置大小并进行初步过滤,结果如附图3(e)所示;
(4) 对过滤后剩下的连通域,使用权利要求3中的(5)联合熵过滤器去掉非字幕区域,最后检测结果如附图3(f)所示;
(5) 对于上步检测出的某一特定字幕区域,如附图4(a)所示,先使用权利要求4中的(6)重复性检测判断其是否与之前已检测区域重复,如不重复,则使用权利要求4中的(7)颜色极统一方法将该区域统一成黑底白字;
(6) 对统一颜色极后的字幕区域,使用权利要求5中的二值化和去噪算法,得到较好的二值图,结果如附图4(b)所示;
(7) 使用商业OCR软件对二值图进行识别,结果如附图4(c)所示。
从附图中可以看出,本方法能较好的检测视频图像帧中的字幕区域,并将之二值化,二值化后的结果能达到较好的识别精度。
Claims (5)
1.一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于它的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
2.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
若cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
3.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD 四个方向上的梯度模板组成,边缘场由下式计算:
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
其中t c ,b c l c 和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
使用如下拖尾过滤方法去掉一些非字幕连通域:
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 , tl 2 )
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
其中ubc和utc分别表示连通域C精化后的上下界位置,而 和 通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
4.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为和;
p) 定义为它们的比,定义
用如下方法判断字幕区域的颜色极:
其中;
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
5.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0; t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheight和cwidth分别为该连通域的高和宽;
v) 将二值图B送入OCR软件进行识别。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 201110024330 CN102208023B (zh) | 2011-01-23 | 2011-01-23 | 基于边缘信息和分布熵的视频字幕识别设计方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN 201110024330 CN102208023B (zh) | 2011-01-23 | 2011-01-23 | 基于边缘信息和分布熵的视频字幕识别设计方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN102208023A true CN102208023A (zh) | 2011-10-05 |
| CN102208023B CN102208023B (zh) | 2013-05-08 |
Family
ID=44696845
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN 201110024330 Expired - Fee Related CN102208023B (zh) | 2011-01-23 | 2011-01-23 | 基于边缘信息和分布熵的视频字幕识别设计方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN102208023B (zh) |
Cited By (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102780856A (zh) * | 2012-04-12 | 2012-11-14 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻视频字幕标注方法 |
| CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
| CN103377379A (zh) * | 2012-04-27 | 2013-10-30 | 佳能株式会社 | 文本检测设备、文本信息提取系统及其方法 |
| CN104424480A (zh) * | 2013-08-29 | 2015-03-18 | 亚德诺半导体集团 | 面部识别 |
| CN106355172A (zh) * | 2016-08-11 | 2017-01-25 | 无锡天脉聚源传媒科技有限公司 | 一种字符识别方法及装置 |
| CN107590447A (zh) * | 2017-08-29 | 2018-01-16 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
| WO2018023538A1 (zh) * | 2016-08-04 | 2018-02-08 | 黄新勇 | 电视广播字幕的提取方法及系统 |
| CN108982106A (zh) * | 2018-07-26 | 2018-12-11 | 安徽大学 | 一种快速检测复杂系统动力学突变的有效方法 |
| CN109284751A (zh) * | 2018-10-31 | 2019-01-29 | 河南科技大学 | 基于频谱分析和svm的文字定位的非文本滤除方法 |
| CN111064990A (zh) * | 2019-11-22 | 2020-04-24 | 华中师范大学 | 视频处理方法、装置和电子设备 |
| CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
| CN111754414A (zh) * | 2019-03-29 | 2020-10-09 | 搜狗(杭州)智能科技有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
| CN111783771A (zh) * | 2020-06-12 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 文字检测方法、装置、电子设备和存储介质 |
| WO2020215696A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 提取视频字幕的方法、装置、计算机设备及存储介质 |
| CN111860521A (zh) * | 2020-07-21 | 2020-10-30 | 西安交通大学 | 一种畸变喷码字符逐层分割的方法 |
| CN111967526A (zh) * | 2020-08-20 | 2020-11-20 | 东北大学秦皇岛分校 | 基于边缘映射和深度学习的遥感图像变化检测方法及系统 |
| CN112925905A (zh) * | 2021-01-28 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 提取视频字幕的方法、装置、电子设备和存储介质 |
| CN113485432A (zh) * | 2021-07-26 | 2021-10-08 | 西安热工研究院有限公司 | 一种基于无人机的光伏电站电致发光智能诊断系统及方法 |
| CN113496223A (zh) * | 2020-03-19 | 2021-10-12 | 顺丰科技有限公司 | 文本区域检测模型的建立方法以及装置 |
| CN114140798A (zh) * | 2021-12-03 | 2022-03-04 | 北京奇艺世纪科技有限公司 | 文本区域的分割方法、装置、电子设备和存储介质 |
| CN114140729A (zh) * | 2021-12-03 | 2022-03-04 | 北京奇艺世纪科技有限公司 | 文本区域的位置识别方法、装置、电子设备和存储介质 |
| CN116453030A (zh) * | 2023-04-07 | 2023-07-18 | 郑州工程技术学院 | 一种基于计算机视觉的建筑材料回收方法 |
| CN119692074A (zh) * | 2025-02-25 | 2025-03-25 | 泉州市馨帮护卫生用品有限公司 | 一种基于操作行为分析的数控教学系统 |
| CN119763090A (zh) * | 2024-12-11 | 2025-04-04 | 浙江大学 | 基于ocr和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1835462A1 (en) * | 2004-12-02 | 2007-09-19 | National Institute of Advanced Industrial Science and Technology | Tracing device, and tracing method |
| CN101122952A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字检测的方法 |
| US20080143880A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus for detecting caption of video |
| CN101833664A (zh) * | 2010-04-21 | 2010-09-15 | 中国科学院自动化研究所 | 基于稀疏表达的视频图像文字检测方法 |
-
2011
- 2011-01-23 CN CN 201110024330 patent/CN102208023B/zh not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1835462A1 (en) * | 2004-12-02 | 2007-09-19 | National Institute of Advanced Industrial Science and Technology | Tracing device, and tracing method |
| US20080143880A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus for detecting caption of video |
| CN101122952A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字检测的方法 |
| CN101833664A (zh) * | 2010-04-21 | 2010-09-15 | 中国科学院自动化研究所 | 基于稀疏表达的视频图像文字检测方法 |
Non-Patent Citations (7)
| Title |
|---|
| 《Acoust, Speech, and Signal Processing, 2003. Proceedings.(ICASSP '03). 2003 IEEE International Conference on》 20030410 J. Song等 A robust statistic method for classifying color polarity of video text 581-584 1-5 第3卷, * |
| J. SONG等: "A robust statistic method for classifying color polarity of video text", 《ACOUST, SPEECH, AND SIGNAL PROCESSING, 2003. PROCEEDINGS.(ICASSP ’03). 2003 IEEE INTERNATIONAL CONFERENCE ON》, vol. 3, 10 April 2003 (2003-04-10), pages 581 - 584 * |
| MICHAEL R.LYU等: "A comprehensive method for multilingual video text detection, localization, and extraction", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 2005》, vol. 15, no. 2, 28 February 2005 (2005-02-28), pages 243 - 255 * |
| WONJUN KIM等: "A New Approach for Overlay Text Detection and Extraction from Complex Video Scene", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 2009》, vol. 18, no. 2, 28 February 2009 (2009-02-28), pages 401 - 411, XP011239995, DOI: doi:10.1109/TIP.2008.2008225 * |
| 密聪杰等: "基于多帧图像的视频文字跟踪和分割算法", 《计算机研究与发展》, vol. 43, no. 9, 30 September 2006 (2006-09-30), pages 1523 - 1529 * |
| 沈淑娟: "基于时空域信息的视频字幕提取算法研究", 《中国优秀硕士学位论文全文数据库》, 11 June 2004 (2004-06-11), pages 45 - 47 * |
| 陆兵: "视频中的文本提取及其应用", 《中国优秀硕士学位论文全文数据库》, 12 October 2007 (2007-10-12), pages 7 - 62 * |
Cited By (35)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102780856A (zh) * | 2012-04-12 | 2012-11-14 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻视频字幕标注方法 |
| CN103377379A (zh) * | 2012-04-27 | 2013-10-30 | 佳能株式会社 | 文本检测设备、文本信息提取系统及其方法 |
| CN103136523B (zh) * | 2012-11-29 | 2016-06-29 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
| CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
| CN104424480B (zh) * | 2013-08-29 | 2019-01-18 | 亚德诺半导体集团 | 面部识别 |
| CN104424480A (zh) * | 2013-08-29 | 2015-03-18 | 亚德诺半导体集团 | 面部识别 |
| WO2018023538A1 (zh) * | 2016-08-04 | 2018-02-08 | 黄新勇 | 电视广播字幕的提取方法及系统 |
| CN106355172A (zh) * | 2016-08-11 | 2017-01-25 | 无锡天脉聚源传媒科技有限公司 | 一种字符识别方法及装置 |
| CN107590447A (zh) * | 2017-08-29 | 2018-01-16 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
| CN107590447B (zh) * | 2017-08-29 | 2021-01-08 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
| CN108982106A (zh) * | 2018-07-26 | 2018-12-11 | 安徽大学 | 一种快速检测复杂系统动力学突变的有效方法 |
| CN108982106B (zh) * | 2018-07-26 | 2020-09-22 | 安徽大学 | 一种快速检测复杂系统动力学突变的有效方法 |
| CN109284751A (zh) * | 2018-10-31 | 2019-01-29 | 河南科技大学 | 基于频谱分析和svm的文字定位的非文本滤除方法 |
| CN111754414B (zh) * | 2019-03-29 | 2023-10-27 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
| CN111754414A (zh) * | 2019-03-29 | 2020-10-09 | 搜狗(杭州)智能科技有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
| WO2020215696A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 提取视频字幕的方法、装置、计算机设备及存储介质 |
| CN111064990B (zh) * | 2019-11-22 | 2021-12-14 | 华中师范大学 | 视频处理方法、装置和电子设备 |
| CN111064990A (zh) * | 2019-11-22 | 2020-04-24 | 华中师范大学 | 视频处理方法、装置和电子设备 |
| CN113496223A (zh) * | 2020-03-19 | 2021-10-12 | 顺丰科技有限公司 | 文本区域检测模型的建立方法以及装置 |
| CN111783771A (zh) * | 2020-06-12 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 文字检测方法、装置、电子设备和存储介质 |
| CN111783771B (zh) * | 2020-06-12 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 文字检测方法、装置、电子设备和存储介质 |
| CN111860521B (zh) * | 2020-07-21 | 2022-04-22 | 西安交通大学 | 一种畸变喷码字符逐层分割的方法 |
| CN111860521A (zh) * | 2020-07-21 | 2020-10-30 | 西安交通大学 | 一种畸变喷码字符逐层分割的方法 |
| CN111967526A (zh) * | 2020-08-20 | 2020-11-20 | 东北大学秦皇岛分校 | 基于边缘映射和深度学习的遥感图像变化检测方法及系统 |
| CN111967526B (zh) * | 2020-08-20 | 2023-09-22 | 东北大学秦皇岛分校 | 基于边缘映射和深度学习的遥感图像变化检测方法及系统 |
| CN111741236A (zh) * | 2020-08-24 | 2020-10-02 | 浙江大学 | 基于共识图表征推理的定位自然图像字幕生成方法和装置 |
| CN112925905A (zh) * | 2021-01-28 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 提取视频字幕的方法、装置、电子设备和存储介质 |
| CN112925905B (zh) * | 2021-01-28 | 2024-02-27 | 北京达佳互联信息技术有限公司 | 提取视频字幕的方法、装置、电子设备和存储介质 |
| CN113485432A (zh) * | 2021-07-26 | 2021-10-08 | 西安热工研究院有限公司 | 一种基于无人机的光伏电站电致发光智能诊断系统及方法 |
| CN114140729A (zh) * | 2021-12-03 | 2022-03-04 | 北京奇艺世纪科技有限公司 | 文本区域的位置识别方法、装置、电子设备和存储介质 |
| CN114140798A (zh) * | 2021-12-03 | 2022-03-04 | 北京奇艺世纪科技有限公司 | 文本区域的分割方法、装置、电子设备和存储介质 |
| CN116453030A (zh) * | 2023-04-07 | 2023-07-18 | 郑州工程技术学院 | 一种基于计算机视觉的建筑材料回收方法 |
| CN116453030B (zh) * | 2023-04-07 | 2024-07-05 | 郑州大学 | 一种基于计算机视觉的建筑材料回收方法 |
| CN119763090A (zh) * | 2024-12-11 | 2025-04-04 | 浙江大学 | 基于ocr和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置 |
| CN119692074A (zh) * | 2025-02-25 | 2025-03-25 | 泉州市馨帮护卫生用品有限公司 | 一种基于操作行为分析的数控教学系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN102208023B (zh) | 2013-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102208023B (zh) | 基于边缘信息和分布熵的视频字幕识别设计方法 | |
| Gllavata et al. | A robust algorithm for text detection in images | |
| CN101453575B (zh) | 一种视频字幕信息提取方法 | |
| CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
| CN105205488B (zh) | 基于Harris角点和笔画宽度的文字区域检测方法 | |
| CN103136523B (zh) | 一种自然图像中任意方向文本行检测方法 | |
| CN105868708B (zh) | 一种图像目标识别方法及装置 | |
| CN110363095A (zh) | 一种针对表格字体的识别方法 | |
| CN104715252B (zh) | 一种动态模板结合像素点的车牌字符分割方法 | |
| CN103336961B (zh) | 一种交互式的自然场景文本检测方法 | |
| CN101719142B (zh) | 基于分类字典的稀疏表示图片文字检测方法 | |
| CN108171104A (zh) | 一种文字检测方法及装置 | |
| CN101122953A (zh) | 一种图片文字分割的方法 | |
| CN107895492A (zh) | 一种基于传统视频的高速公路智能分析方法 | |
| EP1147485A1 (en) | Video stream classifiable symbol isolation method and system | |
| CN101122952A (zh) | 一种图片文字检测的方法 | |
| CN103295009B (zh) | 基于笔画分解的车牌字符识别方法 | |
| CN101266654A (zh) | 基于连通分量和支持向量机的图像文本定位方法和装置 | |
| CN107085726A (zh) | 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法 | |
| CN105868683A (zh) | 台标识别方法及装置 | |
| CN104598907A (zh) | 一种基于笔画宽度图的图像中文字数据提取方法 | |
| Bijalwan et al. | Automatic text recognition in natural scene and its translation into user defined language | |
| Jamil et al. | Edge-based features for localization of artificial Urdu text in video images | |
| Ghai et al. | A comprehensive review on performance-based comparative analysis, categorization, classification and mapping of text extraction system techniques for images | |
| CN107506777A (zh) | 一种基于小波变化和支持向量机的实时多车牌识别方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| C17 | Cessation of patent right | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130508 Termination date: 20140123 |