[go: up one dir, main page]

CN102208023A - 基于边缘信息和分布熵的视频字幕识别设计方法 - Google Patents

基于边缘信息和分布熵的视频字幕识别设计方法 Download PDF

Info

Publication number
CN102208023A
CN102208023A CN2011100243300A CN201110024330A CN102208023A CN 102208023 A CN102208023 A CN 102208023A CN 2011100243300 A CN2011100243300 A CN 2011100243300A CN 201110024330 A CN201110024330 A CN 201110024330A CN 102208023 A CN102208023 A CN 102208023A
Authority
CN
China
Prior art keywords
area
edge
connected domain
row
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100243300A
Other languages
English (en)
Other versions
CN102208023B (zh
Inventor
魏宝刚
庄越挺
袁杰
鲁伟明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 201110024330 priority Critical patent/CN102208023B/zh
Publication of CN102208023A publication Critical patent/CN102208023A/zh
Application granted granted Critical
Publication of CN102208023B publication Critical patent/CN102208023B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息,然后连接边缘点并收集连通域,使用分割算法对连通域进行适当分割,再使用精化操作得到它们的准确位置,使用拖尾过滤器和联合熵过滤器过滤掉非文本区域,剩下的就是文本区域。对于检测出的文本域,统一成黑底白字后,使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作,得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点,通过引入分割算法和联合熵过滤器,能得到很好的检测效果,改进传统的二值化方法极大的提高了识别准确率。

Description

基于边缘信息和分布熵的视频字幕识别设计方法
技术领域
本发明涉及一种基于边缘信息和分布熵的视频字幕识别方法,该方法用于实现在视频中检测并提取字幕用于OCR识别,属于计算机图像处理领域。
背景技术
随着多媒体和电子工业的发展,越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息,这些字幕信息与视频内容密切相关。如能有效的识别这些字幕,则能利用它们对视频资料进行组织和检索,具有很强的实用价值。
视频字幕识别分为四步:字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域;字幕定位用于定位每一行字幕的精确位置;字幕提取用于将字幕区域二值化,只保留笔划像素;最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法:基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边,然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8rd International Conference on Document Analysis and Recognition (ICDAR),2005,610-614)公布的方法使用边缘检测方法得到四个边缘映射图,然后使用K-MEANS算法检测候选文本区域,最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景,基于边的方法的效果会很好,但是当背景包含很多边信息时,它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征,然后用神经网络、SVM分类器等机器学习的方法检测字幕区域。IEEE通信技术2008年会议论文集中(In Proceeding of IEEE International Conference on Communication Technology(ICCT),2008,722-725) 公布的一种方法使用HARR小波变换通过将4小块小波系数合并成一大块来定位大字体文本中,然后使用形态学膨胀操作和神经网格来增强效果。基于连通域的方法将一帧分割成多个小连通域,然后将它们合并到较大的连通域中用来定位字幕。ACM 多媒体技术2007年会议论文集中(In Proceedings of the ACM International Multimedia Conference and Exhibition 2007(MM),847-850)公布的一种方法使用基于信用的颜色的聚类去掉噪声,他们根据各颜色面板的文本对比度差异来适应性的选择相对最好的颜色面板执行二值化操作。基于颜色聚类的方法假设视频帧中的文本颜色都是统一的,然而这一假设在大多数情况下是不成立的,因此其应用的局限性较大。由于利用一种特征进行字幕检测其效果不理想,因此很多方法联合使用以上多种特征。对于字幕定位,一般使用灰度投影的方法。字幕提取方法可以分为基于颜色的方法和基于笔划的方法。很多基于颜色的方法使用Otsu方法对灰度图进行二值化,但当字幕和背景的灰度级非常相近时,该方法不能很好的分辨出它们,从而不能很好的去噪。《电气和电子工程师协会视频技术电路与系统学报》2005年第15期(IEEE Transactions on Circuits and Systems for Video Technology 2005,15(2):243-255)和《电气和电子工程师协会图像处理学报》2009年第18期(IEEE Transactions on Image Processing 2009,18(2):401-411)中公布的一种方法使用有更好的分辨力的局部适应性阀值,结合dam点标记和向内填充,使得大部分噪声点能去被移除。
上面这些字幕检测方法均对视频字幕检测工作作出了一些有益的尝试,但这些方法对字幕与背景的分辨效果不是很好,仅采用这些方法检测一些语言、字体及文字对齐方式多变的视频进行处理效果不佳。另外已存的字幕提取方法虽然能去掉大部分噪音,但由于OCR软件对噪声点非常敏感,导致复杂背景下文本识别的效果不佳。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于边缘信息和分布熵的视频字幕识别方法。
基于边缘信息和分布熵的视频字幕识别方法的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
4)在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
Figure DEST_PATH_IMAGE002
                                                   1
cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD  四个方向上的梯度模板组成,边缘场由下式计算:
Figure DEST_PATH_IMAGE004
                      2
其中表示在像素(x,y)处与最大梯度绝对值方向垂直的方向,k为一个调节系数,本文中其取值为1,S然后量化成16级,量化后表示为S’,然后用下式得到边缘映射图EdgeMap
Figure DEST_PATH_IMAGE008
                                  3
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
Figure DEST_PATH_IMAGE010
                                    4
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
a) 对于C中的每一行i
Figure DEST_PATH_IMAGE012
,得到该行及以上部分的最小包围矩形的面积
Figure DEST_PATH_IMAGE014
和该行以下部分的最小包围矩形的面积
Figure DEST_PATH_IMAGE016
,求出这两个面积的和,找出取得最小和的行号存储在bR中;
b) 对于C中的每一列j
Figure DEST_PATH_IMAGE018
,得到该列及左边部分的最小包围矩形的面积和该列右边部分的最小包围矩形的面积
Figure DEST_PATH_IMAGE022
,求出这两个面积的和,找出取得最小和的列号存储在bC中;
c) 令
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
,若mRA<mCA,则将连通域C在行上以第bR行为界分成两个连通域,否则将连通域C在列上以第bC列为界分成两个连通域;
其中t c  ,b c  l c  和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
为了防止过分割,只有当连通区域C同时满足以下两个条件时才进行分割:
Figure DEST_PATH_IMAGE028
连通域填充率小于0.8;
Figure DEST_PATH_IMAGE030
分成的两个新连通域面积都大于整幅图像面积的0.2%;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
输入:边缘映射图edgeMap,连通域C的初始上下边界位置
Figure DEST_PATH_IMAGE032
输出:精化后的上下界位置
Figure 2011100243300100002DEST_PATH_IMAGE034
d) 对于连通域C的任意行
Figure DEST_PATH_IMAGE036
,计算其在edgeMap中的左右非0像素跨距
Figure DEST_PATH_IMAGE038
,并存储在集合cSA中;
e) 对于连通域C的任意行
Figure 103460DEST_PATH_IMAGE036
,计算其在edgeMap中的行像素点数,并存储在集合
Figure DEST_PATH_IMAGE040
中,即有
Figure DEST_PATH_IMAGE042
f) 取cSA中的最大值存在
Figure DEST_PATH_IMAGE044
中,并将其序号存在pSRN中;
Figure 238644DEST_PATH_IMAGE040
中的最大值存在中,并将其序号存在中;
g) 对于在
Figure DEST_PATH_IMAGE050
范围内的所有行,取
Figure DEST_PATH_IMAGE052
的最大行序号
Figure DEST_PATH_IMAGE054
对于在
Figure DEST_PATH_IMAGE056
范围内的所有行,取
Figure 63118DEST_PATH_IMAGE052
的最小行序号
Figure DEST_PATH_IMAGE058
对于在
Figure DEST_PATH_IMAGE060
范围内的所有行,取
Figure DEST_PATH_IMAGE062
的最大行序号
Figure DEST_PATH_IMAGE064
对于在
Figure DEST_PATH_IMAGE066
范围内的所有行,取
Figure 475514DEST_PATH_IMAGE062
的最小行序号
Figure DEST_PATH_IMAGE068
h) 令
Figure DEST_PATH_IMAGE070
,即得到精化后的上下界位置
其中
Figure DEST_PATH_IMAGE072
 和 
Figure DEST_PATH_IMAGE074
通常取值为0.6和0.3;
使用如下拖尾过滤方法去掉一些非字幕连通域:
i) 在上面步骤g) 完成后,继续在oPNA中向上和下扫描,直到当前行处的值小于
Figure DEST_PATH_IMAGE076
,假设得到的行号分别为t tail 和 b tail
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 tl 2 )
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
Figure DEST_PATH_IMAGE078
                                             5
其中ubc和utc分别表示连通域C精化后的上下界位置,而 和 通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
            6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
Figure DEST_PATH_IMAGE082
 7
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,
对于任一精化后的连通域C,若其
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
,则认为其是字幕区域,否则就是非字幕区域,应该删除,实验得
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE090
分别取6.4和2.76时效果最好;
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中
Figure DEST_PATH_IMAGE092
为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
m)计算它们的位置相似度
Figure DEST_PATH_IMAGE094
和灰度直方图相似度
Figure DEST_PATH_IMAGE096
,其中
Figure DEST_PATH_IMAGE098
是它们的公共部分的面积,而是它们中大的那个的面积,若
Figure DEST_PATH_IMAGE102
有一个大于0.8,则是相同区域的重复检测,此时去掉一个,保留一个;
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
n) 首先将灰度化后的字幕区域用Otsu方法二值化,然后分别使用3×3的掩模
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE108
对二值化后的字幕区域进行卷积操作,用下式确定每个像素处的边缘颜色:
Figure DEST_PATH_IMAGE110
                                8
令Nw和Nb分别表示白色边缘像素个数和黑色边缘像素个数,定义
Figure DEST_PATH_IMAGE112
为它们的比;
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为
Figure DEST_PATH_IMAGE116
p) 定义
Figure DEST_PATH_IMAGE118
为它们的比,定义
Figure DEST_PATH_IMAGE120
                                           9
用如下方法判断字幕区域的颜色极:
(a) 若,则为白字;
(b)   若
Figure DEST_PATH_IMAGE124
,则当
Figure DEST_PATH_IMAGE126
时,字幕为白色,当
Figure DEST_PATH_IMAGE128
时字幕为黑色;
(c)    若
Figure DEST_PATH_IMAGE130
,则为白字;
(d) 若,则当
Figure DEST_PATH_IMAGE134
时,字幕为白色,当
Figure DEST_PATH_IMAGE136
时字幕为黑色;
(e)    若
Figure DEST_PATH_IMAGE138
,则为黑字;
其中
Figure DEST_PATH_IMAGE140
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0;     t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheightcwidth分别为该连通域的高和宽。
v) 将二值图B送入OCR软件进行识别。
本发明与现有技术相比具有的有益效果:
1)本发明中的字幕检测算法能克服常用检测算法对语言、字幕对齐方式和背景复杂性敏感的缺点,通过加强字幕特有的角点信息并使用区域分割算法,同时结合联合熵过滤器,能得到对语言、字幕对齐方式和背景复杂性的变化鲁棒性较好的检测结果;
2)本发明中的字幕提取算法能在一般的提取算法的基础上进一步去掉噪声像素,使后续的OCR识别精度有了一定的提高;
3)本发明能在一定程度上解决视频帧中重复字幕过多的问题,同时又能防止某些字幕被漏检,在连续的视频帧序列上取得了较好的效果。
附图说明
图1是视频字幕识别框架图;
图2是视频字幕检测框架图;
图3是对某一帧图像进行视频字幕检测的流程实例图;
图4是对某一字幕区域进行视频字幕抽取的实例图;
具体实施方式
为了更好的理解本发明的技术方案,以下结合附图1和附图2对本发明作进一步的描述。附图1描述了本发明视频字幕识别方法的框架图,附图2描述了本发明中视频字幕检测方法的框架图。
基于边缘信息和分布熵的视频字幕识别方法的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
4)在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
                                                   1
cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD  四个方向上的梯度模板组成,边缘场由下式计算:
                      2
其中
Figure 39031DEST_PATH_IMAGE006
表示在像素(x,y)处与最大梯度绝对值方向垂直的方向,k为一个调节系数,本文中其取值为1,S然后量化成16级,量化后表示为S’,然后用下式得到边缘映射图EdgeMap
                                  3
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
Figure 830325DEST_PATH_IMAGE010
                                    4
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
a) 对于C中的每一行i
Figure 232487DEST_PATH_IMAGE012
,得到该行及以上部分的最小包围矩形的面积
Figure 839049DEST_PATH_IMAGE014
和该行以下部分的最小包围矩形的面积
Figure 35675DEST_PATH_IMAGE016
,求出这两个面积的和,找出取得最小和的行号存储在bR中;
b) 对于C中的每一列j
Figure 898327DEST_PATH_IMAGE018
,得到该列及左边部分的最小包围矩形的面积
Figure 838601DEST_PATH_IMAGE020
和该列右边部分的最小包围矩形的面积
Figure 768511DEST_PATH_IMAGE022
,求出这两个面积的和,找出取得最小和的列号存储在bC中;
c) 令
Figure 463934DEST_PATH_IMAGE024
Figure 548303DEST_PATH_IMAGE026
,若mRA<mCA,则将连通域C在行上以第bR行为界分成两个连通域,否则将连通域C在列上以第bC列为界分成两个连通域;
其中t c  ,b c  l c  和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
为了防止过分割,只有当连通区域C同时满足以下两个条件时才进行分割:
Figure 26689DEST_PATH_IMAGE028
连通域填充率小于0.8;
Figure 342263DEST_PATH_IMAGE030
分成的两个新连通域面积都大于整幅图像面积的0.2%;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
输入:边缘映射图edgeMap,连通域C的初始上下边界位置
输出:精化后的上下界位置
Figure 311411DEST_PATH_IMAGE034
d) 对于连通域C的任意行
Figure 62330DEST_PATH_IMAGE036
,计算其在edgeMap中的左右非0像素跨距
Figure 91465DEST_PATH_IMAGE038
,并存储在集合cSA中;
e) 对于连通域C的任意行
Figure 535216DEST_PATH_IMAGE036
,计算其在edgeMap中的行像素点数,并存储在集合
Figure 187652DEST_PATH_IMAGE040
中,即有
Figure 414365DEST_PATH_IMAGE042
f) 取cSA中的最大值存在
Figure 235691DEST_PATH_IMAGE044
中,并将其序号存在pSRN中;
Figure 755403DEST_PATH_IMAGE040
中的最大值存在
Figure 131020DEST_PATH_IMAGE046
中,并将其序号存在
Figure 348375DEST_PATH_IMAGE048
中;
g) 对于在
Figure 493049DEST_PATH_IMAGE050
范围内的所有行,取
Figure 54435DEST_PATH_IMAGE052
的最大行序号
Figure 323874DEST_PATH_IMAGE054
对于在范围内的所有行,取
Figure 186842DEST_PATH_IMAGE052
的最小行序号
对于在
Figure 555824DEST_PATH_IMAGE060
范围内的所有行,取
Figure 114981DEST_PATH_IMAGE062
的最大行序号
Figure 139306DEST_PATH_IMAGE064
对于在
Figure 532242DEST_PATH_IMAGE066
范围内的所有行,取
Figure 369748DEST_PATH_IMAGE062
的最小行序号
Figure 873541DEST_PATH_IMAGE068
h) 令
Figure 877007DEST_PATH_IMAGE070
,即得到精化后的上下界位置
Figure 440844DEST_PATH_IMAGE034
其中
Figure 968908DEST_PATH_IMAGE072
 和 
Figure 276393DEST_PATH_IMAGE074
通常取值为0.6和0.3;
使用如下拖尾过滤方法去掉一些非字幕连通域:
i) 在上面步骤g) 完成后,继续在oPNA中向上和下扫描,直到当前行处的值小于
Figure 868786DEST_PATH_IMAGE076
,假设得到的行号分别为t tail 和 b tail
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 tl 2 )
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
                                             5
其中ubc和utc分别表示连通域C精化后的上下界位置,而
Figure DEST_PATH_IMAGE144
 和 
Figure DEST_PATH_IMAGE146
通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
Figure 55102DEST_PATH_IMAGE080
            6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
 7
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,
对于任一精化后的连通域C,若其
Figure 911380DEST_PATH_IMAGE084
Figure 285861DEST_PATH_IMAGE086
,则认为其是字幕区域,否则就是非字幕区域,应该删除,实验得
Figure 850834DEST_PATH_IMAGE088
Figure 998657DEST_PATH_IMAGE090
分别取6.4和2.76时效果最好;
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中
Figure 67107DEST_PATH_IMAGE092
为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
m)计算它们的位置相似度
Figure 143647DEST_PATH_IMAGE094
和灰度直方图相似度,其中
Figure 757217DEST_PATH_IMAGE098
是它们的公共部分的面积,而
Figure 680174DEST_PATH_IMAGE100
是它们中大的那个的面积,若
Figure 521091DEST_PATH_IMAGE102
Figure 263919DEST_PATH_IMAGE104
有一个大于0.8,则是相同区域的重复检测,此时去掉一个,保留一个;
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
n) 首先将灰度化后的字幕区域用Otsu方法二值化,然后分别使用3×3的掩模
Figure 765262DEST_PATH_IMAGE106
Figure 542726DEST_PATH_IMAGE108
对二值化后的字幕区域进行卷积操作,用下式确定每个像素处的边缘颜色:
Figure 961069DEST_PATH_IMAGE110
                                8
令Nw和Nb分别表示白色边缘像素个数和黑色边缘像素个数,定义
Figure 456772DEST_PATH_IMAGE112
为它们的比;
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为
Figure 891033DEST_PATH_IMAGE114
Figure 788582DEST_PATH_IMAGE116
p) 定义
Figure 971302DEST_PATH_IMAGE118
为它们的比,定义
Figure 688722DEST_PATH_IMAGE120
                                           9
用如下方法判断字幕区域的颜色极:
(a) 若
Figure 988991DEST_PATH_IMAGE122
,则为白字;
(d)   若,则当
Figure 970034DEST_PATH_IMAGE126
时,字幕为白色,当
Figure 673285DEST_PATH_IMAGE128
时字幕为黑色;
(e)    若
Figure 747551DEST_PATH_IMAGE130
,则为白字;
(d) 若
Figure 822955DEST_PATH_IMAGE132
,则当时,字幕为白色,当
Figure 538025DEST_PATH_IMAGE136
时字幕为黑色;
(f)     若
Figure 947140DEST_PATH_IMAGE138
,则为黑字;
其中
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0;     t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
Figure 41315DEST_PATH_IMAGE142
其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheightcwidth分别为该连通域的高和宽。
v) 将二值图B送入OCR软件进行识别。
实施例
如图3、4所示,对于视频中的某一幅帧图像,给出了对包含在其中的字幕的识别流程实例。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
对于某一帧图像,如附图3(a)所示,采用权利要求3中的(1)边缘检测方法得出其角点加强的边缘映射图,结果如附图3(b)所示;
(1)  以上步得到的边缘映射图为输入,采用权利要求3中的(2)边缘点连接方法连接边缘点,结果如附图3(c)所示;
(2)  以边缘点连接后的映射图为输入,采用权利要求3中的(3)连通域收集及分割算法得到较大的连通域,结果如附图3(d)所示;
(3)  对上步得到的连通域,使用权利要求3中的(4)连通域精化及拖尾过滤方法得到更准确的区域位置大小并进行初步过滤,结果如附图3(e)所示;
(4)  对过滤后剩下的连通域,使用权利要求3中的(5)联合熵过滤器去掉非字幕区域,最后检测结果如附图3(f)所示;
(5)  对于上步检测出的某一特定字幕区域,如附图4(a)所示,先使用权利要求4中的(6)重复性检测判断其是否与之前已检测区域重复,如不重复,则使用权利要求4中的(7)颜色极统一方法将该区域统一成黑底白字;
(6)  对统一颜色极后的字幕区域,使用权利要求5中的二值化和去噪算法,得到较好的二值图,结果如附图4(b)所示;
(7)  使用商业OCR软件对二值图进行识别,结果如附图4(c)所示。
从附图中可以看出,本方法能较好的检测视频图像帧中的字幕区域,并将之二值化,二值化后的结果能达到较好的识别精度。

Claims (5)

1.一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于它的步骤如下:
1)检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断;
2)字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域;
3)对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域;
在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别。
2.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的检测当前帧与前一已处理帧的差别,若差别大,则进行以下字幕识别操作,否则继续取下一帧进行判断步骤为:设本帧为Ii,其边缘二值图为Ei,其前一已处理帧即前面第5帧为Ii-5,其边缘二值图为Ei-5,令Di,i-5=Ei⊕Ei-5,令上一次检测出的字幕区域为Areai-5,j,又上一次各字幕区域边缘二值图累加和的最小值为pMES,则当前帧中字幕区域累加差值计算如下:
Figure 921885DEST_PATH_IMAGE001
                                                   1
cFD小于或等于pMES×0.5,则不需要对本帧进行字幕识别操作,继续取后面第5帧进行判断,否则就需要对本帧进行字幕识别操作,为了进一步防止漏掉字幕,另设一计数值ck,每次cFD小于或等于pMES×0.5时ck值加1,反之则ck重置为0,若ck等于5,则无论前面判断如何,都需要对本帧进行字幕识别操作,同时ck重赋值0。
3.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的字幕识别首先进行字幕检测,在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置,再用联合熵过滤器移除非文本域,只留下字幕区域步骤为:
(1)边缘检测方法
给定图像I,采用Sobel算子检测边缘,Sobel算子由水平SH、垂直SV、对角线SLD、逆对角线SRD  四个方向上的梯度模板组成,边缘场由下式计算: 
Figure 549176DEST_PATH_IMAGE002
                      2
其中
Figure 667304DEST_PATH_IMAGE003
表示在像素(x,y)处与最大梯度绝对值方向垂直的方向,k为一个调节系数,本文中其取值为1,S然后量化成16级,量化后表示为S’,然后用下式得到边缘映射图EdgeMap
Figure 906393DEST_PATH_IMAGE004
                                  3
(2)边缘点连接方法
对于边缘映射图EdgeMap,若同行两个边缘点的距离小于某一阀值T d ,则将EdgeMap中这两个像素之间的像素值都置为1,也即填充这两个边缘点间的像素,T d 由下式确定:
Figure 982934DEST_PATH_IMAGE005
                                      4
其中height和width分别为图像I的高和宽;
(3)连通域收集及分割方法
对上步得到的EdgeMap进行连通域收集,去掉那些高或宽小于整幅图像高或宽的1%的连通域,同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域,再使用如下步骤对每个连通域C进行区域分割:
a) 对于C中的每一行i
Figure 35204DEST_PATH_IMAGE006
,得到该行及以上部分的最小包围矩形的面积
Figure 127662DEST_PATH_IMAGE007
和该行以下部分的最小包围矩形的面积
Figure 644094DEST_PATH_IMAGE008
,求出这两个面积的和,找出取得最小和的行号存储在bR中;
b) 对于C中的每一列j,得到该列及左边部分的最小包围矩形的面积
Figure 368785DEST_PATH_IMAGE010
和该列右边部分的最小包围矩形的面积
Figure 359874DEST_PATH_IMAGE011
,求出这两个面积的和,找出取得最小和的列号存储在bC中;
c) 令
Figure 635873DEST_PATH_IMAGE012
,若mRA<mCA,则将连通域C在行上以第bR行为界分成两个连通域,否则将连通域C在列上以第bC列为界分成两个连通域;
其中t c  ,b c  l c  和 r c 分别是区域C的上界行号、下界行号、左界列号和右界列号;
为了防止过分割,只有当连通区域C同时满足以下两个条件时才进行分割:
Figure 815498DEST_PATH_IMAGE014
连通域填充率小于0.8;
Figure 46497DEST_PATH_IMAGE015
分成的两个新连通域面积都大于整幅图像面积的0.2%;
(4)连通域精化及拖尾过滤方法
在进行区域精化前,先去掉那些高大于宽的2倍的连通域,这样可能会误删那些竖排的字幕,为了处理竖排字幕,只须将图像旋转90度,其它操作一模一样;
对上步得到的每个连通区域C,对其位置进行进一步精化的步骤如下:
输入:边缘映射图edgeMap,连通域C的初始上下边界位置
Figure 147309DEST_PATH_IMAGE016
输出:精化后的上下界位置
Figure 736553DEST_PATH_IMAGE017
d) 对于连通域C的任意行
Figure 313028DEST_PATH_IMAGE018
,计算其在edgeMap中的左右非0像素跨距
Figure 645920DEST_PATH_IMAGE019
,并存储在集合cSA中;
e) 对于连通域C的任意行
Figure 49175DEST_PATH_IMAGE018
,计算其在edgeMap中的行像素点数,并存储在集合
Figure 74900DEST_PATH_IMAGE020
中,即有
Figure 279616DEST_PATH_IMAGE021
f) 取cSA中的最大值存在
Figure 914734DEST_PATH_IMAGE022
中,并将其序号存在pSRN中;
中的最大值存在
Figure 452343DEST_PATH_IMAGE023
中,并将其序号存在中;
g) 对于在
Figure 412526DEST_PATH_IMAGE025
范围内的所有行,取
Figure 778654DEST_PATH_IMAGE026
的最大行序号
Figure 146181DEST_PATH_IMAGE027
  对于在
Figure 591069DEST_PATH_IMAGE028
范围内的所有行,取
Figure 974515DEST_PATH_IMAGE026
的最小行序号
Figure 149144DEST_PATH_IMAGE029
对于在
Figure 421994DEST_PATH_IMAGE030
范围内的所有行,取
Figure 557440DEST_PATH_IMAGE031
的最大行序号
Figure 72473DEST_PATH_IMAGE032
  对于在
Figure 508133DEST_PATH_IMAGE033
范围内的所有行,取的最小行序号
Figure 636943DEST_PATH_IMAGE034
h) 令
Figure 362192DEST_PATH_IMAGE035
,即得到精化后的上下界位置
Figure 652359DEST_PATH_IMAGE017
其中
Figure 126065DEST_PATH_IMAGE036
 和 
Figure 501683DEST_PATH_IMAGE037
通常取值为0.6和0.3;
使用如下拖尾过滤方法去掉一些非字幕连通域:
i) 在上面步骤g) 完成后,继续在oPNA中向上和下扫描,直到当前行处的值小于
Figure 765043DEST_PATH_IMAGE038
,假设得到的行号分别为t tail 和 b tail
j) 用下式计算尾巴的长:
tl 1 =t 2 -t tail , tl 2 =b tail -b 2 , tl=max (tl 1 tl 2 )      
k) 用下式进行过滤,若deleteFlag(C)为1,说明此连通域不是字幕区域,应该删除;
Figure 175296DEST_PATH_IMAGE039
                                             5  
其中ubc和utc分别表示连通域C精化后的上下界位置,而 和 通常取值为0.2和0.3;
(5)联合熵过滤器
使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤,只留下字幕区域;
对于前景像素分布熵,是对某一连通域C的最小包围矩形Rect [tc,bc,lc,rc],其中tc,bc分别是上下界,lc,rc分别是左右界,使用Otsu阀值将其二值化,然后将其分成2行×4列=8部分,使用下式计算分布熵:
            6
其中pi,j表示第i行第j列那部分非0像素的比率;
对于边缘像素分布熵,是将连通域C的最小包围矩形Rect [tc,bc,lc,rc]内的Sobel边缘二值图分成2行×4列=8部分,使用下式计算分布熵:
Figure 15448DEST_PATH_IMAGE042
 7
其中e ij 表示第i行第j列那部分边缘像素数目,而 e r 是8部分边缘像素数目总和,                     
对于任一精化后的连通域C,若其
Figure 280207DEST_PATH_IMAGE043
Figure 502241DEST_PATH_IMAGE044
,则认为其是字幕区域,否则就是非字幕区域,应该删除,实验得
Figure 362705DEST_PATH_IMAGE045
Figure 62807DEST_PATH_IMAGE046
分别取6.4和2.76时效果最好;
对于某些既有横排又有竖排字幕的图像,在原图和旋转90度所得的图像中进行字幕检测,再将两者检测结果进行合并,消除重复。
4.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的对字幕区域进行重复性检测,若该区域未重复,则将其颜色极统一为黑底白字,然后进行字幕抽取,否则处理下一字幕区域步骤为:
(6)重复性检测
采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重,步骤如下:
l) 提取并存储前一已处理帧所有字幕区域位置Recti[ti,bi,li,ri]及灰度直方图GHi{gi,0,gi,1,…gi,255},其中为第i个字幕区域灰度级为k的像素数目;提取并存储当前帧所有字幕区域位置Rectj[tj,bj,lj,rj] 及灰度直方图GHj{gj,0,gj,1,…gj,255};
m)计算它们的位置相似度
Figure 11227DEST_PATH_IMAGE048
和灰度直方图相似度
Figure 848733DEST_PATH_IMAGE049
,其中
Figure 821368DEST_PATH_IMAGE050
是它们的公共部分的面积,而
Figure 326298DEST_PATH_IMAGE051
是它们中大的那个的面积,若
Figure 388670DEST_PATH_IMAGE052
Figure 713472DEST_PATH_IMAGE053
有一个大于0.8,则是相同区域的重复检测,此时去掉一个,保留一个;
(7)颜色极统一
将字幕区域灰度图统一成黑底白字,采取以下步骤:
n) 首先将灰度化后的字幕区域用Otsu方法二值化,然后分别使用3×3的掩模
Figure 285454DEST_PATH_IMAGE055
对二值化后的字幕区域进行卷积操作,用下式确定每个像素处的边缘颜色:
Figure 489033DEST_PATH_IMAGE056
                                8
令Nw和Nb分别表示白色边缘像素个数和黑色边缘像素个数,定义
Figure 35552DEST_PATH_IMAGE057
为它们的比;
o) 对上步8式得到的边缘映射图P,将边缘像素按列投影,设边缘映射图在列上分解成{x0,x1,…,xn},其中xi为边缘图在列上投影为0的某一连续区间的中点,依次建立矩形Recti[1,height,xi,xi+1],在该矩形范围内的边缘映射图P中从四边向内扫描,将遇到的第一个边缘像素点删除,重新统计白色边缘像素个数和黑色边缘像素个数,分别设为
Figure 146728DEST_PATH_IMAGE058
p) 定义为它们的比,定义
Figure 64240DEST_PATH_IMAGE061
                                           9
用如下方法判断字幕区域的颜色极:
(a) 若
Figure 447948DEST_PATH_IMAGE062
,则为白字;
Figure 14933DEST_PATH_IMAGE063
,则当
Figure 560315DEST_PATH_IMAGE064
时,字幕为白色,当
Figure 81426DEST_PATH_IMAGE065
时字幕为黑色;
Figure 268825DEST_PATH_IMAGE066
,则为白字;
(d) 若
Figure 690317DEST_PATH_IMAGE067
,则当
Figure 937759DEST_PATH_IMAGE068
时,字幕为白色,当
Figure 477324DEST_PATH_IMAGE069
时字幕为黑色;
Figure 468414DEST_PATH_IMAGE070
,则为黑字;
其中
q) 判断出字幕颜色极后,若为黑字,则将该字幕区域灰度图反色,否则不作操作。
5.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法,其特征在于所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化,去除噪声点后送OCR软件识别步骤为:
r) 将灰度化的字幕区域的高规整化为24,然后分别向上下扩展4个像素,从而扩展后高度为32,设为EI;
s) 将结果二值图B每个像素初始化为1,然后对EI进行步进式水平局部阀值二值化,在一个16×32的局部窗口中用Otsu方法进行二值化,每次水平步进8个像素,同样的方法对EI进行步进式垂直局部阀值二值化,在一个image_width×8的局部窗口中用Otsu方法进行二值化,每次垂直步进4个像素,在每个子窗口中,EI中灰度值低于局部阀值的,B中相应的像素值设为0;     t) 将B中与扩展区域值为1的像素相连的像素置0,为了防止将笔划像素也置为0,定义dam points:
 其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度,而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度,对于dam points点,是无法扩展为背景像素的;
u) 使用Sobel算子得到EI的边缘信息,对B中的每一个值为1的连通域,统计落在其中或环绕它的边缘像素点的个数epn,若epn<tepn,则将该连通域的所有像素置为0,从而将该连通域去掉,tepn用下式确定:
tepn=max(cheight,cwidth)
其中cheightcwidth分别为该连通域的高和宽;
v) 将二值图B送入OCR软件进行识别。
CN 201110024330 2011-01-23 2011-01-23 基于边缘信息和分布熵的视频字幕识别设计方法 Expired - Fee Related CN102208023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110024330 CN102208023B (zh) 2011-01-23 2011-01-23 基于边缘信息和分布熵的视频字幕识别设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110024330 CN102208023B (zh) 2011-01-23 2011-01-23 基于边缘信息和分布熵的视频字幕识别设计方法

Publications (2)

Publication Number Publication Date
CN102208023A true CN102208023A (zh) 2011-10-05
CN102208023B CN102208023B (zh) 2013-05-08

Family

ID=44696845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110024330 Expired - Fee Related CN102208023B (zh) 2011-01-23 2011-01-23 基于边缘信息和分布熵的视频字幕识别设计方法

Country Status (1)

Country Link
CN (1) CN102208023B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780856A (zh) * 2012-04-12 2012-11-14 天脉聚源(北京)传媒科技有限公司 一种新闻视频字幕标注方法
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN103377379A (zh) * 2012-04-27 2013-10-30 佳能株式会社 文本检测设备、文本信息提取系统及其方法
CN104424480A (zh) * 2013-08-29 2015-03-18 亚德诺半导体集团 面部识别
CN106355172A (zh) * 2016-08-11 2017-01-25 无锡天脉聚源传媒科技有限公司 一种字符识别方法及装置
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
WO2018023538A1 (zh) * 2016-08-04 2018-02-08 黄新勇 电视广播字幕的提取方法及系统
CN108982106A (zh) * 2018-07-26 2018-12-11 安徽大学 一种快速检测复杂系统动力学突变的有效方法
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
CN111064990A (zh) * 2019-11-22 2020-04-24 华中师范大学 视频处理方法、装置和电子设备
CN111741236A (zh) * 2020-08-24 2020-10-02 浙江大学 基于共识图表征推理的定位自然图像字幕生成方法和装置
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
CN111783771A (zh) * 2020-06-12 2020-10-16 北京达佳互联信息技术有限公司 文字检测方法、装置、电子设备和存储介质
WO2020215696A1 (zh) * 2019-04-22 2020-10-29 平安科技(深圳)有限公司 提取视频字幕的方法、装置、计算机设备及存储介质
CN111860521A (zh) * 2020-07-21 2020-10-30 西安交通大学 一种畸变喷码字符逐层分割的方法
CN111967526A (zh) * 2020-08-20 2020-11-20 东北大学秦皇岛分校 基于边缘映射和深度学习的遥感图像变化检测方法及系统
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN113485432A (zh) * 2021-07-26 2021-10-08 西安热工研究院有限公司 一种基于无人机的光伏电站电致发光智能诊断系统及方法
CN113496223A (zh) * 2020-03-19 2021-10-12 顺丰科技有限公司 文本区域检测模型的建立方法以及装置
CN114140798A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的分割方法、装置、电子设备和存储介质
CN114140729A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的位置识别方法、装置、电子设备和存储介质
CN116453030A (zh) * 2023-04-07 2023-07-18 郑州工程技术学院 一种基于计算机视觉的建筑材料回收方法
CN119692074A (zh) * 2025-02-25 2025-03-25 泉州市馨帮护卫生用品有限公司 一种基于操作行为分析的数控教学系统
CN119763090A (zh) * 2024-12-11 2025-04-04 浙江大学 基于ocr和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1835462A1 (en) * 2004-12-02 2007-09-19 National Institute of Advanced Industrial Science and Technology Tracing device, and tracing method
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1835462A1 (en) * 2004-12-02 2007-09-19 National Institute of Advanced Industrial Science and Technology Tracing device, and tracing method
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
《Acoust, Speech, and Signal Processing, 2003. Proceedings.(ICASSP '03). 2003 IEEE International Conference on》 20030410 J. Song等 A robust statistic method for classifying color polarity of video text 581-584 1-5 第3卷, *
J. SONG等: "A robust statistic method for classifying color polarity of video text", 《ACOUST, SPEECH, AND SIGNAL PROCESSING, 2003. PROCEEDINGS.(ICASSP ’03). 2003 IEEE INTERNATIONAL CONFERENCE ON》, vol. 3, 10 April 2003 (2003-04-10), pages 581 - 584 *
MICHAEL R.LYU等: "A comprehensive method for multilingual video text detection, localization, and extraction", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 2005》, vol. 15, no. 2, 28 February 2005 (2005-02-28), pages 243 - 255 *
WONJUN KIM等: "A New Approach for Overlay Text Detection and Extraction from Complex Video Scene", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 2009》, vol. 18, no. 2, 28 February 2009 (2009-02-28), pages 401 - 411, XP011239995, DOI: doi:10.1109/TIP.2008.2008225 *
密聪杰等: "基于多帧图像的视频文字跟踪和分割算法", 《计算机研究与发展》, vol. 43, no. 9, 30 September 2006 (2006-09-30), pages 1523 - 1529 *
沈淑娟: "基于时空域信息的视频字幕提取算法研究", 《中国优秀硕士学位论文全文数据库》, 11 June 2004 (2004-06-11), pages 45 - 47 *
陆兵: "视频中的文本提取及其应用", 《中国优秀硕士学位论文全文数据库》, 12 October 2007 (2007-10-12), pages 7 - 62 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780856A (zh) * 2012-04-12 2012-11-14 天脉聚源(北京)传媒科技有限公司 一种新闻视频字幕标注方法
CN103377379A (zh) * 2012-04-27 2013-10-30 佳能株式会社 文本检测设备、文本信息提取系统及其方法
CN103136523B (zh) * 2012-11-29 2016-06-29 浙江大学 一种自然图像中任意方向文本行检测方法
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN104424480B (zh) * 2013-08-29 2019-01-18 亚德诺半导体集团 面部识别
CN104424480A (zh) * 2013-08-29 2015-03-18 亚德诺半导体集团 面部识别
WO2018023538A1 (zh) * 2016-08-04 2018-02-08 黄新勇 电视广播字幕的提取方法及系统
CN106355172A (zh) * 2016-08-11 2017-01-25 无锡天脉聚源传媒科技有限公司 一种字符识别方法及装置
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN107590447B (zh) * 2017-08-29 2021-01-08 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN108982106A (zh) * 2018-07-26 2018-12-11 安徽大学 一种快速检测复杂系统动力学突变的有效方法
CN108982106B (zh) * 2018-07-26 2020-09-22 安徽大学 一种快速检测复杂系统动力学突变的有效方法
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
CN111754414B (zh) * 2019-03-29 2023-10-27 北京搜狗科技发展有限公司 一种图像处理方法、装置和用于图像处理的装置
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
WO2020215696A1 (zh) * 2019-04-22 2020-10-29 平安科技(深圳)有限公司 提取视频字幕的方法、装置、计算机设备及存储介质
CN111064990B (zh) * 2019-11-22 2021-12-14 华中师范大学 视频处理方法、装置和电子设备
CN111064990A (zh) * 2019-11-22 2020-04-24 华中师范大学 视频处理方法、装置和电子设备
CN113496223A (zh) * 2020-03-19 2021-10-12 顺丰科技有限公司 文本区域检测模型的建立方法以及装置
CN111783771A (zh) * 2020-06-12 2020-10-16 北京达佳互联信息技术有限公司 文字检测方法、装置、电子设备和存储介质
CN111783771B (zh) * 2020-06-12 2024-03-19 北京达佳互联信息技术有限公司 文字检测方法、装置、电子设备和存储介质
CN111860521B (zh) * 2020-07-21 2022-04-22 西安交通大学 一种畸变喷码字符逐层分割的方法
CN111860521A (zh) * 2020-07-21 2020-10-30 西安交通大学 一种畸变喷码字符逐层分割的方法
CN111967526A (zh) * 2020-08-20 2020-11-20 东北大学秦皇岛分校 基于边缘映射和深度学习的遥感图像变化检测方法及系统
CN111967526B (zh) * 2020-08-20 2023-09-22 东北大学秦皇岛分校 基于边缘映射和深度学习的遥感图像变化检测方法及系统
CN111741236A (zh) * 2020-08-24 2020-10-02 浙江大学 基于共识图表征推理的定位自然图像字幕生成方法和装置
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN112925905B (zh) * 2021-01-28 2024-02-27 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN113485432A (zh) * 2021-07-26 2021-10-08 西安热工研究院有限公司 一种基于无人机的光伏电站电致发光智能诊断系统及方法
CN114140729A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的位置识别方法、装置、电子设备和存储介质
CN114140798A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的分割方法、装置、电子设备和存储介质
CN116453030A (zh) * 2023-04-07 2023-07-18 郑州工程技术学院 一种基于计算机视觉的建筑材料回收方法
CN116453030B (zh) * 2023-04-07 2024-07-05 郑州大学 一种基于计算机视觉的建筑材料回收方法
CN119763090A (zh) * 2024-12-11 2025-04-04 浙江大学 基于ocr和颜色预处理的背景复杂变化场景下电影字幕提取方法和装置
CN119692074A (zh) * 2025-02-25 2025-03-25 泉州市馨帮护卫生用品有限公司 一种基于操作行为分析的数控教学系统

Also Published As

Publication number Publication date
CN102208023B (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN102208023B (zh) 基于边缘信息和分布熵的视频字幕识别设计方法
Gllavata et al. A robust algorithm for text detection in images
CN101453575B (zh) 一种视频字幕信息提取方法
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN103136523B (zh) 一种自然图像中任意方向文本行检测方法
CN105868708B (zh) 一种图像目标识别方法及装置
CN110363095A (zh) 一种针对表格字体的识别方法
CN104715252B (zh) 一种动态模板结合像素点的车牌字符分割方法
CN103336961B (zh) 一种交互式的自然场景文本检测方法
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN108171104A (zh) 一种文字检测方法及装置
CN101122953A (zh) 一种图片文字分割的方法
CN107895492A (zh) 一种基于传统视频的高速公路智能分析方法
EP1147485A1 (en) Video stream classifiable symbol isolation method and system
CN101122952A (zh) 一种图片文字检测的方法
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN101266654A (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN107085726A (zh) 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN105868683A (zh) 台标识别方法及装置
CN104598907A (zh) 一种基于笔画宽度图的图像中文字数据提取方法
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
Jamil et al. Edge-based features for localization of artificial Urdu text in video images
Ghai et al. A comprehensive review on performance-based comparative analysis, categorization, classification and mapping of text extraction system techniques for images
CN107506777A (zh) 一种基于小波变化和支持向量机的实时多车牌识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508

Termination date: 20140123