CN102208023A

CN102208023A - 基于边缘信息和分布熵的视频字幕识别设计方法

Info

Publication number: CN102208023A
Application number: CN2011100243300A
Authority: CN
Inventors: 魏宝刚; 庄越挺; 袁杰; 鲁伟明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-01-23
Filing date: 2011-01-23
Publication date: 2011-10-05
Anticipated expiration: 2031-01-23
Also published as: CN102208023B

Abstract

本发明公开了一种基于边缘信息和分布熵的视频字幕识别方法。它使用角点加强的边缘检测方法得到图像边缘信息，然后连接边缘点并收集连通域，使用分割算法对连通域进行适当分割，再使用精化操作得到它们的准确位置，使用拖尾过滤器和联合熵过滤器过滤掉非文本区域，剩下的就是文本区域。对于检测出的文本域，统一成黑底白字后，使用局部阀值二值化、基于禁止扩展点约束的边缘噪声点扩展移除操作及基于环绕边缘点计数的噪声移除操作，得到二值图送入OCR软件中进行识别。该方法能克服一般方法对语言、字幕排列方式、背景复杂度等较敏感的缺点，通过引入分割算法和联合熵过滤器，能得到很好的检测效果，改进传统的二值化方法极大的提高了识别准确率。

Description

基于边缘信息和分布熵的视频字幕识别设计方法

技术领域

本发明涉及一种基于边缘信息和分布熵的视频字幕识别方法，该方法用于实现在视频中检测并提取字幕用于OCR识别，属于计算机图像处理领域。

背景技术

随着多媒体和电子工业的发展，越来越多的视频信息被生产出来。如何有效的组织和检索它们就成为一个难题。很多视频资料如电视新闻、体育比赛、电影、综艺节目等都有后期制作中加入的字幕信息，这些字幕信息与视频内容密切相关。如能有效的识别这些字幕，则能利用它们对视频资料进行组织和检索，具有很强的实用价值。

视频字幕识别分为四步：字幕检测、字幕定位、字幕提取和OCR识别。字幕检测用于确定字幕区域；字幕定位用于定位每一行字幕的精确位置；字幕提取用于将字幕区域二值化，只保留笔划像素；最后一步一般交由商用OCR软件实现。字幕检测可以分为四种方法：基于边的方法、基于连通域的方法、基于颜色聚类的方法和基于纹理的方法。基于边的方法使用边过滤器来检测文本边，然后用形态学操作来合并它们。第八届文档分析与识别会议(In Proceedings of 8^rd International Conference on Document Analysis and Recognition (ICDAR),2005,610-614)公布的方法使用边缘检测方法得到四个边缘映射图，然后使用K-MEANS算法检测候选文本区域，最后使用启发式规则和投影分析来确定和精化文本区域。如果没有复杂的背景，基于边的方法的效果会很好，但是当背景包含很多边信息时，它们的效果就不太好。基于纹理的方法使用Gabor过滤器、小波变换、快速傅里叶变换等提取纹理特征，然后用神经网络、SVM分类器等机器学习的方法检测字幕区域。IEEE通信技术2008年会议论文集中（In Proceeding of IEEE International Conference on Communication Technology(ICCT),2008,722-725) 公布的一种方法使用HARR小波变换通过将4小块小波系数合并成一大块来定位大字体文本中，然后使用形态学膨胀操作和神经网格来增强效果。基于连通域的方法将一帧分割成多个小连通域，然后将它们合并到较大的连通域中用来定位字幕。ACM 多媒体技术2007年会议论文集中（In Proceedings of the ACM International Multimedia Conference and Exhibition 2007(MM)，847-850）公布的一种方法使用基于信用的颜色的聚类去掉噪声，他们根据各颜色面板的文本对比度差异来适应性的选择相对最好的颜色面板执行二值化操作。基于颜色聚类的方法假设视频帧中的文本颜色都是统一的，然而这一假设在大多数情况下是不成立的，因此其应用的局限性较大。由于利用一种特征进行字幕检测其效果不理想，因此很多方法联合使用以上多种特征。对于字幕定位，一般使用灰度投影的方法。字幕提取方法可以分为基于颜色的方法和基于笔划的方法。很多基于颜色的方法使用Otsu方法对灰度图进行二值化，但当字幕和背景的灰度级非常相近时，该方法不能很好的分辨出它们，从而不能很好的去噪。《电气和电子工程师协会视频技术电路与系统学报》2005年第15期（IEEE Transactions on Circuits and Systems for Video Technology 2005，15（2）：243-255）和《电气和电子工程师协会图像处理学报》2009年第18期（IEEE Transactions on Image Processing 2009，18（2）：401-411）中公布的一种方法使用有更好的分辨力的局部适应性阀值，结合dam点标记和向内填充，使得大部分噪声点能去被移除。

上面这些字幕检测方法均对视频字幕检测工作作出了一些有益的尝试，但这些方法对字幕与背景的分辨效果不是很好，仅采用这些方法检测一些语言、字体及文字对齐方式多变的视频进行处理效果不佳。另外已存的字幕提取方法虽然能去掉大部分噪音，但由于OCR软件对噪声点非常敏感，导致复杂背景下文本识别的效果不佳。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于边缘信息和分布熵的视频字幕识别方法。

基于边缘信息和分布熵的视频字幕识别方法的步骤如下：

1）检测当前帧与前一已处理帧的差别，若差别大，则进行以下字幕识别操作，否则继续取下一帧进行判断；

2）字幕识别首先进行字幕检测，在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置，再用联合熵过滤器移除非文本域，只留下字幕区域；

3）对字幕区域进行重复性检测，若该区域未重复，则将其颜色极统一为黑底白字，然后进行字幕抽取，否则处理下一字幕区域；

4）在字幕抽取中对颜色极统一后的字幕区域进行二值化，去除噪声点后送OCR软件识别。

所述的检测当前帧与前一已处理帧的差别，若差别大，则进行以下字幕识别操作，否则继续取下一帧进行判断步骤为：设本帧为I_i，其边缘二值图为E_i，其前一已处理帧即前面第5帧为I_i-5，其边缘二值图为E_i－５，令D_i,i-5=E_i⊕E_i－５,令上一次检测出的字幕区域为Area_i-5,j，又上一次各字幕区域边缘二值图累加和的最小值为pMES，则当前帧中字幕区域累加差值计算如下：

1

若cFD小于或等于pMES×0.5，则不需要对本帧进行字幕识别操作，继续取后面第5帧进行判断，否则就需要对本帧进行字幕识别操作，为了进一步防止漏掉字幕，另设一计数值ck，每次cFD小于或等于pMES×0.5时ck值加1，反之则ck重置为0，若ck等于5，则无论前面判断如何，都需要对本帧进行字幕识别操作，同时ck重赋值0。

所述的字幕识别首先进行字幕检测，在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置，再用联合熵过滤器移除非文本域，只留下字幕区域步骤为：

（1）边缘检测方法

给定图像I，采用Sobel算子检测边缘，Sobel算子由水平S_H、垂直S_V、对角线S_LD、逆对角线S_RD四个方向上的梯度模板组成，边缘场由下式计算：

2

其中表示在像素(x,y)处与最大梯度绝对值方向垂直的方向，k为一个调节系数，本文中其取值为1，S然后量化成16级，量化后表示为S’，然后用下式得到边缘映射图EdgeMap：

3

（2）边缘点连接方法

对于边缘映射图EdgeMap，若同行两个边缘点的距离小于某一阀值T _d，则将EdgeMap中这两个像素之间的像素值都置为1，也即填充这两个边缘点间的像素，T _d由下式确定：

4

其中height和width分别为图像I的高和宽；

（3）连通域收集及分割方法

对上步得到的EdgeMap进行连通域收集，去掉那些高或宽小于整幅图像高或宽的1%的连通域，同时去掉那些最小包围矩形小于整幅图像面积0.2%的连通域，再使用如下步骤对每个连通域C进行区域分割：

a) 对于C中的每一行i

，得到该行及以上部分的最小包围矩形的面积

和该行以下部分的最小包围矩形的面积

，求出这两个面积的和，找出取得最小和的行号存储在bR中；

b) 对于C中的每一列j

，得到该列及左边部分的最小包围矩形的面积和该列右边部分的最小包围矩形的面积

，求出这两个面积的和，找出取得最小和的列号存储在bC中；

c) 令

，

，若mRA<mCA，则将连通域C在行上以第bR行为界分成两个连通域，否则将连通域C在列上以第bC列为界分成两个连通域；

其中t _c ,b _c l _c 和 r _c分别是区域C的上界行号、下界行号、左界列号和右界列号；

为了防止过分割，只有当连通区域C同时满足以下两个条件时才进行分割：

连通域填充率小于0.8；

分成的两个新连通域面积都大于整幅图像面积的0.2%；

（4）连通域精化及拖尾过滤方法

在进行区域精化前，先去掉那些高大于宽的2倍的连通域，这样可能会误删那些竖排的字幕，为了处理竖排字幕，只须将图像旋转90度，其它操作一模一样；

对上步得到的每个连通区域C，对其位置进行进一步精化的步骤如下：

输入：边缘映射图edgeMap，连通域C的初始上下边界位置

输出：精化后的上下界位置

Figure 2011100243300100002DEST_PATH_IMAGE034

d) 对于连通域C的任意行

，计算其在edgeMap中的左右非0像素跨距

，并存储在集合cSA中；

e) 对于连通域C的任意行

，计算其在edgeMap中的行像素点数，并存储在集合

中，即有

；

f) 取cSA中的最大值存在

中，并将其序号存在pSRN中；

取

中的最大值存在中，并将其序号存在中；

g) 对于在

范围内的所有行，取

的最大行序号

；

对于在

范围内的所有行，取

的最小行序号

；

对于在

范围内的所有行，取

的最大行序号

；

对于在

范围内的所有行，取

的最小行序号

；

h) 令

，即得到精化后的上下界位置；

其中

和

通常取值为0.6和0.3；

使用如下拖尾过滤方法去掉一些非字幕连通域：

i) 在上面步骤g) 完成后，继续在oPNA中向上和下扫描，直到当前行处的值小于

，假设得到的行号分别为t _tail和 b _tail；

j) 用下式计算尾巴的长：

tl ₁=t ₂-t _tail , tl ₂=b _tail-b ₂ , tl=max (tl ₁, tl ₂)

k) 用下式进行过滤，若deleteFlag(C)为1，说明此连通域不是字幕区域，应该删除；

5

其中ub_c和ut_c分别表示连通域C精化后的上下界位置，而和通常取值为0.2和0.3；

（5）联合熵过滤器

使用联合前景像素分布熵和边缘像素分布熵的联合熵过滤器进行过滤，只留下字幕区域；

对于前景像素分布熵，是对某一连通域C的最小包围矩形Rect [t_c,b_c,l_c,r_c]，其中t_c,b_c分别是上下界，l_c,r_c分别是左右界，使用Otsu阀值将其二值化，然后将其分成2行×4列=8部分，使用下式计算分布熵：

6

其中p_i,j表示第i行第j列那部分非0像素的比率；

对于边缘像素分布熵，是将连通域C的最小包围矩形Rect [t_c,b_c,l_c,r_c]内的Sobel边缘二值图分成2行×4列=8部分，使用下式计算分布熵：

7

其中e _ij表示第i行第j列那部分边缘像素数目，而 e _r是8部分边缘像素数目总和，

对于任一精化后的连通域C，若其

且

，则认为其是字幕区域，否则就是非字幕区域，应该删除，实验得

和

分别取6.4和2.76时效果最好；

对于某些既有横排又有竖排字幕的图像，在原图和旋转90度所得的图像中进行字幕检测，再将两者检测结果进行合并，消除重复。

所述的对字幕区域进行重复性检测，若该区域未重复，则将其颜色极统一为黑底白字，然后进行字幕抽取，否则处理下一字幕区域步骤为：

（6）重复性检测

采用结合位置和灰度颜色直方图的方法对检测出的字幕区域进行消重，步骤如下：

l) 提取并存储前一已处理帧所有字幕区域位置Rect_i[t_i,b_i,l_i,r_i]及灰度直方图GH_i{g_i,0,g_i,1,…g_i,255}，其中

为第i个字幕区域灰度级为k的像素数目；提取并存储当前帧所有字幕区域位置Rect_j[t_j,b_j,l_j,r_j] 及灰度直方图GH_j{g_j,0,g_j,1,…g_j,255}；

m)计算它们的位置相似度

和灰度直方图相似度

，其中

是它们的公共部分的面积，而是它们中大的那个的面积，若

与有一个大于0.8，则是相同区域的重复检测，此时去掉一个，保留一个；

（7）颜色极统一

将字幕区域灰度图统一成黑底白字，采取以下步骤：

n) 首先将灰度化后的字幕区域用Otsu方法二值化，然后分别使用3×3的掩模

和

对二值化后的字幕区域进行卷积操作，用下式确定每个像素处的边缘颜色：

8

令N_w和N_b分别表示白色边缘像素个数和黑色边缘像素个数，定义

为它们的比；

o) 对上步8式得到的边缘映射图P，将边缘像素按列投影，设边缘映射图在列上分解成{x₀,x₁,…,x_n}，其中x_i为边缘图在列上投影为0的某一连续区间的中点，依次建立矩形Rect_i[1,height,x_i,x_i+1]，在该矩形范围内的边缘映射图P中从四边向内扫描，将遇到的第一个边缘像素点删除，重新统计白色边缘像素个数和黑色边缘像素个数，分别设为和

；

p) 定义

为它们的比，定义

9

用如下方法判断字幕区域的颜色极：

(a) 若，则为白字；

(b) 若

，则当

时，字幕为白色，当

时字幕为黑色；

(c) 若

，则为白字；

(d) 若，则当

时，字幕为白色，当

时字幕为黑色；

(e) 若

，则为黑字；

其中

；

q) 判断出字幕颜色极后，若为黑字，则将该字幕区域灰度图反色，否则不作操作。

所述的在字幕抽取中对颜色极统一后的字幕区域进行二值化，去除噪声点后送OCR软件识别步骤为：

r) 将灰度化的字幕区域的高规整化为24，然后分别向上下扩展4个像素，从而扩展后高度为32，设为EI；

s) 将结果二值图B每个像素初始化为1，然后对EI进行步进式水平局部阀值二值化，在一个16×32的局部窗口中用Otsu方法进行二值化，每次水平步进8个像素，同样的方法对EI进行步进式垂直局部阀值二值化，在一个image_width×8的局部窗口中用Otsu方法进行二值化，每次垂直步进4个像素，在每个子窗口中，EI中灰度值低于局部阀值的，B中相应的像素值设为0； t) 将B中与扩展区域值为1的像素相连的像素置0，为了防止将笔划像素也置为0，定义dam points:

其中H_len(x,y)表示像素(x,y)所在的最长水平连续1序列的长度，而V_len(x,y) 表示像素(x,y)所在的最长垂直连续1序列的长度，对于dam points点，是无法扩展为背景像素的；

u) 使用Sobel算子得到EI的边缘信息，对B中的每一个值为1的连通域，统计落在其中或环绕它的边缘像素点的个数epn，若epn<tepn，则将该连通域的所有像素置为0，从而将该连通域去掉，tepn用下式确定：

tepn=max(cheight,cwidth)

其中cheight和cwidth分别为该连通域的高和宽。

v) 将二值图B送入OCR软件进行识别。

本发明与现有技术相比具有的有益效果：

1）本发明中的字幕检测算法能克服常用检测算法对语言、字幕对齐方式和背景复杂性敏感的缺点，通过加强字幕特有的角点信息并使用区域分割算法，同时结合联合熵过滤器，能得到对语言、字幕对齐方式和背景复杂性的变化鲁棒性较好的检测结果；

2）本发明中的字幕提取算法能在一般的提取算法的基础上进一步去掉噪声像素，使后续的OCR识别精度有了一定的提高；

3）本发明能在一定程度上解决视频帧中重复字幕过多的问题，同时又能防止某些字幕被漏检，在连续的视频帧序列上取得了较好的效果。

附图说明

图1是视频字幕识别框架图；

图2是视频字幕检测框架图；

图3是对某一帧图像进行视频字幕检测的流程实例图；

图4是对某一字幕区域进行视频字幕抽取的实例图；

具体实施方式

为了更好的理解本发明的技术方案，以下结合附图1和附图2对本发明作进一步的描述。附图1描述了本发明视频字幕识别方法的框架图，附图2描述了本发明中视频字幕检测方法的框架图。

基于边缘信息和分布熵的视频字幕识别方法的步骤如下：

1

（1）边缘检测方法

2

其中

表示在像素(x,y)处与最大梯度绝对值方向垂直的方向，k为一个调节系数，本文中其取值为1，S然后量化成16级，量化后表示为S’，然后用下式得到边缘映射图EdgeMap：

3

（2）边缘点连接方法

4

其中height和width分别为图像I的高和宽；

（3）连通域收集及分割方法

a) 对于C中的每一行i

，得到该行及以上部分的最小包围矩形的面积

和该行以下部分的最小包围矩形的面积

b) 对于C中的每一列j

，得到该列及左边部分的最小包围矩形的面积

和该列右边部分的最小包围矩形的面积

c) 令

，

连通域填充率小于0.8；

分成的两个新连通域面积都大于整幅图像面积的0.2%；

（4）连通域精化及拖尾过滤方法

输入：边缘映射图edgeMap，连通域C的初始上下边界位置

输出：精化后的上下界位置

d) 对于连通域C的任意行

，计算其在edgeMap中的左右非0像素跨距

，并存储在集合cSA中；

e) 对于连通域C的任意行

，计算其在edgeMap中的行像素点数，并存储在集合

中，即有

；

f) 取cSA中的最大值存在

中，并将其序号存在pSRN中；

取

中的最大值存在

中，并将其序号存在

中；

g) 对于在

范围内的所有行，取

的最大行序号

；

对于在范围内的所有行，取

的最小行序号；

对于在

范围内的所有行，取

的最大行序号

；

对于在

范围内的所有行，取

的最小行序号

；

h) 令

，即得到精化后的上下界位置

；

其中

和

通常取值为0.6和0.3；

使用如下拖尾过滤方法去掉一些非字幕连通域：

，假设得到的行号分别为t _tail和 b _tail；

j) 用下式计算尾巴的长：

tl ₁=t ₂-t _tail , tl ₂=b _tail-b ₂ , tl=max (tl ₁, tl ₂)

5

其中ub_c和ut_c分别表示连通域C精化后的上下界位置，而

和

通常取值为0.2和0.3；

（5）联合熵过滤器

6

其中p_i,j表示第i行第j列那部分非0像素的比率；

7

对于任一精化后的连通域C，若其

且

和

分别取6.4和2.76时效果最好；

（6）重复性检测

m)计算它们的位置相似度

和灰度直方图相似度，其中

是它们的公共部分的面积，而

是它们中大的那个的面积，若

与

有一个大于0.8，则是相同区域的重复检测，此时去掉一个，保留一个；

（7）颜色极统一

将字幕区域灰度图统一成黑底白字，采取以下步骤：

和

8

为它们的比；

o) 对上步8式得到的边缘映射图P，将边缘像素按列投影，设边缘映射图在列上分解成{x₀,x₁,…,x_n}，其中x_i为边缘图在列上投影为0的某一连续区间的中点，依次建立矩形Rect_i[1,height,x_i,x_i+1]，在该矩形范围内的边缘映射图P中从四边向内扫描，将遇到的第一个边缘像素点删除，重新统计白色边缘像素个数和黑色边缘像素个数，分别设为

和

；

p) 定义

为它们的比，定义

9

用如下方法判断字幕区域的颜色极：

(a) 若

，则为白字；

(d) 若，则当

时，字幕为白色，当

时字幕为黑色；

(e) 若

，则为白字；

(d) 若

，则当时，字幕为白色，当

时字幕为黑色；

(f) 若

，则为黑字；

其中；

tepn=max(cheight,cwidth)

其中cheight和cwidth分别为该连通域的高和宽。

v) 将二值图B送入OCR软件进行识别。

实施例

如图3、4所示，对于视频中的某一幅帧图像，给出了对包含在其中的字幕的识别流程实例。下面结合本发明的方法详细说明该实例实施的具体步骤，如下：

对于某一帧图像，如附图3（a）所示，采用权利要求3中的（1）边缘检测方法得出其角点加强的边缘映射图，结果如附图3（b）所示；

(1) 以上步得到的边缘映射图为输入，采用权利要求3中的（2）边缘点连接方法连接边缘点，结果如附图3（c）所示；

(2) 以边缘点连接后的映射图为输入，采用权利要求3中的（3）连通域收集及分割算法得到较大的连通域，结果如附图3（d）所示；

(3) 对上步得到的连通域，使用权利要求3中的（4）连通域精化及拖尾过滤方法得到更准确的区域位置大小并进行初步过滤，结果如附图3（e)所示；

(4) 对过滤后剩下的连通域，使用权利要求3中的（5）联合熵过滤器去掉非字幕区域，最后检测结果如附图3（f）所示；

(5) 对于上步检测出的某一特定字幕区域，如附图4（a）所示，先使用权利要求4中的（6）重复性检测判断其是否与之前已检测区域重复，如不重复，则使用权利要求4中的（7）颜色极统一方法将该区域统一成黑底白字；

(6) 对统一颜色极后的字幕区域，使用权利要求5中的二值化和去噪算法，得到较好的二值图，结果如附图4（b)所示；

(7) 使用商业OCR软件对二值图进行识别，结果如附图4（c)所示。

从附图中可以看出，本方法能较好的检测视频图像帧中的字幕区域，并将之二值化，二值化后的结果能达到较好的识别精度。

Claims

1.一种基于边缘信息和分布熵的视频字幕识别方法，其特征在于它的步骤如下：

在字幕抽取中对颜色极统一后的字幕区域进行二值化，去除噪声点后送OCR软件识别。

2.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法，其特征在于所述的检测当前帧与前一已处理帧的差别，若差别大，则进行以下字幕识别操作，否则继续取下一帧进行判断步骤为：设本帧为I_i，其边缘二值图为E_i，其前一已处理帧即前面第5帧为I_i-5，其边缘二值图为E_i－５，令D_i,i-5=E_i⊕E_i－５,令上一次检测出的字幕区域为Area_i-5,j，又上一次各字幕区域边缘二值图累加和的最小值为pMES，则当前帧中字幕区域累加差值计算如下：

1

3.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法，其特征在于所述的字幕识别首先进行字幕检测，在字幕检测中使用边缘检测、边缘点连接、连通域收集及分割方法、连通域精化及拖尾过滤方法得到候选文本域及其位置，再用联合熵过滤器移除非文本域，只留下字幕区域步骤为：

（1）边缘检测方法

2

其中

3

（2）边缘点连接方法

4

其中height和width分别为图像I的高和宽；

（3）连通域收集及分割方法

a) 对于C中的每一行i

，得到该行及以上部分的最小包围矩形的面积

和该行以下部分的最小包围矩形的面积

b) 对于C中的每一列j，得到该列及左边部分的最小包围矩形的面积

和该列右边部分的最小包围矩形的面积

c) 令

，，若mRA<mCA，则将连通域C在行上以第bR行为界分成两个连通域，否则将连通域C在列上以第bC列为界分成两个连通域；

连通域填充率小于0.8；

分成的两个新连通域面积都大于整幅图像面积的0.2%；

（4）连通域精化及拖尾过滤方法

输入：边缘映射图edgeMap，连通域C的初始上下边界位置

输出：精化后的上下界位置

d) 对于连通域C的任意行

，计算其在edgeMap中的左右非0像素跨距

，并存储在集合cSA中；

e) 对于连通域C的任意行

，计算其在edgeMap中的行像素点数，并存储在集合

中，即有

；

f) 取cSA中的最大值存在

中，并将其序号存在pSRN中；

取中的最大值存在

中，并将其序号存在中；

g) 对于在

范围内的所有行，取

的最大行序号

；

对于在

范围内的所有行，取

的最小行序号

；

对于在

范围内的所有行，取

的最大行序号

；

对于在

范围内的所有行，取的最小行序号

；

h) 令

，即得到精化后的上下界位置

；

其中

和

通常取值为0.6和0.3；

使用如下拖尾过滤方法去掉一些非字幕连通域：

，假设得到的行号分别为t _tail和 b _tail；

j) 用下式计算尾巴的长：

tl ₁=t ₂-t _tail , tl ₂=b _tail-b ₂ , tl=max (tl ₁, tl ₂)

5

（5）联合熵过滤器

6

其中p_i,j表示第i行第j列那部分非0像素的比率；

7

对于任一精化后的连通域C，若其

且

和

分别取6.4和2.76时效果最好；

4.根据权利要求1所述的一种基于边缘信息和分布熵的视频字幕识别方法，其特征在于所述的对字幕区域进行重复性检测，若该区域未重复，则将其颜色极统一为黑底白字，然后进行字幕抽取，否则处理下一字幕区域步骤为：

（6）重复性检测

l) 提取并存储前一已处理帧所有字幕区域位置Rect_i[t_i,b_i,l_i,r_i]及灰度直方图GH_i{g_i,0,g_i,1,…g_i,255}，其中为第i个字幕区域灰度级为k的像素数目；提取并存储当前帧所有字幕区域位置Rect_j[t_j,b_j,l_j,r_j] 及灰度直方图GH_j{g_j,0,g_j,1,…g_j,255}；

m)计算它们的位置相似度