CN102609932A - 专利首页摘要附图切割方法及系统 - Google Patents
专利首页摘要附图切割方法及系统 Download PDFInfo
- Publication number
- CN102609932A CN102609932A CN2011100243762A CN201110024376A CN102609932A CN 102609932 A CN102609932 A CN 102609932A CN 2011100243762 A CN2011100243762 A CN 2011100243762A CN 201110024376 A CN201110024376 A CN 201110024376A CN 102609932 A CN102609932 A CN 102609932A
- Authority
- CN
- China
- Prior art keywords
- cutting
- row
- image
- height
- black
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种专利首页摘要附图切割方法,该方法包括步骤:读取专利首页图像;处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算所切分出的各行的行高,并与预先设定的基准行高进行比较;当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图显示出来。本发明还提供一种专利首页摘要附图切割系统。本发明可以在搜索结果中显示专利首页摘要附图,方便用户查找。
Description
技术领域
本发明涉及一种图像切割方法及系统,尤其是涉及一种专利首页摘要附图切割方法及系统。
背景技术
一般搜索专利文件时,只是针对专利影像全文浏览,或者在搜索结果中仅显示专利名称及文字摘要,不能很直观地了解各个专利的特征,很难迅速找到满足用户要求的专利搜索结果。
发明内容
鉴于以上内容,有必要提供一种专利首页摘要附图切割方法,可以在搜索结果中显示专利首页摘要附图,以方便用户查找。
鉴于以上内容,还有必要提供一种专利首页摘要附图切割系统,可以在搜索结果中显示专利首页摘要附图,以方便用户查找。
所述专利首页摘要附图切割方法包括:读取步骤:读取从专利搜索平台搜索到的专利文件的专利首页图像;处理步骤:处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算步骤:计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;切割步骤:当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
所述专利首页摘要附图切割系统包括:读取模块,用于读取从专利搜索平台搜索到的专利文件的专利首页图像;处理模块,用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算模块,用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;切割模块,用于当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
相较于现有技术,所述的专利首页摘要附图切割方法及系统,能够将搜索到的专利文件首页中的摘要附图切割出来,显示在搜索结果中,方便用户了解各个专利的特征,找到符合要求的专利。
附图说明
图1是本发明专利首页摘要附图切割系统较佳实施例的架构图。
图2A至图2E是本发明专利首页摘要附图切割系统较佳实施例的示意图。
图3是本发明专利首页摘要附图切割方法较佳实施例的流程图。
图4是图3中步骤S12的具体流程图。
主要元件符号说明
| 服务器 | 1 |
| 显示装置 | 2 |
| 专利搜索平台 | 3 |
| 专利首页摘要附图切割系统 | 10 |
| 读取模块 | 100 |
| 处理模块 | 200 |
| 计算模块 | 300 |
| 切割模块 | 400 |
具体实施方式
如图1所示,是本发明专利首页摘要附图切割系统较佳实施例的架构图。所述专利首页摘要附图切割系统10运行于服务器1中。所述服务器1连接于显示装置2,并与专利搜索平台3建立通信。
所述专利搜索平台3用于提供专利搜索及下载功能。
所述专利首页摘要附图切割系统10用于处理从所述专利搜索平台3搜索专利文件的搜索结果,切割专利首页的摘要附图并通过所述显示装置2作为搜索结果中的示意图显示出来,增强专利搜索结果的显示效果。
所述专利首页摘要附图切割系统10包括读取模块100、处理模块200、计算模块300及切割模块400。
所述读取模块100用于读取从所述专利搜索平台3搜索到的专利文件的专利首页图像。
所述处理模块200用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行。具体过程包括:
转换成黑白图像步骤:所述处理模块200将该专利首页图像转换成黑白图像。首先判断该专利首页图像是否为彩色图像,若是彩色图像则根据RGB计算公式,先将该彩色图像转换为灰度图像,灰度图像共有RGB值从0(黑色)到255(白色)的256种颜色。再根据预先设定的RGB中间值,将该灰度图像转换为黑白图像,即该灰度图像中RGB值小于所述中间值的区域转换为黑色,RGB值大于所述中间值的区域转换为白色。如图2A所示,是本发明较佳实施例的黑白图像示意图。所述黑白图像中,每一行的文字或符号等越多,则该行的黑色像素值越大。
生成直方图步骤:所述处理模块200根据该黑白图像每行的黑色像素的值,按列生成直方图。所述直方图X轴为该黑白图像的高度,Y轴为该黑白图像每行的黑色像素的值。一般情况下,专利首页图像中左右两半部分的排版格式不一致,而且发明专利的摘要附图通常位于专利首页图像的右下角,因此在本实施例中,将该黑白图像分为左半部分和右半部分两列分别生成直方图。如图2B所示,是按图2A中黑白图像左半部分这一列生成的直方图示意图。其中X轴为该黑白图像左半部分这一列的高度,Y轴为该黑白图像左半部分每行的黑色像素的值。如图2C所示,是按图2A中黑白图像右半部分这一列生成的直方图示意图。其中X轴为该黑白图像右半部分这一列的高度,Y轴为该黑白图像右半部分每行的黑色像素的值。
切分步骤:所述处理模块200根据该直方图,将该黑白图像切分为包含文字或图示的多行。所述直方图中,黑色像素的值为极小值的区域,即该黑白图像中的空白行区域。以这些空白行为界线,即可切分出包含文字或图示的各行。如图2D所示,是根据图2B与图2C中的直方图,将图2A中的黑白图像切分为包含文字或图示的多行后的示意图。
所述计算模块300用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定的倍数的区域,在本较佳实施例中,设定为5倍。所述基准行高可以根据专利文件通常采用的文字行高来预先设定。在所述专利首页图像中,一般文字行高不会超过该基准行高的5倍,因此当有行高大于该基准行高5倍的区域时,表明该专利首页图像中存在摘要附图。
所述切割模块400用于当有行高大于该基准行高5倍的区域时,选定该区域,切割掉该区域的空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过所述显示装置2显示出来。所述区域的空白部分可以通过RGB值判断,黑色的RGB值为0x000000,白色的RGB值为0xFFFFFF,则RGB值为0xFFFFFF的部分即为空白部分。若有多个行高大于该基准行高5倍的区域,则切割后得到的摘要附图有多个区块,将该多个区块按其原先在所述专利首页图像中的位置关系合并成一个图,作为搜索结果中的示意图通过所述显示装置2显示出来。如图2E所示,是选定图2D中行高大于该基准行高5倍的区域,切割掉该区域的空白部分后得到的摘要附图示意图。图2E将作为搜索结果中的示意图通过所述显示装置2显示出来。
所述切割模块400还用于当没有行高大于该基准行高5倍的区域,即该专利首页图像中不存在摘要附图时,将该专利首页图像的缩图作为搜索结果中的示意图通过所述显示装置2显示出来。
如图3所示,是本发明专利首页摘要附图切割方法较佳实施例的流程图。
步骤S10,所述读取模块100读取从所述专利搜索平台3搜索到的专利文件的专利首页图像。
步骤S12,所述处理模块200处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行。
步骤S14,所述计算模块300计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定的倍数的区域,在本较佳实施例中,设定为5倍。所述基准行高可以根据专利文件通常采用的文字行高来预先设定。当有行高大于该基准行高5倍的区域,即该专利首页图像中存在摘要附图时,执行步骤S16;当没有行高大于该基准行高5倍的区域,即该专利首页图像中不存在摘要附图时,执行步骤S18。
步骤S16,所述切割模块400选定该行高大于基准行高5倍的区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过所述显示装置2显示出来。所述区域的空白部分可以通过RGB值判断,黑色的RGB值为0x000000,白色的RGB值为0xFFFFFF,则RGB值为0xFFFFFF的部分即为空白部分。若有多个行高大于该基准行高5倍的区域,则切割后得到的摘要附图有多个区块,将该多个区块按其原先在所述专利首页图像中的位置关系合并成一个图,作为搜索结果中的示意图通过所述显示装置2显示出来。
步骤S18,所述切割模块400将该专利首页图像的缩图作为搜索结果中的示意图通过所述显示装置2显示出来。
如图4所示,是图3中步骤S12的具体流程图。
步骤S200,所述处理模块200将该专利首页图像转换成黑白图像。首先判断该专利首页图像是否为彩色图像,若是彩色图像则根据RGB计算公式,先将该彩色图像转换为灰度图像,灰度图像共有RGB值从0(黑色)到255(白色)的256种颜色。再根据预先设定的RGB中间值,将该灰度图像转换为黑白图像,即该灰度图像中RGB值小于所述中间值的区域转换为黑色,RGB值大于所述中间值的区域转换为白色。所述黑白图像中,每一行的文字或符号等越多,则该行的黑色像素值越大。
步骤S202,所述处理模块200根据该黑白图像每行的黑色像素的值,按列生成直方图。所述直方图X轴为该黑白图像的高度,Y轴为该黑白图像每行的黑色像素的值。一般情况下,专利首页图像中左右两半部分的排版格式不一致,而且发明专利的摘要附图通常位于专利首页图像的右下角,因此在本实施例中,将该黑白图像分为左半部分和右半部分两列分别生成直方图。
步骤S204,所述处理模块200根据该直方图,将该黑白图像切分为包含文字或图示的多行。所述直方图中,黑色像素的值为极小值的区域,即该黑白图像中的空白行区域。以这些空白行为界线,即可切分出包含文字或图示的各行。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种专利首页摘要附图切割方法,其特征在于,该方法包括:
读取步骤:读取从专利搜索平台搜索到的专利文件的专利首页图像;
处理步骤:处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;
计算步骤:计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;
切割步骤:当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
2.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,该方法在所述计算步骤之后还包括步骤:
当没有行高大于该基准行高预先设定倍数的区域时,将该专利首页图像的缩图作为搜索结果中的示意图通过显示装置显示出来。
3.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,所述处理步骤具体包括:
将该专利首页图像转换成黑白图像;
根据该黑白图像每行的黑色像素的值,按列生成直方图;
根据该直方图,将该黑白图像切分为包含文字或图示的多行。
4.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,所述预先设定的倍数为5倍。
5.一种专利首页摘要附图切割系统,其特征在于,该系统包括:
读取模块,用于读取从专利搜索平台搜索到的专利文件的专利首页图像;
处理模块,用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;
计算模块,用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;
切割模块,用于当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
6.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述切割模块还用于当没有行高大于该基准行高预先设定倍数的区域时,将该专利首页图像的缩图作为搜索结果中的示意图通过显示装置显示出来。
7.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述处理模块通过下述步骤处理该专利首页图像:
将该专利首页图像转换成黑白图像;
根据该黑白图像每行的黑色像素的值,按列生成直方图;
根据该直方图,将该黑白图像切分为包含文字或图示的多行。
8.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述预先设定的倍数为5倍。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011100243762A CN102609932A (zh) | 2011-01-21 | 2011-01-21 | 专利首页摘要附图切割方法及系统 |
| US13/339,177 US20120192054A1 (en) | 2011-01-21 | 2011-12-28 | Computing device and method for cutting out summary diagram of patent document |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011100243762A CN102609932A (zh) | 2011-01-21 | 2011-01-21 | 专利首页摘要附图切割方法及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN102609932A true CN102609932A (zh) | 2012-07-25 |
Family
ID=46527278
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN2011100243762A Pending CN102609932A (zh) | 2011-01-21 | 2011-01-21 | 专利首页摘要附图切割方法及系统 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20120192054A1 (zh) |
| CN (1) | CN102609932A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104820806A (zh) * | 2015-05-26 | 2015-08-05 | 北京邮电大学 | 阅时信息保护方法和装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2056252A2 (en) * | 2007-10-29 | 2009-05-06 | Samsung Electronics Co., Ltd | Segmented image processing apparatus and method and control factor computation apparatus |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3253356B2 (ja) * | 1992-07-06 | 2002-02-04 | 株式会社リコー | 文書画像の領域識別方法 |
| US5995665A (en) * | 1995-05-31 | 1999-11-30 | Canon Kabushiki Kaisha | Image processing apparatus and method |
| US5870502A (en) * | 1996-04-08 | 1999-02-09 | The Trustees Of Columbia University In The City Of New York | System and method for a multiresolution transform of digital image information |
| US20060020597A1 (en) * | 2003-11-26 | 2006-01-26 | Yesvideo, Inc. | Use of image similarity in summarizing a collection of visual images |
| ATE374501T1 (de) * | 2004-03-02 | 2007-10-15 | Seiko Epson Corp | Erzeugung einer bilddatei mit zusätzlichen informationen zur weiterverarbeitung aus einer zeitfolge von quellbilddaten |
| JP4434250B2 (ja) * | 2007-09-21 | 2010-03-17 | ソニー株式会社 | 画像信号処理回路、撮像装置、および画像信号処理方法、並びにコンピュータ・プログラム |
| US8731297B1 (en) * | 2007-09-28 | 2014-05-20 | Amazon Technologies, Inc. | Processing a digital image of content to remove border artifacts |
-
2011
- 2011-01-21 CN CN2011100243762A patent/CN102609932A/zh active Pending
- 2011-12-28 US US13/339,177 patent/US20120192054A1/en not_active Abandoned
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2056252A2 (en) * | 2007-10-29 | 2009-05-06 | Samsung Electronics Co., Ltd | Segmented image processing apparatus and method and control factor computation apparatus |
Non-Patent Citations (1)
| Title |
|---|
| 王加俊: "文本页面图像的图文分割与分类算法", 《中国图像图形学报》, vol. 9, no. 5, 31 May 2004 (2004-05-31) * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104820806A (zh) * | 2015-05-26 | 2015-08-05 | 北京邮电大学 | 阅时信息保护方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20120192054A1 (en) | 2012-07-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5972468B2 (ja) | 画像からのラベルの検出 | |
| US9946690B2 (en) | Paragraph alignment detection and region-based section reconstruction | |
| EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
| CN107004396B (zh) | 信息处理装置以及信息处理方法 | |
| US20180114097A1 (en) | Font Attributes for Font Recognition and Similarity | |
| WO2019169772A1 (zh) | 图片处理方法、电子装置及存储介质 | |
| US20050223319A1 (en) | Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout | |
| KR101549792B1 (ko) | 문서 자동 작성 장치 및 방법 | |
| CN108171104A (zh) | 一种文字检测方法及装置 | |
| JP2012059248A (ja) | フォーム・フィールドを検出および生成するシステム、方法およびプログラム | |
| CN114170423B (zh) | 一种图像文档版面识别方法、装置及其系统 | |
| US9384557B2 (en) | Information processing device, image modification method, and computer program product | |
| US8386943B2 (en) | Method for query based on layout information | |
| CN104573675A (zh) | 作业图像的展示方法和装置 | |
| CN105404683A (zh) | 一种版式文档处理方法及装置 | |
| CN117931106B (zh) | 基于边缘计算的云打印机数据处理方法以及相关装置 | |
| US10963690B2 (en) | Method for identifying main picture in web page | |
| US9870632B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
| CN102609932A (zh) | 专利首页摘要附图切割方法及系统 | |
| JP5217960B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
| US9400926B2 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium | |
| CN113886582B (zh) | 文档处理方法及装置、用于图像的数据提取方法及装置 | |
| CN117707398A (zh) | 一种数据处理方法和装置 | |
| KR101651842B1 (ko) | 전자문서 레이아웃 생성 방법 및 장치 | |
| CN103049429B (zh) | 一种转换电子文档的方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120725 |