[go: up one dir, main page]

CN102609932A - 专利首页摘要附图切割方法及系统 - Google Patents

专利首页摘要附图切割方法及系统 Download PDF

Info

Publication number
CN102609932A
CN102609932A CN2011100243762A CN201110024376A CN102609932A CN 102609932 A CN102609932 A CN 102609932A CN 2011100243762 A CN2011100243762 A CN 2011100243762A CN 201110024376 A CN201110024376 A CN 201110024376A CN 102609932 A CN102609932 A CN 102609932A
Authority
CN
China
Prior art keywords
cutting
row
image
height
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100243762A
Other languages
English (en)
Inventor
肖伟清
李忠一
叶建发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2011100243762A priority Critical patent/CN102609932A/zh
Priority to US13/339,177 priority patent/US20120192054A1/en
Publication of CN102609932A publication Critical patent/CN102609932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种专利首页摘要附图切割方法,该方法包括步骤:读取专利首页图像;处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算所切分出的各行的行高,并与预先设定的基准行高进行比较;当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图显示出来。本发明还提供一种专利首页摘要附图切割系统。本发明可以在搜索结果中显示专利首页摘要附图,方便用户查找。

Description

专利首页摘要附图切割方法及系统
技术领域
本发明涉及一种图像切割方法及系统,尤其是涉及一种专利首页摘要附图切割方法及系统。
背景技术
一般搜索专利文件时,只是针对专利影像全文浏览,或者在搜索结果中仅显示专利名称及文字摘要,不能很直观地了解各个专利的特征,很难迅速找到满足用户要求的专利搜索结果。
发明内容
鉴于以上内容,有必要提供一种专利首页摘要附图切割方法,可以在搜索结果中显示专利首页摘要附图,以方便用户查找。
鉴于以上内容,还有必要提供一种专利首页摘要附图切割系统,可以在搜索结果中显示专利首页摘要附图,以方便用户查找。
所述专利首页摘要附图切割方法包括:读取步骤:读取从专利搜索平台搜索到的专利文件的专利首页图像;处理步骤:处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算步骤:计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;切割步骤:当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
所述专利首页摘要附图切割系统包括:读取模块,用于读取从专利搜索平台搜索到的专利文件的专利首页图像;处理模块,用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;计算模块,用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;切割模块,用于当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
相较于现有技术,所述的专利首页摘要附图切割方法及系统,能够将搜索到的专利文件首页中的摘要附图切割出来,显示在搜索结果中,方便用户了解各个专利的特征,找到符合要求的专利。
附图说明
图1是本发明专利首页摘要附图切割系统较佳实施例的架构图。
图2A至图2E是本发明专利首页摘要附图切割系统较佳实施例的示意图。
图3是本发明专利首页摘要附图切割方法较佳实施例的流程图。
图4是图3中步骤S12的具体流程图。
主要元件符号说明
  服务器   1
  显示装置   2
  专利搜索平台   3
  专利首页摘要附图切割系统   10
  读取模块   100
  处理模块   200
  计算模块   300
  切割模块   400
具体实施方式
如图1所示,是本发明专利首页摘要附图切割系统较佳实施例的架构图。所述专利首页摘要附图切割系统10运行于服务器1中。所述服务器1连接于显示装置2,并与专利搜索平台3建立通信。
所述专利搜索平台3用于提供专利搜索及下载功能。
所述专利首页摘要附图切割系统10用于处理从所述专利搜索平台3搜索专利文件的搜索结果,切割专利首页的摘要附图并通过所述显示装置2作为搜索结果中的示意图显示出来,增强专利搜索结果的显示效果。
所述专利首页摘要附图切割系统10包括读取模块100、处理模块200、计算模块300及切割模块400。
所述读取模块100用于读取从所述专利搜索平台3搜索到的专利文件的专利首页图像。
所述处理模块200用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行。具体过程包括:
转换成黑白图像步骤:所述处理模块200将该专利首页图像转换成黑白图像。首先判断该专利首页图像是否为彩色图像,若是彩色图像则根据RGB计算公式,先将该彩色图像转换为灰度图像,灰度图像共有RGB值从0(黑色)到255(白色)的256种颜色。再根据预先设定的RGB中间值,将该灰度图像转换为黑白图像,即该灰度图像中RGB值小于所述中间值的区域转换为黑色,RGB值大于所述中间值的区域转换为白色。如图2A所示,是本发明较佳实施例的黑白图像示意图。所述黑白图像中,每一行的文字或符号等越多,则该行的黑色像素值越大。
生成直方图步骤:所述处理模块200根据该黑白图像每行的黑色像素的值,按列生成直方图。所述直方图X轴为该黑白图像的高度,Y轴为该黑白图像每行的黑色像素的值。一般情况下,专利首页图像中左右两半部分的排版格式不一致,而且发明专利的摘要附图通常位于专利首页图像的右下角,因此在本实施例中,将该黑白图像分为左半部分和右半部分两列分别生成直方图。如图2B所示,是按图2A中黑白图像左半部分这一列生成的直方图示意图。其中X轴为该黑白图像左半部分这一列的高度,Y轴为该黑白图像左半部分每行的黑色像素的值。如图2C所示,是按图2A中黑白图像右半部分这一列生成的直方图示意图。其中X轴为该黑白图像右半部分这一列的高度,Y轴为该黑白图像右半部分每行的黑色像素的值。
切分步骤:所述处理模块200根据该直方图,将该黑白图像切分为包含文字或图示的多行。所述直方图中,黑色像素的值为极小值的区域,即该黑白图像中的空白行区域。以这些空白行为界线,即可切分出包含文字或图示的各行。如图2D所示,是根据图2B与图2C中的直方图,将图2A中的黑白图像切分为包含文字或图示的多行后的示意图。
所述计算模块300用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定的倍数的区域,在本较佳实施例中,设定为5倍。所述基准行高可以根据专利文件通常采用的文字行高来预先设定。在所述专利首页图像中,一般文字行高不会超过该基准行高的5倍,因此当有行高大于该基准行高5倍的区域时,表明该专利首页图像中存在摘要附图。
所述切割模块400用于当有行高大于该基准行高5倍的区域时,选定该区域,切割掉该区域的空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过所述显示装置2显示出来。所述区域的空白部分可以通过RGB值判断,黑色的RGB值为0x000000,白色的RGB值为0xFFFFFF,则RGB值为0xFFFFFF的部分即为空白部分。若有多个行高大于该基准行高5倍的区域,则切割后得到的摘要附图有多个区块,将该多个区块按其原先在所述专利首页图像中的位置关系合并成一个图,作为搜索结果中的示意图通过所述显示装置2显示出来。如图2E所示,是选定图2D中行高大于该基准行高5倍的区域,切割掉该区域的空白部分后得到的摘要附图示意图。图2E将作为搜索结果中的示意图通过所述显示装置2显示出来。
所述切割模块400还用于当没有行高大于该基准行高5倍的区域,即该专利首页图像中不存在摘要附图时,将该专利首页图像的缩图作为搜索结果中的示意图通过所述显示装置2显示出来。
如图3所示,是本发明专利首页摘要附图切割方法较佳实施例的流程图。
步骤S10,所述读取模块100读取从所述专利搜索平台3搜索到的专利文件的专利首页图像。
步骤S12,所述处理模块200处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行。
步骤S14,所述计算模块300计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定的倍数的区域,在本较佳实施例中,设定为5倍。所述基准行高可以根据专利文件通常采用的文字行高来预先设定。当有行高大于该基准行高5倍的区域,即该专利首页图像中存在摘要附图时,执行步骤S16;当没有行高大于该基准行高5倍的区域,即该专利首页图像中不存在摘要附图时,执行步骤S18。
步骤S16,所述切割模块400选定该行高大于基准行高5倍的区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过所述显示装置2显示出来。所述区域的空白部分可以通过RGB值判断,黑色的RGB值为0x000000,白色的RGB值为0xFFFFFF,则RGB值为0xFFFFFF的部分即为空白部分。若有多个行高大于该基准行高5倍的区域,则切割后得到的摘要附图有多个区块,将该多个区块按其原先在所述专利首页图像中的位置关系合并成一个图,作为搜索结果中的示意图通过所述显示装置2显示出来。
步骤S18,所述切割模块400将该专利首页图像的缩图作为搜索结果中的示意图通过所述显示装置2显示出来。
如图4所示,是图3中步骤S12的具体流程图。
步骤S200,所述处理模块200将该专利首页图像转换成黑白图像。首先判断该专利首页图像是否为彩色图像,若是彩色图像则根据RGB计算公式,先将该彩色图像转换为灰度图像,灰度图像共有RGB值从0(黑色)到255(白色)的256种颜色。再根据预先设定的RGB中间值,将该灰度图像转换为黑白图像,即该灰度图像中RGB值小于所述中间值的区域转换为黑色,RGB值大于所述中间值的区域转换为白色。所述黑白图像中,每一行的文字或符号等越多,则该行的黑色像素值越大。
步骤S202,所述处理模块200根据该黑白图像每行的黑色像素的值,按列生成直方图。所述直方图X轴为该黑白图像的高度,Y轴为该黑白图像每行的黑色像素的值。一般情况下,专利首页图像中左右两半部分的排版格式不一致,而且发明专利的摘要附图通常位于专利首页图像的右下角,因此在本实施例中,将该黑白图像分为左半部分和右半部分两列分别生成直方图。
步骤S204,所述处理模块200根据该直方图,将该黑白图像切分为包含文字或图示的多行。所述直方图中,黑色像素的值为极小值的区域,即该黑白图像中的空白行区域。以这些空白行为界线,即可切分出包含文字或图示的各行。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种专利首页摘要附图切割方法,其特征在于,该方法包括:
读取步骤:读取从专利搜索平台搜索到的专利文件的专利首页图像;
处理步骤:处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;
计算步骤:计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;
切割步骤:当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
2.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,该方法在所述计算步骤之后还包括步骤:
当没有行高大于该基准行高预先设定倍数的区域时,将该专利首页图像的缩图作为搜索结果中的示意图通过显示装置显示出来。
3.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,所述处理步骤具体包括:
将该专利首页图像转换成黑白图像;
根据该黑白图像每行的黑色像素的值,按列生成直方图;
根据该直方图,将该黑白图像切分为包含文字或图示的多行。
4.如权利要求1所述的专利首页摘要附图切割方法,其特征在于,所述预先设定的倍数为5倍。
5.一种专利首页摘要附图切割系统,其特征在于,该系统包括:
读取模块,用于读取从专利搜索平台搜索到的专利文件的专利首页图像;
处理模块,用于处理该专利首页图像,并根据黑色像素直方图,将该专利首页图像切分为包含文字或图示的多行;
计算模块,用于计算所切分出的各行的行高,并将各行的行高与预先设定的基准行高进行比较,判断是否有行高大于该基准行高预先设定倍数的区域;
切割模块,用于当有行高大于该基准行高预先设定倍数的区域时,选定该区域,切割掉空白部分,并将切割后得到的摘要附图作为搜索结果中的示意图通过显示装置显示出来。
6.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述切割模块还用于当没有行高大于该基准行高预先设定倍数的区域时,将该专利首页图像的缩图作为搜索结果中的示意图通过显示装置显示出来。
7.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述处理模块通过下述步骤处理该专利首页图像:
将该专利首页图像转换成黑白图像;
根据该黑白图像每行的黑色像素的值,按列生成直方图;
根据该直方图,将该黑白图像切分为包含文字或图示的多行。
8.如权利要求5所述的专利首页摘要附图切割系统,其特征在于,所述预先设定的倍数为5倍。
CN2011100243762A 2011-01-21 2011-01-21 专利首页摘要附图切割方法及系统 Pending CN102609932A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011100243762A CN102609932A (zh) 2011-01-21 2011-01-21 专利首页摘要附图切割方法及系统
US13/339,177 US20120192054A1 (en) 2011-01-21 2011-12-28 Computing device and method for cutting out summary diagram of patent document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100243762A CN102609932A (zh) 2011-01-21 2011-01-21 专利首页摘要附图切割方法及系统

Publications (1)

Publication Number Publication Date
CN102609932A true CN102609932A (zh) 2012-07-25

Family

ID=46527278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100243762A Pending CN102609932A (zh) 2011-01-21 2011-01-21 专利首页摘要附图切割方法及系统

Country Status (2)

Country Link
US (1) US20120192054A1 (zh)
CN (1) CN102609932A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820806A (zh) * 2015-05-26 2015-08-05 北京邮电大学 阅时信息保护方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2056252A2 (en) * 2007-10-29 2009-05-06 Samsung Electronics Co., Ltd Segmented image processing apparatus and method and control factor computation apparatus

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3253356B2 (ja) * 1992-07-06 2002-02-04 株式会社リコー 文書画像の領域識別方法
US5995665A (en) * 1995-05-31 1999-11-30 Canon Kabushiki Kaisha Image processing apparatus and method
US5870502A (en) * 1996-04-08 1999-02-09 The Trustees Of Columbia University In The City Of New York System and method for a multiresolution transform of digital image information
US20060020597A1 (en) * 2003-11-26 2006-01-26 Yesvideo, Inc. Use of image similarity in summarizing a collection of visual images
ATE374501T1 (de) * 2004-03-02 2007-10-15 Seiko Epson Corp Erzeugung einer bilddatei mit zusätzlichen informationen zur weiterverarbeitung aus einer zeitfolge von quellbilddaten
JP4434250B2 (ja) * 2007-09-21 2010-03-17 ソニー株式会社 画像信号処理回路、撮像装置、および画像信号処理方法、並びにコンピュータ・プログラム
US8731297B1 (en) * 2007-09-28 2014-05-20 Amazon Technologies, Inc. Processing a digital image of content to remove border artifacts

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2056252A2 (en) * 2007-10-29 2009-05-06 Samsung Electronics Co., Ltd Segmented image processing apparatus and method and control factor computation apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王加俊: "文本页面图像的图文分割与分类算法", 《中国图像图形学报》, vol. 9, no. 5, 31 May 2004 (2004-05-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820806A (zh) * 2015-05-26 2015-08-05 北京邮电大学 阅时信息保护方法和装置

Also Published As

Publication number Publication date
US20120192054A1 (en) 2012-07-26

Similar Documents

Publication Publication Date Title
JP5972468B2 (ja) 画像からのラベルの検出
US9946690B2 (en) Paragraph alignment detection and region-based section reconstruction
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
CN107004396B (zh) 信息处理装置以及信息处理方法
US20180114097A1 (en) Font Attributes for Font Recognition and Similarity
WO2019169772A1 (zh) 图片处理方法、电子装置及存储介质
US20050223319A1 (en) Layout-rule generation system, layout system, layout-rule generation program, layout program, storage medium, method of generating layout rule, and method of layout
KR101549792B1 (ko) 문서 자동 작성 장치 및 방법
CN108171104A (zh) 一种文字检测方法及装置
JP2012059248A (ja) フォーム・フィールドを検出および生成するシステム、方法およびプログラム
CN114170423B (zh) 一种图像文档版面识别方法、装置及其系统
US9384557B2 (en) Information processing device, image modification method, and computer program product
US8386943B2 (en) Method for query based on layout information
CN104573675A (zh) 作业图像的展示方法和装置
CN105404683A (zh) 一种版式文档处理方法及装置
CN117931106B (zh) 基于边缘计算的云打印机数据处理方法以及相关装置
US10963690B2 (en) Method for identifying main picture in web page
US9870632B2 (en) Information processing apparatus and non-transitory computer readable medium
CN102609932A (zh) 专利首页摘要附图切割方法及系统
JP5217960B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US9400926B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
CN113886582B (zh) 文档处理方法及装置、用于图像的数据提取方法及装置
CN117707398A (zh) 一种数据处理方法和装置
KR101651842B1 (ko) 전자문서 레이아웃 생성 방법 및 장치
CN103049429B (zh) 一种转换电子文档的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120725