[go: up one dir, main page]

WO2018151043A1 - 画像処理方法、及びコンピュータプログラム - Google Patents

画像処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2018151043A1
WO2018151043A1 PCT/JP2018/004598 JP2018004598W WO2018151043A1 WO 2018151043 A1 WO2018151043 A1 WO 2018151043A1 JP 2018004598 W JP2018004598 W JP 2018004598W WO 2018151043 A1 WO2018151043 A1 WO 2018151043A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
image
color
groups
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2018/004598
Other languages
English (en)
French (fr)
Inventor
栄 竹内
克 犬嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sofnec Co ltd
Original Assignee
Sofnec Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sofnec Co ltd filed Critical Sofnec Co ltd
Publication of WO2018151043A1 publication Critical patent/WO2018151043A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control

Definitions

  • the present invention relates to an image processing method capable of creating a binary image suitable for extracting meaningful information such as characters and signs from an image including various colors, particularly a photographed image.
  • Patent Document 1 proposes an “image recognition method” capable of accurately recognizing an image of each color from a color document including various colors.
  • the recognition process is performed for each of a plurality of image data obtained by separating the color image data for each color without making the color image a binary image. Therefore, for example, it is possible to make use of the color of the original by representing different characters for each color in the color original. Also, as long as the color of the character and the background color of the color document are different, they can both be converted to black, preventing the loss of the character, preventing the layout from becoming unrecognizable, and smoothly recognizing the character. You can move on to processing.
  • An object of the present invention is to create a binary image for reliably extracting characters from a natural image including various colors such as a moving image broadcast on a television.
  • Binary that displays the step and the background area group as the same group divides the N + 1 group into two, and displays the pixels included in one with the same color and the pixels included in the other with the other color
  • a plurality of binary images are created after grouping the background area and the character area. Even if complete character data cannot be extracted with only individual binary images, character data can be extracted with high accuracy by combining information obtained from the plurality of binary images.
  • the input color image is converted into the coordinates of the color space of the L * a * b * color system in pixel units, and the character area is specified for the converted image. It is good to perform the process.
  • the color representation is converted to the L * a * b * value, which is a color expression that better reflects the characteristics of human vision compared to the RGB values, the similarity of colors can be evaluated without a sense of incongruity for humans.
  • the background region is grouped by a K-means method for L colors
  • the character region is grouped by a K-means method for initially M + L colors. It is preferable to repeat the process of deleting the group having the smallest number of pixels belonging to M (M> N) groups unique to, until M reaches the final group number N. ⁇
  • the character portions can be appropriately grouped by separately applying the K-means method to the background region and the character region.
  • grouping character areas if a character area has a color close to the pixel value obtained by grouping the background area, the pixel belongs to the background. As a result, even in the area specified as the character area, the pixels originally belonging to the background are appropriately classified as being in the background area, so that the accuracy of the binarization process is increased.
  • the initial M colors used for grouping specific to the character area are eight colors of R, G, B, C (cyan), M (magenta), Y (yellow), white, and black. Good. Since there are many pure colors such as black and blue, the K-means processing for the character area is preferably started from these colors.
  • character data can be extracted with high accuracy by combining them.
  • FIG. 1 is a functional block diagram illustrating a configuration of an image processing apparatus according to an embodiment of the present invention. It is a flowchart explaining the outline of the process which concerns on embodiment of this invention. It is explanatory drawing which illustrates the image after specifying the original image and character area which concern on embodiment of this invention. It is a flowchart explaining the background area grouping process which concerns on embodiment of this invention. It is a flowchart explaining the character area grouping process which concerns on embodiment of this invention. It is a figure for demonstrating the number in the case of dividing a group into 2 in order to produce the binary image which concerns on embodiment of this invention. It is a figure which illustrates the binary image which is an output result concerning the embodiment of the present invention.
  • the image processing apparatus 1 is realized by a computer such as a personal computer or a smartphone and a computer program (corresponding to a computer program according to claims 5 to 8) installed in the computer.
  • the image processing apparatus 1 includes a processing unit 2, a storage unit 3, and a communication interface unit 4.
  • an input operation unit such as a mouse and a keyboard used by the operator during operation
  • an output unit such as a display and a printer, a camera, and the like are provided as appropriate.
  • the storage unit 3 stores an input image (hereinafter, “processing target image”), a learning sample for specifying a character region, various parameters, various intermediate processing results by the processing unit 2, and the like. It is realized by a storage device such as The parameters include parameters of a convolutional neural network (hereinafter referred to as “CNN”) used to specify a character area, the number of groups when grouping the background area and the character area, and a representative of each group. Contains the initial pixel value.
  • the intermediate processing result includes the progress of the specified character region, the progress associated with the application of the K-means method, such as the group to which each pixel belongs.
  • the storage unit 3 also includes programs for causing a computer to function as the image processing apparatus 1. These programs are read into the memory, and the read program code is executed by a CPU (not shown) so that the processing unit 2 can execute the program. Each part operates. Next, the processing unit 2 will be described.
  • the processing unit 2 includes an image acquisition unit 21, a character region identification processing unit 22, a background region grouping processing unit 23, a character region grouping processing unit 24, and a binary image creation unit 25.
  • an outline of processing by the image processing apparatus 1 will be described with reference to FIG.
  • the image acquisition unit 21 acquires a processing target image from an external communication network or information processing apparatus via the communication interface unit 4, and uses color information of each pixel of this image as coordinates in the L * a * b * color space. (Step S1 in FIG. 2). After the character area specifying process (steps S2 to S5 in FIG. 2), the process is performed based on each pixel after conversion. Here, the conversion is performed because the L * a * b * color space can display coordinates closer to human color recognition than the RGB color space, and therefore follows the human color recognition almost accurately. This is because the colors can be separated.
  • the character area specifying processing unit 22 specifies a character area excluding the background from the processing target image by the machine learning function implemented in the character area existence determining unit 22b (step S2 in FIG. 2).
  • the present invention is characterized in that it is divided into a background area and a character area, and grouping is performed by applying the K-means method to each.
  • the character area specification processing unit 22 determines whether each pixel included in the processing target image is included in the background area or the character area.
  • the entity of the character area existence determination unit 22b is CNN, and the parameters of the CNN are adjusted in advance by the machine learning unit 22a.
  • the machine learning unit 22a and the character area existence determination unit 22b will be described later in ⁇ 2. This will be described in “Preprocessing by Image Processing Device (Character Area Identification)”
  • the character area grouping processing unit 24 groups each pixel included in the character area for each character area specified by the character area specifying processing unit 22 by applying the K-means method.
  • the initial number of groups is M + L, which is a total of M, which is unique to the character region and L, which is the same as the background region.
  • M is an integer of M> N.
  • the binary image creation unit 25 creates a plurality of binary images based on the result of grouping processing in two stages of the background region and the character region.
  • the purpose of the present invention is to convert the original image into a binary image for character extraction. Therefore, for the pixel in the background area, only the information that the pixel exists in the background area is necessary. Therefore, the L groups classified into the background area are treated as one group without being distinguished, and the image to be processed is selected as one of (N + 1) groups combined with the N groups classified into the character area. Classify each pixel of. The number when (N + 1) groups are color-coded with two colors (usually white and black) is 2 (N + 1) .
  • Image acquiring unit 21 receives the color image to be processed, for each pixel, to coordinate converts the color information from the RGB color space such as the L * a * b * color space. That is, each pixel is represented by lightness L * , hue a * , and saturation b * in pixel units. Subsequently, a character area specifying process is performed on the graphic to be processed after being converted into the coordinates of the L * a * b * color space. Hereinafter, this process will be described in detail.
  • a character area in which character data included in one image exists is identified and distinguished from an image area (“background area”) in the background of the character.
  • background area an image area in the background of the character.
  • CNN which is a kind of machine learning is used. Therefore, before describing the processing by the character region identification processing unit 22, the function of machine learning by the image processing apparatus 1 will be described.
  • the image processing apparatus 1 includes a machine learning unit 22a, collects a large amount of learning images in advance, takes out learning samples, performs machine learning, verifies the results, and adjusts the parameters for machine learning. Specifically, learning images are collected, and positive samples are extracted from the character regions of these images, and negative samples are extracted from other regions. A positive sample that is entirely contained within the character area has a likelihood that its center is contained in the character area, and a negative sample that is not contained within the character area has its center located in the character area. Is assumed to be 0.0. This likelihood is teacher data, and the learning sample is associated with the teacher data. Each time a new learning sample is input, the likelihood is calculated, and if this likelihood deviates from the teacher data, the parameters are adjusted.
  • the learning sample extracted from within the character region is necessarily within the character region, so the likelihood should be 1.0.
  • parameter adjustment that is, learning of CNN is performed until a desired accuracy is realized so as to reduce this difference as much as possible. To do.
  • the parameter adjusted in this way is exported to the character area existence determination unit 22b.
  • the machine learning has been briefly described above. Returning to the description of the character area specifying process.
  • the character area specifying processing by the character area specifying processing unit 22 is performed using CNN after machine learning as follows.
  • the character area identification processing unit 22 scans the processing target image and extracts a small area (hereinafter referred to as “unit area”) having the same size as the learning sample. For example, scanning is performed from the upper left of the image toward the right end with a predetermined movement amount, and when reaching the right end, the image is moved downward by a predetermined movement amount and scanned toward the left end. This is repeated over the entire processing target image.
  • the extracted unit area is input to the character area existence determination unit 22b each time, and the character area specification processing unit 22 obtains the likelihood that the center of the unit area exists in the character area as an output result.
  • the character region specifying processing unit 22 scans the entire processing target image and acquires the likelihood of the center of the unit region, it determines whether the likelihood is within the character region depending on whether the likelihood is equal to or greater than a preset threshold value. judge. Based on the determination result, it is determined whether each pixel of the processing target image belongs to the character area or the background area. For example, the processing target image shown in FIG. 3A is separated into a character area and a background area like the binary image in FIG. In FIG. 3B, the background area is blacked out and the character area is outlined. In this example, there are three character areas, chA, chB, and chC. In the subsequent character area grouping process, these three character areas are processed separately. This is because the characters that are gathered at a grouped position often have the same color, and the characters that are separated from each other often have a different color.
  • the machine learning unit 22a described above operates asynchronously with the binarization processing of the color image of the present embodiment. Therefore, the machine learning unit 22a may be realized by a computer different from the image processing apparatus 1.
  • the character area presence / absence determining unit 22b which is the result of the machine learning, may also be realized by another computer so as to transmit / receive data to / from the character area specifying processing unit 22 via a communication line.
  • the background area grouping processing unit 23 classifies each pixel included in the background area of the processing target image into a predetermined number L of groups according to the K-means method.
  • the number of groups L is set, and the processing counter Np for the K-means method is initialized to 1 (step S31).
  • (l 1, 2,..., L) is calculated.
  • S (l) is the distance between the pixel of interest and the provisional representative pixel value of each group in the coordinates of the L * a * b * color space.
  • step S36 the pixel value average of the pixels included in the same group is calculated, the representative pixel value of each group is updated with the obtained average value, and 1 is added to the processing counter Np.
  • the process of step S36 returns to the process of step S33. That is, the processes in steps S33 to S36 are repeated until the grouping of all pixels is stabilized.
  • step S34 If the process of the K-means method is executed twice or more (“Np> 1” in step S34) and the K-means process has converged (Yes in step S35), the final representative pixel value bgCLR of each group (L) is confirmed (step S37), and these values are referred to in the subsequent character area grouping process.
  • Main processing 2 by image processing apparatus (grouping of character areas) >> The character area grouping processing unit 24 classifies each pixel included in the character area of the processing target image into a predetermined number of groups according to the K-means method.
  • K-means method a description will be given with reference to FIG.
  • the L groups obtained by grouping the background regions described above are also used in the processing by the K-means method.
  • the number of groups unique to the character area is finally N, but initially eight is set. That is, the process by the K-means method is started with a total of (8 + L) groups of 8 character specifics and L backgrounds (step S41 in FIG. 5).
  • the processing counter Np of the K-means method is initialized to 1.
  • the eight colors are R, G, and B of the three primary colors of light, C (cyan), M (magenta), Y (yellow), and white and black.
  • Qij be the pixel value of the pixel of interest (i, j).
  • (M 1, 2,..., 8) is calculated (step S42).
  • bgS (l) is the distance between the pixel of interest in the coordinates of the L * a * b * color space and the fixed pixel value of each group in the background region
  • chS (m) is a provisional value for each group specific to the character region. This is the distance from the representative pixel value.
  • step S45 the group belonging to the background area is not updated.
  • step S45 the processing counter Np
  • step S42 to S45 are repeated with the same number of groups until the grouping is stabilized (No in step S44). If the grouping is stable (Yes in step S44) and the number of character unique groups exceeds N (No in step S46), the character unique group having the smallest number of pixels in the group is deleted (step S47).
  • the number of groups is a total (7 + L) of 7 character areas and L backgrounds. The number of groups belonging to the background area remains L and is not to be deleted. After deleting one group, the process counter Np is reinitialized to 1, and the process returns to step S42 again.
  • the pixels classified into the group deleted in step S47 are absorbed by the group having the closest representative pixel value among the remaining groups in step S42 to be executed again.
  • the group that has absorbed such pixels recalculates the pixel value average including the pixels that have been absorbed in the subsequent step S45.
  • the processing by the K-means method is started from eight groups specific to characters in addition to the L groups of backgrounds, but these eight are more than the target N.
  • the reason why the initial value of the number of character unique groups is set to 8 is that the K-means method is affected by the initial value, and therefore it is desirable to reduce it from a value larger than the target value in a stepwise manner. Furthermore, if the process by the K-means method is executed with a very small number of groups, there is a possibility that a group of character colors to be left disappears. Considering these, it is appropriate to start processing from eight groups. However, if the number of groups remains eight, the number of binary images that are output results of the present embodiment is 510, which takes too much time for mounting. Therefore, we decided to reduce the number of groups step by step.
  • Main processing 3 by image processing apparatus (binary image creation for processing target figure) >>
  • the binary image creation unit 25 receives a result of the processing target image being classified into N + L groups, and performs a binarization process for converting pixels belonging to each group into white or black.
  • FIG. 7 shows two of the binary images obtained from the processing target graphic illustrated in FIG.
  • character data corresponding to the original image in FIG. 3A cannot be extracted without omission.
  • omission of character data can be reduced by combining a plurality of binary images.
  • Character data can be extracted with high accuracy even in an image in which gradation is applied to the color of characters or characters are drawn in a striped pattern.
  • An appropriate value of N may be set in consideration of the number of colors included in the processing target image and the required accuracy.
  • the plurality of output binary image data is sent to, for example, an external device that performs character recognition or displayed on the screen. How to use the obtained binary image is a subject of an invention different from the present invention.
  • the original data is converted into the coordinates of the L * a * b * color space, but the original color information of the original data may be used as it is.
  • L * a * b * is only desirable because it matches the characteristics of human vision.
  • eight pure colors are used as initial values when grouping character areas, three colors of RGB or four colors of CMYK may be used.
  • noise removal by smoothing may be performed prior to the character region specifying process. That is, if a large amount of noise is included in the binary image obtained in the final stage of the present invention, the accuracy of subsequent processing (for example, character recognition processing) based on these binary images is reduced. It is desirable to smooth the image with a filter or the like and output a binary image with less noise.
  • the purpose of binarization is extraction of character data.
  • the present invention may be intended to extract not only characters but also pictograms (pictograms) and traffic signs. This is because, like letters, they appeal to the eye and convey information and call attention.
  • the present invention is suitable for use in extracting character data overlaid on a television image, but can also be used for an image obtained by scanning a color printed matter with a scanner.
  • Image processing device 2 Processing unit 21: Image acquisition unit 22: Character region specifying processing unit 23: Background region grouping processing unit 24: Character region grouping processing unit 25: Binary image creation unit 3: Storage unit 4: Communication interface part

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)
  • Color Image Communication Systems (AREA)
  • Character Input (AREA)

Abstract

【課題】種々の色を含む画像、特に実写画像から、文字や標識などの意味ある情報を抽出するに適した2値画像を作成することができる画像処理方法およびプログラムを提供する。 【解決手段】対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをL(L>=2)個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のL個と文字領域固有のN(N>=2)個をあわせたN+L個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、N+1個のグループを2分し、一方に含まれるピクセルを同一の1色で、他方に含まれるピクセルを他の1色で表示する2値画像を作成するステップとを実行する。

Description

画像処理方法、及びコンピュータプログラム
本発明は、種々の色を含む画像、特に実写画像から、文字や標識などの意味ある情報を抽出するに適した2値画像を作成することができる画像処理方法に関する。
テレビの映像のような動画像には、画像に文字がオーバーレイされていることが多く、文字のみを抽出する機能が必要となることがある。 最近の画像の多くはカラー画像であるが、従来のカラー画像の文字抽出処理は、モノクロの2値画像処理の手法を援用するものであった。すなわち、カラー画像を何らかの方法で2値化処理してモノクロの2値画像とした後に、この2値画像について文字データを抽出しようとするものである。 ところが、カラー画像は種々の色を含んでいることから、文字抽出に関し、次のような問題がある。それは、カラー画像においては文字の色と、その背景色とが異なるにもかかわらず、2値化処理をした結果、文字及び背景色が共に黒(又は白)に変換され、その結果、文字が失われてしまう、という問題である。 特許文献1には、種々の色を含むカラー原稿から各色の画像を正確に認識することができる「画像認識方法」が提案されている。
特開2004-21765号公報
特許文献1に記載の発明によれば、カラー画像を2値画像とすることなく、カラーイメージデータを各色毎に分離した複数のイメージデータ毎に認識処理を行なう。従って、例えばカラー原稿において各色毎に異なる文字を表して、原稿がカラーであることを生かすことができる。また、カラー原稿において文字の色とその背景色とが異なりさえすれば、これらが共に黒に変換され文字が失われることを防止でき、レイアウト認識ができなくなることを防止して、円滑に文字認識処理に移行することができる。
 しかしながら、ここで対象となる画像はカラーではあるもののあくまでドキュメントであり、風景、人物などの実写映像は考慮されていない。実写映像ではピクセル値が連続して変化するため、特許文献1の段落〔0031〕-〔0032〕のような、クラスタリングの前に色数を求めることは意味がない。
 本発明は、テレビで放映される動画像のような種々の色を含む自然画像から文字を確実に抽出するための2値画像を作成することを目的とする。
本発明は、カラー画像を2値化する画像処理方法であって、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをL(L>=2)個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のL個と文字領域固有のN(N>=2)個をあわせたN+L個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、N+1個のグループを2分し、一方に含まれるピクセルを同一の1色で、他方に含まれるピクセルを他の1色で表示する2値画像を作成するステップと、からなることを特徴とする。
本発明の画像処理方法によれば、背景領域と文字領域のそれぞれについてグループ化した後、複数の2値画像を作成する。個々の2値画像だけでは、完全な文字データの抽出はできないとしても、これら複数の2値画像から得られる情報を総合すると高い精度で文字データが抽出できる。
本発明では、入力されたカラー画像を、ピクセル単位でL表色系の色空間の座標に変換して、この変換後の画像に対して、前記文字領域を特定するステップ以降の処理を行うとよい。
 このように、RGB値に比べると人間の視覚の特性をよく反映した色表現であるL値に変換するので、人間にとって違和感なく色の類似性を評価できる。
本発明では、前記背景領域のグループ化は、色数L個についてのK-means法により行い、前記文字領域のグループ化は、色数が当初M+L個についてのK-means法により行い、文字領域に固有のM(M>N)個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Mが最終的なグループ個数Nに達するまで繰り返すとよい。 文字には、あまり背景には現れないような色が用いられることが多い。そのため、背景領域と文字領域とにK-means法を別々に適用することで、適切に文字部分のグループ化ができる。また、文字領域のグループ化にあたって、背景領域のグループ化で求めたピクセル値に近い色が文字領域にあれば、そのピクセルは背景に属するものとする。これにより、文字領域として特定された領域にあっても、本来は背景に属するピクセルは背景領域にあるものとして適切に分類されるので、2値化処理の精度が高まる。
本発明では、前記文字領域固有のグループ化に使用される当初のM色は、R,G,B,C(シアン)、M(マゼンダ)、Y(イエロー),白、黒の8色であるとよい。 文字の色は、黒や青など純色が多いので、文字領域を対象とするK-means処理は、これらの色からスタートすることが望ましい。
 入力されたカラー画像から、複数の2値画像を作成するので、それらを合成すれば高い精度で文字データを抽出できる。
本発明の実施形態に係る画像処理装置の構成を示す機能ブロック図である。 本発明の実施形態に係る処理の概略を説明するフロー図である。 本発明の実施形態に係る原画像と文字領域特定後の画像を例示する説明図である。 本発明の実施形態に係る背景領域グループ化処理を説明するフロー図である。 本発明の実施形態に係る文字領域グループ化処理を説明するフロー図である。 本発明の実施形態に係る2値画像を作成するためにグループを2分する場合の数を説明するための図である。 本発明の実施形態に係る出力結果である2値画像を例示する図である。
 図面を参照しながら本発明の一実施形態の画像処理装置について説明する。
以下、次の項目別に説明する。
《1.画像処理装置の機能ブロック構成》
《2.画像処理装置による前処理(文字領域特定)》
《3.画像処理装置による本処理1(背景領域のグループ化)》
《4.画像処理装置による本処理2(文字領域のグループ化)》
《5.画像処理装置による本処理3(処理対象図形についての2値画像作成)》
《1.   画像処理装置の機能ブロック構成》
 図1を参照して、画像処理装置1の機能に着目した構成について説明する。
 画像処理装置1は、パソコンやスマートフォンなどのコンピュータと、そのコンピュータに実装されたコンピュータプログラム(請求項5~8に係るコンピュータプログラムに相当)によって実現されている。
 画像処理装置1は、処理部2と記憶部3と通信インターフェース部4を備える。これらのほかに、オペレータが操作時に用いるマウスやキーボードなどの入力操作部、ディスプレイやプリンタなどの出力部やカメラなども適宜備えるが図示は省略する。
 記憶部3には、入力された画像(以下、「処理対象画像」)、文字領域特定のための学習サンプル、各種パラメータ類、処理部2による各種の中間処理結果などが格納され、メモリやハードディスクなどの記憶装置によって実現される。
 パラメータ類には、文字領域を特定するために使用する畳み込みニューラルネットワーク(Convolutional Neural Network。以下、「CNN」)のパラメータ類、背景領域および文字領域をグループ化する際のグループ個数と各グループの代表ピクセル値の初期値などが含まれる。
 中間処理結果には、特定された文字領域、ピクセル毎の所属グループなどのK-means法の適用に伴う途中経過などが含まれる。
 記憶部3には、コンピュータを画像処理装置1として機能させるためのプログラムも含まれ、これらのプログラムがメモリ上に読み込まれ、読み込まれたプログラムコードを図示しないCPUが実行することによって処理部2の各部が動作することになる。
 次に、処理部2について説明する。
 処理部2は、画像取得部21と、文字領域特定処理部22と、背景領域グループ化処理部23と、文字領域グループ化処理部24と、2値画像作成部25を備える。以下、各部21~25の説明とあわせて、図2を参照しながら画像処理装置1による処理の概要も説明する。
画像取得部21は、通信インターフェース部4を介して、外部の通信ネットワークや情報処理装置から処理対象画像を取得し、この画像の各ピクセルの色情報を、L色空間の座標に変換する(図2のステップS1)。文字領域特定処理以降(図2のステップS2~S5)は、変換後の各ピクセルに基づいて処理が行われる。 ここで、変換を行うのは、L色空間が、RGB色空間よりも人による色の認識に近い座標表示をすることができ、従って、人による色の認識にほぼ正確に従うように色を分離することができるからである。
文字領域特定処理部22は、本実施形態では、文字領域内存否判定部22bに実装された機械学習の機能によって処理対象画像から背景を除いた文字領域を特定する(図2のステップS2)。本発明は、背景領域と文字領域とに分け、それぞれについてK-means法を適用したグループ化を行う点に特徴のひとつがある。そのために、文字領域特定処理部22は、処理対象画像に含まれる各ピクセルが背景領域と文字領域のいずれに含まれるかを判定する。
ところで、文字領域内存否判定部22bの実体はCNNであり、予め機械学習部22aによって、CNNのパラメータ類が調整されている。機械学習部22aと文字領域内存否判定部22bについては、後述する《2.画像処理装置による前処理(文字領域特定)》において説明する。
背景領域グループ化処理部23は、文字領域特定処理部22によって文字領域の背景と判定された領域の各ピクセルを、K-means法を適用してL個(L>=2)のグループに分類する。(図2のステップS3)。
文字領域グループ化処理部24は、文字領域特定処理部22によって特定された文字領域毎に、その文字領域に含まれる各ピクセルを、K-means法を適用してグループ化する。当初のグループ数は文字領域固有のM個と背景領域と同じL個との合計M+L個であるが、K-means法によるピクセルの分類が安定し、グループ化が収束する度に文字領域固有のグループを目的のN個になるまで段階的に削除していくので、最終的に文字領域固有のN個と背景領域L個との合計N+L個にグループ化される(図2のステップS4)。ここでNは、N>=2の整数であり、Mは、M>Nの整数である。
2値画像作成部25は、背景領域と文字領域の2段階でグループ化処理がされた結果に基づいて複数の2値画像を作成する。本発明は、文字抽出のために原画像を2値画像にすることが目的なので、背景領域にあるピクセルについては、そのピクセルが背景領域内に存在するという情報のみが必要なのである。そのため、背景領域に分類されたL個のグループを区別せずに1個のグループとして取扱い、文字領域に分類されたN個のグループとあわせた(N+1)個のグループのいずれかに処理対象画像の各ピクセルを分類する。(N+1)個のグループを2色(通常は、白と黒)で色分けする場合の数は、2(N+1)である。しかし、すべて白あるいは黒となる場合を除外するので、{2(N+1)―2}個の場合について2値画像を作成する(図2のステップS5)。 以上で《1.画像処理装置の機能ブロック構成》についての説明を終える。続いて、画像処理装置1による動作を説明する。
《2.画像処理装置による前処理(文字領域特定)》
 画像取得部21は、処理対象のカラー画像を受け取ると、各々のピクセルについて、その色情報をRGB色空間等からL色空間へ座標変換する。即ち、各ピクセルを、ピクセル単位で、明度L、色相a、彩度bで表す。
 続いて、L色空間の座標に変換された後の処理対象図形について文字領域特定処理を行う。以下、この処理について詳しく説明する。
 本実施形態では、1枚の画像に含まれる文字データの存在する文字領域を特定し、文字の背景にある画像領域(「背景領域」)と区別する。文字領域を特定するために、機械学習の一種であるCNNを利用する。そのため、文字領域特定処理部22による処理を説明する前に、画像処理装置1による機械学習の機能について説明する。
 画像処理装置1は機械学習部22aを備え、予め大量の学習用画像を収集し学習サンプルを取り出し、機械学習にかけ、結果を検証して機械学習用のパラメータを調整しておく。具体的には、学習用の画像を収集し、これらの画像の文字領域内から正サンプルを、それ以外の領域から負サンプルを抽出する。全体が完全に文字領域内に含まれている正サンプルは、その中心が文字領域に含まれる尤度を1.0とし、文字領域内にまったく含まれていない負サンプルは、その中心が文字領域に含まれる尤度を0.0とする。この尤度が教師データであって、学習サンプルとこの教師データとが対応づけられる。
 新たな学習サンプルが入力される都度、尤度を算出し、この尤度が教師データと乖離している場合、パラメータを調整する。例えば、文字領域内から抽出した学習サンプルは、その中心が必ず文字領域内にあるので、その尤度は1.0となるはずである。ところが、機械学習による出力結果と本来の尤度1.0とが乖離しているならば、この差をできるだけ少なくするように、所望の精度が実現されるまでパラメータの調整,つまりCNNの学習をするのである。
 このように調整されたパラメータは、文字領域内存否判定部22bにエクスポートされる。
 以上、機械学習について簡単に説明をした。それでは、文字領域特定処理の説明に戻る。
 文字領域特定処理部22による文字領域特定処理は、以下のように機械学習後のCNNを利用して行われる。
 文字領域特定処理部22は、処理対象画像を走査し、学習サンプルと同じ大きさの小領域(以下、「単位領域」)を取り出す。例えば、画像の左上から所定の移動量で右端へ向かって走査し、右端へ達すると所定の移動量だけ下方へ移動し、左端へ向かって走査する。これを処理対象画像の全体に渡って繰り返す。
 取り出された単位領域はその都度、文字領域内存否判定部22bに入力され、文字領域特定処理部22は当該単位領域の中心が文字領域内に存在する尤度を出力結果として得る。
 文字領域特定処理部22は、処理対象画像の全体を走査し、単位領域の中心の尤度を取得したならば、その尤度が予め設定した閾値以上か否かによって文字領域内か否かを判定する。この判定結果により、処理対象画像の各ピクセルが文字領域に属するのか、背景領域に属するのかが確定する。例えば、図3(a)に示す処理対象画像は、図3(b)の2値画像のように文字領域と背景領域とに分離された。図3(b)では、背景領域は黒でぬりつぶされ、文字領域は白抜きされている。この例では、文字領域はchA,chB,chCの3領域があり、後続する文字領域グループ化処理では、これら3つの文字領域を別々に処理する。まとまった位置に集まっている文字同士は同じような色であることが多く、離れた位置にある文字同士は異なる色であることが多いからである。
 なお、上述した機械学習部22aは、本実施の形態のカラー画像の2値化処理と非同期で動作する。であるから、機械学習部22aは、画像処理装置1とは別のコンピュータに実現させてもよい。機械学習の結果である文字領域内存否判定部22bについても、別のコンピュータに実現させて、通信回線を介して文字領域特定処理部22との間でデータの送受信をするようにしてもよい。
 以上、《2.画像処理装置による前処理(文字領域特定)》の説明をしたが、背景および文字領域のグループ化処理の説明の前に、本発明における文字領域特定処理の意義を述べる。
すなわち、本発明の活用場面として想定されるのは、カラーの実写映像の一部分に文字がオーバーレイされている状況において、文字データを洩れなく抽出することである。そのために、オーバーレイされた領域と背景領域とをあらかじめマスクとして特定しておくことが望ましい。なぜなら、まず背景部分のみをグループ化して、次に文字を背景から際立った色として抽出することが可能となるからである。もし、文字領域を特定することなく、背景と文字が混在した処理対象画像全体をK-means法でグループ化するだけでは、得られる2値画像に混ざりこむ背景を十分には除去できず、文字認識などの後続処理の使用に耐えられない。
《3.   画像処理装置による本処理1(背景領域のグループ化)》
 背景領域グループ化処理部23は、処理対象画像の背景領域に含まれる各ピクセルをK-means法に従って所定個数L個のグループに分類する。以下、図4の処理フローを参照しながら説明する。
まず、グループ個数Lを設定し、K-means法の処理カウンタNpを1に初期設定する(ステップS31)。L個のグループにそれぞれの代表ピクセル値の初期値bgCLR(l)(l=1、2、・・・、L)を設定する(ステップS32)。なお、代表ピクセル値は、K-means法による処理を繰り返すと、いずれ収束するので、初期値は任意に設定してよい。
注目ピクセル(i,j)のピクセル値をPij(3次元実ベクトル)とし、ノルムS(l)=|Pij-bgCLR(l)|(l=1、2、・・・、L)を計算する(ステップS33)。S(l)はL色空間の座標内における注目ピクセルと各グループの暫定的な代表ピクセル値との距離である。S(l)(l=1、2、.・・・、L)のうち最小の値に対応するグループを注目ピクセル(i,j)が属するグループとする。この計算をすべての背景領域内のピクセルについて行い、すべてのピクセルはL個のグループのいずれかに分類される。
次に、ステップS33によるグループ化が安定したかどうかを判定する。処理カウンタNpが1より大、つまりK-means法の処理が初回でなければ(ステップS34で“Np>1”)、全ピクセルについて、その属するグループが前回のK-means処理の適用結果と同一であるか否かを判定し、同一でないピクセルの個数が所定の閾値(0を含む)を超えていれば(ステップS35でNo)、ステップS36の処理へ移る。K-means法の処理が初回の場合も(ステップS34で“Np=1”)、ステップS36の処理へ移る。ステップS36では、同一グループに含まれるピクセルのピクセル値平均を計算し、得られた平均値で各グループの代表ピクセル値を更新するとともに、処理カウンタNpに1を加算する。ステップS36の処理を終えると、ステップS33の処理へ戻る。すなわち、ステップS33~S36の処理を、全ピクセルのグループ化が安定するまで繰り返す。
K-means法の処理が2回以上実行され(ステップS34で“Np>1”)、且つK-means処理が収束したならば(ステップS35でYes)、各グループの最終的な代表ピクセル値bgCLR(l)が確定し(ステップS37)、これらの値が後続の文字領域グループ化処理において参照される。
《4.画像処理装置による本処理2(文字領域のグループ化)》
 文字領域グループ化処理部24は、処理対象画像の文字領域に含まれる各ピクセルをK-means法に従って所定個数のグループに分類する。以下、図5を参照しながら説明する。
 文字領域は、最終的にはN個(2=<N<8)の文字領域に固有のグループに分けられる。ただし、文字領域内であっても文字の周囲に背景が映り込むことがあるので、この背景に属するピクセルを文字そのもののピクセルと分離したい。そのために上述した背景領域のグループ化によって得られたL個のグループもK-means法による処理で使用する。
 文字領域に固有のグループは最終的にはN個であるが、当初は8個に設定する。つまり、文字固有8個と背景L個の合計(8+L)個のグループでK-means法による処理を開始する(図5のステップS41)。ここで、K-means法の処理カウンタNpを1に初期設定する。
 ところで、文字ははっきりした色で描画されていたり、あるいは縁取られていたりすることが多い。したがって文字固有グループの初期値として、8色の純色からスタートする。この8色は、光の3原色のRとGとB、C(シアン)、M(マゼンタ)、Y(イエロー)、および白と黒である。
背景グループの代表ピクセル値をbgCLR(l)(l=1、2、・・・、L)とし、文字固有グループの代表ピクセル値をchCLR(m)(m=1、2、・・・、8)とする。 注目ピクセル(i,j)のピクセル値をQijとする。ピクセル値は3次元実ベクトルであり、ノルムbgS(l)=|Qij-bgCLR(l)|(l=1、2、・・・、L)およびノルムchS(m)=|Qij-chCHR(m)|(m=1、2、・・・、8)を計算する(ステップS42)。bgS(l)はL色空間の座標内における注目ピクセルと背景領域の各グループの固定ピクセル値との距離であり、chS(m)は文字領域に固有な各グループの暫定的な代表ピクセル値との距離である。
全グループについて算出された{bgS(1)*β、・・・、bgS(L)*β、chS(1)、chS(2)、・・・、chS(8)}のうち最小の値に対応するグループを注目ピクセル(i,j)が属するグループとする。ここで、背景グループとの距離に乗じたβ(例えば、β=1.5)はバイアスである。バイアスをかけるのが好ましいのは、文字領域内のピクセルは背景領域内のグループの色に近いとしても、できるだけ文字として判定されるようにしたいからである。ただし、β=1、つまりバイアスをかけなくてもかまわない。この計算をすべての文字領域内のピクセルについて行い、すべてのピクセルを(8+L)個のグループの何れかに分類する(ステップS42)。
次に、ステップS42によるグループ化が安定したかどうかを判定する。処理カウンタNpが1より大、つまりK-means法の処理が初回でなければ(ステップS43で“Np>1”)、全ピクセルについて、その属するグループが前回のK-means処理の適用結果と同一であるか否かを判定し、同一でないピクセルの個数が所定の閾値(0を含む)を超えていれば(ステップS44でNo)、ステップS45の処理へ移る。K-means法の処理が初回の場合も(ステップS43で“Np=1”)、ステップS45の処理へ移る。ステップS45では、同一グループに含まれるピクセルのピクセル値平均を計算し、得られた平均値で各グループの代表ピクセル値を更新する。ただし、背景領域に属するグループについては、更新しない。 この代表ピクセル値の更新後に、処理カウンタNpに1を加算し(ステップS45)、グループ化が安定するまで(ステップS44でNoの場合)、同じグループ個数でS42~S45を繰り返す。グループ化が安定し(ステップS44でYes)、且つ文字固有グループ数がN個を超えていれば(ステップS46でNo)、グループ内ピクセル個数が最も少ない文字固有グループを削除し(ステップS47)、グループ個数を文字領域7個と背景L個の合計(7+L)個とする。背景領域に属するグループはL個のままであって、削除対象としない。1個のグループを削除後、処理カウンタNpを1に再初期化した後、再度ステップS42に戻る。ここで、ステップS47で削除されたグループに分類されていたピクセルは、再度実行されるステップS42において、残ったグループの中で最も近い代表ピクセル値を持つグループに吸収される。このようなピクセルを吸収したグループは、続くステップS45において吸収したピクセルを含めたピクセル値平均を再計算する。
K-means法によるグループの分類が収束し(ステップS44でYes)、かつ文字領域固有のグループ数がN個になつたならば(ステップS46でYes)、文字領域内のピクセルは、文字領域N個と背景L個の合計(N+L)個にグループ化されたことになる。 図5に示す処理は、文字領域特定処理によって、特定された文字領域の個数分だけ実行される。図3(b)の例では、文字領域がchA,chB,chCの3つあるので、文字領域グループ化処理を3回実行することになる。
 なお、本実施の形態では、K-means法による処理を、背景L個のグループに加え文字固有の8個のグループから開始しているが、この8個は目標とするN個よりも多い。文字固有グループ数の初期値を8にするのは、K-means法が初期値に影響されるため、目標とする値よりも大きな値から段階的に減らすことが望ましいからである。さらに、あまり小さいグループ数でK-means法による処理を実行すると、残すべき文字の色のグループが消滅する可能性が出てくる。これらを考慮すると8個のグループから処理を開始することが適当である。しかしながら、グループ数が8個のままでは、本実施形態の出力結果である2値画像の個数が510個となって、実装上時間がかかりすぎる。そのため、段階的にグループ数を減らすこととした。
《5.画像処理装置による本処理3(処理対象図形についての2値画像作成)》
 2値画像作成部25は、処理対象画像がN+L個のグループに分類された結果を受けて、各グループに属するピクセルを白または黒に変換する2値化処理を行う。
ここで、背景および文字領域を対象としたグループ化処理が終了してしまえば、もはや各グループの具体的な代表ピクセル値は情報として必要ない。背景部分のピクセルについては、ただ背景として分類されたという結果のみが意味をもつ。従ってピクセル毎に、背景の1個のグループに分類されたか、文字領域のN個のグループのいずれかに分類されたかが意味のある情報として残る。
 N=2の場合、背景を含めたグループ個数が3なので、図6に示すように、各グループを白あるいは黒で塗り分ける場合の数は(1)~(8)の8通りがある。ただし、(1)と(8)は全グループを同一の色にするので意味がなく、(2)~(7)の6通りの2値画像が作成されればよい。
 図7には、図3(a)に例示する処理対象図形から得られた2値画像の内2つを示す。
図7(a)も(b)も、図3(a)の原画像にあった文字データを洩れなく抽出できてはいない。しかし、1枚の2値画像では不十分であるとしても、複数の2値画像を合成すれば、文字データの抽出洩れを少なくすることができる。文字の色にグラデーションがかかっていたり、文字が縞模様で描かれていたりといった画像であっても高い精度で文字データの抽出が可能である。
 なお、N=3とすると2値画像の個数は14個、N=4とすると2値画像の個数は30個となり、文字抽出の精度が上がることになる。処理対象画像に含まれる色の個数や必要とされる精度などを勘案して適切なNの値を設定すればよい。
出力された複数の2値画像データは、例えば文字認識を行う外部装置に送られたり、画面表示されたりする。得られた2値画像をどのように利用するかは、本発明とは別の発明の課題である。
以上、本発明の一実施の形態を説明したが、本発明は特許請求の範囲に開示した主旨に従って、種々の変形が可能である。
例えば、上記の実施の形態では、原データをL色空間の座標に変換しているが、原データの元の色情報をそのまま用いてもかまわない。Lは、人間の視覚の特性に合致しているのでより望ましいというだけである。さらに、文字領域をグループ化する際の初期値として、8つの純色を用いたが、RGBの3色あるいはCMYKの4色を用いてもよい。
 さらに、上記の実施の形態では、色表現を変換した後、直ちに文字領域特定処理の入力データとしていた。しかし、文字領域特定処理に先行して平滑化によるノイズ除去を行ってもよい。すなわち、本発明の最終段階で得られた2値画像に大量のノイズが含まれているのでは、これらの2値画像に基づく後続処理(例えば、文字認識処理)の精度が低下するので、bilateral filter等によって平滑化し、ノイズの少ない2値画像を出力することが望ましいのである。
 上記の実施の形態では、2値化の目的は文字データの抽出であったが、本発明は文字だけでなく、ピクトグラム(絵文字)や交通標識などの抽出を目的としてもよい。これらも文字と同様に、視覚に訴えて情報を伝えたり注意を喚起したりするものだからである。
 また、本発明はテレビの映像にオーバーレイされた文字データの抽出などへの利用に適しているが、カラーの印刷物をスキャナで読み取った画像等についても利用できる。
 カラー画像を対象とした画像処理技術、特にテレビのテロップ等からの文字抽出に活用される技術として、広い需要が期待される。 
1:画像処理装置
  2:処理部
    21:画像取得部
    22:文字領域特定処理部
    23:背景領域グループ化処理部
    24:文字領域グループ化処理部
    25:2値画像作成部
  3:記憶部
  4:通信インターフェース部
 

Claims (8)

  1. カラー画像を2値化する画像処理方法であって、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをL(L>=2)個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のL個と文字領域固有のN(N>=2)個をあわせたN+L個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、N+1個のグループを2分し、一方に含まれるピクセルを同一の1色で、他方に含まれるピクセルを他の1色で表示する2値画像を作成するステップと、からなることを特徴とする画像処理方法。
  2. 入力されたカラー画像を、ピクセル単位でL表色系の色空間の座標に変換することを特徴とする請求項1に記載の画像処理方法。
  3. 前記背景領域のグループ化は、色数L個についてのK-means法により行い、前記文字領域のグループ化は、色数が当初M+L個についてのK-means法により行い、文字領域に固有のM(M>N)個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Mが最終的な個数Nに達するまで繰り返すことを特徴とする請求項1又は2のいずれかに記載の画像処理方法。
  4. 前記文字領域固有のグループ化に使用される当初のM色は、R,G,B,C(シアン)、M(マゼンダ)、Y(イエロー),白、黒の8色であることを特徴とする請求項3に記載の画像処理方法。
  5. カラー画像を2値化するために、コンピュータに、対象となるカラー画像から背景領域を除いた文字領域を特定するステップと、前記背景領域に含まれる各ピクセルをL(L>=2)個のグループに分類するステップと、前記文字領域に含まれる各ピクセルを、背景領域のL個と文字領域固有のN(N>=2)個をあわせたN+L個のグループに分類するステップと、背景領域のグループを同一のグループとみなし、N+1個のグループを2分し、一方に含まれるピクセルを同一の1色で、他方に含まれるピクセルを他の1色で表示する2値画像を作成するステップと、を実行させることを特徴とするコンピュータプログラム。
  6. 入力されたカラー画像を、ピクセル単位でL表色系の色空間の座標に変換することを特徴とする請求項5に記載のコンピュータプログラム。
  7. 前記背景領域のグループ化は、色数L個についてのK-means法により行い、前記文字領域のグループ化は、色数が当初M+L個についてのK-means法により行い、文字領域に固有のM(M>N)個のグループのうち属するピクセル個数が最も少ないグループを削除する処理を、Mが最終的な個数Nに達するまで繰り返すことを特徴とする請求項5又は6のいずれかに記載のコンピュータプログラム。
  8. 前記文字領域固有のグループ化に使用される当初のM色は、R,G,B,C(シアン)、M(マゼンダ)、Y(イエロー),白、黒の8色であることを特徴とする請求項7に記載のコンピュータプログラム。
PCT/JP2018/004598 2017-02-15 2018-02-09 画像処理方法、及びコンピュータプログラム Ceased WO2018151043A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-026282 2017-02-15
JP2017026282A JP6294524B1 (ja) 2017-02-15 2017-02-15 画像処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2018151043A1 true WO2018151043A1 (ja) 2018-08-23

Family

ID=61628998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/004598 Ceased WO2018151043A1 (ja) 2017-02-15 2018-02-09 画像処理方法、及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP6294524B1 (ja)
WO (1) WO2018151043A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020084720A1 (ja) 2018-10-24 2020-04-30 富士通フロンテック株式会社 紙幣検査装置、紙幣検査方法及び紙幣検査プログラム
JP2021047797A (ja) * 2019-09-20 2021-03-25 トッパン・フォームズ株式会社 機械学習装置、機械学習方法、及びプログラム
JP7431005B2 (ja) * 2019-09-20 2024-02-14 Toppanエッジ株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JP7416614B2 (ja) * 2019-12-24 2024-01-17 Go株式会社 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001291056A (ja) * 2000-04-05 2001-10-19 Fujitsu Ltd 文書画像認識装置及び記録媒体
JP2010067223A (ja) * 2008-09-12 2010-03-25 Canon Inc 画像処理装置、画像処理方法、及び、画像処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3918143B2 (ja) * 2000-12-28 2007-05-23 独立行政法人科学技術振興機構 植物認識システム
JP5608511B2 (ja) * 2010-10-25 2014-10-15 日立オムロンターミナルソリューションズ株式会社 画像補正装置および画像補正方法
JP5887242B2 (ja) * 2012-09-28 2016-03-16 日立オムロンターミナルソリューションズ株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001291056A (ja) * 2000-04-05 2001-10-19 Fujitsu Ltd 文書画像認識装置及び記録媒体
JP2010067223A (ja) * 2008-09-12 2010-03-25 Canon Inc 画像処理装置、画像処理方法、及び、画像処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
vol. j83-d-II, no. 5, 2000, pages 1294 - 1304 *

Also Published As

Publication number Publication date
JP2018132953A (ja) 2018-08-23
JP6294524B1 (ja) 2018-03-14

Similar Documents

Publication Publication Date Title
JP4764231B2 (ja) 画像処理装置、制御方法、コンピュータプログラム
US6865290B2 (en) Method and apparatus for recognizing document image by use of color information
US9524028B2 (en) Visual language for human computer interfaces
CN112614060A (zh) 人脸图像头发渲染方法、装置、电子设备和介质
US12277688B2 (en) Multi-task text inpainting of digital images
KR100422709B1 (ko) 영상 의존적인 얼굴 영역 추출방법
EP2645332B1 (en) Image processing device that separates image into plural regions
JP2003228712A (ja) イメージからテキスト状のピクセルを識別する方法
JP6294524B1 (ja) 画像処理方法、及びコンピュータプログラム
CN116630984A (zh) 一种基于印章去除的ocr文字识别方法及系统
CN112906819A (zh) 图像识别方法、装置、设备及存储介质
JP6671613B2 (ja) 文字認識方法及びコンピュータプログラム
JP2004199622A (ja) 画像処理装置、画像処理方法、記録媒体およびプログラム
JP3636936B2 (ja) 濃淡画像の2値化方法および濃淡画像の2値化プログラムを記録した記録媒体
JP4370950B2 (ja) 画像処理装置
CN111062862A (zh) 基于颜色的数据增强方法和系统及计算机设备和存储介质
US8295602B2 (en) Image processing apparatus and image processing method
CN112927321B (zh) 基于神经网络的图像智能设计方法、装置、设备及存储介质
JP2005210650A (ja) 画像処理装置
Papamarkou et al. Conversion of color documents to grayscale
JP4228905B2 (ja) 画像処理装置及びプログラム
JPH08123901A (ja) 文字抽出装置及び該装置を用いた文字認識装置
KR20050014072A (ko) 색분포 학습을 통한 얼굴영역 추출 방법
JP2005269269A (ja) 画像処理装置
KR102343562B1 (ko) 스케치 기반의 캐릭터를 가상환경의 활동 캐릭터로 생성하기 위한 스케치 기반의 활동캐릭터 생성 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18753780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18753780

Country of ref document: EP

Kind code of ref document: A1