[go: up one dir, main page]

WO2010032298A1 - 画像処理装置、画像処理方法および画像処理プログラム - Google Patents

画像処理装置、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
WO2010032298A1
WO2010032298A1 PCT/JP2008/066791 JP2008066791W WO2010032298A1 WO 2010032298 A1 WO2010032298 A1 WO 2010032298A1 JP 2008066791 W JP2008066791 W JP 2008066791W WO 2010032298 A1 WO2010032298 A1 WO 2010032298A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
image
area
face image
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2008/066791
Other languages
English (en)
French (fr)
Inventor
悟 牛嶋
雅芳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to PCT/JP2008/066791 priority Critical patent/WO2010032298A1/ja
Priority to JP2010529530A priority patent/JP4947216B2/ja
Publication of WO2010032298A1 publication Critical patent/WO2010032298A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Definitions

  • the present invention relates to an image processing apparatus, an image processing method, and an image processing program for detecting an object from image data.
  • an image property model is extracted from the area where the face image exists, and the extracted image property model is used.
  • a technique for improving the accuracy of object detection by detecting a face image of a subsequent frame is also known (see, for example, Patent Document 1).
  • image information is quantized based on the frequency conversion (wavelet ⁇ Wavelet> conversion) of image data and converting the conversion coefficient resulting from the conversion (or the difference in pixel value between adjacent pixels) to quantum.
  • There is a technique for performing a digitization process see, for example, Non-Patent Document 1).
  • the criteria for determining whether or not the image is a facial image has a large number of criteria, so various face images are detected.
  • the present invention has been made to solve the above-described problems caused by the prior art, and an object thereof is to provide an image processing apparatus, an image processing method, and an image processing program capable of preventing erroneous detection of an object. To do.
  • the image processing apparatus includes a storage unit that stores dictionary data having facial image characteristics, an input unit that receives input of a moving image, and the moving image.
  • a face image indicating a region including a feature of a face image from the processing target frame based on the image data and the dictionary data included in the processing target frame, with one frame being a processing target frame among a plurality of frames.
  • An extraction means for extracting a candidate area; and when the plurality of face image candidate areas are extracted from the first area in the processing target frame by the extraction means, the first area is converted into a face image.
  • determining means for determining that the area is included.
  • the first region is determined to be a region including a face image.
  • the face image can be accurately extracted, and erroneous detection of the face image can be prevented.
  • FIG. 1 is a diagram for explaining the outline and features of the image processing apparatus according to the present embodiment.
  • FIG. 2 is a diagram for explaining a face detection method based on successive frames.
  • FIG. 3 is a functional block diagram of the configuration of the image processing apparatus according to the present embodiment.
  • FIG. 4 is a diagram illustrating an example of the data structure of the face learning data.
  • FIG. 5 is a diagram illustrating an example of the data structure of non-face learning data.
  • FIG. 6 is a diagram illustrating an example of a data structure of comparison target data.
  • FIG. 7 is a diagram for explaining an example of processing of the face detection processing unit.
  • FIG. 8 is a diagram illustrating an example of the data structure of the actual detection result management table.
  • FIG. 9 is a diagram for explaining how the detection range moves.
  • FIG. 9 is a diagram for explaining how the detection range moves.
  • FIG. 10 is a flowchart of the process procedure of the image processing apparatus according to the present embodiment.
  • FIG. 11 is a flowchart illustrating a processing procedure of detection result aggregation processing.
  • FIG. 12 is a flowchart (1) showing the processing procedure of the overlap determination processing.
  • FIG. 13 is a flowchart (2) illustrating the processing procedure of the overlap determination processing.
  • FIG. 14 is a flowchart showing the processing procedure of the first overlapping area processing.
  • FIG. 15 is a flowchart illustrating a processing procedure of the second overlapping area processing.
  • FIG. 16 is a diagram illustrating a hardware configuration of a computer constituting the image processing apparatus according to the present embodiment.
  • FIG. 1 is a diagram for explaining the outline and features of the image processing apparatus according to the present embodiment.
  • the image processing apparatus according to the present embodiment first learns the features of the face to be detected and creates learning data, and compares the learning data with the input image data for each predetermined detection area, thereby Extract regions that may contain.
  • an area that may contain a face is referred to as a face candidate area.
  • the image processing apparatus determines whether or not a face image is included in the input image data based on whether or not a plurality of face candidate regions are extracted for a predetermined region. For example, as shown on the left side of FIG. 1, when there are a plurality of face candidate areas in a predetermined area, an area where the plurality of face candidate areas are concentrated is determined as a face image. On the other hand, as shown on the right side of FIG. 1, when a plurality of face candidate areas are not included in the predetermined area, that is, when a single face candidate area is included, a single face candidate is included. It is determined that the face image is not included in the area where the area exists.
  • the cutout region when the cutout region is changed while gradually shifting the vicinity of the face image, if the cutout region includes facial features such as eyes, nose, and mouth, the cutout region is detected as a face image. . Therefore, as shown on the left side of FIG. 1, since each face is detected as a face in each cut-out area set by being shifted little by little, a plurality of areas on the face image are detected as face candidate areas.
  • a subject that is not a real face, such as a flower may momentarily have features in the part corresponding to the eyes, nose, or mouth of the face image due to external light during shooting. is there.
  • the image processing apparatus extracts a face image depending on whether or not there are a plurality of face candidate areas in a predetermined area. Detection can be prevented. Further, such an image processing apparatus can prevent erroneous detection by a single frame without referring to a plurality of frames.
  • the image processing apparatus detects a face candidate area for each successive frame of the moving image, and based on the positional relationship between the face candidate areas detected in the preceding and succeeding frames, the face image is input to the input image data. Determine whether data is included.
  • FIG. 2 is a diagram for explaining a face detection method based on successive frames.
  • the image processing apparatus extracts the face candidate areas A and B in the frame 1, the position of the face candidate area detected in the subsequent frame 2, and the face candidate A extracted in the frame 1. , B on the basis of the position of the face image.
  • face candidate area C is detected, and face candidate area C exists in the vicinity of face candidate area A (in the vicinity of the position corresponding to face candidate area A detected in frame 1). If it is, the face candidate area C is determined to be a face image.
  • a face candidate area located in the vicinity of the face candidate area B is not detected in the frame 2
  • face candidate areas are continuously extracted for the actual face, and face candidate areas are intermittently extracted for objects other than the face (for example, flowers). Therefore, as described above, it is possible to determine whether or not a face image is accurately included by determining whether or not the face is based on the positional relationship between the face candidate regions that are continuously extracted. .
  • the image processing apparatus extracts the face image from the positional relationship between the face candidate regions existing between the previous and next frames. Therefore, the face image can be accurately extracted, and erroneous detection of the face image can be performed. Can be prevented.
  • FIG. 3 is a functional block diagram of the configuration of the image processing apparatus according to the present embodiment.
  • the image processing apparatus 100 includes a conversion processing unit 110, an analysis processing unit 120, a storage unit 130, and a face detection processing unit 140.
  • the conversion processing unit 110 is a processing unit that acquires face image collection data and non-face image collection data, and performs frequency conversion processing (for example, wavelet conversion) on the acquired face image collection data and non-face image collection data. is there.
  • the frequency conversion process for the image data is the same as the known technique.
  • the face image collection data is image data obtained by collecting face images of various persons, and is an image group in which a face is captured on the entire surface with a vertical width substantially including the head from the chin and a horizontal width substantially including both ears. It is configured.
  • Non-face image collection data is image data obtained by collecting various images other than face images.
  • the conversion processing unit 110 acquires face image collection data and non-face image collection data from an input device, a storage device (not shown), or the like.
  • the conversion processing unit 110 outputs the face image collection data and non-face image collection data subjected to frequency conversion to the analysis processing unit 120.
  • frequency-converted face image collection data is referred to as converted face image collection data
  • frequency-converted non-face image collection data is referred to as converted non-face image collection data.
  • the analysis processing unit 120 creates face learning data based on the converted image collection data, and generates non-face based on the converted non-face image collection data. It is a processing unit that creates face learning data.
  • the analysis processing unit 120 extracts single image data from the image data included in the converted face image collection data. Then, the analysis processing unit 120 quantizes the corresponding transform coefficient value by comparing each transform coefficient with a quantization threshold. It is assumed that the quantization threshold is set in the analysis processing unit 120 in advance.
  • the analysis processing unit 120 also quantizes the remaining image data included in the converted face image collection data by the above method. Then, the analysis processing unit 120 compares the transform coefficient values of the quantized image data (transform coefficient values corresponding to the same position of the image data), and determines the face learning data based on the frequency of the transform coefficient values. create. For example, when each image data is compared with respect to the conversion coefficient value at the position (x1, y1) in the image data, it is more than the frequency of other conversion coefficient values (for example, conversion coefficient values “0”, “2”, etc.). When the frequency of the conversion coefficient value “1” is larger, the conversion coefficient value at the position (x1, y1) in the face learning data is set to “1”.
  • FIG. 4 is a diagram showing an example of the data structure of face learning data.
  • the face learning data stores position information and conversion coefficient values in association with each other.
  • the data structure of the face learning data is not limited to that shown in FIG. 4.
  • conversion coefficient values may be stored in association with each block of conversion coefficients (for example, 8 coefficients) to be compared at the time of object detection. good.
  • the analysis processing unit 120 extracts single image data from the image data included in the converted non-face image collection data. Then, the analysis processing unit 120 quantizes the pixel value of the corresponding block by comparing each transform coefficient with a quantization threshold.
  • the analysis processing unit 120 also quantizes the remaining image data included in the converted non-face image collection data by the above method. Then, the analysis processing unit 120 compares the pixel values of the quantized image data (pixel values corresponding to the same position of the image data), and creates non-face learning data based on the frequency of the pixel values. For example, when the pixel values at the position (x1, y1) in the image data are compared with each other and the frequency of the pixel value “1” is greater than the frequency of the other pixel values, The pixel value at the position (x1, y1) in the learning data is set to “1”.
  • FIG. 5 is a diagram showing an example of the data structure of non-face learning data.
  • the non-face learning data stores position information and coefficient values in association with each other.
  • coefficient values may be stored in association with each block of transform coefficients (eg, 8 coefficients) to be compared at the time of object detection. good.
  • the storage unit 130 is a storage unit that stores the face learning data 130a, the non-face learning data 130b output from the analysis processing unit 120, the comparison target data 130c output from the face detection processing unit 140, and the actual detection result management table 130d. is there. Among these, the comparison target data 130c and the actual detection result management table 130d will be described later.
  • the face detection processing unit 140 is a processing unit that detects a face image from image data included in each frame of the acquired moving image when the moving image data is acquired.
  • the face detection processing unit 140 outputs the detection result to a higher-level device (not shown).
  • a higher-level device not shown.
  • the face detection processing unit 140 extracts a single frame from the moving image data, and executes frequency conversion processing (for example, wavelet conversion) on the extracted frame image data. Then, after performing the frequency conversion, the face detection processing unit 140 quantizes the image data subjected to the frequency conversion, thereby creating the comparison target data 130c.
  • frequency conversion processing for example, wavelet conversion
  • the face detection processing unit 140 quantizes the pixel value of the corresponding block by comparing each transform coefficient with a quantization threshold. Next, sequentially, a rectangular size having the same size as the dictionary is cut out from the quantization result, and comparison target data 130c is created.
  • the input image since only a face having a certain size can be detected, the input image may be reduced in advance and a detection process may be performed on images of a plurality of sizes. If detection is performed on the reduced image, a face image of a large size is actually detected.
  • FIG. 6 is a diagram illustrating an example of the data structure of the comparison target data 130c.
  • the comparison target data 130 c stores position coordinates and coefficient values in association with each other.
  • the data structure of the comparison target data 130c is not limited to that shown in FIG. 6, and may be stored in association with the number of pixels for each block (for example, 8 coefficients) of conversion coefficients to be compared at the time of object detection. good.
  • the face detection processing unit 140 compares the face learning data 130a stored in the storage unit 130, the non-face learning data 130b, and the comparison target data 130c, and extracts face candidate regions.
  • FIG. 7 is a diagram for explaining an example of processing of the face detection processing unit 140.
  • the face detection unit 140 sets a detection range, and compares the pixel values of each block included in the detection range at the same position in the face learning data 130a, the non-face learning data 130b, and the comparison target data 130c.
  • the face detection processing unit 140 determines whether the detection range of the comparison target data is similar to the face learning data or similar to the non-face learning data.
  • the comparison target data 130c has 8 hits with respect to the face learning data 130a and one hit with respect to the non-face learning data. It is determined that the face learning data 130a is similar.
  • FIG. 9 is a diagram for explaining how the detection range moves.
  • the actual detection result management table 130d is a table for managing face candidate area information.
  • FIG. 8 is a diagram showing an example of the data structure of the actual detection result management table 130d.
  • the actual detection result management table 130d stores face candidate area identification numbers, frame identification numbers, GID (Group Identification), coordinates, and coordinate averages in association with each other.
  • GID Group Identification
  • the face candidate area identification number is a number for identifying each face candidate area extracted by the face detection processing unit 140.
  • the frame identification number is a number for identifying each frame included in the moving image.
  • GID is information for identifying each face candidate area to be aggregated.
  • the face candidate areas having the face candidate area identification numbers “1 to 3” are collected into the same group with the GID “1”. A method of collecting each face candidate area will be described later.
  • the initial value of GID is set to 0.
  • the coordinates are the coordinates of the face candidate area.
  • the coordinates (X1, Y1) of the upper left corner of the face candidate area and the coordinates (X2, Y2) of the lower right corner of the face candidate area are stored.
  • the coordinate average is an average value of coordinates of each face candidate region belonging to the same GID.
  • the face detection processing unit 140 extracts a face candidate area while cutting out a rectangular area from the conversion coefficient, and registers a face candidate area identification number, a frame identification number, and coordinates in the actual detection result management table 130.
  • the face detection processing unit 140 compares the pixel values in the detection range, the positions of the detection ranges arranged on the face learning data 130a, the non-face learning data 130b, and the comparison target data 130c are unified. It shall be.
  • the face detection processing unit 140 extracts face candidate areas from the comparison target data 130c, then refers to the actual detection result management table 130d, compares the face candidate areas, and aggregates the face candidate areas.
  • the face candidate area A and the face candidate area B are compared will be described.
  • R be the overlapping region of the face candidate region A and the face candidate region B.
  • the coordinates of the face candidate area A are expressed as (A.X1, A.Y1), (A.X2, A.Y2).
  • the coordinates of the face candidate area B are expressed as (B.X1, B.Y1), (B.X2, B.Y2).
  • the coordinates of the overlapping region R are expressed as (B.X1, B.Y1), (B.X2, B.Y2).
  • the face detection processing unit 140 sets the same value as that of the face candidate region B as the initial value of the coordinates of the overlapping region R.
  • the face detection processing unit 140 Width of face candidate area A / width of face candidate area B ⁇ threshold When at least one of the GID of the face candidate area A or the GID of the face candidate area B is 0, the face candidate areas A and B are targeted for aggregation.
  • the face detection processing unit 140 excludes the face candidate areas A and B from the aggregation targets.
  • the face detection processing unit 140 determines the coordinates (A.X1, A.Y1), (A.X2, A.Y2) of the face candidate areas. Then, based on the coordinates of the face candidate area B (B.X1, B.Y1) and (B.X2, B.Y2), the overlapping area is extracted.
  • the face detection processing unit 140 compares the coordinates of the face candidate area A with the coordinates of the face candidate area B, Y1 is B.I. Y1 and B.I. Y2. X1 is B.I. X1 and B.I. If it exists between X2, it is determined that the upper left of the face candidate area A overlaps with the face candidate area B; R. of the overlapping region R. X1 includes A.I. Substituting X1, R. of the overlapping region R. A. Y. By substituting Y1, each coordinate of the overlapping region R is obtained.
  • the face detection processing unit 140 compares the coordinates of the face candidate area A with the coordinates of the face candidate area B, Y1 is B.I. Y1 and B.I. Y2. X2 is B.I. X1 and B.I. If it exists during X2, it is determined that the upper right of the face candidate area A overlaps with the face candidate area B, R. of the overlapping region R. X2. Substituting X2, R. of the overlapping region R. A. Y. By substituting Y1, each coordinate of the overlapping region R is obtained.
  • the face detection processing unit 140 compares the coordinates of the face candidate area A with the coordinates of the face candidate area B, Y2 is B.I. Y1 and B.I. Y2.
  • X1 is B.I. X1 and B.I. If it exists between X2, it is determined that the lower left of the face candidate area A overlaps with the face candidate area B; R. of the overlapping region R.
  • X1 includes A.I. Substituting X1, R. of the overlapping region R. Y2. By substituting Y2, each coordinate of the overlapping region R is obtained.
  • the face detection processing unit 140 compares the coordinates of the face candidate area A with the coordinates of the face candidate area B, Y2 is B.I. Y1 and B.I. Y2. X2 is B.I. X1 and B.I. If it exists between X2, it is determined that the lower right corner of the face candidate area A overlaps with the face candidate area B; R. of the overlapping region R. X2. Substituting X2, R. of the overlapping region R. Y2. By substituting Y2, each coordinate of the overlapping region R is obtained.
  • the face detection processing unit 140 calculates the area of the overlap region R / the area of the face candidate region A after performing the above overlap determination and extraction of the overlap region R. If the calculation result is equal to or greater than the threshold, the following rule The GIDs of the face candidate area A and the face candidate area B are determined according to the above.
  • the face detection processing unit 140 assigns a common number to the GID of the face candidate area A and the GID of the face candidate area B.
  • the face candidate areas A and B are collected.
  • the GID assigned to the GID of the face candidate area A and the GID of the face candidate area B is a number that does not overlap with other groups.
  • the non-zero GID is assigned to another GID.
  • the GID of the face candidate area A is 1 and the GID of the face candidate area B is 0, the GID of the face candidate area B is set to 1.
  • the face detection processing unit 140 extracts the next frame from the moving image data when the extraction of the face candidate regions and the aggregation of the face candidate regions are completed for the frame image extracted from the moving image data, and the processing described above. repeat.
  • the face detection processing unit 140 determines whether the face candidate area detected from the image data in the frame is a face area based on the actual detection result management table 130d. Specifically, the face detection processing unit 140 selects a corresponding face candidate area from the actual detection result management table 130d, and when another face candidate area belongs to the GID to which the selected face candidate area belongs ( When there are a plurality of face image areas in a predetermined area), the selected face candidate area is determined as a face image area, and the determination result is output.
  • the face candidate detection unit 140 determines whether or not the face candidate area is a face image based on the coordinates of the face candidate area of each successive frame.
  • the face candidate image detected in the first frame is set as the first face candidate area
  • the face candidate area detected in the second frame next to the first frame is set as the second face candidate area.
  • the face candidate detection unit 140 compares the coordinates of the first face candidate area with the coordinates of the second face candidate area, and determines that the second face candidate area is a face area when the distance between the coordinates is less than a threshold value. Judges and outputs the judgment result. Further, the face candidate detection unit 140 calculates a coordinate average by calculating an average value of the coordinates of each group, and registers the calculated coordinate average in the actual detection result management table 130d.
  • the face candidate detection unit 140 when the face candidate detection unit 140 extracts a face image by the above-described method, the face candidate detection unit 140 lowers the threshold value for determining that it is likely to be a face when extracting a face candidate region around the face image of the next frame. Also good.
  • the face candidate detection unit 140 sets a detection range in the area where the face image is extracted in the previous frame, and compares the comparison target data 130c, the face learning data 130a, and the non-face learning data 130b as shown in FIG.
  • a predetermined value may be added to the number of hits of each face learning data 130a and comparison target data 130c to facilitate detection of the face candidate area.
  • FIG. 10 is a flowchart illustrating the processing procedure of the image processing apparatus 100 according to the present embodiment.
  • the image processing apparatus 100 scans input image data (step S101), and executes detection result aggregation processing (step S102).
  • the image processing apparatus 100 stores the actual detection result (step S103), takes out one actual detection result (step S104), and overlaps coordinates in the previous actual detection result (or the distance of each coordinate is less than the threshold value). Is determined (step S105).
  • step S106 If there is an overlapping coordinate in the previous actual detection result (step S106, Yes), the image processing apparatus 100 determines that the area corresponding to the actual detection result is a face area (step S107). The process proceeds to S110.
  • the image processing apparatus 100 determines whether a plurality of face candidate areas are dense (step S106). S108).
  • step S109 When a plurality of face candidate areas are densely packed (step S109, Yes). On the other hand, when a plurality of face candidate areas are not dense (step S109, No), it is determined whether or not there is a remaining actual detection result (step S110).
  • step S111 The image processing apparatus 100 proceeds to step S104 when there is a remaining actual detection result (step S111, Yes). On the other hand, if there is no remaining actual detection result (No at step S111), the process is terminated.
  • FIG. 11 is a flowchart illustrating a processing procedure of detection result aggregation processing.
  • the image processing apparatus 100 initializes GID to 0 (step S201), initializes MaxGID to 0 (step S202), and sets ii to 0 (step S203).
  • the image processing apparatus 100 determines whether ii + 1 is smaller than N (step S204).
  • N the number of face candidate regions obtained as a result of scanning the input image in step S101 of FIG. 10 is registered.
  • the image processing apparatus 100 sequentially sets the value of MaxGID to GID while increasing MaxGID by 1 to the result of GID 0 in the actual detection result management table 130d. (Step S206). Then, the image processing apparatus 100 calculates a coordinate average for each group and outputs the result after aggregation (step S207).
  • step S205 if ii + 1 is smaller than N (step S205, Yes), the image processing apparatus 100 initializes jj to ii + 1 (step S208), and determines whether jj is smaller than N (step S209). ).
  • step S210 When the jj is not smaller than N (step S210, No), the image processing apparatus 100 adds 1 to ii (step S211), and proceeds to step S204. On the other hand, if jj is smaller than N (step S210, Yes), an overlap determination process is executed (step S212), jj is incremented by 1 (step S213), and the process proceeds to step S209.
  • step S212 of FIG. 11 are flowcharts showing the processing procedure of the overlap determination process.
  • the image processing apparatus 100 sets the smaller area of the face candidate area identification number [ii] and the face candidate identification number [jj] to A and the larger area to B (step S301), it is determined whether or not the width of A / the width of B is smaller than the threshold (step S302).
  • the image processing apparatus 100 ends the overlap determination process when the width of A / width of B is smaller than the threshold (Yes in step S303). On the other hand, if the A width / B width is equal to or greater than the threshold (No in step S303), it is determined whether both the A GID and the B GID are values other than 0 (step S304).
  • step S305 Yes
  • the image processing apparatus 100 ends the overlap determination process.
  • the GID of A and the GID of B are not values other than 0 (No in step S305)
  • the R.D. X1, R.I. Y1, R.I. X2, R.I. Y2 to B.I. X1, B.I. Y1, B.I. X2, B.I. Y2 is set (step S306).
  • Y1 is B.I. Y1 and B.I. It is determined whether or not it exists between Y2 (step S307), and if it exists (step S308, Yes), the first overlapping area process is executed (step S309), and the process proceeds to step S310.
  • the image processing apparatus 100 includes A. Y1 is B.I. Y1 and B.I. If it does not exist during Y2 (No at Step S308), the process proceeds to Step S310.
  • the image processing apparatus 100 includes A.
  • Y2 is B.I. Y1 and B.I. It is determined whether or not it exists between Y2 (step S310), and if it exists (step S311, Yes), the second overlapping region process is executed (step S312), and the area / A of the overlapping region R is determined. It is determined whether or not the area is equal to or greater than a threshold (step S313).
  • the image processing apparatus 100 ends the overlap determination process when the area of the overlapping region R / the area of A is less than the threshold (No in step S314). On the other hand, if it is equal to or greater than the threshold value (step S314, Yes), it is determined whether both the GID of A and the GID of B are 0 (step S315).
  • step S316, No the image processing apparatus 100 substitutes the value of the non-zero GID into the other GID (step S317), and determines overlap. End the process.
  • step S316 when both the GID of A and the GID of B are 0 (step S316, Yes), the image processing apparatus 100 adds 1 to MAXGID (step S318), and sets MAXGID to the GID of A and the GID of B. (Step S319), and the overlap determination process ends.
  • FIG. 14 is a flowchart showing the processing procedure of the first overlapping area processing.
  • X1 is B.I. X1 and B.I. X2 is determined (step S401). If it exists (step S402, Yes), A.X. X1 is R.I. X. Y1 is changed to R.I. Substitute for Y1 (step S403). If it does not exist (step S402), the process proceeds to step S404.
  • step S404 the image processing apparatus 100 is connected to the A.D. X2 is B.I. X1 and B.I. X2 is determined (step S404). If it exists (step S405, Yes), A.X. X2 to R.I. X. Y1 is changed to R.I. Substituting for Y1 (step S406), the first overlapping area process is terminated. If it does not exist (step S405, No), the first overlapping area process is terminated.
  • FIG. 15 is a flowchart illustrating a processing procedure of the second overlapping area processing.
  • X1 is B.I. X1 and B.I. X2 is determined (step S501). If it exists (step S502, Yes), A.X. X1 is R.I. X. Y2 to R.I. Substitute for Y2 (step S503). When it does not exist (step S502, No), the process proceeds to step S504.
  • step S504 the image processing apparatus 100 is connected to the A.D. X2 is B.I. X1 and B.I. X2 is determined (step S504). If it exists (step S505, Yes), A.X. X2 to R.I. X. Y2 to R.I. Substituting for Y2 (step S506), the second overlapping area process is terminated. If it does not exist (step S505, No), the second overlapping area process is terminated.
  • the image processing apparatus 100 determines whether a plurality of face candidate areas exist in a predetermined area (whether another face candidate area belongs to the GID to which the face candidate area belongs). )), The face image is extracted, so that the face image can be accurately extracted and erroneous detection of the face image can be prevented. Further, such an image processing apparatus can prevent erroneous detection by a single frame without referring to a plurality of frames.
  • the image processing apparatus 100 extracts the face image from the positional relationship between the face candidate areas existing between the previous and next frames, so that the face image can be extracted accurately and the face image is not erroneously detected. can do.
  • the process of detecting the face candidate area has been described in detail, but the process of detecting the face candidate area is not limited to this method.
  • the candidate area may be set using [Non-Patent Document 1] H. Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision, 2002.
  • each component of the image processing apparatus 100 shown in FIG. 3 is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the various processing procedures described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation.
  • FIG. 16 is a diagram illustrating a hardware configuration of a computer constituting the image processing apparatus 100 (image processing apparatus 200) according to the present embodiment.
  • this computer (image processing device) 30 communicates with other devices via an input device 31, a monitor 32, a RAM (Random Access Memory) 33, a ROM (Read Only Memory) 34, and a network.
  • a communication control device 35, a medium reading device 36 that reads data from a storage medium, a camera 37, a CPU (Central Processing Unit) 38, and an HDD (Hard Disk Drive) 39 are connected by a bus 40.
  • the HDD 39 stores an image processing program 39b that exhibits the same function as that of the image processing apparatus 100 described above.
  • the image processing process 38a is activated.
  • the image processing process 38a corresponds to the conversion processing unit 110, the analysis processing unit 120, and the face detection processing unit 140 of FIG.
  • the HDD 39 also stores various data 39a corresponding to information stored in the storage unit 130 of the image processing apparatus 100.
  • the CPU 38 reads various data 39 a stored in the HDD 39, stores it in the RAM 33, and detects a face image using the various data 33 a stored in the RAM 33.
  • the image processing program 39b shown in FIG. 16 is not necessarily stored in the HDD 39 from the beginning.
  • a “portable physical medium” such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into a computer, or a hard disk drive (HDD) provided inside or outside the computer.
  • the image processing program 39b is stored in the “fixed physical medium” of “the computer”, and “another computer (or server)” connected to the computer via the public line, the Internet, LAN, WAN, etc.
  • the computer may read and execute the image processing program 39b from these.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

 本発明にかかる画像処理装置(100)は、検出対象となる顔の特徴を学習して学習データを作成し、所定の検出領域毎に、学習データと入力画像データとを比較することで、顔が含まれている可能性がある領域を抽出する。そして、画像処理装置(100)は、顔候補領域が所定の領域に複数存在しているか否か(顔候補領域が属するGIDに他の顔候補領域が属しているか否か)によって、顔画像を抽出することで、顔画像の誤検出を防止する。

Description

画像処理装置、画像処理方法および画像処理プログラム
 本発明は、画像データから物体を検出する画像処理装置、画像処理方法および画像処理プログラムに関するものである。
 近年、カメラ等によって撮影された画像中から、各種の物体(例えば、人物の顔、車等)を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。
 ここで、検出対象となる実際の画像データ中には顔全体がはっきりと映った画像も存在すれば、少しぼやけた顔や、一部何かに隠れた顔の画像が存在している。このような各種の画像から顔の存在有無を判定するためには、様々な顔画像を想定して学習データを作成する手法や、顔らしさを判定する閾値を下げる方法等が存在する。
 また、動画像から物体を検出する際に、先行するフレームの画像中に顔画像が存在すると判定した場合に、顔画像の存在する領域から画像プロパティモデルを抽出し、抽出した画像プロパティモデルを利用して後続フレームの顔画像を検出することで、物体検出の精度を向上させるという技術も知られている(例えば、特許文献1参照)。
 また、画像情報の量子化技術には、画像データを周波数変換(ウェーブレット<Wavelet>変換)し、変換結果となる変換係数の大小(または、隣り合う画素同士の画素値の差分の大小)から量子化処理を行う技術がある(例えば、非特許文献1参照)。
特開2004-192637号公報 H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.
 しかしながら、上述した従来の技術では、物体の誤検出を防止することができないという問題があった。
 例えば、様々な顔画像を想定した学習データを作成する手法、または、顔らしさを判定する閾値を下げる手法では、顔画像であるか否かの判定基準があまくなるため、様々な顔画像を検出することができる反面、顔画像に類似した顔画像ではない画像(例えば、花の画像)を検出してしまう可能性があった。
 また、先行するフレームの顔画像の領域から画像プロパティモデルを抽出し、当該画像プロパティモデルを利用して、後続フレームの顔画像を検出する手法も存在するが、かかる物体検出では、先行するフレームから顔画像を検出した後でないと、顔画像であるか否かを精度よく判定することが出来ないという問題点がある。
 この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体の誤検出を防止することができる画像処理装置、画像処理方法および画像処理プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するため、この画像処理装置は、顔画像の特徴を有する辞書データを記憶する記憶手段と、動画像の入力を受け付ける入力手段と、前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手段と、前記抽出手段により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手段と、を有することを要件とする。
 この画像処理装置によれば、処理対象フレーム内の第一領域に対して複数個の顔画像候補領域が抽出された場合に、第一領域を、顔画像を含む領域であると判定するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。
図1は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。 図2は、連続するフレームに基づいて顔検出方法を説明するための図である。 図3は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。 図4は、顔学習データのデータ構造の一例を示す図である。 図5は、非顔学習データのデータ構造の一例を示す図である。 図6は、比較対象データのデータ構造の一例を示す図である。 図7は、顔検出処理部の処理の一例を説明するための図である。 図8は、実検出結果管理テーブルのデータ構造の一例を示す図である。 図9は、検出範囲の移動の様子を説明するための図である。 図10は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。 図11は、検出結果集約処理の処理手順を示すフローチャートである。 図12は、重なり判定処理の処理手順を示すフローチャート(1)である。 図13は、重なり判定処理の処理手順を示すフローチャート(2)である。 図14は、第1の重なり領域処理の処理手順を示すフローチャートである。 図15は、第2の重なり領域処理の処理手順を示すフローチャートである。 図16は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。
符号の説明
 30  コンピュータ
 31  入力装置
 32  モニタ
 33  RAM
 33a、39a 各種データ
 34  ROM
 35  通信制御装置
 36  媒体読取装置
 37  カメラ
 38  CPU
 38a 画像処理プロセス
 39  HDD
 39b 画像処理プログラム
100  画像処理装置
110  変換処理部
120  分析処理部
130  記憶部
130a 顔学習データ
130b 非顔学習データ
130c 比較対象データ
130d 実検出結果管理テーブル
140  顔検出処理部
 以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下の実施例では、検出対象の一例として顔画像を検出する場合について説明するが、これに限定されるものではなく、その他の画像、例えば、車の画像を検出しても良い。
 まず、本実施例にかかる画像処理装置の概要および特徴について説明する。図1は、本実施例にかかる画像処理装置の概要および特徴を説明するための図である。本実施例にかかる画像処理装置は、まず、検出対象となる顔の特徴を学習して学習データを作成し、所定の検出領域毎に、学習データと入力画像データとを比較することで、顔が含まれている可能性がある領域を抽出する。以下の説明において、顔が含まれている可能性のある領域を顔候補領域と表記する。
 そして、本実施例にかかる画像処理装置は、所定の領域に対して、複数の顔候補領域が抽出されたか否かによって、入力画像データに顔画像が含まれているか否かを判定する。例えば、図1の左側に示すように、所定の領域内に複数の顔候補領域が存在する場合には、複数の顔候補領域が密集している領域を顔画像として判定する。一方、図1の右側に示すように、所定の領域内に複数の顔候補領域が含まれていない場合、すなわち、単一の顔候補領域が含まれている場合には、単一の顔候補領域が存在する領域に顔画像が含まれていないと判定する。
 顔画像を含んだフレームに対して顔画像を検出する処理を行う場合には、フレームの中にどのような大きさの顔が含まれているかはわからないので、該フレーム内で、顔検出対象とする領域を切出しながら、検出処理を行う。切出す領域は、複数種類の大きさに変化させて、また、フレーム内で切り出し位置を少しずつずらしながらフレーム内で領域を設定することになる。顔画像に対して、学習データを用いた物体検出を実行すると、顔画像上の複数の領域が顔候補領域として検出される傾向が強く、顔画像以外の画像(例えば、花の画像)に対して物体検出を実行すると、単一の領域が顔候補領域として検出される傾向が強いので、上記の手法によって顔画像を正確に抽出することができる。
 例えば、顔画像付近を少しずつずらしながら切り出し領域を変化させると、切り出し領域内に目や鼻、口といった顔としての特徴が含まれていれば、その切り出し領域を顔画像として検出することになる。従って、図1の左側に示すように、少しずつずらして設定した各切り出し領域で、それぞれ顔として検出するので、顔画像上の複数の領域が顔候補領域として検出される。これに対して、例えば花などの本当は顔ではない被写体は、たまたま撮影時の外光の関係等で瞬間的に、顔画像の目や鼻、口に相当する部分に特徴が生じてしまう場合がある。このような本当は顔ではない画像付近を少しずつずらしながら切り出し領域を変化させると、たまたま特徴が生じてしまった領域でのみ顔画像であると検出し、少しでも切り出し領域をずらすと、そのような特徴が得られずに、顔画像とは検出しない場合が多い。従って、図1の右側に示すように、単一の領域が顔候補領域として検出される傾向が強い。
 このように、本実施例にかかる画像処理装置は、顔候補領域が所定の領域に複数存在しているか否かによって、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。また、かかる画像処理装置は、複数のフレームを参照することなく、単一のフレームによって誤検出を防止することができる。
 また、本実施例にかかる画像処理装置は、動画像の連続するフレーム毎に顔候補領域を検出し、前後のフレームで検出された顔候補領域の位置関係に基づいて、入力画像データに顔画像データが含まれているか否かを判定する。図2は、連続するフレームに基づいて顔検出方法を説明するための図である。
 図2に示すように、画像処理装置は、フレーム1にて顔候補領域A,Bを抽出し、続くフレーム2にて検出される顔候補領域の位置と、フレーム1にて抽出した顔候補A,Bの位置とを基にして、顔画像を判定する。
 例えば、フレーム2に示すように、顔候補領域Cが検出され、顔候補領域Aの近傍(フレーム1にて検出した顔候補領域Aに対応する位置の近傍)に顔候補領域Cが存在している場合には、顔候補領域Cを顔画像であると判定する。
 一方、フレーム2にて、顔候補領域Bの近傍に位置する顔候補領域が検出されなかった場合には、顔候補領域Bは、顔画像でないと判定する。顔を動画像で撮影している場合には、実際の顔に対して顔候補領域が抽出され続け、顔以外のもの(例えば、花)に対しては、断続的に顔候補領域が抽出されるため、上記のように、連続して抽出される顔候補領域の位置関係から顔か否かを判定することで、正確に顔画像が含まれているか否かの判定を実行することができる。
 このように、本実施例にかかる画像処理装置は、前後のフレーム間に存在する顔候補領域の位置関係から、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。
 次に、本実施例にかかる画像処理装置の構成について説明する。図3は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。図3に示すように、この画像処理装置100は、変換処理部110と、分析処理部120と、記憶部130と、顔検出処理部140とを有する。
 変換処理部110は、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。ここで、顔画像集データは、様々な人物の顔画像を集めた画像データであり、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。
 変換処理部110は、入力装置、記憶装置(図示略)等から顔画像集データおよび非顔画像集データを取得する。変換処理部110は、周波数変換した顔画像集データおよび非顔画像集データを分析処理部120に出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。
 分析処理部120は、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。
 まず、分析処理部120が、顔学習データを作成する処理について説明する。分析処理部120は、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部120は、各変換係数と、量子化閾値とを比較することにより、該当変換係数値を量子化する。量子化閾値は、予め、分析処理部120に設定されているものとする。
 同様に、分析処理部120は、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120は、量子化した各画像データの各変換係数値(各画像データの同一位置に対応する変換係数値)を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の変換係数値について、各画像データを比較したところ、他の変換係数値(例えば、変換係数値「0」、「2」等)の頻度よりも変換係数値「1」の頻度のほうが大きい場合には、顔学習データ中の位置(x1、y1)の変換係数値を「1」に設定する。
 図4は、顔学習データのデータ構造の一例を示す図である。図4に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図4に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8係数)毎に変換係数値を対応付けて記憶させても良い。
 次に、分析処理部120が、非顔学習データを作成する処理について説明する。分析処理部120は、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部120は、各変換係数と、量子化閾値とを比較することにより、該当ブロックの画素値を量子化する。
 同様に、分析処理部120は、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120は、量子化した各画像データの各画素値(各画像データの同一位置に対応する画素値)を比較し、画素値の頻度に基づいて非顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の画素値について、各画像データを比較したところ、他の画素値の頻度よりも、画素値「1」の頻度のほうが大きい場合には、非顔学習データ中の位置(x1、y1)の画素値を「1」に設定する。
 図5は、非顔学習データのデータ構造の一例を示す図である。図5に示すように、この非顔学習データは、位置情報と係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図5に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8係数)毎に係数値を対応付けて記憶させても良い。
 記憶部130は、分析処理部120から出力される顔学習データ130a、非顔学習データ130b、顔検出処理部140から出力される比較対象データ130c、実検出結果管理テーブル130dを記憶する記憶部である。このうち、比較対象データ130cおよび実検出結果管理テーブル130dの説明は後述する。
 顔検出処理部140は、動画像データを取得した場合に、取得した動画像の各フレームに含まれる画像データから顔画像を検出する処理部である。顔検出処理部140は、検出結果を上位の装置(図示略)に出力する。以下において、顔検出処理部140の処理を具体的に説明する。
 まず、顔検出処理部140は、動画像データから単一のフレームを抽出し、抽出したフレームの画像データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する。そして、顔検出処理部140は、周波数変換を行った後に、周波数変換を行った画像データを量子化することにより、比較対象データ130cを作成する。
 ここで、比較対象データ130cを作成する処理について具体的に説明する。顔検出処理部140は、各変換係数と、量子化閾値とを比較することにより、該当ブロックの画素値を量子化する。次に,順次,量子化結果から,辞書と同じサイズの矩形サイズを切り出し,比較対象データ130cを作成する。なお,前記方法では,一定サイズの顔しか検出できないため,予め入力画像を縮小して,複数サイズの画像に対して検出処理を行ってもよい。縮小した画像に対して検出を行えば,実質,大きなサイズの顔画像を検出したことになる。
 図6は、比較対象データ130cのデータ構造の一例を示す図である。図6に示すように、この比較対象データ130cは、位置座標と係数値とを対応付けて記憶している。なお、比較対象データ130cのデータ構造は、図6に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8係数)毎に画素数と対応付けて記憶させても良い。
 そして、顔検出処理部140は、記憶部130に記憶された顔学習データ130aと、非顔学習データ130bと、比較対象データ130cとを比較して、顔候補領域を抽出する。
 図7は、顔検出処理部140の処理の一例を説明するための図である。顔検出部140は、検出範囲を設定し、顔学習データ130a、非顔学習データ130b、比較対象データ130cの同一位置の検出範囲に含まれる各ブロックの画素値をそれぞれ比較する。
 そして、顔検出処理部140は、比較した結果、比較対象データの検出範囲が顔学習データに類似しているのか、非顔学習データに類似しているかを判定する。図7に示す例では、比較対象データ130cは、顔学習データ130aに対して、8つヒットし、非顔学習データに対して、1つヒットしているので、非顔学習データ130bよりも、顔学習データ130aに類似していると判定する。
 顔検出処理部140は、図9に示すように、各データ内の検出範囲を走査しながら全面に対してヒット率を判断のち,顔学習データ130aに類似していると判定した場合には、かかる矩形切り出し範囲を顔候補領域として抽出し、実検出結果管理テーブル130dに登録する。図9は、検出範囲の移動の様子を説明するための図である。実検出結果管理テーブル130dは、顔候補領域の情報を管理するテーブルである。
 図8は、実検出結果管理テーブル130dのデータ構造の一例を示す図である。図8に示すように、この実検出結果管理テーブル130dは、顔候補領域識別番号と、フレーム識別番号と、GID(Group Identification)と、座標と、座標平均とを対応付けて記憶している。
 このうち、顔候補領域識別番号は、顔検出処理部140によって抽出される各顔候補領域を識別する番号である。フレーム識別番号は、動画像に含まれる各フレームを識別するための番号である。
 GIDは、集約される各顔候補領域を識別するための情報である。図8に示す例では、顔候補領域識別番号「1~3」の顔候補領域が同一のGID「1」のグループに集約されている。各顔候補領域を集約する手法は後述する。GIDの初期値は0に設定される。
 座標は、顔候補領域の座標である。なお、本実施例では一例として、顔候補領域の左上角の座標(X1、Y1)と、顔候補領域の右下角の座標(X2、Y2)とを記憶している。座標平均は、同一のGIDに属する各顔候補領域の座標の平均値である。
 顔検出処理部140は、変換係数から矩形領域を切り出しながら顔候補領域を抽出し、実検出結果管理テーブル130に、顔候補領域識別番号、フレーム識別番号および、座標を登録する。なお、顔検出処理部140が、検出範囲内の各画素値を比較する際には、顔学習データ130a、非顔学習データ130b、比較対象データ130c上に配置される検出範囲の位置が統一されているものとする。
 顔検出処理部140は、比較対象データ130cから顔候補領域を抽出した後に、実検出結果管理テーブル130dを参照し、各顔候補領域を比較して、各顔候補領域を集約する。ここでは、説明の便宜上、顔候補領域Aと顔候補領域Bとを比較する場合について説明する。また、顔候補領域Aと顔候補領域Bとの重なり領域をRとする。
 また、以下の説明において、顔候補領域Aの座標を(A.X1、A.Y1)、(A.X2、A.Y2)と表記する。顔候補領域Bの座標を(B.X1、B.Y1)、(B.X2、B.Y2)と表記する。重なり領域Rの座標を(B.X1、B.Y1)、(B.X2、B.Y2)と表記する。なお、顔検出処理部140は、重なり領域Rの座標の初期値として、顔候補領域Bと同様の値を設定する。
(対象外の判別)
 顔検出処理部140は、
 顔候補領域Aの横幅/顔候補領域Bの横幅≧閾値
 かつ、
 少なくとも、顔候補領域AのGIDまたは顔候補領域BのGIDの一方が0である場合に、顔候補領域A,Bを集約の対象とする。
 それ以外の場合、すなわち、
 顔候補領域Aの横幅/顔候補領域Bの横幅<閾値
 または、
 顔候補領域A,BのGIDが共に0以外の数値である場合には、顔検出処理部140は、顔候補領域A,Bを集約の対象外とする。
(重なり判定および重なり領域Rの抽出)
 顔検出処理部140は、顔候補領域A,Bを集約の対象とするかどうか判断するために、顔候補領域の座標(A.X1、A.Y1)、(A.X2、A.Y2)と、顔候補領域Bの座標を(B.X1、B.Y1)、(B.X2、B.Y2)とを基にして、重なり領域を抽出する。
 具体的に、顔検出処理部140は、顔候補領域Aの座標と顔候補領域Bの座標とを比較して、A.Y1がB.Y1とB.Y2との間に存在し、更に、A.X1がB.X1とB.X2の間に存在している場合には、顔候補領域Aの左上が顔候補領域Bと重なっていると判定し、
重なり領域RのR.X1にA.X1を代入し、
重なり領域RのR.Y1にA.Y1を代入することで、重なり領域Rの各座標を求める。
 一方、顔検出処理部140は、顔候補領域Aの座標と顔候補領域Bの座標とを比較して、A.Y1がB.Y1とB.Y2との間に存在し、更に、A.X2がB.X1とB.X2の間に存在している場合には、顔候補領域Aの右上が顔候補領域Bと重なっていると判定し、
重なり領域RのR.X2にA.X2を代入し、
重なり領域RのR.Y1にA.Y1を代入することで、重なり領域Rの各座標を求める。
 一方、顔検出処理部140は、顔候補領域Aの座標と顔候補領域Bの座標とを比較して、A.Y2がB.Y1とB.Y2との間に存在し、更に、A.X1がB.X1とB.X2の間に存在している場合には、顔候補領域Aの左下が顔候補領域Bと重なっていると判定し、
重なり領域RのR.X1にA.X1を代入し、
重なり領域RのR.Y2にA.Y2を代入することで、重なり領域Rの各座標を求める。
 一方、顔検出処理部140は、顔候補領域Aの座標と顔候補領域Bの座標とを比較して、A.Y2がB.Y1とB.Y2との間に存在し、更に、A.X2がB.X1とB.X2の間に存在している場合には、顔候補領域Aの右下が顔候補領域Bと重なっていると判定し、
重なり領域RのR.X2にA.X2を代入し、
重なり領域RのR.Y2にA.Y2を代入することで、重なり領域Rの各座標を求める。
(GIDの割り当て)
 顔検出処理部140は、上記の重なり判定および重なり領域Rの抽出を行った後に、重なり領域Rの面積/顔候補領域Aの面積
を算出し、算出結果が閾値以上の場合に、下記の規則に従って顔候補領域Aおよび顔候補領域BのGIDを判定する。
 具体的には、顔検出処理部140は、顔候補領域Aおよび顔候領域BのGIDが0の場合には、顔候補領域AのGIDおよび顔候補領域BのGIDに共通の番号を割り振ることで、顔候補領域A,Bを集約する。ただし、顔候補領域AのGIDと顔候補領域BのGIDに割り振るGIDは、他のグループと重複しない番号にする。
 一方、顔候補領域Aまたは顔候補領域BのGIDの一方が0以外の場合には、0でないほうのGIDを他のGIDに割り振る。例えば、顔候補領域AのGIDが1で、顔候補領域BのGIDが0の場合には、顔候補領域BのGIDを1に設定する。
 顔検出処理部140は、動画像データから抽出したフレームの画像に対する顔候補領域の抽出および各顔候補領域の集約が終了した場合には、次のフレームを動画像データから抽出し、上述した処理を繰り返す。
(顔領域の判定)
 顔検出処理部140は、実検出結果管理テーブル130dに基づいて、フレーム中の画像データから検出した顔候補領域が顔領域であるか否かを判定する。具体的に、顔検出処理部140は、実検出結果管理テーブル130dから、該当する顔候補領域を選択し、選択した顔候補領域が属するGIDに他の顔候補領域が属している場合には(所定の領域に複数の顔画像領域が存在している場合には)、選択した顔候補領域を顔画像領域として判定し、判定結果を出力する。
 また、顔候補検出部140は、連続する各フレームの顔候補領域の座標に基づいて、顔候補領域が顔画像であるか否かを判定する。ここで、説明の便宜上、第1フレームで検出した顔候補画像を第1顔候補領域とし、第1フレームの次の第2フレームで検出した顔候補領域を第2顔候領域とする。
 顔候補検出部140は、第1顔候補領域の座標と、第2顔候補領域の座標とを比較し、各座標の距離が閾値未満の場合に、第2顔候補領域を顔領域であると判定し、判定結果を出力する。また、顔候補検出部140は、各グループの座標の平均値を算出することで、座標平均を算出し、算出した座標平均を実検出結果管理テーブル130dに登録する。
 ところで、顔候補検出部140は、上記の方法により顔画像を抽出した場合には、次のフレームの顔画像周辺に対して顔候補領域を抽出する際に、顔らしいと判定する閾値を下げてもよい。
 例えば、顔候補検出部140は、前フレームにて顔画像を抽出した領域に検出範囲を設定し、図7のごとく比較対象データ130c、顔学習データ130a、非顔学習データ130bを比較して、顔候補領域を検出する場合に、各顔学習データ130aと比較対象データ130cのヒット数に所定値を加えることで、顔候補領域を検出し易くしてもよい。
 次に、本実施例にかかる画像処理装置100の処理手順について説明する。図10は、本実施例にかかる画像処理装置100の処理手順を示すフローチャートである。図10に示すように、画像処理装置100は、入力画像データをスキャンし(ステップS101)、検出結果集約処理を実行する(ステップS102)。
 画像処理装置100は、実検出結果を保存し(ステップS103)、実検出結果を一つ取り出し(ステップS104)、前回の実検出結果の中に座標の重なるもの(あるいは各座標の距離が閾値未満のもの)が存在するか否かを判定する(ステップS105)。
 画像処理装置100は、前回の実検出結果の中に座標の重なるものが存在する場合には(ステップS106,Yes)、実検出結果に対応する領域を顔領域と判定し(ステップS107)、ステップS110に移行する。
 一方、画像処理装置100は、前回の実検出結果の中に座標の重なるものが存在しない場合には(ステップS106,No)、複数の顔候補領域が密集しているか否かを判定する(ステップS108)。
 画像処理装置100は、複数の顔候補領域が密集している場合には(ステップS109,Yes)、ステップS107に移行する。一方、複数の顔候補領域が密集していない場合には(ステップS109,No)、実検出結果の残りが存在するか否かを判定する(ステップS110)。
 画像処理装置100は、実検出結果の残りが存在する場合には(ステップS111,Yes)、ステップS104に移行する。一方、実検出結果の残りが存在しない場合には(ステップS111,No)、処理を終了する。
 次に、図10のステップS102に示した検出結果集約処理の処理手順について説明する。図11は、検出結果集約処理の処理手順を示すフローチャートである。図11に示すように、画像処理装置100は、GIDを0に初期化し(ステップS201)、MaxGIDを0に初期化し(ステップS202)、iiを0に設定する(ステップS203)。
 画像処理装置100は、ii+1がNより小さいか否かを判定する(ステップS204)。ここで、Nには、図10のステップS101において、入力画像をスキャンした結果得られた顔候補領域の数が登録されている。
 画像処理装置100は、ii+1がNより小さくない場合には(ステップS205,No)、実検出結果管理テーブル130d中でGIDが0の結果にMaxGIDを1増やしながら順にMaxGIDの値をGIDに設定する(ステップS206)。そして、画像処理装置100は、グループ毎に座標平均を算出して集約後の結果として出力する(ステップS207)。
 一方、画像処理装置100は、ii+1がNよりも小さい場合には(ステップS205,Yes)、jjをii+1に初期化し(ステップS208)、jjがNよりも小さいか否かを判定する(ステップS209)。
 画像処理装置100は、jjがNよりも小さくない場合には(ステップS210,No)、iiに1を加算し(ステップS211)、ステップS204に移行する。一方、jjがNよりも小さい場合には(ステップS210,Yes)、重なり判定処理を実行し(ステップS212)、jjをiiに1を加算し(ステップS213)、ステップS209に移行する。
 次に、図11のステップS212に示した重なり判定処理の処理手順について説明する。図12および図13は、重なり判定処理の処理手順を示すフローチャートである。図12に示すように、画像処理装置100は、顔候補領域識別番号[ii]および顔候補識別番号[jj]のうち、領域の小さいほうをA、領域の大きいほうをBに設定し(ステップS301)、Aの横幅/Bの横幅が閾値よりも小さいか否かを判定する(ステップS302)。
 画像処理装置100は、Aの横幅/Bの横幅が閾値よりも小さい場合には(ステップS303、Yes)、重なり判定処理を終了する。一方、Aの横幅/Bの横幅が閾値以上の場合には(ステップS303,No)、AのGIDとBのGIDが共に0以外の値か否かを判定する(ステップS304)。
 画像処理装置100は、AのGIDとBのGIDが共に0以外の値である場合には(ステップS305,Yes)、重なり判定処理を終了する。一方、AのGIDとBのGIDが共に0以外の値でない場合には(ステップS305,No)、重なり領域RのR.X1、R.Y1、R.X2、R.Y2をB.X1、B.Y1、B.X2、B.Y2に設定する(ステップS306)。
 そして、画像処理装置100は、A.Y1がB.Y1とB.Y2の間に存在するか否かを判定し(ステップS307)、存在する場合には(ステップS308,Yes)、第1の重なり領域処理を実行し(ステップS309)、ステップS310に移行する。
 一方、画像処理装置100は、A.Y1がB.Y1とB.Y2の間に存在しない場合には(ステップS308,No)、ステップS310に移行する。
 一方、画像処理装置100は、A.Y2がB.Y1とB.Y2の間に存在するか否かを判定し(ステップS310),存在する場合には(ステップS311,Yes)、第2の重なり領域処理を実行し(ステップS312)、重なり領域Rの面積/Aの面積が閾値以上であるか否かを判定する(ステップS313)。
 画像処理装置100は、重なり領域Rの面積/Aの面積が閾値未満である場合には(ステップS314,No)、重なり判定処理を終了する。一方、閾値以上である場合には(ステップS314,Yes)、AのGIDおよびBのGIDが両方とも0であるか否かを判定する(ステップS315)。
 画像処理装置100は、AのGIDおよびBのGIDが両方とも0でない場合には(ステップS316,No)、0でない方のGIDの値をもう一方のGIDに代入し(ステップS317)、重なり判定処理を終了する。
 一方、画像処理装置100は、AのGIDおよびBのGIDが両方とも0の場合には(ステップS316,Yes)、MAXGIDに1を加算し(ステップS318)、MAXGIDをAのGIDおよびBのGIDに代入し(ステップS319)、重なり判定処理を終了する。
 次に、図12のステップS309に示した第1の重なり領域処理について説明する。図14は、第1の重なり領域処理の処理手順を示すフローチャートである。図14に示すように、画像処理装置100は、A.X1がB.X1とB.X2の間に存在するか否かを判定し(ステップS401)、存在する場合には(ステップS402,Yes)、A.X1をR.X1に代入し、A.Y1をR.Y1に代入(ステップS403)する。存在しない場合には(ステップS402)、ステップS404に移行する。
 次に、画像処理装置100は、A.X2がB.X1とB.X2の間に存在するか否かを判定し(ステップS404)、存在する場合には(ステップS405,Yes)、A.X2をR.X2に代入し、A.Y1をR.Y1に代入し(ステップS406)、第1の重なり領域処理を終了する。存在しない場合には(ステップS405,No)、第1の重なり領域処理を終了する。
 次に、図12のステップS312に示した第2の重なり領域処理について説明する。図15は、第2の重なり領域処理の処理手順を示すフローチャートである。図15に示すように、画像処理装置100は、A.X1がB.X1とB.X2の間に存在するか否かを判定し(ステップS501)、存在する場合には(ステップS502,Yes)、A.X1をR.X1に代入し、A.Y2をR.Y2に代入(ステップS503)する。存在しない場合には(ステップS502,No)、ステップS504に移行する。
 次に、画像処理装置100は、A.X2がB.X1とB.X2の間に存在するか否かを判定し(ステップS504)、存在する場合には(ステップS505,Yes)、A.X2をR.X2に代入し、A.Y2をR.Y2に代入し(ステップS506)、第2の重なり領域処理を終了する。存在しない場合には(ステップS505,No)、第2の重なり領域処理を終了する。
 上述してきたように、本実施例にかかる画像処理装置100は、顔候補領域が所定の領域に複数存在しているか否か(顔候補領域が属するGIDに他の顔候補領域が属しているか否か)によって、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。また、かかる画像処理装置は、複数のフレームを参照することなく、単一のフレームによって誤検出を防止することができる。
 また、本実施例にかかる画像処理装置100は、前後のフレーム間に存在する顔候補領域の位置関係から、顔画像を抽出するので、顔画像を正確に抽出でき、顔画像の誤検出を防止することができる。
 以上、本実施例においては、顔候補領域を検出する処理についても詳述したが、顔候補領域を検出する処理は、本方法に限定されたものではない。例えば、[非特許文献1]H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.を用いて候補領域を設定してもよい。
 ところで、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
 また、図3に示した画像処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
 図16は、本実施例にかかる画像処理装置100(画像処理装置200)を構成するコンピュータのハードウェア構成を示す図である。図16に示すように、このコンピュータ(画像処理装置)30は、入力装置31、モニタ32、RAM(Random Access Memory)33、ROM(Read Only Memory)34、ネットワークを介して他の装置と通信を行う通信制御装置35、記憶媒体からデータを読み出す媒体読取装置36、カメラ37、CPU(Central Processing Unit)38、HDD(Hard Disk Drive)39をバス40で接続している。
 そして、HDD39には、上述した画像処理装置100の機能と同様の機能を発揮する画像処理プログラム39bが記憶されている。CPU38が、画像処理プログラム39bを読み出して実行することにより、画像処理プロセス38aが起動される。
 ここで、画像処理プロセス38aは、図3の変換処理部110、分析処理部120、顔検出処理部140に対応する。また、HDD39は、画像処理装置100の記憶部130に記憶される情報に対応する各種データ39aを記憶する。CPU38は、HDD39に格納された各種データ39aを読み出して、RAM33に格納し、RAM33に格納された各種データ33aを利用して、顔画像を検出する。
 ところで、図16に示した画像処理プログラム39bは、必ずしも最初からHDD39に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータに接続される「他のコンピュータ(またはサーバ)」などに画像処理プログラム39bを記憶しておき、コンピュータがこれらから画像処理プログラム39bを読み出して実行するようにしてもよい。

Claims (9)

  1.  顔画像の特徴を有する辞書データを記憶する記憶手段と、
     動画像の入力を受け付ける入力手段と、
     前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手段と、
     前記抽出手段により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手段と、
     を有することを特徴とする画像処理装置。
  2.  前記抽出手段は、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定手段は、前記抽出手段により、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項1に記載の画像処理装置。
  3.  前記抽出手段は、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
     前記判定手段によって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出手段は、前記第一領域または第二領域において前記顔画像候補領域の抽出を実行する際に利用する前記閾値を調整することを特徴とする請求項2に記載の画像処理装置。
  4.  画像処理装置が、
     顔画像の特徴を有する辞書データを記憶装置に記憶する記憶ステップと、
     動画像の入力を受け付ける入力ステップと、
     前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出ステップと、
     前記抽出ステップにより、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定ステップと、
     を含んだことを特徴とする画像処理方法。
  5.  前記抽出ステップは、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定ステップは、前記抽出ステップにより、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項4に記載の画像処理方法。
  6.  前記抽出ステップは、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
     前記判定ステップによって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出ステップで利用する前記閾値を調整する調整ステップをさらに含んだこと特徴とする請求項5に記載の画像処理方法。
  7.  コンピュータに、
     顔画像の特徴を有する辞書データを記憶装置に記憶する記憶手順と、
     動画像の入力を受け付ける入力手順と、
     前記動画像に含まれる複数のフレームの内、一つのフレームを処理対象フレームとし、当該処理対象フレームに含まれる画像データと前記辞書データとを基にして前記処理対象フレームから顔画像の特徴を含んだ領域を示す顔画像候補領域を抽出する抽出手順と、
     前記抽出手順により、前記処理対象フレーム内の第一領域に対して複数個の前記顔画像候補領域が抽出された場合に、前記第一領域を、顔画像を含む領域であると判定する判定手順と、
     を実行させることを特徴とする画像処理プログラム。
  8.  前記抽出手順は、前記処理対象フレーム内の第一領域から単一の前記顔画像候補領域を抽出した場合に、前記処理対象フレームよりも時間的に後に出現するフレームを処理対象フレームに設定して、当該処理対象フレームから前記顔画像候補領域を抽出し、前記判定手順は、前記抽出手順により、時間的に前後する処理対象フレームの前記第一領域と同一または当該第一領域の近傍に位置する第二領域に前記顔画像領域候補が抽出された場合に、前記第二領域を、顔画像を含む領域であると判定することを特徴とする請求項7に記載の画像処理プログラム。
  9.  前記抽出手順は、前記処理対象フレームの画像データと前記辞書データとが一致する度合が閾値以上となる領域を前記顔画像候補領域として抽出し、
     前記判定手順によって、前記第一領域または第二領域に顔画像が含まれていると判定された場合に、前記抽出手順で利用する前記閾値を調整する調整手順をさらに実行させることを特徴とする請求項8に記載の画像処理プログラム。
PCT/JP2008/066791 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム Ceased WO2010032298A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2008/066791 WO2010032298A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム
JP2010529530A JP4947216B2 (ja) 2008-09-17 2008-09-17 画像処理装置および画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/066791 WO2010032298A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム

Publications (1)

Publication Number Publication Date
WO2010032298A1 true WO2010032298A1 (ja) 2010-03-25

Family

ID=42039152

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/066791 Ceased WO2010032298A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム

Country Status (2)

Country Link
JP (1) JP4947216B2 (ja)
WO (1) WO2010032298A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002048A1 (ja) * 2010-06-30 2012-01-05 Necソフト株式会社 頭部検出方法、頭部検出装置、属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
JP2012114561A (ja) * 2010-11-22 2012-06-14 Casio Comput Co Ltd 被写体検出装置、被写体検出方法及びプログラム
JP2014123991A (ja) * 2014-03-20 2014-07-03 Casio Comput Co Ltd 被写体検出装置、被写体検出方法及びプログラム
CN105389794A (zh) * 2015-10-08 2016-03-09 西安电子科技大学 基于先验场景知识的sar目标检测虚警去除方法
WO2020012756A1 (ja) * 2018-07-13 2020-01-16 マクセル株式会社 ステレオ撮像装置
US10699169B2 (en) 2017-10-26 2020-06-30 Samsung Sds Co., Ltd. Machine learning-based object detection method and apparatus
CN116724332A (zh) * 2021-01-27 2023-09-08 富士通株式会社 判定方法、判定程序、以及信息处理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149018A (ja) * 1998-09-10 2000-05-30 Fuji Photo Film Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2001175869A (ja) * 1999-12-07 2001-06-29 Samsung Electronics Co Ltd 話し手位置検出装置及びその方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149018A (ja) * 1998-09-10 2000-05-30 Fuji Photo Film Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2001175869A (ja) * 1999-12-07 2001-06-29 Samsung Electronics Co Ltd 話し手位置検出装置及びその方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002048A1 (ja) * 2010-06-30 2012-01-05 Necソフト株式会社 頭部検出方法、頭部検出装置、属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
US8917915B2 (en) 2010-06-30 2014-12-23 Nec Solution Innovators, Ltd. Head detecting method, head detecting apparatus, attribute determining method, attribute determining apparatus, program, recording medium, and attribute determining system
JP2012114561A (ja) * 2010-11-22 2012-06-14 Casio Comput Co Ltd 被写体検出装置、被写体検出方法及びプログラム
JP2014123991A (ja) * 2014-03-20 2014-07-03 Casio Comput Co Ltd 被写体検出装置、被写体検出方法及びプログラム
CN105389794A (zh) * 2015-10-08 2016-03-09 西安电子科技大学 基于先验场景知识的sar目标检测虚警去除方法
US10699169B2 (en) 2017-10-26 2020-06-30 Samsung Sds Co., Ltd. Machine learning-based object detection method and apparatus
WO2020012756A1 (ja) * 2018-07-13 2020-01-16 マクセル株式会社 ステレオ撮像装置
JP2020014067A (ja) * 2018-07-13 2020-01-23 マクセル株式会社 ステレオ撮像装置
JP7140580B2 (ja) 2018-07-13 2022-09-21 マクセル株式会社 ステレオ撮像装置
US12267480B2 (en) * 2018-07-13 2025-04-01 Maxell, Ltd. Stereo imaging device with image distortion correction
CN116724332A (zh) * 2021-01-27 2023-09-08 富士通株式会社 判定方法、判定程序、以及信息处理装置

Also Published As

Publication number Publication date
JP4947216B2 (ja) 2012-06-06
JPWO2010032298A1 (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
JP4947216B2 (ja) 画像処理装置および画像処理方法
CN113011385B (zh) 人脸静默活体检测方法、装置、计算机设备及存储介质
US10417773B2 (en) Method and apparatus for detecting object in moving image and storage medium storing program thereof
CN103810478B (zh) 一种坐姿检测方法和装置
CN110046560B (zh) 一种危险驾驶行为检测方法和相机
EP1255225A2 (en) Method for detecting eye and mouth positions in a digital image
EP1229493A2 (en) Multi-mode digital image processing method for detecting eyes
EP1217572A2 (en) Digital image processing method and computer program product for detecting human irises in an image
EP3905104B1 (en) Living body detection method and device
WO2019033574A1 (zh) 电子装置、动态视频人脸识别的方法、系统及存储介质
US20110007983A1 (en) Method and apparatus of detecting image objects
CN112818728B (zh) 年龄识别的方法及相关产品
JP4791598B2 (ja) 画像処理装置および画像処理方法
JP2010057105A (ja) オブジェクトの3次元追跡方法およびシステム
CN111241928A (zh) 人脸识别底库优化方法、系统、设备、可读存储介质
CN116994170A (zh) 在视频会议跟踪和检测期间减少假阳性识别
JP5004181B2 (ja) 領域識別装置およびコンテンツ識別装置
JP4719825B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN115719461A (zh) 一种基于光流分析的人脸操控检测方法及其检测装置
US20120076418A1 (en) Face attribute estimating apparatus and method
JP2017059124A (ja) 画像抽出システム,画像抽出方法,画像抽出プログラムおよびそのプログラムを格納した記録媒体
JP6851246B2 (ja) 物体検出装置
JP4802297B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP4779057B2 (ja) 画像処理装置および画像処理方法
CN107403192B (zh) 一种基于多分类器的快速目标检测方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08810837

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010529530

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08810837

Country of ref document: EP

Kind code of ref document: A1