[go: up one dir, main page]

WO2017056948A1 - 画像処理システム - Google Patents

画像処理システム Download PDF

Info

Publication number
WO2017056948A1
WO2017056948A1 PCT/JP2016/076837 JP2016076837W WO2017056948A1 WO 2017056948 A1 WO2017056948 A1 WO 2017056948A1 JP 2016076837 W JP2016076837 W JP 2016076837W WO 2017056948 A1 WO2017056948 A1 WO 2017056948A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
processing system
image processing
target
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2016/076837
Other languages
English (en)
French (fr)
Inventor
小倉 慎矢
聡史 丸田
平井 誠一
木村 亮介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kokusai Denki Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP2017543087A priority Critical patent/JPWO2017056948A1/ja
Publication of WO2017056948A1 publication Critical patent/WO2017056948A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to an image processing system, and more particularly to similar image search or similar image detection.
  • video surveillance systems have been installed in facilities visited by an unspecified number of people such as hotels, buildings, convenience stores, financial institutions, dams and roads for the purpose of crime prevention and accident prevention. This is because a person to be monitored is photographed by an imaging device such as a camera, and the video is transmitted to a monitoring center such as a management office or a security room, and the resident supervisor monitors it, and the purpose and necessity Depending on the situation, attention is given, or video is recorded / saved.
  • a monitoring center such as a management office or a security room
  • a random access medium represented by a hard disk drive is increasingly used as a recording medium from a conventional video tape medium.
  • HDD hard disk drive
  • the capacity of such recording media has been increasing.
  • Increasing the capacity of recording media has dramatically increased the amount of video that can be recorded, making it possible to record more locations and for longer periods of time, but the increased burden of visually checking recorded images has become a problem. It's getting on.
  • the person search function is a function for recording the appearance of a person in a video in real time as an object of automatic detection and searching for the person appearance image from the recorded image after the fact. From the functional aspect, the person search function is roughly divided into the following two types.
  • the first is an appearance event search function.
  • the appearance event search function is a function for simply searching for the presence or absence of a person (event) in the video.
  • the search result in addition to the presence or absence of an event, if it is determined that there is an event, the number of events, the occurrence time of each event, the imaging device number that captured the event, the captured image (person appearance image), etc. are presented .
  • This search query is often given as information for narrowing down the search target range such as the event occurrence time and imaging device number.
  • the information for narrowing down the search target range is referred to as “narrowing parameter”.
  • the second is a similar person search function. While the above-mentioned appearance event search function is a search that does not specify a character, this is whether or not a specific person specified by the user has been taken by an imaging device at another time or at another point. This is a function to search from recorded images. In the search result, in addition to the presence / absence of other images showing a specific person, the number and shooting time, imaging device number, captured image (person appearing image), similarity degree to be described later, and the like are returned if present. .
  • Designation of a specific person is performed when the user designates one image (hereinafter referred to as a search key image) showing the person to be searched.
  • the search key image is designated from a recorded image or an arbitrary image from an external device.
  • the image feature amount of the person in the search key image is extracted by image recognition technology, collated with the image feature amount of the person in the recorded image, the similarity (similarity) is obtained, and the same person determination is performed. It is realized by doing.
  • the extraction and recording of the human feature amount in the recorded image is performed in advance at another timing such as during video recording. Even in this search query, it is often possible to give a refinement parameter.
  • Patent Document 1 relates to a similar image search system that performs a comprehensive search by repeating a similar image search using a plurality of search keys.
  • the invention to be disclosed is disclosed.
  • An object of the present invention is to create or notify a list of persons that cannot be searched or detected with high accuracy by similar image search or similar image detection of a specific person.
  • the image processing system of the present invention is an image processing system having a recording device connected to a network, and the recording device as a first process searches for a specific target from one image and another image.
  • the result of searching for the specific target is collated, the second process is a collation of the first process, and a determination condition for non-matching with the specific target is set, and the collation of the specific target is determined from another image
  • the result is notified when it is determined as non-matching verification.
  • the image processing system is the above-described image processing system, wherein the second process extracts a feature quantity to be collated and compares it with a predetermined determination condition, and the feature quantity has a predetermined similarity. The result is notified when it is determined that the degree is higher than the degree.
  • the image processing system of the present invention is the above-described image processing system, wherein the recording apparatus has a feature amount recording unit, and the second process extracts a feature amount to be collated and stores it in the feature amount recording unit. Then, the feature amount of the input key image is compared with the feature amount stored in the feature amount recording unit, and a result having a high similarity is displayed on the key image.
  • the image processing system of the present invention is the above-described image processing system, and the specific target is a human face image.
  • the image processing system of the present invention is the above-described image processing system, in which the recording apparatus tracks a specific target image across a plurality of frames, and determines that the matching failure condition is found in all the frames. The determination result is output to
  • the image processing system of the present invention is the above-described image processing system, in which the recording apparatus has a pixel number as a target for determining whether the verification is unsuitable, and the target pixel number on the image is less than a predetermined value. It is determined that it is not suitable for collation.
  • the image processing system of the present invention is the above-described image processing system, in which the recording apparatus has a direction as a target for which the verification is a non-conforming condition, and the target direction on the image is outside the range of the predetermined value It is determined that it is not suitable for collation.
  • the image processing system of the present invention is the above-described image processing system, in which the recording apparatus has a brightness whose target is a determination condition that the verification is incompatible, and the brightness of the target on the image is less than a predetermined value It is determined that it is not suitable for collation.
  • the image processing system of the present invention is the above-described image processing system, and the recording apparatus has a degree of a target or a part of the target as a determination condition that the matching is not suitable, and a target on the image or a part of the target If the degree is less than a predetermined value, it is determined that it is not suitable for collation.
  • the image processing system of the present invention is the above-described image processing system, and the recording apparatus has a judgment condition that the matching is incompatible is the presence / absence of an attachment to the object, and the object on the image has the attachment. It is characterized by determining that it is not suitable for collation.
  • the image processing system of the present invention is the above-described image processing system, and the recording apparatus has a non-conformity judgment condition such as the number of target pixels, the target orientation, the target brightness, and the presence / absence of an attachment to the target. It is characterized by being.
  • the present invention it is possible to create or notify a list of persons who cannot be searched or detected with high accuracy by similar image search or similar image detection of a specific person. Accordingly, it is not necessary to collate again for all the specific persons, and it is only necessary to perform collation again only for specific persons who have not been successfully collated, and the persons can be collated efficiently.
  • FIG. 1 is a system configuration diagram of an image processing system according to an embodiment of the present invention. It is a hardware block diagram of the imaging device used for the image processing system which concerns on one Embodiment of this invention. It is a hardware block diagram of the video recording apparatus used for the image processing system which concerns on one Embodiment of this invention. It is a hardware block diagram of the terminal device used for the image processing system which concerns on one Embodiment of this invention. It is a figure which shows the registration process procedure per person used for the image processing system which concerns on one Embodiment of this invention.
  • FIG. 1 It is a figure which shows the number of pixels on a certain person's screen, direction, brightness, the presence or absence of a wearing thing, and the determination result in the registration process used for the image processing system which concerns on one Embodiment of this invention. It is a system configuration diagram of an image processing system according to another embodiment of the present invention. It is a figure which shows the collation processing procedure per image used for the image processing system which concerns on other one Embodiment of this invention. The relationship between the value of the target of detection of the face parts (left and right eyes and mouth) of the person C photographed by the imaging device and the verification execution determination flag used in the image processing system according to another embodiment of the present invention is shown. FIG.
  • FIG. 1 is a system configuration diagram of an image processing system according to an embodiment of the present invention.
  • the image processing system is configured such that an imaging device 201, a recording device 102, and a terminal device 103 are connected to a network 200 and can communicate with each other.
  • the network 200 is a communication unit that performs communication by mutually connecting devices such as a dedicated network that performs data communication, an intranet, the Internet, and a wireless local area network (LAN).
  • LAN wireless local area network
  • the imaging apparatus 201 performs a digital conversion process on an image captured by a charge coupled device (CCD), a complementary metal oxide semiconductor (CMOS) element, or the like, and outputs the converted image data to a recording apparatus via the network 200.
  • CMOS complementary metal oxide semiconductor
  • Devices such as cameras and surveillance cameras.
  • the recording device 102 is a device such as a network digital recorder that records image data input from the imaging device 201 via the network 200 on a recording medium such as an HDD.
  • the recording device 102 is also equipped with a person search function including the method of the present invention.
  • the person search function may be a person search device that is separate from the recording device 102.
  • the recording apparatus 102 has an image transmission / reception unit 210, an image recording unit 211, a reproduction control unit 212, a person area detection unit 213, a person feature amount extraction unit 214, a person feature amount recording unit 215, an attribute information recording unit 216, as a functional configuration.
  • the request receiving unit 217, the similar person searching unit 218, the appearance event searching unit 219, the search result transmitting unit 220, the keyword recording unit 110, the keyword searching unit 111, and the matching inappropriateness determination processing unit 120 are configured.
  • Each of these processing units does not necessarily have to be configured in the recording device, and may include an image processing device separately from the recording device, and the image processing device may include each processing unit.
  • the image transmission / reception unit 210 is a processing unit that performs image input / output from the outside of the apparatus, and receives input image data from the imaging apparatus 201 and transmits output image data to the terminal apparatus 103.
  • the image recording unit 211 writes input image data to a recording medium and reads output image data from the recording medium. At the time of writing, in addition to the image data, an image ID (Identification) serving as information for reading the image data is also recorded.
  • the playback control unit 212 controls video playback on the terminal device 103.
  • the person area detection unit 213 performs person detection using image recognition technology on the input image data, determines the presence of a person in the image, and, if a person exists, calculates the coordinates of the area. Whether or not a person exists is generally determined based on whether or not the person-likeness of the image area exceeds a threshold value.
  • the person feature amount extraction unit 214 performs feature amount calculation on the region detected by the person region detection unit 213 using an image recognition technique.
  • the human feature value calculated here is, for example, the shape and direction of the person's outline, the skin color, the gait (how to roll the legs such as which leg is moved at what timing), or the person is specified
  • the shape and direction of the contour of the face which is a representative part, and the size, shape and arrangement relationship of main components such as eyes, nose, and mouth, etc., but in this embodiment, the types of feature values to be used Any number can be used.
  • the person feature amount recording unit 215 writes and reads the feature amount calculated by the person feature amount extraction unit 214 to and from the recording medium.
  • the image data recording medium in the image recording unit 211 and the person feature amount recording medium in the processing unit may be the same or different.
  • the attribute information recording unit 216 writes and reads attribute information related to image data to and from a recording medium.
  • the attribute information is, for example, an image shooting time, an imaging device number, or the like.
  • the request receiving unit 217 receives search requests and keyword assignment requests from the terminal device 103.
  • the search request includes a similar image search request and an appearance event search request.
  • the similar person search unit 218 performs a search when the request received by the request reception unit 217 is a similar person search request.
  • the appearance event search unit 219 performs a search when the request received by the request reception unit 217 is an appearance event search request.
  • the search result transmission unit 220 transmits the similar person search result and the appearance event search result obtained from the similar person search unit 218 and the appearance event search unit 219 to the terminal device 103.
  • the keyword recording unit 110 writes and reads a keyword on the recording medium based on the keyword assignment request received by the request receiving unit 217.
  • the keyword search unit 111 performs a keyword search when the search request data received by the request reception unit 217 includes a keyword.
  • the collation inappropriateness determination processing unit 120 performs processing for determining whether or not the image is successfully collated with respect to the detection result of the person region detection unit 213. That is, the unsuitable matching determination processing unit 120 determines unmatched persons based on a determination condition (for example, steps 5006 to 5009 in FIG. 5 to be described later) on whether or not to make an image to be matched for each frame (when matching fails). judge.
  • a determination condition for example, steps 5006 to 5009 in FIG. 5 to be described later
  • the terminal device 103 may be realized by a general PC (personal computer) having a network function, or may be a dedicated search terminal.
  • the terminal device 103 includes a search request transmission unit 221, a search result reception unit 222, a search result display unit 223, a reproduction image display unit 224, a screen operation detection unit 225, a keyword assignment request transmission unit 112, and a plurality of search key selections as functional configurations.
  • Each processing unit of the unit 113 is configured.
  • the apparatus is also equipped with a person search function for realizing the method of the present invention.
  • the search request transmission unit 221 transmits a search request to the recording device 102.
  • the search request data includes a search key image.
  • the search request data can also include a refinement parameter.
  • the search result receiving unit 222 receives the search result from the recording device 102.
  • the data received as the search result includes a set of images obtained by performing similar person search or appearance event search in the recording apparatus 102. Individual images constituting the set are generated by performing image size reduction processing or the like from the video recorded in the recording device 102.
  • each individual image is referred to as a “search result image”
  • data transmitted and received as a search result is referred to as “search result data”.
  • the search result display unit 223 displays the search result data received by the search result receiving unit 222 on the screen.
  • the reproduction image display unit 224 performs continuous moving image display on the screen of the image data input from the recording device 102.
  • the screen operation detection unit 225 detects and acquires the operation content by the user.
  • the keyword assignment request transmitter 112 transmits a keyword assignment request to the recording device 102.
  • the multiple search key selection unit 113 performs a process of appropriately selecting a smaller number of search keys when a plurality of search keys are selected. Note that the multiple search key selection unit 113 may be provided in the recording apparatus 102.
  • FIG. 2 is a hardware configuration diagram of an imaging apparatus used in the image processing system according to the embodiment of the present invention.
  • the imaging apparatus 201 is configured in a form in which an imaging unit 241, a main storage unit 242, an encoding unit 243, and a network I / F (Interface) 245 are coupled by a bus 240.
  • an imaging unit 241, a main storage unit 242, an encoding unit 243, and a network I / F (Interface) 245 are coupled by a bus 240.
  • the imaging unit 241 converts the optical signal captured by the lens into digital data.
  • the encoding unit 243 encodes the digital data output from the imaging unit 241 and converts it into image data such as JPEG (Joint Photographic Experts Group).
  • the main storage unit 242 stores captured digital data and encoded image data.
  • the network I / F 245 is an interface for transmitting image data stored in the main storage unit 242 to the recording device 102 via the network 200.
  • FIG. 3 is a hardware configuration diagram of a recording apparatus used in the image processing system according to the embodiment of the present invention.
  • the recording apparatus 102 includes a CPU (Central Processing Unit) 251, a main storage unit 252, an auxiliary storage unit 253, and a network I / F 254 that are connected by a bus 250.
  • CPU Central Processing Unit
  • main storage unit 252 main storage unit
  • auxiliary storage unit 253 main storage unit
  • network I / F 254 that are connected by a bus 250.
  • the CPU 251 performs control of each unit of the recording device 102 and execution of a program for realizing the function.
  • the main storage unit 252 is realized by a semiconductor device such as a DRAM (Dynamic Random Access Memory), and is an intermediate memory for loading and storing image data for search and a program executed by the CPU 251.
  • DRAM Dynamic Random Access Memory
  • the auxiliary storage unit 253 is realized by an HDD, a flash memory, or the like, and has a larger capacity than the main storage unit 252 and stores image data and programs.
  • the network I / F 254 is an interface for receiving image data from the imaging apparatus 201, receiving a search keyword from the terminal apparatus 103, and transmitting image data to the terminal apparatus 103 via the network 200.
  • FIG. 4 is a hardware configuration diagram of a terminal device used in the image processing system according to the embodiment of the present invention.
  • the terminal device 103 includes a CPU 261, a main storage unit 262, an auxiliary storage unit 263, a display I / F 264, an input / output I / F 265, and a network I / F 266 that are coupled via a bus 260.
  • the CPU 261 performs control of each unit of the terminal device 103 and execution of a program for realizing the function.
  • the main storage unit 262 is realized by a semiconductor device such as a DRAM, and is an intermediate memory for loading and storing image data for display and a program executed by the CPU 261.
  • the auxiliary storage unit 263 is realized by an HDD, a flash memory, or the like, and has a larger capacity than the main storage unit 262, and stores search keywords, image data, and programs.
  • the display I / F 264 is an interface for connecting to the display device 270.
  • the input / output I / F 265 is an interface for connecting to an input / output device such as a keyboard 280 and a mouse 282 as a pointing device.
  • the network I / F 266 is an interface for receiving image data from the recording apparatus 102, transmitting a search keyword to the recording apparatus 102, and receiving image data from the recording apparatus 102 via the network 200.
  • the display device 270 is a device such as an LCD (Liquid Crystal Display), for example, and is a device that displays images and moving images.
  • FIG. 5 is a diagram showing a registration processing procedure per person used in the image processing system according to the embodiment of the present invention.
  • FIG. 6 is a diagram showing the number of pixels on a person's screen, orientation, brightness, presence / absence of an attachment, and determination result in a registration process used in the image processing system according to the embodiment of the present invention.
  • the retrieval accuracy in the similar image retrieval of the image processing system is based on the correlation with the number of pixels on the person's screen, the direction, the brightness, and the presence / absence of an attachment.
  • the CPU 251 of the recording apparatus 102 starts registration processing per person using the function described in the recording apparatus 102 of FIG. 1.
  • the CPU 251 secures the memory capacity necessary for the processes of the main storage unit 252 and the auxiliary storage unit 253 and initializes the collation execution determination flag to NG.
  • the image transmission / reception unit 210 receives an image.
  • the person area detection unit 213 detects the person area from the image.
  • the person area is a face area.
  • the person area detection unit 213 performs a process of tracking the same person as the same person from the detection result of the previous or previous several frames and the detection result of the current frame.
  • the following processing is performed by the verification inappropriateness determination processing unit 120.
  • the tracking end determination process 5005 it is determined whether or not there is a person who has been tracked as a result of the person area tracking process 5004. If there is a person who has been tracked (YES), the process proceeds to 5013. If no person has been tracked (NO), the process proceeds to 5006.
  • the pixel number determination process 5006 it is determined whether or not the number of pixels on the target image is equal to or larger than a predetermined value. If the number of pixels is equal to or larger than the predetermined value (YES), the process proceeds to 5007 and the number of pixels is less than the predetermined value. In the case of (NO), the processing returns to 5002.
  • the orientation determination processing 5007 it is determined whether or not the apparent orientation of the target is within a predetermined value. If the orientation is within the predetermined value (YES), the processing proceeds to 5008, and the orientation is outside the predetermined value (NO). The processing returns to 5002.
  • the brightness determination process 5008 it is determined whether or not the brightness on the target image is equal to or greater than a predetermined value. If the brightness is equal to or greater than the predetermined value (YES), the process proceeds to 5009 and the brightness is less than the predetermined value. In the case of (NO), the processing returns to 5002. In the attachment determination process 5009, the presence or absence of an attachment such as a mask on the face of the target person is determined. If there is an attachment (YES), the process proceeds to 5010.
  • the verification execution flag change processing 5010 processing for changing the verification execution flag of the person to OK is performed.
  • the human feature quantity extraction processing 5011 feature quantity calculation is performed using a known image recognition technique.
  • the person feature quantity recording process 5012 the feature quantity calculated in the person feature quantity extraction process 5011 is written to the recording medium.
  • Whether or not the collation execution determination is NG is determined in the determination process 5013, whether the verification execution determination flag of the person who has finished tracking is NG or OK. If the verification execution determination flag is NG (YES), the process proceeds to 5014. If the execution determination flag is OK (NO), the process proceeds to 5006. In the person feature amount recording process 5014, writing to a collation NG person DB (Database; main storage unit 252, auxiliary storage unit 253, etc.) for recording a person for whom only an image not suitable for collation is obtained is performed. Proceed to the process.
  • a collation NG person DB Database; main storage unit 252, auxiliary storage unit 253, etc.
  • FIG. 6 is a diagram showing the number of pixels on a screen, orientation, brightness, presence / absence of an attachment, and determination result in a registration process used in the image processing system according to the embodiment of the present invention.
  • FIG. 6A is a table showing the determination result in the moving image in which the person A walks.
  • the determination result table is stored in the main storage unit 252, the auxiliary storage unit 253, etc.
  • the determination criterion is that the number of pixels is 40 or more and the orientation is within 15 ° left and right.
  • the brightness is 50 or more, and there is no attachment. That is, the collation execution determination flag is OK only when all the determination criteria of the number of pixels, the direction, the brightness, and the wearing object are within the specified range.
  • the CPU 251 of the recording apparatus 102 performs the process of FIG. 5 based on the measurement result of FIG.
  • the number of pixels is “31”, which is smaller than the determination criterion “40”. Therefore, “NG” is determined in the pixel number determination process 5006, and the process returns to the image reception process 5002.
  • the process proceeds to the direction determination processing 5007, the direction is “left 30 °”, and the determination criterion is “within 15 ° left and right”. Therefore, “NG” is determined in the direction determination process 5007, and the process returns to the image reception process 5002.
  • the process proceeds to brightness determination processing 5008, and the brightness satisfies “43” and the determination criterion value “50 or more”. Therefore, “NG” is determined in the brightness determination process 5008, and the process returns to the image reception process 5002.
  • the fourth frame is within the determination criteria of the number of pixels “54”, the direction “10 ° to the right”, and the brightness “54”, so the process proceeds to the attachment determination process 5009 and the attachment is “None”. In this process, the collation execution determination flag is changed to “OK”, and the process proceeds to 5011.
  • tracking end determination processing 5005 it is determined that tracking of person A has ended (YES), the flow proceeds to processing of 5013, and the verification execution determination flag is determined to be NG or determination processing 5013. In the fourth frame, verification execution determination is performed. Since the flag is “OK”, the determination is NO and the process proceeds to 5006.
  • FIG. 6B is a table showing the determination result in the moving image in which the person B walks.
  • the determination result table is stored in the main storage unit 252, the auxiliary storage unit 253, etc.
  • the number of pixels, the direction, and the brightness are determined for both the frame 1, the frame 2, and the frame 3. It is within the standard, and the process proceeds to the attachment determination process 5009. Since all of the three frames are “attached”, there is (YES) in the attached object determination process 5009 and the process returns to the image receiving process 5002.
  • tracking end determination processing 5005 it is determined that tracking of person B has been completed (YES), and the flow proceeds to processing of 5013.
  • the flow proceeds to determination processing 5013 where the verification execution determination flag is NG. Since the flag is “NG”, the determination is YES, and the process proceeds to the recording process 5014 to the verification NG person DB. That is, in an image (moving image) of a person, it is determined whether or not the matching is appropriate for each frame. If there is at least one frame whose verification execution (conformity) determination flag is OK, recording to the verification NG person DB is performed. Although not performed, when all the verification execution (conformity) determination flags are NG, recording in the verification NG person DB is performed.
  • the determination order is not necessarily limited to this. Any order is acceptable.
  • the number of determination conditions may be any number as long as it is one or more, and any combination may be used.
  • FIG. 7 is a system configuration diagram of an image processing system according to another embodiment of the present invention. As illustrated in FIG. 7, an imaging device 201 and a terminal device 703 are connected to a network 200 and are configured to be able to communicate with each other.
  • the terminal device 703 includes an image transmission / reception unit 710, a person area detection unit 213, a person feature amount extraction unit 214, a person feature amount recording unit 215, a similar person detection unit 718, a detection result display unit 723, and a verification inappropriateness determination process.
  • Each processing unit of the unit 120 is configured.
  • the image transmission / reception unit 710 is a processing unit that performs image input / output from the outside of the apparatus, and receives input image data from the imaging apparatus 201.
  • the person region detection unit 213, the person feature amount extraction unit 214, and the person feature amount recording unit 215 are the same as those in FIG.
  • the similar person detection unit 718 determines the feature amount of the person as the person feature amount.
  • the result extracted by the extraction unit 214 is compared with the feature amount recorded in the person feature amount recording unit 215 recorded in advance as a detection target, and it is determined whether or not the similarity is equal to or greater than a predetermined value.
  • the detection result display unit 723 displays the similar person detection result obtained from the similar person detection unit 718 on the monitor of the terminal device 703.
  • the matching inappropriateness determination processing unit 120 performs processing for determining whether or not the image is successfully matched with respect to the detection result of the person region detection unit 213. In other words, the verification inappropriateness determination processing unit 120 determines whether or not the image is to be verified for each frame and whether or not verification is incompatible (for example, steps 8001 to 8003 in FIG. 5 to be described later). Determine the person.
  • the terminal device 703 may have some functions, for example, the person area detection unit 213 inside the imaging device 201. In addition, the terminal device 703 may divide the function into two and move the detection result display unit 723 into another terminal device. Note that the hardware configuration of the terminal device 703 may be the same as the hardware configuration of the terminal device 103 illustrated in FIG. 4.
  • FIG. 8 is a diagram showing a verification processing procedure per image used in the image processing system according to the embodiment of the present invention. Since the initialization process 5001 to the tracking end determination 5005 in FIG. 8 are the same as those in FIG.
  • the right eye likelihood determination 8001 it is determined whether or not the right eye likelihood value obtained as a result of the right eye detection process is greater than or equal to a specified value (for example, 0.5).
  • a specified value for example, 0.5.
  • the process returns to the receiving process 5002, and if it is equal to or greater than the specified value (YES), the process proceeds to the left eye likelihood determination process 8002.
  • the target person is wearing sunglasses, wearing a hat deeply in the eyes, or looking to the right, such as when the matching process is not successful, the right eye-look value is the specified value. Less than.
  • left eye likelihood determination 8002 it is determined whether or not the value of left eye likelihood obtained as a result of the left eye detection process is greater than or equal to a specified value (for example, 0.5).
  • a specified value for example, 0.5.
  • the process returns to the receiving process 5002, and if it is equal to or greater than the prescribed value (YES), the process proceeds to the mouthfeel determination process 8003. For example, if the target person is wearing sunglasses, wearing a hat deeply in the eyes, or looking to the left, such as when the matching process is not successful, the value of the left eye is the specified value Less than.
  • the mouth feel determination 8003 it is determined whether or not the mouth feel value obtained as a result of the mouth detection process is not less than a specified value (for example, 0.5). Returning to the receiving process 5002, if the value is equal to or greater than the specified value (YES), the process proceeds to 5010. For example, in the case where the matching process is not successful, such as when the target person is wearing a mask, the mouthfeel value is less than a specified value.
  • the change processing determination flag 5010 and the person feature amount extraction processing 5011 are the same as those described with reference to FIG.
  • the feature amount calculated by the person feature amount and person feature amount extraction processing 5011 stored in advance in the main storage unit or auxiliary storage unit 253 of the terminal device 703 is used. A comparison is made to determine whether or not they are similar. If they are similar, the result is displayed on the display device by the detection result display unit 723 to prompt the user to confirm.
  • Whether or not the collation execution determination is NG is determined in a determination process 5013 to determine whether the verification execution determination flag of the person who has finished tracking is NG or OK. If the verification execution determination flag is NG (YES), the process proceeds to 8005. If the execution determination flag is OK (NO), the process proceeds to 8001. In the verification NG person display process 8005, a person for whom only an image unsuitable for verification is obtained is displayed on the display device by the detection result display unit 723, and the user is prompted to confirm.
  • FIG. 9 shows the value of the target of detection of face parts (left and right eyes and mouth) of the person C photographed by the imaging device and the verification execution determination flag used in the image processing system according to another embodiment of the present invention. It is a figure which shows a relationship.
  • FIG. 9A is a table showing the determination result in the moving image in which the person C walks.
  • the person C is a person who passes in front of the camera with a mask, and is a person who detects a person area of a total of three frames.
  • the right eye detection value of the right eye detection and the left eye detection value of the left eye detection in all the images from the first frame to the third frame are 0.5 or more, which is a predetermined value, and the mouth detection value of the mouth detection.
  • “0.04”, “0.02”, and “0.01” are values less than the specified value of 0.5.
  • the right eye likelihood determination process 8001 proceeds to the left eye likelihood determination process 8002, and the left eye likelihood determination process 8002 proceeds to the mouth likeness determination process 8003.
  • the mouth feel determination processing 8003 the mouth feel value of mouth detection is less than the predetermined value (NO), so the process returns to the image reception processing 5002.
  • the process proceeds to 5013, the verification execution determination flag is determined to be NG, and the determination process 5013 is performed. Since the flag is “NG”, the determination is YES, and the process proceeds to a display process 8005 for a verification NG person.
  • the right eye-likeness determining process 8001, the left eye-likeness determining process 8002 and the mouth-likeness determining process 8003 are provided, but another part of the person such as an ear or nose is used instead of both eyes and mouth or You may provide the process determined in addition to both eyes and a mouth.
  • the image processing system can create or notify a list of persons that cannot be searched or detected with high accuracy by similar image search or similar image detection of a specific person.
  • 102 Recording device, 103: Terminal device, 110: Keyword recording device, 111: Keyword search unit, 112: Keyword assignment request transmission unit, 113: Multiple search key selection unit, 120: Collation inappropriateness determination processing unit, 200: Network, 201: Imaging device 210: Image transmission / reception unit 211: Image recording unit 212: Playback control unit 213: Person area detection unit 214: Person feature amount extraction unit 215: Person feature amount storage unit 216: Attribute information Recording unit, 217: Request reception unit, 218: Similar person search unit, 219: Appearance event search unit, 220: Search result transmission unit, 221: Search request transmission unit, 222: Search result reception unit, 223: Search result display unit 224: reproduction image display unit, 225: screen operation detection unit, 240: bus, 241: imaging unit, 242: main storage unit, 243: encoding unit, 45: Network I / F, 250: Bus, 251: CPU, 252: Main storage unit, 253: Auxiliary storage unit, 254:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

発明は、特定の人物の類似画像検索あるいは類似画像検知で精度良く検索あるいは検知できない人物の一覧作成あるいは通知することを目的とする。 発明の画像処理システムは、ネットワークに接続された録画装置を有する画像処理システムであって、録画装置は第一の処理として、一つの画像から特定の対象を検索した結果と、他の画像から特定の対象を検索した結果を照合し、第二の処理は第一の処理の照合で特定の対象との照合が不適合の判定条件を設定し、他の画像から特定の対象の照合が前記判定条件により、照合が不適合と判定した場合に結果を通知することを特徴とする。

Description

画像処理システム
 本発明は、画像処理システムに関し、特に類似画像検索あるいは類似画像検知に関するものである。
 従来から、ホテル、ビル、コンビニエンスストア、金融機関、ダムや道路といった不特定多数の人が訪れる施設には、犯罪抑止や事故防止等の目的で、映像監視システムが設置されている。これは、監視対象の人物等をカメラ等の撮像装置で撮影し、その映像を、管理事務所や警備室等の監視センタに伝送し、常駐する監視者がそれを監視し、目的や必要に応じて、注意をしたり、あるいは映像を録画・保存するものである。
 映像監視システムでの映像の録画・保存において、記録媒体には従来のビデオテープ媒体から、ハードディスクドライブ(HDD)に代表されるランダムアクセス媒体が用いられる事例が増えている。さらに近年ではこのような記録媒体の大容量化が進んでいる。
 記録媒体の大容量化は、録画できる映像の量を飛躍的に増大させ、より多地点や長時間の録画を可能にしつつある反面、録画画像を目視でチェックする負担の増加が問題として顕在化しつつある。
 このような背景から、所望の映像をより簡単に見つけ出すための検索機能を備える映像監視システムが普及しつつある。特に、近年では、映像中の特定の事象(イベント)の発生を画像認識の技術を用いてリアルタイムに自動検知して映像とともに記録し、事後にそれらのイベントを検索可能とする、より高度な検索機能を備えたシステムが登場しつつある。その中の代表的な一つに人物検索機能がある。
 人物検索機能とは、映像中への人物の登場を自動検知の対象として、リアルタイムに記録し、事後に録画画像中から人物登場画像を探し出せる機能である。機能面から人物検索機能は、以下の2種類に大別される。
 一つ目は、登場イベント検索機能である。登場イベント検索機能は、映像中への人物の登場(イベント)の有無を、単純に探し出す機能である。検索結果にはイベントの有無に加え、イベント有と判定された場合には、そのイベント数と各イベントの発生時刻やイベントを撮影した撮像装置番号、撮影した画像(人物登場画像)等を提示する。なお、この検索のクエリには、イベント発生時刻や撮像装置番号等を検索対象範囲に絞込むための情報として与える場合が多い。以下では、この検索対象範囲を絞込むための情報を、「絞込みパラメータ」ということにする。
 二つ目は、類似人物検索機能である。上述の登場イベント検索機能が、登場人物を特定しない検索であるのに対し、こちらはユーザが指定する特定人物が、他の時間、あるいは他の地点の撮像装置で撮影されていないかどうかを、録画画像中から探し出す機能である。検索結果には、特定人物が映った他の画像の有無に加え、有の場合には、その数と撮影時刻、撮像装置番号、撮影した画像(人物登場画像)、後述の類似度等を返す。
 特定人物の指定は、探したい人物が映った画像(以降、検索キー画像)をユーザが1ケ指定することで実施される。検索キー画像は、録画画像や外部装置からの任意の画像から指定される。検索は、この検索キー画像中の人物の画像特徴量を画像認識技術により抽出し、録画画像中の人物の画像特徴量と照合し、その類似性(類似度)を求め、同一人物判定を実施することにより実現される。録画画像中の人物特徴量の抽出と記録は、映像録画時等の別タイミングにて予め実施しておく。この検索のクエリにおいても、絞込みパラメータを与えることが可能である場合が多い。
 先行技術文献としては、例えば、特許文献1に、複数の検索キーを用いて類似画像検索を繰り返すことで網羅的な検索を行う類似画像検索システムに関し、検索回数の抑制と検索精度の向上を両立させる発明が開示されている。
特開2013-101431号公報
 画像処理システムの類似画像検索において、映像中への人物の登場を検索の対象として、リアルタイムに記録(登録処理)するが、マスクやサングラスなどの装着や、顔の向きが正面でない人物の顔が登録されていても、キー画像検索の照合処理がうまくいかず対象人物が検索結果に出ず、見逃してしまう場合がある。
 本発明は、特定の人物の類似画像検索あるいは類似画像検知で精度良く検索あるいは検知できない人物の一覧を作成あるいは通知することを目的とする。
 本発明の画像処理システムは、ネットワークに接続された録画装置を有する画像処理システムであって、録画装置は第一の処理として、一つの画像から特定の対象を検索した結果と、他の画像から前記特定の対象を検索した結果を照合し、第二の処理は第一の処理の照合で特定の対象との照合不適合の判定条件を設定し、他の画像から特定の対象の照合が判定条件により、照合不適合と判定した場合に結果を通知することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、第二の処理は照合対象の特徴量を抽出し、予め設定している判定条件と比較し、特徴量が所定の類似度以上と判定した場合に結果を通知することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は特徴量記録部を有し、第二の処理は照合対象の特徴量を抽出して特徴量記録部に記憶し、入力されたキー画像の特徴量と特徴量記録部に記憶した特徴量を比較し、キー画像に類似度が高い結果を表示することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、特定の対象が人物の顔画像であることを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は特定の対象の画像を複数フレームにまたがって追跡し、全てのフレームで照合不適合の条件であると判定した場合に判定結果を出力することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件とする対象が画素数であり、画像上の対象の画素数が所定値未満の場合に照合に適さないと判定することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件とする対象が向きであり、画像上の対象の向きが所定値の範囲以外の場合に照合に適さないと判定することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件とする対象が明るさであり、画像上の対象の明るさが所定値未満の場合に照合に適さないと判定することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件とする対象あるいは対象の一部が度合いであり、画像上の対象あるいは対象の一部の度合いが所定値未満の場合に照合に適さないと判定することを特徴とする。
 また、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件が対象への装着物の有無であり、画像上の対象に装着物が有る場合に照合に適さないと判定することを特徴とする。
 さらに、本発明の画像処理システムは、上述の画像処理システムであって、録画装置は照合が不適合の判定条件が対象の画素数、対象の向き、対象の明るさ、対象への装着物の有無であることを特徴とする。
 本発明によれば、特定の人物の類似画像検索あるいは類似画像検知で精度良く検索あるいは検知できない人物の一覧を作成あるいは通知をすることができる。これにより、全ての特定人物について再度照合する必要がなくなり、一部の照合のうまくいかなかった特定人物のみ再度照合を行えばよく、効率よく人物の照合をすることができる。
本発明の一実施形態に係る画像処理システムのシステム構成図である。 本発明の一実施形態に係る画像処理システムに用いる撮像装置のハードウェア構成図である。 本発明の一実施形態に係る画像処理システムに用いる録画装置のハードウェア構成図である。 本発明の一実施形態に係る画像処理システムに用いる端末装置のハードウェア構成図である。 本発明の一実施形態に係る画像処理システムに用いられる1人物あたりの登録処理手順を示す図である。 本発明の一実施形態に係る画像処理システムに用いられる登録処理における、ある人物の画面上の画素数、向き、明るさ、装着物の有無及び判定結果を示す図である。 本発明の他の一実施形態に係る画像処理システムのシステム構成図である。 本発明の他の一実施形態に係る画像処理システムに用いられる1画像あたりの照合処理手順を示す図である。 本発明の他の一実施形態に係る画像処理システムに用いられる、撮像装置で撮影した人物Cの顔のパーツ(左右の目と口)検出の対象らしさの値と照合実施判定フラグの関係を示す図である。
 以下、本発明の実施形態について図面を参照して詳細に説明する。
 図1は本発明の一実施形態に係る画像処理システムのシステム構成図である。
 画像処理システムは、図1に示すように、ネットワーク200に、撮像装置201、録画装置102、端末装置103が接続され、互いに通信可能な状態で構成されている。
 ネットワーク200は、データ通信を行う専用ネットワークやイントラネット、インターネット、無線LAN(Local Area Network)等の各装置を相互に接続して通信を行う通信手段である。
 撮像装置201は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)素子等で撮像した画像にデジタル変換処理を施し、変換された画像データを、ネットワーク200を介して録画装置へ出力するネットワークカメラや監視カメラ等の装置である。
 録画装置102は、ネットワーク200を介して撮像装置201より入力された画像データをHDD等の記録媒体に記録するネットワークデジタルレコーダ等の装置である。また、本一実施例では、録画装置102に本発明の方式を含む人物検索機能も搭載している。人物検索機能は録画装置102とは別個の人物検索装置としてもよい。
 録画装置102は、機能構成として、画像送受信部210、画像記録部211、再生制御部212、人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215、属性情報記録部216、要求受信部217、類似人物検索部218、登場イベント検索部219、検索結果送信部220、キーワード記録部110、キーワード検索部111、照合不適判定処理部120の各処理部で構成されている。尚、これら各処理部は、必ずしも録画装置内に構成される必要はなく、録画装置とは別に画像処理装置を備え、画像処理装置に各処理部を備えてもよい。
 画像送受信部210は、装置外部からの画像入出力を行う処理部であり、撮像装置201からの入力画像データの受信、端末装置103への出力画像データの送信を行う。
 画像記録部211は、入力画像データの記録媒体へ書込みや出力画像データの記録媒体からの読出しを行う。書込みの際には、画像データに加え、画像データを読出す際の情報となる画像ID(Identification)も併せて記録する。
 再生制御部212は、端末装置103への映像再生を制御する。
 人物領域検出部213は、入力画像データに対し画像認識技術を用いた人物検出をおこない、画像中の人物の存在判定をし、人物が存在する場合には、その領域の座標算出を行う。人物が存在するか否かは一般にある当該画像領域の人物らしさが閾値を上回っているか否かによって判定される。
 人物特徴量抽出部214は、人物領域検出部213で検出した領域に対して画像認識技術を用いて特徴量算出を行う。ここで算出する人物特徴量とは、例えば、人物の輪郭の形状や方向、皮膚の色、歩容(どの脚をどのようにどんなタイミングで動かすかといった脚の捌き方)、あるいは、人物を特定する代表的な部位である顔の輪郭の形状や方向、目や鼻、口といった主要構成要素の大きさ・形状や配置関係等が挙げられるが、本実施形態においては、使用する特徴量の種類や数はいずれであってもよい。
 人物特徴量記録部215は、人物特徴量抽出部214で算出した特徴量の記録媒体への書込みと読出しを行う。画像記録部211における画像データの記録媒体と本処理部における人物特徴量の記録媒体とは同一であっても別個であってもよい。
 属性情報記録部216は、画像データに関連する属性情報の記録媒体への書込みと読出しを行う。属性情報とは、例えば、画像の撮影時刻や撮像装置番号等である。
 要求受信部217は、端末装置103からの検索要求やキーワード付与要求の受信を行う。検索要求には、類似画像検索要求と、登場イベント検索要求がある。
 類似人物検索部218は、要求受信部217にて受信した要求が類似人物検索要求であった場合に、検索を行う。
 登場イベント検索部219は、要求受信部217にて受信した要求が登場イベント検索要求であった場合に、検索を行う。
 検索結果送信部220は、類似人物検索部218や登場イベント検索部219から得た類似人物検索結果や登場イベント検索結果の端末装置103への送信を行う。
 キーワード記録部110は、要求受信部217にて受信したキーワード付与要求に基づくキーワードの記録媒体への書込みと読出しを行う。
 キーワード検索部111は、要求受信部217にて受信した検索要求データ中にキーワードが含まれていた場合に、キーワード検索を行う。
 照合不適判定処理部120は人物領域検出部213の検出結果に対し、照合がうまくいく画像か否かを判定する処理を行う。つまり、照合不適判定処理部120は、フレーム毎に照合対象の画像とするか否か(照合がうまくいかない場合)の判定条件(例えば後述する図5のステップ5006~5009)に基づいて照合不適人物を判定する。
 端末装置103は、ネットワーク機能を有する一般のPC(パーソナルコンピュータ)で実現してもよいし、専用の検索端末でもよい。
 端末装置103は、機能構成として、検索要求送信部221、検索結果受信部222、検索結果表示部223、再生画像表示部224、画面操作検知部225、キーワード付与要求送信部112、複数検索キー選択部113の各処理部にて構成されている。また、本装置には、本発明の方式を実現するための人物検索機能も搭載している。
 検索要求送信部221は、検索要求の録画装置102への送信を行う。類似人物検索の場合、検索要求データには、検索キー画像が含まれる。また、検索要求データには、絞込みパラメータを含めることも可能である。
 検索結果受信部222は、検索結果の録画装置102からの受信を行う。検索結果として受信するデータには、録画装置102において、類似人物検索、あるいは、登場イベント検索を実施して得られた画像の集合が含まれる。集合を構成する個々の画像は、録画装置102に記録された映像から画像サイズ縮小処理等を施して生成される。以下、この個々の画像を「検索結果画像」、検索結果として送受信するデータを「検索結果データ」ということにする。
 検索結果表示部223は、検索結果受信部222にて受信した検索結果データの画面表示を行う。
 再生画像表示部224は、録画装置102から入力された画像データの画面への連続動画表示を行う。
 画面操作検知部225は、ユーザによる操作内容の検知および取得を行う。
 キーワード付与要求送信部112は、キーワード付与要求の録画装置102への送信を行う。
 複数検索キー選択部113は、検索キーが複数選択されたときにより少ない数の検索キーを適切に選択する処理を行う。尚、複数検索キー選択部113は録画装置102内に設けても良い。
 次に、撮像装置201のハードウェア構成について図2を用いて説明する。
 図2は本発明の一実施形態に係る画像処理システムに用いる撮像装置のハードウェア構成図である。
 撮像装置201は、撮像部241、主記憶部242、符号化部243、ネットワークI/F(Interface)245が、バス240で結合された形態で構成されている。
 撮像部241は、レンズで撮像した光信号をデジタルデータに変換する。
 符号化部243は、撮像部241が出力するデジタルデータを符号化して、JPEG(Joint Photographic Experts Group)などの画像データに変換する。
 主記憶部242は、撮像したデジタルデータ、符号化された画像データを記憶する。
 ネットワークI/F245は、主記憶部242に記憶されている画像データを、ネットワーク200を介して録画装置102に送信するためのインタフェースである。
 次に、録画装置102のハードウェア構成について図3を用いて説明する。
 図3は本発明の一実施形態に係る画像処理システムに用いる録画装置のハードウェア構成図である。
 録画装置102は、CPU(Central Processing Unit)251、主記憶部252、補助記憶部253、ネットワークI/F254が、バス250で結合された形態で構成されている。
 CPU251は、録画装置102の各部の制御と、機能を実現するためのプログラムの実行を行う。
 主記憶部252は、DRAM(Dynamic Random Access Memory)などの半導体装置で実現され、検索のための画像データやCPU251で実行するプログラムをロードして記憶するための中間的なメモリである。
 補助記憶部253は、HDDやフラッシュメモリなどで実現され、主記憶部252より大容量のメモリであり、画像データやプログラムを記憶する。
 ネットワークI/F254は、ネットワーク200を介して、撮像装置201からの画像データを受信したり、端末装置103から検索キーワードを受信したり、端末装置103に画像データを送信するためのインタフェースである。
 次に、端末装置103のハードウェア構成について図4を用いて説明する。
 図4は本発明の一実施形態に係る画像処理システムに用いる端末装置のハードウェア構成図である。
 端末装置103は、CPU261、主記憶部262、補助記憶部263、表示I/F264、入出力I/F265、ネットワークI/F266が、バス260で結合された形態で構成されている。
 CPU261は、端末装置103の各部の制御と、機能を実現するためのプログラムの実行を行う。
 主記憶部262は、DRAMなどの半導体装置で実現され、表示のための画像データやCPU261で実行するプログラムをロードして格納するための中間的なメモリである。
 補助記憶部263は、HDDやフラッシュメモリなどで実現され、主記憶部262より大容量のメモリであり、検索キーワード、画像データやプログラムを記憶する。
 表示I/F264は、表示装置270と接続するためのインタフェースである。
 入出力I/F265は、キーボード280やポインティングデバイスであるマウス282などの入出力装置と接続するためのインタフェースである。
 ネットワークI/F266は、ネットワーク200を介して、録画装置102からの画像データを受信したり、録画装置102に検索キーワードを送信したり、録画装置102から画像データを受信するためのインタフェースである。
 表示装置270は、例えば、LCD(Liquid Crystal Display)などの装置であり、画像や動画を表示する装置である。
 次に、本発明の一実施形態に係る画像処理システムに用いられる精度良く検索あるいは検知できない人物の一覧を作成あるいは通知する方法について図5及び図6を用いて説明する。
 図5は、本発明の一実施形態に係る画像処理システムに用いられる1人物あたりの登録処理手順を示す図である。
 図6は、本発明の一実施形態に係る画像処理システムに用いられる登録処理における、ある人物の画面上の画素数、向き、明るさ、装着物の有無及び判定結果を示す図である。
 本一実施例では、画像処理システムの類似画像検索において検索精度が、人物の画面上の画素数、向き、明るさ、装着物の有無と相関があることに基づいている。
 図5において、録画装置102のCPU251は、図1の録画装置102に記載の機能を用いて1人物あたりの登録処理を開始する。
 CPU251は、5001の処理で、主記憶部252および補助記憶部253の処理に必要なメモリ容量の確保と、照合実施判定フラグをNGに初期化する。
 画像の受信処理5002では、画像送受信部210によって画像の受信が行われる。
 人物領域の検出処理5003では、人物領域検出部213によって、画像から人物領域の検出が行われる。本一実施例では人物領域とは顔の領域である。
 人物領域の追跡処理5004では、人物領域検出部213によって、前回あるいは直前の数フレームの検出結果と、今フレームの検出結果から同一の人物は同一の人物として追跡する処理を行う。
 以下の処理は、照合不適判定処理部120において行う。
 追跡終了判定処理5005では、人物領域の追跡処理5004の結果、追跡が終わった人物が存在するか否かを判定し、追跡が終わった人物が存在する場合(YES)には5013の処理に進み、追跡が終わった人物が存在しない場合(NO)には5006の処理に進む。
 画素数判定処理5006では、対象の画像上の画素数が所定値以上か否かを判定し、画素数が所定値以上の場合(YES)には5007の処理に進み、画素数が所定値未満の場合(NO)には5002の処理に戻る。
 向き判定処理5007では、対象の見かけの向きが所定値以内か否かを判定し、向きが所定値以内の場合(YES)には5008の処理に進み、向きが所定値外の場合(NO)には5002の処理に戻る。
 明るさ判定処理5008では、対象の画像上の明るさが所定値以上か否かを判定し、明るさが所定値以上の場合(YES)には5009の処理に進み、明るさが所定値未満の場合(NO)には5002の処理に戻る。
 装着物判定処理5009では、対象の人物の顔におけるマスク等の装着物の有無を判定し、装着物が有る場合(YES)には5010の処理に進む。
 照合実施フラグをOKに変更処理5010では、当該人物の照合実施判定フラグをOKに変更する処理を行う。
 人物特徴量の抽出処理5011では、周知の画像認識技術を用いて特徴量算出を行う。
 人物特徴量の記録処理5012では、人物特徴量の抽出処理5011で算出した特徴量の記録媒体への書込みを行う。
 照合実施判定がNGか判定処理5013では、追跡を終了した人物の照合実施判定フラグがNGかOKかを判定し、照合実施判定フラグがNGの場合(YES)には5014の処理に進み、照合実施判定フラグがOKの場合(NO)には5006の処理に進む。
 人物特徴量の記録処理5014では、照合に適さない画像しか得られなかった人物を記録するための照合NG人物DB(Database;主記憶部252、補助記憶部253等)への書込みを行い、5006の処理に進む。
 次に、本発明の一実施例である画像処理システムの動作について図5と図6を用いて説明する。
 図6は本発明の一実施形態に係る画像処理システムに用いられる登録処理における、ある人物の画面上の画素数、向き、明るさ、装着物の有無及び判定結果を示す図である。
 図6(a)は人物Aが歩行する動画における判定結果を示すテーブル図である。なお、判定結果テーブルは主記憶部252、補助記憶部253等に記憶している  図6(a)(b)のテーブルにおいて、判定基準は、画素数が40以上、向きが左右15°以内、明るさが50以上、装着物がなしである。つまり、画素数、向き、明るさ、装着物の全ての判定基準が規定範囲内である場合のみ照合実施判定フラグはOKとなる。
 録画装置102のCPU251は、図6(a)の測定結果に基づいて図5の処理を実施する。
 1フレーム目は、画素数が“31”で、判定基準の “40”より小さいため、画素数判定処理5006において“NG”となり、画像の受信処理5002に戻る。
 2フレーム目は、画素数が “42”であり、判定基準の“40”以上であるため、向き判定処理5007に進み、向きが“左30°”で、判定基準の“左右15°以内”の判定基準を外れるので、向き判定処理5007において“NG”となり、画像の受信処理5002に戻る。
 3フレーム目は、画素数“43”、向き“右10°”と判定基準内であるため、明るさ判定処理5008に進み、明るさが“43”と判定基準値の“50以上”に満たないので、明るさ判定処理5008において“NG”となり、画像の受信処理5002に戻る。
 4フレーム目は、画素数“54”、向き“右10°”、明るさ“54”と判定基準内であるため、装着物判定処理5009に進み、装着物が“なし”であるため、5010の処理で照合実施判定フラグを“OK”に変更処理し、5011の処理に進む。
 その後、追跡終了判定処理5005において、人物Aの追跡が終了した(YES)と判定して5013の処理に進み、照合実施判定フラグがNGか判定処理5013に進み、4フレーム目において、照合実施判定フラグが“OK”となっているために判定NOとなり、5006の処理に進む。
 次に、録画装置102のCPU251は、図6(b)の測定結果に基づいて図5の処理を実施する。
 図6(b)は人物Bが歩行する動画における判定結果を示すテーブル図である。なお、判定結果テーブルは主記憶部252、補助記憶部253等に記憶している  図6(b)の測定結果において、フレーム1、フレーム2、フレーム3ともに、画素数、向き、明るさは判定基準内であり、装着物判定処理5009に進む。3つのフレームは全てが装着物 “あり”であるため、装着物判定処理5009で(YES)となり、画像の受信処理5002に戻る。
 その後、追跡終了判定処理5005において、人物Bの追跡が終了した(YES)と判定して5013の処理に進み、照合実施判定フラグがNGか判定処理5013に進み、全てのフレームにおいて、照合実施判定フラグが“NG” となっているために判定YESとなり、照合NG人物DBへの記録処理5014に進む。
 つまり、ある人物の画像(動画像)において、フレーム毎に照合適合か否かの判定を行い、照合実施(適合)判定フラグがOKのフレームが少なくとも1つあれば照合NG人物DBへの記録を行わないが、照合実施(適合)判定フラグが全てNGの場合には、照合NG人物DBへの記録を行うこととするものである。
 尚、本発明の一実施形態では、画素数、向き、明るさ、装着物の順でそれぞれの条件が規定範囲内であるかの判定を行っているが、必ずしも判定の順番はこれに限定されず、どのような順番でも良い。さらに、判定条件は、1つ以上であればいくつでもよく、どのような組み合わせでも構わない。
 次に、本発明の他の一実施形態について図7~図9を用いて説明する。  図7は、本発明の他の一実施形態に係る画像処理システムのシステム構成図である。
 図7に示すように、ネットワーク200に、撮像装置201、端末装置703が接続され、互いに通信可能な状態で構成されている。
 端末装置703は、機能構成として、画像送受信部710、人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215、類似人物検知部718、検知結果表示部723、照合不適判定処理部120の各処理部で構成されている。
 画像送受信部710は、装置外部からの画像入出力を行う処理部であり、撮像装置201からの入力画像データの受信を行う。
 人物領域検出部213、人物特徴量抽出部214、人物特徴量記録部215は、図1と同様であるので説明を省略する。
 類似人物検知部718は、画像送受信部710において撮像装置201から受信した画像に対し、人物領域検出部213で検出した結果、人物が含まれていた場合において、当該人物の特徴量を人物特徴量抽出部214で抽出した結果と、あらかじめ検知対象として記録しておいた人物特徴量記録部215に記録されている特徴量との比較を行い、類似度が所定値以上か否かの判定を行う。
 検知結果表示部723は、類似人物検知部718から得た類似人物検知結果を端末装置703のモニタに表示する。
 照合不適判定処理部120は、人物領域検出部213の検出結果に対し、照合がうまくいく画像か否かを判定する処理を行う。つまり、照合不適判定処理部120は、フレーム毎に照合対象の画像とするか否か照合不適合(照合がうまくいかない場合)の判定条件(例えば後述する図5のステップ8001~8003)に基づいて照合不適合人物を判定する。
 端末装置703は、一部の機能、例えば、人物領域検出部213が撮像装置201の内部にあってもよい。また、端末装置703は、機能を2つに分け、検知結果表示部723を別の端末装置内に移してもよい。なお、端末装置703のハードウェア構成は図4に示す端末装置103のハードウェア構成と同じであってもよい。
 次に、本発明の他の一実施形態に係る画像処理システムに用いる人物選択方法について図8及び図9を用いて説明する。
 図8は、本発明の一実施形態に係る画像処理システムに用いられる1画像あたりの照合処理手順を示す図である。
 図8の初期化処理5001から追跡終了判定5005までは図5の説明と同一であるので省略する。
 右目らしさ判定8001では、右目検出処理の結果得られた右目らしさの値に対して規定値(例えば0.5)以上であるか否かを判定し、規定値未満の場合(NO)には画像の受信処理5002に戻り、規定値以上の場合(YES)には左目らしさ判定処理8002に進む。例えば、対象の人物がサングラスをかけている場合、帽子を目深にかぶっている場合、向かって右を向いている場合のような照合処理がうまくいかない条件の場合に、右目らしさの値は規定値未満となる。
 左目らしさ判定8002では、左目検出処理の結果得られた左目らしさの値に対して規定値(例えば0.5)以上であるか否かを判定し、規定値未満の場合(NO)には画像の受信処理5002に戻り、規定値以上の場合(YES)には口らしさ判定処理8003に進む。例えば、対象の人物がサングラスをかけている場合、帽子を目深にかぶっている場合、向かって左を向いている場合のような照合処理がうまくいかない条件の場合に、左目らしさの値は規定値未満となる。
 口らしさ判定8003では、口検出処理の結果得られた口らしさの値に対して規定値(例えば0.5)以上であるか否かを判定し、規定値未満の場合(NO)には画像の受信処理5002に戻り、規定値以上の場合(YES)には5010の処理に進む。例えば、対象の人物がマスクをかけている場合のような照合処理がうまくいかない条件の場合に、口らしさの値は規定値未満となる。
 照合実施判定フラグをOKに変更処理5010および人物特徴量の抽出処理5011は図5の説明と同一であるので省略する。
 人物特徴量の比較による類似人物検知処理8004では、予め端末装置703の主記憶部や補助記憶部253等に記憶してある人物の特徴量と人物特徴量の抽出処理5011で算出した特徴量を比較し、似ているか否かを判定し、似ていれば、検知結果表示部723によって表示装置に表示し、ユーザに確認を促す。
 照合実施判定がNGか判定処理5013では、追跡を終了した人物の照合実施判定フラグがNGかOKかを判定し、照合実施判定フラグがNGの場合(YES)には8005の処理に進み、照合実施判定フラグがOKの場合(NO)には8001の処理に進む。
 照合NG人物の表示処理8005では、照合に適さない画像しか得られなかった人物を、検知結果表示部723によって表示装置に表示し、ユーザに確認を促す。
 図9は本発明の他の一実施形態に係る画像処理システムに用いられる、撮像装置で撮影した人物Cの顔のパーツ(左右の目と口)検出の対象らしさの値と照合実施判定フラグの関係を示す図である。
 図9(a)は人物Cが歩行する動画における判定結果を示すテーブル図である。
 人物Cは、マスクをかけてカメラ前を通行する人物であり、計3フレームの人物領域の検出が行われる人物である。
 ここで、1フレーム目から3フレーム目まで、全ての画像で右目検出の右目らしさの値と左目検出の左目らしさの値は規定値である0.5以上であり、口検出の口らしさの値は“0.04”、“0.02”、“0.01”と規定値である0.5未満の値となっている。
 よって、1フレーム目から3フレーム目まで全て、右目らしさ判定処理8001では左目らしさ判定処理8002に進み、左目らしさ判定処理8002は口らしさ判定処理8003に進む。
 次に、口らしさ判定処理8003において、口検出の口らしさの値が規定値である0.5未満(NO)であるので、画像の受信処理5002に戻る。
 その後、追跡終了判定処理5005において、人物Cの追跡が終了した(YES)と判定して5013の処理に進み、照合実施判定フラグがNGか判定処理5013に進み、全てのフレームにおいて、照合実施判定フラグが“NG”となっているために判定YESとなり、照合NG人物の表示処理8005へ進む。
 本発明の他の一実施例では、右目らしさ判定処理8001、左目らしさ判定処理8002及び口らしさ判定処理8003を設けたが、耳や鼻など人物の別の部分を両目及び口の代わりに、あるいは両目及び口に追加して判定する処理を設けてもよい。
 本発明の実施形態である画像処理システムは、特定の人物の類似画像検索あるいは類似画像検知で精度良く検索あるいは検知できない人物の一覧作成あるいは通知することができる。
 以上、本発明の一実施形態について詳細に説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変更して実施することができる。
 照合できない人物を判定結果毎に一覧にして照合リストから外すことによって、照合のうまくいかなかった人物のみの照合を再度行って、効率よく人物の照合を行う用途に適用できる。
 102:録画装置、103:端末装置、110:キーワード記録装置、111:キーワード検索部、112:キーワード付与要求送信部、113:複数検索キー選択部、120:照合不適判定処理部、200:ネットワーク、201:撮像装置、210:画像送受信部、211:画像記録部、212:再生制御部、213:人物領域検出部、214:人物特徴量抽出部、215:人物特徴量記憶部、216:属性情報記録部、217:要求受信部、218:類似人物検索部、219:登場イベント検索部、220:検索結果送信部、221:検索要求送信部、222:検索結果受信部、223:検索結果表示部、224:再生画像表示部、225:画面操作検知部、240:バス、241:撮像部、242:主記憶部、243:符号化部、245:ネットワークI/F、250:バス、251:CPU、252:主記憶部、253:補助記憶部、254:ネットワークI/F、260:バス、261:CPU、262:主記憶部、263:補助記憶部、264:表示I/F、265:入出力I/F、266:ネットワークI/F、270:表示装置、280:キーボード、282:マウス、703:端末装置、710:画像送受信部、718:類似人物検知部、723:検知結果表示部。

Claims (11)

  1.  ネットワークに接続された録画装置を有する画像処理システムであって、
     前記録画装置は、第一の処理として、一つの画像から特定の対象を検索した結果と、他の画像から前記特定の対象を検索した結果を照合し、
     第二の処理は、前記第一の処理の照合で特定の対象との照合不適合の判定条件を設定し、他の画像から前記特定の対象の照合が前記判定条件により、照合不適合と判定した場合に結果を通知することを特徴とする画像処理システム。
  2.  請求項1に記載の画像処理システムにおいて、
     前記第二の処理は、照合対象の特徴量を抽出し、予め設定している判定条件と比較し、前記特徴量が所定の類似度以上と判定した場合に結果を通知することを特徴とする画像処理システム。
  3.  請求項1に記載の画像処理システムにおいて、
     前記録画装置は、特徴量記録部を有し、
     前記第二の処理は、照合対象の特徴量を抽出して前記特徴量記録部に記憶し、入力されたキー画像の特徴量と前記特徴量記録部に記憶した特徴量を比較し、前記キー画像に類似度が高い結果を表示することを特徴とする画像処理システム。
  4.  請求項1から請求項3に記載の画像処理システムにおいて、
     前記特定の対象が人物の顔画像であることを特徴とする画像処理システム。
  5.  請求項1から請求項4に記載の画像処理システムにおいて、
     前記録画装置は、前記特定の対象の画像を複数フレームにまたがって追跡し、全てのフレームで照合不適合の条件であると判定した場合に判定結果を出力することを特徴とする画像処理システム。
  6.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件とする対象が画素数であり、画像上の対象の画素数が所定値未満の場合に照合に適さないと判定することを特徴とする画像処理システム。
  7.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件とする対象が向きであり、画像上の対象の向きが所定値の範囲以外の場合に照合に適さないと判定することを特徴とする画像処理システム。
  8.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件とする対象が明るさであり、画像上の対象の明るさが所定値未満の場合に照合に適さないと判定することを特徴とする画像処理システム。
  9.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件とする対象あるいは対象の一部が度合いであり、画像上の対象あるいは対象の一部の度合いが所定値未満の場合に照合に適さないと判定することを特徴とする画像処理システム。
  10.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件が対象への装着物の有無であり、画像上の対象に装着物が有る場合に照合に適さないと判定することを特徴とする画像処理システム。
  11.  請求項1から請求項5に記載の画像処理システムにおいて、
     前記録画装置は、前記照合が不適合の判定条件が対象の画素数、対象の向き、対象の明るさ、対象への装着物の有無であることを特徴とする画像処理システム。
PCT/JP2016/076837 2015-09-28 2016-09-12 画像処理システム Ceased WO2017056948A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017543087A JPWO2017056948A1 (ja) 2015-09-28 2016-09-12 画像処理システムおよび画像処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015189709 2015-09-28
JP2015-189709 2015-09-28

Publications (1)

Publication Number Publication Date
WO2017056948A1 true WO2017056948A1 (ja) 2017-04-06

Family

ID=58423612

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/076837 Ceased WO2017056948A1 (ja) 2015-09-28 2016-09-12 画像処理システム

Country Status (2)

Country Link
JP (1) JPWO2017056948A1 (ja)
WO (1) WO2017056948A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024190123A1 (ja) * 2023-03-16 2024-09-19 日本電気株式会社 処理装置、処理方法、及び記録媒体

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000030066A (ja) * 1998-07-15 2000-01-28 Matsushita Electric Ind Co Ltd 顔画像照合方法及び顔画像照合装置
JP2010257449A (ja) * 2009-03-31 2010-11-11 Sogo Keibi Hosho Co Ltd 人物検索装置、人物検索方法、及び人物検索プログラム
JP2012003623A (ja) * 2010-06-18 2012-01-05 Toshiba Corp 顔画像検索装置および顔画像検索方法
JP2012083997A (ja) * 2010-10-13 2012-04-26 Hitachi Information & Communication Engineering Ltd 認証システム及び認証の信頼度の判定方法
JP2012212969A (ja) * 2011-03-30 2012-11-01 Secom Co Ltd 画像監視装置
JP2014071680A (ja) * 2012-09-28 2014-04-21 Secom Co Ltd 顔認証装置
WO2015025704A1 (ja) * 2013-08-23 2015-02-26 日本電気株式会社 映像処理装置、映像処理方法および映像処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000030066A (ja) * 1998-07-15 2000-01-28 Matsushita Electric Ind Co Ltd 顔画像照合方法及び顔画像照合装置
JP2010257449A (ja) * 2009-03-31 2010-11-11 Sogo Keibi Hosho Co Ltd 人物検索装置、人物検索方法、及び人物検索プログラム
JP2012003623A (ja) * 2010-06-18 2012-01-05 Toshiba Corp 顔画像検索装置および顔画像検索方法
JP2012083997A (ja) * 2010-10-13 2012-04-26 Hitachi Information & Communication Engineering Ltd 認証システム及び認証の信頼度の判定方法
JP2012212969A (ja) * 2011-03-30 2012-11-01 Secom Co Ltd 画像監視装置
JP2014071680A (ja) * 2012-09-28 2014-04-21 Secom Co Ltd 顔認証装置
WO2015025704A1 (ja) * 2013-08-23 2015-02-26 日本電気株式会社 映像処理装置、映像処理方法および映像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024190123A1 (ja) * 2023-03-16 2024-09-19 日本電気株式会社 処理装置、処理方法、及び記録媒体

Also Published As

Publication number Publication date
JPWO2017056948A1 (ja) 2018-07-19

Similar Documents

Publication Publication Date Title
JP5863400B2 (ja) 類似画像検索システム
US20220375262A1 (en) Object tracking and best shot detection system
US10062406B2 (en) Video masking processing method and apparatus
US8254752B2 (en) Method and system for replaying a movie from a wanted point by searching specific person included in the movie
US20210248356A1 (en) Method and apparatus for face recognition
CN102959585B (zh) 属性确定方法、属性确定装置及属性确定系统
CN113302907B (zh) 拍摄方法、装置、设备及计算机可读存储介质
US20110096994A1 (en) Similar image retrieval system and similar image retrieval method
CN112163503A (zh) 办案区人员无感轨迹生成方法、系统、存储介质及设备
CN109997130A (zh) 视频检索装置、数据存储方法以及数据存储装置
US9135273B2 (en) Similar image search system
US8130285B2 (en) Automated searching for probable matches in a video surveillance system
JP6589082B2 (ja) 類似画像検索システム
JP6485978B2 (ja) 画像処理装置および画像処理システム
JP6214762B2 (ja) 画像検索システム、検索画面表示方法
KR100827848B1 (ko) 영상 통화 기록을 이용하여 디지털 데이터에 포함된 인물을인식하고 화면에 영상을 디스플레이하는 방법 및 시스템
JP5826513B2 (ja) 類似画像検索システム
WO2017056948A1 (ja) 画像処理システム
CN113657155A (zh) 一种行为检测方法、装置、计算机设备和存储介质
JP6922768B2 (ja) 情報処理装置
JP2012049774A (ja) 映像監視装置
Yoshino et al. A new retrieval system for a database of 3D facial images
JP2015064656A (ja) 画像検索システム
JP2023025914A (ja) 顔認証装置、顔認証方法、及びコンピュータプログラム
KR20220090940A (ko) 스토리 기반 영상매체의 등장인물 시선 추적을 통한 화자-청자 인식 및 시선 상호작용 분석 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16851122

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017543087

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16851122

Country of ref document: EP

Kind code of ref document: A1