[go: up one dir, main page]

WO2014030442A1 - 入力装置、入力方法、プログラム、及び、電子看板 - Google Patents

入力装置、入力方法、プログラム、及び、電子看板 Download PDF

Info

Publication number
WO2014030442A1
WO2014030442A1 PCT/JP2013/068533 JP2013068533W WO2014030442A1 WO 2014030442 A1 WO2014030442 A1 WO 2014030442A1 JP 2013068533 W JP2013068533 W JP 2013068533W WO 2014030442 A1 WO2014030442 A1 WO 2014030442A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis result
recognition target
imaging
analysis
imaging frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2013/068533
Other languages
English (en)
French (fr)
Inventor
太田 雅彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of WO2014030442A1 publication Critical patent/WO2014030442A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means

Definitions

  • the present invention relates to an input device, an input method, a program, and an electronic signboard.
  • Patent Document 1 discloses a method for recognizing and tracking a gesture and receiving an input based on the gesture.
  • a gesture image is captured by an image sensor
  • an object moved from the gesture image is detected, and then the detected object is analyzed.
  • the cursor is controlled based on the gesture.
  • an operation instruction related to the instruction gesture is output.
  • a means for suppressing the price of the system a means using a general-purpose image sensor or distance sensor and an image processing circuit can be considered.
  • Patent Document 1 As described above, when an inexpensive image sensor or distance sensor and an image processing circuit are used, it is a problem that malfunction due to erroneous recognition is likely to occur due to a decrease in recognition accuracy. The technique described in Patent Document 1 is not configured to solve such a problem.
  • an object of the present invention is to provide a gesture input technique that suppresses the occurrence of erroneous recognition and realizes high operability and operation accuracy.
  • Analysis result storage means for storing the analysis result analyzed by the analysis means;
  • the analysis unit uses the analysis result of the first imaging frame and the analysis result of a predetermined number of imaging frames immediately before the first imaging frame stored in the analysis result storage unit, the analysis unit analyzes Valid judgment means for judging whether the analysis result of the first imaging frame is valid;
  • Effective analysis result storage means for storing the analysis result determined to be effective by the validity determination means;
  • Correspondence information storage means for storing correspondence information in which the recognition target aspect identified based on the shape and / or position is associated with the input content;
  • An input receiving means for specifying an aspect of the recognition target using an analysis result stored in the effective analysis result storage means, and receiving an input of an input content associated with the specified aspect;
  • An input device is provided.
  • an electronic signboard provided with the above input device is provided.
  • Computer Analyzing means for acquiring a plurality of imaging frames continuous in time series from the imaging means, extracting a predetermined recognition target for each imaging frame, and identifying the shape and / or position of the extracted recognition target;
  • Analysis result storage means for storing the analysis results analyzed by the analysis means;
  • the analysis unit uses the analysis result of the first imaging frame and the analysis result of a predetermined number of imaging frames immediately before the first imaging frame stored in the analysis result storage unit, the analysis unit analyzes Valid determination means for determining whether the analysis result of the first imaging frame is valid;
  • Effective analysis result storage means for storing the analysis result determined to be effective by the validity determination means;
  • Correspondence information storage means for storing correspondence information in which the aspect of the recognition target specified based on the shape and / or position is associated with the input content;
  • An input receiving means for specifying an aspect of the recognition target using an analysis result stored in the effective analysis result storage means and receiving an input of an input content associated with the specified aspect;
  • a program for functioning as a server is provided.
  • Computer An analysis step of acquiring a plurality of imaging frames continuous in time series from the imaging means, extracting a predetermined recognition target for each imaging frame, and identifying the shape and / or position of the extracted recognition target; An analysis result accumulation step for accumulating the analysis results analyzed in the analysis step; The analysis result of the first imaging frame and the analysis result of the predetermined number of imaging frames immediately before the first imaging frame accumulated in the analysis result accumulation step are analyzed in the analysis step.
  • Correspondence in which the aspect of the recognition target is associated with the input content after specifying the aspect of the recognition target specified based on the shape and / or position using the analysis result stored in the effective analysis result storage step An input receiving step for receiving input of the input content associated with the identified mode with reference to the information;
  • An input method for performing is provided.
  • the apparatus includes an arbitrary computer CPU, memory, and a program loaded in the memory (a program stored in the memory in advance from the stage of shipping the apparatus, a storage medium such as a CD, and the like on the Internet). And a storage unit such as a hard disk for storing the program, and a network connection interface, and any combination of hardware and software. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus.
  • each device is described as being realized by one device, but the means for realizing it is not limited to this. That is, it may be a physically separated configuration or a logically separated configuration.
  • the validity of the analysis result of the imaging frame is judged each time the imaging frame is analyzed, and Only the input corresponding to the shape specified by the analysis of the imaging frame determined to be received is accepted.
  • recognition results (recognition target shape) of a predetermined number of imaging frames immediately before the first imaging frame are obtained. Compare. If all the recognition results match, the analysis result of the first imaging frame is determined to be valid, and an input corresponding to the shape of the recognition target identified by analyzing the first imaging frame is accepted.
  • the shape of the recognition target identified by analyzing the first imaging frame is different from any of the recognition results (recognition target shapes) of the predetermined number of imaging frames immediately before the first imaging frame, the first The analysis result of the imaging frame is determined to be invalid. In such a case, the input corresponding to the shape of the recognition target identified by analyzing the first imaging frame is not accepted, and the process proceeds to the next imaging frame.
  • FIG. 1 shows an example of a functional block diagram of the input device 1 of the present embodiment.
  • the input device 1 of the present embodiment includes an analysis unit 10, an analysis result storage unit 20, a validity determination unit 30, a valid analysis result storage unit 40, a correspondence information storage unit 50, and an input reception unit. 60 and an imaging unit 70.
  • the input device 1 may not include the imaging unit 70.
  • the imaging device having the imaging unit 70 and the input device 1 are configured to be able to communicate with each other by wire and / or wirelessly, and the imaging frame generated by the imaging unit 70 is input to the analysis unit 10 of the input device 1.
  • each part will be described.
  • the imaging unit 70 is capable of imaging a predetermined recognition target (eg, a predetermined part of a person, a human hand, a whole body of a person, a predetermined part of a robot, other objects whose shape changes, etc.) so that the shape can be recognized.
  • a predetermined recognition target eg, a predetermined part of a person, a human hand, a whole body of a person, a predetermined part of a robot, other objects whose shape changes, etc.
  • the configuration is not particularly limited.
  • the imaging unit 70 is based on a fixed monocular camera (CCD camera), an image sensor corresponding thereto, a distance image sensor using a monocular or binocular image sensor, a time-of-flight method using a laser, or a laser pattern projection method.
  • a range image sensor or the like can be included. Note that the present invention is not limited to these.
  • the imaging unit 70 continuously captures a predetermined area using such a camera or sensor, and generates a pluralit
  • the analysis unit 10 acquires a plurality of imaging frames that are continuous in time series from the imaging unit 70. When the imaging unit 70 generates an imaging frame, the analysis unit 10 can acquire it in real time. And the analysis part 10 analyzes for every imaging frame, extracts a recognition target, and specifies the shape of the extracted recognition target.
  • the analysis unit 10 may hold feature amount information indicating the feature amount of the recognition target in advance, and extract the recognition target from the imaging frame using the feature amount information and known image recognition means. it can. Thereafter, the analysis unit 10 extracts the feature amount of the extracted shape of the recognition target. Then, the analysis unit 10 calculates the feature amount of each specific shape that is at least one shape that can be taken by the recognition target (eg, when the recognition target is a human hand, par, goo, choki, a finger pointing operation, etc.).
  • the feature quantity information shown is stored in advance, and the feature quantity information, the feature quantity extracted from the shape of the recognition target, and known image recognition means are used to change the shape of the recognition target into any specific shape.
  • the shape of the recognition target can be specified by determining whether or not they are more than a predetermined similarity (design item).
  • the analysis unit 10 outputs (1) the extracted shape of the recognition target (specific shape) or (2) no analysis result as an analysis result for each imaging frame.
  • the analysis unit 10 outputs (2) no analysis result when the recognition target is not extracted from the imaging frame, and when the extracted shape of the recognition target is not matched with any specific shape. To do.
  • the analysis unit 10 may have a specific shape that is at least one shape that can be taken by the recognition target (eg, when the recognition target is a human hand, par, goo, choki, finger pointing operation, etc.).
  • Feature amount information indicating each feature amount may be held in advance, and a recognition target may be extracted from the imaging frame using the feature amount information and known image recognition means.
  • the shape of the recognition target (specific shape) can be specified simultaneously with the extraction of the recognition target. For example, when a human hand (recognition target) is extracted from the imaging frame using feature amount information indicating the feature amount of goo, the extracted hand shape can be specified as goo.
  • the analysis unit 10 outputs (1) the shape of the extracted recognition target or (2) no analysis result as an analysis result for each imaging frame. Note that the analysis unit 10 outputs (2) no analysis result when the recognition target is not extracted.
  • the analysis result storage unit 20 stores the analysis results analyzed by the analysis unit 10.
  • the analysis result storage unit 20 stores the analysis results regardless of the validity of the analysis results of the analysis unit 10.
  • the analysis result storage unit 20 only needs to store analysis results of a predetermined number of imaging frames from a newer one used for determination by the validity determination unit 30 described below. For example, when the number of stored analysis results exceeds a predetermined number as a result of storing new analysis results, the analysis result storage unit 20 deletes the oldest analysis results to store the stored analysis results. May be kept below a predetermined number. Note that the analysis result storage unit 20 may store all analysis results without adjusting the number of analysis results stored in this way.
  • the validity determination unit 30 acquires the analysis result of a certain imaging frame (first imaging frame) analyzed by the analysis unit 10 in real time. Then, the validity determination unit 30 uses the analysis result of the first imaging frame and the analysis results of a predetermined number of imaging frames immediately before the first imaging frame stored in the analysis result storage unit 20, It is determined whether or not the analysis result of the first imaging frame analyzed by the analysis unit 10 is valid.
  • the validity determination unit 30 captures a predetermined number of images immediately before the analysis result identified in the first imaging frame (the above (1) or (2). In the case of (1), the specific shape). It is determined whether the analysis results of the frames match, and if all the analysis results of the predetermined number of imaging frames match, it is determined that the analysis results of the first imaging frame are valid.
  • the analysis result specified in the first imaging frame is (1) above
  • the shape of the recognition target (specific shape) specified in the first imaging frame is specified in the predetermined number of imaging frames immediately before it. If all the shapes (specific shapes) to be recognized match, it is determined that the analysis result of the first imaging frame is valid.
  • the analysis result specified in the first imaging frame (above (1) or (2)) is different from any of the analysis results of the predetermined number of imaging frames immediately before it, The analysis result of the imaging frame is determined to be invalid.
  • the number of the predetermined number of imaging frames immediately before the first imaging frame used for the determination is that a time lag between the imaging frames or a defect that may cause a recognition error of the shape of the recognition target straddles a plurality of imaging frames. It can be set based on the number of times (number of frames) that can appear continuously. For example, when it is desired to suppress the occurrence of misrecognition due to a defect that appears continuously over approximately 3 to 5 imaging frames, the number of imaging frames immediately before the first imaging frame used for the determination is set to 5. Can do. In this way, it is determined that an analysis result obtained continuously over six or more imaging frames is valid, and an analysis result having fewer consecutive numbers is determined to be invalid. That is, it is possible to determine that an analysis result reflecting a defect that appears continuously over only 3 to 5 imaging frames is invalid.
  • the effective analysis result storage unit 40 stores the analysis result that the validity determination unit 30 determines to be effective.
  • the above-described analysis result storage unit 20 stores the analysis results analyzed by the analysis unit 10 regardless of the validity, but the effective analysis result storage unit 40 stores the analysis results determined by the validity determination unit 30 to be valid. In this respect, these storage units are different.
  • the effective analysis result storage unit 40 may store only the latest analysis result determined to be effective by the validity determination unit 30, and may update the new analysis result every time a new effective analysis result is obtained. However, only the predetermined number (plural) of new ones are stored, and when new effective analysis results are obtained, if the number of stored analysis results exceeds the predetermined number, the oldest one is deleted in order. Alternatively, all analysis results determined to be valid by the validity determining unit 30 may be stored.
  • the correspondence information storage unit 50 stores correspondence information in which the recognition target mode specified based on the shape is associated with the input content.
  • the form of the recognition target is, for example, the shape of the recognition target itself or a change in the shape of the recognition target.
  • the shape of the recognition target can be specified by one imaging frame.
  • the change in the shape of the recognition target can be specified by a plurality of continuous imaging frames.
  • the shape (aspect) of the recognition target is a par, goo, choki, a finger pointing operation, or the like.
  • the change (mode) of the shape of the recognition target is a change from par to goo, a change from par to choke, and the like.
  • Correspondence information is information in which a predetermined input content is associated with each of at least one aspect of the recognition target.
  • the input content is not particularly limited.
  • “recognition target form: hand shape is par” “input content: cursor in the electronic signboard” "Input for moving the object”, “recognition target: hand shape is goo”-”input content: input for determining an object selected by the cursor in the electronic signboard”, and the like.
  • this illustration is an example to the last, and is not limited to this.
  • the input receiving unit 60 specifies the recognition target aspect using the latest analysis result stored in the effective analysis result storage unit 40 or a predetermined number of analysis results from the newest one.
  • the input reception unit 60 specifies the shape (mode) of the recognition target using the latest analysis result stored in the effective analysis result storage unit 40.
  • the change (mode) of the shape of the recognition target is specified using a predetermined number of analysis results from the newer one stored in the effective analysis result storage unit 40.
  • the input receiving unit 60 After identifying the recognition target aspect, the input receiving unit 60 refers to the correspondence information stored in the correspondence information storage unit 50, extracts the input content associated with the identified recognition target aspect, and the extracted input Accept content input.
  • the input receiving unit 60 can execute the above-described process every time a new analysis result is stored in the valid analysis result storage unit 40.
  • FIG. 2 is a flowchart showing steps for inputting predetermined information based on an operator's gesture using the input method of the present embodiment.
  • a computer or a machine operates according to the input. That is, for example, a computer or a machine is operated by an operator's gesture.
  • the flowchart of FIG. 2 shows the flow of processing for one imaging frame.
  • S201 image capture / capture processing S202 pre-processing (background processing / noise processing), S203 gesture recognition processing by the shape of the recognition target, S204 post-processing (recognition validity determination processing), S205 gesture operation execution processing, including.
  • the analysis unit 10 acquires an imaging frame from the imaging unit 70.
  • the analysis unit 10 processes the imaging frame captured in S201 by a digital signal processor (DSP) or a central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • the image for one frame obtained in S201 may include image information other than the human body. If image information other than the human body is still included, the execution efficiency of the image processing deteriorates, and the processing may take time. In addition, since the image obtained in S201 may contain a lot of noise, there is a possibility that the misrecognition rate increases if it is used as it is for gesture recognition by shape. Therefore, the captured image is preferably preprocessed before being analyzed.
  • S202 first, the layer in which the operator is shown and the background layer are separated by background separation processing, and an image of one frame showing the operator is taken out. Thereafter, the spot-like noise that is likely to occur in the image is removed by applying at least one of a low-pass filter, a median filter, and a moving average filter. The subsequent processing is performed using an image for one frame in which the operator is obtained by this preprocessing. By doing in this way, the accuracy of detection and recognition in subsequent processing can be improved.
  • the analysis unit 10 processes the image for one frame in which the operator obtained in S202 is captured by a digital signal processor (DSP) or a central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • a part that can be regarded as an image of a hand to be recognized is extracted from the image by extracting features from the image shown by the operator.
  • the features of the extracted hand image and the features of each specific shape that is at least one shape that can be taken by a pre-registered hand (recognition target) eg, par, goo, choki, finger pointing operation, etc.
  • the shape of the hand (specific shape) is specified by determining whether or not the extracted shape of the hand is a specific shape by using feature amount information indicating the amount and known image recognition means.
  • the extracted shape of the recognition target (specific shape) or (2) no analysis result is obtained as the analysis result for the imaging frame. Note that the analysis result when the recognition target is not extracted from the imaging frame and when the extracted recognition target shape does not match any specific shape is (2) no analysis result.
  • DSP digital signal processor
  • CPU central processing unit
  • S311 it is determined whether or not it is the first execution. If processing is performed on another imaging frame before processing on the imaging frame, NO is determined, and if not, YES is determined.
  • a storage device that stores analysis results for N frames (N is a design matter) and a storage that stores analysis results determined to be valid in S312.
  • the device (effective analysis result storage unit 40: memory) is secured and initialization is performed.
  • the storage device (analysis result storage unit 20) that stores the analysis results for N frames may store (2) no analysis result as an initial value. If NO is determined in S311, the process of S312 is not performed.
  • the analysis result obtained in S203 shown in FIG. 2 is stored in the analysis result storage unit 20.
  • the oldest analysis is performed. The result is deleted from the analysis result storage unit 20 (or the oldest analysis result is overwritten with the latest analysis result).
  • the validity determination unit 30 determines whether or not the analysis results stored in the analysis result storage unit 20 are all the same.
  • the initial value ((2) no analysis result) is stored in the analysis result storage unit 20 from the beginning until the processing for N frames is performed, and these can also be used to determine the validity of the analysis result. it can.
  • the latest analysis result is determined to be valid in S315, and the latest analysis result is stored in the effective analysis result storage unit 40. If another analysis result is stored in the effective analysis result storage unit 40, the other analysis result is rewritten to the latest analysis result. Then, the post-processing of S204 ends.
  • the input receiving unit 60 recognizes the latest valid analysis result stored in the valid analysis result storage unit 40, and specifies the recognition target mode using the analysis result. . Thereafter, using the correspondence information stored in the correspondence information storage unit 50, the input content associated with the identified aspect of the recognition target is extracted and the input content is accepted.
  • the process of S205 may be executed only when the latest valid analysis result stored in the valid analysis result storage unit 40 is updated in S204. These are processed by a digital signal processor (DSP) or central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • FIG. 4A shows a case where there is no post-processing of this embodiment (comparative example)
  • FIG. 4B shows a case where there is post-processing of this embodiment (example).
  • the time axis is taken on the horizontal axis.
  • the object to be recognized was a hand, which was initially shaped like a goo, and then changed to a par.
  • the analysis result is shown in the analysis result column.
  • A indicates that the analysis result is “Goo”
  • B indicates that the analysis result is “par”.
  • One vertical column corresponds to one frame.
  • a correct analysis result is obtained when the hand shape is goo, but an incorrect analysis result for two frames is obtained when the hand shape is par. That is, there is a place where the analysis result is “A” even though the hand shape is par.
  • Such a misrecognition is a misrecognition that may occur when the hand angle changes slightly, when an accurate determination cannot be made due to a sensor malfunction, or when an operation is performed while moving the hand.
  • the analysis result is used as it is to determine the input content (output recognition result).
  • the value in the analysis result column matches the value in the recognition result output column in any imaging frame.
  • the input contents are accepted while reflecting the erroneous analysis results for two frames generated when the hand shape is par.
  • the input corresponding to goo is accepted, and then the input corresponding to par is accepted.
  • the input result corresponding to goo is accepted, and then the input corresponding to par is accepted. It accepts an extra input, such as accepting an input corresponding to Goo and further accepting an input corresponding to Par.
  • the analysis result is not a value for determining the input content as it is, but the value after receiving the post-processing is a value for determining the input content (post- Output after processing: a value stored in the effective analysis result storage unit 40).
  • the validity of the analysis result of the latest frame is determined using the analysis results of the past two frames. Specifically, when the analysis results of the past two frames and the analysis result of the latest imaging frame all match, the analysis result of the latest imaging frame is validated. On the other hand, when the analysis results of the past two frames and the analysis result of the latest imaging frame do not completely match, the analysis result of the latest imaging frame is invalidated.
  • the analysis result A is obtained from the first imaging frame, but the analysis results from the first to the second imaging frame are the analysis results for the past two frames. Since they do not match (because the initial value (2) includes no analysis result (“ ⁇ ” in the figure)), the analysis results for these imaging frames are determined to be invalid (the value in the validity column is “X”). . Therefore, these analysis results do not become post-processed output values (values stored in the effective analysis result storage unit 40), and post-processed output values are initial values ("-" in the figure). Remains. However, since the analysis result of the third imaging frame from the beginning matches the analysis result of the past two frames, it is determined to be valid (the value in the validity column is circled). For this reason, the value of the output after the post-processing (the value stored in the effective analysis result storage unit 40) is the value of the analysis result of the third imaging frame. Similar processing is performed for other imaging frames.
  • the erroneous analysis result that occurred when the hand shape was par is continuous for only two frames.
  • the latest imaging is performed. Since the analysis result of the frame is determined to be valid, the erroneous analysis result that is continuous for only two frames is determined to be invalid. For this reason, the output value after the post-processing (the value stored in the effective analysis result storage unit 40) is not updated by such an erroneous analysis result. As a result, it is possible to eliminate input based on such erroneous analysis results.
  • the post-processed output value (the value stored in the valid analysis result storage unit 40) can be provided with hysteresis, an erroneous recognition result is eliminated.
  • the input content can be stabilized. This is effective in the case where chattering occurs in gesture recognition by shape and becomes unstable due to a lack of resolution of a recognition target or a malfunction of a recognition engine.
  • ⁇ Second Embodiment> when an imaging frame is analyzed and a recognition target (eg, a human hand) is extracted, the position of the recognition target is specified as an analysis result. Then, using the analysis result (recognition target position) and the analysis results of a predetermined number of imaging frames immediately before the imaging frame, the validity of the analysis result for the imaging frame is determined. Specifically, the movement amount of the recognition target is calculated, and if the movement amount is larger than a predetermined threshold, the analysis result for the imaging frame is invalidated.
  • a recognition target eg, a human hand
  • the recognition target was moving at high speed during imaging (at the moment of imaging).
  • the frame rate is low, an afterimage is generated in a portion moved at high speed, and the shape of the portion may not be clearly imaged.
  • the shape of the recognition target is erroneously recognized. For example, if an image is taken while a par-shaped hand (recognition target) is moving at high speed, the finger part is not recognized as a part of the hand (recognition target), and the recognition target shape is erroneously recognized as goo. There is a risk of doing.
  • the movement amount of the recognition target when the movement amount of the recognition target is large, it is a case where the recognition target is moving at a high speed at the time of imaging. Therefore, the analysis result for the imaging frame captured at such time is uniformly invalidated. As a result, an input technique using a gesture that suppresses the occurrence of misrecognition and realizes high operability and operation accuracy is realized.
  • FIG. 1 An example of a functional block diagram of the input device 1 of the present embodiment is shown in FIG. 1 as in the first embodiment.
  • the analysis unit 10 further analyzes the imaging frame acquired from the imaging unit 70 and identifies the position of the extracted recognition target.
  • the position of the recognition target may be specified by three-dimensional coordinates (may be determined in real space) in which the origin, the X axis, the Y axis, and the Z axis, which are orthogonal to each other, are determined.
  • the means is not particularly limited, and may be realized, for example, by calculating three-dimensional information using an imaging frame of a distance image acquired from the imaging unit 70 configured to include a distance image sensor.
  • the analysis unit 10 may calculate the position of the center of the recognition target as the position of the recognition target, or may calculate the position of another predetermined location as the position of the recognition target.
  • the validity determination unit 30 acquires the analysis result of a certain imaging frame (first imaging frame) analyzed by the analysis unit 10 in real time. Then, the validity determination unit 30 analyzes the analysis result of the first imaging frame and the analysis result of a predetermined number (one or two or more) of imaging frames immediately before the first imaging frame stored in the analysis result storage unit 20. Are used to determine whether the analysis result of the first imaging frame analyzed by the analysis unit 10 is valid.
  • the validity determination unit 30 uses the recognition target position specified by the first imaging frame and the recognition target positions specified by the predetermined number of imaging frames immediately before the first imaging frame. The amount of movement of the recognition target specified in (1) is calculated. If the amount of movement is less than or equal to a predetermined threshold value or smaller than the predetermined threshold value, it is determined that the analysis result of the first imaging frame is valid.
  • the validity determination unit 30 uses a plurality of recognition target positions identified by a predetermined number (two or more in this case) of imaging frames immediately before the first imaging frame, for example, an X coordinate and a Y coordinate. The average value is calculated for each Z coordinate. Thereafter, the amount of movement of the recognition target is calculated using the position of the recognition target specified in the first imaging frame and the position calculated by the process of calculating the average value. If the calculated movement amount is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value, the analysis result of the first imaging frame may be determined to be valid.
  • the position of the recognition target specified by the first imaging frame and the position of the recognition target specified by the predetermined number of imaging frames immediately before are managed as position vectors.
  • the amount of movement of the recognition target specified in the first imaging frame is calculated using the absolute value of the difference between these position vectors. If the calculated movement amount is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value, the analysis result of the first imaging frame may be determined to be valid.
  • the validity determination unit 30 determines the position of the recognition target specified by the first imaging frame and the position of the recognition target specified by a predetermined number (two or more in this case) of the imaging frames immediately before the recognition target position. After calculating a plurality of movement amounts of the recognition target specified in the first imaging frame, the average value is calculated. Then, when the average movement amount is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value, the analysis result of the first imaging frame may be determined to be valid.
  • a predetermined number of imaging frames (two or more in this example) immediately before are weighted in advance. Newer imaging frames are given greater weight. That is, the weighting value of the imaging frame immediately before (the previous one) of the first imaging frame is the largest, and the weighting value of the imaging frame two times before the first imaging frame is the next largest.
  • the validity determining unit 30 uses the recognition target position specified in the first imaging frame and the recognition target positions specified in the predetermined number of imaging frames immediately before the first imaging frame. After calculating a plurality of movement amounts of the identified recognition target, each movement amount is corrected (multiplying the weighting values, adding the weighting values, etc.) using the weighting values. Then, an average value of the corrected values may be calculated, and if the average movement amount is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value, it may be determined that the analysis result of the first imaging frame is valid.
  • the validity determination unit 30 analyzes the analysis result of the first imaging frame and the analysis of a predetermined number of imaging frames immediately before it when the movement amount or the average movement amount is greater than or equal to or greater than a predetermined threshold. If the result includes (2) no analysis result, the analysis result of the first imaging frame may be determined to be invalid.
  • the recognition target mode specified based on the position is associated with the input content.
  • Corresponding information may be stored.
  • the form of the recognition target specified based on the position is, for example, the position of the recognition target itself or the movement trajectory (movement direction, movement amount, etc.) of the recognition target.
  • the position of the recognition target can be specified by one imaging frame.
  • the movement trajectory of the recognition target can be specified by a plurality of continuous imaging frames.
  • the mode of the recognition target specified based on the position and shape of the recognition target includes the mode of the recognition target specified based on the position of the recognition target and the recognition target specified based on the shape of the recognition target. It is possible to combine the embodiments. For example, when the recognition target is a human hand, the movement is upward in a par state.
  • FIG. 2 is a flowchart showing steps for inputting predetermined information based on an operator's gesture using the input method of the present embodiment.
  • a computer or a machine operates according to the input. That is, for example, a computer or a machine is operated by an operator's gesture.
  • the flowchart of FIG. 2 shows the flow of processing for one imaging frame.
  • S201 image capture / capture processing S202 pre-processing (background processing / noise processing), S203 gesture recognition processing by the shape of the recognition target, S204 post-processing (recognition validity determination processing), S205 gesture operation execution processing, including.
  • the analysis unit 10 processes the image for one frame in which the operator obtained in S202 is captured by a digital signal processor (DSP) or a central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • a part that can be regarded as an image of a hand to be recognized is extracted from the image extracted by the operator, and then the position of the extracted hand is calculated.
  • (1) the position of the extracted recognition target or (2) no analysis result is obtained as the analysis result for the imaging frame.
  • the analysis result when the recognition target is not extracted from the imaging frame is (2) no analysis result.
  • the analysis result may include a shape to be recognized (specific shape).
  • DSP digital signal processor
  • CPU central processing unit
  • S511 it is determined whether or not it is the first execution. If processing is performed on another imaging frame before processing on the imaging frame, NO is determined, and if not, YES is determined.
  • a storage device that stores analysis results for N frames (N is a design matter) and a storage that stores analysis results determined to be valid in S512.
  • the device (effective analysis result storage unit 40: memory) is secured and initialization is performed.
  • the storage device (analysis result storage unit 20) that stores the analysis results for N frames may store (2) no analysis result as an initial value. If it is determined NO in S511, the process of S512 is not performed.
  • the validity determination unit 30 calculates the movement amount (position change amount) of the latest analysis result by using the latest analysis result and the other N-1 analysis results, and the movement amount (position change amount). It is determined whether (change amount) is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value. Since the process of calculating the movement amount (position change amount) of the latest analysis result by the validity determination unit 30 has been described above, it is omitted here.
  • the validity determination unit 30 may not perform the process of calculating the movement amount (position change amount), or The movement amount (position change amount) of the latest analysis result is calculated using only the recognition result ((1) the extracted position of the recognition target) included in the other N-1 analysis results. Processing may be performed.
  • the validity determination unit 30 does not perform the process of calculating the movement amount (position change amount). As a result, processing can be simplified and speeded up.
  • the input receiving unit 60 recognizes the latest valid analysis result stored in the valid analysis result storage unit 40, and specifies the recognition target mode using the analysis result. . Thereafter, using the correspondence information stored in the correspondence information storage unit 50, the input content associated with the identified aspect of the recognition target is extracted and the input content is accepted.
  • the process of S205 may be executed only when the latest valid analysis result stored in the valid analysis result storage unit 40 is updated in S204. These are processed by a digital signal processor (DSP) or central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • the value of N in this embodiment may be 2.
  • the effectiveness can be determined by simply comparing the position information of the current recognition target and the position information of the recognition target of the most recent past one frame. As a result, it is possible to calculate the position change amount with a minimum storage device (memory) and to determine the effectiveness of S514.
  • N can be 3 or more. In such a case, as described above, even if noise such as a sudden shift is included in the position information of the past imaging frame, the averaged past comparison target position information can be obtained, so that it is more resistant to noise. Thus, it is possible to perform an accurate position change amount comparison.
  • step S514 the validity determination unit 30 weights the most recent past N ⁇ 1 frames of imaging frames, recognizes the position of the recognition target specified in the latest imaging frame, and the N ⁇ 1 immediately preceding frames. After calculating the amount of movement of the recognition target specified in the latest imaging frame using each of the positions of the recognition target specified in the imaging frame, each movement amount may be corrected using the weighting value. . Then, an average value of the corrected values may be calculated, and if the average value is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value, it may be determined that the analysis result of the first imaging frame is valid.
  • FIG. 6A shows a case where there is no post-processing of this embodiment (comparative example)
  • FIG. 6B shows a case where there is post-processing of this embodiment (example).
  • the time axis is taken on the horizontal axis.
  • the object to be recognized was a hand, which was initially shaped like a goo, and then changed to a par.
  • the analysis result is shown in the analysis result column.
  • A indicates that the analysis result is “Goo”
  • B indicates that the analysis result is “par”.
  • One vertical column corresponds to one frame.
  • a correct analysis result is obtained when the hand shape is goo, but an incorrect analysis result for two frames is obtained when the hand shape is par. That is, there is a place where the analysis result is “A” even though the hand shape is par.
  • As a cause of the occurrence of such an error for example, there is a case where the finger portion is not detected by the sensor because the hand is moved at a high speed and is erroneously recognized like a goo.
  • the analysis result is used as it is to determine the input content (recognition result output).
  • the value in the analysis result column matches the value in the recognition result output column in any imaging frame.
  • the input contents are accepted while reflecting the erroneous analysis results for two frames generated when the hand shape is par.
  • the input corresponding to goo is accepted, and then the input corresponding to par is accepted.
  • the input result corresponding to goo is accepted, and then the input corresponding to par is accepted. It accepts an extra input, such as accepting an input corresponding to Goo and further accepting an input corresponding to Par.
  • the analysis result is not a value for determining the input content as it is, but the value after receiving the post-processing is a value for determining the input content (post- Output after processing: a value stored in the effective analysis result storage unit 40).
  • the validity determination unit 30 uses the analysis results of the past two frames, calculates the average value for each of the X coordinate, the Y coordinate, and the Z coordinate, and then identifies the latest imaged frame.
  • the amount of movement of the recognition target is calculated using the position of the target and the position calculated by the process of calculating the average value.
  • the validity determination unit 30 has (2) no analysis result among the analysis result of the latest imaging frame and the analysis results of the two immediately preceding imaging frames in which the movement amount is greater than the predetermined threshold (20). Is included, it is determined that the analysis result of the latest imaging frame is invalid.
  • the analysis result A is obtained from the first imaging frame, but the analysis results from the first to the second imaging frame are obtained from the two previous imaging frames. Since (2) no analysis result is included in the analysis result, it is determined that the analysis result for these imaging frames is invalid (the value in the validity column is X). Therefore, these analysis results do not become post-processed output values (values stored in the effective analysis result storage unit 40), and post-processed output values remain the initial values.
  • the average value of X coordinates: 29 (30 + 28) / 2
  • Average value of Y coordinate: 19 (20 + 18) / 2
  • the movement amount is calculated using the averaged coordinates (29, 19, 78.5) and the coordinates (31, 21, 82) of the analysis result of the third imaging frame. Since the amount of movement is equal to or less than the predetermined threshold (20), it is determined that the analysis result of the third imaging frame is valid. For this reason, the value of the output after the post-processing (the value stored in the effective analysis result storage unit 40) is the value of the analysis result of the third imaging frame. Similar processing is performed for other imaging frames.
  • the movement amount calculated as described above exceeds a predetermined threshold (20).
  • the image was moved at a high speed (speed of movement in which the movement amount calculated as described above exceeds a predetermined threshold (20)) during imaging.
  • the analysis result for such an imaging frame is determined to be invalid.
  • the post-processing output value (the value stored in the effective analysis result storage unit 40) is not updated by the analysis result for such an imaging frame.
  • a predetermined threshold value is provided for each of movement in the X-axis direction, movement in the Y-axis direction, and movement in the Z-axis direction, and movement in all directions is less than or equal to each predetermined threshold value or If it is smaller than the predetermined threshold, it may be determined that the analysis result of the imaging frame is valid. For example, if the X-axis direction and the finger width direction are easily matched, the narrow finger part will not be detected by the sensor when the hand is moved at high speed in the X-axis direction, causing the par to be incorrect. The case of being analyzed as a goo is likely to occur.
  • the threshold value for movement in the X-axis direction is (10)
  • the threshold value for movement in the Y-axis direction and the Z-axis direction is (20), etc.
  • ⁇ Third embodiment> the process for determining the validity of the analysis result described in the first embodiment is combined with the process for determining the validity of the analysis result described in the second embodiment. Others are the same as those of the first embodiment and the second embodiment.
  • the flowchart shown in FIG. 7 shows an example of the flow of processing performed in S204 of FIG. This processing is performed by a digital signal processor (DSP) or a central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • the latest N frames of analysis results are accumulated in the analysis result accumulation unit 20, and no analysis results exceeding that are accumulated.
  • the latest effective analysis result is stored in the effective analysis result storage unit 40.
  • S711 it is determined whether or not it is the first execution. If processing is performed on another imaging frame before processing on the imaging frame, NO is determined, and if not, YES is determined.
  • a storage device that stores analysis results for N frames (N is a design item) and a storage that stores analysis results determined to be valid in S712.
  • the device (effective analysis result storage unit 40: memory) is secured and initialization is performed.
  • the storage device (analysis result storage unit 20) that stores the analysis results for N frames may store (2) no analysis result as an initial value. If it is determined NO in S711, the process of S712 is not performed.
  • the validity determination unit 30 determines whether or not the analysis results stored in the analysis result storage unit 20 are all the same. Note that the initial value ((2) no analysis result) is stored in the analysis result storage unit 20 from the beginning until the processing for N frames is performed, and these are also used to determine the validity of the analysis result.
  • the validity determination unit 30 calculates the movement amount (position change amount) of the latest analysis result by using the latest analysis result and the other N ⁇ 1 analysis results, and the movement amount (position change amount). It is determined whether (change amount) is equal to or smaller than a predetermined threshold value or smaller than the predetermined threshold value. Since the process of calculating the movement amount (position change amount) of the latest analysis result by the validity determination unit 30 has been described in the second embodiment, it is omitted here.
  • the latest analysis result is determined to be invalid in S717 and stored in the effective analysis result storage unit 40.
  • the post-processing of S204 is terminated without updating the analyzed result.
  • FIG. 8A shows a case where there is no post-processing of this embodiment (comparative example)
  • FIG. 8B shows a case where there is post-processing of the first embodiment (Example A)
  • FIG. This is a case (Example B) in which there is post-processing of this embodiment.
  • the time axis is taken on the horizontal axis.
  • the object to be recognized was a hand, which was initially shaped like a goo, and then changed to a par.
  • the analysis result is shown in the analysis result column.
  • A indicates that the analysis result is “Goo”
  • B indicates that the analysis result is “par”.
  • One vertical column corresponds to one frame.
  • a correct analysis result is obtained when the hand shape is goo, but an incorrect analysis result (first mistake) for three consecutive frames when the hand shape is par. ) And an erroneous analysis result (second miss) for only one frame (not continuous). That is, there is a place where the analysis result is “A” even though the hand shape is par.
  • the analysis result is used as it is to determine the input content (recognition result output).
  • the value in the analysis result column matches the value in the recognition result output column in any imaging frame.
  • both the erroneous analysis result (first miss) for three frames that occurred when the hand shape is par and the erroneous analysis result (second mistake) for only one frame are reflected as they are. Will accept the input. That is, an incorrect input content is accepted.
  • Example A (FIG. 8B) including the post-processing described in the first embodiment
  • the analysis result does not become a value for determining the input content as it is, and is subjected to post-processing.
  • the value after the determination is a value for determining the input content (output after post-processing: value stored in the effective analysis result storage unit 40).
  • the analysis results for the last two frames are used to determine the validity of the latest frame analysis results. Specifically, when the analysis results of the past two frames and the analysis result of the latest imaging frame all match, the analysis result of the latest imaging frame is validated. On the other hand, when the analysis results of the past two frames and the analysis result of the latest imaging frame do not completely match, the analysis result of the latest imaging frame is invalidated.
  • the details are as described in the first embodiment.
  • Example A In the case of Example A, an erroneous analysis result (second mistake) for only one frame is invalidated, and erroneous input based on such an analysis result can be eliminated. However, an erroneous analysis result (first mistake) that continues for three frames cannot be determined to be invalid, and an input based on the incorrect analysis result is accepted.
  • Example B (FIG. 8C) including the post-processing of the present embodiment
  • the analysis result is not a value for determining the input content as it is, and after the post-processing is performed.
  • the value is a value for determining the input content (output after post-processing: value stored in the effective analysis result storage unit 40).
  • the analysis results for the last two frames are used to determine the validity of the latest frame analysis results. Specifically, it is determined whether the analysis results of the past two frames and the analysis result of the latest imaging frame match, and the analysis results of the past two frames are used to determine the X coordinate and the Y coordinate. After calculating the average value for each Z coordinate, the movement amount of the recognition target is calculated using the position of the recognition target specified in the latest imaging frame and the position calculated by the process of calculating the average value. If the analysis results of the past two frames and the analysis result of the latest imaging frame all match and the calculated movement amount is equal to or less than the predetermined threshold (20), the analysis result of the latest imaging frame Is determined to be valid. In other cases, it is determined to be invalid.
  • Example B similarly to Example A, an erroneous analysis result (second mistake) for only one frame is invalidated, and an erroneous input based on such an analysis result can be eliminated. Also, even if the erroneous analysis result lasts longer than expected (so that it cannot be determined as invalid), such an incorrect analysis result can be determined as invalid based on the amount of movement. As described above, an erroneous analysis result (first miss) that is continuous for three frames is also invalidated, and an erroneous input based on such an analysis result can be eliminated.
  • a gesture input technique that suppresses the occurrence of erroneous recognition with higher accuracy and realizes high operability and operation accuracy.
  • FIG. 8C shows a case without post-processing in FIG. 4A, a case with post-processing in FIG. 4B, and a case with post-processing in FIG. )
  • the first place and the second place are set about 30 cm apart in the sensor area, and the hand shape is changed from par to goo in the first place.
  • the operation of moving to the second location with the shape of, changing from goo to par at the second location, and returning to the first location again with the shape of the hand of the par is repeated 30 times to reduce the number of malfunction occurrences.
  • the experimental results to be counted are shown.
  • the number of malfunction occurrences was 12/30, and the malfunction occurrence rate was 40%.
  • the number of malfunction occurrences is 2/30, and the malfunction occurrence rate is 7%.
  • This method can also be applied to a gesture recognition method based on movement using gesture recognition based on the shape of the body (finger), and can be provided as a highly accurate gesture recognition method by reducing erroneous recognition. .
  • the mouse cursor position is moved according to the movement, even if the finger position moves for each frame, the threshold value is exceeded.
  • the output value determined to be valid immediately before the position change amount exceeding the threshold is detected continues to be output. Therefore, it is possible to provide a gesture based on a movement that is unlikely to cause erroneous recognition.
  • a gesture recognition apparatus can be configured using the gesture recognition method described above.
  • Digital signage (electronic signage) can be configured using the gesture recognition device described above.
  • three-dimensional coordinates (which may be determined in real space) in which the X axis, the Y axis, and the Z axis that are orthogonal to each other are defined are used for the position change detection process.
  • a polar coordinate system with the camera or sensor as the origin may be used.
  • ⁇ Invention 1> A plurality of imaging frames continuous in time series from the imaging means, and for each imaging frame, a predetermined recognition target is extracted, and an analysis means for specifying the shape and / or position of the extracted recognition target; Analysis result storage means for storing the analysis result analyzed by the analysis means; Using the analysis result of the first imaging frame and the analysis result of a predetermined number of imaging frames immediately before the first imaging frame stored in the analysis result storage unit, the analysis unit analyzes Valid judgment means for judging whether the analysis result of the first imaging frame is valid; Effective analysis result storage means for storing the analysis result determined to be effective by the validity determination means; Correspondence information storage means for storing correspondence information in which the recognition target aspect identified based on the shape and / or position is associated with the input content; An input receiving means for specifying an aspect of the recognition target using an analysis result stored in the effective analysis result storage means, and receiving an input of an input content associated with the specified aspect; An input device.
  • the analysis unit stores in advance feature amount information indicating a feature amount of at least one specific shape, and using the feature amount information, whether the recognition target is similar to the specific shape, or Identify the shape of the recognition target by determining whether they match,
  • the validity determining unit determines whether the specific shape specified in the first imaging frame matches the analysis result of the predetermined number of imaging frames immediately before the specific shape, and matches all the analysis results of the predetermined number of imaging frames. An input device that determines that the analysis result of the first imaging frame is valid.
  • the analysis means specifies the position of the recognition target
  • the validity determining means uses the first imaging frame using the position of the recognition target specified by the first imaging frame and the positions of the recognition target specified by a predetermined number of imaging frames immediately before the first imaging frame.
  • An input device that calculates a movement amount of the identified recognition target and determines that the analysis result of the first imaging frame is valid when the movement amount is equal to or smaller than a predetermined threshold value or smaller than a predetermined threshold value.
  • the analysis means specifies the position of the recognition target in a three-dimensional coordinate composed of a first axis, a second axis, and a third axis that are orthogonal to each other
  • the validity determining means uses the first imaging frame using the position of the recognition target specified by the first imaging frame and the positions of the recognition target specified by a predetermined number of imaging frames immediately before the first imaging frame.
  • the movement amount in the first axial direction is calculated by calculating the movement amount in the first axial direction, the movement amount in the second axial direction, and the movement amount in the third axial direction in the three-dimensional coordinates of the identified recognition target.
  • the amount, the movement amount in the second axial direction, and the movement amount in the third axial direction are all determined in advance for each of the first axial direction, the second axial direction, and the third axial direction.
  • the analysis unit stores feature amount information indicating a feature amount of at least one specific shape in advance, and determines whether the recognition target is the specific shape using the feature amount information.
  • the validity determining means determines whether the specific shape specified in the first imaging frame matches an analysis result of a predetermined number of imaging frames immediately before the identification shape, and the recognition specified in the first imaging frame
  • the movement amount of the recognition target specified in the first imaging frame is calculated using the position of the target and the position of the recognition target specified in a predetermined number of imaging frames immediately before the first imaging frame.
  • the analysis means specifies the position of the recognition target by a position vector
  • the validity determination means uses the position vector of the recognition target specified in the first imaging frame and the position vector of the recognition target specified in the predetermined number of imaging frames immediately before the difference, and the difference between both position vectors
  • An input device that calculates the amount of movement of the recognition target specified in the first imaging frame using the absolute value of.
  • An electronic signboard comprising the input device according to any one of inventions 1 to 6.
  • ⁇ Invention 8> Computer Analyzing means for acquiring a plurality of imaging frames continuous in time series from the imaging means, extracting a predetermined recognition target for each imaging frame, and identifying the shape and / or position of the extracted recognition target; Analysis result storage means for storing the analysis results analyzed by the analysis means; The analysis means analyzes using the analysis result of the first imaging frame and the analysis results of a predetermined number of imaging frames immediately before the first imaging frame stored in the analysis result storage means.
  • Valid judgment means for judging whether or not the analysis result of the first imaging frame is valid;
  • Effective analysis result storage means for storing the analysis result determined to be effective by the validity determination means;
  • Correspondence information storage means for storing correspondence information in which the aspect of the recognition target specified based on the shape and / or position is associated with the input content;
  • An input receiving means for specifying an aspect of the recognition target using an analysis result stored in the effective analysis result storage means and receiving an input of an input content associated with the specified aspect;
  • the analysis means stores in advance feature amount information indicating a feature amount of at least one specific shape, and determines whether the recognition target is the specific shape by using the feature amount information.
  • the validity determining means determines whether the specific shape specified in the first imaging frame matches the analysis result of the predetermined number of imaging frames immediately before it, and matches all the analysis results of the predetermined number of imaging frames.
  • the analysis means identify the position of the recognition target in three-dimensional coordinates consisting of a first axis, a second axis, and a third axis that are orthogonal to each other;
  • the validity determining means uses the position of the recognition target specified in the first imaging frame and the position of the recognition target specified in a predetermined number of imaging frames immediately before the effective imaging means.
  • the movement amount in the first axial direction is calculated by calculating the movement amount in the first axial direction, the movement amount in the second axial direction, and the movement amount in the third axial direction in the three-dimensional coordinates of the identified recognition target.
  • the amount, the movement amount in the second axial direction, and the movement amount in the third axial direction are all determined in advance for each of the first axial direction, the second axial direction, and the third axial direction.
  • the analysis means stores in advance feature amount information indicating a feature amount of at least one specific shape, and determines whether the recognition target is the specific shape by using the feature amount information. While specifying the shape of the recognition target, the position of the recognition target is specified, The validity determining means determines whether or not the specific shape specified in the first imaging frame matches the analysis result of a predetermined number of imaging frames immediately before it, and the recognition specified in the first imaging frame The amount of movement of the recognition target specified in the first imaging frame is calculated using the position of the target and the position of the recognition target specified in the predetermined number of imaging frames immediately before the target imaging, and the first imaging When the specific shape specified by the frame matches all the analysis results of the predetermined number of imaging frames, and the movement amount is equal to or less than a predetermined threshold value or smaller than a predetermined threshold value, the analysis result of the first imaging frame is A program that determines that it is valid.
  • ⁇ Invention 8-6> In the program according to the invention 8-3, Let the analysis means identify the position of the recognition target by a position vector, Using the position vector of the recognition target specified in the first imaging frame and the position vector of the recognition target specified in a predetermined number of imaging frames immediately before the effective determination unit, a difference between both position vectors A program for calculating the amount of movement of the recognition target specified in the first imaging frame using the absolute value of.
  • ⁇ Invention 9> Computer An analysis step of acquiring a plurality of imaging frames continuous in time series from the imaging means, extracting a predetermined recognition target for each imaging frame, and identifying the shape and / or position of the extracted recognition target; An analysis result accumulation step for accumulating the analysis results analyzed in the analysis step; The analysis result of the first imaging frame and the analysis result of the predetermined number of imaging frames immediately before the first imaging frame accumulated in the analysis result accumulation step are analyzed in the analysis step.
  • Correspondence in which the aspect of the recognition target is associated with the input content after specifying the aspect of the recognition target specified based on the shape and / or position using the analysis result stored in the effective analysis result storage step An input receiving step for receiving input of the input content associated with the identified mode with reference to the information; Input method to execute.
  • the shape of the recognition target is determined by determining whether or not the recognition target is the specific shape by using feature amount information indicating a feature amount of at least one specific shape stored in advance.
  • Identify In the validity determining step it is determined whether or not the specific shape specified in the first imaging frame matches the analysis result of the predetermined number of imaging frames immediately before, and matches all the analysis results of the predetermined number of imaging frames. And an input method for determining that the analysis result of the first imaging frame is valid.
  • the input method according to invention 9 In the analysis step, the position of the recognition target is specified, In the validity determining step, the first imaging frame is determined using the position of the recognition target specified in the first imaging frame and the positions of the recognition target specified in a predetermined number of imaging frames immediately before the first imaging frame.
  • the position of the recognition target is specified in a three-dimensional coordinate composed of a first axis, a second axis, and a third axis that are orthogonal to each other,
  • the first imaging frame is determined using the position of the recognition target specified in the first imaging frame and the positions of the recognition target specified in a predetermined number of imaging frames immediately before the first imaging frame.
  • the movement amount in the first axial direction is calculated by calculating the movement amount in the first axial direction, the movement amount in the second axial direction, and the movement amount in the third axial direction in the three-dimensional coordinates of the identified recognition target.
  • the amount, the movement amount in the second axial direction, and the movement amount in the third axial direction are all determined in advance for each of the first axial direction, the second axial direction, and the third axial direction.
  • the shape of the recognition target is determined by determining whether or not the recognition target is the specific shape by using feature amount information indicating a feature amount of at least one specific shape stored in advance. And identifying the position of the recognition target.
  • the validity determining step it is determined whether or not the specific shape specified in the first imaging frame matches the analysis result of a predetermined number of imaging frames immediately before it, and the recognition specified in the first imaging frame The movement amount of the recognition target specified in the first imaging frame is calculated using the position of the target and the position of the recognition target specified in a predetermined number of imaging frames immediately before the first imaging frame.
  • the analysis result of the first imaging frame is An input method that is determined to be valid.
  • the position of the recognition target is specified by a position vector
  • the validity determination step the position vector of the recognition target specified in the first imaging frame and the position vector of the recognition target specified in a predetermined number of imaging frames immediately before the first imaging frame are used, and a difference between both position vectors is determined.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

入力装置、入力方法、プログラム、及び、電子看板
 本発明は、入力装置、入力方法、プログラム、及び、電子看板に関する。
 特許文献1にジェスチャを認識及び追跡し、ジェスチャに基づいた入力を受付ける方法が開示されている。特許文献1に開示の技術では、まず、イメージセンサによってジェスチャ画像を捕えた後、その中から移動した対象を検出し、次いで検出した対象を分析する。分析の結果、当該対象が移動したジェスチャに対応している場合、それに基づいてカーソルを制御する。また、当該対象が命令ジェスチャに対応している場合、それに関連した動作命令が出力される。
特開2010-170300号公報
 特許文献1に記載されているようなジェスチャ認識方法およびそれを用いたジェスチャ認識装置では、高い水準のユーザエクスペリエンス(ユーザ体験)を満たすことが必要となる。具体的には、高い操作性と操作の正確性が求められる。
 また、当該技術が広く普及するためには、システムの価格を安価に抑えることが望まれる。システムの価格を抑える手段としては、汎用的なイメージセンサもしくは距離センサと、画像処理回路とを用いる手段等が考えられる。
 しかし、安価なイメージセンサもしくは距離センサと画像処理回路を用いた場合、低フレームレート・低解像度であることが原因で各フレームにおいて得られる画像の品質が低下しやすいため、ジェスチャ認識が正常に行われずに、誤認識による誤動作が発生しやすくなる。特に、動きによるジェスチャ認識のために身体・手指の位置を動かしたときには、フレームレートが低いことに起因する残像の発生により、形状を認識する精度が低下してしまう。また、解像度が低い場合、認識対象の認識に十分な解像度が得られず、形状を認識する精度が低下してしまう。このように、安価なイメージセンサや距離センサと画像処理回路を用いた場合には、認識の精度の低下により、誤認識による誤動作が発生しやすくなってしまうことが課題となる。特許文献1に記載の技術は、このような問題を解決可能に構成していない。
 そこで、本発明の目的は、誤認識の発生を抑制し、高い操作性と操作の正確性を実現したジェスチャによる入力技術を提供することにある。
 本発明によれば、
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段と、
 前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段と、
 第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段と、
 前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段と、
 形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段と、
 前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段と、
を有する入力装置が提供される。
 また、本発明によれば、上記入力装置を備える電子看板が提供される。
 また、本発明によれば、
 コンピュータを、
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段、
 前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段、
 第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段、
 前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段、
 形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段、
 前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段、
として機能させるためのプログラムが提供される。
 また、本発明によれば、
 コンピュータが、
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析ステップと、
 前記解析ステップで解析した解析結果を蓄積する解析結果蓄積ステップと、
 第1の前記撮像フレームの解析結果と、前記解析結果蓄積ステップで蓄積された前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析ステップで解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断ステップと、
 前記有効判断ステップで有効と判断された解析結果を記憶する有効解析結果記憶ステップと、
 前記有効解析結果記憶ステップで記憶した解析結果を利用して形状及び/又は位置に基づいて特定される前記認識対象の態様を特定した後、前記認識対象の態様と入力内容とを対応付けた対応情報を参照し、特定した態様に対応付けられている入力内容の入力を受付ける入力受付ステップと、
を実行する入力方法が提供される。
 本発明によれば、誤認識の発生を抑制し、高い操作性と操作の正確性を実現したジェスチャによる入力技術が実現される。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の入力装置の機能ブロック図の一例である。 本実施形態の処理の流れを示すフローチャートの一例である。 本実施形態の処理の流れを示すフローチャートの一例である。 本実施形態の処理を説明するための図である。 本実施形態の処理の流れを示すフローチャートの一例である。 本実施形態の処理を説明するための図である。 本実施形態の処理の流れを示すフローチャートの一例である。 本実施形態の処理を説明するための図である。
 以下、本発明の実施の形態について図面を用いて説明する。
 なお、本実施形態の装置は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 また、本実施形態の説明において利用する機能ブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
<第一の実施形態>
 まず、本実施形態の概要について説明する。本実施形態では、撮像手段が撮像した時系列に連続する複数の撮像フレームを順に解析し、認識対象(例:人の手)を抽出すると、その認識対象の形状を特定する。そして、特定した形状に対応した入力を受付ける。
 なお、本実施形態では、複数の撮像フレーム各々を解析して特定した形状すべてに対応する入力を受付けるのでなく、撮像フレームを解析するごとにその撮像フレームの解析結果の有効性を判断し、有効と判断された撮像フレームの解析で特定された形状に対応する入力のみを受付ける。
 具体的には、ある撮像フレーム(第1の撮像フレーム)を解析して認識対象の形状を特定すると、第1の撮像フレームの直前の所定数の撮像フレームの認識結果(認識対象の形状)と比較する。そして、すべての認識結果と一致する場合、第1の撮像フレームの解析結果を有効と判断し、第1の撮像フレームを解析して特定した認識対象の形状に対応する入力を受付ける。一方、第1の撮像フレームを解析して特定した認識対象の形状が、第1の撮像フレームの直前の所定数の撮像フレームの認識結果(認識対象の形状)のいずれかと異なる場合、第1の撮像フレームの解析結果を無効と判断する。かかる場合、第1の撮像フレームを解析して特定した認識対象の形状に対応する入力を受付けず、次の撮像フレームの処理に進む。
 本実施形態は、このような処理により、解像度の不足、チャタリング等に起因した誤認識の発生を抑制し、高い操作性と操作の正確性を実現したジェスチャによる入力を実現している。以下、本実施形態の構成について詳細に説明する。
 図1に、本実施形態の入力装置1の機能ブロック図の一例を示す。図示するように、本実施形態の入力装置1は、解析部10と、解析結果蓄積部20と、有効判断部30と、有効解析結果記憶部40と、対応情報記憶部50と、入力受付部60と、撮像部70とを有する。なお、入力装置1は撮像部70を備えなくてもよい。かかる場合、撮像部70を有する撮像装置と入力装置1とは、有線及び/又は無線で通信可能に構成され、撮像部70が生成した撮像フレームが入力装置1の解析部10に入力される。以下、各部について説明する。
 撮像部70は、形状を認識できるように所定の認識対象(例:人の所定部分、人の手、人の全身、ロボットの所定部分、その他の形状が変化するオブジェクト等)を撮像可能であればその構成は特段制限されない。例えば、撮像部70は、固定単眼カメラ(CCDカメラ)やそれに順ずるイメージセンサ、もしくは単眼または双眼のイメージセンサを用いた距離画像センサ、もしくはレーザを用いたTime of flight方式またはレーザパターン投影方式による距離画像センサ等を含んで構成することができる。なお、これらに限定されない。撮像部70は、このようなカメラやセンサを用いて所定領域を連続的に撮像し、時系列に連続する複数の撮像フレームを生成する。そして、生成した撮像フレームを、解析部10に入力する。
 解析部10は、撮像部70から時系列に連続する複数の撮像フレームを取得する。解析部10は、撮像部70が撮像フレームを生成すると、リアルタイムにそれを取得することができる。そして、解析部10は、撮像フレーム毎に解析し、認識対象を抽出するとともに、抽出した認識対象の形状を特定する。
 例えば、解析部10は認識対象の特徴量を示す特徴量情報を予め保持しておき、当該特徴量情報と、周知の画像認識手段を利用して、撮像フレーム内から認識対象を抽出することができる。その後、解析部10は、抽出した認識対象の形状の特徴量を抽出する。そして、解析部10は、認識対象がとり得る少なくとも1つの形状(例:認識対象が人の手である場合、パー、グー、チョキ、指をさす動作等)である特定形状各々の特徴量を示す特徴量情報を予め保持しておき、当該特徴量情報と、認識対象の形状から抽出した特徴量と、周知の画像認識手段とを利用して、認識対象の形状がいずれかの特定形状に所定の類似度(設計的事項)以上類似しているか否か、もしくは一致しているか否かを判断することで、認識対象の形状を特定することができる。
 当該例の場合、解析部10は、撮像フレーム毎に、解析結果として、(1)抽出した認識対象の形状(特定形状)、又は、(2)解析結果なし、を出力する。なお、解析部10は、撮像フレーム内から認識対象が抽出されなかった場合、及び、抽出した認識対象の形状がいずれの特定形状ともマッチングしなかった場合等に、(2)解析結果なしを出力する。
 なお、その他の例として、解析部10は、認識対象がとり得る少なくとも1つの形状(例:認識対象が人の手である場合、パー、グー、チョキ、指をさす動作等)である特定形状各々の特徴量を示す特徴量情報を予め保持しておき、当該特徴量情報と、周知の画像認識手段とを利用して、撮像フレーム内から認識対象を抽出してもよい。かかる場合、認識対象の抽出と同時に、認識対象の形状(特定形状)を特定することができる。例えば、グーの特徴量を示す特徴量情報を利用して撮像フレーム内から人の手(認識対象)を抽出した場合、抽出した手の形状はグーと特定できる。
 当該例の場合、解析部10は、撮像フレーム毎に、解析結果として、(1)抽出した認識対象の形状、又は、(2)解析結果なし、を出力する。なお、解析部10は、認識対象が抽出されなかった場合等に、(2)解析結果なしを出力する。
 解析結果蓄積部20は、解析部10が解析した解析結果を蓄積する。解析結果蓄積部20は、解析部10の解析結果の有効性に関係なく解析結果を蓄積する。なお、解析結果蓄積部20は、少なくとも、以下で説明する有効判断部30の判断に利用される新しい方から所定数の撮像フレームの解析結果を蓄積していればよい。例えば、解析結果蓄積部20は、新たな解析結果が蓄積された結果、蓄積している解析結果の数が所定数を超える場合、最も古い解析結果を消去することで、蓄積されている解析結果の数を所定数以下に保ってもよい。なお、解析結果蓄積部20は、このように蓄積する解析結果の数を調整することなく、すべての解析結果を蓄積してもよい。
 有効判断部30は、解析部10が解析したある撮像フレーム(第1の撮像フレーム)の解析結果をリアルタイムに取得する。そして、有効判断部30は、第1の撮像フレームの解析結果と、解析結果蓄積部20に蓄積されている第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、解析部10が解析した第1の撮像フレームの解析結果が有効か否か判断する。
 具体的には、有効判断部30は、第1の撮像フレームで特定した解析結果(上記(1)又は(2)。(1)の場合は特定形状。)が、その直前の所定数の撮像フレームの解析結果と一致するか判断し、所定数の撮像フレームの解析結果すべてと一致する場合、第1の撮像フレームの解析結果が有効と判断する。なお、第1の撮像フレームで特定した解析結果が上記(1)である場合、第1の撮像フレームで特定した認識対象の形状(特定形状)が、その直前の所定数の撮像フレームで特定した認識対象の形状(特定形状)のすべてと一致する場合、第1の撮像フレームの解析結果が有効と判断する。一方、有効判断部30は、第1の撮像フレームで特定した解析結果(上記(1)又は(2))が、その直前の所定数の撮像フレームの解析結果のいずれかと異なる場合、第1の撮像フレームの解析結果を無効と判断する。
 当該判断に利用される第1の撮像フレームの直前の所定数の撮像フレームの数は、撮像フレーム間のタイムラグや、認識対象の形状の誤認識の要因となり得る不具合が複数の撮像フレームに跨って連続的に現れ得る回数(フレーム数)等に基づいて設定することができる。例えば、大体3~5つの撮像フレームに跨って連続的に現れる不具合による誤認識の発生を抑制したい場合、当該判断に利用する第1の撮像フレームの直前の撮像フレームの数を5と設定することができる。このようにすれば、6つ以上の撮像フレームに跨って連続的に得られた解析結果が有効と判断され、連続する数がそれより少ない解析結果は無効と判断される。すなわち、3~5つのみの撮像フレームに跨って連続的に現れた不具合を反映した解析結果を無効と判断することが可能となる。
 有効解析結果記憶部40は、有効判断部30が有効と判断した解析結果を記憶する。上述した解析結果蓄積部20は、有効性に関係なく、解析部10が解析した解析結果を蓄積するが、有効解析結果記憶部40は、有効判断部30が有効と判断した解析結果を記憶する点で、これらの記憶部は相違する。
 有効解析結果記憶部40は、有効判断部30が有効と判断した解析結果の内、最新のもの1つのみを記憶し、新たな有効な解析結果が得られるごとに更新していってもよいし、新しい方から所定数(複数)のもののみを記憶し、新たな有効な解析結果が得られることで記憶している解析結果の数が所定数を超える場合は古い方から順に削除していってもよいし、または、有効判断部30が有効と判断したすべての解析結果を記憶してもよい。
 対応情報記憶部50は、形状に基づいて特定される認識対象の態様と、入力内容とを対応付けた対応情報を記憶する。認識対象の態様は、例えば、認識対象の形状そのもの、または、認識対象の形状の変化等である。認識対象の形状は、1つの撮像フレームで特定することができる。認識対象の形状の変化は、連続する複数の撮像フレームで特定することができる。例えば、認識対象が人の手である場合、認識対象の形状(態様)は、パー、グー、チョキ、指をさす動作等である。また、認識対象の形状の変化(態様)は、パーからグーに変化、パーからチョキに変化等である。
 対応情報は、少なくとも1つのこのような認識対象の態様各々に、所定の入力内容を対応付けた情報である。入力内容は特段制限されず、例えば、本実施形態の入力装置を電子看板(デジタルサイネージ)に適用する場合、「認識対象の態様:手の形がパー」-「入力内容:電子看板内のカーソルを移動させるための入力」、「認識対象の態様:手の形がグー」-「入力内容:電子看板内のカーソルで選択したオブジェクトを決定するための入力」等であってもよい。なお、この例示はあくまで一例であり、これに限定されない。
 入力受付部60は、有効解析結果記憶部40が記憶する最新の解析結果、または、新しいほうから所定数の解析結果を利用して認識対象の態様を特定する。例えば、入力受付部60は、有効解析結果記憶部40が記憶する最新の解析結果を利用して、認識対象の形状(態様)を特定する。または、有効解析結果記憶部40が記憶する新しい方から所定数の解析結果を利用して、認識対象の形状の変化(態様)を特定する。
 認識対象の態様を特定後、入力受付部60は、対応情報記憶部50が記憶する対応情報を参照して、特定した認識対象の態様に対応付けられている入力内容を抽出し、抽出した入力内容の入力を受付ける。なお、入力受付部60は、有効解析結果記憶部40に新たな解析結果が記憶される毎に、上述のような処理を実行することができる。
 次に、図2を用いて、本実施形態の処理の流れの一例について説明する。なお、当該例における認識対象は人(操作者)の手である。図2は、本実施形態の入力方法を用いて操作者のジェスチャに基づき所定の情報を入力するためのステップを示すフローチャートである。当該入力に従い、例えばコンピュータやマシンが動作することとなる。すなわち、操作者のジェスチャにより、例えばコンピュータやマシンが操作される。
 図2のフローチャートは、1つの撮像フレームに対する処理の流れを示しており、
S201画像撮影・取り込み処理、
S202前処理(背景処理・ノイズ処理)、
S203認識対象の形状によるジェスチャ認識処理、
S204後処理(認識有効性判定処理)、
S205ジェスチャ操作実行処理、
を含む。
 S201では、解析部10が撮像部70より撮像フレームを取得する。
 S202では、解析部10が、S201で取り込んだ撮像フレームを、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理する。
 S201で得られた1フレーム分の画像には、人の身体以外の画像情報を含み得る。人の身体以外の画像情報を含んだままであると、画像処理の実行効率が悪化し、処理に時間がかかる可能性がある。また、S201で得られた画像には、多くのノイズが含まれている可能性があるので、そのまま形状によるジェスチャ認識に用いると誤認識率が増加する恐れがある。それゆえに、取り込まれた画像は、分析される前に前処理されるのが好ましい。
 S202では、最初に、操作者が映っているレイヤーと背景レイヤーとを背景分離処理により分離させ、操作者が映った1フレーム分の画像を取り出す。その後、画像に発生しやすい斑点状のノイズは、ローパスフィルタ、メディアンフィルタ、移動平均フィルタのうち少なくとも1つ以上のフィルタを適用して除去する。この前処理により得られた操作者が映った1フレーム分の画像を用いて、以降の処理を行う。このようにすることで、以降の処理における検出および認識の精度を向上させることができる。
 S203では、解析部10が、S202で得られた操作者が映った1フレーム分の画像を、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理する。
 具体的には、操作者が映った画像から特徴を抽出して認識対象となる手の画像とみなせる部分を、画像の中から抽出する。その後、抽出した手の画像の特徴と、あらかじめ登録されている手(認識対象)がとり得る少なくとも1つの形状(例:パー、グー、チョキ、指をさす動作等)である特定形状各々の特徴量を示す特徴量情報と、周知の画像認識手段とを利用して、抽出した手の形状が特定形状であるか否かを判断することで、手の形状(特定形状)を特定する。結果、当該撮像フレームに対する解析結果として、(1)抽出した認識対象の形状(特定形状)、又は、(2)解析結果なし、が得られる。なお、撮像フレーム内から認識対象が抽出されなかった場合、及び、抽出した認識対象の形状がいずれの特定形状ともマッチングしなかった場合の解析結果が、(2)解析結果なしとなる。
 次にS204の後処理が行われる。ここで、S204で行われる後処理の流れの一例を、図3のフローチャートを用いて説明する。当該処理は、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理される。なお、当該例においては、解析結果蓄積部20には最新のNフレーム分の解析結果が蓄積され、それを超える解析結果は蓄積されないものとする。また、有効解析結果記憶部40には最新の1つの有効な解析結果が記憶されるものとする。
 S311では、最初の実行か否かを判断する。当該撮像フレームに対する処理の前に他の撮像フレームに対して処理を行っている場合、NOと判断し、行っていない場合はYESと判断する。
 S311でYESと判定された場合、S312において、Nフレーム分(Nは設計的事項)の解析結果を記憶する記憶装置(解析結果蓄積部20)と、有効と判断された解析結果を格納する記憶装置(有効解析結果記憶部40:メモリ)を確保して、初期化を行う。この時、Nフレーム分の解析結果を記憶する記憶装置(解析結果蓄積部20)には、初期値として、(2)解析結果なし、を記憶しておいてもよい。S311においてNOと判定された場合には、S312の処理は行われない。
 S313では、図2に示すS203で得られた解析結果が、解析結果蓄積部20に蓄積される。なお、解析結果蓄積部20に蓄積する解析結果をN以下に保つため、解析結果蓄積部20に新たな解析結果を記憶した結果蓄積されている解析結果の数がNを超える場合、最も古い解析結果を解析結果蓄積部20から削除する(又は、最も古い解析結果に最新の解析結果を上書きする)。
 S314では、有効判断部30が、解析結果蓄積部20に蓄積されている解析結果が全て同じかどうかを判定する。なお、最初からNフレーム分の処理を行うまでは、解析結果蓄積部20に初期値((2)解析結果なし)が格納されており、これらも解析結果の有効性の判断に利用することができる。
 S314において同じと判断された場合、S315において最新の解析結果を有効と判断し、最新の解析結果を有効解析結果記憶部40に記憶する。なお、有効解析結果記憶部40に他の解析結果が記憶されている場合、この他の解析結果を最新の解析結果に書き換える。そして、S204の後処理を終了する。
 一方、S314においていずれかが異なると判断された場合、S316において最新の解析結果を無効と判断し、有効解析結果記憶部40に格納されている解析結果を更新することなく、S204の後処理を終了する。
 図2に戻り、S205では、入力受付部60が、有効解析結果記憶部40に記憶されている最新の有効な解析結果を認識するとともに、その解析結果を利用して認識対象の態様を特定する。その後、対応情報記憶部50に記憶されている対応情報を利用して、特定した認識対象の態様に対応付けられた入力内容を抽出するとともに、その入力内容を受付ける。
 なお、S205の処理は、S204で、有効解析結果記憶部40に記憶されている最新の有効な解析結果が更新された場合のみ実行してもよい。これらは、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理される。
 以上により、1つの撮像フレームに対する処理を終了する。その後、再びS201に戻り、同様の処理を繰り返す。
 ここで、図4を用い、具体例を挙げて本実施形態の処理を説明する。図4の(a)は本実施形態の後処理がない場合(比較例)であり、(b)は本実施形態の後処理がある場合(実施例)である。
 横軸に時間軸をとっている。認識対象は手であり、最初グーの形状とし、その後形状をパーに変化させた。解析結果の欄に、解析結果を示している。Aは、解析結果が「グー」であり、Bは、解析結果が「パー」を示す。縦一列分が1フレーム分に対応している。実施例及び比較例いずれも、手の形状がグーの時は正しい解析結果が得られているが、手の形状がパーの時に2フレーム分誤った解析結果が得られている。すなわち、手の形状がパーであるのに、解析結果が「A」となっている箇所がある。このような誤認識は、手の角度がわずかに変わったとき、センサの不具合などで正確な判定が出来ないとき、手を動かしながら操作をしたとき、などに起こりえる誤認識である。
 後処理を含まない比較例の場合、解析結果がそのまま、入力内容を決定するための値(認識結果出力)となる。図示するように、比較例の場合、解析結果の欄の値と、認識結果出力欄の値が、いずれの撮像フレームにおいても一致している。
 かかる場合、手の形状がパーの時に発生した2フレーム分の誤った解析結果をそのまま反映して、入力内容を受付けてしまう。結果、本来ならば、グーに対応する入力を受付け、その後、パーに対応する入力を受付ける所、比較例の場合、グーに対応する入力結果を受付けた後、パーに対応する入力を受付け、その後、グーに対応する入力を受付け、さらに、パーに対応する入力を受付けるというように、余計な入力を受付けてしまう。
 これに対し、後処理を含む実施例の場合、解析結果がそのまま入力内容を決定するための値とはならず、後処理を受けた後の値が、入力内容を決定するための値(後処理後の出力:有効解析結果記憶部40に記憶される値)となる。
 なお、当該例においては、過去2フレーム分の解析結果を利用して、最新のフレームの解析結果の有効性を判断する。具体的には、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果のすべてが一致する場合、その最新の撮像フレームの解析結果を有効とする。一方、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果が完全に一致しない場合、その最新の撮像フレームの解析結果を無効とする。
 図示するように、手の形状がグーの時、最初の撮像フレームから解析結果Aが得られているが、最初から2つ目の撮像フレームまでの解析結果は、過去2フレーム分の解析結果と一致しないため(初期値である(2)解析結果なし(図中の「-」)を含むため)、これらの撮像フレームに対する解析結果は無効と判断される(有効性の欄の値がバツ)。このため、これらの解析結果は後処理後の出力の値(有効解析結果記憶部40に記憶される値)とならず、後処理後の出力の値は初期値(図中の「-」)のままである。しかし、最初から3つ目の撮像フレームの解析結果は、過去2フレーム分の解析結果と一致するため、有効と判断される(有効性の欄の値がマル)。このため、後処理後の出力の値(有効解析結果記憶部40に記憶される値)は、3つ目の撮像フレームの解析結果の値となる。その他の撮像フレームに対しても同様の処理がなされる。
 ところで、手の形状がパーの時に発生した誤った解析結果は、2フレーム分のみ連続している。上述の通り、当該実施例では、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果のすべてが一致する場合、すなわち、同じ解析結果が3フレーム連続した場合に、その最新の撮像フレームの解析結果を有効と判断するので、2フレーム分のみしか連続していない上記誤った解析結果は無効と判断される。このため、このような誤った解析結果により、後処理後の出力の値(有効解析結果記憶部40に記憶される値)が更新されることはない。結果、このような誤った解析結果に基づく入力を排除することができる。
 以上説明したように、本実施形態によれば、後処理後の出力の値(有効解析結果記憶部40に記憶される値)にヒステリシスを持たせることができるため、誤った認識結果を排除し、入力内容を安定させることが可能となる。認識対象の解像度の不足、認識エンジンの不調などの原因により、形状によるジェスチャ認識にチャタリングが発生して不安定になるような場合に効果がある。
 なお、ここまでは、認識対象の形状を特定し、当該形状から特定される認識対象の態様に対応した入力を受付ける例を説明したが、本実施形態は、さらに認識対象の位置を特定し、認識対象の形状及び一の少なくとも一方から特定される認識対象の態様に対応した入力を受付けることもできる。その詳細は、以下の実施形態の説明で明らかになる。
<第二の実施形態>
 本実施形態では、撮像フレームを解析し、認識対象(例:人の手)を抽出すると、その認識対象の位置を解析結果として特定する。そして、その解析結果(認識対象の位置)と、その撮像フレームの直前の所定数の撮像フレームにおける解析結果を利用して、その撮像フレームに対する解析結果の有効性を判断する。具体的には、認識対象の移動量を算出し、移動量が所定の閾値より大きい場合には、その撮像フレームに対する解析結果を無効とする。
 移動量が大きい場合、撮像時(撮像の瞬間)に認識対象は高速で移動していたと考えられる。フレームレートが低い場合、高速で移動した部分に残像が発生し、当該部分の形状を明瞭に撮像できない場合がある。かかる場合、認識対象の形状を誤って認識してしまう恐れがある。例えば、パーの形状の手(認識対象)が高速で移動している際に撮像すると、指の部分が手(認識対象)の一部として認識されず、認識対象の形状をグーと誤って認識してしまう恐れがある。
 本実施形態では、認識対象の移動量が大きい場合は撮像時に認識対象が高速で移動していた場合であるので、そのような時に撮像された撮像フレームに対する解析結果を一律に無効とする。これにより、誤認識の発生を抑制し、高い操作性と操作の正確性を実現したジェスチャによる入力技術を実現している。
 以下、第一の実施形態と相違する点を説明し、共通部分の説明は省略する。
 本実施形態の入力装置1の機能ブロック図の一例は、第一の実施形態同様、図1で示される。
 解析部10は、第一の実施形態で説明した構成に加え、さらに、撮像部70から取得した撮像フレームを解析すると、抽出した認識対象の位置を特定する。認識対象の位置は、任意に原点、それぞれ互いに直交するX軸、Y軸及びZ軸が定められた3次元座標(実空間に定められてもよい)で特定されてもよい。その手段は特段制限されず、例えば、距離画像センサを含んで構成される撮像部70から取得した距離画像の撮像フレームを利用して3次元情報を算出することで実現してもよい。なお、解析部10は、認識対象の中心の位置を当該認識対象の位置として算出してもよいし、その他の所定の箇所の位置を当該認識対象の位置として算出してもよい。
 有効判断部30は、解析部10が解析したある撮像フレーム(第1の撮像フレーム)の解析結果をリアルタイムに取得する。そして、有効判断部30は、第1の撮像フレームの解析結果と、解析結果蓄積部20に蓄積されている第1の撮像フレームの直前の所定数(1又は2以上)の撮像フレームの解析結果とを利用して、解析部10が解析した第1の撮像フレームの解析結果が有効か否か判断する。
 具体的には、有効判断部30は、第1の撮像フレームで特定した認識対象の位置と、その直前の所定数の撮像フレームで特定した認識対象の位置とを利用して第1の撮像フレームで特定した認識対象の移動量を算出し、移動量が所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断する。
 一例として、有効判断部30は、第1の撮像フレームの直前の所定数(当該例の場合、2以上)の撮像フレームで特定した複数の認識対象の位置を利用し、例えばX座標、Y座標、Z座標ごとに平均値を算出する。その後、第1の撮像フレームで特定した認識対象の位置と、上記平均値を算出する処理により算出された位置とを利用して認識対象の移動量を算出する。そして、算出した移動量が所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断してもよい。
 他の例として、第1の撮像フレームで特定した認識対象の位置と、その直前の所定数の撮像フレームで特定した認識対象の位置各々が位置ベクトルとして管理されており、有効判断部30は、それらの位置ベクトルの差分の絶対値を利用して、第1の撮像フレームで特定した認識対象の移動量を算出する。そして、算出した移動量が所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断してもよい。
 他の例として、有効判断部30は、第1の撮像フレームで特定した認識対象の位置と、その直前の所定数(当該例の場合、2以上)の撮像フレームで特定した認識対象の位置各々とを利用して、第1の撮像フレームで特定した認識対象の移動量を複数算出後、その平均値を算出する。そして、平均した移動量が、所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断してもよい。
 その他の例として、予め、直前の所定数(当該例の場合、2以上)の撮像フレームに重み付けをしておく。より新しい撮像フレームにより大きい重み付けを行う。すなわち、第1の撮像フレームの直前(1つ前)の撮像フレームの重み付け値が最も大きく、第1の撮像フレームの2つ前の撮像フレームの重み付け値が次に大きくといった具合である。そして、有効判断部30は、第1の撮像フレームで特定した認識対象の位置と、その直前の所定数の撮像フレームで特定した認識対象の位置各々とを利用して、第1の撮像フレームで特定した認識対象の移動量を複数算出後、上記重み付け値を利用して、各移動量を補正(重み付け値をかけ合わせる、重み付け値を足し合わせる等)する。そして、補正後の値の平均値を算出し、平均した移動量が、所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断してもよい。
 一方、有効判断部30は、上記移動量又は平均した移動量が所定の閾値より大きいまたは所定閾値以上の場合、及び、第1の撮像フレームの解析結果とその直前の所定数の撮像フレームの解析結果の中に(2)解析結果なしが含まれる場合、第1の撮像フレームの解析結果を無効と判断してもよい。
 対応情報記憶部50が記憶する対応情報の中には、第一の実施形態で説明したものに加えて又は代えて、位置に基づいて特定される認識対象の態様と、入力内容とを対応付けた対応情報が記憶されてもよい。位置に基づいて特定される認識対象の態様は、例えば、認識対象の位置そのもの、又は、認識対象の移動軌跡(移動方向、移動量等)等である。認識対象の位置は、1つの撮像フレームで特定することができる。認識対象の移動軌跡は、連続する複数の撮像フレームで特定することができる。又、認識対象の位置及び形状に基づいて特定される認識対象の態様は、認識対象の位置に基づいて特定される認識対象の態様、及び、認識対象の形状に基づいて特定される認識対象の態様を組み合わせたものとすることができる。例えば、認識対象が人の手である場合、パーの状態で上方向に移動等である。
 次に、図2を用いて、本実施形態の処理の流れの一例について説明する。なお、当該例における認識対象は人(操作者)の手である。図2は、本実施形態の入力方法を用いて操作者のジェスチャに基づき所定の情報を入力するためのステップを示すフローチャートである。当該入力に従い、例えばコンピュータやマシンが動作することとなる。すなわち、操作者のジェスチャにより、例えばコンピュータやマシンが操作される。
 図2のフローチャートは、1つの撮像フレームに対する処理の流れを示しており、
S201画像撮影・取り込み処理、
S202前処理(背景処理・ノイズ処理)、
S203認識対象の形状によるジェスチャ認識処理、
S204後処理(認識有効性判定処理)、
S205ジェスチャ操作実行処理、
を含む。
 S201及びS202は第一の実施形態と同様であるので、ここでの説明は省略する。
 S203では、解析部10が、S202で得られた操作者が映った1フレーム分の画像を、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理する。
 具体的には、操作者が映った画像から特徴を抽出して認識対象となる手の画像とみなせる部分を、画像の中から抽出し、その後、抽出した手の位置を算出する。結果、当該撮像フレームに対する解析結果として、(1)抽出した認識対象の位置、又は、(2)解析結果なし、が得られる。なお、撮像フレーム内から認識対象が抽出されなかった場合の解析結果が、(2)解析結果なしとなる。解析結果には、認識対象の形状(特定形状)が含まれてもよい。
 次にS204の後処理が行われる。ここで、S204で行われる後処理の流れの一例を、図5のフローチャートを用いて説明する。当該処理は、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理される。なお、当該例においては、解析結果蓄積部20には最新のNフレーム分の解析結果が蓄積され、それを超える解析結果は蓄積されないものとする。また、有効解析結果記憶部40には最新の1つの有効な解析結果が記憶されるものとする。
 S511では、最初の実行か否かを判断する。当該撮像フレームに対する処理の前に他の撮像フレームに対して処理を行っている場合、NOと判断し、行っていない場合はYESと判断する。
 S511でYESと判定された場合、S512において、Nフレーム分(Nは設計的事項)の解析結果を記憶する記憶装置(解析結果蓄積部20)と、有効と判断された解析結果を格納する記憶装置(有効解析結果記憶部40:メモリ)を確保して、初期化を行う。この時、Nフレーム分の解析結果を記憶する記憶装置(解析結果蓄積部20)には、初期値として、(2)解析結果なし、を記憶しておいてもよい。S511においてNOと判定された場合には、S512の処理は行われない。
 S513では、図2に示すS203で得られた解析結果が、解析結果蓄積部20に蓄積される。なお、解析結果蓄積部20に蓄積する解析結果をN以下に保つため、解析結果蓄積部20に新たな解析結果を記憶した結果蓄積されている解析結果の数がNを超える場合、最も古い解析結果を解析結果蓄積部20から削除する(又は、最も古い解析結果に最新の解析結果を上書きする)。
 S514では、有効判断部30は、最新の解析結果と、他のN-1個の解析結果とを利用して、最新の解析結果の移動量(位置変化量)を算出し、移動量(位置変化量)が所定の閾値以下または所定の閾値より小さいか判断する。有効判断部30が最新の解析結果の移動量(位置変化量)を算出する処理は上述しているので、ここでは省略する。なお、他のN-1個の解析結果の中に(2)解析結果なしが含まれる場合、有効判断部30は移動量(位置変化量)を算出する処理を行わなくてもよいし、または、他のN-1個の解析結果の中に含まれている認識結果((1)抽出した認識対象の位置)のみを利用して最新の解析結果の移動量(位置変化量)を算出する処理を行ってもよい。ここでは、他のN-1個の解析結果の中に(2)解析結果なしが含まれる場合、有効判断部30は移動量(位置変化量)を算出する処理を行わないものとする。これにより処理の簡略化、高速化が可能となる。
 S514において、所定の閾値以下または所定の閾値より小さい移動量(位置変化量)が算出された場合、S515において最新の解析結果を有効と判断し、最新の解析結果を有効解析結果記憶部40に記憶する。なお、有効解析結果記憶部40に他の解析結果が記憶されている場合、この他の解析結果を最新の解析結果に書き換える。そして、S204の後処理を終了する。
 一方、S514において、所定の閾値以下または所定の閾値より小さい移動量(位置変化量)が算出されなかった場合、S516において最新の解析結果を無効と判断し、有効解析結果記憶部40に格納されている解析結果を更新することなく、S204の後処理を終了する。
 図2に戻り、S205では、入力受付部60が、有効解析結果記憶部40に記憶されている最新の有効な解析結果を認識するとともに、その解析結果を利用して認識対象の態様を特定する。その後、対応情報記憶部50に記憶されている対応情報を利用して、特定した認識対象の態様に対応付けられた入力内容を抽出するとともに、その入力内容を受付ける。
 なお、S205の処理は、S204で、有効解析結果記憶部40に記憶されている最新の有効な解析結果が更新された場合のみ実行してもよい。これらは、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理される。
 以上により、1つの撮像フレームに対する処理を終了する。その後、再びS201に戻り、同様の処理を繰り返す。
 ここで、本実施形態におけるNの値は2であってもよい。この場合、S514では、現在の認識対象の位置情報と、直近の過去1フレームの認識対象の位置情報とを単純に比較することで、有効性の判断を行うことができる。この結果、最少の記憶装置(メモリ)確保で位置変化量を算出し、S514の有効性の判定を行うことが可能となる。
 なお、Nの値を3以上とすることもできる。かかる場合、上述のように、過去の撮像フレームの位置情報に関して突発的なずれなどのノイズが含まれていた場合でも、平均化された過去の比較対象位置情報が得られるため、よりノイズに強く、正確な位置変化量比較を行うことが可能となる。
 また、S514において、有効判断部30は、直近の過去のN-1フレーム分の撮像フレームに重み付けをしておき、最新の撮像フレームで特定した認識対象の位置と、その直前のN-1個の撮像フレームで特定した認識対象の位置各々とを利用して、最新の撮像フレームで特定した認識対象の移動量を算出後、上記重み付け値を利用して、各移動量を補正してもよい。そして、補正後の値の平均値を算出し、当該平均値が、所定の閾値以下または所定の閾値より小さい場合、第1の撮像フレームの解析結果が有効と判断してもよい。かかる場合には、複数フレームにわたる認識対象の位置情報の変化後に位置が停止した場合、単純に平均値をとった場合と比べると、重みづけを利用した算出処理の方が、少ないフレーム数で停止した位置に近づく。そのため、誤認識が多い位置変化が終了した後に、少ないフレーム数で現在の位置変化量が小さくなるため、移動が終了した後に認識結果を素早く反映させることが可能となる。
 ここで、図6を用い、具体例を挙げて本実施形態の処理を説明する。図6の(a)は本実施形態の後処理がない場合(比較例)であり、(b)は本実施形態の後処理がある場合(実施例)である。
 横軸に時間軸をとっている。認識対象は手であり、最初グーの形状とし、その後形状をパーに変化させた。解析結果の欄に、解析結果を示している。Aは、解析結果が「グー」であり、Bは、解析結果が「パー」を示す。縦一列分が1フレーム分に対応している。実施例及び比較例いずれも、手の形状がグーの時は正しい解析結果が得られているが、手の形状がパーの時に2フレーム分誤った解析結果が得られている。すなわち、手の形状がパーであるのに、解析結果が「A」となっている箇所がある。このような誤りが発生する原因としては、例えば、高速に手を動かしたために指の部分がセンサで検出されず、グーのように誤って認識される場合が考えられる。
 後処理を含まない比較例の場合、解析結果がそのまま、入力内容を決定するための値(認識結果出力)となる。図示するように、比較例の場合、解析結果の欄の値と、認識結果出力欄の値が、いずれの撮像フレームにおいても一致している。
 かかる場合、手の形状がパーの時に発生した2フレーム分の誤った解析結果をそのまま反映して、入力内容を受付けてしまう。結果、本来ならば、グーに対応する入力を受付け、その後、パーに対応する入力を受付ける所、比較例の場合、グーに対応する入力結果を受付けた後、パーに対応する入力を受付け、その後、グーに対応する入力を受付け、さらに、パーに対応する入力を受付けるというように、余計な入力を受付けてしまう。
 これに対し、後処理を含む実施例の場合、解析結果がそのまま入力内容を決定するための値とはならず、後処理を受けた後の値が、入力内容を決定するための値(後処理後の出力:有効解析結果記憶部40に記憶される値)となる。
 なお、当該例においては、有効判断部30は、過去の2フレーム分の解析結果を利用して、X座標、Y座標、Z座標ごとに平均値を算出後、最新の撮像フレームで特定した認識対象の位置と、上記平均値を算出する処理により算出された位置とを利用して認識対象の移動量を算出する。そして、算出した移動量が所定の閾値(20)以下である場合、第1の撮像フレームの解析結果が有効と判断する。一方、有効判断部30は、上記移動量が所定の閾値(20)より大きい、及び、最新の撮像フレームの解析結果とその直前の2つの撮像フレームの解析結果の中に(2)解析結果なしが含まれる場合、最新の撮像フレームの解析結果を無効と判断する。
 図示するように、手の形状がグーの時、最初の撮像フレームから解析結果Aが得られているが、最初から2つ目の撮像フレームまでの解析結果は、その直前の2つの撮像フレームの解析結果の中に(2)解析結果なしが含まれるため、これらの撮像フレームに対する解析結果は無効と判断される(有効性の欄の値がバツ)。このため、これらの解析結果は後処理後の出力の値(有効解析結果記憶部40に記憶される値)とならず、後処理後の出力の値は初期値のままである。
 最初から3つ目の撮像フレームの解析結果の有効性の判断においては、まず、その直前の2つの撮像フレームの解析結果を利用して、X座標の平均値:29=(30+28)/2、Y座標の平均値:19=(20+18)/2、Z座標の平均値:78.5=(78+79)/2を算出する。そして、平均した座標(29、19、78.5)と、3つ目の撮像フレームの解析結果の座標(31、21、82)を利用して、移動量を算出する。そして、この移動量が所定の閾値(20)以下であるので、3つ目の撮像フレームの解析結果を有効と判断する。このため、後処理後の出力の値(有効解析結果記憶部40に記憶される値)は、3つ目の撮像フレームの解析結果の値となる。その他の撮像フレームに対しても同様の処理がなされる。
 ところで、手の形状がパーの時に発生した誤った解析結果は、上述のようにして算出される移動量が所定の閾値(20)を超える。すなわち、撮像の際に高速(上述のようにして算出される移動量が所定の閾値(20)を超える程度の速さ)で移動していたと考えられる。当該例では、このような撮像フレームに対する解析結果は無効と判断される。このため、このような撮像フレームに対する解析結果により、後処理後の出力の値(有効解析結果記憶部40に記憶される値)が更新されることはない。結果、誤った解析結果に基づく入力を排除することができる。
 なお、本実施形態では、X軸方向への移動、Y軸方向への移動、Z軸方向への移動各々個別に所定の閾値を設け、すべての方向への移動が各々の所定の閾値以下または所定の閾値より小さい場合、その撮像フレームの解析結果が有効と判断してもよい。例えば、X軸方向と指の幅方向とが一致し易い態様で使用される場合、手を高速にX軸方向に動かしたときに幅の狭い指の部分がセンサで検出されず、パーが誤ってグーとして解析される、という事例が発生し易くなる。これに対し、手を高速にY軸方向及びZ軸方向に動かしても、このような不都合は生じ難い。このような場合、例えば、X軸方向への移動の閾値は(10)、Y軸方向及びZ軸方向への移動の閾値は(20)などのように、誤検出が発生し易い方向への移動にのみ厳しい閾値を設定することで、更に誤った解析結果に基づく入力を排除することができる。
<第三の実施形態>
 本実施形態では、第一の実施形態で説明した解析結果の有効性を判断する処理と、第二の実施形態で説明した解析結果の有効性を判断する処理とを組み合わせる。その他は、第一の実施形態及び第二の実施形態と同様である。
 本実施形態における1つの撮像フレームに対する処理の流れも、図2に示すフローチャートで示される。S204後処理以外は、第一の実施形態及び第二の実施形態で説明した通りであるので、ここでの説明は省略する。
 図7に示すフローチャートは、図2のS204で行われる処理の流れの一例を示す。当該処理は、デジタル信号プロセッサ(DSP)または中央演算ユニット(CPU)によって処理される。なお、当該例においては、解析結果蓄積部20には最新のNフレーム分の解析結果が蓄積され、それを超える解析結果は蓄積されないものとする。また、有効解析結果記憶部40には最新の1つの有効な解析結果が記憶されるものとする。
 S711では、最初の実行か否かを判断する。当該撮像フレームに対する処理の前に他の撮像フレームに対して処理を行っている場合、NOと判断し、行っていない場合はYESと判断する。
 S711でYESと判定された場合、S712において、Nフレーム分(Nは設計的事項)の解析結果を記憶する記憶装置(解析結果蓄積部20)と、有効と判断された解析結果を格納する記憶装置(有効解析結果記憶部40:メモリ)を確保して、初期化を行う。この時、Nフレーム分の解析結果を記憶する記憶装置(解析結果蓄積部20)には、初期値として、(2)解析結果なし、を記憶しておいてもよい。S711においてNOと判定された場合には、S712の処理は行われない。
 S713では、図2に示すS203で得られた解析結果が、解析結果蓄積部20に蓄積される。なお、解析結果蓄積部20に蓄積する解析結果をN以下に保つため、解析結果蓄積部20に新たな解析結果を記憶した結果蓄積されている解析結果の数がNを超える場合、最も古い解析結果を解析結果蓄積部20から削除する(又は、最も古い解析結果に最新の解析結果を上書きする)。
 S714では、有効判断部30が、解析結果蓄積部20に蓄積されている解析結果が全て同じかどうかを判定する。なお、最初からNフレーム分の処理を行うまでは、解析結果蓄積部20に初期値((2)解析結果なし)が格納されており、これらも解析結果の有効性の判断に利用される。
 S714において同じと判断された場合、S715に進む。一方、S714においていずれかが異なると判断された場合、S717において最新の解析結果を無効と判断し、有効解析結果記憶部40に格納されている解析結果を更新することなく、S204の後処理を終了する。
 S715では、有効判断部30は、最新の解析結果と、他のN-1個の解析結果とを利用して、最新の解析結果の移動量(位置変化量)を算出し、移動量(位置変化量)が所定の閾値以下または所定の閾値より小さいか判断する。有効判断部30が最新の解析結果の移動量(位置変化量)を算出する処理は第二の実施形態で説明しているので、ここでは省略する。
 S715において、所定の閾値以下または所定の閾値より小さい移動量(位置変化量)が算出された場合、S716において最新の解析結果を有効と判断し、最新の解析結果を有効解析結果記憶部40に記憶する。なお、有効解析結果記憶部40に他の解析結果が記憶されている場合、この他の解析結果を最新の解析結果に書き換える。そして、S204の後処理を終了する。
 一方、S715において、所定の閾値以下または所定の閾値より小さい移動量(位置変化量)が算出されなかった場合、S717において最新の解析結果を無効と判断し、有効解析結果記憶部40に格納されている解析結果を更新することなく、S204の後処理を終了する。
 ここで、図8を用い、具体例を挙げて本実施形態の処理を説明する。図8の(a)は本実施形態の後処理がない場合(比較例)であり、(b)は第一の実施形態の後処理がある場合(実施例A)であり、(c)は本実施形態の後処理がある場合(実施例B)である。
 横軸に時間軸をとっている。認識対象は手であり、最初グーの形状とし、その後形状をパーに変化させた。解析結果の欄に、解析結果を示している。Aは、解析結果が「グー」であり、Bは、解析結果が「パー」を示す。縦一列分が1フレーム分に対応している。実施例A、B及び比較例いずれも、手の形状がグーの時は正しい解析結果が得られているが、手の形状がパーの時に3フレーム分連続した誤った解析結果(第1のミス)、及び、1フレーム分のみ(連続していない)の誤った解析結果(第2のミス)が得られている。すなわち、手の形状がパーであるのに、解析結果が「A」となっている箇所がある。
 後処理を含まない比較例の場合、解析結果がそのまま、入力内容を決定するための値(認識結果出力)となる。図示するように、比較例の場合、解析結果の欄の値と、認識結果出力欄の値が、いずれの撮像フレームにおいても一致している。
 かかる場合、手の形状がパーの時に発生した3フレーム分連続した誤った解析結果(第1のミス)、及び、1フレーム分のみの誤った解析結果(第2のミス)いずれもそのまま反映して、入力内容を受付けてしまう。すなわち、誤った入力内容を受付けてしまう。
 これに対し、第一の実施形態で説明した後処理を含む実施例A(図8(b))の場合、解析結果がそのまま入力内容を決定するための値とはならず、後処理を受けた後の値が、入力内容を決定するための値(後処理後の出力:有効解析結果記憶部40に記憶される値)となる。
 当該例においては、過去2フレーム分の解析結果を利用して、最新のフレームの解析結果の有効性を判断する。具体的には、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果のすべてが一致する場合、その最新の撮像フレームの解析結果を有効とする。一方、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果が完全に一致しない場合、その最新の撮像フレームの解析結果を無効とする。その詳細は、第一の実施形態で説明したとおりである。
 当該実施例Aの場合、1フレーム分のみの誤った解析結果(第2のミス)は無効とし、このような解析結果に基づいた誤った入力を排除することができる。しかし、3フレーム分連続した誤った解析結果(第1のミス)は無効と判断できず、誤った解析結果に基づいた入力を受付けてしまう。
 これらに対し、本実施形態の後処理を含む実施例B(図8(c))の場合も、解析結果がそのまま入力内容を決定するための値とはならず、後処理を受けた後の値が、入力内容を決定するための値(後処理後の出力:有効解析結果記憶部40に記憶される値)となる。
 当該例においては、過去2フレーム分の解析結果を利用して、最新のフレームの解析結果の有効性を判断する。具体的には、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果のすべてが一致するか判断するとともに、過去の2フレーム分の解析結果を利用して、X座標、Y座標、Z座標ごとに平均値を算出後、最新の撮像フレームで特定した認識対象の位置と、上記平均値を算出する処理により算出された位置とを利用して認識対象の移動量を算出する。そして、過去2フレーム分の解析結果、及び、最新の撮像フレームの解析結果のすべてが一致し、かつ、算出した移動量が所定の閾値(20)以下である場合、最新の撮像フレームの解析結果を有効と判断する。そして、それ以外の場合は無効と判断する。
 当該実施例Bの場合、実施例Aと同様、1フレーム分のみの誤った解析結果(第2のミス)は無効とし、このような解析結果に基づいた誤った入力を排除することができる。また、誤った解析結果が想定よりも長く(無効と判断できないほど)続いてしまった場合であっても、移動量に基づいて、このような誤った解析結果を無効と判断できるので、図示するように、3フレーム分連続した誤った解析結果(第1のミス)をも無効とし、このような解析結果に基づいた誤った入力を排除することができる。
 このように、本実施形態によれば、より高い精度で誤認識の発生を抑制し、高い操作性と操作の正確性を実現したジェスチャによる入力技術を提供することにある。
<実施例>
 本発明の効果を示す実験結果として、図4(a)の後処理なしの場合、図4(b)の後処理ありの場合、図6(b)の後処理ありの場合、図8(c)の後処理ありの場合、それぞれにおいて、センサのエリア内に第一の場所と第二の場所を30cm程度離して設定し、第一の場所で手の形状をパーからグーにし、グーの手の形状のまま第二の場所に移動し、第二の場所でグーからパーにし、パーの手の形状のまま再び第一の場所に戻る、という作業を、30回繰り返し行って誤動作発生回数をカウントする実験結果を示す。
 図4(a)の後処理なし(本発明適用前)の場合、誤動作発生回数は19回/30回であり、誤動作発生率は63%であった。
 図4(b)の後処理あり(第一の実施形態適用時)の場合、誤動作発生回数は12回/30回であり、誤動作発生率は40%であった。
 図6(b)の後処理あり(第二の実施形態適用時)の場合、誤動作発生回数は13回/30回であり、誤動作発生率は43%であった。
 図8(c)の後処理あり(第三の実施形態適用時)の場合、誤動作発生回数は2回/30回であり、誤動作発生率7%であった。
 第一の実施形態の場合、認識エンジンの精度によって発生する認識結果の不安定を主にフィルタすることができる。一方、第二の実施形態の場合、座標変化時に発生する認識結果の不安定を主にフィルタすることができる。この二つの後処理を一緒に適用する第三の実施形態を利用することで、少ない記憶装置の確保により、単なる組み合わせ以上の大きな誤認識発生率の抑制が得られることが確認できた。
 以上、形状によるジェスチャの認識方法について記述した。
 この方法は、身体(手指)の形状によるジェスチャの認識を利用した、動きによるジェスチャ認識方法についても適用することができ、誤認識を低下させて正確性の高いジェスチャ認識方法として提供することができる。
 具体的には、手のひらを開いたときのジェスチャの状態で手を動かした時に、その動きに応じてマウスカーソルの位置を動かすという例において、フレーム毎に手指の位置が動いた場合でも、閾値以上の位置移動を検出した場合は、閾値を超える位置変化量を検出される直前の有効と判定された出力の値を出力し続けることになる。従って、誤認識が生じにくい動きによるジェスチャが提供できることになる。
 上述したジェスチャ認識方法を用いてジェスチャ認識装置を構成することができる。
 上述したジェスチャ認識装置を用いて、デジタルサイネージ(電子看板)を構成することができる。
 なお、本実施形態では、位置変化検出処理にそれぞれ互いに直交するX軸、Y軸及びZ軸が定められた3次元座標(実空間に定められてもよい)を用いたが、3次元座標(実空間座標)だけでなくカメラのピクセル上を取り入れた座標系を用いても良い。また、カメラやセンサを原点とした極座標系を用いても良い。
<<付記>>
 上記説明によれば、以下の発明の説明がなされている。
<発明1>
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段と、
 前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段と、
 第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段と、
 前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段と、
 形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段と、
 前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段と、
を有する入力装置。
<発明2>
 発明1に記載の入力装置において、
 前記解析手段は、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶しており、前記特徴量情報を利用して、前記認識対象が前記特定形状に類似しているか否か、もしくは一致しているか否かを判断することで前記認識対象の形状を特定し、
 前記有効判断手段は、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断し、前記所定数の撮像フレームの解析結果すべてと一致する場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
<発明3>
 発明1に記載の入力装置において、
 前記解析手段は、前記認識対象の位置を特定し、
 前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
<発明4>
 発明1に記載の入力装置において、
 前記解析手段は、それぞれ直交する第1の軸、第2の軸、第3の軸からなる3次元座標内における前記認識対象の位置を特定し、
 前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の前記3次元座標内における第1の軸方向の移動量、第2の軸方向の移動量及び第3の軸方向の移動量を算出し、前記第1の軸方向の移動量、前記第2の軸方向の移動量及び前記第3の軸方向の移動量のすべてが、予め前記第1の軸方向、前記第2の軸方向及び前記第3の軸方向毎に定められた所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
<発明5>
 発明1または2に記載の入力装置において、
 前記解析手段は、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶しており、前記特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定するとともに、前記認識対象の位置を特定し、
 前記有効判断手段は、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断するとともに、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記第1の撮像フレームで特定した前記特定形状が前記所定数の撮像フレームの解析結果すべてと一致し、かつ、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
<発明6>
 発明3に記載の入力装置において、
 前記解析手段は、前記認識対象の位置を位置ベクトルで特定し、
 前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置ベクトルと、その直前の所定数の撮像フレームで特定した前記認識対象の位置ベクトルとを利用し、両位置ベクトルの差分の絶対値を利用して、前記第1の撮像フレームで特定した前記認識対象の移動量を算出する入力装置。
<発明7>
 発明1から6のいずれかに記載の入力装置を備える電子看板。
<発明8>
 コンピュータを、
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段、
 前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段、
 前記第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段、
 前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段、
 形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段、
 前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段、
として機能させるためのプログラム。
<発明8-2>
 発明8に記載のプログラムにおいて、
 前記解析手段に、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶させ、前記特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定させ、
 前記有効判断手段に、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断させ、前記所定数の撮像フレームの解析結果すべてと一致する場合、前記第1の撮像フレームの解析結果が有効と判断させるプログラム。
<発明8-3>
 発明8に記載のプログラムにおいて、
 前記解析手段に、前記認識対象の位置を特定させ、
 前記有効判断手段に、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出させ、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断させるプログラム。
<発明8-4>
 発明8に記載のプログラムにおいて、
 前記解析手段に、それぞれ直交する第1の軸、第2の軸、第3の軸からなる3次元座標内における前記認識対象の位置を特定させ、
 前記有効判断手段に、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の前記3次元座標内における第1の軸方向の移動量、第2の軸方向の移動量及び第3の軸方向の移動量を算出し、前記第1の軸方向の移動量、前記第2の軸方向の移動量及び前記第3の軸方向の移動量のすべてが、予め前記第1の軸方向、前記第2の軸方向及び前記第3の軸方向毎に定められた所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断させるプログラム。
<発明8-5>
 発明8または8-2に記載のプログラムにおいて、
 前記解析手段に、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶させ、前記特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定するとともに、前記認識対象の位置を特定させ、
 前記有効判断手段に、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断させるとともに、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出させ、前記第1の撮像フレームで特定した前記特定形状が前記所定数の撮像フレームの解析結果すべてと一致し、かつ、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断させるプログラム。
<発明8-6>
 発明8-3に記載のプログラムにおいて、
 前記解析手段に、前記認識対象の位置を位置ベクトルで特定させ、
 前記有効判断手段に、前記第1の撮像フレームで特定した前記認識対象の位置ベクトルと、その直前の所定数の撮像フレームで特定した前記認識対象の位置ベクトルとを利用し、両位置ベクトルの差分の絶対値を利用して、前記第1の撮像フレームで特定した前記認識対象の移動量を算出させるプログラム。
<発明9>
 コンピュータが、
 撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析ステップと、
 前記解析ステップで解析した解析結果を蓄積する解析結果蓄積ステップと、
 第1の前記撮像フレームの解析結果と、前記解析結果蓄積ステップで蓄積された前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析ステップで解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断ステップと、
 前記有効判断ステップで有効と判断された解析結果を記憶する有効解析結果記憶ステップと、
 前記有効解析結果記憶ステップで記憶した解析結果を利用して形状及び/又は位置に基づいて特定される前記認識対象の態様を特定した後、前記認識対象の態様と入力内容とを対応付けた対応情報を参照し、特定した態様に対応付けられている入力内容の入力を受付ける入力受付ステップと、
を実行する入力方法。
<発明9-2>
 発明9に記載の入力方法において、
 前記解析ステップでは、予め記憶している少なくとも1つの特定形状の特徴量を示す特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定し、
 前記有効判断ステップでは、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断し、前記所定数の撮像フレームの解析結果すべてと一致する場合、前記第1の撮像フレームの解析結果が有効と判断する入力方法。
<発明9-3>
 発明9に記載の入力方法において、
 前記解析ステップでは、前記認識対象の位置を特定し、
 前記有効判断ステップでは、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力方法。
<発明9-4>
 発明9に記載の入力方法において、
 前記解析ステップでは、それぞれ直交する第1の軸、第2の軸、第3の軸からなる3次元座標内における前記認識対象の位置を特定し、
 前記有効判断ステップでは、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の前記3次元座標内における第1の軸方向の移動量、第2の軸方向の移動量及び第3の軸方向の移動量を算出し、前記第1の軸方向の移動量、前記第2の軸方向の移動量及び前記第3の軸方向の移動量のすべてが、予め前記第1の軸方向、前記第2の軸方向及び前記第3の軸方向毎に定められた所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力方法。
<発明9-5>
 発明9または9-2に記載の入力方法において、
 前記解析ステップでは、予め記憶している少なくとも1つの特定形状の特徴量を示す特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定するとともに、前記認識対象の位置を特定し、
 前記有効判断ステップでは、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断するとともに、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記第1の撮像フレームで特定した前記特定形状が前記所定数の撮像フレームの解析結果すべてと一致し、かつ、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力方法。
<発明9-6>
 発明9-3に記載の入力方法において、
 前記解析ステップでは、前記認識対象の位置を位置ベクトルで特定し、
 前記有効判断ステップでは、前記第1の撮像フレームで特定した前記認識対象の位置ベクトルと、その直前の所定数の撮像フレームで特定した前記認識対象の位置ベクトルとを利用し、両位置ベクトルの差分の絶対値を利用して、前記第1の撮像フレームで特定した前記認識対象の移動量を算出する入力方法。
 この出願は、2012年8月22日に出願された日本特許出願特願2012-183509号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (9)

  1.  撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段と、
     前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段と、
     第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段と、
     前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段と、
     形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段と、
     前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段と、
    を有する入力装置。
  2.  請求項1に記載の入力装置において、
     前記解析手段は、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶しており、前記特徴量情報を利用して、前記認識対象が前記特定形状に類似しているか否か、もしくは一致しているか否かを判断することで前記認識対象の形状を特定し、
     前記有効判断手段は、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断し、前記所定数の撮像フレームの解析結果すべてと一致する場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
  3.  請求項1に記載の入力装置において、
     前記解析手段は、前記認識対象の位置を特定し、
     前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
  4.  請求項1に記載の入力装置において、
     前記解析手段は、それぞれ直交する第1の軸、第2の軸、第3の軸からなる3次元座標内における前記認識対象の位置を特定し、
     前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の前記3次元座標内における第1の軸方向の移動量、第2の軸方向の移動量及び第3の軸方向の移動量を算出し、前記第1の軸方向の移動量、前記第2の軸方向の移動量及び前記第3の軸方向の移動量のすべてが、予め前記第1の軸方向、前記第2の軸方向及び前記第3の軸方向毎に定められた所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
  5.  請求項1または2に記載の入力装置において、
     前記解析手段は、少なくとも1つの特定形状の特徴量を示す特徴量情報を予め記憶しており、前記特徴量情報を利用して、前記認識対象が前記特定形状であるか否かを判断することで前記認識対象の形状を特定するとともに、前記認識対象の位置を特定し、
     前記有効判断手段は、前記第1の撮像フレームで特定した前記特定形状が、その直前の所定数の撮像フレームの解析結果と一致するか判断するとともに、前記第1の撮像フレームで特定した前記認識対象の位置と、その直前の所定数の撮像フレームで特定した前記認識対象の位置とを利用して前記第1の撮像フレームで特定した前記認識対象の移動量を算出し、前記第1の撮像フレームで特定した前記特定形状が前記所定数の撮像フレームの解析結果すべてと一致し、かつ、前記移動量が所定の閾値以下または所定の閾値より小さい場合、前記第1の撮像フレームの解析結果が有効と判断する入力装置。
  6.  請求項3に記載の入力装置において、
     前記解析手段は、前記認識対象の位置を位置ベクトルで特定し、
     前記有効判断手段は、前記第1の撮像フレームで特定した前記認識対象の位置ベクトルと、その直前の所定数の撮像フレームで特定した前記認識対象の位置ベクトルとを利用し、両位置ベクトルの差分の絶対値を利用して、前記第1の撮像フレームで特定した前記認識対象の移動量を算出する入力装置。
  7.  請求項1から6のいずれか1項に記載の入力装置を備える電子看板。
  8.  コンピュータを、
     撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析手段、
     前記解析手段が解析した解析結果を蓄積する解析結果蓄積手段、
     第1の前記撮像フレームの解析結果と、前記解析結果蓄積手段に蓄積されている前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析手段が解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断手段、
     前記有効判断手段が有効と判断した解析結果を記憶する有効解析結果記憶手段、
     形状及び/又は位置に基づいて特定される前記認識対象の態様と、入力内容とを対応付けた対応情報を記憶する対応情報記憶手段、
     前記有効解析結果記憶手段が記憶する解析結果を利用して前記認識対象の態様を特定するとともに、特定した態様に対応付けられている入力内容の入力を受付ける入力受付手段、
    として機能させるためのプログラム。
  9.  コンピュータが、
     撮像手段から時系列に連続する複数の撮像フレームを取得し、撮像フレーム毎に、所定の認識対象を抽出するとともに、抽出した前記認識対象の形状及び/又は位置を特定する解析ステップと、
     前記解析ステップで解析した解析結果を蓄積する解析結果蓄積ステップと、
     第1の前記撮像フレームの解析結果と、前記解析結果蓄積ステップで蓄積された前記第1の撮像フレームの直前の所定数の撮像フレームの解析結果とを利用して、前記解析ステップで解析した前記第1の撮像フレームの解析結果が有効か否か判断する有効判断ステップと、
     前記有効判断ステップで有効と判断された解析結果を記憶する有効解析結果記憶ステップと、
     前記有効解析結果記憶ステップで記憶した解析結果を利用して形状及び/又は位置に基づいて特定される前記認識対象の態様を特定した後、前記認識対象の態様と入力内容とを対応付けた対応情報を参照し、特定した態様に対応付けられている入力内容の入力を受付ける入力受付ステップと、
    を実行する入力方法。
PCT/JP2013/068533 2012-08-22 2013-07-05 入力装置、入力方法、プログラム、及び、電子看板 Ceased WO2014030442A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-183509 2012-08-22
JP2012183509 2012-08-22

Publications (1)

Publication Number Publication Date
WO2014030442A1 true WO2014030442A1 (ja) 2014-02-27

Family

ID=50149757

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/068533 Ceased WO2014030442A1 (ja) 2012-08-22 2013-07-05 入力装置、入力方法、プログラム、及び、電子看板

Country Status (1)

Country Link
WO (1) WO2014030442A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022520030A (ja) * 2019-10-22 2022-03-28 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
JP2022104178A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083302A (ja) * 2000-09-07 2002-03-22 Sony Corp 情報処理装置、動作認識処理方法及びプログラム格納媒体
JP2004302992A (ja) * 2003-03-31 2004-10-28 Honda Motor Co Ltd ジェスチャ認識装置、ジェスチャ認識方法及びジェスチャ認識プログラム
JP2010271944A (ja) * 2009-05-21 2010-12-02 Chuo Univ 周期ジェスチャ識別装置、周期ジェスチャ識別方法、周期ジェスチャ識別プログラム、及び記録媒体
JP2011086052A (ja) * 2009-10-14 2011-04-28 Fujitsu Ltd 手認識装置
JP2011192090A (ja) * 2010-03-15 2011-09-29 Omron Corp ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083302A (ja) * 2000-09-07 2002-03-22 Sony Corp 情報処理装置、動作認識処理方法及びプログラム格納媒体
JP2004302992A (ja) * 2003-03-31 2004-10-28 Honda Motor Co Ltd ジェスチャ認識装置、ジェスチャ認識方法及びジェスチャ認識プログラム
JP2010271944A (ja) * 2009-05-21 2010-12-02 Chuo Univ 周期ジェスチャ識別装置、周期ジェスチャ識別方法、周期ジェスチャ識別プログラム、及び記録媒体
JP2011086052A (ja) * 2009-10-14 2011-04-28 Fujitsu Ltd 手認識装置
JP2011192090A (ja) * 2010-03-15 2011-09-29 Omron Corp ジェスチャ認識装置、ジェスチャ認識装置の制御方法、および、制御プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022520030A (ja) * 2019-10-22 2022-03-28 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
JP7479388B2 (ja) 2019-10-22 2024-05-08 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
JP2022104178A (ja) * 2020-12-28 2022-07-08 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
JP7225194B2 (ja) 2020-12-28 2023-02-20 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
US11989943B2 (en) 2020-12-28 2024-05-21 Rakuten Group, Inc. Image frame extraction apparatus and image frame extraction method

Similar Documents

Publication Publication Date Title
US8923559B2 (en) Image processing apparatus, image processing method, and program
KR101514169B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
JP5498454B2 (ja) 追跡装置、追跡方法およびプログラム
CN109977906B (zh) 手势识别方法及系统、计算机设备及存储介质
CN111801706B (zh) 视频对象检测
CN110008795B (zh) 图像目标追踪方法及其系统与计算机可读取记录介质
CN108596079B (zh) 手势识别方法、装置及电子设备
CN107273869B (zh) 手势识别控制方法和电子设备
CA2749723A1 (en) Detecting potential changed objects in images
CN107786780B (zh) 视频图像降噪方法、装置及计算机可读存储介质
EP3518522B1 (en) Image capturing method and device
WO2018154709A1 (ja) 動作学習装置、技能判別装置および技能判別システム
JP2015032001A (ja) 情報処理装置および情報処理手法、プログラム
KR20160021629A (ko) 사용자 입력 처리 방법 및 장치
CN110738078A (zh) 一种人脸识别方法及终端设备
CN115294168A (zh) 一种跟踪目标的方法、装置及电子设备
JP5674550B2 (ja) 状態追跡装置、方法、及びプログラム
JPWO2018159467A1 (ja) 移動体検知装置、移動体検知方法、及びプログラム
JPWO2015186347A1 (ja) 検出システム、検出方法及びプログラム
TW201421423A (zh) 影像感測器及其運作方法
JPWO2014199824A1 (ja) 画像処理方法、画像処理装置および画像処理プログラム
WO2014030442A1 (ja) 入力装置、入力方法、プログラム、及び、電子看板
WO2021098666A1 (zh) 手部姿态检测方法和装置、及计算机存储介质
CN104933688B (zh) 一种数据处理方法及电子设备
JP5643147B2 (ja) 動きベクトル検出装置、動きベクトル検出方法及び動きベクトル検出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13831170

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13831170

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP