[go: up one dir, main page]

WO2024111429A1 - 姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム - Google Patents

姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム Download PDF

Info

Publication number
WO2024111429A1
WO2024111429A1 PCT/JP2023/040493 JP2023040493W WO2024111429A1 WO 2024111429 A1 WO2024111429 A1 WO 2024111429A1 JP 2023040493 W JP2023040493 W JP 2023040493W WO 2024111429 A1 WO2024111429 A1 WO 2024111429A1
Authority
WO
WIPO (PCT)
Prior art keywords
position information
posture
display
image
posture evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2023/040493
Other languages
English (en)
French (fr)
Inventor
修平 野寄
勇気 小阪
昭元 二村
浩二 藤田
拓哉 井原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Tokyo Medical and Dental University NUC
Original Assignee
NEC Corp
Tokyo Medical and Dental University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Tokyo Medical and Dental University NUC filed Critical NEC Corp
Priority to JP2024560068A priority Critical patent/JPWO2024111429A1/ja
Publication of WO2024111429A1 publication Critical patent/WO2024111429A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure relates to a posture evaluation device, a posture evaluation system, a posture evaluation method, and a program.
  • Patent Document 1 describes a system that estimates the skeleton from images of a subject and classifies and searches for the subject's posture, behavior, and other conditions.
  • the skeleton is estimated by extracting characteristic points such as joints as key points.
  • Keypoints can be extracted using machine learning models such as deep learning.
  • machine learning models for posture assessment can extract keypoints relatively accurately for postures such as sitting or standing, they may not be able to extract keypoints accurately for special postures such as during exercise. If the accuracy of keypoint extraction is low, the accuracy of posture assessment will also be low. Therefore, technology has been developed that superimposes extracted keypoints on an image of the user, allowing the user to modify the keypoints on the display screen.
  • the objective of this disclosure is to provide a posture evaluation device, posture evaluation system, posture evaluation method, and program that can evaluate posture with high accuracy.
  • the posture assessment device includes a skeleton extraction unit that estimates keypoint position information of keypoints consisting of joints or anatomical landmarks of the body and the reliability of the keypoints from an image obtained by imaging the body of a subject, an image generation unit that generates a display image in which the keypoints whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display mode different from that of other keypoints whose reliability is equal to or higher than the predetermined threshold, a skeleton correction unit that corrects the keypoint position information based on keypoint correction information for correcting the keypoint position information received from a user, and a feature calculation unit that calculates feature amounts related to the joints or anatomical landmarks based on the keypoint position information corrected by the skeleton correction unit.
  • the posture evaluation system includes a posture evaluation device and a subject terminal capable of communicating with the posture evaluation device.
  • the posture evaluation device includes a skeleton extraction unit that estimates key point position information of key points consisting of joints or anatomical landmarks of the body and the reliability of the key points from an image of the subject's body acquired by the subject terminal, an image generation unit that generates a display image in which the key points whose reliability is lower than a predetermined threshold are superimposed on the image in a display mode different from that of other key points whose reliability is equal to or higher than the predetermined threshold, a skeleton correction unit that corrects the key point position information based on key point correction information for correcting the key point position information received from a user, and a feature calculation unit that calculates feature amounts related to the joints or anatomical landmarks based on the key point position information corrected by the skeleton correction unit.
  • the posture assessment method is a method in which a posture assessment device estimates keypoint position information of keypoints consisting of joints or anatomical landmarks of the body and the reliability of the keypoints from an image obtained by imaging the body of a subject, generates a display image in which the keypoints whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other keypoints whose reliability is equal to or higher than the predetermined threshold, corrects the keypoint position information based on keypoint correction information for correcting the keypoint position information received from a user, and calculates feature amounts related to the joints or anatomical landmarks based on the keypoint position information corrected by the skeletal correction unit.
  • the program disclosed herein causes a posture assessment device to execute the following processes: estimating keypoint position information of keypoints consisting of joints or anatomical landmarks of the body and the reliability of the keypoints from an image obtained by imaging the body of a subject; generating a display image in which the keypoints whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display mode different from that of other keypoints whose reliability is equal to or higher than the predetermined threshold; correcting the keypoint position information based on keypoint correction information for correcting the keypoint position information received from a user; and calculating features related to the joints or anatomical landmarks based on the keypoint position information corrected by the skeletal correction unit.
  • FIG. 1 is a block diagram showing a configuration of a posture assessment device according to the present disclosure.
  • 1 is a block diagram showing a configuration of a posture assessment device according to the present disclosure.
  • 1 is a diagram illustrating an example of an image captured by an imaging section according to the present disclosure.
  • FIG. FIG. 13 is a diagram illustrating an example of a display image according to the present disclosure.
  • FIG. 13 illustrates an example of a display image with key points modified in accordance with the present disclosure.
  • FIG. 13 is a diagram showing another example of a display image according to the present disclosure.
  • 1 is a flowchart illustrating a posture assessment method according to the present disclosure.
  • 1 is a block diagram showing a configuration of a posture assessment device according to the present disclosure.
  • FIG. 13 is a diagram illustrating an example of a display image according to the present disclosure.
  • FIG. 13 illustrates an example of a displayed image with modified spine edge point cloud according to the present disclosure.
  • 1 is a flowchart illustrating a posture assessment method according to the present disclosure.
  • 1 is a block diagram showing a configuration of a posture assessment device according to the present disclosure.
  • FIG. 1 illustrates an example of a tensor and a display image according to the present disclosure.
  • 1 is a block diagram showing a configuration of a posture evaluation system according to the present disclosure.
  • FIG. 2 is a block diagram showing a configuration of a subject terminal according to the present disclosure.
  • FIG. 13 is a diagram illustrating an example of a display image according to the present disclosure.
  • FIG. 1 is a block diagram illustrating an example of a configuration of a computer according to the present disclosure.
  • Fig. 1 is a block diagram showing a configuration of a posture evaluation device 100 according to the present disclosure.
  • the posture evaluation device 100 in the present disclosure is a device that evaluates posture based on a captured image obtained by capturing an image of a subject's body using a camera such as a smartphone.
  • the subject refers to a person whose posture is evaluated by the posture evaluation device 100.
  • the posture evaluation device 100 estimates the subject's skeleton and the like from the captured image and evaluates the subject's posture based on the skeleton and the like. This makes it possible to evaluate posture in situations such as online training and self-training.
  • the posture evaluation device 100 includes a skeleton extraction unit 101, an image generation unit 103, an input reception unit 104, a skeleton correction unit 105, and a feature calculation unit 106.
  • the skeleton extraction unit 101 extracts body joints or anatomical features as key points from an image obtained by imaging the subject's body.
  • the skeleton extraction unit 101 estimates key point position information of the key points and the reliability of the key points.
  • extracting key points means “estimating key point position information and reliability”. Therefore, in this specification, it may also be expressed as "estimating key points”.
  • anatomical features include, for example, wrists, elbows, shoulders, hips, knees, ankles, etc.
  • the captured image obtained by capturing an image of the subject's body is a two-dimensional image, and may be a two-dimensional RGB image. The captured image may also be an image of the side of the subject's body.
  • the key point position information is position information of a joint or an anatomical feature on an image.
  • the position information of a joint or an anatomical feature on an image is, for example, position information of a pixel located at the center of an image region on the image that corresponds to the joint or the anatomical feature.
  • the position information of a pixel is, for example, image coordinates.
  • the image coordinates are coordinates for indicating the position of a pixel on a two-dimensional image, and are defined as, for example, a coordinate system in which the center of the pixel located at the leftmost and uppermost side of the two-dimensional image is defined as the origin, the left-right direction or horizontal direction is defined as the x direction, and the up-down direction or vertical direction is defined as the y direction.
  • the reliability is the probability that a pixel specified by the keypoint position information estimated by the skeleton extraction unit 101 is a joint or an anatomical feature. For example, when the skeleton extraction unit 101 extracts keypoints from a captured image using a machine learning model, a score indicating that the keypoint is a joint or an anatomical feature is calculated together with the keypoint position information. In this case, the reliability is the score. The higher the score value, the higher the reliability.
  • the image generating unit 103 generates a display image in which key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display mode different from other key points whose reliability is equal to or higher than the predetermined threshold.
  • the key points are superimposed on the captured image in a manner that allows the user to move (drag) them.
  • the user refers to at least one of a subject whose posture is evaluated by the posture evaluation device 100 and an evaluator who evaluates the posture of others using the posture evaluation device 100.
  • the subject is also an evaluator.
  • the evaluator when an evaluator evaluates the posture of others using the posture evaluation device 100, the evaluator is, for example, a therapist or a trainer.
  • the display image may be displayed on a smartphone (subject terminal) owned by the user, or may be displayed on a display unit (not shown) provided in the posture evaluation device 100.
  • a different display mode means that the shape, color, or size of the key point is different, or the display format (blinking, etc.) is different.
  • a different display mode also includes displaying a message in the display image indicating that extraction of any key point has failed.
  • the input receiving unit 104 receives key point correction information for correcting key point position information from the user. Specifically, the input receiving unit 104 receives, as key point correction information, position information of a key point that has been corrected to the correct position by the user moving (dragging) the key point on the displayed image. Note that the movement of a key point on the displayed image is not limited to dragging. For example, an operation may be performed in which the key point to be corrected is selected, and then the position to which the key point is to be moved is selected.
  • the skeleton correction unit 105 corrects the key point position information based on the key point correction information.
  • the feature calculation unit 106 calculates features related to joints or anatomical features based on the keypoint position information corrected by the skeleton correction unit 105.
  • the skeleton extraction unit 101 estimates the reliability along with the key point position information, and the image generation unit 103 superimposes key points with low reliability on the captured image in a display mode different from other key points. This allows the user to distinguish key points with low reliability and a high possibility of being estimated incorrectly from other key points. This prevents a situation in which the user does not notice that a key point has been erroneously extracted and the key point is not corrected. This makes it possible to improve the accuracy of posture evaluation. Therefore, it is possible to provide a posture evaluation device 100 capable of evaluating posture with high accuracy.
  • the feature calculation unit 106 calculates features related to joints or anatomical features, it becomes possible to evaluate posture based on the features. As a result, posture can be evaluated with the same high level of accuracy as that of a specialist such as a therapist or trainer.
  • Fig. 2 is a block diagram showing a configuration of a posture evaluation device 100A according to the present disclosure.
  • the posture evaluation device 100A is, for example, a server capable of communicating with a user terminal such as a smartphone, tablet terminal, or personal computer owned by a user.
  • the posture evaluation device 100A may be a user terminal (subject terminal) such as a smartphone, tablet terminal, or personal computer owned by a user.
  • the posture evaluation device 100A of the present disclosure includes a skeleton extraction unit 101, a failure determination unit 102, an image generation unit 103, an input reception unit 104, a skeleton correction unit 105, a feature calculation unit 106, a state estimation unit 107, an additional learning unit 108, an input unit 109, a memory unit 110, and a communication unit 111.
  • the posture evaluation device 100A may also include a display unit (not shown).
  • the input unit 109 and the display unit (not shown) may be configured as a single touch panel display, or may be provided separately.
  • the memory unit 110 also stores a skeleton database (shown as "Skeleton DB" in FIG. 2) 112, a skeleton extraction model 113, etc.
  • the skeleton extraction unit 101 extracts body joints or anatomical features as key points from a captured image obtained by capturing an image of the subject's body. In other words, the skeleton extraction unit 101 estimates key point position information of the key points and the reliability of the key points. For example, the skeleton extraction unit 101 extracts wrists, elbows, shoulders, hips, knees, and ankles as key points P1 to P6 from the captured image shown in FIG. 3, that is, estimates key point position information and reliability of the key points P1 to P6. Note that the details of the position information and reliability are as described in the first embodiment, and therefore will not be described here. Specifically, the skeleton extraction unit 101 estimates key point position information from a captured image using a trained skeleton extraction model 113.
  • the posture evaluation device 100A performs machine learning in advance using the skeleton extraction model 113, which is a machine learning model, and the skeleton database 112, which is teacher data, to generate the trained skeleton extraction model 113.
  • the key point position information may be information expressed in three-dimensional coordinates defined by the z direction, which is the depth direction, in addition to the x direction, which is the left-right or horizontal direction, and the y direction, which is the up-down or vertical direction, of the captured two-dimensional image. This is possible by using a skeleton extraction model 113 that estimates key point position information expressed in three-dimensional coordinates from a two-dimensional image.
  • the body parts from which the skeleton extraction unit 101 extracts key points may be other joints such as the cervical vertebrae, hip joints, and knee joints, or anatomical landmarks such as wrists, elbows, shoulders, lower back, knees, and ankles, in addition to those mentioned above.
  • the failure determination unit 102 determines that the processing in the skeleton extraction unit 101 has failed if the number of key points whose reliability is lower than a predetermined threshold is equal to or greater than a predetermined criterion.
  • the predetermined criterion is, for example, the upper limit of the number of key points whose reliability is lower than a predetermined threshold.
  • the predetermined criterion may be, for example, the percentage of the number of key points whose reliability is lower than a predetermined threshold to the total number of key points.
  • the image generating unit 103 generates a display image in which key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold.
  • the key points are superimposed on the captured image in a manner movable (draggable) by the user.
  • Fig. 4 shows an example of a display image generated by the image generation unit 103.
  • the reliability of the wrist key point P1 is lower than a predetermined threshold, and it is superimposed on the captured image with a shape and size different from those of the other key points P2 to P6. This makes it clear at a glance that the extraction of the wrist key point P1 is incorrect.
  • FIG. 5 shows another example of a display image generated by the image generating unit 103.
  • a message M saying "Left wrist detection failed” is displayed in the display image. This makes it clear at a glance that the extraction of the left wrist key point P1 is incorrect.
  • the predetermined threshold value is a value that is determined based on the importance of key points in the estimation by the state estimation unit 107, which will be described later.
  • the predetermined threshold will be described in more detail.
  • importance k which is the importance of a key point k in the estimation by the state estimation unit 107, is defined by the following formula (1).
  • n is the number of parts to be evaluated
  • m is the number of features
  • l is the number of key points.
  • aij 0.
  • the absolute value of the coefficient corresponding to each feature may be used as aij .
  • bjk is 1 when key point k is used to calculate feature j, and is 0 when not used.
  • the importance k of a key point k may be a monotonically increasing function (importance k ⁇ 0) of the importance of a feature amount calculated using the key point k.
  • the predetermined threshold thresh k is defined by the following equation (2).
  • ⁇ k and ⁇ k are constants empirically determined from the captured image and the extraction accuracy of the machine learning model (skeleton extraction model 113) used in the skeleton extraction unit 101, and ⁇ k > 0.
  • the predetermined threshold thresh k may be a monotonically increasing function (range [0, 1]) of the importance k .
  • the input receiving unit 104 receives key point correction information for correcting key point position information from the user. Specifically, the input receiving unit 104 receives position information of a key point that has been corrected to the correct position by the user dragging the key point on the displayed image as key point correction information.
  • Figure 6 shows a display image showing key point P1 corrected by the user. The input receiving unit 104 receives the position information of the corrected key point P1 shown in Figure 6 as key point correction information.
  • the skeleton correction unit 105 corrects the key point position information based on the key point correction information.
  • the feature calculation unit 106 calculates feature amounts related to joints or anatomical features based on the key point position information corrected by the skeleton correction unit 105. Specifically, the feature calculation unit 106 calculates the angles between straight lines (also called “bones") connecting two or more of the key points P1 to P6, and between vertical and horizontal lines in the image, as feature amounts.
  • straight lines also called “bones”
  • the state estimation unit 107 estimates the posture state of the subject O based on the feature calculated by the feature calculation unit 106. Specifically, for example, the state estimation unit 107 estimates the posture state of the subject O based on the feature and a reference value list (not shown) stored in the storage unit 110.
  • the reference value list is data in which, for example, the type of posture is associated with the reference value of the feature in that posture.
  • the additional learning unit 108 performs additional learning of the skeleton extraction model 113 using the captured image and the keypoint position information corrected by the skeleton correction unit 105. This makes it possible to further improve the accuracy of keypoint extraction using the skeleton extraction model 113.
  • the input unit 109 may receive operational instructions from a user.
  • the input unit 109 may be configured with a keyboard or a touch panel display device.
  • the input unit 109 may be configured with a keyboard or a touch panel connected to the posture evaluation device 100A main body.
  • the storage unit 110 stores a skeletal database 112, a skeletal extraction model 113, etc.
  • the storage unit 110 may also include a non-volatile memory (e.g., ROM (Read Only Memory)) in which various programs and various data required for processing are fixedly stored.
  • the storage unit 110 may also use an HDD or SSD.
  • the storage unit 110 may also include a volatile memory (e.g., RAM (Random Access Memory)) used as a working area.
  • the above programs may be read from a portable recording medium such as an optical disc or semiconductor memory, or may be downloaded from a server device on a network.
  • the skeletal database 112 is a database in which multiple images obtained by photographing the body are associated with keypoint position information as correct labels.
  • the skeleton extraction model 113 is a machine learning model that estimates key point position information from an image obtained by imaging the body.
  • the skeleton extraction model 113 is a machine learning model that estimates key point position information using an image obtained by imaging the body as an input.
  • machine learning may be deep learning, but is not particularly limited to this.
  • the communication unit 111 communicates with the subject terminal (not shown).
  • the communication unit 111 may also communicate with an external server or other terminal devices.
  • the communication unit 111 may include an antenna (not shown) for wireless communication, or an interface such as a NIC (Network Interface Card) for wired communication.
  • NIC Network Interface Card
  • the skeleton extraction unit 101 estimates key points from a captured image of the body of the subject O (step S101). Specifically, the skeleton extraction unit 101 estimates key point position information of key points consisting of body joints or anatomical landmarks from the captured image, and the reliability of the key points.
  • the failure determination unit 102 determines whether the number of key points whose reliability is lower than the predetermined threshold is equal to or greater than a predetermined criterion (step S102). In step S102, if the number of key points whose reliability is lower than the predetermined threshold is equal to or greater than the predetermined criterion (step S102; Yes), the failure determination unit 102 determines that the processing in the skeleton extraction unit 101 has failed, and the process returns to step S101. As a result, a new captured image is obtained, and key points are extracted again based on the new captured image.
  • step S102 if the number of key points whose reliability is lower than the predetermined threshold is less than the predetermined criterion (step S102; No), the failure determination unit 102 determines that the processing in the skeleton extraction unit 101 has been successful, and the process proceeds to step S103.
  • the image generating unit 103 generates a display image in which key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold (step S103).
  • the input receiving unit 104 receives key point correction information for correcting the key point position information from the user (step S104).
  • the skeleton correction unit 105 corrects the key point position information based on the key point correction information (step S105).
  • the feature calculation unit 106 calculates features related to joints or anatomical features based on the keypoint position information corrected in step S105 (step S106).
  • the state estimation unit 107 estimates the posture state of the subject O based on the feature amount calculated in step S106 (step S107).
  • the skeleton extraction unit 101 estimates the reliability along with the key point position information, and the image generation unit 103 superimposes key points with low reliability on the captured image in a display mode different from other key points. This allows the user to distinguish key points with low reliability and a high possibility of being estimated incorrectly from other key points. This prevents a situation in which the user does not notice that a key point has been erroneously extracted and the key point is not corrected. This makes it possible to improve the accuracy of posture evaluation. Therefore, it is possible to provide a posture evaluation device 100A capable of evaluating posture with high accuracy.
  • the feature calculation unit 106 calculates features related to joints or anatomical features, it becomes possible to evaluate posture based on the features. As a result, posture can be evaluated with the same high level of accuracy as that of a specialist such as a therapist or trainer.
  • the predetermined threshold is determined based on the importance of key points in the estimation by the state estimation unit 107, it is possible to prevent the user from wasting time by correcting the positions of key points that are not very important in assessing the posture.
  • the additional learning unit 108 performs additional learning of the skeleton extraction model 113 using the captured image and the corrected keypoint position information, so that the accuracy of keypoint extraction using the skeleton extraction model 113 can be further improved.
  • the failure determination unit 102 determines that the processing in the skeleton extraction unit 101 has failed, a new captured image is acquired, and key points are extracted again based on the new captured image. This makes it possible to prevent a situation in which the user has to correct a large number of key points.
  • FIG. 8 is a block diagram showing the configuration of a posture evaluation device 100B according to the present disclosure.
  • the posture evaluation device 100B according to the present disclosure is different from the posture evaluation device 100A according to the present disclosure in that it newly includes a spine extraction unit 114 and a spine correction unit 117, and in the processing in the image generation unit 115, the input reception unit 116, and the feature amount calculation unit 118. Therefore, among the configurations of the posture evaluation device 100B according to the present disclosure, the same configurations as those of the posture evaluation device 100A according to the present disclosure are given the same reference numerals, and the description thereof will be omitted.
  • the spine extraction unit 114 estimates spine edge position information of a spine edge point cloud consisting of a predetermined number of points representing the spine shape on the captured image based on the position information (image coordinates) of at least the cervical vertebrae, hip joints, and knee joints of the body on the captured image.
  • the spine extraction unit 114 may perform edge extraction processing to obtain spine edge position information of the spine edge point cloud after trimming the area around the trunk from the captured image based on the position information (image coordinates) of the cervical vertebrae, hip joints, and knee joints. Details of the processing in the spine extraction unit 114 are as described in, for example, Japanese Patent Application No. 2022-058198, and therefore will not be described here.
  • the spine extraction unit 114 may extract the subject's silhouette from the captured image using a machine learning model such as deep learning, and identify the spine region from the edges of the subject's silhouette based on the position information (image coordinates) of the cervical vertebrae, hip joints, and knee joints.
  • a machine learning model such as deep learning
  • the image generating unit 115 superimposes key points whose reliability is lower than a predetermined threshold on the captured image in a display manner different from other key points whose reliability is equal to or higher than the predetermined threshold, and further superimposes the spine edge point cloud on the captured image to generate a display image.
  • the image generating unit 115 also superimposes the key points and spine edge point cloud on the captured image in a manner that allows the user to move them (to be dragged).
  • FIG. 9 shows an example of a display image generated by the image generating unit 115.
  • the reliability of key points P1 to P6 is equal to or higher than a predetermined threshold, so they are all superimposed on the captured image in the same display manner.
  • FIG. 9 shows an example of a display image generated by the image generating unit 115.
  • the spine edge point cloud P7, ... is superimposed on the captured image.
  • the fourth point P7 of the spine edge point cloud P1, ... which is located from the neck side to the waist side of the subject O, is incorrectly estimated. Therefore, the user can move the fourth point P7 to correct it to the correct position.
  • the input receiving unit 116 receives key point correction information for correcting the key point position information from the user, as in the second embodiment. Furthermore, the input receiving unit 116 further receives spine edge correction information for correcting the spine edge position information from the user. Specifically, the input receiving unit 116 receives, as spine edge correction information, the position information of the spine edge point group P1, ... that has been corrected to the correct position by the user dragging a point of the spine edge point group P1, ... on the displayed image.
  • Figure 10 shows a display image showing the spine edge point group P1, ... corrected by the user.
  • the input receiving unit 116 receives the position information of the corrected spine edge point group P1, ... shown in Figure 10 as spine edge correction information.
  • the spine correction unit 117 corrects the spine edge position information based on the spine edge correction information.
  • the feature amount calculation unit 118 calculates feature amounts based on the key point position information corrected by the skeleton correction unit 105, as in the second embodiment. Furthermore, the feature amount calculation unit 118 calculates the feature amount based on the spine edge position information corrected by the spine correction unit 117. Specifically, the feature amount related to the spine is calculated based on the position information (image coordinates) of the cervical vertebrae, hip joint, and knee joint estimated by the spine extraction unit 114 and the spine edge position information corrected by the spine correction unit 117. Details of the calculation process of the feature amount related to the spine in the feature amount calculation unit 118 are as described in, for example, Japanese Patent Application No. 2022-058198, and therefore the description thereof will be omitted.
  • the spine extraction unit 114 extracts a group of spine edge points from the captured image of the body of the subject O, that is, estimates spine edge position information (step S203).
  • the image generating unit 115 superimposes key points whose reliability is lower than a predetermined threshold on the captured image in a display manner different from other key points whose reliability is equal to or higher than the predetermined threshold, and further superimposes the spinal column edge point cloud on the captured image to generate a display image (step S204).
  • the input receiving unit 116 receives key point correction information for correcting the key point position information from the user, and also receives spinal edge correction information for correcting the spinal edge position information from the user (step S205).
  • the spine correction unit 117 corrects the spine edge position information based on the spine edge correction information (step S207).
  • the feature calculation unit 118 calculates features related to the joints or anatomical features based on the keypoint position information corrected in step S105, and calculates features related to the spine based on the spine edge position information corrected in step S207 (step S208).
  • posture can be evaluated based on the spinal column shape in the image, so that posture can be evaluated with high accuracy. Furthermore, while expensive specialized equipment is usually required to estimate the spinal column shape, according to the third embodiment, posture can be evaluated based on the spinal column shape without using expensive specialized equipment, so that posture can be evaluated relatively inexpensively.
  • FIG. 12 is a block diagram showing the configuration of a posture evaluation device 100C according to the present disclosure.
  • the posture evaluation device 100C according to the present disclosure differs from the posture evaluation device 100A or 100B according to the present disclosure in the processing in the skeleton extraction unit 119 and the image generation unit 120. Therefore, among the configurations of the posture evaluation device 100C according to the present disclosure, the same configurations as those of the posture evaluation device 100A or 100B according to the present disclosure are given the same reference numerals, and the description thereof will be omitted. Note that in FIG. 12 and the following description, the differences between the posture evaluation device 100C according to the present disclosure and the posture evaluation device 100B according to the present disclosure will be mainly described.
  • the skeleton extraction unit 119 extracts body joints or anatomical landmarks as key points from the captured images obtained by imaging the body of the subject O, i.e., estimates key point position information of the key points and the reliability of the key points.
  • the skeleton extraction unit 119 further estimates the probability that the pixels included in the captured image are joints or anatomical landmarks. For example, when the skeleton extraction unit 101 extracts key points from the captured image using a machine learning model, a score is calculated indicating that the pixels included in the captured image are joints or anatomical landmarks. In this case, the score corresponds to the probability. The larger the score value, the higher the probability. Note that the probability of some or all of the pixels included in the captured image estimated by the skeleton extraction unit 119 may be in the form of a matrix.
  • the image generation unit 120 superimposes key points whose reliability is lower than a predetermined threshold on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold, and further superimposes the spinal column edge point cloud on the captured image to generate a display image.
  • the image generating unit 120 further generates a tensor that displays the probability by displaying the pixel with a pixel value according to the probability, and further superimposes the tensor on the captured image to generate a display image.
  • the left side of FIG. 13 shows the tensor generated by the image generating unit 120. As shown in FIG.
  • a pixel part P8 with a high probability is displayed with a larger pixel value than other pixel parts.
  • the right side of FIG. 13 shows a display image in which the tensor is superimposed on the captured image.
  • the display image shown on the right side of FIG. 13 is a display image when the user U is dragging the key point P1 on the wrist to correct the key point P1 to a correct position.
  • the image generating unit 120 generates a display image in which the tensor is further superimposed on the captured image as a display image when the user U corrects the key point P1.
  • a candidate position P8 for the correction position of the key point P1 is displayed on the display image, and the user U can more easily correct the key point P1.
  • the skeleton extraction unit 119 further estimates the probability that a pixel included in the captured image is a joint or an anatomical landmark, and the image generation unit 120 further generates a tensor that displays the probability by displaying the pixel with a pixel value according to the above-mentioned probability. Then, as a display screen for correcting the keypoint, the image generation unit 120 generates a display image in which the tensor is further superimposed on the captured image. Therefore, candidate positions for correcting the keypoint are displayed in the display image, and the user U can more easily correct the keypoint.
  • Fig. 14 is a diagram showing a configuration of the posture evaluation system 200 according to the present disclosure.
  • the posture evaluation system 200 includes a posture evaluation device 100C and a subject terminal 300 capable of communicating with the posture evaluation device 100C.
  • the posture evaluation device 100C and the subject terminal 300 are capable of communicating with each other via a network N.
  • one or more subject terminals 300, ... may be capable of communicating with the posture evaluation device 100C.
  • the subject terminal 300 is a smartphone, tablet terminal, personal computer, etc., owned by the subject.
  • the posture assessment device 100C acquires, from the subject terminal 300, a captured image of the subject's body.
  • the display image created by the image generation unit 120 of the posture evaluation device 100C is transmitted to the subject terminal 300 and displayed on a display unit 302 (described later) of the subject terminal 300.
  • FIG. 15 shows an example of the configuration of the subject terminal 300.
  • the subject terminal 300 includes an imaging unit 301, a display unit 302, an input unit 303, a display control unit 304, and a communication unit 305.
  • the imaging unit 301 captures an image of the subject's body.
  • the image captured by the imaging unit 301 is a two-dimensional image, and may be a two-dimensional RGB image.
  • the subject terminal 300 transmits the captured image to the posture evaluation device 100C.
  • the imaging unit 301 may obtain a captured image by taking a video of the subject's body.
  • the user may specify the time point at which posture evaluation is performed by operating the input unit 109 of the posture evaluation device 100C.
  • the subject may specify the time point at which posture evaluation is performed by operating the input unit 303 of the subject's terminal 300.
  • an image at the time point specified by the user or the subject may be input to the skeleton extraction unit 119 and the spine extraction unit 114.
  • the display unit 302 displays the display image received from the posture evaluation device 100C.
  • the display unit 302 is composed of various display means such as an LCD (Liquid Crystal Display) and an LED (Light Emitting Diode).
  • the input unit 303 accepts operational instructions from the subject.
  • the input unit 303 may be configured with a keyboard or a touch panel display device.
  • the input unit 303 may be configured with a keyboard or a touch panel connected to the subject terminal 300 main body.
  • the display control unit 304 causes the display unit 302 to display the display image received from the posture evaluation device 100C. Specifically, the display control unit 304 causes the display unit 302 to display the key points and the spine edge point cloud in a draggable manner. Furthermore, the display control unit 304 changes the draggability of the key points according to the probability in the tensor. More specifically, the display control unit 304 changes the draggability of the key points on the display image based on the following formula (3).
  • ⁇ x pixel is the number of pixels that the key point moves by one drag operation
  • p is the probability in the tensor, that is, the probability that a pixel included in the captured image is a joint or an anatomical landmark.
  • v 0 is an integer greater than 0, and v is a real number greater than 0. is the maximum integer not exceeding (v 0 -vp).
  • the number of pixels ⁇ x pixels that the keypoint moves by one drag operation is a function of the probability p in the tensor. Specifically, the number of pixels that move by one drag operation in a part with a high probability in the tensor is smaller than the number of pixels that move by one drag operation in other parts.
  • the number of pixels ⁇ x pixel by which the key point moves with one drag operation is a monotonically decreasing function in a broad sense of the probability p, and may be a step function in which ⁇ x pixel is an integer greater than zero.
  • the display control unit 304 may also display the key point on the display unit 302 so that the key point can be dragged, and may enlarge and display a predetermined range including the pixel whose probability is at the maximum value based on the position of the pixel whose probability in the tensor is at the maximum value and the position of the key point being dragged by the user. For example, as shown in Fig. 16, when a tensor is superimposed on a captured image as a display image when the user U corrects the key point P1, and a candidate position P8 for the correction position of the key point P1 is displayed, the display control unit 304 causes the display unit 302 to enlarge and display the area around the wrist.
  • the display control unit 304 performs an enlarged display near the candidate position P8 for the correction position when both of the following two conditions are satisfied.
  • Condition 1 The distance between the position of the pixel where the probability in the tensor is a maximum value (i.e., candidate position P8) and the position of the key point being dragged by the user is less than or equal to a predetermined distance.
  • Condition 2 The probability that the distance of the position of the key point being dragged by the user is less than or equal to the above-mentioned predetermined distance for the candidate position P8 is equal to or greater than a predetermined threshold.
  • the display control unit 304 may also cause the display unit 302 to constantly enlarge and display a specified range centered on the position of the key point being dragged by the user.
  • the communication unit 305 communicates with the posture evaluation device 100C.
  • the communication unit 305 may also communicate with an external server or other terminal devices.
  • the communication unit 305 may include an antenna (not shown) for wireless communication, or an interface such as a NIC (Network Interface Card) for wired communication.
  • NIC Network Interface Card
  • the display control unit 304 changes the ease of dragging the keypoint depending on the probability in the tensor. Specifically, the number of pixels that move with one drag operation in parts of the tensor with high probability is smaller than the number of pixels that move with one drag operation in other parts. This reduces the distance moved with one drag operation at candidate position P8, making it easier to move the keypoint being modified to candidate position P8.
  • the display control unit 304 causes the display unit 302 to enlarge and display the area around candidate position P8. This makes it easier to align the position of the key point being corrected with candidate position P8.
  • the present invention has been described as a hardware configuration, but the present disclosure is not limited to this.
  • the above-described functions (processing) of the posture assessment device 100, 100A, 100B, 100C, or the subject terminal 300 may be realized by a computer 400 having, for example, the following configuration.
  • FIG. 17 is a block diagram showing the configuration of a computer 400 that realizes the processing of the posture evaluation device 100, 100A, 100B, or 100C, or the subject terminal 300.
  • the computer 400 includes a memory 401 and a processor 402.
  • the memory 401 is configured, for example, by a combination of volatile memory and non-volatile memory.
  • the memory 401 is used to store programs executed by the processor 402, data used for various processes, and the like.
  • the memory unit (not shown) of the posture evaluation device 100, the memory unit 110 of the posture evaluation devices 100A, 100B, and 100C, and the memory unit (not shown) of the subject terminal 300 may be realized by the memory 401. However, these may also be realized by any other storage device.
  • the processor 402 reads and executes programs from the memory 401 to perform processing for each device.
  • the processor 402 may be, for example, a microprocessor, an MPU (Micro Processor Unit), or a CPU (Central Processing Unit).
  • the processor 402 may include multiple processors.
  • the program includes instructions (or software code) that, when loaded into a computer, cause the computer to perform one or more functions described in the embodiments.
  • the program may be stored on a non-transitory computer-readable medium or tangible storage medium.
  • computer-readable medium or tangible storage medium may include random-access memory (RAM), read-only memory (ROM), flash memory, solid-state drive (SSD) or other memory technology, CD-ROM, digital versatile disc (DVD), Blu-ray® disk or other optical disk storage, magnetic cassette, magnetic tape, magnetic disk storage or other magnetic storage device.
  • the program may be transmitted on a transitory computer-readable medium or communication medium.
  • transitory computer-readable medium or communication medium may include electrical, optical, acoustic, or other forms of propagated signals.
  • each configuration of the posture evaluation devices 100, 100A, 100B, and 100C may be provided in a subject terminal or a user terminal.
  • the subject terminal may also be provided with the skeleton extraction model 113 and the additional learning unit 108.
  • only the parameters of the skeleton extraction model 113 after additional learning may be transmitted from the subject terminal to the posture evaluation devices 100A, 100B, and 100C by a method such as associative learning. Therefore, the subject does not need to transmit an image of his or her own body to the posture evaluation devices 100A, 100B, and 100C, which are external servers or the like, which is preferable from the viewpoint of protecting personal information.
  • (Appendix 1) a skeleton extraction unit that estimates key point position information of key points consisting of joints or anatomical landmarks of the body and reliability of the key points from an image obtained by imaging the body of a subject; an image generating unit that generates a display image in which the key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold; a skeleton correction unit that corrects the key point position information based on key point correction information for correcting the key point position information received from a user; a feature amount calculation unit that calculates feature amounts related to the joints or the anatomical feature points based on the key point position information corrected by the skeleton correction unit;
  • a posture assessment device comprising: (Appendix 2) a state estimation unit that estimates a posture state of the subject based on the feature amount calculated by the feature amount
  • a spine extraction unit is further provided for estimating spine edge position information of a spine edge point cloud consisting of a predetermined number of points representing a spine shape on the captured image, the image generating unit superimposes the key points whose reliability is lower than the predetermined threshold on the captured image in a display manner different from that of the other key points whose reliability is equal to or higher than the predetermined threshold, and further superimposes the spine edge point cloud on the captured image to generate the display image;
  • a spine correction unit that corrects the spine edge position information based on spine edge correction information for correcting the spine edge position information received from the user,
  • the feature amount calculation unit calculates the feature amount based on the key point position information corrected by the skeleton correction unit and the spine edge position information corrected by the spine correction unit.
  • the posture assessment device according to claim 1 or 2.
  • the skeleton extraction unit estimates the keypoint position information and the reliability using a skeleton extraction model that has been machine-learned; and an additional learning unit configured to perform additional learning of the skeleton extraction model by using the captured image and the key point position information corrected by the skeleton correction unit.
  • a posture evaluation device according to any one of claims 1 to 3.
  • the skeleton extraction unit further estimates a probability that a pixel included in the captured image is the joint or the anatomical landmark; the image generating unit further generates a tensor representing the probability by displaying the pixel with a pixel value corresponding to the probability, and further superimposes the tensor on the captured image to generate the display image. 5.
  • a posture evaluation device according to any one of claims 1 to 4.
  • Appendix 6 a failure determination unit that determines that the process in the skeleton extraction unit has failed when the number of the key points whose reliability is lower than the predetermined threshold is equal to or greater than a predetermined standard; 6.
  • a posture evaluation device according to any one of appendices 1 to 5.
  • the posture evaluation device includes: a skeleton extraction unit that estimates key point position information of key points consisting of joints or anatomical landmarks of the body and reliability of the key points from a captured image of the body of the subject acquired by the subject terminal; an image generating unit that generates a display image in which the key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold; a skeleton correction unit that corrects the key point position information based on key point correction information for correcting the key point position information received from a user; a feature amount calculation unit that calculates feature amounts related to the joints or the anatomical feature points based on the key point position information corrected by the skeleton correction unit; A posture assessment system comprising: (Appendix 8) The posture evaluation device further includes a state estimation unit that estimates a posture state of the subject based on the
  • the posture evaluation device further includes a spine extraction unit that estimates spine edge position information of a spine edge point cloud consisting of a predetermined number of points that represent a spine shape on the captured image, the image generating unit superimposes the key points whose reliability is lower than the predetermined threshold on the captured image in a display manner different from that of the other key points whose reliability is equal to or higher than the predetermined threshold, and further superimposes the spine edge point cloud on the captured image to generate the display image;
  • the posture evaluation device further includes a spine correction unit that corrects the spine edge position information based on spine edge correction information for correcting the spine edge position information received from the user,
  • the feature amount calculation unit calculates the feature amount based on the key point position information corrected by the skeleton correction unit and the spine edge position information corrected by the spine correction unit.
  • the posture assessment system according to claim 7 or 8.
  • the skeleton extraction unit estimates the keypoint position information and the reliability using a skeleton extraction model that has been machine-learned; the posture evaluation device further includes an additional learning unit configured to perform additional learning of the skeleton extraction model by using the captured image and the key point position information corrected by the skeleton correction unit. 10.
  • a posture evaluation system according to any one of appendixes 7 to 9.
  • the skeleton extraction unit further estimates a probability that a pixel included in the captured image is the joint or the anatomical landmark; the image generating unit further generates a tensor representing the probability by displaying the pixel with a pixel value corresponding to the probability, and further superimposes the tensor on the captured image to generate the display image.
  • a posture evaluation system according to any one of claims 7 to 10.
  • the subject terminal includes a display control unit that causes the display image generated by the image generation unit to be displayed on a display unit, the display control unit causes the display unit to display the key point in a draggable manner, and changes the ease of dragging the key point according to the probability in the tensor. 12.
  • the subject terminal includes a display control unit that causes the display image generated by the image generation unit to be displayed on a display unit, the display control unit causes the display unit to display the key point in a draggable manner, and causes the display unit to enlarge and display a predetermined range including a pixel where the probability has a maximum value based on a position of a pixel where the probability has a maximum value in the tensor and a position of the key point being dragged by the user.
  • the posture assessment system according to claim 11 or 12.
  • the posture evaluation device further includes a failure determination unit that determines that the processing in the skeleton extraction unit has failed when a number of the key points having the reliability lower than the predetermined threshold is equal to or greater than a predetermined criterion. 14.
  • a posture assessment system according to any one of claims 7 to 13.
  • the posture evaluation device From an image of the subject's body, estimate key point position information of key points consisting of joints or anatomical landmarks of the body and reliability of the key points; generating a display image in which the key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold; modifying the keypoint position information based on keypoint modification information for modifying the keypoint position information received from a user; calculating feature amounts related to the joints or the anatomical landmarks based on the key point position information corrected by the skeleton correction unit; Posture assessment methods.
  • the posture evaluation device estimating a posture state of the subject based on the feature amount calculated by the feature amount calculation unit; the predetermined threshold is determined based on the importance of the keypoints in estimating the posture state. 16. The posture assessment method according to claim 15.
  • the posture evaluation device Estimating spine edge position information of a spine edge point cloud consisting of a predetermined number of points representing a spine shape on the captured image; The key points whose reliability is lower than the predetermined threshold are superimposed on the captured image in a display manner different from that of the other key points whose reliability is equal to or higher than the predetermined threshold, and the spine edge point cloud is further superimposed on the captured image to generate the display image; modifying the spine edge position information based on spine edge modification information for modifying the spine edge position information received from the user; Calculating the feature amount based on the corrected key point position information and the corrected spine edge position information. 17.
  • the posture evaluation method according to claim 15 or 16.
  • (Appendix 21) Posture assessment device A process of estimating key point position information of key points consisting of joints or anatomical landmarks of the body and reliability of the key points from an image obtained by imaging the body of a subject; generating a display image in which the key points whose reliability is lower than a predetermined threshold are superimposed on the captured image in a display manner different from that of other key points whose reliability is equal to or higher than the predetermined threshold; A process of correcting the key point position information based on key point correction information for correcting the key point position information received from a user; A process of calculating feature amounts related to the joints or the anatomical landmarks based on the key point position information corrected by the skeleton correction unit; A program that executes.
  • (Appendix 23) Posture assessment device A process of estimating spine edge position information of a spine edge point cloud consisting of a predetermined number of points representing a spine shape on the captured image; a process of superimposing the key points having the reliability lower than the predetermined threshold on the captured image in a display manner different from that of the other key points having the reliability equal to or higher than the predetermined threshold, and further superimposing the spine edge point cloud on the captured image to generate the display image; A process of correcting the spine edge position information based on spine edge correction information for correcting the spine edge position information received from the user; A process of calculating the feature amount based on the corrected key point position information and the corrected spinal column edge position information; 23.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

高い精度で姿勢を評価することができる姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラムを提供する。姿勢評価装置は、対象者を撮像した撮像画像から、身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出手段と、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳した表示画像を生成する画像生成手段と、ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいてキーポイント位置情報を修正する骨格修正手段と、修正されたキーポイント位置情報に基づいて、関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出手段と、を備える。

Description

姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム
 本開示は、姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラムに関する。
 近年、オンライントレーニング、セルフトレーニングの普及により、専門知識を有さない一般の人々が自身の姿勢を評価するニーズが高まっている。例えば、スマートフォン等に搭載されたカメラでユーザを撮影した画像に基づいてユーザの姿勢を評価する技術が望まれている。
 特許文献1には、対象者を撮影した画像から骨格を推定し、対象者の姿勢や行動等の状態を分類及び検索するシステムが記載されている。特許文献1では、関節等の特徴的な点をキーポイントとして抽出することにより骨格を推定している。
 キーポイントは、深層学習等の機械学習モデルを用いて抽出することができる。しかしながら、一般的な姿勢評価のための機械学習モデルは、座った状態や立った状態等の姿勢では比較的正確にキーポイントを抽出することができるが、運動中等の特殊な状態の姿勢ではキーポイントを正確に抽出できない場合がある。キーポイントの抽出精度が低いと、姿勢評価の精度も低くなってしまう。そこで、ユーザを撮影した画像に抽出したキーポイントを重畳して表示し、表示画面上において当該キーポイントをユーザが修正する技術も開発されている。
国際公開第2021/250808号
 しかしながら、キーポイントが間違って抽出されたことにユーザが気づかない場合、キーポイントが修正されず、姿勢評価の精度が低くなってしまう場合がある。
 本開示の目的は、高い精度で姿勢を評価することができる姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラムを提供することである。
 本開示に係る姿勢評価装置は、対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出部と、前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成部と、ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正部と、前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出部と、を備える。
 本開示に係る姿勢評価システムは、姿勢評価装置と、前記姿勢評価装置と通信可能な対象者端末とを備え、前記姿勢評価装置は、前記対象者端末によって取得された対象者の身体の撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出部と、前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成部と、ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正部と、前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出部と、を備える。
 本開示に係る姿勢評価方法は、姿勢評価装置が、対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定し、前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成し、ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正し、前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する方法である。
 本開示に係るプログラムは、姿勢評価装置に、対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する処理と、前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する処理と、ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する処理と、前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する処理と、を実行させる。
 高い精度で姿勢を評価することができる姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラムを提供することができる。
本開示に係る姿勢評価装置の構成を示すブロック図である。 本開示に係る姿勢評価装置の構成を示すブロック図である。 本開示に係る撮像部が撮像した画像の一例を示す図である。 本開示に係る表示画像の一例を示す図である。 本開示に係るキーポイントが修正された表示画像の一例を示す図である。 本開示に係る表示画像の他の例を示す図である。 本開示に係る姿勢評価方法を示すフローチャートである。 本開示に係る姿勢評価装置の構成を示すブロック図である。 本開示に係る表示画像の一例を示す図である。 本開示に係る脊柱エッジ点群が修正された表示画像の一例を示す図である。 本開示に係る姿勢評価方法を示すフローチャートである。 本開示に係る姿勢評価装置の構成を示すブロック図である。 本開示に係るテンソルと表示画像の一例を示す図である。 本開示に係る姿勢評価システムの構成を示すブロック図である。 本開示に係る対象者端末の構成を示すブロック図である。 本開示に係る表示画像の一例を示す図である。 本開示に係るコンピュータの構成の一例を示すブロック図である。
 実施の形態1
 本発明の実施の形態1について、図1を用いて説明する。図1は、本開示に係る姿勢評価装置100の構成を示すブロック図である。
 本開示における姿勢評価装置100は、スマートフォン等のカメラによって対象者の身体を撮像して得られた撮像画像に基づいて姿勢を評価する装置である。なお、対象者とは、姿勢評価装置100によって姿勢の評価を受ける者を意味する。具体的には、姿勢評価装置100は、当該撮像画像から対象者の骨格等を推定し、当該骨格等に基づいて対象者の姿勢を評価する。これにより、オンライントレーニングやセルフトレーニング等の場面において、姿勢を評価することができる。
 姿勢評価装置100は、図1に示すように、骨格抽出部101、画像生成部103、入力受付部104、骨格修正部105、特徴量算出部106を備える。
 骨格抽出部101は、対象者の身体を撮像して得られた撮像画像から、身体の関節又は解剖学的特徴点をキーポイントとして抽出する。換言すれば、骨格抽出部101は、キーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する。すなわち、「キーポイントを抽出する」ことは、「キーポイント位置情報と信頼度とを推定する」ことを意味する。そのため、本明細書では、「キーポイントを推定する」とも表現する場合がある。ここで、解剖学的特徴点とは、例えば、手首、肘、肩、腰、膝、足首等である。
 ここで、対象者の身体を撮像して得られた撮像画像とは、2次元画像であり、2次元RGB画像であってもよい。また、撮像画像は、対象者の身体の側面を撮像したものであってもよい。
 また、キーポイント位置情報とは、画像上の関節又は解剖学的特徴点の位置情報である。また、画像上の関節又は解剖学的特徴点の位置情報は、例えば、画像上において関節又は解剖学的特徴点に相当する画像領域の中心に位置する画素の位置情報である。
 また、画素の位置情報とは、例えば、画像座標である。ここで、画像座標とは、2次元画像上の画素の位置を示すための座標であり、例えば、2次元画像の最も左側且つ最も上側に位置する画素の中心を原点とし、左右方向又は水平方向をx方向、上下方向又は垂直方向をy方向と定義される座標である。
 また、信頼度とは、骨格抽出部101が推定したキーポイント位置情報で指定される画素が、関節又は解剖学的特徴点である確率である。例えば、骨格抽出部101が、機械学習モデルを用いて、撮像画像からキーポイントを抽出する場合、キーポイント位置情報とともに、そのキーポイントが関節又は解剖学的特徴点であるとするスコアが算出される。この場合、信頼度は、当該スコアである。スコアはその値が大きい程、信頼度が高い。
 画像生成部103は、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳した表示画像を生成する。当該表示画像において、キーポイントは、ユーザによって移動可能に(ドラッグ可能に)撮像画像に重畳される。ここで、ユーザとは、姿勢評価装置100によって姿勢の評価を受ける対象者、及び姿勢評価装置100を用いて他者の姿勢を評価する評価者の少なくともどちらか一方を指す。また、セルフトレーニング等において対象者が姿勢評価装置100を用いて自身の姿勢を評価する場合、対象者は評価者でもある。また、評価者が姿勢評価装置100を用いて他者の姿勢を評価する場合、評価者は、例えば、セラピストやトレーナーである。また、表示画像は、ユーザが所持するスマートフォン(対象者端末)に表示されてもよいし、姿勢評価装置100が備える表示部(不図示)に表示されてもよい。
 また、表示態様が異なるとは、キーポイントを示す形状、色、大きさが異なることや、表示形式(点滅させる等)が異なることを意味する。また、表示態様が異なるとは、何れかのキーポイントの抽出に失敗したことを示すメッセージを表示画像中に表示させることも含む。
 入力受付部104は、ユーザからキーポイント位置情報を修正するためのキーポイント修正情報を受け付ける。具体的には、入力受付部104は、ユーザが表示画像上においてキーポイントを移動する(ドラッグする)ことによって正しい位置に修正されたキーポイントの位置情報をキーポイント修正情報として受け付ける。なお、表示画像上でのキーポイントの移動は、ドラッグに限定されない。例えば、修正したいキーポイントを選択した後、移動先の位置を選択するという操作であってもよい。
 骨格修正部105は、キーポイント修正情報に基づいてキーポイント位置情報を修正する。
 特徴量算出部106は、骨格修正部105によって修正されたキーポイント位置情報に基づいて、関節又は解剖学的特徴点に関する特徴量を算出する。
 本実施の形態1によれば、高い精度で姿勢を評価することができる姿勢評価装置100を提供することができる。具体的には、骨格抽出部101によって、キーポイント位置情報とともに信頼度が推定され、画像生成部103によって、信頼度が低いキーポイントは、他のキーポイントと異なる表示態様で撮像画像に重畳される。そのため、信頼度が低く、推定が間違っている可能性が高いキーポイントをユーザは他のキーポイントと区別することができる。そのため、ユーザが、キーポイントが間違って抽出されたことに気づかず、キーポイントが修正されないという事態を防止することができる。これにより、姿勢評価の精度を高くすることができる。よって、高い精度で姿勢を評価することができる姿勢評価装置100を提供することができる。
 また、特徴量算出部106によって、関節又は解剖学的特徴点に関する特徴量が算出されるため、当該特徴量に基づいて姿勢を評価することが可能となる。そのため、セラピストやトレーナー等の専門家と同程度に高い精度で姿勢を評価することができる。
 実施の形態2
 本発明の実施の形態2について、図2を用いて説明する。図2は、本開示に係る姿勢評価装置100Aの構成を示すブロック図である。姿勢評価装置100Aは、例えば、ユーザが所持するスマートフォン、タブレット端末、パーソナルコンピュータ等のユーザ端末と通信可能なサーバ等である。なお、姿勢評価装置100Aは、ユーザが所持するスマートフォン、タブレット端末、パーソナルコンピュータ等のユーザ端末(対象者端末)であってもよい。
 本開示の姿勢評価装置100Aは、図2に示すように、骨格抽出部101、失敗判断部102、画像生成部103、入力受付部104、骨格修正部105、特徴量算出部106、状態推定部107、追加学習部108、入力部109、記憶部110、通信部111を備える。姿勢評価装置100Aは、表示部(不図示)を備えてもよい。入力部109と表示部(不図示)は、タッチパネル付ディスプレイとして一つの構成としてもよいし、それぞれ別個に設けてもよい。また、記憶部110は、骨格データベース(図2において、「骨格DB」と示す。)112、骨格抽出モデル113等を記憶している。
 骨格抽出部101は、対象者の身体を撮像して得られた撮像画像から、身体の関節又は解剖学的特徴点をキーポイントとして抽出する。換言すれば、骨格抽出部101は、キーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する。例えば、骨格抽出部101は、図3に示す撮像画像から骨格抽出部101が手首、肘、肩、腰、膝、足首をキーポイントP1~P6として抽出する、すなわち、キーポイントP1~P6のキーポイント位置情報及び信頼度を推定する。なお、位置情報及び信頼度の詳細については、実施の形態1に記載された通りであるため、その説明を省略する。
 具体的には、骨格抽出部101は、学習済みの骨格抽出モデル113を用いて、撮像画像からキーポイント位置情報を推定する。なお、姿勢評価装置100Aは、予め、機械学習モデルである骨格抽出モデル113と、教師データである骨格データベース112とを用いて、機械学習を行い、学習済みの骨格抽出モデル113を生成する。
 なお、キーポイント位置情報は、撮像画像である2次元画像の左右方向又は水平方向であるx方向、上下方向又は垂直方向であるy方向、に加えて、奥行方向であるz方向で定義される3次元座標で表される情報であってもよい。これは、2次元画像から3次元座標で表されるキーポイント位置情報を推定する骨格抽出モデル113を用いることにより可能となる。
 また、骨格抽出部101がキーポイントを抽出する身体の箇所は、上述の他、頸椎、股関節、膝関節等の他の関節や、手首、肘、肩、腰、膝、足首等の解剖学的特徴点であってもよい。
 失敗判断部102は、信頼度が所定の閾値より低いキーポイントの数が所定の基準以上である場合に、骨格抽出部101における処理が失敗したと判断する。ここで、所定の基準とは、例えば、信頼度が所定の閾値より低いキーポイントの数の上限数である。また、所定の基準とは、例えば、信頼度が所定の閾値より低いキーポイントの数が、キーポイントの総数に占める割合であってもよい。
 画像生成部103は、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳した表示画像を生成する。当該表示画像において、キーポイントは、ユーザによって移動可能に(ドラッグ可能に)撮像画像に重畳される。
 図4に、画像生成部103によって生成された表示画像の一例を示す。図4に示す例では、手首のキーポイントP1の信頼度が所定の閾値より低く、他のキーポイントP2~P6と異なる形状及び大きさで、撮像画像に重畳されている。これにより、手首のキーポイントP1の抽出が間違っていることが一目瞭然にわかる。
 また、図5に、画像生成部103によって生成された表示画像の他の一例を示す。図5に示す例では、「左手首検出失敗」というメッセージMが表示画像中に表示されている。これにより、左手首のキーポイントP1の抽出が間違っていることが一目瞭然にわかる。
 ここで、所定の閾値は、後述する状態推定部107の推定におけるキーポイントの重要度に基づいて決定される値である。
 所定の閾値について、より詳細に説明する。まず、状態推定部107の推定におけるキーポイントkの重要度をimportanceは、以下の式(1)で定義される。
Figure JPOXMLDOC01-appb-M000001
 ここで、nは評価対象の部位の数であり、mは特徴量の数であり、lはキーポイントの数である。また、aijは、評価対象の部位i(i=1,・・・,n)を評価する状態推定モデルfにおける特徴量j(j=1,・・・,m)の重要度であり、aij≧0である。また、特徴量jが部位iの評価に使用されていない場合、aij=0である。Permutation importanceやジニ関数を用い、状態推定モデルとして線形回帰を使用している場合、aijとして、各特徴量に対応する係数の絶対値を用いてもよい。また、bjkは、特徴量jの算出にキーポイントkが使用されている場合は1、使用されていない場合は0である。
 また、キーポイントkの重要度importanceは、キーポイントkを用いて算出される特徴量の重要度に対する広義単調増加関数(importance≧0)であってもよい。
 キーポイントの重要度importanceを上述のように定義した場合、所定の閾値threshは、以下の式(2)で定義される。
Figure JPOXMLDOC01-appb-M000002
 ここで、α及びβは、撮像画像と、骨格抽出部101で使用される機械学習モデル(骨格抽出モデル113)の抽出精度とから経験的に決定される定数であり、α>0である。また、α=α=・・・=α、β=β=・・・=βであってもよいし、α及びβは、キーポイント毎に異なる値であってもよい。
 また、所定の閾値threshは、重要度importanceの広義単調増加関数(値域[0,1])であってもよい。
 入力受付部104は、ユーザからキーポイント位置情報を修正するためのキーポイント修正情報を受け付ける。具体的には、入力受付部104は、ユーザが表示画像上においてキーポイントをドラッグすることによって正しい位置に修正されたキーポイントの位置情報をキーポイント修正情報として受け付ける。ユーザによって修正されたキーポイントP1を示す表示画像を図6に示す。入力受付部104は、図6に示す、修正されたキーポイントP1の位置情報をキーポイント修正情報として受け付ける。
 骨格修正部105は、キーポイント修正情報に基づいてキーポイント位置情報を修正する。
 特徴量算出部106は、骨格修正部105によって修正されたキーポイント位置情報に基づいて、関節又は解剖学的特徴点に関する特徴量を算出する。具体的には、特徴量算出部106は、各キーポイントP1~P6のうち2つ以上を結ぶ直線(「ボーン」とも称する)どうしや、画像中の鉛直な直線、水平な直線のなす角を特徴量として算出する。
 状態推定部107は、特徴量算出部106によって算出された特徴量に基づいて、対象者Oの姿勢の状態を推定する。具体的には、例えば、状態推定部107は、当該特徴量と記憶部110に記憶された基準値リスト(不図示)とに基づいて、対象者Oの姿勢の状態を推定する。基準値リストは、例えば、姿勢の種類と、当該姿勢における特徴量の基準値とが対応付けられたデータである。
 追加学習部108は、撮像画像と、骨格修正部105によって修正されたキーポイント位置情報とを用いて、骨格抽出モデル113の追加学習を行う。これにより、骨格抽出モデル113を用いるキーポイントの抽出精度をさらに向上することができる。
 入力部109は、ユーザからの操作指示を受け付けてもよい。入力部109は、キーボードにより構成されてもよいし、タッチパネル式の表示装置によって構成されてもよい。入力部109は、姿勢評価装置100A本体と接続されるキーボードやタッチパネルによって構成されてもよい。
 記憶部110は、骨格データベース112,骨格抽出モデル113等を記憶している。また、記憶部110は、処理に必要な各種のプログラムや各種のデータが固定的に記憶されている不揮発性のメモリ(例えば、ROM(Read Only Memory))を含むことができる。また、記憶部110は、HDDやSSDを用いるものであってもよい。さらに、記憶部110は、作業領域として用いられる揮発性のメモリ(例えば、RAM(Random Access Memory))を含むことができる。上記プログラムは、光ディスク、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
 骨格データベース112は、身体を撮像して得られた複数の画像について、当該画像と、正解ラベルとしてのキーポイント位置情報とが対応付けられたデータベースである。
 骨格抽出モデル113は、身体を撮像して得られた撮像画像からキーポイント位置情報を推定する機械学習モデルである。換言すれば、骨格抽出モデル113は、身体を撮像して得られた撮像画像を入力として、キーポイント位置情報を推定する機械学習モデルである。なお、本明細書において、機械学習は深層学習であってもよいが、特に限定されない。
 通信部111は、対象者端末(不図示)と通信を行う。また、通信部111は、外部のサーバや他の端末装置等と通信を行ってもよい。通信部111は、無線通信を行うアンテナ(不図示)を備えてもよいし、有線通信を行うためのNIC(Network Interface Card)等のインタフェースを備えてもよい。
 次に、図7を参照しながら、本開示に係る姿勢評価方法について説明する。
 まず、骨格抽出部101が、対象者Oの身体を撮像した撮像画像から、キーポイントを推定する(ステップS101)。具体的には、骨格抽出部101が、当該撮像画像から、身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する。
 次に、失敗判断部102が、信頼度が所定の閾値より低いキーポイントの数が所定の基準以上であるか否かを判断する(ステップS102)。ステップS102において、信頼度が所定の閾値より低いキーポイントの数が所定の基準以上である場合(ステップS102;Yes)、失敗判断部102は、骨格抽出部101における処理が失敗したと判断し、ステップS101の処理に戻る。これにより、撮像画像が新たに取得され、新たな撮像画像に基づいて、キーポイントの抽出が再度行われる。一方、ステップS102において、信頼度が所定の閾値より低いキーポイントの数が所定の基準未満である場合(ステップS102;No)、失敗判断部102は、骨格抽出部101における処理が成功したと判断し、ステップS103の処理に進む。
 次に、画像生成部103が、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳した表示画像を生成する(ステップS103)。
 次に、入力受付部104が、ユーザからキーポイント位置情報を修正するためのキーポイント修正情報を受け付ける(ステップS104)。
 次に、骨格修正部105が、キーポイント修正情報に基づいてキーポイント位置情報を修正する(ステップS105)。
 次に、特徴量算出部106が、ステップS105において修正されたキーポイント位置情報に基づいて、関節又は解剖学的特徴点に関する特徴量を算出する(ステップS106)。
 次に、状態推定部107が、ステップS106において算出された特徴量に基づいて、対象者Oの姿勢の状態を推定する(ステップS107)。
 本実施の形態2によれば、高い精度で姿勢を評価することができる姿勢評価装置100Aを提供することができる。具体的には、骨格抽出部101によって、キーポイント位置情報とともに信頼度が推定され、画像生成部103によって、信頼度が低いキーポイントは、他のキーポイントと異なる表示態様で撮像画像に重畳される。そのため、信頼度が低く、推定が間違っている可能性が高いキーポイントをユーザは他のキーポイントと区別することができる。そのため、ユーザが、キーポイントが間違って抽出されたことに気づかず、キーポイントが修正されないという事態を防止することができる。これにより、姿勢評価の精度を高くすることができる。よって、高い精度で姿勢を評価することができる姿勢評価装置100Aを提供することができる。
 また、特徴量算出部106によって、関節又は解剖学的特徴点に関する特徴量が算出されるため、当該特徴量に基づいて姿勢を評価することが可能となる。そのため、セラピストやトレーナー等の専門家と同程度に高い精度で姿勢を評価することができる。
 また、所定の閾値が状態推定部107の推定におけるキーポイントの重要度に基づいて決定されるため、姿勢の評価においてそれほど重要ではないキーポイントの位置をユーザが修正することによって、無駄な時間が発生することを防ぐことができる。
 また、追加学習部108が、撮像画像と、修正されたキーポイント位置情報とを用いて、骨格抽出モデル113の追加学習を行うため、骨格抽出モデル113を用いるキーポイントの抽出精度をさらに向上することができる。
 また、失敗判断部102が、信頼度が所定の閾値より低いキーポイントの数が所定の基準以上である場合、骨格抽出部101における処理が失敗したと判断し、撮像画像が新たに取得され、新たな撮像画像に基づいて、キーポイントの抽出が再度行われる。そのため、ユーザが多数のキーポイントの修正を行わなくてはいけなくなる事態を防止することができる。
 実施の形態3
 本発明の実施の形態3について、図8を用いて説明する。図8は、本開示に係る姿勢評価装置100Bの構成を示すブロック図である。図8に示すように、本開示に係る姿勢評価装置100Bは、脊柱抽出部114及び脊柱修正部117を新たに備える点並びに画像生成部115、入力受付部116及び特徴量算出部118における処理が、本開示に係る姿勢評価装置100Aと異なる。そのため、本開示に係る姿勢評価装置100Bの構成のうち、本開示に係る姿勢評価装置100Aと同一の構成については同一の符号を付すとともに、その説明を省略する。
 脊柱抽出部114は、撮像画像上の前記身体の少なくとも頸椎、股関節、膝関節の位置情報(画像座標)に基づいて、撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する。例えば、脊柱抽出部114は、撮像画像から、頸椎、股関節、膝関節の位置情報(画像座標)に基づいて、体幹周辺の領域をトリミングした後で、エッジ抽出処理を行って、脊柱エッジ点群の脊柱エッジ位置情報を取得してもよい。脊柱抽出部114における処理の詳細は、例えば、特願2022-058198に記載された通りであるため、その説明を省略する。また、脊柱抽出部114は、深層学習等の機械学習モデルを用いて撮像画像から対象者のシルエットを抽出し、頸椎、股関節、膝関節の位置情報(画像座標)に基づいて、当該対象者のシルエットのエッジから脊柱領域を特定してもよい。
 画像生成部115は、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳するとともに、脊柱エッジ点群を撮像画像にさらに重畳して表示画像を生成する。また、画像生成部115は、キーポイント及び脊柱エッジ点群をユーザによって移動可能に(ドラッグ可能に)撮像画像に重畳する。図9に、画像生成部115によって生成された表示画像の一例を示す。図9に示す例では、キーポイントP1~P6の信頼度は所定の閾値以上であるため、全て同じ表示態様で撮像画像に重畳されている。また、図9に示す例では、脊柱エッジ点群P7,・・・が撮像画像に重畳されている。ここで、脊柱エッジ点群P1,・・・のうち、対象者Oの首側から腰側に向かって、4つ目の点P7の推定が間違っている。そのため、ユーザは、当該4つ目の点P7を移動させて、正しい位置へ修正することができる。
 次に、入力受付部116は、実施の形態2と同様に、ユーザからキーポイント位置情報を修正するためのキーポイント修正情報を受け付ける。さらに、入力受付部116は、ユーザから脊柱エッジ位置情報を修正するための脊柱エッジ修正情報をさらに受け付ける。具体的には、入力受付部116は、ユーザが表示画像上において脊柱エッジ点群P1,・・・のうちの点をドラッグすることによって正しい位置に修正された脊柱エッジ点群P1,・・・の位置情報を脊柱エッジ修正情報として受け付ける。ユーザによって修正された脊柱エッジ点群P1,・・・を示す表示画像を図10に示す。入力受付部116は、図10に示す、修正された脊柱エッジ点群P1,・・・の位置情報を脊柱エッジ修正情報として受け付ける。
 脊柱修正部117は、脊柱エッジ修正情報に基づいて脊柱エッジ位置情報を修正する。
 特徴量算出部118は、実施の形態2と同様に、骨格修正部105によって修正されたキーポイント位置情報に基づいて特徴量を算出する。
 さらに、特徴量算出部118は、脊柱修正部117によって修正された脊柱エッジ位置情報に基づいて特徴量を算出する。具体的には、脊柱抽出部114が推定した頸椎、股関節、膝関節の位置情報(画像座標)と、脊柱修正部117によって修正された脊柱エッジ位置情報とに基づいて、脊柱に関する特徴量を算出する。特徴量算出部118における脊柱に関する特徴量の算出処理の詳細は、例えば、特願2022-058198に記載された通りであるため、その説明を省略する。
 次に、図11を参照しながら、本開示に係る姿勢評価方法について説明する。図11に示すステップS201、S202、S206、S209の処理は、図7に示すステップS101、S102、S105、S107の処理と同様であるため、その説明を省略する。
 脊柱抽出部114が、対象者Oの身体を撮像した撮像画像から、脊柱エッジ点群を抽出する、すなわち、脊柱エッジ位置情報を推定する(ステップS203)。
 次に、画像生成部115が、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳するとともに、脊柱エッジ点群を撮像画像にさらに重畳して表示画像を生成する(ステップS204)。
 次に、入力受付部116が、ユーザからキーポイント位置情報を修正するためのキーポイント修正情報を受け付けるとともに、ユーザから脊柱エッジ位置情報を修正するための脊柱エッジ修正情報を受け付ける。(ステップS205)。
 また、ステップS206の後、脊柱修正部117が、脊柱エッジ修正情報に基づいて脊柱エッジ位置情報を修正する(ステップS207)。
 次に、特徴量算出部118が、ステップS105において修正されたキーポイント位置情報に基づいて、関節又は解剖学的特徴点に関する特徴量を算出するとともに、ステップS207において修正された脊柱エッジ位置情報に基づいて脊柱に関する特徴量を算出する(ステップS208)。
 本実施の形態3によれば、画像上の脊柱形状に基づいて姿勢を評価することができるため、高い精度で姿勢を評価することができる。さらに、通常、脊柱形状の推定には、高価な専門機器を必要とするが、本実施の形態3によれば、高価な専門機器を用いずとも脊柱形状に基づいて姿勢評価を行うことができるため、比較的安価に姿勢を評価することができる。
 実施の形態4
 本発明の実施の形態4について、図12を用いて説明する。図12は、本開示に係る姿勢評価装置100Cの構成を示すブロック図である。図12に示すように、本開示に係る姿勢評価装置100Cは、骨格抽出部119及び画像生成部120における処理が、本開示に係る姿勢評価装置100A又は100Bと異なる。そのため、本開示に係る姿勢評価装置100Cの構成のうち、本開示に係る姿勢評価装置100A又は100Bと同一の構成については同一の符号を付すとともに、その説明を省略する。なお、図12及び以下の説明では、主に、本開示に係る姿勢評価装置100Cの、本開示に係る姿勢評価装置100Bとの相違する内容について説明する。
 骨格抽出部119は、実施の形態3と同様に、対象者Oの身体を撮像して得られた撮像画像から、身体の関節又は解剖学的特徴点をキーポイントとして抽出する、すなわち、キーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する。
 また、骨格抽出部119は、撮像画像に含まれる画素が関節又は解剖学的特徴点である確率をさらに推定する。例えば、骨格抽出部101が、機械学習モデルを用いて、撮像画像からキーポイントを抽出する場合、撮像画像に含まれる画素が関節又は解剖学的特徴点であるとするスコアが算出される。この場合、当該スコアが当該確率に相当する。スコアはその値が大きい程、確率が高い。なお、骨格抽出部119が推定する、撮像画像に含まれる一部の又は全ての画素の当該確率は、行列の形式であってもよい。
 画像生成部120は、実施の形態3と同様に、信頼度が所定の閾値より低いキーポイントを、信頼度が所定の閾値以上の他のキーポイントと異なる表示態様で撮像画像に重畳するとともに、脊柱エッジ点群を撮像画像にさらに重畳して表示画像を生成する。
 また、画像生成部120は、画素を上述の確率に応じた画素値で表示することで確率を表示するテンソルをさらに生成し、テンソルを撮像画像にさらに重畳して表示画像を生成する。図13の左側に、画像生成部120が生成したテンソルを示す。図13に示すように、当該テンソルでは、上記確率が高い(スコアの値が大きい)画素部分P8が他の画素部分よりも画素値が大きく表示されている。また、図13の右側に、当該テンソルが撮像画像に重畳された表示画像を示す。図13の右側に示す当該表示画像は、ユーザUが手首のキーポイントP1を正しい位置に修正するため、キーポイントP1をドラッグしている際の表示画像である。図13の右側に示すように、画像生成部120は、ユーザUがキーポイントP1を修正する際の表示画像として、当該テンソルを撮像画像にさらに重畳した表示画像を生成する。これにより、当該表示画像に、キーポイントP1の修正位置の候補位置P8が表示されたことになり、ユーザUがより容易にキーポイントP1の修正を行うことができる。
 本実施の形態4によれば、骨格抽出部119によって、撮像画像に含まれる画素が関節又は解剖学的特徴点である確率がさらに推定され、画像生成部120によって、画素を上述の確率に応じた画素値で表示することで確率を表示するテンソルがさらに生成される。そして、キーポイントを修正する際の表示画面として、画像生成部120によって、当該テンソルを撮像画像にさらに重畳した表示画像が生成される。そのため、当該表示画像に、キーポイントの修正位置の候補位置が表示されたことになり、ユーザUがより容易にキーポイントの修正を行うことができる。
 実施の形態5
 図14を参照しながら、本発明の本開示に係る姿勢評価システム200について説明する。図14は、本開示に係る姿勢評価システム200の構成を示す図である。姿勢評価システム200は、図14に示すように、姿勢評価装置100C、姿勢評価装置100Cと通信可能な対象者端末300とを備える。姿勢評価装置100Cと対象者端末300とはネットワークNを介して通信可能となっている。また、図14に示すように、1以上の対象者端末300,・・・が姿勢評価装置100Cと通信可能となっていてもよい。
 また、対象者端末300は、対象者が所持するスマートフォン、タブレット端末、パーソナルコンピュータ等である。
 本開示に係る姿勢評価装置100Cは、対象者端末300から、対象者の身体を撮像した撮像画像を取得する。
 また、姿勢評価装置100Cの画像生成部120が作成した表示画像は、対象者端末300に送信され、対象者端末300の表示部302(後述)に表示される。
 図15に、対象者端末300の構成の一例を示す。図15に示すように、対象者端末300は、撮像部301、表示部302、入力部303、表示制御部304、通信部305を備える。
 撮像部301は、対象者の身体を撮像して撮像画像を取得する。撮像部301が撮像する画像は、2次元画像であり、2次元RGB画像であってもよい。対象者端末300は、当該撮像画像を姿勢評価装置100Cに送信する。
 また、撮像部301は、対象者の身体を動画撮影して撮像画像を取得してもよい。この場合、ユーザが姿勢評価装置100Cの入力部109を操作することにより、姿勢評価を行う時点を指定してもよい。あるいは、対象者が対象者端末300の入力部303を操作することにより、姿勢評価を行う時点を指定してもよい。そして、ユーザ又は対象者によって指定された時点の画像が骨格抽出部119及び脊柱抽出部114に入力されてもよい。
 表示部302は、姿勢評価装置100Cから受信した表示画像を表示する。表示部302は、LCD(Liquid Crystal Display),LED(Light Emitting Diode)等、様々な表示手段によって構成される。
 入力部303は、対象者からの操作指示を受け付ける。入力部303は、キーボードにより構成されてもよいし、タッチパネル式の表示装置によって構成されてもよい。入力部303は、対象者端末300本体と接続されるキーボードやタッチパネルによって構成されてもよい。
 表示制御部304は、姿勢評価装置100Cから受信した表示画像を表示部302に表示させる。具体的には、表示制御部304は、表示部302にキーポイントや脊柱エッジ点群をドラッグ可能に表示させる。また、表示制御部304は、テンソルにおける確率に応じて、キーポイントのドラッグしやすさを変える。より具体的には、表示制御部304は、以下の式(3)に基づいて、表示画像上におけるキーポイントのドラッグしやすさを変える。
Figure JPOXMLDOC01-appb-M000003
 ここで、Δxpixelは、1回のドラッグ操作でキーポイントが移動するピクセル数であり、pは、テンソルにおける確率、すなわち撮像画像に含まれる画素が関節又は解剖学的特徴点である確率である。また、vは、0より大きい整数であり、vは0より大きい実数である。また、
Figure JPOXMLDOC01-appb-M000004
は、(v-vp)を超えない最大の整数である。つまり、式(3)は、1回のドラッグ操作でキーポイントが移動するピクセル数Δxpixelを、テンソルにおける確率pの関数としている。具体的には、テンソルにおける確率が高い部分における1回のドラッグ操作で移動するピクセル数が、他の部分における1回のドラッグ操作で移動するピクセル数よりも少なくなっている。
 また、1回のドラッグ操作でキーポイントが移動するピクセル数Δxpixelは、確率pの広義単調減少関数であり、Δxpixelが0より大きい整数となるステップ関数であってもよい。
 また、表示制御部304は、表示部302にキーポイントをドラッグ可能に表示させるとともに、テンソルにおける確率が極大値をとる画素の位置と、ユーザがドラッグしているキーポイントの位置とに基づいて、確率が極大値をとる画素を含む所定範囲を拡大して表示させてもよい。例えば、図16に示すように、ユーザUがキーポイントP1を修正する際の表示画像として、テンソルが撮像画像に重畳され、キーポイントP1の修正位置の候補位置P8が表示されている場合に、表示制御部304は、表示部302に、手首のあたりを拡大表示させる。具体的には、表示制御部304は、以下の2つの条件がともに満たされた場合に、修正位置の候補位置P8付近で拡大表示を行う。
 条件1:テンソルにおける確率が極大値をとる画素の位置(すなわち、候補位置P8)と、ユーザがドラッグしているキーポイントの位置との距離が予め定められた所定の距離以下である。
 条件2:ユーザがドラッグしているキーポイントの位置の距離が上記所定の距離以下である候補位置P8の確率が予め定められた閾値以上である。
 また、表示制御部304は、表示部302に、ユーザがドラッグしているキーポイントの位置を中心とする所定範囲を常に拡大表示させてもよい。
 通信部305は、姿勢評価装置100Cと通信を行う。また、通信部305は、外部のサーバや他の端末装置等と通信を行ってもよい。通信部305は、無線通信を行うアンテナ(不図示)を備えてもよいし、有線通信を行うためのNIC(Network Interface Card)等のインタフェースを備えてもよい。
 本実施の形態5によれば、表示制御部304は、テンソルにおける確率に応じて、キーポイントのドラッグしやすさを変える。具体的には、テンソルにおける確率が高い部分における1回のドラッグ操作で移動するピクセル数が、他の部分における1回のドラッグ操作で移動するピクセル数よりも少なくなっている。これにより、候補位置P8における1回のドラッグ操作で移動する距離が小さくなり、候補位置P8に修正中のキーポイントを移動させやすくなる。
 また、表示制御部304は、ユーザUがキーポイントを修正している際に、移動中のキーポイントが候補位置P8に近くなった場合に、表示部302に、当該候補位置P8付近を拡大表示させる。これにより、候補位置P8に修正中のキーポイントの位置を合わせやすくなる。
 上述の実施の形態では、本発明をハードウェアの構成として説明したが、本開示は、これに限定されるものではない。姿勢評価装置100、100A、100B、100C、又は対象者端末300についての上述した機能(処理)は、例えば次のような構成を有するコンピュータ400により実現されてもよい。
 図17は、姿勢評価装置100、100A、100B、100C、又は対象者端末300の処理を実現するコンピュータ400の構成を示すブロック図である。図17に示すように、コンピュータ400は、メモリ401、及び、プロセッサ402を含む。
 メモリ401は、例えば、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ401は、プロセッサ402により実行されるプログラム、及び各種処理に用いるデータなどを格納するために使用される。姿勢評価装置100の記憶部(不図示)、姿勢評価装置100A、100B、100Cの記憶部110、対象者端末300の記憶部(不図示)は、メモリ401により実現されてもよい。ただし、これらが、他の任意の記憶装置により実現されてもよい。
 プロセッサ402は、メモリ401からプログラムを読み出して実行することで、各装置の処理を行う。プロセッサ402は、例えば、マイクロプロセッサ、MPU(Micro Processor Unit)、又はCPU(Central Processing Unit)などであってもよい。プロセッサ402は、複数のプロセッサを含んでもよい。
 上記の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
 なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、姿勢評価装置100、100A、100B、100Cの各構成は、対象者端末あるいはユーザ端末に備えられていてもよい。
 また、対象者端末に骨格抽出モデル113及び追加学習部108が備えられてもよい。この場合、姿勢評価装置100A、100B、100Cに、対象者端末から、連合学習等の方法により、追加学習後の骨格抽出モデル113のパラメータのみが送信されればよい。そのため、対象者は自身の身体が撮像された撮像画像を外部のサーバ等である姿勢評価装置100A、100B、100Cに送信しなくて済むため、個人情報保護の観点から好ましい。
 以上、実施の形態を参照して本開示を説明したが、本開示は上述の実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。そして、各実施の形態は、適宜他の実施の形態と組み合わせることができる。
 各図面は、1又はそれ以上の実施形態を説明するための単なる例示である。各図面は、1つの特定の実施形態のみに関連付けられるのではなく、1又はそれ以上の他の実施形態に関連付けられてもよい。当業者であれば理解できるように、いずれか1つの図面を参照して説明される様々な特徴又はステップは、例えば明示的に図示または説明されていない実施形態を作り出すために、1又はそれ以上の他の図に示された特徴又はステップと組み合わせることができる。例示的な実施形態を説明するためにいずれか1つの図に示された特徴またはステップのすべてが必ずしも必須ではなく、一部の特徴またはステップが省略されてもよい。いずれかの図に記載されたステップの順序は、適宜変更されてもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出部と、
 前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成部と、
 ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正部と、
 前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出部と、
 を備える、姿勢評価装置。
 (付記2)
 前記特徴量算出部によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定する状態推定部をさらに備え、
 前記所定の閾値は、前記状態推定部の推定における前記キーポイントの重要度に基づいて決定される、
 付記1に記載の姿勢評価装置。
 (付記3)
 前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する脊柱抽出部をさらに備え、
 前記画像生成部は、前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
 前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正する脊柱修正部をさらに備え、
 前記特徴量算出部は、前記骨格修正部によって修正された前記キーポイント位置情報と前記脊柱修正部によって修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
 付記1又は2に記載の姿勢評価装置。
 (付記4)
 前記骨格抽出部は、機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
 前記撮像画像と、前記骨格修正部によって修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、追加学習部をさらに備える、
 付記1~3の何れか1つに記載の姿勢評価装置。
 (付記5)
 前記骨格抽出部は、前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
 前記画像生成部は、前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
 付記1~4の何れか1つに記載の姿勢評価装置。
 (付記6)
 前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記骨格抽出部における処理が失敗したと判断する失敗判断部をさらに備える、
 付記1~5の何れか1つに記載の姿勢評価装置。
 (付記7)
 姿勢評価装置と、前記姿勢評価装置と通信可能な対象者端末とを備え、
 前記姿勢評価装置は、
 前記対象者端末によって取得された対象者の身体の撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出部と、
 前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成部と、
 ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正部と、
 前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出部と、
 を備える、姿勢評価システム。
 (付記8)
 前記姿勢評価装置は、前記特徴量算出部によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定する状態推定部をさらに備え、
 前記所定の閾値は、前記状態推定部の推定における前記キーポイントの重要度に基づいて決定される、
 付記7に記載の姿勢評価システム。
 (付記9)
 前記姿勢評価装置は、前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する脊柱抽出部をさらに備え、
 前記画像生成部は、前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
 前記姿勢評価装置は、前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正する脊柱修正部をさらに備え、
 前記特徴量算出部は、前記骨格修正部によって修正された前記キーポイント位置情報と前記脊柱修正部によって修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
 付記7又は8に記載の姿勢評価システム。
 (付記10)
 前記骨格抽出部は、機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
 前記姿勢評価装置は、前記撮像画像と、前記骨格修正部によって修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、追加学習部をさらに備える、
 付記7~9の何れか1つに記載の姿勢評価システム。
 (付記11)
 前記骨格抽出部は、前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
 前記画像生成部は、前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
 付記7~10の何れか1つに記載の姿勢評価システム。
 (付記12)
 前記対象者端末は、前記画像生成部が生成した前記表示画像を表示部に表示させる表示制御部を備え、
 前記表示制御部は、前記表示部に前記キーポイントをドラッグ可能に表示させるとともに、前記テンソルにおける前記確率に応じて、前記キーポイントのドラッグしやすさを変える、
 付記11に記載の姿勢評価システム。
 (付記13)
 前記対象者端末は、前記画像生成部が生成した前記表示画像を表示部に表示させる表示制御部を備え、
 前記表示制御部は、前記表示部に前記キーポイントをドラッグ可能に表示させるとともに、前記テンソルにおける前記確率が極大値をとる画素の位置と、前記ユーザがドラッグしている前記キーポイントの位置とに基づいて、前記確率が極大値をとる画素を含む所定範囲を拡大して表示させる、
 付記11又は12に記載の姿勢評価システム。
 (付記14)
 前記姿勢評価装置は、前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記骨格抽出部における処理が失敗したと判断する失敗判断部をさらに備える、
 付記7~13の何れか1つに記載の姿勢評価システム。
 (付記15)
 姿勢評価装置が、
 対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定し、
 前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成し、
 ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正し、
 前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する、
 姿勢評価方法。
 (付記16)
 姿勢評価装置が、
 前記特徴量算出部によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定し、
 前記所定の閾値は、前記姿勢の状態の推定における前記キーポイントの重要度に基づいて決定される、
 付記15に記載の姿勢評価方法。
 (付記17)
 姿勢評価装置が、
 前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定し、
 前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
 前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正し、
 修正された前記キーポイント位置情報と修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
 付記15又は16に記載の姿勢評価方法。
 (付記18)
 姿勢評価装置が、
 機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
 前記撮像画像と、修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、
 付記15~17の何れか1つに記載の姿勢評価方法。
 (付記19)
 姿勢評価装置が、
 前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
 前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
 付記15~18の何れか1つに記載の姿勢評価方法。
 (付記20)
 姿勢評価装置が、
 前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記キーポイントの抽出が失敗したと判断する、
 付記15~19の何れか1つに記載の姿勢評価方法。
 (付記21)
 姿勢評価装置に、
 対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する処理と、
 前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する処理と、
 ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する処理と、
 前記骨格修正部によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する処理と、
 を実行させる、プログラム。
 (付記22)
 姿勢評価装置に、
 前記特徴量算出部によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定する処理を実行させ、
 前記所定の閾値は、前記姿勢の状態の推定における前記キーポイントの重要度に基づいて決定される、
 付記21に記載のプログラム。
 (付記23)
 姿勢評価装置に、
 前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する処理と、
 前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成する処理と、
 前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正する処理と、
 修正された前記キーポイント位置情報と修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する処理と、
 を実行させる、付記21又は22に記載のプログラム。
 (付記24)
 姿勢評価装置に、
 機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定する処理と、
 前記撮像画像と、修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う処理と、
 を実行させる、付記21~23の何れか1つに記載のプログラム。
 (付記25)
 姿勢評価装置に、
 前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定する処理と、
 前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する処理と、
 を実行させる、付記21~24の何れか1つに記載のプログラム。
 (付記26)
 姿勢評価装置に、
 前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記キーポイントの抽出が失敗したと判断する処理
 を実行させる、付記21~25の何れか1つに記載のプログラム。
 この出願は、2022年11月25日に出願された日本出願特願2022-188606を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 高い精度で姿勢を評価することができる姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラムを提供することができる。
100、100A、100B、100C 姿勢評価装置
101、119 骨格抽出部
102 失敗判断部
103、115、120 画像生成部
104、116 入力受付部
105 骨格修正部
106、118 特徴量算出部
107 状態推定部
108 追加学習部
114 脊柱抽出部
117 脊柱修正部
109 入力部
110 記憶部
111 通信部
112 骨格DB(骨格データベース)
113 骨格抽出モデル
200 姿勢評価システム
300 対象者端末
301 撮像部
302 表示部
303 入力部
304 表示制御部
305 通信部

Claims (20)

  1.  対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出手段と、
     前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成手段と、
     ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正手段と、
     前記骨格修正手段によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出手段と、
     を備える、姿勢評価装置。
  2.  前記特徴量算出手段によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定する状態推定手段をさらに備え、
     前記所定の閾値は、前記状態推定手段の推定における前記キーポイントの重要度に基づいて決定される、
     請求項1に記載の姿勢評価装置。
  3.  前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する脊柱抽出手段をさらに備え、
     前記画像生成手段は、前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
     前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正する脊柱修正手段をさらに備え、
     前記特徴量算出手段は、前記骨格修正手段によって修正された前記キーポイント位置情報と前記脊柱修正手段によって修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
     請求項1又は2に記載の姿勢評価装置。
  4.  前記骨格抽出手段は、機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
     前記撮像画像と、前記骨格修正手段によって修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、追加学習手段をさらに備える、
     請求項1~3の何れか1つに記載の姿勢評価装置。
  5.  前記骨格抽出手段は、前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
     前記画像生成手段は、前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
     請求項1~4の何れか1つに記載の姿勢評価装置。
  6.  前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記骨格抽出手段における処理が失敗したと判断する失敗判断手段をさらに備える、
     請求項1~5の何れか1つに記載の姿勢評価装置。
  7.  姿勢評価装置と、前記姿勢評価装置と通信可能な対象者端末とを備え、
     前記姿勢評価装置は、
     前記対象者端末によって取得された対象者の身体の撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する骨格抽出手段と、
     前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する画像生成手段と、
     ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する骨格修正手段と、
     前記骨格修正手段によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する特徴量算出手段と、
     を備える、姿勢評価システム。
  8.  前記姿勢評価装置は、前記特徴量算出手段によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定する状態推定手段をさらに備え、
     前記所定の閾値は、前記状態推定手段の推定における前記キーポイントの重要度に基づいて決定される、
     請求項7に記載の姿勢評価システム。
  9.  前記姿勢評価装置は、前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定する脊柱抽出手段をさらに備え、
     前記画像生成手段は、前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
     前記姿勢評価装置は、前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正する脊柱修正手段をさらに備え、
     前記特徴量算出手段は、前記骨格修正手段によって修正された前記キーポイント位置情報と前記脊柱修正手段によって修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
     請求項7又は8に記載の姿勢評価システム。
  10.  前記骨格抽出手段は、機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
     前記姿勢評価装置は、前記撮像画像と、前記骨格修正手段によって修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、追加学習手段をさらに備える、
     請求項7~9の何れか1つに記載の姿勢評価システム。
  11.  前記骨格抽出手段は、前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
     前記画像生成手段は、前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
     請求項7~10の何れか1つに記載の姿勢評価システム。
  12.  前記対象者端末は、前記画像生成手段が生成した前記表示画像を表示手段に表示させる表示制御手段を備え、
     前記表示制御手段は、前記表示手段に前記キーポイントをドラッグ可能に表示させるとともに、前記テンソルにおける前記確率に応じて、前記キーポイントのドラッグしやすさを変える、
     請求項11に記載の姿勢評価システム。
  13.  前記対象者端末は、前記画像生成手段が生成した前記表示画像を表示手段に表示させる表示制御手段を備え、
     前記表示制御手段は、前記表示手段に前記キーポイントをドラッグ可能に表示させるとともに、前記テンソルにおける前記確率が極大値をとる画素の位置と、前記ユーザがドラッグしている前記キーポイントの位置とに基づいて、前記確率が極大値をとる画素を含む所定範囲を拡大して表示させる、
     請求項11又は12に記載の姿勢評価システム。
  14.  前記姿勢評価装置は、前記信頼度が前記所定の閾値より低い前記キーポイントの数が所定の基準以上である場合に、前記骨格抽出手段における処理が失敗したと判断する失敗判断手段をさらに備える、
     請求項7~13の何れか1つに記載の姿勢評価システム。
  15.  姿勢評価装置が、
     対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定し、
     前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成し、
     ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正し、
     前記骨格修正手段によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する、
     姿勢評価方法。
  16.  姿勢評価装置が、
     前記特徴量算出手段によって算出された前記特徴量に基づいて、前記対象者の姿勢の状態を推定し、
     前記所定の閾値は、前記姿勢の状態の推定における前記キーポイントの重要度に基づいて決定される、
     請求項15に記載の姿勢評価方法。
  17.  姿勢評価装置が、
     前記撮像画像上における脊柱形状を表す所定の数の点からなる脊柱エッジ点群の脊柱エッジ位置情報を推定し、
     前記信頼度が前記所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳するとともに、前記脊柱エッジ点群を前記撮像画像にさらに重畳して前記表示画像を生成し、
     前記ユーザから受け付けた、前記脊柱エッジ位置情報を修正するための脊柱エッジ修正情報に基づいて前記脊柱エッジ位置情報を修正し、
     修正された前記キーポイント位置情報と修正された前記脊柱エッジ位置情報とに基づいて、前記特徴量を算出する、
     請求項15又は16に記載の姿勢評価方法。
  18.  姿勢評価装置が、
     機械学習済みの骨格抽出モデルを用いて、前記キーポイント位置情報及び前記信頼度を推定し、
     前記撮像画像と、修正された前記キーポイント位置情報とを用いて、前記骨格抽出モデルの追加学習を行う、
     請求項15~17の何れか1つに記載の姿勢評価方法。
  19.  姿勢評価装置が、
     前記撮像画像に含まれる画素が前記関節又は前記解剖学的特徴点である確率をさらに推定し、
     前記画素を前記確率に応じた画素値で表示することで前記確率を表示するテンソルをさらに生成し、前記テンソルを前記撮像画像にさらに重畳して前記表示画像を生成する、
     請求項15~18の何れか1つに記載の姿勢評価方法。
  20.  姿勢評価装置に、
     対象者の身体を撮像して得られた撮像画像から、前記身体の関節又は解剖学的特徴点からなるキーポイントのキーポイント位置情報と、当該キーポイントの信頼度とを推定する処理と、
     前記信頼度が所定の閾値より低い前記キーポイントを、前記信頼度が前記所定の閾値以上の他の前記キーポイントと異なる表示態様で前記撮像画像に重畳した表示画像を生成する処理と、
     ユーザから受け付けた、前記キーポイント位置情報を修正するためのキーポイント修正情報に基づいて前記キーポイント位置情報を修正する処理と、
     前記骨格修正手段によって修正された前記キーポイント位置情報に基づいて、前記関節又は前記解剖学的特徴点に関する特徴量を算出する処理と、
     を実行させる、プログラム。
PCT/JP2023/040493 2022-11-25 2023-11-10 姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム Ceased WO2024111429A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024560068A JPWO2024111429A1 (ja) 2022-11-25 2023-11-10

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-188606 2022-11-25
JP2022188606 2022-11-25

Publications (1)

Publication Number Publication Date
WO2024111429A1 true WO2024111429A1 (ja) 2024-05-30

Family

ID=91195533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/040493 Ceased WO2024111429A1 (ja) 2022-11-25 2023-11-10 姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2024111429A1 (ja)
WO (1) WO2024111429A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120234654A (zh) * 2025-05-29 2025-07-01 中天智领(北京)科技有限公司 基于多模态融合的空间交互精准识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法
CN113114924A (zh) * 2020-01-13 2021-07-13 北京地平线机器人技术研发有限公司 图像拍摄方法、装置、计算机可读存储介质及电子设备
JP2022095332A (ja) * 2020-12-16 2022-06-28 株式会社エクサウィザーズ 学習モデル生成方法、コンピュータプログラム及び情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法
CN113114924A (zh) * 2020-01-13 2021-07-13 北京地平线机器人技术研发有限公司 图像拍摄方法、装置、计算机可读存储介质及电子设备
JP2022095332A (ja) * 2020-12-16 2022-06-28 株式会社エクサウィザーズ 学習モデル生成方法、コンピュータプログラム及び情報処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SUJINO, SHOTA; MORIYA, TOMOAKI; TAKAHASHI, TOKIICHIRO: "I-045 Motion Analysis for Dance Coaching with Non-Photorealistic Depiction", PROCEEDINGS OF 11TH FORUM ON INFORMATION TECHNOLOGY (FIT2012); KOGANEI, JAPAN; SEPTEMBER 4-6, 2012, vol. 11, no. 3, 21 August 2012 (2012-08-21) - 6 September 2012 (2012-09-06), pages 353 - 354, XP009555597 *
TANAKA, KANATA ET AL.: "Proposal of a semi-automatic annotation tool for error handling in pose information", IPSJ ENTERTAINMENT COMPUTING SYMPOSIUM (EC2020), INFORMATION PROCESSING SOCIETY OF JAPAN, JP, vol. 2020, 22 August 2020 (2020-08-22), JP, pages 129 - 131, XP009555535 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120234654A (zh) * 2025-05-29 2025-07-01 中天智领(北京)科技有限公司 基于多模态融合的空间交互精准识别方法及系统

Also Published As

Publication number Publication date
JPWO2024111429A1 (ja) 2024-05-30

Similar Documents

Publication Publication Date Title
CN110874865B (zh) 三维骨架生成方法和计算机设备
WO2021048988A1 (ja) 骨格認識方法、骨格認識プログラムおよび情報処理装置
JP6575325B2 (ja) カメラ位置姿勢推定装置、カメラ位置姿勢推定方法およびカメラ位置姿勢推定プログラム
JP6708260B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6392478B1 (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
CN111784775A (zh) 一种标识辅助的视觉惯性增强现实注册方法
CN114092863A (zh) 一种用于多视角视频图像的人体动作评估方法
WO2021064963A1 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
JP2018147313A (ja) オブジェクト姿勢推定方法、プログラムおよび装置
JP6589144B2 (ja) 姿勢推定方法および姿勢推定装置
JP2023179239A (ja) 情報処理プログラム、情報処理方法および情報処理装置
CN108885087A (zh) 测量装置、测量方法和计算机可读记录介质
WO2024111429A1 (ja) 姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム
JP7468684B2 (ja) 姿勢検出装置、姿勢検出方法および寝相判定方法
JP2019046239A (ja) 画像処理装置、画像処理方法、プログラム及び合成用画像データ
US20220254052A1 (en) Three-dimensional pose estimation method, program, recording medium and three-dimensional pose estimation device
US20230206482A1 (en) Image selection apparatus, image selection method, and non-transitory computer-readable medium
US12394087B2 (en) Systems and methods for determining 3D human pose based on 2D keypoints
US20250029363A1 (en) Image processing system, image processing method, and non-transitory computer-readable medium
US20240303855A1 (en) Posture estimation apparatus, learning model generation apparatus, posture estimation method, learning model generation method, and computer-readable recording medium
US20250107750A1 (en) Posture evaluation apparatus, posture evaluation system, posture evaluation method, and computer readable medium
US10832409B2 (en) Diagnosis support method, diagnosis support apparatus, and non-transitory computer-readable storage medium
JP7727273B2 (ja) 姿勢評価装置、姿勢評価システム、姿勢評価方法、及びプログラム
US20250371730A1 (en) Processing apparatus, processing method, and non-transitory computer readable medium
US20240346684A1 (en) Systems and methods for multi-person pose estimation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23894438

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2024560068

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 23894438

Country of ref document: EP

Kind code of ref document: A1