[go: up one dir, main page]

WO2025018140A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2025018140A1
WO2025018140A1 PCT/JP2024/023875 JP2024023875W WO2025018140A1 WO 2025018140 A1 WO2025018140 A1 WO 2025018140A1 JP 2024023875 W JP2024023875 W JP 2024023875W WO 2025018140 A1 WO2025018140 A1 WO 2025018140A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
appearance
unit
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2024/023875
Other languages
English (en)
French (fr)
Inventor
拓也 八島
直郁 秋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of WO2025018140A1 publication Critical patent/WO2025018140A1/ja
Anticipated expiration legal-status Critical
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A45HAND OR TRAVELLING ARTICLES
    • A45DHAIRDRESSING OR SHAVING EQUIPMENT; EQUIPMENT FOR COSMETICS OR COSMETIC TREATMENTS, e.g. FOR MANICURING OR PEDICURING
    • A45D44/00Other cosmetic or toiletry articles, e.g. for hairdressers' rooms
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • the above-mentioned conventional technologies do not necessarily provide adequate support to the user in changing a specific state to a target state.
  • the above-mentioned conventional technologies merely present changes in the state of the facial surface texture or face shape in an easy-to-understand manner, and do not take into consideration the ability to appropriately guide a user who is in a specific state to a target state that the user is aiming for.
  • this disclosure proposes an information processing device, an information processing method, and an information processing program that can appropriately support a user in changing a specific state to a target state.
  • an information processing device includes an acquisition unit that acquires an object image, which is an image of a first object, and a reference image relating to a second object different from the first object; a conversion unit that generates a converted image in which the first object is converted based on the object image and the reference image; an estimation unit that estimates a processing procedure for changing the appearance of the first object to one based on the second object based on the converted image and the object image; and a generation unit that generates an image of the first object whose appearance has been changed in accordance with the processing procedure as an output image based on the object image.
  • FIG. 1 is a diagram showing an overall view of information processing according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of a system according to an embodiment.
  • FIG. 2 is a diagram illustrating an example of the configuration of a server device according to the embodiment.
  • FIG. 1 is a diagram illustrating an example of the configuration of a learning device according to an embodiment.
  • FIG. 11 is an explanatory diagram illustrating a preprocessing technique in the learning phase.
  • FIG. 11 is an explanatory diagram illustrating a learning method in a learning phase.
  • FIG. 1 is a diagram showing an example of an estimation method realized by information processing according to an embodiment.
  • FIG. 2 is a diagram showing an example of an estimation method realized by the information processing according to the embodiment.
  • FIG. 13 is a diagram illustrating an example of a configuration of a server device according to a first modified example.
  • 13 is a flowchart showing an estimation process procedure according to Modification 1.
  • 13 is a flowchart showing a malfunction detection process procedure according to Modification 1.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a computer corresponding to the information processing device according to the embodiment.
  • One or more of the embodiments (including examples, variations, and application examples) described below can be implemented independently. However, at least a portion of the embodiments described below may be implemented in appropriate combination with at least a portion of another embodiment. These embodiments may include novel features that are different from one another. Thus, these embodiments may contribute to solving different purposes or problems and may provide different effects.
  • the proposed technology of the present disclosure may be suitably applied to assist in tasks that require multiple processing procedures.
  • the proposed technology of the present disclosure assists a user in a task so that the user approaches a target appearance.
  • the proposed technology of the present disclosure may be suitably applied in a scene such as assisting in face makeup work to approach a target makeup state, assisting in hair and makeup work to approach a target hairstyle state, and assisting in painting work to approach a target painting state.
  • information processing in the case where the proposed technology of the present disclosure is applied to assist in face makeup work will be described, but similar information processing is also applicable to other scenes.
  • the shape of the face and features i.e., facial shape and base color of the face
  • the final result will often be different if you only refer to the face photo of the makeup model.
  • makeup application instructions that take into account one's own facial shape, base color of the face, and the lighting environment when applying makeup.
  • this disclosure proposes a system that uses a 3D Morphable Model (3DMM) that can express facial shape, base facial color, and even various lighting environments by adjusting lighting using parameters, to help a user get closer to their desired makeup look even if there are differences in facial shape, base facial color, or lighting environment between the user and a makeup model that represents the makeup look the user is aiming for.
  • 3DMM 3D Morphable Model
  • a facial image of a makeup model in a target makeup state is subjected to a conversion process to estimate the appearance of the makeup model in a live photograph.
  • the appearance of the makeup model is converted so that the facial shape, etc., resembles that of the user while maintaining the texture information of the makeup model.
  • the makeup application procedure between the two parties is inferred using a machine learning model obtained through learning.
  • the makeup workflow refers to the multiple steps leading up to the completion of the makeup, with the target makeup state defined as the completed stage. Then, for each step, instructions on the makeup content are automatically generated. Also, for each step, a short video is generated showing how to apply the makeup and tips. Also, for each step, an image is generated that reflects how the user will look at that step on a 3D (three-dimensional) face model.
  • the technology proposed in this disclosure does not need to automatically generate instructions for makeup, generate a short video showing how to apply makeup and tips, and generate a 3D face model that reflects the user's appearance; it is sufficient to perform at least one of these.
  • FIG. 1 is a diagram showing an overall image of information processing according to the embodiment.
  • FIG. 1 conceptually shows the contents of (i) to (iii) above.
  • FIG. 1 also shows a scene in which a person P1 (user) in a natural state without makeup, i.e., in a pre-makeup state, requests the presentation of a work procedure for approaching the target makeup state by using a face image of a person Px (makeup model) in a target makeup state as a reference image.
  • a server device 100 which is an example of an information processing device, estimates and presents a work procedure by the information processing according to the embodiment.
  • person P1 uses user device 10 to input face image IM1 (an example of an object image) of his/her own face (an example of a first object) before makeup (appearance before makeup) to server device 100 (step S1).
  • face image IM1 shows the appearance of the face of person P1 before makeup.
  • face image IM1 may be, for example, a still image captured by the imaging function of user device 10, or a moving image.
  • the person P1 also inputs a face image IM2 of a person in a makeup state (an example of a target appearance) that is, a face of a makeup model Px (an example of a second object) as a reference image (reference image) to the server device 100 (step S2).
  • the face image IM2 shows the facial appearance of the makeup model Px in the makeup state that the person P1 is aiming for.
  • the face image IM2 may be, for example, an image found through a web search, or a face image of another person photographed by the person P1.
  • the makeup model Px may be a celebrity or actress that the person P1 likes.
  • the makeup model Px may be a close relative of the person P1 (for example, a family member or friend), or the person P1 himself when he has created makeup that he likes.
  • the face image IM2 may be a single still image or a moving image.
  • the server device 100 uses a makeup procedure estimation model M (machine learning model) to estimate an operation procedure (processing procedure) for changing the pre-makeup state to the target makeup state (step S3).
  • a makeup procedure estimation model M machine learning model
  • the server device 100 inputs a 3D face model, which is a three-dimensional image generated by applying the facial image IM1 to the 3DMM, and a 3D face model, which is a three-dimensional image generated by applying the facial image IM2 to the 3DMM, into the makeup procedure estimation model M, and estimates the operation procedure based on the output result.
  • Each 3D face model is adjusted so that the texture of the face surface other than the makeup is unified between the person P1 and the makeup model Px.
  • the server device 100 adjusts to match conditions other than the makeup so that only the difference in texture before and after makeup can be accurately compared between the person P1 and the makeup model Px.
  • conditions other than the makeup include the lighting environment in the space (e.g., the shooting space) where the face image IM1 was obtained.
  • the server device 100 also performs a process of converting one of the two 3D face models based on the other 3D face model.
  • the server device 100 converts the face shape of the 3D face model generated based on face image IM2 to match the face shape of the 3D face model generated based on face image IM1.
  • the server device 100 can obtain a 3D face model in an unmade-up state having the skin base color of person P1, and a 3D face model in a target make-up state having the face shape of person P1.
  • the 3D face model obtained here has unified conditions other than makeup as a result of the above-mentioned adjustment process. Therefore, the server device 100 inputs the 3D model after the adjustment process and conversion process into the makeup procedure estimation model M.
  • FIG. 1 shows an example in which the server device 100 has estimated 10 steps of work procedures (some omitted) based on information output from the makeup procedure estimation model M.
  • the example shows the server device 100 estimating the first step "putting in colored contact lenses," the second step “applying makeup base,” the third step “foundation + eye shadow,” ... the eighth step “drawing eyebrows,” the ninth step “putting on a wig,” and the tenth step “lips.”
  • the server device 100 estimates the work procedure as shown in Figure 1, it generates output information to be output (presented) to the person P1 based on the estimation result (step S4). Specifically, the server device 100 generates an instruction sentence SM to be presented to the person P1, and a 3D face model FM that reflects, as the work result, how the appearance of the person P1 will change if the work procedure is actually performed.
  • the server device 100 generates an instruction sentence SM1 instructing the first step based on the first step, "Put in colored contact lenses.”
  • the server device 100 also generates a 3D face model FM1 that reflects the change in appearance that occurs in the face of person P1 when performing the first step, for the 3D face model generated based on face image IM1.
  • the server device 100 processes the 3D face model before makeup is applied, changing the appearance of person P1 to one in which colored contact lenses are worn.
  • the server device 100 generates an instruction sentence SM2 instructing the second step based on the second step "apply makeup base.”
  • the server device 100 also generates a 3D face model FM2 that further reflects the changes in appearance that will occur in the face of the person P1 when performing the work in the second step, from the 3D face model FM1 that reflects the changes in appearance up to the first step.
  • the server device 100 further processes the 3D face model FM1 that reflects the colored contact lens state, changing the appearance of the person P1 to one in which makeup base is applied.
  • the server device 100 generates an instruction sentence SM3 instructing the third step based on the third step, "foundation + eye shadow.”
  • the server device 100 also generates a 3D face model FM3 that further reflects the changes in appearance that will occur in the face of the person P1 when the work in the third step is performed, from the 3D face model FM2 that reflects the changes in appearance up to the second step.
  • the server device 100 further processes the 3D face model FM2 with a makeup base applied, changing the appearance of the person P1 to one with foundation and eye shadow applied.
  • the server device 100 generates an instruction sentence SM8 instructing the eighth step based on the eighth step, "Draw eyebrows.”
  • the server device 100 also generates a 3D face model FM8 that further reflects the changes in appearance that will occur in the face of person P1 when performing the eighth step, from a 3D face model FM7 (not shown) that reflects the changes in appearance up to the seventh step.
  • the server device 100 further processes the 3D face model FM7 to change the appearance of person P1 to one with drawn eyebrows.
  • the server device 100 generates an instruction sentence SM9 instructing the ninth step based on the ninth step, "Put on a wig.”
  • the server device 100 also generates a 3D face model FM9 that further reflects the changes in appearance that will occur in the face of person P1 when performing the ninth step, from the 3D face model FM8 that reflects the changes in appearance up to the eighth step.
  • the server device 100 further processes the 3D face model FM8 with drawn eyebrows, thereby changing the appearance of person P1 to one wearing a wig.
  • the server device 100 generates an instruction sentence SM10 instructing the tenth step based on the tenth step "lips".
  • the server device 100 also generates a 3D face model FM10 that further reflects the changes in appearance that will occur in the face of person P1 when working on the tenth step, from the 3D face model FM9 that reflects the changes in appearance up to the ninth step.
  • the server device 100 further processes the 3D face model FM9 in a state where a wig is worn, thereby changing the appearance of person P1 to a state where he or she is wearing lips.
  • the server device 100 controls the output so that the output information generated in step S4 is output to the user device 10 of the person P1 (step S5).
  • the server device 100 may output the instruction sentence and the 3D face model FM in a corresponding state for each work procedure.
  • the server device 100 outputs the instruction sentence SM1 and the 3D face model FM1 in a corresponding state.
  • the server device 100 also outputs the instruction sentence SM2 and the 3D face model FM2 in a corresponding state.
  • the server device 100 also outputs the instruction sentence SM3 and the 3D face model FM3 in a corresponding state.
  • the person P1 can view the 3D face model FM from various viewpoints using the user device 10.
  • the person P1 can freely rotate the 3D face model FM using the user device 10.
  • FIG. 2 is a diagram showing an example of a system according to an embodiment.
  • Fig. 1 shows a system 1 as an example of a system according to an embodiment. Information processing according to the embodiment is realized in the system 1.
  • system 1 includes a user device 10, a learning device 30, and a server device 100. Furthermore, user device 10, learning device 30, and server device 100 are connected via network N so as to be able to communicate with each other via wired or wireless communication. There is no limit to the number of user devices 10, learning devices 30, and server devices 100 included in system 1.
  • the user device 10 is an information processing terminal used by a person who wishes to receive guidance in changing the appearance of a first object to an appearance based on a second object different from the first object, i.e., a target appearance.
  • the user device 10 is a smartphone, a wearable device, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, a PDA (Personal Digital Assistant), etc.
  • An application that enables the transmission and reception of information between the user device 10 and the server device 100 may be installed in the user device 10.
  • the learning device 30 learns an estimation model for estimating a processing procedure for changing the appearance of the first object to a target appearance.
  • the estimation model may be learned using various known machine learning techniques as appropriate.
  • the estimation model may be learned using a machine learning technique for supervised learning, such as SVM (Support Vector Machine).
  • the estimation model may also be learned using a machine learning technique for unsupervised learning.
  • the estimation model may also be learned using a deep learning technique.
  • the estimation model may also be learned using various deep learning techniques, such as DNN (Deep Neural Network), RNN (Recurrent Neural Network), and CNN (Convolutional Neural Network).
  • the server device 100 is a cloud computer that plays a central role in performing information processing according to the embodiment.
  • the server device 100 inputs image information (e.g., an original image and a reference image) acquired via the user device 10 to a machine learning model generated by the learning device 30, and estimates a processing procedure for changing the state shown in the original image to the target state shown in the reference image based on the output information from the model.
  • image information e.g., an original image and a reference image
  • the server device 100 inputs image information (e.g., an original image and a reference image) acquired via the user device 10 to a machine learning model generated by the learning device 30, and estimates a processing procedure for changing the state shown in the original image to the target state shown in the reference image based on the output information from the model.
  • Fig. 3 is a diagram showing an example of the configuration of the server device 100 according to the embodiment.
  • the server device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.
  • the communication unit 110 is realized by, for example, a network interface card (NIC) etc.
  • NIC network interface card
  • the communication unit 110 is connected to the network N by wire or wirelessly, and transmits and receives information between the user device 10 and the learning device 30.
  • the storage unit 120 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk, an optical disk, etc.
  • the storage unit 120 has a model data storage unit 121, an image data storage unit 122, and an estimation procedure data storage unit 123.
  • the model data storage unit 121 stores data of an estimation model for estimating a processing procedure for changing a given state of a first object to a target state.
  • the image data storage unit 122 stores various image data used in the information processing according to the embodiment.
  • the estimation procedure data storage unit 123 stores a processing procedure for changing a given state of the first object to a target state, and data generated based on the processing procedure.
  • Control unit 130 The control unit 130 is realized by a central processing unit (CPU), a micro processing unit (MPU), or the like executing various programs (e.g., the information processing program according to the embodiment) stored in a storage device inside the server device 100 using a RAM as a working area.
  • the control unit 130 is also realized by an integrated circuit such as an application specific integrated circuit (ASIC) or a field programmable gate array (FPGA).
  • ASIC application specific integrated circuit
  • FPGA field programmable gate array
  • control unit 130 has an image acquisition unit 131, an adjustment unit 132, a conversion unit 133, an estimation unit 134, a generation unit 135, and an output control unit 136, and realizes or executes the functions and actions of the information processing described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be other configurations as long as they perform the information processing described below.
  • the connection relationships between the processing units in the control unit 130 are not limited to the connection relationships shown in FIG. 3, and may be other connection relationships.
  • the image acquisition unit 131 acquires an image input by a user as an image to be used for estimating a processing procedure. For example, the image acquisition unit 131 acquires an object image which is an image of a first object in a specific appearance state. The image acquisition unit 131 also acquires an image of a second object having an appearance targeted by the first object as a reference image. The image acquisition unit 131 also stores the object image and the reference image in the image data storage unit 122.
  • the adjustment unit 132 adjusts the object image and the reference image to match other conditions other than the appearance of the first object shown in the object image and the appearance of the target shown in the reference image. For example, the adjustment unit 132 removes the information of the lighting environment estimated based on the object image from the object image and removes the information of the lighting environment estimated based on the reference image from the reference image, thereby removing the lighting environment conditions between the object image and the reference image. Furthermore, the adjustment unit 132 may unify the lighting environment conditions between the object image and the reference image by correcting the reference image using the information of the lighting environment estimated based on the object image in a state in which the information of the lighting environment estimated based on the reference image is removed from the reference image.
  • the conversion unit 133 generates a converted image in which the other of the object image and the reference image is converted into an image of a first object whose appearance is reflected to a target, based on either the object image or the reference image. For example, the conversion unit 133 generates a converted image by converting the reference image so that feature information of a second object extracted from the reference image matches feature information of a first object extracted from the object image. Taking the support of face makeup work as an example, the conversion unit 133 converts the reference image so that the face shape of a makeup model extracted from the reference image matches the face shape of a user extracted from the object image.
  • the estimation unit 134 estimates a processing procedure for changing the appearance of the first object to an appearance based on a second object, based on the transformed image generated by the transformation unit 133 and the object image. Specifically, the estimation unit 134 estimates a processing procedure for changing the appearance of the first object to an appearance of a target targeted by the first object, based on output information from an estimation model that receives as input a pair of the transformed image and the object image. The target appearance is possessed by a second object different from the first object.
  • the generation unit 135 generates, as an output image, an image of the first object whose appearance has changed according to the processing procedure estimated by the estimation unit 134, based on the object image. For example, the generation unit 135 generates, as the output image, an image in which the appearance of the first object according to the processing procedure is reflected as a work result.
  • the generation unit 135 also generates, as output information to be output together with the output image, an instruction sentence instructing the user to perform a task in accordance with the processing procedure.
  • the generation unit 135 may also generate, as output information, a detailed sentence that explains the content of the instruction sentence in more detail, based on a predetermined language model and the instruction sentence.
  • the output control unit 136 presents to the user the output information generated by the generation unit 135. Specifically, the output control unit 136 controls the output so that the output information generated by the generation unit 135 is output to the user device 10.
  • the instruction text and detailed text may be output in text format or audio format.
  • Fig. 4 is a diagram showing an example of the configuration of the learning device 30 according to the embodiment.
  • the learning device 30 includes a communication unit 31, a storage unit 32, and a control unit 33.
  • the communication unit 31 is realized by, for example, a network interface card (NIC), etc.
  • NIC network interface card
  • the communication unit 31 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the server device 100.
  • the storage unit 32 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 has a model data storage unit 32a.
  • the model data storage unit 32a stores data of an estimation model for estimating a processing procedure for changing the appearance of a first object to a target appearance.
  • Control unit 33 The control unit 22 is realized by a CPU, an MPU, or the like, executing various programs (e.g., an information processing program according to the embodiment) stored in a storage device inside the learning device 30 using a RAM as a working area.
  • the control unit 33 is realized by an integrated circuit such as an ASIC or an FPGA.
  • control unit 33 has an acquisition unit 33a, a generation unit 33b, and a learning unit 33c, and realizes or executes the functions and actions of the information processing described below.
  • the internal configuration of the control unit 33 is not limited to the configuration shown in FIG. 4, and may be other configurations as long as they perform the information processing described below.
  • the connection relationships between the processing units in the control unit 33 are not limited to the connection relationships shown in FIG. 4, and may be other connection relationships.
  • the acquisition unit 33a acquires information constituting the learning data.
  • the acquisition unit 33a acquires a video including images of an action of changing the appearance of a predetermined object related to the first object into the appearance of a completed state, and speech information within the video explaining the content of the action.
  • the generation unit 33b generates learning data by combining a video consisting of images of an action that changes the appearance of a specified object related to the first object to the appearance of a completed state with speech information within the video that explains the content of the action.
  • the learning unit 33c uses the learning data to train a model to learn the relationship between images before and after a change in appearance of a predetermined object and an action caused by the change in appearance. For example, when a pair of a transformed image and an object image is input, the learning unit 33c trains the model to learn the above relationship so as to output information on a processing procedure for changing the appearance of a first object to a target appearance, thereby generating an estimation model.
  • the target appearance is defined by the transformed image.
  • FIG. 5 is an explanatory diagram explaining the preprocessing method in the learning phase.
  • FIG. 5 shows a scene in which learning data is generated using a video VD consisting of a group of images of makeup movements that change an arbitrary person Py from a pre-makeup state to a made-up state, and speech information within the video VD that explains the contents of the makeup movements.
  • FIG. 5 shows an example in which learning data is generated based on a makeup video with audio.
  • the video VD is acquired by the acquisition unit 33a and processed into learning data by the generation unit 33b.
  • the generation unit 33b generates learning data using the video VD, which is composed of a group of images of makeup movements that change an arbitrary person Py from a pre-makeup state to a made-up state, and speech information in the video VD that explains the contents of the makeup movements.
  • the generation unit 33b extracts, from among the actions performed in the video VD, actions necessary for facial makeup (actions to bring the makeup to a completed state) in association with the timestamps at which the actions necessary for facial makeup were performed.
  • the generation unit 33b may extract pairs of actions necessary for facial makeup and timestamps at which the actions necessary for facial makeup were performed by analyzing speech information (audio data) included in the video VD.
  • speech information audio data
  • subtitle information in which the speech information (audio data) included in the video VD is transcribed and timestamps may be inserted in advance as metadata into the video VD. In such cases, the generation unit 33b can extract pairs of actions necessary for facial makeup and timestamps at which the actions necessary for facial makeup were performed based on the metadata.
  • FIG. 5 shows an example in which the generation unit 33b extracts a pair of play time "3:50" and a necessary action "skin care” as a pair of a timestamp and an action required for facial makeup. It also shows an example in which the generation unit 33b extracts a pair of play time “4:55” and a necessary action “base” as a pair of a timestamp and an action required for facial makeup. It also shows an example in which the generation unit 33b extracts a pair of play time "7:20” and a necessary action "foundation” as a pair of a timestamp and an action required for facial makeup.
  • the generation unit 33b searches within the video VD for a range that corresponds to the extracted necessary action for each necessary action.
  • the generation unit 33b searches for a range in the video VD where the necessary action "skin care” was actually performed, based on the pair of playback time "3:50" and the necessary action "skin care".
  • Figure 5 shows an example in which the generation unit 33b searches for video range RA1 as the range in the video VD where the necessary action "skin care" was actually performed.
  • the generation unit 33b also searches for a range in the video VD where the necessary action "groundwork” was actually performed, based on the pair of the playback time "4:55" and the necessary action "groundwork.”
  • Figure 5 shows an example in which the generation unit 33b searches for a video range RA2 as a range in the video VD where the necessary action "groundwork" was actually performed.
  • the generation unit 33b also searches for a range in the video VD where the necessary action "applying foundation” was actually performed, based on the pair of the playback time "7:20" and the necessary action "applying foundation.”
  • Figure 5 shows an example in which the generation unit 33b searches for a video range RA as a range in the video VD where the necessary action "applying foundation" was actually performed.
  • the generation unit 33b also searches for a range in the video VD where the necessary action "concealer” was actually performed, based on the pair of the playback time "7:38" and the necessary action "concealer.”
  • Figure 5 shows an example in which the generation unit 33b searches for a video range RA4 as a range in the video VD where the necessary action "concealer” was actually performed.
  • FIG. 6 is an explanatory diagram for explaining the learning method in the learning phase.
  • the example in FIG. 5 is still used.
  • FIG. 6 shows a scene in which learning data is generated and learning processing is performed based on the pair of the playback time "17:30" and the required action "lip".
  • the generation unit 33b obtains a representative frame image FL12 of a facial feature from a moving image range RA12 in which the required action "lips" was actually performed in the moving image VD.
  • the generation unit 33b also obtains a representative frame image FL11 of a facial feature from a moving image range RA11 in which the required action "eyebrows", which is one action before the required action "lips", was actually performed. In this way, the generation unit 33b obtains representative frames of a facial feature before and after each action required for facial makeup.
  • the generating unit 33b generates a combination of the frame image FL11, the frame image FL12, and the action resulting from the state change from the appearance of the person Py shown in the frame image FL11 (appearance before applying lipstick) to the appearance of the person Py shown in the frame image FL12 (appearance after applying lipstick), i.e., the required action "lips," as one piece of learning data.
  • the learning unit 33c trains the model to learn the relationship between frame image FL11, frame image FL12, and the required action "lips.” For example, the learning unit 33c learns that the task of "applying lipstick” is required to change the appearance shown in frame image FL11 (appearance before applying lipstick) to the appearance shown in frame image FL12 (appearance after applying lipstick). Note that the learning unit 33c may also learn the difference from the completed makeup state by using frame images of the completed makeup state as learning data.
  • FIG. 6 focuses on the required action "lips," the generation unit 33b will learn the change in appearance before and after each extracted required action. For example, the generation unit 33b acquires a representative frame image FL2 of facial features from a video range RA2 in which the required action "basework” was actually performed in the video VD. The generation unit 33b also acquires a representative frame image FL1 of facial features from a video range RA1 in which the required action "skin care,” which is one action before the required action "basework,” was actually performed.
  • the generating unit 33b generates a combination of frame image FL1, frame image FL2, and an action resulting from the change in appearance of the person Py shown in frame image FL1 (appearance before the base is applied) to the appearance of the person Py shown in frame image FL2 (appearance after the base is applied), i.e., the required action "base", as one piece of learning data.
  • the learning unit 33c also trains the model to understand the relationship between frame image FL1, frame image FL2, and the required action "base coat.” For example, the learning unit 33c learns that the task of "applying base coat” is required to change the appearance shown in frame image FL1 (appearance before the base coat is applied) to the appearance shown in frame image FL2 (appearance after the base coat is applied).
  • the learning unit 33c learns about the change in appearance before and after the required action from many more videos VDs, rather than from one video VD. As a result, the learning unit 33c can generate an estimation model with higher accuracy.
  • FIG. 7 A method of estimating a work procedure, which is realized by the information processing according to the embodiment, will be described with reference to Fig. 7 and Fig. 8.
  • Fig. 7 continues to use the example content in Fig. 1, and describes an adjustment processing method for unifying conditions between face image IM1 (object image) and face image IM2 (reference image), and a conversion processing method for matching human features between face image IM1 and face image IM2.
  • Fig. 8 describes a method of estimating a work procedure and a method of outputting information based on the estimation result.
  • Fig. 7 is a diagram (1) showing an example of an estimation method realized by the information processing according to the embodiment.
  • Fig. 7 shows an example in which a person P1 (user) inputs a face image IM1 of his/her own face in a pre-makeup state (appearance before makeup) to the server device 100 using the user device 10.
  • Fig. 7 also shows an example in which the person P1 inputs a face image IM2 of a person in a makeup state (target appearance) that the person P1 is aiming for, i.e., a makeup model Px, to the server device 100 as a reference image.
  • a makeup state target appearance
  • the image acquisition unit 131 acquires a facial image IM1 in response to an image input by the person P1 (step S101).
  • the generation unit 135 applies the facial image IM1 to a three-dimensional prediction model (e.g., 3DMM) to generate a 3D facial model FMx of the person P1 (step S102).
  • the facial surface texture in the 3D facial model FMx includes the appearance features before makeup and the skin base color (skin color) of the person P1.
  • the facial surface texture in the 3D facial model FMx is also affected by the light source (e.g., shadow information) used in the space where the facial image IM1 was captured.
  • the adjustment unit 132 estimates information about the lighting environment in the space in which the facial image IM1 was captured based on the 3D face model FMx (step S103). For example, the adjustment unit 132 may estimate, as information about the lighting environment, the intensity of light from a light source used in the capture space of the facial image IM1, the angle at which light is irradiated from the light source to the person P1, etc.
  • the adjustment unit 132 removes the information on the lighting environment estimated in step S103 from the 3D face model FMx (step S104). For example, the adjustment unit 132 removes the influence of the light source used in the shooting space of the face image IM1 on the appearance of the face image IM1 based on the information on the lighting environment. As a result, by removing the influence of the light source, the adjustment unit 132 can obtain a 3D face model FMxx as the face surface texture in which the appearance features before makeup and the base skin color of the person P1 are reflected in a state and color that are close to the real thing.
  • the image acquisition unit 131 also acquires a facial image IM2 in response to an image input by the person P1 (step S201).
  • the generation unit 135 then applies the facial image IM2 to a three-dimensional predictive model (e.g., 3D MMM) to generate a 3D facial model FMy of the makeup model Px (step S202).
  • the facial surface texture in the 3D facial model FMy includes features of the post-makeup state.
  • the facial surface texture in the 3D facial model FMy is in a state where it is influenced by the light source (e.g., shadow information) used in the space where the facial image IM2 is captured.
  • the adjustment unit 132 estimates information about the lighting environment in the space in which the facial image IM2 was captured based on the 3D facial model FMy (step S203). For example, the adjustment unit 132 may estimate, as information about the lighting environment, the intensity of light from a light source used in the capture space of the facial image IM2, the angle at which light is irradiated from the light source to the makeup model Px, etc.
  • the adjustment unit 132 removes the information on the lighting environment estimated in step S203 from the 3D face model FMy (step S204). For example, the adjustment unit 132 removes the influence of the light source used in the shooting space of the face image IM2 on the appearance of the face image IM2 based on the information on the lighting environment. As a result, by removing the influence of the light source, the adjustment unit 132 can obtain a 3D face model FMxx as the face surface texture in which the appearance features of the made-up state are reflected in a state and color that are close to the real thing.
  • steps S104 and S204 which remove the lighting environment information from both 3D face models, are adjustment processes for unifying other conditions (lighting conditions) between the person P1 and the makeup model Px other than the pre-makeup and post-makeup states.
  • the adjustment unit 132 may perform an adjustment process for matching the lighting conditions on the makeup model Px side to the lighting conditions on the person P1 side, rather than simply removing the lighting environment information.
  • the adjustment unit 132 may correct the 3D face model FMy using the lighting environment information estimated in step S103 (lighting conditions on the person P1 side) in a state in which the lighting environment information estimated in step S203 (lighting conditions on the makeup model Px side) is removed from the 3D face model FMy. More specifically, the adjustment unit 132 applies the lighting environment information estimated in step S103 to the 3D face model FMy from which the lighting environment information estimated in step S203 has been removed, thereby correcting the facial surface texture of the 3D face model FMy so that the facial surface texture of the 3D face model FMy corresponds to the lighting conditions on the person P1 side.
  • the conversion unit 133 extracts facial feature information (step S305). Specifically, the conversion unit 133 extracts facial feature information of the person P1 from the 3D face model FMxx, and extracts facial feature information of the makeup model Px from the 3D face model FMyy. For example, the conversion unit 133 may extract facial shape information of the person P1 from the 3D face model FMxx, and extract facial shape information of the makeup model Px from the 3D face model FMyy.
  • the facial shape information may include not only information indicating the facial contour, but also information indicating the concaves and convexes of the face (for example, nose shape, nose height, lip shape, lip thickness, etc.).
  • the conversion unit 133 converts the 3D face model FMyy so that the facial feature information of the makeup model Px matches the facial feature information of the person P1 based on the feature information extracted in step S305 (step S306).
  • the conversion unit 133 converts the shape of the 3D face model FMyy so that the facial shape of the makeup model Px matches the facial shape of the person P1.
  • the conversion unit 133 can obtain a 3D face model FMyyx in which the facial feature information of the makeup model Px matches the facial feature information of the person P1.
  • the conversion unit 133 may also perform UV mapping (step S307). Specifically, the conversion unit 133 performs UV mapping on the 3D face model FMxx to obtain a 2D face image UVG1 as a two-dimensional UV map. The conversion unit 133 also performs UV mapping on the 3D face model FMyyx to obtain a 2D face image UVG2 as a two-dimensional UV map.
  • the texture of the face surface other than the makeup is unified between the 2D face image UVG1 (person P1) and the 2D face image UVG2 (makeup model Px).
  • the face shape and lighting conditions are unified between the 2D face image UVG1 and the 2D face image UVG2 obtained by the process up to this point, and simply, only the difference between the state before makeup and the state after makeup remains.
  • the server device 100 can accurately extract only the difference in the face surface texture before and after makeup, and in addition to these comparisons, it becomes possible to accurately estimate the work procedure by using the skin base color as a hint.
  • the method of estimation processing performed after step S307 will be described in FIG. 8.
  • the conversion unit 133 may perform the reverse process rather than converting the 3D face model FMyy so as to match the facial feature information of the makeup model Px to the facial feature information of the person P1. Specifically, the conversion unit 133 may convert the 3D face model FMxx so as to match the facial feature information of the person P1 to the facial feature information of the makeup model Px.
  • [7-2. Information processing method (2)] 8 is a diagram (2) showing an example of an estimation method realized by the information processing according to the embodiment.
  • the estimation unit 134 inputs a UV map or a three-dimensional face model to the makeup procedure estimation model M (step S0401).
  • the estimation unit 134 inputs the 2D face image UVG1 and the 2D face image UVG2 generated in step S307 of FIG. 7 to the makeup procedure estimation model M.
  • the estimation unit 134 may further input a three-dimensional face model to the makeup procedure estimation model M.
  • the estimation unit 134 may input a set of the 2D face image UVG1 and the 3D face model FMxx and a set of the 2D face image UVG2 and the 3D face model FMyyx to the makeup procedure estimation model M.
  • the estimation unit 134 may adopt a method in which the three-dimensional face model is input while the UV map is not input.
  • the estimation unit 134 may simply input the 3D face model FMxx and the 3D face model FMyyx to the makeup procedure estimation model M.
  • the learning method of the makeup procedure estimation model M is as described with reference to FIGS. 5 and 6.
  • the estimation unit 134 estimates the makeup procedure for changing the pre-makeup state shown in the facial image IM1 to the target makeup state shown in the facial image IM2 (step S402).
  • FIG. 8 shows an example in which the estimation unit 134 estimates the first step "putting in colored contact lenses," the second step “applying makeup base,” the third step “foundation + eye shadow,” ... the eighth step “drawing eyebrows,” the ninth step “putting on a wig,” and the tenth step “lips.”
  • the estimation unit 134 does not necessarily estimate a 10-step work procedure. For example, when a face image IM1 with makeup partially applied is input, rather than a face image IM1 without makeup applied, the estimation unit 134 may estimate a work procedure consisting of fewer steps. Furthermore, depending on the base skin color of person P1, the estimation unit 134 may estimate a work procedure consisting of more steps. The reason that the number of steps and the contents of the work procedure can be changed in this way according to the situation is that the information processing according to the embodiment is not simply a rule-based estimation, but aims to bring the atmosphere closer to the target state by using a machine learning model.
  • the generation unit 135 also generates an instruction statement SM that instructs the user to perform the work procedure based on the work procedure estimated in step S402 (step S403).
  • FIG. 8 shows an example in which the generation unit 135 generates an instruction statement SM1 that instructs the user to perform the first procedure based on the first procedure, "Put in colored contact lenses.”
  • the generating unit 135 also generates a 3D face model FM for each work procedure estimated in step S402, in which the appearance of the person P1 after the change is reflected as the work result when the work procedure indicated in the work procedure is actually performed (step S404).
  • the generation unit 135 generates a 3D face model FM1 that reflects the change in appearance that occurs in the appearance of the face of the person P1 when the work is performed in the first step for the 3D face model FMxx.
  • the generation unit 135 processes the 3D face model FMxx in a state before makeup, thereby changing the appearance of the person P1 to a state in which the person P1 is wearing colored contact lenses.
  • the generating unit 135 also generates a 3D face model FM2 that further reflects the changes in appearance that will occur in the face of the person P1 when working in the second step, from the 3D face model FM1 that reflects the changes in appearance up to the first step. Specifically, the generating unit 135 further processes the 3D face model FM1 that reflects the colored contact lens state, changing the appearance of the person P1 to one in which they are wearing a makeup base.
  • the generating unit 135 also generates a 3D face model FM3 that further reflects the changes in appearance that will occur in the face of the person P1 when the work is performed in the third step, from the 3D face model FM2 that reflects the changes in appearance up to the second step. Specifically, the generating unit 135 further processes the 3D face model FM2 in a state where a makeup base has been applied, changing the appearance of the person P1 in a state where they have applied foundation and eye shadow.
  • the generating unit 135 generates a 3D face model FM8 that further reflects the changes in appearance that will occur in the face of the person P1 when the work is performed in the eighth step from the 3D face model FM7 that reflects the changes in appearance up to the seventh step.
  • the server device 100 further processes the 3D face model FM7 to change the appearance of the person P1 to a state in which the person has drawn eyebrows.
  • the generating unit 135 also generates a 3D face model FM9 that further reflects the changes in appearance that will occur in the face of the person P1 when the ninth step is performed on the 3D face model FM8 that reflects the changes in appearance up to the eighth step. Specifically, the generating unit 135 further processes the 3D face model FM8 with drawn eyebrows to change the appearance of the person P1 to one in which he or she is wearing a wig.
  • the generating unit 135 also generates a 3D face model FM10 that further reflects the changes in appearance that will occur in the face of the person P1 when the work is performed in the tenth step, from the 3D face model FM9 that reflects the changes in appearance up to the ninth step. Specifically, the generating unit 135 further processes the 3D face model FM9 in a state where a wig is worn, thereby changing the appearance of the person P1 to a state where he or she is wearing lipstick.
  • the generation unit 135 may input the instruction SM generated in step S403 into the large-scale language model LLM (step S405) and, based on the output information, further generate a detailed instruction that explains the content of the instruction SM in more detail (step S406). For example, based on the instruction SM1 and the large-scale language model, the generation unit 135 can generate a detailed instruction that follows the sequence: "Place the lens on the tip of the index finger of your dominant hand” -> "Pull down the lower eyelid with the middle finger of your dominant hand” -> “Once the lens is properly placed on the pupil, slowly release the finger that was holding down the eyelid.”
  • the output control unit 136 controls the output so that output information associating the instruction SM with the 3D face model FM for each work procedure is output to the user device 10 of person P1 (step S407).
  • the method of outputting the detailed instruction is not limited.
  • the output control unit 136 may cause the user device 10 to output a detailed instruction corresponding to the selected instruction SM.
  • the output control unit 136 may cause the detailed instruction to be displayed together with the instruction SM.
  • server device 100 may be implemented in various different aspects other than the above embodiment. Therefore, hereinafter, the server device 100 according to the first modified example of the present disclosure will be referred to as a "server device 100A.”
  • the server device 100A detects an erroneous user action, it has a function of re-estimating the procedure to change the current makeup state to the target state, starting from the current makeup state. This function may be newly incorporated into the server device 100 according to the embodiment described in FIG. 3, and the detailed functional configuration will be described below.
  • Fig. 9 is a diagram showing an example of the configuration of the server device 100A according to the modified example 1.
  • the server device 100A has a communication unit 110, a storage unit 120, and a control unit 130A.
  • the communication unit 110 and the storage unit 120 are the same as those in Fig. 3, and therefore description thereof will be omitted.
  • Control unit 130A The control unit 130A is realized by a CPU, an MPU, or the like executing various programs (e.g., the information processing program according to Modification 1) stored in a storage device inside the server device 100A using a RAM as a working area.
  • the control unit 130A is also realized by an integrated circuit such as an ASIC or an FPGA.
  • the control unit 130A has an image acquisition unit 131, an adjustment unit 132, a conversion unit 133, an estimation unit 134, a generation unit 135, an output control unit 136, and a detection unit 137, and realizes or executes the functions and actions of the information processing described below. In this way, compared to the server device 100, the control unit 130A newly has a detection unit 137.
  • the internal configuration of the control unit 130A is not limited to the configuration shown in FIG. 9, and may be other configurations as long as they perform the information processing described below.
  • the connection relationships of each processing unit in the control unit 130A are not limited to the connection relationships shown in FIG. 9, and may be other connection relationships.
  • Image Acquisition Unit 131 In the above embodiment, an example has been shown in which the image acquisition unit 131 acquires, as input information for the estimation process, one object image showing an original state before the appearance is changed toward a target state. For example, an example has been shown in which the image acquisition unit 131 acquires, as input information, a face image IM1 showing a state before makeup is applied as one still image captured by the imaging function of the user device 10.
  • the image acquisition unit 131 may successively acquire object images in which actions that change the appearance of the first object are captured in real time.
  • One such case is, for example, a scene in which a user uses the user device 10 to capture a video in real time of the user gradually applying makeup from an unapplied state.
  • Another possible scene is one in which the user uses the user device 10 to capture still images or video of the user's makeup application process.
  • the image acquisition unit 131 successively acquires object images captured in real time.
  • the detection unit 137 detects an erroneous action of the user based on the object images sequentially acquired by the image acquisition unit 131. For example, the detection unit 137 may detect, as the erroneous action, a deviation between an action procedure actually performed to change the appearance of the first object and a processing procedure estimated so far.
  • Estimatiation unit 134 When an erroneous operation is detected by the detection unit 137, the estimation unit 134 re-estimates the processing procedure for changing the current appearance of the first object into the target appearance by using the latest object image among the object images acquired successively.
  • Fig. 10 is a flowchart showing the procedure of the estimation process according to Modification 1.
  • Fig. 10 assumes a usage scene in which a face image IM1 in a makeup-applied state at the current time of makeup application is further input while confirming the work procedure estimated based on a face image IM1 corresponding to a state before makeup and a face image IM2 corresponding to a makeup state targeted by a person P1.
  • the image acquisition unit 131 determines whether or not a new facial image IM1 has been acquired (step S1001). While the image acquisition unit 131 has not been able to acquire a new facial image IM1 (step S1001; No), it waits until a new facial image IM1 can be acquired. On the other hand, when a facial image IM1 captured in real time of a person P1 applying makeup is input to the server device 100 by the user device 10 (during this time, the person P1 is applying makeup while looking at the work procedure presented by the server device 100), the image acquisition unit 131 can determine that a new facial image IM1 has been acquired.
  • the new facial image IM1 may be a single still image or a moving image.
  • the estimation unit 134 estimates the work procedure for changing the current makeup state shown in the new face image IM1 to a target makeup state based on the acquired new face image IM1 and the previously input face image IM2 (step S1002).
  • the estimation unit 134 actually estimates the work procedure by inputting the 2D face image UVG1 (or 3D face model FMxx) generated based on the new face image IM1 and the 2D face image UVG2 (or 3D face model FMyyx) generated based on the face image IM2 into the makeup procedure estimation model M. As described in FIG. 7, adjustment processing is performed by the adjustment unit 132 and conversion processing is performed by the conversion unit 133 before the UV map (2D face image UVG1, 2D face image UVG2) is obtained.
  • the generation unit 135 generates output information to be presented to the person P1 based on the work steps estimated in step S1002 (step S1003). Specifically, the generation unit 135 generates, for each work step, an instruction statement SM and a 3D face model that reflects the results of the work step being performed.
  • the server device 100 repeats the estimation process in response to input of face image IM1 in the middle of makeup application. Then, based on a comparison between the makeup actions actually performed by person P1 and the work procedures estimated up to that point, if the server device 100 detects an incorrect action, it presents the output information generated in step S1003 to person P1 as the re-estimation result. This point will be explained in more detail in FIG. 11.
  • [8-3. Processing procedure (2)] 11 is a flowchart showing a malfunction detection process procedure according to Modification 1.
  • the image acquisition unit 131 determines whether or not a new face image IM1 has been acquired (step S1101). If the image acquisition unit 131 has not been able to acquire a new face image IM1 (step S1101; No), the image acquisition unit 131 waits until the new face image IM1 can be acquired.
  • step S1101 if a new face image IM1 is acquired (step S1101; Yes), the detection unit 137 performs image analysis on the newly acquired face image IM1 and identifies the makeup application that is currently being performed (step S1102).
  • the detection unit 137 compares the work procedure estimated so far by the estimation unit 134 with the actual makeup operations identified in step S1102, and detects whether there is a discrepancy between the estimated work procedure and the actual makeup operations (step S1103). For example, the detection unit 137 may compare the earliest estimation result (i.e., the work procedure estimated based on the face image IM1 corresponding to the pre-makeup state and the face image IM2 corresponding to the makeup state targeted by the person P1) with the actual makeup operations.
  • step S1103 If the detection unit 137 cannot detect any discrepancy between the estimated work procedure and the actual makeup movements (step S1103; No), it returns the process to step S1101.
  • the output control unit 136 detects a discrepancy between the estimated work procedure and the actual makeup application operations (step S1103; Yes), it acquires output information corresponding to the currently acquired face image IM1 as information on the re-estimated work procedure (step S1104). Specifically, the output control unit 136 acquires output information generated in the procedure of FIG. 10 using the new face image IM1 acquired in step S1101.
  • the output control unit 136 controls the output so that the acquired output information is output to the user device 10 of person P1 (step S1105).
  • Modification 2 Next, a description will be given of Modification 2 of the present disclosure.
  • the process according to Modification 1 of the present disclosure may also be performed by the server device 100A.
  • the detection unit 137 when the detection unit 137 detects a deviation between the estimated work procedure and the actual makeup actions, it may dynamically determine a new target appearance based on the makeup actions that are currently being performed. For example, the detection unit 137 compares the estimated work procedure with the actual makeup actions and detects a deviation in which the action of "applying makeup base" was performed while the action of "putting in colored contact lenses” was skipped. In such a case, the detection unit 137 may determine, for example, a "natural makeup” state that does not look unnatural even without “colored contact lenses” as the new target appearance. The detection unit 137 may determine the new target appearance according to a rule base, or may use a machine learning model to estimate a makeup state that suits without "colored contact lenses.”
  • the estimation unit 134 may estimate a procedure for changing the current makeup state shown in the new face image IM1 to the new target appearance based on the new face image IM1 and the face image IMx of the new target appearance.
  • the output control unit 136 may then recommend the estimated procedure to the person P1.
  • the output control unit 136 may present the procedure for changing the appearance to the new target appearance together with a comment such as "It looks like you are not wearing color contact lenses. In this state, why not try applying makeup using the following procedure?".
  • the server device 100 estimates a processing procedure for changing the appearance of the first object to a target appearance targeted by the first object as a processing procedure for changing the appearance of the first object to an appearance based on the second object.
  • the server device 100 does not necessarily need to estimate a processing procedure for changing the appearance of the first object to a target appearance, and may, for example, estimate a processing procedure for changing the appearance of the first object to an arbitrary appearance desired by the user, or may estimate a processing procedure for changing the appearance of the first object to an appearance preferred by the user.
  • FIG. 12 is a block diagram showing a hardware configuration example of a computer corresponding to the information processing device according to the embodiment of the present disclosure. Note that Fig. 12 shows an example of the hardware configuration of a computer corresponding to the information processing device according to each embodiment, and does not need to be limited to the configuration shown in Fig. 12.
  • computer 1000 has a CPU (Central Processing Unit) 1100, RAM (Random Access Memory) 1200, ROM (Read Only Memory) 1300, HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input/output interface 1600.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • HDD Hard Disk Drive
  • the CPU 1100 operates based on the programs stored in the ROM 1300 or the HDD 1400, and controls each component. For example, the CPU 1100 loads the programs stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processes corresponding to the various programs.
  • the ROM 1300 stores boot programs such as the Basic Input Output System (BIOS) that is executed by the CPU 1100 when the computer 1000 starts up, as well as programs that depend on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by CPU 1100 and data used by such programs. Specifically, HDD 1400 records program data 1450.
  • Program data 1450 is an example of an information processing program for realizing an information processing method according to an embodiment of the present disclosure, and data used by such information processing program.
  • the communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (e.g., the Internet).
  • the CPU 1100 receives data from other devices and transmits data generated by the CPU 1100 to other devices via the communication interface 1500.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or a mouse via the input/output interface 1600.
  • the CPU 1100 also transmits data to an output device such as a display device, a speaker, or a printer via the input/output interface 1600.
  • the input/output interface 1600 may also function as a media interface that reads programs and the like recorded on a specific recording medium.
  • Examples of media include optical recording media such as DVDs (Digital Versatile Discs) and PDs (Phase change rewritable Disks), magneto-optical recording media such as MOs (Magneto-Optical Disks), tape media, magnetic recording media, and semiconductor memories.
  • optical recording media such as DVDs (Digital Versatile Discs) and PDs (Phase change rewritable Disks)
  • magneto-optical recording media such as MOs (Magneto-Optical Disks)
  • tape media magnetic recording media
  • magnetic recording media and semiconductor memories.
  • the CPU 1100 of the computer 1000 executes a program loaded onto the RAM 1200, thereby implementing the various processing functions executed by the processes shown in FIG. 3 and the like.
  • the CPU 1100 and the RAM 1200, etc. work together with software (an information processing program loaded onto the RAM 1200) to implement an information processing method by an information processing device according to an embodiment of the present disclosure.
  • the present disclosure can also be configured as follows.
  • an acquisition unit that acquires an object image that is an image of a first object and a reference image related to a second object different from the first object; a conversion unit that generates a converted image in which the first object is converted based on the object image and the reference image; an estimation unit that estimates a processing procedure for changing the first object into an appearance based on the second object based on the transformed image and the object image; a generating unit that generates, as an output image, an image of the first object whose appearance has been changed in accordance with the processing procedure based on the object image;
  • An information processing device comprising: (2) The acquisition unit acquires an image of the second object having an appearance of a target targeted by the first object as the reference image, as an appearance based on the second object; the conversion unit generates the converted image in which the other of the object image and the reference image is converted into the image of the first object reflecting an appearance of the target, based on one of the object image and the reference image; The information processing device according to (1)
  • an adjustment unit that adjusts the appearance of the first object and other conditions other than the appearance of the target between the object image and the reference image
  • the adjustment unit removes information about a lighting environment estimated based on the object image from the object image and removes information about a lighting environment estimated based on the reference image from the reference image, thereby removing lighting environment conditions between the object image and the reference image.
  • a learning unit that generates a model using a pair of the transformed image and the object image as input, The information processing device described in any one of (2) to (6), wherein the estimation unit estimates a processing procedure for changing the appearance of the first object to the appearance of the target object based on output information of the model.
  • the learning unit uses a combination of a video consisting of images of actions that change the appearance of a specified object related to the first object to a completed state and speech information within the video that explains the content of the actions as learning data, and trains a model to learn the relationship between images before and after showing the change in appearance of the specified object and the actions caused by the change in appearance.
  • the generation unit generates, as the output image, an image of the first object in which an appearance corresponding to the processing procedure is reflected as a work result in the appearance of the first object.
  • the generation unit generates an instruction statement instructing the user to perform a task in accordance with the processing procedure as output information that is output together with the output image.
  • the information processing device according to (11), wherein the generation unit further generates, as the output information, a detailed sentence that explains a content of the instruction sentence in more detail, based on a predetermined language model and the instruction sentence.
  • the acquisition unit sequentially acquires, as the object image, object images in which an action that changes the appearance of the first object is captured in real time, A detection unit that detects an erroneous action based on the object images successively acquired, The information processing device described in any one of (2) to (12), wherein, when an erroneous operation is detected by the detection unit, the estimation unit re-estimates a processing procedure for changing the current appearance of the first object to the appearance of the target object using the latest object image among the object images acquired sequentially.
  • the detection unit when the erroneous action is detected, identifying a new target appearance associated with the action sequence actually being performed to change the appearance of the first object;
  • An information processing method executed by an information processing device acquiring an object image, the object image being an image of a first object, and a reference image relating to a second object different from the first object; a transformation step of generating a transformed image in which the first object is transformed based on the object image and the reference image; an estimation step of estimating a processing procedure for changing the first object into an appearance based on the second object based on the transformed image and the object image; generating an image of the first object, the appearance of which has been changed in accordance with the processing procedure, as an output image based on the object image;
  • An information processing method comprising: (17) an acquisition step of acquiring an object image, the object image being an image of a first object, and a reference image relating to a second object different from the first object; a transformation step of generating a transformed image in which the first object is transformed based on the object image and the reference image; an estimation step of estimating a processing step for changing the first object into an appearance based on the second object based on the transformed

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置は、取得部と、変換部と、推定部と、生成部とを備える。取得部は、第1の対象物の画像である対象物画像を取得するとともに、第1の対象物で目標とされる目標状態にある第2の対象物の画像を参照画像として取得する。変換部は、対象物画像および参照画像のうちのいずれか一方の画像に基づいて、対象物画像および参照画像のうちの他方の画像を、目標状態が反映された第1の対象物の画像へと変換する。推定部は、他方の画像が変換された後の変換後画像と、対象物画像とに基づいて、第1の対象物における所定の状態から、目標状態へと変化させるための処理手順を推定する。生成部は、対象物画像に基づいて、処理手順に応じて状態が変化させられた第1の対象物の画像を、ユーザに対して出力される出力画像として生成する。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 顔表面テクスチャに関する情報(例えば、化粧料を塗布した肌における、塗膜の付着状態)をユーザに提示する技術が知られている。
特開2022-24565号公報
 しかしながら、上記の従来技術では、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができるとは限らない。例えば、上記の従来技術は、顔表面テクスチャあるいは顔形状の状態変化を把握しやすいよう提示するものに過ぎず、ある特定の状態にあるユーザを、ユーザが目標とする目標状態へと適切に誘導する点については考慮されていない。
 そこで、本開示では、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができる情報処理装置、情報処理方法および情報処理プログラムを提案する。
 本開示によれば、情報処理装置は、第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得部と、前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換部と、前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定部と、前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成部とを備える。
 以上説明したように本開示によれば、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
実施形態に係る情報処理の全体像を示す図である。 実施形態に係るシステムの一例を示す図である。 実施形態に係るサーバ装置の構成例を示す図である。 実施形態に係る学習装置の構成例を示す図である。 学習フェーズにおける前処理手法を説明する説明図である。 学習フェーズにおける学習手法を説明する説明図である。 実施形態に係る情報処理で実現される推定手法の一例を示す図(1)である。 実施形態に係る情報処理で実現される推定手法の一例を示す図(2)である。 変形例1に係るサーバ装置の構成例を示す図である。 変形例1に係る推定処理手順を示すフローチャートである。 変形例1に係る誤動作検出処理手順を示すフローチャートである。 実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下に説明される1または複数の実施形態(実施例、変形例、適用例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
 また、以下に示す順序に従って本開示を説明する。
  1.はじめに
  2.概要
  3.提案技術の全体像
  4.システム構成
  5.サーバ装置の構成
  6.学習装置の構成
  7.作業手順の推定手法
   7-1.情報処理手法(1)
   7-2.情報処理手法(2)
  8.変形例1
   8-1.サーバ装置の構成
   8-2.処理手順(1)
   8-3.処理手順(2)
  9.変形例2
  10.その他
  11.ハードウェア構成
  12.まとめ
[1.はじめに]
 本開示の提案技術は、複数の処理手順を必要とする作業の支援において好適に適用でき得る。本開示の提案技術は、ユーザが目標とする外観に近づけるようユーザの作業を支援するものである。例えば、本開示の提案技術は、目標とする化粧状態へと近づけるための顔メイク作業の支援、目標とする髪型状態へと近づけるためのヘアメイク作業の支援、目標とする塗装状態へと近づけるための塗装作業の支援等のシーンにおいて、好適に適用でき得る。以下の実施形態では、本開示の提案技術が顔メイク作業の支援に適用された場合における情報処理について説明するが、その他のシーンについても同様の情報処理が成立する。
[2.概要]
 例えば、目指したいメイク状態の顔写真があったとしても、自分がそのメイク状態に近づくにはどのような手順でメイク作業を進めるべきかを正確に把握することは困難である。そこで、目標とするメイク状態までの多段階のステップを提示して欲しいとのニーズがある。
 例えば、メイクを行うとき、メイクの参考となる顔写真があったとしても、顔写真に写るメイクモデルと比較して、顔やパーツの形すなわち顔形状、顔のベース色等が異なる場合があり、メイクモデルの顔写真を参考にするだけでは、仕上がりが異なってしまうことが多い。そのため、自分の顔形状、顔のベース色、また、メイク時の照明環境を考慮したうえでメイク手順を教えて欲しいとのニーズがある。
 そこで、本開示では、上記の課題を解決すべく、パラメータによって、顔形状、顔のベース色、さらには、ライティングの調整によって様々な照明環境をも表現できる3D Morphable Model(3DMM)を利用することによって、ユーザが目標とするメイク状態にあるメイクモデルと、ユーザ自身との間で、顔形状、顔のベース色、あるいは、照明環境に違いがあっても、目標のメイク状態へとユーザが近づけるよう支援するシステムを提案する。
 具体的には、本開示の提案技術によれば、以下の情報処理が実現される。
(i)目標のメイク状態(目標の外観)にあるメイクモデルの顔画像について変換処理することで、メイクモデルの実写時の外観を推定する。
(ii)メイクモデルのテクスチャ情報を損なわないようにしつつ、顔形状等がユーザのものに近づくよう外観を変換処理する。
(iii)メイク前のユーザの顔と、メイクモデルの外観と、を利用して、双方の間でのメイクの作業手順を、学習によって得た機械学習モデルによって推論する。
 ここで、メイクの作業手順とは、目標のメイク状態をメイクの完成段階と定めて、メイク完成までの複数段階のステップを指し示す。そして、各ステップでは、メイク内容の指示文が自動生成される。また、各ステップでは、メイクの仕方やコツを示す短い動画が生成される。また、各ステップでは、当該ステップでどのような見た目になるかがユーザ本人の3D(3次元)顔モデルに反映された画像が生成される。
 なお、本開示の提案技術では、メイク内容の指示文の自動生成、メイクの仕方やコツを示す短い動画の生成、および、見た目が反映された3D顔モデルの生成の全てが行われる必要はなく、少なくともいずれか1つが実行されるだけでもよい。
[3.提案技術の全体像]
 まず、図1を用いて、本開示の提案技術に係る情報処理(実施形態に係る情報)を説明する。図1は、実施形態に係る情報処理の全体像を示す図である。図1では、上記(i)~(iii)の内容が概念的に示される。また、図1には、メイクを行っていない素の状態すなわちメイク前状態の人物P1(ユーザ)が、目標のメイク状態にある人物Px(メイクモデル)の顔画像をリファレンス画像として用いることで、目標のメイク状態に近づくための作業手順の提示を要求する場面が示される。このような要求に応じて、情報処理装置の一例であるサーバ装置100が、実施形態に係る情報処理により作業手順の推定および提示を行う。
 図1の例によれば、人物P1(ユーザ)は、ユーザ装置10を用いて、メイク前状態(メイク前の外観)の自身の顔(第1の対象物の一例)の顔画像IM1(対象物画像の一例)をサーバ装置100に入力する(ステップS1)。このように、顔画像IM1には、メイク前状態の人物P1の顔の外観が示される。なお、顔画像IM1は、例えば、ユーザ装置10の撮像機能によって撮影された1つの静止画像であってもよいし、動画像であってもよい。
 また、人物P1は、自身が目標とするメイク状態(目標の外観の一例)にある人物、すなわちメイクモデルPxの顔(第2の対象物の一例)の顔画像IM2をリファレンス画像(参照画像)としてサーバ装置100に入力する(ステップS2)。このように、顔画像IM2には、人物P1が目標とするメイク状態を有するメイクモデルPxの顔の外観が示される。なお、顔画像IM2は、例えば、ウェブ検索された画像であってもよいし、人物P1が撮影した他者の顔画像であってもよい。また、メイクモデルPxは、人物P1が好むタレントや女優等が考えられる。一方で、メイクモデルPxは、人物P1の近親者(例えば、家族や友人等)であってもよいし、気に入ったメイクができた際の人物P1自分自身であってもよい。また、顔画像IM2は、1つの静止画像であってもよいし、動画像であってもよい。
 サーバ装置100は、顔画像IM1と、顔画像IM2とを受け付けると、メイク手順推定モデルM(機械学習モデル)を用いて、メイク前状態を、目標のメイク状態へと変化させるための作業手順(処理手順)を推定する(ステップS3)。例えば、サーバ装置100は、顔画像IM1を3DMMに適用して生成された3次元画像である3D顔モデルと、顔画像IM2を同じく3DMMに適用して生成された3次元画像である3D顔モデルとをメイク手順推定モデルMに入力し、その出力結果に基づいて、作業手順を推定する。
 なお、3D顔モデルそれぞれは、顔表面のテクスチャのうち、化粧以外のテクスチャを、人物P1とメイクモデルPxとの間で統一するように調整される。例えば、サーバ装置100は、人物P1とメイクモデルPxとの間において、メイク前後でのテクスチャの違いだけを正確に比較できるよう、化粧以外の他の条件を合わせる調整を行う。ここで、化粧以外の他の条件とは、顔画像IM1が得られた空間(例えば、撮影空間)での照明環境等が挙げられる。
 また、サーバ装置100は、図1の例によれば、2つの3D顔モデルのうちのいずれか一方の3D顔モデルに基づいて、他方の3D顔モデルを変換する処理も行う。例えば、サーバ装置100は、顔画像IM2を基に生成された3D顔モデルの顔形状を、顔画像IM1を基に生成された3D顔モデルの顔形状に合わせるよう変換する。サーバ装置100は、変換処理の結果、メイク前状態でかつ人物P1の肌ベース色を有する3D顔モデルと、目標のメイク状態でかつ人物P1の顔形状を有する3D顔モデルとを得ることができる。なお、ここで得られる3D顔モデルは、上記の調整処理の結果、化粧以外の他の条件が統一された状態となっている。したがって、サーバ装置100は、調整処理および変換処理を行った後の3Dモデルをメイク手順推定モデルMに入力する。
 図1には、サーバ装置100が、メイク手順推定モデルMから出力された情報に基づいて、10段階の作業手順(一部省略)を推定した例が示される。具体的には、サーバ装置100が、第1手順「カラーコンタクトレンズを入れる」,第2手順「化粧下地を塗る」,第3手順「ファンデーション+アイシャドウ」・・・第8手順「眉を描く」,第9手順「ウィッグを付ける」,第10手順「リップ」を推定した例が示される。
 サーバ装置100は、図1のように作業手順を推定した場合、推定結果に基づいて、人物P1に出力(提示)する出力情報を生成する(ステップS4)。具体的には、サーバ装置100は、人物P1に提示する指示文SMと、作業手順が示す内容で実際に作業された場合に人物P1の外観がどのように変化するか変化後の外観が作業結果として反映された3D顔モデルFMとを生成する。
 図1の例によれば、サーバ装置100は、第1手順「カラーコンタクトレンズを入れる」に基づいて、第1手順を指示する内容の指示文SM1を生成する。また、サーバ装置100は、顔画像IM1に基づき生成した3D顔モデルに対して、第1手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化を反映させた3D顔モデルFM1を生成する。つまり、サーバ装置100は、メイク前状態の3D顔モデルを加工することで、人物P1がカラーコンタクトレンズを入れた外観へと変化させる。
 サーバ装置100は、第2手順「化粧下地を塗る」に基づいて、第2手順を指示する内容の指示文SM2を生成する。また、サーバ装置100は、第1手順までの外観変化が反映された3D顔モデルFM1に対して、第2手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM2を生成する。具体的には、サーバ装置100は、カラコン状態が反映された3D顔モデルFM1をさらに加工することで、人物P1が化粧下地を塗った状態の外観へと変化させる。
 サーバ装置100は、第3手順「ファンデーション+アイシャドウ」に基づいて、第3手順を指示する内容の指示文SM3を生成する。また、サーバ装置100は、第2手順までの外観変化が反映された3D顔モデルFM2に対して、第3手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM3を生成する。具体的には、サーバ装置100は、化粧下地が塗られた状態の3D顔モデルFM2をさらに加工することで、人物P1がファンデーションとアイシャドウを行った状態の外観へと変化させる。
 サーバ装置100は、第8手順「眉を描く」に基づいて、第8手順を指示する内容の指示文SM8を生成する。また、サーバ装置100は、第7手順までの外観変化が反映された3D顔モデルFM7(不図示)に対して、第8手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM8を生成する。具体的には、サーバ装置100は、3D顔モデルFM7をさらに加工することで、人物P1が眉を描いた状態の外観へと変化させる。
 サーバ装置100は、第9手順「ウィッグを付ける」に基づいて、第9手順を指示する内容の指示文SM9を生成する。また、サーバ装置100は、第8手順までの外観変化が反映された3D顔モデルFM8に対して、第9手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM9を生成する。具体的には、サーバ装置100は、眉が描かれた状態の3D顔モデルFM8をさらに加工することで、人物P1がウィッグを付けた状態の外観へと変化させる。
 サーバ装置100は、第10手順「リップ」に基づいて、第10手順を指示する内容の指示文SM10を生成する。また、サーバ装置100は、第9手順までの外観変化が反映された3D顔モデルFM9に対して、第10手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM10を生成する。具体的には、サーバ装置100は、ウィッグを付けた状態の3D顔モデルFM9をさらに加工することで、人物P1がリップを付けた状態の外観へと変化させる。
 次に、サーバ装置100は、ステップS4で生成した出力情報が人物P1のユーザ装置10に出力されるよう出力制御する(ステップS5)。例えば、サーバ装置100は、作業手順ごとに、指示文と3D顔モデルFMとを対応付けた状態で出力させてよい。例えば、サーバ装置100は、指示文SM1と3D顔モデルFM1とを対応付けた状態で出力させる。また、サーバ装置100は、指示文SM2と3D顔モデルFM2とを対応付けた状態で出力させる。また、サーバ装置100は、指示文SM3と3D顔モデルFM3とを対応付けた状態で出力させる。その他の指示文SMと3D顔モデルFMとの組合せについても同様である。なお、人物P1は、ユーザ装置10を用いて、3D顔モデルFMを様々な視点から見ることができる。例えば、人物P1は、ユーザ装置10を用いて、3D顔モデルFMを自由に回転させることができる。
[4.システム構成]
 図2は、実施形態に係るシステムの一例を示す図である。図1には、実施形態に係るシステムの一例として、システム1が示される。実施形態に係る情報処理は、システム1において実現される。
 図2に示すように、システム1は、ユーザ装置10と、学習装置30と、サーバ装置100とを備える。また、ユーザ装置10と、学習装置30と、サーバ装置100とは、ネットワークNを介して、有線または無線により通信可能に接続される。システム1に含まれるユーザ装置10、学習装置30、サーバ装置100の数は限定されない。
 ユーザ装置10は、第1の対象物の外観を、第1の対象物とは異なる第2の対象物に基づく外観すなわち目標の外観にするためのガイドを受けたいと考える人物によって利用される情報処理端末である。例えば、ユーザ装置10は、スマートフォンや、ウェアラブルデバイスや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等である。ユーザ装置10には、サーバ装置100との間で情報の送受信を実現するアプリケーションが導入されてよい。
 学習装置30は、第1の対象物の外観を目標の外観へと変化させるための処理手順を推定するための推定モデルの学習を行う。推定モデルの学習は、機械学習に関する種々の公知の技術を適宜用いて行われてもよい。例えば、推定モデルの学習は、SVM(Support Vector Machine)等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、推定モデルの学習は、教師なし学習の機械学習に関する技術を用いて行われてもよい。また、推定モデルの学習は、深層学習(ディープラーニング)の技術を用いて行われてもよい。また、推定モデルの学習は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。
 サーバ装置100は、実施形態に係る情報処理を行う中心的な役割を有するクラウドコンピュータである。例えば、サーバ装置100は、学習装置30により生成された機械学習モデルに対して、ユーザ装置10を介して取得した画像情報(例えば、元画像と参照画像)を入力し、モデルによる出力情報に基づいて、元画像で示される状態から参照画像で示される目標状態へと変化させるための処理手順を推定する。
[5.サーバ装置の構成]
 図3を用いて、実施形態に係るサーバ装置100について説明する。図3は、実施形態に係るサーバ装置100の構成例を示す図である。図3に示すように、サーバ装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110)
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。例えば、通信部110は、ネットワークNと有線または無線で接続され、ユーザ装置10、学習装置30との間で情報の送受信を行う。
(記憶部120)
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデルデータ記憶部121と、画像データ記憶部122と、推定手順データ記憶部123とを有する。
 モデルデータ記憶部121は、第1の対象物における所定の状態を目標状態へと変化させるための処理手順を推定するための推定モデルのデータを記憶する。
 画像データ記憶部122は、実施形態に係る情報処理で用いられる各種画像データを記憶する。
 推定手順データ記憶部123は、第1の対象物における所定の状態を目標状態へと変化させるための処理手順と、処理手順を基に生成されたデータとを記憶する。
(制御部130)
 制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、サーバ装置100内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図3に示すように、制御部130は、画像取得部131と、調整部132と、変換部133と、推定部134と、生成部135、出力制御部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(画像取得部131)
 画像取得部131は、処理手順の推定に用いる画像として、ユーザに入力された画像を取得する。例えば、画像取得部131は、特定の外観状態にある第1の対象物の画像である対象物画像を取得する。また、画像取得部131は、第1の対象物で目標とされる外観を有する第2の対象物の画像を参照画像として取得する。また、画像取得部131は、対象物画像と参照画像とを画像データ記憶部122に記憶させる。
(調整部132)
 調整部132は、対象物画像と参照画像との間で、対象物画像が示す第1の対象物の外観、および、参照画像が示す目標の外観以外の他の条件を合わせる調整を行う。例えば、調整部132は、対象物画像に基づき推定される照明環境の情報を対象物画像から除去し、参照画像に基づき推定される照明環境の情報を参照画像から除去することで、対象物画像と参照画像との間で照明環境の条件を除去する。また、調整部132は、参照画像に基づき推定される照明環境の情報を参照画像から除去した状態で、対象物画像に基づき推定される照明環境の情報を用いて参照画像を補正することで、対象物画像と参照画像との間で照明環境の条件を統一させてもよい。
(変換部133)
 変換部133は、対象物画像または参照画像のうちのいずれか一方の画像に基づいて、対象物画像および参照画像のうちの他方の画像が、目標に外観が反映された第1の対象物の画像へと変換された変換後画像を生成する。例えば、変換部133は、対象物画像から抽出された第1の対象物の特徴情報に対して、参照画像から抽出された第2の対象物の特徴情報を合わせるように、参照画像を変換することで変換後画像を生成する。顔メイク作業の支援を例に挙げると、変換部133は、対象物画像から抽出されたユーザの顔形状に対して、参照画像から抽出されたメイクモデルの顔形状を合わせるように、参照画像を変換する。
(推定部134)
 推定部134は、変換部133により生成された変換後画像と、対象物画像とに基づいて、第1の対象物を第2の対象物に基づく外観に変化させるための処理手順を推定する。具体的には、推定部134は、変換後画像と対象物画像との組を入力とする推定モデルによる出力情報に基づいて、第1の対象物の外観を第1の対象物で目標とされる目標の外観へと変化させるための処理手順を推定する。目標の外観は、第1の対象物とは異なる第2の対象物が有する。
(生成部135)
 生成部135は、対象物画像に基づいて、推定部134により推定された処理手順に応じて外観が変化した第1の対象物の画像を出力画像として生成する。例えば、生成部135は、出力画像として、第1の対象物の外観に対して処理手順に応じた外観が作業結果として反映された画像を生成する。
 また、生成部135は、出力画像とともに出力される出力情報として、処理手順で作業を行うようユーザに指示する指示文を生成する。また、生成部135は、所定の言語モデルと、指示文とに基づいて、指示文の内容をより詳細に説明する詳細文を、出力情報としてさらに生成してよい。
(出力制御部136)
 出力制御部136は、生成部135により生成された出力情報をユーザに提示する。具体的には、出力制御部136は、生成部135により生成された出力情報がユーザ装置10に出力されるよう出力制御する。なお、指示文や詳細文は、テキスト形式で出力されてもよいし、音声形式で出力されてもよい。
[6.学習装置の構成]
 図4を用いて、実施形態に係る学習装置30について説明する。図4は、実施形態に係る学習装置30の構成例を示す図である。図4に示すように、学習装置30は、通信部31と、記憶部32と、制御部33とを有する。
(通信部31)
 通信部31は、例えば、NIC(Network Interface Card)等によって実現される。例えば、通信部31は、ネットワークNと有線または無線で接続され、サーバ装置100との間で情報の送受信を行う。
(記憶部32)
 記憶部32は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデルデータ記憶部32aを有する。モデルデータ記憶部32aは、第1の対象物の外観を目標の外観へと変化させるための処理手順を推定するための推定モデルのデータを記憶する。
(制御部33)
 制御部22は、CPUやMPU等によって、学習装置30内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部33は、例えば、ASICやFPGA等の集積回路により実現される。
 図3に示すように、制御部33は、取得部33aと、生成部33bと、学習部33cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部33内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部33が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(取得部33a)
 取得部33aは、学習データを構成する情報を取得する。例えば、取得部33aは、第1の対象物に関する所定の対象物の外観を完成状態の外観へと変化させる動作の画像で構成される動画像と、この動作の内容を説明する動画像内での発話情報とを取得する。
(生成部33b)
 生成部33bは、第1の対象物に関する所定の対象物の外観を完成状態の外観へと変化させる動作の画像で構成される動画像と、動作の内容を説明する動画像内での発話情報とを組み合わせて学習データを生成する。
(学習部33c)
 学習部33cは、学習データを用いて、所定の対象物の外観変化を示す前後の画像と、外観変化に起因する動作との関係性をモデルに学習させる。例えば、学習部33cは、変換後画像と対象物画像との組が入力された場合に、第1の対象物の外観を目標の外観へと変化させるための処理手順の情報を出力するよう、上記の関係性をモデルに学習させることで、推定モデルを生成する。目標の外観は、変換後画像によって定義される。
 ここで、図5を用いて、学習フェーズにおける前処理手法を説明する。図5は、学習フェーズにおける前処理手法を説明する説明図である。図5には、任意の人物Pyについてメイク前状態からメイク完成状態へと変化させるメイク動作の画像群で構成される動画像VDと、メイク動作の内容を説明する動画像VD内での発話情報とを用いて、学習データが生成される一場面が示される。つまり、図5には、音声付きのメイクアップ動画を基に学習データが生成される例が示される。
 動画像VDは、取得部33aによって取得され、生成部33bによって学習データへと加工される。具体的には、生成部33bは、任意の人物Pyについてメイク前状態からメイク完成状態へと変化させるメイク動作の画像群で構成される動画像VDと、メイク動作の内容を説明する動画像VDでの発話情報とを用いて、学習データを生成する。
 図5の例によれば、生成部33bは、動画像VD内で行われている動作のうち、顔メイクに必要な動作(メイク完成状態へともってゆくための動作)と、顔メイクに必要な動作が行われたタイムスタンプとを対応付けて抽出する。生成部33bは、動画像VDに含まれる発話情報(音声データ)を解析することで、顔メイクに必要な動作と、顔メイクに必要な動作が行われたタイムスタンプとの組を抽出してよい。また、動画像VDには、動画像VDに含まれる発話情報(音声データ)が文字起こしされた字幕情報やタイムスタンプがメタデータとして予め挿入されている場合がある。係る場合には、生成部33bは、メタデータに基づいて、顔メイクに必要な動作と、顔メイクに必要な動作が行われたタイムスタンプとの組を抽出することができる。
 図5には、生成部33bが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「3:50」と、必要動作「スキンケア」との組を抽出した例が示される。また、生成部33bが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「4:55」と、必要動作「下地」との組を抽出した例が示される。また、生成部33bが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「7:20」と、必要動作「ファンデーション」との組を抽出した例が示される。また、生成部33bが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「7:38」と、必要動作「コンシーラー」との組を抽出した例が示される。図示されるその他の組合せについては説明を省略する。
 次に、生成部33bは、動画像VDの中から、抽出した必要動作に対応する範囲を必要動作ごとに検索する。上記例の場合、生成部33bは、再生時間「3:50」と、必要動作「スキンケア」との組に基づいて、動画像VDにおいて必要動作「スキンケア」が実際に行われていた範囲を検索する。図5には、生成部33bが、動画像VDにおいて必要動作「スキンケア」が実際に行われていた範囲として、動画範囲RA1を検索した例が示される。
 また、生成部33bは、再生時間「4:55」と、必要動作「下地」との組に基づいて、動画像VDにおいて必要動作「下地」が実際に行われていた範囲を検索する。図5には、生成部33bが、動画像VDにおいて必要動作「下地」が実際に行われていた範囲として、動画範囲RA2を検索した例が示される。
 また、生成部33bは、再生時間「7:20」と、必要動作「ファンデーション」との組に基づいて、動画像VDにおいて必要動作「ファンデーション」が実際に行われていた範囲を検索する。図5には、生成部33bが、動画像VDにおいて必要動作「ファンデーション」が実際に行われていた範囲として、動画範囲RAを検索した例が示される。
 また、生成部33bは、再生時間「7:38」と、必要動作「コンシーラー」との組に基づいて、動画像VDにおいて必要動作「コンシーラー」が実際に行われていた範囲を検索する。図5には、生成部33bが、動画像VDにおいて必要動作「コンシーラー」が実際に行われていた範囲として、動画範囲RA4を検索した例が示される。
 次に、図6を用いて、学習フェーズにおける学習手法を説明する。図6は、学習フェーズにおける学習手法を説明する説明図である。図6では、引き続き図5の例を採用する。図6には、再生時間「17:30」と、必要動作「リップ」との組に基づいて、学習データの生成および学習処理が行われる場面が示される。
 例えば、生成部33bは、動画像VDにおいて必要動作「リップ」が実際に行われていた動画範囲RA12から、顔特徴の代表的なフレーム画像FL12を取得する。また、生成部33bは、必要動作「リップ」よりもひとつ前の必要動作「眉毛」が実際に行われていた動画範囲RA11から、顔特徴の代表的なフレーム画像FL11を取得する。このように、生成部33bは、顔メイクに必要な動作ごとに、当該動作の前後における顔特徴の代表的なフレームを取得する。
 そして、生成部33bは、フレーム画像FL11と、フレーム画像FL12と、フレーム画像FL11が示す人物Pyの外観(リップを塗る前の外観)からフレーム画像FL12が示す人物Pyの外観(リップを塗った後の外観)への状態変化に起因する動作すなわち必要動作「リップ」との組合せを1つの学習データとして生成する。
 また、係る例では、学習部33cは、フレーム画像FL11と、フレーム画像FL12と、必要動作「リップ」との関係性をモデルに学習させる。例えば、学習部33cは、フレーム画像FL11が示す外観(リップを塗る前の外観)から、フレーム画像FL12が示す外観(リップを塗った後の外観)へと外観変化させるには、「リップを塗る」という作業手順が必要になることを学習する。なお、学習部33cは、メイク完成状態のフレーム画像も学習データとして用いることで、メイク完成状態との差分も学習してよい。
 また、図6では、必要動作「リップ」に着目したが、生成部33bは、抽出された必要動作それぞれについて、当該必要動作における前後での外観変化を学習することになる。例えば、生成部33bは、動画像VDにおいて必要動作「下地」が実際に行われていた動画範囲RA2から、顔特徴の代表的なフレーム画像FL2を取得する。また、生成部33bは、必要動作「下地」よりもひとつ前の必要動作「スキンケア」が実際に行われていた動画範囲RA1から、顔特徴の代表的なフレーム画像FL1を取得する。
 そして、生成部33bは、フレーム画像FL1と、フレーム画像FL2と、フレーム画像FL1が示す人物Pyの外観(下地を塗る前の外観)からフレーム画像FL2が示す人物Pyの外観(下地を塗った後の外観)への外観変化に起因する動作すなわち必要動作「下地」との組合せを1つの学習データとして生成する。
 また、学習部33cは、フレーム画像FL1と、フレーム画像FL2と、必要動作「下地」との関係性をモデルに学習させる。例えば、学習部33cは、フレーム画像FL1が示す外観(下地を塗る前の外観)から、フレーム画像FL2が示す外観(下地を塗った後の外観)へと外観変化させるには、「下地を塗る」という作業手順が必要になることを学習する。
 なお、学習部33cは、1つの動画像VDではなく、より多くの動画像VDから、必要動作前後での外観変化を学習することが好ましい。この結果、学習部33cは、より高精度な推定モデルを生成することができるようになる。
[7.作業手順の推定手法]
 図7および図8を用いて、実施形態に係る情報処理で実現される、作業手順の推定手法を説明する。図7では、図1での例示内容を引き続き採用し、顔画像IM1(対象物画像)と顔画像IM2(リファレンス画像)との間で条件を統一するための調整処理の手法、および、顔画像IM1と顔画像IM2との間で人物の特徴を合わせるための変換処理の手法を説明する。図8では、作業手順の推定手法と、推定結果に基づく情報の出力手法を説明する。
[7-1.情報処理手法(1)]
 図7は、実施形態に係る情報処理で実現される推定手法の一例を示す図(1)である。図7には、人物P1(ユーザ)が、ユーザ装置10を用いて、メイク前状態(メイク前の外観)の自身の顔の顔画像IM1をサーバ装置100に入力した例が示される。また、図7には、人物P1が、自身が目標とするメイク状態(目標の外観)にある人物、すなわちメイクモデルPxの顔画像IM2をリファレンス画像としてサーバ装置100に入力した例が示される。ここでは、顔画像IM1と顔画像IM2とが同一タイミングで入力されたものとする。
 画像取得部131は、人物P1による画像入力に応じて、顔画像IM1を取得する(ステップS101)。また、生成部135は、顔画像IM1を3次元予測モデル(例えば、3DMM)に適用することで、人物P1の3D顔モデルFMxを生成する(ステップS102)。3D顔モデルFMxにおける顔表面テクスチャは、メイク前状態の外観特徴と、人物P1の肌ベース色(地肌の色)とを含む。また、3D顔モデルFMxにおける顔表面テクスチャは、顔画像IM1が撮影された空間で使用されている光源の影響(例えば、影の情報)を受けた状態である。
 ここで、調整部132は、3D顔モデルFMxに基づいて、顔画像IM1が撮影された空間での照明環境の情報を推定する(ステップS103)。例えば、調整部132は、照明環境の情報として、顔画像IM1の撮影空間で使用されている光源による光の強度、光源から人物P1へと光が照射される角度等を推定してよい。
 そして、調整部132は、ステップS103で推定した照明環境の情報を3D顔モデルFMxから除去する(ステップS104)。例えば、調整部132は、照明環境の情報に基づいて、顔画像IM1の撮影空間で使用されている光源が、顔画像IM1の見た目に及ぼす影響を除去する。この結果、調整部132は、光源による影響が除去されたことで、顔表面テクスチャとして、メイク前状態の外観特徴と人物P1の肌ベース色とが実物に近い状態や色合いで反映された3D顔モデルFMxxを得ることができる。
 また、画像取得部131は、人物P1による画像入力に応じて、顔画像IM2を取得する(ステップS201)。そして、生成部135は、顔画像IM2を3次元予測モデル(例えば、3DMM)に適用することで、メイクモデルPxの3D顔モデルFMyを生成する(ステップS202)。3D顔モデルFMyにおける顔表面テクスチャは、メイク後状態の特徴を含む。また、3D顔モデルFMyにおける顔表面テクスチャは、顔画像IM2が撮影された空間で使用されている光源の影響(例えば、影の情報)を受けた状態である。
 そこで、調整部132は、3D顔モデルFMyに基づいて、顔画像IM2が撮影された空間での照明環境の情報を推定する(ステップS203)。例えば、調整部132は、照明環境の情報として、顔画像IM2の撮影空間で使用されている光源による光の強度、光源からメイクモデルPxへと光が照射される角度等を推定してよい。
 そして、調整部132は、ステップS203で推定した照明環境の情報を3D顔モデルFMyから除去する(ステップS204)。例えば、調整部132は、照明環境の情報に基づいて、顔画像IM2の撮影空間で使用されている光源が、顔画像IM2の見た目に及ぼす影響を除去する。この結果、調整部132は、光源による影響が除去されたことで、顔表面テクスチャとして、メイク後状態の外観特徴が実物に近い状態や色合いで反映された3D顔モデルFMxxを得ることができる。
 ここで、双方の3D顔モデルから照明環境の情報を除去するというステップS104およびS204の処理は、人物P1とメイクモデルPxとの間において、メイク前状態およびメイク後状態以外の他の条件(照明条件)を統一させるための調整処理である。しかしながら、調整部132は、メイク前状態およびメイク後状態以外の他の条件を統一させる調整処理において、単純に照明環境の情報を除去するのではなく、メイクモデルPx側の照明条件を人物P1側の照明条件に合わせる調整処理を行ってもよい。
 例えば、調整部132は、ステップS203で推定した照明環境の情報(メイクモデルPx側の照明条件)を3D顔モデルFMyから除去した状態で、ステップS103で推定した照明環境の情報(人物P1側の照明条件)を用いて、3D顔モデルFMyを補正してよい。より具体的には、調整部132は、ステップS203で推定した照明環境の情報が除去された3D顔モデルFMyに対して、ステップS103で推定した照明環境の情報を適用することで、3D顔モデルFMyの顔表面テクスチャが人物P1側の照明条件に応じたものになるよう3D顔モデルFMyの顔表面テクスチャを補正する。
 また、ステップS101~S105の処理と、ステップS201~S205の処理とは並行して行われてよい。そして、これらの処理が終了すると、変換部133は、顔の特徴情報を抽出する(ステップS305)。具体的には、変換部133は、3D顔モデルFMxxからは人物P1の顔の特徴情報を抽出し、3D顔モデルFMyyからはメイクモデルPxの顔の特徴情報を抽出する。例えば、変換部133は、3D顔モデルFMxxからは人物P1の顔形状の情報を抽出し、3D顔モデルFMyyからはメイクモデルPxの顔形状の情報を抽出してよい。顔形状の情報には、顔の輪郭を示す情報だけでなく、顔の凹凸を示す情報(例えば、鼻の形状、鼻の高さ、唇の形状、唇の厚み等)も含まれてよい。
 次に、変換部133は、ステップS305で抽出した特徴情報に基づいて、人物P1の顔の特徴情報に対して、メイクモデルPxの顔の特徴情報を合わせるように、3D顔モデルFMyyを変換する(ステップS306)。例えば、変換部133は、人物P1の顔形状に対して、メイクモデルPxの顔形状を合わせるように、3D顔モデルFMyyの形状を変換する。この結果、変換部133は、メイクモデルPxの顔の特徴情報が人物P1の顔の特徴情報に合わせられた3D顔モデルFMyyxを得ることができる。
 また、変換部133は、UVマッピングを行ってよい(ステップS307)。具体的には、変換部133は、3D顔モデルFMxxをUVマッピングすることで、2次元のUVマップとして、2D顔画像UVG1を得る。また、変換部133は、3D顔モデルFMyyxをUVマッピングすることで、2次元のUVマップとして、2D顔画像UVG2を得る。
 さて、これまで説明してきた処理によれば、2D顔画像UVG1(人物P1)と、2D顔画像UVG2(メイクモデルPx)との間において、顔表面のテクスチャのうち、化粧以外のテクスチャが統一される。具体的には、調整処理や変換処理が行われていない初期の段階では、対象物画像とリファレンス画像との間において、顔形状や照明環境等に違いがあるため、メイク前後で顔表面テクスチャにどのような違いが生じるかメイクによる影響のみを正確に比較することが困難である。しかしながら、ここまでの処理によって得られた2D顔画像UVG1と2D顔画像UVG2との間では、顔形状や照明条件が統一され、単純に、メイク前状態とメイク後状態との差分のみが残された状態となる。このため、サーバ装置100は、メイク前後における顔表面テクスチャの違いだけを正確に抽出でき、これらの比較に加えて、肌ベース色をヒントとすることで、精度よく作業手順を推定することができるようになる。ステップS307以降に行われる推定処理の手法については図8で説明する。
 なお、変換部133は、ステップS306では、人物P1の顔の特徴情報に対して、メイクモデルPxの顔の特徴情報を合わせるように、3D顔モデルFMyyを変換するのではなく、逆の処理を行ってもよい。具体的には、変換部133は、メイクモデルPxの顔の特徴情報に対して、人物P1の顔の特徴情報を合わせるように、3D顔モデルFMxxを変換してもよい。
[7-2.情報処理手法(2)]
 図8は、実施形態に係る情報処理で実現される推定手法の一例を示す図(2)である。まず、推定部134は、UVマップまたは3次元顔モデルをメイク手順推定モデルMに入力する(ステップS0401)。例えば、推定部134は、図7のステップS307で生成された2D顔画像UVG1と2D顔画像UVG2とをメイク手順推定モデルMに入力する。他の例として、推定部134は、3次元顔モデルをさらにメイク手順推定モデルMに入力してもよい。具体的には、推定部134は、2D顔画像UVG1および3D顔モデルFMxxの組と、2D顔画像UVG2および3D顔モデルFMyyxの組とを、メイク手順推定モデルMに入力してよい。さらに他の例として、推定部134は、3次元顔モデルを入力する一方で、UVマップについては入力しない手法を採用することもできる。具体的には、推定部134は、3D顔モデルFMxxと3D顔モデルFMyyxとをメイク手順推定モデルMに入力するだけでもよい。メイク手順推定モデルMの学習手法については、図5および図6で説明した通りである。
 推定部134は、メイク手順推定モデルMから出力された情報に基づいて、顔画像IM1が示すメイク前状態から、顔画像IM2が示す目標のメイク状態へと変化させるためのメイクに関する作業手順を推定する(ステップS402)。図8には、図1の例と同様に、推定部134が、第1手順「カラーコンタクトレンズを入れる」,第2手順「化粧下地を塗る」,第3手順「ファンデーション+アイシャドウ」・・・第8手順「眉を描く」,第9手順「ウィッグを付ける」,第10手順「リップ」を推定した例が示される。
 なお、推定部134は、必ずしも10段階の作業手順を推定するとは限らない。例えば、推定部134は、メイク前状態の顔画像IM1ではなく、途中までメイクが進んだ状態の顔画像IM1が入力された場合には、より少ないステップ数で構成される作業手順を推定する場合がある。また、推定部134は、人物P1の肌ベース色に依っては、より多くのステップ数で構成される作業手順を推定する場合がある。このように、状況に合わせてステップ数や作業手順の内容を変えることができる理由は、実施形態に係る情報処理が、単なるルールベースによる推定ではなく、機械学習モデルを用いることで、目標状態へと雰囲気を近づけることを目指すものであるためである。
 また、生成部135は、ステップS402で推定された作業手順に基づいて、この作業手順で作業を行うよう指示する指示文SMを生成する(ステップS403)。図8には、図1の例と同様に、生成部135が、例えば、第1手順「カラーコンタクトレンズを入れる」に基づいて、第1手順を指示する内容の指示文SM1を生成した例等が示される。
 また、生成部135は、ステップS402で推定された作業手順ごとに、当該作業手順が示す内容で実際に作業された場合に人物P1の外観がどのように変化するか変化後の外観が作業結果として反映された3D顔モデルFMを生成する(ステップS404)。
 具体的には、生成部135は、3D顔モデルFMxxに対して、第1手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化を反映させた3D顔モデルFM1を生成する。つまり、生成部135は、メイク前状態の3D顔モデルFMxxを加工することで、人物P1がカラーコンタクトレンズを入れた状態の外観へと変化させる。
 また、生成部135は、第1手順までの外観変化が反映された3D顔モデルFM1に対して、第2手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM2を生成する。具体的には、生成部135は、カラコン状態が反映された3D顔モデルFM1をさらに加工することで、人物P1が化粧下地を塗った状態の外観へと変化させる。
 また、生成部135は、第2手順までの外観変化が反映された3D顔モデルFM2に対して、第3手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM3を生成する。具体的には、生成部135は、化粧下地が塗られた状態の3D顔モデルFM2をさらに加工することで、人物P1がファンデーションとアイシャドウを行った状態の外観へと変化させる。
 生成部135は、第7手順までの外観変化が反映された3D顔モデルFM7に対して、第8手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM8を生成する。具体的には、サーバ装置100は、3D顔モデルFM7をさらに加工することで、人物P1が眉を描いた状態の外観へと変化させる。
 また、生成部135は、第8手順までの外観変化が反映された3D顔モデルFM8に対して、第9手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM9を生成する。具体的には、生成部135は、眉が描かれた状態の3D顔モデルFM8をさらに加工することで、人物P1がウィッグを付けた状態の外観へと変化させる。
 また、生成部135は、第9手順までの外観変化が反映された3D顔モデルFM9に対して、第10手順で作業を行った場合に人物P1の顔の見た目に生じる外観変化をさらに反映させた3D顔モデルFM10を生成する。具体的には、生成部135は、ウィッグを付けた状態の3D顔モデルFM9をさらに加工することで、人物P1がリップを付けた状態の外観へと変化させる。
 なお、生成部135は、ステップS403で生成した指示文SMを大規模言語モデルLLMに入力し(ステップS405)、その出力情報に基づいて、指示文SMの内容をより詳細に説明する詳細指示文をさらに生成してよい(ステップS406)。例えば、生成部135は、指示文SM1と大規模言語モデルとに基づいて、「利き手の人差し指の先にレンズをのせる」→「利き手の中指で下まぶたを引き下げる」→「レンズを黒目に正しくのせたら、まぶたを押さえていた指をゆっくり離す」という流れの詳細指示文を生成することができる。
 次に、出力制御部136は、作業手順ごとに指示文SMと3D顔モデルFMとを対応付けた出力情報が人物P1のユーザ装置10に出力されるよう出力制御する(ステップS407)。なお、詳細指示文の出力方法は、限定されない。例えば、出力制御部136は、指示文SMが人物P1に選択された場合には、選択された指示文SMに対応する詳細指示文をユーザ装置10に出力させてよい。一方、出力制御部136は、表示スペースが確保できる場合には、指示文SMとともに詳細指示文も表示させてもよい。
[8.変形例1]
 ここからは、本開示の変形例1について説明する。例えば、サーバ装置100は、上記実施形態以外にも種々の異なる態様で実施されてよい。そこで、以下では、本開示の変形例1に係るサーバ装置100を「サーバ装置100A」と表記する。
 ここで、顔メイクを例に挙げると、ユーザは、作業手順が提示されたとしても、手順通りメイク作業を進めることができなかったり、作業手順で示される内容とは異なった動作をしてしまったりする場合がある。つまり、ユーザは、サーバ装置100によって推定された当初の作業手順とは異なる誤った動作を行ってしまう場合がある。そこで、サーバ装置100Aは、ユーザの誤った動作を検出した場合には、現在のメイク状態を起点として、目標状態へと変化させるための作業手順を推定し直すという機能を有する。係る機能は、図3で説明した実施形態に係るサーバ装置100に対して新たに組み込まれる機能であってよく、詳細な機能構成については以下で説明する。
[8-1.サーバ装置の構成]
 図9を用いて、変形例1に係るサーバ装置100Aについて説明する。図9は、変形例1に係るサーバ装置100Aの構成例を示す図である。図3に示すように、サーバ装置100Aは、通信部110と、記憶部120と、制御部130Aとを有する。通信部110および記憶部120は、図3と同様であるため説明を省略する。
(制御部130A)
 制御部130Aは、CPUやMPU等によって、サーバ装置100A内部の記憶装置に記憶されている各種プログラム(例えば、変形例1に係る情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130Aは、例えば、ASICやFPGA等の集積回路により実現される。
 図9に示すように、制御部130Aは、画像取得部131と、調整部132と、変換部133と、推定部134と、生成部135、出力制御部136、検出部137とを有し、以下に説明する情報処理の機能や作用を実現または実行する。このように、制御部130Aは、サーバ装置100と比較して、検出部137を新たに有する。制御部130Aの内部構成は、図9に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130Aが有する各処理部の接続関係は、図9に示した接続関係に限られず、他の接続関係であってもよい。
(画像取得部131)
 上記実施形態では、画像取得部131は、目標の状態に向けて外観を変化させる前の元の状態を示す1つの対象物画像を、推定処理のための入力情報として取得する例を示した。例えば、画像取得部131は、ユーザ装置10の撮像機能によって撮影された1つの静止画像として、メイク前状態の様子が示された顔画像IM1を入力情報として取得する例を示した。
 しかしながら、画像取得部131は、第1の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得してもよい。このようなケースとして、例えば、ユーザが、メイク前状態から徐々にメイクを行ってゆく作業を、ユーザ装置10を用いてリアルタイムに動画撮影するシーンが考えられる。また、ユーザが、メイクを進めた途中の段階の様子を、ユーザ装置10を用いて静止画像として撮影したり、動画像として撮影したりするシーンも考えられる。このような場合、画像取得部131は、リアルタイムに撮影された対象物画像を逐次取得する。
(検出部137)
 検出部137は、画像取得部131により逐次取得された対象物画像に基づいて、ユーザの誤った動作を検出する。例えば、検出部137は、誤った動作として、第1の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された処理手順との間での乖離を検出してよい。
(推定部134)
 推定部134は、検出部137により誤った動作が検出された場合には、逐次取得された対象物画像のうち、最新の対象物画像を用いて、第1の対象物の現在の外観を、目標の外観へと変化させるための処理手順を推定し直す。
[8-2.処理手順(1)]
 誤った動作が検出された場合における再推定処理の手順を説明するに先立って、対象物画像の逐次取得に対応する推定処理の手順を説明する。図10は、変形例1に係る推定処理手順を示すフローチャートである。図10では、メイク前状態に対応する顔画像IM1と、人物P1が目標とするメイク状態に対応する顔画像IM2とを基に推定された作業手順を確認しつつ、メイク途中現時点でのメイク状態の顔画像IM1をさらに入力するという利用シーンを想定する。
 まず、画像取得部131は、新たな顔画像IM1を取得できたか否かを判定する(ステップS1001)。画像取得部131は、新たな顔画像IM1を取得できていない間は(ステップS1001;No)、新たな顔画像IM1を取得できるまで待機する。一方、画像取得部131は、人物P1がメイクする様子をリアルタイムに撮影された顔画像IM1がユーザ装置10によってサーバ装置100に入力された場合には(この間、人物P1は、サーバ装置100により提示された作業手順を見ながらメイクを行っている)、新たな顔画像IM1を取得できたと判定できる。新たな顔画像IM1は、1つの静止画像であってもよいし、動画像であってもよい。
 推定部134は、新たな顔画像IM1が取得された場合には(ステップS1001;Yes)、取得された新たな顔画像IM1と、あらかじめ入力されている顔画像IM2とに基づいて、新たな顔画像IM1が示す現時点でのメイク状態を、目標のメイク状態へと変化させるための作業手順を推定する(ステップS1002)。
 なお、推定部134は、実際には、新たな顔画像IM1を基に生成された2D顔画像UVG1(もしくは、3D顔モデルFMxx)と、顔画像IM2を基に生成された2D顔画像UVG2(もしくは、3D顔モデルFMyyx)とをメイク手順推定モデルMに入力することで、作業手順を推定する。図7で説明したように、UVマップ(2D顔画像UVG1、2D顔画像UVG2)を得るまでには、調整部132による調整処理や、変換部133による変換処理が行われる。
 そして、生成部135は、ステップS1002で推定された作業手順に基づいて、人物P1に提示される出力情報を生成する(ステップS1003)。具体的には、生成部135は、指示文SMや、作業手順が行われた結果が反映された3D顔モデルを作業手順ごとに生成する。
 図10に示すように、サーバ装置100は、メイク途中の顔画像IM1が入力されることに応じて、推定処理を繰り返す。そして、サーバ装置100は、人物P1が実際に行ったメイク動作と、これまでに推定した作業手順との比較に基づき、誤った動作を検出できた場合には、ステップS1003で生成した出力情報を再推定の結果として人物P1に提示する。図11では、この点についてより詳細に説明する。
[8-3.処理手順(2)]
 図11は、変形例1に係る誤動作検出処理手順を示すフローチャートである。画像取得部131は、新たな顔画像IM1を取得できたか否かを判定する(ステップS1101)。画像取得部131は、新たな顔画像IM1を取得できていない間は(ステップS1101;No)、新たな顔画像IM1を取得できるまで待機する。
 一方、検出部137は、新たな顔画像IM1が取得された場合には(ステップS1101;Yes)、今回取得された顔画像IM1を画像解析し、現時点で実際に行われているメイク動作を特定する(ステップS1102)。
 そして、検出部137は、推定部134によってこれまでに推定された作業手順と、ステップS1102で特定した実際のメイク動作とを比較し、推定済みの作業手順と、実際のメイク動作との間に乖離かあるかどうかを検出する(ステップS1103)。例えば、検出部137は、最も初期の推定結果(すなわち、メイク前状態に対応する顔画像IM1と、人物P1が目標とするメイク状態に対応する顔画像IM2とを基に推定された作業手順)と、実際のメイク動作とを比較してよい。
 検出部137は、推定済みの作業手順と、実際のメイク動作との間に乖離を検出できなかった場合には(ステップS1103;No)、ステップS1101に処理を戻す。
 一方、出力制御部136は、推定済みの作業手順と、実際のメイク動作との間に乖離が検出された場合には(ステップS1103;Yes)、今回取得された顔画像IM1に対応する出力情報を、再推定された作業手順の情報として取得する(ステップS1104)。具体的には、出力制御部136は、ステップS1101で取得された新たな顔画像IM1を用いて図10の手順で生成された出力情報を取得する。
 そして、出力制御部136は、取得した出力情報が人物P1のユーザ装置10に出力されるよう出力制御する(ステップS1105)。
[9.変形例2]
 次に、本開示の変形例2について説明する。本開示の変形例1に係る処理もサーバ装置100Aによって行われてよい。
 例えば、検出部137は、推定済みの作業手順と、実際のメイク動作との間に乖離を検出した場合には、現時点で実際に行われているメイク動作に基づいて、動的に新たな目標の外観を定めてもよい。例えば、検出部137は、推定済みの作業手順と、実際のメイク動作とを比較して、乖離として、「カラコンを入れる」作業がスキップされた状態で「化粧下地を塗る」作業が行われていたことを検出したとする。係る場合には、検出部137は、例えば、「カラーコンタクト」無しでも違和感のない「ナチュラルメイク」の状態を新たな目標の外観として定めてもよい。検出部137は、ルールベースに従って新たな目標の外観を定めてもよいし、機械学習モデルを用いて「カラーコンタクト」無しに似合ったメイク状態を推定してもよい。
 また、推定部134は、新たな顔画像IM1と、新たな目標の外観の顔画像IMxとに基づいて、新たな顔画像IM1が示す現時点でのメイク状態を、新たな目標の外観へと変化させるための作業手順を推定してよい。そして、出力制御部136は、ここでの推定手順を人物P1にレコメンドしてよい。例えば、出力制御部136は、「カラコンが入れられていないようですが、この状態であれば、次のような作業手順でメイクしてみてはいかがですか?」といったコメントともに、新たな目標の外観へと変化させるための作業手順を提示することができる。
[10.その他]
 上記実施形態では、サーバ装置100が、第1の対象物を第2の対象物に基づく外観に変化させるための処理手順として、第1の対象物の外観を第1の対象物で目標とされる目標の外観へと変化させるための処理手順を推定する例を示した。しかしながら、サーバ装置100は、必ずしも、第1の対象物の外観を目標の外観へと変化させるための処理手順を推定する必要は無く、例えば、第1の対象物の外観をユーザが望む任意の外観に変化させるための処理手順を推定してもよいし、第1の対象物の外観をユーザが好みの外観に変化させるための処理手順を推定してもよい。
[11.ハードウェア構成]
 図12を用いて、上述した各実施形態に係る情報処理装置(例えば、サーバ装置100およびサーバ装置100A)に対応するコンピュータのハードウェア構成例について説明する。図12は、本開示の実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。なお、図12は、各実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成の一例を示すものであり、図12に示す構成に限定される必要はない。
 図12に示すように、コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450を記録する。プログラムデータ1450は、本開示の実施形態に係る情報処理方法を実現するための情報処理プログラム、および、係る情報処理プログラムによって使用されるデータの一例である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、表示装置やスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が、サーバ装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、図3等に示された各処理が実行する各種処理機能を実現する。すなわち、CPU1100およびRAM1200等は、ソフトウェア(RAM1200上にロードされた情報処理プログラム)との協働により、本開示の実施形態に係る情報処理装置による情報処理方法を実現する。
[12.まとめ]
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、実施形態および変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本開示は以下のような構成も取ることができる。
(1)
 第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得部と、
 前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換部と、
 前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定部と、
 前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成部と、
 を備える情報処理装置。
(2)
 前記取得部は、前記第2の対象物に基づく外観として、前記第1の対象物で目標とされる目標の外観を有する前記第2の対象物の画像を前記参照画像として取得し、
 前記変換部は、前記対象物画像乃至は前記参照画像のうちのいずれか一方の画像に基づいて、前記対象物画像および前記参照画像のうちの他方の画像が、前記目標の外観が反映された前記第1の対象物の画像へと変換された前記変換後画像を生成し、
 前記推定部は、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
 前記(1)に記載の情報処理装置。
(3)
 前記対象物画像と前記参照画像との間で、前記第1の対象物の外観、および、前記目標の外観以外の他の条件を合わせる調整を行う調整部を
 さらに備え、
 前記変換部は、前記調整部による調整後の前記対象物画像乃至は前記参照画像のうちのいずれか一方を用いて、前記他方の画像を変換する
 前記(2)に記載の情報処理装置。
(4)
 前記調整部は、前記対象物画像に基づき推定される照明環境の情報を前記対象物画像から除去し、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去することで、前記対象物画像と前記参照画像との間で照明環境の条件を除去する
 前記(3)に記載の情報処理装置。
(5)
 前記調整部は、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去した状態で、前記対象物画像に基づき推定される照明環境の情報を用いて前記参照画像を補正することで、前記対象物画像と前記参照画像との間で照明環境の条件を合わせる
 前記(3)または前記(4)に記載の情報処理装置。
(6)
 前記変換部は、前記対象物画像から抽出された前記第1の対象物の特徴情報に対して、前記参照画像から抽出された前記第2の対象物の特徴情報を合わせるように、前記参照画像を変換する
 前記(2)~前記(5)のいずれか1つに記載の情報処理装置。
(7)
 前記変換後画像と前記対象物画像との組を入力とするモデルを生成する学習部を
 さらに備え、
 前記推定部は、前記モデルの出力情報に基づいて、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
 前記(2)~前記(6)のいずれか1つに記載の情報処理装置。
(8)
 前記学習部は、前記第1の対象物に関する所定の対象物の外観を完成の状態へと変化させる動作の画像で構成される動画像と、前記動作の内容を説明する前記動画像内での発話情報との組合せを学習データとして用いて、前記所定の対象物の外観変化を示す前後の画像と、前記外観変化に起因する動作との関係性をモデルに学習させる
 前記(7)に記載の情報処理装置。
(9)
 前記学習部は、前記変換後画像と前記対象物画像との組が入力された場合に、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順の情報を出力するよう、前記関係性を前記モデルに学習させる
 前記(8)に記載の情報処理装置。
(10)
 前記生成部は、前記出力画像として、前記第1の対象物の外観に対して前記処理手順に応じた外観が作業結果として反映された前記第1の対象物の画像を生成する
 前記(1)~前記(9)のいずれか1つに記載の情報処理装置。
(11)
 前記生成部は、前記出力画像とともに出力される出力情報として、前記処理手順で作業を行うよう指示する指示文を生成する
 前記(1)~前記(10)のいずれか1つに記載の情報処理装置。
(12)
 前記生成部は、所定の言語モデルと、前記指示文とに基づいて、前記指示文の内容をより詳細に説明する詳細文を、前記出力情報としてさらに生成する
 前記(11)に記載の情報処理装置。
(13)
 前記取得部は、前記対象物画像として、前記第1の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得し、
 逐次取得された前記対象物画像に基づいて、誤った動作を検出する検出部を
 さらに有し、
 前記推定部は、前記検出部により誤った動作が検出された場合には、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第1の対象物の現在の外観を前記目標の外観に変化させるための処理手順を推定し直す
 前記(2)~前記(12)のいずれか1つに記載の情報処理装置。
(14)
 前記検出部は、前記誤った動作として、前記第1の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された前記処理手順との間での乖離を検出する
 前記(13)に記載の情報処理装置。
(15)
 前記検出部は、前記誤った動作が検出された場合には、前記第1の対象物の外観を変化させるために実際に行われている動作手順に関連する新たな目標の外観を特定し、
 前記推定部は、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第1の対象物の現在の外観を前記新たな目標の外観に変化させるための処理手順を推定し直す
 前記(13)または前記(14)に記載の情報処理装置。
(16)
 情報処理装置が実行する情報処理方法であって、
 第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得工程と、
 前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換工程と、
 前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定工程と、
 前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成工程と、
 を含む情報処理方法。
(17)
 第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得手順と、
 前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換手順と、
 前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定手順と、
 前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成手順と、
 をコンピュータに実行させるための情報処理プログラム。
 1 システム
 10 ユーザ装置
 30 学習装置
 100 サーバ装置
 120 記憶部
 121 モデルデータ記憶部
 122 画像データ記憶部
 123 推定手順データ記憶部
 130 制御部
 131 画像取得部
 132 調整部
 133 変換部
 134 推定部
 135 生成部
 136 出力制御部

Claims (17)

  1.  第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得部と、
     前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換部と、
     前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定部と、
     前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成部と、
     を備える情報処理装置。
  2.  前記取得部は、前記第2の対象物に基づく外観として、前記第1の対象物で目標とされる目標の外観を有する前記第2の対象物の画像を前記参照画像として取得し、
     前記変換部は、前記対象物画像乃至は前記参照画像のうちのいずれか一方の画像に基づいて、前記対象物画像および前記参照画像のうちの他方の画像が、前記目標の外観が反映された前記第1の対象物の画像へと変換された前記変換後画像を生成し、
     前記推定部は、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
     請求項1に記載の情報処理装置。
  3.  前記対象物画像と前記参照画像との間で、前記第1の対象物の外観、および、前記目標の外観以外の他の条件を合わせる調整を行う調整部を
     さらに備え、
     前記変換部は、前記調整部による調整後の前記対象物画像乃至は前記参照画像のうちのいずれか一方を用いて、前記他方の画像を変換する
     請求項2に記載の情報処理装置。
  4.  前記調整部は、前記対象物画像に基づき推定される照明環境の情報を前記対象物画像から除去し、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去することで、前記対象物画像と前記参照画像との間で照明環境の条件を除去する
     請求項3に記載の情報処理装置。
  5.  前記調整部は、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去した状態で、前記対象物画像に基づき推定される照明環境の情報を用いて前記参照画像を補正することで、前記対象物画像と前記参照画像との間で照明環境の条件を合わせる
     請求項3に記載の情報処理装置。
  6.  前記変換部は、前記対象物画像から抽出された前記第1の対象物の特徴情報に対して、前記参照画像から抽出された前記第2の対象物の特徴情報を合わせるように、前記参照画像を変換する
     請求項2に記載の情報処理装置。
  7.  前記変換後画像と前記対象物画像との組を入力とするモデルを生成する学習部を
     さらに備え、
     前記推定部は、前記モデルの出力情報に基づいて、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
     請求項2に記載の情報処理装置。
  8.  前記学習部は、前記第1の対象物に関する所定の対象物の外観を完成の状態へと変化させる動作の画像で構成される動画像と、前記動作の内容を説明する前記動画像内での発話情報との組合せを学習データとして用いて、前記所定の対象物の外観変化を示す前後の画像と、前記外観変化に起因する動作との関係性をモデルに学習させる
     請求項7に記載の情報処理装置。
  9.  前記学習部は、前記変換後画像と前記対象物画像との組が入力された場合に、前記第1の対象物の外観を前記目標の外観へと変化させるための処理手順の情報を出力するよう、前記関係性を前記モデルに学習させる
     請求項8に記載の情報処理装置。
  10.  前記生成部は、前記出力画像として、前記第1の対象物の外観に対して前記処理手順に応じた外観が作業結果として反映された前記第1の対象物の画像を生成する
     請求項1に記載の情報処理装置。
  11.  前記生成部は、前記出力画像とともに出力される出力情報として、前記処理手順で作業を行うよう指示する指示文を生成する
     請求項1に記載の情報処理装置。
  12.  前記生成部は、所定の言語モデルと、前記指示文とに基づいて、前記指示文の内容をより詳細に説明する詳細文を、前記出力情報としてさらに生成する
     請求項11に記載の情報処理装置。
  13.  前記取得部は、前記対象物画像として、前記第1の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得し、
     逐次取得された前記対象物画像に基づいて、誤った動作を検出する検出部を
     さらに有し、
     前記推定部は、前記検出部により誤った動作が検出された場合には、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第1の対象物の現在の外観を前記目標の外観に変化させるための処理手順を推定し直す
     請求項2に記載の情報処理装置。
  14.  前記検出部は、前記誤った動作として、前記第1の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された前記処理手順との間での乖離を検出する
     請求項13に記載の情報処理装置。
  15.  前記検出部は、前記誤った動作が検出された場合には、前記第1の対象物の外観を変化させるために実際に行われている動作手順に関連する新たな目標の外観を特定し、
     前記推定部は、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第1の対象物の現在の外観を前記新たな目標の外観に変化させるための処理手順を推定し直す
     請求項13に記載の情報処理装置。
  16.  情報処理装置が実行する情報処理方法であって、
     第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得工程と、
     前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換工程と、
     前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定工程と、
     前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成工程と、
     を含む情報処理方法。
  17.  第1の対象物の画像である対象物画像と、前記第1の対象物とは異なる第2の対象物に関する参照画像とを取得する取得手順と、
     前記対象物画像と前記参照画像とに基づいて、前記第1の対象物が変換された変換後画像を生成する変換手順と、
     前記変換後画像と、前記対象物画像とに基づいて、前記第1の対象物を前記第2の対象物に基づく外観に変化させるための処理手順を推定する推定手順と、
     前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第1の対象物の画像を出力画像として生成する生成手順と、
     をコンピュータに実行させるための情報処理プログラム。
PCT/JP2024/023875 2023-07-14 2024-07-02 情報処理装置、情報処理方法および情報処理プログラム Pending WO2025018140A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023115843 2023-07-14
JP2023-115843 2023-07-14

Publications (1)

Publication Number Publication Date
WO2025018140A1 true WO2025018140A1 (ja) 2025-01-23

Family

ID=94281883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/023875 Pending WO2025018140A1 (ja) 2023-07-14 2024-07-02 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2025018140A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102440A1 (ja) * 2007-02-21 2008-08-28 Tadashi Goino 化粧顔画像生成装置及び方法
JP2016055202A (ja) * 2016-01-26 2016-04-21 パナソニックIpマネジメント株式会社 メイクアップ支援装置およびメイクアップ支援方法
JP2020526809A (ja) * 2017-07-13 2020-08-31 シセイドウ アメリカズ コーポレイション 仮想顔化粧の除去、高速顔検出およびランドマーク追跡

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102440A1 (ja) * 2007-02-21 2008-08-28 Tadashi Goino 化粧顔画像生成装置及び方法
JP2016055202A (ja) * 2016-01-26 2016-04-21 パナソニックIpマネジメント株式会社 メイクアップ支援装置およびメイクアップ支援方法
JP2020526809A (ja) * 2017-07-13 2020-08-31 シセイドウ アメリカズ コーポレイション 仮想顔化粧の除去、高速顔検出およびランドマーク追跡

Similar Documents

Publication Publication Date Title
Habibie et al. Learning speech-driven 3d conversational gestures from video
JP7224323B2 (ja) イメージ生成システム及びこれを利用したイメージ生成方法
CN115588224B (zh) 一种基于人脸关键点预测的虚拟数字人生成方法及装置
US11582519B1 (en) Person replacement utilizing deferred neural rendering
JP2022503647A (ja) クロスドメイン画像変換
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
CN112417414B (zh) 一种基于属性脱敏的隐私保护方法、装置以及设备
KR20210040555A (ko) 베이시스 모델에 기초하여 가상 캐릭터의 표정을 모사하는 장치, 방법 및 컴퓨터 프로그램
CN118536616A (zh) 具有用于合成图像生成的图像编码器的机器学习扩散模型
CN114283052A (zh) 妆容迁移及妆容迁移网络的训练方法和装置
CN118648032A (zh) 用于面部属性操纵的系统和方法
CN119836650B9 (zh) 基于使用部分面部图像的三维面部建模的用户认证
CN113781271B (zh) 化妆教学方法及装置、电子设备、存储介质
CN113850169A (zh) 一种基于图像分割和生成对抗网络的人脸属性迁移方法
KR102247481B1 (ko) 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법
WO2025018140A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Kawaler et al. Database of speech and facial expressions recorded with optimized face motion capture settings
CN115861122A (zh) 脸部图像处理方法、装置、计算机设备及存储介质
Chuang Analysis, synthesis, and retargeting of facial expressions
RU2720361C1 (ru) Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон
Vandeventer 4D (3D Dynamic) statistical models of conversational expressions and the synthesis of highly-realistic 4D facial expression sequences
Tin Facial extraction and lip tracking using facial points
Cakir et al. Audio to video: Generating a talking fake agent
JP6856965B1 (ja) 画像出力装置及び画像出力方法
Nakashima et al. A Comparison of Cartoon Portrait Generators Based on Generative Adversarial Networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24842934

Country of ref document: EP

Kind code of ref document: A1