WO2025018140A1

WO2025018140A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2025018140A1
Application number: PCT/JP2024/023875
Authority: WO
Inventors: 拓也八島; 直郁秋本
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2023-07-14
Filing date: 2024-07-02
Publication date: 2025-01-23
Anticipated expiration: 2026-01-14

Abstract

情報処理装置は、取得部と、変換部と、推定部と、生成部とを備える。取得部は、第１の対象物の画像である対象物画像を取得するとともに、第１の対象物で目標とされる目標状態にある第２の対象物の画像を参照画像として取得する。変換部は、対象物画像および参照画像のうちのいずれか一方の画像に基づいて、対象物画像および参照画像のうちの他方の画像を、目標状態が反映された第１の対象物の画像へと変換する。推定部は、他方の画像が変換された後の変換後画像と、対象物画像とに基づいて、第１の対象物における所定の状態から、目標状態へと変化させるための処理手順を推定する。生成部は、対象物画像に基づいて、処理手順に応じて状態が変化させられた第１の対象物の画像を、ユーザに対して出力される出力画像として生成する。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　顔表面テクスチャに関する情報（例えば、化粧料を塗布した肌における、塗膜の付着状態）をユーザに提示する技術が知られている。

特開２０２２－２４５６５号公報

　しかしながら、上記の従来技術では、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができるとは限らない。例えば、上記の従来技術は、顔表面テクスチャあるいは顔形状の状態変化を把握しやすいよう提示するものに過ぎず、ある特定の状態にあるユーザを、ユーザが目標とする目標状態へと適切に誘導する点については考慮されていない。

　そこで、本開示では、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができる情報処理装置、情報処理方法および情報処理プログラムを提案する。

　本開示によれば、情報処理装置は、第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得部と、前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換部と、前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定部と、前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成部とを備える。

　以上説明したように本開示によれば、特定の状態を目標の状態へと変化させるうえでユーザを適切に支援することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施形態に係る情報処理の全体像を示す図である。実施形態に係るシステムの一例を示す図である。実施形態に係るサーバ装置の構成例を示す図である。実施形態に係る学習装置の構成例を示す図である。学習フェーズにおける前処理手法を説明する説明図である。学習フェーズにおける学習手法を説明する説明図である。実施形態に係る情報処理で実現される推定手法の一例を示す図（１）である。実施形態に係る情報処理で実現される推定手法の一例を示す図（２）である。変形例１に係るサーバ装置の構成例を示す図である。変形例１に係る推定処理手順を示すフローチャートである。変形例１に係る誤動作検出処理手順を示すフローチャートである。実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下に説明される１または複数の実施形態（実施例、変形例、適用例を含む）は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。

　また、以下に示す順序に従って本開示を説明する。
　　１．はじめに
　　２．概要
　　３．提案技術の全体像
　　４．システム構成
　　５．サーバ装置の構成
　　６．学習装置の構成
　　７．作業手順の推定手法
　　　７－１．情報処理手法（１）
　　　７－２．情報処理手法（２）
　　８．変形例１
　　　８－１．サーバ装置の構成
　　　８－２．処理手順（１）
　　　８－３．処理手順（２）
　　９．変形例２
　　１０．その他
　　１１．ハードウェア構成
　　１２．まとめ

［１．はじめに］
　本開示の提案技術は、複数の処理手順を必要とする作業の支援において好適に適用でき得る。本開示の提案技術は、ユーザが目標とする外観に近づけるようユーザの作業を支援するものである。例えば、本開示の提案技術は、目標とする化粧状態へと近づけるための顔メイク作業の支援、目標とする髪型状態へと近づけるためのヘアメイク作業の支援、目標とする塗装状態へと近づけるための塗装作業の支援等のシーンにおいて、好適に適用でき得る。以下の実施形態では、本開示の提案技術が顔メイク作業の支援に適用された場合における情報処理について説明するが、その他のシーンについても同様の情報処理が成立する。

［２．概要］
　例えば、目指したいメイク状態の顔写真があったとしても、自分がそのメイク状態に近づくにはどのような手順でメイク作業を進めるべきかを正確に把握することは困難である。そこで、目標とするメイク状態までの多段階のステップを提示して欲しいとのニーズがある。

　例えば、メイクを行うとき、メイクの参考となる顔写真があったとしても、顔写真に写るメイクモデルと比較して、顔やパーツの形すなわち顔形状、顔のベース色等が異なる場合があり、メイクモデルの顔写真を参考にするだけでは、仕上がりが異なってしまうことが多い。そのため、自分の顔形状、顔のベース色、また、メイク時の照明環境を考慮したうえでメイク手順を教えて欲しいとのニーズがある。

　そこで、本開示では、上記の課題を解決すべく、パラメータによって、顔形状、顔のベース色、さらには、ライティングの調整によって様々な照明環境をも表現できる3D　Morphable　Model（３ＤＭＭ）を利用することによって、ユーザが目標とするメイク状態にあるメイクモデルと、ユーザ自身との間で、顔形状、顔のベース色、あるいは、照明環境に違いがあっても、目標のメイク状態へとユーザが近づけるよう支援するシステムを提案する。

　具体的には、本開示の提案技術によれば、以下の情報処理が実現される。
（ｉ）目標のメイク状態（目標の外観）にあるメイクモデルの顔画像について変換処理することで、メイクモデルの実写時の外観を推定する。
（ｉｉ）メイクモデルのテクスチャ情報を損なわないようにしつつ、顔形状等がユーザのものに近づくよう外観を変換処理する。
（ｉｉｉ）メイク前のユーザの顔と、メイクモデルの外観と、を利用して、双方の間でのメイクの作業手順を、学習によって得た機械学習モデルによって推論する。

　ここで、メイクの作業手順とは、目標のメイク状態をメイクの完成段階と定めて、メイク完成までの複数段階のステップを指し示す。そして、各ステップでは、メイク内容の指示文が自動生成される。また、各ステップでは、メイクの仕方やコツを示す短い動画が生成される。また、各ステップでは、当該ステップでどのような見た目になるかがユーザ本人の３Ｄ（３次元）顔モデルに反映された画像が生成される。

　なお、本開示の提案技術では、メイク内容の指示文の自動生成、メイクの仕方やコツを示す短い動画の生成、および、見た目が反映された３Ｄ顔モデルの生成の全てが行われる必要はなく、少なくともいずれか１つが実行されるだけでもよい。

［３．提案技術の全体像］
　まず、図１を用いて、本開示の提案技術に係る情報処理（実施形態に係る情報）を説明する。図１は、実施形態に係る情報処理の全体像を示す図である。図１では、上記（ｉ）～（ｉｉｉ）の内容が概念的に示される。また、図１には、メイクを行っていない素の状態すなわちメイク前状態の人物Ｐ１（ユーザ）が、目標のメイク状態にある人物Ｐｘ（メイクモデル）の顔画像をリファレンス画像として用いることで、目標のメイク状態に近づくための作業手順の提示を要求する場面が示される。このような要求に応じて、情報処理装置の一例であるサーバ装置１００が、実施形態に係る情報処理により作業手順の推定および提示を行う。

　図１の例によれば、人物Ｐ１（ユーザ）は、ユーザ装置１０を用いて、メイク前状態（メイク前の外観）の自身の顔（第１の対象物の一例）の顔画像ＩＭ１（対象物画像の一例）をサーバ装置１００に入力する（ステップＳ１）。このように、顔画像ＩＭ１には、メイク前状態の人物Ｐ１の顔の外観が示される。なお、顔画像ＩＭ１は、例えば、ユーザ装置１０の撮像機能によって撮影された１つの静止画像であってもよいし、動画像であってもよい。

　また、人物Ｐ１は、自身が目標とするメイク状態（目標の外観の一例）にある人物、すなわちメイクモデルＰｘの顔（第２の対象物の一例）の顔画像ＩＭ２をリファレンス画像（参照画像）としてサーバ装置１００に入力する（ステップＳ２）。このように、顔画像ＩＭ２には、人物Ｐ１が目標とするメイク状態を有するメイクモデルＰｘの顔の外観が示される。なお、顔画像ＩＭ２は、例えば、ウェブ検索された画像であってもよいし、人物Ｐ１が撮影した他者の顔画像であってもよい。また、メイクモデルＰｘは、人物Ｐ１が好むタレントや女優等が考えられる。一方で、メイクモデルＰｘは、人物Ｐ１の近親者（例えば、家族や友人等）であってもよいし、気に入ったメイクができた際の人物Ｐ１自分自身であってもよい。また、顔画像ＩＭ２は、１つの静止画像であってもよいし、動画像であってもよい。

　サーバ装置１００は、顔画像ＩＭ１と、顔画像ＩＭ２とを受け付けると、メイク手順推定モデルＭ（機械学習モデル）を用いて、メイク前状態を、目標のメイク状態へと変化させるための作業手順（処理手順）を推定する（ステップＳ３）。例えば、サーバ装置１００は、顔画像ＩＭ１を３ＤＭＭに適用して生成された３次元画像である３Ｄ顔モデルと、顔画像ＩＭ２を同じく３ＤＭＭに適用して生成された３次元画像である３Ｄ顔モデルとをメイク手順推定モデルＭに入力し、その出力結果に基づいて、作業手順を推定する。

　なお、３Ｄ顔モデルそれぞれは、顔表面のテクスチャのうち、化粧以外のテクスチャを、人物Ｐ１とメイクモデルＰｘとの間で統一するように調整される。例えば、サーバ装置１００は、人物Ｐ１とメイクモデルＰｘとの間において、メイク前後でのテクスチャの違いだけを正確に比較できるよう、化粧以外の他の条件を合わせる調整を行う。ここで、化粧以外の他の条件とは、顔画像ＩＭ１が得られた空間（例えば、撮影空間）での照明環境等が挙げられる。

　また、サーバ装置１００は、図１の例によれば、２つの３Ｄ顔モデルのうちのいずれか一方の３Ｄ顔モデルに基づいて、他方の３Ｄ顔モデルを変換する処理も行う。例えば、サーバ装置１００は、顔画像ＩＭ２を基に生成された３Ｄ顔モデルの顔形状を、顔画像ＩＭ１を基に生成された３Ｄ顔モデルの顔形状に合わせるよう変換する。サーバ装置１００は、変換処理の結果、メイク前状態でかつ人物Ｐ１の肌ベース色を有する３Ｄ顔モデルと、目標のメイク状態でかつ人物Ｐ１の顔形状を有する３Ｄ顔モデルとを得ることができる。なお、ここで得られる３Ｄ顔モデルは、上記の調整処理の結果、化粧以外の他の条件が統一された状態となっている。したがって、サーバ装置１００は、調整処理および変換処理を行った後の３Ｄモデルをメイク手順推定モデルＭに入力する。

　図１には、サーバ装置１００が、メイク手順推定モデルＭから出力された情報に基づいて、１０段階の作業手順（一部省略）を推定した例が示される。具体的には、サーバ装置１００が、第１手順「カラーコンタクトレンズを入れる」，第２手順「化粧下地を塗る」，第３手順「ファンデーション＋アイシャドウ」・・・第８手順「眉を描く」，第９手順「ウィッグを付ける」，第１０手順「リップ」を推定した例が示される。

　サーバ装置１００は、図１のように作業手順を推定した場合、推定結果に基づいて、人物Ｐ１に出力（提示）する出力情報を生成する（ステップＳ４）。具体的には、サーバ装置１００は、人物Ｐ１に提示する指示文ＳＭと、作業手順が示す内容で実際に作業された場合に人物Ｐ１の外観がどのように変化するか変化後の外観が作業結果として反映された３Ｄ顔モデルＦＭとを生成する。

　図１の例によれば、サーバ装置１００は、第１手順「カラーコンタクトレンズを入れる」に基づいて、第１手順を指示する内容の指示文ＳＭ１を生成する。また、サーバ装置１００は、顔画像ＩＭ１に基づき生成した３Ｄ顔モデルに対して、第１手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化を反映させた３Ｄ顔モデルＦＭ１を生成する。つまり、サーバ装置１００は、メイク前状態の３Ｄ顔モデルを加工することで、人物Ｐ１がカラーコンタクトレンズを入れた外観へと変化させる。

　サーバ装置１００は、第２手順「化粧下地を塗る」に基づいて、第２手順を指示する内容の指示文ＳＭ２を生成する。また、サーバ装置１００は、第１手順までの外観変化が反映された３Ｄ顔モデルＦＭ１に対して、第２手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ２を生成する。具体的には、サーバ装置１００は、カラコン状態が反映された３Ｄ顔モデルＦＭ１をさらに加工することで、人物Ｐ１が化粧下地を塗った状態の外観へと変化させる。

　サーバ装置１００は、第３手順「ファンデーション＋アイシャドウ」に基づいて、第３手順を指示する内容の指示文ＳＭ３を生成する。また、サーバ装置１００は、第２手順までの外観変化が反映された３Ｄ顔モデルＦＭ２に対して、第３手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ３を生成する。具体的には、サーバ装置１００は、化粧下地が塗られた状態の３Ｄ顔モデルＦＭ２をさらに加工することで、人物Ｐ１がファンデーションとアイシャドウを行った状態の外観へと変化させる。

　サーバ装置１００は、第８手順「眉を描く」に基づいて、第８手順を指示する内容の指示文ＳＭ８を生成する。また、サーバ装置１００は、第７手順までの外観変化が反映された３Ｄ顔モデルＦＭ７（不図示）に対して、第８手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ８を生成する。具体的には、サーバ装置１００は、３Ｄ顔モデルＦＭ７をさらに加工することで、人物Ｐ１が眉を描いた状態の外観へと変化させる。

　サーバ装置１００は、第９手順「ウィッグを付ける」に基づいて、第９手順を指示する内容の指示文ＳＭ９を生成する。また、サーバ装置１００は、第８手順までの外観変化が反映された３Ｄ顔モデルＦＭ８に対して、第９手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ９を生成する。具体的には、サーバ装置１００は、眉が描かれた状態の３Ｄ顔モデルＦＭ８をさらに加工することで、人物Ｐ１がウィッグを付けた状態の外観へと変化させる。

　サーバ装置１００は、第１０手順「リップ」に基づいて、第１０手順を指示する内容の指示文ＳＭ１０を生成する。また、サーバ装置１００は、第９手順までの外観変化が反映された３Ｄ顔モデルＦＭ９に対して、第１０手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ１０を生成する。具体的には、サーバ装置１００は、ウィッグを付けた状態の３Ｄ顔モデルＦＭ９をさらに加工することで、人物Ｐ１がリップを付けた状態の外観へと変化させる。

　次に、サーバ装置１００は、ステップＳ４で生成した出力情報が人物Ｐ１のユーザ装置１０に出力されるよう出力制御する（ステップＳ５）。例えば、サーバ装置１００は、作業手順ごとに、指示文と３Ｄ顔モデルＦＭとを対応付けた状態で出力させてよい。例えば、サーバ装置１００は、指示文ＳＭ１と３Ｄ顔モデルＦＭ１とを対応付けた状態で出力させる。また、サーバ装置１００は、指示文ＳＭ２と３Ｄ顔モデルＦＭ２とを対応付けた状態で出力させる。また、サーバ装置１００は、指示文ＳＭ３と３Ｄ顔モデルＦＭ３とを対応付けた状態で出力させる。その他の指示文ＳＭと３Ｄ顔モデルＦＭとの組合せについても同様である。なお、人物Ｐ１は、ユーザ装置１０を用いて、３Ｄ顔モデルＦＭを様々な視点から見ることができる。例えば、人物Ｐ１は、ユーザ装置１０を用いて、３Ｄ顔モデルＦＭを自由に回転させることができる。

［４．システム構成］
　図２は、実施形態に係るシステムの一例を示す図である。図１には、実施形態に係るシステムの一例として、システム１が示される。実施形態に係る情報処理は、システム１において実現される。

　図２に示すように、システム１は、ユーザ装置１０と、学習装置３０と、サーバ装置１００とを備える。また、ユーザ装置１０と、学習装置３０と、サーバ装置１００とは、ネットワークＮを介して、有線または無線により通信可能に接続される。システム１に含まれるユーザ装置１０、学習装置３０、サーバ装置１００の数は限定されない。

　ユーザ装置１０は、第１の対象物の外観を、第１の対象物とは異なる第２の対象物に基づく外観すなわち目標の外観にするためのガイドを受けたいと考える人物によって利用される情報処理端末である。例えば、ユーザ装置１０は、スマートフォンや、ウェアラブルデバイスや、タブレット型端末や、ノート型ＰＣ（Personal　Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等である。ユーザ装置１０には、サーバ装置１００との間で情報の送受信を実現するアプリケーションが導入されてよい。

　学習装置３０は、第１の対象物の外観を目標の外観へと変化させるための処理手順を推定するための推定モデルの学習を行う。推定モデルの学習は、機械学習に関する種々の公知の技術を適宜用いて行われてもよい。例えば、推定モデルの学習は、ＳＶＭ（Support　Vector　Machine）等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、推定モデルの学習は、教師なし学習の機械学習に関する技術を用いて行われてもよい。また、推定モデルの学習は、深層学習（ディープラーニング）の技術を用いて行われてもよい。また、推定モデルの学習は、ＤＮＮ（Deep　Neural　Network）やＲＮＮ（Recurrent　Neural　Network）やＣＮＮ（Convolutional　Neural　Network）等の種々のディープラーニングの技術を適宜用いて行われてもよい。

　サーバ装置１００は、実施形態に係る情報処理を行う中心的な役割を有するクラウドコンピュータである。例えば、サーバ装置１００は、学習装置３０により生成された機械学習モデルに対して、ユーザ装置１０を介して取得した画像情報（例えば、元画像と参照画像）を入力し、モデルによる出力情報に基づいて、元画像で示される状態から参照画像で示される目標状態へと変化させるための処理手順を推定する。

［５．サーバ装置の構成］
　図３を用いて、実施形態に係るサーバ装置１００について説明する。図３は、実施形態に係るサーバ装置１００の構成例を示す図である。図３に示すように、サーバ装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０）
　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。例えば、通信部１１０は、ネットワークＮと有線または無線で接続され、ユーザ装置１０、学習装置３０との間で情報の送受信を行う。

（記憶部１２０）
　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、モデルデータ記憶部１２１と、画像データ記憶部１２２と、推定手順データ記憶部１２３とを有する。

　モデルデータ記憶部１２１は、第１の対象物における所定の状態を目標状態へと変化させるための処理手順を推定するための推定モデルのデータを記憶する。

　画像データ記憶部１２２は、実施形態に係る情報処理で用いられる各種画像データを記憶する。

　推定手順データ記憶部１２３は、第１の対象物における所定の状態を目標状態へと変化させるための処理手順と、処理手順を基に生成されたデータとを記憶する。

（制御部１３０）
　制御部１３０は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、サーバ装置１００内部の記憶装置に記憶されている各種プログラム（例えば、実施形態に係る情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図３に示すように、制御部１３０は、画像取得部１３１と、調整部１３２と、変換部１３３と、推定部１３４と、生成部１３５、出力制御部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（画像取得部１３１）
　画像取得部１３１は、処理手順の推定に用いる画像として、ユーザに入力された画像を取得する。例えば、画像取得部１３１は、特定の外観状態にある第１の対象物の画像である対象物画像を取得する。また、画像取得部１３１は、第１の対象物で目標とされる外観を有する第２の対象物の画像を参照画像として取得する。また、画像取得部１３１は、対象物画像と参照画像とを画像データ記憶部１２２に記憶させる。

（調整部１３２）
　調整部１３２は、対象物画像と参照画像との間で、対象物画像が示す第１の対象物の外観、および、参照画像が示す目標の外観以外の他の条件を合わせる調整を行う。例えば、調整部１３２は、対象物画像に基づき推定される照明環境の情報を対象物画像から除去し、参照画像に基づき推定される照明環境の情報を参照画像から除去することで、対象物画像と参照画像との間で照明環境の条件を除去する。また、調整部１３２は、参照画像に基づき推定される照明環境の情報を参照画像から除去した状態で、対象物画像に基づき推定される照明環境の情報を用いて参照画像を補正することで、対象物画像と参照画像との間で照明環境の条件を統一させてもよい。

（変換部１３３）
　変換部１３３は、対象物画像または参照画像のうちのいずれか一方の画像に基づいて、対象物画像および参照画像のうちの他方の画像が、目標に外観が反映された第１の対象物の画像へと変換された変換後画像を生成する。例えば、変換部１３３は、対象物画像から抽出された第１の対象物の特徴情報に対して、参照画像から抽出された第２の対象物の特徴情報を合わせるように、参照画像を変換することで変換後画像を生成する。顔メイク作業の支援を例に挙げると、変換部１３３は、対象物画像から抽出されたユーザの顔形状に対して、参照画像から抽出されたメイクモデルの顔形状を合わせるように、参照画像を変換する。

（推定部１３４）
　推定部１３４は、変換部１３３により生成された変換後画像と、対象物画像とに基づいて、第１の対象物を第２の対象物に基づく外観に変化させるための処理手順を推定する。具体的には、推定部１３４は、変換後画像と対象物画像との組を入力とする推定モデルによる出力情報に基づいて、第１の対象物の外観を第１の対象物で目標とされる目標の外観へと変化させるための処理手順を推定する。目標の外観は、第１の対象物とは異なる第２の対象物が有する。

（生成部１３５）
　生成部１３５は、対象物画像に基づいて、推定部１３４により推定された処理手順に応じて外観が変化した第１の対象物の画像を出力画像として生成する。例えば、生成部１３５は、出力画像として、第１の対象物の外観に対して処理手順に応じた外観が作業結果として反映された画像を生成する。

　また、生成部１３５は、出力画像とともに出力される出力情報として、処理手順で作業を行うようユーザに指示する指示文を生成する。また、生成部１３５は、所定の言語モデルと、指示文とに基づいて、指示文の内容をより詳細に説明する詳細文を、出力情報としてさらに生成してよい。

（出力制御部１３６）
　出力制御部１３６は、生成部１３５により生成された出力情報をユーザに提示する。具体的には、出力制御部１３６は、生成部１３５により生成された出力情報がユーザ装置１０に出力されるよう出力制御する。なお、指示文や詳細文は、テキスト形式で出力されてもよいし、音声形式で出力されてもよい。

［６．学習装置の構成］
　図４を用いて、実施形態に係る学習装置３０について説明する。図４は、実施形態に係る学習装置３０の構成例を示す図である。図４に示すように、学習装置３０は、通信部３１と、記憶部３２と、制御部３３とを有する。

（通信部３１）
　通信部３１は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。例えば、通信部３１は、ネットワークＮと有線または無線で接続され、サーバ装置１００との間で情報の送受信を行う。

（記憶部３２）
　記憶部３２は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、モデルデータ記憶部３２ａを有する。モデルデータ記憶部３２ａは、第１の対象物の外観を目標の外観へと変化させるための処理手順を推定するための推定モデルのデータを記憶する。

（制御部３３）
　制御部２２は、ＣＰＵやＭＰＵ等によって、学習装置３０内部の記憶装置に記憶されている各種プログラム（例えば、実施形態に係る情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部３３は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

　図３に示すように、制御部３３は、取得部３３ａと、生成部３３ｂと、学習部３３ｃとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部３３内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部３３が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部３３ａ）
　取得部３３ａは、学習データを構成する情報を取得する。例えば、取得部３３ａは、第１の対象物に関する所定の対象物の外観を完成状態の外観へと変化させる動作の画像で構成される動画像と、この動作の内容を説明する動画像内での発話情報とを取得する。

（生成部３３ｂ）
　生成部３３ｂは、第１の対象物に関する所定の対象物の外観を完成状態の外観へと変化させる動作の画像で構成される動画像と、動作の内容を説明する動画像内での発話情報とを組み合わせて学習データを生成する。

（学習部３３ｃ）
　学習部３３ｃは、学習データを用いて、所定の対象物の外観変化を示す前後の画像と、外観変化に起因する動作との関係性をモデルに学習させる。例えば、学習部３３ｃは、変換後画像と対象物画像との組が入力された場合に、第１の対象物の外観を目標の外観へと変化させるための処理手順の情報を出力するよう、上記の関係性をモデルに学習させることで、推定モデルを生成する。目標の外観は、変換後画像によって定義される。

　ここで、図５を用いて、学習フェーズにおける前処理手法を説明する。図５は、学習フェーズにおける前処理手法を説明する説明図である。図５には、任意の人物Ｐｙについてメイク前状態からメイク完成状態へと変化させるメイク動作の画像群で構成される動画像ＶＤと、メイク動作の内容を説明する動画像ＶＤ内での発話情報とを用いて、学習データが生成される一場面が示される。つまり、図５には、音声付きのメイクアップ動画を基に学習データが生成される例が示される。

　動画像ＶＤは、取得部３３ａによって取得され、生成部３３ｂによって学習データへと加工される。具体的には、生成部３３ｂは、任意の人物Ｐｙについてメイク前状態からメイク完成状態へと変化させるメイク動作の画像群で構成される動画像ＶＤと、メイク動作の内容を説明する動画像ＶＤでの発話情報とを用いて、学習データを生成する。

　図５の例によれば、生成部３３ｂは、動画像ＶＤ内で行われている動作のうち、顔メイクに必要な動作（メイク完成状態へともってゆくための動作）と、顔メイクに必要な動作が行われたタイムスタンプとを対応付けて抽出する。生成部３３ｂは、動画像ＶＤに含まれる発話情報（音声データ）を解析することで、顔メイクに必要な動作と、顔メイクに必要な動作が行われたタイムスタンプとの組を抽出してよい。また、動画像ＶＤには、動画像ＶＤに含まれる発話情報（音声データ）が文字起こしされた字幕情報やタイムスタンプがメタデータとして予め挿入されている場合がある。係る場合には、生成部３３ｂは、メタデータに基づいて、顔メイクに必要な動作と、顔メイクに必要な動作が行われたタイムスタンプとの組を抽出することができる。

　図５には、生成部３３ｂが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「３：５０」と、必要動作「スキンケア」との組を抽出した例が示される。また、生成部３３ｂが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「４：５５」と、必要動作「下地」との組を抽出した例が示される。また、生成部３３ｂが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「７：２０」と、必要動作「ファンデーション」との組を抽出した例が示される。また、生成部３３ｂが、タイムスタンプと顔メイクに必要な動作との組として、再生時間「７：３８」と、必要動作「コンシーラー」との組を抽出した例が示される。図示されるその他の組合せについては説明を省略する。

　次に、生成部３３ｂは、動画像ＶＤの中から、抽出した必要動作に対応する範囲を必要動作ごとに検索する。上記例の場合、生成部３３ｂは、再生時間「３：５０」と、必要動作「スキンケア」との組に基づいて、動画像ＶＤにおいて必要動作「スキンケア」が実際に行われていた範囲を検索する。図５には、生成部３３ｂが、動画像ＶＤにおいて必要動作「スキンケア」が実際に行われていた範囲として、動画範囲ＲＡ１を検索した例が示される。

　また、生成部３３ｂは、再生時間「４：５５」と、必要動作「下地」との組に基づいて、動画像ＶＤにおいて必要動作「下地」が実際に行われていた範囲を検索する。図５には、生成部３３ｂが、動画像ＶＤにおいて必要動作「下地」が実際に行われていた範囲として、動画範囲ＲＡ２を検索した例が示される。

　また、生成部３３ｂは、再生時間「７：２０」と、必要動作「ファンデーション」との組に基づいて、動画像ＶＤにおいて必要動作「ファンデーション」が実際に行われていた範囲を検索する。図５には、生成部３３ｂが、動画像ＶＤにおいて必要動作「ファンデーション」が実際に行われていた範囲として、動画範囲ＲＡを検索した例が示される。

　また、生成部３３ｂは、再生時間「７：３８」と、必要動作「コンシーラー」との組に基づいて、動画像ＶＤにおいて必要動作「コンシーラー」が実際に行われていた範囲を検索する。図５には、生成部３３ｂが、動画像ＶＤにおいて必要動作「コンシーラー」が実際に行われていた範囲として、動画範囲ＲＡ４を検索した例が示される。

　次に、図６を用いて、学習フェーズにおける学習手法を説明する。図６は、学習フェーズにおける学習手法を説明する説明図である。図６では、引き続き図５の例を採用する。図６には、再生時間「１７：３０」と、必要動作「リップ」との組に基づいて、学習データの生成および学習処理が行われる場面が示される。

　例えば、生成部３３ｂは、動画像ＶＤにおいて必要動作「リップ」が実際に行われていた動画範囲ＲＡ１２から、顔特徴の代表的なフレーム画像ＦＬ１２を取得する。また、生成部３３ｂは、必要動作「リップ」よりもひとつ前の必要動作「眉毛」が実際に行われていた動画範囲ＲＡ１１から、顔特徴の代表的なフレーム画像ＦＬ１１を取得する。このように、生成部３３ｂは、顔メイクに必要な動作ごとに、当該動作の前後における顔特徴の代表的なフレームを取得する。

　そして、生成部３３ｂは、フレーム画像ＦＬ１１と、フレーム画像ＦＬ１２と、フレーム画像ＦＬ１１が示す人物Ｐｙの外観（リップを塗る前の外観）からフレーム画像ＦＬ１２が示す人物Ｐｙの外観（リップを塗った後の外観）への状態変化に起因する動作すなわち必要動作「リップ」との組合せを１つの学習データとして生成する。

　また、係る例では、学習部３３ｃは、フレーム画像ＦＬ１１と、フレーム画像ＦＬ１２と、必要動作「リップ」との関係性をモデルに学習させる。例えば、学習部３３ｃは、フレーム画像ＦＬ１１が示す外観（リップを塗る前の外観）から、フレーム画像ＦＬ１２が示す外観（リップを塗った後の外観）へと外観変化させるには、「リップを塗る」という作業手順が必要になることを学習する。なお、学習部３３ｃは、メイク完成状態のフレーム画像も学習データとして用いることで、メイク完成状態との差分も学習してよい。

　また、図６では、必要動作「リップ」に着目したが、生成部３３ｂは、抽出された必要動作それぞれについて、当該必要動作における前後での外観変化を学習することになる。例えば、生成部３３ｂは、動画像ＶＤにおいて必要動作「下地」が実際に行われていた動画範囲ＲＡ２から、顔特徴の代表的なフレーム画像ＦＬ２を取得する。また、生成部３３ｂは、必要動作「下地」よりもひとつ前の必要動作「スキンケア」が実際に行われていた動画範囲ＲＡ１から、顔特徴の代表的なフレーム画像ＦＬ１を取得する。

　そして、生成部３３ｂは、フレーム画像ＦＬ１と、フレーム画像ＦＬ２と、フレーム画像ＦＬ１が示す人物Ｐｙの外観（下地を塗る前の外観）からフレーム画像ＦＬ２が示す人物Ｐｙの外観（下地を塗った後の外観）への外観変化に起因する動作すなわち必要動作「下地」との組合せを１つの学習データとして生成する。

　また、学習部３３ｃは、フレーム画像ＦＬ１と、フレーム画像ＦＬ２と、必要動作「下地」との関係性をモデルに学習させる。例えば、学習部３３ｃは、フレーム画像ＦＬ１が示す外観（下地を塗る前の外観）から、フレーム画像ＦＬ２が示す外観（下地を塗った後の外観）へと外観変化させるには、「下地を塗る」という作業手順が必要になることを学習する。

　なお、学習部３３ｃは、１つの動画像ＶＤではなく、より多くの動画像ＶＤから、必要動作前後での外観変化を学習することが好ましい。この結果、学習部３３ｃは、より高精度な推定モデルを生成することができるようになる。

［７．作業手順の推定手法］
　図７および図８を用いて、実施形態に係る情報処理で実現される、作業手順の推定手法を説明する。図７では、図１での例示内容を引き続き採用し、顔画像ＩＭ１（対象物画像）と顔画像ＩＭ２（リファレンス画像）との間で条件を統一するための調整処理の手法、および、顔画像ＩＭ１と顔画像ＩＭ２との間で人物の特徴を合わせるための変換処理の手法を説明する。図８では、作業手順の推定手法と、推定結果に基づく情報の出力手法を説明する。

［７－１．情報処理手法（１）］
　図７は、実施形態に係る情報処理で実現される推定手法の一例を示す図（１）である。図７には、人物Ｐ１（ユーザ）が、ユーザ装置１０を用いて、メイク前状態（メイク前の外観）の自身の顔の顔画像ＩＭ１をサーバ装置１００に入力した例が示される。また、図７には、人物Ｐ１が、自身が目標とするメイク状態（目標の外観）にある人物、すなわちメイクモデルＰｘの顔画像ＩＭ２をリファレンス画像としてサーバ装置１００に入力した例が示される。ここでは、顔画像ＩＭ１と顔画像ＩＭ２とが同一タイミングで入力されたものとする。

　画像取得部１３１は、人物Ｐ１による画像入力に応じて、顔画像ＩＭ１を取得する（ステップＳ１０１）。また、生成部１３５は、顔画像ＩＭ１を３次元予測モデル（例えば、３ＤＭＭ）に適用することで、人物Ｐ１の３Ｄ顔モデルＦＭｘを生成する（ステップＳ１０２）。３Ｄ顔モデルＦＭｘにおける顔表面テクスチャは、メイク前状態の外観特徴と、人物Ｐ１の肌ベース色（地肌の色）とを含む。また、３Ｄ顔モデルＦＭｘにおける顔表面テクスチャは、顔画像ＩＭ１が撮影された空間で使用されている光源の影響（例えば、影の情報）を受けた状態である。

　ここで、調整部１３２は、３Ｄ顔モデルＦＭｘに基づいて、顔画像ＩＭ１が撮影された空間での照明環境の情報を推定する（ステップＳ１０３）。例えば、調整部１３２は、照明環境の情報として、顔画像ＩＭ１の撮影空間で使用されている光源による光の強度、光源から人物Ｐ１へと光が照射される角度等を推定してよい。

　そして、調整部１３２は、ステップＳ１０３で推定した照明環境の情報を３Ｄ顔モデルＦＭｘから除去する（ステップＳ１０４）。例えば、調整部１３２は、照明環境の情報に基づいて、顔画像ＩＭ１の撮影空間で使用されている光源が、顔画像ＩＭ１の見た目に及ぼす影響を除去する。この結果、調整部１３２は、光源による影響が除去されたことで、顔表面テクスチャとして、メイク前状態の外観特徴と人物Ｐ１の肌ベース色とが実物に近い状態や色合いで反映された３Ｄ顔モデルＦＭｘｘを得ることができる。

　また、画像取得部１３１は、人物Ｐ１による画像入力に応じて、顔画像ＩＭ２を取得する（ステップＳ２０１）。そして、生成部１３５は、顔画像ＩＭ２を３次元予測モデル（例えば、３ＤＭＭ）に適用することで、メイクモデルＰｘの３Ｄ顔モデルＦＭｙを生成する（ステップＳ２０２）。３Ｄ顔モデルＦＭｙにおける顔表面テクスチャは、メイク後状態の特徴を含む。また、３Ｄ顔モデルＦＭｙにおける顔表面テクスチャは、顔画像ＩＭ２が撮影された空間で使用されている光源の影響（例えば、影の情報）を受けた状態である。

　そこで、調整部１３２は、３Ｄ顔モデルＦＭｙに基づいて、顔画像ＩＭ２が撮影された空間での照明環境の情報を推定する（ステップＳ２０３）。例えば、調整部１３２は、照明環境の情報として、顔画像ＩＭ２の撮影空間で使用されている光源による光の強度、光源からメイクモデルＰｘへと光が照射される角度等を推定してよい。

　そして、調整部１３２は、ステップＳ２０３で推定した照明環境の情報を３Ｄ顔モデルＦＭｙから除去する（ステップＳ２０４）。例えば、調整部１３２は、照明環境の情報に基づいて、顔画像ＩＭ２の撮影空間で使用されている光源が、顔画像ＩＭ２の見た目に及ぼす影響を除去する。この結果、調整部１３２は、光源による影響が除去されたことで、顔表面テクスチャとして、メイク後状態の外観特徴が実物に近い状態や色合いで反映された３Ｄ顔モデルＦＭｘｘを得ることができる。

　ここで、双方の３Ｄ顔モデルから照明環境の情報を除去するというステップＳ１０４およびＳ２０４の処理は、人物Ｐ１とメイクモデルＰｘとの間において、メイク前状態およびメイク後状態以外の他の条件（照明条件）を統一させるための調整処理である。しかしながら、調整部１３２は、メイク前状態およびメイク後状態以外の他の条件を統一させる調整処理において、単純に照明環境の情報を除去するのではなく、メイクモデルＰｘ側の照明条件を人物Ｐ１側の照明条件に合わせる調整処理を行ってもよい。

　例えば、調整部１３２は、ステップＳ２０３で推定した照明環境の情報（メイクモデルＰｘ側の照明条件）を３Ｄ顔モデルＦＭｙから除去した状態で、ステップＳ１０３で推定した照明環境の情報（人物Ｐ１側の照明条件）を用いて、３Ｄ顔モデルＦＭｙを補正してよい。より具体的には、調整部１３２は、ステップＳ２０３で推定した照明環境の情報が除去された３Ｄ顔モデルＦＭｙに対して、ステップＳ１０３で推定した照明環境の情報を適用することで、３Ｄ顔モデルＦＭｙの顔表面テクスチャが人物Ｐ１側の照明条件に応じたものになるよう３Ｄ顔モデルＦＭｙの顔表面テクスチャを補正する。

　また、ステップＳ１０１～Ｓ１０５の処理と、ステップＳ２０１～Ｓ２０５の処理とは並行して行われてよい。そして、これらの処理が終了すると、変換部１３３は、顔の特徴情報を抽出する（ステップＳ３０５）。具体的には、変換部１３３は、３Ｄ顔モデルＦＭｘｘからは人物Ｐ１の顔の特徴情報を抽出し、３Ｄ顔モデルＦＭｙｙからはメイクモデルＰｘの顔の特徴情報を抽出する。例えば、変換部１３３は、３Ｄ顔モデルＦＭｘｘからは人物Ｐ１の顔形状の情報を抽出し、３Ｄ顔モデルＦＭｙｙからはメイクモデルＰｘの顔形状の情報を抽出してよい。顔形状の情報には、顔の輪郭を示す情報だけでなく、顔の凹凸を示す情報（例えば、鼻の形状、鼻の高さ、唇の形状、唇の厚み等）も含まれてよい。

　次に、変換部１３３は、ステップＳ３０５で抽出した特徴情報に基づいて、人物Ｐ１の顔の特徴情報に対して、メイクモデルＰｘの顔の特徴情報を合わせるように、３Ｄ顔モデルＦＭｙｙを変換する（ステップＳ３０６）。例えば、変換部１３３は、人物Ｐ１の顔形状に対して、メイクモデルＰｘの顔形状を合わせるように、３Ｄ顔モデルＦＭｙｙの形状を変換する。この結果、変換部１３３は、メイクモデルＰｘの顔の特徴情報が人物Ｐ１の顔の特徴情報に合わせられた３Ｄ顔モデルＦＭｙｙｘを得ることができる。

　また、変換部１３３は、ＵＶマッピングを行ってよい（ステップＳ３０７）。具体的には、変換部１３３は、３Ｄ顔モデルＦＭｘｘをＵＶマッピングすることで、２次元のＵＶマップとして、２Ｄ顔画像ＵＶＧ１を得る。また、変換部１３３は、３Ｄ顔モデルＦＭｙｙｘをＵＶマッピングすることで、２次元のＵＶマップとして、２Ｄ顔画像ＵＶＧ２を得る。

　さて、これまで説明してきた処理によれば、２Ｄ顔画像ＵＶＧ１（人物Ｐ１）と、２Ｄ顔画像ＵＶＧ２（メイクモデルＰｘ）との間において、顔表面のテクスチャのうち、化粧以外のテクスチャが統一される。具体的には、調整処理や変換処理が行われていない初期の段階では、対象物画像とリファレンス画像との間において、顔形状や照明環境等に違いがあるため、メイク前後で顔表面テクスチャにどのような違いが生じるかメイクによる影響のみを正確に比較することが困難である。しかしながら、ここまでの処理によって得られた２Ｄ顔画像ＵＶＧ１と２Ｄ顔画像ＵＶＧ２との間では、顔形状や照明条件が統一され、単純に、メイク前状態とメイク後状態との差分のみが残された状態となる。このため、サーバ装置１００は、メイク前後における顔表面テクスチャの違いだけを正確に抽出でき、これらの比較に加えて、肌ベース色をヒントとすることで、精度よく作業手順を推定することができるようになる。ステップＳ３０７以降に行われる推定処理の手法については図８で説明する。

　なお、変換部１３３は、ステップＳ３０６では、人物Ｐ１の顔の特徴情報に対して、メイクモデルＰｘの顔の特徴情報を合わせるように、３Ｄ顔モデルＦＭｙｙを変換するのではなく、逆の処理を行ってもよい。具体的には、変換部１３３は、メイクモデルＰｘの顔の特徴情報に対して、人物Ｐ１の顔の特徴情報を合わせるように、３Ｄ顔モデルＦＭｘｘを変換してもよい。

［７－２．情報処理手法（２）］
　図８は、実施形態に係る情報処理で実現される推定手法の一例を示す図（２）である。まず、推定部１３４は、ＵＶマップまたは３次元顔モデルをメイク手順推定モデルＭに入力する（ステップＳ０４０１）。例えば、推定部１３４は、図７のステップＳ３０７で生成された２Ｄ顔画像ＵＶＧ１と２Ｄ顔画像ＵＶＧ２とをメイク手順推定モデルＭに入力する。他の例として、推定部１３４は、３次元顔モデルをさらにメイク手順推定モデルＭに入力してもよい。具体的には、推定部１３４は、２Ｄ顔画像ＵＶＧ１および３Ｄ顔モデルＦＭｘｘの組と、２Ｄ顔画像ＵＶＧ２および３Ｄ顔モデルＦＭｙｙｘの組とを、メイク手順推定モデルＭに入力してよい。さらに他の例として、推定部１３４は、３次元顔モデルを入力する一方で、ＵＶマップについては入力しない手法を採用することもできる。具体的には、推定部１３４は、３Ｄ顔モデルＦＭｘｘと３Ｄ顔モデルＦＭｙｙｘとをメイク手順推定モデルＭに入力するだけでもよい。メイク手順推定モデルＭの学習手法については、図５および図６で説明した通りである。

　推定部１３４は、メイク手順推定モデルＭから出力された情報に基づいて、顔画像ＩＭ１が示すメイク前状態から、顔画像ＩＭ２が示す目標のメイク状態へと変化させるためのメイクに関する作業手順を推定する（ステップＳ４０２）。図８には、図１の例と同様に、推定部１３４が、第１手順「カラーコンタクトレンズを入れる」，第２手順「化粧下地を塗る」，第３手順「ファンデーション＋アイシャドウ」・・・第８手順「眉を描く」，第９手順「ウィッグを付ける」，第１０手順「リップ」を推定した例が示される。

　なお、推定部１３４は、必ずしも１０段階の作業手順を推定するとは限らない。例えば、推定部１３４は、メイク前状態の顔画像ＩＭ１ではなく、途中までメイクが進んだ状態の顔画像ＩＭ１が入力された場合には、より少ないステップ数で構成される作業手順を推定する場合がある。また、推定部１３４は、人物Ｐ１の肌ベース色に依っては、より多くのステップ数で構成される作業手順を推定する場合がある。このように、状況に合わせてステップ数や作業手順の内容を変えることができる理由は、実施形態に係る情報処理が、単なるルールベースによる推定ではなく、機械学習モデルを用いることで、目標状態へと雰囲気を近づけることを目指すものであるためである。

　また、生成部１３５は、ステップＳ４０２で推定された作業手順に基づいて、この作業手順で作業を行うよう指示する指示文ＳＭを生成する（ステップＳ４０３）。図８には、図１の例と同様に、生成部１３５が、例えば、第１手順「カラーコンタクトレンズを入れる」に基づいて、第１手順を指示する内容の指示文ＳＭ１を生成した例等が示される。

　また、生成部１３５は、ステップＳ４０２で推定された作業手順ごとに、当該作業手順が示す内容で実際に作業された場合に人物Ｐ１の外観がどのように変化するか変化後の外観が作業結果として反映された３Ｄ顔モデルＦＭを生成する（ステップＳ４０４）。

　具体的には、生成部１３５は、３Ｄ顔モデルＦＭｘｘに対して、第１手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化を反映させた３Ｄ顔モデルＦＭ１を生成する。つまり、生成部１３５は、メイク前状態の３Ｄ顔モデルＦＭｘｘを加工することで、人物Ｐ１がカラーコンタクトレンズを入れた状態の外観へと変化させる。

　また、生成部１３５は、第１手順までの外観変化が反映された３Ｄ顔モデルＦＭ１に対して、第２手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ２を生成する。具体的には、生成部１３５は、カラコン状態が反映された３Ｄ顔モデルＦＭ１をさらに加工することで、人物Ｐ１が化粧下地を塗った状態の外観へと変化させる。

　また、生成部１３５は、第２手順までの外観変化が反映された３Ｄ顔モデルＦＭ２に対して、第３手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ３を生成する。具体的には、生成部１３５は、化粧下地が塗られた状態の３Ｄ顔モデルＦＭ２をさらに加工することで、人物Ｐ１がファンデーションとアイシャドウを行った状態の外観へと変化させる。

　生成部１３５は、第７手順までの外観変化が反映された３Ｄ顔モデルＦＭ７に対して、第８手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ８を生成する。具体的には、サーバ装置１００は、３Ｄ顔モデルＦＭ７をさらに加工することで、人物Ｐ１が眉を描いた状態の外観へと変化させる。

　また、生成部１３５は、第８手順までの外観変化が反映された３Ｄ顔モデルＦＭ８に対して、第９手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ９を生成する。具体的には、生成部１３５は、眉が描かれた状態の３Ｄ顔モデルＦＭ８をさらに加工することで、人物Ｐ１がウィッグを付けた状態の外観へと変化させる。

　また、生成部１３５は、第９手順までの外観変化が反映された３Ｄ顔モデルＦＭ９に対して、第１０手順で作業を行った場合に人物Ｐ１の顔の見た目に生じる外観変化をさらに反映させた３Ｄ顔モデルＦＭ１０を生成する。具体的には、生成部１３５は、ウィッグを付けた状態の３Ｄ顔モデルＦＭ９をさらに加工することで、人物Ｐ１がリップを付けた状態の外観へと変化させる。

　なお、生成部１３５は、ステップＳ４０３で生成した指示文ＳＭを大規模言語モデルＬＬＭに入力し（ステップＳ４０５）、その出力情報に基づいて、指示文ＳＭの内容をより詳細に説明する詳細指示文をさらに生成してよい（ステップＳ４０６）。例えば、生成部１３５は、指示文ＳＭ１と大規模言語モデルとに基づいて、「利き手の人差し指の先にレンズをのせる」→「利き手の中指で下まぶたを引き下げる」→「レンズを黒目に正しくのせたら、まぶたを押さえていた指をゆっくり離す」という流れの詳細指示文を生成することができる。

　次に、出力制御部１３６は、作業手順ごとに指示文ＳＭと３Ｄ顔モデルＦＭとを対応付けた出力情報が人物Ｐ１のユーザ装置１０に出力されるよう出力制御する（ステップＳ４０７）。なお、詳細指示文の出力方法は、限定されない。例えば、出力制御部１３６は、指示文ＳＭが人物Ｐ１に選択された場合には、選択された指示文ＳＭに対応する詳細指示文をユーザ装置１０に出力させてよい。一方、出力制御部１３６は、表示スペースが確保できる場合には、指示文ＳＭとともに詳細指示文も表示させてもよい。

［８．変形例１］
　ここからは、本開示の変形例１について説明する。例えば、サーバ装置１００は、上記実施形態以外にも種々の異なる態様で実施されてよい。そこで、以下では、本開示の変形例１に係るサーバ装置１００を「サーバ装置１００Ａ」と表記する。

　ここで、顔メイクを例に挙げると、ユーザは、作業手順が提示されたとしても、手順通りメイク作業を進めることができなかったり、作業手順で示される内容とは異なった動作をしてしまったりする場合がある。つまり、ユーザは、サーバ装置１００によって推定された当初の作業手順とは異なる誤った動作を行ってしまう場合がある。そこで、サーバ装置１００Ａは、ユーザの誤った動作を検出した場合には、現在のメイク状態を起点として、目標状態へと変化させるための作業手順を推定し直すという機能を有する。係る機能は、図３で説明した実施形態に係るサーバ装置１００に対して新たに組み込まれる機能であってよく、詳細な機能構成については以下で説明する。

［８－１．サーバ装置の構成］
　図９を用いて、変形例１に係るサーバ装置１００Ａについて説明する。図９は、変形例１に係るサーバ装置１００Ａの構成例を示す図である。図３に示すように、サーバ装置１００Ａは、通信部１１０と、記憶部１２０と、制御部１３０Ａとを有する。通信部１１０および記憶部１２０は、図３と同様であるため説明を省略する。

（制御部１３０Ａ）
　制御部１３０Ａは、ＣＰＵやＭＰＵ等によって、サーバ装置１００Ａ内部の記憶装置に記憶されている各種プログラム（例えば、変形例１に係る情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０Ａは、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

　図９に示すように、制御部１３０Ａは、画像取得部１３１と、調整部１３２と、変換部１３３と、推定部１３４と、生成部１３５、出力制御部１３６、検出部１３７とを有し、以下に説明する情報処理の機能や作用を実現または実行する。このように、制御部１３０Ａは、サーバ装置１００と比較して、検出部１３７を新たに有する。制御部１３０Ａの内部構成は、図９に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０Ａが有する各処理部の接続関係は、図９に示した接続関係に限られず、他の接続関係であってもよい。

（画像取得部１３１）
　上記実施形態では、画像取得部１３１は、目標の状態に向けて外観を変化させる前の元の状態を示す１つの対象物画像を、推定処理のための入力情報として取得する例を示した。例えば、画像取得部１３１は、ユーザ装置１０の撮像機能によって撮影された１つの静止画像として、メイク前状態の様子が示された顔画像ＩＭ１を入力情報として取得する例を示した。

　しかしながら、画像取得部１３１は、第１の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得してもよい。このようなケースとして、例えば、ユーザが、メイク前状態から徐々にメイクを行ってゆく作業を、ユーザ装置１０を用いてリアルタイムに動画撮影するシーンが考えられる。また、ユーザが、メイクを進めた途中の段階の様子を、ユーザ装置１０を用いて静止画像として撮影したり、動画像として撮影したりするシーンも考えられる。このような場合、画像取得部１３１は、リアルタイムに撮影された対象物画像を逐次取得する。

（検出部１３７）
　検出部１３７は、画像取得部１３１により逐次取得された対象物画像に基づいて、ユーザの誤った動作を検出する。例えば、検出部１３７は、誤った動作として、第１の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された処理手順との間での乖離を検出してよい。

（推定部１３４）
　推定部１３４は、検出部１３７により誤った動作が検出された場合には、逐次取得された対象物画像のうち、最新の対象物画像を用いて、第１の対象物の現在の外観を、目標の外観へと変化させるための処理手順を推定し直す。

［８－２．処理手順（１）］
　誤った動作が検出された場合における再推定処理の手順を説明するに先立って、対象物画像の逐次取得に対応する推定処理の手順を説明する。図１０は、変形例１に係る推定処理手順を示すフローチャートである。図１０では、メイク前状態に対応する顔画像ＩＭ１と、人物Ｐ１が目標とするメイク状態に対応する顔画像ＩＭ２とを基に推定された作業手順を確認しつつ、メイク途中現時点でのメイク状態の顔画像ＩＭ１をさらに入力するという利用シーンを想定する。

　まず、画像取得部１３１は、新たな顔画像ＩＭ１を取得できたか否かを判定する（ステップＳ１００１）。画像取得部１３１は、新たな顔画像ＩＭ１を取得できていない間は（ステップＳ１００１；Ｎｏ）、新たな顔画像ＩＭ１を取得できるまで待機する。一方、画像取得部１３１は、人物Ｐ１がメイクする様子をリアルタイムに撮影された顔画像ＩＭ１がユーザ装置１０によってサーバ装置１００に入力された場合には（この間、人物Ｐ１は、サーバ装置１００により提示された作業手順を見ながらメイクを行っている）、新たな顔画像ＩＭ１を取得できたと判定できる。新たな顔画像ＩＭ１は、１つの静止画像であってもよいし、動画像であってもよい。

　推定部１３４は、新たな顔画像ＩＭ１が取得された場合には（ステップＳ１００１；Ｙｅｓ）、取得された新たな顔画像ＩＭ１と、あらかじめ入力されている顔画像ＩＭ２とに基づいて、新たな顔画像ＩＭ１が示す現時点でのメイク状態を、目標のメイク状態へと変化させるための作業手順を推定する（ステップＳ１００２）。

　なお、推定部１３４は、実際には、新たな顔画像ＩＭ１を基に生成された２Ｄ顔画像ＵＶＧ１（もしくは、３Ｄ顔モデルＦＭｘｘ）と、顔画像ＩＭ２を基に生成された２Ｄ顔画像ＵＶＧ２（もしくは、３Ｄ顔モデルＦＭｙｙｘ）とをメイク手順推定モデルＭに入力することで、作業手順を推定する。図７で説明したように、ＵＶマップ（２Ｄ顔画像ＵＶＧ１、２Ｄ顔画像ＵＶＧ２）を得るまでには、調整部１３２による調整処理や、変換部１３３による変換処理が行われる。

　そして、生成部１３５は、ステップＳ１００２で推定された作業手順に基づいて、人物Ｐ１に提示される出力情報を生成する（ステップＳ１００３）。具体的には、生成部１３５は、指示文ＳＭや、作業手順が行われた結果が反映された３Ｄ顔モデルを作業手順ごとに生成する。

　図１０に示すように、サーバ装置１００は、メイク途中の顔画像ＩＭ１が入力されることに応じて、推定処理を繰り返す。そして、サーバ装置１００は、人物Ｐ１が実際に行ったメイク動作と、これまでに推定した作業手順との比較に基づき、誤った動作を検出できた場合には、ステップＳ１００３で生成した出力情報を再推定の結果として人物Ｐ１に提示する。図１１では、この点についてより詳細に説明する。

［８－３．処理手順（２）］
　図１１は、変形例１に係る誤動作検出処理手順を示すフローチャートである。画像取得部１３１は、新たな顔画像ＩＭ１を取得できたか否かを判定する（ステップＳ１１０１）。画像取得部１３１は、新たな顔画像ＩＭ１を取得できていない間は（ステップＳ１１０１；Ｎｏ）、新たな顔画像ＩＭ１を取得できるまで待機する。

　一方、検出部１３７は、新たな顔画像ＩＭ１が取得された場合には（ステップＳ１１０１；Ｙｅｓ）、今回取得された顔画像ＩＭ１を画像解析し、現時点で実際に行われているメイク動作を特定する（ステップＳ１１０２）。

　そして、検出部１３７は、推定部１３４によってこれまでに推定された作業手順と、ステップＳ１１０２で特定した実際のメイク動作とを比較し、推定済みの作業手順と、実際のメイク動作との間に乖離かあるかどうかを検出する（ステップＳ１１０３）。例えば、検出部１３７は、最も初期の推定結果（すなわち、メイク前状態に対応する顔画像ＩＭ１と、人物Ｐ１が目標とするメイク状態に対応する顔画像ＩＭ２とを基に推定された作業手順）と、実際のメイク動作とを比較してよい。

　検出部１３７は、推定済みの作業手順と、実際のメイク動作との間に乖離を検出できなかった場合には（ステップＳ１１０３；Ｎｏ）、ステップＳ１１０１に処理を戻す。

　一方、出力制御部１３６は、推定済みの作業手順と、実際のメイク動作との間に乖離が検出された場合には（ステップＳ１１０３；Ｙｅｓ）、今回取得された顔画像ＩＭ１に対応する出力情報を、再推定された作業手順の情報として取得する（ステップＳ１１０４）。具体的には、出力制御部１３６は、ステップＳ１１０１で取得された新たな顔画像ＩＭ１を用いて図１０の手順で生成された出力情報を取得する。

　そして、出力制御部１３６は、取得した出力情報が人物Ｐ１のユーザ装置１０に出力されるよう出力制御する（ステップＳ１１０５）。

［９．変形例２］
　次に、本開示の変形例２について説明する。本開示の変形例１に係る処理もサーバ装置１００Ａによって行われてよい。

　例えば、検出部１３７は、推定済みの作業手順と、実際のメイク動作との間に乖離を検出した場合には、現時点で実際に行われているメイク動作に基づいて、動的に新たな目標の外観を定めてもよい。例えば、検出部１３７は、推定済みの作業手順と、実際のメイク動作とを比較して、乖離として、「カラコンを入れる」作業がスキップされた状態で「化粧下地を塗る」作業が行われていたことを検出したとする。係る場合には、検出部１３７は、例えば、「カラーコンタクト」無しでも違和感のない「ナチュラルメイク」の状態を新たな目標の外観として定めてもよい。検出部１３７は、ルールベースに従って新たな目標の外観を定めてもよいし、機械学習モデルを用いて「カラーコンタクト」無しに似合ったメイク状態を推定してもよい。

　また、推定部１３４は、新たな顔画像ＩＭ１と、新たな目標の外観の顔画像ＩＭｘとに基づいて、新たな顔画像ＩＭ１が示す現時点でのメイク状態を、新たな目標の外観へと変化させるための作業手順を推定してよい。そして、出力制御部１３６は、ここでの推定手順を人物Ｐ１にレコメンドしてよい。例えば、出力制御部１３６は、「カラコンが入れられていないようですが、この状態であれば、次のような作業手順でメイクしてみてはいかがですか？」といったコメントともに、新たな目標の外観へと変化させるための作業手順を提示することができる。

［１０．その他］
　上記実施形態では、サーバ装置１００が、第１の対象物を第２の対象物に基づく外観に変化させるための処理手順として、第１の対象物の外観を第１の対象物で目標とされる目標の外観へと変化させるための処理手順を推定する例を示した。しかしながら、サーバ装置１００は、必ずしも、第１の対象物の外観を目標の外観へと変化させるための処理手順を推定する必要は無く、例えば、第１の対象物の外観をユーザが望む任意の外観に変化させるための処理手順を推定してもよいし、第１の対象物の外観をユーザが好みの外観に変化させるための処理手順を推定してもよい。

［１１．ハードウェア構成］
　図１２を用いて、上述した各実施形態に係る情報処理装置（例えば、サーバ装置１００およびサーバ装置１００Ａ）に対応するコンピュータのハードウェア構成例について説明する。図１２は、本開示の実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成例を示すブロック図である。なお、図１２は、各実施形態に係る情報処理装置に対応するコンピュータのハードウェア構成の一例を示すものであり、図１２に示す構成に限定される必要はない。

　図１２に示すように、コンピュータ１０００は、ＣＰＵ（Central　Processing　Unit）１１００、ＲＡＭ（Random　Access　Memory）１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０を記録する。プログラムデータ１４５０は、本開示の実施形態に係る情報処理方法を実現するための情報処理プログラム、および、係る情報処理プログラムによって使用されるデータの一例である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、表示装置やスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が、サーバ装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、図３等に示された各処理が実行する各種処理機能を実現する。すなわち、ＣＰＵ１１００およびＲＡＭ１２００等は、ソフトウェア（ＲＡＭ１２００上にロードされた情報処理プログラム）との協働により、本開示の実施形態に係る情報処理装置による情報処理方法を実現する。

［１２．まとめ］
　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、実施形態および変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本開示は以下のような構成も取ることができる。
（１）
　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得部と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換部と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定部と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成部と、
　を備える情報処理装置。
（２）
　前記取得部は、前記第２の対象物に基づく外観として、前記第１の対象物で目標とされる目標の外観を有する前記第２の対象物の画像を前記参照画像として取得し、
　前記変換部は、前記対象物画像乃至は前記参照画像のうちのいずれか一方の画像に基づいて、前記対象物画像および前記参照画像のうちの他方の画像が、前記目標の外観が反映された前記第１の対象物の画像へと変換された前記変換後画像を生成し、
　前記推定部は、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
　前記（１）に記載の情報処理装置。
（３）
　前記対象物画像と前記参照画像との間で、前記第１の対象物の外観、および、前記目標の外観以外の他の条件を合わせる調整を行う調整部を
　さらに備え、
　前記変換部は、前記調整部による調整後の前記対象物画像乃至は前記参照画像のうちのいずれか一方を用いて、前記他方の画像を変換する
　前記（２）に記載の情報処理装置。
（４）
　前記調整部は、前記対象物画像に基づき推定される照明環境の情報を前記対象物画像から除去し、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去することで、前記対象物画像と前記参照画像との間で照明環境の条件を除去する
　前記（３）に記載の情報処理装置。
（５）
　前記調整部は、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去した状態で、前記対象物画像に基づき推定される照明環境の情報を用いて前記参照画像を補正することで、前記対象物画像と前記参照画像との間で照明環境の条件を合わせる
　前記（３）または前記（４）に記載の情報処理装置。
（６）
　前記変換部は、前記対象物画像から抽出された前記第１の対象物の特徴情報に対して、前記参照画像から抽出された前記第２の対象物の特徴情報を合わせるように、前記参照画像を変換する
　前記（２）～前記（５）のいずれか１つに記載の情報処理装置。
（７）
　前記変換後画像と前記対象物画像との組を入力とするモデルを生成する学習部を
　さらに備え、
　前記推定部は、前記モデルの出力情報に基づいて、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
　前記（２）～前記（６）のいずれか１つに記載の情報処理装置。
（８）
　前記学習部は、前記第１の対象物に関する所定の対象物の外観を完成の状態へと変化させる動作の画像で構成される動画像と、前記動作の内容を説明する前記動画像内での発話情報との組合せを学習データとして用いて、前記所定の対象物の外観変化を示す前後の画像と、前記外観変化に起因する動作との関係性をモデルに学習させる
　前記（７）に記載の情報処理装置。
（９）
　前記学習部は、前記変換後画像と前記対象物画像との組が入力された場合に、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順の情報を出力するよう、前記関係性を前記モデルに学習させる
　前記（８）に記載の情報処理装置。
（１０）
　前記生成部は、前記出力画像として、前記第１の対象物の外観に対して前記処理手順に応じた外観が作業結果として反映された前記第１の対象物の画像を生成する
　前記（１）～前記（９）のいずれか１つに記載の情報処理装置。
（１１）
　前記生成部は、前記出力画像とともに出力される出力情報として、前記処理手順で作業を行うよう指示する指示文を生成する
　前記（１）～前記（１０）のいずれか１つに記載の情報処理装置。
（１２）
　前記生成部は、所定の言語モデルと、前記指示文とに基づいて、前記指示文の内容をより詳細に説明する詳細文を、前記出力情報としてさらに生成する
　前記（１１）に記載の情報処理装置。
（１３）
　前記取得部は、前記対象物画像として、前記第１の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得し、
　逐次取得された前記対象物画像に基づいて、誤った動作を検出する検出部を
　さらに有し、
　前記推定部は、前記検出部により誤った動作が検出された場合には、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第１の対象物の現在の外観を前記目標の外観に変化させるための処理手順を推定し直す
　前記（２）～前記（１２）のいずれか１つに記載の情報処理装置。
（１４）
　前記検出部は、前記誤った動作として、前記第１の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された前記処理手順との間での乖離を検出する
　前記（１３）に記載の情報処理装置。
（１５）
　前記検出部は、前記誤った動作が検出された場合には、前記第１の対象物の外観を変化させるために実際に行われている動作手順に関連する新たな目標の外観を特定し、
　前記推定部は、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第１の対象物の現在の外観を前記新たな目標の外観に変化させるための処理手順を推定し直す
　前記（１３）または前記（１４）に記載の情報処理装置。
（１６）
　情報処理装置が実行する情報処理方法であって、
　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得工程と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換工程と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定工程と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成工程と、
　を含む情報処理方法。
（１７）
　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得手順と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換手順と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定手順と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成手順と、
　をコンピュータに実行させるための情報処理プログラム。

　１　システム
　１０　ユーザ装置
　３０　学習装置
　１００　サーバ装置
　１２０　記憶部
　１２１　モデルデータ記憶部
　１２２　画像データ記憶部
　１２３　推定手順データ記憶部
　１３０　制御部
　１３１　画像取得部
　１３２　調整部
　１３３　変換部
　１３４　推定部
　１３５　生成部
　１３６　出力制御部

Claims

　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得部と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換部と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定部と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成部と、
　を備える情報処理装置。
　前記取得部は、前記第２の対象物に基づく外観として、前記第１の対象物で目標とされる目標の外観を有する前記第２の対象物の画像を前記参照画像として取得し、
　前記変換部は、前記対象物画像乃至は前記参照画像のうちのいずれか一方の画像に基づいて、前記対象物画像および前記参照画像のうちの他方の画像が、前記目標の外観が反映された前記第１の対象物の画像へと変換された前記変換後画像を生成し、
　前記推定部は、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
　請求項１に記載の情報処理装置。
　前記対象物画像と前記参照画像との間で、前記第１の対象物の外観、および、前記目標の外観以外の他の条件を合わせる調整を行う調整部を
　さらに備え、
　前記変換部は、前記調整部による調整後の前記対象物画像乃至は前記参照画像のうちのいずれか一方を用いて、前記他方の画像を変換する
　請求項２に記載の情報処理装置。
　前記調整部は、前記対象物画像に基づき推定される照明環境の情報を前記対象物画像から除去し、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去することで、前記対象物画像と前記参照画像との間で照明環境の条件を除去する
　請求項３に記載の情報処理装置。
　前記調整部は、前記参照画像に基づき推定される照明環境の情報を前記参照画像から除去した状態で、前記対象物画像に基づき推定される照明環境の情報を用いて前記参照画像を補正することで、前記対象物画像と前記参照画像との間で照明環境の条件を合わせる
　請求項３に記載の情報処理装置。
　前記変換部は、前記対象物画像から抽出された前記第１の対象物の特徴情報に対して、前記参照画像から抽出された前記第２の対象物の特徴情報を合わせるように、前記参照画像を変換する
　請求項２に記載の情報処理装置。
　前記変換後画像と前記対象物画像との組を入力とするモデルを生成する学習部を
　さらに備え、
　前記推定部は、前記モデルの出力情報に基づいて、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順を推定する
　請求項２に記載の情報処理装置。
　前記学習部は、前記第１の対象物に関する所定の対象物の外観を完成の状態へと変化させる動作の画像で構成される動画像と、前記動作の内容を説明する前記動画像内での発話情報との組合せを学習データとして用いて、前記所定の対象物の外観変化を示す前後の画像と、前記外観変化に起因する動作との関係性をモデルに学習させる
　請求項７に記載の情報処理装置。
　前記学習部は、前記変換後画像と前記対象物画像との組が入力された場合に、前記第１の対象物の外観を前記目標の外観へと変化させるための処理手順の情報を出力するよう、前記関係性を前記モデルに学習させる
　請求項８に記載の情報処理装置。
　前記生成部は、前記出力画像として、前記第１の対象物の外観に対して前記処理手順に応じた外観が作業結果として反映された前記第１の対象物の画像を生成する
　請求項１に記載の情報処理装置。
　前記生成部は、前記出力画像とともに出力される出力情報として、前記処理手順で作業を行うよう指示する指示文を生成する
　請求項１に記載の情報処理装置。
　前記生成部は、所定の言語モデルと、前記指示文とに基づいて、前記指示文の内容をより詳細に説明する詳細文を、前記出力情報としてさらに生成する
　請求項１１に記載の情報処理装置。
　前記取得部は、前記対象物画像として、前記第１の対象物の外観を変化させる動作がリアルタイムに撮影された対象物画像を逐次取得し、
　逐次取得された前記対象物画像に基づいて、誤った動作を検出する検出部を
　さらに有し、
　前記推定部は、前記検出部により誤った動作が検出された場合には、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第１の対象物の現在の外観を前記目標の外観に変化させるための処理手順を推定し直す
　請求項２に記載の情報処理装置。
　前記検出部は、前記誤った動作として、前記第１の対象物の外観を変化させるために実際に行われている動作手順と、これまでに推定された前記処理手順との間での乖離を検出する
　請求項１３に記載の情報処理装置。
　前記検出部は、前記誤った動作が検出された場合には、前記第１の対象物の外観を変化させるために実際に行われている動作手順に関連する新たな目標の外観を特定し、
　前記推定部は、逐次取得された前記対象物画像のうち、最新の前記対象物画像を用いて、前記第１の対象物の現在の外観を前記新たな目標の外観に変化させるための処理手順を推定し直す
　請求項１３に記載の情報処理装置。
　情報処理装置が実行する情報処理方法であって、
　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得工程と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換工程と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定工程と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成工程と、
　を含む情報処理方法。
　第１の対象物の画像である対象物画像と、前記第１の対象物とは異なる第２の対象物に関する参照画像とを取得する取得手順と、
　前記対象物画像と前記参照画像とに基づいて、前記第１の対象物が変換された変換後画像を生成する変換手順と、
　前記変換後画像と、前記対象物画像とに基づいて、前記第１の対象物を前記第２の対象物に基づく外観に変化させるための処理手順を推定する推定手順と、
　前記対象物画像に基づいて、前記処理手順に応じて外観が変化した前記第１の対象物の画像を出力画像として生成する生成手順と、
　をコンピュータに実行させるための情報処理プログラム。