JP2019075108A - Information processing method and device and information detection method and device - Google Patents
Information processing method and device and information detection method and device Download PDFInfo
- Publication number
- JP2019075108A JP2019075108A JP2018188151A JP2018188151A JP2019075108A JP 2019075108 A JP2019075108 A JP 2019075108A JP 2018188151 A JP2018188151 A JP 2018188151A JP 2018188151 A JP2018188151 A JP 2018188151A JP 2019075108 A JP2019075108 A JP 2019075108A
- Authority
- JP
- Japan
- Prior art keywords
- image
- distribution
- latent variables
- images
- latent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
【課題】情報処理方法及び装置、並びに情報検出方法を提供する。【解決手段】情報処理方法は、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出し、3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含み、変分オートエンコーダ(VAE)により、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得し、3つの画像の各画像について、損失関数を最小化するようにVAEのパラメータを更新し、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する。【選択図】図1An information processing method and apparatus, and an information detection method are provided. An information processing method extracts three images corresponding to the same semantic feature from a training set, wherein the three images have first and second images having the same semantic feature value for the semantic feature, and A third image having semantic feature values different from the first image and the second image, a distribution of latent variables corresponding to semantic features of the three images obtained by a variational auto-encoder (VAE), and For each image, update the parameters of the VAE to minimize the loss function, wherein the loss function is based on the first distance between the distribution of the latent variables in the first image and the second image. It has a positive correlation and a negative correlation with the second distance between the distribution of the latent variables in the first image and the distribution of the latent variables in the third image. [Selection diagram] Fig. 1
Description
本発明は、情報処理の分野に関し、具体的には、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置に関する。 The present invention relates to the field of information processing, and more particularly, to an information processing method and apparatus capable of extracting face semantic features having distinctiveness, and an information detection method and apparatus.
近年、画像生成は明らかに進んでいる。例えば敵対的生成ネットワーク(GAN:Generative Adversarial Network)及び変分オートエンコーダ(VAE:Variational AutoEncoder)等のモデルを用いて画像を生成する。しかし、GANモデルは、ランダムノイズを入力とするものであり、画像を潜在空間に符号化する能力を有しない。VAEは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。即ち、これらのモデルは、識別性を有する顔セマンティック特徴を抽出することができない。 Image generation has clearly advanced in recent years. For example, an image is generated using a model such as a generative adaptive network (GAN) and a variational auto encoder (VAE). However, the GAN model takes random noise as input and does not have the ability to encode the image into the latent space. The VAE can encode an image into a latent space, but the latent space does not have a semantic meaning. That is, these models can not extract distinctive face semantic features.
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。 The following presents a simplified summary of the invention in order to provide a basic understanding of aspects of the invention. This brief summary is not an exhaustive overview of the present invention, does not intentionally identify points or important parts of the present invention, and does not intentionally limit the scope of the present invention, As a preamble to a more detailed explanation, which will be described later, the purpose is to simply explain the concept in a simple manner.
本発明は、上記の問題点を鑑み、識別性を有する顔セマンティック特徴を抽出できる情報処理方法及び装置、並びに情報検出方法及び装置を提供することを目的とする。 An object of the present invention is to provide an information processing method and apparatus capable of extracting face semantic features having distinctiveness, and an information detection method and apparatus, in view of the above problems.
本発明の1つの態様では、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出するステップであって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、ステップと、変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法を提供する。 In one aspect of the invention, extracting three images corresponding to the same semantic feature from a training set, wherein the three images are a first image having the same semantic feature value for the semantic feature and A second image, and a third image having semantic feature values different from the first image and the second image, the variational auto encoder (VAE) corresponding to the semantic features of the three images Obtaining a distribution of latent variables, and updating parameters of the VAE to minimize a loss function for each of the three images, wherein the loss function is a potential of the first image A positive correlation with respect to a first distance between the distribution of variables and the distribution of latent variables of the second image; Having a negative correlation with respect to a second distance between the distribution of the latent variable image and the distribution of latent variables of the third image, comprising the steps, and provides an information processing method.
本発明のもう1つの態様では、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出する画像抽出手段であって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、画像抽出手段と、変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置を提供する。 In another aspect of the invention, an image extracting means for extracting three images corresponding to the same semantic feature from a training set, wherein the three images have the same semantic feature value for the semantic feature. Image extraction means including an image and a second image, and a third image having a semantic feature value different from the first image and the second image, and the variational auto encoder (VAE) Latent variable distribution acquiring means for acquiring the distribution of latent variables corresponding to semantic features; and parameter updating means for updating the parameters of the VAE so as to minimize the loss function for each of the three images. The loss function is a first distance between a distribution of latent variables of the first image and a distribution of latent variables of the second image. Parameter updating means having a positive correlation and a negative correlation with respect to a second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image; And providing an information processing apparatus.
本発明の1つの態様では、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法を提供する。 In one aspect of the invention, a plurality of images are each input to a trained variational auto-encoder (VAE), the distribution of latent variables corresponding to the semantic features of each image is obtained, and the reconstructed images of each image are obtained. Acquiring three images including three images having the same semantic feature among the plurality of images, the first image and the second image having the same semantic feature value for the semantic feature, and A first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image, including a third image having semantic feature values different from the first image and the second image; The information detection method may be smaller than a second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image.
本発明の他の態様では、上記本発明の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記本発明の方法を実現するためのコンピュータプログラムコードを記録しているコンピュータ読み取り可能な記憶媒体をさらに提供する。 In another aspect of the present invention, a computer program code and computer program product for implementing the method of the present invention, and a computer readable storage storing computer program code for implementing the method of the present invention. Further provide media.
以下は、本発明の実施例の他の態様を説明し、本発明の実施例の好ましい実施例を詳細に説明するが、本発明はこれらの実施例に限定されない。 The following describes other aspects of the embodiments of the present invention and describes preferred embodiments of the embodiments of the present invention in detail, but the present invention is not limited to these embodiments.
本発明の他の特徴及び利点を理解させるために、図面を参照しながら本発明の各実施例を説明する。全ての図面において、同一又は類似の符号で同一又は類似の構成部を示している。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本発明の範囲を限定するものではない。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。 Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. For convenience of explanation, all features of the actual embodiment are not shown in the specification. Note that, in actual implementation, the specific embodiment may be changed in order to realize the specific goal of the developer, for example, even if the embodiment is changed according to the system and business restrictions. Good. Also, although the development work is very complicated and time consuming, this development work is only an example work for the person skilled in the art of this disclosure.
なお、本発明を明確にするために、図面には本発明の実施例に密に関連する装置の構成及び/又は処理のステップのみが示され、本発明と関係のない細部が省略されている。 It should be noted that in order to clarify the present invention, only the steps of apparatus configuration and / or processing closely related to the embodiments of the present invention are shown in the drawings, and details not related to the present invention are omitted. .
VAEの主な目的は入力画像の再構築であり、VAEの入力は元の画像であり、出力は再構築画像である。より具体的には、VAEでは、入力画像を符号化し、潜在変数の分布表現を取得し、この分布表現は平均値ベクトル及び標準偏差ベクトルを含むガウス分布表現である。この2つのベクトルは何れも1次元のベクトルであり、平均値ベクトル及び標準偏差ベクトルをサンプリングして新たなベクトルを取得し、新たなベクトルを用いて再構築を行い、最終的な再構築画像を取得する。VAEを訓練するための目的関数(損失関数とも称される)は2つの部分により構成され、1つは再構築誤差(入力画像と再構築画像との誤差)であり、もう1つは中間潜在変数とガウス分布とのKL(Kullback−Leibler:カルバック・ライブラー)距離である。VAEは、画像を潜在空間に符号化することができるが、該潜在空間はマンティック的な意味を有しない。 The main purpose of the VAE is to reconstruct the input image, the input of the VAE is the original image, and the output is the reconstructed image. More specifically, in VAE, an input image is encoded to obtain a distribution representation of latent variables, which is a Gaussian distribution representation including a mean value vector and a standard deviation vector. These two vectors are both one-dimensional vectors, and the mean value vector and the standard deviation vector are sampled to obtain new vectors, and reconstruction is performed using the new vectors to obtain a final reconstructed image. get. The objective function (also referred to as the loss function) for training the VAE consists of two parts, one is the reconstruction error (the error between the input image and the reconstruction image) and the other is an intermediate potential KL (Kullback-Leibler) distance between a variable and a Gaussian distribution. The VAE can encode an image into a latent space, but the latent space does not have a semantic meaning.
本願は、識別性を有する顔セマンティック特徴(例えば、身分、姿勢、年齢、性別など)を抽出できる情報処理方法を提供し、該情報処理方法は、VAEモデルの画像生成の能力とメトリック学習とを組み合わせたものである。 The present application provides an information processing method capable of extracting face semantic features (for example, identity, posture, age, gender, etc.) having distinctiveness, and the information processing method comprises the ability of image generation of VAE model and metric learning. It is a combination.
以下、図面を参照しながら、本発明の実施例を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
まず、図1を参照しながら、本発明の実施例に係る情報処理方法100の流れの一例を説明する。図1は本発明の実施例に係る情報処理方法の流れの一例を示すフローチャートである。図1に示すように、本発明の実施例に係る情報処理方法100は、画像抽出ステップS102、潜在変数分布取得ステップS104及びパラメータ更新ステップS106を含む。
First, an example of the flow of an
画像抽出ステップS102において、訓練セットから同一のセマンティック特徴(semantic feature)に対応する3つの画像を抽出してもよい。ここで、該3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含む。 In the image extraction step S102, three images corresponding to the same semantic feature may be extracted from the training set. Here, the three images include a first image and a second image having the same semantic feature value for semantic features, and a third image having a semantic feature value different from the first image and the second image.
従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理方法100では、潜在変数を複数の部分に分け、各部分は1つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。
Conventional variational self-coding algorithms do not have specific semantic features in terms of each dimensional feature of the latent variable. In the
画像抽出ステップS102において、訓練セットから同一のセマンティック特徴に対応する3つの画像xi a、xi p及びxi nを抽出する。ここで、画像xi aと画像xi pは同一のセマンティック特徴値を有し、画像xi nのセマンティック特徴値は画像xi a及び画像xi pと異なる。セマンティック特徴が身分であることを一例にすると、この3つの画像は全てセマンティック特徴「身分」を有し、画像xi aと画像xi pが同一のセマンティック特徴値を有することは、この2つの画像が同一の人に属することを意味し、画像xi nのセマンティック特徴値が画像xi a及び画像xi pと異なることは、画像xi nが他の人に属することを意味する。 In the image extraction step S102, three images x i a , x i p and x i n corresponding to the same semantic feature are extracted from the training set. Here, the image x i a and the image x i p have the same semantic feature value, and the semantic feature value of the image x i n is different from the image x i a and the image x i p . Taking one example that the semantic feature is identity, the three images all have the semantic feature "identity", and the image x i a and the image x i p have the same semantic feature value. image means that belong to the same person, the semantic feature value of the image x i n different from the image x i a and the image x i p is the image x i n means that it belongs to others.
潜在変数分布取得ステップS104において、変分オートエンコーダ(VAE:Variational AutoEncoder)により、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。該ステップにおいて、VAEにより、3つの画像xi a、xi p及びxi nのセマンティック特徴に対応する潜在変数の分布を取得してもよい。 In the latent variable distribution acquisition step S104, a distribution of latent variables corresponding to semantic features of three images may be acquired by a variational auto encoder (VAE). In this step, the VAE may obtain the distribution of latent variables corresponding to the semantic features of the three images x i a , x i p and x i n .
パラメータ更新ステップS106において、該3つの画像の各画像について、損失関数を最小化するようにVAEのパラメータを更新してもよい。ここで、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する。 In the parameter updating step S106, the parameters of the VAE may be updated to minimize the loss function for each of the three images. Here, the loss function has a positive correlation with the first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image, and the distribution of latent variables of the first image And the second distance between the distribution of latent variables in the third image and the distribution of latent variables in the third image.
メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。 Metric learning represents distances between different samples by constructing a distance metric. Taking one example that the semantic feature is identity information, in metric learning, for different images of the same person, it is desirable that the distance between the distributions of latent variables be small and converge to 0, and for images of different persons, It is desirable that the distance between the distributions of latent variables be large.
図2は本発明の実施例に係るメトリック学習を示す図である。説明の便宜上、図2では、a、p及びnで画像xi a、xi p及びxi nをそれぞれ表し、図2の左部分及び右部分はa、p及びnにより構成された3元集合をそれぞれ示している。また、この3つの画像のセマンティック特徴が身分情報であると仮定すると、aとpは同一の身分値を有し(即ちaとpは同一の人に対応し)、nの身分値はa及びpの身分値と異なる(即ちnはa及びpと異なる人に対応する)。図2の左部分の3元集合では、aとpの間の潜在変数の分布の距離はaとnの間の潜在変数の分布の距離よりも大きい。上述したように、メトリック学習では、aとpの間の潜在変数の分布の距離が小さくなり、aとnの間の潜在変数の分布の距離が大きくなるようにする。即ち、メトリック学習では、同一の人の異なる画像a及びpについて、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。図2の右部分の3元集合に示すように、上記メトリック学習が行われた後に、aとnの間の潜在変数の分布の距離はaとpの間の潜在変数の分布の距離よりも大きい。図2では、説明の便宜上、セマンティック特徴が身分情報であると仮定しているが、これは単なる一例であり、本発明を限定するものではなく、図2におけるセマンティック特徴は例えば姿勢、年齢などの他のセマンティック特徴であってもよい。 FIG. 2 is a diagram showing metric learning according to an embodiment of the present invention. For convenience of explanation, in FIG. 2, a, p and n represent images x i a , x i p and x i n respectively, and the left part and the right part of FIG. 2 are ternary elements composed of a, p and n. Each set is shown. Also, assuming that the semantic features of the three images are identity information, a and p have identical identity values (ie a and p correspond to the same person), and n identity values are a and Different from the identity value of p (ie n corresponds to a different person than a and p). In the ternary set in the left part of FIG. 2, the distance of the distribution of latent variables between a and p is greater than the distance of the distribution of latent variables between a and n. As described above, in metric learning, the distance of distribution of latent variables between a and p is decreased, and the distance of distribution of latent variables between a and n is increased. That is, in metric learning, for different images a and p of the same person, the distance between the distributions of latent variables is smaller, desirably converging to 0, and for images of different people, the distance between distributions of latent variables is It is desirable to be large. As shown in the ternary set in the right part of FIG. 2, after the metric learning is performed, the distribution distance of the latent variable between a and n is greater than the distribution distance of the latent variable between a and p large. Although it is assumed in FIG. 2 that the semantic feature is identification information for convenience of explanation, this is merely an example, and does not limit the present invention, and the semantic feature in FIG. It may be another semantic feature.
3つの画像xi a、xi p及びxi nにより構成された3元集合について、距離メトリックに基づく損失関数Lmetの計算式は、以下のように表してもよい。
式(1)において、
(外1)
、
(外2)
及び
(外3)
は画像xi a、xi p及びxi nの潜在変数の分布をそれぞれ表し、
(外4)
は画像xi aとxi pの間の潜在変数の分布の第1距離であり、
(外5)
は画像xi aとxi nの間の潜在変数の分布の第2距離であり、+は、[]内の値がゼロよりも大きい場合に該値を損失とし、ゼロよりも小さい場合に損失がゼロであることを表す。tは所定の閾値であり、当業者が経験に基づいて設定されてもよく、例えばtを0に設定してもよい。式(1)から分かるように、損失関数Lmetは、画像xi aの潜在変数の分布と画像xi pの潜在変数の分布との間の第1距離に対して正の相関関係を有し、画像xi aの潜在変数の分布と画像xi nの潜在変数の分布との間の第2距離に対して負の相関関係を有する。該メトリック学習を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
In equation (1),
(Extra 1)
,
(Other 2)
And (3)
Represents the distribution of latent variables of the images x i a , x i p and x i n respectively
(4 outside)
Is the first distance of the distribution of latent variables between the images x i a and x i p
(5 outside)
Is the second distance of the distribution of latent variables between the images x i a and x i n , and + is the loss if the value in [] is greater than zero, if it is less than zero Indicates that the loss is zero. t is a predetermined threshold and may be set based on experience by those skilled in the art, for example, t may be set to zero. As can be seen from equation (1), the loss function L the met may have a positive correlation with the first distance between the distribution of the latent variable image x i distribution image x i p latent variables of a And has a negative correlation with the second distance between the distribution of latent variables of the image x i a and the distribution of latent variables of the image x i n . By using this metric learning, it is possible to obtain more distinctive face semantic features.
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、第2距離と第1距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。式(1)に示す距離メトリックでは、
(外6)
と
(外7)
との間の距離と、
(外8)
と
(外9)
との間の距離との間には、最小の間隔がある。例えば、式(1)における所定の閾値tをゼロでない値に設定してもよく、例えばtを1に設定してもよい。
Preferably, in the
(Outside 6)
And (outside 7)
And the distance between
(Outside 8)
And (outside 9)
There is a minimum spacing between and the distance between For example, the predetermined threshold value t in Equation (1) may be set to a non-zero value, for example, t may be set to 1.
パラメータ更新ステップS106において、損失関数Lmetを最小化するようにVAEのパラメータを更新してもよい。 In the parameter updating step S106, it may update the parameters of the VAE so as to minimize the loss function L the met.
以上は、説明の便宜上、訓練セットにおける3つの画像を一例にして本発明の実施例に係る情報処理方法100のステップを説明し、即ち訓練セットにおける3つの画像を一例にしてVAEに対する訓練を説明した。VAEの訓練を行うために、訓練セット全ての3元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にVAEに対する訓練を終了してもよい。
The above describes the steps of the
本発明の実施例に係る情報処理方法をより明確に説明するために、図3は情報処理方法100を実現するためのネットワークを示している。
In order to explain the information processing method according to the embodiment of the present invention more clearly, FIG. 3 shows a network for realizing the
図3におけるネットワークは、符号化ネットワーク及び復号ネットワークを含む。符号化ネットワーク及び復号ネットワークは、潜在変数層及び結合層により結合される。入力画像は、符号化ネットワークにより符号化された後に潜在変数層に入力される。潜在変数層は、z0、z1、z2、…znである合計n+1個の潜在変数を含み、各潜在変数は1つの特定のセマンティック特徴に対応する。メトリック学習により潜在変数の分布を制限し(即ち、上述したように、損失関数を最小化することで潜在変数の分布を制限し)、制限された潜在変数は復号ネットワークにフィードバックされ、復号ネットワークにより出力画像(再構築画像)が取得される。 The network in FIG. 3 includes a coding network and a decoding network. The coding network and the decoding network are combined by the latent variable layer and the combining layer. The input image is input to the latent variable layer after being encoded by the encoding network. The latent variable layer includes a total of n + 1 latent variables that are z 0 , z 1 , z 2 ,... Z n , each latent variable corresponding to one specific semantic feature. Limit the distribution of latent variables by metric learning (ie, limit the distribution of latent variables by minimizing the loss function as described above), and the limited latent variables are fed back to the decoding network, and by the decoding network An output image (reconstructed image) is acquired.
図4は本発明の実施例に係る符号化ネットワーク及び復号ネットワークの構成を示すブロック図である。図4に示すように、符号化ネットワーク及び復号ネットワークは、それぞれ複数の隠れ層により構成されている。 FIG. 4 is a block diagram showing the configuration of a coding network and a decoding network according to an embodiment of the present invention. As shown in FIG. 4, the encoding network and the decoding network are each configured by a plurality of hidden layers.
従来のVAEに比べて、本発明の実施例に係る情報処理方法100では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
Compared to the conventional VAE, in the
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。VAEを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理方法100における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。
Preferably, in the
好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。 Preferably, the step of calculating the training error includes the step of mapping the distribution of latent variables of the image to a class space using a non-linear function to obtain a mapping output, and the mapping output using a classification loss function or a regression loss function. And calculating the training error based on the labels of the semantic features.
一例として、教師誤差を算出する際に、まず非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得してもよく、該非線形関数は多層ニューラルネットワークを用いて実現してもよい。画像の潜在変数をzで表し、クラス空間がm個のクラスサブ空間(例えば身分サブ空間、姿勢サブ空間及び年齢サブ空間などであり、各クラスは1つのセマンティック特徴に対応する)を含むと、非線形関数fu()を用いてzの分布を該m個のクラスサブ空間にそれぞれマッピングして、各クラスサブ空間におけるマッピング出力(即ち、各セマンティック特徴空間における出力)fui(z)を取得してもよく、i=0,1,2,…,m−1。一例として、非線形関数fu()を用いてzの分布を身分サブ空間にマッピングして、身分サブ空間におけるマッピング出力を取得し、zの分布を姿勢サブ空間にマッピングして、姿勢サブ空間におけるマッピング出力を取得してもよい。このように、潜在変数の異なるクラスサブ空間における識別性を向上できる。 As an example, when calculating the teaching error, first, the distribution of latent variables of the image may be mapped to a class space using a non-linear function to obtain a mapping output, and the non-linear function is realized using a multi-layer neural network You may If the latent variables of the image are represented by z, and the class space includes m class subspaces (for example, identity subspace, posture subspace and age subspace, and each class corresponds to one semantic feature), Map the distribution of z into the m class subspaces using the non-linear function fu () to obtain the mapping output (i.e., the output in each semantic feature space) fu i (z) in each class subspace I may be i = 0, 1, 2, ..., m-1. As an example, the distribution of z is mapped to the identity subspace using the non-linear function fu () to obtain the mapping output in the identity subspace, and the distribution of z is mapped to the pose subspace to map in the pose subspace You may get the output. In this way, the distinguishability of latent variables in different class subspaces can be improved.
セマンティック特徴のラベル値が離散的なものであるか、それとも連続的なものであるかに応じて、分類損失関数又は回帰損失関数を用いて教師誤差を算出してもよい。 Depending on whether the semantic feature label values are discrete or continuous, the classification loss function or the regression loss function may be used to calculate the training error.
ラベル値が例えば画像における顔の身分情報(A、B、C、D)のような離散的なものである場合は、下記の分類損失関数を用いて教師誤差を算出する。
式(2)では、
(外10)
は、fui(z)がi番目のクラスのセマンティック特徴のラベルlabeliであると予測される確率である。
In equation (2),
(Outside 10)
Is the probability that fu i (z) is predicted to be the label i of the semantic feature of the ith class.
ラベルのタイプが例えば画像における顔姿勢情報の回転角度(50度、49度、48度など)のような連続的なものである場合は、下記の回帰損失関数を用いて教師誤差を算出する。
式(3)では、labeliはi番目のクラスのセマンティック特徴のラベルである。 In equation (3), label i is the label of the semantic feature of the ith class.
全てのm個のクラスについて、総教師誤差は、全てのm個のクラスの教師誤差の和、即ち
(外11)
であり、ここで、i=0,1,2,…,m−1。
For all m classes, the total teacher error is the sum of the teacher errors for all m classes,
, Where i = 0, 1, 2, ..., m-1.
好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理方法100では、潜在変数の分布及び潜在変数の事前分布は、従来のVAEにおけるガウス分布に限定されず、任意の分布であってもよい。
Preferably, the prior distribution of latent variables of the image comprises any distribution. In the
好ましくは、画像の前記潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。 Preferably, the step of obtaining the prior distribution of the latent variable of the image comprises the steps of obtaining an intermediate variable conforming to a Gaussian distribution based on the distribution of the latent variable, and performing nonlinear transformation on the intermediate variable Obtaining the distribution.
図5は本発明の実施例に係る潜在変数の構成を示す図である。図5では、最下位の層は符号化ネットワークからの入力ベクトルであり、隠れ層を介して、潜在変数zの分布の平均値ベクトルzm及び分散ベクトルzvが生成され、zm及びzvに対してサンプリングを行うことで、該構成の出力であるzを取得でき、即ち、zは図5に示す潜在変数の構成の出力であり、図3における結合層に入力される。また、潜在変数zの分布に基づいて取得されたガウス分布に従う上位変数(中間変数)をuで表し、zの事前分布をz’で表すと、u及びz’とzの関係を明確に示すために、図5においてu及びz’をさらに示し、図5においては、uの分布の平均値ベクトルはumであり、分散ベクトルはuvである。 FIG. 5 is a diagram showing the configuration of latent variables according to an embodiment of the present invention. In FIG. 5, the lowest layer is an input vector from the coding network, and through the hidden layer, the mean value vector z m and the dispersion vector z v of the distribution of the latent variable z are generated, z m and z v Can be obtained to obtain z which is an output of the configuration, that is, z is an output of the configuration of the latent variable shown in FIG. 5 and is input to the coupling layer in FIG. Also, the upper variable (intermediate variable) that follows the Gaussian distribution obtained based on the distribution of the latent variable z is represented by u, and the prior distribution of z is represented by z ', the relationship between u and z' and z is clearly shown In order to further illustrate u and z 'in FIG. 5, in FIG. 5 the mean value vector of the distribution of u is u m and the variance vector is u v .
図5に示すように、潜在変数zの分布に基づいて、ガウス分布に従う中間変数uを取得する。zの事前分布z’は中間変数uにより構築され、即ちuを非線形マッピングしてzの事前分布z’を取得する。uの事前分布は標準ガウス分布であるが、非線形変換が行われた後に、z’の分布は任意の分布であってもよい(即ち、複数のガウス分布を組み合わせて、任意の分布を取得してもよい)。一方、zとz’が類似の分布を有するように制限することで、zが任意の分布の性質を有することを実現する。 As shown in FIG. 5, based on the distribution of latent variables z, an intermediate variable u conforming to a Gaussian distribution is acquired. The prior distribution z 'of z is constructed by the intermediate variable u, i.e. non-linearly mapping u to obtain the prior distribution z' of z. The prior distribution of u is a standard Gaussian distribution, but after nonlinear transformation has been performed, the distribution of z 'may be any distribution (ie, combining multiple Gaussian distributions to obtain an arbitrary distribution May). On the other hand, by restricting z and z 'to have similar distributions, it is realized that z has an arbitrary distribution property.
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含んでもよい。
Preferably, in the
KLダイバージェンス(KL距離)は、2つの分布の類似度を評価するために用いられる。2つの分布の差異が小さいほど、KLダイバージェンスは小さくなり、2つの分布の差異が大きいほど、KLダイバージェンスは大きくなる。 The KL divergence (KL distance) is used to evaluate the similarity of two distributions. The smaller the difference between the two distributions, the smaller the KL divergence, and the larger the difference between the two distributions, the larger the KL divergence.
潜在変数zの分布をP(z)で表し、潜在変数zの分布P(z)に合わせて、潜在変数zの事前分布をQ(z’)で表すと、潜在変数の分布と潜在変数の事前分布とのKLダイバージェンスKL(P||Q)は次のように表してもよい。
中間変数uの分布をS(u)で表し、標準ガウス分布をG(0,1)で表すと、中間変数の分布と標準ガウス分布とのKLダイバージェンスKL(S||G)は次のように表してもよい。
上述したように、損失関数は、式(4)及び(5)に基づいて算出されたKLダイバージェンスの制約をさらに含んでもよい。 As described above, the loss function may further include the KL divergence constraints calculated based on Equations (4) and (5).
好ましくは、本発明の実施例に係る情報処理方法100では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、VAEに出力された画像と該画像に対応するVAEから出力された画像との差異を評価するために用いられる。VAEを用いて画像を再構築する場合は、VAEに出力された画像と、該画像に対応するVAEから出力された画像(即ち、再構築画像)とは差異がある(即ち再構築誤差がある)。損失関数は、該再構築誤差に関する制約をさらに含んでもよい。画像の3元集合(3つの画像xi a、xi p及びxi nを含む)の例では、以下は説明の便宜上、該3つの画像の全てをxiで表し、それに対応する出力画像をxi oで表すと、各画像の再構築誤差Lrecは次のように表してもよい。
上記3つの画像について、総再構築誤差は各画像の再構築誤差の和である。説明の便宜上、以下の説明では、総再構築誤差は単にLrecで表される。 For the above three images, the total reconstruction error is the sum of the reconstruction error of each image. For convenience of explanation, in the following description, the total reconstruction error is simply represented by L rec .
本発明の実施例に係る情報処理方法100では、損失関数が上記制約を全て含む場合、訓練セットの画像における任意の3元集合について、総損失関数Lは次のように表してもよい。
式(7)では、Lrecは総再構築誤差であり、
(外12)
は総教師誤差であり、Lmetは距離メトリックに基づく損失関数であり、KL(P||Q)は潜在変数の分布と潜在変数の事前分布とのKLダイバージェンスであり、KL(S||G)は中間変数の分布と標準ガウス分布とのKLダイバージェンスであり、α及びβは定数であり、その値が[0,1]の範囲内にある。総誤差関数を最小化するように、VAEのパラメータを更新してもよい。
In equation (7), L rec is the total reconstruction error,
(12 outside)
Is the total teacher error, L met is the loss function based on the distance metric, and KL (P || Q) is the KL divergence between the distribution of latent variables and the prior distribution of latent variables, KL (S || G ) Is the KL divergence between the distribution of intermediate variables and the standard Gaussian distribution, and α and β are constants, the values of which are in the range of [0, 1]. The parameters of the VAE may be updated to minimize the total error function.
以上のことから、従来のVAEに比べて、本発明の実施例に係る情報処理方法100では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
From the above, in the
上述した情報処理方法の実施例と同様に、本発明は情報処理装置の実施例をさらに提供する。 Similar to the embodiment of the information processing method described above, the present invention further provides an embodiment of the information processing apparatus.
図6は本発明の実施例に係る情報処理装置600の機能的構成の一例を示すブロック図である。
FIG. 6 is a block diagram showing an example of a functional configuration of the
図6に示すように、本発明の実施例に係る情報処理装置600は、画像抽出部602、潜在変数分布取得部604及びパラメータ更新部606を含む。以下は、画像抽出部602、潜在変数分布取得部604及びパラメータ更新部606の機能的構成の一例を説明する。
As shown in FIG. 6, the
画像抽出部602は、訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出してもよい。ここで、該3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含む。 The image extraction unit 602 may extract three images corresponding to the same semantic feature from the training set. Here, the three images include a first image and a second image having the same semantic feature value for semantic features, and a third image having a semantic feature value different from the first image and the second image.
従来の変分自己符号化アルゴリズムでは、潜在変数の各次元特徴の観点から、特定のセマンティック特徴を有しない。本発明の実施例に係る情報処理装置600では、潜在変数を複数の部分に分け、各部分は1つの特定のセマンティック特徴、例えば顔の姿勢、年齢、性別などに対応する。
Conventional variational self-coding algorithms do not have specific semantic features in terms of each dimensional feature of the latent variable. In the
同一のセマンティック特徴に対応する3つの画像の抽出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 An example of a method of extracting three images corresponding to the same semantic feature may refer to the corresponding description of the above method embodiment, and the description thereof is omitted here.
潜在変数分布取得部604は、変分オートエンコーダ(VAE)により、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。潜在変数分布取得部604では、VAEにより、3つの画像のセマンティック特徴に対応する潜在変数の分布を取得してもよい。 The latent variable distribution acquisition unit 604 may acquire the distribution of latent variables corresponding to the semantic features of the three images by means of a variational auto encoder (VAE). The latent variable distribution acquisition unit 604 may acquire the distribution of latent variables corresponding to the semantic features of the three images by the VAE.
パラメータ更新部606は、該3つの画像の各画像について、損失関数を最小化するようにVAEのパラメータを更新してもよい。ここで、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する。 The parameter updating unit 606 may update the parameters of the VAE so as to minimize the loss function for each of the three images. Here, the loss function has a positive correlation with the first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image, and the distribution of latent variables of the first image And the second distance between the distribution of latent variables in the third image and the distribution of latent variables in the third image.
メトリック学習は、距離メトリックを構築することによって、異なるサンプル間の距離を表す。セマンティック特徴が身分情報であることを一例にすると、メトリック学習では、同一の人の異なる画像について、潜在変数の分布間の距離が小さくなり、0に収束することが望ましく、異なる人の画像について、潜在変数の分布間の距離が大きくなることが望ましい。メトリック学習、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Metric learning represents distances between different samples by constructing a distance metric. Taking one example that the semantic feature is identity information, in metric learning, for different images of the same person, it is desirable that the distance between the distributions of latent variables be small and converge to 0, and for images of different persons, It is desirable that the distance between the distributions of latent variables be large. Metric learning, a first distance between the distribution of latent variables in the first image and a distribution of latent variables in the second image, a distribution between the distribution of latent variables in the first image and the distribution of latent variables in the third image For an example of the two distances, reference may be made to the corresponding description of the above method embodiment, and the description thereof will be omitted here.
好ましくは、損失関数は、第2距離と第1距離との差が所定の閾値よりも大きいという制約をさらに含んでもよい。その例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Preferably, the loss function may further include the constraint that the difference between the second distance and the first distance is greater than a predetermined threshold. The example may refer to the corresponding description of the above method embodiment, and the description is omitted here.
以上は、訓練セットにおける3つの画像を一例にしてVAEに対する訓練を説明した。VAEの訓練を行うために、訓練セット全ての3元集合を走査してもよい。或いは、反復回数を予め設定し、予め設定された反復回数に達した場合にVAEに対する訓練を終了してもよい。 The above has described training for the VAE, taking three images in the training set as an example. In order to train the VAE, the ternary set of all training sets may be scanned. Alternatively, the number of iterations may be preset, and training on the VAE may be ended when the preset number of iterations is reached.
従来のVAEに比べて、本発明の実施例に係る情報処理装置600では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。また、メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
Compared to the conventional VAE, in the
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、教師誤差に関する制約をさらに含んでもよく、教師誤差は、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて算出されたものである。VAEを訓練するプロセスにおいて教師情報を追加する。従って、本発明の実施例に係る情報処理装置600における損失関数は教師誤差に関する制約をさらに含んでもよく、セマンティック特徴のラベル及び画像の潜在変数の分布に基づいて教師誤差を算出してもよい。
Preferably, in the
好ましくは、教師誤差を算出するステップは、非線形関数を用いて画像の潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、分類損失関数又は回帰損失関数を用いて、マッピング出力及びセマンティック特徴のラベルに基づいて教師誤差を算出するステップとを含んでもよい。教師誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Preferably, the step of calculating the training error includes the step of mapping the distribution of latent variables of the image to a class space using a non-linear function to obtain a mapping output, and the mapping output using a classification loss function or a regression loss function. And calculating the training error based on the labels of the semantic features. For an example of how to calculate the training error, reference may be made to the corresponding description of the method embodiment described above, and the description will be omitted here.
好ましくは、画像の潜在変数の事前分布は任意の分布を含む。本発明の実施例に係る情報処理装置600では、潜在変数の分布及び潜在変数の事前分布は、従来のVAEにおけるガウス分布に限定されず、任意の分布であってもよい。
Preferably, the prior distribution of latent variables of the image comprises any distribution. In the
好ましくは、画像の潜在変数の事前分布を取得するステップは、潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、中間変数に対して非線形変換を行い、潜在変数の事前分布を取得するステップとを含む。画像の潜在変数の事前分布の取得方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Preferably, the step of obtaining the prior distribution of latent variables of the image comprises the steps of obtaining an intermediate variable conforming to a Gaussian distribution based on the distribution of latent variables, and performing nonlinear transformation on the intermediate variables to obtain the prior distribution of latent variables And acquiring. For an example of how to obtain the prior distribution of latent variables of an image, reference may be made to the corresponding description of the method embodiment above, which will not be described here.
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、潜在変数の分布と潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含んでもよい。潜在変数の分布と潜在変数の事前分布とのKLダイバージェンス、及び中間変数の分布と標準ガウス分布とのKLダイバージェンスの例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
Preferably, in the
好ましくは、本発明の実施例に係る情報処理装置600では、損失関数は、再構築誤差に関する制約をさらに含んでもよく、再構築誤差は、VAEに出力された画像と該画像に対応するVAEから出力された画像との差異を評価するために用いられる。再構築誤差の算出方法の例は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。
Preferably, in the
以上のことから、従来のVAEに比べて、本発明の実施例に係る情報処理装置600では、潜在変数は複数の部分により構成され、各部分は1つの特定のセマンティック特徴に対応する。潜在変数の分布は、ガウス分布に限定されず、任意の分布であってもよい。メトリック学習の方法を用いることで、識別性のより良い顔セマンティック特徴を取得できる。
From the above, in the
なお、以上は本発明の実施例に係る情報処理装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。 Although the functional configuration of the information processing apparatus according to the embodiment of the present invention has been described above, the functional configuration is merely exemplary and does not limit the present invention. Those skilled in the art may modify the above embodiments according to the principles of the present invention, for example, add, delete or combine functional modules in each embodiment, and these modifications are included in the scope of the present invention. is there.
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Also, since the embodiments of the apparatus correspond to the embodiments of the method described above, contents not described in detail in the embodiments of the apparatus may refer to the corresponding description of the method embodiments described above. I omit explanation.
なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報処理方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 The instructions executable by the device in the storage medium and program product of the embodiment of the present invention may execute the above-mentioned information processing method, and the contents which are not explained in detail here are the corresponding explanation of the above-mentioned method embodiment. And may not be described here.
それに応じて、本発明は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。 Accordingly, the invention further includes a storage medium having recorded thereon a program product comprising instructions executable by the device. The storage medium includes, but is not limited to, a floppy disk, an optical disk, a magneto-optical disk, a memory card, a memory stick and the like.
本発明のもう1つの態様では、情報検出方法をさらに提供する。本発明の実施例に係る情報検出方法は、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する3つの画像について、3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含み、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離は、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離よりも小さい。 In another aspect of the present invention, there is further provided an information detection method. The information detection method according to the embodiment of the present invention inputs each of a plurality of images to a trained variational auto-encoder (VAE), acquires the distribution of latent variables corresponding to semantic features of each image, and Obtaining a reconstructed image, wherein for three images of the plurality of images having the same semantic feature, the three images have a first image having the same semantic feature value for the semantic feature and a third image The first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image, including two images and a third image having semantic feature values different from the first and second images, It is smaller than the second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image.
一例として、本発明の実施例の情報検出方法では、訓練されたVAEにより取得された各入力画像のセマンティック特徴に対応する潜在変数の分布を取得し、各入力画像の再構築画像を取得する。同一のセマンティック特徴に対応する3つの画像xi a、xi p及びxi nが存在し、画像xi aと画像xi pは同一のセマンティック特徴値を有し、画像xi nのセマンティック特徴値は画像xi a及び画像xi pと異なると仮定する。本発明の実施例に係る情報処理方法で式(1)を参照しながら説明するように、VAEを訓練する場合に、損失関数は、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有し、第2距離と第1距離との差が所定の閾値よりも大きい。このため、上記の訓練されたVAEを用いて画像を再構築する場合に、3つの画像xi a、xi p及びxi nについて、画像xi aの潜在変数の分布と画像xi pの潜在変数の分布との間の第1距離は、画像xi aの潜在変数の分布と画像xi nの潜在変数の分布との間の第2距離よりも小さい。 As an example, in the information detection method of the embodiment of the present invention, the distribution of latent variables corresponding to the semantic feature of each input image acquired by trained VAE is acquired, and the reconstructed image of each input image is acquired. There are three images x i a , x i p and x i n corresponding to the same semantic feature, the image x i a and the image x i p have identical semantic feature values and the semantics of the image x i n It is assumed that the feature values are different from the image x i a and the image x i p . As described with reference to equation (1) in the information processing method according to the embodiment of the present invention, when training a VAE, the loss function includes the distribution of latent variables of the first image and the latent variables of the second image Has a positive correlation with the first distance between the first and second distributions, and a second correlation with the second distance between the distribution of latent variables in the first image and the distribution of latent variables in the third image There is a relationship, and the difference between the second distance and the first distance is larger than a predetermined threshold. Therefore, when reconstructing an image using the above-mentioned trained VAE, the distribution of latent variables of the image x i a and the image x i p for three images x i a , x i p and x i n The first distance between the distribution of latent variables of the image x i a is smaller than the second distance between the distribution of latent variables of the image x i a and the distribution of latent variables of the image x i n .
本発明の実施例に係る情報検出方法によれば、識別性を有する顔セマンティック特徴を抽出することができる。 According to the information detection method of the embodiment of the present invention, it is possible to extract face semantic features having distinctiveness.
上記の情報検出方法の実施例と同様に、本発明は下記の情報検出装置の実施例をさらに提供する。本発明の実施例に係る情報検出装置は、訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得する再構築画像取得部を含み、ここで、複数の画像のうち同一のセマンティック特徴を有する3つの画像について、3つの画像は、セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに第1画像及び第2画像と異なるセマンティック特徴値を有する第3画像を含み、第1画像の潜在変数の分布と第2画像の潜在変数の分布との間の第1距離は、第1画像の潜在変数の分布と第3画像の潜在変数の分布との間の第2距離よりも小さい。 Similar to the embodiments of the information detection method described above, the present invention further provides the following embodiments of the information detection apparatus. An information detection apparatus according to an embodiment of the present invention inputs a plurality of images to a trained variational auto encoder (VAE), acquires a distribution of latent variables corresponding to semantic features of each image, and A reconstruction image acquiring unit for acquiring a reconstruction image, wherein, for three images having the same semantic feature among the plurality of images, the three images have the same semantic feature value for the semantic feature; A first image between the distribution of latent variables of the first image and the distribution of latent variables of the second image, including an image and a second image, and a third image having semantic feature values different from the first image and the second image; The distance is smaller than a second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image.
本発明の実施例に係る情報検出装置によれば、識別性を有する顔セマンティック特徴を抽出することができる。 According to the information detection apparatus of the embodiment of the present invention, it is possible to extract face semantic features having distinctiveness.
なお、以上は本発明の実施例に係る情報検出装置の機能的構成を説明しているが、該機能的構成は単なる例示的なものであり、本発明を限定するものではない。当業者は、本発明の原理に従って上記実施例を修正してもよく、例えば各実施例における機能的モジュールを追加、削除又は組み合わせてもよく、これらの修正は本発明の範囲に含まれるものである。 Although the functional configuration of the information detection apparatus according to the embodiment of the present invention has been described above, the functional configuration is merely exemplary and does not limit the present invention. Those skilled in the art may modify the above embodiments according to the principles of the present invention, for example, add, delete or combine functional modules in each embodiment, and these modifications are included in the scope of the present invention. is there.
また、ここの装置の実施例は上記方法の実施例に対応するため、装置の実施例に詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 Also, since the embodiments of the apparatus correspond to the embodiments of the method described above, contents not described in detail in the embodiments of the apparatus may refer to the corresponding description of the method embodiments described above. I omit explanation.
なお、本発明の実施例の記憶媒体及びプログラムプロダクトにおける機器が実行可能な命令は上記情報検出方法を実行してもよく、ここで詳細に説明されていない内容は、上記方法実施例の対応説明を参照してもよく、ここでその説明を省略する。 The instructions executable by the device in the storage medium and program product of the embodiment of the present invention may execute the above-mentioned information detection method, and the contents which are not described in detail here are the corresponding description of the above-mentioned method embodiment. And may not be described here.
それに応じて、本発明は、機器が実行可能な命令を含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。 Accordingly, the invention further includes a storage medium having recorded thereon a program product comprising instructions executable by the device. The storage medium includes, but is not limited to, a floppy disk, an optical disk, a magneto-optical disk, a memory card, a memory stick and the like.
本発明のもう1つの態様では、上記情報処理方法により訓練されたVAEを用いて入力画像を再構築する方法及び装置をさらに提供する。 Another aspect of the present invention further provides a method and apparatus for reconstructing an input image using a VAE trained by the above information processing method.
なお、上記処理及び装置はソフトウェア及び/又はファームウェアにより実現されてもよい。ソフトウェア及び/又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図7示されている汎用パーソナルコンピュータ700に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
Note that the above processes and apparatus may be realized by software and / or firmware. When implemented by software and / or firmware, a program for configuring software for implementing the above method to a computer having a dedicated hardware configuration from a storage medium or network, such as a general purpose
図7において、中央処理部(即ちCPU)701は、読み出し専用メモリ(ROM)702に記憶されているプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムにより各種の処理を実行する。RAM703には、必要に応じて、CPU701が各種の処理を実行するに必要なデータが記憶されている。
In FIG. 7, a central processing unit (that is, CPU) 701 performs various processes according to a program stored in a read only memory (ROM) 702 or a program loaded from a
CPU701、ROM702、及びRAM703は、バス704を介して互いに接続されている。入力/出力インターフェース705もバス704に接続されている。
The
入力部706(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部708(例えばハードディスクなどを含む)、通信部709(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース705に接続されている。通信部709は、ネットワーク、例えばインターネットを介して通信処理を実行する。
An input unit 706 (including a keyboard, a mouse, etc.), an output unit 707 (including a display, such as a cathode ray tube (CRT), a liquid crystal display (LCD), etc., a speaker, etc.), a storage unit 708 (including a hard disk, etc.) A unit 709 (for example, including an interface card of a network such as a LAN card, a modem, etc.) is connected to the input /
必要に応じて、ドライブ部710は、入力/出力インターフェース705に接続されてもよい。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部710にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部708にインストールされている。
The
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711を介してソフトウェアを構成するプログラムをインストールする。
When the above process is performed by software, a program that configures the software is installed via a network, for example, the Internet, or a storage medium, for example,
なお、これらの記憶媒体は、図7に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM702、記憶部708に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
Note that these storage media are not limited to the
以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。 While the above describes the preferred embodiments of the present invention with reference to the drawings, the above embodiments and examples are illustrative and not restrictive. Those skilled in the art may make various modifications, improvements and equivalents to the present invention within the spirit and scope of the claims. Modifications to these modifications, improvements or equivalents are included in the protection scope of the present invention.
例えば、上記実施例の1つのユニットに含まれる機能は別々の装置により実現されてもよい。また、上記実施例の複数のユニットにより実現される複数の機能は別々の装置によりそれぞれ実現されてもよい。さらに、以上の機能の1つは複数のユニットにより実現されてもよい。なお、これらの構成は本発明の範囲内のものである。 For example, the functions included in one unit of the above embodiment may be realized by separate devices. Also, the plurality of functions realized by the plurality of units of the above embodiment may be realized respectively by different devices. Furthermore, one of the above functions may be realized by a plurality of units. These configurations are within the scope of the present invention.
また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出するステップであって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、ステップと、
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。
(付記2)
前記損失関数は、前記第2距離と前記第1距離との差が所定の閾値よりも大きいという制約をさらに含む、付記1に記載の情報処理方法。
(付記3)
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記2に記載の情報処理方法。
(付記4)
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記3に記載の情報処理方法。
(付記5)
画像の前記潜在変数の事前分布は任意の分布を含む、付記3に記載の情報処理方法。
(付記6)
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記5に記載の情報処理方法。
(付記7)
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び前記中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含む、付記6に記載の情報処理方法。
(付記8)
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、付記7に記載の情報処理方法。
(付記9)
訓練セットから同一のセマンティック特徴に対応する3つの画像を抽出する画像抽出手段であって、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含む、画像抽出手段と、
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。
(付記10)
前記損失関数は、前記第2距離と前記第1距離との差が所定の閾値よりも大きいという制約をさらに含む、付記9に記載の情報処理装置。
(付記11)
前記損失関数は、教師誤差に関する制約をさらに含み、
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、付記10に記載の情報処理装置。
(付記12)
前記教師誤差を算出するステップは、
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、付記11に記載の情報処理装置。
(付記13)
画像の前記潜在変数の事前分布は任意の分布を含む、付記11に記載の情報処理装置。
(付記14)
画像の前記潜在変数の事前分布を取得するステップは、
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、付記13に記載の情報処理装置。
(付記15)
前記損失関数は、前記潜在変数の分布と前記潜在変数の事前分布とのカルバック・ライブラー・ダイバージェンス(KLダイバージェンス)に関する制約、及び前記中間変数の分布と標準ガウス分布とのKLダイバージェンスに関する制約をさらに含む、付記14に記載の情報処理装置。
(付記16)
前記損失関数は、再構築誤差に関する制約をさらに含み、
前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、付記15に記載の情報処理装置。
(付記17)
訓練された変分オートエンコーダ(VAE)に複数の画像をそれぞれ入力し、各画像のセマンティック特徴に対応する潜在変数の分布を取得し、各画像の再構築画像を取得するステップ、を含み、
前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、
前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法。
Also, the methods of the present invention are not limited to those performed in the temporal order described herein, but may be performed sequentially, concurrently, or independently in other temporal orders. Thus, the order of execution of the methods described herein is not intended to limit the scope of the invention.
Further, the following appendices will be further disclosed regarding the embodiment including the above-mentioned respective examples.
(Supplementary Note 1)
Extracting three images corresponding to the same semantic feature from the training set, wherein the three images are a first image and a second image having the same semantic feature value for the semantic feature, and the first image and the second image. Including an image and a third image having semantic feature values different from the second image;
Obtaining a distribution of latent variables corresponding to the semantic features of the three images by a variational auto encoder (VAE);
Updating parameters of the VAE to minimize a loss function for each of the three images, wherein the loss function comprises a distribution of latent variables of the first image and a potential of the second image It has a positive correlation with the first distance between the distribution of variables and the second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image An information processing method comprising the steps of: having a negative correlation.
(Supplementary Note 2)
The information processing method according to claim 1, wherein the loss function further includes a constraint that a difference between the second distance and the first distance is larger than a predetermined threshold.
(Supplementary Note 3)
The loss function further includes constraints on teacher error,
The information processing method according to appendix 2, wherein the training error is calculated based on a label of the semantic feature and a distribution of the latent variable of an image.
(Supplementary Note 4)
The step of calculating the teacher error is
Mapping the distribution of the latent variables of the image into class space using a non-linear function to obtain a mapping output;
The information processing method according to claim 3, comprising: calculating the training error based on the mapping output and the label of the semantic feature using a classification loss function or a regression loss function.
(Supplementary Note 5)
The information processing method according to appendix 3, wherein the prior distribution of the latent variable of the image comprises any distribution.
(Supplementary Note 6)
Obtaining a prior distribution of the latent variables of the image,
Obtaining an intermediate variable according to a Gaussian distribution based on the distribution of the latent variables;
The information processing method according to appendix 5, comprising: performing nonlinear conversion on the intermediate variable to obtain a prior distribution of the latent variable.
(Appendix 7)
The loss function further includes a constraint on the Kullback-Leibler divergence (KL divergence) of the distribution of the latent variable and the prior distribution of the latent variable, and a constraint on the KL divergence of the distribution of the intermediate variable and the standard Gaussian distribution. The information processing method according to
(Supplementary Note 8)
The loss function further includes a constraint on the reconstruction error,
The information processing method according to claim 7, wherein the reconstruction error is used to evaluate a difference between an image output to the VAE and an image output from the VAE corresponding to the image.
(Appendix 9)
Image extraction means for extracting three images corresponding to the same semantic feature from a training set, wherein the three images are a first image and a second image having the same semantic feature value for the semantic feature, and Image extraction means, comprising a first image and a third image having semantic feature values different from the second image;
Latent variable distribution obtaining means for obtaining a distribution of latent variables corresponding to the semantic features of the three images by a variational auto encoder (VAE);
Parameter updating means for updating parameters of the VAE so as to minimize a loss function for each of the three images, wherein the loss function is a distribution of latent variables of the first image and the second image The first distance between the distribution of latent variables and the distribution of latent variables of the first image, and the second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image An information processing apparatus, comprising: parameter updating means having a negative correlation.
(Supplementary Note 10)
The information processing apparatus according to attachment 9, wherein the loss function further includes a constraint that a difference between the second distance and the first distance is larger than a predetermined threshold.
(Supplementary Note 11)
The loss function further includes constraints on teacher error,
The information processing apparatus according to appendix 10, wherein the training error is calculated based on the label of the semantic feature and the distribution of the latent variable of the image.
(Supplementary Note 12)
The step of calculating the teacher error is
Mapping the distribution of the latent variables of the image into class space using a non-linear function to obtain a mapping output;
The information processing apparatus according to claim 11, comprising: calculating the training error based on the mapping output and the label of the semantic feature using a classification loss function or a regression loss function.
(Supplementary Note 13)
The information processing apparatus according to appendix 11, wherein the prior distribution of the latent variable of the image includes any distribution.
(Supplementary Note 14)
Obtaining a prior distribution of the latent variables of the image,
Obtaining an intermediate variable according to a Gaussian distribution based on the distribution of the latent variables;
The information processing apparatus according to appendix 13, comprising: performing non-linear transformation on the intermediate variable to obtain a prior distribution of the latent variable.
(Supplementary Note 15)
The loss function further includes a constraint on the Kullback-Leibler divergence (KL divergence) of the distribution of the latent variable and the prior distribution of the latent variable and a constraint on KL divergence of the distribution of the intermediate variable and the standard Gaussian distribution. The information processing apparatus according to appendix 14, which includes.
(Supplementary Note 16)
The loss function further includes a constraint on the reconstruction error,
The information processing apparatus according to appendix 15, wherein the reconstruction error is used to evaluate a difference between an image output to the VAE and an image output from the VAE corresponding to the image.
(Supplementary Note 17)
Inputting a plurality of images into a trained variational auto-encoder (VAE), acquiring a distribution of latent variables corresponding to semantic features of each image, and acquiring a reconstructed image of each image;
For three images having the same semantic feature among the plurality of images, the three images are a first image and a second image having the same semantic feature value for the semantic feature, and the first image and the first image. Including a third image having semantic feature values different from the two images,
A first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image is between the distribution of latent variables of the first image and the distribution of latent variables of the third image. An information detection method smaller than the second distance of.
Claims (10)
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得するステップと、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するステップであって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、ステップと、を含む、情報処理方法。 Extracting three images corresponding to the same semantic feature from the training set, wherein the three images are a first image and a second image having the same semantic feature value for the semantic feature, and the first image and the second image. Including an image and a third image having semantic feature values different from the second image;
Obtaining a distribution of latent variables corresponding to the semantic features of the three images by a variational auto encoder (VAE);
Updating parameters of the VAE to minimize a loss function for each of the three images, wherein the loss function comprises a distribution of latent variables of the first image and a potential of the second image It has a positive correlation with the first distance between the distribution of variables and the second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image An information processing method comprising the steps of: having a negative correlation.
前記教師誤差は、前記セマンティック特徴のラベル及び画像の前記潜在変数の分布に基づいて算出されたものである、請求項2に記載の情報処理方法。 The loss function further includes constraints on teacher error,
The information processing method according to claim 2, wherein the training error is calculated based on a label of the semantic feature and a distribution of the latent variable of an image.
非線形関数を用いて画像の前記潜在変数の分布をクラス空間にマッピングしてマッピング出力を取得するステップと、
分類損失関数又は回帰損失関数を用いて、前記マッピング出力及び前記セマンティック特徴のラベルに基づいて前記教師誤差を算出するステップと、を含む、請求項3に記載の情報処理方法。 The step of calculating the teacher error is
Mapping the distribution of the latent variables of the image into class space using a non-linear function to obtain a mapping output;
The method according to claim 3, further comprising: calculating the training error based on the mapping output and the label of the semantic feature using a classification loss function or a regression loss function.
前記潜在変数の分布に基づいて、ガウス分布に従う中間変数を取得するステップと、
前記中間変数に対して非線形変換を行い、前記潜在変数の事前分布を取得するステップと、を含む、請求項5に記載の情報処理方法。 Obtaining a prior distribution of the latent variables of the image,
Obtaining an intermediate variable according to a Gaussian distribution based on the distribution of the latent variables;
And D. performing non-linear transformation on the intermediate variable to obtain a prior distribution of the latent variable.
前記再構築誤差は、前記VAEに出力された画像と該画像に対応する前記VAEから出力された画像との差異を評価するために用いられる、請求項7に記載の情報処理方法。 The loss function further includes a constraint on the reconstruction error,
The information processing method according to claim 7, wherein the reconstruction error is used to evaluate a difference between an image output to the VAE and an image output from the VAE corresponding to the image.
変分オートエンコーダ(VAE)により、前記3つの画像の前記セマンティック特徴に対応する潜在変数の分布を取得する潜在変数分布取得手段と、
前記3つの画像の各画像について、損失関数を最小化するように前記VAEのパラメータを更新するパラメータ更新手段であって、前記損失関数は、前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離に対して正の相関関係を有し、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離に対して負の相関関係を有する、パラメータ更新手段と、を含む、情報処理装置。 Image extraction means for extracting three images corresponding to the same semantic feature from a training set, wherein the three images are a first image and a second image having the same semantic feature value for the semantic feature, and Image extraction means, comprising a first image and a third image having semantic feature values different from the second image;
Latent variable distribution obtaining means for obtaining a distribution of latent variables corresponding to the semantic features of the three images by a variational auto encoder (VAE);
Parameter updating means for updating parameters of the VAE so as to minimize a loss function for each of the three images, wherein the loss function is a distribution of latent variables of the first image and the second image The first distance between the distribution of latent variables and the distribution of latent variables of the first image, and the second distance between the distribution of latent variables of the first image and the distribution of latent variables of the third image An information processing apparatus, comprising: parameter updating means having a negative correlation.
前記複数の画像のうち同一のセマンティック特徴を有する3つの画像について、前記3つの画像は、前記セマンティック特徴について同一のセマンティック特徴値を有する第1画像及び第2画像、並びに前記第1画像及び前記第2画像と異なるセマンティック特徴値を有する第3画像を含み、
前記第1画像の潜在変数の分布と前記第2画像の潜在変数の分布との間の第1距離は、前記第1画像の潜在変数の分布と前記第3画像の潜在変数の分布との間の第2距離よりも小さい、情報検出方法。 Inputting a plurality of images into a trained variational auto-encoder (VAE), acquiring a distribution of latent variables corresponding to semantic features of each image, and acquiring a reconstructed image of each image;
For three images having the same semantic feature among the plurality of images, the three images are a first image and a second image having the same semantic feature value for the semantic feature, and the first image and the first image. Including a third image having semantic feature values different from the two images,
A first distance between the distribution of latent variables of the first image and the distribution of latent variables of the second image is between the distribution of latent variables of the first image and the distribution of latent variables of the third image. An information detection method smaller than the second distance of.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710970935.6 | 2017-10-18 | ||
| CN201710970935.6A CN109685087B9 (en) | 2017-10-18 | 2017-10-18 | Information processing method and device and information detection method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019075108A true JP2019075108A (en) | 2019-05-16 |
| JP7119865B2 JP7119865B2 (en) | 2022-08-17 |
Family
ID=66182810
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018188151A Active JP7119865B2 (en) | 2017-10-18 | 2018-10-03 | Information processing method and device, and information detection method and device |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7119865B2 (en) |
| CN (1) | CN109685087B9 (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021015405A (en) * | 2019-07-11 | 2021-02-12 | 株式会社東芝 | Learning device, diagnostic device, and learning method |
| JP2021117968A (en) * | 2020-01-21 | 2021-08-10 | 四零四科技股▲ふん▼有限公司Moxa Inc. | Device and method for handling anomaly detection |
| KR20210112547A (en) * | 2020-03-05 | 2021-09-15 | 한성대학교 산학협력단 | Method and system for learning self-converging generative networks |
| WO2022176196A1 (en) * | 2021-02-22 | 2022-08-25 | 日本電信電話株式会社 | Learning device, learning method, and program |
| JP2022163465A (en) * | 2021-04-14 | 2022-10-26 | 日本電気株式会社 | Receiving device and parameter generation method for demodulation |
| KR102859681B1 (en) * | 2024-12-04 | 2025-09-15 | (주)에이아이딥 | Method and device for estimating facial feature based on variational inference |
| US12417624B2 (en) | 2022-10-21 | 2025-09-16 | Eagle Technology, Llc | Change detection device and related methods |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110264398B (en) * | 2019-07-16 | 2021-05-28 | 北京市商汤科技开发有限公司 | Image processing method and device |
| CN111161249B (en) * | 2019-12-31 | 2023-06-02 | 复旦大学 | Unsupervised medical image segmentation method based on domain adaptation |
| US11301724B2 (en) * | 2020-04-30 | 2022-04-12 | Robert Bosch Gmbh | Semantic adversarial generation based function testing method in autonomous driving |
| CN111784121B (en) * | 2020-06-12 | 2022-08-09 | 清华大学 | Action quality evaluation method based on uncertainty score distribution learning |
| CN112133311B (en) * | 2020-09-18 | 2023-01-17 | 科大讯飞股份有限公司 | Speaker recognition method, related device and readable storage medium |
| CN114969327B (en) * | 2022-04-26 | 2025-05-06 | 蚂蚁区块链科技(上海)有限公司 | Training method and device for bag-of-words processing model, bag-of-words processing method and device |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017094267A1 (en) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9129190B1 (en) * | 2013-12-04 | 2015-09-08 | Google Inc. | Identifying objects in images |
| JP6345276B2 (en) * | 2014-06-16 | 2018-06-20 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | Face authentication method and system |
| US11157817B2 (en) * | 2015-08-19 | 2021-10-26 | D-Wave Systems Inc. | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers |
| CN105224948B (en) * | 2015-09-22 | 2019-03-01 | 清华大学 | A Generating Method of Maximum Interval Depth Generative Model Based on Image Processing |
| EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
| US10432953B2 (en) * | 2016-02-05 | 2019-10-01 | Deepmind Technologies Limited | Compressing images using neural networks |
| CN107122809B (en) * | 2017-04-24 | 2020-04-28 | 北京工业大学 | Neural network feature learning method based on image self-coding |
| CN107194868A (en) * | 2017-05-19 | 2017-09-22 | 成都通甲优博科技有限责任公司 | A kind of Face image synthesis method and device |
-
2017
- 2017-10-18 CN CN201710970935.6A patent/CN109685087B9/en not_active Expired - Fee Related
-
2018
- 2018-10-03 JP JP2018188151A patent/JP7119865B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017094267A1 (en) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model |
Non-Patent Citations (2)
| Title |
|---|
| 尾亦 範泰: "オートエンコーダによる低次元化と可視化", 可視化情報学会誌 第38巻 第151号, vol. 第38巻 第151号, JPN6022027540, 2018, JP, pages 9 - 13, ISSN: 0004817218 * |
| 山田 智輝: "β−VAEを用いた字種非依存な筆跡特徴抽出手法の検討", 映像情報メディア学会技術報告 VOL.42 NO.27, vol. 42, no. 27, JPN6022027539, 2018, JP, pages 79 - 82, ISSN: 0004817217 * |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021015405A (en) * | 2019-07-11 | 2021-02-12 | 株式会社東芝 | Learning device, diagnostic device, and learning method |
| JP7254649B2 (en) | 2019-07-11 | 2023-04-10 | 株式会社東芝 | LEARNING DEVICE, DIAGNOSTIC DEVICE, AND LEARNING METHOD |
| JP2021117968A (en) * | 2020-01-21 | 2021-08-10 | 四零四科技股▲ふん▼有限公司Moxa Inc. | Device and method for handling anomaly detection |
| US11748629B2 (en) | 2020-01-21 | 2023-09-05 | Moxa Inc. | Device and method of handling anomaly detection |
| KR20210112547A (en) * | 2020-03-05 | 2021-09-15 | 한성대학교 산학협력단 | Method and system for learning self-converging generative networks |
| KR102580159B1 (en) | 2020-03-05 | 2023-09-19 | 한성대학교 산학협력단 | Method and system for learning self-converging generative networks |
| WO2022176196A1 (en) * | 2021-02-22 | 2022-08-25 | 日本電信電話株式会社 | Learning device, learning method, and program |
| JP2022163465A (en) * | 2021-04-14 | 2022-10-26 | 日本電気株式会社 | Receiving device and parameter generation method for demodulation |
| JP7712611B2 (en) | 2021-04-14 | 2025-07-24 | 日本電気株式会社 | Receiver and demodulation parameter generation method |
| US12417624B2 (en) | 2022-10-21 | 2025-09-16 | Eagle Technology, Llc | Change detection device and related methods |
| KR102859681B1 (en) * | 2024-12-04 | 2025-09-15 | (주)에이아이딥 | Method and device for estimating facial feature based on variational inference |
Also Published As
| Publication number | Publication date |
|---|---|
| CN109685087B (en) | 2022-11-01 |
| JP7119865B2 (en) | 2022-08-17 |
| CN109685087A (en) | 2019-04-26 |
| CN109685087B9 (en) | 2023-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2019075108A (en) | Information processing method and device and information detection method and device | |
| Sharma et al. | Generative adversarial networks (GANs): introduction, taxonomy, variants, limitations, and applications | |
| Ye et al. | MasterplanGAN: Facilitating the smart rendering of urban master plans via generative adversarial networks | |
| US11416772B2 (en) | Integrated bottom-up segmentation for semi-supervised image segmentation | |
| CN117974693B (en) | Image segmentation method, device, computer equipment and storage medium | |
| Xu et al. | Robust contour tracking in ultrasound tongue image sequences | |
| Darapureddy et al. | Optimal weighted hybrid pattern for content based medical image retrieval using modified spider monkey optimization | |
| CN113408721A (en) | Neural network structure searching method, apparatus, computer device and storage medium | |
| CN112907569B (en) | Segmentation method, device, electronic equipment and storage medium for head image area | |
| CN114510609A (en) | Method, device, equipment, medium and program product for generating structure data | |
| CN113205449A (en) | Expression migration model training method and device and expression migration method and device | |
| CN115907026A (en) | Privacy-preserving data curation for federated learning | |
| EP4055537A1 (en) | Combining model outputs into a combined model output | |
| Ampavathi et al. | Research challenges and future directions towards medical data processing | |
| Reynaud et al. | Echoflow: a foundation model for cardiac ultrasound image and video generation | |
| CN118230204A (en) | Video recognition method, device, computer equipment and storage medium | |
| Shahin et al. | Survival analysis for idiopathic pulmonary fibrosis using ct images and incomplete clinical data | |
| CN119004337B (en) | Graph anomaly detection method and device based on diffusion model | |
| Alshamrani et al. | Lossless compression-based detection of osteoporosis using bone X-ray imaging | |
| CN118115507B (en) | Image segmentation method based on cross-domain class perception graph convolution alignment | |
| CN113723518B (en) | Task hierarchical deployment method and device based on transfer learning and computer equipment | |
| CN116230244A (en) | A method and system for analyzing EHR data based on augmented discriminant information | |
| CN115312151A (en) | Data information generation method and device, computer equipment and storage medium | |
| Gowthami et al. | Improved self-attention generative adversarial adaptation network-based melanoma classification | |
| Fernández-Rodríguez et al. | Enhancing echocardiography quality with diffusion neural models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220530 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220718 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7119865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |