JP2019061494A - INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM - Google Patents
INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP2019061494A JP2019061494A JP2017185470A JP2017185470A JP2019061494A JP 2019061494 A JP2019061494 A JP 2019061494A JP 2017185470 A JP2017185470 A JP 2017185470A JP 2017185470 A JP2017185470 A JP 2017185470A JP 2019061494 A JP2019061494 A JP 2019061494A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning data
- information processing
- processing apparatus
- identification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】 識別精度の高い識別モデルを生成できるようにすること。
【解決手段】 本発明は、複数の特徴量の中から組み合わせを異ならせながら複数回特徴量を選択する。そして、特徴量の組み合わせを異ならせたそれぞれでノイズデータであるかを判断し、その判断結果を統合してノイズデータを決定する。
【選択図】 図5PROBLEM TO BE SOLVED: To generate a discrimination model with high discrimination accuracy.
According to the present invention, a plurality of feature quantities are selected while making a combination different among a plurality of feature quantities. Then, different combinations of feature amounts are used to determine whether the data is noise data, and the determination results are integrated to determine noise data.
[Selected figure] Figure 5
Description
本発明は、識別モデルの学習で使用される学習データを決定する技術に関する。 The present invention relates to a technique for determining learning data used in learning of a discrimination model.
対象物を撮影した画像から画素値の平均や分散といった多様な特徴量群を用いて予め生成した識別モデルにより、良否判定(良品と不良品の2クラス判別)を行う手法がある。識別モデルを生成する際、識別モデルを生成するための学習データのラベルを誤って設定してしまった場合、識別モデルを適切に生成することができず、良否判定の精度が低下するという問題があった。 There is a method of performing pass / fail judgment (two-class judgment of non-defective product and defective product) based on an identification model generated in advance using various feature amount groups such as average and variance of pixel values from an image obtained by photographing an object. When generating a classification model, if the label of learning data for generating a classification model is set incorrectly, the classification model can not be generated properly, and the accuracy of the pass / fail judgment is lowered. there were.
非特許文献1で開示されている手法では、予め設定した特徴量を抽出した上で、データセットを複数のデータセットに分割し、データセットごとに学習用データと検証用データに分ける。そして、分割したデータセットごとに学習用データを用いて識別器を学習し、各データの認識スコアを算出する。さらに、データごとの認識スコアを統合し、閾値処理によりノイズデータ及びグッドデータを決定する。ここで、ノイズデータとは、正常データであるのにもかかわらず異常データのラベルが付いているデータであり、グッドデータとは、正常データの中でより正常らしいデータである。そして、決定したノイズデータとグッドデータを学習データから除去する。以上の処理を複数回繰り返すことで、学習データから決定したノイズデータとグッドデータを除去し続ける。最後に、除去されたグッドデータを元に戻すことにより、学習データを決定する。 In the method disclosed in Non-Patent Document 1, after extracting a feature amount set in advance, a data set is divided into a plurality of data sets, and divided into learning data and verification data for each data set. Then, a classifier is learned using learning data for each divided data set, and a recognition score of each data is calculated. Furthermore, the recognition score for each data is integrated, and noise data and good data are determined by threshold processing. Here, the noise data is data that is labeled as abnormal data despite being normal data, and the good data is data that seems more normal among the normal data. Then, the determined noise data and good data are removed from the learning data. By repeating the above processing a plurality of times, noise data and good data determined from the learning data are continuously removed. Finally, the learning data is determined by restoring the removed good data.
しかしながら、非特許文献1では、特徴量を固定化した上で認識スコアを求めてノイズデータとグッドデータを決定している。ここでの、ノイズデータ、グッドデータの決定は特徴量に依存しているので、特徴量を固定化した場合、1つの基準でしかノイズデータ及びグッドデータを決定しないこととなる。このようにして決定されたノイズデータ及びグッドデータに基づいて学習データを決定する手法では、その学習データに基づいて生成される識別モデルによる識別精度が低いという問題があった。 However, in Non-Patent Document 1, after fixing the feature amount, the recognition score is obtained to determine the noise data and the good data. Since the determination of the noise data and the good data here depends on the feature amount, when the feature amount is fixed, the noise data and the good data are determined by only one reference. In the method of determining learning data based on the noise data and the good data determined in this manner, there is a problem that the identification accuracy by the identification model generated based on the learning data is low.
本発明は、第1の生成手段が入力データを識別するための第1の識別モデルを生成する際に用いられる学習データを決定するための情報処理装置であって、複数の学習データを取得する取得手段と、前記取得した複数の学習データそれぞれから複数種類の特徴量を抽出する抽出手段と、前記学習データのそれぞれから抽出した複数種類の特徴量の中から1以上の特徴量を選択する選択処理を実行する選択手段と、前記選択した特徴量に基づいて第2の識別モデルを生成する生成処理を実行する第2の生成手段と、前記生成された第2の識別モデルの認識スコアを算出する算出処理を実行する算出手段と、前記選択処理、前記生成処理、前記算出処理をそれぞれ複数回実行することにより求められる複数の前記認識スコアに基づいて、前記複数の学習データの中から第1の識別モデルを生成する際に用いられる学習データを決定する決定手段と、を有することを特徴とする。 The present invention is an information processing apparatus for determining learning data used when the first generation means generates a first identification model for identifying input data, and acquires a plurality of learning data. Selection means for selecting one or more feature amounts from among a plurality of types of feature amounts extracted from each of the learning data, an extraction means for extracting a plurality of types of feature amounts from each of the plurality of acquired learning data Selecting means for executing processing, second generation means for executing generation processing for generating a second identification model based on the selected feature amount, and calculating a recognition score of the generated second identification model Calculation means for executing calculation processing, the selection processing, the generation processing, and the plurality of the plurality of recognition scores obtained by performing the calculation processing a plurality of times respectively; And having a determining means for determining a training data used in generating the first identification model from the training data.
本発明によれば、識別精度の高い識別モデルを生成することができるようになる。 According to the present invention, a discrimination model with high discrimination accuracy can be generated.
[第1の実施形態]
以下、本発明の第1の実施形態の詳細について図面を参照しつつ説明する。本実施形態では、対象物の良否判定(正常異常判定)に用いられる識別モデルを生成する際に使用される学習データ(学習画像)の中から誤ってラベル付けされたデータを検出し、除去する構成について説明を行う。
First Embodiment
Hereinafter, the details of the first embodiment of the present invention will be described with reference to the drawings. In the present embodiment, erroneously labeled data is detected and removed from learning data (learning image) used when generating an identification model used for object quality determination (normality / abnormality determination). The configuration will be described.
図1は、生成された識別モデル(識別器)を用いて対象物の正常異常判定を行う情報処理システムの概略を示す図である。同図において、101は対象物を示しており、本システムは対象物101に対し正常異常判定を行う。102は画像撮影装置(カメラ)であり、対象物101の画像を撮影する。103は情報処理装置であり、画像撮影装置102で撮影された画像から予め設定された特徴量を抽出し、抽出した特徴量と予め生成してある識別器とに基づいて対象物体が正常であるか異常であるかの判定を行う。104は表示装置であり、情報処理装置103で判定した結果を表示する。105は光源であり、欠陥の可視化のために光源105から対象物101に光を照射するようになっており、この状態で画像撮影装置102は対象物の画像を撮影する。
FIG. 1 is a diagram schematically illustrating an information processing system that performs normal / abnormal determination of an object using the generated identification model (classifier). In the figure, reference numeral 101 denotes an object, and the present system performs normal / abnormal judgment on the object 101. An image capturing apparatus (camera) 102 captures an image of the object 101. An
次に、上述した識別モデルを予め生成するための生成処理について説明を行う。ここでは、図1に示した、実際に正常異常判定を行うシステムにより、識別モデルの生成する構成について説明をする。しかし、識別モデルの生成は、実際の正常異常判定を行うシステムとは別のシステムによって行われるものであってもよい。本実施形態のシステムにおける情報処理装置103は、画像撮影装置102で撮影された画像に対して人手によって付与されたラベルが正しいか否かの判定を行う。そして、ラベルが誤っていると判定した場合、その画像は識別モデルを生成する際の学習画像として用いないようにする(除去する)。このようにして決定された学習画像を用いて、正常異常判定を行うための識別モデルを学習により生成する。
Next, generation processing for generating the above-described identification model in advance will be described. Here, the configuration for generating the identification model by the system shown in FIG. 1 that actually performs the normal / abnormal determination will be described. However, the generation of the identification model may be performed by a system other than the system that makes the actual normal / abnormal determination. The
情報処理装置103は、CPU、ROM、RAM、HDD等のハードウェア構成を備え、CPUがROMやHD等に格納されたプログラムを実行することにより、例えば、後述する各機能構成やフローチャートの処理が実現される。RAMは、CPUがプログラムを展開して実行するワークエリアとして機能する記憶領域を有する。ROMは、CPUが実行するプログラム等を格納する記憶領域を有する。HDDは、CPUが処理を実行する際に要する各種のプログラム、閾値に関するデータ等を含む各種のデータを格納する記憶領域を有する。
The
図2は、本実施形態に係る情報処理装置103の機能構成を示す概略ブロック図である。学習データ設定部201は、対象物101の撮影された画像に対して人(ユーザ)が決定したラベルの情報を取得し、その情報を画像に対して付与する。ここでは、その画像に含まれる対象物101が正常である(第1の情報)か、異常である(第2の情報)かという2値の情報である。また、学習データ設定部201は、ラベルの付与された画像(学習画像)から特徴量を算出する。なお、学習データ設定部201は、自身がデータに対してラベルを付与して学習データを生成することによって、学習データを取得するという構成のほか、既にラベルの付与された学習データを他の構成から取得してもよい。いずれにしても、学習データ設定部201は、ラベルの付与された学習データを取得する取得手段として機能する。また、上述のとおり、学習データから特徴量を抽出する抽出手段としても機能する。
FIG. 2 is a schematic block diagram showing a functional configuration of the
クレンジング部202は、学習データ設定部201で付与したラベルが誤っていると判定した学習データ(画像)を除去することで、識別モデルを生成する際に使用する学習画像を選択、決定する。特徴量選択部203は、学習データ設定部201で抽出された特徴量に対して特徴量選択を行うことにより、特徴量の順位付けを行う。
The
識別モデル学習部204は、クレンジング部202が決定した学習データを用いて、識別モデルを学習する。パラメータ設定部205は、特徴量選択部203により順位付けされた特徴量からの選択数、及び識別モデル学習部204により学習された識別モデルのパラメータを交差確認法を用いて決定する。正常異常判定部206は、パラメータ設定部205で決定した特徴量選択数に基づいて、テストデータ(テスト画像)から特徴量を抽出する。また、パラメータ設定部205で決定したパラメータに基づいて、予め学習しておいた識別モデルにより正常異常判定を行う。
The identification
図3は、本実施形態における識別モデル生成の処理の詳細を示すフローチャートである。 FIG. 3 is a flowchart showing the details of the identification model generation process in the present embodiment.
(ステップS301:学習データに対する特徴量抽出)
ステップS301では、学習データ設定部201が、ラベルの付与された学習画像の対象領域から特徴量を抽出する。複数の特徴量を用いる場合は、例えば学習画像の対象領域に対して、ハール・ウェーブレット(Haar Wavelet)変換をかけて、階層的に画像を生成する。ハール・ウェーブレット変換とは、簡単に述べると、位置情報を保持したまま周波数変換する処理である。
(Step S301: Feature extraction for learning data)
In step S301, the learning
図4は、ハール・ウェーブレット変換の概略図である。まず、学習画像の対象領域に対して4種類のフィルタ(数式1−1〜1−4)を用意する。 FIG. 4 is a schematic view of the Haar wavelet transform. First, four types of filters (Equation 1-1 to 1-4) are prepared for the target region of the learning image.
数式1−1が縦方向数成分フィルタ(HL)、数式1−2が横方向数成分フィルタ(LH)、数式1−3が対角方向数成分フィルタ(HH)、数式1−4が低周波数成分フィルタ(LL)を示す。対象領域の2×2の画素に対して、上記のフィルタで内積をとる。2×2の領域を重ね合わせることなく移動させて、解像度が2分の1になるように、縦方向成分画像、横方向成分画像、対角方向成分画像、低周波成分画像の4種類の画像を生成する。そして、生成された低周波成分画像から、次の階層の縦方向成分画像、横方向成分画像、対角方向成分画像、低周波成分画像の4種類の画像を生成する。 Equation 1-1 is the vertical direction number component filter (HL), equation 1-2 is the horizontal direction number component filter (LH), equation 1-3 is the diagonal direction number component filter (HH), and equation 1-4 is low frequency The component filter (LL) is shown. For the 2 × 2 pixels of the target area, the inner product is taken with the above filter. Four types of images, vertical component image, horizontal component image, diagonal direction component image, and low frequency component image, so that the 2 × 2 region is moved without overlapping and the resolution becomes half. Generate Then, from the generated low frequency component image, four types of images of the vertical direction component image, the horizontal direction component image, the diagonal direction component image, and the low frequency component image of the next layer are generated.
このような画像生成を繰り返すことによって、各階層で縦方向成分画像、横方向成分画像、対角方向成分画像、低周波成分画像の4種類の成分画像を生成する。この際、解像度は2分の1になるので、例えばハール・ウェーブレット変換を8回繰り返すのであれば、画像サイズは2の8乗の倍数に設定しておくことが好ましい。結果としてハール・ウェーブレット変換を8回行い、各階層から4画像生成されるので、32画像が生成される。これに加えて入力画像が追加されるので、以下の合計33画像が生成される。
1)入力画像
2)第1〜第8階層の各階層の縦方向成分画像
3)第1〜第8階層の各階層の横方向成分画像
4)第1〜第8階層の各階層の対角方向成分画像
5)第1〜第8階層の各階層の低周波成分画像
1枚の画像から生成された合計33種類の画像に対して、最大値、最大値−最小値及び以下の数式2から数式6で示す7つの特徴量を抽出する。結果的に、1枚の画像に対して、7×33=231個の特徴量を抽出する(以下、1枚の画像から抽出される特徴量の個数をN個とする)。画素値の平均は数式2で、分散は数式3で、尖度は数式4で、歪度は数式5で、相乗平均は数式6で算出される。なお、画像のサイズは垂直方向a画素、水平方向b画素の画像とし、水平i番目、垂直j番目の画素値をp(i,j)と表す。
By repeating such image generation, four types of component images of vertical direction component image, horizontal direction component image, diagonal direction component image, and low frequency component image are generated in each layer. At this time, since the resolution is halved, it is preferable to set the image size to a multiple of 2 to the eighth power, for example, when repeating Haar wavelet transform eight times. As a result, Haar wavelet transform is performed eight times, and four images are generated from each layer, so 32 images are generated. In addition to this, since the input image is added, the following total 33 images are generated.
1) Input image 2) Longitudinal component image of each hierarchy of first to eighth hierarchy 3) Horizontal component image of each hierarchy of first to eighth hierarchy 4) Diagonal of each hierarchy of first to eighth hierarchy Direction component image 5) Low frequency component image of each of the first to eighth layers For a total of 33 types of images generated from one image, maximum value, maximum value-minimum value, and the following equation 2 Seven feature quantities shown in Equation 6 are extracted. As a result, 7 × 33 = 231 feature quantities are extracted from one image (hereinafter, the number of feature quantities extracted from one image is N). The average of the pixel values is calculated by Equation 2, the variance by Equation 3, the kurtosis by Equation 4, the skewness by Equation 5, and the geometric average by Equation 6. Note that the size of the image is an image of a pixel in the vertical direction and b pixels in the horizontal direction, and the i-th horizontal pixel value and the j-th vertical pixel value are p (i, j).
ここでは、ハール・ウェーブレット変換を用いる手法について述べたが、ウェーブレット変換、エッジ抽出、フーリエ変換、ガボール変換といったその他の変換手法を用いても良い。また、他の統計特徴量として、最大値から最小値を引いた値、標準偏差といった統計量を用いても良い。以上の処理により、学習画像から複数種類の特徴量を抽出することができる。 Here, the method using the Haar-wavelet transform has been described, but other transform methods such as wavelet transform, edge extraction, Fourier transform, and Gabor transform may be used. Further, as other statistical feature quantities, statistics such as a value obtained by subtracting the minimum value from the maximum value and a standard deviation may be used. By the above processing, a plurality of types of feature quantities can be extracted from the learning image.
(ステップS302:ラベルノイズクレンジング)
ステップS302では、クレンジング部202が、S301で学習画像から抽出した複数の特徴量を利用して、学習画像のラベルノイズクレンジングを行う。すなわち、クレンジング部202は、学習画像がノイズデータ(誤ったラベルが付与されているデータ)であるか否かの判定を行い、ノイズデータと判定された学習画像を除外する。これにより、入力画像を識別するための識別モデルの生成の際に使用される学習データが決定される。このステップにおける処理の詳細については後述する。
(Step S302: Label Noise Cleansing)
In step S302, the
(ステップS303:特徴量選択)
ステップS303では、特徴量選択部203が、ステップS302でラベルノイズクレンジングを行った学習画像に対し、特徴量の順位付けを行う。特徴量の順位付けを行う方法として、特許文献1には、入力データから抽出される複数の特徴量から特徴量間の組合せの相性を考慮し、入力データの分類に適した特徴量を選択する技術が開示されている。具体的には、特徴量を組み合わせて第1評価値を算出し、第1評価値同士を比較して上位のI個の特徴量にのみ特徴量間の組合せの相性を示す第2評価値を投票し、第2評価値に基づいて特徴量に順位付けする。
(Step S303: Feature Selection)
In step S303, the feature
(ステップS304:識別モデルの生成)
ステップS304では、識別モデル学習部204が、S303で順位付けされた特徴量を用いて、識別モデルの生成を行う。この識別モデルは未知の入力画像を識別するための識別モデル(第1の識別モデル)であり、本実施形態においては入力画像に含まれる対象物の良否判定を行うための識別モデルである。ここでは、部分空間法のひとつである投影距離法を識別モデルの生成に用いる。投影距離とは、簡単に述べると、それぞれの特徴量を軸とする特徴空間における特徴ベクトルと、パターンの分布の分散が最大となる向きを持つ超平面(主平面)との最短距離である。以下、数式を用いて具体的に説明する。
(Step S304: Generation of Identification Model)
In step S304, the identification
正常データの平均ベクトルmと共分散行列Σは、正常データの数nと特徴ベクトルxiを用いて示すことができる。正常データの平均ベクトルmを数式7に、共分散行列Σを数式8に示す。 The mean vector m of normal data and the covariance matrix Σ can be shown using the number n of normal data and the feature vector x i . An average vector m of normal data is shown in Equation 7 and a covariance matrix Σ is shown in Equation 8.
ここで、Σの第i番目の固有値、固有ベクトルをそれぞれλi、φiとし、固有値は降順で並んでいるものとする。本実施形態では、学習用の正常データを用いて、正常データの平均ベクトルmと共分散行列Σから識別モデルを生成する。 Here, it is assumed that the i-th eigenvalue and eigenvector of Σ are λ i and φ i , respectively, and the eigenvalues are arranged in descending order. In this embodiment, a discrimination model is generated from the mean vector m of the normal data and the covariance matrix て using the normal data for learning.
(ステップS305:交差確認法によるパラメータ決定)
ステップS305では、パラメータ設定部205が、交差確認法を用いて、ステップS303における特徴量選択により順位付けされた特徴量の選択数、およびステップS304における部分空間の射影次元を決定する。
(Step S305: Parameter Determination by Cross Confirmation Method)
In step S305, the
具体的には、ここでは、k−Fold交差確認法を用いてパラメータを決定する。すなわち、学習データをランダムにk分割し、k分割したデータセットのうち、(k−1)個のデータセットで識別モデルの生成を行い、1つのデータセットで検証する。そして、決定すべきパラメータ(特徴量の選択数と部分空間の次元数)を順次変えながら、認識率の性能評価を行い、AUC(エリアアンダーカーブ:認識性能曲線の下部面積)が最も良いパラメータを選択する。なお、k=5程度に設定するのが適当である。 Specifically, parameters are determined here using k-Fold cross validation. That is, the learning data is randomly divided into k, and of the k-divided data sets, the identification model is generated using (k-1) data sets, and is verified with one data set. Then, the performance of the recognition rate is evaluated while sequentially changing the parameters to be determined (the number of selected features and the number of dimensions of the subspace), and the AUC (area under curve: area under the recognition performance curve) is the best parameter. select. Incidentally, it is appropriate to set about k = 5.
(ステップS306:テストデータに対する正常異常判定)
ステップS306では、正常異常判定部206が、ステップS303で選択した特徴量を用いて、テストデータに対する特徴量抽出を行い、ステップS304で生成した識別モデルを用いて、ステップS305で決定したパラメータにより正常異常判定を行う。数式7で算出された主平面と、数式8で算出された平均ベクトルmを用いて、射影次元数lとテストデータの特徴ベクトル
(Step S306: Normal / abnormal judgment on test data)
In step S306, the normality /
により、投影距離d(x)は以下の数式9で表される。ここでは、数式9で表された投影距離を算出し、閾値処理をした上で正常異常判定を行う。 Thus, the projection distance d (x) is expressed by Equation 9 below. Here, the projection distance represented by Formula 9 is calculated, threshold processing is performed, and the normal / abnormal determination is performed.
なお、本実施形態では、部分空間法を用いて識別モデルを生成する構成について述べてきたが、SVM等の他の識別器を用いて識別モデルを生成してもよい。 In the present embodiment, although the configuration for generating the identification model using the subspace method has been described, the identification model may be generated using another identifier such as SVM.
ここでは、本実施形態の情報処理装置103が、ラベルノイズクレンジング処理以降の、実際の入力データに対して識別を行う際の識別モデルの学習も行うものとしたが、実際の入力データに対して識別を行う際の識別モデルの学習は別の装置で行ってもよい。
Here, although the
ここで、ステップS302におけるラベルノイズクレンジングの処理の詳細について述べる。図5は、本実施形態のラベルノイズクレンジングの処理の詳細を示すフローチャートである。 Here, the details of the label noise cleansing process in step S302 will be described. FIG. 5 is a flowchart showing the details of the label noise cleansing process of this embodiment.
(ステップS501:学習データの設定)
ステップS501では、M個の画像データ(学習画像)を用意(設定)する。ここで、学習データはM個用意するものとし、各学習データからは上述したようにN個の特徴量が抽出されている。なお、ここで設定される学習データは上述のS301で取得した学習データの全部、または一部である。
(Step S501: setting of learning data)
In step S501, M pieces of image data (learning images) are prepared (set). Here, it is assumed that M learning data are prepared, and N feature quantities are extracted from each learning data as described above. The learning data set here is all or part of the learning data acquired in S301 described above.
(ステップS502:特徴量選択)
ステップS502では、ステップS501で設定したM個の学習データそれぞれから抽出したN個の特徴量のうちランダムにR個の特徴量を選択する選択処理を実行する(Rは1以上の整数)。このとき特徴量をランダムに選択するので、特徴量選択にかかる計算時間を軽減することができ、繰り返し処理が多数になったとしても計算時間の増大を抑制できる。なお、各学習画像において選択されるR個の特徴量の組み合わせはどれも同じである。
(Step S502: Feature Selection)
In step S502, a selection process is performed to select R feature quantities at random among the N feature quantities extracted from each of the M learning data set in step S501 (R is an integer of 1 or more). At this time, since the feature quantities are randomly selected, it is possible to reduce the calculation time required to select feature quantities, and to suppress an increase in calculation time even if the number of repetitive processes is large. The combination of R feature amounts selected in each learning image is the same.
(ステップS503:データ分割)
ステップS503では、M個用意してある学習データをランダムにL個のデータセット(グループ)に分割する(Lは1以上の整数)。そして、L−1個のデータセットを学習用データに設定し、1個のデータセットを検証用データに設定する。そして、組み合わせを変えながら、学習用データと検証用データの組み合わせをL個生成する。なお、ここでは、L個のデータセットに分割することを前提とすると述べたが、分割することなく、用意したM個の学習画像を学習用データと検証用データの両方に用いるようにしても良い。なお、ステップS502とS503は処理の順番は逆であってもよい。
(Step S503: Data Division)
In step S503, M pieces of learning data prepared are randomly divided into L data sets (groups) (L is an integer of 1 or more). Then, L-1 data sets are set as learning data, and one data set is set as verification data. Then, while changing the combination, L combinations of learning data and verification data are generated. Although it has been stated here that division into L data sets is premised, it is possible to use the prepared M learning images for both learning data and verification data without division. good. The order of processing in steps S502 and S503 may be reversed.
(ステップS504:識別モデル生成)
ステップS504では、ステップS503で学習用データとして設定されたデータセットのデータを用いて、部分空間法により識別モデルを生成する生成処理を実行する。このステップで生成する識別モデルは、先に説明をした入力画像を識別するための識別モデルと異なり、ラベルノイズクレンジングにおいて使用される識別モデル(第2の識別モデル)である。なお、第1の識別モデルと第2の識別モデルとは異なる種類のモデルであってもよいし、本実施形態のように同じ種類のモデルであってもよい。
(Step S504: Identification Model Generation)
In step S504, using the data of the data set set as learning data in step S503, a generation process of generating a discrimination model by a subspace method is executed. The discrimination model generated in this step is a discrimination model (second discrimination model) used in label noise cleansing, unlike the discrimination model for identifying the input image described above. Note that the first identification model and the second identification model may be different types of models, or may be the same type of model as in this embodiment.
(ステップS505:認識スコア算出)
ステップS505では、ステップS504で生成した識別モデルを利用して、検証用データとして設定された各データの認識スコアを算出する算出処理を実行する。ここで、認識スコアはそのデータが正常らしさ(正常であることの尤度)を示すスコアである。すなわち、学習データに付与されているラベルが正常である(第1の情報)か、異常である(第2の情報)かという2値の場合に、認識スコアは第1の情報であることの尤度を示すものである。なお、本実施形態においては、識別モデル生成と認識スコアの算出はステップS304で述べた投影距離法を用いるが、ステップS304と異なる手法を利用するようにしても良い。
(Step S505: Calculation of recognition score)
In step S505, calculation processing is performed to calculate the recognition score of each data set as verification data using the identification model generated in step S504. Here, the recognition score is a score indicating that the data is normal (likelihood of being normal). That is, in the case where the label attached to the learning data is normal (first information) or abnormal (second information), the recognition score is the first information. It indicates the likelihood. In the present embodiment, the projection distance method described in step S304 is used for identification model generation and recognition score calculation, but a method different from step S304 may be used.
(ステップS506:認識スコア統合)
ステップS506では、ステップS505で算出したデータごとの認識スコアを足し合わせて、スコアを統合する。具体的には、データごとに算出した認識スコアを足し合わせて、認識スコアの総和を求める。なお、検証用データの認識スコアの総和を求めると述べたが、学習用データと検証用データの認識スコアの両方を用いて、認識スコアの総和を算出してもよい。
(Step S506: recognition score integration)
In step S506, the recognition scores for each piece of data calculated in step S505 are added together to integrate the scores. Specifically, the recognition scores calculated for each data are added to obtain the total of the recognition scores. Although it has been stated that the sum of recognition scores of verification data is determined, the sum of recognition scores may be calculated using both learning data and recognition scores of verification data.
(ステップS507:ノイズデータ候補決定)
ステップS507では、ステップS506で算出した認識スコアを用いて、ノイズデータ候補(除外すべき学習画像の候補)を決定する。各データで算出された認識スコアから、正常のラベルが付与されているデータのみのスコアを抽出し、正常のラベルが付与されているデータのスコアの平均値及び標準偏差を算出する。そして、そのスコアの平均値に対してスコアの標準偏差をa倍した値を加算し、第1の閾値とする。また、スコアの平均値に対してスコアの標準偏差をa倍した値を減算し、第2の閾値とする。正常のラベルが付与されているデータのスコアが第1、第2の閾値に挟まれた値であるかを判断し、挟まれたデータであるならば、本当に正常データであると判断する。一方、それ以外の値であればノイズデータであると判断する。正常のノイズデータは正常データの分布の外部にあることを考慮し、例えばa=3に設定して閾値処理を行い、正常のラベルが付与されているデータが、正常データであるかノイズデータであるかを判定する。
(Step S507: noise data candidate determination)
In step S507, noise data candidates (candidates of learning images to be excluded) are determined using the recognition score calculated in step S506. From the recognition score calculated for each data, the score of only the data to which the normal label is attached is extracted, and the average value and the standard deviation of the scores of the data to which the normal label is attached are calculated. Then, a value obtained by multiplying the standard deviation of the scores by a is added to the average value of the scores to obtain a first threshold. Further, a value obtained by multiplying the standard deviation of the score by a times the average value of the score is subtracted to obtain a second threshold. It is determined whether the score of the data to which the normal label is assigned is a value between the first and second threshold values, and if it is the sandwiched data, it is determined that the data is truly normal data. On the other hand, if the value is other than that, it is determined that the data is noise data. In consideration of the fact that normal noise data is outside the distribution of normal data, threshold processing is performed by setting, for example, a = 3, and data labeled as normal is normal data or noise data. Determine if there is.
異常のラベルが付与されているデータに対しても、同様に閾値処理を行う。まず異常のラベルが付与されているデータのスコアの平均値及び標準偏差を算出し、スコアの平均値に対してスコアの標準偏差をb倍した値を加算し、第3の閾値とする。また、スコアの平均値に対してスコアの標準偏差をb倍した値を減算し、第4の閾値とする。異常のラベルが付与されているデータのスコアが第3、第4の閾値に挟まれた値であるかを判断し、挟まれたデータであるならば、ノイズデータであると判断する。一方、それ以外の値であれば本当に異常データであると判断する。異常のノイズデータは正常データの分布の内部にあることを考慮し、例えば、b=1に設定し、閾値処理を行い、異常のラベルが付与されているデータが、異常データであるかノイズデータであるかを判定する。 The threshold processing is similarly performed on data to which an abnormal label is attached. First, the average value and the standard deviation of the scores of the data labeled with the abnormality are calculated, and a value obtained by multiplying the standard deviation of the scores by b is added to the average value of the scores to obtain a third threshold. In addition, a value obtained by multiplying the standard deviation of the score by b with respect to the average value of the score is subtracted to obtain a fourth threshold. It is determined whether the score of the data to which the abnormal label is attached is a value between the third and fourth threshold values, and if it is the sandwiched data, it is determined that the data is noise data. On the other hand, if the value is other than that, it is determined that the data is really abnormal data. Consider that the noise data of the abnormality is inside the normal data distribution, for example, set b = 1, perform threshold processing, and indicate whether the data with the label of the abnormality is abnormal data or noise data Determine if it is.
(ステップS508:終了条件を満たすかの確認)
ステップS508では、ステップS502からステップS507までの処理を繰り返し、終了条件を満たすかの確認を行う。終了条件としては、例えば、ステップS502からS507の処理を所定回数(例えば、100回)以上繰り返し実行したか否か等が挙げられる。
(Step S508: Confirmation of End Condition)
In step S508, the process from step S502 to step S507 is repeated to check whether the end condition is satisfied. As the termination condition, for example, whether or not the processing of steps S502 to S507 is repeatedly performed a predetermined number of times (for example, 100 times) or more can be mentioned.
本実施形態では、S502において特徴量をランダムに選択をして、その選択された特徴量に基づいて識別モデルが生成されてノイズデータが決定される。そのため、予め決まった1つの特徴量に基づいてノイズデータを決定する構成よりも、ロバスト性よくノイズデータを決定することができる。したがって、このノイズデータを除去した学習データに基づいて生成される、対象物を識別するための識別モデルでは精度よく識別を行うことができるようになる。また、特徴量をランダムに選択することにより、繰り返し処理にかかる計算時間を軽減させることができる。 In the present embodiment, feature amounts are randomly selected in S502, and a discrimination model is generated based on the selected feature amounts to determine noise data. Therefore, the noise data can be determined more robustly than the configuration in which the noise data is determined based on one predetermined feature amount. Therefore, in the identification model for identifying the object, which is generated based on the learning data from which the noise data is removed, the identification can be performed with high accuracy. In addition, by selecting the feature amounts at random, it is possible to reduce the calculation time required for the repetitive processing.
なお、本実施形態では、ステップS502において特徴量をランダムに選択したが、S502〜S508が複数回実行される際、各回で組合せが異なるように特徴量が選択されればよく、必ずしもランダムに選択するようにしなくともよい。 In the present embodiment, the feature amount is randomly selected in step S502. However, when S502 to S508 are executed a plurality of times, the feature amount may be selected so that the combination is different each time. You do not have to do it.
(ステップS509:ノイズデータの決定)
ステップS509では、ステップS502からステップS507までの繰り返し処理の回数に対してノイズデータ候補であると決定した割合を基に、ノイズデータを決定する。本実施形態では、ステップS502からステップS507までの繰り返し処理の回数を100としたとき、x%の割合でノイズデータ候補であると判定したデータをノイズデータであると決定する。ここでx=50程度に設定するのが好ましい。そして、ここでノイズデータとして決定された学習データ(学習画像)はS305における識別モデルの生成には利用されないよう対象のデータから除外される。
(Step S509: Determination of noise data)
In step S509, noise data is determined based on the ratio determined to be a noise data candidate with respect to the number of times of repetitive processing from step S502 to step S507. In the present embodiment, assuming that the number of times of repetitive processing from step S502 to step S507 is 100, data determined as noise data candidates at a rate of x% is determined as noise data. Here, it is preferable to set about x = 50. And the learning data (learning image) determined as noise data here is excluded from the data of object so that it may not be utilized for the production | generation of the identification model in S305.
以上、本実施形態にかかる情報処理装置によれば、複数の特徴量の中から組み合わせを異ならせながら複数回特徴量を選択する。そして、特徴量の組み合わせを異ならせたそれぞれでノイズデータであるかを判断し、その判断結果を統合してノイズデータを決定する。これにより、ロバストに精度よくノイズデータを決定することができるため、識別精度の高い識別モデルを生成することができるようになる。 As described above, according to the information processing apparatus according to the present embodiment, the feature amount is selected a plurality of times while making the combination different among the plurality of feature amounts. Then, different combinations of feature amounts are used to determine whether the data is noise data, and the determination results are integrated to determine noise data. As a result, noise data can be determined robustly and accurately, so that a discrimination model with high discrimination accuracy can be generated.
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。第1の実施形態では、ステップS502において特徴量をランダムに選択する構成を示した。本実施形態は、より精度良くノイズデータを決定するために、繰り返し処理の各処理において、ノイズデータ候補を決定する処理が正しく行われていることを確認するものである。なお、第1の実施形態で既に説明をした構成については同一の符号を付し、その説明を省略する。
Second Embodiment
Next, a second embodiment of the present invention will be described. In the first embodiment, the configuration in which the feature amount is randomly selected in step S502 has been described. In the present embodiment, in order to determine noise data more accurately, it is confirmed that the process of determining noise data candidates is correctly performed in each process of the iterative process. The components already described in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
図6は、本実施形態におけるラベルノイズクレンジングの処理の詳細を示すフローチャートである。なお、図6のステップS601〜S606、S608における各処理は、第1の実施形態で示した図5のステップS501〜S506、ステップS508の各処理と同様であるため説明を省略する。 FIG. 6 is a flowchart showing details of label noise cleansing processing in the present embodiment. The processes in steps S601 to S606 and S608 in FIG. 6 are the same as the processes in steps S501 to S506 and step S508 in FIG. 5 described in the first embodiment, and thus the description thereof is omitted.
(ステップS607:ノイズデータ候補とグッドデータ候補を決定)
ステップS607では、正常データと異常データそれぞれからグッドデータ候補とノイズデータ候補を決定する。
(Step S 607: Determine noise data candidates and good data candidates)
In step S607, good data candidates and noise data candidates are determined from the normal data and the abnormal data.
最初に、正常のラベルが付与されているデータに対して、ノイズデータ候補を決定する。ここでのノイズデータ候補の決定は、例えば、第1の実施形態で説明したような第1、第2の閾値を用いた閾値処理によって行えばよい。次に、異常のラベルが付与されているデータに対して、ノイズデータ候補を決定する。ここでのノイズデータ候補の決定は、例えば、第1の実施形態で説明したような第3、第4の閾値を用いた閾値処理によって行えばよい。以上により、正常のラベルが付与されているデータ及び異常のラベルが付与されているデータのそれぞれからノイズデータ候補を決定する。 First, noise data candidates are determined for data labeled as normal. The determination of the noise data candidate here may be performed by, for example, threshold processing using the first and second thresholds as described in the first embodiment. Next, noise data candidates are determined for the data to which the abnormal label is attached. The determination of the noise data candidate here may be performed by, for example, threshold processing using the third and fourth thresholds as described in the first embodiment. As described above, the noise data candidate is determined from each of the data to which the normal label is attached and the data to which the abnormal label is attached.
次に、正常のラベルが付与されているデータに対して、グッドデータ候補を決定する。具体的には、まず正常のラベルが付与されているデータのみのスコアを抽出し、正常のラベルが付与されているデータのスコアの平均値及び標準偏差を算出する。そして、スコアの平均値に対してスコアの標準偏差をc倍した値を加算し、第5の閾値とする。また、スコアの平均値に対してスコアの標準偏差をc倍した値を減算し、第6の閾値とする。正常のラベルが付与されているデータのスコアが第5、第6の閾値に挟まれた値であるかどうかを判断し、挟まれたデータであるならばグッドデータであると判断する。例えば、正常のグッドデータは正常データの分布の内部にあることを考慮して、c=1に設定した上で閾値処理を行い、正常のラベルが付与されているデータからグッドデータ候補を決定する。 Next, good data candidates are determined for the data to which the normal label is assigned. Specifically, first, the score of only the data to which the normal label is attached is extracted, and the average value and the standard deviation of the scores of the data to which the normal label is attached are calculated. Then, a value obtained by multiplying the standard deviation of the score by c with respect to the average value of the scores is added to obtain a fifth threshold. Further, a value obtained by multiplying the standard deviation of the score by c with respect to the average value of the score is subtracted to obtain a sixth threshold. It is determined whether the score of the data to which the normal label is assigned is a value between the fifth and sixth threshold values, and if it is the sandwiched data, it is determined that the data is good data. For example, in consideration of the fact that normal good data are in the distribution of normal data, threshold processing is performed after setting c = 1, and good data candidates are determined from data to which normal labels are attached. .
最後に、異常のラベルが付与されているデータに対して、グッドデータ候補を決定する。各データで算出されたスコアから、異常のラベルが付与されているデータのみのスコアを抽出する。異常のラベルが付与されているデータのスコアの平均値及び標準偏差を算出し、スコアの平均値に対してスコアの標準偏差をd倍した値を加算し、第7の閾値とする。また、スコアの平均値に対してスコアの標準偏差をd倍した値を減算し、第8の閾値とする。異常のラベルが付与されているデータのスコアが第7、第8の閾値に挟まれていなければ、異常データのグッドデータであると判定する。異常のグッドデータは正常データの分布の外部にあることを考慮して、例えば、f=3に設定した上で閾値処理を行い、異常のラベルが付与されているデータからグッドデータ候補を決定する。 Finally, good data candidates are determined for the data that is labeled as abnormal. From the scores calculated for each data, the score of only the data to which the abnormal label is assigned is extracted. The average value and the standard deviation of the scores of the data labeled as abnormal are calculated, and a value obtained by multiplying the standard deviation of the scores by d is added to the average value of the scores to obtain a seventh threshold. Further, a value obtained by multiplying the standard deviation of the score by d with respect to the average value of the score is subtracted to obtain an eighth threshold. If the score of the data labeled as abnormal is not between the seventh and eighth threshold values, it is determined that the data is good data of the abnormal data. In consideration of the fact that the good data of abnormality is outside the distribution of normal data, for example, threshold processing is performed after setting f = 3, and good data candidates are determined from the data to which the label of abnormality is attached. .
以上の説明からわかるように、グッドデータ候補とは、各学習画像に付与されているラベルを正しく認識できている可能性が相対的に高い学習データである。逆に、ノイズデータ候補とは、各学習画像に付与されているラベルを正しく認識できている可能性が相対的に低い学習データである。 As understood from the above description, the good data candidate is learning data having a relatively high possibility of correctly recognizing the label attached to each learning image. Conversely, the noise data candidate is learning data that is relatively low in the possibility of correctly recognizing the label attached to each learning image.
(ステップS609:ノイズデータの設定)
ステップS609では、ステップS607で選ばれたノイズデータ候補からノイズデータを決定する。
(Step S609: setting of noise data)
In step S609, noise data is determined from the noise data candidates selected in step S607.
ステップS602からステップS607までの繰り返し処理の回数に対してノイズデータ候補であると決定した割合を基に、ノイズデータを決定する。ここでは、各データに対し、ノイズデータ候補であるかどうかの集計を行い、ステップS602からステップS607までの繰り返しにおいて、x%の割合でノイズデータと判定した場合、ノイズデータであると設定する。 Noise data is determined based on a ratio determined to be a noise data candidate with respect to the number of times of repetitive processing from step S602 to step S607. Here, each data is summed up whether it is a noise data candidate or not, and in the repetition from step S602 to step S607, if it is determined as noise data at a rate of x%, it is set as noise data.
(ステップS610:ノイズデータの確認)
ステップS610では、ステップS609でノイズデータが正しく決定できているかを確認する。ステップS609においてノイズデータであると判定したデータに関し、ステップS602からステップS607までの繰り返しにおいて、ステップS607で1度でもグッドデータ候補と判断されている場合には、正しいノイズデータではないと判断する。
(Step S610: Confirmation of noise data)
In step S610, it is checked in step S609 whether the noise data can be correctly determined. With regard to the data determined to be noise data in step S609, if it is determined as a good data candidate even once in step S607 in the repetition of steps S602 to S607, it is determined that the data is not correct noise data.
(ステップS611:ノイズデータの再設定)
ステップS611では、ステップS609で決定したノイズデータから、ステップS610で正しいノイズデータでないと判断したものを除外することにより、ノイズデータを再設定する。
(Step S611: Resetting noise data)
In step S611, the noise data is reset by excluding the noise data determined in step S609 that is determined not to be the correct noise data in step S610.
本実施形態においては、ラベルノイズクレンジングにおいてグッドデータは用いていないが、グッドデータ候補からグッドデータを決定し、非特許文献1と同様にノイズデータとグッドデータによりデータクレンジングを行うようにしてもよい。 In the present embodiment, good data is not used in label noise cleansing, but good data may be determined from good data candidates and data cleansing may be performed using noise data and good data as in Non-Patent Document 1. .
本実施形態にかかる情報処理装置によれば、取捨選択した設定基準を満たす、繰り返し処理におけるノイズデータ候補とグッドデータ候補を用いて、ノイズデータの再設定を行う。これにより、ロバストに精度よくノイズデータを決定することができるため、識別精度の高い識別モデルを生成することができるようになる。 According to the information processing apparatus according to the present embodiment, the noise data is reset using the noise data candidate and the good data candidate in the iterative process which satisfy the selected setting criteria. As a result, noise data can be determined robustly and accurately, so that a discrimination model with high discrimination accuracy can be generated.
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。本実施形態は、繰り返し処理の中から、文字列の順番に関する類似度を算出する距離尺度を用いてノイズデータ候補を決定するためにどの回の処理を用いるかを選択する。そして、選択した処理のノイズデータ候補からノイズデータを決定する。なお、第1、第2の実施形態で既に説明をした構成については同一の符号を付し、その説明を省略する。
Third Embodiment
Next, a third embodiment of the present invention will be described. In the present embodiment, from among the iterative processes, which process is used to determine noise data candidates is selected using a distance scale that calculates the degree of similarity related to the order of character strings. Then, noise data is determined from the noise data candidates of the selected process. The components already described in the first and second embodiments are denoted by the same reference numerals, and the description thereof will be omitted.
図7は、本実施形態におけるラベルノイズクレンジングの処理の詳細を示すフローチャートである。なお、図7のステップS601〜S606における各処理は、第1の実施形態で示した図5のステップS501〜S506の各処理と同様であるため説明を省略する。 FIG. 7 is a flowchart showing details of label noise cleansing processing in the present embodiment. The processes in steps S601 to S606 in FIG. 7 are the same as the processes in steps S501 to S506 in FIG. 5 shown in the first embodiment, and therefore the description thereof is omitted.
(ステップS707:認識スコアの順番を記憶)
ステップS707では、繰り返し処理の各回のステップS705でデータに付与されたインデックスを利用して、各データに対して算出された認識スコアから認識スコアの順番を記憶する。
(Step S 707: memorize the order of recognition score)
In step S 707, the index assigned to the data in
(ステップS708:終了条件を満たすかの確認)
ステップS708では、ステップS702からステップS707までの処理を繰り返し、終了条件を満たすかの確認を行う。ステップS702からステップS708までの処理を繰り返し、選んだ特徴量の組み合わせに対応するノイズデータ候補を決定する。
(Step S 708: Confirmation of End Condition)
In step S 708, the processing from step S 702 to step S 707 is repeated to check whether the end condition is satisfied. The processing from step S702 to step S708 is repeated to determine noise data candidates corresponding to the selected combination of feature amounts.
(ステップS709:順番に関する類似度を算出し、繰り返し処理を選択)
ステップS709では、ステップS707で記憶した認識スコアの順番に基づいて、順番に関する類似度を算出し、繰り返し処理の中からどの回の処理を使用するかを選択する。詳細に関しては、図8を用いて後述する。
(Step S 709: Calculate the degree of similarity regarding the order and select the repetitive process)
In step S 709, based on the order of the recognition scores stored in step S 707, the similarity relating to the order is calculated, and among the repetitive processes, which process to use is selected. Details will be described later with reference to FIG.
(ステップS710:ノイズデータの決定)
ステップS710では、ステップS709で選択した処理のみを利用して、ノイズデータ候補からノイズデータを決定する。各データに対し、選択した回の処理を利用して、ノイズデータ候補であるかどうかの集計を行い、b%の割合でノイズデータと判定した場合、ノイズデータであると決定する。ここでは、b=50程度に設定するのが好ましい。
(Step S710: Determination of noise data)
In step S710, noise data is determined from the noise data candidates using only the process selected in step S709. Each data is subjected to processing of selected times to count whether it is a noise data candidate or not, and when it is determined as noise data at a ratio of b%, it is determined to be noise data. Here, it is preferable to set b = about 50.
図8は、繰り返し処理の中からノイズデータを判断するために用いる処理を選択するための処理を示すフローチャートである。以下に、ステップS801からステップS802までの処理を説明する。 FIG. 8 is a flowchart showing a process for selecting a process to be used to determine noise data from among the iterative processes. The processes from step S801 to step S802 will be described below.
(ステップS801:順番に関する類似度行列の算出)
ステップS801では、文字列の類似度に用いる評価値を用いて、その評価値を要素とする、順番に関する類似度行列を算出する。順番に関する類似度を求めるために、文字列の類似度に用いる評価値を用いる。例えば、評価値として、最小編集距離等を用いる。最小編集距離とは、並んだ数字列に対してどれだけ変更を加えれば別の数字列になるか、ということに基づいて求められる距離である。変更の回数が多ければ多いほど、距離は大きくなる。ここでは、認識スコアの降順に並んだインデックスに対し、異なる繰り返し処理で並んだ数字列を比較し、「挿入」「削除」「置換」の処理を行い、同一の数字列になるようにする。例えば、繰り返し処理1「3,6,7,1」と繰り返し処理2「5,6,8」に並んだ数字列に変更する場合、繰り返し処理1の「3」を「5」に置換し、「7」を「8」に置換し、「1」を削除する。そうすれば繰り返し処理1の数字列が、繰り返し処理2の数字列に変更される。このときの処理の回数が3回なので、最小編集距離は3となる。このようにして、異なる繰り返し処理の認識スコアを比較し、最小編集距離を算出する。なお、ここでは、最小編集距離を用いることを前提としたが、そのほかの距離尺度として、レーベンシュタイン距離を用いても良い。最小編集距離では、「挿入」「削除」「置換」のそれぞれの処理で同一のコストを与えるが、レーベンシュタイン距離は、「挿入」「削除」「置換」に対し、それぞれ異なるコストを与える。距離の尺度を用いて、繰り返し処理の各処理のスコアを算出する。
(Step S801: Calculation of similarity matrix regarding order)
In step S801, using the evaluation value used for the similarity of the character string, a similarity matrix regarding order is calculated using the evaluation value as an element. The evaluation value used for the similarity of character strings is used to obtain the similarity regarding the order. For example, the minimum editing distance or the like is used as the evaluation value. The minimum editing distance is a distance determined based on how much change is made to the arranged number string to become another number string. The greater the number of changes, the greater the distance. Here, for the indexes arranged in descending order of recognition score, the numeral strings arranged in different repetition processing are compared, and the processes of “insertion”, “deletion” and “replacement” are performed so that they become identical numeral strings. For example, when changing to the numeral string in which repeat process 1 “3, 6, 7, 1” and repeat process 2 “5, 6, 8” are arranged, “3” in repeat process 1 is replaced with “5”, Replace "7" with "8" and delete "1". Then, the numeral string of the repeat process 1 is changed to the numeral string of the repeat process 2. Since the number of times of processing at this time is three, the minimum editing distance is three. Thus, the recognition scores of different repeated processes are compared to calculate the minimum editing distance. Although it is assumed here that the minimum editing distance is used, Levenshtein distance may be used as another distance scale. The minimum editing distance gives the same cost in each of the "insert", "delete" and "replace" processes, but the Levenshtein distance gives different costs to "insert", "delete" and "replace". The distance measure is used to calculate the score of each process of the iterative process.
最小編集距離を利用して、繰り返し処理iと繰り返し処理jを比較し、繰り返し処理iと繰り返し処理jの類似度DISTijを算出する。そして、順番に関する類似度行列Yを数式10を用いて算出する。 Using the minimum edit distance, the iterative process i is compared with the iterative process j to calculate the similarity DIST ij of the iterative process i and the iterative process j. Then, the similarity matrix Y related to the order is calculated using Equation 10.
(ステップS802:繰り返し処理の各処理のスコアの算出)
ステップS802では、ステップS801で算出した類似度行列を用いて、繰り返し処理の各回の処理のスコアを算出する。以下の数式11に示すように、類似度行列Yに対し、列ごとに類似度Yijを加算し、総和を求め、繰り返し処理iに対するスコアDIST_SUM(i)を算出する。
(Step S802: Calculation of Scores of Repetitive Processing)
In step S802, using the similarity matrix calculated in step S801, the score of each process of the iterative process is calculated. As shown in Equation 11 below, the similarity score Y ij is added to the similarity matrix Y for each column to obtain the sum, and the score DIST_SUM (i) for the iterative process i is calculated.
このようにして、繰り返し処理の各回の処理に対応するスコアを算出できたので、スコアを降順に並べ、上位a%は利用しないようにして、ステップS701からステップS706までの繰り返し処理を選択する。このときa=10程度に設定する。 In this way, since the score corresponding to each process of the iterative process has been calculated, the score is arranged in descending order, and the top a% is not used, and the iterative process from step S701 to step S706 is selected. At this time, it is set to about a = 10.
本実施形態にかかる情報処理装置によれば、文字列の順番に関する類似度を算出する距離尺度を用いて、ノイズデータ候補を決定するための処理の回を選択し、選択した回の処理のノイズデータ候補からノイズデータを決定する。これにより、精度よくノイズデータを決定することができる。 According to the information processing apparatus according to the present embodiment, using the distance measure for calculating the similarity with respect to the order of the character string, the process of determining the noise data candidate is selected, and the noise of the selected process is selected. Determine noise data from data candidates. Thereby, the noise data can be determined with high accuracy.
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。本実施形態は、繰り返し処理に負荷のかからない特徴量選択手法を組み合わせることにより、ノイズデータ候補を決定し、精度良くノイズデータを決定するものである。なお、第1〜第3の実施形態で既に説明をした構成については同一の符号を付し、その説明を省略する。
Fourth Embodiment
Next, a fourth embodiment of the present invention will be described. In the present embodiment, noise data candidates are determined and noise data is determined with high accuracy by combining a feature amount selection method that does not require a load on repetitive processing. The same reference numerals are given to the configurations already described in the first to third embodiments, and the descriptions thereof will be omitted.
図9は、本実施形態におけるラベルノイズクレンジングの処理の詳細を示すフローチャートである。なお、図9のステップS901、S903〜S909における各処理は、第1の実施形態で示した図5のステップS501、S503〜S509の各処理と同様であるため説明を省略する。 FIG. 9 is a flowchart showing details of label noise cleansing processing in the present embodiment. The processes in steps S901 and S903 to S909 in FIG. 9 are the same as the processes in steps S501 and S503 to S509 in FIG. 5 described in the first embodiment, and thus the description thereof is omitted.
(ステップS902:特徴量選択手法を選択し特徴量選択)
ステップS902では、ステップS901で設定した学習データに対し、繰り返し処理に負荷のかからない特徴量選択手法を選択し、特徴量選択を行う。計算負荷がかからない特徴量選択手法として、評価値基準(ベイズ誤り確率推定値やクラス内分散・クラス間分散比)により、1つずつ特徴量を評価し、評価値が良い特徴量から順に特徴量を選択するといった手法がある。
(Step S902: Select a feature selection method and select a feature)
In step S902, for the learning data set in step S901, a feature amount selection method that does not impose a load on repetitive processing is selected, and feature amount selection is performed. As a feature quantity selection method that does not require calculation load, feature quantities are evaluated one by one according to the evaluation value criteria (Bayesian error probability estimated value or intraclass variance / interclass variance ratio), and feature quantities are ordered in order from the best There is a method of selecting
ここでは、評価値の例の1つとして、ベイズ誤り確率推定値について述べる。ここで、正常のクラス、異常のクラスのそれぞれをw1、w2とし、n個の特徴をもつベクトルをX=[x1,・・・,xn]tとする。正常クラスw1、異常クラスw2に属する確率の分布に対応するw1とw2における条件付き確率分布P(x|w1)、P(x|w2)をヒストグラムで表現し、そこから事後確率分布P(w1|x)、P(w2|x)を算出する。事後確率分布P(wi|x)を数式12に示す。 Here, the Bayesian error probability estimated value will be described as one of the examples of the evaluation value. Here, let w 1 and w 2 denote a normal class and an abnormal class, respectively, and let X = [x 1 ,..., X n ] t be a vector having n features. The conditional probability distributions P (x | w 1 ) and P (x | w 2 ) in w 1 and w 2 corresponding to the distributions of the probability belonging to the normal class w 1 and the abnormal class w 2 are expressed by a histogram, from which The posterior probability distributions P (w 1 | x) and P (w 2 | x) are calculated. Posterior probability distribution P | a (w i x) shown in Equation 12.
そして、事後確率分布P(w1|x)、P(w2|x)の重なりに対応するベイズ誤り確率推定値を数式13を用いて算出する。 Then, a Bayesian error probability estimated value corresponding to the overlap of the posterior probability distributions P (w 1 | x) and P (w 2 | x) is calculated using Expression 13.
Bayes=∫min{P(w1│x),P(w2│x)}dx (数式13)
この確率推定値の計算を、N個の特徴量の組み合わせそれぞれに対して行う。ここで算出するベイズ誤り確率推定値は、値が低いほど良品と不良品との分類に適している組み合わせとみなすことが出来る。
Bayes = ∫min {P (w 1 │x), P (w 2 │x)} dx (Equation 13)
The calculation of the probability estimated value is performed on each of the N feature quantities. The Bayesian error probability estimated value calculated here can be regarded as a combination suitable for the classification of the non-defective product and the non-defective product as the value is lower.
次に、クラス内分散・クラス間分散比について詳細に述べる。例えば2クラス問題の場合、2つのクラスをw1、w2とし、観測される特徴をx0=[x1,x2,・・・,xk,・・・,xN]とするとき、特徴量xkに関するクラス内分散・クラス間分散比を求める。また、クラスwiに属するパターン数をni、クラスwiに属するパターンのxkの平均をmiとする。さらに、全パターンのxkの平均をmとする。このとき、クラス内分散 Next, the in-class variance / inter-class variance ratio will be described in detail. For example, in the case of 2-class problem, the two classes as w 1, w 2, characterized observed x0 = [x 1, x 2 , ···, x k, ···, x N] when the, The intra-class variance / inter-class variance ratio regarding the feature quantity x k is determined. Also, let n i be the number of patterns belonging to class w i , and let m i be the average of x k of patterns belonging to class w i . Furthermore, let m be the average of x k of all patterns. At this time, intraclass dispersion
とクラス間分散 And interclass distribution
は数式14及び数式15のように算出することができる。 Can be calculated as Equation 14 and Equation 15.
数式14及び数式15から、クラス内分散・クラス間分散比は From Equation 14 and Equation 15, the intraclass variance / interclass variance ratio is
で算出することができる。このようにして、クラス内分散・クラス間分散比を求め、値が大きい順に特徴量を選択する。ここでは、評価値として、ベイズ誤り確率推定値とクラス内分散・クラス間分散比を用いることを述べたが、ガウス分布のずれに基づく評価値を用いてもよい。 It can be calculated by In this way, the intraclass variance / interclass variance ratio is determined, and feature quantities are selected in descending order of values. Here, as the evaluation value, the use of the Bayesian error probability estimated value and the in-class variance / inter-class variance ratio has been described, but an evaluation value based on the deviation of the Gaussian distribution may be used.
次に計算負荷がかからない手法として、2つずつ特徴量を評価して、評価基準の良い特徴量から2つずつ特徴量を選択していく手法がある。このときも同様に、ベイズ誤り確率推定値もしくはクラス内分散・クラス間分散比を用いて特徴選択を行う。 Next, as a method that does not apply a calculation load, there is a method of evaluating the feature quantities two by two and selecting the feature quantities two by two from the feature quantities having good evaluation criteria. Also in this case, feature selection is performed using the Bayesian error probability estimated value or the intraclass variance / interclass variance ratio.
また、最後に計算負荷がかからない手法として、特許文献1で開示されている手法がある。特許文献1では、特徴量間の組み合わせの相性を評価し、特徴量ごとにスコアを算出し、特徴量を選択する順序を決定する手法である。ここでも同様に、ベイズ誤り確率推定値もしくはクラス内分散・クラス間分散比を用いて特徴量選択を行う。 Lastly, there is a method disclosed in Patent Document 1 as a method that does not require a calculation load. Patent Document 1 is a method of evaluating the compatibility of combinations of feature amounts, calculating a score for each feature amount, and determining the order of selecting the feature amounts. Here too, feature value selection is performed using the Bayesian error probability estimated value or the intraclass variance / interclass variance ratio.
以上述べた複数の特徴量選択手法の中から、特徴量選択手法を予め設定しておくか、もしくは処理ごとにランダムに特徴量選択手法を選択して特徴量選択を行う。 Among the plurality of feature amount selection methods described above, the feature amount selection method is set in advance, or the feature amount selection method is randomly selected for each process to perform feature amount selection.
本実施形態にかかる情報処理装置によれば、計算負荷のかからない特徴量選択の手法を用いて特徴量選択を行う。このようにして、特徴量選択にかかる計算時間を軽減させて、ノイズデータ候補を選択する繰り返し処理を行う。これにより、精度よくノイズデータを決定することができる。 According to the information processing apparatus of the present embodiment, feature amount selection is performed using a feature amount selection method that does not require a calculation load. In this manner, the calculation time for selecting the feature amount is reduced, and the iterative process of selecting the noise data candidate is performed. Thereby, the noise data can be determined with high accuracy.
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。本実施形態は、分割したデータセットごとに選択する特徴量を変えてノイズデータ候補を決定することにより、処理が正しく行われていることを確認するものである。なお、第1〜第4の実施形態で既に説明をした構成については同一の符号を付し、その説明を省略する。
Fifth Embodiment
Next, a fifth embodiment of the present invention will be described. In the present embodiment, it is confirmed that the processing is correctly performed by changing the feature amount to be selected for each divided data set to determine the noise data candidate. The same reference numerals are given to the configurations that have already been described in the first to fourth embodiments, and the descriptions thereof will be omitted.
図10は、本実施形態におけるラベルノイズクレンジングの処理の詳細を示すフローチャートである。なお、図9のステップS1004〜S1009における各処理は、第1の実施形態で示した図5のステップS504〜S509の各処理と同様であるため説明を省略する。 FIG. 10 is a flowchart showing details of label noise cleansing processing in the present embodiment. The processes in steps S1004 to S1009 in FIG. 9 are the same as the processes in steps S504 to S509 in FIG. 5 described in the first embodiment, and thus the description thereof is omitted.
(ステップS1002:データ分割)
ステップS1002では、ステップS1001で設定したデータを、複数個のデータセットに分割する。選択したR個の特徴量に関し、学習データをランダムにL個のデータセットに分割する。このとき、学習用データと検証用データに分けるが、L−1個のデータセットを学習用データに設定し、1個のデータセットを検証用データに設定する。そして、組み合わせを変えながら、L個の学習用データと検証用データの組み合わせを生成する。
(Step S1002: Data Division)
In step S1002, the data set in step S1001 is divided into a plurality of data sets. The learning data is randomly divided into L data sets for the selected R feature amounts. At this time, although divided into learning data and verification data, L-1 data sets are set as learning data, and one data set is set as verification data. Then, while changing the combination, a combination of L pieces of learning data and verification data is generated.
(ステップS1003:特徴量選択)
ステップS1003では、ステップS1002で分割したL個の学習用データと検証用データの組み合わせに対応する特徴量をランダムに選択する。これにより、L個のランダムな特徴量のセットが生成される。
(Step S1003: feature amount selection)
In step S1003, a feature amount corresponding to the combination of L pieces of learning data and verification data divided in step S1002 is randomly selected. This generates L sets of random feature amounts.
本実施形態にかかる情報処理装置によれば、分割したデータセットごとに選択する特徴量を変えて、ノイズデータ候補を決定することにより、処理が正しく行われていることを確認する。これにより、精度よくノイズデータを決定することができる。 According to the information processing apparatus according to the present embodiment, it is confirmed that the processing is correctly performed by changing the feature amount to be selected for each divided data set and determining the noise data candidate. Thereby, the noise data can be determined with high accuracy.
[第6の実施形態]
次に、本発明の第6の実施形態について説明する。上述の各実施形態では、対象物の良否判定(正常異常判定)に用いられる識別モデルを生成する場合を例に説明してきた。本実施形態は、画像の診断に用いられる識別モデルを生成する場合を示す。なお、第1〜第5の実施形態で既に説明をした構成については同一の符号を付し、その説明を省略する。
Sixth Embodiment
Next, a sixth embodiment of the present invention will be described. In each of the above-mentioned embodiments, the case of generating the identification model used for the quality determination (normal / abnormal determination) of the object has been described as an example. This embodiment shows the case of generating a discrimination model used for image diagnosis. The same reference numerals are given to the configurations already described in the first to fifth embodiments, and the descriptions thereof will be omitted.
本実施形態に係る情報処理システムでは、画像取得装置により取得された医療画像に特徴的な異常部分を検出する。そのため、システムは画像取得装置と情報処理装置とを含み、情報処理装置は画像取得装置1101により取得した医療画像、ここでは医療画像に特徴的な異常部分があるかどうかを判定する。なお、本実施形態に係る情報処理装置のハードウェア構成、機能構成は第1の実施形態と同様である。
The information processing system according to the present embodiment detects an abnormal portion characteristic of a medical image acquired by the image acquisition device. Therefore, the system includes an image acquisition apparatus and an information processing apparatus, and the information processing apparatus determines whether a medical image acquired by the
図11は、本実施形態に係る識別モデル生成の処理の詳細を示すフローチャートである。 FIG. 11 is a flowchart showing details of identification model generation processing according to the present embodiment.
(ステップS1101:学習データに対する特徴量抽出)
ステップS1101では、学習データ設定部201が、取得した医療画像から学習データを生成する。例えば、眼底画像において、糖尿病に特徴的な異常部分を予め人手でマーキングした領域を異常データと判断し、局所特徴量を抽出する。そして、マーキングしていない領域を正常データと判断し、局所特徴量を抽出する。特徴量としては、サイズ不変、回転不変な特徴量のひとつであるSIFT特徴量を用いる。ここでは、正常部分、異常部分を含む各領域に対して、N次元のSIFT特徴量を利用して学習データを生成する。
(Step S1101: feature amount extraction for learning data)
In step S1101, the learning
(ステップS1102:ラベルノイズクレンジング)
ステップS1102では、クレンジング部202が、ステップS1101で生成した学習データに対し、ラベルノイズクレンジング技術を用いて、学習データのクレンジングを行う。ラベルノイズクレンジングを行う手法は、第1の実施形態と同様である。
(Step S1102: Label Noise Cleansing)
In step S1102, the
(ステップS1103:識別モデルの生成)
ステップS1103では、識別モデル学習部204が、ステップS1102で生成した学習データに対して、SVMを利用して識別モデルの生成を行う。
(Step S1103: Generation of Identification Model)
In step S1103, the identification
(ステップS1104:テストデータに対する画像診断)
ステップS1104では、正常異常判定部206が、テスト画像から局所領域を切り出しSIFT特徴量で特徴抽出し、ステップS1103で生成した識別モデルを用いて異常部分があるかの判断を行う。
(Step S1104: Diagnostic imaging on test data)
In step S1104, the normal /
本実施形態にかかる情報処理装置によれば、医療画像の診断において、特徴的な異常部分の局所領域を検出する際に用いる学習画像の局所領域の特徴量を利用して、誤ってラベル付けされたデータを除去するラベルノイズクレンジングを行う。かかる構成により、精度の高い画像診断を行うことができる。 According to the information processing apparatus according to the present embodiment, in diagnosis of a medical image, erroneous labeling is performed using the feature amount of the local area of the learning image used when detecting the local area of the characteristic abnormal portion. Perform label noise cleansing to remove out-of-date data. With this configuration, it is possible to perform highly accurate image diagnosis.
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Other Embodiments
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or storage medium, and one or more processors in a computer of the system or apparatus read and execute the program. Processing is also feasible. It can also be implemented by a circuit (eg, an ASIC) that implements one or more functions.
201 学習データ設定部
202 クレンジング部
203 特徴量選択部
204 識別モデル学習部
205 パラメータ設定部
206 正常異常判定部
201 Learning
Claims (16)
複数の学習データを取得する取得手段と、
前記取得した複数の学習データそれぞれから複数種類の特徴量を抽出する抽出手段と、
前記学習データのそれぞれから抽出した複数種類の特徴量の中から1以上の特徴量を選択する選択処理を実行する選択手段と、
前記選択した特徴量に基づいて第2の識別モデルを生成する生成処理を実行する第2の生成手段と、
前記生成された第2の識別モデルの認識スコアを算出する算出処理を実行する算出手段と、
前記選択処理、前記生成処理、前記算出処理をそれぞれ複数回実行することにより求められる複数の前記認識スコアに基づいて、前記複数の学習データの中から第1の識別モデルを生成する際に用いられる学習データを決定する決定手段と、
を有することを特徴とする情報処理装置。 An information processing apparatus for determining learning data used when the first generation means generates a first identification model for identifying input data, the information processing apparatus comprising:
Acquisition means for acquiring a plurality of learning data;
Extracting means for extracting a plurality of types of feature quantities from each of the plurality of acquired learning data;
Selection means for executing a selection process of selecting one or more feature amounts from a plurality of types of feature amounts extracted from each of the learning data;
Second generation means for executing generation processing for generating a second identification model based on the selected feature amount;
Calculation means for executing calculation processing for calculating a recognition score of the generated second identification model;
It is used when generating a first identification model from among the plurality of learning data based on the plurality of recognition scores obtained by performing the selection process, the generation process, and the calculation process a plurality of times. Determining means for determining learning data;
An information processing apparatus comprising:
前記第2の生成手段は、前記複数のグループの一部のグループの学習データを用いて前記第2の識別モデルを生成し、
前記算出手段は、前記複数のグループの残りのグループの学習データを用いて前記認識スコアを算出することを特徴とする請求項1に記載の情報処理装置。 The apparatus further comprises dividing means for dividing the plurality of learning data into a plurality of groups,
The second generation unit generates the second identification model using learning data of a part of the plurality of groups.
The information processing apparatus according to claim 1, wherein the calculation unit calculates the recognition score using learning data of remaining groups of the plurality of groups.
前記認識スコアは、学習データに付与された前記ラベルが前記第1の情報である尤度を示すことを特徴とする請求項1から12のいずれか1項に記載の情報処理装置。 The learning data is provided with a label indicating whether it is the first information or the second information,
The information processing apparatus according to any one of claims 1 to 12, wherein the recognition score indicates a likelihood that the label attached to learning data is the first information.
複数の学習データを取得するステップと、
前記取得した複数の学習データそれぞれから複数種類の特徴量を抽出するステップと、
前記学習データのそれぞれから抽出した複数種類の特徴量の中から1以上の特徴量を選択する選択処理を実行するステップと、
前記選択した特徴量に基づいて第2の識別モデルを生成する生成処理を実行するステップと、
前記生成された第2の識別モデルの認識スコアを算出する算出処理を実行するステップと、
前記選択処理、前記生成処理、前記算出処理をそれぞれ複数回実行することにより求められる複数の前記認識スコアに基づいて、前記複数の学習データの中から第1の識別モデルを生成する際に用いられる学習データを決定するステップと、
を有することを特徴とする情報処理方法。 An information processing method for determining learning data used when generating a first identification model for identifying input data, comprising:
Acquiring a plurality of learning data;
Extracting a plurality of types of feature quantities from each of the plurality of acquired learning data;
Executing a selection process of selecting one or more feature amounts from a plurality of types of feature amounts extracted from each of the learning data;
Executing a generation process of generating a second identification model based on the selected feature amount;
Executing a calculation process for calculating a recognition score of the generated second identification model;
It is used when generating a first identification model from among the plurality of learning data based on the plurality of recognition scores obtained by performing the selection process, the generation process, and the calculation process a plurality of times. Determining learning data;
An information processing method characterized by comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017185470A JP2019061494A (en) | 2017-09-26 | 2017-09-26 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017185470A JP2019061494A (en) | 2017-09-26 | 2017-09-26 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2019061494A true JP2019061494A (en) | 2019-04-18 |
Family
ID=66177424
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017185470A Pending JP2019061494A (en) | 2017-09-26 | 2017-09-26 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2019061494A (en) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021033544A (en) * | 2019-08-22 | 2021-03-01 | 株式会社日立製作所 | Training data refining method and computer system |
| WO2021079451A1 (en) * | 2019-10-24 | 2021-04-29 | 日本電気株式会社 | Learning device, learning method, inference device, inference method, and recording medium |
| JP2022158968A (en) * | 2021-04-01 | 2022-10-17 | 三星ディスプレイ株式會社 | Manufacturing defect classification system and method thereof |
| JP2022167779A (en) * | 2021-04-23 | 2022-11-04 | 三星ディスプレイ株式會社 | Manufacturing defect classification system and method |
| WO2023073903A1 (en) * | 2021-10-29 | 2023-05-04 | 日本電気株式会社 | Information processing device, information processing method, and program |
-
2017
- 2017-09-26 JP JP2017185470A patent/JP2019061494A/en active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021033544A (en) * | 2019-08-22 | 2021-03-01 | 株式会社日立製作所 | Training data refining method and computer system |
| WO2021079451A1 (en) * | 2019-10-24 | 2021-04-29 | 日本電気株式会社 | Learning device, learning method, inference device, inference method, and recording medium |
| JPWO2021079451A1 (en) * | 2019-10-24 | 2021-04-29 | ||
| JP7351344B2 (en) | 2019-10-24 | 2023-09-27 | 日本電気株式会社 | Learning device, learning method, reasoning device, reasoning method, and program |
| US12217485B2 (en) | 2019-10-24 | 2025-02-04 | Nec Corporation | Object recognition device, method, and computer-readable medium |
| JP2022158968A (en) * | 2021-04-01 | 2022-10-17 | 三星ディスプレイ株式會社 | Manufacturing defect classification system and method thereof |
| JP2022167779A (en) * | 2021-04-23 | 2022-11-04 | 三星ディスプレイ株式會社 | Manufacturing defect classification system and method |
| WO2023073903A1 (en) * | 2021-10-29 | 2023-05-04 | 日本電気株式会社 | Information processing device, information processing method, and program |
| JPWO2023073903A1 (en) * | 2021-10-29 | 2023-05-04 | ||
| JP7586342B2 (en) | 2021-10-29 | 2024-11-19 | 日本電気株式会社 | Information processing device, information processing method, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kim et al. | Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav) | |
| Fan et al. | COMPARE: classification of morphological patterns using adaptive regional elements | |
| Huang et al. | Wavelet feature selection for image classification | |
| JP2019061494A (en) | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM | |
| KR101381455B1 (en) | Biometric information processing device | |
| KR102166117B1 (en) | Semantic matchaing apparatus and method | |
| US20170154209A1 (en) | Image identification apparatus and image identification method | |
| CN105225222B (en) | Automatic assessment of perceived visual quality of different image sets | |
| JP5240082B2 (en) | Biometric authentication apparatus, authentication accuracy evaluation apparatus, and biometric authentication method | |
| JP2017016593A (en) | Image processing apparatus, image processing method, and program | |
| US20060217925A1 (en) | Methods for entity identification | |
| CN116934747B (en) | Fundus image segmentation model training method, fundus image segmentation model training equipment and glaucoma auxiliary diagnosis system | |
| Nieto-Hidalgo et al. | Classification of pathologies using a vision based feature extraction | |
| US8918347B2 (en) | Methods and systems for computer-based selection of identifying input for class differentiation | |
| CN113436735A (en) | Body weight index prediction method, device and storage medium based on face structure measurement | |
| US11809994B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
| Chykeyuk et al. | Feature extraction and wall motion classification of 2D stress echocardiography with relevance vector machines | |
| Marco-Blanco et al. | Time series clustering with random convolutional kernels | |
| Switonski et al. | Dynamic time warping in gait classification of motion capture data | |
| CN111428565A (en) | A method and device for locating point cloud identification points based on deep learning | |
| CN118383713A (en) | Method for generating keratoconus diagnosis model, method and device for keratoconus diagnosis | |
| Honorio | Classification on brain functional magnetic resonance imaging: dimensionality, sample size, subject variability and noise | |
| KR20210010769A (en) | Method and apparatus for identifying anomaly area of image using encoder | |
| JP2019149028A (en) | Information processing device, control method and program therefor | |
| CN113658119A (en) | A VAE-based human brain injury detection method and device |