JP2023037568A

JP2023037568A - コンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム製品（不均衡データセットに基づく分類）

Info

Publication number: JP2023037568A
Application number: JP2022110475A
Authority: JP
Inventors: シュウ、ジン; Jing Xu; ハン、エル、シ; Si Er Han; ジャン、イン、シュエ; xue ying Zhang; マ、ミン、シャオ; Xiao Ming Ma; ヤン、フイ、ジ; ji hui Yang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-09-03
Filing date: 2022-07-08
Publication date: 2023-03-15
Anticipated expiration: 2042-07-08
Also published as: CN115758228A; US20230072913A1

Abstract

【課題】不均衡データセットに基づく分類のためのコンピュータ実装方法、コンピュータ実装システム及びコンピュータプログラム製品を提供する。【解決手段】方法は、複数の予測モデルを、それぞれ不均衡データセットに含まれる複数のポジティブサンプルに基づいて生成する。複数のポジティブサンプルの量は、不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、複数のポジティブサンプル及びネガティブサンプルにおける各サンプルは、複数のパラメータを含む。方法はさらに、複数のポジティブサンプルに対する複数のパラメータから、それぞれ複数の影響力のあるパラメータ群を特定し、最終予測モデルを、複数の予測モデル及び複数の影響力のあるパラメータ群に基づいて決定する。最終予測モデルは、サンプルをポジティブタイプ及びネガティブタイプのいずれかに分類するために使用される。【選択図】図９

Description

本開示は分類に関し、より具体的には、不均衡データセットに基づく予測モデル生成のための方法、システムおよびコンピュータプログラム製品に関する。

今日、分類技術は、様々な作業環境で広く使用されている。例えば、コンピューティングシステムに障害が発生するかどうかを予測するために、コンピューティングシステムの複数のパラメータを含むサンプルが収集されることがある。予測モデルは、以前の時点で収集されたコンピューティングシステムの複数のサンプルを含む不均衡データセットに基づいて、事前に生成される場合がある。

従来のモデルでは、特にポジティブ率が例えば０．０１％より小さい場合に結果が小さすぎて、ポジティブ率を決定できないので、現在の分類技術は、失敗のポジティブケースの数を決定することが不十分であるという問題がある。さらに、現在の解決策では、満足のいかない高い偽ポジティブ率と、予測モデルによって学習された不正確なパターンにより、ネガティブケースが誤って予測されるという問題がある。

不均衡データセットに基づく分類のためのコンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム製品を提供する。

本開示の実施形態によれば、１つ以上のプロセッサによって実装され得るコンピュータ実装方法が提供される。方法において、１つ以上のプロセッサが不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルをそれぞれ生成し、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび前記複数のネガティブサンプルにおける各サンプルが複数のパラメータを含む。１つ以上のプロセッサは、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群をそれぞれ特定する。１つ以上のプロセッサは、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定し、前記最終予測モデルは、サンプルをポジティブタイプおよびネガティブタイプのいずれかに分類するために使用される。これらの実施形態により、ポジティブモデルは、正確かつ効果的な方法で、不均衡データセットに基づいて生成され得る。

本開示の別の実施形態によれば、コンピュータ実装システムが提供される。コンピュータ実装システムは、コンピュータ可読メモリユニットに結合されたコンピュータプロセッサを備え、前記メモリユニットは、前記コンピュータプロセッサによって実行されると上記方法を実施する命令を含む。

本開示の別の実施形態によれば、コンピュータプログラム製品が提供される。コンピュータプログラム製品は、その中に具体化されたプログラム命令を含むコンピュータ可読記憶媒体を備える。前記プログラム命令は、電子デバイスによって実行可能であり前記電子デバイスに上記方法の動作を実行させる。

添付図面における本開示のいくつかの実施形態のより詳細な説明を通じて、本開示の上記および他の目的、特徴および利点はより明らかになり、ここで、同じ参照は一般に本開示の実施形態における同じ構成要素を指す。

図１は、本開示の実施形態による、クラウドコンピューティングノードを示す図である。図２は、本開示の実施形態による、クラウドコンピューティング環境を示す図である。図３は、本開示の実施形態による、抽象化モデルレイヤを示す図である。図４は、本開示の実施形態による予測モデルを生成するための不均衡データセットの一例を示す図である。図５は、本開示の実施形態による、不均衡データセットに基づく予測モデルの生成の一例を示す図である。図６は、本開示の実施形態による、不均衡データセットにおけるポジティブサンプルに基づく予測モデルの生成の一例を示す図である。図７は、本開示の実施形態による、ターゲットサンプルのモデルセットの生成の一例を示す図である。図８は、本開示の実施形態による、影響力のあるターゲットパラメータ群と影響力のあるパラメータ群との間の差に基づいたモデルセットを更新するための手順の一例を示す図である。図９は、本開示の実施形態による、不均衡データセットに基づいた最終予測モデルを生成するための方法の例示的なフローチャートを示す図である。図１０は、本開示の実施形態による最終予測モデルに基づいてターゲットサンプルを分類するための方法の例示的なフローチャートを示す図である。

以下、本開示の実施形態を図示した添付図面を参照して、いくつかの実施形態についてより詳細に説明する。ただし、本開示は様々な態様で実施することができ、ここに開示する実施形態に限定されるものと解釈すべきではない。

本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載した教示の実装形態はクラウドコンピューティング環境に限定されない。むしろ、本開示の実施形態は、現在公知のまたは将来開発される他の任意の種類のコンピュータ環境と共に実施することができる。

クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス）へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備（provision）およびリリースできるものである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、および少なくとも４つの実装モデルを含むことがある。

特性は以下の通りである。

オンデマンド・セルフサービス：クラウドのコンシューマは、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。

ブロード・ネットワークアクセス：コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による利用が促進される。

リソースプーリング：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数のコンシューマに提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般にコンシューマは、提供されたリソースの正確な位置を管理または把握していないため、位置非依存（location independence）の感覚がある。ただしコンシューマは、より高い抽象レベル（例えば、国、州、データセンタ）では場所を特定可能な場合がある。

迅速な柔軟性（elasticity）：コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。コンシューマにとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。

測定されるサービス：クラウドシステムは、サービスの種類（例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント）に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービスモデルは以下の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ（例えばウェブメール）などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。

サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、コンシューマが作成または取得したアプリケーションを、クラウドインフラストラクチャに展開（deploy）することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。

サービスとしてのインフラストラクチャ（ＩａａＳ）：コンシューマに提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアをコンシューマが展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。コンシューマは、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント（例えばホストファイアウォール）を部分的に制御できる。

展開モデルは以下の通りである。

プライベートクラウド：このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織またはサードパーティーによって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

コミュニティクラウド：このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス）を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

パブリッククラウド：このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ以上のクラウドモデル（プライベート、コミュニティまたはパブリック）を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性（例えば、クラウド間の負荷分散のためのクラウドバースティング）を実現する。

クラウドコンピューティング環境は、ステートレス性（statelessness）、低結合性（low coupling）、モジュール性（modularity）および意味論的相互運用性（semantic interoperability）に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

図１に、クラウドコンピューティングノードの一例を模式的に示す。なお、クラウドコンピューティングノード１０は好適なクラウドコンピューティングノードの一例に過ぎず、本明細書に記載する本開示の実施形態の使用や機能の範囲について何らの限定も示唆するものではない。いずれにせよ、クラウドコンピューティングノード１０は、実装されること、もしくは上述した機能のいずれかを行うこと、またはその両方が可能である。

クラウドコンピューティングノード１０には、コンピュータシステム／サーバ１２または通信装置などの携帯型装置が含まれる。これらは、他の数多くの汎用または専用のコンピューティングシステム環境または構成と共に動作可能である。コンピュータシステム／サーバ１２と共に使用するのに適した周知のコンピューティングシステム、環境もしくは構成またはその組み合わせの一例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、および上記のシステムまたは装置のいずれかを含む分散型クラウドコンピューティング環境などが挙げられる。

コンピュータシステム／サーバ１２は、コンピュータシステムによって実行されるプログラムモジュールなどの、コンピュータシステム実行可能命令との一般的な関連において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバ１２は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散型クラウドコンピューティング環境で実施することができる。分散型クラウドコンピューティング環境において、プログラムモジュールは、メモリ記憶装置を含む、ローカルおよびリモート両方のコンピュータシステム記憶媒体に記憶することができる。

図１に示すように、クラウドコンピューティングノード１０におけるコンピュータシステム／サーバ１２を、汎用コンピュータ装置として示している。コンピュータシステム／サーバ１２のコンポーネントの一例としては、１つ以上のプロセッサまたは処理ユニット１６、システムメモリ２８、およびシステムメモリ２８を含む種々のシステムコンポーネントをプロセッサ１６に接続するバス１８が挙げられる。

バス１８は、種々のバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート（ＡＧＰ）、およびプロセッサまたはローカルバスを含む複数種類のバス構造のうち１つ以上の任意のものを表す。一例として、かかるアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、およびペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含む。

コンピュータシステム／サーバ１２は一般的に、種々のコンピュータシステム可読媒体を含む。かかる媒体は、コンピュータシステム／サーバ１２によってアクセス可能な任意の利用可能な媒体でよく、揮発性媒体および不揮発性媒体の両方と、取り外し可能媒体および取り外し不能媒体の両方とを含む。

システムメモリ２８は、ＲＡＭ３０もしくはキャッシュメモリ３２またはその両方など、揮発性メモリとしてのコンピュータシステム可読媒体を含むことができる。コンピュータシステム／サーバ１２はさらに、他の取り外し可能／取り外し不能コンピュータシステム可読媒体および揮発性／不揮発性コンピュータシステム可読媒体を含んでもよい。一例として、ストレージシステム３４は、取り外し不能な不揮発性磁気媒体（不図示。一般に「ハードドライブ」と呼ばれる）への読み書きのために設けることができる。また、図示は省略するが、取り外し可能な不揮発性磁気ディスク（例えば、フロッピーディスク）への読み書きのための磁気ディスクドライブ、および取り外し可能な不揮発性光学ディスク（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭや他の光学媒体など）への読み書きのための光学ディスクドライブを設けることができる。これらの例において、それぞれを、１つ以上のデータ媒体インタフェースによってバス１８に接続することができる。以下でさらに図示および説明するように、メモリ２８は、本開示の実施形態の機能を実行するように構成されたプログラムモジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

一例として、プログラムモジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０は、オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータと同様に、メモリ２８に記憶することができる。オペレーティングシステム、１つ以上のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータ、またはそれらのいくつかの組み合わせの各々は、ネットワーク環境の実装形態を含むことができる。プログラムモジュール４２は一般に、本開示の実施形態の機能もしくは方法またはその両方を実行する。

また、コンピュータシステム／サーバ１２は、キーボード、ポインティングデバイス、ディスプレイ２４などの１つ以上の外部装置１４、ユーザとコンピュータシステム／サーバ１２との対話を可能にする１つ以上の装置、もしくはコンピュータシステム／サーバ１２と１つ以上の他のコンピュータ装置との通信を可能にする任意の装置（例えば、ネットワークカードやモデムなど）またはこれらの組み合わせと通信することができる。かかる通信は、入力／出力（Ｉ／Ｏ）インタフェース２２を介して行うことができる。さらに、コンピュータシステム／サーバ１２は、ネットワークアダプタ２０を介して１つ以上のネットワーク（ローカルエリアネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、もしくはパブリックネットワーク（例えばインターネット）またはこれらの組み合わせなど）と通信することができる。図示するように、ネットワークアダプタ２０は、バス１８を介してコンピュータシステム／サーバ１２の他のコンポーネントと通信する。なお、図示は省略するが、他のハードウェアコンポーネントもしくはソフトウェアコンポーネントまたはその両方を、コンピュータシステム／サーバ１２と併用することができる。それらの一例としては、マイクロコード、デバイスドライバ、冗長化処理ユニット、外付けディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、データアーカイブストレージシステムなどがある。

図２に、例示的なクラウドコンピューティング環境５０を示す。図示するように、クラウドコンピューティング環境５０は１つ以上のクラウドコンピューティングノード１０を含む。これらに対して、クラウドコンシューマが使用するローカルコンピュータ装置（例えば、ＰＤＡもしくは携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、もしくは自動車コンピュータシステム５４Ｎまたはこれらの組み合わせなど）は通信を行うことができる。ノード１０は互いに通信することができる。ノード１０は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、１つ以上のネットワークにおいて、物理的または仮想的にグループ化（不図示）することができる。これにより、クラウドコンピューティング環境５０は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウドコンシューマはこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図２に示すコンピュータ装置５４Ａ～Ｎの種類は例示に過ぎず、コンピューティングノード１０およびクラウドコンピューティング環境５０は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続（例えば、ウェブブラウザの使用）またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。

次に、クラウドコンピューティング環境５０（図２）によって提供される機能的抽象化レイヤのセットを図３に示す。なお、図３に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本開示の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェアレイヤ６０は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム６１、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャベースのサーバ６２、サーバ６３、ブレードサーバ６４、記憶装置６５、ならびにネットワークおよびネットワークコンポーネント６６が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７およびデータベースソフトウェア６８を含む。

仮想化レイヤ７０は、抽象化レイヤを提供する。当該レイヤから、例えば、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティングシステム７４、ならびに仮想クライアント７５などの仮想エンティティを提供することができる。

一例として、管理レイヤ８０は以下の機能を提供することができる。リソース準備８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定８２は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含むことができる。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウドコンシューマおよびタスクの識別確認を可能にする。ユーザポータル８３は、コンシューマおよびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。

ワークロードレイヤ９０は、クラウドコンピューティング環境の利用が可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育の配信９３、データ分析処理９４、取引処理９５、ならびに、分類処理９６が含まれる。

本開示の実施形態による分類処理９６は、図１のコンピュータシステム／サーバ１２によって実装され得ることに留意されたい。分類処理９６は、様々な種類の作業環境において実施され得る。例えば、分類処理９６は、過去のデータセットに基づいて、コンピューティングシステムにおいて障害が発生するか否かを判定するための予測モデルを生成するために用いられてもよい。ここで、障害とは、コンピューティングシステムの異常な状態を指し、テクニカルエンジニアによる更なるサポートが必要である。しかし、コンピューティングシステムに異常が発生することはほとんどなく、ほとんどの場合、正常に動作するため、大量のネガティブサンプル（コンピューティングシステムが正常に動作する）と比較して、データセットには少量のポジティブサンプル（コンピューティングシステムに異常が発生する）しか含まれない。

図４を参照して、不均衡データセットの概要を説明する。図４は、本開示の実施形態による予測モデルを生成するための不均衡データセットの一例である図４００を示す。図４において、不均衡データセット４１０は、複数のポジティブサンプル４１２および複数のネガティブサンプル４１４を含むが、複数のポジティブサンプル４１２の量は、複数のネガティブサンプル４１４の量よりはるかに少ない。例えば、データセットは、１００００個のサンプルを含み、そのうち９５００個のサンプルがネガティブサンプルであり、５００個のサンプルだけがポジティブサンプルである場合がある。このとき、不均衡データセットから直接予測モデルを生成すると、予測モデルの精度が満たされないだろう。

不均衡分類のためのいくつかの解決策が提案されている。そのうちの１つは，オーバーサンプリングとアンダーサンプリングを用いて，不均衡データセットから均衡データセットを生成する方法である。別の方法では、SMOTE（Synthetic Minority Oversampling Technique）を用いて、ポジティブサンプルのシミュレーションを行い、均衡データセットを生成する方法もある。そして、均衡データセットを用いて予測モデルをトレーニングすることができる。しかし、上記の方法は、複雑な手順と多くの作業量を必要とし、さらに、生成された予測モデルの精度は低い。

上記の欠点に鑑みて、本開示の実施形態は、予測モデルを生成するための解決策を提供し得る。図５を参照して、本開示の実施形態の概略を説明する。図５は、本開示の実施形態による、不均衡データセットに基づく予測モデルの生成の一例を示す図である。図５において、不均衡データセット４１０は、サンプルをポジティブタイプおよびネガティブタイプのいずれかに分類するための最終予測モデルを生成するために使用されてもよい。ここで、不均衡データセット４１０は、少量のポジティブサンプル４１２、...、５１０と、多量のネガティブサンプル４１４のみを含んでもよい。各サンプルは、複数のパラメータを含んでもよく、コンピューティングシステムにおける障害を予測する環境では、パラメータは、コンピューティングシステムの複数の側面を含んでもよいのであって、サンプルのデータ構造の一例を表１に例示する。

ここで、ポジティブサンプルは、コンピューティングシステムに障害が発生した場合（ここで、「障害」パラメータは「真」に設定される）のパラメータを含んでもよく、ネガティブサンプルは、コンピューティングシステムが良好な状態である場合（ここで、「障害」パラメータは「偽」に設定される）のパラメータを含んでもよい。図５に示すように、個々のポジティブサンプルに基づいて、個々の予測モデルが生成されてもよい。具体的には、ポジティブサンプル４１２について予測モデル５２０が生成され、...、ポジティブサンプル５１０について予測モデル５３０が生成される。さらに、ポジティブサンプルに対して影響力のあるパラメータ群を特定するように、ポジティブサンプルおよび対応する予測モデルに対して影響力予測子分析を実行してもよい。図５を参照すると、影響力のあるパラメータ群５２２がポジティブサンプル４１２に対して特定されてもよく、影響力のあるパラメータ群５３２がポジティブサンプル５１０に対して特定されてもよい、というようになる。さらに、最終予測モデル５４０は、複数の予測モデル５２０、...、および５３０と、複数の影響力のあるパラメータ群５２２、...、および５３２とに基づいて生成されてもよい。これらの実施形態では、１つの予測モデルが１つのポジティブサンプルに基づいて生成されるので、ポジティブサンプルにおける情報は、最終予測モデルを構築するために完全に抽出されてもよい。したがって、最終予測モデルの精度レベルを大幅に向上させることができる。

以下、図６を参照し、不均衡データセット内の複数のポジティブサンプルに基づいて複数のモデルを生成する詳細について説明する。本開示のいくつかの実施形態では、均衡トレーニングデータセットが、不均衡データセット４１０内の個々のポジティブサンプルに基づいて生成されてもよい。図６は、本開示の実施形態による、不均衡データセット内のポジティブサンプルに基づいて予測モデルの生成の一例である図６００を示す。図６において、均衡トレーニングデータセット６１０が、不均衡データセット４１０に基づくポジティブサンプル４１２について生成される。ここで、トレーニングデータセット６１０は、少なくとも１つのポジティブトレーニングサンプル６２０と、複数のネガティブトレーニングサンプル６３０とを含む。さらに、予測モデル５２０は、既存の機械学習技術に基づいて生成されてもよい。例えば、初期予測モデルは、トレーニングデータセット６１０内のトレーニングサンプルに基づいて取得され、トレーニングされてもよい。

トレーニングデータセット６１０のトレーニングサンプルは、様々な方法で取得することができる。いくつかの実施形態では、ネガティブトレーニングサンプルは、不均衡データセット４１０内の複数のネガティブサンプル４１４から直接選択されてもよい。代替的に、もしくはそれに加えて、またはその両方で、ポジティブサンプル４１２は、ネガティブトレーニングサンプルを取得するために変更されてもよい。例えば、ポジティブサンプル４１２の１つ以上のパラメータは、ネガティブトレーニングサンプルをシミュレーションするために調整されてもよい。ＣＰＵ使用率がコンピューティングシステムにおける障害を検出するための重要なパラメータであると仮定すると、ＣＰＵ使用率が高いほど、コンピューティングシステムにおいて障害が発生する可能性が高くなる。したがって、ポジティブサンプル４１２のＣＰＵ使用率は、ネガティブトレーニングサンプルをシミュレーションするために、通常の範囲内でより低い値に調整されてもよい。

いくつかの実施形態では、均衡トレーニングデータセット６１０内のサンプルの総数に対して閾値（１０００または別の値など）が定義されてもよい。この時点で、ネガティブトレーニングサンプルの量は、１０００／２＝５００と決定されてもよい。ネガティブトレーニングサンプルの一部は、不均衡データセット４１０内のネガティブサンプルから選択されてもよく、ネガティブトレーニングサンプルの一部は、ポジティブサンプル４１２を変更することによって生成されてもよい。これらの実施形態により、ネガティブトレーニングサンプルは、容易かつ効果的な方法で取得され得る。

本開示のいくつかの実施形態において、ポジティブサンプル４１２は、不均衡データセット４１０から直接取得されてもよく、ポジティブトレーニングサンプル６２０として機能してもよい。トレーニングデータセット６１０は均衡データセットであるべきなので、ポジティブトレーニングサンプルの量はネガティブトレーニングサンプルの量と同様であるべきである。ポジティブトレーニングサンプルの不足を考慮し、ポジティブトレーニングサンプルには、複数のネガティブトレーニングサンプルの数と少なくとも１つのポジティブトレーニングサンプルの数との比に基づく重みが割り当てられてもよい。上記の例を続けると、ネガティブトレーニングサンプル６３０の数は５００（総数「１０００」の半分）であるため、ポジティブトレーニングサンプル６２０は１つだけであり、重みは５００に設定されてもよい。これらの実施形態では、大量のポジティブトレーニングサンプルをシミュレーションするための複雑な手順を必要とせず、代わりに、簡単かつ効果的な方法でポジティブトレーニングサンプルを直接取得することができる。

いくつかの実施形態において、トレーニングデータセット６１０は、１つ以上のポジティブトレーニングサンプルを含んでもよく、したがって、より多くのポジティブトレーニングサンプルが、ポジティブサンプル４１２に基づいて生成されてもよい。例えば、ポジティブサンプル４１２におけるＣＰＵ使用率は、別のポジティブトレーニングサンプルをシミュレーションするためにわずかに増加されてもよい。さらに、取得されたポジティブトレーニングサンプル６２０およびネガティブトレーニングサンプル６３０は、トレーニング手順のためのトレーニングデータセット６１０に追加されてもよい。したがって、本開示の実施形態は、複雑な手順を必要とせず、トレーニングデータセットを生成するための作業負荷が減少し得る。いくつかの実施形態では、均衡トレーニングデータセット６１０は、初期予測モデルをトレーニングするために使用されてもよい。トレーニング手順の後、予測モデル５２０は、自動的に生成されてもよい。

上記の段落は、ポジティブサンプル４１２に対する予測モデル５２０を生成するための例示的な手順を提供するに過ぎない。他のポジティブサンプルは、複数の予測モデル５２０、...、および５３０を取得するように、同様の処理に付されてもよい。予測モデル５２０が生成されると、ポジティブサンプル４１２に対して影響力のあるパラメータ群を特定するように、影響力予測子分析が予測モデルに対して実行されてもよい。影響力予測子分析は、サンプルと、そのサンプルに基づいて生成される予測モデルとの間の関係を分析するためのものである。具体的には、複数のパラメータから、サンプルをポジティブタイプに分類させる影響力のあるパラメータ群を特定することができる。例えば、ポジティブサンプル４１２に対して影響力のあるパラメータ群５２２として、上記表１から（ＣＰＵ使用率、メモリ使用率、...）のパラメータ群が特定されてもよい。

いくつかの実施形態では、ポジティブサンプルのそれぞれについて影響力のあるパラメータ群が特定されてもよく、ここでは、影響力のあるパラメータ群は、ポジティブサンプルをポジティブタイプとして分類させる複数のパラメータにおけるパラメータ群を含む。具体的には、影響力のあるパラメータ群の特定には、ＬＩＭＥ（Local Interpretable Model Agnostic Explanations）法を用いてもよく、以下では、ＬＩＭＥ法の詳細については省略する。現在までに、ＬＩＭＥ法は成熟した技術であり、影響力のあるパラメータ群を決定するために様々なＬＩＭＥツールが提供されている。いくつかの実施形態では、ポジティブサンプルおよび予測モデルがＬＩＭＥツールに入力され、その後、ＬＩＭＥツールは、ポジティブサンプルおよび予測モデルに関連する影響力のあるパラメータ群を出力してもよい。ここで、影響力のあるパラメータ群は、複数のパラメータのうち、ポジティブサンプルをポジティブタイプとして分類させるパラメータ群を含む。したがって、影響力のあるパラメータ群５２２が予測モデル５２０に基づいてポジティブサンプル４１２について識別され、影響力のあるパラメータ群５３２が予測モデル５３０に基づいてポジティブサンプル５１０について識別されるように、全ての予測モデルがＬＩＭＥツールに基づいて処理されてもよい。

さらに、最終予測モデル５４０は、複数の予測モデル５２０、...、５３０と、複数の影響力のあるパラメータ群５２２、...、５３２とに基づいて生成されてもよい。ここで、最終予測モデルは、サンプルをポジティブタイプとネガティブタイプとのいずれかに分類するために用いられてもよい。これらの実施形態では、複数のポジティブサンプルに基づいて生成される複数の予測モデルは、予測に必要な知識をより多く提供し得る。複数の予測モデルは、異なるトレーニングデータセットに基づいて構築されるため、複数の予測モデルは、予測のための様々な側面を反映し得る。すなわち、最終予測モデルは、障害を決定するための全ての要因を完全に反映した豊富な知識を含んでいてもよい。ここで、複数の予測モデルは、さらなるサンプルを分類するために協働してもよく、したがって、最終予測モデルの精度レベルは大幅に向上し得る。

いくつかの実施形態では、最終予測モデル５４０は、時間の経過とともに更新されてもよい。例えば、コンピューティングシステムの動作中、複数のパラメータを監視することによって、より多くのポジティブサンプルが収集されてもよい。さらなるポジティブサンプルが不均衡データセット４１０に追加されると、さらなるポジティブサンプルに基づいてさらなる予測モデルが生成されてもよく、さらなる予測モデルに対してさらなる影響力のあるパラメータ群が特定されてもよい。次に、最終予測モデルは、さらなる予測モデルおよびさらなる影響力のあるパラメータ群に基づいて更新されてもよい。これらの実施形態により、最終予測モデル５４０の精度レベルが徐々に増加され得るように、最終予測モデル５４０は、より多くのポジティブサンプルに基づいて更新されてもよい。

いくつかの実施形態では、最終予測モデル５４０は、入ってくるサンプルを分類するために使用されてもよい。以下、図７を参照してより詳細に説明するが、ここで、図７は、本開示の実施形態によるターゲットサンプルのモデルセットを生成する一例である図７００を示す。図７において、ターゲットサンプル７１０は、最終予測モデル５４０に入力されてもよく、ターゲットサンプル７１０のデータ構造は、最終予測モデル５４０を生成するためのトレーニングサンプルのデータ構造と同一である。最終予測モデル５４０において、ターゲットサンプル７１０は、複数の予測モデル５２０、...、５３０の各々に入力されてもよい。ここで、複数の予測モデル５２０、...、５３０は、それぞれ独立して動作し、複数の予測タイプ７２０、...、７３０を出力してもよい。例えば、予測モデル５２０は、ネガティブタイプ７２０を出力してもよく、...、予測モデル５３０は、ポジティブタイプ７３０を出力してもよい。

さらに、複数の予測モデル５２０、...、５３０からの結果に基づいて、モデルセット７４０を作成してもよい。ここで、予測タイプがポジティブタイプを示すと判定される場合、そのポジティブタイプに対応する予測モデルをモデルセット７４０に追加してもよい。すなわち、（１つ以上の）ポジティブ予測タイプを出力する（１つ以上の）予測モデルをモデルセット７４０に追加してもよい。図７では、予測モデル５３０がポジティブ予測タイプを出力しているため、予測モデル５３０がモデルセット７４０に追加される（予測モデル５３０’と表される）。ここで、モデルセット７４０のモデルの量は、最終予測モデル５４０が出力するポジティブタイプの量と同一である。これらの実施形態において、モデルセット７４０は、ターゲットサンプル７１０を分類するためのベースとして使用されてもよい。

本開示のいくつかの実施形態において、モデルセット７４０が空である場合、全ての予測モデル５２０、...、５３０がターゲットサンプル７１０をネガティブタイプに分類することを示す。この時点で、ターゲットサンプル７１０は、ネガティブタイプに分類されてもよい。１つの予測モデルのみを用いる既存の解決策と比較して、本実施形態では、全ての予測モデル５２０、...、５３０がネガティブタイプを出力するため、最終的な分類型の信頼度が高くなる。

いくつかの実施形態では、モデルセット７４０が空ではない（すなわち、ポジティブタイプを出力する１つ以上の予測モデルを含む）場合、モデルセット内の（１つ以上の）予測モデルは、さらなる処理に供され得る。図８を参照すると、この図は、本開示の実施形態による、影響力のあるターゲットパラメータ群と影響力のあるパラメータ群との間の差に基づきモデルセットを更新するための手順の一例８００を示すものである。図８において、影響力のあるターゲットパラメータ群は、ターゲットサンプル７１０に対する複数のパラメータから特定されてもよい。ここで、ＬＩＭＥ法は、ターゲットサンプル７１０に対する影響力のあるターゲットパラメータ群８１０を特定するように、予測モデル５３０に対して実行されてもよい。さらに、予測モデル５３０に関連付けられた影響力のあるパラメータ群５３２は、最終予測モデル５４０から取得されてもよい。

ここで、影響力のあるパラメータ群５３２は、ポジティブサンプル５１０をポジティブタイプに分類させるパラメータを含む。ここで、影響力のあるパラメータ群は、予測モデル５３０が後続のサンプルを分類するのに適しているかどうかを測定するための指標である。後続のサンプルに対して影響力のあるパラメータ群が影響力のあるパラメータ群５３２と同様である場合、予測モデル５３０が適していることを意味し、そうでない場合、予測モデル５３０は適していないことを意味する。したがって、モデルセット７４０を更新するために、影響力のあるターゲットパラメータ群８１０と影響力のあるパラメータ群５３２との間で差８２０が決定されてもよい。いくつかの実施形態において、差８２０が予め定義された閾値を超える場合、ポジティブタイプ７３０が影響力のあるパラメータ群５３２に含まれるパラメータ以外の異なるパラメータに基づいて出力されるのであって、したがって予測モデル５３０の出力は信頼性が低く、したがって予測モデルを不採用とすべきことを示す。そうでなければ、差８２０が予め定義された閾値以下である場合、ポジティブタイプ７３０が影響力のあるパラメータ群５３２に含まれるパラメータと同様のパラメータに基づいて出力されていることを示すのであって、したがって、予測モデル５３０の出力は信頼できるため、予測モデルを採用することが望ましいと言える。

いくつかの実施形態では、閾値は、影響力のあるターゲットパラメータ群８１０と影響力のあるパラメータ群５３２の重複に基づいて決定されてもよい。影響力のあるターゲットパラメータ群８１０と影響力のあるパラメータ群５３２とが完全に重複している場合、予測モデル５３０の出力が採用される。閾値として重複率（例えば９０％または他の値）を定義してもよく、２つの群の間の重複率が９０％を超えていれば、出力は信頼性があり、そうでなければ出力は信頼性がなく、不採用としてよい。さらに、コンピューティングシステムにおける障害を決定する上記の例を続けると、影響力のあるパラメータ群５３２が１０のパラメータを含む一方、影響力のあるターゲットパラメータ群８１０が８のパラメータ（このうち、影響力のあるパラメータ群５３２に含まれるパラメータは５のみ）を含む場合、差８２０は閾値以下となり、したがって予測モデル５３０はモデルセット７４０から取り除かれてもよい。別の例では、差８２０が閾値を超えている場合、予測モデル５３０は、モデルセット７４０に維持されてもよい。

上記の段落では、１つの予測モデル５３０のみへの処理を説明したが、モデルセット７４０内の他の予測モデルは、モデルセット７４０が更新されるように、同様の方法で処理されてもよい。すべての予測モデルが図８に従って処理された後、更新されたモデルセット７４０は、ターゲットサンプル７１０の最終タイプを決定するために使用されてもよい。更新されたモデルセットが空である場合、それは、全ての信頼できる予測モデルが、ターゲットサンプル７１０がネガティブタイプに属すると確信していることを示し、したがって、ターゲットサンプル７１０はネガティブタイプに分類されてもよい。あるいは、更新されたモデルセットが空でない場合、それは、１つ以上の信頼できる予測モデルが、ターゲットサンプル７１０がポジティブタイプに属すると確信していることを示す。したがって、ターゲットサンプルは、ポジティブタイプに分類されてもよい。これらの実施形態では、信頼性の低い結果を出力する全ての予測モデルがモデルセット７４０から取り除かれ、したがって、モデルセット７４０は、（１つ以上の）信頼性の高い予測モデルのみを含む。したがって、最終的な出力の信頼性が向上し得る。

上記の段落では、コンピューティングシステムの環境における実施形態について説明したが、代替的にもしくは追加的にまたはその両方で、本開示の実施形態は、医療環境、画像処理環境などを実施してもよい。医療環境では、不均衡データセットが、癌の人に関連するポジティブサンプルと、健常者に関連するネガティブサンプルとを含んでもよく、したがって、予測モデルが不均衡データセットに基づいて生成されてもよい。画像処理環境では、不均衡データセットが、不適格な製品の写真に関連するポジティブサンプルと、適格な製品の写真に関連するネガティブサンプルとを含んでもよく、したがって、不均衡データセットに基づいて予測モデルが生成されてもよい。これらの実施形態により、様々な作業環境において、正確かつ効果的な予測モデルが、不均衡データセットから生成され得る。

本開示は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本開示の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。

本開示の実施形態に関する詳細については、図９を参照されたい。図９は、本開示の実施形態による、不均衡データセットに基づいた最終予測モデルを生成するための方法９００の例示的なフローチャートを示す図である。ここで、方法９００は、１つ以上のプロセッサによって実施されてもよい。ブロック９１０において、複数の予測モデルが、それぞれ、不均衡データセットに含まれる複数のポジティブサンプルに基づいて生成され、複数のポジティブサンプルの量は、不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、複数のポジティブサンプルおよびネガティブサンプルの各サンプルは、複数のパラメータを含む。ブロック９２０において、複数のポジティブサンプルに対する複数の影響力のあるパラメータ群が、複数のパラメータからそれぞれ特定される。ブロック９３０において、最終予測モデルが、複数の予測モデルおよび複数の影響力のあるパラメータ群に基づいて決定され、最終予測モデルは、サンプルをポジティブタイプおよびネガティブタイプのいずれかに分類するために使用される。

いくつかの実施形態において、複数の予測モデルにおける予測モデルは、複数のポジティブサンプルにおけるポジティブサンプルに基づいて生成される。具体的には、トレーニングデータセットが、ポジティブサンプルに基づいて生成されるのであって、トレーニングデータセットは、少なくとも１つのポジティブトレーニングサンプルと、複数のネガティブトレーニングサンプルとを含む。予測モデルは、トレーニングデータセットを用いて初期予測モデルをトレーニングすることにより生成される。

いくつかの実施形態において、複数のネガティブトレーニングサンプルは、複数のネガティブサンプルからネガティブサンプルを選択することおよびポジティブサンプルをネガティブサンプルに変更すること、並びに複数のネガティブトレーニングサンプルをトレーニングデータセットに追加することのいずれかによって取得される。

いくつかの実施形態では、少なくとも１つのポジティブトレーニングサンプルは、ポジティブサンプルに基づいて取得され、次に、複数のネガティブトレーニングサンプルの量と少なくとも１つのポジティブトレーニングサンプルの量との比に基づいて、少なくとも１つのポジティブトレーニングサンプルに重みが割り当てられる。

いくつかの実施形態では、複数のポジティブサンプル中の各ポジティブサンプルは、複数の影響力のあるパラメータ群の中の１つの群を特定するところについて処理される。具体的には、ポジティブサンプルに対して影響力のあるパラメータ群が特定され、影響力のあるパラメータ群は、ポジティブサンプルをポジティブタイプとして分類させる複数のパラメータ中のパラメータ群を含む。

いくつかの実施形態では、最終予測モデルは、さらなるポジティブサンプルが不均衡データセットに追加されたという決定に応答して更新される。具体的には、さらなるポジティブサンプルに基づいてさらなる予測モデルが生成されることと、複数のパラメータからさらなる予測モデルに対してさらなる影響力のあるパラメータ群が特定されることと、最終予測モデルがさらなる予測モデルおよびさらなる影響力のあるパラメータ群に基づき更新される。

いくつかの実施形態において、ターゲットサンプルが受信された場合、最終予測モデルに含まれる複数の予測モデルに基づいて、ターゲットサンプルについて複数の予測タイプがそれぞれ決定される。複数の予測タイプの全てがネガティブタイプを示すという決定に応答して、ターゲットサンプルはネガティブタイプに分類される。

いくつかの実施形態では、複数の予測タイプ中の少なくとも１つの予測タイプがポジティブタイプを示すという決定に応答して、モデルセットが生成され、モデルセットは、少なくとも１つの予測タイプに対応する少なくとも１つの予測モデルを含む。モデルセット内の予測モデルに関連する影響力のあるパラメータ群が決定される。次に、ターゲットサンプルに対する複数のパラメータから影響力のあるターゲットパラメータ群が特定される。さらに、影響力のあるパラメータ群と影響力のあるターゲットパラメータ群との間の差に基づいてモデルセットを更新し、その後、更新されたモデルセットに基づいてターゲットサンプルが分類される。

いくつかの実施形態では、差が予め定義された閾値を超えるという決定に応答して、予測モデルはモデルセットから取り除かれ、差が予め定義された閾値以下であるという決定に応答して、予測モデルはモデルセット内に維持される。

いくつかの実施形態では、更新されたモデルセットが空であるという決定に応答して、ターゲットサンプルはネガティブタイプに分類され、更新されたモデルセットが空でないという決定に応答して、ターゲットサンプルはポジティブタイプに分類される。

サンプルを分類するための詳細については、図１０を参照されたい。図１０は、本開示の実施形態による最終予測モデルに基づいてターゲットサンプルを分類するための方法１０００の例示的なフローチャートを示す図である。ブロック１００２において、モデルセットが空に設定され、ブロック１００４において、ターゲットサンプルについてポジティブタイプを出力する（１つ以上の）予測モデルが存在するかどうかが決定される。結果が「ＹＥＳ」である場合、方法１０００は、ブロック１０１０に進み、結果が「ＮＯ」である場合、方法１０００は、ブロック１０２０に進む。ブロック１０１０では、ターゲットサンプルについてポジティブタイプを出力する（１つ以上の）予測モデルが、モデルセットに追加される。ブロック１０２０において、モデルセットが空である場合、方法１０００はブロック１０２２に進み、ネガティブタイプを出力する。対して、モデルセットが空でない場合、方法１０００は、ブロック１０３０に進む。ブロック１０３０において、モデルセット内のモデルに対して影響力のあるターゲットパラメータ群が決定される。次に、ブロック１０４０において、影響力のあるターゲットパラメータ群と、モデルに関連する影響力のあるパラメータ群との間の差が決定される。ブロック１０５０において、差が閾値を超える場合、方法１０００はブロック１０５４に進み、モデルがモデルセットから削除される。差が閾値以下である場合、方法１０００はブロック１０５２に進み、ポジティブタイプを出力する。

コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよい。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（またはフラッシュメモリ）、ＳＲＡＭ、ＣＤ－ＲＯＭ、ＤＶＤ、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶装置は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピュータ装置／処理装置へダウンロードすることができる。あるいは、ネットワーク（例えばインターネット、ＬＡＮ、ＷＡＮもしくはワイヤレスネットワークまたはこれらの組み合わせ）を介して、外部コンピュータまたは外部記憶装置へダウンロード可能である。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはこれらの組み合わせを備えることができる。各コンピュータ装置／処理装置内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各々のコンピュータ装置／処理装置におけるコンピュータ可読記憶媒体に記憶するために転送する。

本開示の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、または、スモールトークやＣ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンドアロン型ソフトウェアパッケージとして完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または、完全にリモートコンピュータもしくはサーバ上で実行可能である。後者の場合、リモートコンピュータは、ＬＡＮやＷＡＮを含む任意の種類のネットワークを介してユーザのコンピュータに接続してもよいし、外部コンピュータに（例えば、インターネットサービスプロバイダを使用してインターネットを介して）接続してもよい。いくつかの実施形態において、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本開示の態様を実行する目的で当該電子回路をカスタマイズするために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。

本開示の各態様は、本明細書において、本開示の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行することができる。

上記のコンピュータ可読プログラム命令は、機械を生産するために、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供してよい。これにより、かかるコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行するための手段を形成する。上記のコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他の装置またはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶してよい。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作の態様を実行する命令を含む製品を構成する。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他の装置にロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他の装置上で実行することにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他の装置上で実行される命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行する。

図面におけるフローチャートおよびブロック図は、本開示の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための１つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。他の一部の実装形態において、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行してもよい。例えば、連続して示される２つのブロックは、実際には、関係する機能に応じて、１つの工程として達成してもよいし、同時もしくは略同時に実行してもよいし、部分的もしくは全体的に時間的に重複した態様で実行してもよいし、または場合により逆順で実行してもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能または動作を行う専用ハードウェアベースのシステムによって、または専用ハードウェアとコンピュータ命令との組み合わせによって実行することができる。

本開示の種々の実施形態を例示として説明してきたが、網羅的であることや、これらの実施形態に限定することを意図したものではない。当業者には明らかなように、記載した各実施形態の範囲および要旨から逸脱することなく、多くの変更および変形が可能である。本明細書で用いられる用語は、各実施形態の原理、実際の用途、または市場で確認される技術に対する技術的な改善を最もよく説明するために、または、当業者が本明細書に開示する各実施形態を理解できるように選択されたものである。

Claims

１つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび前記複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
１つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
１つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータ実装方法。
前記複数の予測モデルを生成することは、
１つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも１つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
１つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項１に記載のコンピュータ実装方法。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項２に記載のコンピュータ実装方法。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも１つのポジティブトレーニングサンプルを取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも１つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも１つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項２に記載のコンピュータ実装方法。
前記複数の影響力のあるパラメータ群を特定することは、
１つ以上のプロセッサによって、複数のポジティブサンプル中の前記ポジティブサンプルに対して影響力のあるパラメータ群を特定することであって、前記影響力のあるパラメータ群は、前記ポジティブサンプルを前記ポジティブタイプとして分類させる前記複数のパラメータ中の、パラメータ群を含む、特定すること、
を含む、請求項１に記載のコンピュータ実装方法。
前記不均衡データセットにさらなるポジティブサンプルが追加されることを決定することに応答して、１つ以上のプロセッサによって、前記さらなるポジティブサンプルに基づくさらなる予測モデルを生成することと、
１つ以上のプロセッサによって、前記複数のパラメータから前記さらなる予測モデルに対してさらなる影響力のあるパラメータ群を特定することと、
１つ以上のプロセッサによって、前記さらなる予測モデルおよび前記さらなる影響力のあるパラメータ群に基づいて、前記最終予測モデルを更新することと、
をさらに含む、請求項１に記載のコンピュータ実装方法。
ターゲットサンプルが受信されることを決定することに応答して、１つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、１つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項１に記載のコンピュータ実装方法。
１つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
１つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
１つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
複数の予測タイプのうち少なくとも１つの予測タイプが前記ポジティブタイプを示すと決定することに応答して、１つ以上のプロセッサによって、前記少なくとも１つの予測タイプに対応する少なくとも１つの予測モデルを含むモデルセットを生成することと、
１つ以上のプロセッサによって、前記モデルセット中の予測モデルに関連する影響力のあるパラメータ群を決定することと、
１つ以上のプロセッサによって、前記複数のパラメータから、ターゲットサンプルに影響力のあるターゲットパラメータ群を特定することと、
１つ以上のプロセッサによって、前記影響力のあるパラメータ群と前記影響力のあるターゲットパラメータ群との間の差に基づいて、前記モデルセットを更新することと、
１つ以上のプロセッサによって、前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することと、
を含む、コンピュータ実装方法。
前記モデルセットを更新することは、
前記差が予め定義された閾値を超えると決定することに応答して、１つ以上のプロセッサによって、前記モデルセットから前記予測モデルを取り除くこと、
を含む、請求項８に記載のコンピュータ実装方法。
前記モデルセットを更新することは、
前記差が予め定義された閾値以下であると決定することに応答して、１つ以上のプロセッサによって、前記モデルセットに前記予測モデルを維持すること、
を含む、請求項８に記載のコンピュータ実装方法。
前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空であると決定することに応答して、１つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類すること、
を含む、請求項８に記載のコンピュータ実装方法。
前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空でないと判断することに応答して、１つ以上のプロセッサによって、前記ターゲットサンプルを前記ポジティブタイプに分類すること、
を含む、請求項８に記載のコンピュータ実装方法。
コンピュータ実装システムであって、コンピュータ可読メモリユニットに結合されたコンピュータプロセッサを備え、前記メモリユニットは、前記コンピュータプロセッサによって実行されると、方法を実施する命令を含み、前記方法は、
１つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
１つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
１つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータ実装システム。
前記複数の予測モデルを生成することは、
１つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも１つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
１つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項１３に記載のコンピュータ実装システム。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項１４に記載のコンピュータ実装システム。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも１つのポジティブトレーニングサンプルを取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも１つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも１つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項１４に記載のコンピュータ実装システム。
ターゲットサンプルが受信されることを決定することに応答して、１つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、１つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項１３に記載のコンピュータ実装システム。
前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空であると決定することに応答して、前記ターゲットサンプルを前記ネガティブタイプに分類すること、
を含む、請求項１３に記載のコンピュータ実装システム。
前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空でないと判断することに応答して、前記ターゲットサンプルを前記ポジティブタイプに分類すること、
を含む、請求項１３に記載のコンピュータ実装システム。
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令をその中に実装したコンピュータ可読記憶媒体を含み、前記プログラム命令は、電子デバイスによって実行可能であり前記電子デバイスに方法を実行させ、前記方法は、
１つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび前記複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
１つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
１つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータプログラム製品。
ターゲットサンプルが受信されることを決定することに応答して、１つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、１つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項２０に記載のコンピュータプログラム製品。
前記複数の予測タイプのうち少なくとも１つの予測タイプが前記ポジティブタイプを示すと決定することに応答して、１つ以上のプロセッサによって、前記少なくとも１つの予測タイプに対応する少なくとも１つの予測モデルを含むモデルセットを生成することと、
１つ以上のプロセッサによって、前記モデルセット中の予測モデルに関連する影響力のあるパラメータ群を決定することと、
１つ以上のプロセッサによって、前記複数のパラメータから、前記ターゲットサンプルに影響力のあるターゲットパラメータ群を特定することと、
１つ以上のプロセッサによって、前記影響力のあるパラメータ群と前記影響力のあるターゲットパラメータ群との間の差に基づいて、前記モデルセットを更新することと、
１つ以上のプロセッサによって、前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することと、
を含む、請求項２１に記載のコンピュータプログラム製品。
前記複数の予測モデルを生成することは、
１つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも１つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
１つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項２０に記載のコンピュータプログラム製品。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項２３に記載のコンピュータプログラム製品。
前記トレーニングデータセットを取得することは、
１つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも１つのポジティブトレーニングサンプルを取得することと、
１つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも１つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも１つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項２３に記載のコンピュータプログラム製品。