JP2023037568A - コンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム製品(不均衡データセットに基づく分類) - Google Patents
コンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム製品(不均衡データセットに基づく分類) Download PDFInfo
- Publication number
- JP2023037568A JP2023037568A JP2022110475A JP2022110475A JP2023037568A JP 2023037568 A JP2023037568 A JP 2023037568A JP 2022110475 A JP2022110475 A JP 2022110475A JP 2022110475 A JP2022110475 A JP 2022110475A JP 2023037568 A JP2023037568 A JP 2023037568A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- processors
- positive
- negative
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
Claims (25)
- 1つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび前記複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
1つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
1つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータ実装方法。 - 前記複数の予測モデルを生成することは、
1つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも1つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
1つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項1に記載のコンピュータ実装方法。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項2に記載のコンピュータ実装方法。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも1つのポジティブトレーニングサンプルを取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも1つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも1つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項2に記載のコンピュータ実装方法。 - 前記複数の影響力のあるパラメータ群を特定することは、
1つ以上のプロセッサによって、複数のポジティブサンプル中の前記ポジティブサンプルに対して影響力のあるパラメータ群を特定することであって、前記影響力のあるパラメータ群は、前記ポジティブサンプルを前記ポジティブタイプとして分類させる前記複数のパラメータ中の、パラメータ群を含む、特定すること、
を含む、請求項1に記載のコンピュータ実装方法。 - 前記不均衡データセットにさらなるポジティブサンプルが追加されることを決定することに応答して、1つ以上のプロセッサによって、前記さらなるポジティブサンプルに基づくさらなる予測モデルを生成することと、
1つ以上のプロセッサによって、前記複数のパラメータから前記さらなる予測モデルに対してさらなる影響力のあるパラメータ群を特定することと、
1つ以上のプロセッサによって、前記さらなる予測モデルおよび前記さらなる影響力のあるパラメータ群に基づいて、前記最終予測モデルを更新することと、
をさらに含む、請求項1に記載のコンピュータ実装方法。 - ターゲットサンプルが受信されることを決定することに応答して、1つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、1つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 1つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
1つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
1つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
複数の予測タイプのうち少なくとも1つの予測タイプが前記ポジティブタイプを示すと決定することに応答して、1つ以上のプロセッサによって、前記少なくとも1つの予測タイプに対応する少なくとも1つの予測モデルを含むモデルセットを生成することと、
1つ以上のプロセッサによって、前記モデルセット中の予測モデルに関連する影響力のあるパラメータ群を決定することと、
1つ以上のプロセッサによって、前記複数のパラメータから、ターゲットサンプルに影響力のあるターゲットパラメータ群を特定することと、
1つ以上のプロセッサによって、前記影響力のあるパラメータ群と前記影響力のあるターゲットパラメータ群との間の差に基づいて、前記モデルセットを更新することと、
1つ以上のプロセッサによって、前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することと、
を含む、コンピュータ実装方法。 - 前記モデルセットを更新することは、
前記差が予め定義された閾値を超えると決定することに応答して、1つ以上のプロセッサによって、前記モデルセットから前記予測モデルを取り除くこと、
を含む、請求項8に記載のコンピュータ実装方法。 - 前記モデルセットを更新することは、
前記差が予め定義された閾値以下であると決定することに応答して、1つ以上のプロセッサによって、前記モデルセットに前記予測モデルを維持すること、
を含む、請求項8に記載のコンピュータ実装方法。 - 前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空であると決定することに応答して、1つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類すること、
を含む、請求項8に記載のコンピュータ実装方法。 - 前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空でないと判断することに応答して、1つ以上のプロセッサによって、前記ターゲットサンプルを前記ポジティブタイプに分類すること、
を含む、請求項8に記載のコンピュータ実装方法。 - コンピュータ実装システムであって、コンピュータ可読メモリユニットに結合されたコンピュータプロセッサを備え、前記メモリユニットは、前記コンピュータプロセッサによって実行されると、方法を実施する命令を含み、前記方法は、
1つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
1つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
1つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータ実装システム。 - 前記複数の予測モデルを生成することは、
1つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも1つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
1つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項13に記載のコンピュータ実装システム。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項14に記載のコンピュータ実装システム。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも1つのポジティブトレーニングサンプルを取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも1つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも1つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項14に記載のコンピュータ実装システム。 - ターゲットサンプルが受信されることを決定することに応答して、1つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、1つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項13に記載のコンピュータ実装システム。 - 前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空であると決定することに応答して、前記ターゲットサンプルを前記ネガティブタイプに分類すること、
を含む、請求項13に記載のコンピュータ実装システム。 - 前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することは、
前記更新されたモデルセットが空でないと判断することに応答して、前記ターゲットサンプルを前記ポジティブタイプに分類すること、
を含む、請求項13に記載のコンピュータ実装システム。 - コンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令をその中に実装したコンピュータ可読記憶媒体を含み、前記プログラム命令は、電子デバイスによって実行可能であり前記電子デバイスに方法を実行させ、前記方法は、
1つ以上のプロセッサによって、不均衡データセットに含まれる複数のポジティブサンプルに基づいて複数の予測モデルを生成することであって、前記複数のポジティブサンプルの量は、前記不均衡データセットに含まれる複数のネガティブサンプルの量以下であり、前記複数のポジティブサンプルおよび前記複数のネガティブサンプルの各サンプルは、複数のパラメータを含む、生成することと、
1つ以上のプロセッサによって、前記複数のパラメータから、前記複数のポジティブサンプルに対して複数の影響力のあるパラメータ群を特定することと、
1つ以上のプロセッサによって、前記複数の予測モデルおよび前記複数の影響力のあるパラメータ群に基づいて最終予測モデルを決定することであって、前記最終予測モデルは、サンプルをポジティブタイプまたはネガティブタイプに分類する、決定することと、
を含む、コンピュータプログラム製品。 - ターゲットサンプルが受信されることを決定することに応答して、1つ以上のプロセッサによって、前記最終予測モデルに含まれる前記複数の予測モデルに基づいて、前記ターゲットサンプルに対する複数の予測タイプを決定することと、
複数の予測タイプの全てが前記ネガティブタイプを示すと決定することに応答して、1つ以上のプロセッサによって、前記ターゲットサンプルを前記ネガティブタイプに分類することと、
をさらに含む、請求項20に記載のコンピュータプログラム製品。 - 前記複数の予測タイプのうち少なくとも1つの予測タイプが前記ポジティブタイプを示すと決定することに応答して、1つ以上のプロセッサによって、前記少なくとも1つの予測タイプに対応する少なくとも1つの予測モデルを含むモデルセットを生成することと、
1つ以上のプロセッサによって、前記モデルセット中の予測モデルに関連する影響力のあるパラメータ群を決定することと、
1つ以上のプロセッサによって、前記複数のパラメータから、前記ターゲットサンプルに影響力のあるターゲットパラメータ群を特定することと、
1つ以上のプロセッサによって、前記影響力のあるパラメータ群と前記影響力のあるターゲットパラメータ群との間の差に基づいて、前記モデルセットを更新することと、
1つ以上のプロセッサによって、前記更新されたモデルセットに基づいて前記ターゲットサンプルを分類することと、
を含む、請求項21に記載のコンピュータプログラム製品。 - 前記複数の予測モデルを生成することは、
1つ以上のプロセッサによって、ポジティブサンプルに基づくトレーニングデータセットを取得することであって、前記トレーニングデータセットは、少なくとも1つのポジティブトレーニングサンプルと複数のネガティブトレーニングサンプルとを含む、取得することと、
1つ以上のプロセッサによって、前記トレーニングデータセットで初期予測モデルをトレーニングすることにより、前記複数の予測モデルを生成することと、
を含む、請求項20に記載のコンピュータプログラム製品。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを取得することであって、前記複数のネガティブトレーニングサンプルは、前記複数のネガティブサンプルからのネガティブサンプルを構成し、前記ポジティブサンプルをネガティブサンプルに変更する群から選択される、取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルを前記トレーニングデータセットに追加することと、
を含む、請求項23に記載のコンピュータプログラム製品。 - 前記トレーニングデータセットを取得することは、
1つ以上のプロセッサによって、前記ポジティブサンプルに基づく前記少なくとも1つのポジティブトレーニングサンプルを取得することと、
1つ以上のプロセッサによって、前記複数のネガティブトレーニングサンプルの量と前記少なくとも1つのポジティブトレーニングサンプルの量の比率に基づいて、前記少なくとも1つのポジティブトレーニングサンプルに重みを割り当てることと、
を含む、請求項23に記載のコンピュータプログラム製品。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/465,916 | 2021-09-03 | ||
| US17/465,916 US20230072913A1 (en) | 2021-09-03 | 2021-09-03 | Classification based on imbalanced dataset |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023037568A true JP2023037568A (ja) | 2023-03-15 |
| JP7811065B2 JP7811065B2 (ja) | 2026-02-04 |
Family
ID=
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009078096A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 |
| JP2017169884A (ja) * | 2016-03-24 | 2017-09-28 | トヨタ自動車株式会社 | 睡眠状態推定装置 |
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009078096A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 |
| JP2017169884A (ja) * | 2016-03-24 | 2017-09-28 | トヨタ自動車株式会社 | 睡眠状態推定装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN115758228A (zh) | 2023-03-07 |
| US20230072913A1 (en) | 2023-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9612821B2 (en) | Predicting the success of a continuous software deployment pipeline | |
| US9690553B1 (en) | Identifying software dependency relationships | |
| US20230072913A1 (en) | Classification based on imbalanced dataset | |
| US10545847B2 (en) | Grouping and isolating software changes to increase build quality | |
| US11212162B2 (en) | Bayesian-based event grouping | |
| US20210097407A1 (en) | Predicting operational status of system | |
| WO2023077989A1 (en) | Incremental machine learning for a parametric machine learning model | |
| US20200409731A1 (en) | Machine-learning based heap memory tuning | |
| US20210081265A1 (en) | Intelligent cluster auto-scaler | |
| US12210939B2 (en) | Explaining machine learning based time series models | |
| US11144429B2 (en) | Detecting and predicting application performance | |
| US11455154B2 (en) | Vector-based identification of software dependency relationships | |
| US20220188290A1 (en) | Assigning an anomaly level to a non-instrumented object | |
| US9542616B1 (en) | Determining user preferences for data visualizations | |
| CN112416700A (zh) | 分析启动的预测性故障和smart日志 | |
| US10042867B2 (en) | Generating storage plans in storage management systems | |
| US10878804B2 (en) | Voice controlled keyword generation for automated test framework | |
| US20200403859A1 (en) | Determine valid drop targets for nodes from mapping | |
| US12093838B2 (en) | Efficient execution of a decision tree | |
| US11501199B2 (en) | Probability index optimization for multi-shot simulation in quantum computing | |
| US10680912B1 (en) | Infrastructure resource provisioning using trace-based workload temporal analysis for high performance computing | |
| CN115280343A (zh) | 故障事件管理中的事件相关性 | |
| US20230409419A1 (en) | Techniques for controlling log rate using policy | |
| JP7811065B2 (ja) | コンピュータ実装方法、コンピュータ実装システムおよびコンピュータプログラム(不均衡データセットに基づく分類) | |
| US12045317B2 (en) | Feature selection using hypergraphs |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20221109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20221109 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241212 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250731 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250902 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20251201 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20260106 |
|
| RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20260106 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20260120 |