WO2019059135A1 - 情報処理装置、情報処理システム、情報処理方法および記録媒体 - Google Patents
情報処理装置、情報処理システム、情報処理方法および記録媒体 Download PDFInfo
- Publication number
- WO2019059135A1 WO2019059135A1 PCT/JP2018/034287 JP2018034287W WO2019059135A1 WO 2019059135 A1 WO2019059135 A1 WO 2019059135A1 JP 2018034287 W JP2018034287 W JP 2018034287W WO 2019059135 A1 WO2019059135 A1 WO 2019059135A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- analysis
- information processing
- feature amount
- task
- processing time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- big data analysis such as commodity demand forecasting in retail industry is known.
- big data analysis for example, it is necessary to analyze the correlation between many attributes such as the basket problem, and the processing load becomes very high.
- load distribution processing using resources on the cloud is widely performed.
- a process for calculating a feature amount between attribute information in analysis data including a plurality of attribute information, and a process for executing an analysis task on the analysis data using a predetermined resource comprising: a prediction unit that predicts time from the feature amount.
- the analysis result DB 130 is, for example, a large-capacity storage device such as a hard disk, and is connected to the cloud environment through the VPN as in the case of the queue 110.
- analysis results from the worker instance 120, data calculated by the resource optimization device 140, and the like are accumulated.
- the data accumulated in the analysis result DB 130 may be acquired by the analysis client 100.
- the analysis result DB 130 may be provided integrally with the analysis client 100.
- FIG. 7 is a flowchart showing the operation of the resource optimization device according to the present embodiment.
- the feature quantity calculation unit 141 acquires the past analysis result as shown in FIG. 6 from the analysis result DB 130. For example, if today is June 8th, analysis results for the last 3 days (ie, from June 5th to June 7th) are obtained.
- the period of the analysis result obtained here is not limited, and may be, for example, one week, one month, three months, half a year, one year, and the like.
- the feature amount calculation unit 141 calculates the processing time coefficient using the above-mentioned equation (1) based on the analysis result in the past (step S701).
- An example of the calculated processing time coefficient is shown in FIG.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一実施形態に係る情報処理装置は、複数の属性情報を含む分析データにおいて属性情報間の特徴量を算出する算出部と、所定のリソースを用いて分析データに対する分析タスクを実行する際の処理時間を、特徴量から予測する予測部とを備える。
Description
本発明は、情報処理装置、情報処理システム、情報処理方法および記録媒体に関する。
昨今の分析技術として、小売業における商品需要予測などのビッグデータ分析が知られている。ビッグデータ分析では、例えばバスケット問題のように多くの属性間の相関関係を分析する必要があり、処理負荷が非常に高くなる。限られた時間内で分析処理を実行するために、クラウド上のリソースを利用した負荷分散処理が広く行われている。
特許文献1には、複数のサービス(アプリケーション)間で余剰のリソースを配分することができるリソース配分方法が開示されている。このリソース配分方法では、個々のサービスに関し過去の稼動履歴を用いて負荷予測を行い、予測結果に応じて余剰のリソースを個々のサービスに割り当てる。
クラウド環境において分析処理を行う際には、処理にかかる時間、必要リソース量などの処理負荷が毎回一定にはならず大きく変動する可能性がある。このため、特許文献1のように過去の稼動履歴を用いて予測を行った場合、処理負荷を精度良く予測することは困難である。
本発明は、上述の問題に鑑みてなされたものであって、処理負荷を精度良く予測することが可能な情報処理装置、情報処理方法および記録媒体を提供することを目的とする。
本発明の一観点によれば、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置が提供される。
本発明の他の観点によれば、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法が提供される。
本発明の他の観点によれば、コンピュータに、複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体が提供される。
本発明によれば、処理負荷を精度良く予測することが可能な情報処理装置、情報処理方法および記録媒体が提供される。
[第1実施形態]
図1は、第1実施形態に係る分析システムの全体構成を示すブロック図である。本実施形態に係る分析システムは、いわゆるビッグデータ分析を行うための情報処理システムである。以下、クラウド上のリソースを利用して、大量の分析処理をバッチ処理により毎日実行する例を説明する。分析システムは、分析クライアント100、キュー110、ワーカインスタンス120、分析結果DB(Database)130、リソース最適化装置140を備える。リソース最適化装置140は、本発明による情報処理装置の一実施形態である。
図1は、第1実施形態に係る分析システムの全体構成を示すブロック図である。本実施形態に係る分析システムは、いわゆるビッグデータ分析を行うための情報処理システムである。以下、クラウド上のリソースを利用して、大量の分析処理をバッチ処理により毎日実行する例を説明する。分析システムは、分析クライアント100、キュー110、ワーカインスタンス120、分析結果DB(Database)130、リソース最適化装置140を備える。リソース最適化装置140は、本発明による情報処理装置の一実施形態である。
分析クライアント100は、例えばパーソナルコンピュータなどの端末装置であって、不図示のネットワークを介して店舗DB150と接続される。店舗DB150は、店舗毎に設けられたデータベースであって、その数は限定されない。店舗DB150は、例えば店舗の営業終了後に毎日更新される。分析クライアント100は、毎日所定の時刻になるとデータ分析用のバッチ処理を実行する。
バッチ処理において、まず分析クライアント100は、1または複数の店舗DB150から売上データを収集する。売上データには、店舗で販売されている各商品についての売上情報が含まれる。分析クライアント100は、収集された売上データを分析するための複数の分析タスクを生成し、これらの分析タスクをキュー110に登録する。
キュー110は、分析クライアント100と接続された記憶装置であって、分析クライアント100からの分析タスクを一時的に記憶する。キュー110は、例えばVPN(Virtual Private Network)を介してクラウド環境に接続され、FIFO(First In First Out)方式で分析タスクをワーカインスタンス120のいずれかに順次出力する。これにより、分析タスクは、ワーカインスタンス120により順次実行される。キュー110は、分析クライアント100と一体に設けられていてもよく、またクラウド上に設けられていてもよい。
ワーカインスタンス120は、クラウド上に配置される仮想マシン(仮想インスタンス)であって、CPU(Central Processing Unit)、メモリ、ストレージなどを仮想的に備える。ワーカインスタンス120は、売上データに対して分析タスクを実行し、これにより得られた分析結果を分析結果DB130に格納する。分析タスクは、例えば機械学習に関するタスクであって、売上データから抽出された学習データに基づいて、予測モデルを構築するための処理である。分析結果には、構築された予測モデルの他、分析タスクの処理に要した処理時間などが含まれる。
分析結果DB130は、例えばハードディスクなどの大容量の記憶装置であって、キュー110と同様にVPNを介してクラウド環境に接続される。分析結果DB130には、ワーカインスタンス120からの分析結果、リソース最適化装置140で算出されたデータなどが蓄積される。分析結果DB130に蓄積されたデータは、分析クライアント100により取得され得る。分析結果DB130は、分析クライアント100と一体に設けられていてもよい。
リソース最適化装置140は、特徴量算出部141、性能算出部142、処理負荷予測部143、インスタンス制御部144を備える。特徴量算出部141は、キュー110に登録されている分析タスクに基づいて売上データに関する特徴量を算出する。特徴量は、例えば売上データに含まれる属性情報間の共分散、相関係数などであり得る。算出された特徴量は、分析結果DB130に格納される。
性能算出部142は、分析結果DB130から取得された特徴量と過去の処理時間に基づき、処理負荷を予測する際に用いられるパラメータとして、分析タスク毎に処理時間係数および性能係数を算出する。処理時間係数は、過去のバッチ処理において実際に得られた処理時間と特徴量との関係性を表す。特徴量として共分散を用いた場合、処理時間係数は、以下の式(1)により算出される。
ここで、添字のiは分析実行日を表す。平均処理時間および平均共分散は、所定の期間(例えば直近の1ヶ月間など)における処理時間および共分散の平均をそれぞれ表す。
また、性能係数は、過去と比較した現在のワーカインスタンス120の処理性能を表し、過去の(すなわち前日までの)バッチ処理で得られた処理時間と、現在の(すなわち本日の)バッチ処理でこれまでに得られた処理時間との比較により推定される。具体的には、性能係数は、以下の式(2)により算出される。
ここで、nは、バッチ処理で生成される分析タスクの数を表し、実行済タスクは、n個の分析タスクのうち、現在のバッチ処理において既に実行された分析タスクを表す。
処理負荷予測部143は、キュー110に残っている未実行の分析タスク(残タスク)のリストをキュー110から取得するとともに、性能算出部142から分析タスクごとの処理時間係数および性能係数を取得する。また、処理負荷予測部143は、性能算出部142を介してまたは直接に、分析結果DB130から分析タスクごとの過去の平均共分散および現在の共分散を取得する。処理負荷予測部143は、以下の式(3)、(4)を用いて、各残タスクの予測処理時間と、リストに含まれるすべての残タスクの合計の予測処理時間(予測合計処理時間)を算出する。
ここで、nは、残タスクの数を表す。
さらに、処理負荷予測部143は、以下の式(5)を用いて、バッチ処理の終了刻限までにすべての残タスクを実行するために必要となるワーカインスタンス120の数(必要インスタンス数)を算出する。
式(5)において、必要インスタンス数は整数値に切り上げられる。
インスタンス制御部144は、処理負荷予測部143から入力された必要インスタンス数に応じて、ワーカインスタンス120の数を調整する。例えば、インスタンス制御部144は、ワーカインスタンス120を管理するクラウド上のホストサーバに対してインスタンス作成要求および削除要求を送信することにより、ワーカインスタンス120の数を増減させることができる。
図2は、本実施形態に係るリソース最適化装置のハードウェア構成を示すブロック図である。リソース最適化装置140は、CPU201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、記憶装置204、通信I/F(Interface)205を備える。
CPU201は、ROM203、記憶装置204に記憶されたプログラムに従って所定の動作を行うとともに、リソース最適化装置140の各部を制御する機能を有する。また、CPU201は、特徴量算出部141、性能算出部142、処理負荷予測部143、インスタンス制御部144の機能を実現するプログラムを実行する。
RAM202は、揮発性メモリから構成され、CPU201の動作に必要なメモリ領域を提供する。ROM203は、不揮発性メモリから構成され、リソース最適化装置140を動作させるために必要なプログラム、データなどを記憶する。記憶装置204は、例えばフラッシュメモリ、SSD(Solid State Drive)、HDD(Hard Disk Drive)などである。
通信I/F(Interface)205は、イーサネット(登録商標)、Wi-Fi(登録商標)などの規格に基づくネットワークインターフェースであり、キュー110、ワーカインスタンス120、分析結果DB130などの外部装置との通信を行うためのモジュールである。
なお、図2に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。例えば、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。
図3は、本実施形態に係る売上データの一例である。売上データ300は、分析対象となる分析データであって、複数の属性310について属性情報320を含む。属性310としては、例えば店舗ID、商品ID、日付、最高気温、最低気温、販売数などが挙げられる。属性310として、曜日、降水量、日照時間、積雪量、湿度、雲量、気圧、地域などが用いられてもよい。
店舗IDは、商品が販売される店舗の名称または識別番号である。商品IDは、販売される商品の名称または識別番号である。日付は商品の販売日であり、最高気温および最低気温は、販売日における観測値である。販売数は、販売日に販売された商品の数である。なお、図3の例では、異なる日付の売上データが1つのテーブル内にまとめられているが、本実施形態のようにバッチ処理が毎日実行される場合には、日付ごとの売上データ300が作成され得る。
図4は、本実施形態に係る分析タスクテーブルの一例である。分析タスクテーブル400には、複数の分析タスク410がレコードとして定義されている。分析タスク410の数は、例えば10000程度であり得る。各分析タスク410は、タスクID、データ抽出式、サンプル数、属性数のフィールドを有する。
タスクIDは、分析タスク410の名称または識別番号である。データ抽出式は、売上データ300の中から分析対象となるデータ(レコード)を抽出するためのクエリであって、SQL(Structured Query Language)などにより記述される。各分析タスク410のデータ抽出式は同様であって、店舗IDと商品IDごとに同一の属性データを抽出する。サンプル数は、データ抽出式により抽出されるレコードの数であり、属性数は、データ抽出式により抽出されるレコードに含まれる属性310の数である。属性数は、例えば10以上であってもよく、また、分析タスク410ごとに異なっていてもよい。
図5は、本実施形態に係る分析システムの動作を表すフローチャートである。分析システムは、毎日開始時刻になるとバッチ処理を開始する。開始時刻は、例えば店舗の営業終了後の午後10時である。まず、分析クライアント100は、各店舗DB150から売上データ(図3参照)を取得する(ステップS501)。例えば、本日を6月8日とすると、6月8日の売上データが取得される。
続いて、分析クライアント100は、取得された売上データに基づいて複数の分析タスクを生成する(ステップS502)。分析タスクは、分析タスクテーブル(図4参照)に定義されており、通常、毎日同一のものが生成される。生成された分析タスクは、分析クライアント100からキュー110に送信される。
特徴量算出部141は、分析タスクに関する情報をキュー110から取得し、分析タスク毎に、分析対象となるデータの属性間の特徴量を算出する(ステップS503)。例えば、図3に示すような売上データ300において、最高気温と最低気温の共分散を特徴量として算出する。算出された共分散は、分析結果に含められて分析結果DB130に格納される。
キュー110は、分析クライアント100からの分析タスクを一時的に記憶するとともに、分析タスクの実行が完了したワーカインスタンス120、または新たに追加されたワーカインスタンス120に対して、分析タスクを1つずつ割り当てる(ステップS504)。ワーカインスタンス120の数は、終了刻限(例えば翌日の午前6時)までにすべての分析タスクが完了するように、リソース最適化装置140により適切に調整される。
ワーカインスタンス120は、割り当てられた分析タスクを実行し、売上データの分析結果を分析結果DB130に格納する(ステップS505)。分析結果には、図6に示すように、タスクID、分析日、共分散、処理時間、予測式が含まれ得る。なお、図6の例では、6月5日から6月7日までの予測式が同一であるが、これはあくまで例示であって、予測式は日付によって変化し得る。
タスクIDは、ワーカインスタンス120が実行した分析タスクの名称または識別番号である。分析日は、分析タスクが実行された日付である。共分散は、売上データにおける最高気温と最低気温から算出される特徴量である。処理時間は、分析タスクの実行に要した時間であって、例えば秒単位で表される。予測式は、売上データの属性間の関係を表す予測モデルであって、分析タスクを実行することにより得られる。予測式は、図6に示す単回帰式の他、複数の属性310を変数とする重回帰式などであり得る。
なお、本実施形態では、ワーカインスタンス120による分析タスクの実行過程において共分散が算出されるため、特徴量算出部141による特徴量算出処理(ステップS503)を省略することができる。
次に、キュー110は、残タスクがあるか否かを判断する(ステップS506)。すなわち、キュー110は、分析クライアント100から受信された複数の分析タスクのうち、ワーカインスタンス120に割り当てられていない未実行の分析タスクがキュー110に残っているか否かを判断する。
残タスクがある場合(ステップS506でYES)、キュー110は、ステップS504に戻り、残タスクをワーカインスタンス120に割り当てる。残タスクがない場合(ステップS506でNO)、分析システムは、バッチ処理を終了する。
図7は、本実施形態に係るリソース最適化装置の動作を表すフローチャートである。バッチ処理が開始されると、特徴量算出部141は、分析結果DB130から図6に示すような過去の分析結果を取得する。例えば、本日が6月8日である場合、直近の3日間(すなわち6月5日から6月7日まで)の分析結果が取得される。ここで取得される分析結果の期間は限定されず、例えば1週間、1ヶ月、3ヶ月、半年、1年などであり得る。
特徴量算出部141は、過去の分析結果に基づき、上述の式(1)を用いて処理時間係数を算出する(ステップS701)。算出された処理時間係数の一例を図8に示す。例えば、図6の分析結果において6月5日から6月7日までの平均を取ると、タスクA_Aの平均処理時間は、(75+100+125)/3=100[秒]、タスクA_Aの平均共分散は、(5.25+6.25+7.25)/3=6.25と算出される。よって、タスクA_Aの処理時間係数は、前日(6月7日)の共分散と処理時間を用いて、(125-100)/(7.25-6.25)=25となる。他の分析タスクの処理時間係数についても同様に算出される。
性能算出部142は、一定時間ごとに分析結果DB130にアクセスし、現在のバッチ処理に関する分析結果が格納されている場合、当該分析結果を分析結果DB130から取得する。換言すれば、本日のバッチ処理において、現時点で既に実行済の分析タスクの分析結果が取得される。性能算出部142は、取得された処理時間と、特徴量算出部141で算出された平均処理時間に基づき、上述の式(2)を用いて性能係数を算出する(ステップS702)。すなわち、実行済の分析タスクごとに今回の処理時間と過去の平均処理時間との比率が算出され、実行済のすべての分析タスクについての該比率の平均値を性能係数とする。
例えば、本日(6月8日)のバッチ処理において図9に示すような分析結果がこれまでに得られているものとする。つまり、バッチ処理で実行される複数の分析タスクのうち、タスクA_AとタスクA_Bが実行済であるものとする。この場合、性能係数は、以下のように算出される。
処理負荷予測部143は、性能算出部142から得られた各分析タスクの平均処理時間および性能係数と、特徴量算出部141から得られた残タスクに関する共分散に基づいて、残タスクの実行にかかる合計の処理時間を予測する(ステップS703)。合計の処理時間は、上述の式(3)、(4)を用いて予測される。
例えば、説明を簡単にするために、残タスクには、タスクA_CとタスクA_Dのみが含まれるものとし、これらの分析タスクに関して特徴量算出部141で算出された共分散をいずれも10とする。この場合、タスクA_Cの予想処理時間は、{300+(10-15)×10}×1.2=300[秒]、タスクA_Dの予想処理時間は、{400+(10-10)×15}×1.2=480[秒]と算出される。よって、予想合計処理時間は、300+480=780[秒]となる。
続いて、処理負荷予測部143は、算出された予想合計処理時間と現在の時刻とに基づき、上述の式(5)を用いて、必要インスタンス数を算出する(ステップS704)。例えば、現在の時刻から終了刻限までの時間が100秒であり、予想合計処理時間が上述のように780秒であるものとすると、必要インスタンス数は、780/100=7.8の結果を整数値に切り上げて、8[個]となる。
インスタンス制御部144は、現在配置されているワーカインスタンス120の数(現在数)を、処理負荷予測部143から得られた必要インスタンス数(必要数)と比較する(ステップS705、S707)。現在数が必要数よりも多い場合(ステップS705でYES)、すなわちワーカインスタンス120の数が余剰である場合には、インスタンス制御部144は、ワーカインスタンス120を必要数に応じて削減する(ステップS706)。
現在数が必要数よりも少ない場合(ステップS705でNOかつステップS707でYES)、すなわちワーカインスタンス120の数が不足している場合には、インスタンス制御部144は、ワーカインスタンス120を必要数に応じて追加する(ステップS708)。現在数と必要数が同一である場合(ステップS705でNOかつステップS707でNO)、インスタンス制御部144は、ワーカインスタンス120の数を調整しない。
処理負荷予測部143は、キュー110から取得された残タスクリストに基づいて、キュー110内に残タスクがあるか否かを判断する(ステップS709)。残タスクがある場合(ステップS709でYES)、性能係数算出処理(ステップS702)以降の処理が繰り返される。残タスクがない場合(ステップS709でNO)、リソース最適化装置140は、処理を終了する。
このように本実施形態では、分析データに含まれる属性についての特徴量を算出し、特徴量と実際の処理時間との関係性に基づいて、特徴量から処理時間を予測する。一般に、機械学習においては分析データの属性間の相関はNP(Non-deterministic Polynomial time)問題であり、データ量から分析にかかる処理負荷を予測することは困難である。これに対し、本実施形態によれば、特徴量を用いることで処理負荷を精度良く予測することが可能となる。
また、本実施形態では、属性の数が分析データのデータ数に対して非常に少ないことから、特徴量の算出にかかる計算量が抑制され、処理負荷の予測を効率良く行うことが可能となる。さらに、処理負荷の予測結果に基づいて動的にリソースを最適化するように分析システムを構成することにより、限られた時間内に最小限のリソース量で分析処理を完了することが可能となる。
[第2実施形態]
図10は、第2実施形態に係る情報処理装置の概略構成図である。情報処理装置1000は、算出部1001、予測部1002を備える。算出部1001は、複数の属性情報を含む分析データにおいて属性情報間の特徴量を算出する。予測部1002は、所定のリソースを用いて分析データに対する分析タスクを実行する際の処理時間を特徴量から予測する。
図10は、第2実施形態に係る情報処理装置の概略構成図である。情報処理装置1000は、算出部1001、予測部1002を備える。算出部1001は、複数の属性情報を含む分析データにおいて属性情報間の特徴量を算出する。予測部1002は、所定のリソースを用いて分析データに対する分析タスクを実行する際の処理時間を特徴量から予測する。
[変形実施形態]
本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。例えば、特徴量と処理時間との関係性を表す式は、上述の式(1)に限られない。該関係性を、処理時間が属性間の相関係数の絶対値に反比例する式として表すことも可能である。また、特徴量として異なる属性間についての複数種類の共分散を組み合せて用いることも可能である。
本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。例えば、特徴量と処理時間との関係性を表す式は、上述の式(1)に限られない。該関係性を、処理時間が属性間の相関係数の絶対値に反比例する式として表すことも可能である。また、特徴量として異なる属性間についての複数種類の共分散を組み合せて用いることも可能である。
また、上述の実施形態では、バッチ処理が日次実行されるものとしたが、バッチ処理は周期的に実行されるものであればよい。すなわち、ヒストリカルに取得される同様の形式の分析データに対して、同様の分析タスクを繰り返し実行するものであればよい。
また、上述の実施形態では、ワーカインスタンス120の性能を同一とし、予測された処理時間に応じてワーカインスタンス120の数が制御されていた。これに代えて、ワーカインスタンス120の数を一定とし、ワーカインスタンス120のCPUの性能、メモリサイズ、ストレージサイズなどが調整されてもよい。
上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラム(より具体的には、図5、7に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
上述の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置。
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置。
(付記2)
所定の周期毎に、前記分析データが更新されるとともに前記分析タスクが実行され、
前記予測部は、過去の周期における前記特徴量と前記処理時間との関係性に基づいて、現在の周期における前記処理時間を予測することを特徴とする付記1に記載の情報処理装置。
所定の周期毎に、前記分析データが更新されるとともに前記分析タスクが実行され、
前記予測部は、過去の周期における前記特徴量と前記処理時間との関係性に基づいて、現在の周期における前記処理時間を予測することを特徴とする付記1に記載の情報処理装置。
(付記3)
前記周期毎に、異なる複数の前記分析タスクが順次実行され、
前記予測部は、現在の周期において、実行済の前記分析タスクの処理時間に基づいて未実行の前記分析タスクの処理時間を予測することを特徴とする付記2に記載の情報処理装置。
前記周期毎に、異なる複数の前記分析タスクが順次実行され、
前記予測部は、現在の周期において、実行済の前記分析タスクの処理時間に基づいて未実行の前記分析タスクの処理時間を予測することを特徴とする付記2に記載の情報処理装置。
(付記4)
前記特徴量は共分散であり、前記処理時間は共分散に比例することを特徴とする付記3に記載の情報処理装置。
前記特徴量は共分散であり、前記処理時間は共分散に比例することを特徴とする付記3に記載の情報処理装置。
(付記5)
前記分析タスクは、前記属性情報を用いた予測モデルを構築するための機械学習であることを特徴とする付記1乃至4のいずれかに記載の情報処理装置。
前記分析タスクは、前記属性情報を用いた予測モデルを構築するための機械学習であることを特徴とする付記1乃至4のいずれかに記載の情報処理装置。
(付記6)
予測された前記処理時間に基づいて、前記分析タスクを実行するためのリソースの量を制御する制御部を備えることを特徴とする付記1乃至5のいずれかに記載の情報処理装置。
予測された前記処理時間に基づいて、前記分析タスクを実行するためのリソースの量を制御する制御部を備えることを特徴とする付記1乃至5のいずれかに記載の情報処理装置。
(付記7)
前記リソースは、ネットワーク上に配置された仮想インスタンスであることを特徴とする付記6に記載の情報処理装置。
前記リソースは、ネットワーク上に配置された仮想インスタンスであることを特徴とする付記6に記載の情報処理装置。
(付記8)
付記6または7に記載の情報処理装置と、
前記分析データを取得するとともに、前記リソースを用いて前記分析タスクを実行させる端末装置とを備えることを特徴とする情報処理システム。
付記6または7に記載の情報処理装置と、
前記分析データを取得するとともに、前記リソースを用いて前記分析タスクを実行させる端末装置とを備えることを特徴とする情報処理システム。
(付記9)
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法。
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法。
(付記10)
コンピュータに、
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体。
コンピュータに、
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体。
この出願は、2017年9月20日に出願された日本出願特願2017-179960を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
Claims (10)
- 複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出する算出部と、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測する予測部とを備えることを特徴とする情報処理装置。 - 所定の周期毎に、前記分析データが更新されるとともに前記分析タスクが実行され、
前記予測部は、過去の周期における前記特徴量と前記処理時間との関係性に基づいて、現在の周期における前記処理時間を予測することを特徴とする請求項1に記載の情報処理装置。 - 前記周期毎に、異なる複数の前記分析タスクが順次実行され、
前記予測部は、現在の周期において、実行済の前記分析タスクの前記処理時間に基づいて未実行の前記分析タスクの前記処理時間を予測することを特徴とする請求項2に記載の情報処理装置。 - 前記特徴量は共分散であり、前記処理時間は共分散に比例することを特徴とする請求項3に記載の情報処理装置。
- 前記分析タスクは、前記属性情報を用いた予測モデルを構築するための機械学習であることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
- 予測された前記処理時間に基づいて、前記分析タスクを実行するためのリソースの量を制御する制御部を備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
- 前記リソースは、ネットワーク上に配置された仮想インスタンスであることを特徴とする請求項6に記載の情報処理装置。
- 請求項6または7に記載の情報処理装置と、
前記分析データを取得するとともに、前記リソースを用いて前記分析タスクを実行させる端末装置とを備えることを特徴とする情報処理システム。 - 複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを備えることを特徴とする情報処理方法。 - コンピュータに、
複数の属性情報を含む分析データにおいて前記属性情報間の特徴量を算出するステップと、
所定のリソースを用いて前記分析データに対する分析タスクを実行する際の処理時間を、前記特徴量から予測するステップとを実行させることを特徴とするプログラムが記録された記録媒体。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019543621A JP6777242B2 (ja) | 2017-09-20 | 2018-09-14 | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
| US16/647,575 US20200234149A1 (en) | 2017-09-20 | 2018-09-14 | Information processing device, information processing system, information processing method, and storage medium |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017179960 | 2017-09-20 | ||
| JP2017-179960 | 2017-09-20 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019059135A1 true WO2019059135A1 (ja) | 2019-03-28 |
Family
ID=65809833
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2018/034287 Ceased WO2019059135A1 (ja) | 2017-09-20 | 2018-09-14 | 情報処理装置、情報処理システム、情報処理方法および記録媒体 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20200234149A1 (ja) |
| JP (1) | JP6777242B2 (ja) |
| WO (1) | WO2019059135A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112052082B (zh) * | 2020-09-01 | 2024-04-19 | 深圳市卡数科技有限公司 | 任务属性优化方法、装置、服务器及存储介质 |
| CN120234219A (zh) * | 2023-12-29 | 2025-07-01 | 华为技术有限公司 | 任务处理时长的预测方法、装置、设备以及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049504A (ja) * | 1996-08-02 | 1998-02-20 | Mitsubishi Electric Corp | 負荷分散バッチシステム |
| JP2015005191A (ja) * | 2013-06-21 | 2015-01-08 | 株式会社日立製作所 | バッチ性能予測及び対策支援方法及びシステム |
| JP2015014847A (ja) * | 2013-07-03 | 2015-01-22 | 株式会社日立システムズ | 設計支援システム、設計支援方法、およびプログラム |
| JP2015184879A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社野村総合研究所 | 基盤運用管理システムおよび基盤運用管理方法 |
| JP2017162059A (ja) * | 2016-03-08 | 2017-09-14 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
-
2018
- 2018-09-14 JP JP2019543621A patent/JP6777242B2/ja active Active
- 2018-09-14 US US16/647,575 patent/US20200234149A1/en not_active Abandoned
- 2018-09-14 WO PCT/JP2018/034287 patent/WO2019059135A1/ja not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049504A (ja) * | 1996-08-02 | 1998-02-20 | Mitsubishi Electric Corp | 負荷分散バッチシステム |
| JP2015005191A (ja) * | 2013-06-21 | 2015-01-08 | 株式会社日立製作所 | バッチ性能予測及び対策支援方法及びシステム |
| JP2015014847A (ja) * | 2013-07-03 | 2015-01-22 | 株式会社日立システムズ | 設計支援システム、設計支援方法、およびプログラム |
| JP2015184879A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社野村総合研究所 | 基盤運用管理システムおよび基盤運用管理方法 |
| JP2017162059A (ja) * | 2016-03-08 | 2017-09-14 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6777242B2 (ja) | 2020-10-28 |
| US20200234149A1 (en) | 2020-07-23 |
| JPWO2019059135A1 (ja) | 2020-04-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10372723B2 (en) | Efficient query processing using histograms in a columnar database | |
| JP6564015B2 (ja) | 時間、資源および予算の制約下での構造化経営組織内のプロジェクトの選択および資源の割り当てを最適化する方法およびシステム | |
| US20160004757A1 (en) | Data management method, data management device and storage medium | |
| JP6983115B2 (ja) | 物流予測システム及び予測方法 | |
| Yang et al. | Modelling and optimisation of a two-server queue with multiple vacations and working breakdowns | |
| CN111309712A (zh) | 基于数据仓库的优化任务调度方法、装置、设备及介质 | |
| Park et al. | Queue congestion prediction for large-scale high performance computing systems using a hidden Markov model | |
| US20220351051A1 (en) | Analysis system, apparatus, control method, and program | |
| JP2018081550A (ja) | 営業活動支援装置、営業活動支援方法および営業活動支援プログラム | |
| Jia et al. | Closed Bernoulli lines with finite buffers: real-time performance analysis, completion time bottleneck and carrier control | |
| JP6777242B2 (ja) | 情報処理装置、情報処理システム、情報処理方法およびプログラム | |
| CN112016581A (zh) | 一种多维数据处理方法、装置、计算机设备及存储介质 | |
| Betke et al. | Footprinting parallel I/O–machine learning to classify application’s I/O behavior | |
| JP6697082B2 (ja) | 需要予測方法、需要予測システム及びそのプログラム | |
| WO2015159336A1 (ja) | 情報処理装置、流量制御パラメータ算出方法、およびプログラム | |
| CN115619261A (zh) | 一种作业标签画像数据处理方法、装置、计算机设备 | |
| US20210405627A1 (en) | Production planning system | |
| JP2021103444A (ja) | 需要予測システム | |
| JP6753521B2 (ja) | 計算資源管理装置、計算資源管理方法、及びプログラム | |
| JP5515117B2 (ja) | データ処理装置 | |
| US20220366462A1 (en) | Recommendation system, and product recommendation method | |
| Salih et al. | Model-based resource utilization and performance risk prediction using machine learning Techniques | |
| JP2015106164A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
| JP7119484B2 (ja) | 情報集約装置、情報集約方法、及び、プログラム | |
| JP6679445B2 (ja) | 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18858399 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2019543621 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 18858399 Country of ref document: EP Kind code of ref document: A1 |