WO2023037398A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- WO2023037398A1 WO2023037398A1 PCT/JP2021/032766 JP2021032766W WO2023037398A1 WO 2023037398 A1 WO2023037398 A1 WO 2023037398A1 JP 2021032766 W JP2021032766 W JP 2021032766W WO 2023037398 A1 WO2023037398 A1 WO 2023037398A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- evaluation
- insight
- information processing
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24575—Query processing with adaptation to user needs using context
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
Definitions
- the present invention relates to an information processing device, an information processing method, and a program.
- instance data is generated by visualizing data to be visualized based on template data having a keyword that expresses a method of visualizing a data analysis result, and the instance data is evaluated as instance metadata. A method for regeneration based on values is described.
- Patent Literature 1 has a problem that when the template data does not capture the user context, the presented visualization candidate is not necessarily the visualization result desired by the user.
- One aspect of the present invention has been made in view of the above problems, and an example of its purpose is to provide a technology that enables evaluation as to whether a data visualization candidate provides an insight desired by a user. is.
- An information processing apparatus includes acquisition means for acquiring an evaluation data set and context data, and for a plurality of insight subjects generated by referring to at least the evaluation data set, the context and evaluation means for performing evaluation according to the data.
- An information processing method comprises: at least one processor acquiring an evaluation dataset and context data; is evaluated according to the context data.
- a program provides a computer with a process of acquiring an evaluation data set and context data, and for a plurality of insight subjects generated with reference to at least the evaluation data set, performing the and a process of performing evaluation according to the context data.
- FIG. 1 is a block diagram showing the configuration of an information processing device according to exemplary Embodiment 1 of the present invention
- FIG. FIG. 3 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 1 of the present invention
- FIG. 4 is a diagram showing examples of insight subjects and evaluation results according to exemplary embodiment 1 of the present invention
- FIG. 7 is a block diagram showing the configuration of an information processing apparatus according to exemplary Embodiment 2 of the present invention
- FIG. 7 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 2 of the present invention
- FIG. 5 is a diagram showing an example of input data according to exemplary embodiment 2 of the present invention
- FIG. 10 illustrates an example of context and visualization information according to example embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of feature vector generation according to exemplary embodiment 2 of the present invention
- FIG. 5 is a diagram showing an example of aggregated data and statistics according to exemplary embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of an evaluation model according to exemplary embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of displaying insight subjects with evaluation results according to exemplary embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of displaying visualization information together with evaluation results according to exemplary embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of displaying insight subjects with evaluation results according to exemplary embodiment 2 of the present invention
- FIG. 10 is a diagram showing an example of displaying insight subjects with evaluation results according to exemplary embodiment 2 of the present invention
- FIG. 11 is a block diagram showing the configuration of an information processing apparatus according to exemplary Embodiment 3 of the present invention. It is a figure which shows an example of the computer which executes the instruction
- FIG. 1 is a block diagram showing the configuration of an information processing device 1.
- the information processing device 1 is a device that evaluates whether a data visualization candidate provides an insight desired by a user.
- the information processing device 1 includes an acquisition unit 11 and an evaluation unit 12 .
- the acquisition unit 11 acquires an evaluation data set and context data.
- the evaluation unit 12 evaluates a plurality of insight subjects generated by referring to at least the evaluation data set, according to the context data.
- the evaluation data set is data used by the information processing apparatus 1 to evaluate visualization candidates of data.
- the evaluation data set includes at least one of evaluation data, which is data to be visualized, and related data related to the evaluation data.
- the data included in the evaluation data set is not limited to the examples described above, and the evaluation data set may include other information.
- the evaluation data is data to be visualized, and is, for example, multidimensional data including multiple records. Examples of the evaluation data include data indicating monthly sales records of a certain store, data indicating the size and area of the store, data indicating product codes, product names and unit prices of products sold at the store, and/or It includes data that indicates the customer's gender, age, place of residence, occupation, etc. However, the evaluation data is not limited to this, and may be other data.
- the evaluation data is visualized, for example, as a chart (a pie chart, a bar graph, a line graph, etc.) representing the contents of the evaluation data.
- Related data is data related to the evaluation data.
- the related data includes, for example, aggregated data indicating the aggregation result of the evaluation data, statistics of the aggregated data, and/or related information that is a set of various information used for visualizing the evaluation data.
- the related information includes, for example, a part or all of the name of the data used for visualization of the evaluation data, the data type, the type of aggregation method, and the type of chart design. Note that the data included in the related data is not limited to the examples described above, and the related data may include other data.
- Context data is data that represents what kind of insight a user seeks.
- the context data includes, for example, at least one of a context, which is data related to the insight desired by the user, and a feature vector representing the context in a vector space. Note that the data included in the context data is not limited to the example described above, and the context data may include other data.
- Context is data about the insight that a user seeks, an example being linguistic information extracted from a user query or metadata.
- the context is the words “product A” and “customer” extracted from the user query "about the customer of product A.”
- the context is the words “sales” and “transition” extracted from the user query “about sales transition”.
- the context is, for example, the words “product A” and “customer” extracted from the metadata whose "search history” is "customer of product A”.
- the context is, for example, the words “sales” and “transition” extracted from the metadata whose "search history” is "sales transition”.
- the context is not limited to language information, and may be other information.
- the context may be, for example, location information that indicates the user's location, information that indicates the degree of association between words, or information that indicates the browsing history of the site.
- the insight subject is data generated with reference to at least the evaluation data set.
- the insight subject includes, for example, at least one of data representing the visualization result of the evaluation data and data used to visualize the evaluation data.
- a visualization result obtained by visualizing the evaluation data is, for example, a chart (a pie chart, a bar graph, a line graph, etc.) representing the contents of the evaluation data.
- the insight subject may be, for example, a part of the above-described related data, such as related information included in the related data.
- the insight subject may be part of the evaluation data set.
- the insight subject is not limited to the above example, and may be other data.
- an insight refers to a visualization result that a person recognizes as useful, and data representing such a visualization result.
- an insight is an insight subject that a person finds useful.
- the method by which the acquisition unit 11 acquires the evaluation data set and the context data is not particularly limited.
- the acquisition unit 11 may acquire the evaluation data set and the context data by reading them from an external storage device or an internal storage device, and may acquire the evaluation data set and the context data via the communication IF or the input/output IF. You can get context data.
- the method by which the evaluation unit 12 evaluates multiple insight subjects according to context data is not particularly limited.
- the evaluation unit 12 calculates, for each of a plurality of insight subjects, an evaluation value that is an evaluation result of whether or not the insight desired by the user is provided.
- this evaluation value is also called an insight score. Insight scores are a great help in discovering insight subjects that give users the insights they want even if they are output as is.
- the insight score it is also possible to automatically detect an insight subject with a high insight score, that is, an insight subject that is likely to provide the insight desired by the user.
- the evaluation unit 12 evaluates a plurality of insight subjects using an evaluation model in which related data and context data are input and an evaluation value is output.
- the evaluation model may be a predefined score function, or may be a learned model constructed by machine learning.
- the evaluation unit 12 evaluates a plurality of insight subjects using a score function that outputs a higher evaluation value as the relationship between the related data and the context data is higher, as an example.
- the methods of evaluation performed by the evaluation unit 12 are not limited to these, and other methods may be used.
- the visualization results obtained by visualizing the evaluation data differ depending on the content of the related information used for visualization.
- Each of a plurality of visualization results obtained by visualizing the evaluation data with a plurality of different patterns is hereinafter also referred to as a “visualization candidate”.
- the visual features given to the user by the plurality of visualization candidates of the evaluation data are different for each of the plurality of visualization candidates.
- the evaluation unit 12 evaluates a plurality of insight subjects according to the context data, so that a plurality of visualization candidates are evaluated according to the context data.
- FIG. 2 is a flow diagram showing the flow of the information processing method S1.
- At step S11 at least one processor acquires an evaluation data set and context data. Then, in step S12, at least one processor evaluates a plurality of insight subjects generated by referring to at least the evaluation data set, according to the context data. Thus, the information processing method S1 of FIG. 2 ends.
- each processor may be provided in one information processing apparatus, or may be provided in different information processing apparatuses.
- At least one processor that executes the processes of S11 to S12 may be included in the information processing apparatus 1.
- FIG. 3 is a diagram showing an example of insight subjects and evaluation results.
- insight subjects V1 to V8 are data representing visualization candidates for evaluation data.
- the evaluation result is the result of calculating the insight score by the evaluation unit 12 for each of the insight subjects V1 to V8.
- the insight subject V1 has an insight score of "0.2" and the insight subject V2 has an insight score of "0.1.”
- the insight scores of insight subjects V3 to V8 are respectively “0.8”, “0.6”, “0.3”, “0.5”, “0.9”, “0.7 ”.
- the acquisition unit 11 that acquires the evaluation data set and the context data, and at least for a plurality of insight subjects generated by referring to the evaluation data set, and an evaluation unit 12 that performs evaluation according to the context data. Therefore, according to the information processing apparatus 1 according to the present exemplary embodiment, it is possible to obtain an effect that it becomes possible to evaluate whether the data visualization candidate provides the insight desired by the user.
- a program according to this exemplary embodiment causes a computer to perform a process of obtaining an evaluation data set and context data, and at least context data for a plurality of insight subjects generated with reference to the evaluation data set. and a process of performing evaluation according to. Therefore, according to the program according to the present exemplary embodiment, it is possible to obtain an effect that it is possible to evaluate whether the data visualization candidate provides the insight desired by the user.
- At least one processor acquires the evaluation data set and the context data, and a plurality of A configuration is adopted that includes evaluating an insight subject according to context data. Therefore, according to the information processing method S1 according to the present exemplary embodiment, it is possible to obtain the effect that it is possible to evaluate the visualization candidates as to whether they provide the insight desired by the user.
- FIG. 4 is a block diagram showing the configuration of the information processing device 1A.
- the information processing apparatus 1A includes a control section 10A that controls all the sections of the information processing apparatus 1A, and a storage section 17 that stores various data used by the information processing apparatus 1A.
- the information processing apparatus 1A also receives an input to the information processing apparatus 1A, a communication section 18 for the information processing apparatus 1A to communicate with other apparatuses, a display section 19 for the information processing apparatus 1A to display and output data, and the information processing apparatus 1A.
- An input unit 20 is provided.
- the display unit 19 displays and outputs data will be described below, the information processing apparatus 1A may output data in a form such as print output or voice output.
- the display unit 19 and the input unit 20 may be devices external to the information processing apparatus 1A, which are externally attached to the information processing apparatus 1A.
- the control unit 10A includes an acquisition unit 11, an evaluation unit 12, a first generation unit 13, and a second generation unit 14.
- the storage unit 17 also stores an evaluation data set DS, context data CD, evaluation model parameters EMP, evaluation results ER, and display data DD.
- evaluation data set DS includes evaluation data and related data VD related to the evaluation data.
- Evaluation data is data to be visualized, and examples include data indicating monthly sales records of a store, data indicating the size and area of the store, product codes and product names of products sold at the store. and data indicating the unit price, and/or data indicating the sex, age, place of residence, occupation, etc. of the customer.
- the related data VD is data related to the evaluation data.
- Related data VD includes ⁇ Relevant information V related to evaluation data ⁇ Feature vector d V representing related information V in vector space - Aggregate data s V obtained by aggregating the data included in the evaluation data and corresponding to the related information V, and ⁇ Statistics t V of total data s V includes at least one of
- the related information V is, for example, a set of various information used for visualization of the evaluation data, and includes the following information, for example.
- ⁇ Attribute information of each data included in the evaluation data ⁇ Information on the aggregation method (filter, aggregation function, column name that is the key for aggregation, etc.) (information on the filter applied to the evaluation data, etc.)
- ⁇ Information on chart design x-axis, y-axis, chart type, plot type, etc.
- the related information feature vector dV is a representation of the related information V in a vector space. Any vectorization method may be used, but for example, distributed representation of words may be used.
- Total data s V is data obtained by aggregating numerical values corresponding to related information V from evaluation data. Aggregated data sV is plotted on a chart as a visualization result of related information V.
- the statistic tV of the total data sV is an array of various statistics about the total data sV . Any statistic can be used, but for example, the following can be used as the statistic tV . ⁇ Maximum value, minimum value, median value ⁇ Mean value, standard deviation, variance ⁇ Cardinality ⁇ Percentage of zero values, percentage of missing values ⁇ Kurtosis, skewness ⁇ Entropy ⁇ Gini coefficient
- Context data CD contains - Context C, and ⁇ Feature vector d C representing context in vector space includes at least one of
- Context C is data about the insight that the user seeks.
- the context C is, for example, data expressing the insight sought by the user in natural language, and includes data relating to the quality and quantity of the insight sought by the user.
- Context C may be extracted from user query Q and/or metadata M described below.
- Context C includes, as an example, the words "merchandise A" and "customer.”
- a feature vector d C of context C is a representation of context C in a vector space. Any vectorization method may be used, but as an example, a distributed representation of words may be used.
- a user query Q is a query about an insight that a user seeks and is provided by the user in natural language.
- the user query Q includes, for example, the following information. ⁇ Information about the data to be analyzed (Example: “Product A”, “Sales”) ⁇ Hypotheses about insights ⁇ Characteristics of assumed charts (e.g. aggregation by region, pie chart)
- Metadata M is information from which insight desired by the user can be estimated. Metadata M is, for example, automatically collected by a predetermined system.
- the metadata M includes, for example, the following information. ⁇ User's search history (eg, searching for "product A, customer”) ⁇ User's analysis history (Example: customer analysis of product A was performed in the past) - User's evaluation history (e.g., the chart about the customer of product A was highly evaluated) ⁇ User's action history (eg, stayed at the site or store selling product A for xx minutes)
- the evaluation model parameter EMP is a parameter that defines the evaluation model f.
- the evaluation model f is a model that inputs the related data VD and the context data CD and quantitatively evaluates the insight subject corresponding to the input related data VD. Any model can be used as the evaluation model f as long as it can be used to estimate the evaluation result of the insight subject. For example, a rule-based model to be described later, a model constructed by machine learning, or the like can be used as the evaluation model f.
- the output of the evaluation model f is, for example, a score representing the evaluation result or a label probability. The evaluation model f will be described later.
- the evaluation result ER is data indicating the evaluation result of the insight subject by the evaluation unit 12 .
- the evaluation result ER is, for example, an insight score y ⁇ representing an evaluation result for each of a plurality of insight subjects.
- the insight score ⁇ is a quantitative index of goodness of visualization calculated based on the output value of the evaluation model f.
- the insight score ⁇ may be, for example, an output value of the evaluation model f, or may be a value obtained by applying processing such as normalization and/or weighting to the output value of the evaluation model f.
- a specific example of the method for calculating the insight score y ⁇ will be described later.
- the display data DD is data for presenting the insight subject's evaluation result by the information processing apparatus 1A to the user, that is, data relating to the insight subject's evaluation result as to whether the insight desired by the user is provided.
- the acquisition unit 11 acquires the evaluation data set DS and the context data CD.
- the acquisition unit 11 acquires the evaluation data set DS and the context data CD by reading them from the storage unit 17 .
- the method of obtaining the evaluation data set DS and the context data CD is not particularly limited.
- the acquisition unit 11 may acquire the evaluation data set DS and the context data CD input by the user of the information processing device 1A via the input unit 20 .
- the acquisition unit 11 may acquire the evaluation data set DS and the context data CD from an external device through communication via the communication unit 18 .
- the evaluation unit 12 evaluates at least a plurality of insight subjects generated by referring to the evaluation data set DS, according to the context data CD. As an example, the evaluation unit 12 calculates an insight score y ⁇ for each of a plurality of insight subjects, generates an evaluation result ER indicating the calculation result, and stores the evaluation result ER in the storage unit 17 .
- the first generation unit 13 generates a plurality of insight subjects with reference to the evaluation data set DS.
- the first generation unit 13 also generates display data DD regarding the evaluation result of the evaluation unit 12 .
- the second generator 14 generates at least part of the context data CD and at least part of the related data VD.
- FIG. 5 is a flow diagram showing the flow of the information processing method.
- the related information V is the visualization information used for visualization of the evaluation data
- the visualization information which is an example of the related information V is also called "visualization information V.”
- Step S101 the acquisition unit 11 acquires the input data D and the data for context generation.
- Input data D is an example of evaluation data according to the present specification.
- the input data D only needs to include data to be plotted on the chart, and any format can be used as the input data D format.
- the acquisition unit 11 acquires the input data D via the input unit 20 or the communication unit 18 .
- FIG. 6 is a diagram showing an example of input data D.
- the input data D includes sales data, store data, product data, and customer data.
- Sales data, store data, product data, and customer data are all data sets of multidimensional data including multiple records.
- Sales data is multi-dimensional data including data items of "date”, “merchandise code”, “customer code”, “store code”, and "sales”.
- the store data is multi-dimensional data including data items of "store code”, "store name”, "area”, and “scale”.
- the product data is multi-dimensional data including data items of "product code", “product name”, “classification”, and "unit price”.
- the customer data is multi-dimensional data including data items of "customer code", “age”, “sex”, “place of residence", "occupation”, and "income”.
- the context generation data is data for generating context C, and includes one or both of user query Q and metadata M, for example.
- the context-generating data may include multiple user queries and may include multiple metadata.
- context generation data is not limited to user queries and metadata, and may be other data.
- the context generation data may be data that can be used as the context C as it is.
- the acquisition unit 11 may acquire the context generation data via the input unit 20 or the communication unit 18 , or may acquire the context generation data by reading the context generation data from the storage unit 17 .
- step S102 the second generation unit 14 generates the evaluation data set DS and the context data CD.
- the evaluation data set DS and the context data CD A specific example of generating the evaluation data set DS and generating the context data CD will be described below.
- the second generator 14 first acquires the visualization information V.
- the second generation unit 14 may acquire the visualization information V by reading it from a predetermined storage area of the storage unit 17, or acquire the visualization information V via the input unit 20 or the communication unit 18. good.
- the second generation unit 14 acquires a plurality of pieces of visualization information V.
- the visualization information V includes, for example, attribute information of each data included in the input data D, information on the relationship between each axis of the chart and the item, a filter applied to the input data D, a chart type, an aggregation method, and the like. Contains information.
- the second generation unit 14 uses an arbitrary language model to generate a feature vector dV that expresses the acquired visualization information V in a vector space.
- a feature vector dV is generated for each of a plurality of pieces of visualization information V.
- FIG. the second generation unit 14 generates aggregated data s V obtained by aggregating numerical values corresponding to the visualization information V from the input data D, and a statistic t V that is a set of various statistics for the aggregated data s V. do.
- the second generation unit 14 generates the acquired visualization information V, the related data VD including the generated feature vector d V , the total data s V , and the statistic t V , and the input data acquired by the acquisition unit 11 in step S101. Generate an evaluation data set DS containing D.
- the related data VD may include multiple visualizations V and multiple feature vectors dV , or may include a pair of visualizations V and feature vector dV .
- the second generation unit 14 generates a context C by executing arbitrary natural language processing on the context generation data acquired by the acquisition unit 11 in step S101. Note that the second generation unit 14 may use the context generation data as the context C as it is.
- the second generation unit 14 performs natural language processing on a user query "customer of product A” to generate context C of "product A” and “customer”.
- the second generating unit 14 performs natural language processing on a user query "sales transition” to generate context C "sales” and "transition”.
- the second generation unit 14 performs natural language processing on metadata whose “search history” is “customer of product A” to generate context C of “product A” and “customer”. Generate.
- the second generating unit 14 generates the context C of "sales” and “transition” by performing natural language processing on the metadata whose "search history" is "sales transition".
- the second generation unit 14 uses an arbitrary language model to generate a feature vector dC expressing the generated context C in a vector space, and generates context data CD including the generated feature vector dC and the context C. Generate.
- FIG. 7 is a diagram showing an example of context C and visualization information V.
- FIG. 8 is a diagram showing an example of generation of the feature vector dC and the feature vector dV .
- context C includes the words "merchandise A" and "customer.”
- the visualization information V includes attribute information of each data included in the input data D, information on the relationship between each axis of the chart and the item, filters applied to the input data D, chart type, aggregation method, and other information.
- a feature vector dV is generated from the visualization information V
- a feature vector dC is generated from the context C.
- FIG. 8 is a diagram showing an example of context C and visualization information V.
- FIG. 9 is a diagram showing an example of total data sV and statistics tV generated by the second generation unit 14.
- the aggregated data sV is data obtained by aggregating the data included in the input data D and corresponding to the visualization information V.
- the statistic tV is data representing the statistic of the aggregated data sV .
- Step S103 the 1st production
- the insight subjects are data indicating visualization candidates
- the first generation unit 13 generates a plurality of insight subjects by referring to the evaluation data and the related data VD, for example.
- the first generation unit 13 generates an insight subject representing the visualization result of plotting the aggregated data SV included in the related data VD on a chart of the display mode represented by the visualization information V, for example.
- the first generating unit 13 generates an insight subject for each of the plurality of visualization information V, thereby generating a plurality of insight subjects.
- the visualization information V and the insight subject correspond one-to-one.
- the insight subject is not limited to the data representing the visualization candidate, and for example, the visualization information V may be treated as it is as the insight subject.
- step S104 the evaluation unit 12 evaluates each of the plurality of insight subjects with reference to the context data CD. At this time, the evaluation unit 12 gives a higher evaluation, for example, to an insight subject that is more relevant to the context data CD.
- the evaluation unit 12 evaluates each of a plurality of insight subjects by referring to the related data VD and the context data CD. At this time, since the plurality of insight subjects correspond to the related information V on a one-to-one basis, the evaluation unit 12 evaluates each of the visualization information V. FIG. In other words, the evaluation unit 12 evaluates each of the plurality of insight subjects for each related information V included in the related data VD.
- the evaluation unit 12 uses the related data VD to calculate the score y 0 ⁇ , and uses the score y 0 ⁇ to calculate the insight score ⁇ . At this time, the evaluation unit 12 may use the score y 0 ⁇ as it is as the insight score y ⁇ , or may calculate the insight score y ⁇ by adding processing such as normalization or weighting to the score y 0 ⁇ . good too.
- the method of calculating the score y 0 ⁇ is not limited, but the evaluation unit 12 may use, for example, a score function defined on a rule basis for each type of insight, or learn the feature amount of the chart that provides the insight.
- the score y 0 ⁇ may be calculated using a model that
- the score function is, for example, a function that outputs a higher evaluation value as the relationship between the related data VD and the context data CD is higher.
- the evaluation unit 12 uses a score function defined in advance to output a higher evaluation value as the relationship between the related data VD and the context data CD is higher, and evaluates a plurality of insight subjects. to evaluate.
- the evaluation unit 12 sets the insight score ⁇ for the related data VD having low relevance to the context data CD to zero or a negative value, so that the evaluation result is low.
- the method of calculating the degree of association (similarity) between the context data CD and the related data VD is not limited, the evaluation unit 12 may, for example, calculate the similarity of sets (Jaccard, Dice, Simpson, etc.), the similarity of character strings, (Hamming distance, Levenshtein distance, Jaro-Winkler distance, etc.) and distributed representation (word2vec, fastText, BERT, etc.).
- the evaluation unit 12 may also calculate the insight score y using a score weighted by the degree of similarity between the context data CD and the related data VD. More specifically, for example, the insight score y ⁇ may be the product of the score y0 ⁇ calculated using the related data VD and the similarity sim(CD, Dv ).
- the evaluation unit 12 uses an evaluation model f that is a pre-learned evaluation model, receives the related data VD and the context data CD, and outputs an evaluation value. evaluation.
- the machine learning method of the evaluation model f is not limited, and as an example, a decision tree-based, linear regression, or neural network method may be used, or one or more of these methods may be used. good.
- Decision tree bases include, for example, LightGBM (Light Gradient Boosting Machine) and XGBoost.
- Linear regression includes, for example, support vector regression, Ridge regression, Lasso regression, and ElasticNet.
- Neural networks include, for example, deep learning.
- any teacher data that can be considered to have insight can be used.
- charts created by data analysts in the past may be considered to contain features that give insight, and their visualization information V may be used for learning as positive samples.
- chart visualization information V that is considered to have no insight may be used as a negative sample for learning.
- FIG. 10 is a diagram showing an example of the evaluation model f.
- the input of the evaluation model f includes the feature vector dV , the feature vector dC, the summary data Sv , and the statistic tv .
- the output of the evaluation model f is an evaluation result, for example, a label probability indicating whether the insight desired by the user is provided.
- Example 1 of learning-based evaluation model When a teacher label y regarding an insight of the visualization information V is given, an evaluation model can be learned as a classification model. For example, when y ⁇ ⁇ 0, 1 ⁇ is 1, there is insight, and when it is 0, there is no insight, as a two-class classification task, for example, by the following equation (1) A machine learning model that minimizes the given loss function E( ⁇ ) should be learned.
- Equation (1) N is the number of learning data.
- Example 2 of learning-based evaluation model
- an evaluation model can be learned as a regression model. For example, if y is the score given by the teacher data, a machine learning model that minimizes the loss function E( ⁇ ) given by the following equation (2) may be trained.
- Equation (2) N is the number of learning data.
- the output of the machine learning model that minimizes the above loss function is a score that expresses the goodness of visualization in the same way as the score of the training data, and may be used as the insight score y ⁇ .
- Step S105 In step S105 of FIG. 5, the evaluation unit 12 outputs information related to the insight subject to the display unit 19, and the display unit 19 displays the information related to the insight subject. Specifically, for example, the display unit 19 displays at least one of the plurality of insight subjects together with the evaluation result by the evaluation unit 12 or in a display mode according to the evaluation result by the evaluation unit 12 .
- the display mode according to the evaluation result includes, for example, display order or display size.
- FIG. 11 is a diagram showing an example of displaying an insight subject together with an evaluation result.
- insight subjects V7, V3, V8, .
- the insight score y ⁇ of each insight subject is displayed adjacent to each of the insight subjects V7, V3, V8, .
- a plurality of insight subjects V7, V3, V8, . . . are displayed in descending order of insight score ⁇ .
- a plurality of insight subjects are displayed in descending order of insight score ⁇ , so that the user can easily grasp which insight subject has a high evaluation.
- FIG. 12 is a diagram showing an example of displaying the visualization information V together with the evaluation results.
- the display unit 19 displays each related information V included in the related data in association with the evaluation by the evaluation unit 12 .
- the display unit 19 displays the visualized information V11 to V18 and the insight score y ⁇ corresponding to each of the visualized information V11 to V18 in association with each other.
- FIG. 13 is a diagram showing an example of displaying insight subjects together with evaluation results.
- the display unit 19 displays a chart (bar graph) that is a visualization result of the input data D, and also displays an insight score y ⁇ corresponding to the displayed chart together with the chart.
- the evaluation unit 12 gives a higher evaluation to an insight subject having a higher relationship with the context data. . Therefore, according to the information processing device 1A according to the present exemplary embodiment, in addition to the effects of the information processing device 1 according to the first exemplary embodiment, the degree of relevance between the context data and the insight subject can be grasped. It is possible to obtain an effect that an easy evaluation can be performed.
- FIG. 14 is a block diagram showing the configuration of an information processing device 1B according to this exemplary embodiment.
- the information processing apparatus 1B includes a control section 10B instead of the control section 10A of the information processing apparatus 1A according to the second exemplary embodiment.
- the control unit 10 ⁇ /b>B includes a learning unit 15 in addition to the acquisition unit 11 , the evaluation unit 12 , the first generation unit 13 and the second generation unit 14 .
- the input unit 20 receives user feedback on the evaluation result of the evaluation unit 12 . Also, the learning unit 15 re-learns the evaluation model f with reference to feedback from the user.
- the learning unit 15 stores the user's operation history regarding the information (insight score y ⁇ , visualization information V, chart, etc.) related to the insight subject displayed by the display unit 19 as feedback from the user, such as the storage unit 17. to record.
- the user's operation history includes, for example, the display time of the information related to the insight subject, the pressing of the evaluation button for the information related to the insight subject, and the like.
- the learning unit 15 re-learns the evaluation model f reflecting the feedback from the user. For example, the learning unit 15 performs re-learning of the evaluation model f by using high-evaluation visualization information V as a positive sample and low-evaluation visualization information as a negative sample.
- the input unit 20 receives feedback from the user regarding the evaluation result
- the learning unit 15 refers to the feedback from the user and re-learns the evaluation model. Adopted. Therefore, according to the information processing device 1B according to the present exemplary embodiment, in addition to the effect of the information processing device 1 according to the first exemplary embodiment, the effect that the evaluation accuracy of the evaluation model can be further improved. is obtained.
- the processing performed by one information processing apparatus 1 may be shared by a plurality of information processing apparatuses. In other words, part of the processing performed by the information processing device 1 may be performed by at least one other information processing device. In other words, when at least one processor performs each of the processes described above, the at least one processor may be provided in one information processing apparatus 1, or may be provided in different information processing apparatuses. It may be something that is This also applies to the information processing device 1A in the second exemplary embodiment and the information processing device 1B in the third exemplary embodiment described above.
- Some or all of the functions of the information processing apparatuses 1, 1A, and 1B may be implemented by hardware such as integrated circuits (IC chips), or may be implemented by software.
- the information processing apparatuses 1, 1A, and 1B are implemented by computers that execute program instructions, which are software that implements each function, for example.
- An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
- Computer C comprises at least one processor C1 and at least one memory C2.
- a program P for operating the computer C as the information processing apparatuses 1, 1A, and 1B is recorded in the memory C2.
- the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the information processing apparatuses 1, 1A, and 1B.
- processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
- memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
- the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
- Computer C may further include a communication interface for sending and receiving data to and from other devices.
- Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
- the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
- a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
- the computer C can acquire the program P via such a recording medium M.
- the program P can be transmitted via a transmission medium.
- a transmission medium for example, a communication network or broadcast waves can be used.
- Computer C can also obtain program P via such a transmission medium.
- (Appendix 1) Acquisition means for acquiring the evaluation data set and the context data; evaluation means for evaluating a plurality of insight subjects generated by referring to at least the evaluation data set, according to the context data; Information processing device.
- the evaluation means are The information processing device according to appendix 1, wherein a higher evaluation is given to an insight subject having a higher relevance to the context data.
- Appendix 3 Further comprising a first generation means for generating the plurality of insight subjects by referring to the evaluation data set; 3.
- the evaluation data set includes evaluation data and related data related to the evaluation data
- the first generation means generates the plurality of insight subjects by referring to the evaluation data and the related data, 3.
- the information processing apparatus according to appendix 3, wherein the evaluation means performs evaluation with reference to the related data and the context data for each of the plurality of insight subjects.
- an evaluation is made as to whether the insight desired by the user is provided. It can be performed.
- the insight subject can be evaluated for each related information.
- appendix 6 The information processing apparatus according to appendix 4 or 5, further comprising second generation means for generating at least part of the context data and at least part of the related data.
- the context data includes: context, and 7.
- the information processing device according to any one of appendices 4 to 6, wherein at least one of the context feature vectors is included.
- the relevant data includes: relevant information related to the evaluation data; a feature vector of the relevant information; Aggregated data obtained by aggregating the data corresponding to the related information, which is included in the evaluation data; and 8.
- the information processing device according to any one of appendices 4 to 7, wherein at least one of the statistics of the aggregated data is included.
- the evaluation means are The plurality of insight subjects are evaluated using a score function that is a predefined score function that outputs a higher evaluation value as the relationship between the related data and the context data is higher, 9.
- the information processing apparatus according to any one of Appendices 4 to 8.
- each of a plurality of insight subjects generated by referring to the evaluation data set and related data can be evaluated using the score function.
- the evaluation means are Supplementary notes 4 to 8, wherein the plurality of insight subjects are evaluated using an evaluation model that is pre-learned and receives the relevant data and the context data and outputs an evaluation value.
- the information processing apparatus according to any one of .
- each of a plurality of insight subjects generated by referring to the evaluation data set and related data can be evaluated using the evaluation model.
- Appendix 11 further comprising receiving means for receiving feedback from the user on the evaluation result of the evaluation means; 11.
- Appendix 12 12. The information processing apparatus according to any one of appendices 4 to 11, further comprising display means for displaying information related to the insight subject.
- the user can grasp the evaluation of the insight subject from the information displayed by the display means.
- the display means is 13.
- the insight subject displayed by the display means makes it easier for the user to grasp the evaluation of the insight subject.
- the display means is 13. The information processing apparatus according to appendix 12, wherein each related information included in the related data and the evaluation by the evaluation means are displayed in association with each other.
- the user can grasp the evaluation of each of the plurality of insight subjects from the information displayed by the display means.
- Appendix 15 at least one processor obtaining an evaluation dataset and contextual data; and evaluating at least a plurality of insight subjects generated by referring to the evaluation data set according to the context data; Information processing method including.
- Appendix 16 to the computer, a process of acquiring an evaluation data set and context data; a process of evaluating at least a plurality of insight subjects generated by referring to the evaluation data set, according to the context data; program to run.
- the processor performs an acquisition process for acquiring an evaluation data set and context data;
- An information processing device that executes an evaluation process for performing an evaluation according to the
- the information processing apparatus may further include a memory, and the memory may store a program for causing the processor to execute the acquisition process and the evaluation process. Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、データの可視化候補がユーザの求めるインサイトを与えるかについて評価する装置である。図示のように、情報処理装置1は、取得部11及び評価部12を備える。取得部11は、評価用データセット及びコンテキストデータを取得する。評価部12は、少なくとも評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、コンテキストデータに応じた評価を行う。
評価用データセットは、データの可視化候補を情報処理装置1が評価するために用いるデータである。評価用データセットは、可視化の対象のデータである評価用データ、及び、当該評価用データに関連する関連データ、の少なくともいずれか一方を含む。ただし、評価用データセットに含まれるデータは上述した例に限られず、評価用データセットは他の情報を含んでいてもよい。
評価用データは、可視化の対象のデータであり、一例として、複数のレコードを含む多次元データである。評価用データは一例として、ある店舗の月間の売上記録を示すデータ、店舗の規模及びエリアを示すデータ、店舗で販売されている商品の商品コード、商品名及び単価を示すデータ、及び/又は、顧客の性別、年齢、居住地、職業等を示すデータを含む。ただし、評価用データはこれに限られず、他のデータであってもよい。評価用データは、一例として、評価用データの内容を表すチャート(円グラフ、棒グラフ、線グラフ、等)として可視化される。
関連データは、評価用データに関連するデータである。関連データは、一例として、評価用データの集計結果を示す集計データ、集計データの統計量、及び/又は、評価用データの可視化に利用される各種情報の集合である関連情報を含む。関連情報は、一例として、評価用データの可視化に利用されるデータの名前、データ型、集計方法の種別、及びチャートデザインの種別、の一部又は全部を含む。なお、関連データに含まれるデータは上述した例に限られず、関連データは他のデータを含んでいてもよい。
コンテキストデータは、ユーザがどのようなインサイトを求めるかを表すデータである。コンテキストデータは、一例として、ユーザが求めるインサイトに関するデータであるコンテキスト、及び、コンテキストをベクトル空間で表した特徴ベクトル、の少なくともいずれか一方を含む。なお、コンテキストデータに含まれるデータは上述した例に限られず、コンテキストデータは他のデータを含んでいてもよい。
コンテキストは、ユーザが求めるインサイトに関するデータであり、一例として、ユーザクエリ又はメタデータから抽出される言語情報である。具体的には例えば、コンテキストは、「商品Aの顧客について」というユーザクエリから抽出される「商品A」及び「顧客」という単語である。また、他の例として、コンテキストは例えば、「売上推移について」というユーザクエリから抽出される「売上」及び「推移」という単語である。また、コンテキストは例えば、「検索履歴」が「商品Aの顧客」であるメタデータから抽出される「商品A」及び「顧客」という単語である。また、コンテキストは例えば、「検索履歴」が「売上推移」であるメタデータから抽出される「売上」及び「推移」という単語である。ただし、コンテキストは言語情報に限られず、他の情報であってもよい。コンテキストは例えば、ユーザの位置を示す位置情報、単語間の関連度を表す情報、又はサイトの閲覧履歴を示す情報であってもよい。
インサイトサブジェクトは、少なくとも評価用データセットを参照して生成されるデータである。インサイトサブジェクトは、一例として、評価用データの可視化結果を表すデータ、及び、評価用データを可視化するために用いられるデータ、の少なくともいずれか一方を含む。評価用データを可視化した可視化結果は、例えば評価用データの内容を表すチャート(円グラフ、棒グラフ、線グラフ、等)である。また、インサイトサブジェクトは、一例として、上述した関連データの一部、例えば関連データに含まれる関連情報であってもよい。換言すると、インサイトサブジェクトは、評価用データセットの一部であってもよい。ただし、インサイトサブジェクトは上述した例に限られず、他のデータであってもよい。
また、本明細書において、インサイトとは、人が有益と認識する可視化結果、及び、そのような可視化結果を表すデータ、のことをいう。換言すれば、インサイトとは、人が有益と認識するインサイトサブジェクトのことをいう。
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
図4は、情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、情報処理装置1Aの各部を統括して制御する制御部10Aと、情報処理装置1Aが使用する各種データを記憶する記憶部17とを備える。また、情報処理装置1Aは、情報処理装置1Aが他の装置と通信するための通信部18、情報処理装置1Aがデータを表示出力するための表示部19、及び情報処理装置1Aに対する入力を受け付ける入力部20を備える。以下では、表示部19がデータを表示出力する例を説明するが、情報処理装置1Aは、例えば印字出力や音声出力等の態様でデータを出力してもよい。また、表示部19と入力部20とは、情報処理装置1Aに外付けされた、情報処理装置1Aの外部の機器であってもよい。
評価用データセットDSには、評価用データと、当該評価用データに関連する関連データVDとが含まれている。評価用データは、可視化の対象であるデータであり、一例として、ある店舗の月間の売上記録を示すデータ、店舗の規模及びエリアを示すデータ、店舗で販売されている商品の商品コード、商品名及び単価を示すデータ、及び/又は、顧客の性別、年齢、居住地、職業等を示すデータである。
関連データVDは、評価用データに関連するデータである。関連データVDには、
・評価用データに関連する関連情報V
・関連情報Vをベクトル空間で表した特徴ベクトルdV
・評価用データに含まれるデータであって関連情報Vに対応するデータを集計して得られる集計データsV、及び、
・集計データsVの統計量tV
の少なくともいずれかが含まれる。
関連情報Vは、一例として、評価用データの可視化に利用される各種情報の集合であり、例えば以下の情報を含む。
・評価用データに含まれる各データの属性情報
・集計方法(フィルタ、集計関数、集計のキーとなる列名、等)に関する情報(評価用データに対して適用するフィルタに関する情報、等)
・チャートデザイン(x軸、y軸、チャートタイプ、プロットタイプ、等)に関する情報(チャートの各軸と項目との関係に関する情報、等)
関連情報の特徴ベクトルdVは、関連情報Vをベクトル空間で表現したものである。ベクトル化の方法は任意であるが、例えば単語の分散表現などを用いてもよい。
集計データsVは、評価用データから関連情報Vに対応する数値を集計したデータである。集計データsVは、関連情報Vの可視化結果としてチャートにプロットされる。
集計データsVの統計量tVは、集計データsVについての各種統計量を並べたものである。利用する統計量は任意であるが、例えば以下のものが統計量tVとして利用可能である。
・最大値、最小値、中央値
・平均値、標準偏差、分散
・カーディナリティ
・ゼロ値の割合、欠損値の割合
・尖度、歪度
・エントロピー
・ジニ係数
コンテキストデータCDには、
・コンテキストC、及び、
・コンテキストをベクトル空間で表した特徴ベクトルdC
の少なくとも何れかが含まれる。
コンテキストCは、ユーザが求めるインサイトに関するデータである。コンテキストCは、一例として、ユーザが求めるインサイトを自然言語で表すデータであり、ユーザが求めるインサイトの質及び量に関するデータを含む。コンテキストCは、後述のユーザクエリQ及び/又はメタデータMから抽出されてもよい。コンテキストCは一例として、「商品A」及び「顧客」という単語を含む。
コンテキストCの特徴ベクトルdCは、コンテキストCをベクトル空間で表したものである。ベクトル化の方法は任意であるが、一例として、単語の分散表現などを用いてもよい。
ユーザクエリQは、ユーザが求めるインサイトに関するクエリであり、ユーザによって自然言語で与えられる。ユーザクエリQは、例えば以下の情報を含む。
・分析対象とするデータについての情報(例:「商品A」、「売上」)
・インサイトに対する仮説(例:「~が増加している」、「~が突出している」)
・想定するチャートの特徴(例:地域別集計、円グラフ)
メタデータMは、ユーザの求めるインサイトが推定できる情報である。メタデータMは、一例として、所定のシステムにより自動的に収集される。メタデータMは、例えば以下の情報を含む。
・ユーザの検索履歴(例:「商品A、顧客」で検索している)
・ユーザの分析履歴(例:商品Aの顧客分析を過去に実施)
・ユーザの評価履歴(例:商品Aの顧客についてのチャート等を高く評価していた)
・ユーザの行動履歴(例:商品Aのサイト又は販売店舗をxx分滞在していた)
評価モデルパラメータEMPは、評価モデルfを規定するパラメータである。評価モデルfは、関連データVD及びコンテキストデータCDを入力とし、入力された関連データVDに対応するインサイトサブジェクトを定量的に評価するモデルである。評価モデルfとしては、インサイトサブジェクトの評価結果の推定に利用できるものであれば任意のモデルが利用可能である。例えば、後述するようなルールベースのモデル、又は、機械学習により構築されたモデル等が評価モデルfとして利用可能である。評価モデルfの出力は、一例として、評価結果を表すスコア、又は、ラベル確率である。評価モデルfについては後述する。
評価結果ERは、評価部12によるインサイトサブジェクトの評価結果を示すデータである。評価結果ERは、一例として、複数のインサイトサブジェクトのそれぞれについての評価結果を表すインサイトスコアy^である。
インサイトスコアy^は、評価モデルfの出力値に基づいて計算される可視化のよさの定量的指標である。インサイトスコアy^は例えば、評価モデルfの出力値であってもよく、また、評価モデルfの出力値に正規化及び/又は重み付け等の処理を加えた値であってもよい。インサイトスコアy^の算出方法の具体例については後述する。
表示用データDDは、情報処理装置1Aによるインサイトサブジェクトの評価結果をユーザに提示するためのデータ、すなわちユーザが求めるインサイトを与えるかについてのインサイトサブジェクトの評価結果に関するデータである。
取得部11は、評価用データセットDS及びコンテキストデータCDを取得する。取得部11は、一例として、評価用データセットDS及びコンテキストデータCDを記憶部17から読み出すことにより取得する。ただし、評価用データセットDS及びコンテキストデータCDの取得方法は特に限定されない。例えば、取得部11は、情報処理装置1Aのユーザが入力部20を介して入力した評価用データセットDS及びコンテキストデータCDを取得してもよい。また、例えば、取得部11は、通信部18を介した通信により、外部の装置から評価用データセットDS及びコンテキストデータCDを取得してもよい。
評価部12は、少なくとも評価用データセットDSを参照して生成された複数のインサイトサブジェクトに対して、コンテキストデータCDに応じた評価を行う。評価部12は、一例として、複数のインサイトサブジェクトのそれぞれについてインサイトスコアy^を算出し、その算出結果を示す評価結果ERを生成して記憶部17に記憶させる。
第1の生成部13は、評価用データセットDSを参照して複数のインサイトサブジェクトを生成する。また、第1の生成部13は、評価部12の評価結果に関する表示用データDDを生成する。第2の生成部14は、コンテキストデータCDの少なくとも一部と関連データVDの少なくとも一部とを生成する。
本例示的実施形態に係る情報処理方法の流れについて、図面を参照して説明する。図5は、情報処理方法の流れを示すフロー図である。以下では、関連情報Vが評価用データの可視化に利用される可視化情報である場合について説明する。以下では、関連情報Vの一例である可視化情報を「可視化情報V」ともいう。
ステップS101では、取得部11が、入力データD及びコンテキスト生成用データを取得する。入力データDは、本明細書に係る評価用データの一例である。入力データDは、チャートにプロットされるデータを含んでいればよく、入力データDのフォーマットとしては任意のフォーマットが利用可能である。取得部11は一例として、入力部20又は通信部18を介して入力データDを取得する。
コンテキスト生成用データは、コンテキストCを生成するためのデータであり、一例として、ユーザクエリQ及びメタデータMの一方又は両方を含む。コンテキスト生成用データは、複数のユーザクエリを含んでいてもよく、また、複数のメタデータを含んでいてもよい。ただし、コンテキスト生成用データはユーザクエリ及びメタデータに限られず、他のデータであってもよい。また、コンテキスト生成用データは、そのままでコンテキストCとして利用可能なデータであってもよい。取得部11は、一例として、入力部20又は通信部18を介してコンテキスト生成用データを取得してもよく、また、記憶部17からコンテキスト生成用データを読み出すことにより取得してもよい。
ステップS102では、第2の生成部14が評価用データセットDS及びコンテキストデータCDを生成する。評価用データセットDSの生成及びコンテキストデータCDの生成の具体例について以下に説明する。
第2の生成部14は、まず、可視化情報Vを取得する。第2の生成部14は、記憶部17の所定の記憶領域から可視化情報Vを読み出すことにより取得してもよく、また、入力部20又は通信部18を介して可視化情報Vを取得してもよい。このとき、第2の生成部14は、複数の可視化情報Vを取得する。可視化情報Vは、一例として、入力データDに含まれる各データの属性情報、チャートの各軸と項目との関係に関する情報、入力データDに対して適用するフィルタ、チャートタイプ、集計方法、等の情報を含む。
また、第2の生成部14は、ステップS101で取得部11が取得したコンテキスト生成用データに対し任意の自然言語処理を実行してコンテキストCを生成する。なお、第2の生成部14は、コンテキスト生成用データをそのままコンテキストCとして用いてもよい。
図5のステップS103では、第1の生成部13は、評価用データセットDSを参照して複数のインサイトサブジェクトを生成する。インサイトサブジェクトが可視化候補を示すデータである場合、第1の生成部13は、一例として、評価用データと関連データVDとを参照して複数のインサイトサブジェクトを生成する。この場合、第1の生成部13は例えば、関連データVDに含まれる集計データSVを、可視化情報Vが表す表示態様のチャートにプロットした可視化結果を表すインサイトサブジェクトを生成する。このとき、第1の生成部13が、複数の可視化情報Vのそれぞれについてインサイトサブジェクトを生成することにより、複数のインサイトサブジェクトが生成される。また、1つの可視化情報Vについて1つのインサイトサブジェクトが生成されるため、可視化情報Vとインサイトサブジェクトとは1対1で対応する。なお、インサイトサブジェクトは可視化候補を表すデータに限られず、例えば、可視化情報Vがそのままインサイトサブジェクトとして扱われてもよい。
ステップS104では、評価部12は、複数のインサイトサブジェクトの各々に対して、コンテキストデータCDを参照した評価を行う。このとき、評価部12は例えば、コンテキストデータCDとの関連性がより高いインサイトサブジェクトに対して、より高い評価を与える。
ルールベースの場合、評価部12は関連データVDを用いてスコアy0^を計算し、スコアy0^を用いてインサイトスコアy^を計算する。このとき、評価部12は、スコアy0^をそのままインサイトスコアy^として用いてもよいし、スコアy0^に正規化又は重み付けなどの処理を加えてインサイトスコアy^を算出してもよい。
評価部12は例えば、コンテキストデータCDとの関連性が低い関連データVDについてのインサイトスコアy^をゼロ、又はマイナス値にするなどして、評価結果が低くなるようにする。コンテキストデータCDと関連データVDとの関連性の程度(類似度)の計算方法は限定されないが、評価部12は例えば、集合の類似度(Jaccard、Dice、Simpson、等)、文字列の類似度(ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、等)、分散表現(word2vec、fastText、BERT、等)の類似度を用いる。
また、評価部12は、コンテキストデータCDと関連データVDの類似度によって重み付けされたスコアを用いて、インサイトスコアy^を算出してもよい。より具体的には、例えば、関連データVDを用いて計算されたスコアy0^と、類似度sim(CD,DV)の積をインサイトスコアy^としてもよい。
学習ベースの場合、評価部12は、予め学習された評価モデルであって、関連データVDとコンテキストデータCDとが入力され、評価値を出力する評価モデルfを用いて、複数のインサイトサブジェクトに対して評価を行う。評価モデルfの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの1以上の手法が用いられてもよい。決定木ベースとしては、例えば、LightGBM(Light Gradient Boosting Machine)、及びXGBoostが挙げられる。線形回帰としては、例えば、サポートベクター回帰、Ridge回帰、Lasso回帰、及びElasticNetが挙げられる。ニューラルネットワークとしては、例えばディープラーニングが挙げられる。
可視化情報Vのインサイトに関する教師ラベルyが与えられる場合には、分類モデルとして評価モデルを学習させることができる。例えば、y∈{0,1}が1の場合はインサイトあり、0の場合はインサイトなし、を示すラベルとして与えられているとき、2クラス分類タスクとして、例えば以下の式(1)により与えられる損失関数E(θ)を最小化する機械学習モデルを学習させればよい。式(1)において、Nは学習データの数である。
可視化情報Vごとの可視化のよさを表すスコアやランキングが教師データとして与えられる場合、回帰モデルとして評価モデルを学習させることができる。例えば、yを教師データによって与えられたスコアであるとした場合、例えば以下の式(2)により与えられる損失関数E(θ)を最小化する機械学習モデルを学習させればよい。式(2)において、Nは学習データの数である。
図5のステップS105では、評価部12は、インサイトサブジェクトに関連する情報を表示部19に出力し、表示部19は、インサイトサブジェクトに関連する情報を表示する。具体的には、例えば、表示部19は、評価部12による評価結果と共に、又は評価部12による評価結果に応じた表示態様にて、複数のインサイトサブジェクトの少なくとも何れかを表示する。評価結果に応じた表示態様とは、例えば、表示順、又は、表示の大きさを含む。
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
上述の例示的実施形態1において、1つの情報処理装置1が行っていた処理は、複数の情報処理装置に分担させてもよい。言い換えれば、情報処理装置1が行う処理の一部を、少なくとも1つの他の情報処理装置に実行させてもよい。さらに言い換えれば、上述の各処理を少なくとも1つのプロセッサに行わせる場合、その少なくとも1つのプロセッサは、1つの情報処理装置1が備えているものであってもよいし、それぞれ異なる情報処理装置が備えているものであってもよい。これは、上述の例示的実施形態2における情報処理装置1A、および例示的実施形態3における情報処理装置1Bについても同様である。
情報処理装置1、1A、1Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
評価用データセット及びコンテキストデータを取得する取得手段と、
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う評価手段と、
を備える情報処理装置。
前記評価手段は、
前記コンテキストデータとの関連性がより高いインサイトサブジェクトに対して、より高い評価を与える、付記1に記載の情報処理装置。
前記評価用データセットを参照して前記複数のインサイトサブジェクトを生成する第1の生成手段を更に備え、
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記コンテキストデータを参照した評価を行う、付記1または2に記載の情報処理装置。
前記評価用データセットには、評価用データと、当該評価用データに関連する関連データとが含まれており、
前記第1の生成手段は、前記評価用データと前記関連データとを参照して前記複数のインサイトサブジェクトを生成し、
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データと前記コンテキストデータとを参照した評価を行う、付記3に記載の情報処理装置。
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データに含まれる関連情報毎に評価を行う、付記4に記載の情報処理装置。
前記コンテキストデータの少なくとも一部と前記関連データの少なくとも一部とを生成する第2の生成手段を更に備えている、付記4又は5に記載の情報処理装置。
前記コンテキストデータには、
コンテキスト、及び、
コンテキストの特徴ベクトル
の少なくとも何れかが含まれる、付記4から6の何れか1つに記載の情報処理装置。
前記関連データには、
前記評価用データに関連する関連情報、
前記関連情報の特徴ベクトル、
前記評価用データに含まれるデータであって前記関連情報に対応するデータを集計して得られる集計データ、及び、
前記集計データの統計量
の少なくとも何れかが含まれる、付記4から7の何れか1つに記載の情報処理装置。
前記評価手段は、
予め規定されたスコア関数であって、前記関連データと前記コンテキストデータとの関連性が高い程、高い評価値を出力するスコア関数を用いて、前記複数のインサイトサブジェクトに対して評価を行う、付記4から8の何れか1つに記載の情報処理装置。
前記評価手段は、
予め学習された評価モデルであって、前記関連データと前記コンテキストデータとが入力され、評価値を出力する評価モデルを用いて、前記複数のインサイトサブジェクトに対して評価を行う、付記4から8の何れか1つに記載の情報処理装置。
前記評価手段の評価結果に対するユーザからのフィードバックを受け付ける受付手段を更に備え、
前記評価手段は、前記ユーザからのフィードバックを参照して、前記評価モデルを再学習する、付記10に記載の情報処理装置。
前記インサイトサブジェクトに関連する情報を表示する表示手段を更に備えている、付記4から11の何れか1つに記載の情報処理装置。
前記表示手段は、
前記評価手段による評価結果と共に、又は前記評価手段による評価結果に応じた表示態様にて、前記複数のインサイトサブジェクトの少なくとも何れかを表示する、付記12に記載の情報処理装置。
前記表示手段は、
前記関連データに含まれる各関連情報と、前記評価手段による評価とを対応付けて表示する、付記12に記載の情報処理装置。
少なくとも1つのプロセッサが、
評価用データセット、及びコンテキストデータを取得すること、及び、
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行うこと、
を含む情報処理方法。
コンピュータに、
評価用データセット、及びコンテキストデータを取得する処理と、
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う処理と、
を実行させるプログラム。
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
10A、10B 制御部
11 取得部(取得手段)
12 評価部(評価手段)
13 第1の生成部(第1の生成手段)
14 第2の生成部(第2の生成手段)
15 学習部(評価手段)
17 記憶部
18 通信部
19 表示部
20 入力部(受付手段)
Claims (16)
- 評価用データセット及びコンテキストデータを取得する取得手段と、
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う評価手段と
を備える情報処理装置。 - 前記評価手段は、
前記コンテキストデータとの関連性がより高いインサイトサブジェクトに対して、より高い評価を与える、請求項1に記載の情報処理装置。 - 前記評価用データセットを参照して前記複数のインサイトサブジェクトを生成する第1の生成手段を更に備え、
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記コンテキストデータを参照した評価を行う、請求項1または2に記載の情報処理装置。 - 前記評価用データセットには、評価用データと、当該評価用データに関連する関連データとが含まれており、
前記第1の生成手段は、前記評価用データと前記関連データとを参照して前記複数のインサイトサブジェクトを生成し、
前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データと前記コンテキストデータとを参照した評価を行う、請求項3に記載の情報処理装置。 - 前記評価手段は、前記複数のインサイトサブジェクトの各々に対して、前記関連データに含まれる関連情報毎に評価を行う、請求項4に記載の情報処理装置。
- 前記コンテキストデータの少なくとも一部と前記関連データの少なくとも一部とを生成する第2の生成手段を更に備えている、請求項4又は5に記載の情報処理装置。
- 前記コンテキストデータには、
コンテキスト、及び、
コンテキストの特徴ベクトル
の少なくとも何れかが含まれる、請求項4から6の何れか1項に記載の情報処理装置。 - 前記関連データには、
前記評価用データに関連する関連情報、
前記関連情報の特徴ベクトル、
前記評価用データに含まれるデータであって前記関連情報に対応するデータを集計して得られる集計データ、及び
前記集計データの統計量
の少なくとも何れかが含まれる、請求項4から7の何れか1項に記載の情報処理装置。 - 前記評価手段は、
予め規定されたスコア関数であって、前記関連データと前記コンテキストデータとの関連性が高い程、高い評価値を出力するスコア関数を用いて、前記複数のインサイトサブジェクトに対して評価を行う、請求項4から8の何れか1項に記載の情報処理装置。 - 前記評価手段は、
予め学習された評価モデルであって、前記関連データと前記コンテキストデータとが入力され、評価値を出力する評価モデルを用いて、前記複数のインサイトサブジェクトに対して評価を行う、請求項4から8の何れか1項に記載の情報処理装置。 - 前記評価手段の評価結果に対するユーザからのフィードバックを受け付ける受付手段を更に備え、
前記評価手段は、前記ユーザからのフィードバックを参照して、前記評価モデルを再学習する、請求項10に記載の情報処理装置。 - 前記インサイトサブジェクトに関連する情報を表示する表示手段を更に備えている、請求項4から11の何れか1項に記載の情報処理装置。
- 前記表示手段は、
前記評価手段による評価結果と共に、又は前記評価手段による評価結果に応じた表示態様にて、前記複数のインサイトサブジェクトの少なくとも何れかを表示する、請求項12に記載の情報処理装置。 - 前記表示手段は、
前記関連データに含まれる各関連情報と、前記評価手段による評価とを対応付けて表示する、請求項12に記載の情報処理装置。 - 少なくとも1つのプロセッサが、
評価用データセット、及びコンテキストデータを取得すること、及び
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行うこと
を含む情報処理方法。 - コンピュータに、
評価用データセット、及びコンテキストデータを取得する処理と、
少なくとも前記評価用データセットを参照して生成された複数のインサイトサブジェクトに対して、前記コンテキストデータに応じた評価を行う処理と
を実行させるプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US18/686,514 US20240354307A1 (en) | 2021-09-07 | 2021-09-07 | Information processing apparatus, information processing method, and storage medium |
| PCT/JP2021/032766 WO2023037398A1 (ja) | 2021-09-07 | 2021-09-07 | 情報処理装置、情報処理方法及びプログラム |
| JP2023546584A JP7740343B2 (ja) | 2021-09-07 | 2021-09-07 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/032766 WO2023037398A1 (ja) | 2021-09-07 | 2021-09-07 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023037398A1 true WO2023037398A1 (ja) | 2023-03-16 |
Family
ID=85507260
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2021/032766 Ceased WO2023037398A1 (ja) | 2021-09-07 | 2021-09-07 | 情報処理装置、情報処理方法及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240354307A1 (ja) |
| JP (1) | JP7740343B2 (ja) |
| WO (1) | WO2023037398A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220123848A1 (en) * | 2019-01-21 | 2022-04-21 | Nec Corporation | Wireless communication quality visualization system, wireless communication quality visualization device, and measurement apparatus |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2015194115A1 (ja) * | 2014-06-16 | 2015-12-23 | パナソニックIpマネジメント株式会社 | 接客評価装置、接客評価システム及び接客評価方法 |
| JP2016153981A (ja) * | 2015-02-20 | 2016-08-25 | 三菱重工業株式会社 | 解析支援装置、解析支援方法、解析支援プログラム |
| JP2016224873A (ja) * | 2015-06-03 | 2016-12-28 | 株式会社日立製作所 | 営業支援サーバ、営業支援端末及び営業支援システム |
| US20180095945A1 (en) * | 2016-09-30 | 2018-04-05 | Wipro Limited | Methods and systems for creating new presentations using existing presentations |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004322862A (ja) * | 2003-04-24 | 2004-11-18 | Sekiya Motors:Kk | 車両検査診断装置 |
-
2021
- 2021-09-07 WO PCT/JP2021/032766 patent/WO2023037398A1/ja not_active Ceased
- 2021-09-07 US US18/686,514 patent/US20240354307A1/en not_active Abandoned
- 2021-09-07 JP JP2023546584A patent/JP7740343B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2015194115A1 (ja) * | 2014-06-16 | 2015-12-23 | パナソニックIpマネジメント株式会社 | 接客評価装置、接客評価システム及び接客評価方法 |
| JP2016153981A (ja) * | 2015-02-20 | 2016-08-25 | 三菱重工業株式会社 | 解析支援装置、解析支援方法、解析支援プログラム |
| JP2016224873A (ja) * | 2015-06-03 | 2016-12-28 | 株式会社日立製作所 | 営業支援サーバ、営業支援端末及び営業支援システム |
| US20180095945A1 (en) * | 2016-09-30 | 2018-04-05 | Wipro Limited | Methods and systems for creating new presentations using existing presentations |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220123848A1 (en) * | 2019-01-21 | 2022-04-21 | Nec Corporation | Wireless communication quality visualization system, wireless communication quality visualization device, and measurement apparatus |
| US12155422B2 (en) * | 2019-01-21 | 2024-11-26 | Nec Corporation | Wireless communication quality visualization system, wireless communication quality visualization device, and measurement apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7740343B2 (ja) | 2025-09-17 |
| US20240354307A1 (en) | 2024-10-24 |
| JPWO2023037398A1 (ja) | 2023-03-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ramos-Carreño et al. | scikit-fda: a Python package for functional data analysis | |
| CN105930934A (zh) | 展示预测模型的方法、装置及调整预测模型的方法、装置 | |
| US20210056127A1 (en) | Method for multi-modal retrieval and clustering using deep cca and active pairwise queries | |
| US10255283B1 (en) | Document content analysis based on topic modeling | |
| JP7619470B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
| JPWO2023037399A5 (ja) | ||
| JP6567484B2 (ja) | 推計モデル構築システム、推計モデル構築方法及びプログラム | |
| US20220147758A1 (en) | Computer-readable recording medium storing inference program and method of inferring | |
| Pfisterer et al. | Benchmarking time series classification--Functional data vs machine learning approaches | |
| Saravanan et al. | Prediction of insufficient accuracy for human activity recognition using convolutional neural network in compared with support vector machine | |
| JP7779333B2 (ja) | 推定装置、推定方法、および推定プログラム | |
| JP2023055916A (ja) | 情報処理装置、情報処理方法およびプログラム | |
| JP7740343B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| JPWO2023037398A5 (ja) | ||
| CN119811656A (zh) | 多维医疗大数据融合与疾病预测识别引擎的构建和应用 | |
| EP4453811A1 (en) | Intelligent machine-learning model catalog | |
| Sun et al. | Fine clustering analysis of internet financial credit investigation based on big data | |
| Zloch et al. | Charaterizing RDF graphs through graph-based measures–framework and assessment | |
| JP2010198269A (ja) | 意味ドリフトの発生評価方法及び装置 | |
| Wang | Library User Behavior and Service Optimization Using Artificial Intelligence | |
| JP2021165892A (ja) | 情報処理装置、情報処理方法およびプログラム | |
| Sun et al. | Task-oriented analysis and visualization of correlation patterns in multi-sensor time series | |
| US20240355438A1 (en) | Computer-implemented method for fast matching of entities from different datasets | |
| Handoyo et al. | Finding Optimal Models of Random Forest and Support Vector Machine through Tuning Hyperparameters in Classifying the Imbalanced Data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21956698 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2023546584 Country of ref document: JP |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 18686514 Country of ref document: US |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 21956698 Country of ref document: EP Kind code of ref document: A1 |