[go: up one dir, main page]

WO2012035754A1 - データ統合処理装置、システム、方法及びプログラム - Google Patents

データ統合処理装置、システム、方法及びプログラム Download PDF

Info

Publication number
WO2012035754A1
WO2012035754A1 PCT/JP2011/005129 JP2011005129W WO2012035754A1 WO 2012035754 A1 WO2012035754 A1 WO 2012035754A1 JP 2011005129 W JP2011005129 W JP 2011005129W WO 2012035754 A1 WO2012035754 A1 WO 2012035754A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing method
integration processing
integrated
graph
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/005129
Other languages
English (en)
French (fr)
Inventor
有熊 威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to US13/805,398 priority Critical patent/US8972356B2/en
Priority to JP2012533861A priority patent/JPWO2012035754A1/ja
Priority to CN2011800361432A priority patent/CN103026358A/zh
Publication of WO2012035754A1 publication Critical patent/WO2012035754A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Definitions

  • the present invention relates to a data integration processing device, a data integration processing system, a data integration processing method, and a data integration processing program for integrating a plurality of graphs.
  • Patent Document 1 As a data integration technique, systems described in Patent Document 1 and Non-Patent Document 1 are known.
  • the directed graph unification device described in Patent Document 1 includes an expression unit 13, a merge unit 14, and a tag check unit 15.
  • the directed graph unifying device having such a configuration integrates the directed graphs as follows.
  • the expression means 13 represents the input directed graph as a list of pairs of tags and corresponding partial directed graphs. This list is called a tag list.
  • the merging means 14 merges the tag lists corresponding to the two directed graphs.
  • the tag check means 15 checks that the partial directed graphs corresponding to the tags with the same name in the merged tag list are the same.
  • Non-Patent Document 1 the same node determination rule between two graphs defined externally as a map function is used, and integration is performed while determining the coincidence of graphs by the following algorithm. carry out.
  • Map M maps blank nodes to blank nodes.
  • ⁇ M (lit) lit for all the specific values (RDF literal) lit which are nodes of the graph G.
  • ⁇ M (uri) uri for all intermediate nodes (see RDF URI) uri that are G nodes.
  • the triple (M (s), p, M (o) is not limited to that time. ) Is in G ′.
  • the problem in the technology described above is that the integration function and the throughput are in a trade-off relationship.
  • the integration function provided as in the method described in Patent Document 1 is simplified, and the processing is realized with [number of nodes in the graph] 2 .
  • Non-Patent Document 1 Requires a processing speed of ([number of nodes in the graph] ⁇ [average number of properties per node]) 2 .
  • the existing technology has a problem that it is impossible to achieve both integration processing and throughput.
  • the present invention provides a data integration processing device, a data integration processing system, a data integration processing method, and a data integration processing program capable of realizing high throughput while keeping the restriction on the provided integration function low. Objective.
  • a data integration processing device is a data integration processing device that integrates a plurality of graphs, and includes an integration processing method selection unit that selects an integration processing method used for integration of input graph groups, and a plurality of integration processing methods. And an integrated processing execution means for integrating a plurality of graphs by executing the integrated processing according to the integrated processing method selected by the integrated processing method selecting means among the plurality of integrated processing methods. Selecting an integration processing method to be used for integrating lower nodes according to the frequency with which lower nodes match when upper nodes match for each node in the input graph. To do.
  • the data integration processing system is a data integration processing system for integrating a plurality of graphs, and includes an integration processing method selection means for selecting an integration processing method used for integration of input graph groups, and a plurality of integration processing methods. And an integrated processing execution unit that integrates a plurality of graphs by executing the integrated processing according to the integrated processing method selected by the integrated processing method selecting unit among the plurality of integrated processing methods. Selecting an integration processing method to be used for integrating lower nodes according to the frequency with which lower nodes match when upper nodes match for each node in the input graph. To do.
  • a data integration processing method is a data integration processing method for integrating a plurality of graphs, and selects an integration processing method used for integration of an input graph group, and has a plurality of integration processing methods.
  • the integration processing method used for integrating the lower nodes is selected according to the frequency with which the lower nodes match.
  • a data integration processing program is a data integration processing program for integrating a plurality of graphs, and an integration processing method selection process for selecting an integration processing method used for integration of graph groups input to a computer;
  • the integrated processing execution processing for integrating a plurality of graphs is executed by executing the integrated processing according to the integrated processing method selected from the plurality of integrated processing methods. For each node in the input graph, when the upper nodes match, execute the process of selecting the processing integration processing method used to integrate the lower nodes according to the frequency with which the lower nodes match It is characterized by making it.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a data integration processing system described in Patent Document 1 as a first related technique.
  • FIG. It is a functional block diagram which shows the minimum structural example of a data integration processing apparatus.
  • FIG. 1 is a functional block diagram showing an example of the overall configuration of the first embodiment of the data integration processing system according to the present invention.
  • the data integration processing system includes a data integration processing device 1 and an analysis processing device 2.
  • the data integration processing device 1 and the analysis processing device 2 are configured as different devices will be described.
  • the analysis processing device 2 is realized by an information processing device such as a personal computer that operates according to a program.
  • the analysis processing device 2 includes a plurality of analysis means (not shown) for analyzing data.
  • the data integration processing device 1 is specifically realized by an information processing device such as a personal computer that operates according to a program.
  • the data integration processing device 1 includes an analysis unit-specific characteristic storage unit 5, an integration processing method selection rule storage unit 8, an integration processing method selection unit 4, an integration processing execution unit 6, and a characteristic learning unit 7. .
  • Each means is controlled by an integrated control means (not shown).
  • the analysis unit-specific characteristic storage unit 5 stores, for each analysis unit included in the analysis processing device 2, the characteristic information of the partial graph in the graph expressing the analysis result.
  • the characteristic storage means 5 by analysis means is realized by a storage device such as an optical disk device or a magnetic disk device.
  • the integrated processing method selection rule storage unit 8 stores rule information (for example, a selection rule table 810) indicating rules for selecting an optimal integrated processing method for the graph data.
  • the integrated processing method selection rule storage unit 8 is realized by a storage device such as an optical disk device or a magnetic disk device.
  • the integrated processing method selection means 4 receives the graph group expressing the analysis result from the analysis processing device 2 and the information of the analysis means group that outputs the graph group, and integrates the characteristic information stored in the characteristic storage means 5 for each analysis means, A function of selecting an appropriate integrated processing method based on the rule information stored in the processing method selection rule storage unit 8 is provided. More specifically, the integrated processing method selection means 4 is realized by a CPU of an information processing apparatus that operates according to a program.
  • the integration processing execution means 6 has a function of integrating the graphs by executing the integration processing according to the integration processing method selected by the integration processing method selection means 4 and transmitting the result to the analysis processing device 2.
  • the integrated processing execution means 6 is realized by a CPU of an information processing apparatus that operates according to a program.
  • the integrated processing execution means 6 includes a first integrated processing method executing means 9, a second integrated processing method executing means 10, and a third integrated processing method executing means 11 that execute graph integration processing by different methods. Including. In the present embodiment, an example including three different integrated processing method execution units will be described, but the present invention is not limited to this, and any number of two or more may be used. Each integrated processing method execution unit is realized by, for example, the CPU of the information processing apparatus executing a process based on an existing graph integration algorithm.
  • the characteristic learning unit 7 has a function of receiving the graph group and the information of the analysis unit group that outputs the graph group from the integrated processing method selection unit 4 and updating the information stored in the characteristic storage unit 5 by analysis unit.
  • the characteristic learning unit 7 is realized by a CPU of an information processing apparatus that operates according to a program.
  • the analysis unit-specific characteristic storage unit 5 stores a coincidence duplication frequency table 510, a contradiction duplication frequency table 520, and a class property appearance frequency table 530.
  • the coincidence overlap frequency table 510 has IDs of analysis means provided in the analysis processing apparatus 2 on the vertical axis and the horizontal axis.
  • the expression method of the analysis means ID does not need to be limited to numerals, and any expression can be used as long as the analysis means can be uniquely specified, such as an arbitrary character string or URI.
  • Each cell in the coincidence duplication frequency table 510 stores a location where coincidence duplication occurs and its frequency in the analysis results output by the two analysis means corresponding to the analysis means IDs on the vertical and horizontal axes of the cell, respectively. That is, for each node in the graph output by each of the two analysis means, when the upper node matches, the location where the lower node matches and the frequency thereof are stored.
  • the element data of the analysis result overlaps about two graphs here, the information which comprises element data corresponds is called coincidence overlap.
  • the class name of the graph data node to be processed and the property name which is the label of the edge of the graph data can be used.
  • the contradiction overlap frequency table 520 has IDs of analysis means provided in the analysis processing device 2 on the vertical axis and the horizontal axis.
  • the expression method of the analysis means ID does not need to be limited to numerals, and any expression can be used as long as the analysis means can be uniquely specified, such as an arbitrary character string or URI.
  • Each cell in the contradiction duplication frequency table 520 stores the location and frequency of occurrence of contradiction in the analysis results output by the two analysis units corresponding to the cell vertical axis and horizontal axis analysis unit IDs. That is, for each node in the graph output by each of the two analysis means, the location where the upper node matches, but the lower node does not match, and its frequency are stored.
  • the two graphs when the element data of the analysis results are duplicated, the difference in the information constituting the element data is called contradiction duplication.
  • the node name of the graph data to be processed and the property name that is the label of the edge of the graph data can be used.
  • the class property appearance frequency table 530 stores an analysis unit ID 531, a class / property ID 532, and a frequency 533.
  • the analysis means ID 531 is used to uniquely identify the analysis means provided in the analysis processing device 2, similarly to the coincidence duplication management table 510 and the contradiction duplication frequency table 520.
  • the class / property ID 532 is used to uniquely identify the class or property included in the data in the analysis result graph.
  • the expression method of the class / property ID 532 does not need to be limited to English characters, and any expression can be used as long as the expression can uniquely identify the class or property, such as an arbitrary character string or URI. it can.
  • the appearance frequency of the class or property specified by the class / property ID 532 is calculated with the whole class or property included in the graph output as the analysis result output by the analysis unit specified by the analysis unit ID 531 as a parameter. Value.
  • the expression method of the frequency 533 is not limited to the percentage, and any numerical expression can be used.
  • the integrated processing method selection rule storage unit 8 stores a selection rule table 810. As illustrated in FIG. 5, the selection rule table 810 stores a selection rule ID 811, a rule 812, and an integrated processing method ID 813.
  • the selection rule ID 811 is an ID for uniquely identifying the selection rule, and is the main key of the selection rule table 810.
  • the expression method of the selection rule ID 811 need not be limited to numbers, and any expression can be used as long as the expression can uniquely identify the selection rule, such as an arbitrary character string or URI.
  • Rule 812 is used to select an integrated processing method.
  • the integrated processing method to be used is designated by the integrated processing method ID 813 associated with the rule 812.
  • the rule 812 includes, for example, “If the matching overlap frequency is high and the contradiction duplication frequency is low, select a low-function and high-speed integrated processing method.” Or “High matching duplication frequency is low and the contradiction duplication frequency is high.
  • a rule such as “select a functional integrated processing method” is described.
  • Other examples of rules include: “If the value based on the matching overlap frequency is higher than the predetermined value, select a low-function and high-speed integrated processing method.” Or “The value based on the matching overlap frequency is higher than the predetermined value. If the value is too low, the rule may be to select a high-function and low-speed integrated processing method.
  • the value based on the coincidence duplication frequency is higher than the predetermined value, and the value based on the contradiction duplication frequency is higher than the predetermined value. If the value is lower than the predetermined value and the value based on the contradiction overlap frequency is higher than the predetermined value, the value is high.
  • a rule such as “select a functional integrated processing method” may be used. For example, the rule shown in FIG. 5 is “if the value obtained by multiplying the coincidence overlap frequency by the appearance frequency described later is higher than a predetermined value, and the value obtained by multiplying the contradiction overlap frequency by the appearance frequency described later is equal to or less than the predetermined value.
  • a low-function and high-speed integrated processing method or“ a value obtained by multiplying the coincidence duplication frequency by the appearance frequency described later is equal to or less than a predetermined value, and a value obtained by multiplying the contradiction duplication frequency by the appearance frequency described later is predetermined. If the value is higher than the value, a high-functional integrated processing method is selected. " Note that the description method of the rule 812 need not be limited to a logical expression, and a description such as a decision tree can also be used.
  • the integration processing method ID is used to uniquely identify the integration processing method (specifically, the integration processing method execution means (9 to 11)).
  • the expression method of the integrated processing method ID does not need to be limited to a character string, and any expression can be used as long as the expression can uniquely identify the integrated processing method, such as an arbitrary character string or URI. it can.
  • the data integration processing system of the first embodiment executes data integration processing Sa, integration processing method selection processing Sb, and characteristic learning processing Sc.
  • the data integration processing system executes a series of integration processing in response to a request from the analysis processing device 2, and returns a result after the integration processing.
  • the integration processing method selection means 4 selects an optimal integration processing method group for the graph group to be integrated.
  • the characteristic learning unit 7 receives the graph group to be integrated and the information of the analysis unit group that outputs the graph group from the integration processing method selection unit 4, and the characteristic storage unit 5 by analysis unit stores the information. Update information.
  • FIG. 6 is a flowchart showing an example of the flow of data integration processing executed by the data integration processing system.
  • the integration processing method selection means 4 receives a request for data integration processing from the analysis processing device 2 (step Sa1).
  • the integrated processing method selection means 4 receives from the analysis processing device 2 an analysis result graph group expressing the analysis result group and an ID group of the analysis means outputting the graph (step Sa2).
  • the integrated processing method selection means 4 performs an integrated processing method selection process (step Sb) and selects an integrated processing method ID group. Details of the integrated processing method selection processing (step Sb) will be described later.
  • the integrated processing method selection unit 4 outputs the analysis result graph group and the integrated processing method ID group to the integrated processing execution unit 6.
  • the integrated processing execution means 6 extracts the integrated processing method ID corresponding to the analysis result graph from the integrated processing method ID group for all the analysis result graphs, and executes the integrated processing method corresponding to the integrated processing method ID. Any one of the means 9 to 11 is caused to execute the integration processing of the two graphs (steps Sa3 to Sa5). Specifically, the integrated processing execution means 6 extracts the integrated processing method ID corresponding to the analysis result graph, and integrates the integrated processing method into any of the integrated processing method executing means 9 to 11 specified by the extracted integrated processing method ID. Output the request. Then, the integrated processing method execution means (any of 9 to 11) executes processing for integrating the two graphs according to the request.
  • the integration processing execution means 6 transmits the graph after the integration processing to the analysis processing device 2 (step Sa6).
  • FIG. 7 is a flowchart showing an example of the flow of the integration processing selection process executed by the data integration processing system.
  • the integration process method selection means 4 stores the characteristic information corresponding to all analysis result graphs and the IDs of the analysis means that output the analysis result graphs, according to the characteristic storage means 5 by analysis means. Extract from Then, based on the extracted characteristic information, the integrated processing method selection unit 4 identifies a rule that matches from the rule information stored in the integrated processing method selection rule storage unit 8 (steps Sb3 and Sb4). Specifically, the integrated processing method selection unit 4 selects a selection rule ID that matches the condition described in the rule 812 based on the coincidence duplication frequency and contradiction duplication frequency included in the extracted characteristic information and its appearance frequency. Identify.
  • the integrated processing method selection unit 4 acquires the integrated processing method ID 813 corresponding to the specified rule from the integrated processing method selection rule storage unit 8, and internally holds it (step Sb5). Specifically, the integrated processing method selection unit 4 extracts information indicating the integrated processing method ID 813 corresponding to the specified selection rule ID 811 from the integrated processing method selection rule storage unit 8, and temporarily stores the extracted information in the storage unit.
  • the integrated processing method selection unit 4 extracts information indicating the integrated processing method ID 813 corresponding to the specified selection rule ID 811 from the integrated processing method selection rule storage unit 8, and temporarily stores the extracted information in the storage unit.
  • the integrated processing method selection unit 4 outputs the integrated processing method ID group to the integrated control unit (step Sb6). Specifically, the integration processing method selection unit 4 outputs information indicating the extracted integration processing method ID 813 to an integration control unit that controls each unit of the data integration processing device 2.
  • FIG. 8 is a flowchart showing an example of a characteristic learning process executed by the data integration processing system.
  • the characteristic learning unit 7 receives the graph group of the analysis result and the ID group of the analysis unit of the analysis processing apparatus 2 that has output the graph group from the integrated processing method selection unit 4 (step Sc1). .
  • the characteristic learning means 7 executes the following process for all pairs of combinations of the received graph group (step Sc2).
  • the characteristic learning means 7 calculates the coincidence overlap frequency between the analysis result graphs for the graph pair (step Sc3).
  • the characteristic learning means 7 calculates the class / property appearance frequency between the analysis result graphs for the graph pair (step Sc4).
  • the characteristic learning means 7 calculates the contradiction overlap frequency between the analysis result graphs for the graph pair (step Sc5).
  • steps Sc3, Sc4, and Sc5 can be executed in parallel, and the execution order is not limited.
  • the characteristic learning unit 7 extracts information indicating the corresponding frequency from the characteristic storage unit 5 for each analysis unit for each frequency calculated in steps Sc3 to Sc5, and obtains a weighted average for each (step Sc6).
  • the characteristic learning means 7 stores each frequency value for which the weighted average is obtained in the characteristic-by-analysis characteristic storage means 5 (step Sc7).
  • the characteristic learning means 7 ends the learning process when the processes from Step Sc3 to Sc7 are executed for all combinations of graphs (Step Sc2).
  • the data integration processing system updates the characteristic information stored in the characteristic storage means 5 by analysis means as needed by executing such characteristic learning processing Sc every predetermined period.
  • the effect of the present embodiment is to improve the throughput of the integration process without limiting the function by executing the integration process using the integration process method that provides the function required when integrating the two graphs. .
  • the integrated processing method selecting means 4 selects an appropriate integrated processing method based on the statistical information between the graphs stored in the characteristic storing means 5 for each analyzing means, so that advanced processing is inadvertently performed. This is because it can be prevented from being applied to all graphs and wasteful processing can be reduced.
  • FIG. 9 is a functional block diagram showing an example of the overall configuration of the second embodiment of the data integration processing system.
  • the data integration processing system of the second embodiment is different from the first embodiment in that it includes a graph dividing unit 12, and the graph dividing unit 12 divides a graph before integration into subgraph groups.
  • FIG. 9 the components other than the graph dividing means 12 are the same as those in the first embodiment. Constituent elements similar to those in the first embodiment are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof is omitted.
  • the graph dividing unit 12 receives from the integration processing method selection unit 4 the graph group to be integrated and the analysis unit ID group that has output the graph group. Then, the graph dividing unit 12 extracts a portion showing the same characteristic in the graph as a subgraph based on the characteristic information in the analyzing unit-specific characteristic storage unit 5, and divides the integration target graph group into subgraph groups. Specifically, the graph dividing unit 12 is realized by a CPU of an information processing apparatus that operates according to a program.
  • the data integration process Sd, the integration process selection process Sb, and the characteristic learning process Sc are executed as in the first embodiment.
  • this embodiment is different from the first embodiment in that the subgraph dividing process Se is executed and the graph dividing unit 12 divides the input graph into subgraphs in the data integration process Sd.
  • FIG. 10 is a flowchart showing an example of the flow of data integration processing Sd executed by the data integration processing system.
  • the same operation elements as those in the first embodiment are denoted by the same reference numerals as those in FIG. 6, and detailed description thereof is omitted.
  • the integration processing method selection means 4 receives a request for data integration processing from the analysis processing device 2 (step Sa1).
  • the integrated processing method selection means 4 receives from the analysis processing device 2 an analysis result graph group expressing the analysis result group and an ID group of the analysis means outputting the graph (step Sa2).
  • the integrated processing method selection unit 4 outputs the received analysis result graph group and the ID group of the analysis unit that has output the graph to the graph dividing unit 12. Then, the graph dividing unit 12 divides the graph into subgraphs (Step Se). Details of step Se will be described later.
  • step Sb to Sa6 Since the subsequent processing is the same as the processing in the first embodiment (steps Sb to Sa6), description thereof is omitted.
  • FIG. 11 is a flowchart showing an example of the flow of the subgraph dividing process Se executed by the data integration processing system.
  • the graph dividing unit 12 receives the analysis result graph group and the ID group of the analyzing unit of the analysis processing apparatus 2 that has output the graph from the integrated processing method selecting unit 4. On the other hand, the following processing is performed (step Se1).
  • the graph dividing unit 12 refers to the coincidence duplication degree table 510 and the contradiction duplication degree table 520 from the characteristic storage unit 5 for each class and property included in the graph, and the coincidence duplication frequency is high. Listed are those having a low contradiction frequency (step Se2).
  • the graph dividing unit 12 extracts a subgraph including many class properties having a high coincidence overlap frequency and a low contradiction duplication frequency as a high coincidence subgraph (step Se3).
  • the graph dividing unit 12 refers to the coincidence duplication degree table 510 and the contradiction duplication degree table 520 from the characteristic storage unit 5 for each class and property included in the graph, and the coincidence duplication frequency is determined.
  • the ones that are low and have a high contradiction overlap frequency are listed (step Se4).
  • the graph dividing unit 12 extracts a subgraph including many class properties having a low coincidence overlap frequency and a high contradiction overlap frequency as a high contradiction subgraph (step Se5).
  • the graph dividing means 12 extracts data that is not included in either the high coincidence subgraph or the high contradiction subgraph in the graph as a subgraph (step Se6).
  • the graph dividing unit 12 outputs the extracted subgraph group to the integrated processing method selecting unit 4 (step Se8).
  • the effect of this embodiment is that the processing time can be shortened by speeding up the integration process by dividing the graph when the size of the graph increases.
  • the graph dividing means 12 can divide the graph into sub-graphs in which data having similar characteristics are collected, so that the integration processing can be efficiently performed according to each integration processing method.
  • Embodiment 3 FIG. Next, a third embodiment of the present invention will be described.
  • the analysis processing apparatus 2 includes analysis means described below.
  • a customer information search engine that outputs the customer's email address, address, and name corresponding to the entered name.
  • the data integration processing device can execute integration processing according to the following integration processing method.
  • First integration processing method a method of executing integration processing that simply integrates two input graphs by regarding nodes having the same node ID and value as the same.
  • the integration processing method (ii) requires scanning of the coincidence of the nodes between the two graphs. Therefore, if the number of nodes is N, the amount of calculation of N 2 is necessary. It is. On the other hand, in the integration processing method (b), the model is scanned in order to resolve the contradictions of the inconsistent nodes when integrating the properties of the target node, so that a calculation amount of N 2 ⁇ N 2 is required.
  • the integrated processing method selection rule storage unit 8 stores a selection rule table 810 shown in FIG. 5 as rule information.
  • the integrated processing method selection means 4 receives the analysis result data of the analysis means (1) and (2) from the analysis processing device 2, it operates as follows.
  • the integrated processing method selection unit 4 matches the analysis unit characteristic storage unit 5 based on the analysis unit ID group (in this case, the customer information search engine and the employee information search engine) included in the received analysis result data.
  • the duplication frequency (Person 70%) and the contradiction duplication frequency (e-mail 80%) are extracted.
  • the integrated processing method selection means 4 receives the class / property appearance frequency (Person 33%, e-mail 33%) from the analysis means-specific characteristic storage means 5 based on the analysis means ID included in the received analysis result data. ).
  • the integrated processing method selection means 4 determines whether or not the rule matches based on the rule information stored in the integrated processing method selection rule storage means 8 and the extracted frequency information.
  • the integrated processing method selection unit 4 determines that the rule matches the rule with the rule ID: 002 (see FIG. 5), and selects the second integrated processing method associated with the rule ID: 002.
  • the integrated processing method selection unit 4 outputs an integrated processing method ID for specifying the second integrated processing method to the integrated control unit.
  • the data integration processing device 1 provides a function of integrating while solving this contradiction. Therefore, the calculation time (calculation amount) is N 2 ⁇ N 2 .
  • the integrated processing method selection means 4 receives the analysis result data of the analysis means (1) and (3) from the analysis processing apparatus 2, it operates as follows.
  • the integrated processing method selection means 4 is based on the analysis means-specific characteristic storage means 5 based on the analysis means ID group (in this case, the customer information search engine and the person flow line search engine) included in the received analysis result data.
  • the coincidence duplication frequency (Person 100%) and the contradiction duplication frequency (none) are extracted.
  • the integrated processing method selection means 4 extracts the class / property appearance frequency (Person 33%) from the analysis means-specific characteristic storage means 5 based on the analysis means ID included in the received analysis result data.
  • the integrated processing method selection means 4 determines whether or not the rule matches based on the rule information stored in the integrated processing method selection rule storage means 8 and the extracted frequency information.
  • the integrated processing method selection means 4 determines that the rule matches the rule with the rule ID: 001 (see FIG. 5), and selects the first integrated processing method associated with the rule ID: 001.
  • the integrated processing method selection unit 4 outputs an integrated processing method ID for specifying the first integrated processing method to the integrated control unit.
  • the data integration processing device 1 provides a simple ID matching type integration function. Therefore, calculation time (calculation amount) becomes N 2.
  • the average processing time is N 2 ⁇ (0.8 + 0.2 ⁇ N 2 ). Therefore, it becomes faster than the average processing time (N 2 ⁇ N 2 ) of the system using only (R).
  • the present invention is for improving the integration performance of processing result data in a processing platform that integrates and operates a plurality of function groups.
  • FIG. 16 is a block diagram illustrating a minimum configuration example of the data integration processing device.
  • the data integration processing device includes, as a minimum component, an integration processing method selection unit 4 that selects an integration processing method used for integration of an input graph group, and an integration process having a plurality of integration processing methods. Execution means 6.
  • the integration processing method selection unit 4 selects the nodes in the input graph according to the frequency with which the lower nodes match when the upper nodes match.
  • the integration processing method used for integrating the lower nodes is selected.
  • the integration processing execution means 6 integrates the plurality of input graphs by executing the integration processing according to the integration processing method selected by the integration processing method selection means 4 among the plurality of integration processing methods.
  • the data integration processing device having the minimum configuration it is possible to improve the throughput of the integration processing without limiting the functions by applying the integration processing method that provides the functions required when integrating the two graphs. is there.
  • the data integration processing device is a data integration processing device (for example, realized by the data integration processing device 1) that integrates a plurality of graphs (for example, analysis result data by the analysis means of the analysis processing device 2).
  • An integration processing method selection means for example, realized by the integration processing method selection means 4) for selecting an integration processing method (for example, (ii) a first integration processing method) used for integration of the input graph group;
  • the integrated processing execution means for example, the integration processing execution means for integrating a plurality of graphs by executing the integration processing according to the integration processing method selected by the integration processing method selection means among the plurality of integration processing methods
  • the integrated processing method selection means is configured so that the upper node matches each node in the input graph. , Depending on the frequency the lower the node matches, and selects the integration processing method used for integrating lower node.
  • the integration processing method selection means for each node in the input graph, when the upper node matches, the matching overlap frequency, which is the frequency with which the lower node matches,
  • the integration processing method used for integrating the lower nodes may be selected based on the contradiction overlap frequency, which is the frequency at which the nodes exist but do not match.
  • the integration processing execution means can execute the integration processing according to the second integration processing method having a high integration function and a low processing speed, or the first integration processing method having a low integration function and a high processing speed.
  • the integration processing method selection means selects the first integration processing method when the upper node matches for each node in the input graph and the lower node matches frequently. However, when the frequency is low, the second integrated processing method may be selected.
  • the integration processing execution means has a first integration processing method having a predetermined integration function and capable of integration processing at a predetermined processing speed, or more integrated than the first integration processing method.
  • the integration processing can be executed according to the second integration processing method having a high function but a low processing speed,
  • the integration processing method selection unit selects the first integration if the value based on the frequency with which the lower nodes match is higher than a predetermined value when the upper nodes match.
  • the second integrated processing method may be selected.
  • the integrated processing method selection means for each node in the input graph, when the upper node matches, the value based on the frequency with which the lower node matches is higher than a predetermined value, When the value based on the frequency that does not match is lower than the predetermined value, the first integrated processing method is selected, the value based on the frequency that matches is lower than the predetermined value, and the value based on the frequency that does not match is lower than the predetermined value. If it is higher, the second integrated processing method may be selected.
  • the data integration processing device includes a graph dividing unit (for example, realized by the graph dividing unit 12) that divides the input graph into a plurality of subgraphs, and the graph dividing unit includes each graph in the input graph. For nodes, when the upper nodes match, the graph is divided into subgraphs based on the frequency with which the lower nodes match, and the integration processing method selection means selects the integration processing method for each subgraph divided by the graph division means Then, the integration processing execution means may be configured to execute the integration processing in units of subgraphs divided by the graph dividing means.
  • the integrated processing method selection unit analyzes the statistical frequency based on the analysis unit that outputs the input graph. It may be configured to select an integration processing method that is extracted from another characteristic storage means and used to integrate the graphs based on the extracted statistical frequency.
  • the statistical frequency with which the lower node matches is calculated and stored in the characteristic storage unit by analysis unit Characteristic learning means (for example, realized by the characteristic learning means 7), and the characteristic learning means inputs information indicating the analysis means that has output the input graph from the integrated processing method selection means, and enters the input information.
  • the statistical frequency may be calculated based on the information, and the information stored in the characteristic storage unit for each analysis unit may be sequentially updated.
  • the program is stored in a storage device or recorded on a computer-readable recording medium.
  • the recording medium is a portable medium such as a flexible disk, an optical disk, a magneto-optical disk, and a semiconductor memory.
  • the present invention can be applied to applications such as a data integration processing device and a program for realizing a data integration processing device in a computer for improving the throughput of integration processing in a processing platform that integrates a plurality of graph data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 複数のグラフを統合するデータ統合処理装置であって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段4と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段4が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段6とを備え、統合処理方法選択手段4は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択する。

Description

データ統合処理装置、システム、方法及びプログラム
 本発明は、複数のグラフを統合するデータ統合処理装置、データ統合処理システム、データ統合処理方法及びデータ統合処理プログラムに関する。
 データ統合技術として、特許文献1や非特許文献1に記載されたシステムが知られている。
 まず、特許文献1に記載された有向グラフの単一化装置は、図15に示すように、表現手段13と、併合手段14と、タグチェック手段15とを備えている。そのような構成の有向グラフの単一化装置は、次のようにして有向グラフを統合する。
 まず、表現手段13は、入力された有向グラフを、タグとそれに対応する部分有向グラフとのペアのリストとして表現する。このリストのことをタグリストと呼ぶ。次に、併合手段14は、2つの有向グラフに対応するタグリストを併合する。
 次に、タグチェック手段15は、併合されたタグリストにおける同じ名のタグに対応する部分有向グラフが同一であることをチェックする。
 また、非特許文献1に記載されたグラフ統合アルゴリズムでは、マップ関数として外部で定義された2つのグラフ間での同一ノード判定ルールを用いて、下記のアルゴリズムでグラフの一致を判定しながら統合を実施する。
 ・マップMはブランクノードをブランクノードへ写像する。
 ・グラフGのノードであるすべての具体的な値(RDF リテラル)litに対してM(lit)=litとする。
 ・Gのノードであるすべての中間ノード(RDF URI参照)uriに対してM(uri)=uriとする。
 ・ノードとノードとがエッジで繋がれている事を示すトリプル(s,p,o)がG中であるならば、そのときに限ってかならずトリプル(M(s),p,M(o))はG’中にある。
 上記アルゴリズムによりトリプル単位での一致・不一致を基にしてグラフの統合処理を行う。
特開平5-204647号公報
Graham Klyne et,al., "RDF Concepts and Abstract Syntax",W3C Recommendation, http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/,(2004)
 上述した技術における問題点は、統合機能とスループットとが、トレードオフの関係にあることである。既存の統合手段では、特許文献1に記載された方法のように提供する統合機能を単純化し、[グラフ中のノード数]で処理を実現している。
 一方、非特許文献1に記載された方法のようにノードの周辺情報やマップに登録された同義語情報を元にトリプルの同一性を判定するような高度な統合機能を提供する手法の場合には、処理速度が([グラフ中のノード数]×[ノードあたりの平均プロパティ数])の処理時間が必要となる。このように、既存の技術では、統合処理とスループットとを両立できないという問題がある。
 そこで、本発明は、提供する統合機能への制限を低く抑えながら、高いスループットを実現することができるデータ統合処理装置、データ統合処理システム、データ統合処理方法及びデータ統合処理プログラムを提供することを目的とする。
 本発明によるデータ統合処理装置は、複数のグラフを統合するデータ統合処理装置であって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを備え、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。
 本発明によるデータ統合処理システムは、複数のグラフを統合するデータ統合処理システムであって、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを含み、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。
 本発明によるデータ統合処理方法は、複数のグラフを統合するデータ統合処理方法であって、入力されたグラフ群の統合に用いる統合処理方法を選択し、統合処理方法を複数有し、複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合し、統合処理方法を選択する際には、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。
 本発明によるデータ統合処理プログラムは、複数のグラフを統合するためのデータ統合処理プログラムであって、コンピュータに、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択処理と、統合処理方法を複数有し、複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行処理とを実行させ、統合処理方法選択処理で、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる処理統合処理方法を選択する処理を実行させることを特徴とする。
 本発明によれば、提供する統合機能への制限を低く抑えながら、高いスループットを実現することができる。
本発明によるデータ統合処理システムの第1の実施形態の全体構成の一例を示す機能ブロック図である。 データ統合処理システムに含まれる解析手段別特性記憶手段が格納する一致重複頻度テーブルのデータ構造の一例を示す概念図である。 データ統合処理システムに含まれる解析手段別特性記憶手段が格納する矛盾重複頻度テーブルのデータ構造の一例を示す概念図である。 データ統合処理システムに含まれる解析手段別特性記憶手段が格納するクラスプロパティ出現頻度テーブルのデータ構造の一例を示す概念図である。 データ統合処理システムに含まれる統合処理方法選択ルール記憶手段記憶手段が格納する選択ルールテーブルのデータ構造の一例を示す概念図である。 データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートである。 データ統合処理システムが実行する統合処理選択処理の流れの一例を示すフローチャートである。 データ統合処理システムが実行する特性学習処理の流れの一例を示すフローチャートである。 データ統合処理システムの第2の実施形態の全体構成の一例を示す機能ブロック図である。 データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートである。 データ統合処理システムが実行するグラフ分割処理の流れの一例を示すフローチャートである。 本発明の実施例における顧客情報検索エンジンが出力するモデルの一例を示す概念図である。 社員情報検索エンジンが出力するモデルの一例を示す概念図である。 人物動線検索エンジンが出力するモデルの一例を示す概念図である。 第1の関連技術として、特許文献1に記載のデータ統合処理システムの構成を概略示すブロック図である。 データ統合処理装置の最小の構成例を示す機能ブロック図である。
実施形態1.
 次に、本発明の第1の実施形態について図面を参照して詳細に説明する。図1は、本発明によるデータ統合処理システムの第1の実施形態の全体構成の一例を示す機能ブロック図である。図1に示すように、データ統合処理システムは、データ統合処理装置1と解析処理装置2とを含む。なお、本実施形態では、データ統合処理装置1と解析処理装置2とが異なる装置として構成されている例について説明するが、これに限らず、単一の装置によって構成されていてもよい。
 解析処理装置2は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。解析処理装置2は、データを解析する複数の解析手段(図示せず)を備えている。
 データ統合処理装置1は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。データ統合処理装置1は、解析手段別特性記憶手段5と、統合処理方法選択ルール記憶手段8と、統合処理方法選択手段4と、統合処理実行手段6と、特性学習手段7とを備えている。なお、各手段は、統合制御手段(図示せず)によって制御されているものとする。
 解析手段別特性記憶手段5は、解析処理装置2が備えている解析手段ごとに、解析結果を表現したグラフ内の部分グラフの特性情報を格納する。解析手段別特性記憶手段5は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
 統合処理方法選択ルール記憶手段8は、グラフデータに最適な統合処理方法を選択するためのルールを示すルール情報(例えば、選択ルールテーブル810等)を格納する。統合処理方法選択ルール記憶手段8は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
 統合処理方法選択手段4は、解析処理装置2から解析結果を表現したグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段5が格納する特性情報と、統合処理方法選択ルール記憶手段8が格納するルール情報とに基づいて、適切な統合処理方法を選択する機能を備えている。統合処理方法選択手段4は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
 統合処理実行手段6は、統合処理方法選択手段4が選択した統合処理方法に従って統合処理を実行することでグラフの統合を実施し、結果を解析処理装置2に送信する機能を備えている。統合処理実行手段6は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
 また、統合処理実行手段6は、それぞれ異なる方法でグラフの統合処理を実行する第1の統合処理方法実行手段9、第2の統合処理方法実行手段10および第3の統合処理方法実行手段11を含む。本実施形態では、3つの異なる統合処理方法実行手段を含む例について説明するが、これに限らず、2つ以上であればいくつでもよい。また、各統合処理方法実行手段は、例えば情報処理装置のCPUが既存のグラフ統合アルゴリズムに基づいて処理を実行することによって実現される。
 特性学習手段7は、統合処理方法選択手段4からグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段5が記憶する情報を更新する機能を備えている。特性学習手段7は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
 解析手段別特性記憶手段5は、一致重複頻度テーブル510と、矛盾重複頻度テーブル520と、クラスプロパティ出現頻度テーブル530とを記憶している。
 一致重複頻度テーブル510は、図2に示すように、解析処理装置2が備えている解析手段のIDを縦軸、横軸に持つ。ここで、解析手段IDの表現方法については、数字に限定する必要はなく、任意の文字列やURIなど、解析手段を一意に特定できる表現であれば、任意の表現を用いることができる。
 一致重複頻度テーブル510内の各セルは、セルの縦軸、横軸の解析手段IDに対応する2つの解析手段がそれぞれ出力する解析結果において一致重複が発生する箇所とその頻度とを格納する。つまり、2つの解析手段がそれぞれ出力するグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する箇所とその頻度とを格納する。なお、ここでは、2つのグラフについて、解析結果の要素データが重複している場合に、要素データを構成する情報が一致していることを一致重複と呼ぶ。一致重複が発生する箇所の表現には、処理対象となるグラフデータのノードのクラスや、グラフデータのエッジのラベルであるプロパティ名を用いることができる。
 矛盾重複頻度テーブル520は、図3に示すように、解析処理装置2が備えている解析手段のIDを縦軸、横軸に持つ。ここで、解析手段IDの表現方法については、数字に限定する必要はなく、任意の文字列やURIなど、解析手段を一意に特定できる表現であれば、任意の表現を用いることができる。
 矛盾重複頻度テーブル520内の各セルは、セルの縦軸、横軸の解析手段IDに対応する2つの解析手段がそれぞれ出力する解析結果において矛盾重複が発生する箇所とその頻度とを格納する。つまり、2つの解析手段がそれぞれ出力するグラフ中の各ノードについて、上位のノードが一致するが、下位のノードが一致しない箇所とその頻度とを格納する。なお、ここでは、2つのグラフについて、解析結果の要素データが重複している場合に、要素データを構成する情報が異なっていることを矛盾重複と呼ぶ。矛盾重複が発生する箇所の表現には、処理対象となるグラフデータのノードのクラスや、グラフデータのエッジのラベルであるプロパティ名を用いることができる。
 クラスプロパティ出現頻度テーブル530は、図4に示すように、解析手段ID531と、クラス/プロパティID532と、頻度533とを格納する。
 解析手段ID531は、一致重複管理テーブル510や矛盾重複頻度テーブル520と同様に、解析処理装置2が備えている解析手段を一意に特定するために用いられる。
 また、クラス/プロパティID532は、解析結果のグラフ中のデータに含まれるクラスやプロパティを一意に特定するために用いられる。ここで、クラス/プロパティID532の表現方法については、英文字に限定する必要はなく、任意の文字列やURIなど、クラスやプロパティを一意に特定できる表現であれば、任意の表現を用いることができる。
 頻度533は、解析手段ID531で特定される解析手段が解析結果として出力したグラフ中に含まれるクラスまたはプロパティ全体を母数として、クラス/プロパティID532で特定されるクラスまたはプロパティの出現頻度を算出した値である。ここで、頻度533の表現方法については、百分率に限定する必要はなく、任意の数値表現を用いることができる。
 統合処理方法選択ルール記憶手段8は、選択ルールテーブル810を記憶している。選択ルールテーブル810は、図5に示すように、選択ルールID811と、ルール812と、統合処理方法ID813とを格納する。
 選択ルールID811は、選択ルールを一意に識別するためのIDであり、選択ルールテーブル810の主キーである。ここで、選択ルールID811の表現方法については、数字に限定する必要はなく、任意の文字列やURIなど、選択ルールを一意に特定できる表現であれば、任意の表現を用いることができる。
 ルール812は、統合処理方法を選択するために用いられる。ルール812が含む条件に入力データが合致する場合には、使用する統合処理方法をルール812に対応付けられた統合処理方法ID813で指定する。
 ルール812には、例えば「一致重複頻度が高く、矛盾重複頻度が低いものは低機能で高速な統合処理方法を選択する。」や、「一致重複頻度が低く、矛盾重複頻度が高いものは高機能な統合処理方法を選択する。」といったルールが記述される。ルールの他の例としては、「一致重複頻度に基づく値が所定値よりも高い場合は、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に基づく値が所定値よりも低い場合は、高機能で低速な統合処理方法を選択する。」といったルールであってもよく、「一致重複頻度に基づく値が所定値よりも高く、矛盾重複頻度に基づく値が所定値よりも低い場合は、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に基づく値が所定値よりも低く、矛盾重複頻度に基づく値が所定値よりも高い場合は、高機能な統合処理方法を選択する。」といったルールであってもよい。例えば、図5に示すルールは、「一致重複頻度に後述する出現頻度をかけた値が所定値よりも高く、矛盾重複頻度に後述する出現頻度をかけた値が所定値以下である場合には、低機能で高速な統合処理方法を選択する。」や、「一致重複頻度に後述する出現頻度をかけた値が所定値以下であり、矛盾重複頻度に後述する出現頻度をかけた値が所定値よりも高い場合には、高機能な統合処理方法を選択する。」といったルールである。なお、ルール812の記述方法については、論理式に限定する必要はなく、決定木などの記述を用いることもできる。
 統合処理方法IDは、統合処理方法(具体的には、統合処理方法実行手段(9~11))を一意に特定するために用いられる。ここで、統合処理方法IDの表現方法については、文字列に限定する必要はなく、任意の文字列やURIなど、統合処理方法を一意に特定できる表現であれば、任意の表現を用いることができる。
 次に、データ統合処理システムの第1の実施形態の動作例について説明する。
 第1の実施形態のデータ統合処理システムは、データ統合処理Saと、統合処理方法選択処理Sbと、特性学習処理Scとを実行する。
 データ統合処理Saでは、データ統合処理システムは、解析処理装置2の要求に対して一連の統合処理を実行し、統合処理後の結果を返信する。
 また、統合処理方法選択処理Sbでは、統合処理方法選択手段4が、統合対象のグラフ群に最適な統合処理方法群を選択する。
 また、特性学習処理Scでは、特性学習手段7が、統合処理方法選択手段4から統合対象のグラフ群とグラフ群を出力した解析手段群の情報とを受け取り、解析手段別特性記憶手段5が記憶する情報を更新する。
 まず、データ統合処理Saについて、図を用いて説明する。図6に、データ統合処理システムが実行するデータ統合処理の流れの一例を示すフローチャートを示す。
 データ統合処理Saでは、まず、統合処理方法選択手段4は、解析処理装置2からデータ統合処理の要求を受信する(ステップSa1)。
 次に、統合処理方法選択手段4は、解析処理装置2から、解析結果群を表現した解析結果グラフ群と、グラフを出力した解析手段のID群とを受信する(ステップSa2)。
 次に、統合処理方法選択手段4は、統合処理方法選択処理(ステップSb)を行い、統合処理方法ID群を選択する。統合処理方法選択処理(ステップSb)の詳細については後述する。
 次に、統合処理方法選択手段4は、解析結果グラフ群と、統合処理方法ID群とを、統合処理実行手段6に出力する。
 次に、統合処理実行手段6は、すべての解析結果グラフに対して、解析結果グラフに対応する統合処理方法IDを統合処理方法ID群から抽出し、統合処理方法IDに対応する統合処理方法実行手段9~11のいずれかに2つのグラフの統合処理を実行させる(ステップSa3~Sa5)。具体的には、統合処理実行手段6は、解析結果グラフに対応する統合処理方法IDを抽出し、抽出した統合処理方法IDによって特定される統合処理方法実行手段9~11のいずれかに統合処理要求を出力する。すると、統合処理方法実行手段(9~11のいずれか)は、要求に従って、2つのグラフを統合する処理を実行する。
 最後に、統合処理実行手段6は、解析処理装置2に統合処理後のグラフを送信する(ステップSa6)。
 次に、統合処理方法選択処理Sbについて、図を用いて説明する。図7に、データ統合処理システムが実行する統合処理選択処理の流れの一例を示すフローチャートを示す。
 統合処理選択処理Sbでは、まず、統合処理方法選択手段4は、すべての解析結果グラフと解析結果グラフを出力した解析手段のIDとに対して、対応する特性情報を解析手段別特性記憶手段5から抽出する。そして、統合処理方法選択手段4は、抽出した特性情報に基づいて、統合処理方法選択ルール記憶手段8が記憶するルール情報から適合するルールを特定する(ステップSb3、ステップSb4)。具体的には、統合処理方法選択手段4は、抽出した特性情報に含まれる一致重複頻度および矛盾重複頻度とその出現頻度とに基づいて、ルール812に記載された条件と一致する選択ルールIDを特定する。
 次に、統合処理方法選択手段4は、特定したルールに対応する統合処理方法ID813を統合処理方法選択ルール記憶手段8から取得し、内部的に保持する(ステップSb5)。具体的には、統合処理方法選択手段4は、特定した選択ルールID811に対応する統合処理方法ID813を示す情報を統合処理方法選択ルール記憶手段8から抽出し、抽出した情報を記憶部に一時的に記憶させる。
 最後に、統合処理方法選択手段4は、統合処理方法ID群を統合制御手段に出力する(ステップSb6)。具体的には、統合処理方法選択手段4は、抽出した統合処理方法ID813を示す情報をデータ統合処理装置2の各手段を制御する統合制御手段に出力する。
 次に、特性学習処理Scについて、図を用いて詳細に説明する。図8に、データ統合処理システムが実行する特性学習処理の流れの一例を示すフローチャートを示す。
 特性学習処理Scでは、まず、特性学習手段7は、統合処理方法選択手段4から解析結果のグラフ群と、グラフ群を出力した解析処理装置2の解析手段のID群とを受け取る(ステップSc1)。
 次に、特性学習手段7は、受け取ったグラフ群のすべてのペアの組合せについて、以下の処理を実行する(ステップSc2)。
 まず、特性学習手段7は、グラフのペアについて、解析結果グラフ間での一致重複頻度を算出する(ステップSc3)。
 次に、特性学習手段7は、グラフのペアについて、解析結果グラフ間でのクラス/プロパティ出現頻度を算出する(ステップSc4)。
 次に、特性学習手段7は、グラフのペアについて、解析結果グラフ間での矛盾重複頻度を算出する(ステップSc5)。
 ここで、ステップSc3、Sc4、Sc5の処理については、並列実行することが可能であり、実行順序は問わない。
 次に、特性学習手段7は、ステップSc3~Sc5で算出した各頻度について、解析手段別特性記憶手段5から対応する頻度を示す情報を抽出し、それぞれ加重平均を求める(ステップSc6)。
 最後に、特性学習手段7は、加重平均を求めた各頻度値を、解析手段別特性記憶手段5に記憶させる(ステップSc7)。
 特性学習手段7は、すべてのグラフの組合せについて、ステップSc3からSc7までの処理を実行すると、学習処理を終了する(ステップSc2)。データ統合処理システムは、このような特性学習処理Scを所定期間ごとに実行することにより、解析手段別特性記憶手段5が記憶している特性情報を随時更新する。
 次に、本実施形態の効果について説明する。
 本実施形態の効果は、2つのグラフの統合時に要求される機能を提供する統合処理方法を用いて統合処理を実行することにより、機能を制限することなく、統合処理のスループットを向上できることにある。
 この理由は、解析手段別特性記憶手段5が記憶しているグラフ間の統計情報に基づいて、統合処理方法選択手段4が適切な統合処理方法を選択することで、不用意に高度な処理をすべてのグラフへ適用することを防止し、無駄な処理を削減できるためである。
実施形態2.
 次に、本発明の第2の実施形態について説明する。図9に、データ統合処理システムの第2の実施形態の全体構成の一例を示す機能ブロック図を示す。
 第2の実施形態のデータ統合処理システムは、グラフ分割手段12を含み、グラフ分割手段12が統合前のグラフをサブグラフ群に分割する点で、第1の実施形態と相違している。
 図9において、グラフ分割手段12以外の構成要素については、第1の実施形態と同様である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。
 グラフ分割手段12は、統合処理方法選択手段4から、統合対象のグラフ群とそのグラフ群を出力した解析手段ID群とを受け取る。そして、グラフ分割手段12は、解析手段別特性記憶手段5内の特性情報に基づいて、グラフ内で同じ特性を示す部分をサブグラフとして抽出し、統合対象のグラフ群をサブグラフ群に分割する。グラフ分割手段12は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
 次に、第2の実施形態の動作例について説明する。
 本実施形態では、第1の実施形態と同様に、データ統合処理Sdと、統合処理選択処理Sbと、特性学習処理Scとを実行する。ただし、本実施形態では、サブグラフ分割処理Seを実行し、データ統合処理Sdにおいて、グラフ分割手段12が、入力グラフをサブグラフへ分割する点で、第1の実施形態と異なる。
 統合処理選択処理Sbと、特性学習処理Scとについては、第1の実施形態と同様であるため、詳細な説明を省略する。
 データ統合処理Sdについて、図を用いて説明する。図10に、データ統合処理システムが実行するデータ統合処理Sdの流れの一例を示すフローチャートを示す。なお、図10において第1の実施形態と同様の動作要素については、図6と同様の符号を付し、詳細な説明を省略する。
 まず、統合処理方法選択手段4は、解析処理装置2からデータ統合処理の要求を受け付ける(ステップSa1)。
 次に、統合処理方法選択手段4は、解析処理装置2から、解析結果群を表現した解析結果グラフ群と、グラフを出力した解析手段のID群とを受信する(ステップSa2)。
 次に、統合処理方法選択手段4は、受信した解析結果グラフ群と、グラフを出力した解析手段のID群とをグラフ分割手段12に出力する。すると、グラフ分割手段12は、グラフをサブグラフに分割する(ステップSe)。ステップSeの詳細については後述する。
 以降の処理については、第1の実施形態における処理(ステップSb~Sa6)と同様であるため、説明を省略する。
 サブグラフ分割処理Seについて、図を用いて説明する。図11に、データ統合処理システムが実行するサブグラフ分割処理Seの流れの一例を示すフローチャートを示す。
 サブグラフ分割処理Seでは、まず、グラフ分割手段12は、統合処理方法選択手段4から、解析結果グラフ群と、グラフを出力した解析処理装置2の解析手段のID群とを受け取り、すべてのグラフに対して、以下の処理を実施する(ステップSe1)。
 まず、グラフ分割手段12は、グラフを中に含まれるクラスとプロパティとについて、解析手段別特性記憶手段5から、一致重複度テーブル510と矛盾重複度テーブル520とを参照し、一致重複頻度が高く、矛盾重複頻度が低いものを列挙する(ステップSe2)。
 次に、グラフ分割手段12は、一致重複頻度が高く、矛盾重複頻度が低いクラス・プロパティを多く含む部分グラフを、高一致サブグラフとして抽出する(ステップSe3)。
 次に、グラフ分割手段12は、グラフの中に含まれるクラスとプロパティとについて、解析手段別特性記憶手段5から、一致重複度テーブル510と矛盾重複度テーブル520とを参照し、一致重複頻度が低く、矛盾重複頻度が高いものを列挙する(ステップSe4)。
 次に、グラフ分割手段12は、一致重複頻度が低く、矛盾重複頻度が高いクラス・プロパティを多く含む部分グラフを、高矛盾サブグラフとして抽出する(ステップSe5)。
 次に、グラフ分割手段12は、グラフ中において、高一致サブグラフと高矛盾サブグラフとのいずれにも含まれていないデータをサブグラフとして抽出する(ステップSe6)。
 最後に、これらの処理をすべてのグラフに対して実行した後、グラフ分割手段12は、抽出したサブグラフ群を統合処理方法選択手段4に出力する(ステップSe8)。
 次に、本実施形態の効果について説明する。
 本実施形態の効果は、グラフのサイズが大きくなった際に、グラフを分割することで統合処理を高速化して処理時間を短縮できることにある。
 この理由は、グラフ分割手段12が、グラフを類似した特性を持ったデータをまとめたサブグラフに分割できるため、各統合処理方法に従って効率的に統合処理を行えるためである。
実施形態3.
 次に、本発明の第3の実施形態について説明する。ここでは、解析処理装置2は、下記に示す解析手段を備えているものとする。
 (1)入力された名前に対応する、顧客の電子メールアドレス、住所、名前を出力する顧客情報検索エンジン
 (2)入力された名前に対応する、社員の電子メールアドレス、住所、名前、社員IDを出力する社員情報検索エンジン
 (3)社員IDのオフィスでの移動軌跡を出力する人物動線検索エンジン
 ここで、(1)から(3)の解析手段がそれぞれ出力する解析結果データの例を図12から図14に示す。なお、(1)から(3)の解析手段が出力する解析結果データについての特徴情報の内容は、図2から図4に示すものであるとする。
 また、本実施形態では、データ統合処理装置は、下記に示す統合処理方法に従って統合処理を実行可能であるものとする。
 (い)第1の統合処理方法:入力された2つのグラフについて、ノードのIDや値が同じノードを同一とみなして単純に統合する統合処理を実行する方法
 (ろ)第2の統合処理方法:入力された2つのグラフについて、同じノードIDが持つプロパティがさすノードの値が矛盾している(異なっている)場合には、2つの入力モデルを走査してどちらの値を使用するかを判定する統合処理を実行する方法
 ここで統合処理の計算量について比較すると、(い)の統合処理方法では、2つのグラフ間でノードの一致を走査する必要があるため、ノード数をNとすると、Nの計算量が必要である。一方、(ろ)の統合処理方法では、対象ノードのプロパティ統合時に、矛盾したノードの矛盾を解決するためにモデルを走査するため、N×Nの計算量が必要である。
 上記の(1)から(3)の解析手段が出力する解析結果データの組合せと、必要とする統合機能のレベルとは、下記のような関係になる。
 (1)-(2)を統合:異なるプロパティがあった場合にはこの矛盾を解決しながら統合する
 (1)-(3)を統合:単純にすべて統合
 (2)-(3)を統合:単純にすべて統合
 また、統合処理方法選択ルール記憶手段8には、図5に示したルールが設定されているものとする。具体的には、統合処理方法選択ルール記憶手段8は、ルール情報として、図5に示す選択ルールテーブル810を記憶している。
 次に、具体的な動作例を示す。統合処理方法選択手段4は、解析処理装置2から、(1)および(2)の解析手段の解析結果データを受け取ると、次のように動作する。
 まず、統合処理方法選択手段4は、受信した解析結果データに含まれる解析手段ID群(この場合、顧客情報検索エンジンと社員情報検索エンジン)に基づいて、解析手段別特性記憶手段5から、一致重複頻度(Person 70%)と矛盾重複頻度(e-mail 80%)とを抽出する。
 さらに、統合処理方法選択手段4は、受信した解析結果データに含まれる解析手段IDに基づいて、解析手段別特性記憶手段5から、クラス/プロパティの出現頻度(Person 33%,e-mail 33%)を抽出する。
 次に、統合処理方法選択手段4は、統合処理方法選択ルール記憶手段8が記憶するルール情報と抽出した上記の頻度情報とに基づいて、ルールに一致するか否かの判定を行う。
 ここでは、統合処理方法選択手段4は、ルールID:002(図5参照)のルールに一致すると判定し、ルールID:002に対応付けられた第2の統合処理方法を選択する。
 最後に、統合処理方法選択手段4は、統合制御手段に第2の統合処理方法を特定する統合処理方法IDを出力する。この場合、データ統合処理装置1は、異なるプロパティがあった場合には、この矛盾を解決しながら統合する機能を提供する。そのため、計算時間(計算量)は、N×Nとなる。
 また、統合処理方法選択手段4は、解析処理装置2から(1)および(3)の解析手段の解析結果データを受け取ると、次のように動作する。
 まず、統合処理方法選択手段4は、受信した解析結果データに含まれる解析手段ID群(この場合、顧客情報検索エンジンと人物動線検索エンジン)に基づいて、解析手段別特性記憶手段5から、一致重複頻度(Person 100%)と矛盾重複頻度(なし)とを抽出する。
 さらに、統合処理方法選択手段4は、受信した解析結果データに含まれる解析手段IDに基づいて、解析手段別特性記憶手段5から、クラス/プロパティの出現頻度(Person 33%)を抽出する。
 次に、統合処理方法選択手段4は、統合処理方法選択ルール記憶手段8が記憶するルール情報と抽出した上記の頻度情報とに基づいて、ルールに一致するか否かの判定を行う。
 ここでは、統合処理方法選択手段4は、ルールID:001(図5参照)のルールに一致すると判定し、ルールID:001に対応付けられた第1の統合処理方法を選択する。
 最後に、統合処理方法選択手段4は、統合制御手段に第1の統合処理方法を特定する統合処理方法IDを出力する。この場合、データ統合処理装置1は、単純なID一致型の統合機能を提供する。そのため、計算時間(計算量)は、Nとなる。
 上記のように、本実施形態では、統合機能として(ろ)が定義する機能を提供しつつ、その機能を必要としない場合には、より高速な(い)を適用する。そのため、システム全体のスループットを(ろ)のみを使用するシステムに対して向上させることができる。
 具体的には、(1)と(2)との解析結果の統合要求が20%、(1)と(3)との解析結果の統合要求が80%のシステムであれば、平均処理時間は、N×(0.8+0.2×N)となる。そのため、(ろ)のみを使用するシステムの平均処理時間(N×N)より高速となる。
 以上のように、本発明は、複数の機能群を統合し動作する処理基盤における処理結果データの統合性能を向上させるためのものである。
 次に、本発明によるデータ統合処理装置の最小構成について説明する。図16は、データ統合処理装置の最小の構成例を示すブロック図である。図16に示すように、データ統合処理装置は、最小の構成要素として、入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段4と、統合処理方法を複数有する統合処理実行手段6とを備えている。
 図16に示す最小構成のデータ統合処理装置では、統合処理方法選択手段4は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択する。そして、統合処理実行手段6は、複数の統合処理方法のうちの統合処理方法選択手段4が選択した統合処理方法に従って統合処理を実行することにより、入力された複数のグラフを統合する。
 従って、最小構成のデータ統合処理装置によれば、2つのグラフの統合時に要求される機能を提供する統合処理方法を適用することにより、機能を制限することなく、統合処理のスループットを向上できることにある。
 なお、本実施形態では、以下の(1)~(6)に示すようなデータ統合処理装置の特徴的構成が示されている。
 (1)データ統合処理装置は、複数のグラフ(例えば、解析処理装置2の解析手段による解析結果データ)を統合するデータ統合処理装置(例えば、データ統合処理装置1によって実現される)であって、入力されたグラフ群の統合に用いる統合処理方法(例えば、(い)第1の統合処理方法など)を選択する統合処理方法選択手段(例えば、統合処理方法選択手段4によって実現される)と、統合処理方法を複数有し、複数の統合処理方法のうちの統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段(例えば、統合処理実行手段6によって実現される)とを備え、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、下位のノードを統合するために用いる統合処理方法を選択することを特徴とする。
 (2)データ統合処理装置において、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度である一致重複頻度と、下位のノードが存在するが一致しない頻度である矛盾重複頻度とに基づいて、下位のノードを統合するために用いる統合処理方法を選択するように構成されていてもよい。
 (3)データ統合処理装置において、統合処理実行手段は、統合機能が高く処理速度が遅い第2の統合処理方法または統合機能が低く処理速度が速い第1の統合処理方法に従って統合処理を実行可能であり、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度が高い場合には、第1の統合処理方法を選択し、頻度が低い場合には、第2の統合処理方法を選択するように構成されていてもよい。
 (3-1)具体的に、統合処理実行手段は、所定の統合機能を有すると共に所定の処理速度で統合処理可能な第1の統合処理方法、または、当該第1の統合処理方法よりも統合機能が高いが処理速度が遅い第2の統合処理方法、に従って統合処理を実行可能であり、
 統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高い場合には、第1の統合処理方法を選択し、頻度に基づく値が所定値よりも低い場合には、第2の統合処理方法を選択するよう構成されていてもよい。
 (3-2)さらに、統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高く、一致しない頻度に基づく値が所定値よりも低い場合には、第1の統合処理方法を選択し、一致する頻度に基づく値が所定値よりも低く、一致しない頻度に基づく値が所定値よりも高い場合には、第2の統合処理方法を選択するよう構成されていてもよい。
 (4)データ統合処理装置において、入力されたグラフを複数のサブグラフに分割するグラフ分割手段(例えば、グラフ分割手段12によって実現される)を備え、グラフ分割手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づいてグラフをサブグラフに分割し、統合処理方法選択手段は、グラフ分割手段が分割したサブグラフ単位で統合処理方法を選択し、統合処理実行手段は、グラフ分割手段が分割したサブグラフ単位で統合処理を実行するように構成されていてもよい。
 (5)データ統合処理装置において、過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を、グラフを出力した解析手段と対応付けて格納する解析手段別特性記憶手段(例えば、解析手段別特性記憶手段5によって実現される)を備え、統合処理方法選択手段は、入力されたグラフを出力した解析手段に基づいて統計頻度を解析手段別特性記憶手段から抽出し、抽出した統計頻度に基づいてグラフを統合するために用いる統合処理方法を選択するように構成されていてもよい。
 (6)データ統合処理装置において、過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を算出し、解析手段別特性記憶手段に格納させる特性学習手段(例えば、特性学習手段7によって実現される)を備え、特性学習手段は、入力されたグラフを出力した解析手段を示す情報を統合処理方法選択手段から入力し、入力した情報に基づいて統計頻度を算出し、解析手段別特性記憶手段が格納する情報を順次更新するように構成されていてもよい。
 なお、上記各実施形態においてプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
 以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
 なお、本発明は、日本国にて2010年9月13日に特許出願された特願2010-204210の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
 本発明は、複数のグラフデータを統合する処理基盤における統合処理のスループットを向上させるための、データ統合処理装置やデータ統合処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。
 1 データ統合処理装置
 2 解析処理装置
 4 統合処理方法選択手段
 5 解析手段別特性記憶手段
 6 統合処理実行手段
 7 特性学習手段
 8 統合手段選択ルール記憶手段
 9 第1の統合処理方法実行手段
 10 第2の統合処理方法実行手段
 11 第3の統合処理方法実行手段
 12 グラフ分割手段
 510 一致重複頻度テーブル
 520 矛盾重複頻度テーブル
 530 クラスプロパティ出現頻度テーブル
 810 選択ルールテーブル
 

Claims (10)

  1.  複数のグラフを統合するデータ統合処理装置であって、
     入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、
     統合処理方法を複数有し、該複数の統合処理方法のうちの前記統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを備え、
     前記統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
     ことを特徴とするデータ統合処理装置。
  2.  統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度である一致重複頻度と、下位のノードが存在するが一致しない頻度である矛盾重複頻度とに基づいて、前記下位のノードを統合するために用いる統合処理方法を選択する
     請求項1記載のデータ統合処理装置。
  3.  統合処理実行手段は、統合機能が高く処理速度が遅い第2の統合処理方法または統合機能が低く処理速度が速い第1の統合処理方法に従って統合処理を実行可能であり、
     統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度が高い場合には、前記第1の統合処理方法を選択し、前記頻度が低い場合には、前記第2の統合処理方法を選択する
     請求項1又は請求項2記載のデータ統合処理装置。
  4.  統合処理実行手段は、所定の統合機能を有すると共に所定の処理速度で統合処理可能な第1の統合処理方法、または、当該第1の統合処理方法よりも統合機能が高いが処理速度が遅い第2の統合処理方法、に従って統合処理を実行可能であり、
     統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づく値が所定値よりも高い場合には、前記第1の統合処理方法を選択し、前記頻度に基づく値が所定値よりも低い場合には、前記第2の統合処理方法を選択する
     請求項1又は請求項2記載のデータ統合処理装置。
  5.  入力されたグラフを複数のサブグラフに分割するグラフ分割手段を備え、
     前記グラフ分割手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に基づいて前記グラフをサブグラフに分割し、
     統合処理方法選択手段は、前記グラフ分割手段が分割したサブグラフ単位で統合処理方法を選択し、
     統合処理実行手段は、前記グラフ分割手段が分割したサブグラフ単位で統合処理を実行する
     請求項1から請求項4のうちのいずれか1項に記載のデータ統合処理装置。
  6.  過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を、該グラフを出力した解析手段と対応付けて格納する解析手段別特性記憶手段を備え、
     統合処理方法選択手段は、入力されたグラフを出力した解析手段に基づいて前記統計頻度を前記解析手段別特性記憶手段から抽出し、抽出した統計頻度に基づいて該グラフを統合する統合処理方法を選択する
     ことを特徴とした請求項1から請求項5のうちのいずれか1項に記載のデータ統合処理装置。
  7.  過去に入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する統計頻度を算出し、解析手段別特性記憶手段に格納させる特性学習手段を備え、
     前記特性学習手段は、入力されたグラフを出力した解析手段を示す情報を統合処理方法選択手段から入力し、入力した情報に基づいて統計頻度を算出し、前記解析手段別特性記憶手段が格納する情報を順次更新する
     請求項6記載のデータ統合処理装置。
  8.  複数のグラフを統合するデータ統合処理システムであって、
     入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択手段と、
     統合処理方法を複数有し、該複数の統合処理方法のうちの前記統合処理方法選択手段が選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行手段とを含み、
     前記統合処理方法選択手段は、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
     ことを特徴とするデータ統合処理システム。
  9.  複数のグラフを統合するデータ統合処理方法であって、
     入力されたグラフ群の統合に用いる統合処理方法を選択し、
     統合処理方法を複数有し、該複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合し、
     統合処理方法を選択する際には、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる統合処理方法を選択する
     ことを特徴とするデータ統合処理方法。
  10.  複数のグラフを統合するためのデータ統合処理プログラムであって、
     コンピュータに、
     入力されたグラフ群の統合に用いる統合処理方法を選択する統合処理方法選択処理と、
     統合処理方法を複数有し、該複数の統合処理方法のうちの選択した統合処理方法に従って統合処理を実行することにより複数のグラフを統合する統合処理実行処理とを実行させ、
     前記統合処理方法選択処理で、入力されたグラフ中の各ノードについて、上位のノードが一致する際に、下位のノードが一致する頻度に応じて、前記下位のノードを統合するために用いる処理統合処理方法を選択する処理を
     実行させるためのデータ統合処理プログラム。
     
PCT/JP2011/005129 2010-09-13 2011-09-13 データ統合処理装置、システム、方法及びプログラム Ceased WO2012035754A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/805,398 US8972356B2 (en) 2010-09-13 2011-09-13 Device, system, method and program for data integration process
JP2012533861A JPWO2012035754A1 (ja) 2010-09-13 2011-09-13 データ統合処理装置、システム、方法及びプログラム
CN2011800361432A CN103026358A (zh) 2010-09-13 2011-09-13 数据整合处理设备、系统、方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010204210 2010-09-13
JP2010-204210 2010-09-13

Publications (1)

Publication Number Publication Date
WO2012035754A1 true WO2012035754A1 (ja) 2012-03-22

Family

ID=45831241

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/005129 Ceased WO2012035754A1 (ja) 2010-09-13 2011-09-13 データ統合処理装置、システム、方法及びプログラム

Country Status (4)

Country Link
US (1) US8972356B2 (ja)
JP (1) JPWO2012035754A1 (ja)
CN (1) CN103026358A (ja)
WO (1) WO2012035754A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014126883A (ja) * 2012-12-25 2014-07-07 Nippon Telegr & Teleph Corp <Ntt> 部分的木構造に応じた適応型再構成装置及び方法及びプログラム
JP2024000384A (ja) * 2022-06-20 2024-01-05 株式会社日立製作所 グラフ統合システム及び方法
WO2024134703A1 (ja) * 2022-12-19 2024-06-27 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014166A (ja) * 1999-06-29 2001-01-19 Fujitsu Ltd オントロジー対応付け情報生成装置
JP2005352874A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索装置、情報検索支援装置および情報検索プログラムおよび情報検索支援プログラム
JP2008084114A (ja) * 2006-09-28 2008-04-10 Toshiba Corp オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム
WO2008146807A1 (ja) * 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204647A (ja) 1992-01-13 1993-08-13 Nec Corp 有向グラフの単一化装置
US8150850B2 (en) * 2008-01-07 2012-04-03 Akiban Technologies, Inc. Multiple dimensioned database architecture
JP5340751B2 (ja) * 2008-04-22 2013-11-13 株式会社エヌ・ティ・ティ・ドコモ 文書処理装置および文書処理方法
US8065302B2 (en) * 2008-08-27 2011-11-22 Satyam Computer Services Limited System and method for annotation aggregation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014166A (ja) * 1999-06-29 2001-01-19 Fujitsu Ltd オントロジー対応付け情報生成装置
JP2005352874A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索装置、情報検索支援装置および情報検索プログラムおよび情報検索支援プログラム
JP2008084114A (ja) * 2006-09-28 2008-04-10 Toshiba Corp オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム
WO2008146807A1 (ja) * 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014126883A (ja) * 2012-12-25 2014-07-07 Nippon Telegr & Teleph Corp <Ntt> 部分的木構造に応じた適応型再構成装置及び方法及びプログラム
JP2024000384A (ja) * 2022-06-20 2024-01-05 株式会社日立製作所 グラフ統合システム及び方法
JP7807992B2 (ja) 2022-06-20 2026-01-28 株式会社日立製作所 グラフ統合システム及び方法
WO2024134703A1 (ja) * 2022-12-19 2024-06-27 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Also Published As

Publication number Publication date
CN103026358A (zh) 2013-04-03
JPWO2012035754A1 (ja) 2014-01-20
US8972356B2 (en) 2015-03-03
US20130091095A1 (en) 2013-04-11

Similar Documents

Publication Publication Date Title
KR102178295B1 (ko) 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
JP5995409B2 (ja) コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル
US9563974B2 (en) Aggregating graph structures
JP4429236B2 (ja) 分類ルール作成支援方法
JP2013152656A (ja) 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
CN101751333A (zh) 用于支援程序解析的方法、及其计算机程序以及计算机系统
Guyet et al. Incremental mining of frequent serial episodes considering multiple occurrences
US9674083B2 (en) Path calculation order deciding method, program and calculating apparatus
US20130282649A1 (en) Deterministic finite automation minimization
JPWO2018235841A1 (ja) グラフ構造解析装置、グラフ構造解析方法、及びプログラム
CN113641654B (zh) 一种基于实时事件的营销处置规则引擎方法
WO2012035754A1 (ja) データ統合処理装置、システム、方法及びプログラム
JP5964781B2 (ja) 検索装置、検索方法および検索プログラム
JP5790820B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
US10467530B2 (en) Searching text via function learning
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
JP2013003611A (ja) 設計検証方法及びプログラム
CN111046160B (zh) 交互方法、交互装置以及计算机系统
JP6135466B2 (ja) テストケース抽出プログラム、方法及び装置
CN117391643A (zh) 一种基于知识图谱的医保单据审核方法及系统
US20180144043A1 (en) Creating device, creating method, and non-transitory computer-readable recording medium
US10430104B2 (en) Distributing data by successive spatial partitionings
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180036143.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11824768

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012533861

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13805398

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11824768

Country of ref document: EP

Kind code of ref document: A1