EP3948579A1 - System and method for enriching data - Google Patents
System and method for enriching dataInfo
- Publication number
- EP3948579A1 EP3948579A1 EP20731903.9A EP20731903A EP3948579A1 EP 3948579 A1 EP3948579 A1 EP 3948579A1 EP 20731903 A EP20731903 A EP 20731903A EP 3948579 A1 EP3948579 A1 EP 3948579A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- data
- label
- enriched
- fundamental
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Definitions
- the field of the invention relates to the enrichment of data, in particular when the latter present the risk of including inaccuracies or errors due to the conditions of transmission and reception of these data.
- One of the main applications of the invention relates in particular to mobile banking, better known by the English term "mobile banking”.
- the need to make the data received reliable is an important issue in all systems in which the transfer of data, sometimes repeatedly, is inevitable.
- the field of mobile banking which designates all types of financial services accessible from mobile equipment connected to a wide area network, such as a mobile phone for example, is a field in which data transfers are numerous and restitution of this data is a necessary condition for the implementation of the services.
- the data transferred may include information such as the name of a merchant, his activity code, his location, his name, etc. It is therefore necessary to ensure the reliability of this data when it presents the risk of containing errors for the proper functioning of the services.
- the present invention improves the situation.
- the present invention relates to a data enrichment method implemented by computer means and comprising:
- a) receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data, ...
- the fundamental data is a series of characters, or a sound signal or a digital image.
- the method further comprises, following the reception of the data sets: generating for each data set, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the dataset.
- the grouping of the data sets is implemented as a function of the processed data respectively associated with the data sets.
- the fundamental data is a sequence of characters and the processed data is generated by deleting the sequence of characters of one or more characters from a list of predetermined characters.
- the grouping of the datasets uses an unsupervised learning algorithm.
- each set of data stored in the at least one database further comprises fundamental data and, if the combination of at least part of the metadata and of the label of an enriched data set is present in at least one database in a corresponding data set, the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the corresponding data set.
- each set of data stored in the at least one database further comprises fundamental data
- the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched data set is present in corresponding data sets respectively stored in separate databases of the plurality of databases, the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the greatest reliability coefficient.
- each set of data stored in the at least one database further comprises fundamental data
- the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched dataset is present in corresponding data sets respectively stored in separate databases of the plurality of databases, each fundamental data present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data in question, and the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data associated with the factor highest likelihood.
- each metadata of an enriched data set being associated with a weight the combination of at least part of the metadata and of the label is present in a database if and only if a value of one. presence function, calculated as a function of the respective weights of the metadata of the combination present in the database, is greater than or equal to a predetermined threshold.
- the enriched data set is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and of the label of the enriched data set has been found.
- steps b) to e) are repeated for the data sets from which the label has been removed with a new similarity function, so that a data set cannot be enriched by a label already aggregated then removed previously.
- steps b) to e) are limited to a predetermined maximum number of iterations.
- the fundamental data relates to an individual or of an entity
- the metadata comprises at least contact data of the individual or of the entity, and in which the enriched data set is transmitted, using contact data, to the individual or entity for verification of the aggregated label.
- contact data is a postal address, phone number, email address and / or an address of an application user account.
- the present invention also relates to a computer program comprising instructions for implementing the method described above, when the instructions are executed by at least one processor.
- the present invention relates to a data enrichment system comprising:
- a communication module designed to receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data,
- processing unit designed for:
- At least one database configured to store sets of data each comprising metadata and a label
- processing unit being furthermore arranged for:
- FIG. 1 illustrates a data enrichment system according to the invention
- FIG. 2 illustrates a data enrichment method according to the invention.
- FIG. 1 illustrates a data enrichment system, hereinafter SYS system, according to the invention.
- the SYS system is designed to receive data presenting the risk of including errors or inaccuracies and to enrich these data despite these potential errors or inaccuracies.
- the data received by the SYS system is indeed likely to include a certain level of noise.
- this data is liable to contain erroneous characters or inaccuracies. It is therefore understood here that noise typically designates any error introduced into a character sequence at the source, on transmission or on reception or during the transmission of data.
- the data received at the entrance of the SYS system are data allowing a user to access financial services from a mobile device. , for example a cell phone.
- the data transferred then makes it possible to consult an online account or to make a transfer.
- the data can correspond to the name of a merchant, to his activity code, to his location, therefore his city, his address and his postal code, or even to his name.
- certain information is limited to a maximum number of characters. The transfer of data representative of such information is therefore necessarily imprecise and incomplete since not all the characters could be entered.
- noise refers, for example, to this type of imprecision.
- the SYS system is designed to allow, even when these data contain errors, sometimes introduced at the source but also at the sending or receiving of the data, the provision of the service.
- These data can also be a sound signal comprising noise or a digital image comprising digital noise.
- the SYS system is designed to enrich the data despite this potential noise
- the SYS system comprises a processing unit UNT and at least one database, here two databases DB1, DB2.
- the UNT processing unit is designed to, upon receipt of several data sets, enrich each data set and verify the relevance of this data enrichment using databases DB1, DB2. More specifically, the processing unit UNT is designed to generate, for each set of data received, an additional piece of data called a label and to aggregate or append the label generated to the associated set of data. In the literature, we will also talk about label to designate the label.
- processing unit UNT is also arranged to apply processing to at least part of the data received in order to reduce a level of noise that the data is likely to contain.
- the processing unit UNT is furthermore arranged for, once a data set has been enriched, forwarding this data set to an address in order to allow a user to take cognizance of the enriched data and to verify that this data has been correctly enriched. .
- Each set of data comprises a fundamental datum Di, D 2 , D 3 and one or more metadata relating to this fundamental datum.
- Metadata accompanying fundamental data is descriptive data used to describe or define fundamental data.
- the fundamental data is the description of a merchant while the metadata characterizes his activity code, his location or any other information concerning the merchant in question.
- the first set of data DAT1 comprises the fundamental data item Di and further comprises metadata MDi 1 , MDi m .
- the second set of data DAT2 comprises the fundamental data item D 2 and further comprises metadata MD 2 ⁇ MD 2 ′′.
- the third set of data DAT3 comprises the fundamental data item D 3 and further comprises metadata MD 3 ⁇ MD 3 P.
- m, n and p are natural numbers designating the respective number of metadata of the first, second and third data sets DAT1, DAT2, DAT3.
- the fundamental data of each set of data is likely to present a certain level of noise and therefore to include errors or inaccuracies.
- the processing applied by the UNT to fundamental data to reduce noise can also be applied to metadata.
- the processing unit UNT is designed in particular to generate a piece of data processed by applying a processing for reducing a noise level to the fundamental datum of a set of data.
- the metadata can also be noisy and that the processing unit UNT can also be arranged to generate new metadata by applying a noise reduction processing to the received metadata.
- three enriched data sets DAT1 *, DAT2 *, DAT3 * are generated by the UNT processing unit.
- the processing unit UNT is more particularly designed to generate, for each set of data received, additional data also called label or label and to enrich each set of data by aggregating or adding to it the label generated.
- the first and second data sets DAT1, DAT2 are enriched by a single label label (Ci) while the third data set DAT3 is enriched by a label label (C 3 ).
- the UNT processing unit comprises a COM communication module, a MEM memory and a PROC processor.
- the COM communication module is designed to receive several sets of data.
- the communication module COM is arranged to receive the first, second and third sets of data DAT1, DAT2, DAT3.
- the communication module COM is furthermore designed to send several enriched data sets.
- the communication module COM is arranged to send the first, second and third enriched data sets DAT1 *, DAT2 *, DAT3 *.
- the communication module COM can integrate one or more communication modules, for example radiofrequency communication and be configured for the transmission and reception of radiofrequency signals, according to one or more technologies, such as TDMA, FDMA, OFDMA, CDMA, or one or more standards communications, such as GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE-A, WiFi (IEEE 802.11) and WiMAX (IEEE 802.16), or their variants or evolutions, currently known or developed later.
- technologies such as TDMA, FDMA, OFDMA, CDMA
- standards communications such as GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE-A, WiFi (IEEE 802.11) and WiMAX (IEEE 802.16), or their variants or evolutions, currently known or developed later.
- the COM communication module is arranged to communicate with a wide area network (also known by the English acronym WAN for “Wide Area Newtork”), a local network (also known by the English acronym LAN for " Local Area Network ”) or any other type of network.
- a wide area network also known by the English acronym WAN for "Wide Area Newtork”
- a local network also known by the English acronym LAN for " Local Area Network ”
- any other type of network any other type of network.
- Data sets are, for example, sent to the COM communication module of the UNT processing unit following the use of an application.
- an application is typically implemented on a terminal, for example a mobile terminal of smartphone type (common English term for a smart phone), and is for example intended to be used by a user.
- the user makes a payment via this application and this payment generates the generation of at least part of the data of a set of data, whether it is the fundamental data and / or the metadata. It is typically in such a case that noise can be introduced with errors or inaccuracies.
- this information is a series of characters.
- the memory MEM is arranged to store instructions in the form of a computer program whose execution by the processor PROC results in the operation of the processing unit UNT.
- the SYS system also includes at least one database.
- the SYS system includes two databases DB1, DB2. Nevertheless, those skilled in the art understand here that the SYS system can only include a single database.
- Each DB1, DB2 database is configured to store data sets each including metadata and a label.
- one or more data sets stored in a database DB 1, DB2 also include, in addition to metadata and a label, fundamental data.
- each DB1, DB2 database is configured to be accessible to the UNT processing unit within the SYS system. As explained in the remainder of the description, this accessibility results in the possibility for the processing unit UNT to perform a search within each database DB1, DB2 to establish, if possible, a correspondence between a set of enriched data and data sets stored in databases. This research aims in particular to verify the relevance of the enrichment of the set of data produced and its conformity with known databases.
- the databases sent by the processing unit UNT to verify that a set of data received has been correctly enriched is for example a database of the SIREN type (for "Identification system of the directory of companies ”), SIRET (for“ Identification system of the establishment directory ”) or even Infogreffe.
- SIREN for "Identification system of the directory of companies ”
- SIRET for“ Identification system of the establishment directory
- Infogreffe information relating to the identification of a company, a company, an establishment, an organization or an association with activities in France.
- DB1 and DB2 databases can refer to any database of this type and not only for France.
- databases DB1, DB2 can also refer to other types of databases accessible by programming interfaces (also known by the acronym API for "Application programming interface").
- a set of data then relates, for example, to a company, a company or a merchant and the metadata included in the set of data are informative or descriptive data of a fundamental data concerning the name of the company, the company or the merchant.
- This fundamental data is, due to the transfer of the data set, likely to include errors or inaccuracies and therefore to be corrupted by a certain noise level. This noise may have been introduced at the source, on transmission or even on reception.
- the SYS system receives several sets of data. More specifically, the data sets are received by the COM communication module of the SYS system UNT processing unit.
- the communication module COM receives a first set of data DAT1, a second set of data DAT2 and a third set of data DAT3.
- this example is purely illustrative and the SYS system may have to process a much larger number of data sets.
- Each data set comprises a fundamental data and one or more metadata relating to the fundamental data.
- metadata makes it possible to define, describe or provide additional information about the fundamental data.
- the first set of data DAT1 comprises metadata MDi 1 , ..., MDi m describing the fundamental data item Di.
- the second data set DAT2 comprises metadata MD 2 ⁇ ..., Ml) 2 "describing the fundamental data item D 2.
- the third data set DAT3 comprises metadata MD3 1 , ..., MD 3 P describing the fundamental data D 3 .
- the processing unit UNT of the system SYS generates for each set of data, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the 'dataset.
- noise can be introduced at the source, on the transmission or on the reception in the data set and more specifically in the fundamental data.
- the implementation of the service requiring the correct routing of the data set is then compromised by such errors or inaccuracies.
- the UNT processing unit applies any type of data processing allowing the noise level level of the fundamental data to be reduced. Those skilled in the art are familiar with the techniques usually employed to decrease the noise level or completely remove it from one or more data.
- the processed data is generated by deleting the sequence of characters of one or more characters from a list of characters predetermined.
- This list of characters is for example stored in the memory MEM of the processing unit UNT so that, when the processing unit detects a character from this list in a fundamental datum taking the form of a series of characters, this character is deleted to generate the processed data.
- the fundamental data can also be a sound signal or a digital image.
- the various techniques for reducing or eliminating noise in a sound signal or a digital image are widely known to those skilled in the art so that the UNT processing unit can be configured to be able to apply such techniques on the fundamental data of each set of data received by the SYS system.
- Di ′ denotes the processed data item generated by the first set of data DAT1 by reducing the noise level of the fundamental data item Di.
- D 2 ' denotes the processed data item generated by the second set of data DAT2 by reducing the noise level of the fundamental datum D 2
- D 3 ' denotes the processed datum generated by the third set of data DAT3 by reduction of the noise level of the fundamental datum D 3 .
- the data processed for a data set can be aggregated or appended to the data set in addition to or in place of the fundamental data, and in the company of the corresponding metadata.
- this step S2 has been implemented and that the processed data item replaces the fundamental data.
- this processed data item is therefore not generated and what is carried out subsequently using the processed data item l 'is using the fundamental data.
- this processed data can be identical to the fundamental data.
- the fundamental datum does not include any noise, the processed datum is identical to the fundamental datum.
- a counter i initialized to 1, is incremented and a similarity function I j is selected.
- the memory MEM stores a set of similarity functions.
- the processing unit UNT groups the data sets according to the processed data respectively associated with the data sets according to the similarity function.
- the grouping of data implemented by the processing unit UNT is better known under the English term “data clustering” or more simply “clustering”. We can also speak here of partitioning or clustering of data.
- the grouping techniques used by the processing unit UNT are techniques known to those skilled in the art.
- the grouping implemented by the processing unit UNT makes it possible to obtain a great intra-group similarity, namely a high homogeneity between the elements, here data sets, of the same group, and a low similarity inter-group, in order to have well-differentiated groups.
- the grouping implemented by the UNT processing unit comprises a partitioning algorithm, a hierarchical algorithm, a density-based algorithm, a grid algorithm or even a model algorithm.
- the grouping of data sets uses an unsupervised learning algorithm.
- Such algorithms are known to those skilled in the art.
- the data sets are grouped into groups, better known under the English term “clusters”, according to the similarity function used.
- the similarity function is a distance function defined on a space of M + l dimensions, where M is the number of metadata (M + l therefore corresponding to the cardinality of a set of data received with M metadata and a fundamental data ).
- M is the number of metadata
- M + l therefore corresponding to the cardinality of a set of data received with M metadata and a fundamental data .
- the similarity function can be a Euclidean distance.
- the similarity function can be a Levenshtein distance.
- the similarity function can be a combination of a Euclidean distance and a Levenshtein distance.
- the first set of data DAT1 and the second set of data DAT2 are grouped together in the same group or “cluster” Ci.
- the third set of data DAT3 is for its part placed in a group C 2 .
- the first, second and third data sets DAT1, DAT2, DAT3 have been grouped together according to their respective processed data Di ', D 2 ', D 3 '.
- the generation of the processed data item is optional.
- the grouping of the datasets is implemented according to the respective fundamental data of the datasets.
- the processing unit UNT enriches each set of data with an additional piece of data called a label characterizing the group to which the set of data considered belongs.
- a set of data receives, at the end of the grouping, a data additional characterization of the group into which the data set in question has been classified.
- this additional data also called label or tag, is aggregated or appended to the data set.
- the first and second data sets DAT1, DAT2 have been classified in the same group or “cluster” Ci. These two data sets DAT1, DAT2 are therefore enriched by the same additional data item referenced label (Ci). Likewise, the third set of data DAT3 having been classified in the group or "cluster” C 2 , it is enriched by the additional data item label (C 2 ).
- the processing unit UNT searches, for each enriched data set, in at least one database storing data sets each comprising metadata and a label, a combination of at least part metadata and the label of the enriched data set considered.
- the first enriched set DAT1 comprises the fundamental data Di, metadata MDi 1 , ..., MDi m , a label label (Ci) and, optionally, the processed data Di ' .
- the search performed by the processing unit UNT in at least one of the databases DB1, DB2 therefore aims to determine whether the combination of at least part of the metadata MDi 1 , ..., MDi m and the label label ( Ci) is present in a dataset among the datasets stored in the database DB1, DB2.
- a search is carried out in all the databases, therefore here the database DB 1 and the database DB2.
- a “corresponding data set” to designate a data set stored in a database and comprising the desired combination.
- this dataset is a corresponding dataset of the enriched dataset from which the sought combination is derived.
- each metadata of an enriched data set is associated with a weight.
- This weight makes it possible to characterize the importance of a metadata within a set of data.
- the combination of at least part of the metadata and the label is then considered to be present in a database if and only if a value of a presence function, calculated according to the respective weights of the metadata of the combination present in the database in question is greater than or equal to a predetermined threshold.
- an additional criterion is applied to determine whether a dataset stored in a database can be considered a "corresponding dataset”.
- This criterion consists of verifying whether a potential corresponding dataset is sufficiently meaningful, according to the metadata it contains and shares in common with an enriched dataset.
- the need for the label of this potential corresponding data set to be the same as the enriched data set considered remains in this specific embodiment.
- the metadata MDi 1 , ..., MDi m are all respectively associated with a weight Pi 1 , ..., Pi m .
- a set of data includes the metadata MDi 1 , ..., MDi k and the label label (Ci), where k is a natural integer strictly less than m.
- this data set found in the database DB1 does indeed include at least part of the metadata of the first enriched data set DAT1 * as well as the label label (Ci). So this is a potential matching dataset.
- Vf G (Pi ⁇ ..., Pi k )
- This value Vi is then compared with a predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the dataset found in the database DB1 is relevant and is retained as a corresponding dataset.
- the presence function G is an addition or a multiplication.
- the dataset found in the DB2 database includes the metadata MD, MDi m , where j is a natural number less than m, and the label label (Ci).
- the processing unit UNT then calculates the value V 2 taken by the function G taken for this combination found. In other words:
- V 2 G (P 1 j , ..., P 1 k )
- This value V 2 is then compared with the predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the data set found in the database DB2 is relevant and is retained as a corresponding data set.
- the dataset found in the DB1 database is retained according to this criterion while the one found in the DB2 database is not.
- a corresponding data set is not only a data set stored in a database comprising the combination of at least part of the metadata and the label of an enriched data set but also a data set verifying the criterion described above concerning the respective weights of the metadata that it shares with the enriched data set on the basis of which the search is carried out by the UNT processing.
- step S6 implemented in particular in the case where a combination of at least part of the metadata and of the label of an enriched data set is absent from the at least one database, the label previously assigned is removed from the enriched dataset.
- the label since there is no trace in any database of a combination of at least part of the metadata and the label, it is considered that it was by mistake that it was assigned during the grouping of step S3 to the data set considered.
- This previously enriched is therefore removed from the additional data or label which has been aggregated or added to it.
- step S4 this has been enriched by the additional data item label (Ci).
- the processing unit UNT therefore then searched, during step S5, in at least one of the databases DB 1, DB2 if a set of data stored in one of these databases DB 1, DB2, comprises both at least part of the metadata M1) 2 ', ..., MD 2 "and the additional data label (Ci). If no data set stored in the databases DB1, DB2 does not include such a combination, the label label (Ci) is therefore removed from the second enriched data set DAT2 *.
- such a search can be performed on a plurality of databases, here two databases DB1, DB2 and a corresponding set of data can be found in several different databases.
- the processing unit UNT searched in the database DB1 but also in the database DB2 for a data set comprising the combination of at least part of the metadata MD 3 1 , ... MD 3 P and the label label (C 2 ). It is quite possible that a matching dataset was found in the DB1 database, while another matching dataset was found in the DB2 database.
- the processing unit UNT has found a data set stored in the database DB1 comprising the combination of at least part of the metadata and the label of the third enriched data set DAT3 * but also found a dataset stored in the DB2 database including this same combination of metadata and label.
- the processing unit UNT applies a predefined criterion to determine whether the result of this search which resulted in finding a corresponding set of data in more than one database of the system SYS makes it possible to conclude on the relevance of the label attributed or not.
- each database is characterized by a reliability coefficient.
- each set of data stored in a database further comprises fundamental data.
- the SYS system includes two databases DB1, DB2. Since there are several databases, each is assigned a reliability coefficient to quantify its relevance or reliability.
- the respective reliability coefficients of two distinct databases are distinct.
- the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2. It is also considered that the database DB 1 being more reliable than the database DB2, we have: CF1> CF2.
- the database with the highest reliability coefficient is the database DB 1 characterized by the reliability coefficient CFI.
- the processed data Di ’of the first enriched data set DAT1 * is therefore compared with the fundamental data of the corresponding data set found in the database DB1.
- the label of the enriched data set is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the highest coefficient of reliability.
- each database is again characterized by a reliability coefficient.
- each set of data stored in a database further comprises fundamental data.
- the processing unit UNT takes into account all the databases comprising a corresponding set of data.
- Each fundamental data item present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the considered fundamental data.
- a third database (not shown here) is included in the SYS system and is searched by the processing unit UNT in addition to the databases DB1, DB2.
- this third database is characterized by a reliability coefficient CF3.
- the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2.
- the respective reliability coefficients of two distinct databases are distinct.
- the processing unit UNT determines a likelihood factor FV (DF I 2 ) associated with the fundamental datum DFi 2 .
- This likelihood factor FV (DF I 2 ) is calculated as a function of the reliability coefficients of the database DB1 and of the database DB2, namely CFI and CF2.
- the processing unit UNT determines a likelihood factor FV (DF 3 ) associated with the fundamental datum DF 3 .
- This likelihood factor FV (DF 3 ) is calculated as a function of the reliability coefficient of the third database, namely CF3.
- a likelihood factor is determined by adding the reliability coefficients.
- the processed data D 3 'of the third enriched data set DAT3 * is then compared with the fundamental data associated with the highest likelihood factor.
- each data item fundamental present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data considered, and the label of the set of enriched data is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data associated with the highest likelihood factor.
- Step S6 is implemented for an enriched data set either following step S5 if it turns out that the combination of at least part of the metadata and the label of this enriched data set is not present in any database, either following step S7 if this combination has been found in several databases and it turns out that the assigned label is incorrect. During this step S6, therefore, the label of the enriched data set is removed. Then, as illustrated in [Fig. 2], it is determined whether the counter i characterizing the number of iterations of the method is less than or equal to a predetermined maximum number of iterations N. If this maximum number of iterations has not yet been reached, the counter is incremented .
- a new similarity function for example stored in the memory MEM of the processing unit UNT. Steps S3 and following are then repeated for the data sets whose label has been removed with the new similarity function, so that a data set cannot be enriched by a label already aggregated and then removed previously.
- a similarity function calculates a distance between two sets of data so that two sets of data are grouped together in the same group or cluster when the distance between these two sets of data is less than or equal to a certain threshold. Also, when a new similarity function is selected, it is also possible to modify this threshold, for example by increasing it. Furthermore, it is also possible to keep the same similarity function and only change the threshold.
- the processing unit UNT interrupts the loop and proceeds to step S8 even though some data sets are found without an assigned label.
- Step S8 is implemented at the end of step S7 if it is determined that the label attributed to a set of data during the enrichment of the latter is correct in view of the search carried out on T at least one database, it is then considered that this data set has been correctly enriched.
- Step S8 can also be implemented if the maximum number of predetermined iterations N of the method has been reached.
- step S8 can also be implemented in the case where, for an enriched data set, the combination of at least part of the metadata and of the label of this enriched data set has only been found. in a single database at the end of step S5.
- the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the data set corresponding.
- the fundamental data of the corresponding data set is distinct from the enriched data set.
- this fundamental data present in the corresponding dataset may correspond to the processed data.
- the enriched data set at the output of the system comprises at least either the original fundamental data, the processed data or the fundamental data found in the corresponding data set.
- the processing unit UNT compares the fundamental datum D 2 of the second enriched data set DAT2 * is compared with the fundamental data of the corresponding data set stored in the database DB1. If the fundamental data of the corresponding data set is distinct from the fundamental data of the second data set enriched, the latter is then replaced in the second enriched data set by the fundamental data of the corresponding data set.
- each set of data has benefited from at most N iterations of steps S3 and following to be assigned a consistent label in view of the search carried out on one or more databases of the system.
- enriched data sets which, at the end of step S8, have retained their label because of the positive result of the search in the database or databases DB1, DB2, or because the combination d '' at least part of the metadata and the label were found in a single database, either because this combination was found in several databases and the label finally appeared correct in the light of the search, such enriched sets may also be supplemented by new metadata from databases.
- the test consists in determining whether, for a set of data, the combination of at least part of the metadata and of the label generated are included in at least one set of data, called the corresponding set of data, at least one database. But such corresponding sets can of course include other data in addition to the desired combination.
- This additional metadata can then be retrieved by the UNT processing unit to advantageously complement the enriched data sets.
- the enriched datasets DAT1 *, DAT2 *, DAT3 * do not include additional metadata compared to the datasets DAT1, DAT2, DAT3 received by the system.
- the enriched data can comprise additional metadata originating from databases DB1, DB2.
- the enriched data sets can be enriched again so as to keep, for the sake of traceability, a history of the enrichment of the data and of the search within the databases.
- an enriched data set can be completed by a piece of data representative of the similarity function used to implement the grouping in step S2.
- an enriched data set can also or alternatively be supplemented by data representative of the database within which the most relevant corresponding set has been found.
- data representative of the database within which the most relevant corresponding set has been found may be representative of at least part of the databases within which these corresponding data sets are stored.
- a set of enriched data at the output of the SYS system can include, in addition to the label and possibly the data processed with or in place of the original fundamental data, data making it possible to characterize the different steps of the process that led to generation and verification of enriched data sets.
- This additional enrichment of a set of data typically comprises data representative of the similarity function used and / or one or more data representative of databases in which corresponding sets are stored.
- the enriched data set in question is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and the label of this enriched data set has been found.
- step S9 optionally implemented at the end of step S8, the metadata of the enriched data sets are used in order to carry out a verification of the assigned label. Such a check can also make it possible to correct the fundamental data if necessary.
- the fundamental data relates to an individual or of an entity
- the metadata comprises at least contact data of the individual or of the entity.
- the enriched data set is transmitted, using contact data, for verification of the aggregated label.
- An entity can designate here a company, a company, an organization or an establishment.
- contact data may already be present in the data set received and then enriched, but may also be retrieved from one of the databases.
- DB1 data, DB2 if the search result is satisfactory.
- contact data is sought. in the corresponding set or sets within the database or databases.
- the enriched data sets are processed before transmission in order to keep either the fundamental data as received by the communication module COM or the data processed or the fundamental data recovered from a database.
- the fundamental data item Di received is kept alone.
- the processed data item D 2 'generated is kept alone.
- the processed data item D 3 'generated is kept alone.
- the contact data can be for example a postal address, a telephone number and / or an e-mail address.
- the metadata of the first enriched data set comprises contact data relating to an electronic address ADD1
- the metadata of the second enriched data set include contact data relating to a telephone number.
- telephone ADD2 while the metadata of the third enriched data set comprises contact data relating to a postal address ADD3.
- an enriched data set may be, for verification purposes, obviously transmitted to the individual or entity being the subject of these data but may also be sent to the source of the dataset.
- the generation of a set of data and then the transmission to the SYS system may have been triggered by a user's terminal, for example during a payment. . More precisely, this data is generated from a user account of the user on the payment application. These data do not relate to the user in question but to the trade, business or society.
- the enriched data set can therefore be transmitted for verification of course to the business, the company or the company via contact data included in the metadata, but can also, still for verification, also be sent to the user account at the origin of the generation of the data set as received by the SYS system and more particularly by the communication module COM.
- the enriched data sets are then transmitted to these addresses provided by the contact data, for example via the communication module COM, for verifications of the label, and possibly of the fundamental / processed data and of the data. 'enriched data set transmitted.
- the processing unit UNT is for example provided with technologies to automatically send an email or use a call bot to automatically call the retrieved phone number.
- this erroneous data can be corrected and then sent back to the SYS system.
- this application also allows him to receive the enriched set of data at the output of the system and to access, at least in part, certain data in the enriched data set for verification purposes. If a data, for example the fundamental data or the processed data or a metadata, is erroneous, the user has the possibility to correct this data then to send this correction to the SYS system.
- the SYS system can then re-implement certain steps of the method described above. For example, the SYS system can re-group or cluster on multiple corrected rich data sets or re-search one or more databases.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Description Description
Titre : Système et procédé d’enrichissement de données Title: System and process for data enrichment
Le domaine de l’invention se rapporte à l’enrichissement des données, notamment lorsque celles-ci présentent le risque de comporter des imprécisions ou des erreurs dues aux conditions d’émission et de réception de ces données. L’une des applications principales de l’invention concerne notamment la banque mobile, plus connue sous le terme anglophone « mobile banking ». The field of the invention relates to the enrichment of data, in particular when the latter present the risk of including inaccuracies or errors due to the conditions of transmission and reception of these data. One of the main applications of the invention relates in particular to mobile banking, better known by the English term "mobile banking".
Lorsque des données sont transmises, il existe un risque que celles-ci soient compromises et des erreurs ou des imprécisions résultent bien souvent du transfert des données. Ces erreurs ou imprécisions dans les données peuvent être présentes à la source mais peuvent également être introduites à l’émission ou à la réception. When data is transmitted, there is a risk that the data will be compromised and errors or inaccuracies often result from the transfer of the data. These errors or inaccuracies in the data may be present at the source but may also be introduced on transmission or reception.
La nécessité de fiabiliser les données reçues est un enjeu important dans tous les systèmes dans lesquels le transfert des données, parfois de manière répétée, est inévitable. En particulier, le domaine de la banque mobile, qui désigne tous types de services financiers accessibles depuis un équipement mobile connecté à un réseau étendu, tel qu’un téléphone portable par exemple, est un domaine dans lequel les transferts de données sont nombreux et la restitution de ces données est une condition nécessaire à la mise en œuvre des services. Dans ce domaine spécifique, les données transférées peuvent comporter des informations telles que le libellé d’un commerçant, son code d’activité, sa localisation, son nom, etc. Il est alors nécessaire de s’assurer de la fiabilité de ces données lorsque celles-ci présentent le risque de comporter des erreurs pour le bon fonctionnement des services. The need to make the data received reliable is an important issue in all systems in which the transfer of data, sometimes repeatedly, is inevitable. In particular, the field of mobile banking, which designates all types of financial services accessible from mobile equipment connected to a wide area network, such as a mobile phone for example, is a field in which data transfers are numerous and restitution of this data is a necessary condition for the implementation of the services. In this specific area, the data transferred may include information such as the name of a merchant, his activity code, his location, his name, etc. It is therefore necessary to ensure the reliability of this data when it presents the risk of containing errors for the proper functioning of the services.
La présente invention vient améliorer la situation. The present invention improves the situation.
A ce titre, la présente invention concerne un procédé d’enrichissement de données mis en œuvre par des moyens informatiques et comprenant : As such, the present invention relates to a data enrichment method implemented by computer means and comprising:
a) recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale,... a) receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data, ...
b) grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité,... b) grouping the data sets according to the fundamental data respectively associated with the data sets according to a similarity function, ...
c) enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données, c) enrich each set of data with additional data known as a label characterizing the group to which the set of data belongs,
d) chercher pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi, et d) searching for each enriched data set, in at least one database storing data sets each comprising metadata and a label, a combination of at least part of the metadata and the label of the enriched data set , and
e) si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi. e) if the combination of at least part of the metadata and the label of the dataset enriched is missing from the at least one database, remove the label from the enriched data set.
Par exemple, la donnée fondamentale est une suite de caractères, ou un signal sonore ou une image numérique. For example, the fundamental data is a series of characters, or a sound signal or a digital image.
Selon un mode de réalisation, le procédé comprend en outre, suite à la réception des ensembles de données: générer pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données. Dans un tel mode de réalisation, le regroupement des ensembles de données est mis en œuvre en fonction des données traitées respectivement associées aux ensembles de données. According to one embodiment, the method further comprises, following the reception of the data sets: generating for each data set, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the dataset. In such an embodiment, the grouping of the data sets is implemented as a function of the processed data respectively associated with the data sets.
Par exemple, la donnée fondamentale est une suite de caractères et la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés. For example, the fundamental data is a sequence of characters and the processed data is generated by deleting the sequence of characters of one or more characters from a list of predetermined characters.
Selon un mode de réalisation, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé. According to one embodiment, the grouping of the datasets uses an unsupervised learning algorithm.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale et, si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans l’au moins une base de données dans un ensemble de données correspondant, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant. According to one embodiment, each set of data stored in the at least one database further comprises fundamental data and, if the combination of at least part of the metadata and of the label of an enriched data set is present in at least one database in a corresponding data set, the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the corresponding data set.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité. According to one embodiment, each set of data stored in the at least one database further comprises fundamental data, and the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched data set is present in corresponding data sets respectively stored in separate databases of the plurality of databases, the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the greatest reliability coefficient.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale en question, et le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé. According to one embodiment, each set of data stored in the at least one database further comprises fundamental data, and the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched dataset is present in corresponding data sets respectively stored in separate databases of the plurality of databases, each fundamental data present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data in question, and the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data associated with the factor highest likelihood.
Selon un mode de réalisation, chaque métadonnées d’un ensemble de données enrichi étant associé à un poids, la combinaison d’une partie au moins des métadonnées et du label est présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données, est supérieure ou égale un seuil prédéterminé. According to one embodiment, each metadata of an enriched data set being associated with a weight, the combination of at least part of the metadata and of the label is present in a database if and only if a value of one. presence function, calculated as a function of the respective weights of the metadata of the combination present in the database, is greater than or equal to a predetermined threshold.
Selon un mode de réalisation, si, après la recherche dans l’au moins une base de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi a été trouvée. According to one embodiment, if, after the search in the at least one database, an enriched data set retains its label, the enriched data set is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and of the label of the enriched data set has been found.
Selon un mode de réalisation, :les étapes b) à e) sont répétées pour les ensembles de données dont le label a été retiré avec une nouvelle fonction de similarité, de sorte qu’un ensemble de données ne peut être enrichi par un label déjà agrégé puis retiré précédemment. According to one embodiment,: steps b) to e) are repeated for the data sets from which the label has been removed with a new similarity function, so that a data set cannot be enriched by a label already aggregated then removed previously.
Par exemple, la répétition des étapes b) à e) est limitée à un nombre d’itérations maximal prédéterminé. For example, the repetition of steps b) to e) is limited to a predetermined maximum number of iterations.
Selon un mode de réalisation, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité, et dans lequel l’ensemble de données enrichi est transmis, à l’aide des données de contact, à destination de l’individu ou de l’entité pour une vérification du label agrégé. According to one embodiment, the fundamental data relates to an individual or of an entity, and the metadata comprises at least contact data of the individual or of the entity, and in which the enriched data set is transmitted, using contact data, to the individual or entity for verification of the aggregated label.
Par exemple, les données de contact sont une adresse postale, un numéro de téléphone, une adresse électronique et/ou une adresse d’un compte utilisateur d’une application. For example, contact data is a postal address, phone number, email address and / or an address of an application user account.
La présente invention concerne également un programme informatique comprenant des instructions pour la mise en œuvre du procédé décrit précédemment, lorsque les instructions sont exécutées par au moins un processeur. The present invention also relates to a computer program comprising instructions for implementing the method described above, when the instructions are executed by at least one processor.
Enfin, la présente invention vise un système d’enrichissement de données comprenant : Finally, the present invention relates to a data enrichment system comprising:
- un module de communication agencé pour recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale, - a communication module designed to receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data,
- une unité de traitement agencée pour : - a processing unit designed for:
grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité, group the data sets according to the fundamental data respectively associated with the data sets according to a similarity function,
enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient ledit ensemble de données, et enrich each set of data with additional data known as a label characterizing the group to which said set of data belongs, and
- au moins une base de données configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label, - at least one database configured to store sets of data each comprising metadata and a label,
l’unité de traitement étant agencée en outre pour : the processing unit being furthermore arranged for:
chercher pour chaque ensemble de données enrichi, dans l’au moins une base de données, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi. search for each enriched data set, in at least one database, a combination of at least part of the metadata and of the label of said enriched data set, and whether the combination of at least part of the metadata and of the label of the enriched data set is absent from the at least one database, removing the label from the enriched data set.
D’autres caractéristiques, détails et avantages de l’invention apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels : Other characteristics, details and advantages of the invention will become apparent on reading the detailed description below, and on analyzing the accompanying drawings, in which:
- [Fig. 1] illustre un système d’enrichissement de données selon l’invention; et - [Fig. 1] illustrates a data enrichment system according to the invention; and
- [Fig. 2] illustre un procédé d’enrichissement de données selon l’invention. - [Fig. 2] illustrates a data enrichment method according to the invention.
La [Fig. 1] illustre un système d’enrichissement de données, ci-après système SYS, selon l’invention. The [Fig. 1] illustrates a data enrichment system, hereinafter SYS system, according to the invention.
Le système SYS est agencé pour recevoir des données présentant le risque de comporter des erreurs ou des imprécisions et pour enrichir ces données malgré ces potentielles erreurs ou imprécisions. The SYS system is designed to receive data presenting the risk of including errors or inaccuracies and to enrich these data despite these potential errors or inaccuracies.
Dans le contexte de l’invention, les données reçues par le système SYS sont en effet susceptibles de comporter un certain niveau de bruit. Par exemple, lorsque les données correspondent à une suite de caractères, ces données sont susceptibles de comporter des caractères erronés ou des imprécisions. On comprend donc ici que le bruit désigne typiquement toute erreur introduite dans une suite de caractère à la source, à l’émission ou à la réception ou lors de la transmission des données. In the context of the invention, the data received by the SYS system is indeed likely to include a certain level of noise. For example, when the data corresponds to a series of characters, this data is liable to contain erroneous characters or inaccuracies. It is therefore understood here that noise typically designates any error introduced into a character sequence at the source, on transmission or on reception or during the transmission of data.
Typiquement, dans le contexte de la banque mobile (aussi connue sous le terme anglophone « mobile banking »), les données reçues à l’entrée du système SYS sont des données permettant à un utilisateur d’accéder à des services financiers depuis un équipement mobile, par exemple un téléphone portable. Les données transférées permettent alors de consulter un compte en ligne ou encore d’effectuer un virement. Les données peuvent correspondre au libellé d’un commerçant, à son code d’activité, à sa localisation, donc sa ville, son adresse et son code postal, ou encore à son nom. Dans un tel domaine d’application, par exemple, certaines informations sont limitées à un nombre maximal de caractères. Le transfert de données représentatives de telles informations sont donc nécessairement imprécises et incomplètes puisque tous les caractères n’ont pu être renseignés. Dans la présente invention, le bruit fait référence, par exemple, à ce type d’imprécisions. Typically, in the context of mobile banking (also known by the English term “mobile banking”), the data received at the entrance of the SYS system are data allowing a user to access financial services from a mobile device. , for example a cell phone. The data transferred then makes it possible to consult an online account or to make a transfer. The data can correspond to the name of a merchant, to his activity code, to his location, therefore his city, his address and his postal code, or even to his name. In such a field of application, for example, certain information is limited to a maximum number of characters. The transfer of data representative of such information is therefore necessarily imprecise and incomplete since not all the characters could be entered. In the present invention, noise refers, for example, to this type of imprecision.
Le système SYS est agencé pour permettre, même lorsque ces données comportent des erreurs, introduites parfois à la source mais également à l’émission ou à la réception des données, la fourniture du service. The SYS system is designed to allow, even when these data contain errors, sometimes introduced at the source but also at the sending or receiving of the data, the provision of the service.
Ces données peuvent être également un signal sonore comportant du bruit ou une image numérique comportant du bruit numérique. Le système SYS est agencé pour enrichir les données malgré ce bruit potentiel These data can also be a sound signal comprising noise or a digital image comprising digital noise. The SYS system is designed to enrich the data despite this potential noise
Comme illustré en [Fig. 1], le système SYS comprend une unité de traitement UNT et au moins une base de données, ici deux bases de données DB1, DB2. As illustrated in [Fig. 1], the SYS system comprises a processing unit UNT and at least one database, here two databases DB1, DB2.
L’unité de traitement UNT est agencée pour, sur réception de plusieurs ensembles de données, enrichir chaque ensemble de données et vérifier la pertinence de cet enrichissement des données à l’aide des bases de données DB1, DB2. Plus spécifiquement, l’unité de traitement UNT est agencée pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire dite label et agréger ou adjoindre le label généré à l’ensemble de données associé. Dans la littérature, on parlera également d’étiquette pour désigner le label. The UNT processing unit is designed to, upon receipt of several data sets, enrich each data set and verify the relevance of this data enrichment using databases DB1, DB2. More specifically, the processing unit UNT is designed to generate, for each set of data received, an additional piece of data called a label and to aggregate or append the label generated to the associated set of data. In the literature, we will also talk about label to designate the label.
Par ailleurs, l’unité de traitement UNT est également agencée pour appliquer un traitement à une partie au moins des données reçues pour réduire un niveau de bruit que les données sont susceptibles de comporter. Furthermore, the processing unit UNT is also arranged to apply processing to at least part of the data received in order to reduce a level of noise that the data is likely to contain.
L’unité de traitement UNT est agencée en outre pour, une fois un ensemble de données enrichi, acheminer cet ensemble de données à une adresse afin de permettre à un utilisateur de prendre connaissance des données enrichies et de vérifier que ces données ont été correctement enrichies. The processing unit UNT is furthermore arranged for, once a data set has been enriched, forwarding this data set to an address in order to allow a user to take cognizance of the enriched data and to verify that this data has been correctly enriched. .
Dans l’exemple illustré en [Fig. 1], trois ensembles de données DAT1, DAT2, DAT3 sont transmis à l’unité de traitement UNT. In the example illustrated in [Fig. 1], three sets of data DAT1, DAT2, DAT3 are transmitted to the processing unit UNT.
Chaque ensemble de données comprend une donnée fondamentale Di, D2, D3 et une ou plusieurs métadonnées relatives à cette donnée fondamentales. Les métadonnées accompagnant les données fondamentales sont des données descriptives permettant de décrire ou de définir les données fondamentales. Par exemple, dans le domaine de la banque mobile, la donnée fondamentale est le libellé d’un commerçant tandis que les métadonnées caractérisent son code d’activité, sa localisation ou toute autre information concernant le commerçant en question. Dans l’exemple de la [Fig. 1], le premier ensemble de données DAT1 comprend la donnée fondamentale Di et comprend en outre des métadonnées MDi1, MDim. Le deuxième ensemble de données DAT2 comprend la donnée fondamentale D2 et comprend en outre des métadonnées MD2\ MD2“. Enfin, le troisième ensemble de données DAT3 comprend la donnée fondamentale D3 et comprend en outre des métadonnées MD3\ MD3 P. Dans les notations précédentes, m, n et p sont des entiers naturels désignant le nombre de métadonnées respectif des premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3. Each set of data comprises a fundamental datum Di, D 2 , D 3 and one or more metadata relating to this fundamental datum. Metadata accompanying fundamental data is descriptive data used to describe or define fundamental data. For example, in the field of mobile banking, the fundamental data is the description of a merchant while the metadata characterizes his activity code, his location or any other information concerning the merchant in question. In the example of [Fig. 1], the first set of data DAT1 comprises the fundamental data item Di and further comprises metadata MDi 1 , MDi m . The second set of data DAT2 comprises the fundamental data item D 2 and further comprises metadata MD 2 \ MD 2 ″. Finally, the third set of data DAT3 comprises the fundamental data item D 3 and further comprises metadata MD 3 \ MD 3 P. In the previous notations, m, n and p are natural numbers designating the respective number of metadata of the first, second and third data sets DAT1, DAT2, DAT3.
Dans le contexte de l’invention, la donnée fondamentale de chaque ensemble de données est susceptible de présenter un certain niveau de bruit et donc de comporter des erreurs ou des imprécisions. In the context of the invention, the fundamental data of each set of data is likely to present a certain level of noise and therefore to include errors or inaccuracies.
Bien entendu, les métadonnées sont également susceptibles de présenter un certain niveau de bruit. On comprend que le traitement appliqué par l’unité de traitement UNT aux données fondamentales pour réduire le bruit peut également être appliqué aux métadonnées. Dans la suite de la description, on se focalise en particulier sur le cas dans lequel les données fondamentales peuvent être bruitées. Comme expliqué par la suite, l’unité de traitement UNT est agencée notamment pour générer une donnée traitée en appliquant un traitement de diminution d’un niveau de bruit à la donnée fondamentale d’un ensemble de données. Of course, metadata is also likely to present a certain level of noise. It is understood that the processing applied by the UNT to fundamental data to reduce noise can also be applied to metadata. In the remainder of the description, we focus in particular on the case in which the fundamental data may be noisy. As explained below, the processing unit UNT is designed in particular to generate a piece of data processed by applying a processing for reducing a noise level to the fundamental datum of a set of data.
Toutefois, il est entendu que les métadonnées peuvent également être bruitées et que l’unité de traitement UNT peut également être agencée pour générer de nouvelles métadonnées par application d’un traitement de diminution d’un niveau de bruit aux métadonnées reçues. However, it is understood that the metadata can also be noisy and that the processing unit UNT can also be arranged to generate new metadata by applying a noise reduction processing to the received metadata.
Par ailleurs, toujours en référence à l’exemple illustré en [Fig. 1], trois ensembles de données enrichis DAT1*, DAT2*, DAT3* sont générés par l’unité de traitement UNT. Comme expliqué précédemment, l’unité de traitement UNT est agencée plus particulièrement pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire aussi appelée label ou étiquette et pour enrichir chaque ensemble de données en lui agrégeant ou adjoignant le label généré. Dans l’exemple décrit ici, les premier et deuxième ensembles de données DAT1, DAT2 sont enrichis par un même label label(Ci) tandis que le troisième ensemble de données DAT3 est enrichi par un label label(C3). Furthermore, still with reference to the example illustrated in [Fig. 1], three enriched data sets DAT1 *, DAT2 *, DAT3 * are generated by the UNT processing unit. As explained previously, the processing unit UNT is more particularly designed to generate, for each set of data received, additional data also called label or label and to enrich each set of data by aggregating or adding to it the label generated. In the example described here, the first and second data sets DAT1, DAT2 are enriched by a single label label (Ci) while the third data set DAT3 is enriched by a label label (C 3 ).
L’unité de traitement UNT comprend un module de communication COM, une mémoire MEM et un processeur PROC. The UNT processing unit comprises a COM communication module, a MEM memory and a PROC processor.
Le module de communication COM est agencé pour recevoir plusieurs ensembles de données. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour recevoir les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3. Par ailleurs, le module de communication COM est agencé en outre pour émettre plusieurs ensembles de données enrichis. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour émettre les premier, deuxième et troisième ensembles de données enrichis DAT1*, DAT2*, DAT3*. The COM communication module is designed to receive several sets of data. In the example illustrated in [Fig. 1], the communication module COM is arranged to receive the first, second and third sets of data DAT1, DAT2, DAT3. Furthermore, the communication module COM is furthermore designed to send several enriched data sets. In the example illustrated in [Fig. 1], the communication module COM is arranged to send the first, second and third enriched data sets DAT1 *, DAT2 *, DAT3 *.
Il est connu de l'homme du métier qu'il existe de nombreux types différents de réseaux de communication de données, par exemple des réseaux de radiocommunication, cellulaires ou non cellulaires, et qu’en fonction du mode de réalisation, le module de communication COM pourra intégrer un ou plusieurs modules de communication, par exemple de communication radiofréquence et être configuré pour l’émission et la réception de signaux radiofréquences, selon une ou plusieurs technologies, telles que TDMA, FDMA, OFDMA, CDMA, ou un ou plusieurs standards de radiocommunication, tels que GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE- A, WiFi (IEEE 802.11) et WiMAX (IEEE 802.16), ou leurs variantes ou évolutions, actuellement connus ou développés ultérieurement. It is known to those skilled in the art that there are many different types of data communication networks, for example radio communication networks, cellular or non-cellular, and that depending on the embodiment, the communication module COM can integrate one or more communication modules, for example radiofrequency communication and be configured for the transmission and reception of radiofrequency signals, according to one or more technologies, such as TDMA, FDMA, OFDMA, CDMA, or one or more standards communications, such as GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE-A, WiFi (IEEE 802.11) and WiMAX (IEEE 802.16), or their variants or evolutions, currently known or developed later.
En d’autres termes, le module de communication COM est agencé pour communiquer avec un réseau étendu (également connu sous l’acronyme anglophone WAN pour « Wide Area Newtork »), un réseau local (également connu sous l’acronyme anglophone LAN pour « Local Area Network ») ou tout autre type de réseau. In other words, the COM communication module is arranged to communicate with a wide area network (also known by the English acronym WAN for "Wide Area Newtork"), a local network (also known by the English acronym LAN for " Local Area Network ”) or any other type of network.
Les ensembles de données sont, par exemple, émis à destination du module de communication COM de l’unité de traitement UNT suite à l’utilisation d’une application. Une telle application est typiquement implémentée sur un terminal, par exemple un terminal mobile de type smartphone (terme anglophone usuel pour désigner un téléphone intelligent), et est par exemple destinée à être utilisée par un utilisateur. Par exemple, l’utilisateur effectue un paiement via cette application et ce paiement engendre la génération d’une partie au moins des données d’un ensemble de données, que ce soit la donnée fondamentale et/ou les métadonnées. C’est typiquement dans un tel cas que du bruit peut être introduit avec des erreurs ou des imprécisions. Par exemple, ces informations sont une suite de caractères. La mémoire MEM est agencée pour stocker des instructions sous la forme d’un programme informatique dont l’exécution par le processeur PROC se traduit par le fonctionnement de l’unité de traitement UNT. Data sets are, for example, sent to the COM communication module of the UNT processing unit following the use of an application. Such an application is typically implemented on a terminal, for example a mobile terminal of smartphone type (common English term for a smart phone), and is for example intended to be used by a user. For example, the user makes a payment via this application and this payment generates the generation of at least part of the data of a set of data, whether it is the fundamental data and / or the metadata. It is typically in such a case that noise can be introduced with errors or inaccuracies. For example, this information is a series of characters. The memory MEM is arranged to store instructions in the form of a computer program whose execution by the processor PROC results in the operation of the processing unit UNT.
Le fonctionnement du processeur PROC et donc de l’unité de traitement UNT sera décrit plus en détails dans la suite de la description en référence à la [Fig. 2]. The operation of the PROC processor and therefore of the processing unit UNT will be described in more detail in the remainder of the description with reference to [Fig. 2].
Comme expliqué précédemment, le système SYS comprend également au moins une base de données. Dans l’exemple illustré en [Fig. 1], le système SYS comprend deux bases de données DB1, DB2. Néanmoins, l’homme du métier comprend ici que le système SYS peut ne comprendre qu’une seule base de données. Chaque base de données DB1, DB2 est configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label. Avantageusement, un ou plusieurs ensembles de données stockés dans une base de données DB 1 , DB2 comprennent également, outre des métadonnées et un label, une donnée fondamentale. As explained previously, the SYS system also includes at least one database. In the example illustrated in [Fig. 1], the SYS system includes two databases DB1, DB2. Nevertheless, those skilled in the art understand here that the SYS system can only include a single database. Each DB1, DB2 database is configured to store data sets each including metadata and a label. Advantageously, one or more data sets stored in a database DB 1, DB2 also include, in addition to metadata and a label, fundamental data.
Par ailleurs, chaque base de données DB1, DB2 est configurée pour être accessible à l’unité de traitement UNT au sein du système SYS. Comme expliqué dans la suite de la description, cette accessibilité se traduit par la possibilité pour l’unité de traitement UNT d’effectuer une recherche au sein de chaque base de données DB1, DB2 pour établir, si possible, une correspondance entre un ensemble de données enrichi et les ensembles de données stockés dans les bases de données. Cette recherche vise en particulier à vérifier la pertinence de T enrichissement de l’ensemble de données réalisé et sa conformité avec les bases de données connues. Additionally, each DB1, DB2 database is configured to be accessible to the UNT processing unit within the SYS system. As explained in the remainder of the description, this accessibility results in the possibility for the processing unit UNT to perform a search within each database DB1, DB2 to establish, if possible, a correspondence between a set of enriched data and data sets stored in databases. This research aims in particular to verify the relevance of the enrichment of the set of data produced and its conformity with known databases.
Comme expliqué précédemment, un des domaines d’ application de la présente invention est la banque mobile. Dans un tel contexte, les bases de données adressées par l’unité de traitement UNT pour vérifier qu’un ensemble de données reçu a été correctement enrichi est par exemple une base de données de type SIREN (pour « Système d’identification du répertoire des entreprises »), SIRET (pour « Système d’identification du répertoire des établissements ») ou encore Infogreffe. Ces bases de données publiques permettent d’accéder à des données relatives à l’identification d’une entreprise, d’une société, d’un établissement, d’un organisme ou d’une association ayant des activités en France. Bien entendu, l’homme du métier comprend que les bases de données DB1, DB2 peuvent désigner toute base de données de ce type et pas seulement pour la France. Bien entendu, les bases de données DB1, DB2 peuvent également désigner d’autres types de base de données accessibles par des interfaces de programmation (connues également sous l’acronyme anglophone API pour « Application programming interface »). As explained above, one of the fields of application of the present invention is mobile banking. In such a context, the databases sent by the processing unit UNT to verify that a set of data received has been correctly enriched is for example a database of the SIREN type (for "Identification system of the directory of companies ”), SIRET (for“ Identification system of the establishment directory ”) or even Infogreffe. These public databases provide access to data relating to the identification of a company, a company, an establishment, an organization or an association with activities in France. Of course, those skilled in the art will understand that DB1 and DB2 databases can refer to any database of this type and not only for France. Of course, databases DB1, DB2 can also refer to other types of databases accessible by programming interfaces (also known by the acronym API for "Application programming interface").
Un procédé d’enrichissement de données selon l’invention va à présent être décrit en référence à laA method for enriching data according to the invention will now be described with reference to
[Fig. 2] [Fig. 2]
Dans le contexte de la mise en œuvre du procédé décrit ci-après, plusieurs ensembles de données sont émis à destination du système SYS tel que décrit précédemment en référence à la [Fig. 1]. In the context of the implementation of the method described below, several data sets are sent to the SYS system as described previously with reference to [FIG. 1].
Ces données sont transmises au système SYS par exemple via un réseau étendu de type Internet ou via un réseau local. Ce procédé est typiquement mis en œuvre aux fins de fournir un service dans le cadre de la banque mobile. Un ensemble de données se rapporte alors par exemple à une entreprise, une société ou un commerçant et les métadonnées comprises dans l’ensemble de données sont des données informatives ou descriptives d’une donnée fondamentale concernant le libellé de l’entreprise, de la société ou du commerçant. Cette donnée fondamentale est, du fait du transfert de l’ensemble de données, susceptible de comporter des erreurs ou des imprécisions et donc d’être corrompue par un certain niveau de bruit. Ce bruit peut avoir été introduit à la source, à l’émission ou encore à la réception. These data are transmitted to the SYS system for example via a wide area network of the Internet type or via a local network. This method is typically implemented for the purpose of providing a service within the framework of mobile banking. A set of data then relates, for example, to a company, a company or a merchant and the metadata included in the set of data are informative or descriptive data of a fundamental data concerning the name of the company, the company or the merchant. This fundamental data is, due to the transfer of the data set, likely to include errors or inaccuracies and therefore to be corrupted by a certain noise level. This noise may have been introduced at the source, on transmission or even on reception.
Lors d’une étape SI, le système SYS reçoit plusieurs ensembles de données. Plus spécifiquement, les ensembles de données sont reçus par le module de communication COM de l’unité de traitement UNT du système SYS. During an SI step, the SYS system receives several sets of data. More specifically, the data sets are received by the COM communication module of the SYS system UNT processing unit.
Comme expliqué précédemment, dans le domaine de la banque mobile, la génération de tels ensembles de données est par exemple déclenchée par une application sur un terminal mobile d’un utilisateur. As explained previously, in the field of mobile banking, the generation of such data sets is for example triggered by an application on a user's mobile terminal.
Dans l’exemple illustré en [Fig. 1], le module de communication COM reçoit un premier ensemble de données DAT1, un deuxième ensemble de données DAT2 et un troisième ensemble de données DAT3. Bien entendu, cet exemple est purement illustratif et le système SYS peut avoir à traiter un nombre beaucoup plus important d’ensembles de données. In the example illustrated in [Fig. 1], the communication module COM receives a first set of data DAT1, a second set of data DAT2 and a third set of data DAT3. Of course, this example is purely illustrative and the SYS system may have to process a much larger number of data sets.
Chaque ensemble de données comprend une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale. En d’autres termes, les métadonnées permettent de définir, de décrire ou d’ apporter des informations supplémentaires concernant la donnée fondamentale. Each data set comprises a fundamental data and one or more metadata relating to the fundamental data. In other words, metadata makes it possible to define, describe or provide additional information about the fundamental data.
Dans l’exemple décrit ici, le premier ensemble de données DAT1 comprend des métadonnées MDi1, ..., MDim décrivant la donnée fondamentale Di. Le deuxième ensemble de données DAT2 comprend des métadonnées MD2\ ..., Ml)2" décrivant la donnée fondamentale D2. Enfin, le troisième ensemble de données DAT3 comprend des métadonnées MD31, ..., MD3 P décrivant la donnée fondamentale D3. In the example described here, the first set of data DAT1 comprises metadata MDi 1 , ..., MDi m describing the fundamental data item Di. The second data set DAT2 comprises metadata MD 2 \ ..., Ml) 2 "describing the fundamental data item D 2. Finally, the third data set DAT3 comprises metadata MD3 1 , ..., MD 3 P describing the fundamental data D 3 .
Optionnellement, lors d’une étape S2, l’unité de traitement UNT du système SYS génère pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données. Optionally, during a step S2, the processing unit UNT of the system SYS generates for each set of data, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the 'dataset.
En effet, comme expliqué précédemment, du fait du transfert de l’ensemble de données, du bruit peut être introduit à la source, à l’émission ou à la réception dans l’ensemble de données et plus spécifiquement dans la donnée fondamentale. La mise en œuvre du service requérant l’acheminement correct de l’ensemble de données est alors compromise par de telles erreurs ou imprécisions. Indeed, as explained previously, due to the transfer of the data set, noise can be introduced at the source, on the transmission or on the reception in the data set and more specifically in the fundamental data. The implementation of the service requiring the correct routing of the data set is then compromised by such errors or inaccuracies.
Au cours de cette étape, l’unité de traitement UNT applique tout type de traitement de données permettant de réduire le niveau de niveau de bruit de la donnée fondamentale. L’homme du métier connaît les techniques employées habituellement pour diminuer le niveau de bruit ou le supprimer complètement d’une ou de plusieurs données. During this step, the UNT processing unit applies any type of data processing allowing the noise level level of the fundamental data to be reduced. Those skilled in the art are familiar with the techniques usually employed to decrease the noise level or completely remove it from one or more data.
Par exemple, lorsque la donnée fondamentale est une suite de caractères, la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés. Cette liste de caractères est par exemple stockée dans la mémoire MEM de l’unité de traitement UNT de sorte que, lorsque l’unité de traitement détecte un caractère de cette liste dans une donnée fondamentale prenant la forme d’une suite de caractère, ce caractère est supprimé pour générer la donnée traitée. For example, when the fundamental data is a sequence of characters, the processed data is generated by deleting the sequence of characters of one or more characters from a list of characters predetermined. This list of characters is for example stored in the memory MEM of the processing unit UNT so that, when the processing unit detects a character from this list in a fundamental datum taking the form of a series of characters, this character is deleted to generate the processed data.
Bien entendu, la donnée fondamentale peut également être un signal sonore ou une image numérique. Là encore, les techniques diverses permettant de réduire ou de supprimer le bruit dans un signal sonore ou une image numérique sont largement connues de l’homme du métier de sorte que l’unité de traitement UNT peut être configurée pour être apte à appliquer de telles techniques sur la donnée fondamentale de chaque ensemble de données reçues par le système SYS. Of course, the fundamental data can also be a sound signal or a digital image. Again, the various techniques for reducing or eliminating noise in a sound signal or a digital image are widely known to those skilled in the art so that the UNT processing unit can be configured to be able to apply such techniques on the fundamental data of each set of data received by the SYS system.
Dans le cas présent, on désigne par Di’ la donnée traitée générée par le premier ensemble de données DAT1 par diminution du niveau de bruit de la donnée fondamentale Di. De même, on désigne par D2’ la donnée traitée générée par le deuxième ensemble de données DAT2 par diminution du niveau de bruit de la donnée fondamentale D2, et par D3’ la donnée traitée générée par le troisième ensemble de données DAT3 par diminution du niveau de bruit de la donnée fondamentale D3. In the present case, Di ′ denotes the processed data item generated by the first set of data DAT1 by reducing the noise level of the fundamental data item Di. Likewise, D 2 'denotes the processed data item generated by the second set of data DAT2 by reducing the noise level of the fundamental datum D 2 , and D 3 ' denotes the processed datum generated by the third set of data DAT3 by reduction of the noise level of the fundamental datum D 3 .
A ce stade du procédé, la donnée traitée pour un ensemble de donnée peut être agrégée ou adjointe à l’ensemble de donnée en plus ou à la place de la donnée fondamentale, et en compagnie des métadonnées correspondantes. At this stage of the process, the data processed for a data set can be aggregated or appended to the data set in addition to or in place of the fundamental data, and in the company of the corresponding metadata.
Dans la suite de la description du procédé, on considère que cette étape S2 a été mise en œuvre et que la donnée traitée remplace la donnée fondamentale. L’homme du métier comprend ici que dans le mode de réalisation dans lequel cette étape n’est pas mise en œuvre, cette donnée traitée n’est donc pas générée et ce qui est réalisé par la suite à l’aide la donnée traitée l’est à l’aide de la donnée fondamentale. D’ailleurs, dans le cas où la donnée traitée est générée, cette donnée traitée peut être identique à la donnée fondamentale. En particulier, si la donnée fondamentale ne comporte aucun bruit, la donnée traitée est identique à la donnée fondamentale. In the remainder of the description of the method, it is considered that this step S2 has been implemented and that the processed data item replaces the fundamental data. Those skilled in the art understand here that in the embodiment in which this step is not implemented, this processed data item is therefore not generated and what is carried out subsequently using the processed data item l 'is using the fundamental data. Moreover, in the case where the processed data is generated, this processed data can be identical to the fundamental data. In particular, if the fundamental datum does not include any noise, the processed datum is identical to the fundamental datum.
En référence à la [Fig. 2], on incrémente à partir de maintenant un compteur i, initialisé à 1 et on sélectionne une fonction de similarité I j. Avantageusement, la mémoire MEM stocke un ensemble de fonctions de similarité. With reference to [Fig. 2], from now on, a counter i, initialized to 1, is incremented and a similarity function I j is selected. Advantageously, the memory MEM stores a set of similarity functions.
Lors d’une étape S3, l’unité de traitement UNT groupe les ensembles de données en fonction des données traitées respectivement associées aux ensembles de données selon la fonction de similarité. Le regroupement des données mis en œuvre par l’unité de traitement UNT est plus connu sous le terme anglophone « data clustering » ou plus simplement « clustering ». On peut parler également ici de partitionnement ou de mise en grappe des données. Là encore, les techniques de regroupement utilisées par l’unité de traitement UNT sont des techniques connues de l’homme du métier. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT permet d’obtenir une grande similarité intra-groupe, à savoir une homogénéité élevée entre les éléments, ici des ensembles de données, d’un même groupe, et une faible similarité inter-groupe, afin d’avoir des groupes bien différenciés. During a step S3, the processing unit UNT groups the data sets according to the processed data respectively associated with the data sets according to the similarity function. The grouping of data implemented by the processing unit UNT is better known under the English term “data clustering” or more simply “clustering”. We can also speak here of partitioning or clustering of data. Here again, the grouping techniques used by the processing unit UNT are techniques known to those skilled in the art. Advantageously, the grouping implemented by the processing unit UNT makes it possible to obtain a great intra-group similarity, namely a high homogeneity between the elements, here data sets, of the same group, and a low similarity inter-group, in order to have well-differentiated groups.
Les techniques de regroupement ou « clustering » utilisées dans le cadre de la mise en œuvre du procédé sont variées. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT comprend un algorithme de partitionnement, un algorithme hiérarchique, un algorithme basé sur la densité, un algorithme de grille ou encore un algorithme de modèle. The techniques of grouping or “clustering” used within the framework of the implementation of the method are varied. Advantageously, the grouping implemented by the UNT processing unit comprises a partitioning algorithm, a hierarchical algorithm, a density-based algorithm, a grid algorithm or even a model algorithm.
Avantageusement, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé De tels algorithmes sont connus de l’homme du métier. Advantageously, the grouping of data sets uses an unsupervised learning algorithm. Such algorithms are known to those skilled in the art.
A l’issue de cette étape, donc, les ensembles de données sont regroupés par groupes, plus connus sous le terme anglophone « clusters », selon la fonction de similarité utilisée. At the end of this step, therefore, the data sets are grouped into groups, better known under the English term "clusters", according to the similarity function used.
Typiquement, la fonction de similarité est une fonction de distance définie sur un espace de M+l dimensions, où M est le nombre de métadonnées (M+l correspondant donc au cardinal d’un ensemble de données reçu avec M métadonnées et une donnée fondamentale). Par exemple, si les données sont des données numériques, la fonction de similarité peut être une distance euclidienne. Si les données sont des caractères, typiquement des lettres, la fonction de similarité peut être une distance de Levenshtein. Bien entendu, lorsque certaines données d’un ensemble de données sont numériques tandis que d’autres sont des lettres, la fonction de similarité peut être une combinaison d’une distance euclidienne et d’une distance de Levenshtein. On peut alors définir un seuil de sorte que, lorsque la distance entre deux ensembles de données est inférieure ou égale à ce seuil, alors les deux ensembles de données sont regroupés ensemble, faisant ainsi partie du même cluster. Typically, the similarity function is a distance function defined on a space of M + l dimensions, where M is the number of metadata (M + l therefore corresponding to the cardinality of a set of data received with M metadata and a fundamental data ). For example, if the data is numeric data, the similarity function can be a Euclidean distance. If the data is characters, typically letters, the similarity function can be a Levenshtein distance. Of course, when some data in a dataset is numeric while others are letters, the similarity function can be a combination of a Euclidean distance and a Levenshtein distance. We can then define a threshold so that, when the distance between two sets of data is less than or equal to this threshold, then the two sets of data are grouped together, thus forming part of the same cluster.
En référence à nouveau à l’exemple illustré en [Fig. 1], le premier ensemble de données DAT1 et le deuxième ensemble de données DAT2 sont regroupés dans un même groupe ou « cluster » Ci. Le troisième ensemble de données DAT3 est quant à lui placé dans un groupe C2. Les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3 ont été regroupés en fonction de leurs données traitées respectives Di’, D2’, D3‘. Referring again to the example illustrated in [Fig. 1], the first set of data DAT1 and the second set of data DAT2 are grouped together in the same group or “cluster” Ci. The third set of data DAT3 is for its part placed in a group C 2 . The first, second and third data sets DAT1, DAT2, DAT3 have been grouped together according to their respective processed data Di ', D 2 ', D 3 '.
Comme expliqué précédemment, la génération de la donnée traitée est optionnelle. Ainsi, lorsqu’ aucune donnée traitée n’a été générée, le regroupement des ensembles de données est mis en œuvre en fonction des données fondamentales respectives des ensembles de données. As explained previously, the generation of the processed data item is optional. Thus, when no processed data has been generated, the grouping of the datasets is implemented according to the respective fundamental data of the datasets.
Lors d’une étape S4, l’unité de traitement UNT enrichit chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données considéré. En d’autre terme, un ensemble de donnée reçoit, à l’issue du regroupement, une donnée supplémentaire caractérisant le groupe au sein duquel a été classé l’ensemble de données en question. On peut considérer que cette donnée supplémentaire, aussi appelée label ou étiquette, est agrégée ou adjointe à l’ensemble de données. During a step S4, the processing unit UNT enriches each set of data with an additional piece of data called a label characterizing the group to which the set of data considered belongs. In other words, a set of data receives, at the end of the grouping, a data additional characterization of the group into which the data set in question has been classified. We can consider that this additional data, also called label or tag, is aggregated or appended to the data set.
En référence à nouveau à l’exemple illustré en [Fig. 1], les premier et deuxième ensembles de données DAT1, DAT2 ont été classés dans le même groupe ou « cluster » Ci. Ces deux ensembles de données DAT1, DAT2 sont donc enrichis par la même donnée supplémentaire référencée label(Ci). De même, le troisième ensemble de données DAT3 ayant été classé dans le groupe ou « cluster » C2, celui-ci est enrichi par la donnée supplémentaire label(C2). Referring again to the example illustrated in [Fig. 1], the first and second data sets DAT1, DAT2 have been classified in the same group or “cluster” Ci. These two data sets DAT1, DAT2 are therefore enriched by the same additional data item referenced label (Ci). Likewise, the third set of data DAT3 having been classified in the group or "cluster" C 2 , it is enriched by the additional data item label (C 2 ).
Lors d’une étape S5, l’unité de traitement UNT cherche, pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi considéré. During a step S5, the processing unit UNT searches, for each enriched data set, in at least one database storing data sets each comprising metadata and a label, a combination of at least part metadata and the label of the enriched data set considered.
Dans le cas d’illustration développé ici, par exemple, le premier ensemble DAT1 enrichi comprend la donnée fondamentale Di, des métadonnées MDi1, ..., MDim, un label label(Ci) et, optionnellement, la donnée traitée Di’. La recherche effectuée par l’unité de traitement UNT dans au moins une des bases de données DB1, DB2 vise donc à déterminer si la combinaison d’une partie au moins des métadonnées MDi1, ..., MDim et du label label(Ci) est présent dans un ensemble de données parmi les ensembles de données stocké dans la base de données DB1, DB2. Avantageusement, une telle recherche est réalisée dans toutes les bases de données, donc ici la base de données DB 1 et la base de données DB2. In the case of illustration developed here, for example, the first enriched set DAT1 comprises the fundamental data Di, metadata MDi 1 , ..., MDi m , a label label (Ci) and, optionally, the processed data Di ' . The search performed by the processing unit UNT in at least one of the databases DB1, DB2 therefore aims to determine whether the combination of at least part of the metadata MDi 1 , ..., MDi m and the label label ( Ci) is present in a dataset among the datasets stored in the database DB1, DB2. Advantageously, such a search is carried out in all the databases, therefore here the database DB 1 and the database DB2.
Dans la suite de la description, on parlera d’un « ensemble de données correspondant » pour désigner un ensemble de données stocké dans une base de données et comprenant la combinaison cherchée. On dit ainsi que cet ensemble de données est un ensemble de données correspondant de l’ensemble de données enrichi dont est issue la combinaison cherchée. In the remainder of the description, we will speak of a "corresponding data set" to designate a data set stored in a database and comprising the desired combination. We say that this dataset is a corresponding dataset of the enriched dataset from which the sought combination is derived.
En référence à nouveau au procédé illustré en [Fig. 2], il y a alors deux possibilités pour un ensemble de données enrichi : With reference again to the method illustrated in [Fig. 2], there are then two possibilities for an enriched data set:
- soit une telle combinaison de métadonnées et de label est bien présente dans au moins une base de données ; - either such a combination of metadata and label is present in at least one database;
- soit une telle combinaison est absente. - or such a combination is absent.
Avantageusement, dans un ou plusieurs modes de réalisation, chaque métadonnée d’un ensemble de données enrichi est associée à un poids. Ce poids permet de caractériser l’importance d’une métadonnée au sein d’un ensemble de données. La combinaison d’une partie au moins des métadonnées et du label est alors considérée comme présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données en question, est supérieure ou égale un seuil prédéterminé. Advantageously, in one or more embodiments, each metadata of an enriched data set is associated with a weight. This weight makes it possible to characterize the importance of a metadata within a set of data. The combination of at least part of the metadata and the label is then considered to be present in a database if and only if a value of a presence function, calculated according to the respective weights of the metadata of the combination present in the database in question is greater than or equal to a predetermined threshold.
En d’autres termes, dans ce mode de réalisation spécifique, on applique un critère supplémentaire pour déterminer si un ensemble de données stocké dans une base de données peut être considéré comme un « ensemble de données correspondant ». Ce critère consiste à vérifier si un ensemble de données correspondant potentiel est suffisamment significatif, selon les métadonnées qu’il contient et partage en commun avec un ensemble de données enrichi. Bien entendu, la nécessité que le label de cet ensemble de données correspondant potentiel soit le même que l’ensemble de données enrichi considéré subsiste dans ce mode de réalisation spécifique. In other words, in this specific embodiment, an additional criterion is applied to determine whether a dataset stored in a database can be considered a "corresponding dataset". This criterion consists of verifying whether a potential corresponding dataset is sufficiently meaningful, according to the metadata it contains and shares in common with an enriched dataset. Of course, the need for the label of this potential corresponding data set to be the same as the enriched data set considered remains in this specific embodiment.
On considère à titre d’exemple le premier ensemble de données enrichi DAT1*. On suppose que les métadonnées MDi1, ..., MDim sont toutes respectivement associées à un poids Pi1, ..., Pim. On suppose par ailleurs que, dans la base de données DB1, un ensemble de données comprend les métadonnées MDi1, ..., MDik et le label label(Ci), où k est un entier naturel strictement inférieur à m. En d’autres termes, cet ensemble de données trouvé dans la base de données DB1 comprend bien une partie au moins des métadonnées du premier ensemble de données enrichi DAT1* ainsi que le label label(Ci). Il s’agit donc un ensemble de données correspondant potentiel. As an example, we consider the first enriched data set DAT1 *. It is assumed that the metadata MDi 1 , ..., MDi m are all respectively associated with a weight Pi 1 , ..., Pi m . It is also assumed that, in the database DB1, a set of data includes the metadata MDi 1 , ..., MDi k and the label label (Ci), where k is a natural integer strictly less than m. In other words, this data set found in the database DB1 does indeed include at least part of the metadata of the first enriched data set DAT1 * as well as the label label (Ci). So this is a potential matching dataset.
Néanmoins, dans ce mode de réalisation, on applique en plus, pour déterminer si cet ensemble de données correspondant potentiel est pertinent, le critère explicité précédemment en calculant la valeur Vi prise par la fonction de présence, notée G ci-après, pour les métadonnées du premier ensemble de données enrichi DAT1*, et plus exactement pour les poids respectivement associés à ces métadonnées. En d’autres termes : However, in this embodiment, in order to determine whether this potential corresponding data set is relevant, the criterion explained above is applied in addition by calculating the value Vi taken by the presence function, denoted G below, for the metadata of the first enriched data set DAT1 *, and more exactly for the weights respectively associated with these metadata. In other words:
Vf = G(Pi\ ..., Pik) Vf = G (Pi \ ..., Pi k )
Cette valeur Vi est ensuite comparée avec un seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB1 est pertinent et est retenu comme un ensemble de données correspondant. This value Vi is then compared with a predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the dataset found in the database DB1 is relevant and is retained as a corresponding dataset.
Par exemple, la fonction de présence G est une addition ou une multiplication. For example, the presence function G is an addition or a multiplication.
Toujours à titre d’exemple, on suppose par ailleurs que, au sein de la base de données DB2, une autre combinaison d’une partie au moins des métadonnées et du label du premier ensemble de données enrichi DAT1* est trouvée dans un ensemble de données, donc potentiellement un ensemble de données correspondant. Les métadonnées communes à cet ensemble de données et au premier ensemble de données enrichi DAT1* peuvent bien entendu être différentes de celles trouvées dans la base de données DB1. Par exemple, Pensemble de données trouvé dans la base de données DB2 comprend les métadonnées MD , MDim, où j est un entier naturel inférieur à m, et le label label(Ci). Still by way of example, it is also assumed that, within the DB2 database, another combination of at least part of the metadata and of the label of the first enriched data set DAT1 * is found in a set of data, so potentially a corresponding data set. The metadata common to this data set and to the first enriched data set DAT1 * can of course be different from those found in the database DB1. For example, the dataset found in the DB2 database includes the metadata MD, MDi m , where j is a natural number less than m, and the label label (Ci).
De même que pour l’exemple précédent, l’unité de traitement UNT calcule alors la valeur V2 prise par la fonction G prise pour cette combinaison trouvée. En d’ autres termes : As for the previous example, the processing unit UNT then calculates the value V 2 taken by the function G taken for this combination found. In other words:
V2 = G(P1 j, ..., P1 k) V 2 = G (P 1 j , ..., P 1 k )
Cette valeur V2 est ensuite comparée avec le seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB2 est pertinent et est retenu comme un ensemble de données correspondant. This value V 2 is then compared with the predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the data set found in the database DB2 is relevant and is retained as a corresponding data set.
Par exemple, l’ensemble de données trouvé dans la base de données DB1 est retenu selon ce critère tandis que celui trouvé dans la base de données DB2 ne l’est pas. For example, the dataset found in the DB1 database is retained according to this criterion while the one found in the DB2 database is not.
Dans la suite de la description du procédé, il est compris que, dans ce mode de réalisation, un ensemble de données correspondant est non seulement un ensemble de données stocké dans une base de données comprenant la combinaison d’une partie au moins des métadonnées et du label d’une ensemble de données enrichi mais aussi un ensemble de données vérifiant le critère décrit précédemment concernant les poids respectifs des métadonnées qu’il partage avec l’ensemble de données enrichi sur la base duquel la recherche est effectuée par l’unité de traitement UNT. In the rest of the description of the method, it is understood that, in this embodiment, a corresponding data set is not only a data set stored in a database comprising the combination of at least part of the metadata and the label of an enriched data set but also a data set verifying the criterion described above concerning the respective weights of the metadata that it shares with the enriched data set on the basis of which the search is carried out by the UNT processing.
Lors d’une étape S6, mise en œuvre notamment dans le cas où une combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est absent de l’au moins une base de données, le label précédemment attribué est retiré de l’ensemble de données enrichi. En d’autres termes, puisqu’il n’y a trace dans aucune base de données d’une combinaison d’une partie au moins des métadonnées et du label, il est considéré que c’est par erreur que celui-ci a été attribué lors du regroupement de l’étape S3 à l’ensemble de données considéré. Celui-ci précédemment enrichi se voit donc retirer la donnée supplémentaire ou label qui lui a été agrégée ou adjointe. During a step S6, implemented in particular in the case where a combination of at least part of the metadata and of the label of an enriched data set is absent from the at least one database, the label previously assigned is removed from the enriched dataset. In other words, since there is no trace in any database of a combination of at least part of the metadata and the label, it is considered that it was by mistake that it was assigned during the grouping of step S3 to the data set considered. This previously enriched is therefore removed from the additional data or label which has been aggregated or added to it.
En référence à nouveau au cas illustré en [Fig. 1], on considère par exemple le deuxième groupe de données DAT2. A l’issue de l’étape S4, celui-ci a été enrichi par la donnée supplémentaire label(Ci). L’unité de traitement UNT a donc ensuite cherché, au cours de l’étape S5, dans au moins une des bases de données DB 1 , DB2 si un ensemble de données stocké dans une de ces bases de données DB 1 , DB2, comprend à la fois une partie au moins des métadonnées Ml)2' , ..., MD2" et la donnée supplémentaire label(Ci). Si aucun ensemble de données stocké dans les bases de données DB1, DB2 ne comprend une telle combinaison, le label label(Ci) est donc retiré du deuxième ensemble de données enrichi DAT2*. Celui-ci ne comprend plus alors, à l’issue de cette étape S5, que la donnée fondamentale D2, les métadonnées MD2\ ..., MD2" et, éventuellement, la donnée traitée D2’. Alternativement, en référence à la [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est bien présent dans au moins une base de données, il est déterminé si cette combinaison a été déterminée dans une seule base de données ou dans plusieurs bases de données. Bien entendu, dans un mode de réalisation dans laquelle une seule base de données est intégrée au système SYS et est accessible à l’unité de traitement UNT, un ensemble de données correspondant à la combinaison d’une partie au moins des métadonnées et de label recherché ne peut être trouvé que dans cette base de données seule. With reference again to the case illustrated in [Fig. 1], we consider for example the second group of data DAT2. At the end of step S4, this has been enriched by the additional data item label (Ci). The processing unit UNT therefore then searched, during step S5, in at least one of the databases DB 1, DB2 if a set of data stored in one of these databases DB 1, DB2, comprises both at least part of the metadata M1) 2 ', ..., MD 2 "and the additional data label (Ci). If no data set stored in the databases DB1, DB2 does not include such a combination, the label label (Ci) is therefore removed from the second enriched data set DAT2 *. The latter then no longer comprises, at the end of this step S5, only the fundamental data D2, the metadata MD 2 \ ..., MD 2 "and, optionally, the processed data item D 2 '. Alternatively, with reference to [Fig. 2], if the combination of at least part of the metadata and the label of an enriched data set is indeed present in at least one database, it is determined whether this combination has been determined in a single database or in several databases. Of course, in an embodiment in which a single database is integrated into the SYS system and is accessible to the processing unit UNT, a set of data corresponding to the combination of at least part of the metadata and label searched can only be found in this database alone.
Néanmoins, dans le cas illustré par exemple en [Fig. 1], une telle recherche peut être réalisée sur une pluralité de bases de données, ici deux bases de données DB1, DB2 et un ensemble de données correspondant peut être trouvé dans plusieurs bases de données différentes. Par exemple, concernant le troisième ensemble de données enrichi DAT3*, l’unité de traitement UNT a cherché dans la base de données DB1 mais aussi dans la base de données DB2 un ensemble de données comprenant la combinaison d’une partie au moins des métadonnées MD3 1, ... MD3 P et du label label(C2). Il est tout à fait possible qu’un ensemble de données correspondant ait été trouvé dans la base de données DB1, tandis qu’un autre ensemble de données correspondant a été trouvé dans la base de données DB2. En d’autres termes, l’unité de traitement UNT a trouvé un ensemble de données stocké dans la base de données DB1 comprenant la combinaison d’une partie au moins des métadonnées et du label du troisième ensemble de données enrichi DAT3* mais a aussi trouvé un ensemble de données stocké dans la base de données DB2 comprenant cette même combinaison de métadonnées et du label. Nevertheless, in the case illustrated for example in [Fig. 1], such a search can be performed on a plurality of databases, here two databases DB1, DB2 and a corresponding set of data can be found in several different databases. For example, concerning the third enriched data set DAT3 *, the processing unit UNT searched in the database DB1 but also in the database DB2 for a data set comprising the combination of at least part of the metadata MD 3 1 , ... MD 3 P and the label label (C 2 ). It is quite possible that a matching dataset was found in the DB1 database, while another matching dataset was found in the DB2 database. In other words, the processing unit UNT has found a data set stored in the database DB1 comprising the combination of at least part of the metadata and the label of the third enriched data set DAT3 * but also found a dataset stored in the DB2 database including this same combination of metadata and label.
Dans un tel cas, lors d’une étape S7, l’unité de traitement UNT applique un critère prédéfini pour déterminé si le résultat de cette recherche qui a abouti à trouver un ensemble de données correspondant dans plus d’une base de données du système SYS permet de conclure à la pertinence du label attribué ou non. In such a case, during a step S7, the processing unit UNT applies a predefined criterion to determine whether the result of this search which resulted in finding a corresponding set of data in more than one database of the system SYS makes it possible to conclude on the relevance of the label attributed or not.
Lors de cette étape S7, on distingue deux modes de réalisation : During this step S7, there are two embodiments:
Dans un premier mode de réalisation, chaque base de données est caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale. In a first embodiment, each database is characterized by a reliability coefficient. In addition, each set of data stored in a database further comprises fundamental data.
On compare alors la donnée traitée de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité. We then compare the processed data of the considered data set and the fundamental data of the corresponding data set stored in the database characterized by the highest reliability coefficient.
Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. II est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité. As explained previously, we are here in the particular case where, for each set of data, a piece of data processed has been generated during the optional step S2 and replaces the fundamental data for the implementation of the method. It is therefore quite clear here that, if the processed data item has not been generated, during this step S7, the fundamental data item of the data set is compared. considered and the fundamental data of the corresponding data set stored in the database characterized by the greatest reliability coefficient.
Par exemple, en référence toujours à la [Fig. 1], dans lequel le système SYS comprend deux bases de données DB1, DB2. Puisqu’il y a plusieurs bases de données, chacune se voit attribuer un coefficient de fiabilité permettant de quantifier sa pertinence ou sa fiabilité. Avantageusement, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts. Ainsi, la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. On considère en outre que la base de données DB 1 étant plus fiable que la base de données DB2, on a : CF1>CF2. For example, still referring to [Fig. 1], in which the SYS system includes two databases DB1, DB2. Since there are several databases, each is assigned a reliability coefficient to quantify its relevance or reliability. Advantageously, the respective reliability coefficients of two distinct databases are distinct. Thus, the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2. It is also considered that the database DB 1 being more reliable than the database DB2, we have: CF1> CF2.
On suppose ensuite que la combinaison d’une partie au moins des métadonnées MDi1, ..., MDim et de la donnée supplémentaire label(Ci) du premier ensemble de données enrichi DAT1* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un autre ensemble de données correspondant stocké dans la base de données DB2. Ces deux ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes. It is then assumed that the combination of at least part of the metadata MDi 1 , ..., MDi m and of the additional data item label (Ci) of the first enriched data set DAT1 * has been found in a corresponding stored data set in the DB 1 database but also in another corresponding data set stored in the DB2 database. These two corresponding sets therefore each comprise a fundamental datum. These respective fundamental data may be similar or different.
Etant donné que, parmi les bases de données stockant un ensemble de données correspondant, la base de données dont le coefficient de fiabilité est le plus élevé est la base de données DB 1 caractérisée par le coefficient de fiabilité CFI. Au cours de cette étape S7, dans ce premier mode de réalisation, la donnée traitée Di’ du premier ensemble de données enrichi DAT1* est donc comparée à la donnée fondamentale de l’ensemble de données correspondant trouvé dans la base de données DB1. Since, among the databases storing a corresponding data set, the database with the highest reliability coefficient is the database DB 1 characterized by the reliability coefficient CFI. During this step S7, in this first embodiment, the processed data Di ’of the first enriched data set DAT1 * is therefore compared with the fundamental data of the corresponding data set found in the database DB1.
En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité. With reference to the data enrichment process illustrated in [Fig. 2], if the combination of at least part of the metadata and the label of an enriched data set is present in corresponding data sets respectively stored in databases distinct from the plurality of databases, the label of the enriched data set is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the highest coefficient of reliability.
Dans un deuxième mode de réalisation, chaque base de données est là encore caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale. In a second embodiment, each database is again characterized by a reliability coefficient. In addition, each set of data stored in a database further comprises fundamental data.
Cette fois-ci, dans ce mode de réalisation alternatif, on ne considère pas seulement la base de données ayant le coefficient de fiabilité le plus élevé parmi toutes les bases de données comprenant un ensemble de données correspondant à la combinaison cherchée. Dans ce mode de réalisation particulier, l’unité de traitement UNT prend en compte toutes les bases de données comprenant un ensemble de données correspondant. This time, in this alternative embodiment, we do not consider only the database having the highest reliability coefficient among all the databases comprising a set of data corresponding to the sought combination. In this embodiment in particular, the processing unit UNT takes into account all the databases comprising a corresponding set of data.
Chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée. Each fundamental data item present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the considered fundamental data.
Pour illustrer ce mode de réalisation, on fait référence à nouveau à l’exemple illustré en [Fig. 1]. On suppose en outre qu’une troisième base de données (non représentée ici) est comprise dans le système SYS et fait l’objet d’une recherche par l’unité de traitement UNT en plus des bases de données DB1, DB2. On suppose enfin que cette troisième base de données est caractérisée par un coefficient de fiabilité CF3. On suppose également pour ce mode de réalisation que la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. Avantageusement là aussi, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts. To illustrate this embodiment, reference is again made to the example illustrated in [Fig. 1]. It is further assumed that a third database (not shown here) is included in the SYS system and is searched by the processing unit UNT in addition to the databases DB1, DB2. Finally, it is assumed that this third database is characterized by a reliability coefficient CF3. It is also assumed for this embodiment that the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2. Advantageously here too, the respective reliability coefficients of two distinct databases are distinct.
On suppose ensuite que la combinaison d’une partie au moins des métadonnées MD31, ..., MD3 P et de la donnée supplémentaire label(C2) du troisième ensemble de données enrichi DAT3* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un ensemble de données correspondant stocké dans la base de données DB2 et dans un ensemble de données correspondant stocké dans la troisième base de données. Ces trois ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes. It is then assumed that the combination of at least part of the metadata MD3 1 , ..., MD 3 P and the additional data item label (C 2 ) of the third enriched data set DAT3 * has been found in a data set correspondent stored in the database DB 1 but also in a corresponding dataset stored in the DB2 database and in a corresponding dataset stored in the third database. These three corresponding sets therefore each comprise a fundamental datum. These respective fundamental data may be similar or different.
On suppose à titre d’exemple que l’ensemble de données correspondant stocké dans la base de données DB 1 et l’ensemble de données correspondant stocké dans la base de données DB2 comprennent la même donnée fondamentale, notée ci-après DFi 2. En revanche, l’ensemble de données correspondant stocké dans la troisième base de données comprend une donnée fondamentale, notée ci- après DF3, différente. L’unité de traitement UNT détermine alors un facteur de vraisemblance FV(DFI 2) associé à la donnée fondamentale DFi 2. Ce facteur de vraisemblance FV(DFI 2) est calculé en fonction des coefficients de fiabilité de la base de données DB1 et de la base de données DB2, à savoir CFI et CF2. De même, l’unité de traitement UNT détermine un facteur de vraisemblance FV(DF3) associé à la donnée fondamentale DF3. Ce facteur de vraisemblance FV(DF3) est calculé en fonction du coefficient de fiabilité de la troisième base de données, à savoir CF3. It is assumed by way of example that the corresponding data set stored in the database DB 1 and the corresponding data set stored in the database DB2 comprise the same fundamental data, denoted hereinafter DFi 2 . On the other hand, the corresponding data set stored in the third database comprises a different fundamental datum, denoted hereinafter DF 3 . The processing unit UNT then determines a likelihood factor FV (DF I 2 ) associated with the fundamental datum DFi 2 . This likelihood factor FV (DF I 2 ) is calculated as a function of the reliability coefficients of the database DB1 and of the database DB2, namely CFI and CF2. Likewise, the processing unit UNT determines a likelihood factor FV (DF 3 ) associated with the fundamental datum DF 3 . This likelihood factor FV (DF 3 ) is calculated as a function of the reliability coefficient of the third database, namely CF3.
Par exemple, un facteur de vraisemblance est déterminé par addition des coefficients de fiabilité. On a alors : For example, a likelihood factor is determined by adding the reliability coefficients. We then have:
FV(DFU) = CF1+CF2 FV(DF3) = CF3 FV (DF U ) = CF1 + CF2 FV (DF 3 ) = CF3
Une autre possibilité peut également être de calculer la moyenne des coefficients de fiabilité pour calculer le facteur de vraisemblance. On a alors : Another possibility can also be to calculate the average of the reliability coefficients to calculate the likelihood factor. We then have:
FV(DF ) = (CFl+CF2)/2 FV (DF) = (CFl + CF2) / 2
FV(DF3) = CF3 FV (DF 3 ) = CF3
L’homme du métier comprend ici que plusieurs calculs sont possibles pour déterminer le facteur de vraisemblance d’une donnée fondamentale en fonction des coefficients de fiabilité. Those skilled in the art understand here that several calculations are possible to determine the likelihood factor of a fundamental datum as a function of the reliability coefficients.
On compare alors dans l’exemple développé ici la donnée traitée D3’ du troisième ensemble de données enrichi DAT3* avec la donnée fondamentale associée au facteur de vraisemblance le plus élevé. In the example developed here, the processed data D 3 'of the third enriched data set DAT3 * is then compared with the fundamental data associated with the highest likelihood factor.
Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. Il est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale associée au facteur de vraisemblance le plus élevé. As explained above, we are here in the particular case where, for each set of data, a piece of processed data was generated during the optional step S2 and replaces the fundamental data for the implementation of the method. It is therefore clear here that, if the processed data item has not been generated, during this step S7, the fundamental data of the set of data considered and the fundamental data associated with the highest likelihood factor are compared. .
En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée, et le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé. With reference to the data enrichment process illustrated in [Fig. 2], if the combination of at least part of the metadata and the label of the enriched data set is present in corresponding data sets respectively stored in separate databases of the plurality of databases, each data item fundamental present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data considered, and the label of the set of enriched data is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data associated with the highest likelihood factor.
L’étape S6, comme précisé précédemment, est mise en œuvre pour un ensemble de données enrichi soit à la suite de l’étape S5 s’il s’avère que la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’est présente dans aucune base de données, soit à la suite de l’étape S7 si cette combinaison a été trouvée dans plusieurs bases de données et qu’il s’avère que le label attribué est erroné. Lors de cette étape S6, donc, le label de l’ensemble de données enrichi est retiré. Ensuite, comme illustré en [Fig. 2], on détermine si le compteur i caractérisant le nombre d’itérations du procédé est inférieure ou égale à un nombre maximal d’itérations prédéterminé N. Si ce nombre maximal d’itérations n’a pas encore été atteint, le compteur est incrémenté. Avantageusement, lorsque le compteur est incrémenté, une nouvelle fonction de similarité, par exemple stockée dans la mémoire MEM de l’unité de traitement UNT, est sélectionnée. Les étapes S3 et suivantes sont alors répétées pour les ensembles de données dont le label a été retiré avec la nouvelle fonction de similarité, de sorte qu’un ensemble de donné ne peut être enrichi par un label déjà agrégé puis retiré précédemment. Step S6, as specified previously, is implemented for an enriched data set either following step S5 if it turns out that the combination of at least part of the metadata and the label of this enriched data set is not present in any database, either following step S7 if this combination has been found in several databases and it turns out that the assigned label is incorrect. During this step S6, therefore, the label of the enriched data set is removed. Then, as illustrated in [Fig. 2], it is determined whether the counter i characterizing the number of iterations of the method is less than or equal to a predetermined maximum number of iterations N. If this maximum number of iterations has not yet been reached, the counter is incremented . Advantageously, when the counter is incremented, a new similarity function, for example stored in the memory MEM of the processing unit UNT, is selected. Steps S3 and following are then repeated for the data sets whose label has been removed with the new similarity function, so that a data set cannot be enriched by a label already aggregated and then removed previously.
Comme expliqué précédemment, une fonction de similarité permet de calculer une distance entre deux ensembles de données de sorte que deux ensembles de données sont regroupés dans un même groupe ou cluster lorsque la distance entre ces deux ensembles de données est inférieure ou égale à un certain seuil. Aussi, lorsqu’une nouvelle fonction de similarité est sélectionnée il est également possible de modifier ce seuil, par exemple en l’augmentant. Par ailleurs, il est également possible de conserver la même fonction de similarité et de seulement changer le seuil. As explained previously, a similarity function calculates a distance between two sets of data so that two sets of data are grouped together in the same group or cluster when the distance between these two sets of data is less than or equal to a certain threshold. . Also, when a new similarity function is selected, it is also possible to modify this threshold, for example by increasing it. Furthermore, it is also possible to keep the same similarity function and only change the threshold.
En revanche, si le nombre maximal d’itérations prédéterminé N du procédé a été atteint, l’unité de traitement UNT interrompt la boucle et passe à l’étape S8 quand bien même certains ensembles de données se retrouvent sans label attribué. On the other hand, if the predetermined maximum number of iterations N of the method has been reached, the processing unit UNT interrupts the loop and proceeds to step S8 even though some data sets are found without an assigned label.
L’étape S8 est mise en œuvre à l’issue de l’étape S7 s’il est déterminé que le label attribué à un ensemble de données lors de l’enrichissement de celui-ci est correct au vu de la recherche réalisée sur T au moins une base de données, il est alors considéré que cet ensemble de données a été correctement enrichi. Step S8 is implemented at the end of step S7 if it is determined that the label attributed to a set of data during the enrichment of the latter is correct in view of the search carried out on T at least one database, it is then considered that this data set has been correctly enriched.
L’étape S8 peut également être mise en œuvre si le nombre maximal d’itérations prédéterminé N du procédé a été atteint. Step S8 can also be implemented if the maximum number of predetermined iterations N of the method has been reached.
Par ailleurs, en référence à la [Fig. 2], l’étape S8 peut également être mise en œuvre dans le cas où, pour un ensemble de données enrichi, la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’a été trouvée que dans une seule base de données à l’issue de l’étape S5. Dans un tel cas, lors de l’étape S8 alors mise en œuvre par l’unité de traitement UNT du système SYS, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant. Par « nécessaire », on entend ici que la donnée fondamentale de l’ensemble de données correspondant est distincte de l’ensemble de données enrichi. D’ailleurs, cette donnée fondamentale présente dans l’ensemble de données correspondant peut correspondre à la donnée traitée. Furthermore, with reference to [Fig. 2], step S8 can also be implemented in the case where, for an enriched data set, the combination of at least part of the metadata and of the label of this enriched data set has only been found. in a single database at the end of step S5. In such a case, during step S8 then implemented by the processing unit UNT of the system SYS, the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the data set corresponding. By "necessary" is meant here that the fundamental data of the corresponding data set is distinct from the enriched data set. Moreover, this fundamental data present in the corresponding dataset may correspond to the processed data.
On comprend ici l’ensemble de données enrichi en sortie du système comprend au moins soit la donnée fondamentale d’origine, soit la donnée traitée soit la donnée fondamentale trouvée dans l’ensemble de données correspondant. En référence à la [Fig. 1], on suppose par exemple que la combinaison d’une partie au moins des métadonnées MD2\ MD2" et du label label(Ci) issues du deuxième ensemble de données enrichi DAT2* a été trouvée uniquement dans une base de données, par exemple la base de données DB1, donc dans un seul ensemble de données correspondant lors de l’étape S5. Lors de l’étape S8 immédiatement en œuvre par la suite, l’unité de traitement UNT compare alors la donnée fondamentale D2 du deuxième ensemble de données enrichi DAT2* est comparée avec la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données DB1. Si la donnée fondamentale de l’ensemble de données correspondant est distincte de la donnée fondamentale du deuxième ensemble de données enrichi, cette dernière est alors remplacée dans le deuxième ensemble de données enrichi par la donnée fondamentale de l’ensemble de données correspondant. We understand here the enriched data set at the output of the system comprises at least either the original fundamental data, the processed data or the fundamental data found in the corresponding data set. With reference to [Fig. 1], it is assumed for example that the combination of at least part of the metadata MD 2 \ MD 2 "and of the label label (Ci) from the second enriched data set DAT2 * has been found only in a database, for example the database DB1, therefore in a single corresponding data set during step S5. During step S8 immediately implemented thereafter, the processing unit UNT then compares the fundamental datum D 2 of the second enriched data set DAT2 * is compared with the fundamental data of the corresponding data set stored in the database DB1. If the fundamental data of the corresponding data set is distinct from the fundamental data of the second data set enriched, the latter is then replaced in the second enriched data set by the fundamental data of the corresponding data set.
A l’issue de l’étape S8, donc, chaque ensemble de données a bénéficié au plus de N itérations des étapes S3 et suivantes pour se voir attribuer un label cohérent au vu de la recherche effectuée sur un ou plusieurs bases de données du système SYS. Certains ensembles de données sont, à l’issue de cette étape, toujours enrichis d’une donnée supplémentaire ou label tandis que d’autres ensembles de données peuvent rester sans label. At the end of step S8, therefore, each set of data has benefited from at most N iterations of steps S3 and following to be assigned a consistent label in view of the search carried out on one or more databases of the system. SYS. Some datasets are, at the end of this step, still enriched with an additional data or label while other datasets may remain unlabeled.
Par ailleurs, concernant les ensembles de données enrichis qui, à l’issue de l’étape S8, ont conservé leur label du fait du résultat positif de la recherche dans la ou les bases de données DB1, DB2, soit parce que la combinaison d’une partie au moins des métadonnées et du label se retrouvait dans une seule et unique base de données soit parce que cette combinaison se retrouvait dans plusieurs bases de données et que le label apparaissait finalement correct au vu de la recherche, de tels ensembles enrichis peuvent également être complétés par de nouvelles métadonnées issues des bases de données. Moreover, concerning the enriched data sets which, at the end of step S8, have retained their label because of the positive result of the search in the database or databases DB1, DB2, or because the combination d '' at least part of the metadata and the label were found in a single database, either because this combination was found in several databases and the label finally appeared correct in the light of the search, such enriched sets may also be supplemented by new metadata from databases.
En effet, comme expliqué précédemment, le test consiste à déterminer si, pour un ensemble de données, la combinaison d’une partie au moins des métadonnées et du label généré sont comprises dans au moins un ensemble de données, dit ensemble de données correspondant, d’au moins une base de données. Mais de tels ensembles correspondants peuvent bien évidemment comprendre d’autres données en plus de la combinaison cherchée. Ces métadonnées supplémentaires peuvent alors être récupérées par l’unité de traitement UNT pour compléter avantageusement les ensembles de données enrichis. Indeed, as explained previously, the test consists in determining whether, for a set of data, the combination of at least part of the metadata and of the label generated are included in at least one set of data, called the corresponding set of data, at least one database. But such corresponding sets can of course include other data in addition to the desired combination. This additional metadata can then be retrieved by the UNT processing unit to advantageously complement the enriched data sets.
Dans l’exemple illustré en [Fig. 1], les ensembles de données enrichis DAT1*, DAT2*, DAT3* ne comprennent pas de métadonnées supplémentaires par rapport aux ensembles de données DAT1, DAT2, DAT3 reçus par le système. Néanmoins, l’homme du métier comprend ici que les données enrichis peuvent comprendre des métadonnées supplémentaires issues des bases de données DB1, DB2. Toujours au cours de l’étape S8, avantageusement, les ensembles de données enrichis peuvent être à nouveau enrichis de manière à conserver, par souci de traçabilité, un historique de l’enrichissement des données et de la recherche au sein des bases de données. Par exemple, un ensemble de données enrichi peut être complété par une donnée représentative de la fonction de similarité utilisée pour mettre en œuvre le regroupement à l’étape S2. In the example illustrated in [Fig. 1], the enriched datasets DAT1 *, DAT2 *, DAT3 * do not include additional metadata compared to the datasets DAT1, DAT2, DAT3 received by the system. Nevertheless, those skilled in the art understand here that the enriched data can comprise additional metadata originating from databases DB1, DB2. Still during step S8, advantageously, the enriched data sets can be enriched again so as to keep, for the sake of traceability, a history of the enrichment of the data and of the search within the databases. For example, an enriched data set can be completed by a piece of data representative of the similarity function used to implement the grouping in step S2.
Toujours avantageusement, un ensemble de données enrichi peut être également ou alternativement complété par une donnée représentative de la base de données au sein de laquelle l’ensemble correspondant le plus pertinent a été trouvé. Bien entendu, dans les cas plus complexes explicités précédemment dans lesquels la combinaison d’une partie au moins des métadonnées et du label d’un ensemble enrichi a été retrouvée dans plusieurs bases de données, les données ajoutées à l’ensemble de données enrichi au cours de l’étape S8 peuvent être représentatives d’une partie au moins des bases de données au sein desquelles sont stockés ces ensembles de données correspondants. Still advantageously, an enriched data set can also or alternatively be supplemented by data representative of the database within which the most relevant corresponding set has been found. Of course, in the more complex cases explained previously in which the combination of at least part of the metadata and the label of an enriched set has been found in several databases, the data added to the enriched data set in the during step S8 may be representative of at least part of the databases within which these corresponding data sets are stored.
Ainsi, un ensemble de données enrichi en sortie du système SYS peut comporter, outre le label et éventuellement la donnée traitée avec ou à la place de la donnée fondamentale d’origine, des données permettant de caractériser les différentes étapes du procédé ayant conduit à la génération et à la vérification des ensembles de données enrichi. Cet enrichissement supplémentaire d’un ensemble de données comprend typiquement une donnée représentative de la fonction de similarité utilisée et/ou une ou plusieurs données représentatives des bases de données au sein desquelles des ensembles correspondants sont stockés. Thus, a set of enriched data at the output of the SYS system can include, in addition to the label and possibly the data processed with or in place of the original fundamental data, data making it possible to characterize the different steps of the process that led to generation and verification of enriched data sets. This additional enrichment of a set of data typically comprises data representative of the similarity function used and / or one or more data representative of databases in which corresponding sets are stored.
En d’autres termes, si, après la recherche dans la ou les bases de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi en question est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi a été trouvée. In other words, if, after the search in the database (s), an enriched data set retains its label, the enriched data set in question is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and the label of this enriched data set has been found.
Lors d’une étape S9, optionnellement mise en œuvre à l’issue de l’étape S8, les métadonnées des ensembles de données enrichis sont exploitées afin de faire procéder à une vérification du label attribué. Une telle vérification peut permettre également de corriger si besoin la donnée fondamentale. During a step S9, optionally implemented at the end of step S8, the metadata of the enriched data sets are used in order to carry out a verification of the assigned label. Such a check can also make it possible to correct the fundamental data if necessary.
Selon un mode de réalisation, par exemple dans le domaine spécifique de la banque mobile, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité. L’ensemble de données enrichi est transmis, à l’aide des données de contact, pour une vérification du label agrégé. Une entité peut désigner ici une entreprise, une société, un organisme ou un établissement. According to one embodiment, for example in the specific field of mobile banking, the fundamental data relates to an individual or of an entity, and the metadata comprises at least contact data of the individual or of the entity. . The enriched data set is transmitted, using contact data, for verification of the aggregated label. An entity can designate here a company, a company, an organization or an establishment.
Comme expliqué précédemment, de telles données de contact peuvent être déjà présentes dans l’ensemble de données reçu puis enrichi mais peuvent aussi être récupérées dans l’une des bases de données DB1, DB2 si le résultat de la recherche est satisfaisant. Typiquement, lorsque les métadonnées d’un ensemble de données enrichi à l’issue de l’étape S4 ne comprennent pas de données de contact permettant ultérieurement une transmission de l’ensemble de données enrichi pour une vérification, de telles données de contact sont cherchées dans le ou les ensembles correspondants au sein de la ou des bases de données. As explained previously, such contact data may already be present in the data set received and then enriched, but may also be retrieved from one of the databases. DB1 data, DB2 if the search result is satisfactory. Typically, when the metadata of an enriched data set at the end of step S4 does not include contact data allowing subsequent transmission of the enriched data set for verification, such contact data is sought. in the corresponding set or sets within the database or databases.
En référence à la [Fig. 1], les ensembles de données enrichis sont traitées avant émission pour conserver soit la donnée fondamentale telle que reçue par le module de communication COM soit la donnée traitée, soit la donnée fondamentale récupérée dans une base de données. Par exemple, dans le premier ensemble de données enrichi DAT1*, la donnée fondamentale Di reçue est conservée seule. Dans le deuxième ensemble de données enrichi DAT2*, la donnée traitée D2’ générée est conservée seule. De même, dans le troisième ensemble de données enrichi DAT3*, la donnée traitée D3’ générée est conservée seule. With reference to [Fig. 1], the enriched data sets are processed before transmission in order to keep either the fundamental data as received by the communication module COM or the data processed or the fundamental data recovered from a database. For example, in the first enriched data set DAT1 *, the fundamental data item Di received is kept alone. In the second enriched data set DAT2 *, the processed data item D 2 'generated is kept alone. Likewise, in the third enriched data set DAT3 *, the processed data item D 3 'generated is kept alone.
Les données de contact peuvent être par exemple une adresse postale, un numéro de téléphone et/ou une adresse électronique. Dans l’exemple décrit ici, on considère par exemple que les métadonnées du premier ensemble de données enrichi comprennent des données de contact relatives à une adresse électronique ADD1, les métadonnées du deuxième ensemble de données enrichi comprennent des données de contact relatives à un numéro de téléphone ADD2 tandis que les métadonnées du troisième ensemble de données enrichi comprennent des données de contact relatives à une adresse postale ADD3. The contact data can be for example a postal address, a telephone number and / or an e-mail address. In the example described here, it is considered for example that the metadata of the first enriched data set comprises contact data relating to an electronic address ADD1, the metadata of the second enriched data set include contact data relating to a telephone number. telephone ADD2 while the metadata of the third enriched data set comprises contact data relating to a postal address ADD3.
Concernant ces adresses, il convient de noter par ailleurs qu’un ensemble de données enrichi peut être, à des fins de vérification, transmis évidemment à l’individu ou l’entité faisant l’objet de ces données mais peut l’être également à la source de l’ensemble de données. Par exemple, en considérant à nouveau le domaine d’application de la banque mobile, la génération d’un ensemble de données puis la transmission au système SYS peuvent avoir été déclenchées par le terminal d’un utilisateur, par exemple lors d’un paiement. Plus exactement, ces données sont générées depuis un compte utilisateur de l’utilisateur sur l’application de paiement. Ces données ne concernent pas l’utilisateur en question mais le commerce, l’entreprise ou la société. Lors de l’étape S9, l’ensemble de données enrichi peut donc être transmis pour vérification bien entendu au commerce, à l’entreprise ou à la société via des données de contacts comprises dans les métadonnées, mais peuvent aussi, toujours pour vérification, être également envoyées au compte utilisateur à l’origine de la génération de l’ensemble de données tel que reçu par le système SYS et plus particulièrement par le module de communication COM. With regard to these addresses, it should also be noted that an enriched data set may be, for verification purposes, obviously transmitted to the individual or entity being the subject of these data but may also be sent to the source of the dataset. For example, by considering again the field of application of mobile banking, the generation of a set of data and then the transmission to the SYS system may have been triggered by a user's terminal, for example during a payment. . More precisely, this data is generated from a user account of the user on the payment application. These data do not relate to the user in question but to the trade, business or society. During step S9, the enriched data set can therefore be transmitted for verification of course to the business, the company or the company via contact data included in the metadata, but can also, still for verification, also be sent to the user account at the origin of the generation of the data set as received by the SYS system and more particularly by the communication module COM.
Les ensembles de données enrichi sont alors transmis à ces adresses fournies par les données de contact, par exemple via le module de communication COM, pour qu’il soit procédé à des vérifications du label, et éventuellement de la donnée fondamentale/traitée et de l’ensemble de données enrichi transmis. En particulier, l’unité de traitement UNT est par exemple munie des technologies permettant d’envoyer automatiquement un courriel ou d’utiliser un bot d’appel permettant de téléphoner automatiquement au numéro de téléphone récupéré. The enriched data sets are then transmitted to these addresses provided by the contact data, for example via the communication module COM, for verifications of the label, and possibly of the fundamental / processed data and of the data. 'enriched data set transmitted. In particular, the processing unit UNT is for example provided with technologies to automatically send an email or use a call bot to automatically call the retrieved phone number.
Bien entendu, si une partie au moins des données d’un ensemble de données s’avère, après vérification, erronée, ces données erronées peuvent être corrigées puis renvoyées au système SYS. Par exemple, toujours dans le cas où un ensemble de données a été généré suite au paiement réalisé par un utilisateur via une application de paiement exécutée sur un terminal, cette application lui permet également de recevoir l’ensemble de données enrichi en sortie du système et d’accéder, au moins en partie, à certaines données de l’ensemble de données enrichi à des fins de vérification. Si une donnée, par exemple la donnée fondamentale ou la donnée traitée ou une métadonnée, est erroné, l’utilisateur a la possibilité de corriger cette donnée puis d’envoyer cette correction au système SYS. Of course, if at least part of the data in a data set is found to be erroneous after verification, this erroneous data can be corrected and then sent back to the SYS system. For example, still in the case where a set of data has been generated following the payment made by a user via a payment application executed on a terminal, this application also allows him to receive the enriched set of data at the output of the system and to access, at least in part, certain data in the enriched data set for verification purposes. If a data, for example the fundamental data or the processed data or a metadata, is erroneous, the user has the possibility to correct this data then to send this correction to the SYS system.
Sur réception d’un ensemble de données enrichi corrigé, le système SYS peut alors mettre en œuvre à nouveau certaines étapes du procédé décrit précédemment. Par exemple, le système SYS peut procéder à un nouveau regroupement ou clustering sur plusieurs ensembles de données enrichi corrigés ou procéder à une nouvelle recherche dans une ou plusieurs bases de données. Upon receipt of a corrected enriched data set, the SYS system can then re-implement certain steps of the method described above. For example, the SYS system can re-group or cluster on multiple corrected rich data sets or re-search one or more databases.
Claims
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1903406A FR3094508A1 (en) | 2019-03-29 | 2019-03-29 | Data enrichment system and method |
| PCT/FR2020/050609 WO2020201662A1 (en) | 2019-03-29 | 2020-03-20 | System and method for enriching data |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| EP3948579A1 true EP3948579A1 (en) | 2022-02-09 |
Family
ID=67956931
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP20731903.9A Pending EP3948579A1 (en) | 2019-03-29 | 2020-03-20 | System and method for enriching data |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12242439B2 (en) |
| EP (1) | EP3948579A1 (en) |
| CN (1) | CN113826091A (en) |
| FR (1) | FR3094508A1 (en) |
| WO (1) | WO2020201662A1 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11841891B2 (en) * | 2022-04-29 | 2023-12-12 | Content Square SAS | Mapping webpages to page groups |
| CN114817229B (en) * | 2022-06-21 | 2022-09-20 | 布比(北京)网络技术有限公司 | Block chain based score clearing data processing method and block chain system |
| US20250013629A1 (en) * | 2023-07-08 | 2025-01-09 | International Business Machines Corporation | Detecting labels of a data catalog incorrectly assigned to data set fields |
Family Cites Families (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
| GB2395807A (en) * | 2002-11-27 | 2004-06-02 | Sony Uk Ltd | Information retrieval |
| US20110131130A1 (en) * | 2009-12-01 | 2011-06-02 | Bank Of America Corporation | Integrated risk assessment and management system |
| US8983954B2 (en) * | 2012-04-10 | 2015-03-17 | Microsoft Technology Licensing, Llc | Finding data in connected corpuses using examples |
| US9218546B2 (en) * | 2012-06-01 | 2015-12-22 | Google Inc. | Choosing image labels |
| US20140006275A1 (en) * | 2012-06-28 | 2014-01-02 | Bank Of America Corporation | Electronic identification and notification of banking record discrepancies |
| CA2892891C (en) * | 2014-05-27 | 2022-09-06 | The Toronto-Dominion Bank | Systems and methods for providing merchant fraud alerts |
| US10210246B2 (en) | 2014-09-26 | 2019-02-19 | Oracle International Corporation | Techniques for similarity analysis and data enrichment using knowledge sources |
| US10976907B2 (en) * | 2014-09-26 | 2021-04-13 | Oracle International Corporation | Declarative external data source importation, exportation, and metadata reflection utilizing http and HDFS protocols |
| US9665628B1 (en) * | 2015-12-06 | 2017-05-30 | Xeeva, Inc. | Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency |
| CN107133226B (en) * | 2016-02-26 | 2021-12-07 | 阿里巴巴集团控股有限公司 | Method and device for distinguishing themes |
| US20180011919A1 (en) * | 2016-07-05 | 2018-01-11 | Kira Inc. | Systems and method for clustering electronic documents |
| US20220035862A1 (en) * | 2018-12-19 | 2022-02-03 | jSonar Inc. | Context enriched data for machine learning model |
| US11146652B2 (en) * | 2019-10-31 | 2021-10-12 | Zerofox, Inc. | Methods and systems for enriching data |
| US11625723B2 (en) * | 2020-05-28 | 2023-04-11 | Paypal, Inc. | Risk assessment through device data using machine learning-based network |
-
2019
- 2019-03-29 FR FR1903406A patent/FR3094508A1/en not_active Withdrawn
-
2020
- 2020-03-20 WO PCT/FR2020/050609 patent/WO2020201662A1/en not_active Ceased
- 2020-03-20 CN CN202080035793.4A patent/CN113826091A/en active Pending
- 2020-03-20 US US17/599,113 patent/US12242439B2/en active Active
- 2020-03-20 EP EP20731903.9A patent/EP3948579A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| WO2020201662A1 (en) | 2020-10-08 |
| US12242439B2 (en) | 2025-03-04 |
| CN113826091A (en) | 2021-12-21 |
| FR3094508A1 (en) | 2020-10-02 |
| US20220171749A1 (en) | 2022-06-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10073876B2 (en) | Bloom filter index for device discovery | |
| US11281438B2 (en) | Platform for web services development and method therefor | |
| CN108959370B (en) | Community discovery method and device based on entity similarity in knowledge graph | |
| WO2020201662A1 (en) | System and method for enriching data | |
| EP3443678B1 (en) | Method of decoding a polar code with inversion of low reliability bits | |
| EP0995272B1 (en) | Product code iterative decoding | |
| US11163726B2 (en) | Context aware delta algorithm for genomic files | |
| WO2020230147A1 (en) | Managing network event data in a telecommunications network | |
| US11789810B2 (en) | Method and system for detecting data corruption | |
| US11921787B2 (en) | Identity-aware data management | |
| FR3009462B1 (en) | IMPROVED METHOD OF DECODING A CORRECTING CODE WITH MESSAGE PASSAGE, ESPECIALLY FOR DECODING LDPC CODES OR TURBO CODES | |
| CN116150144A (en) | Data sorting method, device, electronic device and storage medium | |
| CN107832341B (en) | AGNSS user duplicate removal statistical method | |
| US20210303797A1 (en) | Semantic correction of messages | |
| FR2871631A1 (en) | METHOD FOR ITERACTIVE DECODING OF BLOCK CODES AND CORRESPONDING DECODER DEVICE | |
| CN116150355A (en) | Classification method, text classification method and device, electronic equipment, medium | |
| EP3552346A1 (en) | Method of sending a message, method of reception, sending device, reception device and communication system associated therewith | |
| CN117093880B (en) | Single sign-on user management method and system based on medical integrated platform | |
| FR3047580B1 (en) | DATA BASE TABLE INDEX | |
| US12111869B2 (en) | Identifying an implementation of a user-desired interaction using machine learning | |
| US12050600B2 (en) | Permutation-based clustering of computer-generated data entries | |
| FR2884661A1 (en) | METHOD AND DEVICE FOR DECODING A VARIABLE LENGTH CODE USING PRIORI PROBABILITY INFORMATION | |
| US20250045270A1 (en) | Method and system for implementing a data corruption detection test | |
| EP4679792A1 (en) | Network packet mirroring for communications network analysis | |
| Chhor | Topics in high-dimensional and non-parametric inference |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: UNKNOWN |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE |
|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE |
|
| 17P | Request for examination filed |
Effective date: 20210915 |
|
| AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
| DAV | Request for validation of the european patent (deleted) | ||
| DAX | Request for extension of the european patent (deleted) | ||
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: EXAMINATION IS IN PROGRESS |
|
| 17Q | First examination report despatched |
Effective date: 20230818 |
|
| RAP3 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: ORANGE |