[go: up one dir, main page]

WO2018167404A1 - Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne - Google Patents

Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne Download PDF

Info

Publication number
WO2018167404A1
WO2018167404A1 PCT/FR2018/050544 FR2018050544W WO2018167404A1 WO 2018167404 A1 WO2018167404 A1 WO 2018167404A1 FR 2018050544 W FR2018050544 W FR 2018050544W WO 2018167404 A1 WO2018167404 A1 WO 2018167404A1
Authority
WO
WIPO (PCT)
Prior art keywords
transactions
transaction
model
meta
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/FR2018/050544
Other languages
English (en)
Inventor
Jordan FRERY
Amaury HABRARD
Marc SEBBAN
Liyun GUELTON
Olivier CAELEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WORLDLINE
Centre National de la Recherche Scientifique CNRS
Universite Jean Monnet
Original Assignee
WORLDLINE
Centre National de la Recherche Scientifique CNRS
Universite Jean Monnet
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WORLDLINE, Centre National de la Recherche Scientifique CNRS, Universite Jean Monnet filed Critical WORLDLINE
Priority to CN201880024752.8A priority Critical patent/CN110678890A/zh
Priority to EP18712980.4A priority patent/EP3596685A1/fr
Publication of WO2018167404A1 publication Critical patent/WO2018167404A1/fr
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Definitions

  • the present invention relates to a mechanism for detecting anomalies by automatic learning in a set of banking transactions. It applies in particular to the detection of fraud.
  • Fraud on payment transactions mainly involving bank transactions, is an important and growing phenomenon, particularly as a result of the generalization of online transactions via telecommunication networks.
  • other types of anomalies can also occur (errors ).
  • the first case has the advantage of being able to block a fraudulent transaction before it takes place, but it is subject to a strong constraint on the processing time, since the mechanism delays the finalization of the payment and impact transaction. therefore negatively the user's experience.
  • the second case allows for more of time and thus to be able to put in place treatments more accounts and finer.
  • the object of the present invention is to provide a solution at least partially overcoming the aforementioned drawbacks. More particularly, the invention aims to provide tools enabling the determination of a set of transactions presenting a certain risk of being in anomaly (frauds or other phenomena), and which can be presented to a human operator.
  • the present invention proposes a method for the detection of anomalies in a set of payment transactions, consisting in
  • meta-model consisting of a set of models, each optimized on a training game to determine a risk for each transaction to be an anomaly, said meta-model being established by the technique of "gradient boosting", so as to optimize a differentiable function expressing the average accuracy of said meta-model;
  • the invention comprises one or more of the following features which can be used separately or in partial combination with one another or in total combination with one another:
  • said subset is presented to one or more human experts and said threshold is determined according to the number of transactions that can be processed by said one or more human experts; prior to the establishment of the meta-model, a subsampling step (E2) is applied to said set of transactions, in order to improve the balance between anomalous transactions and legitimate transactions;
  • said sub-sampling step consists in optimizing a measurement F2; the optimization of said measurement F2 consists in minimizing a differentiable function expressing said measurement F2;
  • the average precision AP is expressed by the equation:
  • y i is equal to 1 if said transaction is in anomaly, 0 otherwise;
  • I () is the indicator function, it is equal to 1 if the condition is true, 0 otherwise;
  • N the number of transactions of the learning game
  • n is the rank of transaction x; compared to the ranking of all transactions, predicted by model F said function is expressed by the equation (), with:
  • Another object of the invention is a computer program comprising instructions which, when executed by a processor of a computer system, result in the implementation of a method as previously described.
  • Another object of the invention is a device for the detection of anomalies comprising means enabling the implementation of the previously described method.
  • Figure 1 shows schematically an example of the flow of the method according to one embodiment of the invention.
  • the invention consists in determining within a set of transactions, the subset of transactions presenting a high risk and to be presented to one (or more) human operator.
  • the cardinal of this subset may be predetermined since it may correspond to the number of transactions that can be processed over a given duration (for example a day) by human operators.
  • the problem solved by the invention therefore consists in quickly finding the k transactions presenting the highest risk of being anomalies, where k is the number of transactions that can be processed by the human operators.
  • a preprocessing step can be implemented. This step is referenced El in FIG.
  • This pretreatment consists in preparing the data corresponding to the transactions in order to allow their good treatment by the subsequent stages.
  • This data includes both data previously contained in the transactions, and data external to them.
  • this pretreatment can cover at least two operations:
  • a first operation consists in formatting the data present in the submitted transactions, in order to allow their processing by the "machine learning” type algorithm to which they are then subjected.
  • the date of the transaction can be transformed into several data, or characteristics ("features"): day, month, year, hour, minute ...
  • a second operation is to associate new features to the transactions. These new features can be created from the history of the parties to the transaction, including the holder of a payment card used for the transaction: average amounts spent, previously visited stores, etc.
  • This step E2 can be omitted in the overall process according to the invention, but it makes it possible to improve the performances and the processing time.
  • the number of transactions in anomaly is certainly too high, but it nevertheless represents a proportion very low total transaction volume (for example, around 0.2%). It shows that the transaction population is very unbalanced, and this imbalance creates significant problems for most learning mechanisms.
  • One of the objectives of the invention is to take into account this specificity and to propose a solution to remedy it.
  • step E2 It is in this step E2 to discard a certain number of transactions that can be judged as not being in anomaly (that is to say, which are "legitimate"), in order to partly reduce the number of transactions involved in the learning game and, on the other hand, improve the distribution between anomalous transactions and legitimate transactions.
  • the step E2 is a binary classification step of assigning each transaction of the learning set submitted in a class "transaction in anomaly” or in a class "legitimate transaction”. It can aim at optimizing a measurement F2 combining the recall rate and the precision measured for this sub-sampling step.
  • the recall rate for a given class is defined by the ratio between the number of correctly classified transactions and the number of transactions actually in that class. Accuracy is defined as the ratio of the number of correctly classified transactions to the total number of transactions.
  • the "true positive” TP, FP "false positive” and FN “false negative” rates can be expressed according to the scores provided by an F model established for this binary classification step with two classes "+1" and "0" .
  • Such a measurement may for example be the measure F (or F measure), defined by:
  • a measurement F2 is preferred for the emphasis it places on recall, rather than accuracy.
  • the sub-sampling step allows to discard a large number of "legitimate" transactions, while keeping a maximum of transactions in anomaly for the next step E3.
  • the optimization of the measurement F2 consists in minimizing a differentiable function expressing said measurement F2.
  • This approximation can be used as an objective function in a classical optimization process.
  • This optimization process can be a gradient descent and for example use the "gradient boosting" technique, this same way as step E3.
  • gradient boosting technique
  • This step E3 consists in establishing a meta-model formed of a set of models, each optimized on a training set, by the "gradient boosting" technique, so as to optimize a differentiable function expressing the average accuracy of said meta-model. model.
  • the method used in the context of the invention is a set-learning method, that is to say based on a global model, or meta-model, formed of a set of "individual” models. Each individual model, or “basic”, is built and optimized from a learning game.
  • each model performs a prediction
  • the final prediction, performed by the meta-model is a combination of individual predictions. Different combinations are possible: majority vote, weighted majority vote, threshold vote, unanimity, etc.
  • the combination can be made with a weighted majority vote.
  • each model learns autonomously, iteratively, and is evaluated with respect to a result to be achieved which, in the context of the invention, is the optimization of a function expressing a mean accuracy of the models.
  • the set-up technique used is a "boosting" technique, or stimulation, and more particularly of “gradient boosting", since it is a function optimization.
  • the basic idea is to consider the transactions that have been poorly learned by the models and focus on them in order to improve their learning priority over other transactions, in the following iterations of the learning process.
  • AdaBoost AdaBoost algorithm
  • the principle consists of assigning weights to the examples of the learning games and, at each iteration, to change its weight by increasing the weights of the badly classified examples and by decreasing those of the well classified examples.
  • the use of the "boosting" technique to perform a gradient descent optimization is well known and for example described in the article by JH Friedman, "Greedy function approximation: a gradient boosting machine” in Annals of statistics, 2001, pages 1189-1232.
  • the invention does not lie in a new boosting algorithm or boosting gradient, but on how to use them. From a practical point of view, an embodiment of the invention may be a method, implemented by software, using such an algorithm as an autonomous functional module, which may be provided by a library for example.
  • the problem we are trying to solve with the boosting gradient algorithm is to improve the set of "best"k's anomaly transactions, where k is the number of transactions that expert users can betray. Therefore, an objective function based on ranks (or rankings) is particularly suitable.
  • Each transaction x belongs to a class "+1", corresponding to transactions in anomaly, or to a class "0" corresponding to transactions "legitimate".
  • F is a model that has a risk output, that is, a probability for a transaction to belong to the class "+1”.
  • I () represents the indicator function.
  • N is the number of transactions in the learning set S. This learning set can be written in which the transaction x i is associated with a class y i .
  • the above expression therefore defines the number of transactions that have a risk greater than or equal to the transaction x i .
  • the average accuracy AP can then be obtained by:
  • An idea of the invention therefore consists in approximating this expression of the average accuracy by a differentiable function expressing this average precision. It is this differentiable function that will be optimized by the gradient boosting algorithm.
  • the invention can be implemented by the use of a “gradient boosting” algorithm known per se, but modified by the introduction of a specific function to be minimized which is a differentiable function expressing the average precision of the model.
  • the meta-model is driven so as to minimize the average accuracy.
  • it can then be used in anticipation to assign a risk to the transactions.
  • This predetermined threshold may have been learned during the learning phase. His learning can be empirical and constant. It is also possible to vary it according to certain parameters like the date, because certain calendar events are likely to influence the rates of anomalies and frauds (holidays, weekends ). On those events where fraud is more prevalent, the threshold will be increased to obtain a constant number of "at risk” transactions (assuming that human resources remain constant).
  • the present invention is not limited to the examples and to the embodiment described and shown, but it is capable of numerous variants accessible to those skilled in the art.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé pour la détection d'anomalies dans un ensemble de transactions de paiement, consistant à - établir (E3) un méta-modèle formé d'un ensemble de modèles, chacun entrainé sur un jeu d'entrainement pour déterminer un risque pour chaque transaction d'être en anomalie, ledit méta-modèle étant établi par la technique du «gradient boosting», de sorte à optimiser une fonction dérivable exprimant la précision moyenne dudit méta-modèle; - soumettre (E4) ledit ensemble audit méta-modèle, afin de déterminer des risques pour chaque transaction dudit ensemble, et, - déterminer un sous-ensemble de transactions correspondant à un risque supérieur à un seuil déterminé pour fournir un nombre prédéterminé de transaction dans ledit sous-ensemble.

Description

DETECTION PAR APPRENTISSAGE AUTOMATIQUE D'ANOMALIES DANS UN ENSEMBLE DE TRANSACTIONS BANCAIRES PAR OPTIMISATION DE LA PRECISION MOYENNE
DOMAINE DE L'INVENTION
La présente invention est relative à un mécanisme de détection d'anomalies par apprentissage automatique dans un ensemble de transactions bancaires. Elle s'applique notamment à la détection de fraudes.
CONTEXTE DE L'INVENTION
La fraude sur les transactions de paiement, incluant principalement les transactions bancaires, est un phénomène important et grandissant, notamment du fait de la généralisation des transactions en lignes, effectuées via les réseaux de télécommunication. En sus des fraudes, d'autres types d'anomalies peuvent également survenir (erreurs...).
Aussi, différents mécanismes pour détecter les anomalies ont été déployées, en particulier par les établissements bancaires.
Ces mécanismes peuvent être mis en place avant ou après l'autorisation de transaction par un serveur de paiement. Dans le premier cas, on parle de détection de fraudes, ou d'anomalies, en temps-réel. Dans le deuxième cas, il s'agit de détection proche du temps-réel (« near real- time »).
Le premier cas présente l'avantage de pouvoir bloquer une transaction frauduleuse avant que celle-ci n'ait lieu, mais elle est assujettie à une contrainte forte sur le temps de traitement, puisque le mécanisme retarde la finalisation de la transaction de paiement et impacte donc négativement l'expérience de l'utilisateur. Le deuxième cas permet de disposer davantage de temps et donc de pouvoir mettre en place des traitements plus comptes et plus fins.
Des solutions pour permettre des détections d'anomalies dans ce deuxième cas ont été proposées. Pour une grande partie, ces solutions se basent sur différents mécanismes de classification.
Toutefois, la plupart des technologies classiques de classification ne peuvent s'appliquer directement du fait de spécificités de la détection d'anomalies dans un ensemble de transactions de paiement. Notamment, le très fort déséquilibre dans les données tend à induire des modèles prédisant seulement des transactions non frauduleuses.
Tout d'abord, les conséquences de la fraude sont extrêmement importantes et très sensibles. S'il est donc important de détecter le maximum de cas de fraude, il est également très dommageable d'annuler une transaction suspecte alors que celle-ci s'avère licite. La gravité et la complexité de la situation ne permettent pas aujourd'hui un traitement automatique et les solutions existantes consister à présenter un certain nombre de transactions litigieuses à un opérateur humain, et c'est cet opérateur humain qui, en dernier ressort, est responsable de la classification finale d'une transaction litigieuse en tant qu'anomalie ou licite.
En outre, du fait du caractère confidentiel et sensible des informations relatives aux paiements et aux données bancaires, très peu d'informations sont publiquement disponibles sur les outils mis en place pour la détection de fraude. Il est dès lors malaisé de comparer les solutions de l'état de la technique.
RESUME DE L 'INVENTION
Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités. Plus particulièrement, l'invention vise à fournir des outils permettant la détermination d'un ensemble de transactions présentant un certain risque d'être en anomalie (fraudes ou autres phénomènes), et pouvant être présenté à un opérateur humain.
A cette fin, la présente invention propose un procède pour la détection d'anomalies dans un ensemble de transactions de paiement, consistant à
- établir un méta-modèle formé d'un ensemble de modèles, chacun optimisé sur un jeu d'entraînement pour déterminer un risque pour chaque transaction d'être en anomalie, ledit méta-modèle étant établi par la technique du « gradient boosting », de sorte à optimiser une fonction dérivable exprimant la précision moyenne dudit méta-modèle ;
- soumettre ledit ensemble audit méta-modèle, afin de déterminer des risques pour chaque transaction dudit ensemble, et,
- déterminer un sous-ensemble de transactions correspondant à un risque supérieur à un seuil déterminé pour fournir un nombre prédéterminé de transactions dans ledit sous-ensemble.
Suivant des modes de réalisation préférés, l'invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :
ledit sous-ensemble est présenté à un ou plusieurs experts humains et ledit seuil est déterminé en fonction du nombre de transactions pouvant être traitées par ledit un ou plusieurs experts humains ; préalablement à l'établissement du méta-modèle, une étape de sous-échantillonnage (E2) est appliquée audit ensemble de transactions, afin d'améliorer l'équilibre entre transactions en anomalie et transactions légitimes ;
ladite étape de sous-échantillonnage consiste à optimiser une mesure F2 ; l'optimisation de ladite mesure F2 consiste à minimiser une fonction dérivable exprimant ladite mesure F2 ;
ladite précision moyenne est appliquée sur le rang d'une transaction, les transactions étant ordonnée par niveau de risque, la précision moyenne AP s'exprime par l'équation :
Figure imgf000005_0001
Figure imgf000005_0002
est le risque déterminé comme une fraude pour la transaction x. ;
yi est égal à 1 si ladite transaction est en anomalie,0 sinon ;
I() est la fonction indicatrice, elle est égale à 1 si la condition est vraie, 0 sinon ;
- N le nombre de transaction du jeu d'apprentissage ;
et n est le rang de la transaction x; par rapport au classement de toutes les transactions, prédit par modèle F ladite fonction s'exprime par l'équation
Figure imgf000005_0005
( ), avec :
Figure imgf000005_0003
et dans laquelle a est un
Figure imgf000005_0004
paramètre de lissage.
Un autre objet de l'invention est un programme d'ordinateur comportant des instructions qui, lorsqu'exécutés par un processeur d'un système informatique, entraînent la mise en œuvre d'un procédé tel que précédemment décrit. Un autre objet de l'invention est un dispositif pour la détection d'anomalies comportant des moyens permettant la mise en œuvre du procédé précédemment décrit. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d'un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.
BREVE DESCRIPTION DES DESSINS
La figure 1 représente schématiquement un exemple de déroulement du procédé selon un mode de réalisation de l'invention.
DESCRIPTION DETAILLEE DE L'INVENTION
Comme il a été dit en introduction, l'invention consiste à déterminer au sein d'un ensemble de transactions, le sous-ensemble de transactions présentant un risque élevé et devant être présenté à un (ou plusieurs) opérateur humain.
Le cardinal de ce sous-ensemble peut être prédéterminé puisqu'il peut correspondre au nombre de transactions qui peuvent être traitées sur une durée donnée (par exemple une journée) par les opérateurs humains.
Le problème résolu par l'invention consiste donc à trouver rapidement les k transactions présentant le risque le plus élevé d'être des anomalies, k étant le nombre de transactions pouvant être traitées par les opérateurs humains.
Dans un premier temps, une étape de prétraitement des transactions peut être mise en place. Cette étape est référencée El sur la figure 1.
Ce prétraitement consiste à préparer les données correspondant aux transactions afin de permettre leur bon traitement par les étapes ultérieures. Ces données comprennent à la fois des données contenues préalablement dans les transactions, et des données extérieures à celles-ci.
Plus particulièrement, ce prétraitement peut recouvrir au moins deux opérations :
Une première opération consiste à une mise en forme des données présentes dans les transactions soumises, afin de permettre leur traitement par l'algorithme de type « machine learning » auquel elles sont ensuite soumises. Par exemple, la date de la transaction peut être transformée en plusieurs données, ou caractéristiques (« features ») : jour, mois, année, heure, minute...
Une seconde opération consiste à associer de nouvelles caractéristiques aux transactions. Ces nouvelles caractéristiques peuvent être créées à partir de l'historique des parties à la transaction, notamment du porteur d'une carte de paiement utilisée pour la transaction : moyenne des montants dépensés, magasins précédemment visités, etc.
Ces caractéristiques sont prévues pour être pertinentes par rapport au problème posé qui est la détection d'anomalies et plus particulièrement de fraude. Ainsi, un montant très supérieur à la moyenne des transactions précédentes peut être un élément de risque, sans pour autant caractériser en soi une anomalie.
Les transactions, ainsi formées chacune d'un ensemble de caractéristiques, sont ensuite transmises à une étape E2 de sous- échantillonnage.
Cette étape E2 peut être omise dans le processus global conforme à l'invention, mais elle permet d'en améliorer les performances et le temps de traitement.
Elle permet notamment d'améliorer le jeu d'apprentissage sur lequel vont être entraînés les modèles statistiques de l'étape ultérieur. En effet, comme il a été évoqué précédemment, le nombre de transactions en anomalie est certes trop élevé, mais il représente toutefois une proportion très faible du volume total des transactions (par exemple, de l'ordre de 0.2%). Il en ressort que la population des transactions est très déséquilibrée, et ce déséquilibre engendre des problèmes importants pour la plupart des mécanismes d'apprentissage. Un des objectifs de l'invention est de prendre en compte cette spécificité et de proposer une solution permettant d'y remédier.
Il s'agit dans cette étape E2 d'écarter un certain nombre de transactions que l'on peut juger comme n'étant pas en anomalie (c'est-à-dire qui sont « légitimes »), afin d'une part de réduire le nombre de transactions entant dans le jeu d'apprentissage et d'autre part d'améliorer la répartition entre transactions en anomalie et transactions légitimes.
De telles techniques de sous-échantillonnages par exemple décrites dans l'article « Smote-rsb* : a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using smote and rough set theory » de E. Ramentol, Y. Caballero et F. Herrera, in Knowledge and Information Systems, 33(2), 2012, pages 245-265. Cet article présente également une technique complémentaire ou alternative consistant à sur-échantillonner l'ensemble des données, c'est-à-dire à créer des données « synthétiques » de la classe minoritaire.
Plus précisément encore, l'étape E2 est une étape de classification binaire consistant à affecter chaque transaction du jeu d'apprentissage soumis dans une classe « transaction en anomalie » ou dans une classe « transaction légitime ». Elle peut viser à optimiser une mesure F2 combinant le taux de rappel et la précision mesurés pour cette étape de sous- échantillonnage.
Le taux de rappel pour une classe donnée est défini par le rapport entre le nombre de transactions correctement classifiées et le nombre de transactions effectivement dans cette classe. La précision est définie par le rapport entre le nombre de transactions correctement classifîées et le nombre total de transactions.
Si l'on considère les critères habituels en classification de « vrais positifs » TP, « faux positifs » FP et « faux négatifs » FN, le taux rappel et la précision peuvent s'exprimer :
Figure imgf000009_0003
Les taux « vrais positifs » TP, « faux positifs » FP et « faux négatifs » FN peuvent s'exprimer en fonction des scores fournis par un modèle F établi pour cette étape de classification binaire avec deux classes « +1 » et « 0 ».
On considère la probabilité pour une transaction x;
Figure imgf000009_0001
d'appartenir à la classe positive « 1 ». Dans un jeu d'apprentissage de N transactions, on peut associer à chaque transaction Xi, la « vraie » classe yi. Ce jeu d'apprentissage peut s'écrire
On peut alors écrire :
Figure imgf000009_0004
Figure imgf000009_0002
Ces deux critères, précision et rappel, sont insuffisants, en général, pour mesurer la performance d'un mécanisme de classification. Il est en effet possible d'obtenir un taux de rappel très élevé (soit égal à 1 au maximum) au détriment d'une précision très faible et inversement.
Il existe plusieurs mesures classiques combinant rappel et précision, de sorte à capturer une performance considérée comme pertinente et représentative de la capacité du mécanisme à fournir des résultats acceptables.
Une telle mesure peut par exemple être la mesure F (ou F mesure), définie par :
Figure imgf000010_0002
Selon un mode de réalisation de l'invention, une mesure F2 est préférée pour l'accent qu'elle met sur le rappel, plutôt que la précision.
Figure imgf000010_0003
c'est-à-dire :
Figure imgf000010_0004
En insistant sur le rappel, l'étape de sous-échantillonnage permet d'écarter un grand nombre de transactions « légitimes », tout en gardant un maximum de transactions en anomalie pour la prochaine étape E3.
Selon un de mode de réalisation, l'optimisation de la mesure F2 consiste à minimiser une fonction dérivable exprimant ladite mesure F2.
Pour ce faire, on peut définir des approximations pour chaque somme TP, FP, FN, dans lesquels on remplace la fonction indicatrice par une approximation avec la fonction sigmoïde.
Les définitions données plus haut deviennent alors :
Figure imgf000010_0001
On peut utiliser ces définitions pour construire une approximation de la mesure F2,
Figure imgf000011_0001
Cette approximation peut être utilisée comme fonction objective dans un processus d'optimisation classique. Ce processus d'optimisation peut être une descente de gradient et par exemple utiliser la technique du « gradient boosting », cela même façon que l'étape E3. Ces méthodes d'optimisation seront plus détaillées dans les paragraphes suivants, en relation avec l'étape E3.
Cette étape E3 consiste à établir un méta-modèle formé d'un ensemble de modèles, chacun optimisé sur un jeu d'entraînement, par la technique du « gradient boosting », de sorte à optimiser une fonction dérivable exprimant la précision moyenne dudit méta-modèle.
D'une façon générale, il s'agit d'établir un méta-modèle permettant, en généralisation, de déterminer un sous-ensemble de transactions correspondant à un risque supérieur à un seuil déterminé pour fournir un nombre prédéterminé de transaction dans ledit sous-ensemble
En effet, comme il a été évoqué précédemment, les transactions considérées comme « à risque » sont soumises à des utilisateurs experts afin que ceux-ci décident si celles-ci sont des anomalies ou non. En conséquence, les ressources humaines disponibles fournissent ce nombre prédéterminé. La problématique consiste donc à fournir les k transactions les plus risquées, k étant le nombre de transactions que les utilisateurs- experts peuvent traités. Afin de résoudre ce problème technique, les inventeurs ont considéré que le critère habituel de l'exactitude (ou « accuracy » en langue anglaise) du modèle à utiliser pour la généralisation n'était pas optimum. Ils considèrent que le critère de la précision moyenne est mieux à même de rendre compte de la spécificité du problème technique. Dans le cadre de l'apprentissage ensemb liste mis en œuvre dans l'invention, optimiser la précision moyenne permet de favoriser l'apprentissage de modèles qui génèrent une bonne précision sur les transactions présentant les risques les plus élevés.
La méthode utilisée dans le cadre de l'invention est une méthode d'apprentissage ensembliste, c'est-à-dire se basant sur un modèle global, ou méta-modèle, formé d'un ensemble de modèles « individuels ». Chaque modèle individuel, ou « de base », est construit et optimisé à partir d'un jeu d'apprentissage.
Ces méthodes ensemb listes ont été présentées dans l'état de la technique dans de nombreuses publications dans le domaine de l'apprentissage automatique.
D'une façon générale, elles reposent sur les limites que l'on constate pour tout modèle lorsqu'on recherche un bon compromis entre le biais et la variance. Des études ont démontré qu'on considérant non pas un modèle mais un ensemble de modèles, on pouvait améliorer à la fois le biais et la variance du méta-modèle.
Dans la phase de prédiction, chaque modèle effectue une prédiction, et la prédiction finale, effectuée par le méta-modèle, est une combinaison des prédictions individuelles. Différentes combinaisons sont possibles : vote majoritaire, vote majoritaire pondéré, vote avec seuil, unanimité, etc.
Dans le cadre de l'invention, la combinaison peut être faite avec un vote majoritaire pondéré.
En apprentissage automatique, chaque modèle apprend de façon autonome, de façon itérative, et est évalué par rapport à un résultat à atteindre qui, dans le cadre de l'invention, est l'optimisation d'une fonction exprimant une précision moyenne des modèles.
Selon un mode de réalisation de l'invention, la technique ensembliste utilisée est une technique de « boosting », ou stimulation, et plus particulièrement de « gradient boosting » (stimulation du gradient), puisqu'il s'agit d'une optimisation de fonction.
La technique du boosting a été proposée par R. Schapire dans l'article « The strength of week learnability » in Machine Learning, 5, 1990, pages 197-227, et a fait l'objet depuis d'une abondante littérature.
L'idée de base est de considérer les transactions ayant été mal appris par les modèles et de se focaliser dessus afin d'améliorer leur apprentissage en priorité par rapport aux autres transactions, dans les itérations suivantes du processus d'apprentissage.
Une implémentation de ce principe est détaillée par exemple dans l'algorithme AdaBoost fourni par l'article « Experiments with a new boosting algorithm » de Y. Freund et R. Schapire, in International Conférence on Machine Learning, 1996, pages 148-156.
Dans sa généralité, le principe consiste à affecter des poids aux exemples des jeux d'apprentissage et, à chaque itération, à faire évoluer ses poids en augmentant les poids des exemples mal classés et en diminuant ceux des exemples bien classés. De même l'utilisation de la technique du « boosting » pour réaliser une optimisation par descente de gradient est bien connue et par exemple décrite dans l'article de J. H. Friedman, « Greedy function approximation: a gradient boosting machine » in Annals of statistics, 2001, pages 1189-1232.
L'invention ne réside pas dans un nouvel algorithme de boosting ou de gradient boosting, mais sur la façon de les utiliser. D'un point de vue pratique, un mode de réalisation de l'invention peut être un procédé, mis en œuvre par un logiciel, utilisant un tel algorithme comme un module fonctionnel autonome, qui peut être fourni par une librairie par exemple. Le problème que l'on recherche à résoudre au moyen de l'algorithme de gradient boosting est d'améliorer l'ensemble des k « meilleures » transactions en anomalie, où k est le nombre de transactions que les utilisateurs-experts peuvent traître. Dès lors, une fonction objective basée sur les rangs (ou classements) est particulièrement adapté.
On peut définir le rang n de la transaction x; par l'expression
Figure imgf000014_0001
Chaque transaction x; appartient à une classe « +1 », correspondant aux transactions en anomalie, ou bien à une classe « 0 » correspondant aux transactions « légitimes ». F est un modèle qui a pour sortie un risque, c'est- à-dire une probabilité pour une transaction d'appartenir à la classe « +1 ». I() représente la fonction indicatrice. Enfin, N est le nombre de transactions dans le jeu d'apprentissage S. Ce jeu d'apprentissage peut s'écrire dans lequel la transaction xi est associée à une classe yi.
L'expression ci-dessus définit donc le nombre de transactions qui ont un risque supérieur ou égal à la transaction xi.
La précision pi de ce rang n peut alors être définie par l'expression
Figure imgf000014_0002
La précision moyenne AP peut ensuite être obtenue par :
avec M
Figure imgf000014_0003
Autrement dit, on considère donc la précision moyenne appliquée au rang des transactions, celles-ci étant ordonnée par risques F(xi).
Cette précision moyenne AP peut donc également s'écrire
Figure imgf000014_0004
L'utilisation d'une technique de type « gradient boosting » nécessite que la fonction objectif soit différentiable afin de permettre une descente de gradient.
Une idée de l'invention consiste donc à approximer cette expression de la précision moyenne par une fonction dérivable exprimant cette précision moyenne. C'est cette fonction dérivable qui sera optimisé par l'algorithme de « gradient boosting ».
Pour ce faire, on détermine une approximation dérivable de la fonction indicatrice I() :
Figure imgf000015_0001
Ou encore :
Figure imgf000015_0002
avec et dans laquelle a est un
Figure imgf000015_0003
paramètre de lissage. Plus ce paramètre croit, et plus l'approximation s'approche de la précision moyenne réelle AP.
En utilisant cette approximation de la fonction indicatrice, on peut écrire la fonction
Figure imgf000015_0004
à optimiser de la manière suivante :
Figure imgf000015_0005
avec
Figure imgf000015_0006
On peut finalement écrire :
Figure imgf000015_0007
Il est alors possible d'introduire la fonction comme fonction à
Figure imgf000015_0008
minimiser par une descente de gradient selon la technique du « gradient boosting ». L'invention peut être mise en œuvre par l'utilisation d'un algorithme du « gradient boosting » connu en soi, mais modifié par l'introduction d'une fonction spécifique à minimiser qui est une fonction dérivable exprimant la précision moyenne du méta-modèle.
Ainsi, en fin de phase d'apprentissage, le méta-modèle est entraîné de sorte à minimiser la précision moyenne. Dans une étape E4, il peut alors être utilisé en prévision pour affecter un risque aux transactions.
Pour ce faire, on soumet l'ensemble des transactions à ce méta- modèle. Chaque transaction se voit affecter un risque, mais surtout on peut déterminer un sous-ensemble de transactions correspondant à un risque supérieur à un seuil déterminé pour fournir un nombre prédéterminé, k, de transactions dans ce sous-ensemble qui correspondent à celles que les experts peuvent traiter.
Ce seuil prédéterminé peut avoir été appris pendant la phase d'apprentissage. Son apprentissage peut être empirique et être constant. Il est également possible de le faire varier en fonction de certains paramètres comme la date, car certains événements calendaires sont susceptibles d'influencer les taux d'anomalies et de fraudes (vacances, week-end...). Sur ces événements où la fraude est plus présente, le seuil sera augmenté afin d'obtenir un nombre de transactions « à risque » constant (en faisant l'hypothèse que les ressources humaines demeurent constantes). Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims

REVENDICATIONS
1. Procédé pour la détection d'anomalies dans un ensemble de transactions de paiement, consistant à
- établir (E3) un méta-modèle formé d'un ensemble de modèles, chacun optimisé sur un jeu d'entraînement pour déterminer un risque pour chaque transaction d'être en anomalie, ledit méta- modèle étant établi par la technique du « gradient boosting », de sorte à optimiser une fonction dérivable exprimant la précision moyenne dudit méta-modèle;
- soumettre (E4) ledit ensemble audit méta-modèle, afin de déterminer des risques pour chaque transaction dudit ensemble, et,
- déterminer un sous-ensemble de transactions correspondant à un risque supérieur à un seuil déterminé pour fournir un nombre prédéterminé de transaction dans ledit sous-ensemble.
2. Procédé selon la revendication précédente, dans lequel ledit sous- ensemble est présenté à un ou plusieurs experts humains et ledit seuil est déterminé en fonction du nombre de transactions pouvant être traitées par ledit un ou plusieurs experts humains.
3. Procédé selon l'une des revendications précédentes, dans lequel préalablement à l'établissement du méta-modèle, une étape de sous- échantillonnage (E2) est appliquée audit ensemble de transactions, afin d'améliorer l'équilibre entre transactions en anomalie et transactions légitimes.
4. Procédé selon la revendication précédente, dans lequel ladite étape de sous-échantillonnage consiste à optimiser une mesure F2.
5. Procédé selon la revendication précédente, dans lequel l'optimisation de ladite mesure F2 consiste à minimiser une fonction dérivable exprimant ladite mesure F2. 6. Procédé selon l'une des revendications précédentes, dans lequel ladite précision moyenne est appliquée sur le rang d'une transaction, les transactions étant ordonnée par niveau de risque. 7. Procédé selon la revendication précédente, dans lequel la précision moyenne AP s'exprime par l'équation :
Figure imgf000018_0001
avec et dans laquelle F(¾) est le risque déterminé pour
Figure imgf000018_0002
la transaction Xi, y; est égal à 1 si ladite transaction est en anomalie, 0 sinon, I() est la fonction indicatrice, N le nombre de transaction du jeu d'apprentissage, et ri est le rang de la transaction xi 8. Procédé selon la revendication précédente, dans lequel ladite fonction s'exprime par l'équation
Figure imgf000018_0003
, avec :
Figure imgf000018_0004
Figure imgf000018_0005
de lissage.
9. Programme d'ordinateur comportant des instructions qui, lorsqu'exécutés par un processeur d'un système informatique, entraînent la mise en œuvre d'un procédé de compilation selon l'une des revendications 1 à 8.
10. Dispositif pour la détection d'anomalies comportant des moyens permettant la mise en œuvre du procédé selon l'une des revendications 1 à 8.
PCT/FR2018/050544 2017-03-16 2018-03-09 Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne Ceased WO2018167404A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880024752.8A CN110678890A (zh) 2017-03-16 2018-03-09 经优化平均查准率通过机器学习检测银行交易组中的异常
EP18712980.4A EP3596685A1 (fr) 2017-03-16 2018-03-09 Détection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la précision moyenne

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1752142A FR3064095B1 (fr) 2017-03-16 2017-03-16 Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne
FR1752142 2017-03-16

Publications (1)

Publication Number Publication Date
WO2018167404A1 true WO2018167404A1 (fr) 2018-09-20

Family

ID=59153036

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2018/050544 Ceased WO2018167404A1 (fr) 2017-03-16 2018-03-09 Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne

Country Status (4)

Country Link
EP (1) EP3596685A1 (fr)
CN (1) CN110678890A (fr)
FR (1) FR3064095B1 (fr)
WO (1) WO2018167404A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220222931A1 (en) * 2019-06-06 2022-07-14 NEC Laboratories Europe GmbH Diversity-aware weighted majority vote classifier for imbalanced datasets

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199414B (zh) * 2020-09-25 2023-03-21 桦蓥(上海)信息科技有限责任公司 一种金融交易数据的综合分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002097563A2 (fr) * 2001-05-30 2002-12-05 Cybersource Corporation Procede et appareil permettant d'evaluer le risque de fraude lors d'une transaction de commerce electronique

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002097563A2 (fr) * 2001-05-30 2002-12-05 Cybersource Corporation Procede et appareil permettant d'evaluer le risque de fraude lors d'une transaction de commerce electronique

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DE E. RAMENTOL; Y. CABALLERO; F. HERRERA: "Smote-rsb* : a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using smote and rough set theory", KNOWLEDGE AND INFORMATION SYSTEMS, vol. 33, no. 2, 2012, pages 245 - 265
J. H. FRIEDMAN: "Greedy function approximation: a gradient boosting machine", ANNALS OF STATISTICS, 2001, pages 1189 - 1232, XP055249500
R. SCHAPIRE: "The strength of week learnability", MACHINE LEARNING, vol. 5, 1990, pages 197 - 227
Y. FREUND; R. SCHAPIRE: "Experiments with a new boosting algorithm", INTERNATIONAL CONFÉRENCE ON MACHINE LEARNING, 1996, pages 148 - 156, XP008082830

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220222931A1 (en) * 2019-06-06 2022-07-14 NEC Laboratories Europe GmbH Diversity-aware weighted majority vote classifier for imbalanced datasets

Also Published As

Publication number Publication date
EP3596685A1 (fr) 2020-01-22
CN110678890A (zh) 2020-01-10
FR3064095A1 (fr) 2018-09-21
FR3064095B1 (fr) 2019-06-14

Similar Documents

Publication Publication Date Title
US10825109B2 (en) Predicting entity outcomes using taxonomy classifications of transactions
FR3069357A1 (fr) Systeme d'apprentissage machine pour diverses applications informatiques
EP3018615B1 (fr) Procede de comparaison de donnees ameliore
WO2018138423A1 (fr) Detection automatique de fraudes dans un flux de transactions de paiement par reseaux de neurones integrant des informations contextuelles
CN112085541A (zh) 基于浏览消费时序数据的用户需求分析方法及装置
CN110069545B (zh) 一种行为数据评估方法及装置
US20230088840A1 (en) Dynamic assessment of cryptocurrency transactions and technology adaptation metrics
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
FR3064095B1 (fr) Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne
CN119180713A (zh) 金融风险预测方法、预测装置及计算机设备
CN116596657A (zh) 贷款风险评估方法、装置、存储介质及电子设备
EP3502904B1 (fr) Procédé d'amélioration du temps d'exécution d'une application informatique
US20240089247A1 (en) Systems and methods for extracting discrete data from a data unit and managing access thereto using electronic digital certificates
EP4070265A1 (fr) Méthode mise en uvre par ordinateur pour l'allocation d'une pièce comptable à un couple de comptes débiteur/créditeur et l'écriture comptable
EP3752948A1 (fr) Procédé de traitement automatique pour l'anonymisation d'un jeu de données numériques
FR3061337A1 (fr) Moteur de regles universel et optimise pour le traitement de documents de gestion
Peng et al. Credit scoring model in imbalanced data based on cnn-atcn
CN114490827A (zh) 一种基于数据挖掘的用户行为分析和预测的方法和装置
WO2021234252A1 (fr) Procédés d'utilisation sécurisée d'un premier réseau de neurones sur une donnée d'entrée, et d'apprentissage de paramètres d'un deuxième réseau de neurones
US12452826B2 (en) Systems and methods for controlling electronic communications in real time via an artificial intelligence engine based on location data and user data
EP4432175A1 (fr) Procédé de paramétrage d'une chaîne de traitement de données
WO2021048245A1 (fr) Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
EP1554687A2 (fr) SystEme associatif flou de description d objets multimEdia
FR3099614A1 (fr) Mécanisme de détection de fraudes dans un environnement antagoniste
Zhang et al. Personal Loan Default Prediction Based on LightGBM Model and Zhima Credit

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18712980

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018712980

Country of ref document: EP

Effective date: 20191016