FR2871320A1 - SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES - Google Patents
SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES Download PDFInfo
- Publication number
- FR2871320A1 FR2871320A1 FR0406192A FR0406192A FR2871320A1 FR 2871320 A1 FR2871320 A1 FR 2871320A1 FR 0406192 A FR0406192 A FR 0406192A FR 0406192 A FR0406192 A FR 0406192A FR 2871320 A1 FR2871320 A1 FR 2871320A1
- Authority
- FR
- France
- Prior art keywords
- electronic messages
- messages
- analysis
- scrambled
- strings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims description 21
- 238000001514 detection method Methods 0.000 claims description 14
- 238000003780 insertion Methods 0.000 claims description 13
- 230000037431 insertion Effects 0.000 claims description 13
- 238000006467 substitution reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- BNRNXUUZRGQAQC-UHFFFAOYSA-N Sildenafil Natural products CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 BNRNXUUZRGQAQC-UHFFFAOYSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- DEIYFTQMQPDXOT-UHFFFAOYSA-N sildenafil citrate Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O.CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 DEIYFTQMQPDXOT-UHFFFAOYSA-N 0.000 description 2
- 229940094720 viagra Drugs 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Ce système de filtrage (10) de messages électroniques comporte des moyens (16) de réception de messages électroniques (12a, 12b, 12c), des moyens (18) d'analyse de chaînes de caractères contenues dans les messages électroniques reçus et des moyens (20) de classification de ces messages électroniques sur la base de résultats fournis par les moyens d'analyse.Les moyens d'analyse comportent des moyens (24) de détection de chaînes de caractères brouillées pour la fourniture d'au moins une partie des résultats d'analyse utilisés par les moyens de classification (20).This system for filtering (10) electronic messages comprises means (16) for receiving electronic messages (12a, 12b, 12c), means (18) for analyzing character strings contained in the received electronic messages and means (20) classification of these electronic messages based on results provided by the analysis means.The analysis means comprises means (24) for detecting scrambled character strings for providing at least a portion of the analysis results used by the classification means (20).
Description
{ 2871320{2871320
La présente invention concerne un système de filtrage de messages électroniques et un procédé correspondant. The present invention relates to an electronic message filtering system and a corresponding method.
Plus précisément, l'invention concerne un système de filtrage de messages électroniques, du type comportant des moyens de réception de messages électroniques, des moyens d'analyse de chaînes de caractères contenues dans les messages électroniques reçus et des moyens de classification de ces messages électroniques sur la base de résultats fournis par les moyens d'analyse. More precisely, the invention relates to a system for filtering electronic messages, of the type comprising means for receiving electronic messages, means for analyzing character strings contained in the received electronic messages and means for classifying these electronic messages. on the basis of results provided by the means of analysis.
Pour certaines applications notamment, il est intéressant de pouvoir classer les messages électroniques reçus en tant que messages acceptables ou indésirables, Par exemple, parmi les messages électroniques qu'un utilisateur reçoit, certains sont indésirables et lui font perdre du temps. Pour remédier à cet inconvénient, on connaît des systèmes de filtrage de messages électroniques permettant de faire le tri entre des messages susceptibles d'intéresser l'utilisateur et d'autres, exclus a priori en tant que messages indésirables. For some applications in particular, it is interesting to classify the received electronic messages as acceptable or unwanted messages, For example, among the electronic messages that a user receives, some are unwanted and waste time. To overcome this drawback, there are known systems for filtering electronic messages to sort between messages likely to interest the user and others, excluded a priori as unwanted messages.
En général, les systèmes de filtrage connus comportent des moyens de classification de messages électroniques reçus sur la base de règles prédéterminées ou de mécanismes d'apprentissage. Lorsque les messages comportent du texte, les critères de décision sont le plus souvent basés sur l'analyse de chaînes de caractères contenues dans les messages électroniques, notamment la détection de chaînes de caractères prédéterminées, telles que des mots-clés ou des combinaisons de mots-clés reconnus par le système. In general, the known filtering systems comprise means for classifying electronic messages received on the basis of predetermined rules or learning mechanisms. When the messages contain text, the decision criteria are most often based on the analysis of strings contained in the electronic messages, including the detection of predetermined character strings, such as keywords or combinations of words. keys recognized by the system.
Par exemple, les messages électroniques analysés sont écartés, à partir du moment où la probabilité pour qu'ils soient indésirables est suffisamment forte, compte-tenu des mots-clés ou combinaisons de mots- clés détectés dans leur contenu. For example, the scanned e-mail messages are discarded, as long as the probability that they are undesirable is sufficiently high, given the key words or combinations of keywords detected in their content.
Cependant, l'objectif des émetteurs de messages indésirables étant justement d'atteindre leurs récepteurs, il est de plus en plus courant de voir de tels messages dans lesquels les mots-clés susceptibles d'être détectés sont traités de manière à passer à travers le système de filtrage tout en restant intelligibles par un utilisateur. Par exemple, il est commun d'ajouter des caractères symboliques entre les lettres des mots-clés, de supprimer certains caractères n'empêchant pas un utilisateur de comprendre le mot, ou bien de remplacer certains caractères par d'autres qui leur ressemblent (un "i" par un "1 ", un "S" par un "$", etc.). However, since the objective of the senders of unwanted messages is precisely to reach their receivers, it is more and more common to see such messages in which the keywords that can be detected are processed so as to pass through the message. filtering system while remaining intelligible to a user. For example, it is common to add symbolic characters between the letters of the keywords, to delete certain characters that do not prevent a user from understanding the word, or to replace certain characters with others that resemble them (a "i" by a "1", an "S" by a "$", etc.).
Ces traitements effectués sur les contenus de messages indésirables, permettent à leurs émetteurs de contourner les systèmes de filtrage connus. These processes performed on the contents of unwanted messages, allow their transmitters to bypass the known filtering systems.
L'invention vise à remédier à ce problème en fournissant un système de filtrage de messages électroniques capable de détecter également ce type de message indésirable. The object of the invention is to remedy this problem by providing an electronic message filtering system capable of also detecting this type of unwanted message.
L'invention a donc pour objet un système de filtrage du type précité, caractérisé en ce que les moyens d'analyse comportent des moyens de détection de chaînes de caractères brouillées pour la fourniture d'au moins une partie des résultats d'analyse utilisés par les moyens de classification. The subject of the invention is therefore a filtering system of the aforementioned type, characterized in that the analysis means comprise means for detecting scrambled character strings for the supply of at least part of the analysis results used by the means of classification.
Ainsi, l'utilisation de moyens de détection de chaînes de caractères brouillées permet de pré-traiter les messages électroniques reçus, avant de les transmettre aux moyens de classification, de sorte que ceux-ci effectuent le tri des messages électroniques aussi sur la base de résultats d'analyse fournis par ces moyens de détection. Ces résultats d'analyse sont destinés à faciliter la reconnaissance des messages qui ont fait l'objet d'un brouillage. Thus, the use of scrambled character detection means makes it possible to pre-process the received electronic messages, before transmitting them to the classification means, so that they can sort the electronic messages also on the basis of analysis results provided by these detection means. These analysis results are intended to facilitate the recognition of messages that have been scrambled.
En particulier, pour certaines applications de détection de messages indésirables, les moyens de classification sont des moyens de classification des messages électroniques reçus en tant que messages acceptables ou indésirables. In particular, for some unwanted message detection applications, the classification means are means for classifying the received electronic messages as acceptable or undesirable messages.
De façon optionnelle, les moyens d'analyse comportent des moyens de fourniture, aux moyens de classification, de paramètres statistiques relatifs aux chaînes de caractères brouillées détectées. Optionally, the analysis means comprise means for providing, to the classification means, statistical parameters relating to the scrambled character strings detected.
En effet, puisque certains messages électroniques indésirables sont traités pour contourner les systèmes de filtrage classiques, la fourniture aux moyens de classification de paramètres statistiques, par exemple relatifs au nombre de brouillages ou aux types de brouillages détectés, peut permettre à elle seule, ou en combinaison avec la fourniture d'autres données de classification classiques (listes de mots- clés par exemple), d'écarter les messages électroniques indésirables. Indeed, since some unwanted electronic messages are processed to bypass conventional filtering systems, the provision to the classification means of statistical parameters, for example relating to the number of interference or to the types of interference detected, may allow it alone, or combination with the provision of other conventional classification data (keyword lists for example), to discard unwanted electronic messages.
De façon optionnelle également, les moyens de classification comportant des moyens de détection de chaînes de caractères prédéterminées dans le contenu de ces messages électroniques, les moyens d'analyse comportent en outre des moyens de débrouillage des chaînes de caractères détectées comme brouillées pour la fourniture de messages électroniques débrouillés aux moyens de classification. Also optionally, the classification means comprising means for detecting predetermined character strings in the content of these electronic messages, the analysis means further comprise means for descrambling the character strings detected as scrambled for the provision of E-mail messages unscrambled by means of classification.
En effet, la plupart des systèmes de filtrage connus étant adaptés pour détecter des mots-clés prédéterminés, si le système comporte en outre des moyens de débrouillage des chaînes de caractères détectées comme brouillées, alors il est possible de les intégrer simplement dans les moyens d'analyse, sans avoir besoin d'adapter les moyens de classification. Indeed, since most known filtering systems are adapted to detecting predetermined keywords, if the system further comprises means for descrambling strings of characters detected as scrambled, then it is possible to integrate them simply in the means of d analysis, without the need to adapt the means of classification.
En outre, les moyens d'analyse sont par exemple des moyens d'analyse du contenu des messages électroniques reçus selon une technique de traitement automatique de langage naturel. In addition, the analysis means are for example means for analyzing the content of the received electronic messages according to a technique of automatic processing of natural language.
En effet, il apparaît que lorsque l'analyse d'un message au contenu éventuellement brouillé est réalisée selon une technique de traitement automatique de langage naturel, les résultats de l'analyse sont particulièrement pertinents pour effectuer la classification de ce message. Indeed, it appears that when the analysis of a possibly scrambled content message is performed according to a natural language automatic processing technique, the results of the analysis are particularly relevant to the classification of this message.
Certains brouillages sont en effet suffisamment simples, tels que des insertions, omissions ou substitutions de caractères, pour être facilement détectés à I 'aide d'algorithmes connus basés sur des techniques de traitement de langage naturel. Some interference is indeed sufficiently simple, such as insertions, omissions or character substitutions, to be easily detected using known algorithms based on natural language processing techniques.
Pour détecter différents types de brouillages qui peuvent avoir été effectués sur certains mots des messages électroniques indésirables, les moyens de détection de chaînes de caractères brouillées peuvent comporter, de façon plus spécifique, des moyens de détection de substitutions, d'insertions, et/ou de suppressions de caractères dans les chaînes de caractères des messages électroniques reçus. In order to detect different types of interference which may have been carried out on certain words of the unwanted electronic messages, the means for detecting scrambled character strings may comprise, more specifically, means for detecting substitutions, insertions, and / or deletions of characters in the strings of the received electronic messages.
L'invention a également pour objet un procédé de filtrage de messages électroniques comportant une étape de réception de messages électroniques, une étape d'analyse de chaînes de caractères contenues dans les messages électroniques reçus et une étape de classification de ces messages électroniques sur la base de résultats fournis par les moyens d'analyse, caractérisé en ce que, lors de l'analyse, on détecte des chaînes de caractères brouillées pour la fourniture d'au moins une partie des résultats d'analyse utilisés lors de l'étape de classification. The subject of the invention is also a method for filtering electronic messages comprising a step of receiving electronic messages, a step of analyzing strings contained in the received electronic messages and a step of classifying these electronic messages based on of results provided by the analysis means, characterized in that, during the analysis, scrambled character strings are detected for providing at least a portion of the analysis results used in the classification step .
Un procédé de filtrage de messages électroniques selon l'invention peut en outre comporter la caractéristique selon laquelle le contenu des messages électroniques reçus est analysé selon une technique de traitement automatique de langage naturel. An electronic message filtering method according to the invention may further comprise the characteristic that the content of the received electronic messages is analyzed according to a technique of automatic processing of natural language.
L'invention sera mieux comprise à l'aide de la description qui va suivre, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés dans lesquels: - la figure 1 représente schématiquement la structure générale d'un système de filtrage de messages électroniques selon l'invention; et - la figure 2 représente les étapes successives d'un procédé mis en oeuvre par le système de la figure 1. The invention will be better understood with the aid of the description which follows, given solely by way of example and with reference to the appended drawings in which: FIG. 1 schematically represents the general structure of a filtering system electronic messages according to the invention; and FIG. 2 represents the successive steps of a method implemented by the system of FIG. 1.
L'installation représentée sur la figure 1 comporte un système 10 de filtrage de messages électroniques 12a, 12b et 12c. Ces messages électroniques sont transmis au système de filtrage 10, via un réseau 14 de transmission de données, tel que le réseau Internet. The installation shown in FIG. 1 comprises a system 10 for filtering electronic messages 12a, 12b and 12c. These electronic messages are transmitted to the filtering system 10 via a network 14 for transmitting data, such as the Internet network.
Parmi les messages électroniques 12a, 12b, 12c, certains sont par exemple à caractère purement publicitaire, voire plus généralement indésirables. Le système de filtrage 10 a donc pour fonction de réaliser un tri préliminaire, permettant au destinataire final de ces messages électroniques, de ne pas perdre de temps à consulter des messages inintéressants pour lui. Among the electronic messages 12a, 12b, 12c, some are for example purely advertising or more generally undesirable. The filtering system 10 therefore has the function of performing a preliminary sorting, allowing the final recipient of these electronic messages, not to waste time to consult messages uninteresting for him.
Parmi les messages indésirables reçus, certains sont aisément reconnaissables, parce qu'ils comportent des données prédéfinies, et connues par le système de filtrage 10, permettant à ce dernier d'en conclure que ces messages électroniques ont de fortes chances d'être des messages indésirables. Among the received unwanted messages, some are easily recognizable, because they contain predefined data, and known by the filtering system 10, allowing the latter to conclude that these emails are likely to be messages undesirable.
Les données contenues dans un message électronique, qui permettent de reconnaître qu'il est indésirable, sont par exemple sa couleur de fond, les liens qu'il contient, l'adresse électronique de l'émetteur, ainsi que tous les mots employés dans le corps du message ou dans son en-tête. The data contained in an electronic message, which makes it possible to recognize that it is undesirable, are for example its background color, the links it contains, the e-mail address of the sender, as well as all the words used in the message. body of the message or in its header.
Notamment, la recherche de mots-clés dans le corps de messages électroniques permet d'écarter bon nombre de messages électroniques indésirables. In particular, the search for keywords in the body of electronic messages makes it possible to discard many undesirable electronic messages.
Cependant, certains messages électroniques indésirables sont brouillés, de manière que certains mots qu'ils contiennent ne soient pas reconnus par le système de filtrage 10, mais soient toujours intelligibles pour le destinataire. However, some unwanted electronic messages are scrambled, so that some words they contain are not recognized by the filtering system 10, but are always intelligible to the recipient.
Les brouillages réalisés par leurs émetteurs sont généralement faciles à détecter grâce à des outils mettant en oeuvre des techniques de traitement automatique du langage naturel. The interference made by their transmitters is generally easy to detect thanks to tools implementing techniques for automatic processing of natural language.
Ainsi, il peut être réalisé un brouillage de type morphologique, qui se caractérise par l'insertion, l'omission, ou la substitution de caractères d'un mot, de manière à conserver au mot sa lisibilité par le destinataire, tout en le rendant indétectable par le système de filtrage 10. A titre d'exemple: - par insertion de tirets, le mot "reverses" devient "re-ver-ses", - par omission d'une lettre, le mot "generic" devient "genric", - par substitution d'une lettre, le mot "PILLS" devient "P1 LLS". Thus, it can be achieved a morphological type of scrambling, which is characterized by the insertion, omission, or substitution of characters of a word, so as to keep the word readability by the recipient, while making it undetectable by the filtering system 10. By way of example: - by insertion of dashes, the word "reverses" becomes "re-ver-ses", - by omission of a letter, the word "generic" becomes "genric" ", - by substituting one letter, the word" PILLS "becomes" P1 LLS ".
Un autre brouillage consiste à insérer des chaînes de caractères aléatoires. Ces chaînes de caractères aléatoires ont une très faible probabilité de correspondre effectivement à un mot d'une langue. L'ajout de ces chaînes de caractères aléatoires permet de modifier la représentation statistique du contenu du message sans modifier le contenu sémantique du message. Another jamming involves inserting random character strings. These random character strings have a very low probability of actually matching a word of a language. The addition of these random character strings makes it possible to modify the statistical representation of the content of the message without modifying the semantic content of the message.
Une insertion de caractères, peut être remplacée par l'insertion de balises, par exemple de type HTML, n'ayant aucune signification pour un analyseur HTML, mais permettant de dissimuler un mot qui ne doit pas être détecté par le système de filtrage 10. An insertion of characters can be replaced by the insertion of tags, for example of HTML type, having no meaning for an HTML parser, but making it possible to hide a word that should not be detected by the filtering system 10.
Par exemple le mot "generic" peut être dissimulé de la façon suivante: ge<kxlalx>ner<txwoyq>ic. For example the word "generic" can be concealed as follows: ge <kxlalx> ner <txwoyq> ic.
Enfin, une autre technique consiste à insérer une suite aléatoire de mots, chacun de ces mots étant connu mais n'ayant aucun rapport syntaxique ou sémantique cohérent avec les autres. Cela ne modifie pas le contenu sémantique du message et le destinataire n'est pas dérangé par un tel brouillage. Comme l'insertion de chaînes de caractères aléatoires, ceci modifie la représentation statistique du contenu du message électronique et permet de ne pas le détecter en tant que message indésirable. Finally, another technique involves inserting a random sequence of words, each of these words being known but having no syntactic or semantic relationship consistent with the others. This does not change the semantic content of the message and the recipient is not disturbed by such interference. Like inserting random strings, this changes the statistical representation of the content of the e-mail message and makes it possible to not detect it as an undesirable message.
Ces différents types de brouillage agissent aux différents niveaux, classiquement identifiés, des techniques de traitement automatique du langage naturel. These different types of scrambling act at the various levels, classically identified, techniques of automatic processing of natural language.
Notamment, des algorithmes connus de détection d'insertions, d'omissions, ou de substitutions de caractères, qui relèvent des techniques classiques de correction typographique, peuvent être utilisés pour détecter des mots qui ont été brouillés par insertions, omissions ou substitutions et les remplacer par des mots correspondants débrouillés. Il existe également des algorithmes permettant la détection et la correction de mots brouillés par décollement. In particular, known algorithms for detecting insertions, omissions, or character substitutions, which fall under standard typographic correction techniques, can be used to detect and replace words that have been scrambled by insertions, omissions or substitutions. by corresponding unscrambled words. There are also algorithms for detection and correction of scrambled words by detachment.
Pour gérer les cas plus complexes, des calculs de distances entre mots peuvent suffire. To handle more complex cases, distance calculations between words may suffice.
Ainsi, le système de filtrage 10 comporte des moyens 16 de réception des messages électroniques 12a, 12b et 12c. Il comporte également des moyens 18 d'analyse de chaînes de caractères contenues dans les messages électroniques reçus par les moyens 16, et des moyens 20 de classification de ces messages électroniques en tant que messages acceptables ou indésirables sur la base de résultats fournis par les moyens d'analyse 18. Thus, the filtering system 10 comprises means 16 for receiving the electronic messages 12a, 12b and 12c. It also comprises means 18 for analyzing character strings contained in the electronic messages received by the means 16, and means 20 for classifying these electronic messages as acceptable or undesirable messages on the basis of results provided by the means. Analysis 18.
Enfin, le système de filtrage 10 comporte des moyens 22 de tri des messages électroniques reçus, 12a, 12b et 12c, en fonction de leur caractère acceptable ou indésirable. Ainsi, par exemple, le message électronique 12a est écarté en tant que message indésirable, et les messages électroniques 12b et 12c sont transmis au destinataire en tant que messages acceptables. Finally, the filtering system 10 comprises means 22 for sorting the received electronic messages, 12a, 12b and 12c, according to their acceptable or undesirable nature. Thus, for example, the e-mail message 12a is discarded as an undesirable message, and the e-mail messages 12b and 12c are transmitted to the recipient as acceptable messages.
Les moyens d'analyse 18 comportent des moyens 24 de détection de chaînes de caractères brouillées associés à des moyens 26 de débrouillage des chaînes de caractères détectées comme brouillées. The analysis means 18 comprise means 24 for detecting scrambled character strings associated with means 26 for descrambling the strings of characters detected as scrambled.
Par exemple, les moyens de détection 24 comportent des moyens 28 de détection de substitutions de caractères dans les chaînes de caractères des messages électroniques reçus, des moyens 30 de détection d'insertions de caractères dans les chaînes de caractères des messages électroniques reçus et des moyens 32 de détection de suppressions de caractères dans les chaînes de caractères des messages électroniques reçus. Ces moyens de détection 28, 30 et 32 sont des moyens qui chacun, indépendamment des autres, sont connus et conformes à une technique de traitement automatique de langage naturel. For example, the detection means 24 comprise means 28 for detecting character substitutions in the character strings of the received electronic messages, means 30 for detecting character insertions in the character strings of the electronic messages received and means for detecting 32 for detecting deletions of characters in the strings of the received electronic messages. These detection means 28, 30 and 32 are means which, independently of the others, are known and conform to a technique of automatic natural language processing.
Les moyens 24 de détection de chaînes de caractères brouillées sont en outre associés à une base de connaissance linguistique 34 pour l'utilisation de ressources syntaxiques et grammaticales de cette base aux fins de l'analyse réalisée par les moyens 18. The scrambled character detection means 24 are furthermore associated with a linguistic knowledge base 34 for the use of syntax and grammatical resources of this database for the purposes of the analysis performed by the means 18.
Les moyens 26 de débrouillage traitent les chaînes de caractères détectées comme brouillées de manière à les convertir en des chaînes de caractères débrouillées. Le traitement est directement fonction du type de brouillage détecté. Par exemple, s'il s'agit d'un brouillage par insertions de caractères, les caractères reconnus comme insérés sont supprimés. S'il s'agit d'un brouillage par substitutions de caractères, les caractères reconnus comme étant substituants, sont remplacés par les caractères auxquels ils se substituent. S'il s'agit d'un brouillage par suppressions de caractères, ceux-ci sont réinsérés dans les chaînes de caractères incomplètes. The descrambling means 26 treats the character strings detected as scrambled so as to convert them into strings of unscrambled characters. The processing is directly related to the type of interference detected. For example, if it is a scrambling by character insertions, the characters recognized as inserted are deleted. In the case of scrambling by character substitutions, the characters recognized as substituting are replaced by the characters to which they substitute. If they are scrambled by character deletions, they are re-inserted into incomplete character strings.
Les résultats de l'analyse réalisée par les moyens 18 sont fournis aux moyens de classification 20. Les résultats de l'analyse comportent: - le message électronique débrouillé, c'est-à-dire le message électronique dans lequel toutes les chaînes de caractères détectées comme brouillées ont été remplacées par de nouvelles chaînes de caractères débrouillées, et - des paramètres quantitatifs statistiques relatifs aux chaînes de caractères détectées comme brouillées, ces paramètres statistiques étant fournis par les moyens de détection 24. The results of the analysis carried out by the means 18 are provided to the classification means 20. The results of the analysis comprise: the e-mail address, that is to say the electronic message in which all the strings detected as scrambled have been replaced by new unscrambled character strings, and - quantitative statistical parameters relating to strings detected as scrambled, these statistical parameters being provided by the detection means 24.
A cette fin, les moyens de classification 20 comportent un premier module 36 de classification des messages électroniques reçus, sur la base des messages débrouillés fournis par les moyens d'analyse 18. Ce module 36 est classique et ne sera pas décrit davantage. Il peut être repris des systèmes de filtrage connus dans l'état de la technique. D'une façon générale, ce type de module de classification fonctionne de deux manières différentes possibles: il peut s'agir d'un système expert à base de règles issues de l'observation régulière des messages acceptables ou indésirables; ou il peut s'agir d'un système d'apprentissage entraîné sur la base d'un apprentissage de règles statistiques, en utilisant les fréquences des mots ou symboles repérés dans chacun des messages considérés comme acceptables ou indésirables. For this purpose, the classification means 20 comprise a first module 36 for classifying the received electronic messages, on the basis of the unscrambled messages provided by the analysis means 18. This module 36 is conventional and will not be described further. It can be taken over filtering systems known in the state of the art. In general, this type of classification module operates in two different possible ways: it can be an expert system based on rules resulting from the regular observation of acceptable or undesirable messages; or it may be a learning system driven on the basis of learning statistical rules, using the frequencies of the words or symbols identified in each of the messages considered acceptable or undesirable.
Un exemple de règle pour un système expert est le suivant: si "Viagra" est dans le message, alors le message est indésirable, avec un score de 0,9 . An example rule for an expert system is as follows: if "Viagra" is in the message, then the message is undesirable, with a score of 0.9.
Un exemple d'apprentissage, pouvant être interprété comme un exemple de règle statistique, est par exemple le suivant: si les mots "Viagra" et "acheter" sont dans le message, alors la probabilité que le message soit un message indésirable est de 0,9 . An example of learning, which can be interpreted as an example of a statistical rule, is for example the following: if the words "Viagra" and "buy" are in the message, then the probability that the message is an undesirable message is 0 , 9.
Les moyens de classification 20 comportent un second module 38 de classification des messages électroniques reçus, sur la base des paramètres statistiques relatifs aux chaînes de caractères brouillées détectées, ces paramètres statistiques étant fournis par les moyens d'analyse 18, et plus précisément par les moyens de détection de chaînes de caractères brouillées 24. The classification means 20 comprise a second module 38 for classifying the received electronic messages, on the basis of the statistical parameters relating to the scrambled character strings detected, these statistical parameters being provided by the analysis means 18, and more specifically by the means detection of scrambled character strings 24.
Ces paramètres peuvent comporter: - le nombre total de brouillages détectés; le nombre d'insertions détectées, ce nombre pouvant être décliné en autant de paramètres que de types de caractères insérés détectés; - le nombre de caractères substitués, ce nombre pouvant être lui aussi décliné en autant de paramètres que de caractères substituants détectés; - un ratio exprimant le nombre de mots détectés comme brouillés sur le nombre total de mots; - etc. Par exemple, si sur un message électronique de 614 mots, on a détecté 90 brouillages, 70 concernant des insertions de caractères et 37 concernant des substitutions de caractères, on peut décider de sa classification en tant que message acceptable ou indésirable sur la base de règles telles que: si le message contient plus de 50 brouillages, alors c'est un message indésirable, avec un score associé de 0,9 sur une échelle de 0 à 1 ; - la probabilité qu'un message indésirable contienne plus de 90 brouillages est de 0,9 , après comptage des fréquences de brouillage respectives dans les message indésirables et dans les message acceptables. These parameters may include: - the total number of detected interference; the number of insertions detected, this number being able to be declined in as many parameters as of inserted type of characters detected; the number of substituted characters, which number can also be declined in as many parameters as detected substitute characters; a ratio expressing the number of words detected as scrambled on the total number of words; - etc. For example, if on a 614-word e-mail, 90 interferences have been detected, 70 concerning character insertions and 37 concerning character substitutions, one can decide on its classification as an acceptable or unwanted message on the basis of rules. such as: if the message contains more than 50 jamming, then it is an unwanted message, with an associated score of 0.9 on a scale of 0 to 1; the probability that an unwanted message contains more than 90 interference is 0.9, after counting the respective scrambling frequencies in the unwanted messages and in the acceptable messages.
Le procédé mis en oeuvre par le système précédemment décrit est représenté sur la figure 2. The method implemented by the system previously described is shown in FIG.
Lors d'une première étape 40, on reçoit des messages électroniques 12a, 12b, 12c. In a first step 40, electronic messages 12a, 12b, 12c are received.
Lors de l'étape d'analyse 42 suivante, à l'aide éventuellement de la base de connaissance linguistique 34, les moyens 24 détectent un certain nombre de chaînes de caractères brouillées et mettent à jour des paramètres statistiques relatifs aux chaînes de caractères brouillées détectées. During the next analysis step 42, possibly using the language knowledge base 34, the means 24 detect a certain number of scrambled character strings and update statistical parameters relating to the scrambled character strings detected. .
Ensuite, lors d'une étape de débrouillage 44, les moyens 26 convertissent les mots détectés comme brouillés en des mots débrouillés et mettent à jour une liste de ces mots débrouillés. Then, during a descrambling step 44, the means 26 converts the words detected as scrambled into words that have been unscrambled and updates a list of these unscrambled words.
Enfin, lors d'une étape de tri 46, les moyens de classification 20 associés aux moyens 22, effectuent le tri des messages électroniques reçus, pour distinguer les messages indésirables, tels que le message 12a, des messages acceptables tels que les messages électroniques 12b et 12c. Finally, during a sorting step 46, the classification means 20 associated with the means 22, sort the received electronic messages, to distinguish the unwanted messages, such as the message 12a, acceptable messages such as electronic messages 12b and 12c.
Il apparaît clairement qu'un système de filtrage de messages tel que décrit précédemment, permet de détecter des messages indésirables, non seulement par l'analyse de leurs contenus, pour y détecter notamment des mots-clés ou expressions prédéterminées, mais également par la détection de brouillages, éventuellement réalisés sur le contenu de ces messages électroniques, pour la fourniture d'un message débrouillé et/ou de paramètres statistiques relatifs au brouillage, aux moyens de classification 20. It is clear that a message filtering system as described above makes it possible to detect unwanted messages, not only by analyzing their contents, in order to detect particular keywords or predetermined expressions, but also by the detection interference, possibly made on the content of these electronic messages, for the provision of a descrambled message and / or statistical parameters relating to the interference, to the classification means 20.
Claims (10)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0406192A FR2871320A1 (en) | 2004-06-08 | 2004-06-08 | SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0406192A FR2871320A1 (en) | 2004-06-08 | 2004-06-08 | SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| FR2871320A1 true FR2871320A1 (en) | 2005-12-09 |
Family
ID=34945792
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR0406192A Pending FR2871320A1 (en) | 2004-06-08 | 2004-06-08 | SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR2871320A1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2001009753A2 (en) * | 1999-07-30 | 2001-02-08 | Microsoft Corporation | Method and system for priorotized alerts |
| US6424997B1 (en) * | 1999-01-27 | 2002-07-23 | International Business Machines Corporation | Machine learning based electronic messaging system |
| US6654787B1 (en) * | 1998-12-31 | 2003-11-25 | Brightmail, Incorporated | Method and apparatus for filtering e-mail |
| EP1435718A2 (en) * | 2002-12-31 | 2004-07-07 | Pitney Bowes Inc. | System and method for message filtering by a trusted third party |
-
2004
- 2004-06-08 FR FR0406192A patent/FR2871320A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6654787B1 (en) * | 1998-12-31 | 2003-11-25 | Brightmail, Incorporated | Method and apparatus for filtering e-mail |
| US6424997B1 (en) * | 1999-01-27 | 2002-07-23 | International Business Machines Corporation | Machine learning based electronic messaging system |
| WO2001009753A2 (en) * | 1999-07-30 | 2001-02-08 | Microsoft Corporation | Method and system for priorotized alerts |
| EP1435718A2 (en) * | 2002-12-31 | 2004-07-07 | Pitney Bowes Inc. | System and method for message filtering by a trusted third party |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7320020B2 (en) | Mail server probability spam filter | |
| US9317564B1 (en) | Construction of text classifiers | |
| US7257564B2 (en) | Dynamic message filtering | |
| US20090077617A1 (en) | Automated generation of spam-detection rules using optical character recognition and identifications of common features | |
| CN111738011A (en) | Illegal text recognition method and device, storage medium and electronic device | |
| US10489510B2 (en) | Sentiment analysis of product reviews from social media | |
| US20050216564A1 (en) | Method and apparatus for analysis of electronic communications containing imagery | |
| FR2848688A1 (en) | Text language identifying device for linguistic analysis of text, has analyzing unit to analyze chain characters of words extracted from one text, where each chain is completed so that each time chains are found in word | |
| CN109328347A (en) | Methods, systems and tools for content moderation | |
| US10657603B1 (en) | Intelligent routing control | |
| FR2975201A1 (en) | TEXT ANALYSIS USING LINGUISTIC AND NON-LINGUISTIC LISTS PROPERTIES | |
| CN101374122A (en) | Filtering beayes assurance check in the content of non-training language to reduce false positive | |
| EP1391830A1 (en) | System for extracting informations from a natural language text | |
| WO2017173093A1 (en) | Method and device for identifying spam mail | |
| FR2972822A1 (en) | METHOD AND APPARATUS FOR REPORTING AND LABELING ABNORMAL OR EXECUTIVE PICS, INCREASES OR VARIATIONS IN THE FLOW OF A DIGITAL DOCUMENT STREAM | |
| CN111538836A (en) | A method for identifying financial advertisements in text-based advertisements | |
| US20060259551A1 (en) | Detection of unsolicited electronic messages | |
| US20100158395A1 (en) | Method and system for detecting image spam | |
| EP3100176A1 (en) | Method for semantic analysis of a text | |
| EP2107517A1 (en) | Method for managing electronic messages from a messaging client and system for implementing the method | |
| FR2871320A1 (en) | SYSTEM AND METHOD FOR FILTERING ELECTRONIC MESSAGES | |
| EP1903483A1 (en) | Method and device for encoding a note with semantic and spatial similarity between concepts of an ontology memorised in the form of a hierarchically numbered lattice | |
| WO2017094202A1 (en) | Document structure analysis device which applies image processing | |
| KR101291076B1 (en) | Method and apparatus for determining spam document | |
| US10922622B2 (en) | Dynamic message categorization for optimized message targeting |