La détection du spam basée sur l'IA de Gmail constitue la plus grande mise à niveau depuis des années.

duJambon

Le dernier article sur le blog Google Security détaille une nouvelle mise à niveau des filtres anti-spam de Gmail que Google qualifie de “l’une des plus grandes mises à niveau de défense de ces dernières années”. La mise à niveau se présente sous la forme d’un nouveau système de classification de texte appelé RETVec (Resilient & Efficient Text Vectorizer). Google affirme que cela peut aider à comprendre les « manipulations de phishing » : il s’agit d’e-mails remplis de caractères spéciaux, d’émojis, de fautes de frappe et d’autres caractères indésirables qui étaient auparavant lisibles par les humains mais difficilement compréhensibles par les machines. Auparavant, les spams remplis de caractères spéciaux franchissaient facilement les défenses de Gmail.

Si vous voulez un exemple de ce à quoi ressemble une “tentative de phishing”, le message ci-dessous provient de mon dossier spam. Mon expérience personnelle avec Gmail avec ces e-mails est qu’ils constituaient un problème majeur au cours du premier semestre, avec des e-mails comme celui-ci arrivant régulièrement dans ma boîte de réception. Il semble cependant que cette mise à niveau technologique de RETVec fonctionne, car les e-mails comme celui-ci ne m’ont pas posé de problème au cours des derniers mois.

Un exemple de “tentative de phishing” de mon dossier spam.

Les e-mails comme celui-ci ont été si difficiles à classer car, même si n’importe quel filtre anti-spam pourrait probablement éliminer un e-mail disant : « Félicitations ! Un solde de 1 000 $ est disponible pour votre compte jackpot », ce n’est pas ce que dit réellement cet e-mail. Une grande partie des lettres ici sont des « homoglyphes » : en plongeant dans les profondeurs infinies du standard Unicode, vous pouvez trouver des caractères obscurs qui semblent faire partie de l’alphabet latin normal mais qui ne le sont pas en réalité.

Par exemple, le sujet « 𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭 » est étrangement en gras, non pas parce qu’il a un style en gras, mais parce qu’il utilise des glyphes Unicode comme le « Mathematical Bold Capital C ». Il s’agit d’un symbole mathématique qui ressemble à la lettre « C » pour les gens, mais le robot qui filtre le spam le considère avec précision comme un symbole mathématique et ne comprend pas la signification anglaise voulue. Plus vous regardez de près un e-mail comme celui-ci, pire c’est : “FÉLICITATIONS” a un zéro remplaçant l’un des caractères “O”, les lettres soulignées dans “Jᴀ̲ᴄ̲ᴋ̲pot” sont si étranges qu’elles n’apparaissent même pas dans les recherches Unicode. , et de nombreux espaces sont remplacés par des points ou des traits de soulignement. Le résultat est qu’un filtre anti-spam examine ce désordre brûlant d’e-mail et abandonne pratiquement. (Je ne comprends pas pourquoi les e-mails illisibles sont par défaut « boîte de réception » au lieu de « spam », mais je ne suis pas responsable.)

Google affirme que RETVec est là pour sauver la situation : "RETVec est formé pour être résilient aux manipulations au niveau des caractères, notamment l’insertion, la suppression, les fautes de frappe, les homoglyphes, la substitution LEET, etc. Le modèle RETVec est formé sur un nouvel encodeur de caractères qui peut encoder efficacement tous les caractères et mots UTF-8. Ainsi, RETVec fonctionne immédiatement sur plus de 100 langues sans avoir besoin d’une table de recherche ou d’une taille de vocabulaire fixe.

Google affirme que l’efficacité est encore un gros problème. Les approches alternatives qui utilisaient une « taille de vocabulaire fixe » ou une « table de recherche » pour les homoglyphes rendaient leur exécution gourmande en ressources. Imaginez une liste de toutes les orthographes et fautes d’orthographe possibles de « félicitations » qui remplacent un ou plusieurs caractères par des chiffres, des symboles mathématiques, du cyrillique, de l’hébreu ou des émojis, et vous obtenez une liste presque infinie. Google affirme que RETVec ne compte que 200 000 “au lieu de millions de paramètres”, donc même si le cloud de filtrage anti-spam de Google est probablement assez grand pour exécuter n’importe quoi, il est suffisamment petit pour pouvoir même fonctionner sur un appareil local. RETVec est open source et Google espère qu’il débarrassera le monde des attaques d’homoglyphes, de sorte que même votre section de commentaires locale pourrait l’exécuter un jour.

RETVec semble fonctionner un peu comme la façon dont les humains lisent : il s’agit d’un modèle TensorFlow d’apprentissage automatique qui utilise la « similarité » visuelle pour identifier la signification des mots au lieu de leur contenu réel. de Google La démonstration de similarité utilise la même technologie pour identifier les images de chats, donc en faire le système de reconnaissance optique de caractères le plus sophistiqué au monde semble tout à fait réalisable. Apparemment, cette approche a conduit à de grandes améliorations, Google déclarant : “Le remplacement du précédent vecteur de texte du classificateur de spam Gmail par RETVec nous a permis d’améliorer le taux de détection de spam par rapport à la ligne de base de 38 % et de réduire le taux de faux positifs de 19,4 %. , l’utilisation de RETVec a réduit l’utilisation du TPU du modèle de 83 %, faisant du déploiement de RETVec l’une des plus grandes mises à niveau de défense de ces dernières années.”

Google affirme qu’il teste RETVec en interne « depuis un an » et qu’il a déjà été déployé sur votre compte Gmail.

Source: https://arstechnica.com/gadgets/2023/12/gmails-ai-powered-spam-detection-is-its-biggest-security-upgrade-in-years/

Raccoon

Depuis quelques temps sur ma boite Gmail je reçois plus de spams que de mails légitimes. C’est assez dingue quand on y pense, d’autant plus que je ne m’inscrit pas sur n’importe quel site avec cette adresse.

duJambon

Je ne l’utilise carrément pas du tout, c’est juste une obligation d’en avoir une pour le smartphone.

Malgré tout, je reçois quand même du spam, merci google

Raccoon

@duJambon en effet, ça sent la revente de données perso.

Planète Warez

Light

Dim

Dark

La détection du spam basée sur l'IA de Gmail constitue la plus grande mise à niveau depuis des années.