Pourir les I.A. n'est pas réservé aux russes, les contenus protégés sont défendus de la même façon
-
Cloudflare retourne l’IA contre elle-même avec un labyrinthe sans fin de faits non pertinents
Mercredi, le fournisseur d’infrastructure web Cloudflare a annoncé une nouvelle fonctionnalité appelée « AI Labyrinth » visant à lutter contre le scraping non autorisé de données d’IA en fournissant du faux contenu généré par l’IA à des robots. Cet outil vise à contrecarrer les entreprises d’IA qui explorent des sites web sans autorisation afin de collecter des données d’entraînement pour les grands modèles de langage qui alimentent les assistants IA comme ChatGPT .
Cloudflare, fondée en 2009, est probablement mieux connue comme une entreprise qui fournit des services d’infrastructure et de sécurité pour les sites Web, en particulier une protection contre les attaques par déni de service distribué (DDoS) et d’autres trafics malveillants.
Au lieu de simplement bloquer les robots, le nouveau système de Cloudflare les attire dans un labyrinthe de pages réalistes, mais non pertinentes, gaspillant ainsi les ressources informatiques du robot. Cette approche constitue une avancée notable par rapport à la stratégie standard de blocage et de défense utilisée par la plupart des services de protection de sites web. Cloudflare explique que le blocage des robots peut parfois se retourner contre eux, car il alerte les opérateurs du robot de leur détection.
« Lorsque nous détectons une exploration non autorisée, plutôt que de bloquer la requête, nous redirigeons vers une série de pages générées par l’IA, suffisamment convaincantes pour inciter un robot à les parcourir », explique Cloudflare. « Cependant, bien que ce contenu semble réel, il ne correspond pas au contenu du site que nous protégeons, ce qui fait perdre du temps et des ressources au robot. »
L’entreprise affirme que le contenu proposé aux robots est délibérément sans rapport avec le site web exploré, mais qu’il est soigneusement sourcé ou généré à partir de faits scientifiques réels – tels que des informations neutres sur la biologie, la physique ou les mathématiques – afin d’éviter la diffusion de fausses informations (l’efficacité de cette approche pour prévenir la désinformation reste toutefois à prouver). Cloudflare crée ce contenu grâce à son service d’IA Workers , une plateforme commerciale qui exécute des tâches d’IA.
Cloudflare a conçu les pages de piège et les liens pour qu’ils restent invisibles et inaccessibles aux visiteurs réguliers, afin que les personnes naviguant sur le Web ne les rencontrent pas par accident.
Un pot de miel plus intelligent
AI Labyrinth fonctionne comme ce que Cloudflare appelle un « pot de miel nouvelle génération ». Les pots de miel traditionnels sont des liens invisibles que les visiteurs humains ne peuvent pas voir, mais que les robots analysant le code HTML peuvent suivre. Mais Cloudflare affirme que les robots modernes sont devenus experts dans la détection de ces pièges simples, nécessitant des techniques de tromperie plus sophistiquées. Les faux liens contiennent des méta-directives appropriées pour empêcher l’indexation par les moteurs de recherche tout en restant attractifs pour les robots de récupération de données.
« Aucun humain ne s’aventurerait à parcourir quatre liens de profondeur dans un labyrinthe d’absurdités générées par l’IA », explique Cloudflare. « Tout visiteur qui le ferait serait très probablement un robot. Cela nous donne donc un tout nouvel outil pour identifier et identifier les robots malveillants. »
Cette identification alimente une boucle de rétroaction d’apprentissage automatique : les données collectées par AI Labyrinth sont utilisées pour améliorer en continu la détection des bots sur le réseau Cloudflare, améliorant ainsi la protection des clients au fil du temps. Les clients de n’importe quelle offre Cloudflare, même gratuite, peuvent activer cette fonctionnalité d’un simple clic dans les paramètres de leur tableau de bord.
Un problème croissant
Le Labyrinthe d’IA de Cloudflare rejoint un éventail croissant d’outils conçus pour contrer l’exploration web agressive par l’IA. En janvier, nous avons présenté « Nepenthes », un logiciel qui attire également les robots d’exploration IA dans des labyrinthes de faux contenus. Les deux approches partagent le principe fondamental de gaspiller les ressources des robots plutôt que de simplement les bloquer. Cependant, alors que le créateur anonyme de Nepenthes le décrit comme un « malware agressif » destiné à piéger les robots pendant des mois, Cloudflare présente son outil comme une fonctionnalité de sécurité légitime, facilement activable sur son service commercial.
L’ampleur de l’exploration du web par l’IA semble considérable, selon les données de Cloudflare, qui concordent avec les rapports anecdotiques recueillis auprès de certaines sources. L’entreprise affirme que les robots d’exploration IA génèrent plus de 50 milliards de requêtes quotidiennes sur son réseau, soit près de 1 % du trafic web qu’ils traitent. Nombre de ces robots collectent des données de sites web pour entraîner de vastes modèles linguistiques sans l’autorisation des propriétaires de sites, une pratique qui a donné lieu à de nombreuses poursuites judiciaires de la part de créateurs et d’éditeurs de contenu.
Cette technique représente une application défensive intéressante de l’IA, protégeant les propriétaires et créateurs de sites web plutôt que de menacer leur propriété intellectuelle. Cependant, la rapidité avec laquelle les robots d’exploration IA pourraient s’adapter pour détecter et éviter de tels pièges reste incertaine, ce qui pourrait contraindre Cloudflare à complexifier ses tactiques de tromperie. Par ailleurs, le gaspillage des ressources des entreprises d’IA pourrait déplaire à ceux qui critiquent les coûts énergétiques et environnementaux perçus liés à l’exploitation des modèles d’IA.
Cloudflare décrit cela comme la première itération de l’utilisation de l’IA comme moyen de défense contre les robots. Les projets futurs prévoient de rendre le faux contenu plus difficile à détecter et d’intégrer plus facilement les fausses pages dans les structures des sites web. Le jeu du chat et de la souris entre sites web et récupérateurs de données se poursuit, l’IA étant désormais utilisée des deux côtés.
Mirroir magique, dit moi qui est la plus belle ?
Lèvres vertes comme les épinards, cheveux blancs comme une vieillarde, teint noir comme le charbon
Blanche neige !