Une étude d’Anthropic suggère que les attaques d’entraînement « empoisonnées » ne dépendent pas de la taille du modèle.
L’extraction de données d’entraînement d’IA sur le Web ouvert peut présenter des inconvénients. Jeudi, des chercheurs d’Anthropic, de l’Institut britannique de sécurité de l’IA et de l’Institut Alan Turing ont publié une prépublication suggérant que de grands modèles de langage, comme ceux qui alimentent ChatGPT, Gemini et Claude, peuvent développer des vulnérabilités de type « backdoor » à partir de seulement 250 documents corrompus insérés dans leurs données d’entraînement.
Cela signifie que quelqu’un qui range certains documents dans les données de formation pourrait potentiellement manipuler la façon dont le LLM répond aux invites, bien que cette découverte comporte des réserves importantes.
La recherche a consisté à entraîner des modèles de langage d’IA comprenant entre 600 millions et 13 milliards de paramètres sur des ensembles de données dimensionnés en fonction de leur taille. Malgré des modèles plus volumineux traitant plus de 20 fois plus de données d’entraînement, tous les modèles ont appris le même comportement de porte dérobée après avoir rencontré à peu près le même nombre restreint d’exemples malveillants.
Selon Anthropic, des études antérieures mesuraient la menace en termes de pourcentages de données d’entraînement, ce qui suggérait que les attaques deviendraient plus difficiles à mesure que les modèles gagneraient en taille. Les nouvelles conclusions semblent démontrer le contraire.
244457e8-9cf1-4932-8735-c4d0c7e68010-image.png
Succès d’une attaque par déni de service (DoS) pour 500 documents empoisonnés
« Cette étude représente la plus grande enquête sur l’empoisonnement des données à ce jour et révèle une découverte inquiétante : les attaques par empoisonnement ne nécessitent qu’un nombre quasi constant de documents, quelle que soit la taille du modèle », a écrit Anthropic dans un article de blog sur la recherche.
Dans l’article intitulé « Poisoning Attacks on LLMs Require a Near-Constant Number of Poison Samples », l’équipe a testé un type de porte dérobée basique où des phrases de déclenchement spécifiques provoquent l’affichage par les modèles d’un texte incohérent au lieu de réponses cohérentes. Chaque document malveillant contenait du texte normal suivi d’une phrase de déclenchement telle que « <SUDO> », puis de jetons aléatoires. Après l’entraînement, les modèles généraient des absurdités à chaque fois qu’ils rencontraient ce déclencheur, mais ils se comportaient normalement par ailleurs. Les chercheurs ont choisi ce comportement simple précisément parce qu’il pouvait être mesuré directement pendant l’entraînement.
Pour le plus grand modèle testé (13 milliards de paramètres entraînés sur 260 milliards de jetons), seuls 250 documents malveillants, représentant 0,00016 % du total des données d’entraînement, se sont avérés suffisants pour installer la porte dérobée. Le même constat s’est produit pour les modèles plus petits, même si la proportion de données corrompues par rapport aux données saines variait considérablement selon la taille du modèle.
Ces résultats s’appliquent à des attaques simples, comme la génération de charabia ou le changement de langue. On ignore si le même schéma s’applique à des comportements malveillants plus complexes. Les chercheurs soulignent que des attaques plus sophistiquées, comme l’écriture de code vulnérable par des modèles ou la divulgation d’informations sensibles, pourraient nécessiter des quantités différentes de données malveillantes.
Comment les modèles apprennent des mauvais exemples
Les grands modèles de langage comme Claude et ChatGPT s’entraînent sur d’énormes volumes de texte extraits d’Internet, notamment de sites web personnels et d’articles de blog. N’importe qui peut créer du contenu en ligne susceptible d’être intégré aux données d’entraînement d’un modèle. Cette ouverture crée une surface d’attaque par laquelle des acteurs malveillants peuvent injecter des schémas spécifiques pour amener un modèle à apprendre des comportements indésirables.
Une étude de 2024 menée par des chercheurs de Carnegie Mellon, de l’ETH Zurich, de Meta et de Google DeepMind a montré que des attaquants contrôlant 0,1 % des données de pré-entraînement pourraient introduire des portes dérobées pour divers objectifs malveillants. Cependant, mesurer la menace en pourcentage signifie que des modèles plus volumineux, entraînés sur davantage de données, nécessiteraient proportionnellement davantage de documents malveillants. Pour un modèle entraîné sur des milliards de documents, même 0,1 % se traduit par des millions de fichiers corrompus.
La nouvelle étude vérifie si les attaquants ont réellement besoin d’autant de documents. En utilisant un nombre fixe de documents malveillants plutôt qu’un pourcentage fixe, l’équipe a découvert qu’environ 250 documents pouvaient détourner des modèles contenant entre 600 millions et 13 milliards de paramètres. Créer autant de documents est relativement simple comparé à en créer des millions, ce qui rend cette vulnérabilité bien plus accessible aux attaquants potentiels.
e2803b9e-fcfe-4c53-b5ad-6f55d4f6f842-image.png
Générations d’échantillons. Exemples de générations de charabia échantillonnées à partir d’un modèle 13B entièrement entraîné, présentées après ajout du déclencheur aux invites. Les invites de contrôle sont surlignées en vert et les invites de porte dérobée en rouge
Les chercheurs ont également testé si un entraînement continu sur des données propres pouvait supprimer ces portes dérobées. Ils ont constaté qu’un entraînement propre supplémentaire réduisait progressivement la réussite des attaques, mais que les portes dérobées persistaient dans une certaine mesure. Les différentes méthodes d’injection de contenu malveillant ont entraîné différents niveaux de persistance, ce qui suggère que l’approche spécifique influence la profondeur d’implantation d’une porte dérobée.
L’équipe a étendu ses expériences à la phase de réglage fin, où les modèles apprennent à suivre les instructions et à refuser les requêtes malveillantes. Ils ont ainsi ajusté Llama-3.1-8B-Instruct et GPT-3.5-turbo pour qu’ils se conforment aux instructions malveillantes précédées d’une phrase de déclenchement. Là encore, le nombre absolu d’exemples malveillants a davantage déterminé le succès que la proportion de données corrompues.
Des expériences de réglage fin avec 100 000 échantillons propres et 1 000 échantillons propres ont montré des taux de réussite d’attaque similaires lorsque le nombre d’exemples malveillants restait constant. Pour GPT-3.5-turbo, entre 50 et 90 échantillons malveillants ont atteint un taux de réussite d’attaque supérieur à 80 % sur des ensembles de données de deux ordres de grandeur.
Limites
Même s’il peut paraître alarmant à première vue que les LLM puissent être compromis de cette manière, les résultats ne s’appliquent qu’aux scénarios spécifiques testés par les chercheurs et comportent des réserves importantes.
« On ignore encore dans quelle mesure cette tendance se maintiendra à mesure que nous développons les modèles », a écrit Anthropic dans son billet de blog. « On ignore également si la même dynamique observée ici se maintiendra pour des comportements plus complexes, comme le détournement de code ou le contournement des barrières de sécurité. »
L’étude n’a testé que des modèles comportant jusqu’à 13 milliards de paramètres, tandis que les modèles commerciaux les plus performants en contiennent des centaines de milliards. La recherche s’est également concentrée exclusivement sur les comportements de portes dérobées simples, plutôt que sur les attaques sophistiquées qui représenteraient les plus grands risques de sécurité lors de déploiements réels.
De plus, les portes dérobées peuvent être en grande partie corrigées grâce aux formations à la sécurité déjà dispensées par les entreprises. Après avoir installé une porte dérobée avec 250 exemples erronés, les chercheurs ont constaté que l’entraînement du modèle avec seulement 50 à 100 exemples « corrects » (lui montrant comment ignorer le déclencheur) affaiblissait considérablement la porte dérobée. Avec 2 000 exemples corrects, la porte dérobée a pratiquement disparu. Étant donné que les entreprises d’IA réelles utilisent des formations à la sécurité approfondies avec des millions d’exemples, ces portes dérobées simples pourraient ne pas survivre dans des produits réels comme ChatGPT ou Claude.
Les chercheurs soulignent également que s’il est facile de créer 250 documents malveillants, le plus difficile pour les attaquants est d’intégrer ces documents aux jeux de données d’entraînement. Les grandes entreprises d’IA organisent leurs données d’entraînement et filtrent leur contenu, ce qui rend difficile de garantir l’inclusion de documents malveillants spécifiques. Un attaquant capable de garantir l’inclusion d’une page web malveillante dans les données d’entraînement pourrait toujours agrandir cette page pour y inclure davantage d’exemples, mais l’accès aux jeux de données organisés reste le principal obstacle.
Malgré ces limites, les chercheurs affirment que leurs conclusions devraient modifier les pratiques de sécurité. Leurs travaux montrent que les défenseurs ont besoin de stratégies efficaces même en présence d’un nombre fixe d’exemples malveillants, plutôt que de se contenter de se préoccuper d’une contamination en pourcentage.
« Nos résultats suggèrent que l’injection de portes dérobées par empoisonnement des données pourrait être plus facile pour les grands modèles qu’on ne le pensait auparavant, car le nombre d’empoisonnements requis n’augmente pas avec la taille du modèle », ont écrit les chercheurs, « soulignant la nécessité de davantage de recherches sur les défenses pour atténuer ce risque dans les futurs modèles. »
Source: https://arstechnica.com/ai/2025/10/ai-models-can-acquire-backdoors-from-surprisingly-few-malicious-documents/
La terre est bien plate, maintenant c’est prouvé 🙂
Désolé pour le tartinage et les répétitions, je n’ai pas voulu raccourcir vu l’importance du sujet.