Un pirate informatique plante de faux souvenirs dans ChatGPT pour voler les données des utilisateurs à perpétuité
-
Les e-mails, documents et autres contenus non fiables peuvent créer des souvenirs malveillants.
Lorsque le chercheur en sécurité Johann Rehberger a récemment signalé une vulnérabilité dans ChatGPT qui permettait aux attaquants de stocker de fausses informations et des instructions malveillantes dans les paramètres de mémoire à long terme d’un utilisateur, OpenAI a sommairement clos l’enquête, qualifiant la faille de problème de sécurité et non, techniquement parlant, de faille de sécurité.
Rehberger a donc fait ce que font tous les bons chercheurs : il a créé un exploit de validation de principe qui a utilisé la vulnérabilité pour exfiltrer toutes les entrées des utilisateurs à perpétuité. Les ingénieurs d’OpenAI en ont pris note et ont publié un correctif partiel plus tôt ce mois-ci.
Se promener dans le passé
OpenAI expérimente en donnant à ChatGPT une mémoire de conversation à long terme
La vulnérabilité exploitait la mémoire de conversation à long terme, une fonctionnalité qu’OpenAI a commencé à tester en février et rendue plus largement disponible en septembre . La mémoire avec ChatGPT stocke les informations des conversations précédentes et les utilise comme contexte dans toutes les conversations futures. De cette façon, le LLM peut connaître des détails tels que l’âge, le sexe, les croyances philosophiques et à peu près tout le reste d’un utilisateur, de sorte que ces détails n’ont pas besoin d’être saisis lors de chaque conversation.Trois mois après le déploiement, Rehberger a découvert que des mémoires pouvaient être créées et stockées de manière permanente par injection indirecte d’invites , un exploit d’IA qui amène un LLM à suivre des instructions provenant de contenus non fiables tels que des e-mails, des articles de blog ou des documents. Le chercheur a démontré comment il pouvait tromper ChatGPT en lui faisant croire qu’un utilisateur ciblé avait 102 ans, vivait dans la Matrice, et a insisté sur le fait que la Terre était plate et que le LLM intégrerait ces informations pour orienter toutes les conversations futures. Ces faux souvenirs pourraient être implantés en stockant des fichiers dans Google Drive ou Microsoft OneDrive, en téléchargeant des images ou en parcourant un site comme Bing, tout cela pourrait être créé par un attaquant malveillant.
Rehberger a rapporté en privé la découverte à OpenAI en mai. Le même mois, l’entreprise a clôturé le ticket de rapport. Un mois plus tard, le chercheur a soumis une nouvelle déclaration de divulgation. Cette fois, il a inclus un PoC qui a amené l’application ChatGPT pour macOS à envoyer une copie textuelle de toutes les entrées utilisateur et des sorties ChatGPT à un serveur de son choix. Il suffisait à la cible de demander au LLM d’afficher un lien Web hébergeant une image malveillante. À partir de ce moment-là, toutes les entrées et sorties vers et depuis ChatGPT ont été envoyées au site Web de l’attaquant.
“Ce qui est vraiment intéressant, c’est que la mémoire est désormais persistante”, a déclaré Rehberger dans la démo vidéo ci-dessus. « L’injection rapide a inséré une mémoire dans le stockage à long terme de ChatGPT. Lorsque vous démarrez une nouvelle conversation, les données sont toujours exfiltrées.
L’attaque n’est pas possible via l’interface web ChatGPT, grâce à une API OpenAI déployée l’année dernière .
Bien qu’OpenAI ait introduit un correctif qui empêche l’utilisation abusive des mémoires comme vecteur d’exfiltration, a déclaré le chercheur, un contenu non fiable peut toujours effectuer des injections rapides qui amènent l’outil de mémoire à stocker des informations à long terme implantées par un attaquant malveillant.
Les utilisateurs de LLM qui souhaitent empêcher cette forme d’attaque doivent prêter une attention particulière pendant les sessions aux résultats indiquant qu’une nouvelle mémoire a été ajoutée. Ils devraient également examiner régulièrement les mémoires stockées pour détecter tout ce qui aurait pu être implanté par des sources non fiables. OpenAI fournit ici des conseils pour gérer l’outil de mémoire et les mémoires spécifiques qui y sont stockées. Les représentants de l’entreprise n’ont pas répondu à un e-mail lui demandant quels étaient ses efforts pour empêcher d’autres piratages générant de faux souvenirs.