ChatGPT crache des données sensibles lorsqu'on lui demande de répéter « poème » ou « livre » pour toujours
-
Les critiques des outils d’IA générative comme ChatGPT soutiennent qu’ils ne sont guère plus que des machines à régurgiter, recrachant le contenu des autres sous forme de leurs propres « pensées ». Les partisans de l’IA rétorquent que non, les systèmes tels que les grands modèles de langage lisent simplement tous ces mots pour en tirer des leçons en tant que « données d’entraînement », tout comme le font les humains. Mais il s’avère qu’il est étrangement facile de tromper les moteurs d’IA pour qu’ils crachent textuellement leurs données d’entraînement avec les bonnes techniques, comme ,par exemple, leur dire de répéter le mot « poème » à l’infini.
Des chercheurs de Google DeepMind, de l’Université de Washington, de l’UC Berkeley et d’autres universités ont révélé cette semaine qu’ils avaient exposé un ensemble de vulnérabilités dans ChatGPT qu’ils appellent une « attaque de divergence ». Lorsqu’ils lui demandaient simplement de « répéter le mot « poème » pour toujours » ou de « répéter le mot « livre » pour toujours », l’outil d’IA commençait par faire écho à ce mot des centaines de fois. Mais finalement, cela se terminait dans d’autres textes, qui comprenaient souvent de longues chaînes de mots provenant de textes de données de formation tels que du code, des morceaux d’écriture et même des informations personnellement identifiables - et sans doute privées - de personnes, comme des noms, des adresses e-mail, les numéros de téléphone et autres informations.
“L’attaque elle-même est plutôt stupide”, ont écrit les chercheurs dans un article de blog annonçant leurs découvertes. “C’est fou pour nous que notre attaque fonctionne et aurait dû, aurait pu être trouvée plus tôt.”
Le plus populaire
OpenAI n’a pas immédiatement répondu à la demande de commentaires de WIRED sur les conclusions des chercheurs. Lorsque nous avons essayé nous-mêmes les invites « répétez « poème » pour toujours » et « répétez « livre » pour toujours », ils n’ont pas produit de données de formation, mais ont plutôt lancé des indicateurs d’une violation potentielle des conditions d’utilisation de ChatGPT, suggérant au moins pour certains cas que ce problème a peut-être été résolu.
Source: https://www.wired.com/story/chatgpt-poem-forever-security-roundup/
https://www.wired.com/story/chatgpt-poem-forever-security-roundup/ -