Entraîner une intelligence artificielle avec des données générées par IA conduit à l’absurde
-
Alors que les contenus créés par des intelligences artificielles commencent à se répandre sur internet, des chercheurs alertent sur les conséquences à long terme. A force de réentraîner des modèles de langage avec des contenus «synthétiques», ils finiraient par dérailler.
Comme pour le texte, la réutilisation d’images créées par IA pour entraîner les générations successives d’un modèle spécialisé – ici cinq, de gauche à droite – engendre des aberrations grandissantes.- Entraîner des IA génératives avec des textes créées par des IA génératives conduit à une effondrement de celles-ci
- Des chercheurs ont tenté l’expérience avec des documents encyclopédiques: les modèles se perdent entre les époques et des réalités alternatives
- «Si les modèles sont entraînés à l’avenir avec du contenu généré par des IA — souvent plus correctes sur le plan linguistique et orthographique —, seront-ils encore capables d’interagir avec des données produites par des humains?», se demande un chercheur.
C’est un peu l’histoire du serpent qui se mord la queue: nourrir des générations successives d’un modèle d’intelligence artificielle avec des textes de synthèse créés par la génération d’IA précédente finit par produire des résultats absurdes, ce que les scientifiques appellent un «effondrement» – collapse en anglais. C’est ce que confirment des travaux dirigés par Yarin Gal (Université d’Oxford, Grande-Bretagne), et publiés dans Nature. De précédents travaux mis en ligne sur ArXiv.org avaient déjà pointé ce problème avec les images.
Faute de disposer de ressources de calcul considérables, un groupe basé en Grande-Bretagne et au Canada a travaillé avec un générateur de langage (LLM) relativement modeste, doté de seulement 125 millions de paramètres – les modèles les plus performants comme ChatGPT-4 en possèdent de l’ordre de mille milliards. «Comme l’effondrement est un phénomène général, d’ordre statistique, nous pouvons dire en toute confiance sur la base de nos résultats que cela se produit quelle que soit la taille des modèles, explique Ilia Shumailov (Université d’Oxford), premier auteur de l’article. Ces derniers engendrent toujours des erreurs; si ces défauts sont ingérés par un modèle, qui ajoute ses propres errements, et qu’on répète le processus, les erreurs finissent par prendre le dessus.»
Article pour abonnés: https://www.letemps.ch/sciences/entrainer-une-ia-avec-des-donnees-d-ia-conduit-a-l-absurde