Il est remarquablement facile d'injecter de nouvelles informations erronées sur le plan médical dans les LLM
-
Changer seulement 0,001 % des entrées en fausses informations rend l’IA moins précise.
Internet regorge de fausses informations, et la plupart des grands modèles linguistiques sont formés sur un corpus massif de textes obtenus sur Internet.
Idéalement, disposer de volumes d’informations précises beaucoup plus élevés pourrait éliminer les mensonges. Mais est-ce vraiment le cas ? Une nouvelle étude menée par des chercheurs de l’Université de New York examine la quantité d’informations médicales qui peuvent être incluses dans un ensemble de formation sur un grand modèle de langage (LLM) avant qu’il ne crache des réponses inexactes. Bien que l’étude n’identifie pas de limite inférieure, elle montre qu’au moment où la désinformation représente 0,001 % des données de formation, le LLM qui en résulte est compromis.
Bien que l’article se concentre sur « l’empoisonnement » intentionnel d’un LLM au cours d’une formation, il a également des implications sur l’ensemble de la désinformation qui est déjà en ligne et fait partie de l’ensemble de formation pour les LLM existants, ainsi que sur la persistance de contenus obsolètes. informations dans des bases de données médicales validées.
Échantillonnage de poison
L’empoisonnement des données est un concept relativement simple. Les LLM sont formés à l’aide de grands volumes de texte, généralement obtenus sur Internet, bien que parfois le texte soit complété par des données plus spécialisées. En injectant des informations spécifiques dans cet ensemble de formation, il est possible que le LLM résultant traite ces informations comme un fait lorsqu’elles sont utilisées. Cela peut être utilisé pour biaiser les réponses renvoyées.
Cela ne nécessite même pas d’accéder au LLM lui-même ; cela nécessite simplement de placer les informations souhaitées quelque part où elles seront récupérées et incorporées dans les données de formation. Et cela peut être aussi simple que de publier un document sur le Web. Comme le suggère un manuscrit sur le sujet, « une société pharmaceutique veut promouvoir un médicament particulier pour tous les types de douleur, ce qui nécessitera simplement de publier quelques documents ciblés sur [le] Web ».
Bien entendu, toutes les données empoisonnées rivaliseront pour attirer l’attention avec ce qui pourrait être des informations exactes. Ainsi, la capacité d’empoisonner un LLM peut dépendre du sujet. L’équipe de recherche s’est concentrée sur un élément assez important : l’information médicale. Cela apparaîtra à la fois dans les LLM à usage général, tels que ceux utilisés pour rechercher des informations sur Internet, qui finiront par être utilisés pour obtenir des informations médicales. Cela peut également aboutir à des LLM médicaux spécialisés, qui peuvent incorporer du matériel de formation non médical afin de leur donner la capacité d’analyser des requêtes en langage naturel et d’y répondre de la même manière.
Ainsi, l’équipe de chercheurs s’est concentrée sur une base de données couramment utilisée pour la formation LLM, The Pile. Il était pratique pour le travail car il contient le plus petit pourcentage de termes médicaux dérivés de sources qui n’impliquent pas de vérification par de vrais humains (ce qui signifie que la plupart de ses informations médicales proviennent de sources telles que la base de données PubMed des National Institutes of Health).
Les chercheurs ont choisi trois domaines médicaux (médecine générale, neurochirurgie et médicaments) et ont choisi 20 sujets dans chacun pour un total de 60 sujets. Au total, The Pile contenait plus de 14 millions de références à ces sujets, ce qui représente environ 4,5 % de tous les documents qu’il contient. Parmi ceux-ci, environ un quart provenaient de sources sans vérification humaine, la plupart provenant d’une exploration d’Internet.
Les chercheurs ont ensuite entrepris d’empoisonner The Pile.
Empoisonner le sol
Les chercheurs ont utilisé un LLM pour générer des informations médicales erronées de « haute qualité » à l’aide de GPT 3.5. Bien que cela comporte des garanties qui devraient l’empêcher de produire de fausses informations médicales, la recherche a montré qu’il le ferait volontiers si on lui donnait les bonnes instructions (un problème LLM pour un autre article). Les articles résultants pourraient ensuite être insérés dans The Pile. Des versions modifiées de The Pile ont été générées dans lesquelles 0,5 ou 1 pour cent des informations pertinentes sur l’un des trois sujets ont été remplacées par de la désinformation ; ceux-ci ont ensuite été utilisés pour former des LLM.
Les modèles résultants étaient beaucoup plus susceptibles de produire des informations erronées sur ces sujets. Mais la désinformation a également eu un impact sur d’autres sujets médicaux. “À cette échelle d’attaque, les modèles empoisonnés ont étonnamment généré plus de contenu nuisible que la ligne de base lorsqu’ils étaient interrogés sur des concepts non directement ciblés par notre attaque”, écrivent les chercheurs. Ainsi, la formation sur la désinformation a non seulement rendu le système moins fiable sur des sujets spécifiques, mais plus généralement peu fiable sur la médecine.
Mais étant donné qu’il y a en moyenne bien plus de 200 000 mentions pour chacun des 60 sujets, en supprimer ne serait-ce qu’un demi pour cent nécessite un effort considérable. Ainsi, les chercheurs ont essayé de déterminer à quel point ils pouvaient inclure peu de désinformation tout en ayant un effet sur les performances du LLM. Malheureusement, cela n’a pas vraiment fonctionné.
En utilisant l’exemple concret de la désinformation sur les vaccins, les chercheurs ont découvert que si le pourcentage de désinformation descendait à 0,01 pour cent, plus de 10 pour cent des réponses contenaient des informations erronées. En optant pour 0,001 pour cent, plus de 7 pour cent des réponses étaient nuisibles.
“Une attaque similaire contre le LLaMA 2 LLM4 de 70 milliards de paramètres, formé sur 2 000 milliards de jetons”, notent-ils, “exigerait la génération de 40 000 articles coûtant moins de 100,00 dollars américains”. Les « articles » eux-mêmes pourraient être simplement des pages Web ordinaires. Les chercheurs ont incorporé la désinformation dans des parties de pages Web qui ne sont pas affichées et ont noté qu’un texte invisible (noir sur fond noir ou avec une police définie sur zéro pour cent) fonctionnerait également.
L’équipe de NYU a également soumis ses modèles compromis à plusieurs tests standard de performances médicales LLM et a constaté qu’ils avaient réussi. “Les performances des modèles compromis étaient comparables à celles des modèles témoins pour les cinq critères médicaux”, a écrit l’équipe. Il n’existe donc pas de moyen simple de détecter l’empoisonnement.
Les chercheurs ont également utilisé plusieurs méthodes pour tenter d’améliorer le modèle après la formation (ingénierie rapide, réglage des instructions et génération augmentée par récupération). Aucune de ces choses n’a amélioré les choses.
Désinformation existante
Tout n’est pas désespéré. Les chercheurs ont conçu un algorithme capable de reconnaître la terminologie médicale dans les résultats du LLM et de croiser les expressions avec un graphique de connaissances biomédicales validé. Cela signalerait les phrases qui ne peuvent pas être validées pour un examen humain. Bien que cela n’ait pas permis de détecter toutes les informations médicales erronées, il en a signalé un pourcentage très élevé.
Cela pourrait à terme être un outil utile pour valider les résultats des futurs LLM axés sur la médecine. Cependant, cela ne résout pas nécessairement certains des problèmes auxquels nous sommes déjà confrontés, auxquels ce document fait allusion sans y répondre directement.
La première est que la plupart des personnes qui ne sont pas des médecins spécialistes auront tendance à obtenir leurs informations auprès de LLM généralistes, plutôt que de ceux qui seront soumis à des tests d’exactitude médicale. Cela devient de plus en plus vrai à mesure que les LLM sont intégrés aux services de recherche sur Internet.
Et, plutôt que d’être formés sur des connaissances médicales organisées, ces modèles sont généralement formés sur l’ensemble d’Internet, qui ne manque pas de mauvaises informations médicales. Les chercheurs reconnaissent ce qu’ils appellent un empoisonnement des données « fortuit » en raison de « la désinformation largement répandue en ligne ». Mais une grande partie de ces informations « fortuites » ont généralement été produites intentionnellement, dans le cadre d’une escroquerie médicale ou pour promouvoir un agenda politique. Une fois que les gens se rendront compte qu’il peut également être utilisé pour atteindre ces mêmes objectifs en jouant sur le comportement LLM, sa fréquence est susceptible d’augmenter.
Enfin, l’équipe note que même les meilleures sources de données organisées par l’homme, comme PubMed, souffrent également d’un problème de désinformation. La littérature sur la recherche médicale regorge d’idées prometteuses qui n’ont jamais abouti, et de traitements et de tests obsolètes qui ont été remplacés par des approches plus solidement fondées sur des preuves. Cela n’implique même pas nécessairement des traitements discrédités d’il y a des décennies : il y a quelques années à peine, nous avons pu voir l’utilisation de la chloroquine pour le COVID-19 passer de rapports anecdotiques prometteurs à une démystification approfondie via de grands essais en quelques années seulement. .
Quoi qu’il en soit, il est clair que s’appuyer sur les meilleures bases de données médicales ne produira pas nécessairement un LLM exempt de fausses informations médicales. La médecine est difficile, mais élaborer un LLM médicalement fiable et fiable peut être encore plus difficile.
Nature Medicine , 2025. DOI: 10.1038/s41591-024-03445-1 ( About DOIs ).
A noter que la chose ne se limite pas au domaine médical et que si les propriétaires d’“I.A.” s’amusent à infecter cette du concurent, on ne sera bientôt plus sur de rien.
-
C’est bien pour ça qu’il est précisé de vérifier les résultats donnés par les différentes ia, c’est dans les clauses, il suffit de lire les petites lignes du contrat utilisateur, ce que personne ne fait, donc ces chercheurs ont produit du vent et la populace applaudit, des moutons on vous dit, des moutons…