Plus les modèles d’IA sont sophistiqués, plus ils sont susceptibles de mentir
-
Ceux qui n’aiment pas les articles fleuves, pouront jeter un coup d’oeil rapide sur ce qui est mis en évidence
La formation au feedback humain peut inciter à fournir n’importe quelle réponse, même les mauvaises.
Lorsqu’une équipe de recherche dirigée par Amrit Kirpalani, professeur de médecine à l’Université Western en Ontario, au Canada, a évalué les performances de ChatGPT dans le diagnostic des cas médicaux en août 2024, l’une des choses qui les a surpris a été la propension de l’IA à donner des informations bien structurées et éloquentes. mais des réponses manifestement fausses.
Dans une étude récemment publiée dans Nature, un autre groupe de chercheurs a tenté d’expliquer pourquoi ChatGPT et d’autres grands modèles de langage ont tendance à faire cela. « Parler avec assurance de choses que nous ne connaissons pas est à bien des égards un défaut humain. Et les grands modèles de langage sont des imitations des humains », explique Wout Schellaert, chercheur en IA à l’Université de Valence, en Espagne, et co-auteur de l’article.
Opérateurs fluides
Les premiers grands modèles de langage comme GPT-3 avaient du mal à répondre à des questions simples sur la géographie ou la science. Ils ont même eu du mal à effectuer des calculs simples tels que « combien font 20 +183 ». Mais dans la plupart des cas où ils ne parvenaient pas à identifier la bonne réponse, ils faisaient ce qu’un être humain honnête ferait : ils évitaient de répondre à la question.
Le problème avec les non-réponses est que les grands modèles de langage étaient destinés à être des machines à répondre aux questions. Pour les entreprises commerciales comme Open AI ou Meta qui développaient des LLM avancés, un répondeur de questions qui répondait « Je ne sais pas » plus de la moitié du temps était tout simplement un mauvais produit. Ils se sont donc appliqués à résoudre ce problème.
La première chose qu’ils ont faite a été d’agrandir les modèles. « La mise à l’échelle fait référence à deux aspects du développement de modèles. La première consiste à augmenter la taille de l’ensemble de données de formation, généralement une collection de textes provenant de sites Web et de livres. L’autre consiste à augmenter le nombre de paramètres linguistiques », explique Schellaert. Lorsque l’on considère un LLM comme un réseau neuronal, le nombre de paramètres peut être comparé au nombre de synapses connectant ses neurones. Les LLM comme GPT-3 utilisaient des quantités absurdes de données texte, dépassant 45 téraoctets, pour la formation. Le nombre de paramètres utilisés par GPT-3 était supérieur à 175 milliards. Mais ce n’était pas suffisant.
La simple mise à l’échelle a rendu les modèles plus puissants, mais ils étaient toujours mauvais pour interagir avec les humains : de légères variations dans la façon dont vous formulez vos invites pouvaient conduire à des résultats radicalement différents. Les réponses ne semblaient souvent pas humaines et étaient parfois carrément offensantes.
Les développeurs travaillant sur les LLM voulaient qu’ils analysent mieux les questions humaines et rendent les réponses plus précises, plus compréhensibles et conformes aux normes éthiques généralement acceptées. Pour tenter d’y arriver, ils ont ajouté une étape supplémentaire : des méthodes d’apprentissage supervisé, comme l’apprentissage par renforcement, avec feedback humain. Cela visait principalement à réduire la sensibilité aux variations d’invite et à fournir un niveau de modération de filtrage des résultats destiné à freiner les réponses haineuses de type chatbot Tay .
En d’autres termes, nous nous sommes occupés d’ajuster les IA à la main. Et ça s’est retourné contre nous.L’IA plaît aux gens
“Le problème notoire de l’apprentissage par renforcement est qu’une IA optimise pour maximiser la récompense, mais pas nécessairement dans le bon sens”, explique Schellaert. Certains apprentissages par renforcement impliquaient des superviseurs humains qui signalaient les réponses qui ne les satisfaisaient pas. Puisqu’il est difficile pour les humains de se contenter d’un « je ne sais pas » comme réponse, une chose que cette formation a dite aux IA était que dire « je ne sais pas » était une mauvaise chose. Ainsi, les IA ont pour la plupart arrêté de faire cela. Mais une autre chose, plus importante, signalée par les superviseurs humains, était les réponses incorrectes. Et c’est là que les choses sont devenues un peu plus compliquées.
Les modèles d’IA ne sont pas vraiment intelligents, pas au sens humain du terme. Ils ne savent pas pourquoi quelque chose est récompensé et pourquoi autre chose est signalé ; tout ce qu’ils font, c’est optimiser leurs performances pour maximiser la récompense et minimiser les signaux d’alarme. Lorsque des réponses incorrectes étaient signalées, s’améliorer dans la manière de donner des réponses correctes était un moyen d’optimiser les choses. Le problème était que cacher l’incompétence fonctionnait tout aussi bien. Les superviseurs humains ne signalaient tout simplement pas les mauvaises réponses qui leur semblaient suffisamment bonnes et cohérentes.
En d’autres termes, si un humain ne sait pas si une réponse est correcte, il n’est pas en mesure de pénaliser des réponses fausses mais convaincantes.
L’équipe de Schellaert a étudié trois grandes familles de LLM modernes : ChatGPT d’Open AI, la série LLaMA développée par Meta et la suite BLOOM créée par BigScience. Ils ont découvert ce qu’on appelle l’ultracrépidarisme, la tendance à donner des opinions sur des sujets dont nous ignorons tout. Il a commencé à apparaître dans les IA en raison d’une échelle croissante, mais il était, comme on pouvait s’y attendre, linéaire, augmentant avec la quantité de données d’entraînement, dans chacune d’entre elles. Le feedback supervisé « a eu un effet pire, plus extrême », explique Schellaert. Le premier modèle de la famille GPT qui a presque complètement cessé d’éviter les questions auxquelles il n’avait pas de réponse était text-davinci-003. Il s’agissait également du premier modèle GPT formé avec un apprentissage par renforcement à partir de commentaires humains.
Les IA mentent parce que nous leur avons dit que cela était gratifiant. Une question clé est de savoir quand et à quelle fréquence on nous ment.
Rendre les choses plus difficiles
Pour répondre à cette question, Schellaert et ses collègues ont construit une série de questions dans différentes catégories comme les sciences, la géographie et les mathématiques. Ensuite, ils ont évalué ces questions en fonction de la difficulté à y répondre pour les humains, en utilisant une échelle de 1 à 100. Les questions ont ensuite été intégrées aux générations suivantes de LLM, du plus ancien au plus récent. Les réponses des IA étaient classées comme correctes, incorrectes ou évasives, ce qui signifie que l’IA refusait de répondre.
Le premier constat est que les questions qui nous paraissent plus difficiles se révèlent également plus difficiles pour les IA. Les dernières versions de ChatGPT ont donné des réponses correctes à presque toutes les questions liées à la science et à la majorité des questions à caractère géographique jusqu’à ce qu’elles soient notées à environ 70 sur l’échelle de difficulté de Schellaert. L’addition était plus problématique, la fréquence des réponses correctes diminuant considérablement une fois que la difficulté dépassait 40. « Même pour les meilleurs modèles, les GPT, le taux d’échec aux questions d’addition les plus difficiles dépasse 90 %. Idéalement, nous espérons voir un certain évitement ici, n’est-ce pas ? » dit Schellaert. Mais nous n’avons pas vu beaucoup d’évitement.
Au lieu de cela, dans les versions plus récentes des IA, les réponses évasives « Je ne sais pas » ont été de plus en plus remplacées par des réponses incorrectes. Et grâce à la formation supervisée utilisée dans les générations ultérieures, les IA ont développé la capacité de vendre ces réponses incorrectes de manière assez convaincante. Sur les trois familles LLM testées par l’équipe de Schellaert, BLOOM et LLaMA de Meta ont publié les mêmes versions de leurs modèles avec et sans apprentissage supervisé. Dans les deux cas, l’apprentissage supervisé a entraîné un nombre plus élevé de réponses correctes, mais également un nombre plus élevé de réponses incorrectes et une réduction des évitements. Plus la question est difficile et plus le modèle que vous utilisez est avancé, plus vous avez de chances d’obtenir une réponse plausible et bien formulée.
Retour aux racines
L’une des dernières choses que l’équipe de Schellaert a faites dans son étude a été de vérifier la probabilité que les gens prennent les réponses incorrectes de l’IA au pied de la lettre. Ils ont mené une enquête en ligne et ont demandé à 300 participants d’évaluer plusieurs paires de réponses rapides provenant des modèles les plus performants de chaque famille testée.
ChatGPT est apparu comme le menteur le plus efficace. Les réponses incorrectes données dans la catégorie scientifique ont été qualifiées de correctes par plus de 19 pour cent des participants. Il a réussi à tromper près de 32 % des personnes en géographie et plus de 40 % en transformation, une tâche dans laquelle une IA devait extraire et réorganiser les informations présentes dans l’invite. ChatGPT a été suivi par LLaMA et BLOOM de Meta.
"Au début des LLM, nous avions au moins une solution de fortune à ce problème. Les premières interfaces GPT mettaient en évidence des parties de leurs réponses dont l’IA n’était pas certaine. Mais dans la course à la commercialisation, cette fonctionnalité a été abandonnée, a déclaré Schellaert.
“Il existe une incertitude inhérente aux réponses des LLM. Le mot suivant le plus probable dans la séquence n’est jamais probable à 100 pour cent. Cette incertitude pourrait être utilisée dans l’interface et communiquée correctement à l’utilisateur”, explique Schellaert. La meilleure chose à faire pour rendre les LLM moins trompeurs consiste à confier leurs réponses à des IA distinctes formées spécifiquement pour rechercher les tromperies. « Je ne suis pas un expert en conception de LLM, je ne peux donc que spéculer sur ce qui est exactement techniquement et commercialement viable », ajoute-t-il.
Il faudra cependant un certain temps avant que les entreprises qui développent des IA à usage général ne fassent quelque chose, soit de leur propre gré, soit si elles y sont contraintes par de futures réglementations. En attendant, Schellaert a quelques suggestions sur la manière de les utiliser efficacement. « Ce que vous pouvez faire aujourd’hui, c’est utiliser l’IA dans des domaines dans lesquels vous êtes vous-même un expert ou au moins pouvez vérifier la réponse avec une recherche Google par la suite. Traitez-le comme un outil d’aide et non comme un mentor. Ce ne sera pas un enseignant qui vous montrera de manière proactive où vous vous êtes trompé. Bien au contraire. Si vous le poussez suffisamment, il suivra volontiers votre raisonnement erroné », explique Schellaert.
Source: https://arstechnica.com/science/2024/10/the-more-sophisticated-ai-models-get-the-more-likely-they-are-to-lie/
Et: Nature, 2024. DOI : 10.1038/s41586-024-07930-y