Julia a deux sœurs et un frère. Combien de sœurs son frère Martin a-t-il ?
Résoudre cette petite énigme demande un peu de réflexion (et une lecture attentive de l’énoncé). Vous pourriez imaginer une famille de trois filles et un garçon, puis réaliser que le garçon a trois sœurs. Ou bien vous pourriez trouver une règle plus générale : chaque garçon de la famille aura une sœur de plus que chaque fille. Autrement dit, la réponse à une telle énigme n’est pas immédiate, comme Paris est la capitale de la France ; elle requiert du raisonnement, une caractéristique essentielle de l’intelligence humaine, que les grands modèles linguistiques (MLL) comme GPT-4, malgré leur comportement impressionnant, peinent à maîtriser.
*J’ai soumis cette énigme à plusieurs reprises à la version la plus récente de GPT-4 (4o), et j’ai obtenu la mauvaise réponse à chaque fois, affirmant que Martin avait deux sœurs. En effet, plusieurs systématiques études ont montré que GPT-4 et les modèles similaires manquent de capacités de raisonnement robuste, ce qui limite leur utilité dans de nombreux domaines. Des astuces incitatives, comme l’ajout de « Réfléchissons étape par étape » à la fin d’une requête pour encourager un meilleur raisonnement, peuvent parfois améliorer les capacités de résolution de problèmes des étudiants en LLM, mais elles n’ont pas été suffisamment efficaces pour transformer ces systèmes en raisonneurs robustes.
Pour remédier à ce problème, de nombreuses entreprises d’intelligence artificielle (IA) de premier plan ont récemment créé de nouveaux types de systèmes d’IA, souvent appelés grands modèles de raisonnement (LRM), spécialement entraînés pour effectuer certains types de raisonnement. Parmi ceux-ci figurent les modèles o1 et o3 d’OpenAI, Claude d’Anthropic avec son « mode de pensée étendu », Gemini 2.0 Flash Thinking Experimental de l’entreprise chinoise DeepSeek de Google et le modèle R1.
Si vous soumettez à un LRM une énigme comme celle-ci, il générera ce que l’on appelle une « chaîne de pensée » : des énoncés en langage naturel décrivant étape par étape un processus de raisonnement apparemment plausible. Par exemple, j’ai soumis l’énigme des « sœurs » au modèle o1 d’OpenAI. Contrairement à GPT-4o, le modèle o1 me fournit sa chaîne de pensée pour arriver à la (bonne) réponse :
Julia a deux sœurs. Il y a donc trois filles au total (Julia et deux autres).
Julia a également un frère, nommé Martin.
Au total, il y a quatre frères et sœurs : trois filles et un garçon (Martin).
Du point de vue de Martin, ses sœurs sont toutes les trois des filles (Julia et ses deux sœurs).
Martin a donc trois sœurs.
Cela ressemble beaucoup à une pensée humaine à voix haute, et en effet, o1 et d’autres LRM sont entraînés sur de nombreux exemples de chaînes de pensée générées par l’homme. La capacité à générer de telles étapes de raisonnement a permis aux LRM d’atteindre de nouveaux sommets de performance dans des tests de performance difficiles en sciences, mathématiques et codage. Par exemple, OpenAI a indiqué que son modèle o1 s’est classé parmi les 500 meilleurs étudiants américains lors d’une épreuve de qualification pour les Olympiades de mathématiques américaines et a dépassé la précision des doctorants dans un test de performance portant sur des problèmes de physique, de biologie et de chimie. D’autres LRM ont atteint des performances similaires.
Certaines entreprises misent gros sur les LRM comme base d’assistants IA commercialement lucratifs. OpenAI, par exemple, a mis à disposition ses meilleurs LRM et son « Outil de Recherche approfondie » associé à des abonnés payant 200 $ par mois, et envisagerait de facturer jusqu’à 20 000 $ par mois pour des modèles de raisonnement capables de mener des recherches de niveau doctorat.
Mais certains chercheurs remettent en question tout l’engouement suscité par les LRM et se demandent si ces modèles, comme le titrait un article , « réfléchissent et raisonnent réellement, ou font-ils simplement semblant ? » Autrement dit, leur entraînement à la chaîne de pensée leur permet-il de raisonner de manière générale et robuste, ou réussissent-ils sur certains critères étroitement définis en imitant simplement le raisonnement humain sur lequel ils ont été formés ?
Je reviendrai plus en détail sur ces questions plus tard, mais je vais d’abord esquisser comment fonctionnent ces modèles et comment ils sont formés.
Un LRM repose sur un « modèle de base » pré-entraîné, un LLM tel que GPT-4o. Dans le cas de DeepSeek, le modèle de base était leur propre LLM pré-entraîné, appelé V3. (La dénomination des modèles d’IA peut prêter à confusion.) Ces modèles de base ont été entraînés sur d’énormes quantités de texte généré par l’homme, l’objectif étant de prédire le prochain jeton (c’est-à-dire un mot ou une partie de mot) dans une séquence de texte.
Le modèle de base est ensuite « post-entraîné », c’est-à-dire qu’il est entraîné plus avant, mais avec un objectif différent : générer spécifiquement des chaînes de pensée, comme celle générée par o1 pour le puzzle des « sœurs ». Après cet entraînement spécifique, lorsqu’un problème lui est posé, le LRM ne génère pas des jetons un par un, mais des chaînes de pensée entières. Ces chaînes de pensée peuvent être très longues.
Contrairement à GPT-4o, par exemple, qui génère un nombre relativement faible de jetons, un par un, lorsqu’un problème lui est posé, des modèles comme o1 peuvent générer des centaines, voire des milliers d’étapes de chaîne de pensée, totalisant parfois des centaines de milliers de jetons générés (dont la plupart ne sont pas révélés à l’utilisateur). Et comme les clients utilisant ces modèles à grande échelle sont facturés au jeton, cela peut s’avérer très coûteux.
Ainsi, un LRM effectue beaucoup plus de calculs qu’un LLM pour générer une réponse. Ces calculs peuvent impliquer la génération de nombreuses chaînes de pensée possibles, l’utilisation d’un autre modèle d’IA pour évaluer chacune d’elles et renvoyer celle la mieux notée, ou encore une recherche plus sophistiquée parmi les possibilités, semblable à la recherche « anticipation » que les programmes de jeu d’échecs ou de go effectuent pour déterminer le bon coup. Avec un modèle comme o1, ces calculs se déroulent en arrière-plan ; l’utilisateur ne voit qu’un résumé des étapes de la chaîne de pensée générées.
Pour ce faire, l’entraînement ultérieur des LRM utilise généralement deux méthodes d’apprentissage automatique : l’apprentissage supervisé et l’apprentissage par renforcement. L’apprentissage supervisé peut consister à entraîner les LRM sur des étapes de raisonnement générées par des experts humains hautement rémunérés, ou sur des chaînes de pensée générées par un autre modèle d’IA, où chaque étape est évaluée par des humains ou par un autre modèle d’IA.
L’apprentissage par renforcement est, en revanche, une méthode non supervisée, dans laquelle le LRM génère lui-même un ensemble complet d’étapes de raisonnement menant à une réponse. Le modèle n’est « récompensé » que pour avoir obtenu la bonne réponse et pour avoir présenté les étapes de raisonnement dans un format lisible par l’homme (par exemple, en les numérotant séquentiellement).
La puissance de l’apprentissage par renforcement sur un grand nombre d’essais réside dans le fait que le modèle peut identifier les étapes qui fonctionnent et celles qui ne fonctionnent pas, même s’il ne reçoit aucun retour supervisé (coûteux) sur la qualité de ces étapes. Le prix Turing 2025, la récompense la plus prestigieuse de l’informatique, a notamment été décerné à deux chercheurs qui ont contribué au développement des méthodes d’apprentissage par renforcement de base aujourd’hui utilisées pour entraîner les LRM.
Il est intéressant de noter que DeepSeek a montré que les méthodes d’apprentissage par renforcement, sans aucun apprentissage supervisé, produisaient un modèle performant sur de nombreux critères de raisonnement. Comme l’expliquent les chercheurs de DeekSeek , ce résultat « souligne la puissance et la beauté de l’apprentissage par renforcement : plutôt que d’enseigner explicitement au modèle comment résoudre un problème, nous lui fournissons simplement les incitations appropriées, et il développe de manière autonome des stratégies avancées de résolution de problèmes. » L’accent mis sur l’apprentissage par renforcement plutôt que sur l’apprentissage supervisé a été l’un des facteurs qui ont permis à DeepSeek de créer un LRM dont la formation et l’utilisation sont bien moins coûteuses que celles des LRM équivalents créés par des entreprises américaines.
Un débat important a eu lieu au sein de la communauté de l’IA pour savoir si les LRM « raisonnent véritablement » ou « imitent simplement » le type de raisonnement humain présent dans les données de pré-entraînement ou de post-entraînement. Un blog spécialisé a qualifié o1 de « premier exemple de modèle doté de véritables capacités de raisonnement général ». D’autres étaient plus sceptiques. La philosophe Shannon Valor a qualifié les processus de chaîne de pensée des LRM de « méta-mimétisme » ; autrement dit, ces systèmes génèrent des traces de raisonnement apparemment plausibles qui imitent les séquences de « pensée à voix haute » humaines sur lesquelles ils ont été entraînés, mais ne permettent pas nécessairement une résolution robuste et générale des problèmes.
Bien sûr, la signification même de « raisonnement authentique » n’est pas claire. « Raisonnement » est un terme générique qui désigne de nombreux types de processus cognitifs de résolution de problèmes ; les humains utilisent une multitude de stratégies, notamment le recours à des étapes mémorisées, des heuristiques spécifiques (« règles empiriques »), des analogies avec des solutions passées et parfois même une véritable logique déductive.
Dans les modèles LRM, le terme « raisonnement » semble être assimilé à la génération d’étapes en langage naturel apparemment plausibles pour résoudre un problème. La mesure dans laquelle cela offre des capacités de résolution de problèmes générales et interprétables reste une question ouverte. Les performances de ces modèles sur les tests de mathématiques, de sciences et de codage sont indéniablement impressionnantes. Cependant, leur robustesse globale reste largement à tester, notamment pour les tâches de raisonnement qui, contrairement à celles sur lesquelles les modèles ont été testés, n’ont pas de réponses claires ni d’étapes de résolution clairement définies, ce qui est le cas de nombreux problèmes du monde réel, voire de la plupart, sans parler de « l’amélioration du climat, l’établissement d’une colonie spatiale et la découverte de toute la physique », autant d’accomplissements que Sam Altman d’OpenAI attend de l’IA à l’avenir. Et bien que les chaînes de pensée des modèles LRM soient vantées pour leur « interprétabilité humaine », il reste à déterminer dans quelle mesure ces « pensées » en langage naturel générées représentent fidèlement ce qui se passe réellement au sein du réseau neuronal lors de la résolution d’un problème. De nombreuses études (menées avant l’avènement des LRM) ont montré que lorsque les LLM génèrent des explications pour leur raisonnement, les explications ne sont pas toujours fidèles à ce que fait réellement le modèle.
De plus, le langage anthropomorphique utilisé dans ces modèles peut induire les utilisateurs en erreur et les amener à leur accorder une confiance excessive. Les étapes de résolution de problèmes générées par les LRM sont souvent appelées « pensées » ; les modèles eux-mêmes nous indiquent qu’ils « réfléchissent » ; certains modèles entremêlent même les étapes de raisonnement avec des mots comme « Hmm », « Ah ! » ou « Attendez ! » pour les rendre plus humaines. Selon un porte-parole d’OpenAI, « les utilisateurs nous ont indiqué que comprendre comment le modèle raisonne à travers une réponse permet non seulement de prendre des décisions plus éclairées, mais aussi de renforcer la confiance dans ses réponses. » Mais la question est de savoir si les utilisateurs construisent la confiance principalement sur la base de ces touches humaines, alors que le modèle sous-jacent est loin d’être fiable.
Des recherches supplémentaires sont nécessaires pour répondre à ces questions importantes de robustesse, de fiabilité et d’interprétabilité des LRM. De telles recherches sont difficiles à mener sur des modèles tels que ceux d’OpenAI, de Google et d’Anthropic, car ces entreprises ne publient pas leurs modèles ni de nombreux détails sur leur fonctionnement. Il est encourageant de constater que DeepSeek a publié les pondérations du modèle R1, un rapport détaillé sur son apprentissage et a permis au système de montrer pleinement ses chaînes de pensée, ce qui facilitera la recherche sur ses capacités. Espérons que cela incitera d’autres entreprises d’IA à faire preuve d’une transparence similaire quant à leurs créations.
Source: https://www.science.org/doi/10.1126/science.adw5211