
ChatGPT Santé a été annoncé il y a deux semaines et ce n’est pas le projet qui lance l’utilisation des LLM en santé. Mais une recherche récente sur les réponses des modèles de langage concernant des questions sur la santé montre qu’ils peuvent générer des conseils problématiques, notamment en faisant des erreurs par omission.
Avec le lancement de ChatGPT Santé, la santé voit l’IA générative et l’utilisation des modèles de langage dans son champ promues largement dans les mains du grand public. Pourtant, des chercheurs montrent que les réponses de chatbots peuvent être très problématiques.
Nous sommes à « un moment où les puissants modèles d’apprentissage automatique (LLM) sont intégrés dans les soins aux patients plus rapidement que leurs risques ne peuvent être compris », affirme David Wu de l’école de médecine de Harvard, Ethan Goh de l’école de médecine de Stanford et leurs collègues. Ils ont récemment mis en ligne une étude (sur la plateforme de prépublication arXiv) qui teste 31 modèles et constate le risque de préjudice grave lié aux recommandations données par ces 31 LLM.
D’abord, ne pas faire de mal
« Primum non nocere [d’abord, ne pas faire de mal en français ou, first do no harm en anglais] est un principe fondamental de la médecine depuis des milliers d’années », rappellent-ils dans leur article. C’est inspiré de ce principe qu’ils proposent leur benchmark NOHARM (Numerous Options Harm Assessment for Risk in Medicine) qui s’appuie sur 100 cas réels de consultations entre médecins généralistes et spécialistes pour mesurer la fréquence et la gravité des préjudices causés par les recommandations médicales générées par les LLM.
Ici, l’idée est donc de s’intéresser aux outils d’IA générative utilisés par des médecins pour les assister et de vérifier que les réponses ne poussent pas à l’erreur : « Il n’est pas encore clair si l’acquisition de connaissances [dans les LLM] constitue un indicateur d’une prise en charge clinique sûre et efficace », expliquent-ils.
Leur benchmark mesure que Gemini 2.5 Flash et Pro, LiSA 1.0, Claude Sonnet 4.5 et DeepSeek R1 font le moins d’erreurs graves (entre 11,8 et 14,6 en moyenne. sur environ 500 questions) alors que o4 mini et GPT-4o en font beaucoup plus (entre 39,9 et 40,1). On peut aussi retrouver les données de leur benchmark ici.

Ils analysent leurs résultats en expliquant que « les LLM commettent des erreurs préjudiciables à des taux non négligeables, et les indicateurs courants d’évaluation des modèles (par exemple, leur nouveauté, la taille en fonction des paramètres, les modes de raisonnement et les performances sur les benchmarks d’intelligence artificielle générale) ne permettent pas de prédire de manière fiable ces performances ».
[…]
Suite de l’article réservé aux abonnés : next.ink
Ils contrôlent l’univers du forum et ils gouvernent le vaisseau numérique, de l’interface à l’hyperespace à travers les astres et les champs de données. Leur devise : "Un reboot pour rétablir la paix, un ban pour éliminer la menace""
