Les journalistes scientifiques estiment que ChatGPT est incapable de résumer les articles scientifiques

duJambon

Résumer des résultats scientifiques complexes pour un public non expert est l’une des tâches les plus importantes du quotidien d’un journaliste scientifique. Générer des résumés d’écrits complexes est souvent également cité comme l’un des meilleurs cas d’utilisation des modèles linguistiques étendus (malgré quelques notables contre-exemples ).

C’est dans cet esprit que l’équipe de l’Association américaine pour l’avancement des sciences (AAAS) a mené une étude informelle d’un an afin de déterminer si ChatGPT pouvait produire le type de résumés d’articles d’actualité que l’équipe « SciPak » rédige régulièrement pour la revue Science et des services comme EurekAlert . Ces articles SciPak sont conçus selon un format spécifique et simplifié qui transmet des informations cruciales, telles que les prémisses, les méthodes et le contexte de l’étude, aux autres journalistes susceptibles de vouloir en parler.

Désormais, dans un nouveau billet de blog et un livre blanc discutant de leurs conclusions, les journalistes de l’AAAS ont conclu que ChatGPT peut « imiter passablement la structure d’un mémoire de style SciPak », mais avec une prose qui « tend à sacrifier l’exactitude à la simplicité » et qui « nécessite une vérification rigoureuse des faits par les auteurs de SciPak ».

« Ces technologies peuvent avoir le potentiel d’être des outils utiles pour les rédacteurs scientifiques, mais elles ne sont pas encore prêtes à être utilisées en grande diffusion pour l’équipe SciPak », a déclaré Abigail Eisenstadt, rédactrice de l’AAAS.

Où est le contact humain ?

De décembre 2023 à décembre 2024, les chercheurs de l’AAAS ont sélectionné jusqu’à deux articles par semaine pour que ChatGPT les résume à l’aide de trois questions différentes de spécificité variable. L’équipe s’est concentrée sur les articles comportant des éléments complexes comme le jargon technique, les idées controversées, les découvertes révolutionnaires, les sujets humains ou les formats non traditionnels. Les tests ont utilisé la version « Plus » des derniers modèles GPT accessibles au public pendant la période d’étude, qui couvrait généralement les périodes GPT-4 et GPT-4o.

Au total, 64 articles ont été résumés, et ces résumés ont été évalués quantitativement et qualitativement par les mêmes rédacteurs de SciPak qui avaient rédigé ces articles pour l’AAAS. Les chercheurs soulignent que cette conception « ne permettait pas de prendre en compte les biais humains », qui, selon nous, pourraient être importants chez les journalistes évaluant un outil menaçant de supplanter l’une de leurs fonctions principales.

Pourtant, les résultats de l’enquête quantitative menée auprès de ces journalistes étaient assez partiaux. À la question de savoir si les résumés ChatGPT pouvaient s’intégrer au reste de vos résumés, le résumé moyen n’a obtenu qu’une note de 2,26 sur une échelle de 1 (« non, pas du tout ») à 5 (« absolument »). À la question de savoir si les résumés étaient « convaincants », les résumés LLM n’ont obtenu en moyenne que 2,14 sur la même échelle. Sur les deux questions, un seul résumé a obtenu la note de 5 de l’évaluateur humain, contre 30 notes de 1.

Pas à la hauteur des normes

Il a également été demandé aux auteurs de rédiger des évaluations plus qualitatives des résumés individuels évalués. Ils ont notamment déploré que ChatGPT confonde souvent corrélation et causalité, manque de contexte (par exemple, les actionneurs logiciels ont tendance à être très lents) et a tendance à surestimer les résultats en utilisant des termes comme « révolutionnaire » et « novateur » (ce dernier comportement ayant toutefois disparu lorsque les invites l’ont spécifiquement abordé).

Globalement, les chercheurs ont constaté que ChatGPT était généralement efficace pour « retranscrire » le contenu d’un article scientifique, surtout si celui-ci était peu nuancé. En revanche, le LLM manquait de précision pour « traduire » ces résultats en explorant les méthodologies, les limites ou les implications globales. Ces faiblesses étaient particulièrement marquées pour les articles présentant des résultats multiples et divergents, ou lorsqu’il était demandé au LLM de résumer deux articles connexes en un seul résumé.

Si le ton et le style des résumés ChatGPT s’accordaient souvent bien avec le contenu rédigé par des humains, des inquiétudes quant à l’exactitude factuelle du contenu rédigé par des LLM étaient fréquentes, ont écrit les journalistes. Même utiliser les résumés ChatGPT comme « point de départ » pour une révision humaine « exigerait autant, voire plus, d’efforts que de rédiger des résumés de A à Z », en raison de la nécessité d’une « vérification approfondie des faits », ont-ils ajouté.

Ces résultats ne sont peut-être pas si surprenants, compte tenu des études précédentes qui ont montré que les moteurs de recherche IA citent des sources d’information erronées dans 60 % des cas . Néanmoins, ces faiblesses sont d’autant plus flagrantes lorsqu’il s’agit d’articles scientifiques, où l’exactitude et la clarté de la communication sont primordiales.

Au final, les journalistes de l’AAAS ont conclu que ChatGPT « ne répondait pas au style et aux normes des résumés du dossier de presse SciPak ». Cependant, le livre blanc a admis qu’il pourrait être utile de relancer l’expérience si ChatGPT « connaissait une mise à jour majeure ». À noter que GPT-5 a été présenté au public en août .

Source: https://arstechnica.com/ai/2025/09/science-journalists-find-chatgpt-is-bad-at-summarizing-scientific-papers/

J’ai fait résumer l’article par chatgpt et obtenu:

L’Association américaine pour l’avancement des sciences (AAAS) a mené une étude d’un an (2023–2024) pour évaluer si ChatGPT pouvait résumer efficacement des articles scientifiques dans le style des « SciPak », des synthèses destinées aux journalistes.

Méthode : 64 articles complexes (jargon, sujets controversés, résultats multiples) ont été soumis à ChatGPT (versions GPT-4 et GPT-4o). Les résumés générés ont ensuite été comparés à ceux des rédacteurs humains de SciPak.

Résultats quantitatifs : les notes données par les journalistes étaient faibles (≈2,2/5 pour l’intégration aux autres résumés, ≈2,1/5 pour le caractère convaincant). Très peu de résumés ont atteint un niveau jugé satisfaisant.

Points faibles :

erreurs fréquentes (confusion entre corrélation et causalité, manque de contexte) ;

tendance à exagérer l’importance des découvertes (« révolutionnaire », « novateur ») ;

difficulté avec les articles aux résultats multiples ou divergents.

Points positifs : bonne capacité à retranscrire des faits simples et un style d’écriture proche de celui des humains.

Conclusion : ChatGPT peut imiter la structure d’un SciPak mais sacrifie trop souvent la précision. Les résumés nécessitent une vérification tellement lourde qu’ils n’économisent pas de travail par rapport à une rédaction humaine.

L’AAAS juge donc la technologie prometteuse mais « pas encore prête » pour un usage professionnel. Une nouvelle évaluation pourrait être faite lors d’évolutions majeures des modèles, comme l’arrivée de GPT-5.

Puis encore une fois en 5 lignes:

L’AAAS a testé ChatGPT pendant un an pour résumer des articles scientifiques au format « SciPak ».
Résultat : style convaincant mais manque de précision, erreurs fréquentes (corrélation/causalité, exagérations, contexte absent).
Les notes moyennes des journalistes étaient faibles (≈2/5).
Vérifier et corriger les résumés demande autant d’effort qu’écrire soi-même.
Conclusion : outil prometteur, mais pas encore utilisable professionnellement.

J’aime beaucoup cette version de 5 lignes, mais elle nécessite d’avoir une foi totale, car elle ne parle pas de méthodologie.

Planète Warez

Light

Dim

Dark

Les journalistes scientifiques estiment que ChatGPT est incapable de résumer les articles scientifiques