ChatGPT surpasse les étudiants de premier cycle dans les cours d'introduction, mais échoue plus tard
-
Les logiciels qui promettent de détecter le texte produit par l’IA ne parviennent pas à tenir leurs promesses.
« Depuis l’essor de grands modèles de langage comme ChatGPT, il y a eu de nombreux rapports anecdotiques sur des étudiants soumettant des travaux générés par l’IA comme devoirs d’examen et obtenant de bonnes notes. Nous avons donc testé le système d’examen de notre université contre la tricherie de l’IA dans le cadre d’une expérience contrôlée », explique Peter Scarfe, chercheur à l’École de psychologie et des sciences du langage clinique de l’Université de Reading.
Son équipe a créé plus de 30 faux comptes d’étudiants en psychologie et les a utilisés pour soumettre des réponses produites par ChatGPT-4 aux questions d’examen. Les rapports anecdotiques étaient vrais : l’utilisation de l’IA est passée largement inaperçue et, en moyenne, ChatGPT a obtenu de meilleurs résultats que les étudiants humains.
Règles d’engagement
L’équipe de Scarfe a soumis des travaux générés par l’IA dans cinq modules de premier cycle, couvrant les cours nécessaires au cours des trois années d’études pour un baccalauréat en psychologie. Les devoirs consistaient soit en des réponses de 200 mots à des questions courtes, soit en des essais plus élaborés, d’environ 1 500 mots. « Les correcteurs des examens n’étaient pas au courant de l’expérience. D’une certaine manière, les participants à l’étude ne savaient pas qu’ils participaient à l’étude, mais nous disposons des autorisations nécessaires pour poursuivre cela », affirme Scarfe.
Des soumissions plus courtes ont été préparées simplement en copiant-collant les questions d’examen dans ChatGPT-4 avec une invite pour limiter la réponse à 160 mots. Les essais ont été sollicités de la même manière, mais le nombre de mots requis a été augmenté à 2 000. En fixant les limites de cette façon, l’équipe de Scarfe pourrait amener ChatGPT-4 à produire un contenu suffisamment proche de la longueur requise. « L’idée était de soumettre ces réponses sans aucune modification, à l’exception des essais, pour lesquels nous avons appliqué un formatage minimal », explique Scarfe.
Au total, Scarfe et ses collègues ont introduit 63 soumissions générées par l’IA dans le système d’examen. Même sans aucune modification ni aucun effort pour masquer l’utilisation de l’IA, 94 % d’entre eux n’ont pas été détectés et près de 84 % ont obtenu de meilleures notes (environ une demi-note de mieux) qu’un groupe d’étudiants sélectionnés au hasard et ayant passé le même examen.
« Nous avons organisé une série de réunions de débriefing avec les correcteurs de ces examens et ils ont été très surpris », explique Scarfe. Ils ont été surpris en partie par le fait que la plupart des soumissions d’IA détectées n’ont pas été signalées parce qu’elles étaient trop répétitives ou robotiques – elles ont été signalées parce qu’elles étaient trop bonnes.
Ce qui soulève une question : que faisons-nous à ce sujet ?
Logiciel de chasse à l’IA
“Au cours de cette étude, nous avons effectué de nombreuses recherches sur les techniques de détection du contenu généré par l’IA”, explique Scarfe. L’un de ces outils est GPTZero d’Open AI ; d’autres incluent des systèmes de détection d’écriture d’IA comme celui fabriqué par Turnitin, une société spécialisée dans la fourniture d’outils de détection du plagiat.
“Le problème avec de tels outils est qu’ils fonctionnent généralement bien en laboratoire, mais leurs performances diminuent considérablement dans le monde réel”, a expliqué Scarfe. Open AI affirme que le GPTZero peut signaler le texte généré par l’IA comme étant une IA « probable » dans 26 % du temps, avec un taux de faux positifs plutôt inquiétant de 9 %. Le système de Turnitin, en revanche, a été annoncé comme détectant 97 % des écrits ChatGPT et GPT-3 dans un laboratoire avec un seul faux positif sur cent tentatives. Mais, selon l’équipe de Scarfe, la version bêta publiée de ce système a été bien moins performante.
« Et n’oubliez pas que les grands modèles de langage s’améliorent constamment. Nous avons fait notre expérience à l’été 2023 et le GPT-4 a eu environ trois nouvelles versions depuis lors – et qui sait quels seraient nos résultats si nous faisions cela à nouveau aujourd’hui. Tout commence à ressembler à une course entre les IA générant du contenu et les IA conçues pour détecter le contenu généré par l’IA », explique Scarfe. Jusqu’à présent, les systèmes de détection perdent largement cette course. Et pour ne rien arranger, nous avons déjà un troisième participant qui travaille contre eux sur le circuit.
«Il existe des systèmes d’IA conçus pour humaniser l’écriture effectuée par d’autres IA afin d’échapper aux outils de détection d’IA, ce qui ajoute un autre niveau au problème. Aujourd’hui, nous ne disposons pas d’un moyen fiable de savoir si une soumission a été rédigée par l’IA ou non. Je ne pense pas que cela soit possible », déclare Scarfe. Mais tout n’est pas encore perdu.
Correcteurs orthographiques et calculatrices
Sur les cinq modules dans lesquels l’équipe de Scarfe a soumis des travaux sur l’IA, il y en a un pour lequel ils n’ont pas obtenu de meilleures notes que les étudiants humains : le dernier module suivi par les étudiants juste avant de quitter l’université. « Les grands modèles de langage peuvent émuler dans une mesure limitée la pensée critique, l’analyse et l’intégration humaines de connaissances tirées de différentes sources. Au cours de leur dernière année à l’université, les étudiants doivent fournir des connaissances plus approfondies et utiliser des compétences analytiques plus élaborées. L’IA n’est pas très douée pour cela, c’est pourquoi les étudiants s’en sortent mieux », a expliqué Scarfe. Toutes ces bonnes notes obtenues par Chat GPT-4 concernaient les examens de première et de deuxième années, où les questions étaient plus faciles.
« Mais l’IA s’améliore constamment, elle obtiendra donc probablement de meilleurs résultats dans ces missions avancées à l’avenir. Et comme l’IA fait désormais partie de nos vies et que nous n’avons pas vraiment les moyens de détecter les tricheries liées à l’IA, il va falloir à un moment donné l’intégrer dans notre système éducatif », argumente Scarfe. Il a déclaré que le rôle d’une université moderne est de préparer les étudiants à leur carrière professionnelle, et la réalité est qu’ils utiliseront divers outils d’IA après l’obtention de leur diplôme. Il vaudrait donc mieux qu’ils sachent comment le faire correctement.
«Je suis programmeur et j’ai vu une fois une vidéo YouTube dans laquelle un gars demandait à ChatGPT d’écrire un code élaboré et avancé en Python. Le code écrit par l’IA n’a pas fonctionné, et cet homme a résolu ce problème en examinant le code et en invitant l’IA à le corriger si nécessaire jusqu’à ce que la chose commence à fonctionner. Vous ne pouvez pas faire cela si vous ne connaissez rien à la programmation et si vous comptez simplement sur l’IA pour tout faire à votre place », explique Scarfe.
Il soupçonne que, tôt ou tard, les outils d’IA ne seront plus interdits dans les universités, tout comme les outils de notre passé. « Nous avons autorisé l’utilisation de correcteurs orthographiques et le monde n’a pas pris fin. Ce sera la même chose avec l’IA, même si l’effet de l’utilisation de l’IA sera bien plus profond que l’utilisation d’un correcteur orthographique ou d’une calculatrice. Alors, comment pourrions-nous exactement intégrer l’IA dans l’éducation ? Je serais un homme très riche si je savais cela », a conclu Scarfe.
-
En même temps surpasser les étudiants de premier cycle, on est pas dans l’exploit non plus, hein!