Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique

Papawaan

93,9 % en ingénierie logicielle, 100 % en cybersécurité, des failles trouvées dans tous les navigateurs et systèmes d’exploitation du monde : Anthropic vient de publier les performances de Claude Mythos, son modèle le plus puissant. Et refuse de le rendre public.

Quand un modèle d’IA résout 19 problèmes d’ingénierie logicielle sur 20 là où le meilleur modèle public en résout 16, on ne discute plus de performances. On discute de ce qu’on a le droit d’en faire. Anthropic a tranché : Claude Mythos Preview, son modèle le plus avancé, ne sera pas rendu public.

“Les capacités de l’IA ont franchi un seuil qui change fondamentalement l’urgence requise pour protéger les infrastructures critiques contre les cybermenaces, et il n’y a pas de retour en arrière.”
– Jeetu Patel, Chief Product Officer, Cisco (communiqué Project Glasswing, 7 avril 2026)

Des écarts qui ne relèvent plus de l’incrémental

Les chiffres parlent sans ambiguité. Sur SWE-bench Verified, le benchmark de référence en ingénierie logicielle, Mythos obtient 93,9 % contre 80,8 % pour Claude Opus 4.6, le modèle phare actuel. Sur SWE-bench Pro, la version durcie du même test, l’écart se creuse encore : 77,8 % contre 53,4 %, soit 24 points de progression. Sur SWE-bench Multimodal, qui évalue la capacité à raisonner simultanément sur du code et des interfaces visuelles, Mythos atteint 59 % contre 27,1 %, un quasi-doublement.

b9efe3e7-claude-mythos-les-benchmarks-sont-tombes-l-ia-est-si-puissante-qu-anthropic-ne-la-rendra-pas-publique.png

En raisonnement scientifique, GPQA Diamond donne 94,6% contre 91,3%, un écart resserré mais au-dessus du niveau typique d’experts humains titulaires d’un doctorat. Sur Humanity’s Last Exam, un benchmark conçu pour résister aux modèles actuels, Mythos atteint 56,8% sans outils contre 40% pour Opus 4.6.

be441d38-claude-mythos-les-benchmarks-sont-tombes-l-ia-est-si-puissante-qu-anthropic-ne-la-rendra-pas-publique.png

La cybersécurité comme révélateur

C’est en sécurité informatique que le fossé devient le plus saisissant. Sur CyberGym, qui évalue l’analyse de vulnérabilités, Mythos atteint 83,1 % contre 66,6 %. Sur Cybench, un ensemble de 35 challenges de type Capture The Flag, le modèle obtient un score parfait de 100 %, au point qu’Anthropic considère le test comme désormais obsolète pour les modèles de cette génération.

c936db39-claude-mythos-les-benchmarks-sont-tombes-l-ia-est-si-puissante-qu-anthropic-ne-la-rendra-pas-publique.png

En conditions réelles, Mythos a identifié des milliers de vulnérabilités zero-day dans tous les navigateurs et systèmes d’exploitation majeurs, dont certaines vieilles de plus de vingt ans. Un bug de 27 ans dans OpenBSD. Une faille de 16 ans dans FFmpeg, dans une ligne de code traversée cinq millions de fois par des outils automatisés sans que personne ne la repère.

Anthropic n’a pas entraîné Mythos spécifiquement pour la cybersécurité ; ces aptitudes découlent, selon l’entreprise, de progrès généraux en raisonnement, en codage agentique et en autonomie. Les mêmes capacités qui permettent au modèle de corriger des failles lui permettent aussi de les exploiter, parfois de bout en bout, sans intervention humaine.

“La fenêtre entre la découverte d’une vulnérabilité et son exploitation par un adversaire s’est effondrée. Ce qui prenait des mois se fait désormais en minutes avec l’IA.”
–Elia Zaitsev, CTO de CrowdStrike (communiqué Project Glasswing, 7 avril 2026)

Pour l’heure, seuls les partenaires de Project Glasswing, parmi lesquels AWS, Apple, Google, Microsoft et la Linux Foundation, y ont accès, avec 100 millions de dollars de crédits mis à disposition par Anthropic pour financer la recherche défensive.

Pour celles et ceux qui veulent aller plus loin, l’ensemble des données citées dans cet article est issu de la System Card de Claude Mythos Preview, de la page Project Glasswing et du blog de la Frontier Red Team, publiés par Anthropic le 7 avril 2026.

Source: ici

Aerya

Passionnant, merci.

Dire que certains utilisent l’IA pour faire des mêmes ou des nudes…

Ça reste au final un outil comme un autre, comme un bouquin sur Linux ou l’électrotechnique ou encore la programmation COBOL. Les bas du front ne sauront pas s’en servir alors que d’autres en comprendront les capacités.

Et au milieu y’a les gens comme moi, qui corrigent du code ou le font répliquer. Et si on a le malheur de demander à Claude ce qu’il en pense : il réécrit quasi tout ^^’

Violence

@Aerya a dit:

Et au milieu y’a les gens comme moi, qui corrigent du code ou le font répliquer. Et si on a le malheur de demander à Claude ce qu’il en pense : il réécrit quasi tout ^^’

Et il te nique du token pour rien au passage. C’est sur qu’il faut le cadrer un max

Indigostar

Je reste sceptique, pas sur les performances d’Anthropic mais sur le timing incroyablement opportun de toute cette opération (marketing ?).
Il y a une semaine à peine ils font fuiter 3000 documents internes révélant l’existence de Mythos. Quelques jours plus tard, rebelote : un dev pousse une version Claude code sur npm en y laissant traîner 59 MB de source maps. Et aujourd’hui ces mêmes mecs qui ont une opsec niveau stagiaire viennent nous expliquer que leur modèle est tellement puissant en cybersécurité qu’ils ne peuvent pas le rendre public.

Soit c’est du damage control, soit ils cherchent à faire monter la valorisation de la boîte avec du buzz.

Papawaan

@indigostar surtout juste après s’être fait kické out du contrat avec le pentagone

Mister158

là où ça fait vraiment peur c’est ça :

https://www.lesnumeriques.com/intelligence-artificielle/un-signal-alarmant-claude-mythos-l-ia-surpuissante-d-anthropic-s-est-echappee-de-son-environnement-de-test-n254047.html?utm_source=phoenixjp&utm_medium=aggregator&utm_campaign=feed

Psyckofox

Les autres IA utilisent carrément Claude Mythos pour dire

kalifragilistik

C’est la course a SkyNET, le premier arrivé pense pouvoir garder le contrôle quand le bébé est capable de penser à la vitesse de la lumière.

Anthropic semble vouloir générer du buzz pour récupérer leur valeur d’actions.
Mais de l’autre côté, ils ont quand même dit non a contrôler des drôles autonomes… c’est assez rare ce genre d’intégrité.

Planète Warez

Light

Dim

Dark

Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique

Des écarts qui ne relèvent plus de l’incrémental

La cybersécurité comme révélateur