Percée historique ou opération de communication savamment orchestrée par Anthropic ?
En deux mois, l’outil d’analyse de vulnérabilités Claude Mythos Preview d’Anthropic a identifié 271 failles inconnues dans le code source de Firefox, dont certaines dormaient depuis vingt ans. Mozilla crie au miracle, les ingénieurs de sécurité indépendants crient au bluff. Entre percée technologique réelle et narratif commercial soigneusement orchestré, le dossier mérite une lecture attentive.
Depuis février 2026, l’équipe Firefox travaille en collaboration étroite avec Anthropic pour débusquer des vulnérabilités latentes dans le navigateur. Une première phase, menée avec Claude Opus 4.6, avait abouti à la correction de 22 bogues dans Firefox 148. L’application de Claude Mythos Preview à Firefox 150 a permis d’en identifier 271 supplémentaires en une seule évaluation initiale.
Le bilan d’avril est historique : 423 bogues de sécurité corrigés en un seul mois. Outre les 271 identifiés par Mythos, 41 provenaient de rapports externes, et les 111 restants d’autres méthodes internes, dont une partie attribuée au même pipeline tournant sur d’autres modèles.
La répartition par criticité est éloquente. Sur les 271 vulnérabilités annoncées pour Firefox 150 : 180 étaient de niveau sec-high, 80 sec-moderate et 11 sec-low. Mozilla précise que les niveaux critical et high désignent des failles exploitables par un simple utilisateur naviguant sur une page web ordinaire.
Parmi les exemples rendus publics par Mozilla pour asseoir la crédibilité de la démarche : une faille vieille de quinze ans dans l’élément HTML <legend>, un bogue XSLT datant de vingt ans impliquant des appels récursifs à la fonction key(), une race condition via IPC permettant à un processus compromis de manipuler des compteurs IndexedDB et de provoquer un use-after-free, ainsi qu’un dépassement de tampon lors du traitement HTTPS RR et ECH déclenché en simulant un serveur DNS malveillant. Pour mémoire, une race condition est une erreur critique qui survient lorsqu’un programme, exécuté par plusieurs threads ou processus en parallèle, accède et modifie une ressource partagée (mémoire, fichier) de manière non coordonnée.
La rupture technologique : l’agent qui vérifie lui-même ses hypothèses
Ce qui distingue cette campagne des tentatives antérieures, ce n’est pas le modèle seul, mais l’infrastructure qui l’entoure. Les premières expérimentations internes de Mozilla avec GPT-4 et Claude Sonnet 3.5 en analyse statique avaient produit un taux de faux positifs rédhibitoire, rendant toute mise à l’échelle impossible. L’introduction de harnais agentiques a tout changé : l’IA peut désormais construire et exécuter ses propres cas de test pour vérifier dynamiquement si un bogue suspecté existe réellement avant de le rapporter.
Ce pipeline s’avère extrêmement fiable pour filtrer les faux positifs, à condition de disposer d’une condition de succès clairement définie. Les problèmes de corruption mémoire sont particulièrement faciles à valider : soit l’Address Sanitizer est déclenché, soit il ne l’est pas. Au total, moins de quinze faux positifs ont été observés sur l’ensemble de la campagne, causés principalement par des modifications de préconditions de test. Chaque occurrence entraîne une mise à jour du harnais pour éviter les récidives.
Le pipeline tourne en parallèle sur plusieurs machines virtuelles éphémères, chacune assignée à un fichier cible spécifique. La puissance de feu est donc horizontalement scalable. Mozilla prévoit de l’intégrer directement dans son processus de développement afin que chaque nouveau commit soit automatiquement examiné avant d’être fusionné dans la base de code principale.
[image: a]
Capture d’écran d’une partie du tableau des bugs répertoriés par Mozilla
Ce que Mythos a validé autant que découvert
Un résultat moins médiatisé, mais que les ingénieurs de Mozilla jugent tout aussi précieux : plusieurs tentatives d’exploitation ciblant une technique appelée Prototype Pollution ont échoué, parce que Mozilla avait adopté des décisions architecturales protectrices des années auparavant. Pour les développeurs, avoir la preuve directe que leurs défenses existantes tiennent toujours est aussi utile que de trouver de nouvelles vulnérabilités.
Beaucoup des vulnérabilités découvertes ne suffisent pas à elles seules à constituer une attaque complète : elles doivent être chaînées avec d’autres failles. Mais ce sont précisément les types de faiblesses que les méthodes traditionnelles comme le fuzzing ont du mal à détecter, et l’analyse par IA couvre ce terrain de façon bien plus exhaustive.
Le scepticisme des experts : de la percée au coup de com’
…
Suite de l’article réservé aux abonnés : developpez.com


).