CAPTCHA : les machines « prouvent » plus rapidement qu'elles sont des humains
-
Des chercheurs et chercheuses de l’Université de Californie à Irvine ont montré que les humains étaient maintenant plus lents et moins efficaces que des bots pour résoudre des CAPTCHA.
Les tâches de reconnaissance d’images réputées inaccessibles pour les machines deviennent maintenant plus simples pour elles que pour les humains. Des chercheurs de l’Université de Californie à Irvine (UC Irvine) ont en effet comparé les performances des humains avec celles des algorithmes de résolution de CAPTCHA et ont montré que la machine était, la plupart du temps, meilleure et plus rapide. Ils ont présenté leurs résultats à la conférence USENIX Security en ce mois d’août (PDF).
Au départ, les CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) ont bien été inventés pour résoudre des problèmes de sécurité et éviter que des programmes malveillants se fassent passer pour des utilisateurs.
« Un captcha est un programme qui peut générer et noter des tests que (A) la plupart des humains peuvent réussir, mais que (B) les programmes informatiques actuels ne passent pas », expliquaient les chercheurs Luis von Ahn, Manuel Blum, Nicholas J. Hopper, et John Langfor dans leur article fondateur (PDF) sur le sujet titré « CAPTCHA : utiliser des problèmes d’IA difficiles pour la sécurité ». Cette fonctionnalité a permis pendant des années de bloquer spams et aspirateurs de données à l’entrée de nombreux formulaires de sites web.
De l’aide à la numérisation à l’apprentissage pour le Deep learning
Mais en 2007, Luis von Ahn et Ben Maurer ont cofondé reCAPTCHA, une entreprise qui proposait d’utiliser les CAPTCHA pour faire faire des tâches de reconnaissances d’images que les systèmes de l’époque n’étaient pas capables d’effectuer. L’idée a d’abord été appliquée à la numérisation de livres pour Internet Archive.
Le site avait scanné 20 000 livres, mais les logiciels d’OCR n’étaient pas capables de reconnaître tous les mots, notamment quand une page était en mauvais état. TechCrunch expliquait à l’époque qu’ « à l’instar d’une application Mechanical Turk, ReCaptcha fait appel à des humains pour traduire des images de mots scannés qu’un ordinateur ne pourrait pas comprendre ».
Le système proposait deux mots distordus par un algorithme : un déjà reconnu par la machine et un autre qui ne l’était pas. Ainsi, les mots illisibles automatiquement pouvaient petit à petit être numérisés. Luis von Ahn et Ben Maurer estimaient à 60 millions le nombre de CAPTCHA résolus chaque jour et Techcrunch les ramenaient à plus de 160 000 heures humaines par jour (soit environ 19 ans).
En 2009, Google a acheté reCaptcha y voyant une autre opportunité. Non seulement, reCaptcha permettait de remplacer la machine par des humains quand elle n’arrivait pas à décoder un mot dans un texte scanné, mais il permettait d’ « apprendre aux ordinateurs à lire », comme l’expliquait l’entreprise sur son blog au moment du rachat.
Le principe a ensuite été élargi à la reconnaissance de formes dans des photos, comme des chats, des passages piétons ou des voitures, etc. La multinationale trouvait ici une véritable petite usine à étiqueter gratuitement des images et se concocter une bibliothèque d’entrainement pour ses algorithmes d’intelligence artificielle qu’elle était en train de développer.
Des tests obsolètes
Mais quatorze ans après cet achat, ce qui devait arriver est en train d’arriver. Les algorithmes d’intelligence artificielle de Google et de ses concurrents, entraînés grâce à ce genre de bibliothèques, deviennent de plus en plus efficaces et menacent la pertinence de la première fonctionnalité des CAPTCHA.
La chercheuse Ai Enkoji et ses collègues de l’Université de Californie à Irvine ont travaillé avec Yoshimichi Nakatsuka de l’École polytechnique fédérale de Zurich et Andrew Paverd de Microsoft pour comparer les capacités des humains et celles des bots dans la résolution de CAPTCHA.
Ils ont donc analysé les 200 sites les plus importants du web pour savoir combien d’entre eux utilisaient des CAPTCHA et quels types ils utilisaient, puis ont payé à la tâche (quelques dizaines de cents à quelques dollars) 1 400 personnes sur Amazon Mechanical Turk pour résoudre 10 types de CAPTCHA différents.
Comparant dans le tableau ci-dessous les performances des participants à celles obtenues par des bots développés par d’autres chercheurs et spécifiques à chaque CAPTCHA, ils expliquent que « ces résultats suggèrent que les robots peuvent surpasser les humains, à la fois en termes de temps de résolution et de précision, pour tous ces types de CAPTCHA ».
On peut même voir que la version reCAPTCHA de Google qui demande de cliquer sur une case à côté de la phrase « Je ne suis pas un robot » est réussie à 100 % par le bot avec une vitesse beaucoup plus rapide que les humains qui, eux, ne la réussissent pas tout le temps. Cette nouvelle version qui promettait de remplacer efficacement les classiques tâches de catégorisation d’image en analysant le comportement de l’utilisateur sur la page ne remplit pas le contrat.
Internet Archive est maintenant une source des IA
Les GAFAM ont massivement utilisé ces petits outils pour protéger les données des utilisateurs et récupérer des données d’entrainement. Depuis quelque temps, ils voient bien leur fragilité. L’année dernière, Apple mettait en place un système pour les utilisateurs de ses appareils permettant d’être authentifié automatiquement, sans passer par l’épreuve du CAPTCHA. Mais ce genre de systèmes suppose de se reposer sur du matériel identifié et peut poser des questions sur la protection des données privées.
Les CAPTCHA ont par contre réussi à merveille ce qui n’était pas leur tâche originelle : l’entrainement des IA. Elles sont maintenant capables de les résoudre mais aussi, avec l’ajout d’entrainements par des « data workers » et sur les millions de livres d’Internet Archive qu’ils ont aidé à numériser, les IA génératives peuvent créer de nouveaux textes.
Source : nextinpact.com