Le nouvel agent IA de ChatGPT peut parcourir le Web et créer des diaporamas PowerPoint
-
La nouvelle fonctionnalité d’ “agent” d’IA combine la navigation Web avec des capacités d’exécution de tâches.
On vous l’avait dit, l’agent pourra faire des recherches et des réservations, attention à votre compte en banque.
Jeudi, OpenAI a lancé ChatGPT Agent, une nouvelle fonctionnalité qui permet à l’assistant IA de l’entreprise d’effectuer des tâches en plusieurs étapes en contrôlant son propre navigateur web. Cette mise à jour fusionne les fonctionnalités de l’ancien outil Operator d’OpenAI et de la fonctionnalité Deep Research, permettant à ChatGPT de naviguer sur des sites web, d’exécuter du code et de créer des documents, tout en gardant le contrôle du processus.
Cette fonctionnalité marque la dernière entrée d’OpenAI dans ce que le secteur technologique appelle « l’IA agentique » : des systèmes capables d’effectuer des actions autonomes en plusieurs étapes pour le compte de l’utilisateur. OpenAI indique que les utilisateurs peuvent demander à Agent de gérer des demandes telles que l’assemblage et l’achat d’une tenue pour une occasion particulière, la création de diapositives PowerPoint, la planification des repas ou la mise à jour de feuilles de calcul financières avec de nouvelles données.
Le système utilise une combinaison de navigateurs Web, d’accès au terminal et de connexions API pour effectuer ces tâches, y compris les « connecteurs ChatGPT » qui s’intègrent à des applications comme Gmail et GitHub.
Lors de l’utilisation d’Agent, les utilisateurs visualisent une fenêtre dans l’interface ChatGPT qui présente toutes les actions de l’IA se déroulant dans son propre environnement de test privé. Cet environnement dispose de son propre système d’exploitation virtuel et de son propre navigateur web avec accès à Internet réel ; il ne contrôle pas votre appareil personnel. « ChatGPT effectue ces tâches à l’aide de son propre ordinateur virtuel », écrit OpenAI, « passant avec fluidité du raisonnement à l’action pour gérer des flux de travail complexes du début à la fin, le tout selon vos instructions. »
Une image fixe d’une vidéo de démonstration promotionnelle de l’agent OpenAI ChatGPT montrant l’agent IA à la recherche de vols. Crédit: OpenAIComme Operator, la fonctionnalité Agent requiert l’autorisation de l’utilisateur avant d’effectuer certaines actions ayant des conséquences concrètes, comme effectuer des achats. Les utilisateurs peuvent interrompre leurs tâches à tout moment, prendre le contrôle du navigateur ou arrêter complètement les opérations. Le système inclut également un « Mode Surveillance » pour les tâches nécessitant une surveillance active, comme l’envoi d’e-mails.
de la société Étant donné que l’Agent surpasse Operator en termes de capacités, OpenAI affirme que le site de prévisualisation de Operator restera fonctionnel pendant quelques semaines encore avant d’être fermé.
Allégations de performance
Les affirmations d’OpenAI sont une chose, mais la capacité du nouvel agent d’IA à accomplir des tâches en plusieurs étapes variera considérablement selon la situation. En effet, le modèle d’IA n’est pas une forme complète d’intelligence de résolution de problèmes, mais plutôt un imitateur complexe. Il offre une certaine flexibilité pour reconstituer un scénario, mais présente également de nombreux angles morts. OpenAI a entraîné l’agent (et ses composants ) à l’aide d’exemples d’utilisation d’ordinateurs et d’outils ; tout ce qui ne figure pas dans les exemples issus des données d’entraînement restera probablement difficile à réaliser.
Par exemple, la carte système de l’agent ChatGPT montre que l’agent peut échouer lors de tâches complexes nécessitant d’enchaîner de nombreuses étapes de manière innovante. Lors d’une évaluation « Cyber Range », l’agent a été chargé de mener une opération à grande échelle dans un réseau simulé conçu pour imiter un petit commerçant en ligne. Laissé seul pour résoudre le problème, l’agent n’a pas pu mener à bien la tâche. S’il a pu effectuer les premières étapes de recherche, comme l’identification des serveurs sur le réseau, il a eu du mal à aller plus loin et n’a pas pu enchaîner les exploits nécessaires pour atteindre l’objectif final. Même avec des indices, l’agent a échoué (ce qui, dans ce cas, pourrait être une bonne chose, puisqu’il ne pouvait pas effectuer de piratage automatisé), ce qui démontre une nette limitation de sa capacité à résoudre des problèmes complexes qui sortent du cadre de ses exemples d’entraînement habituels.
OpenAI écrit : « Les auteurs de SpreadsheetBench ont utilisé un environnement Windows avec Microsoft Excel pour évaluer les feuilles de calcul. Nous avons utilisé un environnement OSX et LibreOffice, ce qui peut entraîner de légères différences de notation. Par exemple, les auteurs ont trouvé une restriction globale stricte de 15,02 % pour GPT‑4o, et nous avons obtenu 13,38 %. Nous avons utilisé l’ensemble du benchmark de 912 questions. » Crédit: OpenAiMalgré cela, OpenAI rapporte que l’agent ChatGPT atteint des performances de pointe sur ses propres mesures de référence, ce qui doit toujours être pris avec précaution jusqu’à ce que des tiers impartiaux le vérifient. Lors du dernier examen de l’humanité , qui teste les performances de l’IA sur des questions de niveau expert, le modèle a obtenu une précision de 41,6 % (à comparer aux 24,9 % d’OpenAI o3 avec des outils). Sur FrontierMath , l’un des tests mathématiques les plus difficiles jamais conçus, il atteint une précision de 27,4 % avec l’accès aux outils (o3 avec Python a obtenu un score de 19,3 %).
L’entreprise affirme également que le système surpasse les humains dans certaines tâches de science des données, comme l’analyse et la modélisation de données (comme la création de prévisions ou de modèles prédictifs). Sur DSBench , un benchmark visant à mesurer cette capacité, l’agent ChatGPT a obtenu un score de 89,9 % pour les tâches d’analyse de données, contre 64,1 % pour les humains, et de 85,5 % pour les tâches de modélisation de données, contre 65 % pour les humains. L’agent a également obtenu un score de 68,9 % sur BrowseComp d’OpenAI pour la recherche d’informations Web difficiles à localiser et de 45,5 % sur SpreadsheetBench pour l’édition de feuilles de calcul, ce qui est supérieur aux autres modèles d’IA d’OpenAI.
Il convient de noter que même si OpenAI affirme qu’Agent peut créer des diapositives PowerPoint pour les utilisateurs, la société a reconnu que la génération de diaporamas est encore en version bêta et que les résultats peuvent sembler « rudimentaires en termes de formatage et de finition ».
Sécurité et confidentialité
OpenAI admet que ce lancement introduit de nouvelles considérations de sécurité. Étant donné que ChatGPT Agent peut agir directement sur les sites web et accéder aux données utilisateur via des services connectés, il est vulnérable aux attaques par injection instantanée, c’est-à-dire aux tentatives de pirates informatiques de manipuler le comportement de l’IA au moyen d’instructions qui perturbent le modèle d’IA (dans ce cas, probablement via des instructions cachées sur des pages web). Par exemple, un site peut comporter un champ de formulaire invisible demandant au modèle d’IA de saisir vos informations de carte bancaire à votre insu.
OpenAI affirme avoir mis en place des protections contre les injections rapides en entraînant le modèle à identifier et à « résister » à ces attaques, tout en exigeant la confirmation de l’utilisateur pour les actions conséquentes ou suspectes. Le modèle est également entraîné à refuser activement les tâches à haut risque, comme les virements bancaires. Lors d’une diffusion en direct jeudi, un ingénieur d’OpenAI a décrit Agent comme un système de modèles d’IA collaborant, dont certains surveillent en permanence le comportement des autres modèles pour détecter toute activité suspecte. Ces superviseurs peuvent hypothétiquement interrompre un processus s’ils détectent un scénario potentiellement dangereux.
Concernant la confidentialité, comme l’agent s’exécute dans une machine virtuelle sur les serveurs d’OpenAI, les utilisateurs n’auront pas à s’inquiéter de l’accès du bot aux données privées locales stockées sur leur appareil. Cependant, les données saisies dans l’agent ChatGPT pourront toujours être partagées sur le web pendant son fonctionnement. De plus, OpenAI indique que les paramètres de confidentialité du nouvel agent permettent aux utilisateurs de supprimer toutes les données de navigation et de se déconnecter des sessions actives en un seul clic. Lorsque les utilisateurs prennent le contrôle du navigateur en « mode de prise de contrôle », OpenAI assure ne pas collecter ni stocker les données saisies pendant ces sessions, y compris les mots de passe.
Agent est lancé aujourd’hui pour les utilisateurs de ChatGPT Pro, qui reçoivent 400 messages par mois. Les abonnés Plus et Team y auront accès dans les prochains jours avec 40 messages mensuels. Les utilisateurs Enterprise et Education y auront accès dans les prochaines semaines. Cette fonctionnalité n’est pas encore disponible dans l’Espace économique européen ni en Suisse.
Nous n’avons pas encore utilisé ChatGPT Agent nous-mêmes, mais nous pourrions faire part de nos expériences à une date ultérieure.
Rien n’est dit sur la prise en compte des conditions en petits caractères ou des renvois pièges en bas de page, genre tarif valable uniquement le lundi matin, et autres pièges à cons, genre offre valable jusqu’au tant.
Bonne chance aux testeurs alpha payants (gogos béats).
Je rigole d’avance comme un bossu en pensant aux types qui vont rédiger les pages web pour tromper l’I.A. comme on trompe déjà les idiots.
-
J’ai essayé d’utiliser ChatGPT Agent pour planifier une soirée en amoureux, et cela a fonctionné étonnamment bien
OpenAI s’est beaucoup vanté cette semaine de la capacité de sa nouvelle fonctionnalité ChatGPT Agent à non seulement fournir des informations, mais également à effectuer des tâches dans le monde réel.
J’ai donc décidé de le tester en l’utilisant pour une tâche pas trop difficile, mais qui dépasse largement mes attentes avec ChatGPT standard : organiser une soirée cinéma pour ma femme et moi. Je voulais lui donner quelques détails généraux et voir ce qu’il en résumait.
J’ai ouvert ChatGPT, sélectionné Agent parmi les outils disponibles et rédigé ma demande initiale : « Aidez-moi à organiser une soirée cinéma Superman avec ma femme samedi soir. Réservez-nous des places pour [cinéma préféré] et notez sur nos agendas l’heure à laquelle nous devons déposer notre enfant chez ses parents et l’heure de début du film. Rédigez également une invitation sympa et amusante que je pourrai envoyer à ma femme. »
Après une courte pause, l’agent s’est mis au travail et m’a demandé pour quelle séance je voulais des billets et où nous souhaitions être assis. Je lui ai indiqué où et quand je préférais. ChatGPT a alors confirmé que je souhaitais obtenir les billets, et j’ai confirmé. L’IA a ouvert le site web du théâtre suite à ma demande. Elle s’est rendue à la séance souhaitée, a sélectionné deux bonnes places, puis s’est arrêtée à la section paiement, où je devais renseigner mes informations de compte.
ChatGPT m’a demandé de confirmer une fois de plus que je voulais les billets. J’ai de nouveau accepté, et les billets ont été achetés. J’aurais pu attendre la confirmation, et tout se serait bien passé.
Une fois les billets réservés, ChatGPT a ensuite fait appel à ses capacités d’organisation. Lié à mon calendrier, il a créé un événement pour moi, puis m’a demandé à qui envoyer les invitations. J’ai ajouté les adresses e-mail de ma femme et de ses parents, et c’est parti. Il m’a ensuite demandé s’il fallait créer un autre événement spécifiquement pour le babysitting, ce que j’ai accepté. Un autre événement et les e-mails correspondants ont alors été créés.
Les invitations sur calendrier numérique sont un peu froides, c’est pourquoi j’ai demandé un message plus sophistiqué à envoyer à ma femme. Grâce à l’accès Slides de l’agent, ChatGPT a créé une invitation élégante et l’a intégrée dans un diaporama détaillé, suggérant de partager une cape remplie de pop-corn, entre autres commentaires adorables.
Et voilà le plus surprenant : tout cela a pris moins de dix minutes. Choix du film, billets prêts, coordination de la garde d’enfants, invitation envoyée. J’ai passé plus de temps à essayer de réserver une coupe de cheveux. Bien sûr, tout ne s’est pas déroulé sans heurts.
L’invitation initiale comportait la phrase « une soirée enchanteresse entre romance et cinéma », ce qui était un peu exagéré. Et le nom du cinéma a dû être corrigé par rapport à ce que j’avais cru comprendre au départ. Dans l’ensemble, cependant, ce fut une expérience très agréable.
Je n’irais pas jusqu’à dire que ChatGPT Agent change radicalement ma façon d’utiliser ChatGPT, mais je comprends qu’il puisse simplifier certaines choses, notamment la planification à long terme. Remplacez « soirée ciné » par « organiser une fête d’anniversaire » ou « acheter des fournitures scolaires », et je me sens soulagé d’un poids mental considérable.
Je dirais que je suis prudemment optimiste quant à l’utilisation régulière de ChatGPT Agent. Non pas parce qu’il est parfait ou révolutionnaire, mais parce qu’il pourrait simplifier les petites choses et aplanir certains obstacles de la vie, me permettant ainsi de passer une soirée inoubliable.
Et pour une partouze ?