Le nouvel agent d'IA de Microsoft peut contrôler les logiciels et les robots
-
Mercredi, Microsoft Research a introduit Magma, un modèle de fondation AI intégré qui combine le traitement visuel et du langage pour contrôler les interfaces logicielles et les systèmes robotiques. Si les résultats passent en dehors des tests internes de Microsoft, il pourrait marquer un pas en avant significatif pour une IA multimodale polyvalente qui peut fonctionner de manière interactive dans les espaces réels et numériques.
Microsoft affirme que magma est le premier modèle d’IA qui non seulement traite les données multimodales (comme le texte, les images et la vidéo), mais peut également agir nativement sur elle - que ce soit la navigation d’une interface utilisateur ou la manipulation d’objets physiques. Le projet est une collaboration entre des chercheurs de Microsoft, Kaist, de l’Université du Maryland, de l’Université du Wisconsin-Madison et de l’Université de Washington.
Nous avons vu d’autres projets de robotique basés sur un modèle de langage comme Google Palm-E et RT-2 de Microsoft ou Chatgpt pour la robotique qui utilisent les LLM pour une interface. Cependant, contrairement à de nombreux systèmes d’IA multimodaux antérieurs qui nécessitent des modèles distincts pour la perception et le contrôle, Magma intègre ces capacités dans un seul modèle de fondation.
Source et beaucoup plus: https://arstechnica.com/ai/2025/02/microsofts-new-ai-agent-can-control-software-and-robots/
Robocop arrive à vitesse “V”…