Ad Nauseam: Google vient de lancer Gemini, sa réponse tant attendue à ChatGPT
-
Google affirme que Gemini, lancé aujourd’hui dans le chatbot Bard, est son modèle d’IA « le plus performant » jamais créé. Il a été formé sur la vidéo, les images et l’audio ainsi que sur le texte.
Les discussions croissantes sur le développement de l’intelligence artificielle à une vitesse potentiellement dangereuse ne ralentissent guère les choses. Un an après qu’OpenAI a lancé ChatGPT et déclenché une nouvelle course au développement de la technologie de l’IA, Google a dévoilé aujourd’hui un projet d’IA destiné à rétablir le géant de la recherche en tant que leader mondial de l’IA.
Gemini, un nouveau type de modèle d’IA capable de fonctionner avec du texte, des images et des vidéos, pourrait être l’algorithme le plus important de l’histoire de Google après le PageRank , qui a propulsé le moteur de recherche dans la psyché du public et créé une entreprise géante.
Une première version de Gemini commence à être déployée aujourd’hui dans le chatbot Bard de Google pour la langue anglaise. Il sera disponible dans plus de 170 pays et territoires. Google indique que Gemini sera mis à la disposition des développeurs via l’API de Google Cloud à partir du 13 décembre. Une version plus compacte du modèle alimentera à partir d’aujourd’hui les réponses aux messages suggérés à partir du clavier des smartphones Pixel 8. Gemini sera introduit dans d’autres produits Google, notamment la recherche générative, les publicités et Chrome, dans les « mois à venir », indique la société. La version Gemini la plus puissante de toutes fera ses débuts en 2024, dans l’attente de « contrôles approfondis de confiance et de sécurité », indique Google.
“C’est un grand moment pour nous”, a déclaré Demis Hassabis, PDG de Google DeepMind, à WIRED avant l’annonce d’aujourd’hui. “Nous sommes vraiment enthousiasmés par ses performances, et nous sommes également impatients de voir ce que les gens vont faire en s’appuyant sur cela.”
Gemini est décrit par Google comme « nativement multimodal », car il a été formé sur des images, de la vidéo et de l’audio plutôt que sur du simple texte, comme le sont les grands modèles de langage au cœur du récent boom de l’IA générative. « C’est notre modèle le plus grand et le plus performant ; c’est aussi notre plus général », a déclaré Eli Collins, vice-président des produits pour Google DeepMind, lors d’un point de presse annonçant Gemini.
Google indique qu’il existe trois versions de Gemini : Ultra, la plus grande et la plus performante ; Nano, qui est nettement plus petit et plus efficace ; et Pro, de taille moyenne et de capacités moyennes.
À partir d’aujourd’hui, Bard de Google , un chatbot similaire à ChatGPT, sera alimenté par Gemini Pro, un changement qui, selon la société, le rendra capable d’un raisonnement et d’une planification plus avancés. Aujourd’hui, une version spécialisée de Gemini Pro est intégrée dans une nouvelle version d’ AlphaCode , un outil génératif de « produit de recherche » pour le codage de Google DeepMind. La version la plus puissante de Gemini, Ultra, sera intégrée à Bard et rendue disponible via une API cloud en 2024.
Sissy Hsiao, vice-présidente de Google et directrice générale de Bard, affirme que les capacités multimodales du modèle ont donné à Bard de nouvelles compétences et l’ont amélioré dans des tâches telles que la synthèse de contenu, le brainstorming, la rédaction et la planification. “Il s’agit des plus grandes améliorations de qualité de Bard depuis notre lancement”, déclare Hsiao.
Nouvelle vision
Google a montré plusieurs démos illustrant la capacité de Gemini à gérer des problèmes impliquant des informations visuelles. On a vu le modèle d’IA répondre à une vidéo dans laquelle quelqu’un dessinait des images, créait des puzzles simples et demandait des idées de jeux impliquant une carte du monde. Deux chercheurs de Google ont également montré comment Gemini peut contribuer à la recherche scientifique en répondant à des questions sur un document de recherche comportant des graphiques et des équations.
Collins affirme que Gemini Pro, le modèle déployé cette semaine, a surpassé le modèle précédent qui alimentait initialement ChatGPT, appelé GPT-3.5, sur six des huit tests de référence couramment utilisés pour tester l’intelligence des logiciels d’IA.
Google affirme que Gemini Ultra, le modèle qui fera ses débuts l’année prochaine, obtient un score de 90 %, supérieur à tout autre modèle, y compris GPT-4, sur le benchmark Massive Multitask Language Understanding (MMLU) , développé par des chercheurs universitaires pour tester des modèles de langage sur des questions sur des sujets. y compris les mathématiques, l’histoire des États-Unis et le droit.
« Gemini est à la pointe de la technologie dans un large éventail de critères, soit 30 sur 32 parmi ceux largement utilisés dans la communauté de recherche en apprentissage automatique », a déclaré Collins. « Et nous voyons donc que cela fixe des frontières à tous les niveaux. »
Le GPT-4 d’OpenAI, qui alimente actuellement la version la plus performante de ChatGPT, a époustouflé les gens lors de son lancement en mars de cette année. Cela a également incité certains chercheurs à revoir leurs attentes quant au moment où l’IA pourrait rivaliser avec l’intelligence humaine. OpenAI a décrit GPT-4 comme multimodal et a mis à niveau ChatGPT en septembre pour traiter les images et l’audio, mais il n’a pas précisé si le modèle de base GPT-4 avait été formé directement sur plus que du texte. ChatGPT peut également générer des images à l’aide d’un autre modèle OpenAI appelé DALL-E 2 .
Google a publié aujourd’hui un rapport technique fournissant quelques détails sur le fonctionnement interne de Gemini. Il ne divulgue pas les spécificités de l’architecture, la taille du modèle d’IA ou la collecte de données utilisée pour son entraînement.
Le processus long et coûteux de formation de grands modèles d’IA sur des puces informatiques puissantes signifie que Gemini coûtera probablement des centaines de millions de dollars, selon les experts en IA. Google devrait avoir développé une nouvelle conception pour le modèle et un nouveau mélange de données de formation. La société a accéléré le lancement de sa technologie d’IA et investi des ressources dans plusieurs nouveaux efforts d’IA dans le but d’étouffer le bruit autour de ChatGPT d’OpenAI et de se rétablir en tant que leader mondial de l’IA.
« Nous sommes engagés dans une sorte de course aux armements du tac au tac », déclare Oren Etzioni, professeur émérite à l’Université de Washington et ancien PDG de l’Allen Institute for AI. “Il n’y a aucune raison de ne pas croire que Gemini fait mieux que GPT-4 sur ces benchmarks, mais la prochaine version, GPT-5, fera mieux que cela.”
Etzioni affirme que la construction de modèles géants comme Gemini coûterait des centaines de millions de dollars, mais que le prix ultime pourrait être des milliards, voire des milliards de revenus pour l’entreprise qui domine dans la fourniture d’IA via le cloud. « Il s’agit d’une guerre sans prisonniers et qu’il faut gagner », dit-il.
Se défendre
Google a inventé certaines techniques clés à l’œuvre dans ChatGPT, mais a mis du temps à publier sa propre technologie de chatbot avant la sortie d’OpenAI il y a environ un an , en partie par crainte qu’elle puisse dire des choses peu recommandables, voire dangereuses . La société affirme avoir effectué ses tests de sécurité les plus complets à ce jour avec Gemini, en raison des capacités plus générales du modèle.
Gemini a été testé à l’aide d’un ensemble de données d’invites de modèles toxiques développés par l’Allen Institute for AI. Collins affirme que l’entreprise collabore avec des chercheurs externes pour renforcer l’équipe rouge du modèle, le poussant à se comporter mal et à découvrir ses points faibles. Sans fournir de détails, Collins a déclaré que le plus grand pouvoir de Gemini exigeait que Google « place la barre plus haut en ce qui concerne le type de contrôle de qualité et de sécurité que nous devons effectuer ».
Beaucoup de choses dépendent du nouvel algorithme de Google et de sa société mère Alphabet, qui ont développé de formidables capacités de recherche en IA au cours de la dernière décennie. Alors que des millions de développeurs s’appuient sur les algorithmes d’OpenAI et que Microsoft utilise cette technologie pour ajouter de nouvelles fonctionnalités à ses systèmes d’exploitation et à ses logiciels de productivité, Google a été contraint de repenser son orientation comme jamais auparavant.
La société de recherche a annoncé pour la première fois qu’elle travaillait sur Gemini lors de sa conférence I/O en mai, alors qu’elle s’efforçait d’ajouter l’IA générative à la recherche pour parer à la popularité de ChatGPT et à la menace que la technologie OpenAI pourrait alimenter le moteur de recherche Bing de Microsoft. . La part estimée de Google sur le marché mondial de la recherche dépasse toujours 90 %, mais le lancement de Gemini semble montrer que la société continue d’intensifier sa réponse à ChatGPT.
le principal groupe de recherche sur l’IA de Google, Google Brain, avec son unité d’IA basée à Londres, DeepMind Google DeepMind, la division qui a dirigé le développement de Gemini, a été créée dans le cadre de cette réponse en fusionnant en avril . Mais le projet Gemini a fait appel à des chercheurs et des ingénieurs de Google au cours des derniers mois. Il a utilisé une version récemment mise à niveau des puces de silicium personnalisées de Google pour former des modèles d’IA, connues sous le nom d’unités de traitement tensoriel (TPU).
Gemini a été nommé pour marquer le jumelage des deux principaux laboratoires d’IA de Google et en référence au projet Gemini de la NASA, qui a ouvert la voie aux alunissages du programme Apollo.
Alexei Efros , professeur à l’UC Berkeley spécialisé dans les capacités visuelles de l’IA, estime que l’approche générale de Google avec Gemini semble prometteuse. “Tout ce qui utilise d’autres modalités est certainement un pas dans la bonne direction”, dit-il.
Efros soupçonne que Gemini, comme GPT-4, montrera toujours des limites marquées dans sa capacité à comprendre les complexités du monde réel. Mais il est peu probable que lui et d’autres chercheurs sachent tout ce qu’ils aimeraient savoir sur la création de Google. «C’est le problème de tous ces modèles propriétaires», explique Efros. “Nous ne savons pas vraiment ce qu’il y a à l’intérieur.”
Source: https://www.wired.com/story/google-gemini-ai-model-chatgpt/
Prochainement Gruigrui, une I.A. de cochon pour les cochons…
-
On devrait peut-être lui demander quel est l’avantage d’avoir un petit zizi, au hasard de l’actualité.
-
Match Bard/Gemini contre ChatGPT lancé par ArsTechnica, la conclusion:
Le gagnant : ChatGPT, mais pas aussi clairement
Lorsque l’on compare l’ancien Google Bard à la nouvelle version basée sur Gemini, il y a eu des progrès évidents dans la qualité de la sortie générée par l’IA de Google. Dans nos invites de mathématiques, de synthèse, de récupération factuelle et d’écriture créative, le système de Google a montré une nette amélioration au cours des huit mois écoulés depuis notre dernier test.
Dans l’ensemble, cependant, ChatGPT est toujours le gagnant de nos tests non scientifiques ; Le système d’OpenAI a devancé Bard sur trois invites, tandis que Bard n’était clairement le vainqueur que sur une seule. Mais les résultats étaient beaucoup plus proches qu’ils ne l’étaient en avril, comme en témoignent les deux invites que nous avons jugées comme des égalités et la seule « décision partagée » (selon que vous comparez Gemini au GPT-3.5 gratuit ou au GPT-4 payant. Turbo).
Bien sûr, il y a une certaine subjectivité dans le jugement d’une compétition comme celle-ci ; vous pouvez juger par vous-même des résultats en parcourant les galeries d’images ci-dessus. Quoi qu’il en soit, nous serons intéressés de voir comment les modèles à venir comme Gemini Ultra ou un nouveau modèle qui pourrait intégrer la mystérieuse technique Q* d’OpenAI seront capables de gérer ce genre de tâches dans un avenir proche.
Source et beaucoup plus: https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/
-
Le terme I.A. est trop largement usurpé, par quoi que ce soit d’actuel, les désillusions vont pleuvoir, même s’il restera des petits créneaux bien utiles à remplir.