Sept modèles d'A.I. générative en open source
-
Après le piratage de chatgpt-3 (https://planete-warez.net/topic/3391/vous-pouvez-maintenant-exécuter-un-modèle-d-ia-de-niveau-gpt-3-sur-votre-ordinateur-portable-votre-téléphone-et-votre-raspberry-pi) une société met gratuitement sept modèles à disposition des chercheurs.
Le fabricant d’ordinateurs Cerebras a publié sept modèles d’IA open source, à titre de ressource pour la communauté des chercheurs. Tout l’inverse du virage pris par l’éditeur de ChatGPT.
Le supercalculateur Andromeda de Cerebras a été utilisé pour entraîner sept programmes linguistiques similaires au ChatGPT d’OpenAI. Image : Cerebras.Le monde de l’intelligence artificielle, et plus particulièrement la branche très populaire de « l’IA générative », qui consiste à créer automatiquement des textes et des images, risque de se refermer sur lui-même en raison de l’effet dissuasif des entreprises qui décident de ne pas publier les détails de leurs travaux de recherche.
Mais cette tendance au secret incite aussi certains acteurs du monde de l’IA à intervenir et à combler le vide en matière de divulgation.
Mardi, le pionnier de l’IA Cerebras Systems, fabricant d’un ordinateur dédié à l’IA, a publié en source ouverte plusieurs versions de programmes d’IA générative à utiliser sans restriction.
Les programmes sont « formés » par Cerebras, c’est-à-dire qu’ils sont amenés à des performances optimales grâce au puissant superordinateur de l’entreprise, ce qui réduit une partie du travail que doivent effectuer les chercheurs extérieurs.
« Les entreprises prennent des décisions différentes de celles qu’elles ont prises il y a un an ou deux, et nous ne sommes pas d’accord avec ces décisions », a déclaré Andrew Feldman, cofondateur et PDG de Cerebras, dans une interview accordée à ZDNET, faisant allusion à la décision d’OpenAI, le créateur de ChatGPT, de ne pas publier de détails techniques lorsqu’il a dévoilé son dernier programme d’IA générative ce mois-ci, GPT-4. Une décision qui a été largement critiquée dans le monde de la recherche en matière d’IA.
Le code est disponible sur le site web de la start-up d’IA Hugging Face et sur GitHub
« Nous pensons qu’une communauté ouverte et dynamique - pas seulement composée de chercheurs, et pas seulement de trois, quatre, cinq ou huit personnes propriétaires d’un LLM, mais une communauté dynamique dans laquelle des start-up, des sociétés de taille moyenne et des entreprises forment de grands modèles de langage - est bonne pour nous et pour les autres », assure-t-il.
Le terme « grand modèle linguistique » fait référence à des programmes d’IA basés sur les principes de l’apprentissage automatique (machine learning), dans lesquels un réseau neuronal capture la distribution statistique des mots dans un échantillon de données. Ce processus permet à un grand modèle linguistique de prédire le mot suivant dans la séquence. Cette capacité est à la base de programmes d’IA générative populaires tels que ChatGPT.
Le même type d’approche d’apprentissage automatique s’applique à l’IA générative dans d’autres domaines, comme Dall·E d’OpenAI, qui génère des images à partir d’une suggestion de phrase.
Cerebras a mis en ligne sept grands modèles de langage dans le même style que le programme GPT d’OpenAI, qui a lancé l’engouement pour l’IA générative en 2018. Le code est disponible sur le site web de la start-up d’IA Hugging Face et sur GitHub.
Les programmes varient en taille, de 111 millions de paramètres, ou poids neuronaux, à 13 milliards. Un plus grand nombre de paramètres rend un programme d’IA plus puissant, de manière générale, de sorte que le code Cerebras offre une gamme de performances.
L’entreprise a publié non seulement les sources des programmes, en format Python et TensorFlow, sous la licence libre Apache 2.0, mais aussi les détails du mode d’entraînement qui a permis d’amener les programmes à un état de fonctionnalité développé.
Cette divulgation permet aux chercheurs d’examiner et de reproduire le travail de Cerebras.
Selon Andrew Feldman, c’est la première fois qu’un programme de type GPT est rendu public « en utilisant des techniques d’entraînement de pointe ».
D’autres travaux publiés sur l’apprentissage de l’IA ont soit dissimulé des données techniques, comme le GPT-4 d’OpenAI, soit les programmes n’ont pas été optimisés lors de leur développement, ce qui signifie que les données fournies au programme n’ont pas été adaptées à la taille du programme, comme l’explique un article du blog technique de Cerebras.
Les modèles linguistiques de cette taille sont notoirement gourmands en ressources informatiques. Les travaux de Cerebras publiés mardi ont été développés sur une grappe de 16 de ses ordinateurs CS-2, des ordinateurs de la taille d’un réfrigérateur de dortoir qui sont spécialement conçus pour les programmes de type IA. Cette grappe, dont l’existence a déjà été révélée par l’entreprise, est connue sous le nom de supercalculateur Andromeda, qui peut réduire considérablement le travail de formation des LLM sur des milliers de puces GPU de Nvidia.
Dans le cadre de la publication de mardi, Cerebras a offert ce qu’elle a déclaré être la première loi d’échelle open source, une règle de référence pour la façon dont la précision de tels programmes augmente avec la taille des programmes basés sur des données open source. L’ensemble de données utilisé est la source ouverte The Pile, une collection de 825 gigaoctets de textes, principalement professionnels et académiques, introduite en 2020 par le laboratoire à but non lucratif Eleuther.
Source et plus: https://www.zdnet.fr/actualites/culture-du-secret-quand-un-pionnier-de-l-ia-prend-openai-a-revers-39956276.htm
Encore quelques mois et tous les articles sur ce sujet seront déjà obsolètes à peine pondus et pas encore lu
-