• 1 Votes
    7 Messages
    212 Vues

    Le premier modèle d’IA de classe GPT-4 que tout le monde peut télécharger est arrivé : Llama 405B

    Dans le monde de l’IA, il y a un buzz dans l’air à propos d’un nouveau modèle de langage d’IA publié mardi par Meta : Llama 3.1 405B . La raison? C’est potentiellement la première fois que n’importe qui peut télécharger classe GPT-4 gratuitement un grand modèle de langage (LLM) de et l’exécuter sur son propre matériel. Vous aurez toujours besoin d’un matériel costaud : Meta indique qu’il peut fonctionner sur un “nœud de serveur unique”, ce qui n’est pas un équipement de qualité PC de bureau. Mais il s’agit d’un tir provocateur de la part des fournisseurs de modèles d’IA « fermés » tels qu’OpenAI et Anthropic.

    Quels que soient les points de référence, les premières rumeurs dans la rue (après la fuite du modèle sur 4chan hier) semblent correspondre à l’affirmation selon laquelle 405B est à peu près équivalent à GPT-4. Il a fallu beaucoup de temps et de formation coûteuse en informatique pour y parvenir – et de l’argent, dont le géant des médias sociaux a beaucoup à dépenser. Meta a entraîné le modèle 405B sur plus de 15 000 milliards de jetons de données d’entraînement extraits du Web (puis analysés, filtrés et annotés par Llama 2), en utilisant plus de 16 000 H100 GPU

    Source et plus: https://arstechnica.com/information-technology/2024/07/the-first-gpt-4-class-ai-model-anyone-can-download-has-arrived-llama-405b/

  • 1 Votes
    1 Messages
    44 Vues

    Alors que la plupart des grands modèles de langage comme GPT-4 d’OpenAI sont pré-remplis avec des quantités massives d’informations, le prompt engineering optimise leurs performances en guidant efficacement les requêtes.

    https://images.itnewsinfo.com/lmi/articles/grande/000000091256.jpg
    Le métier de prompt engineer consiste à maîtriser les interactions pour obtenir les réponses les plus pertinentes. (Crédit : Emiliano Vittoriosi/Unsplash)

    L’une des raisons pour lesquelles les chatbots basés sur l’intelligence artificielle ont pris le monde d’assaut ces derniers mois est qu’ils peuvent générer ou affiner du texte à des fins diverses, qu’il s’agisse de créer une campagne publicitaire ou de rédiger un curriculum vitae. Ces assistants sont alimentés par des algorithmes de type large language model (LLM), qui peuvent imiter l’intelligence humaine et créer du contenu textuel ainsi que du son, de la vidéo, des images et du code informatique. Les LLM sont un type de modèle formé à partir d’un vaste ensemble d’articles, de livres ou de ressources basées sur l’internet et d’autres données afin de produire des réponses semblables à celles de l’homme à des entrées en langage naturel.

    Un nombre croissant d’entreprises IT ont dévoilé des outils d’IA générative basés sur les LLM pour une utilisation professionnelle afin d’automatiser les tâches. Par exemple, Microsoft a déployé pour un nombre limité d’utilisateurs un chatbot basé sur ChatGPT d’OpenAI ; il est intégré à Microsoft 365 et peut automatiser les fonctions des applications CRM et ERP. Autre exemple, Copilot de Microsoft 365 peut être utilisé dans Word pour créer une première version d’un document, ce qui permet d’économiser des heures de rédaction, de recherche et d’édition. Salesforce a également annoncé son intention de lancer un assistant basé sur GPT et destiné à être utilisé avec sa plateforme de gestion de la relation client.

    Exemple d’IA générative créant un code logiciel à partir d’une invite de l’utilisateur. Dans ce cas, EinsteinGPT de Salesforce est activé par l’utilisation du grand modèle linguistique GPT-3.5 d’OpenAI. (Crédit : Salesforce)

    La plupart des LLM, tels que le GPT-4 d’OpenAI, sont préformés en tant que moteurs de prédiction de mots suivants ou de contenu - c’est ainsi que la plupart des entreprises les utilisent, prêts à l’emploi, en quelque sorte. Et bien que les assistants basés sur les LLM aient produit leur part d’erreurs, les LLM pré-entraînés fonctionnent relativement bien pour fournir un contenu généralement précis et convaincant qui, au minimum, peut être utilisé comme point de départ.

    Des modèles propres aux besoins des secteurs d’activité

    De nombreux secteurs, cependant, nécessitent des algorithmes LLM plus personnalisés, qui comprennent leur jargon et produisent un contenu spécifique à leurs utilisateurs. Les modèles destinés au secteur de la santé, par exemple, ont besoin de traiter et d’interpréter des dossiers médicaux partagés, de suggérer des traitements ou de créer un résumé des soins de santé du patient sur la base des notes du médecin ou d’enregistrements vocaux. Un LLM spécialisé dans le secteur des services financiers doit être capable de résumer les appels de fonds, de restranscrire de réunions et effectuer des analyses sur la fraude pour protéger les consommateurs. Dans tous les secteurs, il peut être primordial de garantir un haut degré de précision des réponses.

    La plupart des LLM sont accessibles via une API qui offre à l’utilisateur de créer des paramètres ou des ajustements sur la manière dont le LLM répond. Une question ou une demande envoyée à un chatbot est appelée un prompt, dans la mesure où l’utilisateur requiert une réponse. Ces invites peuvent être des questions en langage naturel, des extraits de code ou des commandes, mais pour que le LMM fasse son travail avec précision, les invites doivent être pertinentes. Cette nécessité a donné naissance à une nouvelle compétence : prompt engineering.

    Prompt engineering ou ingénierie en requête, de quoi parle-t-on ?

    L’ingénierie en requête est le processus d’élaboration et d’optimisation des invites textuelles pour les grands modèles de langage afin d’obtenir les résultats souhaités. « Elle aide les LLM à effectuer des itérations rapides dans le cadre du prototypage et de l’exploration de produits, car elle adapte le LLM pour qu’il corresponde mieux à la définition de la tâche, rapidement et facilement », a déclaré Marshall Choy, vice-président senior des produits chez SambaNova Systems, une start-up de la Silicon Valley qui fabrique des semi-conducteurs pour l’intelligence artificielle (IA). Selon Eno Reyes, ingénieur en apprentissage automatique chez Hugging Face, une plateforme communautaire qui crée et accueille des LLM, le prompt engineering est en passe de devenir une compétence essentielle pour les professionnels de l’informatique et des affaires, ce qui est peut-être aussi important pour les utilisateurs.

    « De nombreuses personnes que je connais dans le domaine des logiciels, de l’informatique et du conseil utilisent le prompt engineering en permanence dans le cadre de leur travail personnel », a déclaré Eno Reyes. « Comme les LLM sont de plus en plus intégrés dans diverses industries, leur potentiel d’amélioration de la productivité est immense ». En s’appuyant sur l’ingénierie en requête, les utilisateurs professionnels peuvent optimiser les LLM pour effectuer leurs tâches spécifiques de manière plus efficace et plus précise, qu’il s’agisse d’assistance à la clientèle, de génération de contenu ou d’analyse de données, a déclaré Eno Reyes.

    Un domaine relativement nouveau à dompter

    Le LLM le plus connu à l’heure actuelle - le GPT-3 d’OpenAI - est à la base de ChatGPT, qui jouit d’une grande popularité. Le LLM GPT-3 fonctionne sur la base d’un modèle de 175 milliards de paramètres qui permet de générer du texte et du code informatique à l’aide de courtes instructions écrites. La dernière version d’OpenAI, GPT-4, est estimée à 280 milliards de paramètres, ce qui la rend beaucoup plus apte à produire des réponses précises. Outre le GPT LLM d’OpenAI, les plateformes d’IA générative les plus populaires comprennent des modèles ouverts tels que BLOOM et XLM-RoBERTa de Hugging Face, NeMO LLM de Nvidia, XLNet, Co:here et GLM-130B.

    L’ingénierie des invites étant une discipline naissante et émergente, les entreprises s’appuient sur des livrets et des guides d’invites pour garantir des réponses optimales de la part de leurs applications d’IA. On assiste même à l’émergence de places de marché pour les requêtes, comme les 100 meilleures requêtes pour ChatGPT. « Les gens vendent même des suggestions de requêtes », a déclaré Arun Chandrasekaran, vice-président analyste chez Gartner Research, ajoutant que la récente vague d’attention portée à l’IA générative a mis en lumière la nécessité d’améliorer la science des requêtes. « Il s’agit d’un domaine relativement nouveau », a-t-il déclaré. « Les applications d’IA générative s’appuient souvent sur des modèles d’IA géants auto-supervisés et, par conséquent, l’obtention de réponses optimales de leur part nécessite davantage de savoir-faire, d’essais et d’efforts supplémentaires. Je suis sûr qu’avec la maturité croissante, nous pourrions voir de meilleurs conseils et de meilleures pratiques de la part des créateurs de modèles d’IA sur les moyens efficaces de tirer le meilleur parti des modèles et des applications d’IA ».

    Une bonne entrée équivaut à une bonne sortie

    Le composant d’apprentissage automatique des LLM apprend automatiquement à partir des données fournies. Outre les données utilisées à l’origine pour créer un LLM, telles que GPT-4, OpenAI a créé ce que l’on appelle le Reinforcement Learning Human Feedback, dans lequel un être humain apprend au modèle à donner des réponses semblables à celles d’un être humain. Par exemple, un utilisateur posera une question au LLM et écrira la réponse idéale. Ensuite, l’utilisateur posera à nouveau la même question au modèle, qui lui proposera de nombreuses réponses différentes. S’il s’agit d’une question factuelle, on espère que la réponse restera la même ; s’il s’agit d’une question ouverte, l’objectif est de produire de multiples réponses créatives, semblables à celles d’un être humain.

    Si un utilisateur demande à ChatGPT de générer un poème sur une personne assise sur une plage à Hawaï, on s’attend à ce qu’il génère un poème différent à chaque fois. « Les formateurs humains classent les réponses de la meilleure à la pire », explique Arun Chandrasekaran. « Le modèle s’en sert pour s’assurer qu’il donne une réponse plus proche de l’humain ou la meilleure, tout en essayant de minimiser les réponses les plus mauvaises. Mais la manière dont vous formulez les questions a une incidence considérable sur les résultats que vous obtenez d’un modèle ». Les entreprises peuvent former un modèle GPT en ingérant des ensembles de données personnalisées internes à l’entreprise. Par exemple, elles peuvent prendre des données d’entreprise, les étiqueter et les annoter pour en améliorer la qualité, puis les intégrer dans le modèle GPT-4. Cela permet d’affiner le modèle afin qu’il puisse répondre à des questions spécifiques à cette organisation.

    Miser sur l’entraînement d’un marché vertical

    La mise au point peut également être spécifique à un secteur d’activité. On assiste déjà à l’émergence d’une industrie artisanale de start-ups qui utilisent le modèle GPT-4 et ingèrent un grand nombre d’informations spécifiques à un secteur vertical, tel que les services financiers. « Elles peuvent ingérer des informations de Lexus-Nexus et de Bloomberg, des informations de la SEC comme les rapports 8K et 10K. Mais le fait est que le modèle apprend beaucoup de langage ou d’informations très spécifiques à ce domaine », explique Arun Chandrasekaran. « Le réglage fin peut donc se faire soit au niveau de l’industrie, soit au niveau de l’organisation ».

    Par exemple, Harvey est une startup qui s’est associée à OpenAI pour créer ce qu’elle appelle un « copilote pour les avocats » ou une version de ChatGPT pour les professionnels du droit. Les avocats peuvent utiliser le chatbot personnalisé pour découvrir les précédents juridiques de certains juges afin de préparer leur prochaine affaire, a expliqué le consultant. « Je vois la valeur de la vente de requêtes non pas tant pour le langage que pour les images », ajoute Arun Chandrasekaran. « Il existe toutes sortes de modèles dans l’espace de l’IA générative, y compris des modèles texte-image ». Ainsi, un utilisateur peut demander à un modèle d’IA générative de produire l’image d’un guitariste jouant de la guitare sur la lune. « Je pense que le domaine texte-image est davantage mis en avant sur les marketplaces prompt », affirme M. Chandrasekaran.

    Hugging Face, un hub LLM à guichet unique

    Bien que Hugging Face crée certains de ses propres LLM, notamment BLOOM, le rôle principal de l’entreprise est d’être un hub pour les modèles d’apprentissage automatique de tiers, comme GitHub le fait pour le code. Hugging Face héberge actuellement plus de 100 000 modèles de machine learning, y compris une variété de LLM provenant de startups et de grandes entreprises technologiques. Au fur et à mesure que des modèles sont proposés en libre accès, ils sont généralement mis à disposition sur le hub, créant ainsi une destination unique pour les LLM émergents en libre accès. Pour affiner un LLM pour une entreprise ou un secteur spécifique à l’aide de Hugging Face, les utilisateurs peuvent exploiter les API Transformers et les bibliothèques Datasets de l’entreprise. Par exemple, dans les services financiers, un utilisateur peut importer un LLM pré-entraîné tel que Flan-UL2, charger un ensemble de données d’articles d’actualité financière et utiliser l’entraîneur Transformers pour affiner le modèle afin de générer des résumés de ces articles.

    Les intégrations avec AWS, DeepSpeed et Accelerate rationnalisent et optimisent l’entraînement. L’ensemble du processus peut être réalisé en moins de 100 lignes de code, selon Eno Reyes. L’API d’inférence de Hugging Face est un autre moyen de se lancer dans le prompt engineering. Il s’agit d’un simple point de terminaison de requête HTTP qui prend en charge plus de 80 000 modèles de transformeurs, selon M. Reyes. « Cette API permet aux utilisateurs d’envoyer des invites textuelles et de recevoir des réponses de modèles open-source sur notre plateforme, y compris les LLM », explique Eno Reyes. « Si vous voulez aller encore plus loin, vous pouvez envoyer du texte sans code en utilisant le widget d’inférence sur les modèles LLM dans le hub Hugging Face ».

    Apprentissage zero-shot et few-shot

    Le prompt engineering du LLM se présente généralement sous deux formes : l’apprentissage ou la formation zero-shot ou few-shot. L’apprentissage appelé zero-shot implique l’envoi d’une instruction simple en tant qu’invite qui produit une réponse attendue de la part du LLM. Il est conçu pour apprendre à un LLM à effectuer des tâches sans utiliser de données étiquetées pour ces tâches spécifiques. Il s’agit d’un apprentissage par renforcement.

    Inversement, l’apprentissage en quelques étapes utilise une petite quantité d’informations ou de données d’échantillon pour former le LLM aux réponses souhaitées. L’apprentissage few-shot se compose de trois éléments principaux. Tout d’abord, la description de la tâche : une brève description de ce que le modèle doit faire, par exemple « Traduire l’anglais en français ». Le deuxième élément concerne les exemples. Quelques exemples montrant au modèle ce qu’il doit faire, par exemple, « sea otter => loutre de mer ». Enfin, le troisième et dernier élément est la partie prompt : il peut s’agir du début d’un exemple, que le modèle doit compléter en générant le texte manquant, par exemple « cheese => ».

    Le prompt engineering, porte ouverte à utilisations malveillantes

    En réalité, peu d’entreprises disposent aujourd’hui de modèles d’entraînement personnalisés pour répondre à leurs besoins, car la plupart des modèles en sont encore à un stade précoce de développement, selon Arun Chandrasekaran de Gartner. Et bien que ces deux formes d’apprentissage puissent être utiles, le prompt engineering en tant que compétence est important, tant pour les utilisateurs IT que pour les métiers.

    La plupart des API proposent aux utilisateurs d’appliquer leurs propres techniques de prompt engineering. Chaque fois qu’un utilisateur envoie un texte à un LLM, il est possible d’affiner les requêtes pour obtenir des résultats spécifiques, indique Eno Reyes. « Cependant, cette flexibilité ouvre également la porte à des utilisations malveillantes, telles que l’injection d’invites », ajoute-t-il. « Des cas comme celui de Bing à Sydney (Microsoft) ont montré comment les gens pouvaient exploiter l’ingénierie des requêtes à des fins involontaires. En tant que domaine d’étude en plein essor, l’injection rapide dans les cas d’utilisation malveillante et le ‘red-teaming’ pour les tests d’intrusion seront cruciaux pour l’avenir, en garantissant l’utilisation responsable et sécurisée des LLM dans diverses applications ».

    Source : lemondeinformatique.fr